在现实中数数,是要靠视频识别实现的。
在这之前,要让机器识别数字、序列相关的概念,光靠视频和语音是不够的,要在计算机里建立概念模型,再把视频的图像语义或自然语言的信息对应到计算机模型里,机器才能由此做出分析和理解。
机器和人交流的一个重点是在概念模型上和人达到相当程度的一致,尤其是语言文字对应的信息输出要和人达成一致。
比如“排序”这个词对应的信息,假如a = [9, 3, 5, 2],b = [],我们可以用“从a拿出一个最小的,添加到b,直到拿完为止”这句话来描述,这句描述可以和人们的预期达成一致,也容易和机器程序对应。机器要理解这句描述,需要构建一个“序列类”模型(和数组类似),要包含“放入、拿出、拿完”等方法。还要能处理“最小”这个概念。
我们可以用人的语言来定义“最小”,比如“a中有一个数字,其它数都比它大”,要理解这句话,又需要知道“有一个、其它、比它大”是什么意思。
判断“a比b大”是一个最基本的操作,可以直接对应到“a>b”的机器指令上,这样的操作可以叫“元操作”。但对于人的理解来说“a比b大”,还包含“b比a小、a不等于b”等信息,通常的编程语言中,机器不会思考这样的额外信息,但智能程序则会在一定情况下启动这种机制进行推理,自动完成用户命令之外的合理操作。