雷锋网消息,微软发布了一款基于计算机视觉技术的手机 APP “Seeing AI”(“视觉 AI”) ,能为有视力缺陷的残障人士描述周围的世界。
安装该 APP 之后,用户若把手机摄像头对准某人,它就会说出这个人是谁,以及他的情绪(表情)。把手机摄像头对准某个物体,Seeing AI 会说出这是个什么东西。这通过在手机本地运行的 AI 算法实现。
Seeing AI 人脸识别示例:“戴着眼镜的 28 岁女士,看起来很开心。”
去年三月的 Build 大会上,微软展示了这款 APP 的原型。今天,它终于发布。美国 iOS 用户已可免费下载。至于 Seeing AI 何时会登陆安卓、进入中国市场,雷锋网(公众号:雷锋网)尚没收到任何消息。
核心功能
作为一款面向残障人士的生活辅助软件,微软把 Seeing AI 设计为能满足一系列不同的生活场景需求。比如上面提到的,进行面部识别,猜测对方的年龄和情绪。它还能通过扫描二维码识别家居物品,读取、识别文件,识别美元钞票。识别钞票的功能是一个实用性极强的功能。所有美元纸币都是相同大小、同样颜色。对部分残障人士,区分不同面值的钞票可能会十分困难,Seeing AI 这样的 APP 则能解决该问题。
Seeing AI 文件识别示例
Seeing AI 的物体识别能力基于神经网络来实现,其基本原理与自动驾驶汽车、无人机并无不同。它最基本的功能在本地实现。这有两个好处:
网络不稳定的情况下仍可使用;
反馈速度更快。
但是,Seeing AI 的试验性功能,比如描述整个周围环境,以及识别手写文字,则需要连接到云端。
人性化设计
Seeing AI 的技术带头人 Saqib Shaikh,向媒体透露了一个很有意思的细节:
Seeing AI 能够指示用户如何上下左右移动手机摄像头,以看清楚目标物体。 这是一个相当人性化的功能,尤其考虑到视力有缺陷的残障用户,让它们拿手机摄像头“对准”某个物体本身就存在相当的难度。很显然,对于 Seeing AI 来讲,虽然光学物体识别技术是根本,但若没有这类人性化功能设计,它究竟有多少实用价值就变得十分模糊。
Saqib Shaikh
从 Saqib Shaikh 他自己的使用经历来讲(他是一名盲人),他最经常把 Seeing AI 用来识别符号和菜单。至于 Seeing AI 和其他同类 APP 之间的差异,他表示,最大的区别神经网络的运行速度:
“我们做到了在本地运行人脸识别,几微秒的时间内你就能听到结果。速度就是一切,我们试图压榨出在设备本地所能达到的极限。”