
杰克是一个视力障碍者。
商店中形状类似的瓶瓶罐罐总是给他带来挑战。想买沙拉酱却错拿了芥末,回到家边吃边辣得流泪的「案件」屡次发生。

全世界估计有22亿人有视力障碍。为帮助他们,同时也践行Google的使命之一——让世界上所有人都能普遍获得信息。
在2018年I/O开发者大会上,谷歌发布了Lookout。

Lookout logo
这是一款通过人工智能帮助盲人和视障用户的Android应用程序。在一定范围内,Lookout能检测到人、物体以及扫描文本,然后对用户进行听觉提示。
就好像有一个陪护在你旁边,提示你看不见的一切~
用后置摄像头拍拍拍,用户就可以利用Lookout来检测和识别场景中的物品。

以前,Lookout还只局限于使用英语的美国。
今天,为了对运行Android 6.0或以上版本的2GB内存设备的支持,谷歌新增加了对四种语言的支持——法语、意大利语、德语和西班牙语,并将兼容性从Pixel智能手机扩展到其他设备。
除了添加了语言,Lookout还更新并完善了灵活好用的五种模式:
•「新」食物标签模式(测试版)。
•「新」快速阅读模式。
•「快速阅读」模式。
•「货币」模式可以更快、更可靠地识别美钞。
• 探索模式帮助识别周围信息。
使用更新的食品标签模式,除了扫描条形码外,还可以通过标签快速识别包装食品。然后屏幕阅读器可以大声地说「喊」出来。

Lookout改进的食品标签模式
「快速阅读」是另一种增强的模式。正如其名,它会大声朗读信封和优惠券上的文字,甚至还能反方向朗读。这个模式可以捕捉更长的文本,让用户按照自己的节奏阅读,使用屏幕阅读应用程序,或者手动复制粘贴文本到第三方应用程序中。

短文档更是不在话下。

更新后的Lookout不仅可以区分不同面额的钞票,还玩了一些「高难度」。例如能「看清」折叠着的10美钞,也可以从钞票的正面和背面识别。但货币标识目前仅支持美元。

重新设计的Lookout将之前全屏的模式选择器移到了应用程序的最下面一行。用户可以在不同模式之间滑动,也可以选择使用屏幕阅读器来识别他们所选的选项,比如谷歌自己的TalkBack。

Google 的产品经理Scott Adams表示,根据盲人与弱视用户的反馈,Lookout现在为相机视图提供了更多空间,使用户可以更轻松地构架他们想要更多信息的对象。
「将这个应用程序扩展到更多的人和设备,是我们致力于普及世界各地的信息,并与残疾人一起为残疾人提供有用的产品的承诺的一部分。」
SIFT和OCR + N-Gram是传统计算机视觉识别产品的常用方法。
两种方法都有着较为精确的读取信息能力,但缺点是每个索引图像都需要大量存储(通常为每个图像10KB到40KB),而且前者对于光线等因素也要求较高。
相比而言,Lookout基于神经网络的方法生成一个全局描述符(即每个图像只需64字节),大大减少了存储需求。
Lookout系统由帧缓存,帧选择器,检测器,对象跟踪器,嵌入器,索引搜索器,OCR,计分器和结果表示器组成。

内部架构
得到Result后,通过谷歌的文本自动转语音,用户就能「听到」手中拿的商品啦!
谷歌表示,未来的重点是改进语言支持,但尚未透露任何细节。
感觉不只是视残者,总是忘带眼镜的大近视眼们也可以考虑考虑……




