4 0 0 - 1 0 0 - 5 6 7 8

智能设备

Google AI「看」了几万部电影,为的是有一天能看

  Google AI「看」了几万部电影,为的是有一天能看穿人类的行为

   上周,AlphaGo 「终极版」AlphaGo Zero再次让世人惊讶,自学3天完胜李世乭、40天登顶「世界围棋冠军」。

  

   但这并不意味着人工智慧有能力取代人类,套用机器人界的一句话:

  

  5 岁以上的人类能够做的事情,机器人都能轻松胜任,但学会走路,办不到。

  

   简单来说,要AI 辨识人类的行为动作至今仍是一个难题,而4 个月大的婴儿就能辨识各种脸部表情了。

  

   Google 正在让自家的AI 克服这个难题,最近Google 发布了新的人类动作数据库集体AVA(atomic visual actions),可以精准标注影片中的多人动作,而其学习的对象则是来自YouTube 的大量影片。

  

   据 Google Research Blog 介绍,AVA的分析样本主要是YouTube中的影视类影片。Google先从这些影片中收集大量不同的长序列内容,并从每个影片中截取15分钟,并将这些15分钟片段再平均分成300个不重叠的3秒片段,同时在采样时让动作顺序和时间顺序保持一致。

  ▲ 3 秒片段边界框标注范例,范例中只显示一个边界框。

  

   接下来则需要手动标记每个3 秒片段中间帧边界框中的每个人,从80 个原子动作(atomic action)中选择合适的标签(包括行走、握手、拥抱等)给这些人物行为进行标注。

  ▲ sit

  

  ▲ watch

  

  ▲ kiss

  

   Google 把这些行为分成3 组,分别是姿势/移动动作、人物交互和人与人互动。目前AVA 已经分析了570,000 个影片片段,标记了96,000 个人类动作,并生成了21,000 个动作标签。

   在AVA 的数据分析中,会对每个影片片段的每个人物动作进行辨识,也发现人类的的行为往往不是单一的。

  

   统计至少带有两个动作标签的人物数据,就可以分析人类不同动作一起出现的频率,在AVA 的文档中称之为共现模式(co-occurrence pattern) 。

  

   从AVA 的数据可以看到,打架和武术、亲吻和拥抱、唱歌和弹奏乐器,这些都是比较常见的共现模式。

  

   同时为了尽可能覆盖更大范围的人类行为,AVA 所分析的电影或剧集,采用了不同国家和类型的影片,这也可能是为了避免出现性别歧视和种族歧视。早在2015 年,Google Photos 就曾因为误把两名黑人标注为「大猩猩」(Gorilla)而备受诟病。

   Google 还将对外开放这一资料库,最终目的是提高AI 系统的「社交视觉智慧」,进而了解人类正在做什么,甚至预测人类下一步要做什么。

  

   当然目前距离这个目标还很遥远,正如Google软体工程师Chunhui Gu和David Ross在介绍AVA的文章中写道:

  

  教会机器去辨识影片中的人类行为,是发展电脑视觉的一大基本难题,但这对于个人影片搜寻和发现、体育分析和手势介面等应用至关重要。

  尽管过去几年在图像分类和查找物体方面取得让人激动的突破,但辨识人类行为仍然是一个巨大的挑战。

  

   虽然柯洁称,「对于AlphaGo 的自我进步来说人类太多余了」,可是人脑有800 亿个神经元细胞、100 兆个连接,AI 神经网路要想达到大脑的认知水平也绝非易事。

  

   目前电脑视觉技术的发展也主要集中在静态图像领域。

   Google 从2006 年开始用深度学习演算法代替人工辨识,Google Photos 现在已经可以辨识出猫狗的照片并自动分类。

  ▲从a到b分别是Google Creatism系统从街景图到最终作品的全过程。

  

   Google的人工智慧实验室DeepMind正在利用人工智慧将Google街景图制作成专业的摄影作品,其水准甚至已经可以媲美专业摄影师。

  

   而iPhone X上的Face ID技术,也许会让脸部辨识技术在智慧手机上变得更为普及。就连全球最大的色情网站Pornhub ,也宣布将引入人工智慧技术对网站上成人影片的内容和表演者进行自主检测,让AI演算法为成人影片的内容和演员进行标签分类。

   相比而言,电脑对于人类动态行为的辨识则要困难得多。最近《The New Yorker》新一期封面在美国的社交媒体红了起来,封面文章《黑暗工厂:欢迎来到未来机器人帝国》(Dark Factory)描述了越来越多人类的工作逐渐被机器人取代。

  

   虽然机器人能做的事越来越多,但在该文中也可以看到机器人对很多看起来简单的工作依然无能为力,比如打开一个盒子和解开一个结,美国布朗大学人机实验室的Winnie 机器人前不久才刚刚学会了摘花瓣。

  

   而Google 这次的人类动作数据库集体AVA,目前最直接的作用可能就是帮助旗下的YouTube 处理和审核每天上传的大量影片,同时也能更好地服务广告主。

  

   过去Google就曾因为无法对影片内容精准辨识而吃过大亏,《wired》杂志的一篇文章曾披露, Google在影片中植入广告的自动系统,将一些广告放置在了宣传仇恨和恐怖主义的影片旁边,已经让沃尔玛和百事可乐等大客户放弃了Google的广告平台。

  

   对于90% 收入来自广告业务的Google 来说,这个问题当然不能怠慢,之前Google 主要透过聘请一大群临时工去监测和标记各种影片内容,并以此做为AI 的训练数据。

  

   这样的做法除了需要高昂的人力成本,也有观点认为这些临时工不稳定的工作状态和与Google 的缺乏沟通,将会影响到AI 辨识的精确度。

  

   由此可见,如果Google 这个AI 的学习能力够强,那不久的将来,这些临时工也将统统失业,而将来这项技术的应用当然也不局限于此。

  

   随着AI 对人类认知越来越深,对于人工智慧伦理的讨论也许会变得更加激烈。

  

  

   除特别注明外,本站所有文章均为 人工智能学习网 原创,转载请注明出处来自Google AI「看」了几万部电影,为的是有一天能看穿人类的行为

今日热点