APP下载

脸书释出资料集Ego4D让AI透过人眼认识世界

消息来源:baojiabao.com 作者: 发布时间:2024-10-01

报价宝综合消息脸书释出资料集Ego4D让AI透过人眼认识世界

脸书与9个国家13所大学合作,创建了第一人称视角资料集Ego4D,这个资料集由超过700位计划参与者,佩戴摄影机以第一人称视角收集了超过2,200小时的影片,脸书提到,单就影片长度来看,这个资料集比起过去任何资料集都大上20倍以上。这些影片可被用于模型训练,让人工智能能以第一人称学习事物。

研究人员以坐云霄飞车的例子,来说明第一人称视角影片的重要性,他们提到,在云霄飞车上和在地面上看着云霄飞车,视野是完全不同的,虽然人类很容易将第一人称和第三人称视角关联起来,但是目前的人工智能并没有这样的理解能力,虽然也能够将电脑视觉系统,绑在云霄飞车上拍摄画面,也能够收集非常多类似的影片,但是电脑并不知道自己在看什么,或是应该看什么。

脸书首席科学家Kristen Grauman提到,下一代人工智能系统需要从完全不同类型的资料中学习,影片应该是从产生行动的中心拍摄,而非来自旁观者角度。他还提到,人工智能要以人类的方式与世界互动,并且以第一人称感知范式发展。简单来说,就是教人工智能透过人眼理解人类日常生活活动。

Ego专案提供研究人员必要的工具和基准,以促进研究,并推动以第一人称为中心的前端感知研究。研究人员提到,基准和资料集是人工智能创新的关键,当前电脑视觉系统辨识物体的能力,建立在诸如MNIST、COCO和ImageNet等资料集之上。

而第一人称感知是全新的领域,过去的工具无法提供必要的创新,Ego4D则具有前所未有的规模和多样性。研究团队向合作大学的研究参与者,发送头戴摄影机和其他可穿戴感测器,以便捕捉他们第一人称、无脚本的日常生活,像是购物、烹饪或是玩游戏交谈等。

影片资料集捕捉了佩戴相机者所关注的内容,以及与其他人互动的第一人称视角,研究人员提到,Ego4D资料集的重点摆在相机佩戴者所进行的数百项活动,以及与数百种不同物体互动。参与收集Ego4D资料集的参与者,来自英国、意大利、印度、日本、沙特阿拉伯、新加坡、哥伦比亚、卢旺达和美国,职业和性别各不相同,与现有的资料集相比,Ego4D提供了场景、人物和活动的多样性,能够训练针对不同背景、种族和年龄的模型。

有了这些资料,就能依据文化和地理背景差异,提供第一人称的视觉体验,像是未来人们佩戴AR眼镜,并且接受人工智能助理指导烹煮咖喱,系统便能辨识出因地区而异的咖喱烹煮方法。

Ego4D拥有5个基准,分别是情景记忆、预测、手和物体操作、视听分类、社交互动,这些基准将能够促进人工智能助理的研究。Ego4D资料集将会在11月的时候发布,授予签署资料使用协议的研究单位使用。

2021-10-15 15:46:00

相关文章