脸书释出资料集Ego4D让AI透过人眼认识世界最新消息

脸书释出资料集Ego4D让AI透过人眼认识世界

消息来源:baojiabao.com 作者: 发布时间：2024-11-27

报价宝综合消息脸书释出资料集Ego4D让AI透过人眼认识世界

脸书与9个国家13所大学合作，创建了第一人称视角资料集Ego4D，这个资料集由超过700位计划参与者，佩戴摄影机以第一人称视角收集了超过2,200小时的影片，脸书提到，单就影片长度来看，这个资料集比起过去任何资料集都大上20倍以上。这些影片可被用于模型训练，让人工智能能以第一人称学习事物。

研究人员以坐云霄飞车的例子，来说明第一人称视角影片的重要性，他们提到，在云霄飞车上和在地面上看着云霄飞车，视野是完全不同的，虽然人类很容易将第一人称和第三人称视角关联起来，但是目前的人工智能并没有这样的理解能力，虽然也能够将电脑视觉系统，绑在云霄飞车上拍摄画面，也能够收集非常多类似的影片，但是电脑并不知道自己在看什么，或是应该看什么。

脸书首席科学家Kristen Grauman提到，下一代人工智能系统需要从完全不同类型的资料中学习，影片应该是从产生行动的中心拍摄，而非来自旁观者角度。他还提到，人工智能要以人类的方式与世界互动，并且以第一人称感知范式发展。简单来说，就是教人工智能透过人眼理解人类日常生活活动。

Ego专案提供研究人员必要的工具和基准，以促进研究，并推动以第一人称为中心的前端感知研究。研究人员提到，基准和资料集是人工智能创新的关键，当前电脑视觉系统辨识物体的能力，建立在诸如MNIST、COCO和ImageNet等资料集之上。

而第一人称感知是全新的领域，过去的工具无法提供必要的创新，Ego4D则具有前所未有的规模和多样性。研究团队向合作大学的研究参与者，发送头戴摄影机和其他可穿戴感测器，以便捕捉他们第一人称、无脚本的日常生活，像是购物、烹饪或是玩游戏交谈等。

影片资料集捕捉了佩戴相机者所关注的内容，以及与其他人互动的第一人称视角，研究人员提到，Ego4D资料集的重点摆在相机佩戴者所进行的数百项活动，以及与数百种不同物体互动。参与收集Ego4D资料集的参与者，来自英国、意大利、印度、日本、沙特阿拉伯、新加坡、哥伦比亚、卢旺达和美国，职业和性别各不相同，与现有的资料集相比，Ego4D提供了场景、人物和活动的多样性，能够训练针对不同背景、种族和年龄的模型。

有了这些资料，就能依据文化和地理背景差异，提供第一人称的视觉体验，像是未来人们佩戴AR眼镜，并且接受人工智能助理指导烹煮咖喱，系统便能辨识出因地区而异的咖喱烹煮方法。

Ego4D拥有5个基准，分别是情景记忆、预测、手和物体操作、视听分类、社交互动，这些基准将能够促进人工智能助理的研究。Ego4D资料集将会在11月的时候发布，授予签署资料使用协议的研究单位使用。

2021-10-15 15:46:00