APP下载

如何靠电脑视觉实现无人商店?关键是以合成影像扩大训练资料量,提升AI训练速度与辨识精准度

消息来源:baojiabao.com 作者: 发布时间:2024-11-26

报价宝综合消息如何靠电脑视觉实现无人商店?关键是以合成影像扩大训练资料量,提升AI训练速度与辨识精准度

无人商店技术供应商AiFi与Amazon Go同样主打拿了就走的无人商店AI技术。从2016年成立以来,全球已有25家商店部署AiFi的技术,不乏来自法国、英国、加拿大、波兰等国的著名零售商,比如家乐福。

图片来源: 

图/台湾AI年会

Amazon Go在2018年正式营运后,用AI技术创造了新型态的无人商店,吸引了许多零售科技业者竞相投入无人商店技术的开发行列,连台湾都有业者投入,不过,要真正做到如同Amazon Go那样大坪数、多种商品都能拿了就走的无人商店模式仍然非常困难,因为不只是AI技术难题,还有一个更大的挑战必须克服才行。在今年台湾人工智能年会上,一家同样建立整套无人商店技术的新创AiFi共同创办人郑影,接露了他们如何打造出足以挑战Amazon Go模式背后的关键。

全球已有25家商店部署AiFi的技术,不乏来自法国、英国、加拿大、波兰等国的著名零售商,比如家乐福。AiFi的无人商店技术也可以大规模复制,预计一年内拓展到全球350家,甚至会落地亚洲。

郑影透露,打造出无人商店的一大痛点,是资料多样性不足的问题,得靠合成的影像资料(Synthetic Data),模拟出超商各种场景的影像来训练AI系统,才能让AI更精准的追踪顾客轨迹、行为与拿取的商品品项。

无人商店AI系统训练的一大关键:合成影像资料

AiFi不是第一家靠合成影像来训练AI的无人商店业者,Amazon Go早在两年前就曾揭露,核心技术Just Walk Out就是靠影像模拟器生成多元的购物场景与顾客消费情境,来扩大训练资料量。

无人商店AI识别技术,一直以来都是电脑视觉领域的一大难题。这项技术有多难?协助开发Amazon Go核心技术Just Walk Out的前南加州电脑视觉教授Gerard Medioni曾揭露,无人商店系统包含了6个关键问题,分别是感测器融合(Sensor Fusion)、摄影机位置校正、人像侦测、物件辨识、姿势辨识与行为分析(Activity Analysis),整合这6大技术,才能单靠电脑视觉,来识别每一个人在商店中的轨迹、行为与拿取商品,最终达成“拿了就走”的购物体验。

郑影进一步指出,无人商店的电脑视觉难题可分为三类。第一,是大规模场景下的顾客追踪问题,比如在500平方米的超市中,同时追踪500个人的购物旅程。第二,是顾客行为识别问题,包括顾客在哪里、做了那些动作、何时与货架接触、拿了一项商品还是放回一项商品,尤其在真实情境下,不同顾客可能同时伸手拿取同一样商品、交叉拿取商品,都会增加影像识别的复杂性。

第三,则是大量商品辨识问题,比如在一家50平方米的店面中,可能摆放了1,500种商品,又或是一家1,500平方米的商店中,可能涵盖了3万种不同品项的商品,AI系统必须能同时识别数千种商品品项,才能正确计算顾客的消费金额,“商品数量越多,AI辨识的难度就越大。”郑影说。

“这三个难题都有一个痛点,数据从何而来?”郑影指出,AI领域常听到形容训练资料的一句话:“垃圾进、垃圾出。(Garbage in, garbage out.)”显示训练资料之于AI的重要性。无人商店AI系统的开发挑战,在于训练资料难以涵盖到各种商店场景、不同形式的货架以及各种商品品项的资料,就连同一家店内,都可能因光照条件不同而产生多种影像资料。同时,影像的标注太耗时耗力,一家店内可能同时有上百位顾客、上万种商品,要全数标注完成是一大挑战。“如何实现数据的多样性和完整性,成为非常大的难题。”

为此,AiFi与Amazon不约而同的都采用影像合成技术,生成大量训练资料,再用来训练AI系统。郑影表示,这类作法的著名案例,就是Tesla与Waymo,透过模拟各种天气下的路况,来训练自驾车的能力。实际应用在无人商店的AI训练中,AiFi打造了一个AI模拟循环作法(AI Simulation Loop),先模拟生成训练数据,确保AI大脑拥有足够的数据来进行训练,下一步,将训练完成的模型用于现实场景测试,再将实测结果回馈到模拟系统当中,针对辨识较差的场景生成更多影像资料,反复优化AI模型。

如何靠模拟合成资料优化AI训练流程?

郑影以实际影片展示,这套影像模拟系统,已经能够数字化一家200平方米的商店,模拟各种商店背景、货架、商品摆放方式,也能模拟各个摄影机看到的视野,来优化摄影机的摆放位置与角度。在模拟顾客时,则可以控制人的密度、人数、消费行为,就连数字化的商品,都能模拟在不同光照之下,商品在摄影机画面中的呈现。

郑影也举出两个例子,来说明如何靠影像模拟生成,来优化AI训练流程。其一,是在密集性的商品识别情境下,一张影像可能就包含了上百种陈列商品,若要以人工标注每张影像,假设以一张影像15分钟来计,每人每天工作8小时,也只能标注32张训练资料;不过,若采用合成资料的方式,在同样的时间内,电脑可以生成500~1,000倍的训练资料量,而且影像生成时,就已经预标注了每一种商品,能够省去大量人工标注时间,还能根据商店实际要摆放的商品来生成影像,再进行模型训练。

透过模拟影像的作法,也能细致的模拟每一种商品在货架上的排列方式,比如是整齐的陈列在货架中、还是稀疏的摆放;若是稀疏的摆放,还需要考量到每个商品的朝向可能参差不齐,带来更多商品陈列的可能性。“当每张图拥有100种不同商品的时候,商品朝向的组合会呈指数型成长,”郑影指出,用模拟影像的方式,可以列举商品不同的摆放与朝向,生成足量的训练资料。

模拟稀疏的摆放方式,各种商品拥有不同朝向。

模拟商品整齐的排列方式。

另一个例子,是在追踪顾客动向时,随着店内人数增加、场地更大,装设的摄影机数量更多,若要同时追踪每个顾客的行为,所需的运算时间也会成指数呈长,“许多零售场景下,会希望顾客追踪即时且准确,这就加大AI识别的难度。”

郑影指出,为了在一家700平方米的店内,即时追踪100个人同时间的购物行为,“我们需要把产品解决方案,做得比高阶技术(state of art)快一千倍,这时,模拟数据扮演非常重要的角色。”AiFi要透过合成大量数据,将模型训练得更快、更小、更精准。但她并未解释如何透过更完整的合成资料,来加快AI运算速度。

透过这套资料模拟系统,AiFi也能控制店内的人数、密度,并列举每个人的服饰、动作、帽子、发型、肤色,让算法更健全(Robust)。以此来训练AI之后,AiFi也实际进行100位顾客在店内购物的压力测试,在高密度的人群追踪中,除了可以识别每个人的行动轨迹,也能标注出每个人的骨关节,包括手腕、手轴、肩膀等位置,来了解每位顾客的行为。

模拟商店内人群密度、人数,以及每个人的服饰、动作、帽子、发型、肤色等。

靠AI标注出每个人的骨关节,包括手腕、手轴、肩膀等位置,来判断每位顾客的行为。

无人商店AI技术可驱动更多智慧零售应用

“这套无人商店AI技术,驱动了更多智能零售场景的应用。”郑影解释,这套技术除了可以实现“拿了就走”的购物体验,另一项特点,是在即时统计货架上每种商品的剩余数量后,能自动通知员工应补货的商品品项与数量,并透过更精准的进货,来解决商品库存过多造成的损失问题。将顾客于实体店面的购物旅程数字化后,也能进行后续的智慧零售运用,比如依据顾客行为优化商品摆放位置,或进行个人化商品推荐。

2021-10-19 11:48:00

相关文章