如何靠电脑视觉实现无人商店？关键是以合成影像扩大训练资料量，提升AI训练速度与辨识精准度最新消息

无人商店技术供应商AiFi与Amazon Go同样主打拿了就走的无人商店AI技术。从2016年成立以来，全球已有25家商店部署AiFi的技术，不乏来自法国、英国、加拿大、波兰等国的著名零售商，比如家乐福。

图片来源:

图/台湾AI年会

Amazon Go在2018年正式营运后，用AI技术创造了新型态的无人商店，吸引了许多零售科技业者竞相投入无人商店技术的开发行列，连台湾都有业者投入，不过，要真正做到如同Amazon Go那样大坪数、多种商品都能拿了就走的无人商店模式仍然非常困难，因为不只是AI技术难题，还有一个更大的挑战必须克服才行。在今年台湾人工智能年会上，一家同样建立整套无人商店技术的新创AiFi共同创办人郑影，接露了他们如何打造出足以挑战Amazon Go模式背后的关键。

全球已有25家商店部署AiFi的技术，不乏来自法国、英国、加拿大、波兰等国的著名零售商，比如家乐福。AiFi的无人商店技术也可以大规模复制，预计一年内拓展到全球350家，甚至会落地亚洲。

郑影透露，打造出无人商店的一大痛点，是资料多样性不足的问题，得靠合成的影像资料（Synthetic Data），模拟出超商各种场景的影像来训练AI系统，才能让AI更精准的追踪顾客轨迹、行为与拿取的商品品项。

无人商店AI系统训练的一大关键：合成影像资料

AiFi不是第一家靠合成影像来训练AI的无人商店业者，Amazon Go早在两年前就曾揭露，核心技术Just Walk Out就是靠影像模拟器生成多元的购物场景与顾客消费情境，来扩大训练资料量。

无人商店AI识别技术，一直以来都是电脑视觉领域的一大难题。这项技术有多难？协助开发Amazon Go核心技术Just Walk Out的前南加州电脑视觉教授Gerard Medioni曾揭露，无人商店系统包含了6个关键问题，分别是感测器融合（Sensor Fusion）、摄影机位置校正、人像侦测、物件辨识、姿势辨识与行为分析（Activity Analysis），整合这6大技术，才能单靠电脑视觉，来识别每一个人在商店中的轨迹、行为与拿取商品，最终达成“拿了就走”的购物体验。

郑影进一步指出，无人商店的电脑视觉难题可分为三类。第一，是大规模场景下的顾客追踪问题，比如在500平方米的超市中，同时追踪500个人的购物旅程。第二，是顾客行为识别问题，包括顾客在哪里、做了那些动作、何时与货架接触、拿了一项商品还是放回一项商品，尤其在真实情境下，不同顾客可能同时伸手拿取同一样商品、交叉拿取商品，都会增加影像识别的复杂性。

第三，则是大量商品辨识问题，比如在一家50平方米的店面中，可能摆放了1,500种商品，又或是一家1,500平方米的商店中，可能涵盖了3万种不同品项的商品，AI系统必须能同时识别数千种商品品项，才能正确计算顾客的消费金额，“商品数量越多，AI辨识的难度就越大。”郑影说。

“这三个难题都有一个痛点，数据从何而来？”郑影指出，AI领域常听到形容训练资料的一句话：“垃圾进、垃圾出。（Garbage in, garbage out.）”显示训练资料之于AI的重要性。无人商店AI系统的开发挑战，在于训练资料难以涵盖到各种商店场景、不同形式的货架以及各种商品品项的资料，就连同一家店内，都可能因光照条件不同而产生多种影像资料。同时，影像的标注太耗时耗力，一家店内可能同时有上百位顾客、上万种商品，要全数标注完成是一大挑战。“如何实现数据的多样性和完整性，成为非常大的难题。”

为此，AiFi与Amazon不约而同的都采用影像合成技术，生成大量训练资料，再用来训练AI系统。郑影表示，这类作法的著名案例，就是Tesla与Waymo，透过模拟各种天气下的路况，来训练自驾车的能力。实际应用在无人商店的AI训练中，AiFi打造了一个AI模拟循环作法（AI Simulation Loop），先模拟生成训练数据，确保AI大脑拥有足够的数据来进行训练，下一步，将训练完成的模型用于现实场景测试，再将实测结果回馈到模拟系统当中，针对辨识较差的场景生成更多影像资料，反复优化AI模型。

如何靠模拟合成资料优化AI训练流程？

郑影以实际影片展示，这套影像模拟系统，已经能够数字化一家200平方米的商店，模拟各种商店背景、货架、商品摆放方式，也能模拟各个摄影机看到的视野，来优化摄影机的摆放位置与角度。在模拟顾客时，则可以控制人的密度、人数、消费行为，就连数字化的商品，都能模拟在不同光照之下，商品在摄影机画面中的呈现。

郑影也举出两个例子，来说明如何靠影像模拟生成，来优化AI训练流程。其一，是在密集性的商品识别情境下，一张影像可能就包含了上百种陈列商品，若要以人工标注每张影像，假设以一张影像15分钟来计，每人每天工作8小时，也只能标注32张训练资料；不过，若采用合成资料的方式，在同样的时间内，电脑可以生成500～1,000倍的训练资料量，而且影像生成时，就已经预标注了每一种商品，能够省去大量人工标注时间，还能根据商店实际要摆放的商品来生成影像，再进行模型训练。

透过模拟影像的作法，也能细致的模拟每一种商品在货架上的排列方式，比如是整齐的陈列在货架中、还是稀疏的摆放；若是稀疏的摆放，还需要考量到每个商品的朝向可能参差不齐，带来更多商品陈列的可能性。“当每张图拥有100种不同商品的时候，商品朝向的组合会呈指数型成长，”郑影指出，用模拟影像的方式，可以列举商品不同的摆放与朝向，生成足量的训练资料。

模拟稀疏的摆放方式，各种商品拥有不同朝向。

模拟商品整齐的排列方式。

另一个例子，是在追踪顾客动向时，随着店内人数增加、场地更大，装设的摄影机数量更多，若要同时追踪每个顾客的行为，所需的运算时间也会成指数呈长，“许多零售场景下，会希望顾客追踪即时且准确，这就加大AI识别的难度。”

郑影指出，为了在一家700平方米的店内，即时追踪100个人同时间的购物行为，“我们需要把产品解决方案，做得比高阶技术（state of art）快一千倍，这时，模拟数据扮演非常重要的角色。”AiFi要透过合成大量数据，将模型训练得更快、更小、更精准。但她并未解释如何透过更完整的合成资料，来加快AI运算速度。

透过这套资料模拟系统，AiFi也能控制店内的人数、密度，并列举每个人的服饰、动作、帽子、发型、肤色，让算法更健全（Robust）。以此来训练AI之后，AiFi也实际进行100位顾客在店内购物的压力测试，在高密度的人群追踪中，除了可以识别每个人的行动轨迹，也能标注出每个人的骨关节，包括手腕、手轴、肩膀等位置，来了解每位顾客的行为。

模拟商店内人群密度、人数，以及每个人的服饰、动作、帽子、发型、肤色等。

靠AI标注出每个人的骨关节，包括手腕、手轴、肩膀等位置，来判断每位顾客的行为。

无人商店AI技术可驱动更多智慧零售应用

“这套无人商店AI技术，驱动了更多智能零售场景的应用。”郑影解释，这套技术除了可以实现“拿了就走”的购物体验，另一项特点，是在即时统计货架上每种商品的剩余数量后，能自动通知员工应补货的商品品项与数量，并透过更精准的进货，来解决商品库存过多造成的损失问题。将顾客于实体店面的购物旅程数字化后，也能进行后续的智慧零售运用，比如依据顾客行为优化商品摆放位置，或进行个人化商品推荐。