Nvidia展示kiosk点餐机上实现多AI技术应用与更聪明虚拟助理化身，还布局3大Edge AI技术抢攻机器人AI应用最新消息

图片来源:

Nvidia

试想一下，你到了一家美式速食店，只要对着kiosk点餐机台说出你要的餐点，不用输入就能自动完成点餐到结账，因为kiosk上有个AI虚拟助理，不只听得懂你要点的起司汉堡是什么口味，还会根据不同客人来推荐套餐或适合加哪些配料，甚至顾客要查询食物的蛋白质含量，或想要素食汉堡也难不倒它。它还能化身Q版机器人，现身在屏幕中，与人面对面交流及互动，并依据交谈内容做出生动的表情和手势。

这是在今年秋季GTC大会上，Nvidia展示kiosk机上实现多AI技术应用与更聪明虚拟化身，Nvidia研发团队运用电脑视觉、深度互动式对话AI技术Riva以及使用Omniverse平台来模拟虚拟化身的脸部表情、手势、身体动作，来提供一种即时对话式机器人应用。不只让AI有了自己的化身，走进kiosk点餐机，这样的即时对话式机器人，也能在汽车影音娱乐系统做应用，或是当起跨国线上视讯会议上的主持人，来同步提供多国语言的即时内容翻译。这样AI场景应用，不再是出现在少数企业的应用，甚至开始进到一般的生活场景。

除了AI有自己的虚拟化身，Nviidia首席执行官黄仁勋自己也有，早在今年4月GTC的Keynote活动上，黄仁勋曾有几秒钟替换为逼真的虚拟分身上阵，所以外界十分好奇，这次会不会一样有虚拟分身出场，在会后一场线上亚太上记者会上，黄仁勋也给出了答案，他说，这场Keynote中出现的场景，都是虚拟的造型，包括他自己。

不光是有真人尺寸的虚拟黄仁勋发表新产品，在整场主题演讲中，他还介绍了另一个迷你版分身，还是一个Q版卡通造型的虚拟化身，能够代替自己与真人交谈、回答各种艰深提问，像是表达对于气候变迁看法等等，而且举手投足都将本尊模仿唯妙唯肖，甚至连讲话语气也十分相似。这项技术同样运用到了多种AI语音、自然语言理解技术、GPU运算和Omniverse平台加以实现。

在整个发布会中，黄仁勋主要围绕7大主轴，涵盖量子运算、AI推论平台、speech AI、LLM（ large language model）、Omniverse平台、机器人以及高速网络平台Quantum-2。

首先，在加速运算上，他提到，加速运算一直都是在处理full stack运算的问题，需要考虑到不同应用、不同产业，而且跨云端到边缘，不论是GPU、CPU和DPU ，也不分DGX、HGX、EGX、RTX、AGX等系统，都需要有各种优化的SDK，来提供这些行业或产业做加速运算使用。他说，目前有3百万名开发者使用Nvidia提供的150个加速运算函式库用于绘图、AI和机器人。

在这次GTC上，Nviidia更释出65个新的或更新的函式库，提供各产业使用，像是物流仓储搬运机器人用的ReOpt，可优化机器人移动与行驶路线，也有为机器学习惯用的程式语言Python ，推出了cuNumeric来加速其扩充函式库NumPy，支援更大规模的矩阵运算。还有针对量子运算提供cuQuantum函式库，供研究人员进行科学研究。

在AI开发框架方面，该公司释出两个重要的框架，一个是Modulus机器学习开发框架它是一个专用于physics-ML models的开发框架，可以让建立和训练的ML模型，拥有物理知识和学习能力，以解决物理层面问题。甚至他表示，因为了拥有物理知识的机器学习，加上GPU加速运算、资料中心等级运算规模，将可以在药物研发和气候变迁的变革上，带来百万倍（Million-X speed-ups）发展的加速。

另一个开发框架则是和超大AI模型训练有关，Nvidia发布一个NeMo Megatron深度学习框架，专用于LLM模型（ large language model）训练使用，因为这样的框架，还推出一个预设LLM模型NeMo Megatron 530B，让企业或开发者能使用它训练出自己的LLM语言模型做应用。该语言模型预设使用多达5,300亿个参数，比Openai GPt-3语言模型还要多3倍，并且支援多GPU、多节点分散式架构。

除了提供训练用的LLM模型，Nvidia还推出一台 Triton推理服务器，可供LLM模型推论使用。由于LLM模型是AI理解语言、语意、上下脉络很重要的关键，黄仁勋也看好LLM模型的发展，将成为未来主流HPC应用。

在企业AI软件方面，Nvidia原本就有建立相当完整的生态系，涵盖云端、本地、边缘和嵌入式装置，这次更进一步与资料中心代管服务商Equnix合作，来提供一种企业预安装和整合服务，称为LaunchPad，除了可以将这些AI软件部署在企业资料中心内，也能选择在部署于Equnix机房中，不过目前亚洲只有东京和新加坡能用。

Nvidia在同一天推出互动式对话AI引擎Riva，强调只要30分钟的语音资料训练，就能产生语音合成模型建立新的AI语音系统，来做为语音助理使用，最多可以支援7种语言，包括中文、英文、日文、西班牙文、德文、法文、俄文。除于语音，Riva也能提供翻译、即时字幕显示功能，也能进行问题回答、归纳和理解说话者意图等。

由于企业与工业边缘是下一波AI主战场，黄仁勋特别以机器人应用为例，强调该公司推出多个边缘端专用的机器人应用框架，包括电脑视觉平台Metropolis、新一代医疗仪器设备平台Clara Holoscan、Isaac机器人软件开发套件以及Drive车用平台等。

值得一提的是，黄仁勋在会中也揭露出该公司在Edge AI的布局，主要有3大关键技术，分别是统一运算框架（ Unified Computing Framework,UCF）、虚拟化身的Maxine机器人平台、虚拟世界模拟引擎Omniverse。

UCF是一种协助建立机器人AI应用的通用运算框架，企业能够使用它在机器人上来实现各种AI应用所需的运算，而且利用UCF开发出来的AI应用，可以部署到各种机器人应用环境，不论是资料中心，或是仓库、工厂边缘使用的嵌入式机器人系统或装置上。目前Nvidia在一些机器人新产品上也开始使用UCF框架做为运算框架，例如clara Holoscan就是一个使用UCF打造的一个软件定义式医疗仪器设备平台，除了可以部署在资料中心，也能够在边缘端来使用。另一个虚拟化身的Maxine机器人平台，同样采用UCF框架搭建，而且可以结合Omniverse搭建的虚拟世界来做应用。黄仁勋表示，未来会有更多技术整合到Maxine中做运用，包括电脑视觉、神经网络绘图、动画模拟、AI语言以及对话管理、NLU和推荐等。

Nvdia展示了Maxine在智慧零售场景应用，像是建立一个会说话的kiosk机台语音助理，不只提供顾客进行语音点餐，还会介绍餐点，回答客人提问，甚至根据每位客人特征来推荐适合的餐点。该应用结合电脑视觉、互动式对话AI技术Riva以及使用omniverse来模拟的虚拟化身的脸部表情、手势、身体动作、来提供一种即时对话式机器人应用。

在Omniverse平台方面，除了在数位双生应用有更多关于企业采用之外，该公司推出Omniverse Avatar虚拟化身模拟平台，运用电脑视觉、语音AI、自然语言理解（基于Megatron框架），在模拟虚拟世界中打造出更聪明的AI虚拟化身，来带来各种对话式的应用或服务。例如Q版的虚拟黄仁勋就是其中一个应用例子。新推出的NVIDIA Omniverse Replicator ，则是能产生模拟真实世界所需的物理数据，例如道路表面等，以加速如自驾车 AI 模型训练。

最后，他提到，未来将打造一个可以模拟和预测气候变迁的数位分身，并将搭载于新一代超级电脑Earth Two （E-2），同时会使用到modulus机器学习模型来产生出符合真实地球物理样貌，用来加速建立数位分身的地球。