APP下载

Nvidia展示kiosk点餐机上实现多AI技术应用与更聪明虚拟助理化身,还布局3大Edge AI技术抢攻机器人AI应用

消息来源:baojiabao.com 作者: 发布时间:2024-11-24

报价宝综合消息Nvidia展示kiosk点餐机上实现多AI技术应用与更聪明虚拟助理化身,还布局3大Edge AI技术抢攻机器人AI应用
图片来源: 

Nvidia

试想一下,你到了一家美式速食店,只要对着kiosk点餐机台说出你要的餐点,不用输入就能自动完成点餐到结账,因为kiosk上有个AI虚拟助理,不只听得懂你要点的起司汉堡是什么口味,还会根据不同客人来推荐套餐或适合加哪些配料,甚至顾客要查询食物的蛋白质含量,或想要素食汉堡也难不倒它。它还能化身Q版机器人,现身在屏幕中,与人面对面交流及互动,并依据交谈内容做出生动的表情和手势。

这是在今年秋季GTC大会上,Nvidia展示kiosk机上实现多AI技术应用与更聪明虚拟化身,Nvidia研发团队运用电脑视觉、深度互动式对话AI技术Riva以及使用Omniverse平台来模拟虚拟化身的脸部表情、手势、身体动作,来提供一种即时对话式机器人应用。不只让AI有了自己的化身,走进kiosk点餐机,这样的即时对话式机器人,也能在汽车影音娱乐系统做应用,或是当起跨国线上视讯会议上的主持人,来同步提供多国语言的即时内容翻译。这样AI场景应用,不再是出现在少数企业的应用,甚至开始进到一般的生活场景。

除了AI有自己的虚拟化身,Nviidia首席执行官黄仁勋自己也有,早在今年4月GTC的Keynote活动上,黄仁勋曾有几秒钟替换为逼真的虚拟分身上阵,所以外界十分好奇,这次会不会一样有虚拟分身出场,在会后一场线上亚太上记者会上,黄仁勋也给出了答案,他说,这场Keynote中出现的场景,都是虚拟的造型,包括他自己。

不光是有真人尺寸的虚拟黄仁勋发表新产品,在整场主题演讲中,他还介绍了另一个迷你版分身,还是一个Q版卡通造型的虚拟化身,能够代替自己与真人交谈、回答各种艰深提问,像是表达对于气候变迁看法等等,而且举手投足都将本尊模仿唯妙唯肖,甚至连讲话语气也十分相似。这项技术同样运用到了多种AI语音、自然语言理解技术、GPU运算和Omniverse平台加以实现。

在整个发布会中,黄仁勋主要围绕7大主轴,涵盖量子运算 、AI推论平台、speech AI、LLM( large language model)、Omniverse平台、机器人以及高速网络平台Quantum-2。

首先,在加速运算上,他提到,加速运算一直都是在处理full stack运算的问题,需要考虑到不同应用、不同产业,而且跨云端到边缘,不论是GPU、CPU和DPU ,也不分DGX、HGX、EGX、RTX、AGX等系统,都需要有各种优化的SDK,来提供这些行业或产业做加速运算使用。他说,目前有3百万名开发者使用Nvidia提供的150个加速运算函式库用于绘图、AI和机器人。

在这次GTC上,Nviidia更释出65个新的或更新的函式库, 提供各产业使用,像是物流仓储搬运机器人用的ReOpt,可优化机器人移动与行驶路线,也有为机器学习惯用的程式语言Python ,推出了cuNumeric来加速其扩充函式库NumPy,支援更大规模的矩阵运算。还有针对量子运算提供cuQuantum函式库,供研究人员进行科学研究。

在AI开发框架方面,该公司释出两个重要的框架,一个是Modulus机器学习开发框架  它是一个专用于physics-ML models的开发框架,可以让建立和训练的ML模型,拥有物理知识和学习能力,以解决物理层面问题。甚至他表示,因为了拥有物理知识的机器学习,加上GPU加速运算、资料中心等级运算规模,将可以在药物研发和气候变迁的变革上,带来百万倍(Million-X speed-ups)发展的加速。

另一个开发框架则是和超大AI模型训练有关,Nvidia发布一个NeMo Megatron深度学习框架,专用于LLM模型( large language model)训练使用,因为这样的框架,还推出一个预设LLM模型NeMo Megatron 530B,让企业或开发者能使用它训练出自己的LLM语言模型做应用。该语言模型预设使用多达5,300亿个参数,比Openai GPt-3语言模型还要多3倍,并且支援多GPU、多节点分散式架构。

除了提供训练用的LLM模型,Nvidia还推出一台 Triton推理服务器,可供LLM模型推论使用。由于LLM模型是AI理解语言、语意、上下脉络很重要的关键,黄仁勋也看好LLM模型的发展,将成为未来主流HPC应用。

在企业AI软件方面,Nvidia原本就有建立相当完整的生态系,涵盖云端、本地、边缘和嵌入式装置,这次更进一步与资料中心代管服务商Equnix合作,来提供一种企业预安装和整合服务,称为LaunchPad,除了可以将这些AI软件部署在企业资料中心内,也能选择在部署于Equnix机房中,不过目前亚洲只有东京和新加坡能用。

Nvidia在同一天推出互动式对话AI引擎Riva,强调只要30分钟的语音资料训练,就能产生语音合成模型建立新的AI语音系统,来做为语音助理使用, 最多可以支援7种语言,包括中文、英文、日文、西班牙文、德文、法文、俄文。除于语音,Riva也能提供翻译、即时字幕显示功能,也能进行问题回答、归纳和理解说话者意图等。

由于企业与工业边缘是下一波AI主战场,黄仁勋特别以机器人应用为例,强调该公司推出多个边缘端专用的机器人应用框架,包括电脑视觉平台Metropolis、新一代医疗仪器设备平台Clara Holoscan、Isaac机器人软件开发套件以及Drive车用平台等。

值得一提的是,黄仁勋在会中也揭露出该公司在Edge AI的布局,主要有3大关键技术,分别是统一运算框架( Unified Computing Framework,UCF)、虚拟化身的Maxine机器人平台、虚拟世界模拟引擎Omniverse。

UCF是一种协助建立机器人AI应用的通用运算框架,企业能够使用它在机器人上来实现各种AI应用所需的运算,而且利用UCF开发出来的AI应用,可以部署到各种机器人应用环境,不论是资料中心,或是仓库、工厂边缘使用的嵌入式机器人系统或装置上。目前Nvidia在一些机器人新产品上也开始使用UCF框架做为运算框架,例如clara Holoscan就是一个使用UCF打造的一个软件定义式医疗仪器设备平台,除了可以部署在资料中心,也能够在边缘端来使用。另一个虚拟化身的Maxine机器人平台,同样采用UCF框架搭建,而且可以结合Omniverse搭建的虚拟世界来做应用。黄仁勋表示,未来会有更多技术整合到Maxine中做运用,包括电脑视觉、神经网络绘图、动画模拟、AI语言以及对话管理、NLU和推荐等。

Nvdia展示了Maxine在智慧零售场景应用,像是建立一个会说话的kiosk机台语音助理,不只提供顾客进行语音点餐,还会介绍餐点,回答客人提问,甚至根据每位客人特征来推荐适合的餐点。该应用结合电脑视觉、互动式对话AI技术Riva以及使用omniverse来模拟的虚拟化身的脸部表情、手势、身体动作、来提供一种即时对话式机器人应用。

在Omniverse平台方面,除了在数位双生应用有更多关于企业采用之外,该公司推出Omniverse Avatar虚拟化身模拟平台,运用电脑视觉、语音AI、自然语言理解(基于Megatron框架),在模拟虚拟世界中打造出更聪明的AI虚拟化身,来带来各种对话式的应用或服务。例如Q版的虚拟黄仁勋就是其中一个应用例子。新推出的NVIDIA Omniverse Replicator ,则是能产生模拟真实世界所需的物理数据,例如道路表面等,以加速如自驾车 AI 模型训练。

最后,他提到,未来将打造一个可以模拟和预测气候变迁的数位分身,并将搭载于新一代超级电脑Earth Two (E-2),同时会使用到modulus机器学习模型来产生出符合真实地球物理样貌,用来加速建立数位分身的地球。

2021-11-10 21:48:00

相关文章