APP下载

AI趋势周报第180期:Meta开源机器翻译大赛冠军模型,瞄准通用翻译

消息来源:baojiabao.com 作者: 发布时间:2024-09-28

报价宝综合消息AI趋势周报第180期:Meta开源机器翻译大赛冠军模型,瞄准通用翻译

Meta旗下脸书AI研究院日前开源年度机器翻译大赛冠军模型,靠单一模型就能执行多语言翻译任务,比传统双语模型还优秀。

图片来源: 

脸书AI研究院

重点新闻(1119~1125)

  Meta      机器翻译    WMT 2021  

Meta开源机器翻译大赛冠军模型,瞄准通用翻译

Meta旗下脸书AI研究院开源多语言模型WMT 2021,是一款拿下今年度机器翻译大赛的冠军模型。脸书AI研究院指出,机器翻译(MT)是指用AI将源语翻译为目标语的方法,目前常见的MT系统多为双语模型,需要两种语言语料的标签和配对,但对缺乏语料的语言来说,翻译成效就会不彰。而且,对脸书来说,一天要处理数百种语言写成的数10亿贴文,传统双语言MT作法太复杂,不切实际。

因此,脸书锁定通用机器翻译,要用单一模型,就能解决多语言翻译问题。他们的模型开发策略分为三部分:大规模资料探勘、模型扩展、有效运用运算资源。在第一部分,为训练多语言模型,团队采两种方式:英语到任何语言,以及任何语言到英语,并以平行资料探勘技术,来收集爬虫取得的网站翻译资料,降低手工翻译成本。再来,团队将原本150亿参数的模型,扩展到520亿参数,并用自家独有的平行资料运算技术(FSDP),来加速模型训练,比传统方法快5倍。

最后,团队采用一套新运算方法,让模型在不同训练场景中,只使用模型的一部分,而非整体,以更有效率运用硬件资源的方式来执行运算。后来,这款模型参加颇负盛名的机器翻译大赛WMT,拿下年度冠军,证明比传统双语模型还要会处理资源少的语言翻译。团队认为,这套模型为未来通用机器翻译打下了基础。(详全文)

Line     Clova     人脸辨识  

Line Clova三大AI服务落地台湾

Line台湾终于发布AI解决方案Line Clova了!Line台湾去年底就预告要在今年推出商用的AI系列产品,包括Chatbot、OCR与人脸辨识等三项服务,今年特别聚焦这三项服务与官方账号的整合应用情境,瞄准超过200万个官方账号持有者来推动服务,比如美妆品牌集团资生堂就宣布,将于明年导入Line Clova的AI应用。

Line台湾去年就宣布Clova三大AI服务完成中文化。这次,Line台湾企业解决方案事业部策略企划资深总监许嘉真指出,落地台湾的Chatbot能结合官方账号功能,比如以贴图或多元讯息形式来回复讯息,而且还能与官方账号API整合,从文字机器人切换为真人客服,甚至能扩展到品牌的自有媒体上。在OCR部分,Line台湾也建立多种常见的证件和文件辨识模型,像是身份证、驾照、健保卡、发票、车票、罚单、提款卡等,OCR可自动辨识照片中的特定区域,再将该区域图像转化为文字。这个技术可应用于报账,比如先透过Chatbot引导使用者,来输入出差的文字或上传图片,再以OCR图像辨识,自动将相关讯息填入系统表单。

最后,人脸辨识功能部分,Line台湾去年就已将这项技术用于活动报到上。许嘉真指出,品牌未来若举办实体活动,能让报名者透过官方账号,填入基本资料并上传自己的照片,后续实体活动报到时,即可透过人脸辨识服务,来比对报名照片与实际参与者是否为同一人。这项技术在去年活动上实测后,已可达到每人辨识时间小于1秒,400人活动报到零出错的成效。(详全文)

  OpenAI     GPT-3     语言生成  

OpenAI扩大开放,申请GPT-3语言生成API不用等漫长审查了!

OpenAI宣布要扩大开放GPT-3语言生成API,用户申请后,不必漫长等待即可使用。GPT-3由OpenAI开发,2020年时,OpenAI就以GPT-3为基础推出语言生成付费服务,以API形式对外释出。

但因GPT-3模型太过强大,外界一直怀疑GPT-3可能遭到滥用,像是垃圾邮件、造假甚至用于操控舆论等目的,因此OpenAI在API推出的初期,仅供有限的用户申请使用。现在,OpenAI更新了GPT-3的API,包括Instruct Series的GPT-3模型,能更好地遵循用户指令,同时还提供开发人员免费的内容过滤器,来降低服务遭到滥用的可能性,同时OpenAI现在也能在用户应用程序上线前,对其进行审查,以监控滥用的情况,并且支援开发者了解该技术带来的影响。(详全文)

  医疗AI    智慧医材专案办公室       食药署  

推动医疗AI产业化!食药署智慧医材办公室主动辅导10家机构拼明年初取证

卫福部食药署在今年5月成立智慧医材专案办公室,要辅导国内厂商、医院和学研单位,将自行研发的医疗AI商品化,来协助申请TFDA查验登记、取证。食药署11月23日表示,专案办公室采取3种辅导策略,一是主动征求专案,二是专案咨询,再来是电话辅导。

据统计,专案办公室在专案咨询部分,至今收件18件,其中17件已完成,而主动辅导则有10件,包括AI Labs旗下台湾医学影像公司、广达、华硕、宏碁智医、长佳智能,医院部分则有台大医院、童综合医院,学研部分则有成大数位生技医疗创新研究中心,辅导内容涵盖产品上市规划、品质管理、产品说明书撰写、临床验证设计等等,预计在今年底让申请机构申请取证。食药署也预告,近期将开始征集明年度辅导专案,预计明年1月完成,并展开为期10个月的辅导。(详全文)

  微软     多语言     函式库  

微软开源多语言分散式ML函式库,可整合45种ML服务

微软发布分散式机器学习开源函式库SynapseML,可大规模建立机器学习工作流程,还可将45种ML服务整合到数据库与系统中。SynapseML将各种机器学习框架标准化,支援不同的机器学习生态系元件,组成全新类别的机器学习系统。使用SynapseML,开发者不必担心分散式机器学习工作流程的实作细节,在不需要更改程式码的情况,就能简单部署至各种数据库、丛集和程式语言中。

进一步来说,SynapseML可将现有的机器学习框架,和新的算法统一到一个可以跨Python、R、Scala和Java的可扩展API中,该API具有可扩展性,且独立于资料和各种语言,也能以批次、串流和提供应用程序等方式来运作,开发人员可以专注在资料和任务上。SynapseML可用来建构各种可扩展的智慧系统中,包括异常检测、微服务调度或模型可解释性等。(详全文)

  Tableau     资料素养     Salesforce  

Tableau:未来5年要培养千万人资料处理技能!

“我们处于资料分析的黄金时代!”Tableau CEO Nelson指出,资料分析已是现代企业标配,以便在瞬息万变的市场中快速决策。Tableau近日与研究单位进行的调查也发现,企业招募新人时,更将资料素养列为首要考虑条件。

进一步来说,Tableau原本就有一套提高资料素养的学术计划,提供学校师生免费软件和课纲来教学。现在,Tableau基金会要再加码500万美元,来扩大这个计划,比如提供免费的线上学习内容,让世界各地师生都可使用。此外,Tableau也将联手Salesforce开设免费的资料素养课程,也要与数位转型培训组织合作,将资料教育纳入实习计划。Tableau预计这项计划将培训千万人规模。(详全文)

  Nvidia     物理模拟框架     Modulus  

Nvidia推出AI物理模拟框架Modulus

Nvidia推出一款用于控制物理方程式和模拟的神经网络训练平台Modulus,可生成强大且高度逼真的模型,加速多物理系统的设计探索,适合数位双身的开发。

Nvidia指出,Modulus是一种神经网络框架,可将物理学和偏微分等强大功能和AI相结合,以建构出更加强大的模型。Modulus是为工程师、科学家、研究员和学生所设计,使用方法简单,且容易扩展。Modulus可同时解决多个假设情境的参数化系统,用户仅需要训练模型一次,即可解决多个问题。有别于传统的数值求解器,Modulus能一次处理多个单一几何或参数几何,神经网络可同时在多个情境间进行训练,并在推理过程,即时评估每个配置,让用户更有效率探索设计空间。(详全文)

图片来源/脸书AI研究院、Line台湾、微软、Nvidia

摄影 / 王若朴

 AI趋势近期新闻 

1. 台南市与华硕云端打造动态影像AI感知平台,自动侦测车流、人流

2. Google释出TF-GNN,使用者可在TensorFlow打造图学模型了

资料来源:iThome整理,2021年11月

2021-11-26 11:47:00

相关文章