APP下载

Google释出细致分类的情绪资料集GoEmotions

消息来源:baojiabao.com 作者: 发布时间:2024-11-25

报价宝综合消息Google释出细致分类的情绪资料集GoEmotions

Google释出大型且由人工注解的情绪资料集GoEmotions,该资料是目前最大型的全注解英文高精细度情绪资料集,能够用于细致的情绪预测应用上。GoEmotions是Google在Reddit上,从英语子版撷取了5.8万条评论,并以27种情绪类别标注。

GoEmotions考量心理学和资料适用性,有别于基本的6种情绪,该资料集包含12种正面情绪,11种负面情绪和4种暧昧不明的情绪,还有1种中性情绪,使其能广泛地应用在需要细微区分情绪的对话理解任务。

人类能够透过简单地以文字和话语,微妙地传递复杂的情感,而自然语言处理研究社群的一个长期目标,便是要让机器人能够理解对话的上下文和情绪,使得聊天机器人能更善解人意,甚至是能够侦测线上有害的行为,或是改进客服功能等。

在过去10年,自然语言处理研究社群所制作的多个分类情感的资料集,大部分都是手动建构,领域涵盖新闻标题、电影以及故事,资料集规模不仅较小,也仅限于愤怒、惊讶、厌恶、喜悦、恐惧和悲伤6种基本情绪。

而Google的目标,是要建立一个专注于对话的大型情绪资料集,而Reddit平台提供了大量公开可用的内容,因此Google截取从2005年到2019年1月的评论资料,作为资料集的内容。不过,因为Reddit的使用者存在性别偏差,年轻男性占多数,无法用来反映全球多样化的人口,而且Reddit不乏有攻击性或是歧视等有毒言论,为了解决这些问题,Google使用资料过滤技术,移除了不适合的内容,而且同时也调整了资料,避免活跃的Reddit子板言论过度代表不活跃的子群体。

GoEmotions提供了大量人工注解的情感资料,特别的是提出了一种更简单的启发式方法,将嵌入在用户对话的表情符号,作为情绪分类的项目,这种方法可以用在包含合理表情符号的语言语料库,像是对话性的资料。

但官方又提到,虽然许多表情符号与情绪相关联,但是情感非常微妙且多元,在许多情况下,单一表情符号并无法真正捕捉情绪的完整复杂性,而且表情符号代表着情绪所带来的表情,因此Google认为表情符号更应该被视为表达而非情绪。这类型的情绪资料,对于建构富有表现力的对话代理,或是建议上下文表情符号相当有用,将会是研究人员未来的研究领域。

2021-11-02 10:48:00

相关文章