APP下载

自然语言处理服务Amazon Comprehend现支援Word和PDF文件格式

消息来源:baojiabao.com 作者: 发布时间:2024-11-28

报价宝综合消息自然语言处理服务Amazon Comprehend现支援Word和PDF文件格式

AWS更新自然语言处理服务Amazon Comprehend,开始支援Word和PDF文件,让用户可以从这些类型的档案撷取资料。Amazon Comprehend能够分析不同语言的文字,并且辨识这些文字的内容,诸如人名、地点、品牌和产品等,同时还能理解文本中的关键句子和情绪,或对大量文件的内容,依照主题加以分类。

无论是开设银行账户、申请保险或是房屋借款等程序,皆大量使用纸本文件,而这些文件动辄超过百页,对于企业来说,手动处理这些文件是一件繁琐的工作,不只需要人工,而且速度缓慢容易出错,而借由使用Amazon Comprehend,可以大幅加速文件的创建和管理,并且降低出错概率。

Amazon Comprehend新的解决方案,可处理PDF、Word和原始文字等档案格式,或是笔记和列表等布局,并进行内容撷取和分析,AWS提到,这次推出的解决方案,结合自然语言处理和光学字元辨识技术,能够减少企业文件的预处理和后处理工作量,用户不再需要将档案转换成原始文本,就能够使用自定义命名实体辨识(NER)功能。

过去Amazon Comprehend只能处理纯文字档案,这需要用户先将文件整理成机器可读的文本,但用户现在能够利用Amazon Comprehend以相同的API,直接从PDF和Word中的文字或是列表等不同文件布局,撷取特定词语。

新的Amazon Comprehend自定义实体辨识模型,综合分析结构上下文和自然语言上下文,从文件中的任何位置,撷取自定义词语实体。AWS提到,用户对于每一种实体类型,只要提供250个文件和100个注解,即可训练模型并且开始使用该功能,而为了要扫描PDF并撷取空间位置,Amazon Comprehend会呼叫Amazon Textract服务,来执行必要的处理。

这项新功能有助于企业处理保险、抵押、金融等业务中的文件处理工作流程,通常这些文件布局复杂,用户也不需要页面上的每一个资料点,因此撷取特定资讯存在困难,而Amazon Comprehend这项新功能,可以使用机器学习,使用单个模型和API呼叫,快速撷取自定义的词语,像是处理汽车或健康保险文件中的索赔金额,甚至是在抵押贷款中,撷取申请人姓名、共同签署人或是其他财务文件资讯等。

2021-09-17 11:47:00

相关文章