李蓉 1,周美丽 2
(1.延安大学西安创新学院,陕西 西安 710100;2.延安大学,陕西 延安 716000)
摘要:在语言翻译方面,人工翻译的速度比较慢,越来越不能适应当前社会发展的快速需求。因此,需要有新技术代替人工翻译,以开发 AI 为基础,实现快速、准确、高效的机器翻译。针对传统机器自动翻译系统在翻译过程中准确率较低的问题,为了提高机器自动翻译的速度和准确性,该文提出基于人工智能处理器设计的机器自动翻译系统设计。通过客户端结构设计和人工智能处理器设计,完成系统的硬件设计;依托句子相似度的计算和消除句子歧义,完成系统的软件设计,从而实现机器自动翻译系统的设计。测试结果表明,基于人工智能技术的机器自动翻译系统,相比于基于文本库的机器自动翻译系统,在句子翻译速度和准确率方面都有所提高。
中图分类号:TN915⁃34;TP391 文献标识码:A
文章编号:1004⁃373X(2022)02⁃0183⁃04
0 引 言
如今即使手工翻译可以完整地将原文表达出来,但是随着文献资源的增多,人工翻译的速度变得越来越慢。机器自动翻译是加快文本翻译的重要手段,机器自动翻译分为基于文本库和基于翻译规则,基于文本库的机器自动翻译需要大量的文本资源来构建文本信息资源库,而且文本资源在组成资源库时经常出现文本数据密集和稀疏的问题,在翻译少见词汇时缺乏精准度[1];基于翻译规则的机器自动翻译可以将文本内容清楚地描述出来,但是规则库的构建存在一定难度,翻译时很难达到较好的翻译成果[2]。基于上述两种翻译系统存在的问题,本文将人工智能技术应用到机器自动翻译系统设计中。机器自动翻译的主要目的就是消除歧义语句,针对一个词语,在不用的语境下会被翻译成不同的意思,因此在人工智能技术的基础上,让机器在不同的语境条件下,自动找到该词语的真正对应的意思是机器翻译亟需解决的关键问题。机器自动翻译系统的文本翻译质量虽然还没有达到人工翻译的程度,但是如今已经在社会上的各个邻域都得到了广泛的应用[3]。机器自动翻译系统作为人工翻译的补充和修正,在一定条件下可以提高翻译人员的工作效率,并提高了翻译的准确度,早已经成为翻译人员的得力助手。现如今,各个民族和国家之间的文化交流比较频繁,语言上的不通已经成为阻碍民族与民族之间、国家与国家之间沟通的障碍[4],为了促进文化知识的沟通和交流,在人工智能技术的基础上,设计机器自动翻译系统对国家和民族的发展有着积极作用。
1 大学人力资源管理系统硬件设计
1.1 客户端结构设计
客户端结构设计可以让用户通过上传图片来获取翻译内容,省去了用户打字的时间,提高了翻译的速度和准确率。用户可以选择通过手机拍照软件,来捕获需要翻译的文字内容,以图片的形式将翻译内容上传到云端服务器[5];还可以直接从本机图库中选择提前拍摄好的文字图片,再将图片上传到云端服务器,并在翻译系统的设置选项中,完成摄像头的对焦和闪光设置,在用户需求的情况下,还要设置需要识别的语言。然后将选择好的图片利用HTTP协议上传到系统云端服务器,并由部署在云端服务器上的OCR软件,将图片识别成可以进行编辑的文本内容[6]。通过调用Google翻译来执行翻译工作,最终将识别出来的源语言文本内容翻译出目标语言文本内容,并将目标语言文本内容返回给客户端。用户可以对客户端接收的源语言文本内容以及目标语言文本内容进行相应的编辑操作,或者对文本内容中感兴趣的部分在互联网上搜索[7]。客户端工作流程示意图如图1所示。
结合客户端的需求分析和工作流程,可以将客户端的功能分为图片保存、拍照、图片编辑、在线搜索、设置语言类型、翻译文本保存等。客户端的功能结构见图2。
以缩短用户获取目标翻译本文的时间、提高翻译准确性为目的,对采集到的文本内容进行简单处理,并向服务器发送翻译请求,将采集到的图片信息传输给服务器,完成客户端的结构设计。
1.2 人工智能处理器设计
在服务端的所有组件中,人工智能处理属于计算密集型的处理器,也是整个系统应用性能的瓶颈。因此,需要多台人工智能处理器并行处理用户的服务请求,人工智能处理器的数量是根据用户请求的数量确定的,处理器数量越多,翻译的速度就越快。人工智能技术作用于包含待识别文本信息的数字图像,预处理数字图像后,利用文本信息的定位、分割和提取算法,将待识别的文本信息提取出来[8],通过模式识别算法完成提取文本信息形态特征的分析,最后得到目标文本信息的标准编码,将结果输出[9]。人工智能处理流程如图 3所示。
人工智能处理器的功能实现是基于Tesseract⁃OCR2.3,它是一个在实验室内开发的人工智能引擎,谷歌对Tesseract⁃OCR2.3进行了优化,使得它已经成为人工智能领域中精度最高的开源引擎,可以支持中文,使用命令行方式调用[10]。人工智能处理器的结构如图4所示。
基于用户需求分析,设计客户端的工作流程,结合客户端的需求分析,完成客户端的结构设计;利用人工智能技术确定人工智能处理流程,通过人工智能处理的实现,完成人工智能处理器的结构设计,从而实现系统的硬件设计。
2 大学人力资源管理系统软件设计
2.1 计算句子相似度
句子相似度算法先根据词性特性对相似的句子进行粗选,然后进一步精细选择,再计算句子的相似度。该方法虽然考虑句子中每一个词的词频特征,也对词语赋予了不同的权值,但是缺乏词语黏着性,造成长句子或者词频低的句子相似度的计算偏差大[11],反而降低了系统的翻译速度。计算句子相似度时先利用倒排索引文件获取句子的编号,利用编号得到将要计算的句子内容[12]。相似度计算流程如图5所示。
根据句子相似度计算流程,将已经选择好的n个句子相似度计算结果上传到相似句子组合模块中[13],句子相似度计算公式为:
式中:Words(A)表示输入句子A的单词集合;Wordsi(A)表示单词集合中的第i个元素;Len ( )表示字符串长度;Sim Word(A,B)表示词形相似度。词形相似度计算可以提高句子翻译的质量。
2.2 消除句子歧义
句子歧义的消除可以提高机器自动翻译的准确性,实现机器自动翻译。一方面是由词性引起的歧义,同一个单词可能会具有不同的词性,也使得翻译出来的意思不同[14];另一方面是由于同一个单词在不同的语境中,翻译出来的意思也是不同的。针对消除由词性引起的句子歧义,先分清单词的词性,本文利用上文计算的相似度对单词进行词性标注,根据标注后的词性确定该单词在句子中的实际含义,消除了歧义,完成整句翻译[15]。针对语境不同引起的句子歧义,需要利用本体来消除歧义,首先遍历所要翻译的句子,将每一个单词在领域词典中查找,如果可以在词典中查找到,就可以认为该词在特殊词义领域内,可以赋予其特定的含义,这样就完成了歧义消除,实现机器自动翻译。综上所述,依托客户端的结构设计和人工智能处理器设计,完成了系统的硬件设计;基于句子相似度的计算和歧义的消除,完成了系统的软件设计,从而实现了机器自动翻译系统的设计。
3 仿真测试 3.1 测试方法及步骤分析 为了验证基于人工智能技术的机器自动翻译系统的有效性,本文对常见的英文句型进行了测试。系统在测试时从句子资源库中随机抽取了50个句子进行翻译测试。测试的步骤如下:
1)选择待翻译句子,如:Foxen is a famous winery.
2)标注每一个单词的词性并将词型还原,分清句子中每一个单词的具体类型以及单词的原型,如表1所示。
3)消除歧义。在本体词典中,Foxen 和 winery 都会出现,而单词 Foxen是单词 winery的一个个体,因此完全可以认为两个单词都存在于词语资源库中。
4)得到对应的汉语词汇,如表2所示。
5)句法分析。利用人工智能技术构建语法树,如图6所示。
6)选择句子翻译模板。通过分析句子语法树得出,待翻译句子是由“名词+动词+名词”组成,而在动词方面选择的是系动词,构成了“主系表”结构,语序与英文一致,因此可以直接翻译。
7)得出翻译结果。
3.2 实验结果分析
利用上述的实验方法和步骤,得到下列实验结果,如图7所示。
从实验结果中可以得出,相同时间内,基于文本库的机器自动翻译系统在翻译句子时,只能翻译出两个英语单词,且在翻译准确率方面,也会出现翻译不完全的现象;而基于人工智能技术的机器自动翻译系统在翻译句子时,可以将整个句子完整地翻译出来,不会丢下任何一个简单或复杂的单词,且在翻译准确率方面,可以将整个句子准确地翻译出来。因此可以得出基于人工智能技术的机器自动翻译系统,相比于基于文本库的机器自动翻译系统具有较快的翻译速度和较高的准确度。
4 结 语
本文提出基于人工智能技术的机器自动翻译系统设计。依托机器自动翻译系统的硬件设计和软件设计,实现了本文的研究。结果表明,基于人工智能技术的机器自动翻译系统,相比于基于文本库的机器自动翻译系统在句子翻译速度和准确率方面都有所提高。希望本文的研究可以为基于人工智能技术的机器自动翻译系统设计提供理论依据。
参 考 文 献
[1] 罗华珍,潘正芹,易永忠 . 人工智能翻译的发展现状与前景分析[J].电子世界,2017(21):21⁃23.
[2] 邢蕾 .英汉机器翻译中译文自动生成系统设计[J].现代电子技术,2018,41(24):86⁃89.
[3] 张睿 .基于短语相似度的统计机器翻译系统设计[J].自动化与仪器仪表,2017(8):66⁃67.
[4] 郑锦龙,林国铭,孙永 . 穿戴式手语识别翻译系统[J]. 通讯世界,2017(7):238⁃239.
[5] 张胜刚,艾山·吾买尔,吐尔根·依布拉音,等 .基于神经网络的维汉翻译系统实现[J].现代电子技术,2018,41(24):157⁃161.
[6] 刘洋 .神经机器翻译前沿进展[J].计算机研究与发展,2017,54(6):1144⁃1149.
[7] 艳萍 . 浅谈气象服务产品汉蒙自动翻译系统[J]. 文存阅刊,2018(4):191.
[8] 梁亚敏,梁利利 .基于智能手机的英语辅助翻译学习系统构建[J].自动化与仪器仪表,2018(8):142⁃144.
[9] 黄政豪,崔荣一 .基于术语自动抽取的科技文献翻译辅助系统的设计[J].延边大学学报(自然科学版),2017,43(3):259⁃263.
[10] 徐英卓,贾欢 .基于树结构的本体概念相似度计算方法[J].计算机系统应用,2017,26(3):275⁃279.
[11] 李峰,侯加英,曾荣仁,等 . 融合词向量的多特征句子相似度计算方法研究[J].计算机科学与探索,2017,11(4):608⁃618.
[12] 彭琦,朱新华,陈意山,等 . 基于信息内容的词林词语相似度计算[J].计算机应用研究,2018,35(2):400⁃404.
[13] 熊明明,李英,郭剑毅,等 .基于 CRFs和歧义模型的越南语分词[J].数据采集与处理,2017,32(3):636⁃642.
[14] 熊明明,刘艳超,郭剑毅,等 . 基于最大熵模型的越南语交叉歧义消解[J].中文信息学报,2017,31(4):63⁃69.
[15] 余倩 . 基于特征提取算法的交互式英汉翻译系统设计[J]. 现代电子技术,2018,41(4):161⁃163.
作者简介: 李 蓉(1983—),女,陕西西安人,硕士,讲师,主要研究方向为计算机应用、翻译系统设计。 周美丽(1981—),女,陕西横山人,硕士研究生,副教授,主要从事信号检测、图像处理等方面的研究工作。
编辑:黄飞
评论
查看更多