薛松[1]2003年在《汉英平行语料库中名词短语对齐算法的研究》文中指出随着计算机和互联网的发展,在自然语言处理领域,以双语(或多语)平行语料库为基础的应用日益增多。除机器翻译方面的应用之外,平行语料库的建设对于双语词典编纂、词义消岐和跨语言信息检索也具有重要价值。 在平行语料库的加工中,研究不同级别的对齐技术是一个核心课题。平行语料的对齐不仅是通过平行语料库获取一些语言知识的必要前提,也是基于实例的机器翻译中实例库构建不可缺少的关键环节。 本文以平行语料库及其对齐技术在基于实例的机器翻译和机器辅助翻译中的应用为背景,讨论了《大规模汉英平行语料库》的建设,包括语料的采集、编码、句子对齐和语料库索引等问题。然后介绍了使用规则和统计相结合的方法进行汉英名词短语对齐的研究。对齐算法利用英语的句法分析器进行英语名词短语识别,采用句法模式规则过滤汉语名词短语候选集,最后通过基于共现频率的相似度计算来选取最佳配对。算法有效地克服了单纯利用规则和双语词典的方法的一些不足,提高了准确率。
王思宽[2]2010年在《基于规则和基于统计相结合的中英双语平行句对短语对齐方法》文中认为双语短语对齐是当今双语信息检索和辅助机器翻译研究的热点和难点问题。在自然语言处理领域,“短语”一词没有一个统一的定义,根据研究方法的不同常常有不同的含义。有的研究者认为“短语”是短语结构语法中有一定结构和层次关系的语言单位,而有的则不要求“短语”有内部结构关系,只要是连续的有一定意义的词串就是“短语”,因此涵盖的范围更广。本文的“短语”是属于后者,部分短语有较简单的内部结构关系(指基本名词短语,Base Noun Phrase,以下简称BaseNP),而大部分也只是连续的词串而已。本文采取的方法是先对中英文句对进行分类,分为简单的短句和复杂的长句两类,对于简单的短句,使用本文提出的基于规则和基于统计相结合的方法进行对齐;对于较复杂的长句,先使用浅层句法分析将长句分为若干个短句,然后再使用短句的方法进行对齐。在短语识别阶段,首先利用汉英双语的“标记词”集合对汉英句子进行短语切分,得到“标记词”短语。然后,用基于双语语料的方法识别出基本名词短语。最后,将“标记词”短语和基本名词短语的识别结果归并起来,得到本文中所说的“混合”名词短语。在短语对齐阶段,第一步进行一对多的短语对齐。首先利用“锚点”词对齐得到“锚点”短语对齐;对于那些无法利用“锚点”词对齐信息进行对齐的短语,则利用词对齐生成其候选对齐,并利用最大熵排序模型对这些候选对齐进行打分排序,以得分最高的作为对齐结果。第二步是在一对多短语对齐的基础上得到多对多的短语对齐。
刘冬明[3]2004年在《汉英双语平行语料库中对齐方法的研究》文中进行了进一步梳理在自然语言处理领域,双语平行语料库的重要性日益加强,其研究工作主要是集中在构建、对齐和标注等方面。它在在机器翻译、词典编纂、多语言信息检索、术语提取等领域有着重要的研究价值。 在过去的叁十年里,各国的研究人员相继建立了许多印欧语言的平行语料库。与之相比,汉英双语平行语料库的研究国内外都相对较少,近年来才刚刚起步。本文的工作主要集中在汉英双语平行语料库词语对齐及词义排歧的研究上,主要包括以下部分: 1.实词对应。在详细考察各类统计参数的基础上,对高频实词提出了适合于汉英两个不同体系语言的一种混合的统计方法,而对低频实词则充分利用词典获取对应信息,最后采用一种综合的基于竞争链接的对应算法,取得了较好的效果。 2.双语语块的识别和对应。本文充分利用已有的实词对应信息,将语块的划分和对应同时进行,这样使得对应和划分能相互提供信息,有效地避免了当前绝大多数算法中存在的双语语块边界划分不一致的情况。 3.名词短语的对应。本文根据名词短语的统计特征,对高频名词短语采用迭代重估算法;对低频短语,则采用类似于低频实词的对应方法。这样就能够从整体上把握对应信息,并使结果具有很高的覆盖率。 4.双语词义排歧。当前大多数基于双语语料的词义排歧算法都局限在利用单个多义词的上下文环境及其对应信息,本文则充分利用当前Hownet资源中概念的可计算性,将词义排歧的问题转化为多义词和另一种语言的相应句子的整体意义相似性问题,从一个新的角度来进行词义排歧,因此得出了满意的研究结果。 本文利用汉英两种语言各自的特点,充分利用已有信息,实现了对平行语枓库中各种信息单元的对齐,实验结果表明,效果显着。
李业刚[4]2015年在《双语最大名词短语分析及应用研究》文中提出本文主要研究双语最大名词短语的识别对齐及其在统计机器翻译中的应用。机器翻译本质上是个语言问题,其最终解决也必须依靠语言学知识的运用。研究如何更有效地在统计机器翻译中融入有价值的句法层面的语言学知识,对于推动统计机器翻译的发展,具有重要的理论意义和应用价值。本文针对汉-英语言对,在考察了具有丰富句法和语义信息的汉英最大名词短语的结构特点后,从统计机器翻译的实际应用出发,致力于最大名词短语在双语中的扩展—双语最大名词短语的识别和对齐的研究,并论证在统计翻译模型中融入双语最大名词短语的可行性。研究内容主要包含以下四个部分:⑴提出并研究引入混合特征的汉语最大名词短语双向标注融合识别算法以汉语最大名词短语识别为研究任务,在分析现有方法的基础上,从汉语的语言学特殊性以及基于支持向量机的序列标注算法的特点出发,考查了基于混合特征的融合算法的适应性。通过理论分析和实验证明,采用词和基本组块混合标注单元的标注方法对汉语最大名词短语的识别是有效的,并且其正反向识别结果具有一定的互补性,在此基础上提出的基于“边界分歧”的双向序列标注融合算法能发掘双向识别的互补性,并达到较高的融合精度,F-1值达到88.24%,比采用传统模式的基线模型提高了2.34%。⑵提出并设计实现一体化的双语最大名词短语的识别对齐算法在汉英最大名词短语结构分析的基础上,提出了一体化的双语最大名词短语识别对齐算法。该算法有效发掘双语最大名词短语识别的互补性,利用双语序列的对位信息辅助最大名词短语的识别,建立一个双语最大名词短语识别对齐一体化模型,实现识别和对齐的双赢。实验结果表明,一体化的双语最大名词短语的识别对齐算法显着地提高了双语最大名词短语的识别对齐性能,F-1值达到81.91%,比基于句法树的方式提高了超过10个百分点。⑶提出并设计实现基于双语协同训练的最大名词短语识别算法以提高最大名词短语的识别性能和领域适应性为目标,提出了双语协同训练算法,并对增量标记的选择做了详细的论述。双语协同训练算法不同于普通的协同训练,该算法把汉英两种不同语言的句子看作一个数据集的两个不同视图,融合汉英语言特征,充分利用汉英最大名词短语识别的互补性,进行协同训练。协同训练过程中跨领域未标注数据的加入增强了识别算法的领域适应性,这对于统计机器翻译中的大规模跨领域的语料处理任务有重要的意义。实验结果表明,该算法显着提高了最大名词短语的识别性能和领域适应性,跨领域的最大名词短语识别的F-1值提高了4.52%。⑷提出并实现融入双语最大名词短语的统计机器翻译模型提出了叁种由简到繁的把双语最大名词短语融入到统计翻译模型的策略,整体翻译性能逐步上升。其中,Method-III采用“分而治之”的策略,以“硬约束”的方式在统计机器翻译中融入最大名词短语,并在双语最大名词短语层面上,融合了短语翻译模型和层次短语模型,显着地改善了翻译系统的输出,复杂长句翻译效果尤其明显,BLEU值比基于短语的基线翻译模型提高了3.03%。综上所述,本论文在汉语最大名词短语识别、一体化的汉英最大名词短语识别对齐以及最大名词短语识别算法的领域适应性等方面进行了大量的实验和深入的研究,显着地提高了双语最大名词短语识别对齐性能,增强了识别算法的领域适应性,并在统计机器翻译中融入双语最大名词短语,改善了译文的质量。
冯敏萱[5]2006年在《论汉英平行语料的平行处理》文中进行了进一步梳理平行语料库研究是近年来语料库语言学横向发展的新趋势。人们已经清楚认识到大规模的高质量汉英平行语料库在自然语言处理、比较语言学研究和第二语言教学等众多领域中的巨大价值。但与单语语料库相比,汉英平行语料库无论在规模还是质量上都有较大差距。 为了进一步提高汉英平行语料的加工精度以适应建设和利用大规模平行语料的要求,本文以汉英平行语料的平行处理为主要研究对象,旨在利用双语信息,尤其是来自另一语言的信息来解决平行语料中某一语言的歧义问题。 本项研究主要取得了以下几方面成果: 第一,系统研究了平行处理技术。不仅明确了平行处理的含义,它在平行语料加工中的地位及价值,以及平行语料中用于消歧的语言资源层次及类别等等,而且还通过实验详细论证了平行处理技术在未登录词识别、词性标注、词义标注及句法分析等自然语言处理各层面的利用方法及有效性。 第二,平行处理技术是汉—英和英—汉双向的。我们不仅利用英语来解决汉语的歧义问题,包括汉语未登录词识别、汉语兼类词和多义词标注以及汉语“动词+名词”短语类型识别等,而且也利用汉语来解决英语歧义,例如英语的词性消歧和词义消歧等。 第叁,在未经词汇对齐的平行语料中,实践了基于个性规则的词性、词义消歧方法。统计模型适于自动处理数据密集的问题,本文对英语人名汉译名的平行识别就主要使用了统计方法,精确率达到99.45%。而对于一些统计处理消歧效果较差、但出现频率又很高的词语,我们手工编写针对性极强的消歧规则。这些规则具有不受上下文长度和模板数量限制、特别适合于双语平行处理、消歧效果好等优点。我们为5个典型兼类词(过去、计划、与、back、so)和5个典型多义词(地方、所有、等、since、state)设计的平行处理算法,在大规模英汉或汉英平行语料中得到了验证,观察语料中的标注精确率均为100%,各类型语料中的总体精确率最高为100%,最低的也达到了96.59%,这比目前仅利用单语进行词性和词义消歧的成绩有了大幅度提高。 第四,精加工了1000句对的汉英平行语料。我们首先统计分析了这1000句对中汉英双语的词频、字词录入错误、普通未登录词、兼类词和多义词以及汉语的分词歧义字段、“动词+名词”序列等信息,然后利用平行处理技术,结合人工校对,消除了其中全部的句对齐、字词录入、分词和词性j际注错误,以此作为今后建设和加工大规模平行语料的可信资源。 综上所述,统计和规则相结合的平行处理技术,可以有效解决平行语料库中汉语或英语在单语处理时的许多困难问题,有利于更好地实现汉英机器翻译知识的自动获取。
李秀英[6]2010年在《基于历史典籍双语平行语料库的术语对齐研究》文中指出中国历史典籍英译是中国传统文化走向世界的重要途径之一。其英译的难点主要包含两个方面:一是其中大量的术语的英译方式,二是整个文本的翻译风格的把握。本文挖掘了中国历史典籍如《史记》、《汉书》、《左传》、《战国策》等百余年来英译与研究的数据,为中国历史典籍英译的实证研究以及构建中国历史典籍英译平行语料库奠定了重要基础。这对于面向古汉语的自然语言处理、典籍英译研究和中国历史研究都具有重要意义。本文以《史记》英译为主线,较深入地分析了从20世纪中期开始到现在,美国两个大型的《史记》英译工程,Burton Watson和William H. Nienhauser, Jr.英译《史记》的差异性及各自的地位和价值。1961年由哥伦比亚大学出版社出版的Watson的《史记》节译本因其突出的文学成就成为世界文学经典译本,被列入联合国教科文组织的代表性着作选集:中国系列丛书,半个多世纪以来享誉汉学界,至今仍是英语国家中国研究专业学生的必读书。30多年后Nienhauser主导的《史记》全译工程以其秉承的西方传统汉学研究与翻译原则为标准,不断再现给读者一卷卷注释丰富、力图直译的、研究性的历史文献。本文以Nienhauser的《史记》译本为参照,对比分析了Watson的《史记》节译本在翻译风格上的特征及其动因,从而以实证的方式说明经典的英译也要受制于一定的社会历史文化语境、翻译工程的性质、翻译目的、译语中的翻译规范和诗学体系、译者个人的意识形态等因素。对Watson翻译观的形成过程的分析,也表明译者的翻译语言规范是在其社会化的过程中形成的。中国历史典籍英译是一种历史的建构。关于不同性质的译本的分析也说明,中国历史典籍双语平行语料库的语料来源对于基于语料库的知识获取结果会产生重要影响。本文对《史记》术语英译的特征做了较深入的分析,发现历史典籍术语英译存在多元对应的现象。这种现象形成的原因有:术语指称含义的动态性、术语本身存在近义词、术语用作称谓语、术语词性活用、术语译文存在近义词、术语概念在英语中空缺、译者的认知及翻译风格差异等。这些发现对自然语言处理中术语翻译对自动对齐的研究提出了挑战。本文以《史记》中的官称、谥号、机构等术语为例,结合其英译特征,如部分成分音译、译文多为2/3/4/5词的词组、词组中间常常使用连接词、官称英译中添加人名或用人名替代官称、原文术语干扰词的存在等,提出了共现频率与中心词扩展法、多策略相融合的术语翻译对对齐法等,就基于平行语料库的历史典籍术语英译对的对齐进行了实验。结果显示,前一种方法在含有音译的翻译对对齐中效果显着,而后者在含有音译的翻译对及普通名词性的术语翻译对对齐中取得的召回率和准确率都较突出,高于基本的互信息方法。鉴于部分中国历史典籍存在多个权威译本的情况,为了深入分析、研究其中的术语英译的方式、传递中国传统文化的有效性、在译语文化中的接受效果等,本文强调在构建中国历史典籍平行语料库时,应该分文本,分译本分别对应,然后在各个对齐的双语语料库中运行术语对齐的算法,以分别对齐各个翻译对。各翻译对在传递中国文化方面的充分性和在译语中的可接受性的程度的鉴定,还需要依据语文学意义上的研究和BNC和COCA等英语国家的大型英语语料库中的相关信息来确定。这些语料库中的词频统计结果有助于对这些术语译文在措辞上的文体风格进行分类,如日常的现代英语用词、古雅的用词、生僻的用词等。这可以为筹建中国历史典籍术语英译检索系统或知识库、编辑机读或面向人工译员的中国历史典籍术语双语词典奠定基础。本文的研究也发现,利用自然语言处理领域的术语对齐方法在实现历史典籍术语翻译对对齐方面还面临很多困难。同时,关于各译本依据的底本的对比研究也应该成为进一步深化该领域研究的一个重要层面。这在以后的研究中还需进一步深入探讨和分析。
陈亮[7]2012年在《基于英汉平行语料库的机器翻译知识获取研究》文中认为随着互联网信息资源的不断膨胀,人们可以通过互联网获取的资源也日益增加。目前世界上已知的语言约有3000多种,机器翻译及机器翻译知识的自动获取研究对人们突破语言障碍,充分利用互联网信息具有很强的现实意义。本文主要围绕以下几个方面进行了深入的研究:1)词汇对齐。词汇对齐是从英汉平行语料库中,根据已有的句子级对齐的语料库,挖掘出词汇级的英汉词对应关系。对机器翻译、语义消歧、翻译词典获取以及跨语言信息检索等都具有重要的意义。2)短语对齐。短语对齐能够反映出平行句对在短语级别上的对应关系,短语对齐也是机器翻译知识获取领域的一个重要研究工作。3)句法结对齐。句法结构对齐是对双语句法结构树进行分析和总结,提取出双语句子在句法结构以及句子成分上的对应关系。句法结构对齐的结果能够直接应用于短语对齐的工作中。4)机器翻译知识的应用。通过对双语平行语料库的知识挖掘,并且运用到机器翻译中,进行翻译前后的对比,可以看出机器翻译知识获取对机器翻译的质量的改善。研究取得的主要成果如下:1)在词对齐方面,我们提出了基于N-Gram语言模型的多词对齐算法,有效的解决了对于词对齐过程中存在的一对多和多对多的对齐问题。并且实现了一个有效的英汉、汉英双语翻译词典。2)在短语对齐方面,鉴于句子结构的复杂性,我们提出了分类短语对齐的思想,把短语对齐分成了名词性短语、动词短语、形容词性短语以及副词短语。实验结果显示分类词对齐能够很好的提高短语对齐的准确性。同时,设计了一个能够提取双语短语互译单元的系统。3)建立了一个完整的基于英汉双语平行语料库的机器翻译知识获取系统。
雪艳[8]2009年在《汉蒙词语对齐及相关技术研究》文中进行了进一步梳理汉蒙平行语料库是包含汉语和蒙古语两种语言互译文本的语料库,它是蒙古文信息处理数据资源的重要组成部分。汉蒙平行语料库在语言的多个层面上呈现汉语和蒙古语的互译对照信息,能够为汉蒙机器翻译或者其他与汉蒙双语相关的信息处理提供强有力的支持。汉蒙平行语料库的建设中,最关键的技术是“对齐”。所谓对齐,就是从源文和译文文本中找出互为翻译的片断。由于互译片段的粒度不尽相同,因此有篇章、段落、句子、短语以及词等不同级别的对齐。许多与双语处理相关的应用,如统计机器翻译、基于实例的机器翻译、词义消歧、双语词典编纂等,都要求以经过词语对齐的平行语料库作为依托。目前,汉蒙平行语料库的大部分数据是通过手工录入的方式收集起来的。录入过程中,我们按照“句对”的格式对语料进行了整理。因此,至少现阶段,汉蒙平行语料库的加工不涉及篇章、段落或者句子级别的对齐任务。如何在汉蒙句对上,进一步寻找汉蒙词语之间的对应关系,是本篇论文的重点研究内容。现在虽然有词语对齐开源软件(如,GIZA++)可供使用,但这一类基于纯统计学方法的工具通常只有在超大规模语料库上才能取得令人满意的效果。对于像汉蒙平行语料库这样规模偏小的资源,我们主张使用“基于知识”的方法来实现词语对齐。本文在借鉴和吸收前人研究成果的基础上,结合蒙古文信息处理的资源现状,提出了一种知识密集型(Knowledge Intensive)的汉蒙词语对齐方法。该方法的主旨是以“基于双语词典的Greedy算法”作为基本框架,通过在此框架内引入多种外部知识和信息,如蒙古语同义词知识、蒙古语词法知识、蒙古语连续多词单元的标注信息、汉蒙数词到阿拉伯数字的转换信息以及汉语介词与蒙古语“格”的对应规则等,逐步提高对齐的召回率和准确率。就这些知识(或信息)的获取方法及它们在汉蒙词语对齐中的作用,本文的研究包括如下几个方面:(1)提出利用蒙古语《类语辞典》中的同义词知识对汉蒙双语词典进行扩充,为汉蒙词语对齐提供更多的翻译选项。(2)利用一个基于词典和规则的方法对蒙古语文本进行词法分析和标注,为汉蒙词语的相似度计算提供蒙古语词干信息。(3)提出一种基于同现频率和词类信息的蒙古语连续多词单元的抽取方法,结合语言学家的内省判断构造出一个有效的词表,并以该词表作为依据,对蒙古语文本中的连续多词单元进行捆绑标注。这一标注信息能够帮助汉蒙词语对齐系统返回一部分“l:n”模式的对齐连接。(4)提出一种将汉蒙数词转换成阿拉伯数字的方法,目的是以阿拉伯数字作为中介,得到汉蒙数词的对齐。(5)基于汉语介词和蒙古语“格”之间的对应规律,提出一种局部启发式算法,以实现汉语“介词+名词(或代词)”结构与蒙古语格变化词形之间的“2:1”模式的对齐。另外,我们通过对大量汉蒙词语人工对齐结果及相关笔记进行比较和研究,发现人工词语对齐中存在相当程度的“主观性”因素。本文以当前汉蒙词语对齐系统的评价为主要目标,提出并制定了“汉蒙词语人工对齐规范”,为建立“标准对齐连接”提供操作细则。实验部分,采用召回率、正确率和F值作为评价方法,在叁类测试集(日常用语、政府文献、小说)上进行了一系列的实验和考察,总结出各种语言学知识对词语对齐的影响。实验结果表明,通过在基于词典和dislocation的基本框架内综合引用多种语言学知识,系统能够在“汉蒙日常用语”测试集上取得相对最好的成绩,召回率为0.592,正确率为0.814。
梁铭[9]2009年在《基于文本挖掘的翻译知识自动获取研究》文中研究表明近年来,互联网的普及与迅猛发展,提供了大量而丰富的电子信息。由于国际化的需要,越来越多的网站成为双语网站,越来越多的网上信息以多语言的形式发布,这就为双语提供了很大的来源。互联网是一个取之不尽,日益增长的信息源,因此是一个潜在的巨大的多语种语料库。研究有效的方法从互联网上自动挖掘这些海量的、真实的双语文本(即基于Web的双语语料库挖掘)、利用已挖掘的汉英平行语料库进行汉英翻译等价对的抽取、利用搜索引擎进行译文的挖掘,无疑是解决双语语料库建设和翻译知识获取难题的有效途径。本文主要取得主要成果有以下几方面:基于WEB的双语平行语料库获取研究中探索了双语平行资源在互联网上的存在形式及相应的获取方法,即定义一种启发式信息来概括这类多语种平行文本存在的共同特征,以此作为一个有效的入口,来获取我们关心的Web资源;实现了基于URL命名相似性的双语候选网页获取算法,预先定义在URL命名中常见的与特定语种相关的前后缀表,来发现一个具有命名规律性的双语网站中的双语平行网页,利用该方法可以充分挖掘出具有命名相似性的双语网站中存在的双语平行网页;改进了双语平行句对抽取技术,通过利用双语平行网页HTML结构相似性这一优点,而且牢牢把握住双语平行句对互为翻译这一本质特征,取得到了很好的效果。从双语语料库中获取翻译对的研究中探讨了如何利用汉英平行语料库进行汉英翻译等价对的抽取。首先对英文语料和中文语料分别进行词性标注和切分与词性标注,然后利用N-gram模型获得候选翻译单元,再根据统计同现函数计算候选翻译单元的翻译概率,采用迭代策略实现翻译等价对的抽取。基于搜索引擎的翻译获取的研究中首先利用主题词译文查询扩展方法从搜索引擎获取有效双语摘要资源;其次利用频度变化信息和邻接信息,从含有噪声、规模相对较小的摘要资源中抽取复合词、短语等多词候选翻译单元;最后综合音译特征、统计特征和模板特征进行专有名词译文选择。文章的最后进行了基于WEB和语料库翻译获取的性能比对,分析出各自的优缺点。
高盛祥[10]2016年在《冶金领域汉越机器翻译方法研究》文中提出机器翻译是跨语言信息交流最有效的方式,随着“一带一路”国家战略的实施,汉越机器翻译变得越来越重要。中国与越南在冶金行业有着大量合作,在冶金领域文本、科技文献、行业信息等有大量的翻译需求,对这些信息进行自动翻译对推动汉越双边冶金行业信息国际合作交流有着重要的意义。当前汉越机器翻译方面的研究工作还相对比较薄弱,尤其在特定领域的机器翻译研究工作更有限,严重制约了面向行业的跨语言信息交流。汉越语言本身存在很大差异,特定行业的翻译同时还具有很多领域特点,传统的翻译方法还不能完全适应面向冶金领域的汉越机器翻译,其面临双语领域术语获取、双语词对齐自动标注、适应于汉越语言差异特性及领域特性的机器翻译问题,结合汉越语言差异及冶金领域特性,本文开展汉越冶金领域机器翻译关键技术及方法的探讨,围绕冶金领域汉越双语术语获取、汉越双语词对齐、融合语言差异的树到树句法统计机器翻译、融合领域特性的句法统计机器翻译等关键技术展开研究,主要取得了以下创新性成果:(1)针对汉-越领域语料库稀缺而导致双语术语难于获取的问题,提出了基于枢轴语言的冶金领域双语术语自动获取方法,借助于已有的汉英、英越双语对照领域文本及科技文献,采用条件随机场模型在源语言端对汉语领域文本进行术语识别,然后,基于短语的统计机器翻译思想,构建汉语-英语短语概率表、英语-越南语短语概率表,借助枢轴的思想,通过英语枢轴的映射,获得汉语到越南语的短语概率表,并利用中文领域术语过滤汉-越短语表,构建汉-越冶金领域双语术语库。实验证明提出方法取得了很好的术语抽取效果,在汉越双语对齐资源稀缺的情况下,有效解决了汉越冶金领域双语术语抽取难的问题。(2)针对汉越词对齐自动标注问题,提出融合语言差异特性及深度学习的汉越词对齐方法,结合汉越在定语后置、状语后置和语言结构位置上的差异特点,定义语言位置转换函数及结构调整函数,并将这些函数作为约束,将语言结构差异特性融合到双向RNN学习的损失函数中,以此提升双语词对齐学习的性能及精度。汉越双语词对齐实验结果表明,提出的方法表现出很好的效果,语言特性及双向上下文信息能够有效提升词对齐效果。(3)针对汉越语言差异特点,提出了融合语言特点的汉越树到树统计机器翻译方法。语言差异特性对机器翻译有很好作用,分析汉越语言差异,定义汉越语言差异化规则,定义了定语后置奖励、时间状语后置奖励、地点状语后置奖励等语言特征,借助汉越双语词对齐语料,在模板抽取时,将语言差异特征融合到树到树翻译规则抽取过程,在解码过程中,利用语言差异规则对候选句子进行剪枝和优化,获取最优翻译序列,提高模板抽取及解码的效率和精度。汉越双语句子翻译实验结果表明提出的方法取得了很好的效果,句法差异特性的利用能够有效提升翻译的性能和精度。(4)为提升领域文本翻译效果,提出了融合领域特性的汉越句法统计机器翻译方法,分析了领域特点及其对机器翻译的影响关系,借助领域术语及语料,构建双语术语-主题分布模型、段落领域主题连贯性模型、及基于Freebase的领域知识模型,在融合语言特点的树到树的翻译模型中,将双语领域术语库、双语术语-主题概率分布、段落领域连贯性及领域知识关系应用到候选翻译的选择、组合及剪枝优化等解码过程中,从而更有效利用领域特性提升领域翻译效果。冶金领域汉越翻译实验结果表明提出的方法取得很好的效果,领域主题、段落主题连贯性、领域知识对领域文本翻译具有明显提升效果。
参考文献:
[1]. 汉英平行语料库中名词短语对齐算法的研究[D]. 薛松. 中国科学院研究生院(软件研究所). 2003
[2]. 基于规则和基于统计相结合的中英双语平行句对短语对齐方法[D]. 王思宽. 北京邮电大学. 2010
[3]. 汉英双语平行语料库中对齐方法的研究[D]. 刘冬明. 山西大学. 2004
[4]. 双语最大名词短语分析及应用研究[D]. 李业刚. 北京理工大学. 2015
[5]. 论汉英平行语料的平行处理[D]. 冯敏萱. 南京师范大学. 2006
[6]. 基于历史典籍双语平行语料库的术语对齐研究[D]. 李秀英. 大连理工大学. 2010
[7]. 基于英汉平行语料库的机器翻译知识获取研究[D]. 陈亮. 北京交通大学. 2012
[8]. 汉蒙词语对齐及相关技术研究[D]. 雪艳. 内蒙古大学. 2009
[9]. 基于文本挖掘的翻译知识自动获取研究[D]. 梁铭. 苏州大学. 2009
[10]. 冶金领域汉越机器翻译方法研究[D]. 高盛祥. 昆明理工大学. 2016
标签:计算机软件及计算机应用论文; 自然语言处理论文; 语料库论文; 双语论文; 翻译专业论文; 统计模型论文; 语言翻译论文; 对应分析论文; 翻译理论论文; 机器翻译论文; 算法论文;