李剑[1]2005年在《英汉机器翻译中的句型转换和译文生成》文中研究表明随着对外交流的日益广泛,机器翻译的研究与实现有着重要的现实意义。同时,机器翻译的研究对于自然语言理解、人工智能、计算语言学等学科的研究也起着重要的推动作用,并对促进情报获取工作发展具有重要的意义。 机器翻译(MT)就是应用计算机实现从一种自然语言文本到另一种自然语言文本的翻译。20世纪90年代以来,机器翻译的方法基本上可分为两大类:理性主义的基于规则的方法和经验主义的基于语料库的方法。 本文以军队某部重点科研项目——英汉智能型机器翻译系统为基础,设计实现了机器翻译中的句型转换和译文生成等功能。本文首先论述了课题背景与意义,介绍了机器翻译的发展与研究现状及系统概况。然后对英汉两种语言进行对比研究,论述了英汉语言的特点及差别,并给出相应的消歧策略。接着重点介绍了句型转换和译文生成模块的设计、实现过程。最后给出系统实验结果。 针对英语中的疑问句等特殊句型,系统采用了利用句型转换对其进行处理的新策略。在格语法的基础上,本文提出了扩展的基于信息的格语法(EICG),并设计实现了基于EICG的句型转换器,将各种特殊句型转换为陈述句语序。 翻译是一个高度智能化的过程,单纯的运用某种方法都不能取得比较理想的翻译效果。因此,本文将经验主义的方法和传统的基于规则的方法相结合,在传统的规则体系下,引入翻译模式的支持,两种方法相互补充,设计实现了用于完成源语言的转换和生成工作的译文生成模块。 在基于模式的方法中,基于范例推理的思想,研究了语法信息和语义信息相结合的相似度计算方法。对原有匹配算法进行改进,设计了基于动态规划的句子相似度匹配算法及匹配原则。并给出语义相似度计算公式,通过语义相似度计算来保证对模式进行精确匹配。在基于规则的方法中,针对翻译中遇到的一词多义、介词附着等问题,结合本系统特点,制定了具有本系统特色的翻译规则对各种歧义情况进行处理,完成了短语级目标生成及句子级结构转换等功能。 在实验阶段,按照国家《机器翻译评测大纲》对系统分别进行了开放性和封闭性测试,由专家对译文质量进行了评估,并对实验结果进行了错误分析。实验表明,系统的译文质量可以达到87.5,翻译正确率可以达到88%。
刘鹏远[2]2008年在《基于知识自动获取的无指导译文消歧方法研究》文中提出这是个互联网的世界,使用高效的搜索引擎在互联网获取信息已经成为当代人们获取信息的最重要手段。在日益国际化的信息中,不同种语言之间的理解与处理一直存在着难以逾越的鸿沟,这就形成了人们对机器翻译、跨语言信息检索与处理的迫切需求。目前对此研究仍有诸多难题亟需解决,其主要之一就是,如何为源语言多义词选择语义正确对应的目标语译文词汇的问题,称之为译文消歧。译文消歧及与之相似的在单语范畴内的词义消歧一直是自然语言处理领域基础研究课题,它也是自然语言处理技术的重点和难点之一。针对译文消歧及词义消歧的现状,通过对各类无指导消歧方法的比较分析,本文认为,目前无指导译文消歧的关键问题是消歧知识的自动获取与利用、克服数据稀疏及双语语义词典建设。因此,本文没有在机器学习算法、消歧特征选择等问题上做过多的研究与探讨,而是充分关注与挖掘无指导译文消歧方法中最核心的内容——知识获取,利用这些消歧知识来完成无指导译文消歧任务,同时克服数据稀疏问题。由此思想出发,本文提出了一系列逐步递进的无指导译文消歧知识获取以及消歧的创新方法,这些创新方法均利用了国际标准语义评测语料进行评测与对比分析,并均超过了以往可比较的最好无指导系统。最后,本文还进行了另一个关键问题的研究,即双语语义词典的自动构建。本文具体研究内容包括以下几个方面:1.自动获取带标记目标语语料,并直接形成译文消歧模型,提出利用该模型进行译文消歧的方法。在此基础上,提出了等价伪译词概念以及等价伪译词的构造方法,并以此实现无指导的译文消歧。最后在国际语义评测数据集Senseval-2 ELS上进行了实验与比较;2.通过对双语语料库间接关联的观察,提出利用双语词汇间接关联度的完全无指导译文消歧方法。在计算间接关联度的过程中充分利用了Web资源,设计了Web的词汇间接关联度(Web_IA)的计算方法,在消歧过程中利用了叁种不同的决策方法进行决策。随后,针对基于间接关联方法的不足,本文将整个Web视为语义词典,直接利用Web进行双语词汇语义相关度(WBR)的定义分析以及计算。经过对WBR方法在一个经改造处理的标准语义相关度测试集上的比较实验,证明该方法可行后,设计了基于WBR的完全无指导译文消歧方法,并在同一个国际标准语义评测数据集Semeval2007上的task5与基于Web_IA方法做了详细的对比实验;3.通过对歧义词同义词集合内词汇语句序列的观察,提出了一种基于Ngram语言模型以及Web挖掘的无指导译文消歧方法。该方法认为歧义词不同词义所对应的N-gram语言模型模式不同,且利用的是语言模型知识而非语义知识。随后在同一个标准集上的对比评测表明,该方法取得了极为优异的性能。性能超过了该任务可比较最好无指导系统TorMD12.8%(Pmar值),最后,还进行了基于语言模型的方法与基于语义模型的方法的详细比较及性能上限的讨论;4.研究了利用WordNet、HowNet以及大规模双语平行语料库自动生成面向译文消歧的的双语词典的方法。该方法充分利用大规模平行语料库内丰富的词汇对齐知识以及各项统计信息,利用WordNet及HowNet语义资源的相似度计算,形成了一部同时带有双语语义信息及语料库统计信息的词典。综上所述,本文基本上给出了面向知识自动获取的无指导译文消歧的一整套解决方案,特别是其中基于Web的各种方法,为自然语言处理中的难题之一——译文/词义消歧,在基于Web搜索的研究思路上进行了初步探索。
胡兰方[3]2013年在《英汉机器翻译中的歧义和消歧研究》文中提出机器翻译在经历了六十多年的发展后,其翻译质量依然没有取得突破性的进展。其中,“歧义”依然是一个大问题。鉴于歧义的不同划分标准,以及作者分析讨论的方便,本文中所讨论的歧义主要着眼于词汇歧义、句法歧义、语义歧义和语用歧义。因此,本文的一个目的就是从纯语言学的角度来探寻英汉文本中的歧义现象,以期对英汉机器翻译中所涉英、汉两语言领域中歧义的不同类型提供一个概括性的汇总。自然语言中歧义现象的存在有着十分复杂的原因,任何人企图用一个简单的公式或原理来完全消除歧义都是行不通的。考虑到机器翻译的一个重要目的就是为使用者提供信息,因此,我们将采用目的论(Skopostheorie,即翻译过程中的最主要因素是整体翻译行为的目的)作为消歧的理论基础;译入语和原语的“适当性或恰当性而不是对等性或精确性”作为消歧的原则。基于此构想,本文主要着眼在英汉文本语言中歧义的相似性,综合并重点讨论了词汇消歧和句法消歧。对于词汇消歧,我们试探性地提出了语料库策略,知识策略以及统计学策略;而对于句法歧义,我们则探讨了规则策略和混合策略。围绕着对英汉机器翻译中歧义和消歧的研究主题,我们采取了一种综合的方法,即定性研究和抽样举例,来收集数据。定性研究致力于回答英汉机器翻译中存在着什么类型的歧义以及如何消歧的问题;而抽样举例则是为了给歧义类型和消歧策略的分析提供代表性的例子。通过该研究,我们发现英汉歧义都是普遍存在且很复杂的一种现象,而英汉机器翻译系统在处理该问题时依然还有很多局限性以及诸多不如意之处。但鉴于歧义的复杂性,消歧之路注定了是曲折和漫长的。总之,在英汉机器翻译中,无论是英语歧义和消歧,还是汉语歧义和消歧,都还需要做更多的研究、投入更多的时间和精力。
马建军[4]2012年在《面向机器翻译的英语功能名词短语识别研究》文中提出英语名词短语识别在机器翻译中有着重要的作用。现有英汉机器翻译的瓶颈之一就是名词短语的歧义消解问题。本文提出一种英语功能短语及其自动识别方法,以消除英汉机器翻译中的名词短语结构歧义。基于名词短语在小句中的功能语法来确定名词短语的边界,这样的名词短语在本文中称为功能名词短语。研究工作主要包括英汉机器翻译中的名词短语结构歧义问题分析、英文词性自动标注和英文短语识别等研究。本文构建了一个小规模的商务领域英汉双语平行语料库作为研究语料,包含20万英文词和27万汉字。(1)英汉机器翻译中的名词短语结构歧义问题。基于忠实度与流畅度合并的机器翻译人功能评价方法,对SYSTRAN和GOOGLE机译系统的英汉机器翻译结果进行评测,分析了机器翻译中的词义歧义和句法歧义问题;在此基础上,归纳了机器翻译中名词短语的结构歧义问题。研究表明,不论是词义歧义问题还是句法歧义问题,都与名词短语的识别和理解有很大的关系。其中,N1+prep+N2是引起歧义的最典型的表层结构,这种表层结构容易引起的歧义主要体现在:与动词构成固定搭配的名词歧义问题;小品词引起的歧义问题;“介词+名词”作后置定语的歧义问题;以及“介词+名词”作状语的歧义问题等四种名词短语结构歧义。(2)研究面向英汉机器翻译的英语词性标注。研究了一个应用于机器翻译的英语词性标注系统,为功能名词短语的识别研究提供词性知识。在预实验的基础上,对宾州树库标注集进行细化和改进,形成了本文的词性标注集。依据此标注集,采用最大熵模型结合语言规则的方法进行了标注词性。实验结果表明,开放测试的精确率达到98.14%,未登录词的精确率为85.65%。(3)研究英语功能名词短语识别。本文识别了名词短语的边界和句法功能。首先依据系统功能语法,归纳了功能名词短语在小句中的功能,形成了本文的功能块标注集;其次选择了条件随机域模型结合语义信息和规则的方法进行了名词短语识别。为检验本文的词性标注集在功能名词短语识别中的作用,在开放测试中还选择了斯坦福标注器作为比较。实验结果表明,结合金标准词性实验的F值达到了89.04%。此外,使用本文的词性标注集有助于提高名词短语的识别,比使用宾州树库标注集提高了2.21%。
杨小勇[5]2011年在《英汉机器翻译中的歧义及消歧方法》文中研究表明排除语言歧义是机器翻译中最难的难题,如果语言歧义不能排除,机器翻译的译文质量就不会有质的提高。本文从词汇歧义和句法歧义两方面对英语语言中的歧义现象进行分析,阐明其形成过程,探析其形成原因,并提出英汉机器翻译的一些消歧方法,以提高机器翻译的译文质量。
冯敏萱[6]2006年在《论汉英平行语料的平行处理》文中进行了进一步梳理平行语料库研究是近年来语料库语言学横向发展的新趋势。人们已经清楚认识到大规模的高质量汉英平行语料库在自然语言处理、比较语言学研究和第二语言教学等众多领域中的巨大价值。但与单语语料库相比,汉英平行语料库无论在规模还是质量上都有较大差距。 为了进一步提高汉英平行语料的加工精度以适应建设和利用大规模平行语料的要求,本文以汉英平行语料的平行处理为主要研究对象,旨在利用双语信息,尤其是来自另一语言的信息来解决平行语料中某一语言的歧义问题。 本项研究主要取得了以下几方面成果: 第一,系统研究了平行处理技术。不仅明确了平行处理的含义,它在平行语料加工中的地位及价值,以及平行语料中用于消歧的语言资源层次及类别等等,而且还通过实验详细论证了平行处理技术在未登录词识别、词性标注、词义标注及句法分析等自然语言处理各层面的利用方法及有效性。 第二,平行处理技术是汉—英和英—汉双向的。我们不仅利用英语来解决汉语的歧义问题,包括汉语未登录词识别、汉语兼类词和多义词标注以及汉语“动词+名词”短语类型识别等,而且也利用汉语来解决英语歧义,例如英语的词性消歧和词义消歧等。 第叁,在未经词汇对齐的平行语料中,实践了基于个性规则的词性、词义消歧方法。统计模型适于自动处理数据密集的问题,本文对英语人名汉译名的平行识别就主要使用了统计方法,精确率达到99.45%。而对于一些统计处理消歧效果较差、但出现频率又很高的词语,我们手工编写针对性极强的消歧规则。这些规则具有不受上下文长度和模板数量限制、特别适合于双语平行处理、消歧效果好等优点。我们为5个典型兼类词(过去、计划、与、back、so)和5个典型多义词(地方、所有、等、since、state)设计的平行处理算法,在大规模英汉或汉英平行语料中得到了验证,观察语料中的标注精确率均为100%,各类型语料中的总体精确率最高为100%,最低的也达到了96.59%,这比目前仅利用单语进行词性和词义消歧的成绩有了大幅度提高。 第四,精加工了1000句对的汉英平行语料。我们首先统计分析了这1000句对中汉英双语的词频、字词录入错误、普通未登录词、兼类词和多义词以及汉语的分词歧义字段、“动词+名词”序列等信息,然后利用平行处理技术,结合人工校对,消除了其中全部的句对齐、字词录入、分词和词性j际注错误,以此作为今后建设和加工大规模平行语料的可信资源。 综上所述,统计和规则相结合的平行处理技术,可以有效解决平行语料库中汉语或英语在单语处理时的许多困难问题,有利于更好地实现汉英机器翻译知识的自动获取。
凯丽比努·阿布都热合曼[7]2007年在《现代维吾尔语同形多义结构研究》文中进行了进一步梳理自瑞士语言学家费尔迪南·德·索绪尔始,语言研究从传统语言学理论的框架中走出,进入了一个新的阶段。在这期间,同形多义结构研究被许多语言学家关注,也有了一些进步。例如,在美国语言学家列昂纳德·布龙菲尔德的《语言论》,查尔斯·佛朗西斯·霍凯特的《语言学教程》和阿夫莱姆·诺姆·乔姆斯基的《句法结构》中,把歧义现象作为描写和解决的对象来描写和分析,并探求产生这种现象的原因和内在要素。现代维吾尔语里存在大量的同形多义结构现象,它们是一种普遍存在于语言之中的普遍的语言现象.现代维吾尔语是一种音(除近音词以外)形一致的语言,它的这种特性促使它较多地产生音形同一,但意义不同的语言现象。透过这种错综复杂的同形多义结构可探讨其深层的语法关系,又能解释和研究语言。现代维吾尔语的同形多义结构是由语言的各个层面的加入而形成的。在维吾尔语词汇或词典里收入大量的构成现代维吾尔语同形多义结构的材料即同形同音词,多义词,而这又是维吾尔语比较突出的语言现象,因为它们的书写形式与读音完全一样。现代维吾尔语研究中,许多学者仅仅注意到了语言(?)汇中的同形现象即同形同音词和多义词研究,或者停留在语言句法层面上的歧义研究领域中.我们发现,语言的语义和语用层面上的同形多义结构现象更为复杂也更值得我们去关注。本文中我们首先明确同形多义结构和构成它的各种条件,它在语言不同层面上的构成特点及功能。我们以意义为基础把它分为同形歧义结构和同形双关结构。按照这两类结构的特点及功能我们又对它们进行了分类和分析,提出了常见歧义格式和它的消除方法。同形歧义结构是应该避免的,即便是触发,也应立即排除,因为同形歧义结构会给人们的交际带来障碍,因此是应该竭力避免的。消除同形歧义结构的方法有:词汇替换法,补充法,改变结构或句型,语调法,加词法等。同形双关结构是一种我们应该积极利用的语言结构,维吾尔语修辞格中的双关,比喻,反语,委婉语等都是它所应用的领域。同形双关结构的积极面主要表现在它的语用功能如幽默诙谐,反语讽刺,委婉含蓄,自我保护等。因此,帮助学生意识到同形双关结构的积极方面是有必要的。它能够培养学生的文学欣赏能力,从而提高自身的阅读和写作能力。并且在语言交际过程中,自觉地利用它的语用功能,使语言更加丰富,生动,有感染力。论文对现代维吾尔语同形多义结构的触发,消除和利用的全过程的研究,旨在证明语言是多层面,多因素相互协调又相互制约的对立统一系统。因此,同形多义结构的分析给现代维吾尔语教学以一定的启示,在语言教学中,对同形多义结构的分析能帮助学生从各个层面了解语言单位以及它们之间的关系。同时,它能帮助学生建立个人语言观,掌握语言学习的方法。通过同形多义结构的研究,学生也能认识到从各个方面来学习语言的重要性。同形多义结构研究给维吾尔语教学一定的启示。它有助于学生树立全面的辩证的语言观,帮助学生按照语言的规律学习语言。不仅学习语言结构形式,而且学习它的各种变化和矛盾,学习它的意义,学习它的运用,从而克服片面地死抠语法,或机械背诵单词等毛病。
参考文献:
[1]. 英汉机器翻译中的句型转换和译文生成[D]. 李剑. 中国人民解放军信息工程大学. 2005
[2]. 基于知识自动获取的无指导译文消歧方法研究[D]. 刘鹏远. 哈尔滨工业大学. 2008
[3]. 英汉机器翻译中的歧义和消歧研究[D]. 胡兰方. 河南工业大学. 2013
[4]. 面向机器翻译的英语功能名词短语识别研究[D]. 马建军. 大连理工大学. 2012
[5]. 英汉机器翻译中的歧义及消歧方法[J]. 杨小勇. 考试周刊. 2011
[6]. 论汉英平行语料的平行处理[D]. 冯敏萱. 南京师范大学. 2006
[7]. 现代维吾尔语同形多义结构研究[D]. 凯丽比努·阿布都热合曼. 新疆大学. 2007
标签:中国语言文字论文; 自然语言处理论文; 语料库论文; 语义分析论文; 机器翻译论文; 语言翻译论文; 翻译理论论文; 功能分析论文; 双语论文;