导读:本文包含了基于短语的统计机器翻译论文开题报告文献综述及选题提纲参考文献,主要关键词:词对齐,抽取短语对,短语翻译模型,调序模型
基于短语的统计机器翻译论文文献综述
完么扎西[1](2018)在《基于短语的藏英统计机器翻译关键技术研究》一文中研究指出机器翻译(Machine Translation,MT)是利用机器将一种自然语言转换为另一种自然语言的过程。藏英机器翻译相关技术的研究,对于继承和弘扬民族优秀文化,增进文化交流,寻求思想的沟通;服务国家一带一路战略;推动我国藏族地区社会、经济、教育和文化事业发展等有着十分重要的现实意义。机器翻译是计算语言学(Computational Linguistics)的一个分支,涉及计算机技术、数学、认知科学、语言学、信息论等多门学科的交叉和联系,是人工智能的终极目标之一。因此,基于短语的藏英统计机器翻译相关技术的研究能够促进藏语计算语言学的实质性发展,具有非常重要的科学研究价值和实际应用价值。在20世纪90年代,Waever思想的基础上,IBM公司的Peter Brown等人提出了统计机器翻译的数学模型,将机器翻译问题看成一个噪声信道问题。采用这种数学模型的机器翻译性能远远超越了传统的基于规则的机器翻译,从此基于统计的机器翻译成了机器翻译研究的热点,并提出了基于词的、基于短语的和基于句法的翻译模型等。在这些统计机器翻译模型中,基于短语的统计机器翻译模型以模型简单、鲁棒性高和翻译性能良好而占据主流地位,成为目前研究与应用的重点。本文的研究工作建立在基于短语的统计机器翻译模型基础上,对短语翻译模型的词对齐、短语抽取、调序模型、参数训练及解码等各项关键技术问题进行了初步的探索,并以西藏大学信息科学技术学院的基于短语的统计机器翻译系统作为实验平台,力图通过改善短语翻译模型的关键问题来提高基于短语的藏英统计机器翻译性能。具体而言,本文的研究内容主要包括以下几个方面:(1)词对齐方面:本文重点研究了IBM模型1-5的词对齐技术,并阐述了词对齐领域的相关研究工作,最后采用一种基于IBM模型4的判别式词对齐方法解决了藏英单向词对齐的不足。(2)短语对抽取方面:本文重点介绍了Och的连续短语对抽取技术,并阐述了短语对抽取领域的相关研究工作。根据藏语言本身的特点,提出一种改进的短语对抽取算法并在藏英词对齐语料上抽取了更多的短语对,但同时也抽取到了很多错误的短语对。为此,本文通过一种有效的过滤方法对藏英短语翻译概率表进行了过滤,过滤掉了短语翻译概率表中大部分错误的短语对,以确保藏英短语翻译模型的精确性。(3)调序模型方面:藏英两种语言的语序差异相对复杂。本文针对这个问题,深入研究了现代藏语短语结构,整理和归纳了29种现代藏语名词性短语、动词性短语和形容词性短语等叁种主要的短语结构规则。在此基础上,分析和对比了藏英句法结构,总结了14种比较常见的藏英语序差异现象,并提出了一种基于句法信息的藏语句子重排序模型,以提高藏英机器翻译的性能。(4)模型参数训练方面:本文在对数线性模型的框架下重点研究了最小错误率训练方法的解码过程,实验中共用到了16种翻译特征,通过20次迭代训练,获得最优参数。(本文来源于《西藏大学》期刊2018-10-30)
尹瑞程,叶娜,蔡东风[2](2016)在《基于用户反馈的统计机器翻译短语表优化方法》一文中研究指出近年来,统计机器翻译技术取得了长足进展,然而在译文质量要求较高的领域,机器翻译系统产生的译文仍不够理想。随着计算机辅助翻译和交互式机器翻译技术的出现,研究人员开始利用用户反馈,从中学习翻译知识,对翻译系统的各项参数进行优化。由于不同用户的翻译经验不同,所以他们反馈翻译知识的置信度也不同。通过分析影响用户置信度的特征,得到用户置信度评价模型,并利用该模型将不同用户反馈的翻译知识进行区分,实时调整更新短语表的参数。修改的参数包括正向短语翻译概率、正向词汇化翻译概率、逆向短语翻译概率、逆向词汇化翻译概率。实验结果表明,对不同用户反馈的翻译知识进行区分,改进短语表的参数,得到的译文质量比不区分用户得到的译文质量更好。(本文来源于《沈阳航空航天大学学报》期刊2016年03期)
臧硕[3](2016)在《基于短语的统计机器翻译中的调序问题研究》一文中研究指出机器翻译是利用计算机系统在自然语言之间进行自动转换的过程,是信息时代跨语言交流的一项重要工具。多年来,机器翻译领域的研究取得了长足发展,但机器翻译系统的译文在很多应用场合依旧远未达到令人满意的水平,原因之一是统计机器翻译技术中存在一系列尚待有效解决的困难问题,如何更好地解决这些问题对机器翻译的研究有着深刻的影响。本文针对机器翻译中的一项重要的困难问题,即调序问题进行深入研究。调序问题来源于自然语言之间的语序和句法间的差异,选择正确词序的能力对机器翻译系统的译文质量有着显着影响。本文从预调序的角度入手,对调序问题及相关的语言现象进行分析,并结合机器翻译系统的原理和特性,在总结国内外现有的预调序方面的研究成果的基础上,提出了两种用于基于短语的机器翻译系统的预调序方法。本文首先提出一种基于词对齐的调序方法,该方法使用词对齐信息抽取调序所需的结构化数据,并用于训练调序模型,因此不依赖于源语言句法分析器,可应用于资源匮乏的语言。之后,本文结合具体语言对的特点以及语言学知识,提出了一种基于句法的调序方法,在本文提出的调序概率模型框架的基础上,将概率统计方法和语言学规则方法予以结合,以在树库等语言学资源存在时取得更好的调序性能和翻译质量。本文通过对调序模型的调序性能和基于调序模型的翻译系统的译文质量进行评测,并通过实验结果证明了本文提出的调序方法的有效性。(本文来源于《上海交通大学》期刊2016-01-11)
冯志伟[4](2015)在《基于短语和句法的统计机器翻译》一文中研究指出回顾了统计机器翻译发展的历程,讨论了噪声信道模型、基于短语的统计机器翻译和基于句法的统计机器翻译,主张把理性主义方法和经验主义方法结合起来,以推进机器翻译的进一步发展。(本文来源于《燕山大学学报》期刊2015年06期)
李强,李沐,张冬冬,朱靖波[5](2016)在《统计机器翻译中实例短语对研究》一文中研究指出针对由于数据的稀疏性和双语数据规模的局限性造成的大量高质量短语对没有生成的问题,在基于短语的统计机器翻译系统中,通过对传统短语抽取算法抽取的短语对进行分解、替换、生成等操作,生成传统方法无法抽取的实例短语对。在汉英新闻和汉英口语翻译任务上,与基线系统相比,该方法在多个测试集上明显提高了翻译系统的翻译质量,在部分测试集上BLEU值可提高1%左右。(本文来源于《北京大学学报(自然科学版)》期刊2016年01期)
张小军,张宇[6](2015)在《短语抽取算法在短语统计机器翻译中的应用》一文中研究指出短语抽取算法在短语统计机器翻译中应用得较多,这种方法可以有效进行短语抽取,提高短语统计机器翻译的准确性和效率。本文对短语抽取算法和短语统计机器翻译做了具体介绍,通过对两者的介绍可以对两者有更好的了解。同时也对短语抽取算法在短语统计机器中的应用做了一个分析,对短语抽取算法运行的步骤以及改进措施做了详细的介绍,通过这些能够使短语抽取算法在短语统计机器翻译中更好发挥作用。(本文来源于《黑龙江科技信息》期刊2015年27期)
曲宇涛[7](2015)在《基于短语的统计机器翻译解码优化技术研究》一文中研究指出机器翻译是自然语言处理领域的一个重要分支,它是指借助计算机自动地把一种自然语言翻译成另一种自然语言的过程。基于短语的统计机器翻译模型是应用最广泛的统计机器翻译模型,它具有优异的翻译性能和较高的鲁棒性,是目前统计机器翻译的研究热点。解码器是基于短语的统计机器翻译系统中最为核心的模块,翻译的具体过程就是通过解码器完成的。解码器的设计与实现直接影响翻译系统的翻译性能和解码速度。在解码的过程中,由于只能看到局部翻译假设,根据局部翻译假设的得分进行剪枝就很有可能造成搜索错误,即把未来可能更好的翻译假设剪掉。本文研究的主要内容是对基于短语的统计机器翻译系统中的解码进行优化,目的是减少解码的搜索错误,提高翻译系统的翻译性能。具体分为以下两个方面:(1)解码算法优化:对于栈解码算法,本文使用调序距离限制和标点符号限制改进了原始栈解码算法的解码速度和翻译性能。同时,本文提出分组剪枝策略,使得更可比的翻译假设分到同一个组中,然后对各个假设分组分别进行剪枝。根据各个假设分组在高质量候选集合中的分布,设置相应假设分组将要保留的翻译假设个数。(2)动态区分性翻译模型:本文提出动态区分性翻译模型,目的是利用更多的上下文信息,动态地评价短语对之间翻译的可能性,从而使得翻译系统选择更适合上下文信息的正确翻译片段。动态区分性翻译模型的核心是利用双语句对间的词对齐信息产生大量区分性特征,同时利用翻译解码过程中产生的错误进行正负例区分性学习。本文使用神经网络训练动态区分性翻译模型。在大规模数据上的实验结果显示,本文所提出的解码优化技术,可以在一定程度上减少解码的搜索错误,提高了基于短语的统计机器翻译系统的翻译性能。(本文来源于《东北大学》期刊2015-06-01)
刘江鸣[8](2015)在《融合日语格语法的层次短语统计机器翻译研究》一文中研究指出机器翻译是利用计算机实现不同语言间翻译的一门科研型和应用型的学科。随着科技的发展,现在社会信息量膨胀。机器翻译在旅游会话、产品全球化和信息检索等领域的需求量越来越多。近几年,机器翻译研究取得了很大的进展。但是,在具体应用中,机器翻译还未达到令人满意的水平。在统计机器翻译中,如何有效利用语言学知识仍然是机器翻译中的一个研究热点。在市场应用中,统计机器翻译方法仍然占据主导地位。所使用的模型主要有短语模型和层次短语模型。由于涉及到句法结构的翻译模型比较复杂,因此其往往很难投入到产品中。然而,随着计算能力的提高,融合语言学和句法知识的翻译模型潜力巨大。因此,如何使用句法知识和语言学知识提高传统模型成为了主要问题。格语法是语言学中成熟的语法理论。在众多语言中,日语格是一种显性格,格信息由不同的格助词标记。因此,日语的格框架较其他语言更加明显且容易分析。此外,日语格框架已被使用于日语句法分析,较其他任何语言,日语句法分析得到了最好的效果。因此,本文提出将日语格框架应用于层次短语模型中。这是在统计机器翻译中的首次尝试。本文的贡献可分为以下几点:(1)利用日语格框架约束层次短语翻译规则,从语义学的角度阐述层次短语规则的生成,使其更加合理。目的在于更加有效地利用统计学与语言学之间的关系。实验表明层次短语规则数量减少。(2)提取日语格框架调序规则,并将其用于翻译过程。目的在于缓解层次短语在长距离调序中,glue规则的频繁使用。并且,本文考虑词对齐的错误带来的影响,在规则抽取过程做了软约束。实验表明提高了翻译质量。(3)提出基于chunk的依存树到串的上层翻译过程,使翻译过程更加符合规则的描述。目的在于缓解虚词和助词在词对齐上的影响。通过实验分析,本文证明了提出方法的合理性及有效性。(本文来源于《北京交通大学》期刊2015-03-18)
孙水华,丁鹏,黄德根[9](2015)在《利用句法短语改善统计机器翻译性能》一文中研究指出短语表是基于短语的统计机器翻译系统的一个核心组成部分,基于启发式方法抽取到的短语表受单词对齐错误和未对齐词的影响严重,同时抽取到的短语也并非句法意义上的短语。该文提出一种基于EM(Expectation-maximization)算法的双语句法短语抽取方法来抽取双语句法短语,此方法可以通过不断迭代的方式使各参数值达到最优。通过加入双语句法短语、增加新特征、重新训练叁种不同的方法,将获得的双语句法短语与基于短语的统计机器翻译方法结合以提高统计机器翻译系统的性能。结果表明:叁种方法都不同程度提高了译文的BLEU(BiLingual Evaluation Understudy)值,其中增加新特征方法提高了0.64个点。(本文来源于《中文信息学报》期刊2015年02期)
苏传捷[10](2014)在《基于层次短语模型的蒙—汉统计机器翻译研究》一文中研究指出随着我国经济、贸易、文化、教育等各个方面飞速发展,跨地区、跨民族的交流与合作越来越密切。不同民族之间的交流对翻译存在巨大的需求。近些年来,我国内蒙古自治区的经济发展十分迅猛,越来越多的企业与个人来到内蒙古地区进行贸易活动。这使得人们对传统蒙古文到汉文之间的翻译的需求越来越大。然而,人工翻译满足不了快速膨胀的需求,因此必须借助统计机器翻译技术。目前主流的统计机器翻译方法包括:基于短语的机器翻译、基于层次短语的机器翻译、基于句法树的机器翻译等。目前,传统蒙古文-汉文的机器翻译发展得还不是很成熟。因此,本文针对传统蒙古文-汉文翻译中的特点,对基于统计的蒙-汉机器翻译方法进行了研究。首先,为了解决蒙-汉语言结构差异大、在翻译中普遍存在长距离调序等问题,本文对基于层次短语的统计机器翻译模型进行了深入的研究。之后,本文实现了一套基于层次短语的蒙-汉统计机器翻译系统。该系统可以从未经人工标注的平行语料中自动学习加权的同步上下文无关文法(WSCFG),并利用该同步文法以及基于改进的CKY的解码算法进行高效的蒙-汉翻译。除此之外,针对蒙-汉统计机器翻译平行语料中拼写错误较多的问题,本文提出了一种基于统计翻译框架的传统蒙古文自动拼写校对方法。该方法将拼写校对的过程看作是一种翻译的过程,并引入统计翻译模型进行拼写校对。该方法的校准率最高可以达到97%以上。在最终的翻译对比实验中,本文使用这种方法对基于短语和基于层次短语的蒙-汉机器翻译的训练语料进行的拼写校对。该方法有效缓解了数据的稀疏问题,从而对翻译模型的训练提供了很大的帮助。最终的对比实验表明,比起传统的基于短语的翻译模型,基于层次短语的统计机器翻译模型更加适合从传统蒙古文到汉文的翻译任务,测试集在BLEU值上得到1个百分点的提高。同时,在这两种翻译系统上嵌入的本文提出的拼写校对系统,翻译结果均有不同程度的提升。(本文来源于《内蒙古大学》期刊2014-04-30)
基于短语的统计机器翻译论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
近年来,统计机器翻译技术取得了长足进展,然而在译文质量要求较高的领域,机器翻译系统产生的译文仍不够理想。随着计算机辅助翻译和交互式机器翻译技术的出现,研究人员开始利用用户反馈,从中学习翻译知识,对翻译系统的各项参数进行优化。由于不同用户的翻译经验不同,所以他们反馈翻译知识的置信度也不同。通过分析影响用户置信度的特征,得到用户置信度评价模型,并利用该模型将不同用户反馈的翻译知识进行区分,实时调整更新短语表的参数。修改的参数包括正向短语翻译概率、正向词汇化翻译概率、逆向短语翻译概率、逆向词汇化翻译概率。实验结果表明,对不同用户反馈的翻译知识进行区分,改进短语表的参数,得到的译文质量比不区分用户得到的译文质量更好。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
基于短语的统计机器翻译论文参考文献
[1].完么扎西.基于短语的藏英统计机器翻译关键技术研究[D].西藏大学.2018
[2].尹瑞程,叶娜,蔡东风.基于用户反馈的统计机器翻译短语表优化方法[J].沈阳航空航天大学学报.2016
[3].臧硕.基于短语的统计机器翻译中的调序问题研究[D].上海交通大学.2016
[4].冯志伟.基于短语和句法的统计机器翻译[J].燕山大学学报.2015
[5].李强,李沐,张冬冬,朱靖波.统计机器翻译中实例短语对研究[J].北京大学学报(自然科学版).2016
[6].张小军,张宇.短语抽取算法在短语统计机器翻译中的应用[J].黑龙江科技信息.2015
[7].曲宇涛.基于短语的统计机器翻译解码优化技术研究[D].东北大学.2015
[8].刘江鸣.融合日语格语法的层次短语统计机器翻译研究[D].北京交通大学.2015
[9].孙水华,丁鹏,黄德根.利用句法短语改善统计机器翻译性能[J].中文信息学报.2015
[10].苏传捷.基于层次短语模型的蒙—汉统计机器翻译研究[D].内蒙古大学.2014