统计语言模型论文_张克君,史泰猛,李伟男,钱榕

导读:本文包含了统计语言模型论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:模型,语言,生物学,机器翻译,短语,算法,递归。

统计语言模型论文文献综述

张克君,史泰猛,李伟男,钱榕[1](2019)在《基于统计语言模型改进的Word2Vec优化策略研究》一文中研究指出该文从训练词向量的语言模型入手,研究了经典skip-gram、CBOW语言模型训练出的词向量的优缺点,引入TFIDF文本关键词计算法,提出了一种基于关键词改进的语言模型。研究发现,经典skip-gram、CBOW语言模型只考虑到词本身与其上下文的联系,而改进的语言模型通过文本关键词建立了词本身与整个文本之间的联系,在词向量训练结果的查准率和相似度方面,改进模型训练出的词向量较skip-gram、CBOW语言模型有一个小幅度的提升。通过基于维基百科1.5GB中文语料的词向量训练实验对比后发现,使用CBOW-TFIDF模型训练出的词向量在相似词测试任务中结果最佳;把改进的词向量应用到情感倾向性分析任务中,正向评价的精确率和F1值分别提高了4.79%、4.92%,因此基于统计语言模型改进的词向量,对于情感倾向性分析等以词向量为基础的应用研究工作有较为重要的实践意义。(本文来源于《中文信息学报》期刊2019年07期)

张家俊,宗成庆[2](2017)在《神经网络语言模型在统计机器翻译中的应用》一文中研究指出近两年来,神经机器翻译(Neural Machine Translation,NMT)模型主导了机器翻译的研究,但是统计机器翻译(Statistical Machine Translation,SMT)在很多应用场合(尤其是专业领域)仍有较强的竞争力。如何利用深度学习技术提升现有统计机器翻译的水平成为研究者们关注的主要问题。由于语言模型是统计机器翻译中最核心的模块之一,本文主要从语言模型的角度入手,探索神经网络语言模型在统计机器翻译中的应用。本文分别探讨了基于词和基于短语的神经网络语言模型,在汉语到英语和汉语到日语的翻译实验表明神经网络语言模型能够显着改善统计机器翻译的译文质量。(本文来源于《情报工程》期刊2017年03期)

姜加明[3](2017)在《基于统计语言模型和程序静态分析的代码帮助技术研究》一文中研究指出由于软件系统规模越来越大,因此开发者往往采用成熟的框架、软件库来进行开发,以提高软件开发的效率和质量。然而,即使是有经验的程序员要想学习并记住不断增长的、大量的API也是很困难的。研究者提出了许多新技术应用于代码帮助系统来帮助开发者熟悉和使用这些API。但是,目前许多主流代码帮助系统都存在一定缺陷。比如,一部分研究者认为大多数的软件是“自然”的,并用自然语言处理中的方法进行API元素的推荐。自然语言处理模型具有高效的特点,但是该方法无法利用代码中的结构化信息。为了利用结构化信息,另一部分研究者提出了一种基于图模型的方法。基于图模型的方法准确度高,但是图的存储占据较大空间,且由于需要进行图匹配,该方法的时间效率低。为了结合自然语言处理模型和基于图模型方法的优势,本文考虑将程序的结构信息转化为序列。由于程序的控制流图中记录了程序的部分结构信息,通过提取控制流图中局部结构里全部的API方法调用序列,可以将程序控制流图中的局部结构信息(如分支、循环等)以序列的形式表示出来。然后,就可以将方法调用序列类比于自然语言处理中的语句,利用统计语言模型进行训练、预测。基于以上分析,本文提出了基于程序控制流图的N元模型,即Pro-N-gram模型,并实现了 Eclipse插件,将模型应用于代码帮助中。首先,提出了一种利用程序控制流图生成基于程序的N元API方法序列(即Pro-N-gram)的技术。通过分情况分析控制语句结构构建了语句级控制流图,并利用解析复杂调用来根据语句级控制流图生成方法级控制流图,然后利用PPA(Partial Program Analysis)工具解析方法的全限定名并替换控制流图中的节点内容。接着,通过在控制流图中进行广度优先遍历查找所有基于方法的N元序列Pro-N-gram,并进行计数统计。最后,针对控制流图和自然语言的差异,我们采取重计算保证Pro-N-gram模型与自然语言模型的一致性,并提出多上下文的情况下预测空缺方法的Pro-N-gram代码帮助模型。本文的主要创新性及贡献点在于:(一)使用PPA解析方法全限定名,从而消除了不同类中存在同名方法带来的方法名歧义,同时防止了方法名词典过大。(二)提出一种静态分析方法,用于生成方法级控制流图。并利用广度优先遍历提取基于API方法的N元序列,这些序列记录了所有可能的方法执行顺序,并能编码控制流图中的局部结构信息。(叁)将语言模型与程序控制流图结合。利用上述构造的基于方法的N元序列,并结合N-gram语言模型,提出可以根据多上下文预测空缺方法的Pro-N-gram代码帮助模型。(本文来源于《武汉大学》期刊2017-05-01)

惠益龙,张太红,吕莲花,王蓓蓓[4](2017)在《语音识别中的统计语言模型研究》一文中研究指出就语音识别中所用到的语言模型进行了详细阐述,对语言模型中涉及到的N-gram模型进行了解析,以及对在训练语言模型过程中遇到的零概率问题相应的平滑处理方法进行了讲解。利用N-gram训练的语言模型运用到语音识别中,取得了相当好的效果。(本文来源于《信息技术》期刊2017年01期)

钱柯[5](2016)在《基于统计语言模型的搜索引擎输入纠错技术研究》一文中研究指出在信息化飞速发展的今天,搜索引擎在互联网上扮演着越来越重要的角色,日益增多的互联网用户对搜索引擎的要求也变得越来越高.其中,搜索引擎输入纠错功能是一项非常重要的附加技术,并且已经得到了较为广泛的应用和推广.因此研究搜索引擎的纠错技术对于搜索引擎的发展有着重要深远的意义.纠错技术是自然语言处理的重要研究课题之一.针对中文文本的纠错研究相较于英文起步较晚.目前主要分为基于词典和基于统计模型这两大方法.基于词典的纠错受限于词典的规模和内容,而基于统计模型的方法则是基于海量实例,分析语言内在之间的关系,无需专门词典来实现.用于纠错的统计模型有有基于互信息概率,基于N-gram模型,基于组合度的汉语决策等.本文提出一种完全通过分析上下文统计信息的方法.为了论证本文方法的可行性,以Nutch和Hadoop为基础搭建分布式搜索引擎平台进行实验验证.本文主要完成以下工作:为了构架良好的搜索引擎平台,本文首先介绍了主流的索引机制—倒排索引.本文分析介绍了倒排索引的性能模型以及压缩技术,同时对该索引机制的性能与一般索引进行分析比较,计算倒排索引创建的时间复杂度和空间复杂度,进而引出良好应用倒排索引,构架搜索引擎的工具包Lucene.由Lucene搭建起搜索引擎Nutch.由于实验环境需要大数据,因此采用分布式平台,详细介绍了由Nutch+Hadoop搭建的分布式搜索引擎.由于汉语理论研究存在局限性,因此要想实现对检索引擎输入的内容实现纠错功能,就需要对中文语料库建立了N-gram语言模型,并对其进行详细的分析,确定语言模型所必须的参数,并通过平滑技术解决数据稀疏问题.基于大量语料库,通过N-gram模型纠错后的关键词可能存在相同的结果,利用TF-IDF计算初步处理后结果的权重,筛选结果,以此得到最佳的结果集.(本文来源于《江苏科技大学》期刊2016-12-29)

刘林,付琦,武丽萍[6](2016)在《研究汉语语言模型的规模对统计机器翻译系统的影响》一文中研究指出文章主要针对汉语语言模型规模大小的具体情况以及语法元数在英汉统计机器翻译系统的影响进行研究分析。在研究过程中,主要是通过相应的模型进行实验,通过相应的研究分析,最终表明层次短语的翻译系统的翻译效果明显高于基于短语的翻译系统,对于不同语言的模型来说,其元数以及规模对具体的翻译效果都具有很大的影响。(本文来源于《电脑知识与技术》期刊2016年35期)

方刚,张社民[7](2016)在《利用统计语言模型对GenoCAD设计结果进行优化》一文中研究指出GenoCAD(www.genocad.com)是一种基于Web的免费合成生物学设计软件,使用它可以进行表达载体及人工基因网络设计。不断地点击代表各种合成生物学标准"零件"的图标,以一种语法进行设计,最后就可以得到由数十个功能片段组成的复杂质粒载体。但是一般来讲在GenoCAD中,每一类的合成生物学标准"零件"数量众多。随着这些标准"零件"的不断开发,其数量也在进一步增加,目前选择合适的"零件"组装成功能性的质粒载体费时费力并且容易发生错误。在进行载体设计的最后阶段,从众多的"零件"中选择合适的往往比较困难。为解决这一问题,采用自然语言处理的统计语言模型,并以该模型为基础应用动态规划算法优化质粒载体设计,从众多的选项中找出最优者。利用这一方法可以减少进行生物学实验的冗余操作,从而减少载体构建过程中的花费。(本文来源于《统计与信息论坛》期刊2016年08期)

方刚[8](2016)在《基于统计语言模型及动态规划算法的蛋白质表达载体的优化设计》一文中研究指出针对合成生物学基因片段组装中选择最优"零件"组装功能性蛋白质表达载体费时且易出错的问题,提出一种基于引入统计语言模型(SLM)与动态规划算法的蛋白质表达载体设计方法.该方法通过统计合成生物学标准"零件"(Bio Brick)的参数,将基础"零件"组装过程转化为SLM,用动态规划算法找到最优路径,以实现蛋白质表达载体的设计.实验结果证明该方法准确率高,可以减少真实装配过程的冗余操作,节省时间和费用,可用来优化其他合成生物学软件设计结果,也可独立使用来模拟装配合成生物学基因片段产生蛋白质表达载体,还可被迭代从而给出不同的优化结果供选择.(本文来源于《轻工学报》期刊2016年04期)

方刚,张社民[9](2016)在《叁元统计语言模型对基因表达载体设计的优化》一文中研究指出不断地将一些合成生物学标准"零件"以一定的标准装配,就可以得到由数十个功能片段组成的复杂表达载体。但是每一类的合成生物学标准"零件"数量众多,随着这些标准"零件"的不断开发,其数量也在进一步增加。在进行表达载体构建的最后阶段,从众多的"零件"中选择合适的以组装成功能性表达载体费时费力,并且容易发生错误。为解决这一问题,采用了自然语言处理的统计语言模型,并以该模型为基础应用动态规划算法优化表达载体设计,从众多的选项中找出最优者。利用这一方法可以减少进行生物学实验的冗余操作,从而减少表达载体构建过程中的花费。(本文来源于《计算机工程与应用》期刊2016年15期)

于泉杰[10](2016)在《基于统计参数模型的跨语言语音合成的研究》一文中研究指出语音合成是人机交互的重要组成部分。随着全球化联系的不断增强,人们对多种语言的交互需求日益扩大。跨语言语音合成已成为新的研究热点;如何学习不同语言间的共享信息、建立跨语言的映射模型,是其面临的关键问题和技术挑战。近年来,随着统计参数语音合成技术的发展,人们基于同一说话人的大规模双语语料库来学习不同语言间的跨语言映射模型。但是,构建这样的双语语料库是非常困难的,对于低资源的语言而言更是如此。亟需面向小规模语料库,进行跨语言语音合成技术的研究。针对该问题,本文主要研究工作和贡献如下:一、提出了基于说话人自适应技术的跨语言映射模型,实现了基于隐马尔可夫模型(HMM)的小规模双语语料库跨语言语音合成。在基于HMM的语音合成中,人们基于同一说话人的大规模双语语料库来学习HMM状态的跨语言映射关系。针对该语料库构建困难的问题,本文提出使用同一个说话人的少量双语语料库和不同说话人的大规模双语语料库,基于说话人自适应技术建立跨语言映射模型。实验结果表明该模型能够构建较为准确的不同语言间共享基元的映射关系。二、提出了基于双向长短时记忆网络(BLSTM)的语音合成方法,并以此构建了基于BLSTM的多语言语音合成系统,为跨语言语音合成提供研究平台。针对多种语言的语音合成需求,本文分析了不同语言的独有和共有语言学、语音学及韵律学信息,构建了基于BLSTM的多语言语音合成系统,进而对BLSTM的结构及参数配置进行对比实验,找到最优参数配置。主观实验表明BLSTM合成的结果好于HMM的合成结果。叁、提出了基于BLSTM模型的低资源语音合成方法,通过多语言BLSTM模型学习不同语言间的跨语言共享信息,以此借助语料充足语言提升语料缺乏语言的合成效果。基于BLSTM的语音合成通常需要大量数据才能训练得到较为精确的声学模型。针对因语料缺乏导致的低资源语言合成语音质量下降严重的问题,本文设计实现了一个多语言BLSTM模型,该模型可以从语料充足的语言学习跨语言共享的知识,并将该知识转移到语料缺乏语言的模型中。实验表明,该方法能显着提升语料缺乏语言的BLSTM模型的参数预测性能,清浊音标记预测错误率降低2%,对数谱距离降低2.3dB,基频均方根误差降低7Hz。(本文来源于《清华大学》期刊2016-05-01)

统计语言模型论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

近两年来,神经机器翻译(Neural Machine Translation,NMT)模型主导了机器翻译的研究,但是统计机器翻译(Statistical Machine Translation,SMT)在很多应用场合(尤其是专业领域)仍有较强的竞争力。如何利用深度学习技术提升现有统计机器翻译的水平成为研究者们关注的主要问题。由于语言模型是统计机器翻译中最核心的模块之一,本文主要从语言模型的角度入手,探索神经网络语言模型在统计机器翻译中的应用。本文分别探讨了基于词和基于短语的神经网络语言模型,在汉语到英语和汉语到日语的翻译实验表明神经网络语言模型能够显着改善统计机器翻译的译文质量。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

统计语言模型论文参考文献

[1].张克君,史泰猛,李伟男,钱榕.基于统计语言模型改进的Word2Vec优化策略研究[J].中文信息学报.2019

[2].张家俊,宗成庆.神经网络语言模型在统计机器翻译中的应用[J].情报工程.2017

[3].姜加明.基于统计语言模型和程序静态分析的代码帮助技术研究[D].武汉大学.2017

[4].惠益龙,张太红,吕莲花,王蓓蓓.语音识别中的统计语言模型研究[J].信息技术.2017

[5].钱柯.基于统计语言模型的搜索引擎输入纠错技术研究[D].江苏科技大学.2016

[6].刘林,付琦,武丽萍.研究汉语语言模型的规模对统计机器翻译系统的影响[J].电脑知识与技术.2016

[7].方刚,张社民.利用统计语言模型对GenoCAD设计结果进行优化[J].统计与信息论坛.2016

[8].方刚.基于统计语言模型及动态规划算法的蛋白质表达载体的优化设计[J].轻工学报.2016

[9].方刚,张社民.叁元统计语言模型对基因表达载体设计的优化[J].计算机工程与应用.2016

[10].于泉杰.基于统计参数模型的跨语言语音合成的研究[D].清华大学.2016

论文知识图

基于统计语言模型的信息检索演...n-Gram统计语言模型建模过程统计语言模型识别精确率分析一6Tri一gram统计语言模型识别精...统计语言模型一5统计语言模型

标签:;  ;  ;  ;  ;  ;  ;  

统计语言模型论文_张克君,史泰猛,李伟男,钱榕
下载Doc文档

猜你喜欢