导读:本文包含了低频词论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:低频,词频,词汇,语料库,模型,词性,句法。
低频词论文文献综述
刘振伟,连少英,赵俊峰[1](2018)在《线索对高低频词定向遗忘影响的ERP研究》一文中研究指出本研究以实际生活为背景,具体探讨了不同频率词语的定向遗忘现象以及提示线索对于定向遗忘效应的影响,采用客观的生理指标研究定向遗忘可能存在的理论机制。遗忘作为日常生活中的常见现象,对工作和学习有重要的意义,线索也是不可避免的,如何理解二者的关系以及降低线索带来的负面影响,对于保持个人的身心健康有着重要作用。定向遗忘指的是对指定材料的遗忘,是在意识的参与下对要求忘记的材料进行遗忘,是有关记忆研究的一种新范式。本研究在定向遗忘的经典实验范式项目法的基础上,引入提示线索变量,旨在探讨不同提示线索情况下不同频率词语产生的定向遗忘效应。本研究以大学生为被试,采用2(组别:有提示线索组、无提示线索组)×2(词频类型:高频、低频)×2(指示符:记住、遗忘)的混合实验设计,探讨了有和无提示线索情况下不同频率词语产生的定向遗忘效应的差异,并且发现了定向遗忘中存在部分线索效应。通过实验研究,得出如下结论:第一,高频词语和低频词语均产生了显着的定向遗忘效应,低频词语的定向遗忘效应显着大于高频词语。第二,在定向遗忘的项目法范式下,有提示线索组的提取成绩显着低于无提示线索组的提取成绩,即存在部分线索效应。第叁,在定向遗忘的项目法范式下,呈现提示线索为TBF(要求遗忘)项目时,高频词语的定向遗忘效应增强;但对低频词语的定向遗忘效应无显着影响。(本文来源于《第二十一届全国心理学学术会议摘要集》期刊2018-11-02)
巫思杏[2](2018)在《一种神经网络对话系统中的低频词压缩方法》一文中研究指出近年来,基于深度神经网络的生成式对话系统受到了来自学术界和工业界的广泛关注。生成式对话系统通常被建模为序列到序列任务,即将用户的问话当做源序列,回答用户的回复做为目标序列。Encoder-Decoder是当前用于实现生成式对话的主流框架,由两部分组成,Encoder负责理解用户的问话文本,Decoder负责生成一个新的文本回复用户。目前大部分基于Encoder-Decoder框架的生成式对话系统采用词级别模型,即将对话中的文本表示为词向量序列,通过维护一个包含词向量的词表来理解或产生一个对应的词。受限于当前计算机硬件发展的限制,词表通常只能被设计为有限容量,词表之外的词将会变成未登录词。由于词表中不包含未登录词的词向量,因此未登录词不能被Encoder理解,也不能被Decoder生成,最终影响对话系统的整体性能,降低对话系统的生成质量。为了解决生成式对话中的未登录词问题,并改善基于Encoder-Decoder的对话系统的性能,本文提出了基于低频词压缩表示的生成式对话模型HL-EncDec。HL-EncDec将未登录词归类为低频词,并利用语言中字符数目恒定且总量少的特性,将低频词压缩到字符级别表示。在Encoder端使用卷积神经网络和低频词对应的字符获得等效的词向量,在Decoder端将低频词分解为字符序列,从而解决未登录词无法被理解或生成的问题。随后,本文还针对HL-EncDec在高频词和低频词词向量获得方式较为简单的问题进行了改进,并提出改进版本HL-EncDec+。为了验证HL-EncDec和HL-EncDec+的效果,本文在一个包含300多万对数据的中文数据集上进行了实验,实验结果显示无论在自动化指标评价中还是人工评价中HLEncDec与HL-EncDec+均获得好于基准模型的成绩,证明了其有效性。(本文来源于《北京大学》期刊2018-06-01)
李放[3](2018)在《低频词分布式词表示研究与应用》一文中研究指出词表示研究是自然语言处理中的一个重要任务,在词性标注、命名实体识别、文本分类等自然语言处理应用中具有重要的作用。传统的基于符号的词独热表示无法直接建模词之间的语义关系。分布式词表示用低维实值向量来表示词,可以通过向量距离来直接度量词之间的语义关系,是当前最常用的词表示方法。尽管已经有很多对分布式词表示的研究,但是其在低频词上仍存在问题。本文主要研究如下问题:(1)分布式词表示在低频词上表现弱于高频词的原因,以及低频词的截止词频(2)利用词内部信息来提升中文低频词词表示的方法。(3)对多种语言通用的低频词词表示提升方法。论文的主要工作包括:提出了一种基于分布式词表示的词平均相似度度量,在不同词表示训练算法、不同语料规模和不同语种上的实验结果表明,词平均相似度具有较好的稳定性,基于此,本文提出了基于词平均相似度来界定低频词的词频。应用此界定而设计的词相似度度量方法在词相似度度量任务中取得了比常用的余弦相似度度量更好的性能,提升大约0.02 到 0.05。提出了一种基于汉字偏旁部首信息提升中文低频词词表示性能的方法。中文的偏旁部首通常具有语义特性,本文采用权值共享的方法,利用低频词和高频词共享的偏旁部首特征来提升低频词词表示,实验结果表明了其有效性,相比基线模型提升大约0.02左右。提出了一种语言无关的伪上下文方法以提升低频词词表示。伪上下文方法是把其他相似词的上下文来用作低频词的上下文,以此达到对低频词上下文的扩充,提高其词频。实验结果表明该方法可以有效提升低频词词表示的性能。(本文来源于《北京邮电大学》期刊2018-01-05)
王婧仪[4](2016)在《威廉姆斯综合征儿童对低频词使用的研究综述》一文中研究指出威廉姆斯综合征儿童对低频词的使用这一词汇的特征引起了语言学家的关注,对于这一现象产生的原因也出现了多种不同的解释。梳理为此现象提供解释的两种假说——内部词汇假说和外部词汇假说以及相关词频研究的实验范式,并提出了假说和实验范式存在的问题。(本文来源于《林区教学》期刊2016年11期)
仲其智,姚建民[5](2011)在《低频词的中文词性标注研究》一文中研究指出利用最大熵模型深入探讨了中文词性标注问题。针对低频词的性能差问题,在原有常用特征的基础上,提出了新颖的低频词特征,实验表明,低频词特征的添加能大幅度地提高低频词在测试集的标注准确率,在宾州树库2.0上的实验显示,其准确率从82.93提高到了87.54。在传统的基于句子的词性标注基础上,提出了基于篇章的词性标注,取得了不错的结果。最后,分析了词性标注结果对句法分析性能的影响,在宾州树库2.0上的实验显示,低频词特征和基于篇章的策略使得整个的词性标注准确率和句法分析F1值分别提高了0.60和0.97,说明了词性标注中低频词处理的重要性。(本文来源于《计算机应用与软件》期刊2011年03期)
陈龙[6](2009)在《低频词在英语词汇构成中的能产性》一文中研究指出可能词汇经过实践检验可以转变成实际词汇,但是否所有的可能词汇都会成为实际词汇,一直是语言学家致力研究的问题。研究发现,一般能够转变成实际词汇的词经常都是实际中使用频率比较低的词,即低频词。可以认为低频词在英语构词中的能产率占有比较高的比例,低频词在构成英语新词中的能产性比较强,并且新词的产生及词法化,往往是从低频词开始的。(本文来源于《兰州大学学报(社会科学版)》期刊2009年04期)
王红[7](2002)在《用语料库研究当代英语中的低频词》一文中研究指出本文旨在利用Visual FoxPro制作的检索工具对英国标准书面语语料库LOB(Part A,Part B)中的自然语言进行词频分布的统计;针对统计结果,依研究的需要制定出英语词汇在实际使用中的低频词表,并在前人对低频词的词频分布定量分析的基础上,依照词汇统计学、词汇学、语义学的理论,对该词表中的低频词在词类、词源、构词、词义等方面进行定量和定性相结合的剖析,尝试着找出低频词出现次数少的原因。 研究结果表明:低频词的分布按不同的标准呈现出一定的规律性。词类上,低频词主要是开放型词汇,其中以名词、动词、形容词的数量居多;词源上,低频词主要是外来词,尤其以源于拉丁、希腊、法语的词居多;词义上,多数低频词是单义词,尤其是指人名、地名的专有名词及科技术语居多;构词的方式上,低频词主要采用合成法和派生法。另外,定量研究的结果进一步证明低频词的词频分布与单词数量的相关性,即在词频为1—10的词汇之间,词频为1的(本文研究的低频词)词汇数量最多。 基于以上发现:建议有关人士在制作词表时,不仅要以高频词为主要依据,同时也要兼顾低频词,尤其是词频为1但数量居多、特点显着的低频词。本文的研究结果也将为英语词汇教学提供有效的参考依据。希望本文的研究方法能给那些关注语料库语言学和词汇统计学发展趋势的读者带来一些启迪。(本文来源于《大连海事大学》期刊2002-03-01)
孙清兰[8](1992)在《高频、低频词的界分及词频估计方法》一文中研究指出本文以最大值法确定词的等级,并以此推导出一个新的高频、低频词界分公式。文章还研究了各数量同频词词频的估计方法,给出了计算公式,揭示了词频与同频词数量的内在规律。(本文来源于《情报科学》期刊1992年02期)
孙清兰[9](1992)在《高频词与低频词的界分及词频估算法》一文中研究指出齐夫第二定律揭示了低频词的分布规律,给出:I_n,/I_1=2/n(n+1)……(1) 式中,I_n代表文中出现n次的词汇数量。比值与文章长度无关。高频词与低频词分界有个临界值,这是Donohue,J·C·于1973年提出的。其计算公式(本文来源于《中国图书馆学报》期刊1992年02期)
低频词论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
近年来,基于深度神经网络的生成式对话系统受到了来自学术界和工业界的广泛关注。生成式对话系统通常被建模为序列到序列任务,即将用户的问话当做源序列,回答用户的回复做为目标序列。Encoder-Decoder是当前用于实现生成式对话的主流框架,由两部分组成,Encoder负责理解用户的问话文本,Decoder负责生成一个新的文本回复用户。目前大部分基于Encoder-Decoder框架的生成式对话系统采用词级别模型,即将对话中的文本表示为词向量序列,通过维护一个包含词向量的词表来理解或产生一个对应的词。受限于当前计算机硬件发展的限制,词表通常只能被设计为有限容量,词表之外的词将会变成未登录词。由于词表中不包含未登录词的词向量,因此未登录词不能被Encoder理解,也不能被Decoder生成,最终影响对话系统的整体性能,降低对话系统的生成质量。为了解决生成式对话中的未登录词问题,并改善基于Encoder-Decoder的对话系统的性能,本文提出了基于低频词压缩表示的生成式对话模型HL-EncDec。HL-EncDec将未登录词归类为低频词,并利用语言中字符数目恒定且总量少的特性,将低频词压缩到字符级别表示。在Encoder端使用卷积神经网络和低频词对应的字符获得等效的词向量,在Decoder端将低频词分解为字符序列,从而解决未登录词无法被理解或生成的问题。随后,本文还针对HL-EncDec在高频词和低频词词向量获得方式较为简单的问题进行了改进,并提出改进版本HL-EncDec+。为了验证HL-EncDec和HL-EncDec+的效果,本文在一个包含300多万对数据的中文数据集上进行了实验,实验结果显示无论在自动化指标评价中还是人工评价中HLEncDec与HL-EncDec+均获得好于基准模型的成绩,证明了其有效性。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
低频词论文参考文献
[1].刘振伟,连少英,赵俊峰.线索对高低频词定向遗忘影响的ERP研究[C].第二十一届全国心理学学术会议摘要集.2018
[2].巫思杏.一种神经网络对话系统中的低频词压缩方法[D].北京大学.2018
[3].李放.低频词分布式词表示研究与应用[D].北京邮电大学.2018
[4].王婧仪.威廉姆斯综合征儿童对低频词使用的研究综述[J].林区教学.2016
[5].仲其智,姚建民.低频词的中文词性标注研究[J].计算机应用与软件.2011
[6].陈龙.低频词在英语词汇构成中的能产性[J].兰州大学学报(社会科学版).2009
[7].王红.用语料库研究当代英语中的低频词[D].大连海事大学.2002
[8].孙清兰.高频、低频词的界分及词频估计方法[J].情报科学.1992
[9].孙清兰.高频词与低频词的界分及词频估算法[J].中国图书馆学报.1992