词频提取论文_罗燕,赵书良,李晓超,韩玉辉,丁亚飞

导读:本文包含了词频提取论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:词频,文本,屈折,词形,再认,特征,向量。

词频提取论文文献综述

罗燕,赵书良,李晓超,韩玉辉,丁亚飞[1](2016)在《基于词频统计的文本关键词提取方法》一文中研究指出针对传统TF-IDF算法关键词提取效率低下及准确率欠佳的问题,提出一种基于词频统计的文本关键词提取方法。首先,通过齐普夫定律推导出文本中同频词数的计算公式;其次,根据同频词数计算公式确定文本中各频次词语所占比重,发现文本中绝大多数是低频词;最后,将词频统计规律应用于关键词提取,提出基于词频统计的TFIDF算法。采用中、英文文本实验数据集进行仿真实验,其中推导出的同频词数计算公式平均相对误差未超过0.05;确立的各频次词语所占比重的最大误差绝对值为0.04;提出的基于词频统计的TF-IDF算法与传统TF-IDF算法相比,平均查准率、平均查全率和平均F1度量均有提高,而平均运行时间则均有降低。实验结果表明,在文本关键词提取中,基于词频统计的TF-IDF算法在查准率、查全率及F1指标上均优于传统TF-IDF算法,并能够有效减少关键词提取运行时间。(本文来源于《计算机应用》期刊2016年03期)

张福勇[2](2015)在《基于n-gram词频的恶意代码特征提取方法》一文中研究指出0引言恶意代码检测中最关键的步骤是恶意代码特征的选择和提取。只有提取准确、有效的特征才能实现恶意代码的准确检测。目前恶意代码特征的提取方法主要有:提取文件n-gram字节、提取抽象语义、提取PE文件格式信息、提取动态行为信息等方法。每种特征提取方法都有各自的优缺点,本文着重研究提取文件n-gram字节特征的方法。最初,是由Jeremy等人[1]提出通过提取文件n-gram字节特征实现恶意代码的检测,而且Jeremy等人(本文来源于《网络安全技术与应用》期刊2015年11期)

叶景恒,聂爱情[3](2015)在《词频和提取任务对定向遗忘效应的调节》一文中研究指出采用定向遗忘范式的研究发现,相比编码阶段接受"记住"指示的项目,接受"忘记"指示的项目在提取阶段的记忆效果较差,即"待忘记"项目的记忆效果差于"待记住"项目,此为定向遗忘效应。定向遗忘效应可用对"待记住"项目选择性复述和对"待忘记"项目主动抑制的机制解释。然而,频率对词项目的定向遗忘效应的影响尚未清晰;若频率对定向遗忘确实有调节作用,则该调节作用是否对任务类型具有敏感性,也需要进一步澄清。为探明上述问题,本研究采用定向遗忘范式中的项目法,对高频双字词和低频双字词进行研究。本研究包含两个实验,即再认实验和来源提取实验;每个实验均包含学习阶段和测验阶段。两个实验的学习阶段一致。在再认实验中的测验阶段,被试需要辨别新旧词项目;而在来源提取实验中的测验阶段,被试需要进一步判断旧项目在学习阶段中接受的指示。结果显示,在再认实验和来源提取任务中,均发现低频词记录到显着的定向遗忘效应,表现为"待记住"项目的记忆效果优于"待忘记"项目,高频词则未发现该效应;再认任务中还发现低频词的记忆效果优于高频词,"待记住"项目的记忆效果优于"待忘记"项目。以上结果表明项目的频率对定向遗忘效应具有调节作用,支持选择性复述和主动抑制的机制;再认和来源提取任务存在差异,支持双重加工理论。(本文来源于《第十八届全国心理学学术会议摘要集——心理学与社会发展》期刊2015-10-16)

成松松,艾丽蓉[4](2013)在《基于平均词频的文本特征提取方法》一文中研究指出文本分类中特征提取对分类效果有较大的影响,传统的特征提取方法在特征分布信息的量化方面存在不足。为此,提出一种基于特征词类内、类外平均词频的特征提取算法。算法通过特征词的平均词频类间集中度和文档频类间集中度来计算特征词的权重,能够更准确地反映特征词的分布情况。通过实验结果比较,可以证明,该算法有效地提高了分类效果。(本文来源于《计算机应用与软件》期刊2013年10期)

王文静[5](2007)在《中文阅读过程中信息提取时间及词频效应的眼动研究》一文中研究指出中文阅读的眼动研究是当前阅读心理学和心理语言学的热点研究问题。研究者们在探索阅读过程中眼动模式的各个阶段及其影响因素的问题上,提出了叁类眼动控制模型,主要包括最小控制模型、视觉控制模型和认知控制模型。本研究采用消失文本范式来探讨读者需要多长时间从书面文字中提取充足的信息进行正常阅读,并在此基础上通过研究消失文本下的词频效应来探讨影响中文阅读眼动模式的控制因素,从而为中文阅读的眼动控制理论提供实证证据。本研究包括叁个实验,均以大学生为被试,在被试阅读实验句的同时记录其眼动轨迹。由于中文阅读的加工单元尚不确定,因此实验一和实验二将分别考察以单字和双字词为识别单元时,读者需要多长时间来提取充足的信息进行正常阅读,从而探讨中文阅读眼动模式初级加工信息提取的时间问题。实验中均以延迟时间为自变量,以被试对句子的平均注视时间、平均眼跳距离、平均注视次数、总注视时间和平均阅读速度为因变量。实验叁根据实验二的结论,将材料的呈现时间设为80ms,在这种特殊的实验情境下,考察中文阅读眼动模式的影响因素。实验中以材料的呈现条件和词频为自变量,以被试对关键词的首次注视时间、凝视时间和总注视时间为因变量。在本实验条件下,我们得出如下结论:(1)在一次注视过程中,当以单字为识别单元时,读者用60ms即可获得足够的信息进行正常阅读;(2)在一次注视过程中,当以双字词为识别单元时,读者用80ms即可获得足够的信息进行正常阅读;(3)认知因素决定中文阅读过程中眼动发生的时间。本研究支持眼动的认知控制模型。(本文来源于《天津师范大学》期刊2007-04-01)

李红,缪道蓉[6](2004)在《规则屈折词形在心理词汇中的表征与提取——基于词频还是规则?》一文中研究指出心理词汇的性质一直以来都是心理语言学界中争论的话题,尤其是复杂词形以及规则屈折词形的表征形式。Pinker(1991)的模型认为规则屈折词形的提取是基于规则,提取的过程没有整词效应。同样,Stemberger(1995)也认为规则屈折词形的提取没有整词效应。而 Bybee(1995)基于词频的模型认为高频规则屈折词形可以以整词的形式存取。本文首先论述了一语心理词汇中关于规则屈折词形的表征和提取主要模型,简要地归纳了主要理论模型的相关证据,并指出了理论模型和研究中还存在的问题。(本文来源于《外国语言文学研究》期刊2004年04期)

任美睿[7](2002)在《数字图书馆中词频提取和自动文本分类方法的研究》一文中研究指出数字图书馆是一个新兴的、涉及到互连网、多媒体、数据仓库、数据挖掘、版权保护等诸多技术的计算机应用领域,应用和商业前景非常广阔。现在国内外对数字图书馆的研究刚刚起步。 我们在吸取前人经验的基础上,基于机群并行计算环境研制了一个并行数字图书馆系统,该系统除了具备现有数字图书馆的一些功能外,还可以根据用户的资源特点创建适合自己图书馆的元数据模式和分类体系模式。此外,该系统还提供了基于结构和内容的查询,这些功能是其它数字图书馆系统所做不到的。 本文设计并实现了数字图书馆中的词频提取和自动文本分类子系统,其中自动文本分类子系统克服了现有文本分类系统把文本类看作是互不相交的,处在一个平面层次上的弊端,依据数字图书馆中分类体系模式,实现了基于朴素贝叶斯原理的层次化自动文本分类。并提出了一个在特征提取阶段的有效的特征向量降维方法。在词频提取子系统中,本文根据中文词和英文词串的特点设计了一个高效的散列算法,这种散列方法能够较均匀地将文本中的词散列到散列表中,并快速定位到词的入口,有效提高了词频提取的效率。此外,本文还研究了基于向量空间模型的自动文本分类方法,提出了一个新的词权重计算方法,该方法有效提高了分类精度。(本文来源于《黑龙江大学》期刊2002-05-08)

词频提取论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

0引言恶意代码检测中最关键的步骤是恶意代码特征的选择和提取。只有提取准确、有效的特征才能实现恶意代码的准确检测。目前恶意代码特征的提取方法主要有:提取文件n-gram字节、提取抽象语义、提取PE文件格式信息、提取动态行为信息等方法。每种特征提取方法都有各自的优缺点,本文着重研究提取文件n-gram字节特征的方法。最初,是由Jeremy等人[1]提出通过提取文件n-gram字节特征实现恶意代码的检测,而且Jeremy等人

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

词频提取论文参考文献

[1].罗燕,赵书良,李晓超,韩玉辉,丁亚飞.基于词频统计的文本关键词提取方法[J].计算机应用.2016

[2].张福勇.基于n-gram词频的恶意代码特征提取方法[J].网络安全技术与应用.2015

[3].叶景恒,聂爱情.词频和提取任务对定向遗忘效应的调节[C].第十八届全国心理学学术会议摘要集——心理学与社会发展.2015

[4].成松松,艾丽蓉.基于平均词频的文本特征提取方法[J].计算机应用与软件.2013

[5].王文静.中文阅读过程中信息提取时间及词频效应的眼动研究[D].天津师范大学.2007

[6].李红,缪道蓉.规则屈折词形在心理词汇中的表征与提取——基于词频还是规则?[J].外国语言文学研究.2004

[7].任美睿.数字图书馆中词频提取和自动文本分类方法的研究[D].黑龙江大学.2002

论文知识图

分析图表可以发现,就单个测试文档而...邻接表示例系统流程词频统计结果算法框架输入法界面和键盘布局

标签:;  ;  ;  ;  ;  ;  ;  

词频提取论文_罗燕,赵书良,李晓超,韩玉辉,丁亚飞
下载Doc文档

猜你喜欢