文档特征权重论文-罗衎,马佳佳

文档特征权重论文-罗衎,马佳佳

导读:本文包含了文档特征权重论文开题报告文献综述及选题提纲参考文献,主要关键词:文本分类,向量空间模型,文档结构,特征权重

文档特征权重论文文献综述

罗衎,马佳佳[1](2019)在《基于文档结构的特征权重计算方法研究》一文中研究指出针对不同类别文档可能被表示为相同向量的问题,在研究常用文档特征权重计算方法的基础上,分析文档中特征项之间的相对位置关系,引入文档结构矩阵DS。将DS与3种常用权重算法相结合,构造3种新模型,并利用6种模型在实际语料上进行分类实验。结果表明,基于DS的权重算法与原始权重算法相比,能够提高文本分类效果。(本文来源于《软件导刊》期刊2019年05期)

周鹏程,刘旭敏,徐维祥[2](2018)在《基于文档类密度的特征权重算法》一文中研究指出面对海量数据的管理和分析,文本自动分类技术必不可少。特征权重计算作为文本分类过程的基础,起到了至关重要的作用。为了提升文本分类的质量,针对传统特征权重算法的不足,提出了基于文档类密度的特征权重算法(TF-IDCD)。其中,文档类密度通过类内包含特征的文档数与类内总文档数的比值来度量。最后,在两个中文常见数据集上对五种算法进行实验对比。结果显示,提出的算法相比较其他特征权重算法在F1宏平均和F1微平均上都有较大的提升。(本文来源于《计算机应用研究》期刊2018年11期)

龙鹏飞,石奇[3](2015)在《XML文档聚类中基于语义的特征词权重计算方法》一文中研究指出在XML文档检索中,结果聚类是一种改善检索效果的有效方法,其文档距离度量是影响聚类质量的关键因素。针对XML文档检索结果聚类中TF×IDF方法的频率因子和长度因子处理上的不合理和不能突显重要词条的缺点,提出了一种基于"频率因子"和"长度因子"的新权重方案。并在建立向量空间模型时引入LSI理论,在词条之间搭建了语义关系,减少了原词-文档矩阵中包含的噪声,聚类速度和精度都有所提高。在IEEE无类别信息数据集上试验表明,与同类相似度计算方法和聚类方法相比,本研究方法在聚类速度和效果上都有所提高和改善。(本文来源于《长沙理工大学学报(自然科学版)》期刊2015年02期)

张乃静,鞠洪波,纪平[4](2013)在《基于本体的林业领域文档特征权重模型》一文中研究指出传统文档特征权重模型仅考虑关键词本身,文档内其他相关词汇并没有参与计算,信息检索时无法返回全面和准确的结果。为解决该问题提出了一种基于本体的林业领域文档特征权重模型。该模型计算TF-IDF特征权重;结合林业领域本体,分别获取关键词和林业领域内其他词汇的语义距离、语义重合度和概念的层次差,并计算语义相关度;结合TF-IDF和语义相似度的结果计算特征权重。实验证明该模型可以提高文本检索的查准率和查全率,使检索结果更加满足用户的需求。(本文来源于《计算机工程与应用》期刊2013年18期)

黄云,洪佳明,颜一鸣[5](2012)在《基于图的特征词权重算法及其在文档排序中的应用》一文中研究指出信息检索的核心工作包括文档的分类和排序等操作,如何对文档中的特征词权重进行有效度量是其中的一项关键技术。利用词的共现等关系为每个文档建立文本图,基于邻接词间重要性相互影响的思路,结合文档中特征词的词频特性,迭代计算每个词的权重,进一步结合文本图的密度等全局特性,对信息检索的结果进行排序。实验证实,算法在标准数据集上具有良好的效果。(本文来源于《计算机系统应用》期刊2012年06期)

范灵[6](2006)在《信噪比优化算法文档分类及特征权重公式改进研究》一文中研究指出为了提高文档分类的效率,增强信息检索的有效性,提出了一种改良的基于信噪比的文本分类方法,改进了特征权重公式,优化了文本分类。在改良后的信噪比算法中,考虑了禁用词的剔除和近义词、同义词的归类合并,解决了传统信噪比对汉语应用存在的二个问题;在改进的权重公式里,引入了特征权重在同一文档不同部位的贡献率,据此特征词的检索准确率提高。(本文来源于《微计算机信息》期刊2006年21期)

文档特征权重论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

面对海量数据的管理和分析,文本自动分类技术必不可少。特征权重计算作为文本分类过程的基础,起到了至关重要的作用。为了提升文本分类的质量,针对传统特征权重算法的不足,提出了基于文档类密度的特征权重算法(TF-IDCD)。其中,文档类密度通过类内包含特征的文档数与类内总文档数的比值来度量。最后,在两个中文常见数据集上对五种算法进行实验对比。结果显示,提出的算法相比较其他特征权重算法在F1宏平均和F1微平均上都有较大的提升。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

文档特征权重论文参考文献

[1].罗衎,马佳佳.基于文档结构的特征权重计算方法研究[J].软件导刊.2019

[2].周鹏程,刘旭敏,徐维祥.基于文档类密度的特征权重算法[J].计算机应用研究.2018

[3].龙鹏飞,石奇.XML文档聚类中基于语义的特征词权重计算方法[J].长沙理工大学学报(自然科学版).2015

[4].张乃静,鞠洪波,纪平.基于本体的林业领域文档特征权重模型[J].计算机工程与应用.2013

[5].黄云,洪佳明,颜一鸣.基于图的特征词权重算法及其在文档排序中的应用[J].计算机系统应用.2012

[6].范灵.信噪比优化算法文档分类及特征权重公式改进研究[J].微计算机信息.2006

标签:;  ;  ;  ;  

文档特征权重论文-罗衎,马佳佳
下载Doc文档

猜你喜欢