文本分词论文-范庆春

文本分词论文-范庆春

导读:本文包含了文本分词论文开题报告文献综述及选题提纲参考文献,主要关键词:选题查重,jieba分词,相似度检测

文本分词论文文献综述

范庆春[1](2019)在《基于中文分词技术的文本相似度检测研究》一文中研究指出针对本科生的毕业选题做相似性检查困难且有较多遗漏等问题,采用自然语言处理和集合运算的方法来计算选题相似度,在阈值29%的情况下得到平均相似度为38%的结果。该方法同样适用于不同专业选题查重工作中,具有较好的实际应用价值。(本文来源于《池州学院学报》期刊2019年03期)

李筱瑜[2](2019)在《基于新词发现与词典信息的古籍文本分词研究》一文中研究指出现代汉语分词虽已取得较大进展,但是古籍文本分词由于受到古代汉语词汇特征、语义、语法等限制,始终没有形成一种行之有效的方法。通过互信息与邻接熵的新词发现方法从《汉书》中寻找未登录词,结合古代汉语词汇表、古代人名词表和古代地名表构建古籍文本分词词典,以此为基础,使用pyNLPIR对《汉书》进行分词操作。实验结果显示,新词发现方法可以在一定程度上完善古籍文本分词所需的用户词典全面性,但是对3字以上的词语识别效果较差。实验证明使用新词发现结合词典信息的方法对古籍文本进行分词能够有效提高古代汉语分词准确度。(本文来源于《软件导刊》期刊2019年04期)

饶玮,陈其鹏,乔俊峰,蒋静[3](2018)在《基于文本分词的输变电设备故障频次分析》一文中研究指出作为智能电网的重要设备,输变电设备的故障发生情况对智能电网的稳定安全运行具有极大的影响。本文针对智能电网中存在的大量输变电设备故障检修数据,设计了一种基于文本分词的输变电设备故障频次分析方法,并采用Java和Python语言以及SSM框架实现了正向最大匹配算法和逆向最大匹配算法,给出了输变电设备故障频次统计的计算公式,为输变电设备的故障类型挖掘和疑似家族性缺陷分析奠定了基础。实验结果表明,所设计的方法能够有效地统计输变电设备故障发生的类型和频次。(本文来源于《第叁届智能电网会议论文集》期刊2018-12-30)

严明,郑昌兴[4](2018)在《Python环境下的文本分词与词云制作》一文中研究指出近年来Python广泛应用于包括自然语言处理在内的数据处理和人工智能等领域。以实例探讨Python环境下基于jieba库的文本分词、基于WordCloud库的词云制作及其相关处理,特别是如何实现针对两个相关文本的比较处理。(本文来源于《现代计算机(专业版)》期刊2018年34期)

陈婧汶,陈建国,王成彬,朱月琴[5](2018)在《基于条件随机场的地质矿产文本分词研究》一文中研究指出中文与英文不同,词与词之间没有类似空格的天然分隔符,致使中文分词成为中文信息处理中的难题。地质矿产文本中含有大量未登录地质专业术语,现阶段仍无效果较好的分词方法。本文探讨了一种基于双语料库条件随机场模型的方法对地质矿产文本进行分词,并与通用领域分词方法、单语料库条件随机场模型分词方法进行对比实验。实验表明,本文提出的方法在开放测试下分词效果明显优于其他方法,准确率为94.80%,召回率为92.68%,F-值为93.73%。本文对地质矿产文本进行了中文分词研究,既能够很好地识别未登录地质专业术语,又保证了普通词汇的识别率,为对地质领域的自然语言处理工作奠定了基础。(本文来源于《中国矿业》期刊2018年09期)

谢豪[6](2018)在《基于分词相关系数的垃圾焚烧“邻避”事件文本相似度计算研究》一文中研究指出将文本相似度计算引入"邻避"冲突事件的应急决策,通过对案例进行文本分词、词义相似度替换得到关键词频次,然后将数据矢量化得到可用于计算的关键词权重表,最后通过皮尔逊算法对两个案例进行文本相似度计算,进而通过分析相似度结果提供相应决策建议。(本文来源于《中国管理信息化》期刊2018年13期)

刘艺彬[7](2018)在《基于分词频的特征选择算法在文本分类中的研究》一文中研究指出随着网络技术的快速发展和电子文件数量的急剧增加,文本分类技术愈发重要。文本分类中最棘手的问题就是如何有效降低特征空间的高维度,过高维度的特征空间不仅会增加分类时间复杂度,而且还会降低分类精度。特征选择技术作为文本分类过程中的重要环节,能够有效地剔除冗余特征,很好地降低特征空间维度。因此,对文本分类特征选择技术的研究有着重要的现实意义。论文从提高分类准确性和稳定性的角度出发,对文本分类的基础理论及相关技术进行了介绍,其中包括文本预处理、降维、特征加权、分类器构造和性能评价。并在此基础上对特征选择进行了深入研究,提出了两个全新的特征选择算法。(1)提出了一种基于分词频文档频率的特征选择算法(STF-DF)。通过对文档频率、信息增益、卡方检验等现有特征选择算法进行分析研究,不难发现,这些算法仅仅通过特征词是否在文档中出现来判定其文档频率,而不考虑特征词出现了多少次,这在复杂的文本分类问题中是远远不够的。因此,论文提出两个全新的概念——分词频和分词频文档频率,并依此设计了一种基于分词频文档频率的特征选择算法。该算法从分词频的角度计算文档频率,充分考虑了同一个特征词在不同词频下对分类带来的贡献。实验结果表明,STF-DF算法具有较好的分类性能,是一种有效的特征选择算法。(2)提出了一种基于分词频逆类频率的特征选择算法(STF-ICF)。考虑到逆类频率ICF方法在衡量特征词重要程度时存在两点弊端,该方法会简单地认为那些在所有类中都出现的项对分类几乎没有贡献,同时对于具有相同类别频率的项没有区别能力。针对以上不足,论文提出了一种新的基于分词频逆类频率的特征选择算法,该算法在分词频的理论基础上,提出分词频类别频率以及加权平均类别频率两个新的概念。实验结果表明,STFICF算法在micro-F_1及精确率两方面都取得了较好的实验效果。(本文来源于《西安理工大学》期刊2018-06-30)

冯国明,张晓冬,刘素辉[8](2018)在《基于自主学习的专业领域文本DBLC分词模型》一文中研究指出【目的】提高对专业术语、名词占比较高的专业领域文本的分词准确度。【方法】提出将词典、统计、深度学习叁者有机结合的DBLC模型,并编程实现。获取中国管理案例库中的部分案例作为专业领域语料,将其他几种已有分词模型作为对比对象进行实验与分析。【结果】通过实验得到各模型在实验语料上的分词效果,DBLC模型在各评价指标上均优于其他模型,分词准确率达到96.3%。【局限】未对原词典词与新词做区别处理,没有考虑词典的存储结构问题,模型计算时间复杂度较高。【结论】本文提出的DBLC模型提高了专业领域文本的分词准确度,且该模型分词准确率与词典规模正相关。(本文来源于《数据分析与知识发现》期刊2018年05期)

孔希希,廖述魁,程兵[9](2018)在《基于不同分词模式的文本分类研究》一文中研究指出主要研究不同的分词模式对文本分类结果的影响,采用两种传统的文本表示方法:LDA和LSA,采用两种分类方法:支持向量机和逻辑回归,一共四组不同的实验来比较分析.实验结果表明相对于传统的分词方法来说,第二种搜索引擎式的分词方法通过拆分、添加组合词对分类结果更有效.具体来说,对两种分词采用LDA得到文本表示后,模式二的分类准确率最高95.38%,模式一为93.7%.在对两种分词采用LSA得到文本表示后,模式二的分类准确率最高为96.44%,模式一最高为95.2%.(本文来源于《数学的实践与认识》期刊2018年01期)

杨海丰,陈明亮,赵臻[10](2017)在《常用中文分词软件在中医文本文献研究领域的适用性研究》一文中研究指出目的:评价常见中文分词软件在中医文献研究领域的适用性,提出研发中医文本分词专用软件的思路。方法:安装和操作常见中文分词软件,运用中医文本样本进行分词实验,比较不同中文分词软件分词准确性、分词速度、易操作性、可靠性、可扩展性、可移植性等性能。结果:中文分词软件分词准确性、分词速度、易操作性、可靠性、可扩展性、可移植性等性能存在差异,难以同时使所有性能达到最优。通过比较各种中文分词软件,发现盘古分词软件分词准确性最高、易用性较好且分词效率高,最适合中医文本分词。结论:研发中医文本分词专用软件可能是解决中医文献研究中分词问题的最佳途径。应从建立中医药学标准语料库,完备中医药学词典库,引进、优化和创新分词算法,开发中医文本分词软件等方面加强基础性研究。(本文来源于《世界科学技术-中医药现代化》期刊2017年03期)

文本分词论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

现代汉语分词虽已取得较大进展,但是古籍文本分词由于受到古代汉语词汇特征、语义、语法等限制,始终没有形成一种行之有效的方法。通过互信息与邻接熵的新词发现方法从《汉书》中寻找未登录词,结合古代汉语词汇表、古代人名词表和古代地名表构建古籍文本分词词典,以此为基础,使用pyNLPIR对《汉书》进行分词操作。实验结果显示,新词发现方法可以在一定程度上完善古籍文本分词所需的用户词典全面性,但是对3字以上的词语识别效果较差。实验证明使用新词发现结合词典信息的方法对古籍文本进行分词能够有效提高古代汉语分词准确度。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

文本分词论文参考文献

[1].范庆春.基于中文分词技术的文本相似度检测研究[J].池州学院学报.2019

[2].李筱瑜.基于新词发现与词典信息的古籍文本分词研究[J].软件导刊.2019

[3].饶玮,陈其鹏,乔俊峰,蒋静.基于文本分词的输变电设备故障频次分析[C].第叁届智能电网会议论文集.2018

[4].严明,郑昌兴.Python环境下的文本分词与词云制作[J].现代计算机(专业版).2018

[5].陈婧汶,陈建国,王成彬,朱月琴.基于条件随机场的地质矿产文本分词研究[J].中国矿业.2018

[6].谢豪.基于分词相关系数的垃圾焚烧“邻避”事件文本相似度计算研究[J].中国管理信息化.2018

[7].刘艺彬.基于分词频的特征选择算法在文本分类中的研究[D].西安理工大学.2018

[8].冯国明,张晓冬,刘素辉.基于自主学习的专业领域文本DBLC分词模型[J].数据分析与知识发现.2018

[9].孔希希,廖述魁,程兵.基于不同分词模式的文本分类研究[J].数学的实践与认识.2018

[10].杨海丰,陈明亮,赵臻.常用中文分词软件在中医文本文献研究领域的适用性研究[J].世界科学技术-中医药现代化.2017

标签:;  ;  ;  

文本分词论文-范庆春
下载Doc文档

猜你喜欢