导读:本文包含了文本特征论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:文本,特征,步长,算法,语料库,语体,模型。
文本特征论文文献综述
秦柯棋[1](2020)在《基于文本大数据的旅游目的地形象感知特征及吸引力分析——以深圳为例》一文中研究指出旅游目的地的吸引力是旅游行为的核心要素,对旅游目的地的决策起着决定性的作用,对提高旅游目的地的竞争力和旅游业的发展具有重要意义。文章对文本的语义情感进行内容分析,构建对旅游目的地吸引力的评价模型,运用社会网络与语义网络分析、 IPA分析结果对深圳进行了分析评价,为旅游管理局的管理提供依据,得出深圳的优势特色以及改进的地方和未来发展方向,对深圳的形象发展和吸引力提升提出具有针对性、可行性的意见。(本文来源于《中国集体经济》期刊2020年01期)
文武,赵成,赵学华,刘颖,范荣妹[2](2019)在《基于信息增益和萤火虫算法的文本特征选择》一文中研究指出针对传统的文本特征选择方法所选特征子集精度不高的问题,提出一种结合信息增益和萤火虫算法的特征选择方法。计算所有特征词的信息增益并按从高到低排序,在排序靠前的特征集合上利用萤火虫算法寻优搜索得到最优特征子集。为避免萤火虫算法求解速度慢和陷入局部最优,对步长因子α进行改进,使其动态更新。在KNN上的文本分类实验结果表明,萤火虫算法选择的特征子集与信息增益和遗传算法相比,具有更好的分类效果。(本文来源于《计算机工程与设计》期刊2019年12期)
衡威,范磊[3](2019)在《基于神经网络的二进制文本特征提取》一文中研究指出基于文本等数据在计算机中是以二进制的形式存储而易于获取大量实验数据的情况,提出了一种基于神经网络的对二进制文本进行特征提取的模型。对获取到的二进制文本数据先使用合适大小及步长的滑动窗口进行取词处理,再使用Word2vec生成相应的词向量嵌入CNN,然后对生成的向量做降维处理,之后在池化层将其作为最后的特征进行输出,最后使用分类算法进行特征好坏的验证。相比于同领域内文本分类方法,所提方法大大提升了处理效率,且在精度和准确度上相差无几。(本文来源于《通信技术》期刊2019年12期)
曹哲超,王轶骏,薛质[4](2019)在《基于页面标签和文本特征的暗网重要站点识别》一文中研究指出暗网因具有匿名、匿踪等特点,已然成为不法分子的聚集地。近年来,暗网中各种数据泄露事件频出,而这些事件大多来源于市场和论坛。因此,准确识别暗网市场、论坛等重要站点,对于暗网情报的快速获取意义重大,并为进一步监控暗网动态奠定了基础。因此,设计实现了一套暗网空间资源采集系统,用于收集暗网页面资源,并结合验证码/登录页面检测和页面文本特征检测两种方式识别暗网重要站点。实验证明,该检测方法具有良好的分类性能,平均准确率可达96.47%。(本文来源于《通信技术》期刊2019年12期)
吕建新,郑伟,马林,李明,谷翠梅[5](2019)在《基于词向量语义扩展的网络文本特征选择方法研究》一文中研究指出【目的/意义】现有特征选择方法可以计算特征所携带的类别信息量,但却不能计算出与主题相关的语义信息。针对其不足,为了提高分类准确率,提出一种基于词向量语义扩展的特征选择方法。【方法/过程】该方法引入了词向量进行主题语义计算,筛选出具有类别语义信息的词条实现特征候选集的特征扩展,并采用K近邻分类方法进行分类实验。【结果/结论】实验结果显示新方法能够有效提取主题语义特征并提高分类准确率。(本文来源于《情报科学》期刊2019年12期)
方秋莲,王培锦,隋阳,郑涵颖,吕春玥[6](2019)在《朴素Bayes分类器文本特征向量的参数优化》一文中研究指出采用朴素Bayes算法建立中文文本自动分类器,并研究相关参数的选择问题,以实现中文文本的高效分类.首先在模型训练阶段,采用N-gram模型处理训练数据集提取特征向量;然后使用朴素Bayes算法建立文本分类器;最后在模型测试阶段,为提高分类准确率,使用词频-反文档频率算法对测试样本进行特征向量提取.实例分析结果表明,在提取训练集特征向量时,2-gram模型和4-gram模型的特征提取效果最佳;在选取特征向量长度时,长度为25 000的特征向量可使分类准确率出现最大增幅并保证较高准确率;在确定特征项词性方面,同时选取动词和名词可使分类器准确率达到最高,仅选取动词时准确率最低.(本文来源于《吉林大学学报(理学版)》期刊2019年06期)
庞双子[7](2019)在《基于历时类比语料库的翻译文本语体显化特征的计量分析》一文中研究指出翻译是语言接触的重要表现,对目标语语言、文化及观念有长远影响。"显化"作为翻译文本的典型特征,是否渗透到目标语,值得探讨。本文通过比较20世纪叁个时期翻译文本与原创文本的历时发展,进一步考察翻译文本语体显化特征及其对目标语的透过性问题。研究发现:1)翻译文本和原创文本在标准型次比、平均句段长、联结程度、代词、虚词这些指标上整体变化趋势相同,二者在标准型次比和平均句段长上均发生显着性变化,但在平均句长、联结程度和虚词变化上存在异质特征; 2)历时考察中,汉语原创文本在标准型次比、平均句长、平均句段长、联结度、虚词比这五项指标上都出现较为显着的变化; 3)在某些历史时期,翻译文本中的语体显化特征会迁移至目标语原创文本,其影响呈滞后性。这两类文本的相关程度在不同时期程度有所变化。研究认为译语透过性具有阶段性特征,并探讨了其原因。(本文来源于《外国语(上海外国语大学学报)》期刊2019年06期)
阿力木江·艾沙,殷晓雨,库尔班·吾布力,李喆[8](2019)在《基于类别信息和特征熵的文本特征权重计算》一文中研究指出基于类别信息的特征权重计算方法对特征与类别的关系表达不够准确,即对于类别频率相同的特征无法比较其对类别的区分能力,因此要考虑特征在类内的分布情况。将特征的反类别频率(inverse category frequency,ICF)和类内熵(entropy)相结合引入到特征权重计算方案中,构造了两种有监督特征权重计算方案。在维吾尔文文本分类语料上进行的实验结果表明,该方法能够明显改善样本的空间分布状态并提高维吾尔文文本分类的微平均F1值。(本文来源于《计算机应用研究》期刊2019年11期)
文武,李培强,郭有庆[9](2019)在《基于TNG特征扩展的MLFM-MN短文本分类算法》一文中研究指出在海量短文本中由于特征稀疏、数据维度高这一问题,传统的文本分类方法在分类速度和准确率上达不到理想的效果。针对这一问题提出了一种基于Topic N-Gram(TNG)特征扩展的多级模糊最小-最大神经网络(MLFM-MN)短文本分类算法。首先通过使用改进的TNG模型构建一个特征扩展库并对特征进行扩展,该扩展库不仅可以推断单词分布,还可以推断每个主题文本的短语分布;然后根据短文本中的原始特征,计算这些文本的主题倾向,根据主题倾向,从特征扩展库中选择适当的候选词和短语,并将这些候选词和短语放入原始文本中;最后运用MLFM-MN算法对这些扩展的原始文本对象进行分类,并使用精确率、召回率和F1分数来评估分类效果。实验结果表明,本文提出的新型分类算法能够显着提高文本的分类性能。(本文来源于《计算机工程与科学》期刊2019年11期)
刘慧清,郭延哺,李红灵,李维华[10](2019)在《基于贝叶斯网的短文本特征扩展方法》一文中研究指出针对短文本特征词稀疏、表示能力不足等问题,提出了一种基于贝叶斯网的短文本特征扩展方法。该方法根据短文本中特征词之间的依赖关系构建语义贝叶斯网,定义特征词与短文本之间的关联度。基于贝叶斯网的推理计算关联度,将与短文本关联密切的特征词扩展到短文本中,以达到降低短文本的噪声、改善特征稀疏的目的。在此基础上,以短文本分类作为基本的文本分析任务,分析所提方法的可行性和有效性。在Amazon评论数据集上进行实验,结果表明所提方法是可行和有效的。(本文来源于《计算机科学》期刊2019年S2期)
文本特征论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
针对传统的文本特征选择方法所选特征子集精度不高的问题,提出一种结合信息增益和萤火虫算法的特征选择方法。计算所有特征词的信息增益并按从高到低排序,在排序靠前的特征集合上利用萤火虫算法寻优搜索得到最优特征子集。为避免萤火虫算法求解速度慢和陷入局部最优,对步长因子α进行改进,使其动态更新。在KNN上的文本分类实验结果表明,萤火虫算法选择的特征子集与信息增益和遗传算法相比,具有更好的分类效果。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
文本特征论文参考文献
[1].秦柯棋.基于文本大数据的旅游目的地形象感知特征及吸引力分析——以深圳为例[J].中国集体经济.2020
[2].文武,赵成,赵学华,刘颖,范荣妹.基于信息增益和萤火虫算法的文本特征选择[J].计算机工程与设计.2019
[3].衡威,范磊.基于神经网络的二进制文本特征提取[J].通信技术.2019
[4].曹哲超,王轶骏,薛质.基于页面标签和文本特征的暗网重要站点识别[J].通信技术.2019
[5].吕建新,郑伟,马林,李明,谷翠梅.基于词向量语义扩展的网络文本特征选择方法研究[J].情报科学.2019
[6].方秋莲,王培锦,隋阳,郑涵颖,吕春玥.朴素Bayes分类器文本特征向量的参数优化[J].吉林大学学报(理学版).2019
[7].庞双子.基于历时类比语料库的翻译文本语体显化特征的计量分析[J].外国语(上海外国语大学学报).2019
[8].阿力木江·艾沙,殷晓雨,库尔班·吾布力,李喆.基于类别信息和特征熵的文本特征权重计算[J].计算机应用研究.2019
[9].文武,李培强,郭有庆.基于TNG特征扩展的MLFM-MN短文本分类算法[J].计算机工程与科学.2019
[10].刘慧清,郭延哺,李红灵,李维华.基于贝叶斯网的短文本特征扩展方法[J].计算机科学.2019