文本特征抽取论文_郑野,宋旭东,于林林,陈鑫影

导读:本文包含了文本特征抽取论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:特征,文本,密度,在线,舆情,领域,自然。

文本特征抽取论文文献综述

郑野,宋旭东,于林林,陈鑫影[1](2019)在《基于标签路径覆盖率和多文本特征的正文抽取算法》一文中研究指出如何正确识别网页中存在的网页评论、导航、版权声明等噪音数据,提高网页抽取正文的准确度,提出了一种结合多种文本特征的正文抽取算法(CETD-TPF).在文本块密度和标签路径覆盖率的基础之上又融合了文本符号特征,利用新特征确定并抽取正文文本块.此方法有效的解决了网页正文短文本难以抽取的问题,且无需人工训练和处理.在对各大知名新闻网站随机选取的数据集进行实验表明,CETD-TPF方法在不同数据源上的适用性较好,正文抽取精度好于CETR、CETD算法.(本文来源于《大连交通大学学报》期刊2019年05期)

杜若鹏,鲜国建,寇远涛[2](2019)在《基于改进TF-IDF-CHI算法的农业科技文献文本特征抽取》一文中研究指出针对相近农业科研领域文献的文本特征信息高度重合的特点,以及传统的文本特征抽取方法存在的不足,对TF-IDF算法进行优化并加以应用验证。通过引入卡方检验值与特征词频修正因子等方式,对特征词加权函数进行重构,形成改进的ImpTF-IDF-CHI方法。将该方法与文档频率法、信息增益法及TF-IDF 3种传统的文本特征抽取结果应用于朴素贝叶斯分类实验,根据实验结果判定方法的优劣性。通过4种方法的58组特征抽取与文本分类实验,发现与前述的3种特征抽取方法相比,ImpTF-IDF-CHI方法抽取的特征词,应用于文本分类的正确率最高,平均准确率达94%,F1值为0.844,证明该方法在对相近农业科研领域文本进行特征抽取方面,具有准确率高、稳定性好、主题词代表性强等优点,可以有效地应用于此类文献文本分类、特征表达、主题抽取等场景。(本文来源于《数字图书馆论坛》期刊2019年08期)

陈振彬,叶颖雅,冯浩男,李明轩,陈珂[3](2019)在《多特征融合与注意力机制的中文文本关系抽取》一文中研究指出在中文关系抽取任务中,数据稀疏和噪声传播问题是其研究难点。基于此,提出了在文本特征组织方面融合位置特征、最短依存特征和N-gram特征等多元特征,并提升关键性特征的权重,以缓解传统词特征的数据稀疏问题。这种组合特征进一步改善了文本中噪声传播问题,提高了句法特征在稀疏性问题下的可靠性。此外,在传统的双向LSTM神经网络中加入注意力机制,使模型更关注较为重要的特征,降低噪声对抽取任务的影响。在人物关系公开语料集上进行实验,结果表明采用该方法进行中文文本关系抽取的效果较好,并为信息抽取、知识图谱等领域提供了方法支持。(本文来源于《广东石油化工学院学报》期刊2019年04期)

彭圳生,巩青歌,高志强,段妍羽,曾子贤[4](2018)在《基于密度及文本特征的新闻标题抽取算法》一文中研究指出为从大量的复杂非规范网页结构中自动抽取出新闻标题,该文提出一种基于密度和文本特征的新闻标题抽取算法(title extraction with density and text-features,TEDT)。主要通过融合网页文本密度分布和语言特征的语料判定模型,将网页划分为语料区和标题候选区,选取语料后通过TextRank算法计算对应的key-value权重集合,最后采用改进的相似度计算方法从标题候选区抽取新闻标题。该算法能有效划分语料和标题区域,降低网页噪声干扰,准确抽取出新闻标题。实验结果表明,TEDT的准确率和召回率均优于传统的基于规则和相似度的新闻标题抽取算法,证明了TEDT不仅对主流新闻网站有效,而且对复杂非规范网页也广泛适用。(本文来源于《中文信息学报》期刊2018年10期)

魏伟[5](2018)在《基于条件共现度的文本表示与特征抽取方法研究》一文中研究指出文本数据是信息的主要载体,是重要信息和知识的来源。面对海量的文本数据,如何快速有效地获取人们需要的信息和知识是当前亟待解决的问题。文本表示和特征抽取是整个文本挖掘流程中重要的基础性工作,能够为后续的文本挖掘任务的顺利实施提供良好的数据处理方法和技术支持。然而随着数据科学的发展,对文本挖掘技术有了更高的要求,尤其在文本语义挖掘层面。通过分析现有方法的优缺点,本研究结合文本语义建模分别对文本表示方法和特征抽取方法进行了研究,并将其应用于政策文本数据挖掘领域,其中分别从特征词排序和主题发现两个不同方面研究特征抽取方法。本文的主要研究工作如下:(1)为了得到直观、涵盖信息量全并且易于理解的文本表示结果,在词共现方法的基础上提出了基于条件共现度矩阵的文本表示方法。通过结合语言学中语义场理论,考虑文本语言组织时的语义结构大小,以及同一语义结构内两个词的语义相关和条件依赖关系,计算文本内任意两个词间的条件共现度,并基于形成的条件共现度矩阵进行文本表示。该表示方法不仅保留了单个词的统计信息,还对两个词的共现信息进行区分度量,用以突显文本重点表达的语义信息,对现有的词共现表示方法是一种有效地提升。最后通过在多个公共数据集上与多种文本表示方法的对比实验,验证了方法的有效性。(2)为了结合文本统计信息和结构信息对特征词重要性排序,提出了基于条件共现度词网络的特征词排序方法。文本中的词语会按照一定的组织结构进行编排以传递特定的语义主题信息,所以一篇自然语言文本中的词语之间会形成一种潜在的流形结构。通过构造原始文本中潜在的能够反映文本语义和结构信息的条件共现度词网络作为特征词间的流形结构,并以特征词的词频统计信息作为特征词初始权重,结合流形排序思想以及图学习理论进行特征词间的相似性学习,来对特征词的重要性进行排序。在公共语料和补充语料上的数值实验都验证了方法的有效性,该方法拓宽了图学习理论在文本挖掘领域的应用,也给单篇文本特征词排序提供了新的方法和策略。(3)为了解决传统主题模型中存在的语义部分丢失、主题概念模糊及主题语义交叉和覆盖等问题,提出了基于条件共现度的文本主题发现方法。首先结合文档中的语义结构及其独立性判定规则把文档拆分成多个描述单一主题的子文档;其次,根据子文档内特征词间的条件共现度大小,提取子文档内语义关联性强的组合特征词,并基于组合特征词对子文档进行特征词扩充与内容重构,形成新子文档;然后,通过对新子文档集的主题建模,得到新子文档集的“主题-词”分布以及每个新子文档的“文档-主题”分布:最后,结合新子文档的“文档-主题”分布,合并得到原始文档的“文档-主题”分布。实验结果验证了该方法能够提升主题发现效率,生成的组合特征词能够有效避免一词多义问题,并且能辅助主题语义归纳和总结。(4)将上述方法应用于政策文本内容特征抽取及社会变迁研究中。以1954年到2018年间的国务院政府工作报告作为政策文本语料,首先,根据不同的应用需求,提出相应的特征词选择方法,并对政策文本中的共性问题、关键内容、热点话题以及新涌现的内容进行了识别和抽取,从新涌现内容的角度研究了整体社会活力变化情况;其次,提出了一种时序文档聚类方法,并根据政策文本内容对政策所属的整个时间段划分,得到了与已有研究相同的划分结果;然后,结合复杂网络理论和时间段划分结果,挖掘出政策语料中特有的特征词序列模式;最后,对政策文本进行主题发现,并结合时间因素研究整个时间段内主题演化规律。基于条件共现度的文本挖掘方法,通过融合文本的统计信息、语义信息以及结构信息,使得文本表示方法、特征词排序方法以及主题发现方法具备有效分析和处理复杂文本数据的能力,并有效提升文本挖掘质量,为文本挖掘的发展提供新的技术和工具。从政策文本中提取共性问题、关键内容、热点话题、新词内容,并依据文本内容探究并发现社会活力变化、时间阶段分割、特征词时间序列模式、主题演化等社会变迁规律,挖掘结果可以提高政策制定者、政策研究者的知识获取效率,为其提供相应的决策支持。(本文来源于《大连理工大学》期刊2018-06-01)

李光敏,陈炽,邢江,彭绪富,杨怿[6](2016)在《网络文本评论中产品特征抽取综述》一文中研究指出随着Web2.0技术和电子商务的飞速发展,越来越多的用户通过互联网分享产品的使用体验和表达喜恶的观点,如何有效地从评论文本中抽取产品特征是产品意见挖掘方向所亟需解决的问题。本文从产品特征频繁项、特征-意见共现关系、模型训练和显隐式特征匹配四个方面介绍产品特征抽取工作在国内外的研究进展并指出其各自的优势和不足,最后列出产品特征抽取在今后的研究方向。(本文来源于《现代情报》期刊2016年08期)

徐华林[7](2016)在《领域UGC文本中话题-特征关系抽取及应用研究》一文中研究指出Web2.0时代,社会化媒体促使用户既是信息的使用者也是信息的发布者。网络中每时每刻都有新的数据产生,网络数据资源大量累积,人们进入大数据时代。大数据是一把“双刃剑”,在拥有巨大价值的同时,庞大的数据量和纷繁的数据结构对信息处理提出了巨大的挑战。文本是最古老的信息存储方式之一。在网络数据资源中,UGC文本占有很大比重。海量UGC文本蕴含丰富的信息,尤其是域内信息。近年来,文本挖掘技术作为一个有力的工具被应用于人工自然语言处理的研究中来处理如何从文档中挖掘出有用的信息。但是,UGC文本由于撰写者层次不一,具有内容表达随意、写作不规范等特点,给从海量UGC文本中的信息抽取工作带来了巨大的挑战。此外,传统信息抽取方法挖掘出纷繁复杂的信息关系,不利于用户理解信息。在信息爆炸的时代,文本挖掘出的信息需要符合用户需求,且易于用户理解和记忆。因此,对UGC文本以话题方式进行信息抽取,并根据多话题间相互关系构建一个基于用户需求的信息抽取和管理系统至关重要。基于上述思考,本论文对海量UGC文本的信息抽取及相关应用展开了深入的研究。具体的研究内容和相关结论如下:(1)基于词单元依赖关系的复合新词发现分词效果决定了文本挖掘最终结果的优劣。由于传统分词软件不能很好处理UGC文本中的复合新词,本论文提出了一种新的无需词典、无需前期语料库训练,基于统计的复合新词发现方法(FPS&MC)。该方法首先利用序列频繁模式挖掘出候选复合新词,然后通过计算候选复合新词的序列最大置信度(Max-confidence)进行筛选,反复迭代最终得到文本中存在的复合新词。实验结果表明,FPS&MC算法UGC文本数据集中,有较好的复合新词抽取效果。与其他复合新词抽取算法相比,FPS&MC更善于发现复合新词中的人名、地名、组织机构名称、专有名词、时间等命名实体。通常来说,命名实体大多是UGC文本中的话题词。所以,FPS&MC对复合新词抽取的良好效果,更有助于发现UGC文本数据集中用户表达出的行为偏好,为后续的话题识别及其特征抽取、商务应用分析奠定良好的基础。(2)域内文本话题界限划分及其特征词抽取话题是UGC文本中隐含的重要信息元素,对UGC文本进行基于话题的信息组织能够让用户更方便全面的获取UGC文本中的信息。鉴于传统话题抽取技术中抽取出的话题结果经常受到公共热点词的干扰,且挖掘出与话题相关的特征中信息粒度较粗的泛化特征较多。所以,本论文提出了一种新的文档数据关联分析方法,从海量UGC中分析出“热点话题词和话题界限”,最后根据热点话题界限对UGC文本进行切分,找出与各热点话题词关联的“局部特征词”。实验证明,本论文提出TVS算法可以有效的屏蔽高频词的干扰,从大规模网络文本数据中抓取出领域的热点话题词及其局部特征。同时,适应性实验和可扩展性实验结果表明,该算法能适用于不同类型文本数据集;并且该算法既能通过并行计算的方式实现,也能在单个计算机上保持良好挖掘性能。(3)UGC文本中多话题关系及其特征抽取的应用研究传统话题发现与抽取方法,很难识别和理清UGC文本中话题与话题之间的相互关系。而UGC文本中话题之间的相互关系也包含了信息,UGC文本中话题之间的相互关系能有效的促进信息使用者理解和掌握信息。本论文基于旅游博客文本数据,结合相应的多话题关系及其特征抽取方法挖掘出了热门旅游景点话题、景点话题的局部特征、景点话题之间的相互关系,并基于此构建了基于旅行者需求的旅游信息抽取与管理系统。该系统从旅行者面临的“去哪里玩”、“玩什么”以及“怎么去玩”叁大需求出发,构建了旅游博客文本预处理、热门旅游景点及其TOI抽取、热门旅游景点区域化、旅游路径发现及推荐四大模块,分别有针对性的解决旅行者的叁大需求。本论文利用北京旅游博客数据集对系统各模块进行了示例实验,并将实验结果采用可视化技术进行展示。实验证明,本旅游信息抽取与管理系统能有效的从大规模旅游博客文本数据中提取出旅行者需要的旅游信息,并能够很好的协助旅行者完成自己的旅游出行规划。(本文来源于《电子科技大学》期刊2016-04-28)

徐震[8](2016)在《网络舆情内容分析中的Web文本语义特征抽取研究》一文中研究指出网络舆情内容分析的重点是Web文本的内容处理,而抽取Web文本特征是内容处理的基础。首先利用N-Gram算法进行特征项选择并计算权重,然后利用网络舆情领域本体对原始特征进行抽取转换,得到Web文本的语义特征,利用语义特征向量来表征Web文本,将Web文本的相似度转换为基于领域本体的语义特征相似度,提高了网络舆情内容分析的准确度。实验结果表明该方法达到了理想效果。(本文来源于《图书馆学研究》期刊2016年01期)

饶高琦,于东,荀恩东[9](2015)在《基于自然标注信息和隐含主题模型的无监督文本特征抽取》一文中研究指出术语和惯用短语可以体现文本特征。无监督的抽取特征词语对诸多自然语言处理工作起到支持作用。该文提出了"聚类-验证"过程,使用主题模型对文本中的字符进行聚类,并采用自然标注信息对提取出的字符串进行验证和过滤,从而实现了从未分词领域语料中无监督获得词语表的方法。通过优化和过滤,我们可以进一步获得了富含有术语信息和特征短语的高置信度特征词表。在对计算机科学等六类不同领域语料的实验中,该方法抽取的特征词表具有较好的文体区分度和领域区分度。(本文来源于《中文信息学报》期刊2015年06期)

洪军建,珠杰[10](2015)在《分块主成分分析在文本特征抽取中的应用》一文中研究指出为了降低原始文本特征空间的维数,获得较高的分类精度与执行效率,对多种文本特征提取方法进行了研究,如卡方、互信息、信息增益、主成分分析(PCA)等。针对传统文本特征抽取方法存在的精度不高、执行效率低等问题,提出了一种基于分块主成分分析的文本特征提取算法。该算法通过K-均值词聚类进行特征词分块,再对各分块实施PCA操作抽取出更具代表性的特征项,最后使用支持向量机分类器对文本进行分类。实验结果表明:分块主成分分析的分类指标F_(β=1)达到了88.7%,执行时间为353 s,能够有效提高文本分类精度与执行效率。(本文来源于《河南科技大学学报(自然科学版)》期刊2015年06期)

文本特征抽取论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

针对相近农业科研领域文献的文本特征信息高度重合的特点,以及传统的文本特征抽取方法存在的不足,对TF-IDF算法进行优化并加以应用验证。通过引入卡方检验值与特征词频修正因子等方式,对特征词加权函数进行重构,形成改进的ImpTF-IDF-CHI方法。将该方法与文档频率法、信息增益法及TF-IDF 3种传统的文本特征抽取结果应用于朴素贝叶斯分类实验,根据实验结果判定方法的优劣性。通过4种方法的58组特征抽取与文本分类实验,发现与前述的3种特征抽取方法相比,ImpTF-IDF-CHI方法抽取的特征词,应用于文本分类的正确率最高,平均准确率达94%,F1值为0.844,证明该方法在对相近农业科研领域文本进行特征抽取方面,具有准确率高、稳定性好、主题词代表性强等优点,可以有效地应用于此类文献文本分类、特征表达、主题抽取等场景。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

文本特征抽取论文参考文献

[1].郑野,宋旭东,于林林,陈鑫影.基于标签路径覆盖率和多文本特征的正文抽取算法[J].大连交通大学学报.2019

[2].杜若鹏,鲜国建,寇远涛.基于改进TF-IDF-CHI算法的农业科技文献文本特征抽取[J].数字图书馆论坛.2019

[3].陈振彬,叶颖雅,冯浩男,李明轩,陈珂.多特征融合与注意力机制的中文文本关系抽取[J].广东石油化工学院学报.2019

[4].彭圳生,巩青歌,高志强,段妍羽,曾子贤.基于密度及文本特征的新闻标题抽取算法[J].中文信息学报.2018

[5].魏伟.基于条件共现度的文本表示与特征抽取方法研究[D].大连理工大学.2018

[6].李光敏,陈炽,邢江,彭绪富,杨怿.网络文本评论中产品特征抽取综述[J].现代情报.2016

[7].徐华林.领域UGC文本中话题-特征关系抽取及应用研究[D].电子科技大学.2016

[8].徐震.网络舆情内容分析中的Web文本语义特征抽取研究[J].图书馆学研究.2016

[9].饶高琦,于东,荀恩东.基于自然标注信息和隐含主题模型的无监督文本特征抽取[J].中文信息学报.2015

[10].洪军建,珠杰.分块主成分分析在文本特征抽取中的应用[J].河南科技大学学报(自然科学版).2015

论文知识图

一6主题特征词提取及主题层次树构造的实...一3中文信息资源可视化模型礴层次展示技术e-WTDE原型系统图例文本抽取模式文本特征抽取的一般过程

标签:;  ;  ;  ;  ;  ;  ;  

文本特征抽取论文_郑野,宋旭东,于林林,陈鑫影
下载Doc文档

猜你喜欢