导读:本文包含了特征抽取论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:特征,注意力,双向,机器翻译,文本,机制,关系。
特征抽取论文文献综述
林思琦,余正涛,郭军军,高盛祥[1](2019)在《融入多特征的汉越新闻观点句抽取方法》一文中研究指出该文提出一种融入多特征的汉越双语新闻观点句抽取方法。首先针对汉语和越南语标记资源不平衡的问题,构建了汉越双语词嵌入模型,用丰富的中文标记资源来弥补越南语标记资源的缺失。并且该文认为句子的主题特征、位置特征和情感特征对观点句分类具有重要作用,因此将这些特征分别融入词向量和注意力机制中,实现句子语义信息和情感、主题、位置特征的结合。实验表明,该方法可有效提升越南语新闻观点句抽取的准确率。(本文来源于《中文信息学报》期刊2019年11期)
郑野,宋旭东,于林林,陈鑫影[2](2019)在《基于标签路径覆盖率和多文本特征的正文抽取算法》一文中研究指出如何正确识别网页中存在的网页评论、导航、版权声明等噪音数据,提高网页抽取正文的准确度,提出了一种结合多种文本特征的正文抽取算法(CETD-TPF).在文本块密度和标签路径覆盖率的基础之上又融合了文本符号特征,利用新特征确定并抽取正文文本块.此方法有效的解决了网页正文短文本难以抽取的问题,且无需人工训练和处理.在对各大知名新闻网站随机选取的数据集进行实验表明,CETD-TPF方法在不同数据源上的适用性较好,正文抽取精度好于CETR、CETD算法.(本文来源于《大连交通大学学报》期刊2019年05期)
李卫疆,李涛,漆芳[3](2019)在《基于多特征自注意力BLSTM的中文实体关系抽取》一文中研究指出实体关系抽取解决了原始文本中目标实体之间的关系分类问题,同时也被广泛应用于文本摘要、自动问答系统、知识图谱、搜索引擎和机器翻译中。由于中文句式和语法结构复杂,并且汉语有更多歧义,会影响中文实体关系分类的效果。该文提出了基于多特征自注意力的实体关系抽取方法,充分考虑词汇、句法、语义和位置特征,使用基于自注意力的双向长短期记忆网络来进行关系预测。在中文COAE 2016Task 3和英文SemEval 2010Task 8数据集上的实验表明该方法表现出了较好的性能。(本文来源于《中文信息学报》期刊2019年10期)
祁瑞华,杨明昕,徐琳宏,关菁华[4](2019)在《图书评论特征抽取研究综述》一文中研究指出[目的/意义]图书评论是出版社、图书馆和用户研究读者观点的重要线索,评论特征抽取研究是提高图书评论观点精准挖掘效率和准确率的基础性工作。[方法/过程]分别从评论特征抽取研究和图书评论特征聚类、语义表示、隐性特征抽取的典型方法等方面对国内外研究现状进行客观分析,梳理相关领域研究发展脉络和趋势。[结果/结论]指出图书评论特征抽取效率和准确率的提高需要考虑特征聚类、语义表示和隐性特征抽取等关键问题。(本文来源于《现代情报》期刊2019年09期)
杜若鹏,鲜国建,寇远涛[5](2019)在《基于改进TF-IDF-CHI算法的农业科技文献文本特征抽取》一文中研究指出针对相近农业科研领域文献的文本特征信息高度重合的特点,以及传统的文本特征抽取方法存在的不足,对TF-IDF算法进行优化并加以应用验证。通过引入卡方检验值与特征词频修正因子等方式,对特征词加权函数进行重构,形成改进的ImpTF-IDF-CHI方法。将该方法与文档频率法、信息增益法及TF-IDF 3种传统的文本特征抽取结果应用于朴素贝叶斯分类实验,根据实验结果判定方法的优劣性。通过4种方法的58组特征抽取与文本分类实验,发现与前述的3种特征抽取方法相比,ImpTF-IDF-CHI方法抽取的特征词,应用于文本分类的正确率最高,平均准确率达94%,F1值为0.844,证明该方法在对相近农业科研领域文本进行特征抽取方面,具有准确率高、稳定性好、主题词代表性强等优点,可以有效地应用于此类文献文本分类、特征表达、主题抽取等场景。(本文来源于《数字图书馆论坛》期刊2019年08期)
翟家欣,高盛祥,余正涛,文永华,郭军军[6](2019)在《基于句子特征向量的汉-越伪平行句对抽取》一文中研究指出从可比语料中抽取伪平行句对是翻译语料扩充的重要方法之一。汉-越机器翻译是典型的资源稀缺型机器翻译,提高汉越翻译语料的规模能够显着提升汉越神经机器翻译性能。文章提出基于句子特征向量的汉越伪平行句对抽取方法,该方法首先根据汉越句法特性,将汉越句法差异部分的词性融入嵌入层,再使用自我注意力机制的神经网络抽取句子特征,生成一个句子特征向量,用这个句子特征向量来判断汉越句对是否为伪平行句对,实现从汉-越可比语料中抽取汉-越伪平行句对。实验表明,文章所提方法能够有效地从汉越可比语料中抽取出汉越伪平行句对。(本文来源于《山西大学学报(自然科学版)》期刊2019年04期)
陈振彬,叶颖雅,冯浩男,李明轩,陈珂[7](2019)在《多特征融合与注意力机制的中文文本关系抽取》一文中研究指出在中文关系抽取任务中,数据稀疏和噪声传播问题是其研究难点。基于此,提出了在文本特征组织方面融合位置特征、最短依存特征和N-gram特征等多元特征,并提升关键性特征的权重,以缓解传统词特征的数据稀疏问题。这种组合特征进一步改善了文本中噪声传播问题,提高了句法特征在稀疏性问题下的可靠性。此外,在传统的双向LSTM神经网络中加入注意力机制,使模型更关注较为重要的特征,降低噪声对抽取任务的影响。在人物关系公开语料集上进行实验,结果表明采用该方法进行中文文本关系抽取的效果较好,并为信息抽取、知识图谱等领域提供了方法支持。(本文来源于《广东石油化工学院学报》期刊2019年04期)
李志义,许洪凯,段斌[8](2019)在《基于深度学习CNN模型的图像情感特征抽取研究》一文中研究指出[目的/意义]以用户情感为线索的图像检索已成为机器学习研究的热点,但图像情感特征标注的语料数据多来源于对图像低层特征的抽取,从而导致图像检索过程单一化和程式化。本文提出了一种基于深度学习的图像情感特征抽取的算法,将图像底层特征融合到图像的高层情感语义当中,为实现图像的情感语义检索提供了参考。[方法/过程]利用改进的卷积网络模型,将数据集图像的颜色、纹理作为输入,经多层运算自动提取图像的情感信息,并通过反向传播算法计算出改进后模型的情感检索准确率,构造出准确率较高且过拟合程度低的图像情感特征提取模型。[结果/结论]应用改进的卷积神经网络模型,实现了对图像情感特征的抽取,相较于原模型提升了10%的检索准确率。(本文来源于《图书情报工作》期刊2019年11期)
谢昆明,罗幼喜[9](2019)在《一种改进的主成分分析特征抽取算法:YJ-MICPCA》一文中研究指出针对主成分分析(PCA)假设数据服从高斯分布的条件以及只能处理特征之间线性关系的不足,提出一种基于Yeo-Johnson变换和最大信息系数(MIC)的PCA特征抽取算法,命名为YJ-MICPCA。通过YeoJohnson变换改善原始数据分布,使其近似服从高斯分布,并将PCA中计算协方差矩阵转化为计算MIC矩阵的平方,使其也能处理特征间存在的非线性关系。以UCI机器学习数据库中的11个数据集为实验对象,采用支持向量机、朴素贝叶斯模型、k近邻算法这3种分类器,比较了YJ-MICPCA与PCA及其他常用非线性降维方法LLE、Isomap、MSD、KPCA的降维效果和分类精度,结果表明YJ-MICPCA总体上优于其他几种算法。(本文来源于《武汉科技大学学报》期刊2019年03期)
王宪发,郭岩,刘悦,俞晓明,程学旗[10](2019)在《基于视觉特征的网页信息抽取方法研究》一文中研究指出面对大规模异构网页,基于视觉特征的网页信息抽取方法普遍存在通用性较差、抽取效率较低的问题。针对通用性较差的问题,该文提出了基于视觉特征的使用有监督机器学习的网页信息抽取框架WEMLVF。该框架具有良好的通用性,通过对论坛网站和新闻评论网站的信息抽取实验,验证了该框架的有效性。然后,针对视觉特征提取时间代价过高导致信息抽取效率较低的问题,该文使用WEMLVF,分别提出基于XPath和基于经典包装器归纳算法SoftMealy的自动生成信息抽取模板的方法。这两种方法使用视觉特征自动生成信息抽取模板,但模板的表达并不包含视觉特征,使得在使用模板进行信息抽取的过程中无需提取网页的视觉特征,从而既充分利用了视觉特征在信息抽取中的作用,又显着提升了信息抽取的效率,实验结果验证了这一结论。(本文来源于《中文信息学报》期刊2019年05期)
特征抽取论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
如何正确识别网页中存在的网页评论、导航、版权声明等噪音数据,提高网页抽取正文的准确度,提出了一种结合多种文本特征的正文抽取算法(CETD-TPF).在文本块密度和标签路径覆盖率的基础之上又融合了文本符号特征,利用新特征确定并抽取正文文本块.此方法有效的解决了网页正文短文本难以抽取的问题,且无需人工训练和处理.在对各大知名新闻网站随机选取的数据集进行实验表明,CETD-TPF方法在不同数据源上的适用性较好,正文抽取精度好于CETR、CETD算法.
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
特征抽取论文参考文献
[1].林思琦,余正涛,郭军军,高盛祥.融入多特征的汉越新闻观点句抽取方法[J].中文信息学报.2019
[2].郑野,宋旭东,于林林,陈鑫影.基于标签路径覆盖率和多文本特征的正文抽取算法[J].大连交通大学学报.2019
[3].李卫疆,李涛,漆芳.基于多特征自注意力BLSTM的中文实体关系抽取[J].中文信息学报.2019
[4].祁瑞华,杨明昕,徐琳宏,关菁华.图书评论特征抽取研究综述[J].现代情报.2019
[5].杜若鹏,鲜国建,寇远涛.基于改进TF-IDF-CHI算法的农业科技文献文本特征抽取[J].数字图书馆论坛.2019
[6].翟家欣,高盛祥,余正涛,文永华,郭军军.基于句子特征向量的汉-越伪平行句对抽取[J].山西大学学报(自然科学版).2019
[7].陈振彬,叶颖雅,冯浩男,李明轩,陈珂.多特征融合与注意力机制的中文文本关系抽取[J].广东石油化工学院学报.2019
[8].李志义,许洪凯,段斌.基于深度学习CNN模型的图像情感特征抽取研究[J].图书情报工作.2019
[9].谢昆明,罗幼喜.一种改进的主成分分析特征抽取算法:YJ-MICPCA[J].武汉科技大学学报.2019
[10].王宪发,郭岩,刘悦,俞晓明,程学旗.基于视觉特征的网页信息抽取方法研究[J].中文信息学报.2019