导读:本文包含了自动抽取论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:信息,实体,谓词,线性规划,词频,关键词,文本。
自动抽取论文文献综述
白钰洁[1](2019)在《基于开始定界符的自动Web信息抽取》一文中研究指出为了从网页中快速获得隐含的有用信息,提出一种基于开始定界符的Web信息抽取方法。首先通过网络爬虫获取样本网页;其次对样本网页进行预处理;再通过循环神经网络训练预处理后的样本网页,获得开始定界符;最后利用lxml解析库实现目标抽取页面Web信息的定位与抽取。这样将半结构化的网页自动整理成结构化的知识,以便人们的查询及再利用。通过叁个慕课网站的抽取实验,证明该方法抽取效果良好,可以抽取有用信息并具有可移植性。(本文来源于《微型电脑应用》期刊2019年11期)
田新华,胡日辉[2](2019)在《定制SRAM存储器的时序功耗模型的自动抽取》一文中研究指出为提升访存性能,处理器的指令和数据cache设计中往往采用定制SRAM存储阵列,这就需要抽取它们的时序和功耗模型以便将其集成到芯片的整体设计中。论文描述了基于Siliconsmart工具自动抽取定制SRAM存储阵列时序功耗模型的方法与流程,以便后续将其集成到处理器芯片整体的设计与分析流程中。(本文来源于《计算机与数字工程》期刊2019年11期)
俞琰,陈磊,姜金德,赵乃瑄[3](2019)在《网络招聘文本技能信息自动抽取研究》一文中研究指出[目的/意义]针对目前网络招聘文本手工抽取技能信息无法满足大数据量分析要求的问题,提出一种针对大量网络招聘文本的技能信息自动抽取方法。[方法/过程]根据网络招聘文本的特点,利用依存句法分析选取候选技能,然后提出领域相关性指标衡量候选技能,将其融入传统的术语抽取方法之中,形成一种网络招聘文本技能信息自动抽取方法。[结果/结论]实验表明,本文提出的方法能够从网络招聘文本中自动、快速、准确地抽取技能信息。(本文来源于《图书情报工作》期刊2019年13期)
李珊珊,陈黎,唐裕婷,王艺霖,于中华[4](2019)在《利用整数线性规划自动抽取多样性关键短语》一文中研究指出关键短语是文本信息的精简概括,能够代表文本的主题和核心观点。而关键短语的自动抽取更是自然语言处理和信息检索的重要任务之一。针对目前无监督方法自动抽取关键短语存在过度生成候选短语语义的问题,提出了一种将整数线性规划和短语语义相似度相结合的自动抽取算法。通过惩罚语义相似度高的候选短语实现目标函数的最大化,以此形成多样性的关键短语。实验利用TextRank和TFIDF算法在两种不同的语料集中分别产生候选短语,并利用提出的优化算法对候选短语的权值得分进行优化。最后将所提算法产生的优化结果与现有多个算法的结果进行了比较。实验结果表明,通过加入相似性度量的惩罚能够有效解决语义过度问题,并获取更多样的关键短语,其优化结果的P,R和F值均高于其他算法。(本文来源于《计算机科学》期刊2019年S1期)
王琳,刘伍颖[5](2019)在《基于关键体词抽取的韩国语自动文摘》一文中研究指出非通用语言信息爆炸导致人们的时间更加稀缺且注意力更加发散。该文围绕韩国语文本的自动文摘问题,提出一种新的基于关键体词抽取的韩国语文摘算法。该文认为韩国语体词主要表示语义信息,而韩国语谓词更多地担负句法框架功能。实验结果表明基于关键体词抽取的文摘算法效果优于采用谓词或全词的效果,且新提出的韩国语文摘算法在韩国语文摘任务中能够达到最优性能,证明了体词主要表示语义信息的论断是有效的。(本文来源于《中文信息学报》期刊2019年06期)
张金柱,胡一鸣[6](2019)在《融合表示学习与机器学习的专利科学引文标题自动抽取研究》一文中研究指出【目的】针对专利引文类别繁多的问题,研究自动识别其中专利科学引文这一特定类别的方法,进而准确抽取专利科学引文的标题特征项,支撑后续专利科学引文深度分析与挖掘。【方法】引入表示学习方法 Doc2Vec实现专利科学引文整体的语义向量表示,结合机器学习分类方法实现专利科学引文这一特定类别的识别;在此基础上,利用表示学习方法实现专利科学引文标题等内容元数据的语义向量表示,结合机器学习分类方法抽取专利科学引文标题。【结果】在基因领域专利的实验中,专利科学引文的识别精确率达到99.27%,专利科学引文标题抽取精确率达到92.59%,抽取精确率较单纯的机器学习方法提高5.96%。【局限】人工标注训练集较为耗时;对实验数据格式有一定要求。【结论】本文方法在专利科学引文识别和标题抽取上具有良好效果。(本文来源于《数据分析与知识发现》期刊2019年05期)
刘亚军[7](2019)在《中文命名实体及实体关系的自动抽取研究》一文中研究指出命名实体识别和实体关系抽取是信息抽取的两个重要任务。本文根据军事文本特点,结合ACE 2005中文数据集的命名实体类型和实体关系类型,定义军事领域文本中命名实体和实体关系的类型,进行人工标注,构建了军事领域标注数据集,并提出两种不同的抽取方法,包括基于管道方式的抽取方法和基于联合方式的抽取方法。本文的主要研究内容如下:(1)基于管道方式的抽取方法。将两个任务看成分离的子任务,独立进行处理。本文采用Lattice LSTM(Lattice Long Short Term Memory)模型对输入文本进行编码表示,融入词表匹配的词语信息,采用CRF(Conditional Random Field)层进行解码,实现中文命名实体识别。在此基础上,将关系抽取问题看作分类任务,采用PCNN(Piecewise Convolutional Neural Networks)网络模型,实现实体关系抽取。(2)基于联合方式的抽取方法。将两个任务看成一个统一的任务,任务之间信息融合,同时抽取中文命名实体和实体关系。本文提出基于状态转移网络的联合抽取方法,设计并定义转移动作,将联合抽取任务转换为转移动作序列的生成过程。该方法首先利用Lattice LSTM网络对输入文本进行编码表示,采用Stack LSTM(Stack Long Short Term Memory)实现栈的记忆功能,然后根据当前栈的状态,利用SoftMax层决定下一步转移动作,一直达到终结状态。基于状态转移网络的联合抽取方法能够识别中文嵌套实体,并实现命名实体和实体关系的联合抽取。本文在ACE 2005中文数据集和军事领域标注数据集上进行实验,根据实验结果评估管道方式和联合方式的模型性能。在ACE 2005中文数据集上,基于状态转移网络的联合抽取方法在中文命名实体识别结果上,F1值达到75.26%,实体关系抽取F1值达41.28%。相比于管道方式,命名实体识别结果提升8.45%,实体关系抽取结果提升12.41%。实验结果表明基于状态转移网络的中文命名实体和关系联合抽取方法优于基于管道方式的抽取方法。(本文来源于《郑州大学》期刊2019-05-01)
李欢,吕学强,李宝安,徐丽萍[8](2019)在《基于万有引力模型的关键词自动抽取方法》一文中研究指出为解决传统万有引力模型因词语质量、词间距离度量不足导致关键词效果较差的问题,分别从词语质量表示和距离计算两方面对传统万有引力模型进行改进。提出基于词频-文档分布熵的方法构建通用词表,过滤候选词后,综合位置、词性、词长特征改进TF-IDF方法,计算词语外部重要性;构建共现网络图,通过计算词语关联度衡量单词内部重要性,融合内部重要性和外部重要性计算词语质量并赋予图节点差异化初始权重;在语义距离的基础上引入依存句法距离,计算词间引力作为边的权重,多次迭代后排序输出TopK个关键词。实验结果表明,该方法在3GPP技术规范和公开的SemEval2010、DUC2001数据集上较传统方法取得了更好的效果,验证了方法的有效性和通用性。(本文来源于《计算机工程与设计》期刊2019年04期)
王雪梅,陈兴蜀,王海舟,王文贤[9](2019)在《基于标签和分块特征的新闻网页关键信息自动抽取》一文中研究指出针对抽取新闻关键信息需要人工构造或训练生成模板的问题,提出了基于标签和分块特征的新闻关键信息自动抽取方法。该方法首先通过计算新闻网页相关特征来定位新闻正文标签块,然后通过编辑距离定位新闻标题标签块,最后根据正文块和标题块定位新闻发布时间和来源标签块,并通过抽取各块的文本获得目标新闻关键信息。在该方法的基础上提出了针对新闻站点的目标新闻自动抽取框架,并用该框架对10个新闻站点的30个新闻栏目进行了新闻抽取。对抽取到的1 597条新闻随机选择了1 000条进行了实验。实验结果表明,该方法对新闻标题、发布时间、来源、正文均表现出良好的抽取效果,且优于实验对比对象。(本文来源于《山东大学学报(理学版)》期刊2019年03期)
黄睿智,黄德才[10](2019)在《词间关系的不确定图模型与关键词自动抽取方法》一文中研究指出传统的无监督关键词抽取算法往往无法反应词汇语义信息,而通过词频等方式来衡量一个词的重要性使其在面对短文本时准确率较低.为能兼顾词间语义关系、词位置关系及词频,结合word2vec提出了一种词间的文本局部相似度公式,并通过词间关系建立了不确定图模型,在提出顶点密度概念及候选关键词评价指标DEN的基础上,提出了基于不确定图的候选关键词抽取算法,并结合IDF提出了关键词评价的优化标准DEN-IDF.这种关键词抽取的新方法不依赖于外部人工标注数据,能够实现全程无监督.通过大量文本实验仿真发现,DEN-IDF的准确率比TF-IDF提高了8%左右,比TextRank提高了12%左右.(本文来源于《小型微型计算机系统》期刊2019年02期)
自动抽取论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
为提升访存性能,处理器的指令和数据cache设计中往往采用定制SRAM存储阵列,这就需要抽取它们的时序和功耗模型以便将其集成到芯片的整体设计中。论文描述了基于Siliconsmart工具自动抽取定制SRAM存储阵列时序功耗模型的方法与流程,以便后续将其集成到处理器芯片整体的设计与分析流程中。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
自动抽取论文参考文献
[1].白钰洁.基于开始定界符的自动Web信息抽取[J].微型电脑应用.2019
[2].田新华,胡日辉.定制SRAM存储器的时序功耗模型的自动抽取[J].计算机与数字工程.2019
[3].俞琰,陈磊,姜金德,赵乃瑄.网络招聘文本技能信息自动抽取研究[J].图书情报工作.2019
[4].李珊珊,陈黎,唐裕婷,王艺霖,于中华.利用整数线性规划自动抽取多样性关键短语[J].计算机科学.2019
[5].王琳,刘伍颖.基于关键体词抽取的韩国语自动文摘[J].中文信息学报.2019
[6].张金柱,胡一鸣.融合表示学习与机器学习的专利科学引文标题自动抽取研究[J].数据分析与知识发现.2019
[7].刘亚军.中文命名实体及实体关系的自动抽取研究[D].郑州大学.2019
[8].李欢,吕学强,李宝安,徐丽萍.基于万有引力模型的关键词自动抽取方法[J].计算机工程与设计.2019
[9].王雪梅,陈兴蜀,王海舟,王文贤.基于标签和分块特征的新闻网页关键信息自动抽取[J].山东大学学报(理学版).2019
[10].黄睿智,黄德才.词间关系的不确定图模型与关键词自动抽取方法[J].小型微型计算机系统.2019