属性抽取论文_刘媛媛

导读:本文包含了属性抽取论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:属性,实体,注意力,蒙古文,机制,条件,模式。

属性抽取论文文献综述

刘媛媛[1](2019)在《实体-属性抽取简介》一文中研究指出本文介绍了实体-属性抽取的相关概念,分析了规则抽取的方法,模式匹配的抽取方法,基于关系分类的抽取方法和基于聚类的抽取方法,最后对几种抽取方法进行了比较,为后续数据结构化的研究奠定基础。(本文来源于《电脑知识与技术》期刊2019年33期)

吕秋男[2](2019)在《基于百科和垂直网站的景点属性关系抽取研究》一文中研究指出随着信息技术的更新迭代,互联网的信息量正以指数级速度增长,面对日益增多的文本数据,如何从其中提取出用户感兴趣的信息已经成为近几年研究的重点,信息抽取技术应运而生。属性抽取技术作为信息抽取技术的一个子领域,也是构建知识图谱必不可少的一部分。属性抽取是将非结构化数据转化为结构化数据的一种途径,属性抽取技术日趋成熟,但针对特定领域属性抽取算法性能仍有提升空间。本文主要针对内蒙古旅游领域文本做属性抽取工作,旨在能够发现特定领域中实体和属性值之间的关系,并将抽取结果转化为供后续研究的结构化数据。本文的重点研究内容如下:(1)构建内蒙古旅游领域语料库。使用Scrapy爬虫框架,获取百科类网站和垂直网站的入口URL,对文本数据进行爬取。配置Brat工具对爬取的语料进行人工标注,将其转换为BIO标注模式。(2)确定旅游领域语料中需要抽取的属性。将属性抽取的任务转化为序列标注任务,分别构建基于CRF和神经网络两种模型。(3)提出基于篇章级架构的神经网络模型。该模型利用BLSTM捕获文本的上下文信息和时序信息,利用CRF输出最优标签序列。训练每篇文档的文档级向量,并通过实验验证模型架构的可行性。(4)研究不同粒度的训练语料及添加不同特征对模型性能的影响。分为字符级和词级两种粒度。在字符级模型中添加偏旁部首特征和文档级向量,在词级模型中添加词性、字符级和文档级向量,旨在寻找标注效果最好的模型。(本文来源于《内蒙古大学》期刊2019-04-25)

苏家琦[3](2019)在《网络人物属性关系抽取方法研究》一文中研究指出人物搜索引擎、知识图谱构建和人物画像等系统依赖于大量的人物数据,然而互联网上的人物数据以碎片化的形式存在,且无结构的文本占很大的比重,很难直接加以利用。人物属性关系抽取就是处理这些无结构文本,从中抽取出人物属性及其对应关系,方便上述系统的使用。然而现有的研究自动化程度不高,一方面需要人工标注语料库和数据集,成本昂贵;另一方面又需要人为地制定抽取规则或者构建人工特征,这很难覆盖原有的样本空间,且其过度依赖自然语言处理工具,严重制约着系统的效率和性能。针对上述现状,本文对网络中与人物相关的无结构文本进行研究。主要工作如下:(1)为获得自动标注的数据集,本文采取远程监督的方法,利用现有的结构化数据对齐到语料库中,自动获得大量的标注数据集。相比于传统远程监督数据源,本文的数据源结合了维基百科、纽约时报和人物传记网的不同特点,能够更好地反映自然语言丰富多样的表达。(2)针对远程监督数据集的噪声问题,本文提出了一种增强型去噪模型,该模型分为两个阶段。第一个阶段构建了融合最短依存路径和词窗口的关系模板,并通过计算关系模板和关系触发词集的语义Jaccard系数,进行初步去噪。第二个阶段采用了众数过滤的方法,用叁个基分类器进行投票去噪。最后通过实验证实了文本提出的去噪模型能够有效改善远程监督数据集的质量,提升了传统人物属性关系抽取算法的性能。(3)为简化传统关系抽取繁杂的特征工程,本文将去噪后的远程监督数据集应用在了深度学习中。相比于传统深度学习,本文提出的针对人物属性关系抽取的改进模型在输入层融合了语义、词法、句法、位置等编码,以便神经元能够更好捕获高维特征。同时,相比于传统的一维注意力机制,本文采用的二维注意力矩阵能够从不同角度对句子成分进行关注,提升关系抽取的性能。最后,本文从分类算法性能评估和关系抽取热力图可视化两个角度验证本文提出的改进模型的可行性。(本文来源于《电子科技大学》期刊2019-03-31)

程南昌,邹煜,滕永林,侯敏[4](2019)在《篇章知识与逐级分类相结合的人物属性抽取方法研究》一文中研究指出人物属性抽取主要包括两个问题:属性识别和属性归属判定。属性识别主要是命名实体的识别,本文通过对分词软件的调整来完成;在属性归属判定中,本文突破目前主要在句子范围内进行统计操作的方式,提出以篇章知识为指导,从文本到句子逐级分类的人物属性抽取方法,该方法在CIPS-SIGHAN2014评测中F1值宽、严结果分别为0. 51与0. 49,为本次评测最好成绩。事实证明了该方法的有效性。(本文来源于《语言文字应用》期刊2019年01期)

程梦,洪宇,唐建,张家硕,邹博伟[5](2019)在《面向属性抽取的门控动态注意力机制》一文中研究指出在现阶段属性抽取研究中,现有注意力建模及训练较刚性(单句一次成型),而单句中不同词汇的上下文存在语境语义的差异,一致的注意力分布缺少动态的适应性.因此,文中提出面向属性抽取的门控动态注意力机制,利用双向长短时记忆网络捕获目标句中每个单词的隐层表示.在注意力模型处理词一级属性预测时,根据目标词及其上下文,计算适应该目标词的注意力分布向量,可以根据上下文的变化自动调整注意力权重的分配.借助门控调整注意力向量流向下一层神经元的信息量,最终使用条件随机场进行属性标记.应用2014-2016语义评估官方数据集验证文中方法的有效性,F1值均有所提高.(本文来源于《模式识别与人工智能》期刊2019年02期)

王仁武,孟现茹,孔琦[6](2018)在《实体—属性抽取的GRU+CRF方法》一文中研究指出[目的/意义]研究利用深度学习的循环神经网络GRU结合条件随机场CRF对标注的中文文本序列进行预测,来抽取在线评论文本中的实体—属性。[方法 /过程]首先根据设计好的文本序列标注规范,对评论语料分词后进行实体及其属性的命名实体标注,得到单词序列、词性序列和标注序列;然后将单词序列、词性序列转为分布式词向量表示并用于GRU循环神经网络的输入;最后输出层采用条件随机场CRF,输出标签即是实体或属性。[结果/结论]实验结果表明,本文的方法将实体—属性抽取简化为命名实体标注,并利用深度学习的GRU捕获输入数据的上下文语义以及条件随机场CRF获取输出标签的前后关系,比传统的基于规则或一般的机器学习方法具有较大的应用优势。(本文来源于《现代情报》期刊2018年10期)

瞿珊珊,周晓光[7](2018)在《面向流域水资源自由文本的属性抽取方法》一文中研究指出[目的/意义]为流域水资源领域知识库的构建提供数据来源。[方法/过程]针对非结构化的流域水资源属性信息,提出一种基于属性触发词的流域水资源属性抽取方法。首先,基于统计学方法分析流域水资源文本,得到流域水资源实体-属性触发词-属性值的分布规律;其次,利用频繁模式挖掘,提取出属性触发词;最后,结合属性触发词与属性触发规则,实现属性叁元组的抽取。[结果/结论]经百度百科自由文本实验与对比分析,该方法适用于数值型属性抽取,具有较高的精确率和召回率。(本文来源于《情报探索》期刊2018年05期)

胡梦君[8](2018)在《基于规则的蒙古文人物属性抽取研究》一文中研究指出在信息爆炸的互联网时代,网络上充斥着海量繁杂的信息和数据,且多以半结构化文本或自由文本形式呈现。用户对搜索所关注信息的效率性和获得结果的准确性有着越来越高的要求,由此,信息抽取技术(IE)以帮助用户快速获取目标内容为目的而得到迅速的发展。目前信息抽取技术虽在中英文的研究上已获得不少实用成果,但在少数民族语言如蒙古文中,信息抽取的研究和应用基本仍处于空白阶段。本研究中涉及到的信息抽取特指为实体关系抽取,旨在从大规模的文本数据中提取出目标信息如人物属性值,然后将抽取结果以结构化的形式保存到本地,并为用户提供后续的查询功能,同时此研究也是构建蒙古文人物知识库或人物搜索引擎等网络应用的一项基础工作。本文以基于规则的方式,以蒙古语新闻网站爬取到的蒙古文无结构文本为研究对象,针对关注度较高的人物领域,研究了对人物属性的抽取。本文的重点研究工作如下:(1)设计爬虫工具,从多个蒙古文新闻网站,分别根据其中新闻正文所在网页的结构和网址特征爬取文本,对其进行多项预处理工作,再采用BLSTM与CRF相结合的模型进行命名实体识别,得到最终标注语料库,作为后续分析处理的基础资源。(2)使用人工制定的触发词库与规则库对语料文本中蕴含的人物属性值以“人物-属性-属性值”的叁元组形式进行抽取和保存,得到了高准确率的抽取结果,证明本文提出的基于规则的抽取方法可行有效。(3)设计实现了蒙古文人物属性抽取系统,该系统提供人物属性抽取和人物相关属性信息查询两个功能模块。(本文来源于《内蒙古大学》期刊2018-04-25)

宋慈[9](2018)在《物质名词“阳光、空气、水”的属性义抽取与知识本体构建》一文中研究指出本文以北京大学CCL语料库检索得到的物质名词“阳光、空气、水”为语料,以生成词库理论为理论背景,以认知组合性词义观和词义球结构理论为直接依据,通过全面考察物质名词“阳光、空气、水”的原始使用面貌,根据词的具体使用环境,分析句法结构中词与词之间邻现组合的原因和语义关联机制,最终得到物质名词“阳光、空气、水”的全部属性义276个,其中“阳光”的具体属性义112个、“空气”的具体属性义161个、“水”的具体属性义196个,并将这些具体属性义进一步归纳概括为10种初始属性义,分别构建了物质名词“阳光、空气、水”的属性义知识本体。该属性义知识本体完整呈现了物质名词“阳光、空气、水”在语言使用中的实际用法,也呈现了人们认知这叁种物质的知识体系。本文是名词属性义知识本体构建的一个初步实践成果,对于建设较大规模的名词词义知识资源具有示范意义。在此基础上,本文进一步探讨了词的属性义知识本体的理论及应用价值,认为词的属性义在词义结构扩展生成句法结构过程中所起的桥梁纽带作用,能够解释词间邻现组合产生动态组合意义的认知语义动因。同时认为,名词属性义知识本体建立了一种更为精密、更为全面的理解名词词义的认知模型,实现了对名词的句法、语义知识的语言建模,其所包含的多层次的词义知识体系为信息提取、内容分析、文本计算等多种自然语言处理与应用工作,为解决句法—语义界面问题,提供了基础性的资源支撑。(本文来源于《湖北大学》期刊2018-04-12)

尚霞,李贵,韩子扬,李征宇,孙平[10](2017)在《基于混合属性的Deep Web数据抽取算法》一文中研究指出由于Web查询接口的限制,用户很难获取隐藏Web数据库的所有数据。基于隐藏Web数据库中的混合属性构造查询分解空间,采用深度优先遍历,提出一种将基于分类属性的改进启发式切片覆盖算法与基于数值属性的多维动态划分算法相结合的混合算法,能够通过较少的查询次数获取后台数据库中的全部数据。对算法的查询代价做了理论分析,通过实际项目的真实数据库验证了混合算法的有效性。(本文来源于《中国计算机用户协会网络应用分会2017年第二十一届网络新技术与应用年会论文集》期刊2017-12-21)

属性抽取论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着信息技术的更新迭代,互联网的信息量正以指数级速度增长,面对日益增多的文本数据,如何从其中提取出用户感兴趣的信息已经成为近几年研究的重点,信息抽取技术应运而生。属性抽取技术作为信息抽取技术的一个子领域,也是构建知识图谱必不可少的一部分。属性抽取是将非结构化数据转化为结构化数据的一种途径,属性抽取技术日趋成熟,但针对特定领域属性抽取算法性能仍有提升空间。本文主要针对内蒙古旅游领域文本做属性抽取工作,旨在能够发现特定领域中实体和属性值之间的关系,并将抽取结果转化为供后续研究的结构化数据。本文的重点研究内容如下:(1)构建内蒙古旅游领域语料库。使用Scrapy爬虫框架,获取百科类网站和垂直网站的入口URL,对文本数据进行爬取。配置Brat工具对爬取的语料进行人工标注,将其转换为BIO标注模式。(2)确定旅游领域语料中需要抽取的属性。将属性抽取的任务转化为序列标注任务,分别构建基于CRF和神经网络两种模型。(3)提出基于篇章级架构的神经网络模型。该模型利用BLSTM捕获文本的上下文信息和时序信息,利用CRF输出最优标签序列。训练每篇文档的文档级向量,并通过实验验证模型架构的可行性。(4)研究不同粒度的训练语料及添加不同特征对模型性能的影响。分为字符级和词级两种粒度。在字符级模型中添加偏旁部首特征和文档级向量,在词级模型中添加词性、字符级和文档级向量,旨在寻找标注效果最好的模型。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

属性抽取论文参考文献

[1].刘媛媛.实体-属性抽取简介[J].电脑知识与技术.2019

[2].吕秋男.基于百科和垂直网站的景点属性关系抽取研究[D].内蒙古大学.2019

[3].苏家琦.网络人物属性关系抽取方法研究[D].电子科技大学.2019

[4].程南昌,邹煜,滕永林,侯敏.篇章知识与逐级分类相结合的人物属性抽取方法研究[J].语言文字应用.2019

[5].程梦,洪宇,唐建,张家硕,邹博伟.面向属性抽取的门控动态注意力机制[J].模式识别与人工智能.2019

[6].王仁武,孟现茹,孔琦.实体—属性抽取的GRU+CRF方法[J].现代情报.2018

[7].瞿珊珊,周晓光.面向流域水资源自由文本的属性抽取方法[J].情报探索.2018

[8].胡梦君.基于规则的蒙古文人物属性抽取研究[D].内蒙古大学.2018

[9].宋慈.物质名词“阳光、空气、水”的属性义抽取与知识本体构建[D].湖北大学.2018

[10].尚霞,李贵,韩子扬,李征宇,孙平.基于混合属性的DeepWeb数据抽取算法[C].中国计算机用户协会网络应用分会2017年第二十一届网络新技术与应用年会论文集.2017

论文知识图

社会信用管理体系的电子化服务系统模...同领域DeepWeb数据集成系统框架非结构化属性抽取系统框图产科在线资源属性抽取结果WDB接口属性抽取过程名称属性抽取算法的框架

标签:;  ;  ;  ;  ;  ;  ;  

属性抽取论文_刘媛媛
下载Doc文档

猜你喜欢