导读:本文包含了知识抽取论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:知识,图谱,实体,神经网络,向量,知识点,课程。
知识抽取论文文献综述
徐浩,朱学芳,章成志,江川[1](2019)在《面向学术文献全文本的方法论知识抽取系统分析与设计》一文中研究指出【目的】面向学术文献全文本抽取方法论实体,识别其在全文本中的标引特征及使用环境。【方法】基于字典、规则及人工标注的方式抽取包含方法论知识的特征句及方法论实体,借助Visual Studio 2012及SQL Server2012实现方法论实体抽取核心功能模块。【结果】方法论特征句抽取的准确率为76%,召回率大于42%;每个特征句中约包含1.42个方法论实体,方法论实体的正式标引比率低于27%,对特征句的正式标引比率低于35%,学科专用工具的正式标引率较低。【局限】系统特征句抽取准确率及召回率均较低,虽提供了人工标注界面加以辅助,但工作量较大,未基于语句关系等方法论知识的语义特征进行命名实体识别。【结论】学科专用方法论知识的学术价值被忽视;本研究所设计的方法论特征句及实体抽取方法具备多学科通用性,可进一步探讨方法论驱动的跨学科知识扩散路径。(本文来源于《数据分析与知识发现》期刊2019年10期)
林杰,苗润生,张振宇[2](2019)在《专业社交媒体中的主题知识元抽取方法研究》一文中研究指出[目的/意义]以汽车论坛例,提出一种针对专业社交媒体文本的主题知识元抽取方法。[方法/过程]首先,通过LDA模型提取出汽车论坛中文本的主题,并进行去重,形成主题列表;其次,基于融合主题特征的深度学习模型T-LSTM模型构建适于汽车论坛本文的情感分析模型;然后,通过计算各词汇在图模型TextRank中的重要性与各词汇的Word2Vec主题相似度,抽取情感关键词与关键句,用于对文本主题与情感倾向的解释与补充;最后,对上述方法进行集成,输出结构化的主题知识元。[结果/结论]实验结果中,抽取得到的主题知识元合格率达到69.1%,表明本文提出的主题知识元抽取方法,能够围绕知识主题较为准确地抽取知识元,实现知识的结构化转换。(本文来源于《图书情报工作》期刊2019年14期)
李培林,袁贞明,涂文博,俞凯,芦东昕[3](2019)在《基于深度学习的电子病历中医疗知识抽取与分析(英文)》一文中研究指出目的电子病历(Electronic Medical Record, EMR)是记录患者医疗活动的重要数字载体。医疗知识抽取(Medical knowledge extraction,MKE)在EMR方面的自然语言处理(Natural language processing,NLP)研究中起着关键作用。命名实体识别(Named Entity Recognition, NER)和医疗关系抽取(Medical Relation Extraction, MRE)是MKE的两个基本任务。本研究旨在通过探索新方法来提高这两项任务的识别准确性。方法本研究讨论并构建了针对NER和MRE任务的双向长短期记忆神经网络组合条件随机场(Bidirectional long short-term memory combined conditional random field, BiLSTM-CRF)模型的两个应用场景。在两个任务的数据预处理中,使用GloVe词嵌入模型来对单词进行矢量化。在NER任务中,我们使用序列标注策略通过CRF层的联合概率分布对每个单词标签进行分类。而在MRE任务中,我们将单个实体的分类问题转换为序列分类问题,并且通过CRF层链接实体之间的特征组合来预测医疗实体的关系类别。结果通过在I2B2 2010公共数据集上的验证,本研究中构建的BiLSTM-CRF模型较两个任务中的基线方法均取得了更好的结果,其中在NER任务中的F1值约0.88,在MRE任务中的F1值约0.78。此外,本模型的收敛速度更快,也避免了过度拟合等问题。结论本研究证明了深度学习在医疗知识抽取领域的良好表现,并且验证了BiLSTM-CRF模型在不同应用场景下的可行性,为EMR领域的后续工作奠定了基础。(本文来源于《Chinese Medical Sciences Journal》期刊2019年02期)
李菲[4](2019)在《大数据环境下课程知识点抽取与组织方法研究》一文中研究指出随着教育大数据时代的来临,课程教材资源不断积累、种类迅速增加,课程知识不断更新变化,使得对大量课程教材资源中的知识点分析和知识点的高效选取变得愈加困难;课程教材组织形式多样,造成课程教材知识结构存在差异,使得对大量课程教材进行筛选和对教材进行有效编排组织更加艰难。因此,本文借助大数据提供的数据分析和技术支持,在研究了国内外关于课程知识点和课程知识组织方面的相关观点和方法之后,提出了一种大数据环境下的课程知识点自动抽取和知识组织的方法。该方法借鉴数据挖掘、文本挖掘等在教育数据挖掘中取得的成功经验,主要研究内容包括:首先,分析组成课程教材知识结构的知识点及知识点间关系组织的现状,借鉴大数据在教育中的应用,明确存在的问题和具体研究内容,结合大数据分析方法和技术,提出了一套大数据环境下的课程知识点抽取与组织体系建设框架;其次,深入研究细化理论和知识组织理论对教材内容分析的指导,分析课程教材知识结构特征及问题,建立课程知识组织模型;最后,采用基于混合策略的课程知识点抽取方法,结合规则匹配、无监督聚类、关键词抽取等方法抽取课程知识点,对抽取的课程知识点采用大数据融合的组织方法,逐本逐层计算课程知识点文本内容间的相似程度,依据文本内容的相似度增量式融合课程知识点,对融合的结果进行统计分析以发现规律,组织课程教材知识结构。结合细化理论研究内容对课程教材知识结构进行分析,发现课程教材知识结构的特征及存在问题,提出大数据环境下的课程知识点抽取和组织方法,解决了大量课程教材、不同课程教材知识结构下的课程知识点抽取和组织困难的难题,并以《教育心理学》课程教材为例进行方法实验,分析实验过程的结果,验证了各部分研究内容的有效性和可行性。从而,进一步帮助教学资源编排者和教学资源开发者、教师等分析、筛选、评价课程教材,学习者查找、学习相关知识点。(本文来源于《东北石油大学》期刊2019-06-03)
相福生[5](2019)在《基于信息抽取的物联网能力知识图谱构建方法研究与实现》一文中研究指出物联网能力知识图谱(Internet of Things Capability Knowledge Graph,IoTCKG)融合了知识图谱和物联网的特点,通过抽取物联网的功能及其之间的关系,构建物联网功能的知识图谱,将物联网中的服务结构化,为服务添加语义性信息,是比传统的物联网物体知识图谱粒度更细的描述方式,目的是解决物联网的描述问题,可用于异构物联网平台的融合、服务发现和推荐系统等。由于异构的物联网标准和描述不利于领域的融合和进一步的创新,近年来,传统的物联网(Internet ofThings,IoT)向新兴的WoT(Web of Things)过渡,解决了物联网的部分问题,但大多是构建物联网物体知识图谱,描述粒度相对较大,不能满足物体功能的动态性改变和更高层次的应用需求。基于此背景,本课题创新知识图谱的组成方式,通过构造物联网能力知识图谱,将传统的“物体-关系-属性”的粒度细化为“能力-关系-能力”的物联网能力知识图谱来描述物联网中物体的功能及其之间的关系,同时增加了物联网的语义。为此,本文做了以下方面的具体研究和工作:一、研究描述物联网存在的问题和独有特点,提出了利用物联网能力知识图谱解决这些问题的方案,在此基础上提出了一整套构造物联网能力知识图谱的解决方案。二、研究如何从语料中抽取能力知识词汇,根据物联网特点提出BiLSTM模型,用于从分词后的语料中获取相应的目标能力词汇,为构建知识图谱提供节点数据。叁、研究如何从标注好能力词对的语句中抽取关系,研究了监督型和半监督的信息抽取。在监督型领域中,提出了BiLSTM-CNN模型,融合了LSTM和CNN的优点。在半监督领域中,提出了RETAG模型,能够获取更多能力词汇信息,获得更好的关系抽取结果。(本文来源于《北京邮电大学》期刊2019-05-31)
马雨萌,王昉,黄金霞,姜恩波,张翕宇[6](2019)在《基于文献知识抽取的专题知识库构建研究——以中药活血化瘀专题知识库为例》一文中研究指出大数据时代科研人员对高效获取和利用领域知识提出了更高的要求,文献作为科研人员快速准确地了解本领域研究状况的有效途径,基于文献的知识发掘已成为一种新的科研方式。专题知识库作为组织和管理某一特定领域知识的工具,能够用于挖掘和展现文献背后的知识以满足用户个性化需求。本文提出了面向特定研究问题的专题知识库建设路线,采用基于知识工程的信息抽取方法,通过抽象研究问题要素构建专题知识模型,将其作为信息抽取的知识模式,制定知识模型各节点的知识抽取策略,对文献中实体、关系及属性进行解析、抽取与关联组织,基于这些结构化知识提供知识检索、浏览、问答、可视化关联组织等一系列知识服务。然后以中药活血化瘀领域建设实践为例,详细阐述了基于文献知识抽取构建专题知识库的实施方案。系统功能测试显示,该专题知识库能够实现知识快速查询、知识与文献关联发现、知识结构梳理等预期服务场景。本研究提供了一种构建专题知识库行之有效的技术路线,能够帮助科研用户快速而准确地定位和获取文献中的深层知识,提供了数据密集型科研环境下学科化资源建设与个性化精准服务的转型方式。(本文来源于《情报学报》期刊2019年05期)
李长远[7](2019)在《面向运营商资费知识图谱的信息抽取技术研究与应用》一文中研究指出随着移动通信、移动互联网等技术的快速发展,用户间的通信连接需求不断提升。运营商为了满足不同用户的需求,推出了多样化的业务,形成了动态复杂的资费体系。不同运营商、不同地域的资费套餐和促销种类繁多,功能复杂。一方面,给运营商带来运营和管理上的困难,难以对自身资费体系进行科学评估;另一方面,用户在选择资费套餐时也无从下手,难以准确选出合适自身需求的套餐业务。通过建立资费知识图谱,可以系统梳理套餐资费间的知识关联,帮助市场营销人员快速定位用户需要的资费套餐,同时将对手的资费策略、竞争意图知识化,方便营销人员按图索骥、快速决策。本论文基于构建运营商资费知识图谱这一需求,从数据获取、数据标注及处理、资费信息抽取到最后知识图谱的构建,提供了一套完整的解决方案,并通过实验证实了方案的可行性。构建好的资费知识图谱,全面准确地描述了资费、知识关联,为运营商资费业务的智能评估预测建立基础知识支撑。本文主要工作和创新点如下:(1)资费数据的获取与预处理。通过爬虫爬取公众号文章及官网数据获取初始数据集,并通过文本分类提取数据集中的资费文档,为后面资费信息抽取做准备。针对资费文档分类这一任务,在利用卡方值获取特征词向量的基础上通过分析资费文档的特点引入人工特征,对比分析了多种分类模型,经实验验证资费文档分类准确率达到90%以上。(2)针对资费文档的信息抽取,对文档中的表格数据和文本数据分别采用不同方式进行信息抽取。表格数据采用规则加词典的方式抽取。文本数据的抽取在BILSTM+CRF基本模型的基础上引入领域字向量与分词向量,显着提升了实体抽取的效果。(3)采用自顶向下与自底向上相结合的方式构建运营商资费知识图谱。引入专家知识,自顶向下定义了 21种资费实体及其对应的63种属性关系,基本覆盖了目前市面上所有的资费类型。自底向上将信息抽取得到的套餐知识映射到定义好的知识库中,完成资费知识图谱的构建。(本文来源于《北京邮电大学》期刊2019-05-23)
姜文超,庄志刚,涂旭平,利传杰,刘海波[8](2019)在《结合外部知识的动态多层次语义抽取网络模型》一文中研究指出针对复杂多文本机器阅读理解任务中的语义理解与答案提取问题,提出结合外部知识的动态多层次语义理解与答案抽取模型.首先利用改进的门控单元循环神经网络匹配文本内容与问题集,分别在向量化文本内容及问题集上实施多维度动态双向注意力机制分析,提高语义匹配精度.然后利用动态指针网络确定问题答案范围,改进网络模型语义匹配效率,降低答案提取冗余度.最后结合外部知识与经验改进候选答案精准性排序,得到最终答案.实验表明文中模型的语义匹配与答案提取精度显着提升,对不同领域的复杂文本阅读理解任务具有较高的鲁棒性.(本文来源于《模式识别与人工智能》期刊2019年05期)
翟社平,段宏宇,李兆兆[9](2019)在《基于BILSTM_CRF的知识图谱实体抽取方法》一文中研究指出针对传统知识图谱实体抽取方法需要大量人工特征和专家知识的问题,提出一种基于BILSTM_CRF模型的神经网络结构实体抽取方法。它既能使用双向长短时记忆网络BILSTM(Bidirectional Long Short-Term Memory)提取文本信息的特征,又可利用条件随机场CRF(Conditional Random Fields)衡量序列标注的联系。该方法对输入的文本进行建模,把句子中的每个词转换为词向量;利用BILSTM处理分布式向量得到句子特征;使用CRF标注并抽取实体,得到最终结果。实验结果表明,该方法的准确率和召回率更高,F1值提升约8%,具有更强的适用性。(本文来源于《计算机应用与软件》期刊2019年05期)
赵宏森[10](2019)在《事件知识图谱事件抽取关键技术研究》一文中研究指出事件不仅是人类进行知识认知和逻辑思维的基本知识单元,还是信息传播和信息保存的方式。知识图谱主要用于描述真实世界中各种实体之间的关系,事件知识图谱则是在知识图谱的基础上,将事件作为图谱中的节点,而将实体作为事件的信息补充。事件知识图谱是以事件为核心的,事件抽取作为事件知识图谱研究中的重要内容,其作用是将文本中需要的事件信息抽取出来。传统事件抽取任务主要包括了事件识别与事件元素识别两方面任务,其对于事件的描述不够直观易懂,本文提出一种事件描述模型将事件划分为主从事件并基于此进行事件抽取;本课题针对事件知识图谱的实际项目对事件知识图谱事件抽取与其前置任务进行研究与设计。主要研究内容包括以下叁个方面:1.基于双模式匹配的快速标注:事件知识图谱事件抽取在算法使用上使用了有监督的深度学习算法,因此需要使用到有标签的数据,而纯手工的标注方法需要大量的人力与时间。本文提出了基于双模式匹配的快速标注方法,即人工设定规则与基于已标注语料获取的规则,提高了标注的效率,减少了标注所需要的人力与时间。2.动态词向量表示:词向量表示是在事件抽取中采用深度学习模型的基础,传统的词向量表示大都采用了word2vector或Glove的静态词向量表示方法。其对于事件知识图谱事件抽取是不足的,本文采用能够对多义词在不同语句中进行不同表达的动态词向量表示方法,为事件抽取算法的输入提供特征更为全面词向量,优化神经网络模型并提高了模型的准确率。3.事件抽取算法设计:提出事件知识图谱事件抽取算法,将事件知识图谱事件抽取定义为了主从事件划分、主事件元素识别、从事件分类叁个任务,并使用神经网络模型对事件知识图谱事件抽取中的叁个任务进行实验与验证。然而神经网络模型忽略了传统特征,但是其经过专家的设计与验证是有效的,因此本文提出将神经网络与传统特征结合的方法来对模型进行优化,提升算法的效果。最后通过大量的对比实验验证了本文所提算法和创新方案的可行性,并完成了验证系统的设计与实现。(本文来源于《电子科技大学》期刊2019-04-16)
知识抽取论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
[目的/意义]以汽车论坛例,提出一种针对专业社交媒体文本的主题知识元抽取方法。[方法/过程]首先,通过LDA模型提取出汽车论坛中文本的主题,并进行去重,形成主题列表;其次,基于融合主题特征的深度学习模型T-LSTM模型构建适于汽车论坛本文的情感分析模型;然后,通过计算各词汇在图模型TextRank中的重要性与各词汇的Word2Vec主题相似度,抽取情感关键词与关键句,用于对文本主题与情感倾向的解释与补充;最后,对上述方法进行集成,输出结构化的主题知识元。[结果/结论]实验结果中,抽取得到的主题知识元合格率达到69.1%,表明本文提出的主题知识元抽取方法,能够围绕知识主题较为准确地抽取知识元,实现知识的结构化转换。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
知识抽取论文参考文献
[1].徐浩,朱学芳,章成志,江川.面向学术文献全文本的方法论知识抽取系统分析与设计[J].数据分析与知识发现.2019
[2].林杰,苗润生,张振宇.专业社交媒体中的主题知识元抽取方法研究[J].图书情报工作.2019
[3].李培林,袁贞明,涂文博,俞凯,芦东昕.基于深度学习的电子病历中医疗知识抽取与分析(英文)[J].ChineseMedicalSciencesJournal.2019
[4].李菲.大数据环境下课程知识点抽取与组织方法研究[D].东北石油大学.2019
[5].相福生.基于信息抽取的物联网能力知识图谱构建方法研究与实现[D].北京邮电大学.2019
[6].马雨萌,王昉,黄金霞,姜恩波,张翕宇.基于文献知识抽取的专题知识库构建研究——以中药活血化瘀专题知识库为例[J].情报学报.2019
[7].李长远.面向运营商资费知识图谱的信息抽取技术研究与应用[D].北京邮电大学.2019
[8].姜文超,庄志刚,涂旭平,利传杰,刘海波.结合外部知识的动态多层次语义抽取网络模型[J].模式识别与人工智能.2019
[9].翟社平,段宏宇,李兆兆.基于BILSTM_CRF的知识图谱实体抽取方法[J].计算机应用与软件.2019
[10].赵宏森.事件知识图谱事件抽取关键技术研究[D].电子科技大学.2019