导读:本文包含了文本结构化论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:文本,结构化,语义,知识,信息,实体,卷积。
文本结构化论文文献综述
尚小溥,许吴环,赵红梅,张润彤,朱燊[1](2019)在《中文超声文本结构化与知识网络构建方法研究》一文中研究指出[目的/意义]超声检查是判断患者病情的重要依据,目前主要检查数据是以文本形式存在。本文提出一种基于超声检查数据的文本结构化和知识网络构建方法,为进一步挖掘临床知识奠定数据基础。[方法/过程]对自然语言处理技术在超声文本环境下的应用进行改进,包括分词处理、内容定位、结构化识别叁个主要步骤,实现对超声文本的切分与标记,并且在此基础上建立其结构化知识网络。[结果/结论]真实数据测试结果显示,本文提出的面向超声检查文本的结构化方法具有较好的性能表现。该方法可以实现对批量超声文本结构化网络的自动构建,能够反映超声文本中结构化内容的层次关系与属性结构等潜在知识。(本文来源于《图书情报工作》期刊2019年16期)
李智星,任诗雅,王化明,沈柯[2](2019)在《基于非结构化文本增强关联规则的知识推理方法》一文中研究指出知识图谱用一种结构化的方式存储实体、实体的属性以及实体之间的关系。由于知识图谱中的知识易于被计算机处理,因此它在许多自然语言处理任务中都起着至关重要的作用。虽然从绝对数量来看,现有的知识图谱已经包含了海量的叁元组事实,但是与真实世界中存在的知识相比它远远不够。因此,如何完善知识图谱成为目前的研究热点。现有的研究方向主要分为内部推理和外部抽取两类,然而这些方法仍有很大的提升空间:一方面,由于知识图谱内部知识存在错误或缺失,可能会在推理时产生错误的扩散;另一方面,现有的知识抽取方法主要集中于对实体类型、关系等知识的抽取,从而导致抽取的知识不够全面。鉴于此,提出了一种基于非结构化文本增强关联规则的知识推理方法。该方法从非结构化文本表述中抽象出文本表述模式,并以词语分布袋的形式对其进行表示,进而结合知识图谱已有的知识构建关联规则。与传统关联规则的区别在于,该方法得到的关联规则可以通过与非结构化文本匹配的方式来完成知识推理。实验结果表明,与传统方法相比,该方法可以高效地从非结构化文本中推理出数量更大且质量更高的叁元组知识。(本文来源于《计算机科学》期刊2019年11期)
张帅[3](2019)在《小学语文结构化教学视域下四年级感知文本脉络的策略研究》一文中研究指出充分利用文本的文体特征,根据文本特点和规律明确某一类文本的基本结构模式,可以迅速而准确地帮助学生理清文章的基本框架和内容要点,可以帮助学生建构理清文章脉络的体系。树立学生文脉梳理的"类"意识,明确文体特征的基础上提炼梳理文脉的几种路径与方法,才能提取具体的有效信息。(本文来源于《课外语文》期刊2019年21期)
杨兵,聂铁铮,申德荣,寇月,于戈[4](2019)在《一种面向医学文本数据的结构化信息抽取方法》一文中研究指出医学文本作为医疗领域重要的信息载体,为临床诊断和病理学研究提供了重要的数据支持,然而使用自然语言编写的文本数据往往是非结构化的,不便于机器理解和自动化处理.对于中文的医学文本数据而言,由于专业性强,需要丰富的领域知识,并且语法上多采用短句形式,这给结构化信息的抽取带来了巨大的挑战.为此,本文设计了一种针对医学领域的文本数据进行结构化信息抽取的方法,该方法首先通过文本聚类和关键词提取来获得医学描述语言中常用的表达术语,然后使用生成的医学术语库辅助中文分词处理,以提高中文医学文本的分词质量.然后,分析词与词之间的语义依存关系并随之构建依存句法树.最后,从该句法树中识别和抽取医学文本描述中的关键指标及其对应的指标值,最终得到结构化的键值对数据.本文采用真实的医学影像报告文本作为实验数据,实验结果表明该方法有效提高了中文医学文本的分词质量,准确率最高可达98. 24%,并在结构化的信息抽取中效果显着,具有最高83. 76%的准确率和88. 09%的召回率.本文提出的方法能覆盖多种依存语法,且有很好的适用性.(本文来源于《小型微型计算机系统》期刊2019年07期)
刘庆[5](2019)在《基于非结构化文本的自动问答系统的研究与实现》一文中研究指出近几年随着移动互联网和大数据时代的快速发展,非结构化的网页和各垂直领域的文档急剧积累,基于非结构化文本的自动问答作为信息检索的高级形式,通过解析用户的真实意图,从检索到的文档中抽取简洁准确的答案,近几年逐渐成为研究热点。然而,当前大多公开的研究工作还存在诸多问题:1)问答场景下问句和文档长度严重失衡,信息检索模块中缺乏细粒度语义层面的相似度匹配,难以满足精准化检索需求;2)中文场景下,主流机器阅读理解模型未得到充分验证,性能存在提升空间,3)当前大规模非结构化文本自动问答技术不够成熟,针对某一垂直领域的应用平台相对较少。本文围绕非结构化文本自动问答系统中的文档信息检索和答案抽取的关键技术,进行算法优化和系统实现。主要研究工作包括:(1)提出了一种基于层迭注意力机制的语义相似度匹配模型(Deep-HAN-Matching),解决了问答场景下检索和文档长度严重失衡导致语义相似度匹配困难的问题,从词维度和句子维度利用注意力机制逐层抽象、抽取特征,在WikiQA公开数据集上相比主流基线模型性能提升明显;(2)提出了一种利用门限卷积神经网络和自注意力机制改进BiDAF的机器阅读理解模型(BiDAF-GCN-SelfAtt),缓解了在长文本下BiDAF上下文编码和交互匹配特征融合困难的问题,在公开中文数据集DuReader上ROUGE-L和BLEU-4指标相对于基线模型分别提升2.8%和5.2%;(3)在临床医学领域,融合本文提出的算法,实现了一个基于非结构化文本的自动问答系统,验证了本文提出的两种模型在临床医学标注数据集上表现出良好的适用性,同时系统在2018年临床医学执业医师考试测试集上,Topl准确率相比于基线系统提升明显。(本文来源于《北京邮电大学》期刊2019-06-01)
吴子恒[6](2019)在《条件型半结构化文本内容理解算法研究及应用》一文中研究指出互联网中存在着许多不同类型的政府政策信息,其中有部分政策包含了各类型的申请项目供企业或个人申请。但是,由于政策文件数量的逐渐增多,通过人工寻找合适的申请项目变得低效且困难。对这类型文本进行自动化的信息提取并且构建相应的知识库,能使个人或企业更准确高效地找到合适的申请项目。目前虽然信息提取技术在许多领域中已获得较好的应用成果,但是在这类条件型文本中,信息提取的研究以及应用较为罕见,尚未成熟。因此,对该文本类型进行的研究是非常有价值的。本文提出的内容理解算法指的是:在条件型文本中抽取有价值的信息并将它们存储在图形数据库中作为推荐系统、问答系统等的决策依据。本文的研究主要在文本的建模及文本内容的信息提取中,体现在以下叁个方面:(1)条件型文本有向无环图模型:本文结合条件型文本结构特点提出了条件型文本有向无环图模型。基于该模型,可存储条件型的文本内容以及表示条件型文本中项目与条件间、条件与条件间的关系语义。(2)条件项实体识别的研究:条件项的实体识别,是对条件关系进行抽取的基础。政策文本领域中存在着大量的实体,且存在着许多领域特有的实体,这些实体可分为四类:地名、机构、专有名词以及数字类。本文提出了基于同现度的触发词特征,并且使用了词性、句法依存关系、依存距离共四类特征作为条件随机场模型的训练特征。实验结果表明在政策文本领域中,基于上述四个特征训练的条件随机场模型在对四类条件项实体的识别中皆有较高的准确率、召回率以及F1值,验证了基于人工构建特征训练模型的可行性以及特征选取的有效性。(3)条件项实体关系抽取的研究:条件项实体关系的抽取是内容理解的重点。目前,政策领域的信息提取技术研究尚未成熟,缺乏高质量的标注语料库支持关系抽取的监督训练。针对以上问题,本文基于Bootstrapping方法改进提出了 TD_Bootstrapping算法。TD_Bootstrapping算法基于半自动化方法构建初始种子集并引入了叁元组语义距离进行种子筛选。实验结果表明,TD_Bootstrapping算法与主流的关系抽取方法相比,准确率、召回率、F1值皆有提升,验证了 TD_Bootstrapping算法的有效性。最终,本文基于以上的研究与方法提出了一种条件型半结构化文本的内容理解算法,将其应用在内容理解系统中,并展示了基于内容理解系统建设的政策推荐平台。最后通过内容理解系统的系统测试验证了内容理解算法的有效性。(本文来源于《华南理工大学》期刊2019-03-18)
李雨真[7](2019)在《结构化文本语言开发工具的设计与实现》一文中研究指出目前,可编程控制器已广泛应用于工业控制领域。相较于传统可编程控制器,嵌入式可编程控制器以嵌入式芯片为核心,具有灵活的硬件结构,使用简单且开发周期短,得到国内外的广泛认可。结构化文本(Structured Text,ST)语言作为可编程控制器常用的编程语言,易于实现复杂的控制程序。因此,本文设计并实现一款适用于嵌入式可编程控制器的ST开发工具,并针对嵌入式设备中通用的C语言,提出了一种ST语言到C语言的转换方法,从而提高开发工具对嵌入式可编程控制器的兼容性。本文重点研究ST开发工具及编译器模块的设计与实现,具体内容如下:1)深入研究IEC61131-3标准规定的公用元素和ST程序结构,实现ST编译器前端设计。主要描述ST语言的词法规则和语法规则,并构建、分析ST抽象语法树。2)对于ST编译器后端设计,本文制定ST语言和目标C语言之间的转换规则。并根据可编程控制器的内存特点及硬件结构,设计内存映射规则。为了描述可编程控制器特殊的程序组织单元,本文采用C语言实现ST的标准函数以及标准功能块。3)ST语言支持时间类型,本文以定时器为例,构建ST程序及C程序的时间自动机模型,采用UPPAAL工具进行形式化验证,从而保证转换前后功能的一致性。4)实现ST开发工具系统设计,并通过PID控制实例和一系列测试用例验证本文方法的正确性和可行性。(本文来源于《杭州电子科技大学》期刊2019-03-01)
于海[8](2019)在《基于卷积神经网络的非结构化文本敏感信息检测系统的设计与实现》一文中研究指出伴随着互联网、计算机硬件设备和移动硬件设备的高速发展,用户将大量的数据、文字等存放在电子文本文档中,随时随地进行着通信与传输。而大量电子文本文档的使用则存在着信息安全风险,从非结构化文本文档中泄露敏感信息对个人、企业以及政府都是一个代价高昂的问题。如何检测敏感信息以防止数据信息泄露成为了一个信息安全领域的重要课题。现阶段实际应用的检测方法大致分为两种,敏感词匹配以及传统的机器学习手段。这两种方法都依赖于特征关键词与敏感种子词共现的频率。然而在实践使用中,这可能会无法准确的检测出更复杂的敏感信息模式。实际应用的检测方法受人为情感因素影响,只注重了词语与特征的出现,割裂了文本本身上下文的联系,忽略了语句之间的意义,只能粗暴地按照“含有关键词特征即涉及敏感”的原则进行敏感信息检测。近年来,有科学家提出利用递归神经网络进行敏感信息检测,利用文档的上下文信息更准确地预测文档的敏感性,因为其自身模型具有的优点较好的解决了上述出现的问题。但该方法在提升准确率的同时,模型训练构建需要耗费较多的时间,实际应用时可能会影响效率。卷积神经网络模型作为深度学习的一种类型,在保留了递归神经网络模型具有的优势情况下,还可以缩减模型训练时间、提高效率。本篇论文提出使用Text-CNN模型代替递归神经网络模型,将文本敏感信息检测划归成特殊的文本分类,提出了一种基于卷积神经网络的非结构化文本敏感信息检测方法,并设计了一个检测系统。该检测方法在保证检测准确率的同时,又可以提升检测模型的训练构建时间,整体提高检测效率,实现高效准确检测。本文的主要研究内容如下:(1)将文本敏感信息检测的过程抽象成为一种特殊的文本二分类,即“敏感”和“非敏感”。研究现有基于深度学习模型的文本分类技术,结合选取非结构化文本的领域性以及特殊性,寻找最适合的分类方法。(2)提出了一种基于卷积神经网络的敏感信息检测方法。选取10000多篇非结构化文本文档分为训练集和测试集,以Text-CNN卷积神经网络模型为主体,调整模型细节和所需的超参数,训练敏感信息检测模型。通过大量对比实验,验证了本论文提出的敏感信息检测方法具有一定的现实实用性;(3)利用提出的敏感信息检测模型设计并实现了 USID系统(Unstructered Sensitive Information Detection System)。并对系统进行了功能测试和压力测试,证明了系统的高可用性和稳定性。(本文来源于《北京邮电大学》期刊2019-03-01)
裴韬,郭思慧,袁烨城,张雪英,袁文[9](2019)在《面向公共安全事件的网络文本大数据结构化研究》一文中研究指出网络文本中所包含的相关信息目前已成为公共安全事件紧急救援与影响评估的重要信息源。现有的方法虽然可定向地提取文本信息中事件的各类要素信息,但由于缺乏面向事件的整体建模与解析框架,难以从网络文本中获取系统的事件要素的结构化信息,即所提取的事件要素信息要么不够完整,要么与目标事件不匹配,由此产生的遗漏与谬误难以支撑针对公共安全事件信息的系统分析。为解决该问题,本文提出了面向公共安全事件的网络文本大数据结构化理论框架,首先,建立了公共安全事件的语义框架,并以地震事件为例构建了相应的结构化表结构;其次,应用训练语料的关联标注解决了事件要素与事件无法匹配的难点;最后,通过使用可融合关联信息的文本解析算法,系统提取了事件类型、事件名称、事件时间、事件位置及其他属性,基本实现了网络文本中不同事件信息的结构化。本文以云南邵通鲁甸地震为例,展示了地震事件的网络文本信息的结构化过程与结果,为分析地震所受的关注程度以及救援状况提供了重要参考。在上述研究的基础上,开发了面向公共安全事件的网络文本信息挖掘系统,展示了地震事件文本的结构化解析以及由此实施的事件关注度分析。(本文来源于《地球信息科学学报》期刊2019年01期)
赵奎,陈宏君,吴波,张磊,文继锋[10](2018)在《IEC61131标准的结构化文本语言解释器设计》一文中研究指出提出了一种符合IEC61131标准的结构化文本语言虚拟机指令高效解释执行的实现方案。结构化文本语言编译器将程序组织单元编译为二进制文件,该文件包括数据区、指令区。解释器内嵌各条指令对应的C执行函数和系统库函数。解释器在初始化中读取指令文件,构建数据区、指令节点链表、以跳转标号为关键字的指令序号hash表。指令节点记录形参地址、执行函数指针。在周期执行的任务中,顺次遍历指令链表。对于常规运算指令,调用指令节点关联的内嵌函数。对于跳转指令,根据跳转标号从hash表获取指令序号,动态调整当前执行的节点位置。该方案解决了线性指令表结构顺序执行时无法支持跳转和可变形参的问题,提高了解释器的执行效率,满足了工控系统的实时性要求。(本文来源于《单片机与嵌入式系统应用》期刊2018年12期)
文本结构化论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
知识图谱用一种结构化的方式存储实体、实体的属性以及实体之间的关系。由于知识图谱中的知识易于被计算机处理,因此它在许多自然语言处理任务中都起着至关重要的作用。虽然从绝对数量来看,现有的知识图谱已经包含了海量的叁元组事实,但是与真实世界中存在的知识相比它远远不够。因此,如何完善知识图谱成为目前的研究热点。现有的研究方向主要分为内部推理和外部抽取两类,然而这些方法仍有很大的提升空间:一方面,由于知识图谱内部知识存在错误或缺失,可能会在推理时产生错误的扩散;另一方面,现有的知识抽取方法主要集中于对实体类型、关系等知识的抽取,从而导致抽取的知识不够全面。鉴于此,提出了一种基于非结构化文本增强关联规则的知识推理方法。该方法从非结构化文本表述中抽象出文本表述模式,并以词语分布袋的形式对其进行表示,进而结合知识图谱已有的知识构建关联规则。与传统关联规则的区别在于,该方法得到的关联规则可以通过与非结构化文本匹配的方式来完成知识推理。实验结果表明,与传统方法相比,该方法可以高效地从非结构化文本中推理出数量更大且质量更高的叁元组知识。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
文本结构化论文参考文献
[1].尚小溥,许吴环,赵红梅,张润彤,朱燊.中文超声文本结构化与知识网络构建方法研究[J].图书情报工作.2019
[2].李智星,任诗雅,王化明,沈柯.基于非结构化文本增强关联规则的知识推理方法[J].计算机科学.2019
[3].张帅.小学语文结构化教学视域下四年级感知文本脉络的策略研究[J].课外语文.2019
[4].杨兵,聂铁铮,申德荣,寇月,于戈.一种面向医学文本数据的结构化信息抽取方法[J].小型微型计算机系统.2019
[5].刘庆.基于非结构化文本的自动问答系统的研究与实现[D].北京邮电大学.2019
[6].吴子恒.条件型半结构化文本内容理解算法研究及应用[D].华南理工大学.2019
[7].李雨真.结构化文本语言开发工具的设计与实现[D].杭州电子科技大学.2019
[8].于海.基于卷积神经网络的非结构化文本敏感信息检测系统的设计与实现[D].北京邮电大学.2019
[9].裴韬,郭思慧,袁烨城,张雪英,袁文.面向公共安全事件的网络文本大数据结构化研究[J].地球信息科学学报.2019
[10].赵奎,陈宏君,吴波,张磊,文继锋.IEC61131标准的结构化文本语言解释器设计[J].单片机与嵌入式系统应用.2018