自然语言分析论文_陈辉,黄强松,郑丹青,黄凯翔,董明昱

导读:本文包含了自然语言分析论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:自然语言,专名,分析法,语料库,语言,方法,自然主义。

自然语言分析论文文献综述

陈辉,黄强松,郑丹青,黄凯翔,董明昱[1](2018)在《自然语言分析技术在政务热线中的应用》一文中研究指出12345热线是市民参与社会管理的重要平台。传统的数据统计分析方法由于功能限制,无法处理接线员记录的描述数据,无法通过简单的方法将描述数据中的关键信息准确地提取出来。本文研究的是通过使用自然语言分析技术,对人工记录进行处理,配合其他系统信息,全面提取时间、地点、事件等能描述并可以通过程序直接计算的关键信息,然后辅助分析统计方法和数据挖掘方法,找出问题、描述问题、深究问题并提供建议。(本文来源于《江苏通信》期刊2018年04期)

J.Zech,M.Pain,J.Titano,M.Badgeley,J.Schefflein[2](2018)在《基于机器学习模型的自然语言分析用于临床放射学报告的研究》一文中研究指出目的比较不同方法提取放射报告特征的效果并开发一种自动识别这些报告中特征的方法。材料与方法本研究纳入96 303份头部CT报告,将这些报告的语言复杂性与供选择的语料库进行比较。通过使用词袋(BOW)模型、词嵌入以及潜在狄利克雷分布模型对经过预处理后的头部CT报告进行机器学习特征提取。最后,1 004份头部CT报告通过医师手动标记,其中一部分被选择作为重要特征。在这1 004份头部CT报告中有602份(约占60%)用于训练模型,使用构造特征Lasso logistic回归分析训练机器识别医师标记的特征。这些模型的性能在这1 004份报告中的402份报告中得到了验证。采用受试者操作特征(ROC)曲线对这些模型进行评分,同时计算所有特征的曲线下面积(AUC)、关键特征的AUC值以及报告中其他重要发现的AUC值。最佳模型的敏感性、特异性以及准确性用于预测所有标签以及用于确定报告所含的关键信息。结果结果显示AUC=0.966时作为最佳模型(BOW的一元混合模型、二元模型以及平均字母植入矢量叁线模型)评价头部CT报告中关键标签的临界点,AUC=0.957作为所有标签的临界点。确定为关键标签的敏感度和特异度分别为92.25%(175/189)和89.67%(191/213)。全部发现的平均敏感度和特异度分别为90.25%(1 898/2 103)和91.72%(18 351/20 007)。简单的BOW模型获得的结果与其他复杂的方法获得的结果相似。简单的BOW模型的AUC值为0.951,而最佳模型的AUC值为0.966。头部CT语料库中的YuleⅠ(是基于给定次数的单词数量的分布来计算的,当罕见的单词在文档中更频繁出现时它就会增加)有34个,明显要低于Reuters语料库的103个,以及I2B2出院总结语料库的271个,相比其具有更低的语言复杂性。结论自动化的方法可以识别放射学报告中的信息,这种方法的成功依赖于报告中标准化的语言。我们可以通过这种方法为诸如深度学习这样的应用程序生成一个大的特征语料库。(本文来源于《国际医学放射学杂志》期刊2018年04期)

郭江[3](2017)在《基于分布表示的跨语言跨任务自然语言分析》一文中研究指出特征表示是统计机器学习的基础工作,也是影响机器学习系统性能的关键因素之一。在基于统计的自然语言处理研究中,最常见的特征表示是离散形式的符号表示,比如对于词的独热表示(One-Hot)以及对于文档的词袋表示(Bag-of-Words)等。这种表示方式直观简洁,易于计算,结合特征工程以及传统机器学习算法(如最大熵、支持向量机、条件随机场等),可以有效地应用于大部分自然语言处理的主流任务。另一种重要的特征表示机制称为分布表示,通常为连续、稠密、低维的向量表示,比如早期的潜在语义分析(Latent Semantic Analysis)以及近年来应用甚广的“特征嵌入”(Feature Embedding)方法等。近年来,特征的分布表示被广泛应用在基于深度学习的自然语言处理模型中。与符号表示相比,分布表示可以更自然地与学习能力较强的深度神经网络模型相结合,并通过逐层抽象的表示学习来获得更适用于具体任务的高层语义表示。这也是填补自然语言处理语义鸿沟的一种有效手段。更重要的,分布表示提供了一种通用的语义表示空间,为不同任务、不同语言、不同模态数据之间的信息交互构建了一座桥梁。这种语义表示上的通用性使得多源训练信息能够相互融合,进而起到知识迁移的作用。比如,从无标注的生文本中训练神经网络语言模型而得到的词汇分布表示,被证明能够有效地提升大多数自然语言处理主流任务的性能。本文正是利用分布表示的这些特点,尤其针对其在语义表示上的通用性,研究了分布表示在跨语言、跨数据类型以及跨任务知识迁移中的关键技术。主要包含以下几个方面:1.基于双语数据的词义分布表示学习。针对前人提出的词汇分布表示无法刻画一词多义现象的问题,本文提出利用双语数据中所蕴含的词义对齐信息来学习词义级的分布表示。一方面能够更完整地刻画词义信息,另一方面可以结合循环神经网络对单语数据进行词义消歧,进而服务于上层应用。2.基于分布表示的跨语言依存句法分析。对于世界上绝大多数自然语言,句法标注资源难以获取,且人工标注代价较高。因此,本文提出多语言分布表示学习的方法,将不同语言的词语表示在一个相同的向量空间之内,构成了句法知识在不同语言之间进行迁移的一座桥梁。进而利用资源丰富语言(如英语)的句法资源,来对资源稀缺语言进行依存句法分析。3.基于深度多任务学习的多类型树库迁移学习。对于句法分析而言,现有的依存树库多种多样,或来自不同语言、或采用不同的标注规范。本文提出基于多层次分布表示共享的深度多任务学习结构,能够有效地从不同类型的源句法树库(不同语言、不同标规范)中进行知识萃取,从而提升句法模型在目标树库上的分析精度。4.面向语义角色标注与关系分类的统一框架。不同任务之间往往存在一定的共性,比如语义角色标注与(实体)关系分类,它们都涉及对句子中的语义关系进行分析。本文提出一个统一的深度神经网络模型,将语义角色标注与(实体)关系分类任务进行融合,并采用深度多任务学习来提升目标任务上的性能。总的来说,本论文利用分布表示在语义表示上的通用性,深入地研究了其在跨语言、跨任务与跨数据类型学习上的应用,在词汇、句法、语义层面上显着地提升了不同任务的性能。我们期待这些研究成果可以进一步延展至更多类型的数据以及任务,甚至应用于跨领域分析,以进一步推动自然语言处理领域的发展。(本文来源于《哈尔滨工业大学》期刊2017-03-01)

代洪宝,丁璐[4](2015)在《逻辑与自然语言——分析哲学中的“专名”之争》一文中研究指出在诸如罗素等分析哲学家那里,专名仅指逻辑专名,这就把真正的专名与日常语言所使用的名字区别开来,也就把逻辑与自然语言区别开来。然而,从蒯因开始,分析哲学的讨论开始有了一种回归自然语言的倾向,斯特劳森和塞尔等人试图从语用角度对专名问题进行探讨,这与弗雷格开创的"真之追求"的分析精神背道而驰。这些不同的背后所暗含的是逻辑与自然语言、认识论与本体论的分歧。(本文来源于《哈尔滨学院学报》期刊2015年06期)

程彦博[5](2015)在《机器翻译迈向新纪元》一文中研究指出当互联网延伸到每个人的生活中并把世界各地的人们联结在一起,当中国“一带一路”宏伟的战略构想逐渐展开,不同语言之间高效、准确的翻译显得越来越重要。然而,如何破解机器翻译质量低的难题?互联网和大数据将提供创新性的思路。    4月19日,由百度牵头并与中(本文来源于《中国计算机报》期刊2015-04-27)

杨玉兰[6](2014)在《逻辑学视域中的自然语言分析》一文中研究指出从逻辑学视角出发,形式逻辑研究通过对"意义"概念的逻辑转化来构造作为工具的形式语言,并有效推进自然语言分析的发展;以此为基础,自然语言逻辑研究的兴起在一定程度上弥补形式逻辑和传统语法的欠缺。本研究初步梳理逻辑学中自然语言意义的分析情况并指出,如何将逻辑工具更有效地运用于自然语言分析,如何更好地把逻辑学和语言学研究相结合,是自然语言逻辑研究须要进一步思考的重要问题。(本文来源于《外语学刊》期刊2014年04期)

常宝宝[7](2010)在《自然语言分析与生成术语简介》一文中研究指出自然语言处理是信息科学中人工智能的分支学科,该学科通过建立形式化的计算模型来分析、理解和生成自然语言。自然语言处理通常可进一步分为自然语言分析和自然语言生成两个领域。本文选择性的介绍了这两个领域中的一些重要术语并对这些术语的含义做了简要的解释。(本文来源于《术语标准化与信息技术》期刊2010年04期)

何兵[8](2010)在《库恩语言转向的认知根源——从朴素的自然主义到先验的语言分析》一文中研究指出库恩的语言转向,一方面是出于论战的需要,另一方面是由于关于世界变迁的格式塔隐喻出现了唯我论困境。为解决不可通约理论间的比较和交流问题,受沃尔夫和维特根斯坦的影响,库恩采用基于词典的世界隐喻,放弃了早年的自然主义取向,最终转向先验的语言分析。(本文来源于《自然辩证法通讯》期刊2010年03期)

冯志伟[9](2003)在《一种无回溯的自然语言分析算法》一文中研究指出在自然语言的自动分析中 ,如果回溯过多会严重地降低分析的效率。依尔利算法 ,可以完全避免回溯。本文介绍了依尔利算法的基本原理 ,它的叁种基本操作 ,并以实例详细地描述了依尔利算法分析句子的过程。(本文来源于《语言文字应用》期刊2003年01期)

许罗迈[10](1991)在《从ATN到CD:简介几种自然语言分析模式及其计算机实现方法(叁)》一文中研究指出Conceptual Dependency——概念相依模式前面介绍的扩展转换网络模式和确定性模式有一点是共同的,它们都把句法分析和语义分析分开,先进行句法分析再进行语义分析。主张这种作法的人主要考虑的是运算效率。因为句法分析比之语义分析更容易、更通用,经过句法分析确定句子各个成分之(本文来源于《现代外语》期刊1991年02期)

自然语言分析论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

目的比较不同方法提取放射报告特征的效果并开发一种自动识别这些报告中特征的方法。材料与方法本研究纳入96 303份头部CT报告,将这些报告的语言复杂性与供选择的语料库进行比较。通过使用词袋(BOW)模型、词嵌入以及潜在狄利克雷分布模型对经过预处理后的头部CT报告进行机器学习特征提取。最后,1 004份头部CT报告通过医师手动标记,其中一部分被选择作为重要特征。在这1 004份头部CT报告中有602份(约占60%)用于训练模型,使用构造特征Lasso logistic回归分析训练机器识别医师标记的特征。这些模型的性能在这1 004份报告中的402份报告中得到了验证。采用受试者操作特征(ROC)曲线对这些模型进行评分,同时计算所有特征的曲线下面积(AUC)、关键特征的AUC值以及报告中其他重要发现的AUC值。最佳模型的敏感性、特异性以及准确性用于预测所有标签以及用于确定报告所含的关键信息。结果结果显示AUC=0.966时作为最佳模型(BOW的一元混合模型、二元模型以及平均字母植入矢量叁线模型)评价头部CT报告中关键标签的临界点,AUC=0.957作为所有标签的临界点。确定为关键标签的敏感度和特异度分别为92.25%(175/189)和89.67%(191/213)。全部发现的平均敏感度和特异度分别为90.25%(1 898/2 103)和91.72%(18 351/20 007)。简单的BOW模型获得的结果与其他复杂的方法获得的结果相似。简单的BOW模型的AUC值为0.951,而最佳模型的AUC值为0.966。头部CT语料库中的YuleⅠ(是基于给定次数的单词数量的分布来计算的,当罕见的单词在文档中更频繁出现时它就会增加)有34个,明显要低于Reuters语料库的103个,以及I2B2出院总结语料库的271个,相比其具有更低的语言复杂性。结论自动化的方法可以识别放射学报告中的信息,这种方法的成功依赖于报告中标准化的语言。我们可以通过这种方法为诸如深度学习这样的应用程序生成一个大的特征语料库。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

自然语言分析论文参考文献

[1].陈辉,黄强松,郑丹青,黄凯翔,董明昱.自然语言分析技术在政务热线中的应用[J].江苏通信.2018

[2].J.Zech,M.Pain,J.Titano,M.Badgeley,J.Schefflein.基于机器学习模型的自然语言分析用于临床放射学报告的研究[J].国际医学放射学杂志.2018

[3].郭江.基于分布表示的跨语言跨任务自然语言分析[D].哈尔滨工业大学.2017

[4].代洪宝,丁璐.逻辑与自然语言——分析哲学中的“专名”之争[J].哈尔滨学院学报.2015

[5].程彦博.机器翻译迈向新纪元[N].中国计算机报.2015

[6].杨玉兰.逻辑学视域中的自然语言分析[J].外语学刊.2014

[7].常宝宝.自然语言分析与生成术语简介[J].术语标准化与信息技术.2010

[8].何兵.库恩语言转向的认知根源——从朴素的自然主义到先验的语言分析[J].自然辩证法通讯.2010

[9].冯志伟.一种无回溯的自然语言分析算法[J].语言文字应用.2003

[10].许罗迈.从ATN到CD:简介几种自然语言分析模式及其计算机实现方法(叁)[J].现代外语.1991

论文知识图

基于GIS路径汉语描述算法(控制型GI...2-9自然语言分析流程Fig...RCNLP查询处理逻辑图自然语言查询的一般处理过程4.4依存句法分析结果实例本文采用...系统结构及流程图

标签:;  ;  ;  ;  ;  ;  ;  

自然语言分析论文_陈辉,黄强松,郑丹青,黄凯翔,董明昱
下载Doc文档

猜你喜欢