中文文本处理论文_彭湃

导读:本文包含了中文文本处理论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:中文,文本,语料库,语言,自然语言,语义,信息。

中文文本处理论文文献综述

彭湃[1](2019)在《自然语言处理—中文词和短文本向量化的研究》一文中研究指出近年来计算科学飞速发展,尤其是计算机的计算能力大幅提升,机器学习和深度学习的应用越来越广泛,因此我们在自然语言处理领域的研究越来越多的运用了机器学习和深度学习的方法作为工具,在这样的情况下,自然语言处理也得到了大幅度的发展。在自然语言处理中,如何将词转换为计算机能够识别的语言是一项基础性的研究,因此词向量化和文本向量化方法的研究就显得尤为重要。传统针对文本数据的分析,往往基于词频、词频逆文本统计量作为文本的表示特征。这类方法往往只反映了文本的部分信息,忽略了文本的内在语义特征。尤其是对于短文本数据而言,关键词出现的频率通常较低,这给基于词频原理的统计模型带来了巨大的挑战。因而,本文提出了中文词语衔接的概率语言模型,其基本思想在于根据文本中词语出现的先后顺序进行建模分析,该模型在短文本数据挖掘中能够很好地针对文本语义进行量化分析。主要解决两类问题:一、如何合理地将中文词转化为数字向量,并且保证中文近义词在数字空间特征上的相似性;二、如何建立恰当的向量空间,将中文文本的语义和结构特征等信息保留在向量空间中。最后结合金庸小说人物验证中文词向量化的合理性;另一方面应用某城市房屋管理部门留言板的实际留言文本数据,借助BP神经网络和循环神经网络(RNN)两种算法,实现概率语言模型的求解。与传统文本处理方法的对比说明,本文的模型方法针对短文本语义挖掘问题具有一定的优势性。(本文来源于《华中师范大学》期刊2019-05-01)

阎令海[2](2019)在《分析Python语言的中文文本处理》一文中研究指出基于Python本身具备很强的优越性,功能非常强大,由于其容易被掌控,得到了普及和推广应用。本文针对Python语言的中文文本处理做出了进一步探究,对Python语言的文本处理背景、Python语言在中文文本当中的应用给出了详细的分析。(本文来源于《中国新通信》期刊2019年02期)

温珍[3](2018)在《基于Python语言的中文文本处理研究》一文中研究指出随着计算机技术的普及,基于机器语言的文本处理方法开始应用到各个领域,如何结合统计方法和机器方法的优势并将其应用于文本自动处理自然成为国内外语料库语言学研究的重点。和国外相比,国内对中文文本处理领域的研究相对落后一些,因此基于机器语言的中文文本处理成为一项非常有意义的研究课题,特别是对于汉语编码以及词语切分问题都具有极其现实的意义。基于HSK动态作文语料库中,母语为英语的汉语学习者汉语等级水平考试作文语料及自建的中国大学生汉语作文语料库,针对汉语语料库加工问题进行探讨和研究。通过动宾搭配研究中的分词赋码、高频词提取、句法分析等主要环节,深入观察语料,发现相比汉语本族语者,母语为英语的汉语学习者显着较少使用动宾搭配,为下一步的研究提出展望。(本文来源于《南昌工程学院学报》期刊2018年03期)

陈德华,冯洁莹,乐嘉锦,潘乔[4](2016)在《中文病理文本的结构化处理方法研究》一文中研究指出病理文本作为一类重要的非结构化临床文档,对临床诊断至关重要。针对具体的中文病理文本数据,提出一种简单有效结构化处理方法。首先对中文病理历史文本数据进行预处理,包括数据清洗、短句切分及主干提取等步骤,从中提取出各个样本所对应的文本信息;然后通过短句聚类和统计参数筛选实现样本描述模板的提取;最后利用模板对病理文本进行即时结构化处理,得到最终的结构化处理结果。实验证明,该方法对同类文本可以达到很好的结构化效果;同时提取的模板会被定期优化以适应最新的数据结构化需求。(本文来源于《计算机科学》期刊2016年10期)

石运宝[5](2016)在《类型逻辑语法处理中文文本》一文中研究指出2016年,人工智能正式提出60周年。谷歌“AlphaGo”与韩国围棋高手李世石的对战更是为人工智能增添了很多期许与思考:电脑的智力是否已超过人脑?人类是否将被机器统治?线下学习显示出AlphaGo的超强学习能力,而走棋甚至能达到2微秒的速度。与之比较,(本文来源于《中国社会科学报》期刊2016-07-19)

魏勇,李响,王丰[6](2016)在《运用文本处理框架抽取中文事件》一文中研究指出针对目前网页文档中文事件抽取的关键问题,该文提出利用开源的通用文本处理框架进行中文事件抽取的方法。设计了文本处理框架中文事件处理流程,开发文本处理框架插件,解决中文分词与词性标注、领域词典、中文抽取规则设计等关键技术,实现了中文事件的类型识别和元素抽取。并以4类政治事件为例,进行中文事件抽取实验。实验结果表明,基于文本处理框架的中文事件抽取具有良好的通用性及较好的抽取效果。(本文来源于《测绘科学》期刊2016年04期)

刘磊,李壮,张鑫,吕帅[7](2015)在《中文网络文本的语义信息处理研究综述》一文中研究指出从学术价值和应用价值两方面分析了将计算机学科与语言学学科的研究方法相结合对于研究网络文本的意义,分别从分析网络文本的特性、网络词汇的演化规律以及构建网络文本语言知识库、开发平台和支持工具等方面对该领域中的研究现状与相关工作予以描述与分析,试图明晰面向中文网络文本的语义信息处理的研究内容和路线,为相关研究的进一步开展奠定基础。(本文来源于《计算机应用研究》期刊2015年01期)

黄丹凤[8](2013)在《浅谈中文信息处理跨文本指代消解研究》一文中研究指出中文信息处理是NLP(自然语言处理)的一个组成部分,它是研究自然语言的学科,它和其他学科如计算机学,文学,理工学等有着一定的综合联系。中文跨文本指代消解是中文信息处理的核心技术,是提高信息抽取和信息检索正确率的基础,主要任务是解决重名消歧和多名聚合两大问题。该文从基本概念入手,描述在语言处理中典型的指代现象和指代消解所需的基本语言知识;同时简单介绍指代消解中商用的算法和技术。(本文来源于《电脑知识与技术》期刊2013年15期)

贾满磊,李大展,王水[9](2012)在《巧用R进行中文文本信息处理》一文中研究指出以统计道藏目录的中文词频为例,讲述使用R处理Unicode中文的相关技巧和注意事项。(本文来源于《电脑编程技巧与维护》期刊2012年22期)

孙容容,刘椿年[10](2012)在《全过程动画自动生成中的中文文本处理》一文中研究指出研究全过程动画自动生成系统中的自然语言处理模块,设计一种面向手机中文短信的信息抽取系统。根据中文语言处理的特殊性,抽取短信中可动画化的信息,并进行否定判断和否定内容识别。实验结果表明,该系统的召回率和准确率较高,可满足动画自动生成系统对信息抽取强度的要求。(本文来源于《计算机工程》期刊2012年01期)

中文文本处理论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

基于Python本身具备很强的优越性,功能非常强大,由于其容易被掌控,得到了普及和推广应用。本文针对Python语言的中文文本处理做出了进一步探究,对Python语言的文本处理背景、Python语言在中文文本当中的应用给出了详细的分析。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

中文文本处理论文参考文献

[1].彭湃.自然语言处理—中文词和短文本向量化的研究[D].华中师范大学.2019

[2].阎令海.分析Python语言的中文文本处理[J].中国新通信.2019

[3].温珍.基于Python语言的中文文本处理研究[J].南昌工程学院学报.2018

[4].陈德华,冯洁莹,乐嘉锦,潘乔.中文病理文本的结构化处理方法研究[J].计算机科学.2016

[5].石运宝.类型逻辑语法处理中文文本[N].中国社会科学报.2016

[6].魏勇,李响,王丰.运用文本处理框架抽取中文事件[J].测绘科学.2016

[7].刘磊,李壮,张鑫,吕帅.中文网络文本的语义信息处理研究综述[J].计算机应用研究.2015

[8].黄丹凤.浅谈中文信息处理跨文本指代消解研究[J].电脑知识与技术.2013

[9].贾满磊,李大展,王水.巧用R进行中文文本信息处理[J].电脑编程技巧与维护.2012

[10].孙容容,刘椿年.全过程动画自动生成中的中文文本处理[J].计算机工程.2012

论文知识图

显示计算结果界面所示,叁幅图(图8上)分别是本系统对叁篇...文本分类系统工作原理中文文本信息处理模型系统生成的中文文字云图示例(部分图有裁...文本分词及标注结果

标签:;  ;  ;  ;  ;  ;  ;  

中文文本处理论文_彭湃
下载Doc文档

猜你喜欢