在自然汉语中进行分词和词性标注

在自然汉语中进行分词和词性标注

刘东旭[1]2003年在《在自然汉语中进行分词和词性标注》文中研究表明分词和词性标注是自然汉语处理(NLP)的基础,前几届师兄已经在这方面做了大量的研究,我所做的课题就是在他们的基础上对这部分内容进行总结、改进、提高,对后续研究提供更完善的支持。 分词在以前的研究中主要采用将MM法(正向最大匹配)、RMM法(逆向最大匹配)相结合的方法,并且对其中的最大交集字段采用比较各自结合度的方法来选择切分方式,但这种方法只能处理一部分最大交集字段。本课题在对大规模真实文本中的最大交集字段进行统计的基础上,将最大交集字段分为叁类,并分别对其进行处理,极大的提高了对最大交集字段的处理能力。 中文姓名识别是分词中的一个重要内容,本课题在大规模真实文本中对姓氏、名字用字、姓名前后常用字叁方面进行考察。采用在分词后进行姓名判断,以姓氏为触发点,开始姓名判断,其召回率和精确率都达到90%以上。 词性标注是自然汉语处理中的一个难点。在英语中,当一个词变换词性时往往伴随着词型上的变化,而在汉语中则没有词型上的变化,这就增加了汉语词性标注的难度。我除了按常规方法对词性进行判断外,还建立一个词性判断规则表,每一个词在词性判断规则表中有一个相应的对象,进行词性判断时,从词性判断规则表中取出相应词的对象进行词性判断。 本课题还有一个任务就是将前几届师兄所做课题从VC移植到JAVA上去,以便于在网上公布。

于长远[2]2008年在《应用条件随机场进行汉语分词和词性标注的研究》文中进行了进一步梳理随着社会的日益信息化,人们越来越强烈地希望用自然语言同计算机交流。自然语言理解是计算机科学中的一个引人入胜的、富有挑战性的课题。从计算机科学特别是从人工智能的观点看,自然语言理解的任务是建立一种计算机模型,这种计算机模型能够给出像人那样理解、分析并回答自然语言(即人们日常使用的各种通俗语言)的结果。中文自然语言处理是让机器理解中文的核心技术。汉语分词和词性标注是中文信息处理领域内的一个重要课题,它的发展能带动其它相关语言学应用的发展。本文的核心工作可以概括为以下叁个方面:(1)介绍了最大熵理论以及最大熵理论对自然语言理解的重要意义,并进一步介绍了以最大熵理论为驱动发展起来的条件随机场模型。条件随机场模型不仅克服了以隐马尔可夫模型为代表的“产生式”模型那样的严格独立假设,并解决了最大熵马尔可夫模型和其他“非产生式”模型所存在的标记偏置的问题。(2)对现有的一些汉语分词和词性标注算法和模型进行了比较、综合。在总结前人研究成果的基础上,对传统的几种模型加以比较,采用了基于条件随机场的汉语分词方法,使得汉语分词和词性标注结果的准确率有一定的提高。(3)根据汉语分词的特点及条件随机场所使用的特征,确定了一套基于条件随机场模型使用的特征模板,并对歧义词和未登录词的分词统计进行了详细的说明。分析、设计和实现了一个基于条件随机场模型的汉语分词和词性标注模块。

覃张华[3]2008年在《短文本语义过滤技术的研究》文中研究说明随着互联网的迅速发展和广泛普及,人们越来越依赖互联网来查询所需要的信息。因为网络中大部分信息是以文本方式存放,因此人们对文本的过滤技术要求越来越高。但是,传统的文本信息过滤算法仅能实现结构对应层次上的判断,不能根据文本的上下文较好地理解文本的语义进行过滤,因而过滤的效果难以满足人们智能化的要求。本文主要结合中文信息处理知识,提出并实现了基于短文本的语义过滤算法。该算法包括对短文本分词,词性标注,句法分析,生成语义框架,计算短文本之间的语义框架相似度,短文本过滤等关键环节。利用基于多层隐马模型的分词方法对短文本进行分词,词性标注和消歧,分词和词性标注支持北大标准,973标准,XML格式。对短文本的句子进行句法分析,借助语法规则库和句法分析信息,提取出短文本的领域,行为主体,行为动词,行为受体,时间,地点等信息,填充语义框架,按照给定的距离函数和相似度计算规则,计算短文本之间的相似度,最后根据相似度是否大于阈值决定过滤与否。此算法对短文本进行了准确度较高的分词和词性标注,并对短文本的句子进行了句法分析,句法分析充分考虑了短文本语义块的分离、句蜕和歧义等等特殊语境,然后提取语义框架,然后再将短文本之间的语义相似度的比较转换为数学计算,量化了短文本间的语义相似度,改进了框架相似度的计算公式,增加了框架相似度调节因子,最后根据相似度阈值进行过滤。试验表明,其过滤效果较传统的过滤算法在语义理解上有较大提高。本文设计并实现了一个具有短文本语义过滤功能的代理服务器(SemanticFR)。该系统具有监控网络流量、网络层上包过滤、应用层上关键字过滤和语义过滤、基于URL、关键字的访问控制、网络访问内容重现等功能,系统运行稳定,达到了预期效果。

康才畯[4]2014年在《藏语分词与词性标注研究》文中提出藏语信息处理技术经过二十多年的发展,无论是在藏文信息处理研究及其相关标准制定方面,还是在藏语信息处理应用开发方面,都取得了不少成绩。藏语信息处理技术也逐步迈入到语言信息处理层面。虽然藏语信息处理研究在技术上紧跟着英汉语等之后,但作为信息处理研究基础的语料资源相对贫乏。公开的藏语语料库都是未标注的生语料库,其应用价值非常有限。由于对藏语的本体研究不够深入,许多对藏语信息处理有价值的属性未能挖掘和描述出来,因而限制了藏语信息处理技术的发展和应用范围。针对以上问题,本文采用了多种统计模型和方法来进行藏语分词和词性标注研究,并取得了以下几个方面的主要成果:一、提出了基于词位的藏语分词方法,在国内外较早地将藏语黏写形式的特征融合到藏语分词研究当中。我们采用了基于词位的统计方法来处理藏语分词问题,将藏语分词转化为序列标注问题,实现了一个藏语分词系统。该系统采用条件随机场模型,针对藏语黏写形式的语法特征,将汉语分词中常用的四词位标签集改进为更适合藏语特点的六词位标签集,并使用100万余经人工反复校对的语料对模型进行训练。经实验测试,在大规模真实语料的测试中,系统的开放测试F值达到了91%,分词性能基本上令人满意。在进一步的研究中,我们经分析发现分词精度主要受到了藏语黏写形式识别结果的限制。考虑到黏写形式的复杂多样,我们在总结前人的研究成果的基础上,加入了基于规则的后处理环节,最终的测试结果F值达到了95%以上,已能满足藏语语料库建设的实际需求。二、在藏语分词研究的基础上,根据藏族人名特征探讨了藏语人名识别方法。通过研究藏语人名的特点,我们总结了藏语人名识别的多种策略并最终选择了基于统计的方法来实现藏语人名的识别。我们基于条件随机场模型,通过使用名字边界、前后缀、上下文等特征,给出了藏文人名识别的一种方法。最终实验系统在开放测试中取得的F值达到了91.26%。虽然未能进一步发掘名字与普通词语同形这一极易导致歧义现象的特征,导致系统识别性能未能达到十分理想的效果,但可以通过对特征标签集进行调整,同时优化特征模板集,进一步提高识别效果。叁、综合使用了多种统计模型实现了藏语词性标注研究,在国内外首次采用最大熵结合条件随机场模型实现了藏语的词性标注方法。通过对藏语词性的研究,在满足基本的词法分析的需求下,我们将藏语词类标记集精简到统计模型切实可用的规模,然后选择最大熵模型构建了一个藏语词性标注系统,并采用小规模的语料进行训练。实验结果显示,在小规模语料训练下,基于最大熵的词性标注系统达到了87.76%的准确率,已基本接近词法分析可用的要求。在最大熵模型的基础上,我们提出了基于条件随机场的修正模型。该模型在最大熵模型的输出结果上进行训练,从而可以将最大熵模型中次优结果和再次优结果中的正确标注挑选出来,提高词性标注的准确率。实验证明,采用同样规模的训练语料和测试语料,最大熵结合条件随机场的词性标注模型达到了89.12%的准确率,已接近同类汉语词性标注系统的水平。四、实现了一种基于条件随机场的藏语分词标注一体化模型,将分词和词性标注整合到一个统一的系统中,为藏语词法分析提供了新的解决途径。我们充分利用了分词与词性标注间更深层次的依赖关系,在一体化模型中利用词性信息来处于分词过程中遇到的歧义问题。在较小的训练语料规模下,藏语分词标注一体化模型在开放测试中分词结果的F值达到了89.0%,这表明一体化模型将词位信息和所属词的词性信息很好的结合起来,能更有效的提高分词精度,其分词效果已基本可以满足语料库对自动分词的需求。一体化模型的词性标注准确率也达到了85.35%,虽然还稍稍落后于独立的词性标注模型,但通过扩大模型的训练语料规模,词性标注性能应该可以取得一定程度的提升。

严顺[5]2016年在《基于上古文献的词汇级语义知识挖掘研究》文中指出“人文计算”是一个将现代信息技术融入到传统人文社会科学研究中的交叉研究领域。随着“互联网+”,概念的兴起,数字化浪潮持续推进,“人文计算”已成为情报学、语言学和中文信息处理领域的重要研究课题。近几年来,情报语言学界更是涌现了一批古籍数字化、古汉语文献语料库资源建设等人文计算领域的新项目。当前,现代汉语相关的信息处理研究已经深入到篇章层面,但古代汉语相关的信息处理大多仍停留在字处理的阶段,因而,对古代汉语词汇级层面的相关知识进行探索,对于我们完善现有的古汉语信息处理研究体系具有十分重要的现实意义。本文中的上古文献指的是先秦时期的古汉语文献,在研究过程中,运用了语料库、人文计算、机器统计模型、复杂网络等领域的相关知识,开展了古汉语文献词汇级层面的知识挖掘工作。本文的总体研究目标就是融合数字人文的思想开展先秦古汉语词汇级层面的知识挖掘研究,运用情报语言学领域内的多种研究方法,探寻上古文献语料库中蕴含的有用知识,研究结果一方面可以帮助人们探索汉语言的发展历史和规律,另一方面为古汉语信息处理以及情报知识发现服务。本文的研究都是基于由25部具有代表性的先秦古文献所构建的上古汉语语料库开展的,主要研究内容包括如下叁个部分:一是进行上古文献的古汉语语料库构建标注研究,这部分首先介绍了这25部先秦古文献的基本情况,接着分别介绍了古汉语语料库、古汉语分词、古汉语词性标注以及命名实体识别的相关知识,最后选取语料库中的部分上古文献进行了简单的字词分布统计,并对其中的内部规律作了分析;二是基于条件随机场模型与古汉语语言规则相结合的方法进行古汉语的分词及词性训练模型研究,这部分首先详细介绍了条件随机场模型的相关知识以及如何对古汉语语料进行预处理、如何选取特征模板,然后针对上古汉语语料库设计了基于条件随机场模型的封闭性测试及开放性测试两组对比实验,在这两组对比实验的基础上又开展了子实验,最终显示,封闭性测试得到的调和平均数(F)的数值在99%左右,开放性测试得到的调和平均数(F)的数值在90%左右,两组实验都取得了比较理想的效果;叁是运用复杂网络开展古汉语词汇概貌研究,这部分首先介绍了语言网络的相关概念和常用的统计指标,然后介绍了 3个常见语言网络,实验环节选取部分上古文献验证了古汉语文献是否满足齐普夫分布,并选取相关上古文献通过Pajek软件构建了古汉语词汇网络,通过分析古汉语词汇网络中的常用统计指标判断古汉语网络是否具有小世界特性。

李鑫鑫[6]2014年在《自然语言处理中序列标注问题的联合学习方法研究》文中认为序列标注问题是自然语言处理领域的基本问题之一,可以分为两类:单序列标注问题,即预测一个输出标签序列的序列标注问题;多序列标注问题,即预测多个输出标签序列的序列标注问题。对于多序列标注问题,一般采用级联学习方法来处理,这种方法将多序列标注问题当作多个单序列标注问题来逐一进行处理,往往存在错误传递、信息无法共享等缺点。而联合学习方法却能有效克服以上不足,它对多序列标注问题包含的多个单序列标注问题同时进行处理,能够促进问题间的信息交互。本文探析了不同类型的序列标注问题,对单序列标注方法和联合学习方法进行了研究,其中联合学习方法是本文的研究重点。具体的研究内容包括:第一、传统序列标注方法一般采用预测单元的邻近信息作为模型的特征,较少考虑序列中的全局信息,使得预测结果不够准确。针对这一问题,本文提出融合全局信息的级联重排序方法。对于单序列标注问题,级联重排序方法引入包含序列全局信息和句法信息的模型,首先,采用线性重排序方法将这些模型进行结合;然后,从这些模型的预测结果中提取特征来训练结构化感知器重排序方法的模型;最后,将线性重排序方法和结构化感知器重排序方法进行级联来选择最优标签序列。对于多序列标注问题,级联重排序方法能够使用单序列标注问题的全局信息和多个问题的信息,本文称之为级联重排序联合学习方法。实验结果表明:级联重排序方法提高了汉语音字转换问题和汉语语音识别问题的识别准确率,优于单个重排序方法;级联重排序联合学习方法在英语词性标注和组块分析问题上取得了优于级联学习方法和标签值结合方法的预测性能。第二、与单一学习方法相比,统一解析方法能通过在解析过程中将多个单一模型进行结合来提高预测性能。针对多序列标注问题,本文提出有监督和半监督的统一解析联合学习方法。有监督统一解析联合学习方法在解析过程中通过概率加权的方式来结合多个联合学习模型。在半监督统一解析联合学习方法中,首先采用两个联合学习模型对未标注语料进行标注,然后将两个模型预测的标签序列相同的语料作为新训练语料,最后使用原训练语料和新训练语料来训练半监督模型。将统一解析联合学习方法应用于中文分词和词性标注问题,实验结果表明:有监督统一解析联合学习方法优于单一有监督学习方法,半监督统一解析联合学习方法优于目前其他的半监督学习方法。第叁、当多序列标注问题中各个单序列标注问题的训练集不一致时,不能采用级联重排序联合学习方法和统一解析联合学习方法来解决。针对这一问题,本文提出一种迭代联合学习方法,使多序列标注问题中的各个单序列标注问题通过特征传递的方式来交互信息。在迭代过程中,对于每个单序列标注问题,首先采用结构化感知器方法将基本模型和包含其他问题信息的模型进行集成,然后再采用该集成学习模型进行预测。英文词性标注和组块分析问题、中文分词和词性标注与名实体识别问题的实验结果表明了迭代联合学习方法的有效性。第四、传统中文序列标注方法采用字词等离散信息作为特征来训练模型,存在模型规模庞大和需要人工特征选择的不足。针对这个问题,本文首先提出一种基于词边界字向量的深度神经网络模型,并用于解决中文单序列标注问题。在模型的字向量表示层,将每个汉字输入表示为词边界字向量的组合;在模型的标签推导层,采用二阶标签转移矩阵来加强邻近标签之间的约束。然后,采用深度神经网络联合学习方法来处理中文多序列标注问题,该方法通过共享多个单序列标注模型的字向量表示层来促进问题间的信息交互。中文分词和词性标注与中文名实体识别的实验结果显示:基于词边界字向量的深度神经网络模型要优于基于基本字向量的模型,而采用深度神经网络联合学习方法能进一步提高模型的预测性能。最后,通过实验对论文提出的四种联合学习方法进行比较分析。

王广正[7]2006年在《基于知网语义相关度计算的汉语自动分词方法的研究》文中研究说明汉语自动分词方法一直是中文信息处理乃至人工智能领域的重要研究内容。其中歧义消解作为该领域最重要也是最困难的两个研究重点之一,已经在国内外取得了重大进展,并且也提出了许多有效的分词方法。但是对于歧义字段的处理精度方面还存在不小差距,并且也遇到了不少困难。 作者对汉语自动分词技术、方法和分词系统的实现技术进行了较深入的研究,提出了基于知网的语义相关度计算的歧义字段处理分词模型,并对各链长的歧义字段进行了处理,根据以上研究,设计了WGZ分词系统,并对所设计的系统进行了测试,在所提出的计算语义相关度方法、分词和标注方法都与其它方法做了全面的比较。实验证实,本系统若以句子为单位,本文提出的分词模型的分词正确率为:97.1%;若以词为单位,则为:99.4%,标注正确率为:91.4%。 作者在研究中发现,歧义消解并不只是词的问题,而是与其上下文,包括相邻词、句子段落甚至篇章都有直接或间接的关系。作者在系统的设计与实现时,也充分考虑到了这些因素,并在知网的基础上提出了词语的语义相关度计算模型,并对各链长的歧义字段进行了处理。在进行词性标注时,作者分析了前人的基于规则的词性标注的工作,并提出了基于规则优先级的词性标注方法,最后实现了分词和标注系统。 本文在设计分词系统的时候,充分研究了知网的知识结构以及其知识系统描述语言模型(KDML),并分析了知网在刻画词语概念知识的优越性。本文在利用正向最大匹配方法和逆向最大匹配方法来对输入文本进行预切分,并通过双向扫描的方法检测歧义字段。在歧义字段的处理这一重要环节,本文通过对计算词语间的语义相关度来消除歧义。在各链长的歧义字段的处理问题上,本文都提出了解决方法,或者可以归结到链长为1的歧义字段的处理。词性标注这个环节,本文通过边标注边进行规则的完善与调整,直至该规则库对生语料库的标注的正确率达到期望为止。 在进行系统测试时,作者以本文提出的计算语义相关度方法与其他方法做了比较,并对本文的分词方法和标注方法都与其它方法做了全面的比较。最后对本文的工作进行了展望。

孙晓[8]2009年在《中文词法分析的研究及其应用》文中研究说明在机器翻译和其他自然语言处理任务中,对于中文和日文等亚洲语言,词的识别和处理是一个最为关键的基础性步骤,而其中存在的问题至今仍然没有得到完善的解决,从而影响了机器翻译以及其他自然语言处理任务的精度和效率。在中文词法分析任务中,除了中文分词,还包括词性标注,未登录词(或新词)的识别和词性标注等基础性步骤,这些也是影响中文词法分析性能和精度提高的难点所在。首先,针对中文词法分析存在的问题,提出了一种新的融合单词和单字信息的基于词格的中文词法分析方法。该方法利用系统词表,构建包含所有分词和词性标注候选路径的词格,同时对候选未登录词及其词性进行同步识别并加入到词格中,降低了未登录词识别的运算复杂度,然后利用基于词的条件随机域模型,结合定义在整条输入路径上的全局特征模板,在词格中选择最终的分词以及词性标注结果。基于词的条件随机域的解码速度要高于基于单字的条件随机域,并降低了标注偏置问题和长度偏置的影响,在SIGHAN-6等开式和闭式语料上进行测试,获得了令人满意的结果。另外,为了进行对比,对基于单字的中文分词模型也进行了进一步的研究,在其中引入多个外部词典,并增加了相应的特征,进一步提高了基于单字的中文分词模型的分词精度;同时,为了满足高效率的中文词法分析需求,提出了基于最长次长匹配算法的一体化的中文词法分析方法,因为是基于隐马尔可夫进行编码和解码,因此具有较高的训练和词法分析速度。其次,针对中文词法分析中的未登录词识别和标注问题,提出了隐藏状态的半马尔可夫条件随机域模型(Hidden semi-CRF), Hidden semi-CRF模型可以同步识别未登录词及其词性。Hidden semi-CRF模型结合了隐藏变量动态条件随机域模型(LDCRF)和半马尔可夫条件随机域模型(semi-CRF)的优势,相对semi-CRF模型具有更低的运算代价和更高的识别精度。通过Hidden semi-CRF模型同步识别未登录词及其词性,并加入到词格中参与整体路径选择,提高了词法分析的整体精度。最后,将中文词法分析的结果直接应用到基于超函数的中日机器翻译系统中,对原有超函数进行了扩展:首先是将超函数扩展为面向句子的超函数和面向短语的超函数,其次是扩展了超函数中变量的范围,最后提出了高效率的搜索相似超函数的匹配算法。扩展后的超函数降低了超函数库的数量,提高了匹配超函数的检索速度,并且翻译的精度和质量也得到提高。

侯中熙[9]2016年在《融合新闻要素的汉—泰双语新闻文本相似度计算方法研究》文中研究表明文本相似度计算是自然语言处理的重要课题之一,在文本挖掘、信息检索、文本查重、机器翻译、和文本分类中应用广泛。文本相似度是表示两个或多个文本之间匹配程度的一个度量参数。单语言文本的相似度计算研究目前已经有了相当的成果。但随着信息化社会的不断发展,人们已经习惯性从网上获取信息,强大的互联网扩散了人们对未知的渴求,人们再也不满足于单一的语言信息,互联网语言的多样化满足了人们对海量信息的需求,于是跨语言新闻搜索,跨语言文本检测逐渐受到人们的重视。本文首先对汉语新闻文本的相似度计算进行了探究,对于文本相似度常用的VSM方法,具有计算维数过高和计算过于复杂的缺点。通过对新闻报道文本的分析发现,新闻报道具有何时、何地、何事、何因、何人五个基本因素的特点。针对这一特性,提出融合新闻要素的新闻文本相似度计算方法。该方法充分考虑到了新闻文本的五个新闻要素特征词对文本相似度的影响,有效减少了相似度低的文本干扰和传统文本相似度计算效率低的问题。本文在相似度计算中,抽取新闻文本的新闻要素,并对新闻要素进行分类集合,然后利用集合相似度计算和数据融合方法来计算两篇新闻文本相似度,并与传统文本相似度计算方法中的基于空间向量余弦系数和Jaccard系数方法进行实验对比,通过对比实验,验证了本文方法对新闻文本相似度计算的有效性和准确性。在中文文本相似度计算算法的基础上,对汉-泰跨语言新闻文本的相似度计算方法进行研究,结合中文的新闻文本相似度计算方法,同样考虑新闻何时、何地、何事、何因、何人五个基本因素的特点,利用基于知网的集合相似度算法进行计算,不同的是在泰语新闻文本的处理过程中,我们借助翻译工具,将进行分词、词性标注和命名实体识别后的新闻要素集合元素转化为对应的中文,在转化过程中需要进行语义消歧,最后转化成中文的新闻文本要素集合相似度计算。在语言转化和消歧时,借用互信息的原理和词性标注中词的词性进行消歧,在互信息和词性标注的双重筛选下进行词意的选择,这样保证了词语语言转换的准确性,对文本相似度计算的准确性有了保证。通过实验验证了融合新闻要素的跨语言新闻文本计算在计算新闻文本的相似度的效率和准确度上都优于普通文本相似度计算方法。

王永景[10]2008年在《面向文本识别流的自动校对算法研究》文中认为随着电子信息的飞速发展,各种中文输入技术被应用在电子信息的录入过程中。但是各种输入方法或者是由于用户的关系,或者是程序本身算法的关系,都不能保证输入信息100%的正确性。在知识信息化和出版电子化飞速发展的今天,文本手工校对不管是在时间上还是在人力成本上,都不能满足人们的需要。文本识别流的自动校对成为了亟需解决的问题。中文文本自动校对的研究总的来说还处在刚刚起步的阶段,从事这方面研究的人员还不是很多,公开发表的论文也比较少,已经提出的技术并没有针对特定的文本识别流做专门的研究。所以说,本文的研究工作具有一定的现实意义和实际应用价值。现在的自动校对中的查错主要采用叁种方法:①利用文本上下文的字、词和词性等局部语言特征;②利用转移概率对相邻词间的接续关系进行分析;③利用规则或语言学知识。纠错方法主要有模式匹配,替换字表和似然匹配技术。本文在分析了文本识别流的特性的基础上,设计了面向文本识别流的文本校对算法。算法主要包括以下几个重要部分:提出了应用于自动校对处理的分词和词性标注一体化算法;通过对各种信息录入方式的录入过程分析,得到录入错误产生的原因与规律,并以此规律实现词条的混淆集生成算法;主校对程序采用了概率分析的方法,基于2-gram模型,实现查错和纠错一体化的算法,最终将校对中纠错建议的生成问题抽象成有向无回图的最短路径求取问题;对程序进行了改进和最优化处理,通过对测试集的处理,确定最优化的程序参数。在算法的实现上,本文采用了动态规划算法,大大减少了算法的时空复杂度。在处理过程上,系统首先对熟语料进行训练操作,得到相关的统计信息;然后通过对测试语料集的处理,得到程序的最优化参数;然后用算法处理待校对文本,得到该校对算法的查准率、查全率,纠准率及纠全率;最后对算法的结果进行分析,提出改进意见。本文的主要创新点在于:①针对不同识别流类型,例如拼音输入和五笔字形输入,提出了混淆集生成的具体算法;②分析文本识别流中错误的特点,以此选择制定合理有效的分词和词性标注算法;③使用最优化方法,确定程序中的参数,其中包括混淆集元素个数和最短路径的条数。试验结果表明,该系统能够有效的处理文本识别流的自动校对问题,很好的完成了系统的设计初衷。

参考文献:

[1]. 在自然汉语中进行分词和词性标注[D]. 刘东旭. 电子科技大学. 2003

[2]. 应用条件随机场进行汉语分词和词性标注的研究[D]. 于长远. 辽宁科技大学. 2008

[3]. 短文本语义过滤技术的研究[D]. 覃张华. 北方工业大学. 2008

[4]. 藏语分词与词性标注研究[D]. 康才畯. 上海师范大学. 2014

[5]. 基于上古文献的词汇级语义知识挖掘研究[D]. 严顺. 南京农业大学. 2016

[6]. 自然语言处理中序列标注问题的联合学习方法研究[D]. 李鑫鑫. 哈尔滨工业大学. 2014

[7]. 基于知网语义相关度计算的汉语自动分词方法的研究[D]. 王广正. 云南师范大学. 2006

[8]. 中文词法分析的研究及其应用[D]. 孙晓. 大连理工大学. 2009

[9]. 融合新闻要素的汉—泰双语新闻文本相似度计算方法研究[D]. 侯中熙. 昆明理工大学. 2016

[10]. 面向文本识别流的自动校对算法研究[D]. 王永景. 上海交通大学. 2008

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

在自然汉语中进行分词和词性标注
下载Doc文档

猜你喜欢