宋礼鹏[1]2004年在《大规模语料库分词质量评价方法研究》文中提出在自然语言处理领域里,以大规模真实文本为基础的语料库研究和知识自动获取越来越受到重视,建设大规模高质量的语料库成为首要的任务。然而,对语料库加工质量检验方法的研究却很少。语料库分词质量的评价问题是汉语语料库的特有问题,已有的简单随机抽样的方法,当语料库规模变大时,无法精确估计分词质量评价中语料库样本的总体方差,同时,为了保证检验的精度,传统抽样方法的检验费用太高。 本文针对大规模语料库分词质量评价中存在的问题,提出了基于聚类的大规模语料库分词质量评价方法。该方法通过对语料库抽样样本进行聚类,实现对语料库抽样样本分词正确率的有效分层,然后对各层样本进行简单随机抽样。主要工作如下: a.研究语料库分词质量评价的抽样方法,采用改进的ISODATA聚类算法实现语料库样本的分层; b.给出语料库样本的结构化方法,用影响分词正确率的主要因素代表语料库样本向量; C.研究聚类中的样本相似性度量公式,采用改进的绝对值法计算。该公式既能反映样本向量间的距离,又能反应样本向量各分量之间的相关性; d.给出聚类结果的评价函数,根据该评价函数可以实现对聚类参数的有益指导,在聚类结束时还可根据评价函数值直接求得聚类所带来的增益。 与已有的简单随机抽样方法相比,本文提出的方法在大规模语料库分词质量评价时,有如下优点; a.通过聚类得到语料库抽样样本分词正确率的分层知识,进而在检验中运用分层抽样带来的增益减少检验的费用: b.用聚类后得到的语料库分词正确率的类别知识很好地解决了语料库分词正确率的方差估计问题。
蔡灿民[2]2008年在《基于词典的智能分词系统的研究与实现》文中指出中文自动分词是中文信息处理的关键技术,同时也是中文信息处理的第一道工序,它是自然语言理解、自动翻译、电子词典、文本分类等中文信息处理的基础性工作。随着中文信息技术的不断发展,中文自动分词已经成为中文信息自动处理的“瓶颈”。因此,中文自动分词技术目前是我国计算机科学研究的重要课题之一。目前分词方法主要有叁类:一类是基于字符串匹配的机械分词法,也称词典法;另一种是基于统计语言模型的分词方法;还有一种是建立在知识库及语义规则基础上的分词方法,也被统称作人工智能法。这些分词方法都有其各自的优缺点:机械分词法是最常用的一种方法,虽然现在的机械分词法中运用了各种技术,但还是不能有效地解决未登录词识别和歧义处理问题;基于统计语言模型的分词方法不能有效地提高分全率以适应一般中文信息处理的应用;人工智能法中无法解决规则库和语义在应用方面的问题,目前基本处于研究阶段。本文针对各种自动分词方法中出现的这些问题,利用基于统计语言模型的分词方法能识别第一类未登录词及处理部分歧义的优点来弥补基于字符串匹配的机械分词法未登录词识别及部分歧义处理的缺陷,提出了具有自学习机制的智能词典的概念,初步地构架了智能词典的基本模型,对基于智能词典的汉语自动分词系统的可行性在理论上进行了论证,并详细地论述了基于智能词典的分词系统的基本原理和实现过程。最后,对本课题进行了总结,分析了本系统的不足,并对课题将来的发展作了展望。
刘博[3]2008年在《中文语料库分词不一致现象的分层校验》文中研究说明在中文信息语言处理领域里,以大规模真实文本为基础的语料库研究和知识自动获取越来越受到重视,建设大规模高质量的语料库成为首要的任务。然而由于现阶段语料库的建立,需要人工来校验,不可避免的会有一定的疏忽和错误,导致了对同一字段在相同的语言环境下的切分结果不一致。这些不一致现象不仅影响了语料库分词的正确率,而且将错误带到了利用语料库资源进行加工的下一步骤。因此,对语料库加工时,必须对其进行一致性的检查和校正,保证语料库加工的质量。因此,应将分词后的语料库是否具有一致性作为衡量语料库质量的重要标准。本文针对大规模语料库分词一致性存在的问题,通过研究山大和微软语料库中所出现的不一致字段,提出分词不一致逐层解决的方法,先对语料使用规则的处理策略,然后针对规则处理的缺点使用统计模型进行校验。该方法通过研究语料库不一致字段及其上下文环境,应用规则和统计模型的方法对不一致字段进行自动校对,实验取得预期的目标,证明两者相结合的方法可以更好的解决分词一致性这个问题。主要工作如下:1.对400万熟语料进行了统计分析,总结了语料库中分词结果不一致的主要结构类型,确定论文的研究对象,将影响分词正确率的主要因素作为规则库建立的根据;2.研究利用规则和实例来解决分词一致性问题,提取出初始规则库及大量实例,并将获取的规则和实例应用于分词结果校对中。最后通过对规则库进行自学习来提高语料的分词质量;3.提出统计的方法,将提取出的不一致字段及其上下文信息使用向量空间模型表示,并使用相似度计算等方法获得不一致字串的概率分布,在计算相似度时引入同义词词林。最后通过定量的方法对不一致字串进行分类。4.基于以上的思想和方法,分别对基于规则、基于统计以及将两种方法相结合的方法设计实验模型,对模型进行了实验后,详细分析了实验结果。在统计与分析数据的基础上,对具有不同特征的不一致字串提出了多种处理方法,层层递进的处理策略,取得较好的分类效果。对一个语料库中发生了切分不一致的字串进行分类处理,把相同结构的、具有相似词法或语法作用的切分单位分成一类,可以方便地对同类的不一致字串采取一致的处理策略,在一定程度上能够使具有相同结构字串的切分形式趋于一致。在2007年SIGHAN评测中,山西大学提供的语料库在使用系统校对后,语料库的质量得到很大的提升,在评测中取得了很好的效果。对语料库切分一致性校验系统进行开放测试后,一致性检查的准确率为84.50%,召回率为70.39%,可见采用该系统后能够确实提高语料库的质量。
杜权[4]2014年在《面向统计机器翻译的双语语料质量评价技术研究》文中指出由于统计机器翻译是从大规模平行语料中进行统计分析,构建统计模型,进而使用模型进行翻译的统计方法,所以构造高质量统计机器翻译系统的重要基础是大规模高质量的双语平行语料库。但是由于统计机器翻译进行系统训练所需要的语料库非常庞大,并且多数平行语料库中都会包含着大量错误或噪音,它们极大影响着统计机器翻译系统的性能。而我们要想通过人工手段来筛选语料库中的高质量句对又费时费力,因此,通过自动的方法对平行双语语料库进行数据质量检测,以期得到高质量的双语平行句对是很重要的一个研究课题。本文首先改进了基于长度比的数据质量评价方法。传统的基于长度比的数据质量评价方法是直接进行阈值选取数据,这种方法选取的数据量我们无法控制。因此,本文提出了排序的改进方法,并通过实验证明了方法的有效性。其次,本文对基于词典互译的数据质量评价方法进行了改进。传统的基于词典互译的方法只考虑了单方向的词典翻译比例。本文通过考虑双向翻译概率改进了该方法,并通过泛化、词干还原、禁用词等方法进一步优化了该方法,并通过实验证明了该优化方法的有效性。最后本文提出了一种基于翻译思想的统计机器翻译数据质量评价的方法,该方法将统计机器翻译中的强制解码技术应用到数据质量检测中。并且,该方法无需额外的数据资源,所需要的数据全部来自于待数据质量检测的语料中。通过强制解码的方法进行数据质量检测,可以是在减少数据规模的情况下,就达到甚至超过全部数据的性能。同时本文也通过人工评价对过滤后的数据与过滤前的数据进行了对比分析,实验证明通过该过滤方法,可以使数据质量由56.0%达到87.7%。对于该方法的进一步提高,还有待于研究,未来会进一步改进该方法。
欧阳柳波[5]2012年在《领域本体覆盖度评价关键技术研究》文中研究表明领域本体作为一种能在语义和知识层次上描述信息的概念模型,在智能信息检索、知识获取、自然语言理解和Web信息处理等方面发挥着重要的作用。然而由于领域本体构建原则的不确定性、构建方法的不一致性、构建工具的多样性和构建人员的领域知识水平差异性等因素,导致目前虽然领域本体数量众多,但是质量却参差不齐。同时随着领域新知识和新应用不断涌现,为了能使领域本体及时覆盖领域新知识,领域本体也在不断进行学习和进化。如何对领域本体内容进行有效的质量评价是本体应用中非常重要和紧迫的课题。领域本体覆盖度是领域本体内容评价的重要评价指标之一,分为概念覆盖度和关系覆盖度,它反映本体中包含某个领域中的概念和关系的全面程度,用于判定本体与某个领域的相关性。概念和关系的覆盖度评价结果可以为领域本体学习和进化需求的获取提供可靠的依据,可以为用户选择和重用领域本体提供有益的参考。基于黄金标准的评价方法进行覆盖度度量是一种理想的有效手段,然而绝对的黄金标准并不存在,本文认为从大规模领域语料库中抽取领域概念集和领域关系集作为相对黄金标准是一种现实可行的方法,因此采用获取相对黄金标准的思路进行领域本体覆盖度评价相关技术研究。主要有以下工作:(1)分析了领域本体内容评价指标与度量方法,从广度(Breadth)、深度(Depth)、横向(Horizon)、纵向(Longitude)四个视角对本体内容评价指标进行分类和融合,构建一种领域本体内容评价体系框架BDHL,设计可以用户个性化定制的可扩展评价指标树结构,分析结果表明覆盖度评价指标是进行其他指标评价的基础,并在此基础上给出领域本体内容评价过程模型。(2)在概念覆盖度评价中,作为黄金标准的领域概念集的完备性非常重要,但多重复合概念识别问题制约覆盖度的度量准确性。本文提出一种基于混合判定模型的复合概念抽取方法,首先对语料库中的领域文本进行分词处理,为每个词条添加词条标签,并对词条集进行噪音词消除和同义词合并处理,然后通过加权词频、位置亲和度和位置匹配度计算,判定和筛选可组合成复合概念的原子词条,最后通过设置不同复合深度值,实现多重复合概念抽取。以软件工程领域的文档集构建语料库进行抽取实验,对比实验结果表明了该方法的有效性。(3)提出一种基于统计和依存语法分析相结合的领域关系实例抽取方法,在领域语料库标注和领域概念集较完备的前提下,可有效判定领域概念之间存在关系,并获得具体关系实例叁元组。首先通过位置亲和度、支持度和置信度判定存在关系的领域概念对,通过统计决策树模型判定句子的谓语中心词,然后根据依存关系规则库,对句子进行句法分析,得到该句子的依存关系树,判断领域概念对是否受谓语中心词支配,最后根据领域概念对的依存关系,抽取出满足<主谓宾>结构的领域概念对和谓语中心词,得到领域概念对的关系叁元组。同样以软件工程领域的语料库和领域概念集为实验对象,验证了本文方法对简单句中关系实例抽取具有较好的召回率和准确率。(4)应用上述研究成果,从软件工程领域语料库中获取领域概念集和关系集,作为相对黄金标准;同时获取软件工程领域中多个本体的本体概念集和本体关系集;设计基于相对黄金标准的领域本体概念覆盖度和关系覆盖度评价算法,得到概念覆盖度和关系覆盖度评价结果,将两方面评价结果用于本体的领域相关性和领域交叉性分析。实验结果表明本文方法能较好地根据覆盖度评价值反映领域本体与领域之间的关系。在领域概念和领域关系抽取中,如何选择领域语料库,如何处理复杂语境下的抽取问题,还需要进一步的研究。在领域本体覆盖度评价的基础上,对本体进行领域相关性排序和领域交叉性分析,开展本体内容质量其他相关指标,如内聚度、耦合度等方面的评价方法研究与应用,也将在下一步进行深入研究。
姚树杰[6]2011年在《面向统计机器翻译的语料处理与评价技术研究》文中提出近年来,基于统计的方法在机器翻译领域内越来越占据到主导地位,多种基于统计方法的机器翻译系统相继出现,如基于短语、基于层次型短语、基于句法等等。而对于机器翻译系统,语料是不可或缺的重要资源,所谓“巧妇难为无米之炊”。“饭”做的好吃还是不好吃,“巧妇”很重,当然也不能没有米,“米”质量的好坏也至关重要。为此,本文重点研究统计机器翻译语料的预处理、双语语料质量的评价,以及语料选取和训练集的构建。另外,对双语术语资源的自动获取工作做了一些简单的介绍。语料预处理工作是一项比较繁琐但对机器翻译来讲又十分重要的任务。本文从传统预处理角度介绍了预处理的流程、相关技术。同时结合专利翻译任务语料预处理对涉及到的一些问题进行了讨论。简单的探讨了预处理对机器翻译性能的影响。另外,针对统计机器翻译双语语料质量参差不齐,并且难以保证的问题,本文比较了几种不同的句对质量评价方法,包括基于双语词典的句对质量评价等。从忠诚度和流畅度两个方面来衡量句对质量。通过实验验证了这些方法的合理性,并对其中存在的问题进行了分析。双语专名、术语翻译资源对于机器翻译来说也是非常重要的。本文基于互联网和学术文献数据库,用自动的方法获取了数百万的双语术语翻译资源,并对资源进行了整理和规范化。这些资源为机器翻译系统提供了重要的资源支撑。当然,这些资源同样可用于中文分词,信息检索等诸多领域。在训练语料的选取和训练集构建方面,本文提出了基于句对质量和覆盖度的统计机器翻译训练语料选取方法,通过实验证明了该方法的有效性。在实验数据上,选取原始规模20%的语料作为训练集即达到用全部预料相当的训练效果。并且将该方法用到具体的实际应用中,为CWMT2011机器翻译评测选取100万中英双语句对作为训练语料。相关实验充分表明了该方法的优势,且简单有效。在测试集给定并且训练语料有限情况下,为了达到更佳的训练效果,需要对原始训练集进行优化。有些研究是从原始的训练集中选择和测试集相似的句对,通过加重这些相似句对权重的方法来优化训练集的分布,达到提高翻译性能的目的。基于这样的思想,本文给出了两种得到和测试集相关语料的方法,初步实验表明,这两种方法均能在一定程度上优化训练集的训练效果。基于之前的工作,本文认为在构建和优化训练集时,领域相似度、句子流畅度、翻译的忠诚度、训练集的覆盖度等应当综合考虑,视具体的任务选择训练集的构建方案。
周清[7]2015年在《网络新词发现算法研究》文中研究表明随着信息时代的到来,互联网正深刻地影响着人们的学习、工作、生活娱乐等各个方面,也改变了人们日常的沟通表达方式,网络新词的不断涌现就是一个很好的证明。在印欧体系语言中词语之间会存在空格这种天然的分隔符号,与之不同的是中文词语之间没有这种的空格。而中文的最小独立语言单位是词,所以要想让计算机有效地识别中文最初需要对其进行分词。但是新词的涌现会让中文分词后的结果产生很多不好辨别的“字符串碎片”,而这些“字符串碎片”会对分词结果的准确率造成了很大的影响。有学者做过研究统计,导致中文分词错误的大部分原因是由新词引起的。假如我们能够迅速地识别网络新词并将识别到的新词及时加入到中文词典进行更新,这对于提高中文分词系统的准确率和效率将有非常大的帮助。因此对新词识别的研究现已成为了中文自然语言处理中一个非常重要的问题。近年来,很多学者和研究机构在新词识别这一领域做了许多研究工作,也取得了一些成果,但是新词识别的准确率还不够高。为了解决这个问题,本文基于微博消息的特点提出了一种新词识别方法。首先为了确保语料的时效性,本文利用网络爬虫抓取新浪微博消息构建了一个语料库。其次利用原子切分和N-gram算法对微博消息进行切分统计获得候选字符串,并对其进行过滤得到候选新词。接着本文根据微博消息的特点(大信息量和用词趋简性的特点)提出了一种新词识别方法。然后本文将新词识别和分词结合起来,并利用分词后的结果来检测识别候选新词。最后本文利用平均互信息对上面提出的方法做了进一步的改进,提升了新词识别的效率。对比其他新词识别方法,实验结果表明本文提出的新词识别方法能有效地识别新词。
修驰[8]2009年在《统计机器翻译语料预处理中的问题研究》文中研究表明目前,统计机器翻译成为机器翻译研究热点,统计机器翻译以大规模双语语料作为训练素材,采用参数训练方法得到翻译模型。为了提高翻译效果,人们尝试对统计机器翻译的各个步骤进行改进。仅语料预处理就包含很多值得研究的问题。本论文就其中叁个问题进行了研究分析,这叁个问题分别是:1)双语句对语料准备统计机器翻译需要大量句子对齐语料作为训练语料。收集整理高质量的双语语料是一项必不可少的工作。本论文利用段落对齐辅助句子对齐方法,将篇章对齐的双语语料整理成句子对齐形式,并对已有的句对齐语料进行过滤,删除错误对齐句子。2)中文分词对翻译结果影响如何处理中文分词在涉及到中文信息处理的很多领域都有较深入的讨论。但在统计机器翻译中,中文分词如何影响统计机器翻译结果却一直没有定论。本论文利用不同的方法对实验语料进行分词处理,并利用这些分词后的语料进行翻译训练,进而比较不同分词方法的翻译结果。实验结果发现,在统计机器翻译中,中文分词的翻译结果好于不分词的结果;分词的歧义并不是影响翻译结果的重要因素;加入命名实体识别的分词对翻译结果影响不稳定;分词的颗粒度与分词的一致性对统计机器翻译质量影响较大。3)词对齐对翻译结果影响人们曾一直认为词对齐的质量对统计机器翻译结果会造成直接的影响。最近的一些实验却发现词对齐质量的提高对统计机器翻译结果质量的提高很少或者没有提高。为了考察词对齐对统计机器翻译的影响,本实验对19209对句子进行了人工词对齐,并利用人工对齐语料进行统计机器翻译实验,比较人工对齐与自动对齐的结果。结果发现,在统计机器翻译中,词对齐的质量对翻译结果有很大的影响,对齐的越准确,翻译结果越好;另外对齐的颗粒度也会影响的翻译质量。实验中,综合比较分词与词对齐对统计机器翻译的影响程度,结果表明:词对齐对统计机器翻译的影响要大于分词对统计机器翻译的影响。
岳芸[9]2016年在《电商客服自动问答系统的商品意图识别》文中指出“中国制造2025”中提出要加快发展智能制造装备和产品,作为其中重要部分的服务机器人以及智能家居都倍受产业界追捧。在工业机器人之后,服务机器人也将得到政策支持,获得政策顶层设计规划。经过多年的发展我国的电子商务市场规模大,网络购物用户基数多,用户对商品的体验不再停留在产品质量,对服务质量的要求不断提高;另外,客服人员服务成本不断提升、流失率高以及招聘专业客服难度大等问题突出,电商客服机器人是人工智能的新形式,它将更高效地服务各商家和用户。客服人员以及电商客服机器人在和用户交流的过程中,关键环节在对用户意图的识别,只有准确发现用户的意图所在才能有效地为其服务,不断提高用户的满意进而获得忠诚的用户实现盈利。本文对电商客服自动问答系统(电商客服机器人)所属的问答系研究统进行了梳理,介绍了问答系统的发展以及系统的类型、结构等基础知识;同时,了解了问答系统涉及的关键词提取、词语相似度计算等技术,此外,深入理解了BP神经网络算法。在以上知识准备基础上,本文基于电商客服机器人系统,首先,在对用户语句处理上使用了中科院分词技术,并构建了化妆品领域所需的专业词典来提高分词准确性,词典涉及商品、美妆、护肤等多方面;根据网络购物语言特点,对用户沟通语料进行统计分析筛选建立了相应的停用词表;其次,选取语义、自身、位置叁大块特征值信息利用BP神经网络模型对用户语句进行关键词提取。然后,本文构建了网络购物中用户比较关注的商品和服务意图网络,这一网络作为每一个用户的描述画像,为系统后期回答服务。最后,依据艾宾浩斯的人类遗忘规律,结合用户与客服机器人沟通的时间特点,基于遗忘曲线构建了“单阶段”和“多阶段”用户商品意图模型,实现用户的商品意图强度描述,通过提取的关键词利用Word2vec语义分析工具计算用户商品意图强度,对问答系统回答准确有一定改善,用户商品意图强度的获得还能给用户进行个性化推荐以及相关服务做指导。
孙越恒[10]2005年在《基于统计的NLP技术在中文信息检索中的应用研究》文中研究表明中文信息检索是信息检索领域的一个重要分支。尽管中文信息检索的技术和研究已经取得了相当多的成果,但目前中文信息检索的效果却并不乐观。本文就中文信息检索的几个主要问题,在NLP技术的基础上,利用统计学和代数学方法,从词语层和文档层对信息检索中文档和文档集的处理方法进行了深入研究。本文首先从理论上对中文信息检索索引单位的选择做了详细分析,改进了传统的最大匹配分词算法,一定程度上解决了切分歧义的问题,同时在改进算法中引入了一种基于统计的窗口移动扩展方法,简单而有效地改善了未登录词的识别问题。信息抽取已成为制约信息检索性能的一个瓶颈,而关键词提取则是信息抽取的一个重要环节。本文针对中文,实现了基于χ2统计的单文档关键词提取算法,其主要基础是词与词之间的共现次数的统计,并使用χ2统计量来衡量两个词语之间的关联。同时改进了传统的KEA算法,扩展了标示关键词的特征,实现了基于朴素贝叶斯理论的中文多文档关键词提取模型。文本分类是对信息检索中的文档集进行组织的一项关键技术。本文首先对文本分类算法进行了研究,探讨了文本特征抽取方法,其中综合考虑了频度、分散度和集中度叁项指标,设计并实现了一种新的特征抽取算法,使得选出的特征项整体优化。另外,提出了一种基于向量空间模型的词共现模型,并将通过该模型统计出的共现词信息应用于文本分类研究中。上述技术都在一定程度上提高了文本分类系统的性能。最后,本文把分类技术应用到了信息检索中的用户查询歧义消除方面,实现了一个分类检索系统,使用户可以快速获取自己真正需要的信息。针对高维词-文档矩阵所造成的高存储空间和运算时间开销,本文将线性(LSI)和非线性(Isomap、SIE)维数约减算法引入到高维文档数据的降维处理中,并在文档聚类方面对叁种算法处理后的数据进行了性能比较。实验结果表明,采用了局部嵌入技术的SIE算法取得了与LSI相当的性能,优于全局优化的Isomap算法,并且降维处理时的运算复杂度也大大降低。最后,本文实现了基于N层向量空间模型的Windows上的信息检索系统。该系统对Web文档采用了一种分层处理机制,重点改进了Web文档中的关键信息的权重计算。
参考文献:
[1]. 大规模语料库分词质量评价方法研究[D]. 宋礼鹏. 山西大学. 2004
[2]. 基于词典的智能分词系统的研究与实现[D]. 蔡灿民. 昆明理工大学. 2008
[3]. 中文语料库分词不一致现象的分层校验[D]. 刘博. 山西大学. 2008
[4]. 面向统计机器翻译的双语语料质量评价技术研究[D]. 杜权. 东北大学. 2014
[5]. 领域本体覆盖度评价关键技术研究[D]. 欧阳柳波. 中南大学. 2012
[6]. 面向统计机器翻译的语料处理与评价技术研究[D]. 姚树杰. 东北大学. 2011
[7]. 网络新词发现算法研究[D]. 周清. 华侨大学. 2015
[8]. 统计机器翻译语料预处理中的问题研究[D]. 修驰. 北京语言大学. 2009
[9]. 电商客服自动问答系统的商品意图识别[D]. 岳芸. 五邑大学. 2016
[10]. 基于统计的NLP技术在中文信息检索中的应用研究[D]. 孙越恒. 天津大学. 2005
标签:计算机软件及计算机应用论文; 自然语言处理论文; 语料库论文; 中文分词论文; 分词论文; 用户研究论文; 统计模型论文; 翻译专业论文; 数据抽取论文; 语言翻译论文; 用户分析论文; 关系处理论文; 机器翻译论文; 信息检索论文; 双语论文;