中文新词语自动检测研究

中文新词语自动检测研究

邹纲[1]2004年在《中文新词语自动检测研究》文中提出随着社会、经济的飞速发展,越来越多的中文新词语出现在人们的生活中。新词语的出现丰富了语言的色彩,同时也给词典编纂、中文自然语言处理等领域带来了挑战。如何寻找新词语成了一个重要的问题。然而目前新词语并没有一个明确的、公认的定义,本文根据词法分析和语言学中对于新词语的定义,将新词语分为命名实体、词形新的词语和意义用法发生变化的已有词语这叁大类。本文研究的是对于词形新的词语的自动检测。目前对于词形新的新词语识别研究比较少见。而且现有的研究所寻找的新词语都是限于领域或者是限于新词语的词长。本文提出了一个从Internet采集下来的网页中寻找新词语的方法,目标是从一个整体角度寻找不限词长、不限领域的在指定日期后出现的新词语。根据本文提出的方法实现的整个系统分为叁个部分:网页采集、网页分析和新词语查找。在网页分析部分提取网页的内容和日期,对网页内容进行分词,查找重复串,然后将所有的词和串带上日期存入原始信息数据库。在新词语查找中,根据给定的日期将原始信息数据库分成背景数据库和过滤数据库,而后在过滤数据库中进行新词语候选的查找,接着进行自动过滤和词性猜测,得到新词语最终的结果。对于江南时报和人民日报华东新闻的实验表明:新词语查找的精确率在30%-40%,召回率在90%左右。已经应用于《现代汉语新词语信息(电子)词典》的编纂上。

邹纲, 刘洋, 刘群, 孟遥, 于浩[2]2004年在《面向Internet的中文新词语检测》文中研究说明随着社会的飞速发展 ,新词语不断地在日常生活中涌现出来。搜集和整理这些新词语 ,是中文信息处理中的一个重要研究课题。本文提出了一种自动检测新词语的方法 ,通过大规模地分析从Internet上采集而来的网页 ,建立巨大的词和字串的集合 ,从中自动检测新词语 ,而后再根据构词规则对自动检测的结果进行进一步的过滤 ,最终抽取出采集语料中存在的新词语。根据该方法实现的系统 ,可以寻找不限长度和不限领域的新词语 ,目前正应用于《现代汉语新词语信息 (电子 )词典》的编纂 ,在实用中大大的减轻了人工查找新词语的负担。

邹纲, 刘洋, 刘群, 孟遥, 于浩[3]2004年在《面向Internet的中文新词语检测》文中研究指明1 前言 自然语言中新词语的不断涌现是一个客观规律。随着经济、社会的飞速发展和对外交流的日渐频繁,特别是Internet的普遍使用,这一现象变得更加明显。据中国语言文字工作委员会专家曾做的一个比较保守的统计,中国自改革开放的20年来平均每年产生800多个

刘知远, 孙茂松[4]2007年在《基于WEB的计算机领域新术语的自动检测》文中研究指明本文主要介绍“基于 WEB 的计算机领域新术语的自动检测”算法的设计和实现。随着计算机技术的迅猛发展,英语中每天都会出现大量的该领域的新术语,如何将这些新兴术语及时发现并纳入到汉语中来,是一个迫切而非常有意义的工作。该算法正是基于这一需求而设计实现的。其核心思想是,首先通过语料库的比对,找到“自某一时间点”以来在计算机类语料库中新出现的词语,即候选新术语,它们满足新术语的第一个特征:然后通过考查候选新术语在时间上的频度曲线,找到其中被广泛地应用,而非昙花一现的词语,确定为新术语。

施水才, 俞鸿魁, 吕学强, 李渝勤[5]2006年在《基于大规模语料的新词语识别方法》文中研究表明根据新词语的不同特征,提出了一整套自动检测新词语的方法,通过大规模地统计分析,分别建立字,词,N元组的词典,从中自动检测出新词语来,然后再根据构词规则对自动检测的结果进行进一步的过滤,最终抽取出语料中的新词语.根据此方案实现的系统,可以抽取不限长度不限领域的新词语.

赵鑫懿[6]2015年在《网络流行语的自动抽取与翻译技术研究》文中研究说明互联网的高速发展使得人们的交流变得更加方便与高效,伴随着新的交流方式,人们对语言文字的掌控与创新能力得到了空前的发展。作为网络文化的主要标志,网络流行语在近几年蓬勃发展,虽然产生于网络但已渗透到人们日常生活中。近几年来,对网络流行语的研究引起了国内外的广泛重视,研究的角度涵盖社会学、传播学、语言学等。这些研究工作初步揭示了网络流行语产生与流行的一般机理,但多拘泥于从社会科学角度的定性分析。从本质上来说,网络流行语是一种特殊的新词,对这些词汇进行自动识别是进一步处理与分析的基础。同时,随着国际交流的日益密切,如何将网络流行语自动翻译成其它语言也成为一项紧迫的任务,其对统计机器翻译、跨语言信息检索等任务的性能有显着影响。鉴于此,本文从定量的角度借助自然语言处理技术自动提取并翻译网络流行语。对流行语的提取是基于流行语在使用度上呈现出短期内快速提升与下降这一特征,通过对真实的网络论坛大量数据的分析来刻画词语在跨年度时间段上的使用提升程度,以此来量化衡量词语的流行程度。对流行语的翻译则是利用到意义相近的词语通常出现在相似的上下文中这一特征,通过可比语料库这一易于大规模获取的双语资源构建各词语的上下文向量并通过相似度衡量来抽取候选翻译。实验结果表明,采用基于真实论坛大数据抽取出的网络流行语与各种机构通过专家知识来发布的网络流行语具有较高的一致性,并且抽取出的流行语依据可比语料库中提取的上下文消息能够被较为准确的翻译。本文主要贡献在于:(1)提出了基于真实语言使用数据进行网络流行语自动提取的方法。该方法考虑了流行语在使用度上的特征,通过设计动态特征、静态特征等指标对真实的网络论坛使用数据进行分析,完成了对流行语的准确提取。(2)设计了基于可比语料库进行网络流行语自动翻译的策略。该策略通过自动采集包含流行语的可比语料库来获取词语的上下文,然后通过上下文相似度的比较来获取候选翻译词。上述工作是本领域内第一次的对网络流行语进行自动翻译的尝试,具有一定的开创性。

何爱元[7]2011年在《基于词典和概率统计的中文分词算法研究》文中研究表明对于汉语的自然语言处理来说,汉语自动分词是文本分析的第一个步骤。目前的中文分词方法,可以分为基于词典的分词方法、基于统计的分词方法和基于理解的分词方法叁种。基于理解的分词方法研究尚不成熟。如今,比较流行的方法是将词典的方法和统计的方法结合起来。中文分词面临的难点问题是未登录词的识别和歧义切分。近年来,开发的大量的中文分词系统对中文分词中的未登录词识别,通常的做法是在分词系统中加入单独的未登录词识别模块,建立相关的规则来识别。这些分词系统对一些专有名词,如人名、地名、机构名等能够较好的识别,但是对于那些没有特殊规则的网络新词几乎不能识别,这在很大程度上影响了分词的精度。对于歧义切分,尽管近几年对歧义切分的准确率有所提高,但是歧义切分问题仍是迫切需要解决的问题。这两年,字标注的分词方法,取得了很好的成绩。但是,它的分词成绩受限于训练语料类型与规模的分词模式,虽然是目前的研究主流,但这与实用分词的需求背道而驰。因此本文采用了基于词典和概率统计的分词方法提高分词系统的实用性,并解决当前分词系统中急需解决的未登录词识别及歧义切分的问题。本文主要做了两方面的改进:第一,本文采用了与以往新词识别不同的角度对网络新词的识别做了相关研究,我们采用的方法是定期在互联网中采集不同领域的大量网页,用本文中的识别策略进行新词的识别。本文在识别新词中,对特殊标点符号中的词、文章关键词、超链接词汇等做了相关分析与研究。并将识别的新词添加到分词词典中,来扩充词典的词汇量。这对解决分词中的未登录词问题非常有效。最终来提高分词系统的分词准确率和召回率。第二,本文在原有的n元语言模型的基础上,提出了逆向n元语言模型,并分析了n取3时能够使模型的性能最优。从而提出了一种基于双向叁元语言模型的中文分词方法,然后在该语言模型中加入了词信息。本文中的基于双向叁元模型含词位置信息的分词算法,能更好的处理汉语切分中的歧义问题。最后,通过实验比较,本文的分词系统在速度和精度上都能达到不错的效果。

杨建国[8]2005年在《基于动态流通语料库(DCC)的汉语熟语单位研究》文中提出本文基于汉语词典学界和中文信息处理界重“词”轻“语”的现象,对词组研究、熟语研究进行了反思,提出“熟语单位”(Idiom Unit,IU)的概念。所谓“熟语单位”,就是“结合紧密,使用稳定”,功能相当于熟语的结构单位,是符合人的认知规律并被人们经常当作一个词来使用的定型化了的固定短语或凝固表达式。我们判别IU的叁条原则为:是否“结合紧密,使用稳定”;是否符合人们的认知规律(IU的长度一般为7±2);流通度要达到一定的阈值。IU理论上包括一切具有熟语性的词语组合单位。本文讨论的IU范围包括叁字格中的惯用语和“差不多、靠不住、来不及”这样介于词和短语之间的结构串;四字格中的成语和新固定短语;简称略语、插入语和字母词语等。 本研究选用的是《人民日报》2001—2003叁年的文本,约8000万字。文章以动态语言知识更新理论为指导,以流通度理论为基础,以年平均流通度阈值(0.5)作为主要筛选依据,运用规则和统计相结合的方法对“熟语单位”(IU)进行了初步的提取研究;并对部分提取结果的噪声环境做了定量与定性分析。 对于IU的提取,我们采取的策略和基本步骤是: 1、利用点号和“的、是、在、和、了、有”等高频词(字)将文本化短;自动提取时牺牲包含切分点的字符串,该部分字符串另行补救。 2、数据格式转换。将切分得到的形式上“完整”的2—8字串转为数据库格式。 3、统计3—5字串的频度、散布度和流通度。 4、用字符串全年的平均流通度阈值进行筛选。 5、对5音节(含)以上字串进行分词并词性标注,对其中的3字串、4字串和符合“N+N”、“N+V”、“V+N”、“V+V”等语法组合规则的相邻字符串(二元组)进行抽取;再对抽取的字符串重复上面的第3和第4步。 6、对筛选得到的字符串进行噪声剔除,全部进行重新切分并词性标注,然后运用静态规则模板(共30条规则)再次过滤。 7、借助辅助手段对熟语单位进行直接抽取。 8、得到3—5字格熟语单位表(约13,500条)。 本文还对提取出来的2001年的5,500个叁字格、2002年的6,500个四字格做了简单的分类和例示性的分析说明。重点考察了具有熟语性的短语。叁字格中我们重点探讨了音节为“1+2”式、结构为“V+N/NP”式和音节为“2+1”式、结构为“V/VP+N”式两类,验证了冯胜利有关叁音节组合的论断:音节为“1+2”式的是短语,音节为“2+1”式的是韵律词。 四字格中我们重点探讨了“N+V”式和“V+N”式。N和V之间存在复杂的语法、语义以及音节制约关系。关于“N+V”式,通过考察,我们发现:定中关系的“N+V”式四字格熟语性最强,数量也最多:状中关系次之,主谓关系的四字格熟语性最弱,且N与V之间存在离散性。关于“V+N”式,我们发现:第一,“V+N”式四字格如果表示通名,它往往是或者容易成为一个NP习惯性搭配。第二,“V+N”式四字格中的N如果是比较抽象的双音节名词,则这类四字格构成的NP其熟语性相对较强。第叁,“V+N”式四字格中的V如果是双音节述宾式动词,那么这种“双音节述宾式动词+宾语”形成的NP熟语性很强。 本文还从应用的角度对流行语、字母词语和插入语进行了考察研究。对流行语的科学评定和字母词语的规范发表了意见。

张海军[9]2010年在《基于大规模语料的中文新词识别技术研究》文中研究指明中文新词识别是指从未标注文本语料中抽取新词并识别其属性的过程,是中文信息处理领域的一项基础任务,其识别结果直接影响着分词、句法分析的处理性能,同时亦在信息抽取及机器翻译等领域有着广泛应用,具有重要的理论意义和实用价值。汉语具有极强的构词能力,加之词语间没有特定的分隔标记,导致任何两个以上相邻字符都有成词的可能性,这给新词自动识别带来了极大困难;同时海量数据应用需求激增又给新词识别研究带来了新的挑战。为改善新词识别性能,提高实用性,本文以大规模语料为研究对象,应用规则和统计相结合的策略,对新词识别及相关技术进行了研究,主要工作和特点如下:首先,本文设计并初步实现了一个领域无关的新词识别框架FNWI。该框架对新词识别系统的灵活性、可扩展性和可维护性进行了统一规划,FNWI不仅是本文研究展开的总体设计方案,还将为后继工作提供一个良定义的基础结构。为有效处理大规模语料,本文提出一种基于逐层剪枝的重复模式提取算法。该算法通过低频字符剪枝和层次剪枝来减少重复模式提取过程中垃圾字符串的产生,有效地降低I/O读写次数。具有能快速处理规模远大于内存容量的语料、语料读写次数与规模接近线性关系;及使用灵活、可提取特定频率/特定长度的重复模式的特点。为提高候选重复模式的归并速度,本文还提出了一种改进的字符串排序算法,其时间复杂度为O(dn)。在新词检测阶段,为提高检测速度,提出一种高效的左(右)熵计算方法,有效减少了计算时无关字符的影响,显着地提高熵的计算效率;为分析重复模式提取策略(基于字符和基于预先分词)对检测效果的影响,提出一种应用实验数据对比和量化模型分析相结合的评测方法,并给出了一个实用的候选新词遗漏量化分析模型,用以指导新词检测的实施。最后,对新词词性分类,本文提出一种新词词性猜测的形式化模型,并应用条件随机域实现模型求解。通过对模型分析,确定了特征选取的原则和思路。该方法最大特点是以词性内部特征为主,不使用上下文词性,具有更强的实用性。

吴法洲, 苏昊, 周明, 李春平[10]2006年在《利用英文搜索日志建立中文新词同义词词表》文中研究说明1引言目前,人们对同义词的定义有比较大的分歧。本文所指的同义词,是指广义概念上的同义词,即所表达的概念意义相同或相似的一对或一组词,例如:奥迪、宝马、别克、宝来、捷达、丰田。这些都是描述汽车品牌的词,是表达同一主题的意义相近的词,在本文中被认为是同义词。本文中所指的中文新词,是指尚未被词典收录的中文词语。

参考文献:

[1]. 中文新词语自动检测研究[D]. 邹纲. 中国科学院研究生院(计算技术研究所). 2004

[2]. 面向Internet的中文新词语检测[J]. 邹纲, 刘洋, 刘群, 孟遥, 于浩. 中文信息学报. 2004

[3]. 面向Internet的中文新词语检测[C]. 邹纲, 刘洋, 刘群, 孟遥, 于浩. 2004年辞书与数字化研讨会论文集. 2004

[4]. 基于WEB的计算机领域新术语的自动检测[C]. 刘知远, 孙茂松. 内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集. 2007

[5]. 基于大规模语料的新词语识别方法[J]. 施水才, 俞鸿魁, 吕学强, 李渝勤. 山东大学学报(理学版). 2006

[6]. 网络流行语的自动抽取与翻译技术研究[D]. 赵鑫懿. 华中师范大学. 2015

[7]. 基于词典和概率统计的中文分词算法研究[D]. 何爱元. 辽宁大学. 2011

[8]. 基于动态流通语料库(DCC)的汉语熟语单位研究[D]. 杨建国. 北京语言大学. 2005

[9]. 基于大规模语料的中文新词识别技术研究[D]. 张海军. 中国科学技术大学. 2010

[10]. 利用英文搜索日志建立中文新词同义词词表[C]. 吴法洲, 苏昊, 周明, 李春平. 第二十叁届中国数据库学术会议论文集(技术报告篇). 2006

标签:;  ;  ;  ;  

中文新词语自动检测研究
下载Doc文档

猜你喜欢