导读:本文包含了专有名词识别论文开题报告文献综述及选题提纲参考文献,主要关键词:专有名词识别,串频统计,Nagao算法,SSR算法
专有名词识别论文文献综述
柯修,王惠临,于薇[1](2011)在《基于串频统计的汉语和孟加拉语专有名词识别》一文中研究指出基于Nagao串频统计算法实现汉语和孟加拉语专有名词的识别。提取未经过词性标注的中文和孟加拉语语料中的的n元串,使用改进的SSR算法过滤多余子串,利用字串的相邻字信息计算所有n元串成为专有名词的概率,并据此筛选专有名词。最后,实现基于串频统计的跨语言专有名词识别系统。实验表明,系统能够从输入的生语料中有效地识别出人名、地名、团体机构名等。(本文来源于《现代图书情报技术》期刊2011年12期)
施建凤[2](2010)在《基于NSP和CRFs双层模型的专有名词识别方法》一文中研究指出专有名词识别是中文分词技术必不可少的基础环节,也是中文信息处理任务的关键。因此,专有名词识别对提高网络信息检索、文本分类、语音识别和机器翻译等重要领域的研究有着重要的意义。本文采用基于NSP(N-Shorest Path)和CRFs(Conditional Random Fields)双层模型的专有名词识别方法。首先在低层使用基于N-最短路径粗切分方法,得到字符串的切分结果集,从而最大概率的涵盖了正确的切分结果;然后,在高层采用条件随机域方法,使用低层提交的特征、专有名词的单一和复合特征对文本进行标注,复合特征的加入更有利于挖掘专有名词上下文信息和提高实验系统的准确度。论文引入了多个专有名词词典的存储结构,从而有效的提高系统的查找和匹配速度。本文选用北京大学1998年1月份的《人民日报》语料库作为训练和测试数据,实验测试的地名的召回率和准确率分别为87.42%,83.99%,F-值为85.67%;机构名的召回率和准确率分别为72.13%,70.38%,F-值为71.24%。(本文来源于《河北大学》期刊2010-06-01)
彭淑莉[3](2009)在《留学生识别理解汉语专有名词的策略研究》一文中研究指出本文在教学实践和调查的基础上发现,留学生识别理解汉语报刊中的专有名词常采用语际策略、语内策略和非语言策略。文章还讨论了他们运用策略的情况,并提出了相关的教学建议。(本文来源于《现代语文(语言研究版)》期刊2009年09期)
胡学营,刘慧,陆汝占[4](2008)在《搜索引擎用户查询中的复杂专有名词识别》一文中研究指出专有名词识别(Named-Entity Recognition,NER)是自然语言处理和信息检索的基础。现有的很多文献集中于人名、地名、机构名等的识别,很少涉及到书名和电影名等较为复杂的专有名词。专注于某搜索引擎的用户查询日志中出现的这类复杂专有名词的识别。根据用户的查询在网络中的上下文数据,将查询进行粗切分,并利用该网络数据作为训练语料训练复杂专名分类器。使用叁种不同的分类器,证实该方法能取得相当好的效果。(本文来源于《计算机工程与应用》期刊2008年19期)
张云涛,龚玲,王永成[5](2007)在《识别中文文本中的未登录专有名词的类别》一文中研究指出根据人名、地名和组织名的自身用字规律和人名、地名和组织名在上下文环境中对应的指示词来作为度量专有名词类别的特征,从而对从文本中抽取出的未登录词中的各类专有名词进行归类。基于对Internet新闻文本的开放测试,精度和识别率的宏平均分别达到87.8%和92.0%,而微平均则分别达到89.8%和94.4%。(本文来源于《2007年中国智能自动化会议论文集》期刊2007-08-01)
王蕾,李培峰,朱巧明,杨季文[6](2007)在《一种基于框架结构的专有名词自动识别方法》一文中研究指出本文提出了一种基于框架结构的专有名词统一识别方法。该方法首先根据专有名词的成词特点及出现的上下文环境,重新定义语料属性;然后,提出了属性标注点(AP)的概念,对训练语料进行初次标注,并采用错误驱动的学习方法来获取规则;最后,结合规则和实例对文本进行专名识别。实验表明,该方法在测试样本集上准确率最高可以达到92.3%,召回率最高可以达到80.4%,是一种有效的专有名词识别方法。(本文来源于《计算机工程与科学》期刊2007年07期)
郑家恒,谭红叶,王兴义[7](2007)在《基于模式匹配的中文专有名词识别》一文中研究指出本文针对在真实文本中出现最为频繁的人名、地名、组织机构名叁种专有名词, 提出了一种基于模式匹配的专有名词自动识别方法。主要的研究内容有:分别建立了人名、地名、组织机构名的内部模式集合;采用聚类、评价的方法自动获取中文专有名词上下文模式;采用计算专有名词可信度的方法,在专有名词识别发生冲突时,进行消解处理;设计并实现了中文专有名词自动识别实验系统。选取50万字人民日报语料进行测试,平均召回率达到83.33%,准确率达到80.07%。(本文来源于《民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集》期刊2007-02-01)
毛婷婷[8](2006)在《中文专有名词识别的研究》一文中研究指出中文专有名词的自动识别是提高汉语分词系统正确率的关键技术,研究并实现有效的中文专有名词自动识别方法是本文的主要研究内容。 在深入研究现有中文专有名词识别方法的基础上,建立了一种基于支持向量机(SVM)的中文专有名词自动识别模型,并提出了四种不同的改进算法对中文专有名词进行识别:SVM和概率统计组合算法、修正的SVM-K近邻(KNN)算法、修正的SVM算法、聚类的SVM算法。 通过对SVM的识别结果进行分析发现,SVM和其它分类器一样,出错样本点多数集中在分类超平面附近。在SVM和概率统计组合算法中,对于分类超平面附近的样本采用概率统计方法进行识别,对于距离分类超平面较远的样本仍然使用SVM分类。 在修正SVM-KNN算法中,在特征空间中计算样本到SVM最优超平面的距离,当该距离大于给定的阈值时使用SVM对样本进行分类,否则使用修正KNN方法。对样本在空间的不同分布使用不同的方法对SVM的识别效果进行优化。 在采用修正SVM-KNN算法识别过程中发现,训练集存在不平衡性,影响传统SVM算法的分类效果。因此提出了修正的SVM算法,采用平移超平面的方法对传统SVM算法进行修正。 为了消除SVM由于训练集中两类数目的样本不平衡而引起的分类错误,采用了聚类的SVM算法,对训练集采用基于核的K-均值算法进行聚类,从而减小了数据的不平衡性,然后将聚类后的训练集利用SVM算法进行学习得到训练模型。 本文结合中文专有名词的特点,首先对训练语料中每个字进行分类标注及词性标注,抽取特征向量的属性,将其转换为二进制表示,在此基础上建立训练集;分别建立基于以上四种算法的专有名词识别模型,采用四种模型分别实现对测试语料中每个字的分类标注,根据分类结果识别出专有名词。实验结果表明,SVM和概率统计组合算法、修正的SVM-KNN算法、修正的SVM算法、聚类的SVM算法均比传统的SVM算法更具优越性,达到了较高的精确率和召回率。其中,SVM和概率统计结合的混合模型的识别效果最好。(本文来源于《大连理工大学》期刊2006-12-10)
王蕾,杨季文[9](2006)在《基于属性标记的专有名词自动识别研究》一文中研究指出提出了一种新的基于属性标记的专有名词统一识别方法。其基本思想是:根据专有名词的成词特点,利用标注语料库,设定词语属性作为标准属性重新进行标注,在此语料基础上进行专有名词成词结构、成词环境的实例提取,并采用基于转换的错误驱动方法对提取的实例进行适用规则提取。在提取的实例和规则的基础上进行属性标注,是一种基于转换的错误驱动规则自学习方法与基于实例的学习方法相结合的基于浅层句法分析的一种新的识别专有名词的方法。实验证明该方法在测试样本集上准确率达到95.3%,召回率达到92.5%,是一种有效的专有名词识别方法。(本文来源于《计算机技术与发展》期刊2006年11期)
刘杰[10](2006)在《基于动态贝叶斯网的中文专有名词识别》一文中研究指出专有名词的识别是中文信息处理领域的重要研究课题之一,目前尚未得到很好的解决。在大规模真实文本为基础的语料库研究的重要性日益突显的情况下,如何提高大规模语料库的质量成为关键,而专有名词的识别质量是影响语料库加工质量的一个重要因素,专有名词识别的自动化也能提高大规模语料库加工效率。此外,在信息抽取、问答系统、术语学研究等各个研究领域应用领域,专有名词的识别也是其基础性步骤。 本文针对真实中文文本中较为频繁出现的人名、地理政治地名还有组织机构名叁类专有名词,提出了一种基于动态贝叶斯网模型的专有名词自动识别方法,该方法把文本中的局部特征、全局特征及语言学经验知识融入一个极具表达和推导能力的随机概率模型中,可以很好地识别专有名词。研究内容主要包括以下几个方面: 1.对专有名词的分类做了较好的研究,分析它们在单句中的局部特征,在此基础上,建立了专有名词的局部特征变量之间的相互依赖关系。 2.研究了专有名词在真实中文文本的互指等语篇信息,利用有效的互指消解规则,解决了专有名词名义性互指等问题,把全局信息融入系统,保证了有效地识别专有名词。 3.采用了基准模型与动态贝叶斯网模型相结合的方法,取长补短,充分利用了两种模型的各自优点,既保证了识别系统的效率,也保证了识(本文来源于《山西大学》期刊2006-06-01)
专有名词识别论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
专有名词识别是中文分词技术必不可少的基础环节,也是中文信息处理任务的关键。因此,专有名词识别对提高网络信息检索、文本分类、语音识别和机器翻译等重要领域的研究有着重要的意义。本文采用基于NSP(N-Shorest Path)和CRFs(Conditional Random Fields)双层模型的专有名词识别方法。首先在低层使用基于N-最短路径粗切分方法,得到字符串的切分结果集,从而最大概率的涵盖了正确的切分结果;然后,在高层采用条件随机域方法,使用低层提交的特征、专有名词的单一和复合特征对文本进行标注,复合特征的加入更有利于挖掘专有名词上下文信息和提高实验系统的准确度。论文引入了多个专有名词词典的存储结构,从而有效的提高系统的查找和匹配速度。本文选用北京大学1998年1月份的《人民日报》语料库作为训练和测试数据,实验测试的地名的召回率和准确率分别为87.42%,83.99%,F-值为85.67%;机构名的召回率和准确率分别为72.13%,70.38%,F-值为71.24%。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
专有名词识别论文参考文献
[1].柯修,王惠临,于薇.基于串频统计的汉语和孟加拉语专有名词识别[J].现代图书情报技术.2011
[2].施建凤.基于NSP和CRFs双层模型的专有名词识别方法[D].河北大学.2010
[3].彭淑莉.留学生识别理解汉语专有名词的策略研究[J].现代语文(语言研究版).2009
[4].胡学营,刘慧,陆汝占.搜索引擎用户查询中的复杂专有名词识别[J].计算机工程与应用.2008
[5].张云涛,龚玲,王永成.识别中文文本中的未登录专有名词的类别[C].2007年中国智能自动化会议论文集.2007
[6].王蕾,李培峰,朱巧明,杨季文.一种基于框架结构的专有名词自动识别方法[J].计算机工程与科学.2007
[7].郑家恒,谭红叶,王兴义.基于模式匹配的中文专有名词识别[C].民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集.2007
[8].毛婷婷.中文专有名词识别的研究[D].大连理工大学.2006
[9].王蕾,杨季文.基于属性标记的专有名词自动识别研究[J].计算机技术与发展.2006
[10].刘杰.基于动态贝叶斯网的中文专有名词识别[D].山西大学.2006