导读:本文包含了文本标注论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:文本,语料,主动,特征,自然语言,词性,定量分析。
文本标注论文文献综述
马克·阿兰·芬雷森,张瑞娇,李扬[1](2019)在《从语义标注文本中推定普罗普的功能项》一文中研究指出弗拉基米尔·普罗普的《故事形态学》是民俗学的一项开创性研究,也是计算研究中一个引人注目的课题。我探讨了一种从语义标注文本中学习普罗普功能项的技术,并对普罗普语料库中的15个民间故事进行了语义角色、语义同指、时间结构、事件情感和角色的标注。之后我从普罗普提供的描述中导出了一组合并规则。当这些规则与模型融合学习框架的改进版本相结合时,能够很好地重现普罗普的功能项。叁个重要的功能组——即A/a(加害/缺失),H/I(交锋/战胜),以及W(回报)——被精准地识别出来。这是计算系统学习一种真实的叙事结构理论的首次论证。(本文来源于《民俗研究》期刊2019年04期)
王悦林[2](2019)在《对文本分类算法选择和数据标注的研究》一文中研究指出本文针对层出不穷的文本分类需求,重点针对基础算法和数据标注进行了研究。(本文来源于《电子技术与软件工程》期刊2019年10期)
孔敏[3](2019)在《基于Android的众包文本标注系统的设计与实现》一文中研究指出文本信息是最基本的信息形式,利用自然语言处理技术可以对海量的文本数据进行分析处理。而智能化自动处理信息的首要条件是要有已经标注的数据作为训练集对数据模型进行训练。因此,对文本数据进行标注就成为在对自然语言处理算法进行研究之前需要解决的一个问题。由于文本处理算法多种多样,需要对文本进行不同角度的研究,就需要实现多种类型的文本标注。本文总结了国内外数据标注平台的发展现状,针对目前数据标注平台标注类型繁多,但是鲜有专业的文本标注平台的特点;结合众包平台用户量大、效率高、成本低的特点,提出构建基于众包的文本标注系统的必要性和可行性,从而有效解决文本标注问题。本文设计实现了一个基于众包平台的文本标注系统。该系统分为任务发布、任务执行和任务管理叁个模块。在该系统中,文本标注工作以任务为载体,文本标注任务被划分成不同的类型。在任务发布模块用户选择任务类型,然后把需要标注的文本内容以文件的形式上传到该系统。在任务执行模块用户可以通过选取文件内容、选择标签、连线和拖拽文本等不同操作方式,对文本数据进行不同类型的标注。在任务管理模块用户可以查看自己发布或参与的任务。该系统后台使用Spring Boot框架进行搭建,前端使用And roid移动端页面展示数据。该系统设计并实现了对文本的六种类型的标注,完成了预期功能,后期可以扩展新的文本标注类型。本文主要对叁种文本标注类型的设计与实现进行了描述。该系统致力于为自然语言处理的所有算法提供高质量、多种类的可靠标注数据集;利用可靠数据提高算法训练的准确度,缩减训练算法前期准备的时间,推动自然语言处理技术的发展。(本文来源于《南京大学》期刊2019-05-20)
苏晓宝,刘臣,唐莉[4](2019)在《基于线性链条件随机场的用户生成文本标点标注》一文中研究指出标点符号的正确性对于用户生成文本的词性标注,命名实体识别,依存句法分析等有着重要的作用,正确的标点标注可以使用户生成文本的语法结构准确完整。线性链条件随机场模型可以容纳任意的非独立的特征信息,本文通过选取标点符号所在位置左右词性对作为模型的观测序列,使用条件随机场进行标点符号的标注。实验的测试语料采用京东在线产品评论,结果表明基于线性链条件随机场的用户生成文本标点标注效率较高。(本文来源于《软件》期刊2019年04期)
王俊福[5](2019)在《面向多用户协作的智能化文本标注平台的设计与实现》一文中研究指出在人工智能时代,自然语言处理技术在各领域的应用越来越广泛。虽然机器学习、深度学习等各种各样的算法模型层出不群,但是在特定领域下(如医疗、电商、金融等),目前全自动无监督的算法仍然无法达到很好的效果,而半监督算法、有监督算法又需要标注数据的支持,而且不同的算法对标注数据的质量和数量都有不同的要求。为了解决自然语言处理任务中数据标注的问题,目前主要存在叁种方式:众包标注、专家标注、算法标注。但均有其局限与不足,专家标注成本较高,众包标注成本较高且质量难以保证,算法标注质量较低,无法满足多种多样的数据标注需求。本文针对上述问题,在充分调研已有研究的基础上,设计了一种叁阶段标注框架,并基于该框架实现了多人协作的智能化标注平台。具体来说本文的研究内容和创新成果包括:(1)针对普遍的标注任务,提出了基于主动学习思想的叁阶段标注框架,通过算法、普通用户、专家用户叁者流转协作完成标注任务,通过算法的预标注来提高标注效率,通过交互式的错误反馈机制迭代提高用户的标注准确率。(2)针对目前系统支持的若干类文本标注任务,设计并实现了基于任务相似度和用户偏好的个性化分配算法,提高用户与任务的匹配度,从而提高标注质量和效率。(3)基于上述框架和算法,采用交互式web2.0技术搭建了智能化标注平台。平台采用模块化组件化的设计,其中的多种算法组件都可以灵活扩展,从而支持多种标注任务。(4)采用模拟实验和用户调研的方式,验证了框架在提升标注效率和质量方面的有效性。(本文来源于《浙江大学》期刊2019-03-04)
汪悦[6](2019)在《定向推荐在文本人工标注中的应用》一文中研究指出随着网络带宽的增加以及互联网技术的高速发展,信息载体由文本渐渐过渡为视频图像等,为了方便人们能够更快更好地访问和检索视频图像,针对目前手工标注过于繁琐并且时间过长的问题,该系统希望通过目前流行的推荐系统和reCAPTCHA系统,对于各个用户的擅长点进行分析并随着标注数量的累积进行调整,同时基于人体的耐受性,将部分难于标注的图像加载在容易标注的图片中,减少无法标注的图片数量,来达到缩短标注时间的目的。(本文来源于《电脑知识与技术》期刊2019年06期)
段军红,李晓宇,慕德俊[7](2019)在《一种非完全标注的文本分类训练方法》一文中研究指出针对传统方法中性能与精度的不足,通过最优类别分组和遗传算法,提出一种非完全标注的文本分类训练方法。新方法能将原来的分类体系拆分成多个分类体系,使得每个分类体系下的类别彼此互斥。在每个拆分出的分类体系下,对数据进行训练,可提高分类器的精度。通过多个分类器并联,分别输出样本对应的类别,得到样本实际所属的所有类别。仿真实验表明,该方法可有效地解决当前分类体系下,非完全标注的文本分类器无法有效的识别出非完全标注文本类别与其它类别的边界,从而造成数据分类性能低下等问题。(本文来源于《微处理机》期刊2019年01期)
樊华,黄海潮,王鑫,华召云[8](2018)在《基于语义标注的电网文本数据知识抽取技术研究》一文中研究指出电力知识图谱是将电力业务对象不同种类的业务信息按照此业务对象的业务架构关联组合而成的巨大信息网络。电力知识图谱可以全面地、条理化地展示电力业务对象的相关业务信息、技术知识、行业标准以及这些信息的内在联系,可以大大提高使用者检索信息的搜索效率,可以让使用者获得更深、更广的搜索结果,为决策提供全面的决策依据。(本文来源于《第叁届智能电网会议论文集》期刊2018-12-30)
李净,李桃,富斌[9](2018)在《基于文本特征及图像实例标注的反馈策略》一文中研究指出针对图像检索中的"语义鸿沟"问题,将主动特征学习引入相关反馈中,提出基于文本特征标注和图像实例标注的混合反馈策略。要求用户标注图像实例和文本特征,将基于图的半监督学习与基于文本特征和图像实例的双重主动学习相结合。启发式视觉特征标注算法的提出进一步提高系统性能。最佳特征标注和真实用户标注场景下的对比实验结果表明,该方法提高了系统的效率,将标注选择和检索结果返回两个过程有机统一起来。(本文来源于《计算机工程与设计》期刊2018年12期)
毛雪芬[10](2018)在《基于产品评论的情感标注一致性问题分析——以汽车评论文本和美妆评论文本为例》一文中研究指出随着信息技术的发展,互联网上由用户产生并带有情感倾向的信息显着增加。对产品评论进行语料标注并进行文本倾向性分析,能够帮助用户快速地获取和理解所需要的信息。如何保证人工标注语料的质量,是语料工作中无法忽视的问题。基于抽取出的两位标注者对汽车评论文本和美妆评论文本各自标注的800句语料数据,旨在通过比较标注一致性,求证以下叁点并探究原因:在语料标注的过程中不断细化标注规范对提升标注一致性是否有显着作用;相同的标注规范用于不同领域,标注一致性是否有明显差异;不同的标注规范对同类评论文本的标注一致性是否有明显影响。(本文来源于《文教资料》期刊2018年35期)
文本标注论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文针对层出不穷的文本分类需求,重点针对基础算法和数据标注进行了研究。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
文本标注论文参考文献
[1].马克·阿兰·芬雷森,张瑞娇,李扬.从语义标注文本中推定普罗普的功能项[J].民俗研究.2019
[2].王悦林.对文本分类算法选择和数据标注的研究[J].电子技术与软件工程.2019
[3].孔敏.基于Android的众包文本标注系统的设计与实现[D].南京大学.2019
[4].苏晓宝,刘臣,唐莉.基于线性链条件随机场的用户生成文本标点标注[J].软件.2019
[5].王俊福.面向多用户协作的智能化文本标注平台的设计与实现[D].浙江大学.2019
[6].汪悦.定向推荐在文本人工标注中的应用[J].电脑知识与技术.2019
[7].段军红,李晓宇,慕德俊.一种非完全标注的文本分类训练方法[J].微处理机.2019
[8].樊华,黄海潮,王鑫,华召云.基于语义标注的电网文本数据知识抽取技术研究[C].第叁届智能电网会议论文集.2018
[9].李净,李桃,富斌.基于文本特征及图像实例标注的反馈策略[J].计算机工程与设计.2018
[10].毛雪芬.基于产品评论的情感标注一致性问题分析——以汽车评论文本和美妆评论文本为例[J].文教资料.2018