导读:本文包含了语义索引论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:语义,索引,标签,文本,时空,模式,正交。
语义索引论文文献综述
贾君枝,叶壮壮[1](2019)在《基于潜在语义索引的Wikidata机构实体聚类研究》一文中研究指出【目的】Wikidata机构类目范畴树中,存在实例数目过多而使类目的外延过大、不能明确指示及类分资源的问题。为系统化机构名称层级体系,需将这些实例进行划分,使其均衡分布在机构范畴树的各层。【方法】将无监督的层次聚类算法用于解决无类别标签的机构实例的自动聚簇问题。为消除机构实体名称中特征词共现对聚类算法的影响,引入Wikidata中机构实体的相关属性作为其上下文环境。同时聚类算法对数据的维度十分敏感,因此采用潜在语义索引作为文本表示模型,通过奇异值分解将高维数据映射到潜在的低维语义空间。【结果】本文方法在实验数据集上的聚类准确率达到87.3%,取得了较好的聚类效果。【局限】仅在小样本数据集上进行验证。【结论】为机构名称提供上下文环境有利于同类机构的聚集,基于潜在语义索引模型的层次聚类算法对于高维度的文本聚类问题是有效的。(本文来源于《数据分析与知识发现》期刊2019年10期)
李峤,王茹娟[2](2018)在《大数据环境下隐性语义索引的研究综述》一文中研究指出本文针对大数据环境下的多标签集成分类器的技术积累、基于Boos Texter算法的迭代次数优化方法、基准子集特征数量分类器算法构造的现状,根据文本分类存在问题进行分析,为满足今后分类器改进提出大数据环境下的隐性语义索引改进和不断改进策略。(本文来源于《电子测试》期刊2018年14期)
黄明,林家骏[3](2018)在《归并奇异值分解:一种快速更新隐含语义索引的方法》一文中研究指出隐含语义索引(LSI)是一种解决信息检索中二义性问题和大规模文档分类的文档索引方法。为了提高LSI效率,应对大数据场景下文档量爆发式增长的问题,提出了一种通过归并奇异值分解来实现LSI快速更新的方法。该方法利用p-边宽单边对角矩阵和箭头矩阵分解技术来加快中间矩阵的奇异值分解过程,并通过将新增文档矩阵的薄奇异值分解(PSVD)归并进主文档矩阵的PSVD以避免重复计算,加快LSI更新速度。通过数学证明论证了该方法的有效性,并讨论了该算法扩展到词条更新场景中的情形。在多个测试数据集上的实验验证了该方法可以在保证检索准确率的前提下有效提高LSI的更新效率。(本文来源于《华东理工大学学报(自然科学版)》期刊2018年03期)
桑海翎,郭文忠[4](2018)在《基于海量异构数据索引语义查询的关键模型研究》一文中研究指出基于非结构化数据海量、异构、多元、内容丰富、不容易描述的特点,从海量异构数据特征模型角度,对非结构化数据的混合查询问题进行分析.重点论述非结构化数据特征建模的关键技术,可以有效地解决网络大数据背景下的数据检索效率,从整体上提高数据检索的速度和效率.(本文来源于《福州大学学报(自然科学版)》期刊2018年03期)
梁珺秀[5](2018)在《具有语义标签的时空轨迹索引及查询》一文中研究指出定位技术及智能终端的迅速发展和普及产生了大量时空轨迹,即随时间变化的位置数据。一方面,传统的时空轨迹并未考虑语义信息,不能全面表达时空对象,另一方面,已有的语义属性对应至时刻,不能反映轨迹在时间区间内的语义。针对具有语义标签的时空轨迹,引入一种新的模型及索引,并提出相应的查询算法,可应用于路径规划、好友推荐系统及行为模式分析等多种不同的应用场景下。主要研究工作如下:(1)针对现有包含语义属性的时空轨迹大多都是语义到时间点上的映射,而忽略了在时间区间上的描述的问题,给出能描述时间区间上语义信息的时空标签轨迹表示,时空标签轨迹在包含时空信息的基础上同时包含映射到时间区间上的语义信息。此外,提出能表示在时间区间上语义存在性的索引标签R树,索引由标签层和空间位图层组成,并给出有效的标签R树批量更新构建方法。通过实验验证批量更新构建方法的有效性,且LR-Tree中语义属性占整体磁盘空间比例保持在的4%-7%。(2)针对时空标签轨迹的语义描述,提出模式匹配查询,并结合传统移动对象查询,引入范围模式匹配查询和K近邻模式匹配查询,并给出形式化定义。设计基于标签R树的范围模式匹配查询算法和K近邻模式匹配查询算法,并介绍两种查询算法中的筛选过程及精细计算过程。通过大量实验,从查询算法的不同参数角度分析,与已有的移动对象索引进行对比,验证了提出的两种查询算法的有效性。(3)现有语义移动对象查询大多在语义匹配的前提下再进一步考虑时空属性,造成部分结果在时空维度上表现较差。为此,提出近似模式匹配,并给出相关定义的形式化表示。在此基础上,提出K近邻近似模式匹配查询,实现同时考虑时空距离和语义匹配程度,并给出基于标签R树的K近邻近似模式匹配查询算法。实验结果表明,与基于已有索引的查询算法对比,在不同参数下,基于LR-Tree的K近邻近似模式匹配算法表现出更好的剪枝能力。(本文来源于《南京航空航天大学》期刊2018-03-01)
龚静,黄欣阳[6](2017)在《基于隐性语义索引的多标签文本分类集成方法》一文中研究指出针对多标签文本分类的概念歧义和底层语意结构问题,提出一种集成分类方法,将随机森林(RF)算法和隐性语义索引(LSI)有机结合在一起。通过词汇的随机分割增加集成的多样性,获得低维隐性语义空间的不同正交投影,在低维空间的正交投影基础上执行LSI。随机森林可以有效解决二进制分类问题,隐性语义揭示了文本的底层语义结构,两者结合可代表群体的多样性和个体准确性。Yahoo数据集上的实验结果验证了该方法的有效性,其在汉明损失、覆盖度、首位误差和平均精度方面优于其它方法。(本文来源于《计算机工程与设计》期刊2017年09期)
苗德成,奚建清,刘新盛,苏锦钿[7](2017)在《Fibrations理论在索引归纳数据类型不确定语义中的应用》一文中研究指出应用Fibrations理论对索引归纳数据类型的不确定语义计算进行了研究。论证了索引范畴的构造,提出了索引Fibration及其真值函子与内涵函子,建立了索引范畴上自函子的一种保持真值的提升,提出了部分F-代数的定义,并应用折迭函数等工具抽象描述了索引归纳数据类型不确定语义计算,辅以实例进行了简要分析,最后通过相关工作的论述指出了Fibrations理论研究方法的优势。(本文来源于《计算机科学》期刊2017年07期)
黄鑫溢,周维民[8](2017)在《基于潜在语义索引的职位描述聚类研究》一文中研究指出本研究鉴于某公司职位描述存在的特点以及其所带来的问题,对其展开研究。由于职位描述中的文本字数少、数量多,特征维数较高,样本特征稀疏,不能很好的抽取出文本关键特征。针对这些问题,我们用潜在语义索引模型(LSI)对文本进行特征提取,分析潜在语文空间维度对聚类性能的影响,然后根据提取的特征进行K-means聚类,能有效降低简历匹配筛选过程中的职位类别数,提高了简历匹配的效率。(本文来源于《网络新媒体技术》期刊2017年03期)
何娣[9](2017)在《基于语义的地理视频索引方法》一文中研究指出地理视频是具有空间参考的视频数据,具有数据易获取、语义丰富、兼具时空属性、表达直观等特点,逐渐成为虚拟地理环境、智慧城市和城市安全中重要的地理信息来源。随着视频监控网络的广泛布设,动态、可持续获取的地理视频数据对地理视频快速检索提出了前所未有的挑战,如何从海量的地理视频数据中快速准确地检索出满足需要的地理视频,成为地理视频空间索引需要解决的关键问题。地理视频具有丰富的语义信息,现有空间索引方法没有考虑到地理视频蕴含的丰富语义,难以发现地理视频数据之间的时间、空间和语义关联性,不支持地理视频与地理环境的时空语义关联检索,因而难以实现地理视频关联分析和深度挖掘,因此,急需发展顾及语义的地理视频索引新方法。面向地理视频数据的高效索引需求,本文研究地理视频的时空语义一体化索引方法。论文的主要研究内容包括:(1)提出了时空语义一体化索引结构STSR(Spatio-Temporal Semantic R-tree)树。本文面向地理视频数据的时间、空间和语义关联检索需求,融合R树、MAP21时间索引方法和倒排索引结构,设计了时空语义一体化索引STSR树,详细定义了STSR树索引结构和树节点设置;(2)研究了STSR树时空语义一体化索引算法。本文基于STSR树索引结构,研究了时空语义一体化STSR树的索引项插入、删除和查询算法;针对不同的时间、空间和语义查询需求,实现了基于STSR树的时空查询、空间语义查询和时空语义查询;(3)实现了基于STSR树的多路并行查询算法。根据树状索引固有的并行性,本文基于可并行任务单元,设计了STSR树多路并行查询算法,实现了时空语义一体化的地理视频数据高效索引。最后,本文使用杜克大学提供的开源地理视频数据集,对本文提出的时空语义一体化索引STSR树及索引算法进行了实验分析与验证,针对不同的时空语义查询条件,对比分析了STSR树和混合式索引IR树、RT树的索引性能,实验结果表明STSR树具有良好的索引查询性能和并行查询加速比,验证了时空语义一体化索引STSR树的有效性。(本文来源于《电子科技大学》期刊2017-03-31)
张得群,谢传节,裴韬[10](2017)在《基于HBase的面向语义单元的室内移动对象索引》一文中研究指出随着室内定位技术的广泛应用,传感器记录了大量室内移动对象的位置数据,而索引技术作为移动对象数据分析的基础工作也得到越来越多的研究。已有索引技术多是针对室外空间的移动对象,不能支持室内移动对象数据的叁维立体性、轨迹的复杂性、随机性等特点,这些索引技术也仅仅关注了移动对象的位置信息,忽略了语义信息,不能有效地支持室内移动对象的管理和分析,并且当面对海量的移动对象数据时,这些架构在传统关系型数据库上的索引都存在性能瓶颈问题。因此,本文提出了面向语义单元的移动对象表达模型,利用语义单元将室内移动对象的位置语义化,设计了SCo II(Semantic Cell Oriented Indoor moving objects Index)索引结构对室内移动对象的历史数据进行索引,能够有效支持语义粒度上的时空范围查询、移动对象语义轨迹查询。索引基于HBase实现,能够适应大规模的并发更新与查询,具有良好的规模扩展性,规避了大数据给传统数据库带来的性能瓶颈问题,实验证明其具有良好的更新和查询性能。该索引的实现方便了基于语义的室内移动对象分析和数据挖掘工作,为今后的分析工作奠定了基础。(本文来源于《地球信息科学学报》期刊2017年03期)
语义索引论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文针对大数据环境下的多标签集成分类器的技术积累、基于Boos Texter算法的迭代次数优化方法、基准子集特征数量分类器算法构造的现状,根据文本分类存在问题进行分析,为满足今后分类器改进提出大数据环境下的隐性语义索引改进和不断改进策略。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
语义索引论文参考文献
[1].贾君枝,叶壮壮.基于潜在语义索引的Wikidata机构实体聚类研究[J].数据分析与知识发现.2019
[2].李峤,王茹娟.大数据环境下隐性语义索引的研究综述[J].电子测试.2018
[3].黄明,林家骏.归并奇异值分解:一种快速更新隐含语义索引的方法[J].华东理工大学学报(自然科学版).2018
[4].桑海翎,郭文忠.基于海量异构数据索引语义查询的关键模型研究[J].福州大学学报(自然科学版).2018
[5].梁珺秀.具有语义标签的时空轨迹索引及查询[D].南京航空航天大学.2018
[6].龚静,黄欣阳.基于隐性语义索引的多标签文本分类集成方法[J].计算机工程与设计.2017
[7].苗德成,奚建清,刘新盛,苏锦钿.Fibrations理论在索引归纳数据类型不确定语义中的应用[J].计算机科学.2017
[8].黄鑫溢,周维民.基于潜在语义索引的职位描述聚类研究[J].网络新媒体技术.2017
[9].何娣.基于语义的地理视频索引方法[D].电子科技大学.2017
[10].张得群,谢传节,裴韬.基于HBase的面向语义单元的室内移动对象索引[J].地球信息科学学报.2017