导读:本文包含了全文索引论文开题报告文献综述及选题提纲参考文献,主要关键词:大数据,倒排索引,倒排索引压缩,人工蜂群算法
全文索引论文文献综述
白福均[1](2018)在《云环境下全文索引压缩关键技术研究》一文中研究指出随着网络技术和信息技术迅猛发展,社交网络、电子商务、资讯信息流、网络游戏以及多媒体视听内容空前繁荣,其中以文本为载体的信息呈现出爆炸式的增长,人们逐步被淹没在数据汪洋里。如何在数据汪洋中快速的检索到所需的有用是亟待解决的难题,因此信息检索已成为当下最热研究领域之一。全文索引是检索引擎、信息过滤等信息检索领域中的关键技术,它是实现快速信息检索的关键数据结构,然而存储索引本身所需的磁盘空间开销为原始语料库的数倍,这不但会造成巨大的磁盘空间浪费,而且也是影响检索性能优劣的重要原因之一。因此,研究全文索引压缩算法具有重要的意义,因为压缩全文索引不仅可以降低索引的磁盘空间开销,同时也可以在检索时减少磁盘I/O开销以提高检索性能。本课题对全文索引中目前应用最广泛的倒排索引的压缩算法进行了深入研究,主要工作如下:从理论上分析了目前典型的倒排索引压缩算法磁盘空间占用情况;基于文本聚类思想提出了一种文档标识符分配算法;提出了自适应分段压缩ASCS算法的四种改进方案,即针对ASCS算法中的分段方式并非最优分段问题,提出了以人工蜂群算法优化分段方式,改进了蜜源的适应度计算公式,使用压缩性能更好的DGap序列进行压缩,对分段参数使用Golomb Rice编码压缩;由于在引入人工蜂群优化算法对ASCS算法优化时存在一个相对耗时的迭代寻优过程,在大数据背景下,使用Hadoop分布式云框架对算法进行并行化。本文对改进后的算法使用Java语言进行了实现,通过9个不同的整数序列验证了算法改进的有效性;通过引入Hadoop分布式云框架对算法实施并行化,在两个标准TREC语料库GOV2和ClueWeb09下验证了并行化的有效性。(本文来源于《贵州大学》期刊2018-06-01)
李芙蓉[2](2016)在《基于混合全文索引的煤质文件管理系统研究》一文中研究指出信息化产业技术的飞速发展极大的改变了人们获取利用信息的方式,人们越来越多的是通过电子文件进行传播信息。针对煤炭这一特定领域而言,各类电子煤质文件呈爆炸式增长。面对当前浩瀚的信息海洋,如何帮助用户有效管理煤质文件信息以及如何帮助用户快速甄别、提取有用信息成为煤炭企业面临的重要难题。本文提出一种基于倒排索引与B+树索引的混合全文索引模型。倒排索引在实现上相对简单,对短语的查询具有相对优势,检索速度快,但对数字型的数据并不敏感,因此在数字型数据的检索上不能快速且准确的检索相关信息。而B+树索引能够实现随机、顺序的处理,其所有数据全部在叶子结点保存,加之B+树本身具有的有序性,使得它非常适合于数字型数据的索引。而对煤质文件特点分析可得:煤质文件数据类型主要有字符型和数字型。本文结合倒排索引与B+树索引的优点提出了混合全文索引结构,并将其应用于煤质文件管理系统中。混合全文索引思想为:首先针对煤质文件的数据类型建立B+树索引;再根据不同数据的类型为其建立相应的索引结构,具体可分为两种:如果为字符型数据就为其建立倒排索引,数字型则为其建立B+树索引。设计并实现了煤质文件管理系统,采用目前主流叁大框架(Spring、Struts2,Hibernate)技术,结合Oracle数据库,实现了煤质文件基本信息管理、用户权限管理、文件上传、文件下载、文件共享、文件多维度分类、文件安全控制、文件检索等功能。其中,安全控制模块提出一种文件使用记录追踪方案,保存所有涉密文件使用记录并得到每个文件对应的记录项,并对记录项部分元素(读写操作或常用主机IP)进行监控分析,针对可能发生的安全隐患给予警示,以此保证涉密文件的安全性。对已实现的煤质文件管理系统进行功能性测试,结果表明系统运行良好。对混合全文索引实现的文件检索模块进行的实验表明,与单独的倒排索引或者B+树索引相比,混合全文索引结构在索引创建占用的存储空间和文件检索时间性能上有显着的优势。(本文来源于《西安科技大学》期刊2016-06-30)
胡吉颖,吴振新,谢靖,张智雄[3](2016)在《构建面向WARC文档的全文索引系统》一文中研究指出【目的】开发网络信息存档WARC文件的解析与索引系统,充分挖掘科技网站存档资源价值。【应用背景】在网络资源采集存档领域,WARC文件格式获得了广泛的应用。随着网络信息的多样化,已有的WARC文件索引工具越来越难以满足用户多样性的查询需求。【方法】采用模块化方案解析WARC文件。分析比较常用的索引工具,选择Solr平台开发全文索引系统。【结果】实现对WARC文件基于内容的检索访问服务,并在WARC的索引中增加了学科分类、资源类型和存档时间等分面检索内容,从多维度对WARC文件内容进行揭示。【结论】向用户提供了丰富的科技网站存档数据信息,提高了用户检索访问效率。(本文来源于《现代图书情报技术》期刊2016年05期)
赵玉豪[4](2015)在《外存全文索引算法的研究》一文中研究指出对数据建立索引并提供检索功能是人们面对海量数据时的基本要求,在互联网时代尤为如此。在数据库中检索所需要的记录,在web信息中搜索符合自己要求的网页都需要对数据建立索引结构,对于法律文件,生物信息学中的DNA数据更需要支持全文匹配功能。索引结构包括外存索引和内存索引结构。对于后缀树和后缀数组等经典数据结构来说,虽然匹配速度快,但占用空间很大。压缩全文索引如CSA与FMIndex不适用于外存结构。本文提出了一种空间和时间高效的外存压缩索引mKD-GBWT。理论上,mKDGBWT压缩索引所占空间为O(n logs)位;可在O(|P|/B+(n/B)~(1/2))/+occ/B)I/Os内支持模式匹配查询,其中|P|为模式长度,n为文本规模,s为字符表大小,B为磁盘块大小。本文提出了mKD-GBWT中高效外存串B-树算法、kd-树的外存存储结构及其正交范围查找算法;然后详细描述了mKD-GBWT采用多棵kd-树作为其正交范围查找结构的原理及其模式匹配算法;分析了mKD-GBWT索引的时空性能,最后高效地实现了mKD-GBWT索引;并针对各类数据(如分布均匀数据、有偏数据、高度重复数据等)进行了较为广泛的实验,实验表明,与2015年最新外存压缩索引GBWT相比,所提算法在实际中不仅存储空间高效,而且具有良好的I/O性能。在工程方面,为了降低索引大小,本文提出采用crit-bit树作为串B-树中一个节点的数据结构,利用串B-树存储静态数据的特点将串B-树按照从左至右自底向上的顺序存储,避免了显式存储串B-树每个内部节点中的孩子指针,同时改进了kd-树的外存序列化算法提高了存储kd-树的磁盘页的空间利用率。为了提高查询效率,本文首先改进了串B-树的后缀范围查找算法避免了对搜索过程中重迭路径上节点的重复访问,然后利用mKD-GBWT模式匹配过程中所需要查询的正交范围只会位于一个划分的子区间内的特点,提出采用多棵kd-树作为mKD-GBWT索引的正交范围查找结构,每棵kd-树仅存储部分点集,这样在进行正交范围查找时只需要在其中一棵kd-树中进行,从而提高了查询效率。本文还对串B-树和kd-树的构造算法进行了改进,利用文本的最长公共前缀信息减少串B-树的构造时间,改进了kd-树的内部节点中点的分割算法使得构造的内存kd-树更适合磁盘序列化操作。(本文来源于《西安电子科技大学》期刊2015-11-01)
卢喜利,周月鹏[5](2015)在《基于全文索引技术的超市商品的关联分析》一文中研究指出超市的货架摆放、商品陈列,在一定程度上影响了商品的销售。通过对销售数据的分析,挖掘出商品之间的关联程度,进而确定商品在货架上的摆放位置,便于购物者就近选择,有利于提高超市的销售额。虽然,在分析数据过程中可以通过精确查询得到某两种或几种商品之间的关系,但同类型商品和某种其它商品之间的关系就不能通过精确查询得到。全文索引技术是目前搜索引擎的关键技术,由于商品种类繁多,在分析过程中使用全文索引技术可以减少系统开销,提高检索效率和精准度。(本文来源于《微型电脑应用》期刊2015年06期)
鲁磊[6](2015)在《全文索引在地理军情数据库中的应用》一文中研究指出本文从地理空间情报查询出发,重点对情报文档管理、全文索引构建进行研究探讨。最后,利用SQL Server,建立地理军情数据库。实现地理军情数据的快速检索。(本文来源于《统计与管理》期刊2015年05期)
吴国泉[7](2015)在《基于HBase的全文索引及检索技术的研究》一文中研究指出大数据时代的来临,针对大数据的全文检索技术成为了研究的热点。HBase是目前流行的支持海量数据实时读写、支持非结构化存储的Nosql数据库。但是它只支持基于主键的查询,并不支持全文检索。如何基于HBase设计全文检索方案,解决全量及增量数据索引的创建、存储,并实现高效的数据检索是本文研究的重点。通过对现有的信息检索技术和HBase的研究,提出了一个基于HBase的全文检索的方案。本方案设计了在HBase中创建全量及增量索引的方法,并提出了基于HBase索引表进行检索的技术方案。首先采用MapReduce分布式模型创建倒排索引,然后将索引存放至HBase的索引表中,最后设计检索方案来完成对HBase索引表的检索,并且利用Coprocessor来完成增量数据的更新。针对全文检索的性能进一步研究了Hadoop调优、索引存储和检索策略的优化方案。分析MapReduce任务运行时的性能瓶颈,对Hadoop参数进行调优,提高了任务执行效率;采用压缩的方式优化索引存储,有效的减少了索引文件和索引表的大小;采用过滤器的方式过滤掉权重值较低的文档,提高了检索效率。通过实验表明本方案能够有效的创建、存储索引,高效的对数据进行检索,并且支持增量数据更新。进一步的研究工作考虑对检索精度进行改进。(本文来源于《华中科技大学》期刊2015-05-01)
李胜东,吕学强,孙军,施水才[8](2015)在《Lucene全文索引效率的改进》一文中研究指出Lucene是一个优秀的开源的全文搜索技术框架,按照框架规范,扩展它的功能,可以将它很好地嵌入到搜索引擎中。研究了Lucene的索引结构和原理,通过改进增量索引、增大索引缓冲区的大小和减少往磁盘上写索引文件的频率,达到提高创建索引效率的目的。设计了全文检索实验,实验结果表明,该方法使10 000篇文档创建索引的平均效率比前人方法提高了19.5%,具有良好的应用前景。(本文来源于《山东大学学报(理学版)》期刊2015年07期)
许琦[9](2014)在《面向本地数据的插件式全文索引工具软件研究与开发》一文中研究指出探讨了本地数据的全文检索需求,提出了一个方便用户快速准确检索本地数据的解决方案。将本地数据按照文档格式分成text文档、html文档、pdf文档和office文档等四类。对于非纯文本格式的文档:调用htmlParser的核心词法分析器对html文档进行了四级封装,识别html文档中的标签;通过pdfBox提供的特殊对象LucenePDFDocument,将pdfBox和Lucene全文搜索引擎整合;利用POI的各个功能组件解析并提取office文档的标题、主题、摘要、关键词、访问和修改打印的日期时间以及正文等内容。最后应用Lucene工具包的IndexWriter类按照"关键词→文档"倒排索引模式建立全文索引库。(本文来源于《计算机与数字工程》期刊2014年08期)
肖洋,朱青,吴粤皖[10](2015)在《基于压缩全文索引的演变图查询》一文中研究指出演变图中含有大量的时间和空间信息,其中某些空间信息随着时间的推移表现出相似的演变规律。给出了一种演变图查询模型,可以挖掘出在相同时间范围内具有相同变化规律的演变子图。但是演变图的规模往往是巨大的,当需要对其进行多次查询时,每次遍历整个演变图将带来非常高的查询代价,而现有的基于枚举的哈希索引算法又使得预处理过程拥有相当大的时间和空间开销,为了减少对大规模演变图的预处理代价,将压缩的全文索引技术应用于演变图,它基于涡轮转换和后缀数组。在构建后缀数组时,给出了两种不同的线性算法,确保了预处理过程的稳定性。通过在Facebook、Enron邮件系统以及模拟数据集上的实验,评估了该算法的可行性、效率以及可扩展性。(本文来源于《计算机工程与应用》期刊2015年02期)
全文索引论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
信息化产业技术的飞速发展极大的改变了人们获取利用信息的方式,人们越来越多的是通过电子文件进行传播信息。针对煤炭这一特定领域而言,各类电子煤质文件呈爆炸式增长。面对当前浩瀚的信息海洋,如何帮助用户有效管理煤质文件信息以及如何帮助用户快速甄别、提取有用信息成为煤炭企业面临的重要难题。本文提出一种基于倒排索引与B+树索引的混合全文索引模型。倒排索引在实现上相对简单,对短语的查询具有相对优势,检索速度快,但对数字型的数据并不敏感,因此在数字型数据的检索上不能快速且准确的检索相关信息。而B+树索引能够实现随机、顺序的处理,其所有数据全部在叶子结点保存,加之B+树本身具有的有序性,使得它非常适合于数字型数据的索引。而对煤质文件特点分析可得:煤质文件数据类型主要有字符型和数字型。本文结合倒排索引与B+树索引的优点提出了混合全文索引结构,并将其应用于煤质文件管理系统中。混合全文索引思想为:首先针对煤质文件的数据类型建立B+树索引;再根据不同数据的类型为其建立相应的索引结构,具体可分为两种:如果为字符型数据就为其建立倒排索引,数字型则为其建立B+树索引。设计并实现了煤质文件管理系统,采用目前主流叁大框架(Spring、Struts2,Hibernate)技术,结合Oracle数据库,实现了煤质文件基本信息管理、用户权限管理、文件上传、文件下载、文件共享、文件多维度分类、文件安全控制、文件检索等功能。其中,安全控制模块提出一种文件使用记录追踪方案,保存所有涉密文件使用记录并得到每个文件对应的记录项,并对记录项部分元素(读写操作或常用主机IP)进行监控分析,针对可能发生的安全隐患给予警示,以此保证涉密文件的安全性。对已实现的煤质文件管理系统进行功能性测试,结果表明系统运行良好。对混合全文索引实现的文件检索模块进行的实验表明,与单独的倒排索引或者B+树索引相比,混合全文索引结构在索引创建占用的存储空间和文件检索时间性能上有显着的优势。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
全文索引论文参考文献
[1].白福均.云环境下全文索引压缩关键技术研究[D].贵州大学.2018
[2].李芙蓉.基于混合全文索引的煤质文件管理系统研究[D].西安科技大学.2016
[3].胡吉颖,吴振新,谢靖,张智雄.构建面向WARC文档的全文索引系统[J].现代图书情报技术.2016
[4].赵玉豪.外存全文索引算法的研究[D].西安电子科技大学.2015
[5].卢喜利,周月鹏.基于全文索引技术的超市商品的关联分析[J].微型电脑应用.2015
[6].鲁磊.全文索引在地理军情数据库中的应用[J].统计与管理.2015
[7].吴国泉.基于HBase的全文索引及检索技术的研究[D].华中科技大学.2015
[8].李胜东,吕学强,孙军,施水才.Lucene全文索引效率的改进[J].山东大学学报(理学版).2015
[9].许琦.面向本地数据的插件式全文索引工具软件研究与开发[J].计算机与数字工程.2014
[10].肖洋,朱青,吴粤皖.基于压缩全文索引的演变图查询[J].计算机工程与应用.2015