分布式并行索引论文_柳陆

导读:本文包含了分布式并行索引论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:索引,分布式,空间,数据库,时空,数据,增量。

分布式并行索引论文文献综述

柳陆[1](2016)在《分布式内存数据库数据并行快速加载与索引技术》一文中研究指出随着互联网行业的高速发展,以及“大数据”、“云计算”等概念的普及,数据的爆炸性增长在大容量、多样性和高增速方面,全面考验着现代企业的数据处理能力。对于已经成熟的传统数据库技术来说,计算机网络技术的快速发展以及行业应用的扩展需求使得传统数据库技术在很多使用场景下受到了很多新的挑战。在这个形势下,分布式数据库和内存数据库的概念应运而生。分布式数据库相对于传统集中式的数据库具有良好的灵活性与可扩展性、在处理海量数据时在性能上和可靠性上有着更大的优势。而内存数据库则是将要处理的数据存储在内存而不是磁盘中,因此其读写性能要比磁盘访问高出几个数量级,从而极大地提高性能。将分布式和内存访问结合在一起的分布式内存数据库可以兼顾可扩展性和高速访问两个特点,在当前形势下为用户提供更多的功能。相比于磁盘来说,内存是很宝贵的资源,因此在大部分场景下分布式内存数据库在生产业务中主要扮演的是计算平台的角色,并不作为存储数据的主数据库,其数据很多还是存储在传统磁盘数据库中。如何将存储在传统磁盘数据库中的海量结构化数据快速加载到内存中是分布式内存数据库首先要解决的问题。针对这个问题,本论文提供了一个将存储在磁盘型数据库中的结构化数据快速加载到分布式内存数据库系统中的解决方案。首先针对原有的结构化数据提供了一套新式的快速索引模型,能够实现数据的高效存储和快速查询。然后通过分布式系统的方式把原始的结构化数据建立成内存数据索引并加载到分布式内存数据库存储引擎中。除此之外,该解决方案能够支持用户喜好数据的数据过滤,并提供增量数据更新功能。论文的主要研究工作包含以下几点:1、设计出一种针对内存数据库的内存数据索引模型,实现数据的高效存储和快速查询。该索引模型基于列式数据存储,可以对原有数据进行压缩并提供快速的查询效率。2、根据内存数据索引模型,设计分布式内存数据库数据并行快速加载方案,将存储在外部数据库中的传统结构化数据加载到分布式内存数据库引擎中。该方案能根据用户喜好对数据进行过滤,然后创建内存数据索引,然后根据一定策略将数据加载到分布式内存数据库引擎中。3、在数据全量加载的基础上设计数据增量加载策略,根据一定的策略进行数据的增量加载,保持分布式内存数据库系统与外部数据库中的数据同步。4、采用分布式架构进行海量结构化数据的并行读取,可以提高数据处理速度、缓解节点负载压力和提高节点安全性,提高数据加载的速度和稳定性。(本文来源于《电子科技大学》期刊2016-03-28)

郑祖芳[2](2014)在《分布式并行时空索引技术研究》一文中研究指出现实世界是一个永恒变化的四维时空,每时每刻都在持续不断地产生着大量的时空数据。时空数据可以帮助人类了解历史、掌握现在、预测将来,有助于提高人类对四维时空中各种存在与状态演变的洞察、感知与预测能力。如何有效地存储和管理这些大规模的时空数据集,是以分布式协同、高性能计算、时空数据流处理为核心的新一代空间信息系统必须解决的关键技术问题之一。新一代空间信息系统中的四维时空数据库问题刚刚引起关注,各种研究也刚刚开始,海量时空数据管理中还存在着诸如多层次时空缓存、四维时空数据快速检索、调度等技术瓶颈问题,而高效时空索引是这些问题有效解决的基础。在当前多核计算机已经成为常规计算设备的情况下,时空数据库领域亟需解决的关键科学技术问题之一,是如何在分布式多核计算环境中构建合理的分布式时空索引架构、降低时空索引的并发控制成本。目前,时空索引的研究大多针对的是集中式索引,分布式时空索引和并行时空索引两个方面的研究都较少,并且是作为两个独立的内容进行研究的。未见直接针对分布式并行时空索引的一体化研究。为降低时空索引的并发控制成本,现有的研究成果多专注于并发控制算法本身,而缺乏对时空索引结构本身的可并行化进行研究。常用的树型时空索引的层次结构不具并行性,不利于并行算法的实现,存在并行计算瓶颈。在频繁更新的时空数据库中,并行时空索引的一体化与时空索引结构并行化缺失的问题,严重阻碍了大数据时代时空数据库中分布式并行缓存机制、并行预调度与调度机制、大规模时空分析等一系列问题的有效解决,成为该领域亟需解决的重大难题。因此,亟需设计具有可并行化结构的时空索引方法,并对时空索引的分布式和并行化进行一体化研究。为此,本文以国家高技术研究发展计划(863计划)“十二五”主题项目课题“实时GIS关键技术及软件平台”(2012AA121401)、“十一五”重点项目课题“叁维空间数据管理系统与分析组件研发”(2008AA121602)和国家自然科学基金项目“地上下一体化叁维动态广义表空间索引方法”(41101368)相关研究成果为基础,对时空索引的分布式和并行化进行了一体化研究,提出了适合分布式并行计算环境的分布式并行时空索引DPSI多层次理论架构;对时空索引结构本身并行化机制进行了研究,提出了具有可并行化结构、适用于DPSI局部索引的基于间隔关系算子的并行时空索引IPSI方法,突破了高维度下(本文主要针对四维时空)树形索引的层次结构对并行算法实现的局限性,在细化时空索引并行粒度的同时降低了并发控制开销。设计实现了主从模式下的分布式并行时空索引MSDPSI和对等模式下的分布式并行时空索引PPDPSI。实验表明,本文研究成果有效提升了分布式并行计算环境下并行时空索引性能。论文的主要研究工作如下:(1)综述并剖析了与分布式并行时空索引技术相关的前人研究工作。本文首先探讨了分布式并行时空索引的研究目标与意义,梳理了分布式并行时空索引的技术脉络,然后按其技术发展脉络,分别评述了集中式时空数据索引、并行时空数据索引和分布式时空数据索引等叁类时空索引的发展现状及存在问题。针对所存在的问题,提出了本文的主要研究内容、研究方法和技术路线。同时,分析、讨论了与时空索引相关的地学时空及其表达方法、时空对象的主要特征、时空查询的分类等相关因素。(2)提出了多层次分布式并行时空索引架构(DPSI),设计实现了主从模式和对等模式下的分布式并行时空索引方法。提出了DPSI的时空数据划分方法以及基于此划分的DPSI的形式化描述。DPSI的全局架构支持主从和对等两种模式。设计实现了主从模式下的DPSI (MSDPSI)和对等模式下的DPSI (PPDPSI)的查询算法和更新维护算法。实验表明,MSDPSI和PPDPSI都具备良好的分布式时空查询性能。两者比较而言,MSDPSI比PPDPSI具有更好的更新维护性能。但是,MSDPSI的网络自治性和可扩展性弱于PPDPSI。随着数据规模的增大,MSDPSI的主控服务器存在性能瓶颈。(3)提出了基于间隔关系算子的并行时空索引(IPSI)方法。对IPSI中的时空数据与间隔数据的表达方法进行了理论、系统研究,给出了时空数据到间隔数据的转换关系。基于该转换关系,提出了时空查询到可并行的间隔关系算子的转换方法,实现了基于间隔关系算子的时空查询表达,为基于间隔关系算子的并行时空索引和并行时空查询奠定了理论基础。研究提出了IPSI的算法原理和数据结构,设计实现了IPSI的更新算法和查询算法。实验结果表明,在多核并行计算环境下,IPSI具有优良的查询、更新性能。(4)基于DPSI设计开发了一个分布式并行时空数据引擎(DPSDE)和一个时空数据库管理系统的原型系统。提出了分布式并行时空数据引擎(DPSDE)的系统架构,讨论了该架构中缓存、索引及调度策略之间的关系,设计并实现了基于该架构的时空数据调度策略。基于DPSDE设计开发了一个时空数据库管理原型系统。该原型系统已经在多个城市级别的时空数据管理中使用,证明了DPSI的有效性和实用性。分布式并行时空索引主要有两个突破方向,一个是采用先进高效的并发控制技术实现索引的分布式并行特征,另一个就是尽量使索引本身成为可分布式并行结构,从而以尽可能少的并发控制成本实现尽可能多的分布式并行特征。本文的研究工作主要集中在第二个方面。在上述研究工作中,主要有以下创新性成果:(1)提出了多层次自适应分布式并行时空索引DPSI架构及算法针对不同的网络环境和并行计算环境大规模时空数据管理难点问题,设计提出了多层次的自适应分布式并行时空索引DPSI架构。该架构将网络计算资源分为全局网络、网络节点、CPU、内核等多个层次。以并行间隔关系算子为底层构建的DPSI架构,具备高效调度管理上至全局网络下至并行计算内核的能力,可以根据网络节点的并行计算能力、承载数据量等信息自适应地调整网络节点动态选择,充分发挥了分布式环境下单个节点的并行计算能力,提高了分布式并行时空索引整体性能。针对现有分布式时空索引大多只顾及到了网络分布式特征,而往往忽略了网络节点的并行计算能力的充分利用问题。在DPSI架构下,进行了分布式并行一体化研究,提出了主从分布式并行时空索引MSDPSI方法和对等分布式并行时空索引PPDPSI方法。这两种方法针对不同网络环境,采取主从结构和对等结构分别构建分布式全局索引,局部索引则采用IPSI方法,具备节点动态管理能力,将网络的分布性与节点的并行计算能力有机整合,增强了分布式并行时空索引的自治性和可扩展性,提高了分布式并行时空索引的整体性能。(2)提出了基于间隔关系算子的并行时空索引IPSI方法针对多核并行计算环境下树形时空索引对细粒度并行计算的限制,提出了具有并行化结构的基于间隔关系算子的并行时空索引IPSI方法。IPSI的时空查询与并行间隔关系算子转换方法将时空数据查询转化为可并行的间隔关系算子操作,然后将间隔数据集映射到可并行的不同维度的间隔点集平面。IPSI采用统一的二维平面元素求交运算实现各种间隔关系算子,从而在多核计算环境下以统一接口实现多种时空查询。IPSI根据间隔点集平面递归叁角化方法构建不同维度的间隔数据虚拟二叉树索引。该二叉树只记录叶子结点,减少了节点访问次数,提高了二叉树索引查询性能。同时,由于间隔数据的结束值恒大于或等于其开始值,间隔点集平面只需要考虑上叁角区域而不用考虑整个平面范围,这也大大缩减了平面元素求交计算量。基于多棵虚拟二叉树构建的IPSI,有效解决了时空数据耦合度高、可并行性差的问题,可充分发挥了多核并行计算优势,提高了并行时空索引性能。本文的研究成果为分布式并行计算环境下的海量叁维、四维或更高维的时空数据的快速检索提供了可行、通用、高效的并行时空索引解决方案。后续研究将专注于分布式并行计算环境下时空索引的代价模型研究和时空数据安全问题研究。(本文来源于《中国地质大学》期刊2014-03-01)

唐华姣,何友全,徐小乐,徐澄[3](2011)在《基于Lucene的分布式并行索引》一文中研究指出索引技术是搜索引擎的核心技术之一,索引技术的好坏直接影响到搜索引擎的查准率以及对用户的响应速度。Lucene是一个优秀的全文检索引擎架构,采用高度优化的倒排索引结构并支持增量索引。但在实际应用Lucene时存在一个值得关注的问题:随着被索引文件的增多,索引时间成线性增长,导致建索引的过程会影响搜索体验;在搜索引擎应用中,当索引文件量达到一定等级时,搜索引擎就遇到性能瓶颈。在深入分析和研究Lucene索引机制的基础上,采用以内存为缓冲区建索引文件的分布式并行索引技术形成了一个可扩展的搜索引擎解决方案,极大地缓解了建索引给搜索带来的瓶颈问题。(本文来源于《计算机技术与发展》期刊2011年02期)

于波,郝忠孝[4](2010)在《基于DPR树的分布式并行空间索引机制的研究》一文中研究指出针对分布式并行环境下海量空间数据管理与并行化处理的效率问题,以提高分布式并行空间数据的查询效率为目的,根据现有的空间索引结构与并行化技术,提出一种新的分布式并行空间索引结构——DPR树。DPR树是空间索引技术与并行化技术优化结合的成果。DPR树在数据的总体划分与部分查询中所采用的均是基于高效处理技术。它在原有的并行Master-client R树的基础上进行改进,采用了HCSDP数据划分技术,并将其应用到分布式环境下,且每个节点机中各子树采用了改进的R树——R*Q树。通过性能分析表明,该索引结构具有高效的查询性能。(本文来源于《计算机技术与发展》期刊2010年06期)

张靖宇,梁久祯[5](2010)在《中文网页分布式并行索引的设计与实现》一文中研究指出Internet搜索引擎主要由搜索器、索引器和用户界面叁部分组成。通过分析索引数据库在搜索引擎时效性及有效性方面的重要作用,提出一种多进程并行分词建立索引的方法。以中文网页数据库为基本语料库,采用正向最大匹配法进行中文分词,并用一种高效的倒排索引方式存储索引表。这种方法能够加快索引建立与更新的速度,并且在空间效率上也有较大的提高。(本文来源于《微计算机信息》期刊2010年15期)

章剑涛[6](2010)在《并行数据仓库环境下基于B~+树的分布式索引研究》一文中研究指出随着计算机技术的飞速发展,数据的规模越来越大,查询也趋于复杂,基于并行数据仓库的分布式索引以其高性能而成为解决这类复杂问题的有效方法,并且分布式索引在普适计算、网格计算、数据仓库和数据挖掘等研究领域都有着重要的应用。在这种情况下,本文对并行数据仓库环境下基于B~+树的分布式索引进行了研究和探索。首先,为使B~+树索引适应分布式环境,基于B~+树和hash表结构,提出一种适合于分布式并行环境的索引树结构RDB~+-Tree,在该索引树结构中引入节点副本策略,并采用版本控制和时间控制相结合的方法,给出一种并发控制算法VTC-RDB~+算法来解决锁机制的延时严重问题,提高系统的并行处理能力。其次,根据RDB~+-Tree的结构特点和副本策略,对启动者策略和发送者策略进行改进,提出一种基于启动者动态改变和阈值自适应的高效动态负载平衡策略SRLB。该策略根据分布式并行环境中各计算机的负载状态以及接受者启动策略和发送者启动策略的优缺点,动态改变负载阈值和启动者策略。文中研究了负载平衡的四个关键问题,即负载的分配、负载的探测、负载状态的定义以及均衡策略,给出适合该策略的相关问题解决办法和结构模型。最后,为了验证RDB~+-Tree索引机制的有效性,将RDB~+-Tree索引机制与集中式处理方法在吞吐量、响应时间、资源利用率和负载平衡度四个方面做性能对比模拟实验,实验结果验证了本文所提出的RDB~+-Tree索引机制处理大规模数据时,在缩短系统响应时间、平衡负载以及减小系统内部通信量方面具有一定的优势。(本文来源于《燕山大学》期刊2010-05-01)

于波[7](2010)在《分布式并行空间索引机制的研究》一文中研究指出目前,随着信息技术的不断发展,空间数据库已广泛地应用于GIS,CAD、机器人、计算几何、医学图像、多媒体系统和计算机视觉等领域。随着数字地球、数字城市、数字流域等概念的提出与应用,对空间数据的存储与处理提出了更高的要求。空间索引是提高空间数据库性能的关键技术,它直接影响空间数据的存储效率以及空间检索的性能。研究空间索引技术并寻求更好的空间数据索引机制,己成为当前计算机领域及其它应用领域的一个热点。本文从当前业界普遍认同的主流空间数据库索引技术入手。首先,详尽地阐述各种空间索引技术的基本原理和主要方法,并且剖析了各种空间索引技术的适用性特点和优劣势。其次,介绍了分布式理论、并行系统理论、分布式空间数据库的特点及分布式环境下的并行空间数据库的基本原理与结构。随后,构造出了分布式环境下的一种并行索引树-分布式并行R树,简称DPR树。DPR树是在原有的并行Master-client R树的基础上进行改进,采用了HCSDP数据划分技术,并将其应用到分布式环境下,且每个节点机中各子树采用了改进的R-树—R*Q树。DPR树是基于现有的空间索引结构与并行化等技术尝试性提出的一种适用于分布式并行空间数据库的并行索引树,该索引树适用于海量数据或总体空间数据所占比率较大的环境中,并且具有明显的查询高效性。文中在对DPR模型进行分析测试时,将DPR树与文献中的DPslR+树的查询性能进行了分析对比,因为这两种索引结构采用的研究思路十分相似。通过平均查询时间的测试对比表明,DPR树的查询效率要比DPslR+树高一倍左右。同时,DPR树索引结构不仅具有较为高效的查询效率,并且它还具有占用内存的空间小、数据存储容量均匀和磁盘访问率低等特点。(本文来源于《哈尔滨理工大学》期刊2010-03-01)

梁正友,陈涛[8](2009)在《基于ProActive的分布式并行网页索引算法》一文中研究指出针对单机网页索引器索引速度慢和串行倒排索引算法具有可并行处理的特性,提出分布式并行倒排索引算法。该算法应用分布式并行计算ProActive中间件和单机索引Lucene包,设计和实现一个在机群系统下工作的分布式并行网页索引器。实验结果表明,该索引器有较高的索引性能和较好的扩展性能。(本文来源于《计算机工程》期刊2009年20期)

赵园春,李成名,赵春宇[9](2007)在《基于R树的分布式并行空间索引机制研究》一文中研究指出为提高分布式并行计算环境下海量空间数据管理与并行化处理的效率,基于并行空间索引机制的研究,设计一种多层并行R树空间索引结构。该索引结构以高效率的并行空间数据划分策略为基础,以经典的并行计算方法论为依据,使其结构设计在保证能够获得较好的负载平衡性能的前提下,更适合于海量空间数据的并行化处理。以空间范围查询并行处理的系统响应时间为性能评估指标,通过实验证明并行空间索引结构具有设计合理、性能高效的特点。(本文来源于《地理与地理信息科学》期刊2007年06期)

左朝树,刘心松,陈小辉,顾攀[10](2006)在《DPsIR~+:一种基于动态空间槽的分布式并行空间索引树》一文中研究指出空间索引是空间数据库的关键组成部分,其性能的优劣直接决定着空间数据操作的效率。为此,在分析了现有各种空间索引的基础上,将分布并行处理技术与空间索引相融合,提出了一种 DPsIR~+树。DPsIR~+树借助繁衍和返祖,动态分割空间槽,并将它们映射到多个节点机上。每个节点机再将其对应空间槽中的空间对象组织成 R 树,并将R树分裂成多个残枝,将残枝并行存入本地 MultiDisk 中;在内存中则按 R-link 组织空间对象,按 R~+处理节点溢出。实验结果表明 DPsIR~+树具有良好的查询特性。(本文来源于《计算机科学》期刊2006年02期)

分布式并行索引论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

现实世界是一个永恒变化的四维时空,每时每刻都在持续不断地产生着大量的时空数据。时空数据可以帮助人类了解历史、掌握现在、预测将来,有助于提高人类对四维时空中各种存在与状态演变的洞察、感知与预测能力。如何有效地存储和管理这些大规模的时空数据集,是以分布式协同、高性能计算、时空数据流处理为核心的新一代空间信息系统必须解决的关键技术问题之一。新一代空间信息系统中的四维时空数据库问题刚刚引起关注,各种研究也刚刚开始,海量时空数据管理中还存在着诸如多层次时空缓存、四维时空数据快速检索、调度等技术瓶颈问题,而高效时空索引是这些问题有效解决的基础。在当前多核计算机已经成为常规计算设备的情况下,时空数据库领域亟需解决的关键科学技术问题之一,是如何在分布式多核计算环境中构建合理的分布式时空索引架构、降低时空索引的并发控制成本。目前,时空索引的研究大多针对的是集中式索引,分布式时空索引和并行时空索引两个方面的研究都较少,并且是作为两个独立的内容进行研究的。未见直接针对分布式并行时空索引的一体化研究。为降低时空索引的并发控制成本,现有的研究成果多专注于并发控制算法本身,而缺乏对时空索引结构本身的可并行化进行研究。常用的树型时空索引的层次结构不具并行性,不利于并行算法的实现,存在并行计算瓶颈。在频繁更新的时空数据库中,并行时空索引的一体化与时空索引结构并行化缺失的问题,严重阻碍了大数据时代时空数据库中分布式并行缓存机制、并行预调度与调度机制、大规模时空分析等一系列问题的有效解决,成为该领域亟需解决的重大难题。因此,亟需设计具有可并行化结构的时空索引方法,并对时空索引的分布式和并行化进行一体化研究。为此,本文以国家高技术研究发展计划(863计划)“十二五”主题项目课题“实时GIS关键技术及软件平台”(2012AA121401)、“十一五”重点项目课题“叁维空间数据管理系统与分析组件研发”(2008AA121602)和国家自然科学基金项目“地上下一体化叁维动态广义表空间索引方法”(41101368)相关研究成果为基础,对时空索引的分布式和并行化进行了一体化研究,提出了适合分布式并行计算环境的分布式并行时空索引DPSI多层次理论架构;对时空索引结构本身并行化机制进行了研究,提出了具有可并行化结构、适用于DPSI局部索引的基于间隔关系算子的并行时空索引IPSI方法,突破了高维度下(本文主要针对四维时空)树形索引的层次结构对并行算法实现的局限性,在细化时空索引并行粒度的同时降低了并发控制开销。设计实现了主从模式下的分布式并行时空索引MSDPSI和对等模式下的分布式并行时空索引PPDPSI。实验表明,本文研究成果有效提升了分布式并行计算环境下并行时空索引性能。论文的主要研究工作如下:(1)综述并剖析了与分布式并行时空索引技术相关的前人研究工作。本文首先探讨了分布式并行时空索引的研究目标与意义,梳理了分布式并行时空索引的技术脉络,然后按其技术发展脉络,分别评述了集中式时空数据索引、并行时空数据索引和分布式时空数据索引等叁类时空索引的发展现状及存在问题。针对所存在的问题,提出了本文的主要研究内容、研究方法和技术路线。同时,分析、讨论了与时空索引相关的地学时空及其表达方法、时空对象的主要特征、时空查询的分类等相关因素。(2)提出了多层次分布式并行时空索引架构(DPSI),设计实现了主从模式和对等模式下的分布式并行时空索引方法。提出了DPSI的时空数据划分方法以及基于此划分的DPSI的形式化描述。DPSI的全局架构支持主从和对等两种模式。设计实现了主从模式下的DPSI (MSDPSI)和对等模式下的DPSI (PPDPSI)的查询算法和更新维护算法。实验表明,MSDPSI和PPDPSI都具备良好的分布式时空查询性能。两者比较而言,MSDPSI比PPDPSI具有更好的更新维护性能。但是,MSDPSI的网络自治性和可扩展性弱于PPDPSI。随着数据规模的增大,MSDPSI的主控服务器存在性能瓶颈。(3)提出了基于间隔关系算子的并行时空索引(IPSI)方法。对IPSI中的时空数据与间隔数据的表达方法进行了理论、系统研究,给出了时空数据到间隔数据的转换关系。基于该转换关系,提出了时空查询到可并行的间隔关系算子的转换方法,实现了基于间隔关系算子的时空查询表达,为基于间隔关系算子的并行时空索引和并行时空查询奠定了理论基础。研究提出了IPSI的算法原理和数据结构,设计实现了IPSI的更新算法和查询算法。实验结果表明,在多核并行计算环境下,IPSI具有优良的查询、更新性能。(4)基于DPSI设计开发了一个分布式并行时空数据引擎(DPSDE)和一个时空数据库管理系统的原型系统。提出了分布式并行时空数据引擎(DPSDE)的系统架构,讨论了该架构中缓存、索引及调度策略之间的关系,设计并实现了基于该架构的时空数据调度策略。基于DPSDE设计开发了一个时空数据库管理原型系统。该原型系统已经在多个城市级别的时空数据管理中使用,证明了DPSI的有效性和实用性。分布式并行时空索引主要有两个突破方向,一个是采用先进高效的并发控制技术实现索引的分布式并行特征,另一个就是尽量使索引本身成为可分布式并行结构,从而以尽可能少的并发控制成本实现尽可能多的分布式并行特征。本文的研究工作主要集中在第二个方面。在上述研究工作中,主要有以下创新性成果:(1)提出了多层次自适应分布式并行时空索引DPSI架构及算法针对不同的网络环境和并行计算环境大规模时空数据管理难点问题,设计提出了多层次的自适应分布式并行时空索引DPSI架构。该架构将网络计算资源分为全局网络、网络节点、CPU、内核等多个层次。以并行间隔关系算子为底层构建的DPSI架构,具备高效调度管理上至全局网络下至并行计算内核的能力,可以根据网络节点的并行计算能力、承载数据量等信息自适应地调整网络节点动态选择,充分发挥了分布式环境下单个节点的并行计算能力,提高了分布式并行时空索引整体性能。针对现有分布式时空索引大多只顾及到了网络分布式特征,而往往忽略了网络节点的并行计算能力的充分利用问题。在DPSI架构下,进行了分布式并行一体化研究,提出了主从分布式并行时空索引MSDPSI方法和对等分布式并行时空索引PPDPSI方法。这两种方法针对不同网络环境,采取主从结构和对等结构分别构建分布式全局索引,局部索引则采用IPSI方法,具备节点动态管理能力,将网络的分布性与节点的并行计算能力有机整合,增强了分布式并行时空索引的自治性和可扩展性,提高了分布式并行时空索引的整体性能。(2)提出了基于间隔关系算子的并行时空索引IPSI方法针对多核并行计算环境下树形时空索引对细粒度并行计算的限制,提出了具有并行化结构的基于间隔关系算子的并行时空索引IPSI方法。IPSI的时空查询与并行间隔关系算子转换方法将时空数据查询转化为可并行的间隔关系算子操作,然后将间隔数据集映射到可并行的不同维度的间隔点集平面。IPSI采用统一的二维平面元素求交运算实现各种间隔关系算子,从而在多核计算环境下以统一接口实现多种时空查询。IPSI根据间隔点集平面递归叁角化方法构建不同维度的间隔数据虚拟二叉树索引。该二叉树只记录叶子结点,减少了节点访问次数,提高了二叉树索引查询性能。同时,由于间隔数据的结束值恒大于或等于其开始值,间隔点集平面只需要考虑上叁角区域而不用考虑整个平面范围,这也大大缩减了平面元素求交计算量。基于多棵虚拟二叉树构建的IPSI,有效解决了时空数据耦合度高、可并行性差的问题,可充分发挥了多核并行计算优势,提高了并行时空索引性能。本文的研究成果为分布式并行计算环境下的海量叁维、四维或更高维的时空数据的快速检索提供了可行、通用、高效的并行时空索引解决方案。后续研究将专注于分布式并行计算环境下时空索引的代价模型研究和时空数据安全问题研究。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

分布式并行索引论文参考文献

[1].柳陆.分布式内存数据库数据并行快速加载与索引技术[D].电子科技大学.2016

[2].郑祖芳.分布式并行时空索引技术研究[D].中国地质大学.2014

[3].唐华姣,何友全,徐小乐,徐澄.基于Lucene的分布式并行索引[J].计算机技术与发展.2011

[4].于波,郝忠孝.基于DPR树的分布式并行空间索引机制的研究[J].计算机技术与发展.2010

[5].张靖宇,梁久祯.中文网页分布式并行索引的设计与实现[J].微计算机信息.2010

[6].章剑涛.并行数据仓库环境下基于B~+树的分布式索引研究[D].燕山大学.2010

[7].于波.分布式并行空间索引机制的研究[D].哈尔滨理工大学.2010

[8].梁正友,陈涛.基于ProActive的分布式并行网页索引算法[J].计算机工程.2009

[9].赵园春,李成名,赵春宇.基于R树的分布式并行空间索引机制研究[J].地理与地理信息科学.2007

[10].左朝树,刘心松,陈小辉,顾攀.DPsIR~+:一种基于动态空间槽的分布式并行空间索引树[J].计算机科学.2006

论文知识图

分布式并行索引合并算法流程图“数字管道”总体架构分布式博客信息检索系统检索结果界面分布式索引集群框架分布式索引系统框架图结构示意图

标签:;  ;  ;  ;  ;  ;  ;  

分布式并行索引论文_柳陆
下载Doc文档

猜你喜欢