最近邻检索算法论文-邓理睿,包涵,陈靓,全成斌,赵有健

最近邻检索算法论文-邓理睿,包涵,陈靓,全成斌,赵有健

导读:本文包含了最近邻检索算法论文开题报告文献综述及选题提纲参考文献,主要关键词:近似近邻检索,组合量化,GPU,高维索引

最近邻检索算法论文文献综述

邓理睿,包涵,陈靓,全成斌,赵有健[1](2019)在《高维空间近邻检索的双层组合量化GPU加速算法》一文中研究指出在大规模视频、图像、文本检索等许多实际应用中,高维空间内海量数据的索引及近邻检索一直是难点和关键问题之一.传统的K-D树等树形索引方法在高维空间中容易陷入"维度灾难",而主流的哈希散列方法(如局部敏感哈希)空间复杂度较高,在大规模数据下难以应用.本文总结了近年来基于向量量化的检索算法的相关研究,提出了一种基于GPU优化的高维数据近似近邻检索算法,在组合量化算法的基础上融合双层索引树结构与局部子空间最优化思想,在提高算法准确率的同时针对GPU模型优化算法,极大改善了检索性能,在单张GPU上实现了十亿量级高维数据的高效近似近邻检索.(本文来源于《小型微型计算机系统》期刊2019年02期)

刘恒,姚宇,曾玲,陶攀[2](2018)在《应用多索引加法量化编码的近邻检索算法》一文中研究指出目的 海量图像检索技术是计算机视觉领域研究热点之一,一个基本的思路是对数据库中所有图像提取特征,然后定义特征相似性度量,进行近邻检索。海量图像检索技术,关键的是设计满足存储需求和效率的近邻检索算法。为了提高图像视觉特征的近似表示精度和降低图像视觉特征的存储空间需求,提出了一种多索引加法量化方法。方法 由于线性搜索算法复杂度高,而且为了满足检索的实时性,需把图像描述符存储在内存中,不能满足大规模检索系统的需求。基于非线性检索的优越性,本文对非穷尽搜索的多索引结构和量化编码进行了探索新研究。利用多索引结构将原始数据空间划分成多个子空间,把每个子空间数据项分配到不同的倒排列表中,然后使用压缩编码的加法量化方法编码倒排列表中的残差数据项,进一步减少对原始空间的量化损失。在近邻检索时采用非穷尽搜索的策略,只在少数倒排列表中检索近邻项,可以大大减少检索时间成本,而且检索过程中不用存储原始数据,只需存储数据集中每个数据项在加法量化码书中的码字索引,大大减少内存消耗。结果 为了验证算法的有效性,在3个数据集SIFT、GIST、MNIST上进行测试,召回率相比近几年算法提升4%~15%,平均查准率提高12%左右,检索时间与最快的算法持平。结论 本文提出的多索引加法量化编码算法,有效改善了图像视觉特征的近似表示精度和存储空间需求,并提升了在大规模数据集的检索准确率和召回率。本文算法主要针对特征进行近邻检索,适用于海量图像以及其他多媒体数据的近邻检索。(本文来源于《中国图象图形学报》期刊2018年05期)

杨杰[3](2018)在《图像检索中基于近似k-近邻图的近似最近邻搜索算法研究》一文中研究指出最近邻搜索作为一个基础性问题,广泛出现在数据库、机器学习、计算机视觉和信息检索等领域。最近邻搜索问题可以被简单定义为,给定查询向量和n个同维的候选向量,要求返回某种距离度量方式下距离查询向量最近的一个或多个候选向量。在许多现实应用中,精确算法往往需要高昂的时间和空间代价,而近似最近邻搜索则以牺牲一定的准确率为代价,显着地降低了对存储空间和查询时间的要求。近似最近邻搜索因其实用性,受到了广泛关注,许多算法相继被提出,包括基于空间分割、基于哈希、基于向量量化和基于近邻图四类算法。然而目前还没有通用的亚线性时间复杂度的近似最近邻搜索算法。在大数据时代,设计高质、高效的近似最近邻搜索算法具有重要的理论意义和实用价值。基于(近似)k-近邻图(k-NX图)的近似最近邻搜索算法是当前的主流算法,一般包括两个步骤:一是对候选向量离线构造k-NN图,二是基于k-NN图采用某种搜索策略返回查询结果。k-NN图的质量和搜索策略极大地影响了算法的效果和效率。本文对k-NN图的构造,以及爬山搜索(GNNS)算法做了改进。主要结果有:(1)发现爬山搜索算法存在冗余计算、收敛速度慢,提出一种改进的爬山搜索(E-GNNS)算法:即在每一轮迭代中,不只对第一个样本,而是对前k个样本都在k-NN图上进行扩展。实验表明,E-GNNS算法在搜索效率和平均召回率上获得了显着提升。(2)在爬山搜索种子点的选择上,采用基于RVQ编码的倒排索引来生成候选种子点,替代原方法的随机种子点。实验表明,在这一策略的支持下,E-GNNS算法能够在相似的搜索时间下,获得超10%的平均召回率的提升。(3)为克服k-NN图构造时效率低下、内存消耗严重的缺点,提出一个基于2-M树的轻量级的构造方法。实验表明,该方法能够在不牺牲后期搜索效果和效率的前提下,显着降低k-NN图构造的时间和内存消耗。(本文来源于《厦门大学》期刊2018-05-01)

高新[4](2018)在《基于哈希算法的大规模图像最近邻检索算法研究》一文中研究指出随着互联网的广泛普及和多媒体技术的迅速发展,各行各业积累的数据急剧增加,每天互联网上大量的多媒体数据需要被处理。在大数据时代,由于数据的爆发式增加,现代信息技术基础设施不得不处理如此庞大的数据库。事实上,与存储成本相比,在大型数据库中检索相关内容是一项更具挑战性的任务。特别是在搜索多媒体数据,例如音频,图像和视频的检索,在准确率和计算成本方面,可用的解决方案和实际需求之间存在着很大的差距。大规模图像检索技术通常对于存储空间和检索时间有着特殊的要求,近年来,哈希算法作为一种代表性的最近邻检索技术,已经成为了处理大规模图像检索问题的主流算法。哈希算法旨在将图像数据转换成哈希码,从而达到减少存储空间和缩短检索时间的目的。大量的研究也证明了哈希算法的有效性。本文将集中研究哈希算法现在的挑战,并且提出相应的解决方法。在已有的非监督哈希算法的研究中,在汉明码空间中保持原始空间数据的近邻关系(或者相似性)是很多论文通用的目标。然而,目前已有的哈希算法仅考虑原始空间的整体结构如样本对(又称二元组)邻接关系,却忽略了原始数据空间中存在的局部几何结构,而这种局部几何关系对于相似性检索至关重要。本文从保存原始空间中的样本对近似关系和局部线性结构的角度,提出了一种新的哈希算法框架,在这个框架中,通过稀疏编码的方式找到原始数据空间的局部线性结构;然后构造目标函数,实现在哈希空间中保存二元组的相似性关系,重构局部线性结构,最小化哈希码的量化误差的目的。在这种新型的哈希算法模型中,本文提出学习使用非对称哈希函数模型,从而能够更好的保存样本对相似性和原始空间的局部线性邻接关系,最后生成紧凑有效的哈希码。在标准数据集上的实验也证明了本文提出的算法在所有的对比试验中达到了最好的性能。基于深度学习的哈希算法可以同时进行特征学习和哈希函数学习,从而提升了图像检索性能。本文提出了一种新型的深度非对称哈希算法,用于监督哈希算法的学习。主要的思想是利用两个不同的深度卷积网络作为非线性哈希函数,共同联合训练,使网络对应输出的哈希码能够很好的诠释语义信息中包含的相似度关系。本文定义新的目标函数来保持图像之间成对的相似性信息。叁个数据集上的实验也证明了本文提出的模型在大规模图像检索方面具有最先进的性能。(本文来源于《电子科技大学》期刊2018-03-01)

石佳[5](2017)在《适用于最近邻检索的堆迭哈希量化算法》一文中研究指出目前,各种类型的信息数据呈爆炸型增长。传统信息处理技术正面对着前所未有的挑战。如何在海量高维数据中高效查找目标数据,是计算机领域的热门问题之一。近似最近邻检索是解决该问题的一种方案,它的主要思想是提出新的近似距离度量,检索在这种度量下和查询对象距离最近的数据对象。目前,许多近似最近邻算法陆续出现,且被应用于多个领域。乘积量化是解决此问题的有效方法之一,具有内存消耗低,查询效率高等优点。不过,乘积量化需建立量化中心的距离查询表,时间复杂度较高。针对此缺点有人提出了 k-means哈希量化,直接把向量数据量化为二进制码,且尽量保持数据的空间近邻结构。由于二进制码汉明距离的计算远远快于向量欧氏距离计算,此方法节省了存储空间和运行时间。然而它本质上是把一个高维超立方体放在原始空间内做迭代优化,若立方体维度较高,优化速度过慢,内存消耗也比较大。为此,本文提出了一种新的量化算法——堆迭哈希量化算法。若要提高二进制码对于原始数据的近似程度,不能仅依靠增大超立方体的维度,可以通过利用多层低维立方体对原始数据进行逐步逼近,本文称之为堆迭哈希量化。该算法的核心思想为:第一步,在训练数据集上,用乘积量化将高维训练集划分为多个低维训练集;第二步,对低维子空间进行k-means哈希训练产生相应码本;第叁步,计算上一步之后的误差向量,将其作为新的训练数据进行码本训练,得到相应码本;重复第叁步直至达到给定误差或规定码本层数。再利用分层码本集对数据库的数据进行编码,得到多层哈希码。在线查询阶段,首先利用分层码本集对查询向量进行编码,然后通过汉明距离对查询向量和数据库里的向量进行近邻匹配。本文在公开的SIFT1M数据集和论文构造的SIFT17数据集上设计了实验,与经典的量化方法相比,本文算法在召回率、精确率、MAP值等性能指标上具有优势。(本文来源于《大连海事大学》期刊2017-12-01)

杨根茂[6](2015)在《基于哈希加速的近似最近邻检索算法研究》一文中研究指出随着时间的推移,最近邻检索算法在大数据处理相关问题上的重要性日益凸现。传统的暴力检索的方法是线性的,在处理大规模高维数据时过于低效。学者们提出的许多传统解决最近邻检索问题的方法,分别是从构建高效的数据结构(如层次聚类树结构和图结构)和使用哈希技术加速数据点间的距离计算这两个方面出发的。在本文中,我们提出了一个新颖的统一近似最近邻检索框架,将数据结构的高效剪枝能力与哈希的数据点距离快速计算进行融合,大幅提升了近似最近邻检索算法的性能。本文提出的基于哈希加速的近似最近邻检索框架,先使用哈希方法对数据点进行编码,然后采用两步排序策略,在原近似最近邻算法的数据结构上进行检索加速。我们进一步拓展与落实上述思路,提出了将哈希分别与层次聚类树结构、一般图结构融合的近似最近邻检索方法。同时,为了规避传统图最近邻检索算法中存在的局部最优问题,我们还提出一种使用松弛检索停止条件的图最近邻检索算法,使得算法拥有更长的检索扩展路径。在诸多大规模高维数据集上的实验结果表明,本文提出的近似最近邻检索框架相比于其他前沿的近似最近邻检索技术有明显的优势。(本文来源于《浙江大学》期刊2015-01-05)

俞峥峥,朱芳来,徐立云[7](2014)在《基于神经网络和最近邻相似度的实例检索算法》一文中研究指出为了提高实例推理系统中实例检索的效率与质量,提出了基于神经网络的、和最近邻相似度相结合的实例检索算法。首先,利用概率神经网络实现对实例的动态分类,以缩小实例检索范围;其次,介绍了实例属性相似度计算方法,针对各属性相似度的权重问题,给出主观和客观赋权方法;最后,给出截止阀总体设计方案生成的算例,验证方法的可行性。(本文来源于《机电一体化》期刊2014年11期)

林悦[8](2013)在《基于哈希算法的高维数据的最近邻检索》一文中研究指出最近邻检索是机器学习,数据挖掘,模式识别,计算机视觉等研究领域的基本问题。最近的研究表明,以局部敏感哈希算法为代表的哈希算法,可以有效地应用在大规模高维数据的最近邻检索问题中。目前许多的哈希算法都是基于随机投影算法的,这些算法都需要产生很多的哈希表(在实际中就是长的二进制编码)才能获得不错的检索效果。而另一类基于学习的哈希算法在哈希编码较短时性能不错,但是当编码长度增长时,性能的提高并不明显。针对这些不足,本文提出了两种新的哈希算法,分别为密度敏感哈希算法和压缩哈希算法。(i)密度敏感哈希算法可以看成是局部敏感哈希算法的一个扩展。通过挖掘数据的内在几何结构,密度敏感哈希算法避免了像局部敏感哈希算法那样完全随机地产生投影,而是依据具体数据的分布产生最合理的投影向量,并且通过最大熵原则从候选投影中选取最后产生二值哈希编码的投影;(ii)压缩哈希算法是把稀疏编码技术和压缩感知方面的理论结合在一起的新的哈希算法。基于近似理论中的积分算子,该算法首先引入了一个稀疏编码的过程,得到所有高维数据向量的稀疏表达。然后,利用压缩感知理论中的受限等距性质这一关键理论保证,有效地把高维稀疏向量投影到低维空间中去。理论分析和实验结果都表明本文提出的哈希算法可以处理大规模高维数据的最近邻检索,并且在性能上比主流算法有了显着的提高。(本文来源于《浙江大学》期刊2013-03-01)

汪善义,马煜,汪源源[9](2011)在《基于SIFT特征和近似最近邻算法的医学CT图像检索》一文中研究指出针对医学X线计算机断层(Computed Tomography,CT)图像,提出了一种基于尺度不变特征变换(Scale InvariantFeature Transform,SIFT)特征和近似最近邻算法的检索方法。首先通过SIFT算法得到图像的特征点和相应的特征向量,再采用近似最近邻算法进行SIFT特征向量的匹配搜索,得到数据库中与参考图像最相似的图像序列。实验结果表明,该法能检索到与目标图像细节相符的结果,大大提高了检索速度。与传统的基于纹理的检索方法相比,查准率和检索结果与目标图像的相似程度方面更佳,符合医学CT图像检索的要求。(本文来源于《生物医学工程学进展》期刊2011年03期)

胡萍[10](2008)在《基于人工神经网络和最近邻算法的实例检索模型》一文中研究指出为了提高实例推理过程中实例检索的效率和质量,提出了基于人工神经网络和最近邻算法相结合的实例检索模型。该模型在实例层次组织的基础上,首先,通过建立索引对实例进行分类,并用BP网络记忆每一类别下各实例的索引,在缩小检索范围内进行相似实例的初次匹配,以提高实例检索的效率;其次,由用户设定权值,采用最近邻算法进行二次匹配,通过实例的初次与二次匹配,将BP网络提取相似实例的客观性与用户的主观意愿结合起来,以提高实例检索的质量。最后,给出了摩托车总体设计方案生成的算例,验证了该方法的有效性与可行性。(本文来源于《组合机床与自动化加工技术》期刊2008年12期)

最近邻检索算法论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

目的 海量图像检索技术是计算机视觉领域研究热点之一,一个基本的思路是对数据库中所有图像提取特征,然后定义特征相似性度量,进行近邻检索。海量图像检索技术,关键的是设计满足存储需求和效率的近邻检索算法。为了提高图像视觉特征的近似表示精度和降低图像视觉特征的存储空间需求,提出了一种多索引加法量化方法。方法 由于线性搜索算法复杂度高,而且为了满足检索的实时性,需把图像描述符存储在内存中,不能满足大规模检索系统的需求。基于非线性检索的优越性,本文对非穷尽搜索的多索引结构和量化编码进行了探索新研究。利用多索引结构将原始数据空间划分成多个子空间,把每个子空间数据项分配到不同的倒排列表中,然后使用压缩编码的加法量化方法编码倒排列表中的残差数据项,进一步减少对原始空间的量化损失。在近邻检索时采用非穷尽搜索的策略,只在少数倒排列表中检索近邻项,可以大大减少检索时间成本,而且检索过程中不用存储原始数据,只需存储数据集中每个数据项在加法量化码书中的码字索引,大大减少内存消耗。结果 为了验证算法的有效性,在3个数据集SIFT、GIST、MNIST上进行测试,召回率相比近几年算法提升4%~15%,平均查准率提高12%左右,检索时间与最快的算法持平。结论 本文提出的多索引加法量化编码算法,有效改善了图像视觉特征的近似表示精度和存储空间需求,并提升了在大规模数据集的检索准确率和召回率。本文算法主要针对特征进行近邻检索,适用于海量图像以及其他多媒体数据的近邻检索。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

最近邻检索算法论文参考文献

[1].邓理睿,包涵,陈靓,全成斌,赵有健.高维空间近邻检索的双层组合量化GPU加速算法[J].小型微型计算机系统.2019

[2].刘恒,姚宇,曾玲,陶攀.应用多索引加法量化编码的近邻检索算法[J].中国图象图形学报.2018

[3].杨杰.图像检索中基于近似k-近邻图的近似最近邻搜索算法研究[D].厦门大学.2018

[4].高新.基于哈希算法的大规模图像最近邻检索算法研究[D].电子科技大学.2018

[5].石佳.适用于最近邻检索的堆迭哈希量化算法[D].大连海事大学.2017

[6].杨根茂.基于哈希加速的近似最近邻检索算法研究[D].浙江大学.2015

[7].俞峥峥,朱芳来,徐立云.基于神经网络和最近邻相似度的实例检索算法[J].机电一体化.2014

[8].林悦.基于哈希算法的高维数据的最近邻检索[D].浙江大学.2013

[9].汪善义,马煜,汪源源.基于SIFT特征和近似最近邻算法的医学CT图像检索[J].生物医学工程学进展.2011

[10].胡萍.基于人工神经网络和最近邻算法的实例检索模型[J].组合机床与自动化加工技术.2008

标签:;  ;  ;  ;  

最近邻检索算法论文-邓理睿,包涵,陈靓,全成斌,赵有健
下载Doc文档

猜你喜欢