导读:本文包含了分布式并行文件系统论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:分布式,文件系统,副本,动态,日志,检查点,模式。
分布式并行文件系统论文文献综述
郑如秋,梁庭玮[1](2015)在《一种分布式并行文件系统的介绍及在海洋地震数据处理中的应用》一文中研究指出文章介绍了一种分布式并行文件系统Lustre的基础架构和部署方式,对比普遍使用的网络文件系统(NFS)、网络附着存储(NAS),展现该分布式并行文件系统的高可拓展性能,提供高性能、灵活等优势。较好地解决了当前海洋地震数据处理过程中面临的数据存储量大,数据访问频繁等棘手问题。(本文来源于《电脑与信息技术》期刊2015年04期)
黄彩锋[2](2013)在《基于HDFS分布式并行文件系统副本策略研究》一文中研究指出近年来,随着科学技术的进一步发展,全球数据量出现高速增长,特别是更加注重用户的交互作用的Web2.0的出现,改变了过去用户只能作为互联网读者的角色,用户成为了互联网内容的创作者。在这样的海量信息环境中,传统的存储系统已经不能满足信息量高速增长的要求,在容量和性能的要求上存在瓶颈,诸如硬盘数量、服务器数量等的限制。HDFS(Hadoop Distributed File System)是不同于传统分布式并行文件系统的,运行于廉价的机器上的,具有高吞吐量、高容错性、高可靠性的新型分布式文件系统。具有数据分布存储与管理功能,并提供高性能的数据访问与交互。在分布式并行文件系统HDFS中,副本是其重要的组成部分,副本技术更是协调互联网中各个节点资源完成高效且工作量较大的任务,实现这一任务的途径即通过副本放置、副本选择、副本调整等方式提高数据在各节点间的有效传输。本文首先对副本管理策略的研究现状作了分析,总结了前辈们在该领域已有的研究成果以及它们的局限性;在此基础上对HDFS系统架构及其读写机制等关键技术进行深入分析和阐述,并在此基础上建立HDFS动态副本管理模型,从副本放置和副本删除两个方面展开了论述。然后,根据副本放置策略的改进思想进行算法的设计,提出了基于距离和负载信息的副本放置策略,引进平衡因子调节距离和负载的比重满足不同用户对系统的要求;同时,根据副本调整阶段的需求,改进副本删除策略,引入副本评价函数,提出基于价值评估的副本删除策略;最后,通过仿真模拟实验,对本文提出的副本策略进行有效性验证,并与HDFS默认副本策略进行对比分析。本文的主要贡献在于:1)分析了HDFS分布式并行文件系统与传统分布式系统的区别,重点与GFS进行了对比分析,分析两者的设计思想和原则,比较副本管理策略的异同,说明HDFS是GFS的简化设计,具有更加灵活的操作性。2)提出了一种基于距离和负载信息的副本放置策略。该策略改变了HDFS默认副本放置策略的随机存储算法,综合考虑了副本大小、传输带宽以及节点负载叁方面影响因素,计算出节点的效用值,优先选择效用值大的节点存储数据块,并引入平衡因子,满足不同用户对系统性能的要求。最后模拟实验验证了本文算法在负载均衡上较HDFS默认放置策略具有明显的优越性。3)提出了一种基于价值评估的副本删除策略。当有新的副本写入请求时,Namenode节点随机获取一组Datanode,选择一个节点写入数据。若被选择的节点已有副本数量太多,负载太重,性能就不能有效发挥;HDFS默认副本调整策略没有考虑到这一点,改进的策略通过价值评估函数计算副本的价值,并进行排序,当节点负载过大时,删除价值最小的副本,以此来释放节点空间,充分发挥节点效用,实验表明,在大文件写入测试中,本文策略较HDFS默认策略具备更高的性能。(本文来源于《浙江师范大学》期刊2013-05-15)
黑继伟[3](2010)在《基于分布式并行文件系统HDFS的副本管理模型》一文中研究指出分布式并行文件系统和副本的管理策略是目前比较热门的研究内容,近年来,美国、加拿大、澳大利亚等很多国家的一些大学和科研小组都在进行并行文件系统的研究,研制出一批各具特色的并行文件系统模型;一些计算机厂家也开发出一批专用并行文件系统,这些系统多为运行在UNIX操作系统的网络工作站或专用并行机上运行,包括商用并行文件系统、用于研究的并行文件系统以及公开源代码的并行文件系统。还有为运行Linux操作系统的机群设计的,HDFS作为一种新兴的并行文件系统,它既有通用并行文件的特点,同时又有自己不同的需求和设计目标,它支持海量的大文件存储,文件大小一般都以GB为单位,有效地支持跑在其上的应用程序批处理和具有高吞吐量的作业。副本的管理策略研究是分布是并行文件系统中的热门研究内容,本文提出了基于HDFS的动态副本管理模型,包括副本放置策略、动态副本创建策略和动态副本删除策略,这些策略动态的对HDFS中的副本进行管理,优化了系统的性能。(本文来源于《吉林大学》期刊2010-04-01)
阴四海,王文杰,李秀斌,范军涛[4](2007)在《并行分布式文件系统的改进》一文中研究指出针对遥感图像处理的特殊性做原理分析,实现了对并行文件系统的改进,从而有效增加遥感图像处理中计算和I/O操作的重迭,提高了I/O的读写效率,增强了对高性能遥感图像数据处理的支持。(本文来源于《计算机应用》期刊2007年S2期)
赵旺,曹强[5](2007)在《分布式并行文件系统中锁管理的研究》一文中研究指出分析了传统的分布式锁管理中范围锁的实现及其局限,给出了一种用于支持交叉访问模式的新的分布式锁管理算法——DBM算法。分布式锁管理是分布式并行文件系统的关键组成部分之一。软件仿真实验表明新算法在交叉访问模式下大大提高了系统并发度。(本文来源于《计算机应用研究》期刊2007年09期)
赵旺[6](2007)在《分布式并行文件系统锁管理的研究与设计》一文中研究指出分布式文件系统自上世纪70年代出现以来,经过30多年的发展,已经逐渐趋向成熟,在数据处理、信息服务、商业系统、教育科研等各个领域都有广泛的应用。分布式并行文件系统(DPFS,Distributed Parallel File System)是分布式文件系统的一个重要分支,也是未来分布式文件系统发展的主要方向之一。DPFS通过多种先进技术,发掘系统潜在的物理并行度,改善系统逻辑并行能力,从而为前台应用提供高达GB甚至TB级的存储带宽。分布式锁管理(DLM,Distributed Lock Management)是分布式文件系统的核心部分,是保证系统正确运行和数据一致性的关键所在。由于DPFS强调通过并行I/O提高I/O带宽,DLM在DPFS中显得尤为重要。在对分布式并行文件系统和分布式锁管理技术进行广泛调研和深入研究的基础上,设计了适用于DPFS的分布式锁管理系统。采用分布式的C/S架构,完全避免使用全局锁管理节点;多种锁处理策略的设计为各种不同的文件系统操作提供最优化的锁服务;异步回调函数机制实现了从服务器到客户端、从系统下层到上层的反向异步事件通知。在系统设计中,采用模块化、层次化和接口极小化的设计思想和原则,有效简化了系统各部分的设计,使得系统各部分之间的功能划分明确、逻辑结构清晰,且容易进行扩展。在DLM研究过程中,发现应用的数据访问模式对锁管理系统的设计有重大影响,采用同样锁处理策略的系统在不同的数据访问模式下的表现往往差异很大。传统的范围锁,由于以页或固定大小的文件系统块为锁定范围的基本单位,在细粒度交叉访问模式下效率较低。新的“动态块管理(DBM,Dynamic Block Management)”算法,通过引入块管理者的概念和动态确定块管理者的机制,使得系统可以授权任意大小锁定范围。理论分析和仿真实验都表明,在访问的交叉粒度与文件系统块相比较小的情况下,DBM算法与传统的范围锁算法相比,可大幅提高系统实际并行度。(本文来源于《华中科技大学》期刊2007-01-01)
李胜利,唐维,石柯,程斌,蒙廷友[7](2005)在《高可用并行文件系统的分布式元数据管理》一文中研究指出提出一种分布式元数据管理方式,实现了HANDY并行文件系统元数据的高可用,并且使元数据服务器具有动态可扩展性.(本文来源于《应用科学学报》期刊2005年03期)
何进[8](2004)在《分布式并行文件系统的研究》一文中研究指出伴随着社会生活诸多方面的信息化发展,越来越多的信息被数字化。Internet狂飙突进式的发展,更使得数字化的信息出现了爆炸式增长,并且这种增长趋势近年愈演愈烈。如何存取和管理这些数字化的信息(数据)已成为人们普遍关注的焦点。分布式并行文件系统以其特有的高容错性、高性价比、高可扩展性,顺应了信息爆炸增长的趋势。 分布式并行日志系统作为分布式并行文件系统的关键部分,对于提高分布式并行文件系统的可靠性和可用性,具有不可替代的重要作用。人们常常将日志系统的优劣作为评判一个分布式并行文件系统性能的主要指标之一。当今分布式日志系统存在磁盘消耗大、I/O操作次数多、恢复效率低以及恢复过程中不能同时提供服务等诸多缺点,严重影响了分布式并行文件系统高可靠性、高可用性和多并发性。针对当前日志系统的这些缺陷,本文提出了一种高效率、高可靠的分布式并行日志系统——基于代理的动态并行日志系统(Agent-DPL)。 Agent-DPL系统采用少量持有者(拥有完整日志记录的节点)记录并保存日志,而引用者(不保存日志记录只保存日志索引的节点)只保存日志索引。当引用者需要日志时,根据日志索引向持有者按需请求日志记录,从而克服了各节点都保存日志造成大量的磁盘开销。日志持有者将日志记录缓存起来,当缓存达到某个上限时,再将其刷新到磁盘,以减少了I/O操作次数。采用了两阶段并发日志恢复协议(基于Agent日志恢复协议和基于Cache-LDP日志恢复协议)实现日志恢复。在基于Agent日志恢复协议中,日志持有者可以同时服务多个日志引用者的恢复请求,而日志引用者也可以同时向多个日志持有者请求日志,从而克服了串行日志恢复低效的缺陷;基于Cache-LDP日志恢复协议根据预定算法,能够保证在进行日志恢复的同时,不影响DPFS处理来自用户的请求。这样Agent-DPL既能保证系统数据的一致性,又能克服在恢复过程中不能同时提供服务的缺陷。(本文来源于《电子科技大学》期刊2004-12-01)
吴华[9](2004)在《分布式并行文件系统的日志管理》一文中研究指出本文所研究的分布式并行文件系统DPFS(Distributed and Parallel File System) 有别于传统的依赖于一台集中式服务器的网络文件系统,在DPFS系统中的任何一台机器都能够存取、缓存及控制任意的数据块。该方法利用位置独立性,并结合快速局域网,比传统的网络文件系统能提供更好的性能和可扩展性。另外,由于任一台服务器可以承担出现故障部件的责任,因此可以通过采用冗余数据存储提供高可用性。提高可用性是分布式并行文件系统的主要设计目标之一,在整个系统中,多个节点相互协调工作,某节点出现故障后,其它节点仍能继续服务。为了满足这一要求,我们采用了基于数据冗余的日志恢复机制。当系统中一个或几个节点的失效,不会影响系统的正常服务。所有系统中的共享资源,将根据用户的需求存在多个副本,并且由系统自动保证这些副本的一致性。当系统中某台机器出现故障后,对该文件的访问将自动转移到其它服务器上这些文件的副本。当这台机器重新被修复后,日志系统将恢复其故障期间未完成的操作,以保证系统的一致性。本文首先介绍各种分布式文件系统的发展概况,然后介绍了DPFS设计的系统体系结构和逻辑结构,接着指出了采用日志管理系统的必要性,以及分布式环境下日志管理系统的特点,提出了系统的设计目标;然后具体阐述了系统模型以及设计方案,并作了系统测试。最后,总结全文,并对以后的研究做出了展望。(本文来源于《电子科技大学》期刊2004-03-01)
严功军[10](2004)在《分布式并行文件系统DPFS的SSI技术》一文中研究指出本文讨论的分布式文件系统DPFS中的单一系统映像SSI技术是实现分布式文件系统DPFS的核心技术,其实现了两个最主要需求:网络透明性和高可用性。本文提出独特的内存文件系统机制实现网络透明性。在系统中每一个节点上构建一个全局一致的内存名字空间,并使得在该名字空间中的名字可以透明的指向分布式并行系统中的资源对象:内存名字空间中的名字可以被重定向为分步在不同节点上的资源的副本(拷贝),上层用户不知道内存名字空间的名字指向系统资源的物理位置,为上层用户提供透明的文件系统访问服务。同时,本文在系统中提出以下机制保证了SSI的高可用性:(1)冗余副本机制保证资源高可用性:系统中的资源对象和其副本均衡地分步在系统的不同节点上。当系统中的部分节点崩溃时,访问位于崩溃节点上的分布式并行系统资源不会被拒绝,系统会根据活动节点的资源和负载信息为该访问重新选择一个最佳或准最佳的节点为其服务;(2)日志恢复机制保证容错:当系统中有节点失效时,其他和该失效节点有资源相关性的节点在数据被修改时会记录日志,在失效节点重新启动时,会取得日志并且根据检查点进行回滚操作恢复或者拷贝恢复,系统中其他正常服务的节点不会受到任何影响;(3)一致性消息驱动机制保证数据和信息一致性:当系统中的某一个节点上数据或者信息发生改变时,该节点采用消息通知其他节点修改这些数据或者信息,确保系统中所有的相关节点的数据同时被刷新。如果刷新失败,系统将记录日志,由日志恢复机制保证数据一致。在本文所述的SSI技术的支持下, DPFS具有分布式透明性和高可用性的特点。配合其他的模块,例如动态负载平衡调度模块,可以实现系统动态智能故障恢复。分布式透明性和系统动态智能故障恢复的技术可以解决理论上的两个难题:系统瓶颈和系统重构,提供高可用性,实现永不停顿的系统。本文的安排如下:第二章讨论分布式并行文件系统和SSI技术的基本概念、主要需求、关键问题和典型系统,第叁章概要地介绍了DPFS的设计与实现。第四章重点讨论在DPFS中分布式并行技术和SSI技术是如何结合在一起实现的。第五章讨论了实现分布式并行SSI技术中的一个关键问题:一致性问题。第六章分析了分布式并行SSI技术对DPFS可用性和性能方面的影响。第七章总结全文,并对以后的研究做出了展望。(本文来源于《电子科技大学》期刊2004-02-01)
分布式并行文件系统论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
近年来,随着科学技术的进一步发展,全球数据量出现高速增长,特别是更加注重用户的交互作用的Web2.0的出现,改变了过去用户只能作为互联网读者的角色,用户成为了互联网内容的创作者。在这样的海量信息环境中,传统的存储系统已经不能满足信息量高速增长的要求,在容量和性能的要求上存在瓶颈,诸如硬盘数量、服务器数量等的限制。HDFS(Hadoop Distributed File System)是不同于传统分布式并行文件系统的,运行于廉价的机器上的,具有高吞吐量、高容错性、高可靠性的新型分布式文件系统。具有数据分布存储与管理功能,并提供高性能的数据访问与交互。在分布式并行文件系统HDFS中,副本是其重要的组成部分,副本技术更是协调互联网中各个节点资源完成高效且工作量较大的任务,实现这一任务的途径即通过副本放置、副本选择、副本调整等方式提高数据在各节点间的有效传输。本文首先对副本管理策略的研究现状作了分析,总结了前辈们在该领域已有的研究成果以及它们的局限性;在此基础上对HDFS系统架构及其读写机制等关键技术进行深入分析和阐述,并在此基础上建立HDFS动态副本管理模型,从副本放置和副本删除两个方面展开了论述。然后,根据副本放置策略的改进思想进行算法的设计,提出了基于距离和负载信息的副本放置策略,引进平衡因子调节距离和负载的比重满足不同用户对系统的要求;同时,根据副本调整阶段的需求,改进副本删除策略,引入副本评价函数,提出基于价值评估的副本删除策略;最后,通过仿真模拟实验,对本文提出的副本策略进行有效性验证,并与HDFS默认副本策略进行对比分析。本文的主要贡献在于:1)分析了HDFS分布式并行文件系统与传统分布式系统的区别,重点与GFS进行了对比分析,分析两者的设计思想和原则,比较副本管理策略的异同,说明HDFS是GFS的简化设计,具有更加灵活的操作性。2)提出了一种基于距离和负载信息的副本放置策略。该策略改变了HDFS默认副本放置策略的随机存储算法,综合考虑了副本大小、传输带宽以及节点负载叁方面影响因素,计算出节点的效用值,优先选择效用值大的节点存储数据块,并引入平衡因子,满足不同用户对系统性能的要求。最后模拟实验验证了本文算法在负载均衡上较HDFS默认放置策略具有明显的优越性。3)提出了一种基于价值评估的副本删除策略。当有新的副本写入请求时,Namenode节点随机获取一组Datanode,选择一个节点写入数据。若被选择的节点已有副本数量太多,负载太重,性能就不能有效发挥;HDFS默认副本调整策略没有考虑到这一点,改进的策略通过价值评估函数计算副本的价值,并进行排序,当节点负载过大时,删除价值最小的副本,以此来释放节点空间,充分发挥节点效用,实验表明,在大文件写入测试中,本文策略较HDFS默认策略具备更高的性能。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
分布式并行文件系统论文参考文献
[1].郑如秋,梁庭玮.一种分布式并行文件系统的介绍及在海洋地震数据处理中的应用[J].电脑与信息技术.2015
[2].黄彩锋.基于HDFS分布式并行文件系统副本策略研究[D].浙江师范大学.2013
[3].黑继伟.基于分布式并行文件系统HDFS的副本管理模型[D].吉林大学.2010
[4].阴四海,王文杰,李秀斌,范军涛.并行分布式文件系统的改进[J].计算机应用.2007
[5].赵旺,曹强.分布式并行文件系统中锁管理的研究[J].计算机应用研究.2007
[6].赵旺.分布式并行文件系统锁管理的研究与设计[D].华中科技大学.2007
[7].李胜利,唐维,石柯,程斌,蒙廷友.高可用并行文件系统的分布式元数据管理[J].应用科学学报.2005
[8].何进.分布式并行文件系统的研究[D].电子科技大学.2004
[9].吴华.分布式并行文件系统的日志管理[D].电子科技大学.2004
[10].严功军.分布式并行文件系统DPFS的SSI技术[D].电子科技大学.2004