并行文件论文-姜少彬,伍江江,周正

并行文件论文-姜少彬,伍江江,周正

导读:本文包含了并行文件论文开题报告文献综述及选题提纲参考文献,主要关键词:海量数据,集群,多线程,并行

并行文件论文文献综述

姜少彬,伍江江,周正[1](2019)在《海量数据文件异常并行检测技术设计与实现》一文中研究指出海量数据文件异常并行检测技术实现了对共享文件存储系统中数据文件合法性的检查功能。主要采用集群和多线程技术,实现了在服务器和线程两级的并行处理,可有效提高文件扫描检测效率,具有高可用、高并发特性。经实际部署和验证测试,该并行检测技术具有较高的检测效率。(本文来源于《电子技术与软件工程》期刊2019年03期)

杨琼,王冬[2](2018)在《基于分区操作系统的文件并行访问方法》一文中研究指出设计一种针对分区操作系统的文件并行访问方法,用于解决分区文件系统面临的文件并行访问问题。针对分区操作系统的文件并行访问方法包括叁个步骤:1)采用两种B+树(读管理树和写管理树)分别管理读写分支; 2)事务日志正常提交后用写管理树的指针更新读管理树的指针; 3)分区读写操作执行流程。方法可解决分区文件系统面临的文件并行访问问题。(本文来源于《航空计算技术》期刊2018年05期)

刘欣[3](2018)在《基于层次式混合存储技术的并行文件系统关键技术研究》一文中研究指出超级计算机规模、数据密集型应用和大数据应用规模的多重快速增长的迭加作用,对当前超级计算机中广泛采用的基于磁盘的并行文件系统带来巨大技术挑战。在超级计算机中,计算分系统与存储分系统分离,增大了I/O延迟。计算结点不配置磁盘~([1,2]),难以在所有计算结点中配置固态盘(SSD),使得数量巨大的本地I/O汇聚到共享并行文件系统,并产生巨大I/O压力。超级计算机中CPU核数已经达到千万量级~([2,3]),它将聚合产生数量巨大的I/O请求。研究和实际应用表明,当前基于磁盘构建的单一存储层次的并行文件系统在提供超大存储容量的同时,难以同时满足Exascale超级计算机提出的高并行、高带宽和低延迟的要求。本文以天河一号超级计算机、高性能计算应用和大数据应用为基础,面向Exascale超级计算机对并行文件系统的要求,研究新的并行文件系统结构和关键实现技术,主要研究工作和创新点如下:1)提出了基于层次式混合存储技术的并行文件系统结构ONFS当前在超级计算机中广泛使用基于磁盘的并行文件系统,它只有单一存储层次,由于存储服务器远离计算结点,并受限于磁盘固有的性能不足,使得它们难以满足高速低延迟的要求。基于SDD的Burst Buffer Node和ION仅用于构建局部文件系统,没有与底层基于磁盘的存储系统融为一体。本文根据Exascale超级计算应用的I/O需求特性,提出了基于DRAM、SSD和磁盘构建的具有叁个存储层次的并行文件系统ONFS,以靠近计算结点的基于DRAM和SSD的存储层次为用户程序提供高速低延迟的并行文件读/写服务,利用基于磁盘的存储层次实现超大存储容量,文件可以在叁个存储层次之间动态高效迁移,实现单一名空间,支持POSIX协议。经过与典型并行文件系统比较,ONFS是首个可综合实现超大存储容量、高并行、高速度和低延迟文件服务的并行文件系统,可满足Exascale超级计算机对并行文件系统的综合高要求。2)提出了基于用户组子目录的元数据划分、分布存储和处理的方法元数据的高效管理是实现高性能并行文件系统的重要基础,它包括元数据的划分、分布、存储和服务。划分方法主要有静态子树、动态子树和哈希分布叁大类。静态子树粒度大,难以支持负载和规模的有效动态调整;动态子树粒度小,子树关系复杂,管理的开销大;哈希分布丢弃元数据之间的相互关系,在目录名和文件名修改时将产生元数据迁移。本文基于用户目录构建过程,提出以根目录之下的用户组子目录(UGSD)为元数据划分粒度,它保持了目录固有的树状结构,简化了元数据划分的描述和管理;提出了在UGSD上增加自然整数后缀,实现UGSD在映射函数输入变量空间的均匀分布;采用简单的MOD函数和查找表,实现UGSD到MDS、MDS到MDSS之间的映射;采用同步更新和调峰机制,实现元数据负载动态调整和MDS规模动态增减,等。由实验和比较分析可知:UGSD的元数据划分粒度合理,易于描述和管理;文件路径名到MDS之间的映射算法简单,分布均匀;可动态实现元数据负载和MDS规模的调整;综合解决了元数据划分、存储和处理上存在的主要技术问题。3)提出了DS-m的内存借用和归还策略、并行存储控制和综合性能优化方法在超级计算机中,计算结点内存是专供用户程序使用的。基于结点内存构建高速低延迟存储层次最关键的问题是如何获得可以使用的内存。迄今为止,所有基于HPC计算结点内存构建存储系统的研究工作都回避该问题。本文基于计算密集型和数据密集型程序使用内存的不同情况,将所有计算结点划分为小内存分区和全内存分区,采用静态方式先从小内存分区的结点中借用确定数量的内存;根据用户程序使用内存的动态变化情况,采用最大值方法,动态窃用小内存分区结点中的剩余内存;采用静态与动态结合的方法,及时归还程序需要的内存,确保程序正确执行。本方法首次解决了基于结点内存构建存储系统的内存来源和管理的关键问题。现有的存储空间分配方法是面向磁盘的,不适合DS-m。DS-m的可用内存容量小,读/写带宽受限于互连接口带宽,这影响了大文件存储和多进程并行读/写带宽。DRAM为易失性存储器件,通常采用双副本方法解决存储可靠性问题,现行的串行更新主辅副本的方法,延迟大。VFS的页缓存控制策略是面向磁盘小数据块的,在大文件读/写时性能低;FUSE分拆大数据块的读/写请求,引入较大的读/写请求发送延迟。为了解决上述问题,本文提出由多个DS-m/DS-s并行工作,提高DS-m组的可用存储容量和多进程的聚合带宽;采用主辅副本并行更新方法,消除串行更新方法引入的写延迟;提出了关闭VFS页缓存,增大FUSE的MAX_size参数,构建和管理客户端缓存的方法,大幅提升了大数据块的读/写性能。实验和分析表明,由4个DS-m构成的分组并行存储,提高存储容量4倍,平均提高读/写带宽3.4倍;并行副本更新时间仅为串行方式的48.8%;客户端缓存的读和写速度分别是使用VFS页缓存的6.7倍和1.78倍。4)提出了基于内存容量阀值控制的文件向下迁移和基于应用特性的文件向上预迁移的控制策略文件数据迁移是层次式存储系统获得高性能的关键技术。当前,向下迁移主要以可用存储容量作为迁移条件,向上迁移主要以文件访问特性,如读/写、访问请求大小等,为迁移条件。现有的方法或是基于低速磁盘的,或是没有考虑高性能计算应用程序访问文件的特性。使用文件访问的动态特性计算热度,开销大;仅仅使用可用存储容量控制向下迁移,不考虑文件所处的open/close状态,易于使处于open状态的文件产生迁移乒乓效应。本文按照文件所处的open和close状态,使用双LRU表,实现文件冷度计算;在DS-m中设立叁个可用内存容量阀值,并与文件冷度结合触发向下迁移;基于数据密集型应用程序读/写和处理文件数据的特性,提出了全文件和部分文件结合的混合迁移粒度方法,以及向上主动预迁移和被动预迁移结合的控制策略。实验和分析结果表明,冷度计算方法的计算开销小;向下迁移可在迁出文件数据量和写入数据量两个方面取得性能均衡;全文件和部分文件数据向上迁移、主动向上预迁移可减少无效迁移操作,在DS-m与DS-d之间可提高读带宽16倍以上。ONFS支持POSIX协议,我们在天河一号超级计算机上实现了ONFS原型系统,用户程序不需要修改便可在ONFS上运行。IOR benchmark测试表明,ONFS的文件读/写带宽是Lustre的7.7倍或以上;典型数据密集型应用程序测试结果表明,ONFS文件读和写带宽分别是Lustre的5.44倍和4.67倍,实际应用效果良好。(本文来源于《国防科技大学》期刊2018-04-01)

易建亮,陈志广,肖侬,卢宇彤[4](2018)在《基于代理的并行文件系统元数据优化与实现》一文中研究指出在高性能计算环境中,并行文件系统面临百万量级的客户端,这些客户端往往在同一时间段内发出大量并发I/O请求,使元数据服务器承载巨大的压力.另一方面,这些客户端发出的并发读写请求往往指向同一目录,导致很难将元数据负载调度到多个服务器上.为此,提出在并行文件系统的客户端和元数据服务器之间增加一级代理(proxy),并给出相应的优化措施降低元数据服务器的负载.在元数据代理上实现2方面的优化:1)由于高性能计算程序往往并发访问大量的文件,可以考虑通过元数据聚合将大量请求合并成1个请求发送到元数据服务器上,降低元数据服务器的负载;2)高性能计算程序的并发I/O往往指向同一目录,而传统的元数据负载均衡机制一般采用子树划分的方法将元数据负载调度到多个元数据服务器上,无法实现针对同一目录元数据操作的负载均衡,通过代理将针对同一目录的元数据操作调度到多个元数据服务器上,实现细粒度的负载均衡.(本文来源于《计算机研究与发展》期刊2018年02期)

樊星,段富,牛保宁[5](2017)在《大场景点云文件多核并行批量压缩方法研究》一文中研究指出为了减少大场景点云文件无损压缩时间,避免数据处理过程中人工操作造成的时间浪费和输入失误,本文引入LASzip点云无损压缩算法和OpenMP并行编程技术,提出了在单机多核CPU系统环境下基于LASzip的大场景点云文件多核并行批量压缩算法。实验结果显示,与串行算法相比,并行算法在压缩比不变的情况下压缩时间明显下降,取得了很好的加速比。当线程数为8时,压缩和解压缩加速比分别达到4.27和3.99,优化效果显着。(本文来源于《太原理工大学学报》期刊2017年06期)

刘训星[6](2017)在《大数据文件多线程并行加载》一文中研究指出随着4G网络迅猛发展,智能移动终端普及,移动终端对加载大数据文件有着更高的需求。使用预处理多线程并发执行的方法来加载大数据文件,结果预处理多线程并行加载的方法明显提高处理器性能,通过使用BBP算法求圆周率模拟大数据文件加载可有效提高实验数据的准确性。。(本文来源于《广西民族师范学院学报》期刊2017年03期)

王立新[7](2017)在《并行文件系统元数据管理研究》一文中研究指出人类社会的快速发展使得人类获取信息的能力逐步加强,各种应用模式层出不穷,由此产生的数据量急剧增加,数据类型也日益丰富。大规模计算机集群系统面临着对海量的、非结构化的数据进行高效分析处理的问题。元数据密集型应用作为大规模计算机集群系统的一种典型应用,给存储系统的底层并行文件系统带来的严峻挑战。如何构建一个高性能、高可靠性和可扩展的元数据管理方法成为当前并行文件系统研究领域的一个重要课题。本文在现有并行文件系统框架的基础上,研究面向元数据密集型应用的并行文件系统元数据管理方法。在一个混合式并行文件系统架构中,针对元数据分布、路径遍历优化、元数据索引、小文件I/O和大目录自适应扩展等问题提出了一系列优化技术和方法。本文的主要工作体现在:1.提出了一种面向元数据密集型负载的混合式并行文件系统结构(第二章)现有的并行文件系统受限于其元数据管理方法,在处理元数据密集型负载时性能不佳。本文提出一种基于已有并行文件系统的混合式并行文件系统Moon FS系统结构,致力于为用户提供融合、一致的全局文件系统视图和高效的元数据操作性能。在该结构中,小文件和元数据由元数据管理模块统一管理,而大文件则直接映射到底层共享并行文件系统中。通过将小的、随机的和较慢的更新合并成大的、顺序的和较快的写操作,并存储于底层共享文件系统中,从而充分利用底层共享并行文件系统的大文件读写性能优势。2.提出了一种基于客户端无状态缓存和服务端目录复制的元数据管理方法(第叁章)为了提高多元数据服务器环境下的元数据的访问性能,本文提出了一种基于客户端无状态缓存和目录复制的元数据管理方法。该方法基于目录粒度分布元数据,并通过一致性哈希方法将同一目录下的子目录和子文件映射到同一元数据服务器上,从而保持了目录的局部性和元数据服务器的负载均衡。同时,基于客户端无状态缓存和目录复制的优化方法能够有效减少路径遍历和权限检查导致的RPC开销。经实验验证,该元数据管理方法能够有效解决路径遍历和权限验证的RPC放大问题,优化并行文件系统的元数据访问性能。3.提出了一种基于LSM-tree的元数据及小文件索引方法(第四章)现有的元数据管理方法大多采用B-tree或Copy-on-Write tree的索引方式管理元数据,这些读优化的索引结构在大量元数据并发写的情况下开销较大,性能较低。本文提出了一种基于目录粒度列分割和LSM-tree(Log-structured merge tree)的元数据索引管理方法,对文件元数据操作与LSM-tree操作映射、名字空间划分、元数据表现形式、元数据存储、元数据操作优化等方面进行了详细介绍。同时,本文提出了一种基于LSM-tree和延迟key分配的小文件写优化方法,有效降低了LSM-tree的compaction操作开销。原型系统实验结果表明,这两种优化相比于其他典型索引结构更高效。4.提出了一种基于乐观同步的目录扩展方法(第五章)现有的元数据管理方法在处理有大目录需求的应用时往往性能不佳。本文提出了一种基于乐观同步的目录自适应扩展方法。通过将大目录自适应扩展到多个元数据服务器上,不仅能保持负载均衡,而且能充分发挥元数据服务器集群的性能优势。与此同时,客户端能够容忍过时的目录映射信息,保证在弱一致性条件下的正确访问。原型系统实验表明,基于乐观同步的目录自适应扩展方法能够有效提高大目录的元数据服务性能。(本文来源于《国防科学技术大学》期刊2017-06-01)

王健,王启明[8](2017)在《并行文件系统在车站系统备份中的应用》一文中研究指出分析车站系统数据库和应用程序备份需求,深入研究G P F S并行文件系统的基本框架和功能特点,将新投产主机加入到既有的GPFS集群,实现对集群内共享存储的实时并发访问,解决了车站系统生产数据第叁方集中备份以及应用应急恢复问题,达到了整合备份资源、规避单点隐患、节约备份成本的目的,进一步确保了铁路的信息安全生产。(本文来源于《铁路计算机应用》期刊2017年03期)

宋雪峰,关宇,董玉敏,塔依尔·伊布拉音[9](2016)在《基于infiniband的snfs并行文件系统在地震资料大数据处理中的应用》一文中研究指出地震勘探采集技术的提升,使得地震资料处理外业采集数据急剧增大,大容量、高带宽、低延迟的存储性能要求随之提高。新疆油田依据地震资料处理系统特点,结合snfs并行文件技术,测试调优高性能处理集群系统,构建了一套基于IB-SAN的snfs并行文件系统,集群聚合读、写IOPS达到40Gb/s,保障了地震资料处理高性能集群高效运行,满足了地震勘探大数据处理需求。(本文来源于《第四届信息化创新克拉玛依国际学术论坛论文集》期刊2016-09-21)

李东超[10](2016)在《基于SSD的并行文件系统架构和策略研究》一文中研究指出随着时代的发展,在气象预报、天文计算、矿产油气勘探、生物高分子计算和航空航天军事模拟计算等诸多领域,科学计算对计算结果的时效性和准确性提出了越来越高的需求。科学计算应用也由计算密集型逐渐转变为数据密集型,对高性能计算系统中存储系统的I/O性能要求越来越高,因此,研究存储系统中部署的分布式并行文件系统的I/O性能优化问题,对于提高科学计算应用的运行效率具有重大意义。高性能计算系统中部署的分布式并行文件系统,采用一系列优秀的系统架构设计,非常适合大文件的顺序访问,在大文件应用下的性能表现优异,例如部署十分广泛的Lustre文件系统。然而,这些设计对于大规模随机访问和小文件I/O非常不利,尤其是在海量小文件应用场景下,性能大大下降。为了解决因为大规模随机访问和小文件访问引起的并行文件系统性能严重下降的问题,文件分布可配置和自适应系统通过将固态硬盘与传统的机械硬盘组成混合存储系统,根据文件分布规则决定文件存储位置。该系统由I/O中间件、调度器模块和文件读写模式识别模块组成,根据文件分布规则决定文件存储位置,对固态硬盘资源实行统一的分配和回收管理,以及通过文件模式识别技术提供可配置和自适应的文件分布功能,以此来解决Lustre等并行文件系统因大规模随机访问和海量小文件访问而引起的性能严重下降问题。通过与原有的Lustre文件系统进行对比实验的结果表明,在相同条件下,不同的测试环境中,该系统均表现出更好的读写性能,对于I/O性能的提升达到25%—89%。(本文来源于《华中科技大学》期刊2016-05-01)

并行文件论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

设计一种针对分区操作系统的文件并行访问方法,用于解决分区文件系统面临的文件并行访问问题。针对分区操作系统的文件并行访问方法包括叁个步骤:1)采用两种B+树(读管理树和写管理树)分别管理读写分支; 2)事务日志正常提交后用写管理树的指针更新读管理树的指针; 3)分区读写操作执行流程。方法可解决分区文件系统面临的文件并行访问问题。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

并行文件论文参考文献

[1].姜少彬,伍江江,周正.海量数据文件异常并行检测技术设计与实现[J].电子技术与软件工程.2019

[2].杨琼,王冬.基于分区操作系统的文件并行访问方法[J].航空计算技术.2018

[3].刘欣.基于层次式混合存储技术的并行文件系统关键技术研究[D].国防科技大学.2018

[4].易建亮,陈志广,肖侬,卢宇彤.基于代理的并行文件系统元数据优化与实现[J].计算机研究与发展.2018

[5].樊星,段富,牛保宁.大场景点云文件多核并行批量压缩方法研究[J].太原理工大学学报.2017

[6].刘训星.大数据文件多线程并行加载[J].广西民族师范学院学报.2017

[7].王立新.并行文件系统元数据管理研究[D].国防科学技术大学.2017

[8].王健,王启明.并行文件系统在车站系统备份中的应用[J].铁路计算机应用.2017

[9].宋雪峰,关宇,董玉敏,塔依尔·伊布拉音.基于infiniband的snfs并行文件系统在地震资料大数据处理中的应用[C].第四届信息化创新克拉玛依国际学术论坛论文集.2016

[10].李东超.基于SSD的并行文件系统架构和策略研究[D].华中科技大学.2016

标签:;  ;  ;  ;  

并行文件论文-姜少彬,伍江江,周正
下载Doc文档

猜你喜欢