多端口存储控制器的设计与实现

多端口存储控制器的设计与实现

张宇嘉[1]2016年在《基于FPGA的高速遥感卫星图像数据传输系统设计与实现》文中研究说明目前遥感卫星系统在军民各领域应用广泛,发展迅猛。但由于开发遥感卫星地面接收机时不便与在轨卫星联调,所以研制由地面接收机和与其匹配工作的模拟器组成的卫星图像数据传输系统意义重大。本文首先对卫星图像数据传输系统的研究现状与发展趋势进行了调研和总结,在此基础上,提出了本课题中卫星模拟器及接收机的系统架构和总体设计方案。本文在分析了卫星图像传输系统的设计目标和技术要求后,确立了基于FPGA的系统设计方案。整个方案包括硬件和软件两大部分。硬件系统采用FPGA作为主控芯片,配合Xilinx公司ML605开发板上外设实现数据的传输与处理;实现了PCIE DMA接口,完成数据在PC机与板卡间的高速传输;提出了基于AXI4总线的DDR3多端口存储控制方法,解决了多个控制模块同时访问一块DDR3存储器时可能存在冲突的问题;设计了条带噪声去除模块接口和信道编解码模块接口,集成了图像处理和基于CCSDS标准的信道数据处理功能。软件系统主要分为应用程序和驱动程序两部分,本文设计的应用程序负责与用户交互,通过驱动程序完成对图像数据收发过程的控制。最后,本文对软、硬件模块和系统整体图像数据传输功能进行了测试。硬件测试针对FPGA资源消耗和时序分析、DDR3多端口存储控制器性能和条带噪声去除接口功能展开。软件测试验证了DMA传输速率和应用程序的基本功能。结果表明,卫星模拟器和接收机能完成图像数据的模拟发送、大容量缓存、信道编解码、条带噪声去除和接收显示的各项设计功能。虽然部分模块的性能仍有待提高,但作为设计原型,本文的设计方案为后续卫星图像数据传输系统的进一步研究奠定了基础。

陈琳[2]2004年在《多端口存储控制器的设计与实现》文中研究表明随着数据处理技术的进一步发展,对于存储器的容量和性能提出了越来越高的要求。同步动态随机存储器SDRAM因其容量大、读写速度快、支持猝发式读写及相对低廉的价格而得到了广泛的应用。由于SDRAM的控制比较复杂,因此其控制器接口电路设计是关键。本课题以“嵌入式系统开发平台”科研项目为背景,重点研究了基于FPGA的多端口存储控制器的设计与实现技术,为需要大容量存储器的系统设计提供了新思路。 本论文在研究了SDRAM器件基本原理及系统应用外围接口规范后,提出了多端口存储控制器的设计方案,并从总体设计构想到各逻辑细节实现都进行了详细描述。根据SDRAM器件的控制时序特点,采用VHDL状态机的设计方法实现了多端口存储控制器的技术,并以ISA总线接口和并行通信接口为应用实例,通过设计相应的接口电路来实现多端口访存操作。 论文最后还介绍了综合仿真过程和用于测试结果的测试软件设计,并给出了仿真与测试结果。

彭炳华, 黄力[3]2007年在《多端口存储控制器的设计与实现》文中进行了进一步梳理本论文在研究了SDRAM器件基本原理及系统应用规范后,提出了多端口存储控制器的设计方案,并从总体设计构想到各逻辑细节实现都进行了详细描述。根据SDRAM器件的控制时序特点,采用VHDL状态机的设计方法实现了多端口存储控制器的技术。

张宇嘉, 杨晓非, 姚行中[4]2016年在《基于AXI4的卫星接收机DDR3多端口存储的设计》文中提出针对卫星图像实时接收与处理系统提出的实际应用需求,采用Xilinx Virtex 6系列FPGA为平台设计了一种基于AXI4总线结构的多端口DDR3 SDRAM存储控制器。允许多模块实时对单一DDR3存储器进行访问,满足现有系统中不同模块需同时缓存各阶段卫星图像的需求。实际功能验证和Chip Scope采样读写信号证明了系统的可行性与可靠性,计算得出最大传输带宽达6.0 Gbit/s、最高带宽利用率在70%~93%之间。应用AXI4总线结构,本多端口存储控制器在高速数据读写系统中具有很高的拓展应用价值。

何雅乾[5]2015年在《面向RF自动测试平台应用的DDR2-SDRAM控制器设计》文中进行了进一步梳理高效的RF自动测试平台需要有一套高速的数据采集系统与之配合。随着采样速率的不断提高,平台对存储技术也提出了更高的要求。RF自动测试平台工作特点决定了其存储系统必须兼备大容量,高速率和实时性能,因此设计一款低延迟的DDR2-SDRAM控制器具有重要意义。本文首先通过对RF自动测试平台系统和其存储子系统的分析,得出其DDR2-SDRAM控制器必须具备多个访存接口,且各接口都具有相同的低延迟需求。由于平台AD/DA数据传输为连续数据流,因此本文通过对其数据存取地址的合理划分,使得各访存任务之间可以互相独立。在此基础上,本文为控制器设计了时分复用的仲裁方式和固定的访存命令序列,并采用了新的刷新机制,可以显着减少控制器访存最大延迟。本文使用Verilog硬件描述语言完成了控制器设计,并使用仿真工具和FPGA对设计进行了验证测试。最终结果表明,在使用400MHz DDR2-SDRAM DIMM情况下,本论文所设计的DDR2-SDRAM控制器达到了带宽1.9GBps以上,带宽利用率60%以上,同时最大访存延迟在200ns以内的设计指标。本文解决了一般DDR2-SDRAM控制器存在的高访存延迟问题,满足了RF自动测试平台的需求。同时在类似的多任务实时系统中,也有着广阔的应用前景。

高红莉[6]2010年在《面向数字视频解码器的存储管理方法研究》文中认为在高速海量数据交互系统中,存储访问的带宽和能耗需求往往是限制系统性能的瓶颈。消费电子领域代价受限的高清视频解码系统是一类受存储瓶颈问题所困扰的典型系统。本文基于数字视频解码系统,从嵌入式压缩(EC)和存储访问管理的角度提出了存储瓶颈问题的有效解决方案并进行了实现与验证。嵌入式压缩通过减少解码核心与存储器的数据交互来缓解存储瓶颈问题。本文提出了应用于MPEG-2解码器的低代价无损EC算法。处理高清视频时,该算法可将写入的数据量减少50%左右,与之前有损算法效率接近。在HJTC 0.18μm工艺下,压缩和解压缩单元的综合电路等效门数分别为13K和4K,少于视频解码器资源的5%。另外,本文还针对H.264解码器提出了一种基于5/3小波的高效EC算法,可将存储的数据量减少70%左右,且视频质量损失低于压缩效率相近的算法。此算法将每个4×4块压缩为64-bit或32-bit的字段,使其与数据总线位宽相匹配从而提高了总线利用率。嵌入式压缩方案在解码器中集成的关键问题是运动补偿中的参考数据读取机制。本文分别针对MPEG-2和H.264的特点提出了边界判断和双模边界融合机制,并首次提出了嵌入式压缩与运动补偿联合设计的新思路。其中,双模边界融合机制可将由嵌入式压缩引入的读取像素冗余度降低到仅余10%左右。在存储访问管理方面,本文提出了一种基于窗口的高效存储结构,与传统线性存储结构相比,可在存储访问量相同情况下将换行时序开销减少90%左右。另外,本文设计并实现了采用组响应和无冗余读写控制机制的多端口SDRAM存储控制器,减少了端口切换引起的换页操作,且将缓存容量减少了75%。最后,本文将提出的边界判断机制和无损EC算法集成到MPEG-2视频解码器中,并实现了宏块级叁级流水结构的EC视频解码器。FPGA测试结果显示,解码CIF格式的视频流时,采用本文提出的无损EC算法的MPEG-2解码器可将系统功耗平均降低25%。本文提出的方案能有效地缓解高清视频解码器中的存储瓶颈问题,为代价受限条件下高速数据交互系统的实现提供了解决方案。

张阳, 王中阳, 王红胜, 向凯全[7]2010年在《基于FPGA的多端口存储控制器设计》文中研究指明由于FPGA内部存储资源有限,通常需要使用外部扩展存储器,针对目前广泛应用的DDR2 SDRAM存储器,采用模块化方法设计了多端口存储控制器,详细介绍了控制器、仲裁器、译码器等关键模块的设计,并在开发板上进行了实现和测试,实验结果表明其有效带宽可达2.6 GB/s。

雷国庆[8]2015年在《基于FPGA的图计算并行算法和体系结构研究》文中提出近年来,随着现场可编程门阵列(FPGA)在计算、存储和逻辑等资源方面的急剧增长,基于FPGA的可重构计算成为高性能计算领域的一个重要分支,越来越凸显其重要的研究和应用价值。图计算是大数据分析领域的一种关键应用,在大数据分析方面具有重要作用,FPGA定制计算在加速图计算方面具有巨大的潜力。然而,现有FPGA图计算存在并行算法设计、并行度开发和支持图计算规模有限等挑战。为应对这些挑战,本文对大规模图计算的FPGA实现技术进行了深入研究,本文的主要工作和创新点如下:(1)提出了面向大规模图最短路径计算的FPGA并行算法和硬件实现结构。针对现有单源路径问题的FPGA实现采用片内存储资源来保存图数据和计算结果,难以高效处理大规模图数据处理的问题,提出了基于Eager Dijkstra算法变种的FPGA并行单源最短路径算法,每次迭代从优先队列移除多个元素进行并行处理,开发了并行性。为了实现大规模优先队列的处理,提出了基于片外存储的大规模优先队列实现方法,利用片外DRAM存储器保存溢出队列元素,并设计合理策略将片外元素重新放回片内,从而保证了大规模优先队列处理的正确性。选取真实的公路网络数据进行测试,实验结果表明基于FPGA的并行单源最短路径算法和通用微处理器上的软件实现相比可以获得5倍的加速效果,并且功耗仅为通用微处理器的1/4。(2)提出了面向大规模图最小生成树计算的FPGA并行算法和硬件实现结构。针对现有最小生成树计算的FPGA实现并行度开发不够和不能处理大规模图的问题,提出了一种基于Prim算法的FPGA最小生成树并行算法。该算法选取多个起始结点并行执行Prim算法生成多个子树,当检测到子树间冲突时,停止当前子树生成,选择其它的未访问结点继续生成新的子树,当所有结点都被访问时,对所有的子树进行合并。对于单个子树的Prim计算,提出了基于线性阵列优先队列的实现方法,当优先队列溢出时,采用DRAM存储溢出队列元素,实现了大规模子树生成。选取随机生成图进行测试,实验结果表明基于FPGA的并行最小生成树算法和通用微处理器上的软件实现相比可以获得2.58倍到6.88倍的加速比。(3)提出了面向大规模图宽度优先搜索(BFS)的FPGA消息传递并行算法和硬件实现结构。针对大规模并行宽度优先搜索通信延迟大的问题,首次提出了一种新颖的基于二维消息传递阵列结构的并行宽度优先搜索算法,利用片上存储减少了处理单元之间的通信延迟。与相关工作相比,该结构显着减少了片上存储资源的消耗,并且具备良好的可扩展性,能够映射到多FPGA系统。此外,提出了一种基于片上位图存储的分布式队列实现方法,该方法避免了为判断顶点是否为当前层待搜索顶点而引入的片外访存开销。使用不同类型的图进行了测试,并与相关工作进行了比较。由于随机访存的延迟较大,单片FPGA上的BFS算法实测性能低于相关工作的性能。尽管如此,本文提出的FPGA并行BFS算法和硬件结构在理论上能够扩展到任意数量FPGA构成的计算系统。(4)提出了面向大规模图匹配的FPGA并行算法和硬件实现结构。针对现有二部图图匹配计算的FPGA实现基于片上存储保存图数据,无法高效处理大规模图匹配的问题,提出了一种二部图图匹配的并行算法,该算法每次对未指派的多个结点进行并行处理,提高了并行性,在此基础上提出了一种基于片外存储的二部图匹配并行计算体系结构,与相关FPGA实现相比,该结构可以处理更大规模的图匹配。选取随机生成图进行了测试,实验结果表明,FPGA实现优于通用处理器的实现。

张绪冰[9]2004年在《基于高性能VIM体系结构的嵌入式存储系统的研究与实现》文中研究说明处理器和存储之间的性能差距日趋严重,将处理器和存储器集成到单一芯片的PIM技术为解决存储性能瓶颈问题提供了新的途径。相对于当前超标量和超长指令字处理器的局限性而言,向量处理器从开发数据级并行方面提供更高的性能。VLSI技术和半导体工艺的飞速发展,使向量处理所需的大量硬件可以集成在一块芯片内。把PIM技术和向量技术有机结合的高性能VIM体系结构,能够充分利用嵌入式DRAM所带来的高带宽,更好地发挥向量处理的优势,具有较高的性价比,是针对存储性能瓶颈的良好解决方案。 课题在研究PIM技术与向量处理技术的基础上,对VIM体系结构进行了研究,验证实现了存储器内置向量处理器——KD-VIM-1。本文对基于高性能VIM体系结构的嵌入式存储系统进行了深入研究,在分析目前国内外已有的嵌入式存储系统体系结构的基础上,提出了KD-VIM-1系统的嵌入式存储系统体系结构。研究了几种交叉开关模型和相关调度算法,分析了VIM体系结构的访存特征,提出并实现了KD-VIM-1存储交叉开关。同时对低位交叉编址技术、扭斜交叉编址技术进行了探讨,设计了适合于KD-VIM-1的嵌入式存储系统的编址方式。 最后,本文采用硬件描述语言VHDL实现了KD-VIM-1的嵌入式存储系统,进行了功能模拟,采用Altera Stratix FPGA完成了综合,并在ProSuperStar开发板上对KD-VIM-1的嵌入式存储系统进行了验证。

夏飞[10]2011年在《生物序列分析算法硬件加速器关键技术研究》文中指出生物序列分析是现代生命科学领域重要的基础性研究工作,由于该领域应用的广泛性、程序特征的复杂性以及海量数据特征对计算机性能提出越来越高的要求,迫切需要高性能计算的支持。现有的基于CPU和GPU的通用计算平台虽然能够提供很强的峰值计算能力,但是不能在运算粒度、存储调度、计算适应度方面主动拟合应用的特点,难以应对生物序列分析领域细粒度的位级操作和不规则的计算、存储需求,实际应用效率低。近年来,FPGA器件以其可编程特性、细粒度并行能力、丰富的计算资源、灵活的算法适应性、低硬件代价和高性能功耗比成为理想的定制计算平台。本文针对生物序列分析应用在通用计算平台上并行性能不高的问题,基于通用微处理器结合FPGA可重构算法加速器的异构体系结构,研究了该领域典型计算方法的细粒度并行化问题。以存储优化为核心,集中解决了可重构算法加速器设计中面临的若干技术难点,构建了面向序列分析应用的动态可重构原型系统,实现了对典型生物信息序列分析过程的定制计算,达到了提高特定应用性能和降低系统功耗的双重目标。本文取得的重要研究成果如下:1.针对不同领域动态规划算法的数据相关性和存储访问特征,基于FPGA平台提出了资源受限条件下的数据相关性转换、负载平衡的任务划分和存储调度策略,设计了并行计算结构,对典型算法实现细粒度并行。具体包括:针对回溯条件下序列比对过程存储需求膨胀的问题,提出了节省存储需求的细粒度并行算法,采用区域划分和计算策略解决了长序列比对面临的FPGA片内逻辑和存储资源受限问题;利用二维串行动态规划问题具有的固定数据依赖和矩阵反对角线元素不存在数据相关的特点,提出基于同构线性阵列对矩阵反对角线元素实现并行计算的方法和加速器结构模板;采用等值罚分和仿射罚分模型分别实现了无回溯、片内回溯和片外回溯叁种序列比对设计方案,比较全面地解决了序列比对应用的硬件加速问题。针对RNA二级结构预测领域叁维非串行动态规划算法中变化的数据相关距离、不规则计算和非连续存储问题,提出了一系列提高存储效率的优化措施:通过重组单元计算顺序提高数据局部性,通过数据重用减少片外存储访问开销,通过数据预取和缓存、同步点写回等措施隐藏片外访问延迟,实现计算和通信的平衡;利用反对角线元素计算量相等且不存在数据依赖的特点,提出了细粒度并行算法和基于主从多处理单元的加速器设计模板;利用列元素计算量之差只与列坐标相关的特点,采用“区域分割”和“按列轮转划分”的层次化任务分配策略实现处理单元间的负载均衡;基于加速器设计模版,在国际上首次实现了对Zuker、RNAalifold和CYK叁种典型算法的硬件加速,取得了10倍以上的加速效果。针对带假结RNA结构预测领域的四维动态规划算法中复杂数据相关性和存储带宽受限的问题,提出了“时空域重迭”的数据相关性分析方法;通过对访存请求的动态调度减少片外存储访问的随机性,降低了50%的存储带宽需求;采用基于多处理单元的异构线性阵列结构,实现了对四维动态规划矩阵的细粒度并行计算,相对于通用计算平台取得了3~5倍的加速效果。2.针对启发式序列数据库搜索算法中存在的种子检测效率不高的问题,提出一种不基于常规查询策略的并行多种子检测算法和基于线性结构的并行多种子搜索阵列;采用阵列分组和并行种子收集、组内种子合并和多种子并行扩展策略实现了无阻塞的数据库搜索,成功对BLAST数据库搜索算法实现硬件加速。3.针对基于HMM模型的随机搜索过程中紧耦合的数据相关导致矩阵元素无法并行计算的问题,提出粗细粒度混合的HMM模型并行计算方法,即对单个元素内部状态的计算实现细粒度并行,对“模型—序列”间的匹配过程实现粗粒度并行。与目前最好的硬件加速方案相比,单PE的计算性能提升了30%;与运行在通用计算平台上的搜索程序相比,可获得接近200倍的全局加速效果。4.以蛋白质结构预测为应用背景,提出了贝叶斯网络模型的细粒度并行方法和计算结构。针对模型的串行结构和不同处理阶段负载不匹配的问题,提出了多阶段混合流水处理策略和细粒度并行计算结构,采用关键流水段复制实现了流水线负载平衡;针对模型参数的共享访问竞争和地址间隔访问的特点,采用参数表分割、复制和传递策略提高参数访问效率,首次对基于贝叶斯统计和网络模型的蛋白质结构预测应用成功实现硬件加速。5.以大容量FPGA芯片和SDRAM存储器为基础设计了硬件算法加速器,与通用微处理器结合构建了基于异构体系结构的序列分析原型系统,并开发了序列分析应用程序集和FPGA配置文件库,采用FPGA动态全局重构技术实现了不同应用间的快速切换,提高了原型系统对应用程序的适应性,达到了对生物序列分析典型应用的整体加速效果。研究结果表明,本文提出的通用微处理器结合可重构FPGA算法加速器的异构计算平台对生物序列分析应用具有显着的加速效果,并能实现提高计算性能和降低系统功耗的双重目标。

参考文献:

[1]. 基于FPGA的高速遥感卫星图像数据传输系统设计与实现[D]. 张宇嘉. 华中科技大学. 2016

[2]. 多端口存储控制器的设计与实现[D]. 陈琳. 解放军信息工程大学. 2004

[3]. 多端口存储控制器的设计与实现[J]. 彭炳华, 黄力. 微计算机信息. 2007

[4]. 基于AXI4的卫星接收机DDR3多端口存储的设计[J]. 张宇嘉, 杨晓非, 姚行中. 电子器件. 2016

[5]. 面向RF自动测试平台应用的DDR2-SDRAM控制器设计[D]. 何雅乾. 东南大学. 2015

[6]. 面向数字视频解码器的存储管理方法研究[D]. 高红莉. 清华大学. 2010

[7]. 基于FPGA的多端口存储控制器设计[J]. 张阳, 王中阳, 王红胜, 向凯全. 河北工业科技. 2010

[8]. 基于FPGA的图计算并行算法和体系结构研究[D]. 雷国庆. 国防科学技术大学. 2015

[9]. 基于高性能VIM体系结构的嵌入式存储系统的研究与实现[D]. 张绪冰. 国防科学技术大学. 2004

[10]. 生物序列分析算法硬件加速器关键技术研究[D]. 夏飞. 国防科学技术大学. 2011

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

多端口存储控制器的设计与实现
下载Doc文档

猜你喜欢