超长指令字论文_徐起超,杜慧敏,刘青楠

导读:本文包含了超长指令字论文开题报告文献综述、选题提纲参考文献及外文文献翻译，主要关键词:指令,处理器,可编程,重构,内积,标量,寄存器。

超长指令字论文文献综述

徐起超,杜慧敏,刘青楠^[1]（2018）在《基于超长指令字的顶点染色处理器设计》一文中研究指出为了提高嵌入式图形处理器GPU(Graphic Process Unit)中顶点染色处理器,设计了一款超长指令字格式的可编程顶点染色处理器,采用六级流水线实现,每条指令在同一个周期最多执行7种操作,软硬件协同设计,降低了功耗.采用基于FPGA的验证方式,可编程顶点染色处理器在Xilinx Virtex-7FPGAs V2000T上最大工作频率达到50MHz,顶点的处理速度达到0.16M/s,处理一个顶点平均44个周期,在Synopsys公司Design Compiler工具130μm工艺综合下,主频150MHz,功耗约为177.742 8mW.(本文来源于《微电子学与计算机》期刊2018年10期）

严迎建,王寿成,徐进辉,陈韬^[2]（2017）在《面向密码流体系结构的超长指令字可重构研究》一文中研究指出可重构密码流体系结构是一种面向密码运算的新型体系结构,但存在着超长指令字(VLIW)代码稀疏和Kernel体积过大的问题。该文以可重构密码流处理架构S-RCCPA为研究平台,通过大量密码算法在S-RCCPA架构上的适配分析,提出了VLIW可重构技术,并设计了Kernel级指令集、VLIW可重构算法及指令可重构单元。实验证明,该技术能够有效提高VLIW的指令密度,同时降低了VLIW的指令宽度,使得整个Kernel体积减小了约33.3%,并将微码存储器的容量由96 k B降为64 k B,有效降低芯片整体面积和系统功耗。(本文来源于《电子与信息学报》期刊2017年01期）

吴俊朋^[3]（2016）在《数据密集型研究方法在分簇超长指令字处理器指令调度中的应用》一文中研究指出随着移动设备和嵌入式设备在生活中的普及,处理器对低能耗的要求会越来越高。全互连式VLIW结构处理器在时延、面积以及寄存器访问端口数量等设计方面的可优化空间出现瓶颈,针对此问题进行了改进的总线互连式分簇VLIW结构处理器具有明显优势,但后者增加了相应软件设计的难度和问题的复杂度。潜在的问题是使处理器在运行时产生额外的能量消耗。优秀的指令调度算法能通过合理安排指令在各周期分簇上的调度次序来降低软件能耗,从而降低整个处理的能耗,在低能耗处理器研究中的地位十分重要。而对于分簇VLIW处理器的调度算法,要满足指令之间的依赖关系,在为一条指令选择所在簇号的时候必须考虑其所依赖的指令被分配到的簇。如果当前指令与其所依赖指令不是分配到同一个簇中,那么就要引发至少一次的不同簇间指令处理结果的传递,复制指令执行结果的操作增加了额外能量消耗的同时,其所花费的周期很可能还会拖长整个程序的执行时间;而所有依赖于该指令的其他后继指令也会受到当前指令分簇的影响。基于上述需求,本论文分析了现有调度算法的现状,借鉴其他算法设计中优秀的解决思路并克服其缺点,提出一种基于数据依赖图的高度优先密切依赖的调度算法。算法主要思路是根据数据依赖图,将未调度节点看成是一个新的调度图;用节点高度实时确定当前图中的关键节点,确定当前节点与其他节点的密切依赖关系,并分别作为算法选择节点和分簇的依据。与其他算法相比,本算法的优势在于,既能从全局的视角统筹各指令的依赖关系,又能从局部分析当前待调度指令与存在密切依赖关系和竞争关系指令的相互影响,以达到各分簇调度节点的负载均衡;以优先调度实时关键路径节点的方式来平衡整个程序各部分的执行时间分配。通过实验证明,本算法在整个程序执行周期和簇间数据传递数量两项执行效果评价指标方面,存在明显优势。(本文来源于《北京理工大学》期刊2016-06-01）

李源,马海林,何虎^[4]（2016）在《基于MIPS指令集的超标量和超长指令字混合架构处理器设计》一文中研究指出针对嵌入式和移动设备对处理器高性能低功耗日趋强烈的要求,提出一种基于MIPS指令集的顺序超标量和超长指令字混合架构处理器设计方案,便于以同构多核架构代替目前业界普遍采用的CPU与DSP异构结构,降低功耗面积,同时以VLIW模式获得较好的DSP性能。在PD(processor designer)平台下以LISA语言建立处理器的周期精度软件模拟器,通用性能和DSP性能分别由dhrystone、coremark基准测试程序及EEMBC的telecom测试程序进行验证。测试结果表明,该设计以较低的硬件开销通过混合架构获得较高的数字信号处理性能,在高性能低功耗的处理器应用场景中拥有良好的适用性。(本文来源于《计算机应用研究》期刊2016年06期）

丁陈飞,郑启龙,徐华叶,付和萍,陈元^[5]（2015）在《多簇超长指令字DSP复数运算的编译优化》一文中研究指出多簇超长指令字(VLIW)DSP提供了多种复数指令,而编译器不能直接利用这些复数指令来提升编译性能。特此提出一种针对复数运算的编译优化方法,通过将复数操作基本块中加载指令和存储指令前移后置操作使得复数运算操作汇聚成连续操作片寻找复数指令合成的机会。实验结果表明该优化方法能减少复数程序的时钟周期。(本文来源于《计算机应用与软件》期刊2015年02期）

徐华叶,郑启龙,丁陈飞,徐东鹏^[6]（2013）在《面向多簇超长指令字DSP的向量化优化算法》一文中研究指出BWDSP是一款针对高性能计算领域设计的处理器,采用多簇超长指令字(VLIW)体系结构和SIMD架构,同时也提供了很多向量化指令.然而现有的编译框架无法对这些向量化指令提供支持,因此本文提出了一种向量化优化算法,可以显着提高一些在DSP领域有着广泛应用的计算密集型程序的性能.最终实验结果表明,该优化算法能够平均取得6.60倍的加速比.(本文来源于《计算机系统应用》期刊2013年12期）

宋云朋^[7]（2013）在《基于超长指令字的ASIP设计与实现》一文中研究指出在数字信号处理的应用中，采用传统的通用处理器(GPP, General PurposeProcessor)或者专用集成电路(ASIC，Application Specific Integrated Circuit)难以同时兼顾灵活性和高效性方面的要求。专用指令集微处理器(ASIP, Application SpecificInstruction set Processor)结合了GPP的可编程特性和ASIC的高速性，逐渐成为在硬件实现时一个新型的研究领域。在处理器结构中，超长指令字(VLIW，Very Long Instruction Word)结构即具有支持较高的指令级并行性的能力，又能够用较为简单的控制逻辑实现，在数字信号处理领域得到了飞速的发展。本文设计了基于超长指令字的ASIP，包括硬件功能的设计和软件功能的设计：硬件方面，设计并实现了一个基于超长指令字的ASIP，并且阐述了基于超长指令字VLIW的ASIP指令集和各个处理单元的结构设计；设计了处理器的流水线结构，使用相关技术解决了流水线中的数据相关和控制相关等问题，提高了处理器的工作频率。软件方面，设计并实现了对应汇编器的，阐述了汇编器的设计方法和流程，并且在汇编器中添加了寄存器重命名和指令调度技术，成功地提高了指令级并行性。(本文来源于《西安电子科技大学》期刊2013-03-01）

雷元武^[8]（2012）在《基于超长指令字模板高精度算法加速器体系结构研究》一文中研究指出科学计算已经成为继理论研究和物理实验之后，现代科学研究的第叁种手段，其计算结果的精度将直接影响科学研究的成果和成败。随着计算规模不断扩大，科学计算中浮点运算的舍入误差累积加剧，这导致计算结果不精确、不可靠、甚至不正确。高精度算术是保证大规模科学计算精度最直接、有效、可靠的方法，同时它具有提高算法可再现性、增强算法稳定性、加快算法收敛速度等优势。然而，基于CPU或GPU的通用计算平台，内部定制了确定宽度的数据通路和固定精度的运算单元，只能通过软件模拟的方式实现多种高精度浮点算术，这导致计算性能和效率低。近年来，FPGA器件以其可定制、可重构、高性能、低功耗的优势，成为理想的加速计算平台。本文将FPGA可重构技术、超长指令字（VLIW）技术与高精度计算相结合，探索解决基于FPGA的高精度算法加速器设计面临的关键问题，开发高精度应用中不同层次的并行性和最大化FPGA的性能和资源利用率。本文取得的主要研究成果如下：1、提出一个适应高精度运算的处理器体系结构——定制VLIW模板。VLIW技术是挖掘算法并行性的一种理想方法，具有硬件结构简单、性能高和扩展性好的特点。本文针对高精度运算的特征，在FPGA平台上定制了一个VLIW模板结构，内部集成多个定制高精度基本运算单元，通过VLIW指令的显式并行技术来开发高精度运算中的指令级并行。基于此模板建立可配置的多VLIW核的高精度算法加速器体系结构，开发高精度应用算法中线程级并行。最后，针对VLIW技术中的关键问题——代码膨胀，提出一种适合FPGA平台的多级索引VLIW指令压缩技术，使用标志位和多存储体方式解决传统代码压缩技术中的VLIW指令长度不确定问题，最大限度避免空操作带来指令空间浪费。在基于定制VLIW模板的四精度基本函数处理器和四精度算法加速器设计中，该压缩策略的压缩率分别为37.5%和24.5%。2、提出基于全展开的精确四精度向量内积算法及实现结构。针对科学计算中最常见的、对数值算法稳定性和结果精度影响较大的基本操作——向量内积，本文提出基于全展开的精确四精度向量内积算法和实现结构（Quad-HPMAC），采用无损失的定点操作获得精确内积结果，采用累加和的两级存储结构、累加和划分及进位保留累加等优化策略来提高Quad-HPMAC单元的频率和吞吐率。最后，基于Quad-HPMAC模块建立统一四精度矩阵运算加速器，实现矩阵乘、LU分解和MGS-QR分解算法。实验结果表明，相对于通用Intel多核平台上并行软件实现，该加速器能够取得5~8位的精度提升和40倍以上的性能提升。3、提出基于VLIW模板的统一四精度基本函数计算模型及实现结构。针对科学计算中基本函数种类多、实现复杂、使用频率低、计算延时大的特征，本文提出基于VLIW模板的统一四精度基本函数计算模型和实现结构（QP_VELP）。该结构具有性能高和扩展性好的优势，利用Estrin策略提高多项式计算的并行性，通过循环展开、流水线并行和VLIW指令显式并行技术提高性能。与相关工作相比，统一基本函数处理器不仅在资源消耗、延时、精度等方面占优，而且该处理器能够使用统一硬件资源实现多种基本函数的计算，在实际科学和工程应用中取得较高的资源利用率。4、提出基于VLIW模板的四精度算法加速器结构。本文针对科学计算中不规则类计算密集型算法，以空间目标轨道预测SGP4/SDP4算法为例，提出基于VLIW模板的四精度算法加速器结构。通过集成QP_VELP模块实现多种使用频率低的基本函数，解决基本操作种类多的问题；通过定制VLIW指令的约束来满足操作之间复杂的数据依赖关系；通过多个四精度操作单元的并行执行来开发算法的指令级并行性；通过多个VLIW核的并行执行来开发算法的线程级并行。同时，本文还提出基于贪婪思想的指令调度算法，结合存储空间分配及冲突检测，实现算法的数据流图到定制VLIW指令槽的映射，最大限度地减少定制VLIW指令中的空操作。实验结果表明，相对于Intel多核处理器，该四精度算法加速器能够取得7.8~15倍的性能提升。5、针对某些计算精度要求更高的特定科学应用领域，本文将四精度算法加速器中的相关概念、研究及实现方法扩展到任意精度浮点算术系统中。提出基于全展开的任意精度精确向量内积算法及实现结构（VPMAC）和基于VLIW模板的任意精度基本函数处理器（VP_VELP），其中VP_VELP内部集成多个任意精度基本操作单元，通过VLIW指令的显式并行技术和动态改变内部计算精度的方法来提高性能，使用统一硬件资源实现多种任意精度基本操作和任意精度基本函数。最后，通过VPMAC协处理器和统一任意精度矩阵加速器（VPMATA）这两种方式实现任意精度矩阵类算法。实验结果表明：相对于Intel四核处理器上的并行MPFR函数库，集成8个VPMAC模块和1个VP_VELP模块的VPMATA能够获得13~63倍的加速效果。(本文来源于《国防科学技术大学》期刊2012-03-01）

张延军,何虎,周志雄,孙义和^[9]（2008）在《RFCC-VLIW:一种适用于超长指令字处理器的寄存器堆结构》一文中研究指出为了解决超长指令字处理器中功能单元的增加会带来寄存器堆代价的急剧增长的问题,该文提出了一种新的寄存器堆结构。该结构采用分簇的方式将传统的单一寄存器堆化分成多个本地寄存器堆,每个寄存器堆对应一个功能单元簇,每个功能单元簇可以自由访问它对应的本地寄存器堆。同时该结构采用一个全局寄存器堆将所有功能单元簇互连以方便各个功能单元簇之间互相访问数据。寄存器堆的划分减少了寄存器堆的端口数量,有效降低了处理器中寄存器堆在面积、功耗、访问延时等方面的代价。全局寄存器堆的使用减少了分簇结构带来的数据复制操作,降低了分簇结构带来的处理器性能损失。试验结果证明,在降低寄存器堆代价的同时,该结构将处理器的平均性能损失降低到13%。(本文来源于《清华大学学报(自然科学版)》期刊2008年10期）

张帆,葛颖增,窦勇^[10]（2008）在《超长指令字DSP上的数字图像处理算法优化方法》一文中研究指出数字图像处理(Digital Image Processing)广泛应用于航空航天、生物医学工程、通信工程、工业和工程、军事公安、文化艺术等方面。由于一些应用的实时性和环境要求,通常采用数字信号处理器(Digital Signal Processing,简称DSP)处理图像。采用超长指令字(Very Long Instruction Word,简称VLIW)体系结构的DSP由于功耗低、硬件结构简单和并行性好等优点,在实时图像处理应用中使用广泛。根据图像处理算法特点和VLIW DSP体系结构特点提出在VLIW DSP上优化图像处理算法的一般方法,包括存储优化方法和指令级并行优化方法。最后采用提出的方法对多个常用的图像处理算法优化,试验结果表明有较好优化效果。(本文来源于《微计算机应用》期刊2008年10期）

超长指令字论文开题报告

（1）论文研究背景及目的

此处内容要求：

首先简单简介论文所研究问题的基本概念和背景，再而简单明了地指出论文所要研究解决的具体问题，并提出你的论文准备的观点或解决方法。

写法范例：

可重构密码流体系结构是一种面向密码运算的新型体系结构,但存在着超长指令字(VLIW)代码稀疏和Kernel体积过大的问题。该文以可重构密码流处理架构S-RCCPA为研究平台,通过大量密码算法在S-RCCPA架构上的适配分析,提出了VLIW可重构技术,并设计了Kernel级指令集、VLIW可重构算法及指令可重构单元。实验证明,该技术能够有效提高VLIW的指令密度,同时降低了VLIW的指令宽度,使得整个Kernel体积减小了约33.3%,并将微码存储器的容量由96 k B降为64 k B,有效降低芯片整体面积和系统功耗。

（2）本文研究方法

调查法：该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法：用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法：通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法：通过调查文献来获得资料，从而全面的、正确的了解掌握研究方法。

实证研究法：依据现有的科学理论和实践的需要提出设计。

定性分析法：对研究对象进行“质”的方面的研究，这个方法需要计算的数据较少。

定量分析法：通过具体的数字，使人们对研究对象的认识进一步精确化。

跨学科研究法：运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法：这是社会科学用来分析社会现象的一种方法，从某一功能出发研究多个方面的影响。

模拟法：通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

超长指令字论文参考文献

[1].徐起超,杜慧敏,刘青楠.基于超长指令字的顶点染色处理器设计[J].微电子学与计算机.2018

[2].严迎建,王寿成,徐进辉,陈韬.面向密码流体系结构的超长指令字可重构研究[J].电子与信息学报.2017

[3].吴俊朋.数据密集型研究方法在分簇超长指令字处理器指令调度中的应用[D].北京理工大学.2016

[4].李源,马海林,何虎.基于MIPS指令集的超标量和超长指令字混合架构处理器设计[J].计算机应用研究.2016

[5].丁陈飞,郑启龙,徐华叶,付和萍,陈元.多簇超长指令字DSP复数运算的编译优化[J].计算机应用与软件.2015

[6].徐华叶,郑启龙,丁陈飞,徐东鹏.面向多簇超长指令字DSP的向量化优化算法[J].计算机系统应用.2013

[7].宋云朋.基于超长指令字的ASIP设计与实现[D].西安电子科技大学.2013

[8].雷元武.基于超长指令字模板高精度算法加速器体系结构研究[D].国防科学技术大学.2012

[9].张延军,何虎,周志雄,孙义和.RFCC-VLIW:一种适用于超长指令字处理器的寄存器堆结构[J].清华大学学报(自然科学版).2008

[10].张帆,葛颖增,窦勇.超长指令字DSP上的数字图像处理算法优化方法[J].微计算机应用.2008

论文知识图

标签：指令论文; 处理器论文; 可编程论文; 重构论文; 内积论文; 标量论文; 寄存器论文;

超长指令字论文_徐起超,杜慧敏,刘青楠

超长指令字论文文献综述

超长指令字论文开题报告

超长指令字论文参考文献

论文知识图

猜你喜欢