高性能DSP运算部件全定制设计优化研究

徐慧^[1]2004年在《高性能DSP运算部件全定制设计优化研究》文中研究指明当今的时代是信息化、数字化的时代,随着信息技术和计算机技术的高速发展,在各个领域的应用中,数字信号处理技术的重要性日益显现。数字信号处理技术的关键是数字信号处理器,对其性能的要求也日益提高。运算部件作为数字信号处理器的核心,对芯片的陛能、面积和功耗都有很重要的影响。本文的主要目的就是探讨如何对运算部件进行优化设计。通过回顾数字信号处理器技术的发展历史,本文分析其当前技术特点与发展趋势,追踪当前高性能数字信号处理器运算部件的技术特点,确定采用全定制设计方法对“银河飞腾-194”运算部件进行优化设计。采用全定制的方法设计出的带译码的桶形移位器、加法器和乘法器,在时序、面积、功耗等多个方面均优于采用标准单元综合方式设计的相应部件。桶形移位器的设计采用了全译码电路结构。采用全定制方法设计的桶形移位器面积仅为90×135平方微米。Spice模拟结果表明,最差隋况下该移位器的移位数据输入翻转率可达1GHz。加法器的运算时间对处理器的速度起着决定性的作用。加法器的设计采用了先进的并行前缀Han carlson结构,对逻辑级数与扇出度进行了很好的折中。加法器的设计还使用了多米诺动态电路,速度是静态电路的1.5～2倍,但是,采用动态电路通常会带来耦合电容、电荷分配等可靠性问题,文中对这些问题提出了解决或避免措施。乘法器的性能是评价数字信号处理器性能的一个重要指标。在乘法器的设计中,充分吸收了多种先进的乘法器设计技术。该乘法器有两种工作模式,普通模式和SIMD模式,可以支持16位整数乘法或2个8位乘法。部分积的产生中采用了有限符号扩展技术,减小了部分积的长度。乘法阵列的设计采用了4-2树形结构,这是一种快速而又结构规整的设计。4-2加法器采用传输门电路实现,大大减少了所需晶体管的数目,同时提高了系统速度。版图的设计采用了Synopsys公司的Enterprise EDA工具。首先采用自顶向下的方法进行版图全局规划,然后采用自低向上的方法绘制版图。设计中采取了防止闩锁的措施,确保版图的可靠性。最后,本文针对如何将全定制设计嵌入到基于综合的流程以及硬核的IP封装进行了探讨,重点解决了全定制设计的Synopsys视图查找表索引点选取问题。

周涛^[2]2013年在《1GHz X-DSP芯片ALU部件设计与实现》文中提出X-DSP芯片是一款采用45nmCMOS工艺，在最坏条件下目标工作频率为1GHz的高性能DSP。ALU部件的设计优化是提升DSP内核频率的关键技术之一，研究针对ALU部件的电路设计与物理实现具有重要的现实意义。本文以X-DSP芯片内核ALU运算部件设计优化为项目背景，采用层次化定制电路设计与优化方法，结合层次化物理设计与手工半定制物理设计方法设计并实现了高性能ALU部件。论文主要内容包括：设计与实现了ALU部件定点运算电路。基于前端设计ALU部件定点运算功能，以标准单元为基础针对定点运算完成了定制电路设计；采用层次化的设计方法完成电路设计，成功实现定点运算功能；通过静态时序分析，迭代优化电路，使得定点运算电路的绝对延时达到590ps；在电路优化中，创新性地设计了一种新的高速比较器，使得比较类指令功能的电路实现延时减小了23%。采用手工半定制和层次化相结合的设计方法完成ALU部件物理设计。采用手工半定制的方法完成定点部分物理设计工作，自主开发了基于perl程序语言的脚本完成了I/O接口的位置文件并结合层次化物理设计完成整个ALU部件的物理设计，实现的版图实现绝对延时为760ps，功耗为38.83mW，面积为76270平方微米；相比自动化的物理设计方法实现的ALU部件版图结果在功耗上减小了5.6%，在面积上减小了14%,在延时上减小了4.8%。版图结果证明通过手工半定制和层次化相结合的设计流程，能够提高设计的质量和并行性，缩短设计周期。完成了ALU部件的模拟验证。研究了ALU部件的模拟验证方法，通过模拟验证平台针对ALU部件操作数定点部分的电路模块，进行了功能性的验证；主要验证了定点运算指令在各个子模块的实现功能正确性，验证结果表明所设计的ALU部件满足系统设计要求。

罗飞^[3]2006年在《“银河飞腾”DSP乘法部件及算术逻辑运算部件的设计》文中研究表明YHFT-DSP是一款高性能32位的定点DSP,它采用VLIW(超长指令字)技术,一个节拍内最多可以发射8条指令。本论文在提出一种CPU研制思路的同时,对YHFT-DSP的乘法部件以及算术逻辑运算部件的设计、验证、逻辑综合等技术进行了深入研究。乘法部件是CPU内核中的重要功能部件之一,乘法操作的性能是评价DSP性能的一个重要指标。在乘法部件的设计中,充分吸收了国际上先进的乘法器设计技术并结合了设计本身的特点,对部分积的产生和压缩部分的深入研究,SIMD乘法算法的提出以及16×32位整数乘法的实现,多类型指令的电路复用,流水线的合理设计均是本设计中的特色所在。算术逻辑运算部件也是CPU内核中的功能部件之一,主要负责完成各类算术运算和逻辑运算。设计中阐述了SIMD类算术指令的实现方法,对于子功能模块的合理划分和总体结构的设计是关键所在。本文还从模块级和系统级两个方面对设计进行了模拟验证,在分析了验证方法的基础上,提出了本设计的验证方法,开发了有效的、完备的测试码,构建了测试模型,验证了设计的正确性。在论文的最后阐述了对两个部件的逻辑综合过程,首先总结了前述设计中优化的方面,然后对优化完的设计进行综合,结果表明两个部件在0.18微米工艺下的工作频率分别达到303.03MHz和384.62MHz,基本达到所要求的性能指标。

雷丛华^[4]2006年在《“银河飞腾”DSP乘法部件全定制设计优化》文中提出数字信号处理器(DSP)是一种具有特殊结构的微处理器,是数字信号处理技术的核心。YHFT-D4是本课题组研制的一款高性能32位DSP,它采用VLIW技术,一拍内最多可以发射8条指令。工作在250MHz时,每秒最高可完成2000MIPS运算,2000M个8位MAC运算。乘法操作的性能是评价DSP性能的重要指标,论文使用全定制方法完成了YHFT-D4乘法部件的设计与实现。YHFT-D4中设置了两个独立的乘法部件,每个乘法部件分两级流水实现。在乘法器的设计中,充分吸收当今先进乘法器设计技术。如在部分积产生中采用有限符号扩展技术,改进型Booth2编码技术,在部分积压缩阵列中采用快速而且结构规整的4-2树形结构。同时,乘法器的流水线设计具有SIMD技术。在第二站求和运算中,采用速度、面积、连线复杂度等综合情况较优的Han-Carlson点阵结构。在逻辑电路设计中,论文提出改进的电路结构,使信号与性能取得较好收益;尺寸参数定制中提出建构模型的方法使整体性能得到进一步优化;版图设计中,提出模块化布局方法,很大的提高了版图设计的规整性,可靠性。最后,设计实现后流片,为了能够在功能和性能上都达到测试的目标,论文中提出一套测试方案。测试结果令人满意,从而证明乘法器的性能在全定制方面的优势,同时也间接证明了测试方案的正确性,实用性与简易性。通过Synopsys公司的DC综合工具,0.18μm CMOS工艺库,典型条件下(电源为1.8V、温度25℃)进行模拟分析,该乘法器的关键路径延迟为4.2ns,频率约为240MHz。而采用全定制方法设计实现的乘法器,在0.18μm工艺,典型条件下Hspice模拟结果(逻辑延迟)为1.88ns,约500MHz,对乘法器模块流片后实测在400M到480M之间。在性能上取得了较大的改善。

李兆亮^[5]2006年在《“银河飞腾”DSP的ALU单元全定制设计优化》文中认为运算部件作为数据通路的重要组成部分,是数字信号处理器的核心,对芯片的性能、面积和功耗都有很重要的影响。本文的主要目的就是探讨如何对运算部件进行优化设计。在“银河飞腾”DSP芯片中,针对ALU运算单元的定点和浮点指令的运算过程,提出以下优化方案,对其第一站的一个41位加法器、第二站的一个56位移位器和第叁站的一个56位移位器采用全定制方法设计。在41位加法器设计中,研究了各种快速加法器的算法,采用速度最快的K-S算法进行全定制逻辑设计和版图设计。对版图提取寄生参数网表通过SPICE模拟结果表明,典型条件下,关键路径延迟0.955ns,面积12280μm~2。在56位桶形移位器设计中,在比较了各种译码移位方式之后,采用了速度较快,传输较稳定的2级3-8混合译码的结构。采用单传输管作为移位阵列,无源阵列大幅度节省了功耗。对版图提取寄生参数网表通过SPICE模拟结果表明,典型条件下,关键路径延迟(译码到数据输出)0.734ns,面积8152μm~2。本文还针对两个全定制设计模块提出完整的流片测试方案,采用扫描测试的方法借助FPGA-PCB板,使用最小的硬件成本进行功能和性能上的测试。此外还对全定制模块建立视图,嵌入到ALU运算单元中进行综合并且进行物理设计。采用了全定制模块设计在叁个流水站上的时序都有0.3ns左右的提高,很好地达到了优化目的。设计过程表明,采用全定制和半定制相结合的设计比单纯的半定制设计在时序、面积和功耗上都有明显的改进。

程伟^[6]2015年在《40纳米工艺下高性能DSP内核的物理设计与优化》文中认为YHFT-XX DSP是我校在40纳米工艺下自主研发的频率为1GHz的高性能多核DSP芯片,本文以其内核模块的物理设计为例,讲述了如何利用层次化物理设计方法来展开并行设计,缩短设计周期;将全局时序问题局部化,降低了设计难度;采用新的思想进行时序收敛设计,充分利用设计资源,提高设计效率。经过前期设计评估,对影响整个芯片时序收敛的内核模块进行了详细的层次划分,对时序影响最大的数据通路部分进行了单独的物理设计,然后在顶层迭代优化,以期达到1GHz的设计目标,本文主要做了以下几个方面的工作:(1)逻辑运算部件的物理设计及时序优化逻辑运算部件具有丰富的运算功能,在整个数据通路中占据着非常重要的地位,其时序在整个数据通路中相对比较关键,尤其是单拍的定点运算指令。本文采用以顶层需求为导向的设计方式,实时调整逻辑运算模块的布局以及pin脚规划方案,再根据模块的内部结构对子模块布局进行人工引导,以此确立了两种设计方案,第二种设计方案较第一种的规划更为合理,设计的复杂度更低,使得顶层数据通路部分的建立时间最大违反减小了163ps,面积减小了419579.376um2。(2)循环缓冲存储器的定制设计循环缓冲存储器是YHFT-XX DSP芯片内核部件的关键模块,为了能够为整个内核部件的时序优化提供有力的支持,采取了全定制的方式进行设计,与半定制设计方法相比,绝对延时减小了116ps左右,面积节省了56.38%,功耗降低了30.4%。(3)内核部件的时序优化设计YHFT-XX DSP内核部件作为整个芯片的核心,由于其强大的功能,复杂的逻辑设计,导致物理设计阶段时序分析难度较大,故而采用层次化物理设计方法,调用已经满足时序、面积、功耗要求的各个功能部件,继续进行优化。采用EDI结合二次开发工具以及手工ECO这种新的思想进行设计,有效缩短了时序收敛的设计周期,资源得到了充分利用。(4)手工ECO的时序优化针对芯片在完成物理设计后仍然有少量时序违反的情况,在对这些路径进行修复的同时不影响整体时序,本文采用ECO的方法对这些路径进行优化。根据PT报告,编写脚本,逐一对这些路径进行分析优化,最终基本达到时序要求。

曹乐根^[7]2013年在《1GHz X-DSP加法移位单元的设计与实现》文中研究说明数字信号处理器（DSP）是对信号和图像实现实时处理的一类芯片，具有高效率、低功耗和低成本的特点。随着DSP芯片的飞速发展，它在通信、军事、家电等社会生活的各个领域得到了广泛的应用，同时，越来越多的应用对DSP的性能也提出了更高的要求。X-DSP芯片是一款研制中的32位高性能DSP。该DSP属于自主正向设计，实现多功能定点和浮点运算，拥有极其强大的定点和浮点数值运算能力。它采用超长指令字（VLIW）技术和单指令流多数据流（SIMD）技术，设计目标主频达到1GHz。加法移位单元ASU（Add&Shift Unit）是X-DSP中定点和浮点运算的主要执行部件之一，本文在深入研究其指令功能的基础之上，设计并实现了该运算单元。主要内容如下：一、从ASU运算单元的总体设计入手，按照基于标准单元的设计流程对其进行了层次化的设计，同时结合全定制的设计方法，对ASU运算单元的移位关键部件进行了定制设计，达到了整体设计目标。二、深入研究了ASU运算单元的结构，合理地划分了子功能模块，并采用多种方法和设计技巧对各个子功能模块和关键部件进行了逻辑设计，达到了时序的要求。叁、对编写好的RTL级代码进行了模拟功能验证，开发了ASU运算单元的测试向量，并结合FPGA的验证方法，对目标设计进行了补充验证，充分保证了ASU运算单元的功能正确性。四、总结了ASU运算单元在逻辑综合时应考虑的一些问题，并针对设计的特点和要求，提出了多种优化策略对目标设计进行优化，通过对不同子模块的多种实现方案进行综合比较，最后选择了合适的方法对ASU运算单元进行设计。最后，在45nm CMOS工艺下，使用Synopsys公司的综合工具（DesignCompiler）在worst case条件下对ASU运算单元进行逻辑综合，时序、面积和功耗方面都获得了比较令人满意的结果：频率达到了1GHz的设计目标，面积为63709.329829平方微米，动态功耗和静态功耗分别为10.5928mW和1.6359mW。

丁伟^[8]2009年在《YHFT-DX高速运算模块的全定制设计》文中研究表明数字信号处理器(DSP)是一种特别适合于数字信号处理运算的嵌入式微处理器。随着其在通信、多媒体处理等高端领域的广泛应用,对DSP性能的要求也越来越高。运算模块作为数据通路的重要组成部分,是数字信号处理器的核心,对芯片的性能、面积和功耗都有很重要的影响。本文设计实现的高性能运算模块是“YHFT-DX”DSP执行单元中的重要模块之一,经过系统细致的时序分析,各定制运算模块均达到了执行单元分配的时序要求,保证了各执行单元全定制设计达到600MHz的要求。论文的主要工作包括:1、优化改进了常用算术运算操作算法,并根据优化算法设计了叁个算术运算模块的逻辑结构。改进后的模块控制流与数据流分离,结构清晰,有利于开展电路设计。同时,改进后叁个算术模块整体结构相似,各模块很多组成部分是一样的,在版图设计时可以有效地复用,大大降低了版图设计的难度。2、研究了运算模块的核心器件—加法器和移位器的实现算法和结构。设计实现了16位的SIMD加法器、混合40位加法器和漏斗移位器。3、研究了高速逻辑设计优化方法,在实际的模块设计中,完成了逻辑级数确定、电路结构选择、电路尺寸优化、定制版图设计等流程,对设计中需要注意的问题进行了总结,给出了解决办法。最后完成了叁个算术模块的整体版图设计。4、对基于模块的层次化验证进行了深入研究,分析了原型设计、算法结构优化、电路设计、电路尺寸优化、版图设计、版图后模拟各个阶段验证面临的问题,提出了相应的解决方法,并在工程中实践了这些方法,提高了验证效率,加快了全定制设计周期。同时分析了全定制设计过程中可能存在的设计迭代问题,提出了一些在实践中得出的预防设计迭代方法和设计修改方法。基于本文的设计,对BC单元SIMD模块在0.13微米工艺下进行了投片验证。

李国强^[9]2012年在《SIMD DSP中的高性能定点算术运算部件的设计与实现》文中提出在视频图像处理、雷达信号处理和无线通信等嵌入式计算领域，由于处理数据量较大、数据并行性高，对数据计算的精度和实时性要求高，而且这些数据的处理具有高的乘法运算密集性和加法运算密集型，使得数字信号处理器对乘加混合运算和并行运算的处理能力需求变得日益重要。本文依托“YHFT-Matrix DSP”的开发与研制，旨在研究和设计面向SIMD DSP的高性能定点算术运算部件，以满足数字信号处理器对乘加混合运算和并行运算的处理能力。该部件集成了加减法、乘法、乘加、乘减、点积和复数等各种运算，并使这些运算支持并行处理。本文的主要工作和贡献如下：(1)采用并行前缀加法器中的Kogge-Stone树结构，由符号位控制和进位控制的方法实现了SIMD加法器，并添加饱和处理功能。该加法器能完成8/16/32/40位SIMD加法/减法，包括有符号/无符号运算，且能工作在饱和模式和非饱和模式。(2)采用符号预处理和拼接的技术对两个16×8乘法器组合实现了16位SIMD乘法器，其中的16×8乘法器采用基4Booth编码、以5-2和4-2压缩器为主的华莱士压缩树和并行前缀Kogge-Stone树结构作为最终加法器的方法实现。同时本文设计了32位SIMD乘法器，该乘法器能完成8/16/32×16/32位SIMD有符号/无符号乘法。(3)根据Mibench算法、LTE协议、4G无线协议和H.264中的核心算法的指令需求分析结果，本文设计了4站流水结构的高性能定点算术运算部件。该部件能有效的完成高并行性的乘法密集性和加法密集性运算。本文所设计的算术运算部件应用在YHFT-Matrix DSP芯片中，目前该芯片已经流片成功，SDK板测试表明本算术运算部件能很好的满足SIMD DSP所面向的乘法密集性和加法密集性的嵌入式计算需求。

张嘉琛^[10]2010年在《数字信号处理芯片中的高性能算术逻辑单元设计》文中提出随着集成电路设计的进步、制造技术的发展和软件开发手段的日益成熟,数字信号处理器在通信、多媒体、信息家电等领域得到了极为广泛的应用。然而,应用的飞速发展也带来了计算复杂度的提高,对数字信号处理器的性能带来了挑战。本文旨在设计高性能的算术逻辑单元,以满足应用对数字信号处理器处理能力的更高要求。本文首先完成了对当代数字信号处理器的各种电路结构的研究,并重点分析了单指令多数据流(SIMD)结构。基于该结构本文主要完成了以下工作:(1)从传统算术逻辑模块的架构出发,通过研究算术运算和逻辑运算的异同,提出了一种基于真值表的多功能逻辑单元实现方法。同时提出了一种与SIMD指令集的特点相适应的基于进位选择加法器的亚字并行进位链电路。综合以上两部分设计,本文完成了一款32位定点高性能数字信号处理器的算术逻辑单元,并对其进行了相关指令集的功能验证。为了进一步进行性能优化,本文还使用超前进位链(Carry Look-ahead Chain)对该算术逻辑单元进行优化,优化后的时序达到了运行在500MHz时钟频率下的效果,面积和功耗也较优化前有所改善。之后探讨了基于定制单元的电路设计方法,并对设计的物理实现效果进行了研究。(2)研究了基于ROM逻辑电路结构和特性,同时参照基于ROM逻辑电路的设计方法,本文对全加器单元模块进行了网表级的设计,然后对ROM模块进行了化简,探索出一种对ROM块进行化简和衡量复杂度的方法。根据该方法,文中对2位和4位的进位选择加法器(CSA)单元进行了基于ROM模块的网表级设计,并指出了ROM优化的方向。实验结果表明该设计与RTL综合设计方法的结果相比,尤其是对较复杂设计,在面积和功耗上具有明显优势。

参考文献：

[1]. 高性能DSP运算部件全定制设计优化研究[D]. 徐慧. 国防科学技术大学. 2004

[2]. 1GHz X-DSP芯片ALU部件设计与实现[D]. 周涛. 国防科学技术大学. 2013

[3]. “银河飞腾”DSP乘法部件及算术逻辑运算部件的设计[D]. 罗飞. 国防科学技术大学. 2006

[4]. “银河飞腾”DSP乘法部件全定制设计优化[D]. 雷丛华. 国防科学技术大学. 2006

[5]. “银河飞腾”DSP的ALU单元全定制设计优化[D]. 李兆亮. 国防科学技术大学. 2006

[6]. 40纳米工艺下高性能DSP内核的物理设计与优化[D]. 程伟. 国防科学技术大学. 2015

[7]. 1GHz X-DSP加法移位单元的设计与实现[D]. 曹乐根. 国防科学技术大学. 2013

[8]. YHFT-DX高速运算模块的全定制设计[D]. 丁伟. 国防科学技术大学. 2009

[9]. SIMD DSP中的高性能定点算术运算部件的设计与实现[D]. 李国强. 国防科学技术大学. 2012

[10]. 数字信号处理芯片中的高性能算术逻辑单元设计[D]. 张嘉琛. 上海交通大学. 2010

标签：计算机硬件技术论文; dsp论文; 加法器论文; 乘法器论文; 数字信号处理器论文; 算术逻辑单元论文; 运算速度论文; 时序电路论文; dsp芯片论文; dsp技术论文;

高性能DSP运算部件全定制设计优化研究

参考文献：

猜你喜欢