多媒体应用的高性能数字信号处理器功能部件结构设计研究

多媒体应用的高性能数字信号处理器功能部件结构设计研究

郑伟[1]2003年在《多媒体应用的高性能数字信号处理器功能部件结构设计研究》文中指出由于多媒体应用的发展,以DSP处理器结构为基础的媒体处理器芯片的研究成为热点。在深亚微米媒体处理器芯片设计实践中,高性能功能部件的设计和实现是研究工作的关键问题之一。本文从深亚微米时代VLSI设计的特点出发,主要研究了面向多媒体应用的处理器芯片MD32中高速功能部件的结构设计、片上存储系统设计和低功耗考虑: 在MAC(乘加器)模块的研究与设计中,通过对乘法运算的拆分,以四级流水的方式实现了单周期32比特乘累加运算;通过分析二进制乘法运算步骤以及时延分布,提出利用部分积计算结果产生次序的差异,将MSB(Most Significant Bits)部分和LSB(Least Significant Bits)部分的进位传递处理提早进行,最终以改进Booth算法、Wallace树结构和LRCF(Left-to-Right,Carry-Free)算法实现了具有较高速度和较好功耗性能的16比特×8比特乘法器。 支持多媒体扩展指令的ALU模块以及DAG(Data Address Generation)模块的研究和结构设计是MD32处理器设计的重要环节。MD32的指令集中包括大量SIMD(Single Instruction Multiple Data)结构的多媒体扩展指令,ALU模块是其主要的硬件支持部分。在分裂式ALU设计工作中,提出了叁种方法解决时延问题: (一)具体分析关键路径中决定时延的关键信号,优化其相关逻辑电路,提高速度,减小模块整体关键路径时延。 (二)在逻辑结构设计时充分考虑连线时延的影响,利用带时延的DFG分析逻辑结构,特别是复杂的选择结构,通过分解任务,调整次序,优化结构,减小电路时延。 (叁)对于功能复杂,经过上述优化方法仍然不能满足时延要求的,采用流水技术分级实现。 数字信号处理器的重要特征之一就是对于窗口寻址和比特反转寻址等特殊寻址模式的支持。在DAG模块的设计中,以超前进位加法器构成进位选择结构实现了对于比特反转寻址计算,以两级流水(ID、DA)实现了窗口寻址计算,满足了时延要求。 在MD32的片上存储系统设计中,进行了相应的低功牦设计考虑。由于MD32采用了cache结构加片上RAM组成面积较大的片上存储系统,其功耗成为整块芯片的最主要部分。考虑采用子组块(sub-bank)技术和线缓冲器(Line Buffer)技术降低片上存储系统的功耗。 数据通路的功耗也是DSP处理器功耗的重要部分,考虑采用门控时钟技术防止MAC模块和ALU模块同时工作造成的功耗浪费,最后分析了MD32芯片的功耗特征。

张奇[2]2008年在《媒体数字信号处理器IP核关键技术研究》文中认为随着深亚微米工艺的进步和芯片设计技术的发展,将系统集成在一块芯片中成为现实,嵌入式系统设计进入了多处理器系统芯片时代。多媒体应用强有力地推动着芯片产业的发展,其中高灵活性、高性价比的数字信号处理器在媒体处理领域得到了广泛的应用。媒体增强型数字信号处理器核的使用加快了嵌入式系统芯片的开发速度,多核数字信号处理器也已经引起业界的广泛关注。本文作者参与了浙江大学信息与通信工程研究所SoC R&D小组承担的具有自主知识产权的媒体数字信号处理器MediaDSP64的研发工作。作为部分研究成果,本文着重探讨了媒体数字信号处理器IP核中部分关键技术,涉及到处理器微结构设计、数据搬运机制、精确异常处理以及实时操作系统和软件调试应用等多个方面。在DSP微结构设计中,从流水线控制与化解数据冲突出发,对指令流水线执行过程进行抽象化,构建了一个通用的数据旁路模型,同时给出一种较为准确的旁路设计复杂度评估方法。通过旁路模型映射,针对MD64流水线的特点,数据旁路设计采用精简部分旁路、地址寄存器旁路缓存、按需冲突检测等创新思想,有效降低了旁路硬件开销,提高了流水线的执行效率,并且对关键控制信号采用去耦合策略,有效减少了关键路径延时。实验证明这是一种兼顾效率与资源开销的优化设计。本文的通用旁路模型不但适用于复杂标量流水线的旁路设计,而且可以扩展到多发射处理器数据旁路网络的分析。从数据运算与多数据搬运任务的并行性方面,阐述了利用DMA技术实现媒体数字信号处理中数据传输机制的重要性。结合MD64实际存储结构和应用特点,设计实现了一种具有高灵活性、低开销的任务建立与传输模式,高效数据传输,微结构精简紧凑且占用硬件资源较少的多模DMA引擎。最后以嵌入式实时操作系统和软件调试应用为驱动,在MD64数字信号处理器上实现了简单高效的精确异常处理,增强了MD64在程序控制方面的能力,有效地扩展了其应用场合。

李东晓[3]2004年在《系统芯片中媒体增强数字信号处理器核设计研究》文中提出媒体系统芯片设计开发中的关键问题,就是如何最有效地利用硅片上可用的硬件资源,提供支持目标多媒体应用的单芯片高性加比解决方案。基于总线互连的由一个或多个指令集处理器核、一个或多个专用硬件IP核、一片或多片片上存储器构成的异质体系结构成为媒体系统芯片的合理选择。在国家863计划的支持下,我们开展了系统芯片中媒体增强的数字信号处理器核的设计研究,本文作为部分成果,着重探讨了处理器核指令集结构的媒体处理增强、处理器核微结构的设计和优化以及系统总线设计和媒体数据流调度的问题。 在系统芯片中媒体数字信号处理器核的设计中,在分析媒体处理应用算法特点的基础上,本文提出对MIPS-Ⅰ指令体系相兼容的基本指令集结构进行媒体增强扩展,通过支持SIMD亚字并行操作、媒体专用指令和运算结果特殊处理等增强单发射结构处理器的媒体处理性能,借鉴Intel MMX/SSE/SSE2媒体扩展指令集的思想生成初始指令功能集合,通过与常用媒体处理核心算法的互动进一步优化媒体指令集结构,创新性地对与MIPS-Ⅰ相兼容的基本指令体系实现了后向兼容媒体增强扩展,在硬件上通过构造可拆分的数据通道等实现了对媒体增强指令集的支持,以极小的硬件附加开销获得了媒体处理性能的显着提高。 在系统芯片中媒体数字信号处理器核的设计中,在具体分析CPU流水线竞争和处理器异常的基础上,本文提出并实现了一种基于有限状态机的流水线运行控制方案,并从提高钟频和降低CPI值两个方面优化处理器性能。为避免流水时钟频率受制于某些复杂运算指令较长的运算时间,又要达到单周期完成一条运算指令的吞吐量指标,本文提出对EX级进行可伸缩超流水扩展的思想,提出并实现了一种高性加比的切换控制方案。对于单发射结构的处理器,降低CPI值的根本途径在于通过各种软硬件技术减少流水线的停顿,本文构造了一个RAW相关环路模型用于分析流水线中寄存器操作数的RAW竞争现象,并提出了一种“动态”数据旁路优化策略,可以最大程度地减少复杂流水线中因数据的RAW竞争而导致的互锁停顿,理论分析和实测结果充分表明“动态”数据旁路机构可以有效地降低流水线因RAW互锁导致的平均CPI增量。 总线设计和媒体数据流的调度是实时媒体系统芯片设计中极其关键的问题,本文以VCD、HDTV解码系统芯片的设计为具体个例,探讨了MPEG-1/2视频解码软硬件实现中的数据流调度策略。在分析视频码流输入、解码处理和视频显示的时间参数后,提出以3帧组合为软件解码的调度粒度,以及基于启动期限和完成期限的两种解码调度策略,较好地均衡了处理器性能需求和数据缓存需求。提出了一种基于静态分时复用调度/动态固定优先级仲裁的混合二级总线仲裁策略,通过分割总线时间片静态调度媒体数据流DMA传输,使之与解码流程同步配合,有效地分配和使用总线带宽,降低了片上数据缓存等硬件开销。

黎宝峰[4]2003年在《嵌入式DSP处理器的设计与验证》文中研究表明信息社会的发展,在很大程度上取决于信息与信号处理技术的进步。许多应用系统,如移动电话、数字电视和工业设备等,都需要高性能可编程数字信号处理器。与专用集成电路相比,数字信号处理器由于其可编程特性而更为灵活地应用于实际系统。为满足高端数字系统的需求,高性能数字信号处理器需要具备几十亿次乘累加运算的操作能力。 针对当前高性能数字信号处理器的巨大应用需求,中科院微电子研究所承担了国家863计划重大专项——高性能数字信号处理器的开发。作为此项目的一部分工作,我们设计了一个16位嵌入式定点数字信号处理器,名为μDSP。本论文主要论述了μDSP的设计与验证。 首先,本论文讨论了处理器设计的一般原理,从指令系统、流水线、存储系统叁个方面进行了重点阐述,然后进行了数字信号处理器的体系结构设计,其主要特点为:改进的哈佛总线结构、六级流水线、特殊的指令系统和灵活多样的寻址方式等。 在体系结构设计的基础上,根据嵌入式数字信号处理器的设计特点和要求,完成了μDSP的寄存器传输级(RTL)设计。嵌入式设计的特点有:RTL代码的可复用性、尽量不采用全定制设计方法来提高性能、一般不包括各种外围和接口等。 同时,还考虑了可测性设计的问题。在设计的早期就充分考虑到测试的需求,实施可测试性设计,能降低将来测试生成的复杂度、提高故障覆盖率、降低测试成本。在μDSP中,加入了JTAG边界扫描结构和RAM内建自测试逻辑,提高芯片的可测性。 最后,对μDSP的设计进行了严格的功能验证和时序验证。在功能验证上,采取模拟仿真和形式验证相结合的策略;在时序验证上,采用了目前应用最广泛的静态时序分析方法。各种验证方法的综合应用,使得验证工作取得了圆满成功,为整个芯片的投片成功奠定了坚实的基础。

蔡卫光[5]2011年在《媒体数字信号处理器IP核微结构优化研究》文中研究表明随着集成电路技术和信息处理技术的发展,微处理器芯片设计已经成为当今的热点研究问题。工艺技术的进步和应用需求的增长对微处理器芯片的设计方法、体系结构等带来了重要的影响。特别是在嵌入式领域,高性能、低功耗、丰富的软件支持以及较短的设计验证时间对嵌入式处理器而言至关重要。本文作者参与了浙江大学信息与通信工程研究所SoC R&D小组承担的具有自主知识产权的媒体数字信号处理器IP核MediaDSP64的研发工作。作为部分研究成果,本文主要围绕处理器的功能设计与结构优化展开。在保持处理器核心指令集二进制兼容性的前提下,从面向应用的扩展指令集配置、流水线数据通道与控制通道优化、以及复杂DSP指令的乱序多发射特性等方面出发,对处理器的性能进行增强设计研究。指令集的配置任务分为两种类型进行实现,一是对应用领域进行整体特性评估并设计专用的指令集,二是对具体算法进行瓶颈分析并设计特殊的增强指令。以媒体处理核心算法为例,文中分别以并行度较高和串行度较高两个角度出发,对上述两种类型的配置任务分别进行论述。前者以SIMD指令集为例进行优化设计,除了扩展数据操作位宽之外,通过对访存单元与执行单元的协同优化,减少了SIMD操作对数据排列与数据位宽的要求。后者以码流处理算法为例,结合处理器流水线的结构特点,将循环体内的多个串行操作融和在单条指令内执行,不仅节省了代码空间,也提高了处理器在目标应用中的性能。通过对流水线数据通道与控制通道的复用,减少了指令配置过程的设计复杂度及其对处理器资源与延时的影响。流水线微结构优化包含数据通道与控制通道两个方面。文中建立通用的数据转发模型对复杂DSP指令的执行过程进行分析,通过集中转发源以及删减次要路径的方式实现了一种分布式部分转发结构。并针对转发网络中数据丢失问题,设计了自适应备份寄存器机制,通过对相关寄存器进行动态镜像的方式消除了数据丢失现象。采用提前写回策略减少了转发网络中的数据源,并针对由此造成的指令乱序执行问题,设计了影子寄存器机制保证了精确异常的实现。使用了提前判定算法代替了之前的即时判定算法,能够在本周期内判断出下一周期中流水线内的指令相关性,在处理器关键路径中隐藏了相关检测电路的延时。通过上述改进措施,在TSMC 130 nm (Generic and Worst Case)下,处理器可以达到400 MHz的工作频率。最后设计实现了一种硬件复杂度较低且具有乱序多发射特性的超标量处理器MD64SS.通过将复杂DSP指令拆分为多条微指令保证指令集的兼容性,使用着色法实现了复杂DSP指令的原子提交。通过指令二次编码与即时译码技术实现了指令信息的封装性,在增加子流水线与新指令时只需修改译码器和功能单元,而之间的指令调度器模块无需进行任何修改。通过结合寄存器广播与指令计数器两种方案将就绪逻辑的关键路径拆分为两个部分,减少了指令发射电路的延时,提高了处理器的工作频率。对典型应用的性能评估表明处理器的性能可以提高约50%-80%。TSMC 130 nm Generic工艺下处理器最高可以工作在约620MHz,在TSMC 90 nm Fast工艺下处理器最高可以工作在约1030 MHz。

邹晓峰[6]2014年在《YHFT-XDSP高性能浮点ALU的设计优化与验证》文中指出以浮点计算为主的高性能科学计算已成为科技进步的重要推动力,但浮点计算性能仍然是高性能通用DSP的重要瓶颈,研制具有高浮点计算性能的通用DSP具有重要意义。本课题来源于64位多核YHFT-XDSP,主频为1.25GHz。本文设计的浮点ALU单元是YHFT-XDSP的关键运算部件,其实现的31条浮点指令占该DSP浮点指令总数的70%,而且实现结构较为复杂。据S.F.Oberman的研究显示,该类单元计算量占处理器浮点计算总量55%以上,对整个DSP的浮点运算性能起着关键作用。本文的研究工作主要围绕浮点ALU单元的设计、实现、优化和验证等,主要工作和创新点如下:1、设计了浮点ALU单元的指令集和总体结构。针对YHFT-XDSP的性能要求,对应用算法进行了研究,设计了浮点ALU单元的指令集和总体结构。通过对指令实现算法分析,我们将浮点ALU单元指令分为浮点加法、浮点转换、查表操作和特殊运算四大类,采用四个模块实现。2、完成了浮点ALU单元的详细设计和实现。研究了当前主流的双通路浮点加法算法,通过对现有单通路浮点加法器进行精简、双通路改造、逻辑调整和流水站的重新划分,实现了优化的低延迟3级流水浮点加法模块;单独设计实现了浮点转换模块,使浮点转换指令和浮点ALU单元的整体性能得到很大提升;同时还完成了查表操作模块、特殊运算模块的结构设计和实现。3、对浮点ALU单元进行了时序和面积的优化与综合。初始的RTL实现在时序和性能方面并未达到YHFT-XDSP的设计要求,我们通过结构调整、分站处理、逻辑复用与预测、低功耗等方面对单元进行优化,综合结果证明,浮点ALU单元的最终性能和面积达到了设计要求。在40nm工艺下综合,满足450ps时钟约束,关键路径延时相比上一代芯片和XDSP分别减少了30.6%和8.7%,电路总面积31348.1615。4、对浮点ALU单元进行了全面的功能验证。为保证该单元功能的正确性,我们运用了模拟验证、形式化验证和硬件仿真等多种验证方法,通过各层次的功能点与随机数验证、程序测试、完备性检查、等效性检查、ATEC模型检验和硬件仿真等验证手段,极大的保证了设计功能的正确性,达到了流片前的验证要求。

李涛[7]2001年在《高性能数字信号处理器的研究与设计》文中进行了进一步梳理本文结合九五国防预研课题背景,进行DSP处理器芯片核的设计研究。芯片核(Core)是已经完成了设计和验证的硅电路模块,可以用它在半导体芯片上构造更大更复杂的应用。本论文研究的前期任务是,以德州仪器TMS320C25数字信号处理器为目标,研制指令与时序完全与之兼容的数字信号处理器芯片核NDSP25。论文采用自顶向下的正向设计方法,完成了NDSP25芯片核微体系结构设计,全部电路实现与可测性设计工作。论文研究的后期任务是对超标量DSP处理器进行研究。C25数字信号处理器为十几年前的产品,为提高DSP芯片核的性能,论文提出了具有针对DSP应用特点的超标量DSP处理器微体系结构,实现了超标量流水线调度单元,为高性能DSP处理器的设计实现奠定了基础。国内目前还没有相关的同类研究工作的报道。 主要的研究与设计工作包括: 1) 利用高层次设计技术,采用自顶向下(Top Down)的正向设计方法,完成了具有自主版权的NDSP25数字信号处理芯片核的微体系结构及其电路设计,完成了基于FPGA实现的系统验证。其中,提出了流水线控制单元的优化设计,将控制状态机的状态数目从85个减少到23个,节省了电路面积,提高了速度。 2) C25中尚未实现可测性设计,根据自主独立设计的NDSP25芯片核的测试目标,提出了可测性设计方案,完成了测试电路设计。使用一个2165指令字长度的指令测试集,在付出了不到3%的面积代价的情况下,达到了89.34%的故障覆盖率。 3) 对超标量微体系结构进行了深入的研究,在设计空间理论的指导下,提出了超标量DSP处理器的指令发射策略:采用寄存器重命名方式、动态转移预测控制、滑动指令窗口顺序发射的结构。采用该指令发射策略,有效的解决了操作数伪相关问题,提高了指令发射率,减少了控制相关的影响。 4) 基于NDSP25数字信号处理器指令集,提出了超标量DSP处理器微体系结构SDSP,与标量结构的DSP处理器相比,总体性能加速比达到接近3倍的程度。 5) 论文针对在超标量DSP处理器中,如何有效减少由于控制相关而导致的性能损失进行了研究,提出了一种改进的转移目标缓冲器BTB结构,每周期能够进行多条转移指令的预测,同时获得86.5%的转移预测准确率。 本论文的研究工作主要结合九五国防预研课题“军用MPU、MCU技术”、“系统行为级IC CAD及建库技术”的研究来进行。高性能数字信号处理器的 摘要 研究成果,有助于加快我国研制具有自主版权的数字信号处理器芯片的进程, 为武器电子系统的核心芯片国产化打下基础,具有重要的应用前景。

蒋志迪[8]2005年在《可编程媒体处理系统芯片(SoC)结构设计研究》文中进行了进一步梳理媒体处理系统SoC是VLSI的研究热点,本文主要研究了可编程媒体处理系统的结构、任务调度、总线数据调度和存储体系结构等关键问题。 媒体处理系统结构根据其实现方式的不同,可划分为两种体系结构:专用集成电路媒体处理系统芯片和可编程媒体处理系统芯片。近年来随着半导体技术和微处理器技术的发展,业界倾向于可编程媒体处理系统芯片。本文在微处理器的媒体增强结构设计中,针对媒体处理算法特点,并结合MD32体系结构,进行了媒体指令扩展设计的讨论,提高了媒体增强微处理器核的性能。通过对两种体系结构的探讨,作者提出了一种基于双核的可编程媒体处理系统芯片的硬件结构,并实现了兼容MPEG的数字音视频解码系统芯片的设计。另外,本文还展开了MD32在媒体处理系统SoC中重用性研究,通过媒体处理器MD32核在媒体处理系统中的重用,使整个系统协同工作,并提高了系统的灵活性和可编程性。 媒体处理系统是一个复杂的实时处理系统,众多的任务在系统内部有限的硬件资源上运行。软硬件任务调度成为实时媒体系统芯片设计的重要问题。本文以浙江大学自主开发的基于双核的可编程数字音视频处理系统为例,采用软硬件协同设计方法,通过系统的任务映射将系统中各个任务分解为两类:一类是与主控微处理器RISC32相关的任务,而另一类是与媒体处理器MD32相关的任务。对于主控微处理器内的任务,通过分析软件任务中程序流和数据流的特点,提出相应的任务调度方案;而对于与媒体处理器相关任务,通过结构和任务的优化,在提高处理器核计算资源利用率的同时,提出了数据驱动的控制策略以实现视频的实时解码。 本文针对媒体系统芯片设计中的总线调度和数据传输问题,提出了一种增强式的总线接口结构进行批量数据传输,并在此总线接口结构的基础上对总线仲裁方案进行优化,提出一种“最高固定优先级”和“动态优先级”相结合的仲裁策略,从而不仅满足片内严格实时性任务的要求,而且也满足了媒体系统整体性能的要求。鉴于存储结构也是媒体处理系统的关键问题之一,本文再提出了一种适合于媒体应用的分层存储结构,系统可以通过该存储结构对媒体数据进行“预取”,使系统的数据计算和搬运在时域上达到并行,提高系统整体性能。根据媒体数据调度特点和系统结构,我们还设计了多通道的二维DMA控制器,采用二维DMA进行数据传输,进一步发挥了这种分层存储结构的性能。

姚英彪[9]2006年在《高性能嵌入式RISC微处理器核设计研究》文中进行了进一步梳理芯片设计技术和深亚微米工艺的进步使得系统集成在一块芯片中实现成为可能,嵌入式系统设计进入片上系统芯片时代。本文作者参与了浙江大学信息与电子工程学系SoC R&D小组承担的国家863超大规模集成电路设计重大项目和具有自主知识产权的媒体系统芯片MediaSoC3221A设计和研发工作。本文主要探讨MediaSoC3221A双核之一的嵌入式RISC处理器的设计研究,本文的主要内容和创新如下: RISC处理器面向的应用范围广泛,不同的应用的特点不一样,对处理器的构造要求也不一样。比如有些应用存在丰富的线程并行性,采用多线程或者多核构造的处理器比较合适;有些应用本身就是一个不可拆分的单线程应用,采用高性能的多发射处理器更为适合。基于此本文提出通过两个简单RISC3200处理器设计在微结构上双发射与双核融合的RISC3202处理器。这也就是说,RISC3202在指令构造上与RISC3200一致,但在微结构上可以根据应用的特点配置成双发射超标量处理器,或者两个独立的RISC3200处理器,这是一种RISC处理器微结构构造创新。 媒体应用是当今处理器设计的驱动源之一,它已经成为RISC处理器必须考虑的工作负载。但是传统的基于RISC构造的处理器在提出之初并不是针对这类应用设计和优化的,因而它在处理这类应用时效率不高,必须对其指令集进行面向媒体处理的扩展,以提升其媒体处理的性能。本文针对RISC3200处理器第一代媒体扩展指令集MDS-Ⅰ存在数据处理效率高、数据供应效率低的缺点,新提出用于数据供应的媒体扩展指令集MDS-Ⅱ,有效提升了RISC3200的媒体处理效率。 在进行微处理器的功能仿真验证时,一个关键问题就是如何高效高质量的开发各种各样的验证程序。高效是指能快速开发出各种不同验证目的的验证程序,高质量是指开发出的验证程序的针对性好,能快速覆盖处理器需要验证的功能。针对这个问题,本文提出基于RISC3200指令构造的伪随机自动程序生成方法。它的核心包括两个部分:指令生成模型和程序模板。指令生成模型保证生成的指令合法有效,程序模板保证生成的指令序列针对性好。采用该方法后将验证程序的开发转换为C下的模板程序的开发,极大的方便了RISC3200仿真验证过程中的验证程序生成。 在系统芯片设计中,如何快速优化嵌入式软件也是一个非常关键的问题。本文以实现基于RISC3200的MP3软件解码器为例,对这个问题展开研究。在此基础上,总结出嵌入式软件优化的普遍原则和方法,并实际应用到MP3的解码软件优化中,取得不错的优化效果。然后根据新设计的RISC3202处理器的微结构特点,提出将MP3解码软件拆分成两个线程并行执行,在RISC3202上取得1.78的性能加速比。

俞国军[10]2006年在《基于DSPs的媒体处理系统芯片设计研究》文中进行了进一步梳理媒体处理系统芯片结构根据其实现方式的不同,可分为两种结构:专用集成电路媒体处理系统芯片和可编程媒体处理系统芯片。近年来,随着半导体技术和微处理器技术以及媒体处理算法(如音频、视频)不断地在发展,业界更倾向于采用基于DSP的媒体处理系统芯片结构,基于DSPs(集成多个DSP)的媒体处理系统芯片设计也成为了VLSI领域的研究热点。本文主要研究了基于DSPs的媒体系统芯片设计中几个关键问题:DSP结构、微结构设计,媒体系统芯片结构、任务调度策略设计。 在过去的几年,浙江大学信息与电子工程学系SOC R&D小组研发了具有自主知识产权RISC/DSP结构MD32系列处理器的第一个成员:MediaDSP3201。 事实上,DSP结构一直是在应用算法的驱动下发展的。在本文中,为进一步提高MediaDSP3201的媒体处理性能,根据媒体处理的算法特点,展开了MediaDSP3202的设计研究。MediaDSP3202继承了MediaDSP3201的RISC/DSP混合体系结构及其指令集,并扩展了支持128比特SIMD操作的EMS指令集和支持比特操作的VLD解码并行指令以及有利于提高IDCT/MC算法实现性能的部分专用SIMD指令。 在DSP微结构设计方面,本文根据MD32系列处理器的流水级特点,给出了一种分布式数据旁路机制设计策略,有效避免了处理器在执行过程中不必要的流水级停顿,并通过“数据转发链模型”实现。此策略在考虑转发效率的同时,通过电路优化避免转发电路对流水级时延的影响,以提高处理器整体性能。 通过对两种体系结构的比较,我们自主研发了基于双处理器的可编程媒体处理系统芯片的硬件结构,并完成了兼容MPEG的数字音视频解码系统芯片MediaSOC3221A的设计。 对一个基于DSPs的媒体处理系统芯片而言,除了需要DSP核的相关优化设计以外,系统结构、任务分配和调度等设计问题同样非常关键。基于DSPs的媒体系统芯片任务调度包括两类:处理器任务调度和总线任务调度,而处理器任务调度又分为全局任务调度和局部任务调度,本文对媒体系统芯片的任务调度问题展开了研究。 以MediaSOC3221A为例,通过对数据输入流模型的分析,进行了系统软硬件任务的划分,采用了一种静态的处理器全局任务调度方法:主控微处理器RISC32完成系统层解码、音频解码、系统控制等任务;媒体处理器MediaDSP3201则完成视频解码相关的任务,并对两个处理器的局部任务调度做了进一步的优化设计。考虑媒体系统芯片的周期性和非周期总线调度任务特性,本文给出了一种基于动态优先级的实时总线调度策略,所给设计方法普遍适用于多请求源总线任务调度的多媒体系统芯片设计中。

参考文献:

[1]. 多媒体应用的高性能数字信号处理器功能部件结构设计研究[D]. 郑伟. 浙江大学. 2003

[2]. 媒体数字信号处理器IP核关键技术研究[D]. 张奇. 浙江大学. 2008

[3]. 系统芯片中媒体增强数字信号处理器核设计研究[D]. 李东晓. 浙江大学. 2004

[4]. 嵌入式DSP处理器的设计与验证[D]. 黎宝峰. 湖南大学. 2003

[5]. 媒体数字信号处理器IP核微结构优化研究[D]. 蔡卫光. 浙江大学. 2011

[6]. YHFT-XDSP高性能浮点ALU的设计优化与验证[D]. 邹晓峰. 国防科学技术大学. 2014

[7]. 高性能数字信号处理器的研究与设计[D]. 李涛. 西北工业大学. 2001

[8]. 可编程媒体处理系统芯片(SoC)结构设计研究[D]. 蒋志迪. 浙江大学. 2005

[9]. 高性能嵌入式RISC微处理器核设计研究[D]. 姚英彪. 浙江大学. 2006

[10]. 基于DSPs的媒体处理系统芯片设计研究[D]. 俞国军. 浙江大学. 2006

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

多媒体应用的高性能数字信号处理器功能部件结构设计研究
下载Doc文档

猜你喜欢