协处理器论文_赵洋,汪亨,吴延群,余波

导读:本文包含了协处理器论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:处理器,算法,浮点,可编程,指令,架构,卷积。

协处理器论文文献综述

赵洋,汪亨,吴延群,余波[1](2019)在《SVDU的多协处理器并行化方法研究》一文中研究指出安全级图形显示单元作为安全级核电控制系统的配套人机交互界面,用于为核电厂操作员提供安全级核电控制系统内的状态监视和手动控制功能。随着国内核电产业的发展,核电业主对安全级图形显示单元提出更高的应用要求,而现有的安全级软件设计原则限制了安全级图形显示单元功能的持续改进。本文通过对安全级图形显示单元的系统功能和底层支撑技术的分析,提出通过多协处理器并行化方法改进安全级图形显示单元的总体设计,并详细阐述了该方法的系统架构、运行机制、技术实现及其优劣性。(本文来源于《仪器仪表用户》期刊2019年12期)

贾迅,邬贵明,谢向辉,吴东[2](2019)在《双精度浮点矩阵乘协处理器研究》一文中研究指出矩阵乘运算在多个应用领域特别是数值计算领域被广泛使用,但双精度浮点矩阵乘在CPU,GPGPU,FPGA等现有计算平台上的性能和效率受限,其往往成为大规模数值计算应用的性能瓶颈.针对该问题,以线性阵列计算结构为基础,研究了双精度浮点矩阵乘的定制加速.首先,对线性阵列计算结构进行了双缓冲优化并设计了针对双缓冲的存储访问调度,以提高结构的计算效率.其次,提出了矩阵乘协处理器和加速计算系统的结构,构建了协处理器的性能模型并对其结构设计空间进行了探索.最后,验证了协处理器的功能正确性并在某主流工艺下评估了其硬件开销.实验结果表明,设计的双精度浮点矩阵乘协处理器可以达到3 TFLOPS的计算性能和99%的计算效率.与NVIDIA K40 GPGPU相比,协处理器执行双精度浮点矩阵乘的性能是K40的1.95倍,而面积开销仅为K40的21.05%.探索了定制加速结构设计在高性能计算中的应用,对现有计算系统的性能提升具有一定的参考价值.(本文来源于《计算机研究与发展》期刊2019年02期)

郭红,周健倩,张瑛瑛,郭昆[3](2019)在《基于协处理器的HBase二级索引方法》一文中研究指出在大数据时代,海量的非结构化数据增速远大于结构化数据,HBase被广泛用于海量非结构化数据存储中。由于HBase内置的索引是基于行键(rowkey)设计的,具有很高的查询效率。但是,在根据字段进行条件查询时需要进行全表扫描,性能较低,无法应用于实时场景。针对此问题,提出一种基于协处理器(coprocessor)的HBase二级索引方法。该方法将经常需要查询的字段通过协处理器在HBase中建立映射到行键的索引,在查询时并行扫描索引数据获取行键,并利用行键快速查询记录。同时,在创建表时,通过对Region进行预分区。在插入数据时,在行键中添加Hash值。这不仅能提高数据插入速度,也避免了热点数据现象,同时保证索引数据和主数据位于同一个Region上,查询时就能减少一次RPC请求。在模拟数据集上的实验表明:提出的二级索引方法具有较好的查询性能。不仅高于HBase自带的过滤查询,也高于基于ElasticSearch的二级索引。同时,其空间开销小于基于ElasticSearch的二级索引。(本文来源于《计算机工程与应用》期刊2019年21期)

杨一晨,梁峰,张国和,何平,吴斌[4](2018)在《一种基于可编程逻辑器件的卷积神经网络协处理器设计》一文中研究指出针对大数据时代下深层次大规模深度学习网络模型在预测中对运算资源和访存带宽需求指数的增长,以及业界传统CPU+GPU解决方案难以应用于日益普遍的移动嵌入式应用场景等问题,提出了一个基于可编程逻辑器件(FPGA)的卷积神经网络协处理器异构加速设计方案。该方案采用通用模型设计思想,具有可编程性,并且能够兼容多种网路模型从而实现硬件加速;方案具有可扩展性,可在硬件资源允许的范围内进行多核扩展以获得性能翻倍提升。利用硬件的并行性,数据的复用性设计的卷积运算模块提高了硬件资源利用率及运算效率;合理配置的多级缓存结构降低了协处理器对外部存储器读写频率和带宽的占用率,提升了模块内部的通信效能。在XILINX VC707评估板的上板进行实验,结果表明,MNIST-LeNet测试集的准确率高达99%,CIFAR-10可实现80%,浮点运算速度为5.511×1010 s-1,综合性能约两倍于Intel Xeno E5-2640V4服务器通用处理器,达到同期FPGA解决方案的主流水平。(本文来源于《西安交通大学学报》期刊2018年07期)

赵旭莹,李桓,王晓琴,王东琳[5](2018)在《通信专用新型二维可配置协处理器架构研究》一文中研究指出针对当前主流通信协处理器架构存在互连网络功耗较大、调度频繁等问题,提出一种面向通信处理器的新型二维可配置协处理器架构。第一维配置为工作模式和协处理器公共参数配置,由主处理器发起,协处理器实时响应;第二维配置为加速引擎私有参数配置,由主处理器离线完成。通过功耗评估模型,该架构总线互连网络功耗仅为主流通信处理器架构的1/3;对于无线通信标准数据帧处理,总线带宽占用比由6. 88%降到2. 05%。基于此架构,对面向基站的无线通信接收端协处理器进行了设计实现。在数据吞吐方面与TMS320C6670中加速引擎对比,其中viterbi译码器加速比为3. 3,turbo译码器加速比为2. 8,可满足人们不断增长的高速数据传输需求。(本文来源于《哈尔滨工程大学学报》期刊2018年12期)

付新宇[6](2018)在《10G HIMAC协处理器关键技术研究》一文中研究指出随着计算机技术的普及和网络用户规模的扩大,传统网络所固有的缺陷越来越明显,人们需要一种新的网络体系来改善传统网络的性能,从而能够更方便、快速的获取各路信息。在这种情况下,“叁网融合”应运而生。它将传统的电信网络、广播电视网络以及互联网进行整合改造,利用同轴电缆和现有的光纤骨干网组成新的传输网络,实现了资源共享,开放互联的目标。目前,“叁网融合”已成为提升我国当前网络现状的重要解决方案。本文结合实验室承接的项目“10G高性能同轴电缆接入网(HINOC)MAC协处理器设计(HIMAC)”,对10G HIMAC协处理器中的重要模块展开研究。首先,分析了HINOC的研究背景以及发展现状。其次,介绍了10G HINOC网络的整体结构和10G HIMAC协处理器的设计需求,并结合目前的研究进展,给出了10G HIMAC协处理器的整体设计,阐述了数据的处理流程及相关知识介绍。第叁,重点研究了10G HIMAC协处理器内的10G MAC核模块,查找表模块,以及基于RocketIO模块的FPGA高速串行接口——10G以太网接口,并使用Verilog HDL语言完成各个模块的实现。最后,利用Modelsim软件对各模块的功能进行仿真验证,并搭建测试平台,验证本文所设计的各模块性能,完成板级测试。测试结果表明各模块性能均满足10G HIMAC协处理器的设计需求,达到了预期目标。(本文来源于《西安电子科技大学》期刊2018-06-01)

杨玉权[7](2018)在《高性能浮点型DSP协处理器的设计》一文中研究指出AVP335是一款32位高性能浮点型的数字信号处理器(DSP),具有非常丰富的片内外设与大量的片内存储,它的浮点处理单元(FPU)具有非常强大的数值计算和处理的能力。协处理器(coprocessor)是针对某些特定且CPU处理缓慢或无法处理的应用而设计的芯片,主要辅助CPU完成这些特定任务的处理。例如浮点运算、超越函数的计算等。因此,协处理器的设计是针对某种特定的应用,而不必将它设计为一款通用型处理器。本研究设计了一款32位高性能浮点型DSP的协处理器,该协处理器主要用于协助CPU完成浮点数的数值计算和处理。根据协处理器的基本功能与设计要求,首先对协处理器的组成结构进行介绍,包括浮点数标准、寄存器、流水线、指令集以及寻址方式。其次,本研究对FPU的数值运算单元进行了分析与设计,主要包括对加法器、乘法器以及除法器等算法的研究。此外,为了使数值运算单元获得更好的性能,对相应的算法做出了进一步的改进。因此,加法器的设计采用改进型的Two-Path算法实现,即通过减少运算路径中的移位操作以及提高路径的并行度。乘法器采用基4 Booth算法将乘数进行编码,降低产生部分积的数量,然后使用Wallace树型压缩器完成部分积的压缩,并通过保留进位加法器(CSA)完成最终的相加。除法器采用基4 SRT算法实现。最后是译码控制单元的设计,首先对浮点指令和指令执行过程进行详细的分析,然后对指令译码器进行设计。完成FPU各个功能模块的设计后,编写了各个功能模块的RTL代码,并使用VCS和Ncverilog仿真工具完成FPU各个功能的验证,仿真结果表明了该处理器的逻辑设计完全正确。最后,基于0.13μm CMOS工艺用半定制的方式对协处理器系统进行仿真与验证。(本文来源于《湘潭大学》期刊2018-05-01)

罗跃剑,陈哲,唐荣欣,刘志伟,钟志宏[8](2018)在《基于Intel MIC协处理器的PIC粒子模拟并行化加速及与CPU/GPU对比研究》一文中研究指出基于Intel Many-Integerated-Core(MIC)协处理器平台实现了二维particle-in-cell(PIC)粒子模拟,并根据MIC的特性进行了指令集层面上的向量化优化。为体现MIC平台下的并行加速效果,采用英伟达的GPU计算卡和英特尔Ivy-Bridge架构CPU处理器进行针对性模拟,对3者的计算性能进行比较,当PIC模拟网格较小时,GPU架构具有更好的适用性和计算加速;随着模拟网格逐渐增大,MIC平台的计算加速比逐渐超过GPU平台。研究表明,针对PIC模拟应用,MIC平台具有良好的计算性能、较好的可扩展性和可编程性,利用MIC异构众核对大数据量并行计算程序优化将极大地促进高性能计算的应用和发展。(本文来源于《中国科技论文》期刊2018年08期)

戴乐育,杨天池,郭松,王家琰[9](2018)在《可重构分组密码协处理器二维指令架构》一文中研究指出为能够进一步提升可重构分组密码协处理器的指令并行度和密码处理能力,以优化可重构分组密码协处理器的性能、面积、功耗比为目的,分别分析指令调度与密码运算之间的关系和特征,提出可重构分组密码协处理器二维指令架构,该架构能够增加指令执行周期,提高可重构功能单元的利用率。通过3种分组密码算法进行实现,结果表明,改进后的可重构分组密码协处理器的指令并行度是改进前的2-4倍。(本文来源于《计算机工程与设计》期刊2018年04期)

何泽[10](2018)在《基于RSA/ECC算法的可配置加解密协处理器》一文中研究指出RSA与ECC加解密算法是非对称加解密技术中基石,也是非对称体制中最为安全与成熟的代表性算法。RSA与ECC不仅在加解密方面有非常高安全性,还能提供数字签名与身份认证等功能。在当下这个对安全性的要求越来越高的时代,密钥位宽因此也变得越来越大,对复杂运算的需求也更加庞大,传统的软件实现已经无法满足高速度与高安全性的要求。因此,硬件化实现非对称的核心算法RSA与ECC具有重要的意义。基于非对称加解密体制,设计了一款可配置的RSA/ECC加解密协处理器。在协议层以上由软件实现,对核心运算采用ASIC实现。首先深入分析了RSA与ECC的各种实现算法,经过比较选择了适合硬件实现的算法。对RSA,模乘层采用经过优化后的Montgomery(蒙哥马利)算法来实现,模幂层采用二进制展开算法实现。对ECC,椭圆曲线使用NIST推荐的基于二进制域GF(2~n)位宽为233的Koblitz曲线,椭圆曲线层采用基于投影坐标系的Montgomery算法实现,有限域层的基础运算分别采用针对硬件优化的算法实现,模逆运算采用基于小费马定理优化后的算法,通过调用有限域上的基础运算来实现模逆。在实现过程中,对硬件资源进行优化,使其在性能方面明显的提高。且对功耗、时序与故障攻击都经过仔细的考虑,有很好的抗旁路攻击特性。在实现过程中,本文首先基于原始算法做了总体框架的设计,然后对硬件实现具体结构进行了优化,再分层分模块完成了RTL级代码的设计。其次,本文设计的配置工具针对面积与速度之间不同的需求,可对位宽,算法以及并行度等方面进行配置。基于可重构/配置计算(Reconfigurable Computing,RC)思想,将设计分为静态可配置与动态可配置两部分。对于静态可配置而言,本文实现了两种方式:1.可通过配置工具进行人机交互,产生相应配置的RTL级代码与仿真环境;2.可对使用Perl实现的脚本进行配置,从而可直接调用相应的模块。对于动态配置而言,大位宽可以向下兼容小位宽,从而减少对资源的浪费。因此,整个设计具有高灵活度的特点。本设计旨在尽量满足各种数据加解密与数字签名中不同应用的不同要求,进而可以直接生成经过验证的Verilog代码,从而大大缩短设计时间,提高产品竞争力。本文对各种不同配置的RSA核与ECC核分别进行了RTL级的设计与验证,列举了各种配置以及并行度的仿真图,并且分析了各个配置下仿真结果的原因。并基于TSMC 28nm的工艺使用DC工具进行了综合,分析不同配置的综合结果。如ECC在全并行的输入下主时钟频率可达到2.38GHz,每秒可实现4×10~6次标量乘。当使用配置工具将RSA算法设置为1024位R-L扫描基2Montgomery全串行时,门资源为21k门,主时钟频率为2.5GHz,每次可达到加解密36000次,一次标量乘仅需27μs,达到最初设计目标。(本文来源于《西安电子科技大学》期刊2018-04-01)

协处理器论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

矩阵乘运算在多个应用领域特别是数值计算领域被广泛使用,但双精度浮点矩阵乘在CPU,GPGPU,FPGA等现有计算平台上的性能和效率受限,其往往成为大规模数值计算应用的性能瓶颈.针对该问题,以线性阵列计算结构为基础,研究了双精度浮点矩阵乘的定制加速.首先,对线性阵列计算结构进行了双缓冲优化并设计了针对双缓冲的存储访问调度,以提高结构的计算效率.其次,提出了矩阵乘协处理器和加速计算系统的结构,构建了协处理器的性能模型并对其结构设计空间进行了探索.最后,验证了协处理器的功能正确性并在某主流工艺下评估了其硬件开销.实验结果表明,设计的双精度浮点矩阵乘协处理器可以达到3 TFLOPS的计算性能和99%的计算效率.与NVIDIA K40 GPGPU相比,协处理器执行双精度浮点矩阵乘的性能是K40的1.95倍,而面积开销仅为K40的21.05%.探索了定制加速结构设计在高性能计算中的应用,对现有计算系统的性能提升具有一定的参考价值.

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

协处理器论文参考文献

[1].赵洋,汪亨,吴延群,余波.SVDU的多协处理器并行化方法研究[J].仪器仪表用户.2019

[2].贾迅,邬贵明,谢向辉,吴东.双精度浮点矩阵乘协处理器研究[J].计算机研究与发展.2019

[3].郭红,周健倩,张瑛瑛,郭昆.基于协处理器的HBase二级索引方法[J].计算机工程与应用.2019

[4].杨一晨,梁峰,张国和,何平,吴斌.一种基于可编程逻辑器件的卷积神经网络协处理器设计[J].西安交通大学学报.2018

[5].赵旭莹,李桓,王晓琴,王东琳.通信专用新型二维可配置协处理器架构研究[J].哈尔滨工程大学学报.2018

[6].付新宇.10GHIMAC协处理器关键技术研究[D].西安电子科技大学.2018

[7].杨玉权.高性能浮点型DSP协处理器的设计[D].湘潭大学.2018

[8].罗跃剑,陈哲,唐荣欣,刘志伟,钟志宏.基于IntelMIC协处理器的PIC粒子模拟并行化加速及与CPU/GPU对比研究[J].中国科技论文.2018

[9].戴乐育,杨天池,郭松,王家琰.可重构分组密码协处理器二维指令架构[J].计算机工程与设计.2018

[10].何泽.基于RSA/ECC算法的可配置加解密协处理器[D].西安电子科技大学.2018

论文知识图

“天河一号”架构示意图基本模块开发平台框图流水线处理器单元逻辑电路协处理器内部结构协处理器内部结构及与

标签:;  ;  ;  ;  ;  ;  ;  

协处理器论文_赵洋,汪亨,吴延群,余波
下载Doc文档

猜你喜欢