导读:本文包含了硬件神经网络论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:神经网络,卷积,可编程,门阵列,硬件加速,硬件,加速器。
硬件神经网络论文文献综述
秦华标,曹钦平[1](2019)在《基于FPGA的卷积神经网络硬件加速器设计》一文中研究指出针对卷积神经网络(CNN)计算量大、计算时间长的问题,该文提出一种基于现场可编程逻辑门阵列(FPGA)的卷积神经网络硬件加速器。首先通过深入分析卷积层的前向运算原理和探索卷积层运算的并行性,设计了一种输入通道并行、输出通道并行以及卷积窗口深度流水的硬件架构。然后在上述架构中设计了全并行乘法-加法树模块来加速卷积运算和高效的窗口缓存模块来实现卷积窗口的流水线操作。最后实验结果表明,该文提出的加速器能效比达到32.73 GOPS/W,比现有的解决方案高了34%,同时性能达到了317.86 GOPS。(本文来源于《电子与信息学报》期刊2019年11期)
薛天志,刘百成,陈松[2](2019)在《一种脉冲卷积神经网络VLSI硬件架构设计》一文中研究指出本文设计了一种识别手写体数字的脉冲卷积神经网络数字电路,使用脉冲神经元代替卷积核,并分别对卷积层和池化层设计相应的电路结构,实现全流水线并行.相比于传统的卷积神经网络,在识别MNIST数据集时,卷积神经网络的精确度为98.61%时,脉冲卷积神经网络的精度能达到98.04%.与相同流水线结构的卷积神经网络相比,脉冲神经网络平均能耗减少约50%.(本文来源于《微电子学与计算机》期刊2019年10期)
王洪利,李建成[3](2019)在《用于卷积神经网络硬件加速器的3D DMA控制器》一文中研究指出在卷积神经网络硬件加速器(Convolutional Neural Networks Accelerator, CNNA)中,需要大量的数据访问和中间数据缓存,系统架构中负责数据传输的DMA控制器(Direct Memory Access Controller,DMAC),性能高低将直接影响整个加速器的算力。针对传统DMAC传输叁维图像特征(feature)和权重(weight)时,需多次加载数据到内存的问题,本文创新性的提出了一种专用于CNNA的3D(Width,Height, Channel)DMAC的设计。整个架构有四个DMAC,每个DMAC支持单通道传输,可以并行工作互不影响。设计的DMAC支持多种操作模式,除基本的直接内存访问模式,还包括3D模式,即支持3D图像数据控制,极大提高了加速器的工作效率。本设计已用verilog语言在RTL上建模,并对功能进行了综合、仿真和验证,结果表明设计满足应用需求。(本文来源于《中国集成电路》期刊2019年08期)
张凡,董晨,陈景辉,贺国荣[4](2019)在《基于反向神经网络的硬件木马识别》一文中研究指出针对侧信道、逻辑功能、逆向工程等硬件木马检测技术存在高成本、高设备要求、易受工艺噪声影响和不适用于大规模电路等问题,提出了一种基于反向神经网络的门级硬件木马识别方法。通过提取电路的门级网表特征,使用电路特征集构建全新反向神经网络,训练成门级硬件木马分类器。通过不断调整神经网络的隐藏层数和节点数,实现门级硬件木马识别,最终达到99.82%的正常电路识别率、87.83%的木马识别率和99.27%的线网准确度,在正常电路几乎完全识别的前提下,获得了较高的硬件木马识别效果。(本文来源于《信息与电脑(理论版)》期刊2019年13期)
余强浩[5](2019)在《应用于人工视觉假体的图像分割神经网络设计与硬件实现》一文中研究指出视觉残疾是影响人类生活最为严重的疾病之一,研究人工视觉假体能够给盲人带来重获视觉的希望。图像处理是人工视觉假体系统中的核心组成部分,本文研究基于深度学习的图像分割神经网络设计和基于FPGA的硬件加速设计在人工视觉假体上的应用。本文基于室内场景,选取室内常见的床、沙发等八类目标制作了256*256大小的RGB图像数据集。在图像分割网络的设计上,针对全卷积神经网络硬件代价大、运行时间长等问题,对其做出改进应用在人工视觉假体。将第一层卷积层的填充单元由100改成1,第一层全卷积层卷积核大小改成3*3,全卷积层的通道数均改为1024,对裁剪层顺序做了调整,还将最后一层反卷积层的卷积核和步长减半得到不同输出大小分割图像的网络。在K80 GPU服务器上训练测试改进的分割网络和原始的分割网络,统计对比各个网络的性能,结果表明改进的分割网络比原始的分割网络明显具有较快的分割速度和较小的硬件代价,其中显存占用量减小3倍多、模型大小减小了6倍多、在运行时间上也有3倍多的提升,而对于在分割准确率上一个百分点左右的下降是视觉假体应用能够接受的。本文完成了改进全卷积神经网络算法的硬件加速IP的设计与验证。详细阐述了IP的架构设计和各个模块的设计方案,使用Verilog语言完成IP的RTL设计,并将其采用axi4总线协议进行封装,还设计了一个简单的控制指令系统,用于IP的软硬件接口控制。此外,由于本文研究的视觉假体是基于32*32的微电极阵列,所以还设计了将改进分割网络分割得到的图像处理成32*32大小的功能。本文对设计的IP在完成基于Modelsim功能仿真与基于Matlab计算模型的协同验证之后,使用VC709 FPGA开发套件进行硬件实现验证。验证结果表明设计时钟可达到135MHz,估算出FPGA的处理速度是服务器上至强E5-2620V4 CPU处理速度的1.5倍,并且FPGA的功耗只有服务器CPU的4.8%。图像分割有着广泛的应用场景,本文的设计对于处理其它图像分割任务(如医学影像分割等)有着参考意义,设计的不足之处是实时性还有待提高。(本文来源于《西安理工大学》期刊2019-06-30)
王昆[6](2019)在《深度学习中的卷积神经网络硬件加速系统设计研究》一文中研究指出近几年来伴随着深度学习所带来的新的机器学习热潮,深度神经网络已经广泛的应用于图像识别、图像分类、目标检测和自然语言处理等不同的大规模机器学习问题当中,并且已经取得了一系列突破性的实验结果与实际应用,如今深度学习其强大的特征学习能力与识别分类能力被广泛的研究与关注。但由于深度学习中的卷积神经网络模型通常具有深度高、层次复杂、数量级大、并行度高、计算和存储密集的特征,从而使得大量的卷积计算操作和池化计算操作在具体应用中成为巨大的瓶颈,并且大量层间计算结果的存储对于计算机的存储结构也提出了较高的要求,使其在实时的应用场景下面临着巨大的挑战。现场可编程阵列FPGA(Field-Programmable Gate Array),是一种电路密集度大的运算加速器件,它集成了丰富的内部存储硬件资源、灵活的可编程逻辑资源以及高性能的计算资源,能够充分发挥卷积神经网络结构并行特性,并且能够在尺寸要求小、功耗限制低情况下实现卷积神经网络的高速运算,是实现卷积神经网络运算的理想平台。本论文主要针对深度学习中的图像识别任务进行了硬件加速系统设计研究。文章主要根据卷积神经网络的结构特点,在基于ZYNQ系列芯片的FPGA上将卷积神经网络进行了硬化实现,利用FPGA的并行计算特性与流水线技术减少了卷积神经网络的计算时间,从而实现了卷积神经网络的硬件加速;同时为了满足实时场景下对图像识别的应用需求,本文设计出了一种实时识别硬件系统框架,采用软硬件协同的方式,使用ZYNQ系列芯片的ARM完成对输入图像数据的实时采集、存储和显示,将采集存储的数据通过AXI4总线传输至FPGA中硬化后的卷积神经网络来完成对图像的实时识别,并且该系统框架还可以替换不同的硬化卷积神经网络模型,满足多场景下的实时识别任务需求。实验结果表明,本文设计的硬化卷积神经网络模型能够在单个时钟周期内完成528次卷积运算,相较于通用CPU的计算效率得到了显着提升;在对权值参数进行11位定点量化后网络的识别率为97.8%,具有较高的准确率;并且本文设计出的实时识别硬件系统框架能够实现对摄像头采集图像的实时识别,同时结合ZYNQ器件中高度模块化设计使得整个系统框架具有移植性高的特性,且系统整体运行时所需的功耗低。(本文来源于《贵州大学》期刊2019-06-01)
杨帆[7](2019)在《面向视频行人检测的卷积神经网络硬件实现与性能分析》一文中研究指出近年来,卷积神经网络在行人检测领域被广泛应用。为将基于卷积神经网络的视频行人检测算法推向工程应用,实际工程中算法设计、硬件选型、算法实现等问题亟待解决。多硬件平台的算法实现与性能分析将为实际工程应用提供重要的参考依据。在此背景下,本文研究视频行人检测应用中卷积神经网络的硬件实现与性能分析问题,主要完成的工作如下:(1)针对视频输入下由运动模糊、遮挡等造成漏检的问题,提出了基于卡尔曼滤波的SSD网络后处理算法。卡尔曼滤波用于传播SSD网络的检测结果并提升、稳定行人的置信度。该算法平衡了漏检率、检测速度和硬件实现难度叁方面的关系。经公开和私有数据集的训练和测试,验证了该算法的有效性,同时也为后续多硬件平台的实现奠定基础。(2)在卷积神经网络硬件实现需求和硬件平台对比分析的基础上,完成了GPU、FPGA和嵌入式叁种硬件平台的选型及各平台下的卷积神经网络算法的硬件实现与优化。经对比测试,结果表明叁种硬件平台下的设计与实现正确,能有效完成行人的检测。(3)针对叁种硬件平台下算法的实现结果,从漏检率和计算速度两方面进行了性能的对比与分析。根据实验和调研结果,从网络计算量的选择、功耗、开发难度差异叁个角度入手分析了各硬件平台的限制因素,为工程应用提供参考。本文完成了面向视频行人检测的卷积神经网络多硬件平台实现与性能分析。硬件平台实现的卷积神经网络基本单元可用于网络搭建与应用,性能分析与对比为工程中算法设计、硬件选型、算法实现等问题提供了参考依据。(本文来源于《北京交通大学》期刊2019-05-31)
余菲,赵杰,王静霞,温国忠,宋荣[8](2019)在《BP神经网络字符识别系统Matlab建模及硬件实现》一文中研究指出为了设计基于BP神经网络的字符识别系统模型并训练其参数,能够以较低硬件代价工程实现该系统,作者利用Matlab建立了一个基于BP神经网络的字符识别系统模型,对5000个样本进行了标记,并利用这些样本对模型进行了训练和验证,识别率达到了85.20%.同时,利用FPGA及Verilog硬件描述语言设计了该系统的神经元硬件电路,效果与Matlab的仿真数据一致.利用Altera公司的FPGA芯片实际综合下载了神经元及相关系统,能够实现对字符图像文件数据的计算.(本文来源于《深圳职业技术学院学报》期刊2019年03期)
张祖扬[9](2019)在《深度神经网络硬件加速研究》一文中研究指出随着半导体工艺的不断进步,机器学习领域研究的深入,神经网络成为了近年来实现人工智能的重要机器学习算法之一。神经网络尤其是深度神经网络因其结构的复杂带来的计算复杂度的上升,使得单纯用中央处理器顺序串行执行耗时越来越长。这样不仅给网络的训练带来问题,也给对于实时性有一定要求的网络计算任务带来了问题。因此人们提出了各种各样硬件加速的方式。其中一种比较常见的硬件加速方式是取代了过去数字信号处理器而出现的现场可编程门阵列(Fieled Programmable Gate Array,FPGA)。FPGA以其比较好的并行性和灵活性以及开发成本相对较低等特性受到高校等研究机构的青睐,甚至在一些应用场景直接用于商用产品的开发。目前,大多数FPGA的加速主要针对复杂指令集计算机,即CPU以X86或AMD64为主的计算机,并通过PCIe接口与CPU交换数据和控制信息。并且目前大多数FPGA仅仅加速已经完成训练的神经网络,而不会加速网络的训练过程。为了达到最佳的加速性能,通常FPGA加速会针对特定的神经网络进行优化,使得神经网络的FPGA加速的通用性变差。本文提出一种基于ZYNQ的FPGA加速结构。它以ZYNQ内部自带的ARM(Advanced RISC Machine)作为主要计算核心,ZYNQ自带的FPGA作为神经网络的硬件加速部分,兼顾结构中软硬件的通用性和可扩展性,实现嵌入式神经网络的计算加速。本文提出的结构中,将神经网络中的全连接的矩阵乘法运算以及卷积运算放到FPGA上进行,而ARM负责流程控制,池化和激活函数的运算。本文结构在尽量满足通用性的前提下加速神经网络,因此本文结构中FPGA的互联采用标准的AXI系列协议,并且通过互联模块连接逻辑与处理器。本文中详细描述了关键的软件函数流程以及硬件加速电路的结构。并且在实现了整个结构后,通过LeNet-5手写数字识别网络对加速架构进行测试。在10000张MNIST图像的测试下,识别率在92%,使用FPGA加速前后效果不是特别明显,一张图片的处理时间仅仅减少了1%。(本文来源于《电子科技大学》期刊2019-04-09)
张永亮[10](2019)在《低功耗高性能的卷积神经网络硬件加速器设计》一文中研究指出卷积神经网络(Convolution neural networks,CNN)因其在图像识别、语音识别和无人驾驶等方面具有的卓越性能而被国内外广泛研究。随着其性能和精度的提升,CNN的层数和计算量显着上升。经过线性整流函数后,CNN含有超过50%的零值数据。零值数据的计算不会改变计算结果,但是它消耗较高的能耗和计算周期。因此,零值数据的非还原压缩方法和压缩数据的复用方法成为目前急需解决的问题。本文以此为研究对象,从以下叁个方面开展研究工作:(1)多路径包连接电路提升传输效率;(2)非还原压缩的编译码方法降低功耗和计算周期;(3)编码行复用方法提升数据的利用效果;(4)基于低功耗高性能的CNN硬件加速器的设计。主要工作有:(1)设计多路径包连接电路针对传统包连接电路(Packet connect circuit,PCC)的(X,Y)路由算法导致的多播传输的节点数量少、传输效率低,不能同时实现多种传输方式等情况,以及无法满足CNN每一层传输数据量大、传输方式复杂的要求,本文设计多路径包连接电路提升传输效率。多路径包连接电路采用两条多播输入通道和一条单播输出通道实现数据的输入-计算-输出的相互独立,结合多播和路由接收模块的判断机制实现多种传输方式。实验结果表明,与传统PCC相比,通道建立时间降低60.4%,数据包传输时间提升2.53x。(2)设计非还原压缩的编译码方法针对传统编译码方法在CNN领域中压缩率低,传输和计算时的再还原,以及零值在计算中仍无法实际跳过等情况,本文设计非还原压缩的编译码方法并实现其硬件化设计。编码时,该方法根据卷积计算的特性,对输入数据的每一行进行0/1编码,保留每行有效值个数,提升压缩率;在译码时,该方法根据有效值个数将编码与对应的有效值发送进入计算单元,计算单元根据编码进行移位译码计算,达到跳过零计算的目的,提升计算速度。实验结果表明,总的压缩率达到58.91%,其中,单层最高的压缩率达到48.64%。(3)设计编码行复用方法针对目前尚未有对压缩数据进行数据复用方法的情况,本文提出编码行复用方法。该方法充分挖掘压缩数据的数据量低的优点,利用卷积核在输入特征图向下滑动过程中产生的行数据复用,采用分时复用方式提升编码数据的利用率。实验结果表明,与Eyeriss的固定行复用相比,片外存储的读写次数降低45%。(4)设计低功耗高性能的CNN硬件加速器根据多路径包连接电路、非还原压缩编译码方法、编码行复用方法,本文设计低功耗高性能的CNN硬件加速器,设计多路径包连接电路、编码电路、控制电路、发送电路、计算电路,使用配置链配置每一层卷积的计算参数。实验结果表明,计算速度与Eyeriss相比,加速比为14.8x。(本文来源于《合肥工业大学》期刊2019-04-01)
硬件神经网络论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文设计了一种识别手写体数字的脉冲卷积神经网络数字电路,使用脉冲神经元代替卷积核,并分别对卷积层和池化层设计相应的电路结构,实现全流水线并行.相比于传统的卷积神经网络,在识别MNIST数据集时,卷积神经网络的精确度为98.61%时,脉冲卷积神经网络的精度能达到98.04%.与相同流水线结构的卷积神经网络相比,脉冲神经网络平均能耗减少约50%.
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
硬件神经网络论文参考文献
[1].秦华标,曹钦平.基于FPGA的卷积神经网络硬件加速器设计[J].电子与信息学报.2019
[2].薛天志,刘百成,陈松.一种脉冲卷积神经网络VLSI硬件架构设计[J].微电子学与计算机.2019
[3].王洪利,李建成.用于卷积神经网络硬件加速器的3DDMA控制器[J].中国集成电路.2019
[4].张凡,董晨,陈景辉,贺国荣.基于反向神经网络的硬件木马识别[J].信息与电脑(理论版).2019
[5].余强浩.应用于人工视觉假体的图像分割神经网络设计与硬件实现[D].西安理工大学.2019
[6].王昆.深度学习中的卷积神经网络硬件加速系统设计研究[D].贵州大学.2019
[7].杨帆.面向视频行人检测的卷积神经网络硬件实现与性能分析[D].北京交通大学.2019
[8].余菲,赵杰,王静霞,温国忠,宋荣.BP神经网络字符识别系统Matlab建模及硬件实现[J].深圳职业技术学院学报.2019
[9].张祖扬.深度神经网络硬件加速研究[D].电子科技大学.2019
[10].张永亮.低功耗高性能的卷积神经网络硬件加速器设计[D].合肥工业大学.2019