深度卷积神经网络的发展及其在计算机视觉领域的应用

论文摘要

作为类脑计算领域的一个重要研究成果,深度卷积神经网络已经广泛应用到计算机视觉、自然语言处理、信息检索、语音识别、语义理解等多个领域,在工业界和学术界掀起了神经网络研究的浪潮,促进了人工智能的发展.卷积神经网络直接以原始数据作为输入,从大量训练数据中自动学习特征的表示.卷积神经网络具有局部连接、权值共享和池化操作等特性,可以有效降低网络复杂度,减少训练参数的数目,使模型对平移、扭曲、缩放具有一定程度的不变性.目前,深度卷积神经网络主要是通过增加网络的层数,使用更大规模的训练数据集,以及改进现有神经网络的网络结构或训练学习算法等方法,来模拟人脑复杂的层次化认知规律,拉近与人脑视觉系统的差距,使机器获得"抽象概念"的能力.深度卷积神经网络在图像分类、目标检测、人脸识别、行人再识别等多个计算机视觉任务中都取得了巨大成功.该文首先回顾了卷积神经网络的发展历史,简单介绍了M-P神经元模型、Hubel-Wiesel模型、神经认知机、用于手写识别的LeNet以及用于ImageNet图像分类比赛的深度卷积神经网络.然后详细分析了深度卷积神经网络的工作原理,介绍了卷积层、采样层、全连接层的数学表示及各自发挥的作用.接着该文重点从以下三个方面介绍卷积神经网络的代表性成果,并通过实例展示各种技术方法对图像分类精度的提升效果.从增加网络层数方面,讨论并分析了AlexNet、ZF-Net、VGG、GoogLeNet和ResNet等经典卷积神经网络的结构;从增加数据集规模方面,介绍了人工增加标注样本的难点以及使用数据扩增技术对神经网络性能提升的作用;从改进训练方法方面,介绍了包括L2正则化、Dropout、DropConnect、Maxout等常用的正则化技术,Sigmoid函数、tanh函数以及ReLU函数、LReLU函数、PReLU函数等常用的神经元激活函数,softmax损失、hinge损失、contrastive损失、triplet损失等不同损失函数,以及batch normalization技术的基本思想.针对计算机视觉领域,该文重点介绍了卷积神经网络在图像分类、目标检测、人脸识别、行人再识别、图像语义分割、图片标题生成、图像超分辨率、人体动作识别以及图像检索等方面的最新研究进展.从人类视觉认知机制出发,分析了视觉信息分层处理和"大范围优先"视觉认知过程的相关理论成果和对当前计算模型的一些理论启示.最后提出了未来基于深度卷积神经网络的类脑智能研究待解决的问题与挑战.

论文目录

1 引言

2 卷积神经网络及其相关技术

2.1 增加网络层数

2.2 增加训练数据集规模

2.3 正则化

2.4 其他改进训练学习方法

3 卷积神经网络的应用

3.1 图像分类

3.2 目标检测

3.3 图像语义分割

3.4 图片标题生成

3.5 人脸识别

3.6 行人再识别

3.7 图像超分辨率

3.8 人体动作识别

3.9 图像检索

4 视觉认知的理论启示

4.1 视觉信息分层处理

4.2“大范围优先”的视觉认知过程

5 展望

Background

文章来源

类型: 期刊论文

作者: 张顺,龚怡宏,王进军

关键词: 类脑智能,神经网络,深度学习,计算机视觉,视觉认知

来源: 计算机学报 2019年03期

年度: 2019

分类: 信息科技

专业: 计算机软件及计算机应用,自动化技术

单位: 西北工业大学电子与信息学院,西安交通大学人工智能与机器人研究所

基金: 国家“九七三”重点基础研究发展规划项目基金(2015CB351705),国家自然科学基金重点项目(61332018),国家自然科学基金青年科学基金项目(61703344),中央高校基本科研业务费专项资金(3102017OQD021)资助~~

分类号: TP391.41;TP18

页码: 453-482

总页数: 30

文件大小: 9383K

下载量: 8226

深度卷积神经网络的发展及其在计算机视觉领域的应用

论文摘要

论文目录

文章来源

相关论文文献

猜你喜欢