机器学习模型可解释性方法、应用与安全研究综述

论文摘要

尽管机器学习在许多领域取得了巨大的成功,但缺乏可解释性严重限制了其在现实任务尤其是安全敏感任务中的广泛应用.为了克服这一弱点,许多学者对如何提高机器学习模型可解释性进行了深入的研究,并提出了大量的解释方法以帮助用户理解模型内部的工作机制.然而,可解释性研究还处于初级阶段,依然还有大量的科学问题尚待解决.并且,不同的学者解决问题的角度不同,对可解释性赋予的含义也不同,所提出的解释方法也各有侧重.迄今为止,学术界对模型可解释性仍缺乏统一的认识,可解释性研究的体系结构尚不明确.在综述中,回顾了机器学习中的可解释性问题,并对现有的研究工作进行了系统的总结和科学的归类.同时,讨论了可解释性相关技术的潜在应用,分析了可解释性与可解释机器学习的安全性之间的关系,并且探讨了可解释性研究当前面临的挑战和未来潜在的研究方向,以期进一步推动可解释性研究的发展和应用.

论文目录

1 机器学习可解释性问题

2 ante -hoc可解释性

2.1 自解释模型

2.2 广义加性模型

2.3 注意力机制

3 post-hoc可解释性

3.1 全局解释

3.1.1 规则提取

3.1.2 模型蒸馏

3.1.3 激活最大化

3.2 局部解释

3.2.1 敏感性分析

3.2.2 局部近似

3.2.3 反向传播

3.2.4 特征反演

3.2.5 类激活映射

3.2.6 其他方法

4 可解释性应用

4.1 模型验证

4.2 模型诊断

4.3 辅助分析

4.4 知识发现

5 可解释性与安全性分析

5.1 安全隐患消除

5.2 安全威胁

5.3 自身安全问题

6 当前挑战与未来方向

6.1 解释方法设计

6.2 解释方法评估

7 结束语

文章来源

类型: 期刊论文

作者: 纪守领,李进锋,杜天宇,李博

关键词: 机器学习,可解释性,解释方法,可解释机器学习,安全性

来源: 计算机研究与发展 2019年10期

年度: 2019

分类: 信息科技

专业: 计算机软件及计算机应用,自动化技术

单位: 浙江大学计算机科学与技术学院网络空间安全研究中心,伊利诺伊大学香槟分校计算机科学学院

基金: 国家自然科学基金项目(61772466,U1836202),浙江省自然科学基金杰出青年项目(LR19F020003),浙江省科技计划项目(2017C01055)~~

分类号: TP181;TP309

页码: 2071-2096

总页数: 26

文件大小: 1991K

下载量: 1918

机器学习模型可解释性方法、应用与安全研究综述

论文摘要

论文目录

文章来源

相关论文文献