综合考虑语音帧间关系及后处理网络的效果,提出一种改进的基于深度信念网络(DBN)的语音转换方法.该方法利用线性预测分析-合成模型提取说话人线性预测谱的特征参数,构建基于区域融合谱特征参数的深度信念网络用以预训练模型,经过微调阶段后引入误差修正网络以实现细节谱特征的补偿.对比实验结果表明,随着训练语音帧数的增加,转换语音的谱失真呈下降趋势.同时,在训练语音帧数较少的情况下,改进方法在异性间转换的谱失真小于50%,在同性间转换的谱失真小于60%.实验结果表明,改进方法的谱失真度较传统方法降低约6.5%,且同性别间转换效果比异性间转换效果更为明显,转换后语音的自然度和可理解度明显提高.
类型: 期刊论文
作者: 王文浩,张筱,万永菁
关键词: 深度信念网络,语音转换,区域融合谱特征,误差修正网络,谱失真度
来源: 浙江大学学报(工学版) 2019年12期
年度: 2019
分类: 工程科技Ⅱ辑,信息科技
专业: 电信技术,自动化技术
单位: 华东理工大学信息科学与工程学院
基金: 国家自然科学基金资助项目(61872143)
分类号: TN912.3;TP183
页码: 2372-2380
总页数: 9
文件大小: 1655K
下载量: 89
本文来源: https://www.lunwen66.cn/article/5a42518f46af88907b9b34b9.html