导读:本文包含了声码器论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:声码,线性,神经网络,矢量,速率,卷积,语音。
声码器论文文献综述
伍宏传,凌震华[1](2019)在《神经网络声码器的话者无关与自适应训练方法研究》一文中研究指出近年来出现的基于WaveNet的神经网络声码器可以取得较高的重构语音质量,但其采用的话者相关模型训练方法对于目标发音人语音数据量依赖较大.因此,本文研究目标发音人语音数据量受限情况下的神经网络声码器训练方法.首先利用多发音人数据训练话者无关声码器模型,进一步利用少量目标发音人数据对话者无关模型进行自适应更新,以得到目标发音人的神经网络声码器模型.本文实验对比了自适应训练中局部更新与全局更新两种策略,以及自适应与话者相关两种训练方法.实验表明,本文方法构建的神经网络声码器可以取得优于STRAIGHT声码器的重构语音质量,在目标发音人数据量受限的情况下,该方法相对话者相关训练也可以取得更好的客观和主观性能表现.(本文来源于《小型微型计算机系统》期刊2019年02期)
李强,张玲,朱兰,明艳[2](2018)在《一种甚低码率声码器的设计》一文中研究指出在混合激励线性预测(mixed excitation linear prediction,MELP)模型的基础上,以超帧为单位,采用多帧联合编码技术,分模式对子帧的语音特征参数进行联合量化,实现了一种码率为600 bit/s的声码器。为了进一步减小量化误差,设计出了一种基于高斯混合模型的预测分类分裂矢量量化器(predictive switched split vector quantization based on Gauss mixture model,GMM-PSSVQ),该量化器对超帧中某些子帧的线谱频率进行量化,并利用帧间预测和线性插值等方法提高编码效率。采用谱失真对设计的矢量量化器进行性能评估,并分别与多级矢量量化和预测分裂矢量量化算法进行性能比较;通过客观感知语音质量评估和主观判断韵字测试对实现的声码器进行性能测试。测试结果表明,设计的矢量量化器平均谱失真最低,实现的声码器合成语音具有较高的清晰度和可懂度。(本文来源于《重庆邮电大学学报(自然科学版)》期刊2018年06期)
孙凤梅,薛颜,李克靖[3](2018)在《基于TMS320F28335的声码器设计与实现》一文中研究指出为了适应复杂的低速率语音通信场合,设计了一种多速率声码器,能够实时完成2.4kb/s,1.2kb/s和0.6kb/s 3种速率的编解码算法。利用多种语音特征参数,对清浊音采用有监督学习的支持向量机(Support Vector Machine,SVM)进行判决,解决合成语音的偶发性嘶哑、变调等问题。针对多数声码器选用的DSP片上内存不足需外挂FLASH的问题,TMS320F28335 DSP能够满足多速率语音编解码算法对存储空间的需求,不需要额外设计存储器,在功耗、体积和成本方面具有一定优势。另外,由于采用独特的硬件接口控制方式,很方便地实现了速率的转换功能,大大提高了声码器的灵活性和适用范围。测试结果表明,该多速率声码器合成语音清晰自然,在通信系统应用中表现出了良好的性能。(本文来源于《电子设计工程》期刊2018年20期)
伍宏传[4](2018)在《基于卷积神经网络的语音合成声码器研究》一文中研究指出语音合成声码器从基频、频谱等声学特征中重构语音波形,是统计参数语音合成系统中不可或缺的一部分。近年来,随着深度神经网络模型在声学建模中的成功应用,声学模型精度与合成语音自然度均得到了有效改善。但是以STRAIGHT为代表的传统源-滤波器结构声码器仍然存在频谱细节丢失、相位依赖人工设计以及线性滤波框架等问题,这仍然制约着统计参数方法合成语音质量的进一步提升。2016年,DeepMind研究者提出了直接对语音波形建模与生成的深度卷积神经网络结构,并将其用于从文本特征预测语音波形,取得了优于传统统计参数方法的合成语音自然度。利用卷积神经网络对语音波形直接建模弥补了频谱细节、相位信息丢失的缺陷,深层次的神经网络也具有灵活的非线性处理能力,这为语音合成声码器的实现提供了新的途径。本文围绕基于卷积神经网络的语音合成声码器从叁个方面展开研究工作。首先,设计实现了基于卷积神经网络的话者相关语音合成声码器;其次,提出了神经网络声码器的话者无关及自适应训练方法,在目标语音数据有限情形下实现高质量声码器的训练;最后,设计实现了多分辨率层级化网络结构,提升语音合成声码器的生成效率。本文整体安排如下:第一章是绪论,概述语音合成技术,介绍主流的波形拼接合成方法和统计参数合成方法,然后回顾了常用的语音合成声码器并分析其优势和不足。第二章首先介绍DeepMind研究者提出的WaveNet模型,然后阐明用卷积神经网络对语音波形建模的动机与出发点,并详细介绍本文设计实现的基于卷积神经网络的语音合成声码器模型。该模型构造了一个上采样网络实现了声学特征采样率与输出语音采样率的匹配,然后将变换后的声学条件信息加入网络激活函数中指导语音的生成。第叁章首先回顾了说话人自适应技术历史,介绍了语音识别与语音合成任务中的自适应方法;然后介绍了本文提出的神经网络语音合成声码器的话者无关及自适应训练方法;最后利用自然声学特征和声学模型预测声学特征作为输入重构语音,实验验证了自适应训练的有效性。第四章首先分析了神经网络语音合成声码器生成语音速度较慢的问题,其次介绍了基于扩张卷积神经网络的语音频带扩展工作,然后在此基础上提出了多分辨率层级化生成网络,最后实验评估了该模型的效率提升结果以及合成语音质量。第五章对全文进行总结。(本文来源于《中国科学技术大学》期刊2018-06-02)
凌震华,伍宏传[5](2018)在《基于WaveNet的语音合成声码器研究》一文中研究指出近二十年来,统计参数语音合成方法发展迅速,声学建模与声码器是其中两个关键技术。声码器用于从语音波形中提取基频、频谱等声学特征,以及基于声学模型预测的声学特征,以重构语音波形,传统声码器基于源-滤波器思想设计。但是现阶段基于源-滤波器模型的声码器仍然制约着统计参数合成语音质量的进一步提升。本文介绍了一种基于神经网络的语音合成声码器。该声码器基于2016年谷歌(本文来源于《人工智能》期刊2018年01期)
孟庆林,徐顺雨[6](2017)在《双侧人工耳蜗的鸡尾酒会效应:声码器仿真》一文中研究指出0引言人工耳蜗(cochlear implant,CI)可以帮助多数重度以上听力损失者恢复部分听觉功能。大多数CI植入者可以在安静环境下获得良好的一对一言语交流能力,但是在复杂声音场景下的言语识别效果较差,不具备正常听力者的"鸡尾酒会效应"。单侧CI不能够提供空间听觉所需的声线索,例如最典型的声线索是双耳声级差(Interaural level difference,ILD)和时间差(Interaural time difference,(本文来源于《中国声学学会2017年全国声学学术会议论文集》期刊2017-09-22)
徐康[7](2017)在《基于PXA270和AC486的群路声码器设计》一文中研究指出通过对Intel公司的PXA270处理器与AC486专用语音编解码芯片之间的HPI接口时序分析,采用基于EP3C系列FPGA的VHDL和嵌入式Linux程序设计,实现了高质量群路声码器。该设计具有小型化,可靠性高、扩展性强的特点,已在多个项目中批量生产使用。(本文来源于《信息通信》期刊2017年07期)
李强,舒勤军,谢虹恩,明艳[8](2017)在《一种基于混合MELP/CELP的4 kbit/s声码器》一文中研究指出利用混合激励线性预测(mixed excitation linear prediction,MELP)算法和码激励线性预测(code excitation linear prediction,CELP)算法的优点,提出了一种混合MELP/CELP语音编码模型。编码端对强浊音帧采用MELP编码,对弱浊音帧和清音帧进行CELP编码。MELP编码器采用相位对齐技术提取强浊音帧的相位参数,解决了合成语音与原始语音在时间上不同步的问题。对实现的4 kbit/s混合MELP/CELP声码器进行客观MOS(mean opinion score)值和主观DRT(diagnostic rhythm test)清晰度测试,结果表明,该声码器的合成语音具有较高的可懂度和清晰度。(本文来源于《重庆邮电大学学报(自然科学版)》期刊2017年02期)
朱兰[9](2017)在《MELP甚低码率声码器的研究及实现》一文中研究指出随着移动通信技术的发展,用户数量的增多,无线通信中的频带资源变得越来越宝贵。降低语音的编码速率可以提高频带资源的利用率,因此高质量、低速率的语音编码技术被广泛应用于各种无线通信系统。混合激励线性预测(Mixed Excitation Linear Prediction,MELP)编码在线性预测模型的基础上采用了混合激励等五大机制来提高合成语音的质量,能在低于2.4kbps的速率上重建出较高质量的合成语音,可应用于卫星通信、军事通信和水下通信等频带资源极其宝贵的领域。因此基于MELP编码模型的甚低速率声码器是语音编码领域的一个重点研究方向。作为一种高质量的数据压缩算法,矢量量化在甚低速率语音编码领域起着非常重要的作用。本文通过对矢量量化算法进行研究,在预测分裂矢量量化算法中引入分类矢量量化,提出了一种基于高斯混合模型的预测分类分裂矢量量化(GMM-based Predictive Switched Split Vector Quantization,GMM-PSSVQ)算法。用GMM-PSSVQ算法对2.4kbps MELP声码器中的线谱频率(Line Spectrum Frequency,LSF)参数进行量化,并与多级矢量量化算法和预测分裂矢量量化算法进行对比,实验结果表明使用GMM-PSSVQ算法的声码器合成的语音的平均谱失真最小,客观感知语音质量评估(Perceptual Evaluation of Speech Quality,PESQ)值最高,证明该算法能有效地降低LSF参数的量化失真,进而提高合成语音的质量。本文在深入研究标准MELP声码器算法原理的基础上,通过采用多帧联合量化和线性插值等技术降低编码速率,设计出了一种基于MELP的甚低速率声码器,编码速率为600bps。该声码器以20ms为一子帧,5个子帧组成一个超帧,根据子帧的清/浊音判决结果,将超帧划分为16种模式,对每种模式下的语音特征参数用60bit进行联合量化。在语音特征参数比特分配方案中,编码端采用GMM-PSSVQ算法只对一个超帧中2~3个子帧的LSF参数进行量化;解码端解码出这几帧的LSF参数后,利用相邻子帧之间的相关性,采用拉格朗日插值法计算出该超帧其它子帧的LSF参数。通过PESQ和判断韵字测试(Diagnostic Rhymer Test,DRT)对本文设计的声码器进行了性能测试,结果表明本文设计的600bps MELP声码器合成的语音具有较高的清晰度和可懂度。(本文来源于《重庆邮电大学》期刊2017-04-07)
付余涛[10](2016)在《基于MELP的低速率声码器矢量量化技术研究》一文中研究指出随着通信技术的发展,图像、数据等非语音信息在信息传递中所占比例越来越高,但语音通信仍然是目前大多数通信系统的主要功能。在陆地蜂窝移动通信和卫星移动通信系统中,语音通信量的高速增长与有限的无线频带资源的矛盾越来越突出。高质量低速率语音编码器的应用成为提高频带资源利用率,增大通信系统容量的主要方法之一,高效的语音编解码算法是近年来研究的重点和热点。矢量量化作为一种高效的数据压缩技术,由于其压缩比大且解码简单在语音编码领域中起着非常重要的作用,矢量量化性能的好坏直接影响着合成语音质量的高低。因此,本文深入学习了矢量量化技术的基本原理,研究了粒子群算法和混沌算法的特性,结合它们在寻优求解过程中的特点,针对传统矢量量化码书设计算法的不足,提出了一种基于混沌粒子群的码书设计改进算法。采用该算法设计出了语音特征参数线谱对频率(Linear Spectrum Frequency,LSF)矢量量化码书,并应用到标准2.4kbps混合激励线性预测(Mixed Excited Linear Predictive,MELP)声码器中。通过与LBG(Linde Buzo Gray)和粒子群码书设计算法的比较,使用本文算法设计的码书,声码器的合成语音平均谱失真最低,说明了采用混沌粒子群码书设计算法设计出的码书具有良好量化性能。本文研究了2.4kbps MELP声码器编解码流程及关键算法原理,在此基础上充分利用语音帧间的相关性,采用多帧联合量化技术,进一步降低了语音编码器的输出码率,实现了一个1.2kbps低速率声码器。利用本文提出的基于混沌粒子群的码书设计算法生成了残差谐波幅度、线谱对频率矢量量化码书。通过客观平均意见得分(Mean Opinion Score,MOS)和判断韵字测试(Diagnostic Rhyme Test,DRT)两个指标对该声码器的合成语音质量进行测试,结果表明本文设计的1.2kbps声码器的合成语音具有较高的清晰度和可懂度,也说明了本文提出的矢量量化码书设计改进算法具有较广泛的应用前景。(本文来源于《重庆邮电大学》期刊2016-06-08)
声码器论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
在混合激励线性预测(mixed excitation linear prediction,MELP)模型的基础上,以超帧为单位,采用多帧联合编码技术,分模式对子帧的语音特征参数进行联合量化,实现了一种码率为600 bit/s的声码器。为了进一步减小量化误差,设计出了一种基于高斯混合模型的预测分类分裂矢量量化器(predictive switched split vector quantization based on Gauss mixture model,GMM-PSSVQ),该量化器对超帧中某些子帧的线谱频率进行量化,并利用帧间预测和线性插值等方法提高编码效率。采用谱失真对设计的矢量量化器进行性能评估,并分别与多级矢量量化和预测分裂矢量量化算法进行性能比较;通过客观感知语音质量评估和主观判断韵字测试对实现的声码器进行性能测试。测试结果表明,设计的矢量量化器平均谱失真最低,实现的声码器合成语音具有较高的清晰度和可懂度。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
声码器论文参考文献
[1].伍宏传,凌震华.神经网络声码器的话者无关与自适应训练方法研究[J].小型微型计算机系统.2019
[2].李强,张玲,朱兰,明艳.一种甚低码率声码器的设计[J].重庆邮电大学学报(自然科学版).2018
[3].孙凤梅,薛颜,李克靖.基于TMS320F28335的声码器设计与实现[J].电子设计工程.2018
[4].伍宏传.基于卷积神经网络的语音合成声码器研究[D].中国科学技术大学.2018
[5].凌震华,伍宏传.基于WaveNet的语音合成声码器研究[J].人工智能.2018
[6].孟庆林,徐顺雨.双侧人工耳蜗的鸡尾酒会效应:声码器仿真[C].中国声学学会2017年全国声学学术会议论文集.2017
[7].徐康.基于PXA270和AC486的群路声码器设计[J].信息通信.2017
[8].李强,舒勤军,谢虹恩,明艳.一种基于混合MELP/CELP的4kbit/s声码器[J].重庆邮电大学学报(自然科学版).2017
[9].朱兰.MELP甚低码率声码器的研究及实现[D].重庆邮电大学.2017
[10].付余涛.基于MELP的低速率声码器矢量量化技术研究[D].重庆邮电大学.2016