导读:本文包含了说话人自适应论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:自适应,神经网络,说话,深度,语音识别,情感,递归。
说话人自适应论文文献综述
贾艳洁,陈曦,于洁琼,王连明[1](2019)在《基于特征语谱图和自适应聚类SOM的快速说话人识别》一文中研究指出为获得说话人发音特征,基于仿生思想,提出一种基于语谱图统计的方法,通过对说话人短时语谱图的线性迭加获得可表征说话人稳定发音特征的特征语谱图。为解决资源受限的设备中说话人识别系统网络训练速度慢、识别效率低的问题,基于传统自组织映射(self-organizing feature map,SOM)神经网络提出了一种自适应聚类SOM (adaptive clustering-SOM,ACSOM)算法,随着待识别说话人数的增加,自动调节增加竞争层神经元个数,直至聚类数达到说话人个数。采用该AC-SOM模型对100人的自建特征语谱图样本库进行聚类识别,最大训练时间只需304 s,最大单张识别时间小于28 ms;在识别人数相同时,相对于所对比的其他识别方法,该方法大大提升了网络训练速度和识别速度,满足了边缘智能(edge intelligence)系统中对数据处理与执行的实时性的要求。(本文来源于《科学技术与工程》期刊2019年15期)
黄俊,蒋兵,李先刚,郭武生,戴礼荣[2](2019)在《I-vector聚类字典及注意力机制框架的说话人自适应》一文中研究指出近些年来,语音识别任务中的说话人自适应技术在实际工程中得到广泛应用.基于i-vector的说话人自适应是其中最为重要的一种,但是提取i-vector需要用到整句话的信息,并不能用于线上的自适应.因此,本文设计了一种基于i-vector聚类字典及注意力机制的自适应框架,测试时能够在不提取i-vector和不进行二遍解码的前提下快速实现线上自适应,并且该框架具有灵活性优和可扩展性好的优点,能够方便的用于其他类型的自适应,如地域自适应和性别自适应.在Switchboard任务上,实验结果表明我们提出的框架在不同的声学模型上相对于基线均有性能提升,并且通过说话人识别任务进一步证明了该方法的合理性.(本文来源于《小型微型计算机系统》期刊2019年02期)
智鹏鹏,杨鸿武,宋南[3](2018)在《利用说话人自适应实现基于DNN的情感语音合成》一文中研究指出为了提高情感语音合成的质量,提出一种采用多个说话人的情感训练语料,利用说话人自适应实现基于深度神经网络的情感语音合成方法。该方法应用文本分析获得语音对应的文本上下文相关标注,并采用WORLD声码器提取情感语音的声学特征;采用文本的上下文相关标注和语音的声学特征训练获得与说话人无关的深度神经网络平均音模型,用目标说话人的目标情感的训练语音和说话人自适应变换获得与目标情感的说话人相关的深度神经网络模型,利用该模型合成目标情感语音。主观评测表明,与传统的基于隐马尔科夫模型的方法比较,该方法合成的情感语音的主观评分更高。客观实验表明,合成的情感语音频谱更接近原始语音。所以,该方法能够提高合成情感语音的自然度和情感度。(本文来源于《重庆邮电大学学报(自然科学版)》期刊2018年05期)
李葵,徐海青,吴立刚,梁翀[4](2018)在《基于多情感说话人自适应的情感语音合成研究》一文中研究指出提出了一种基于多情感自适应的情感语音合成方法,其创新点在于,通过SAT过程从多个说话人的情感语音语料中获得情感语音的平均音模型,对目标说话人的情感数据进行自适应变换,构建目标情感的声学参数模型,从而达到合成出目标说话人的情感语音的效果.实验表明,本方提出的方法能够获得自然度和情感相似度均较好的合成情感语音.(本文来源于《湘潭大学自然科学学报》期刊2018年04期)
古典[5](2018)在《语音识别中神经网络声学模型的说话人自适应研究》一文中研究指出近年来,深度神经网络(Deep Neural Network,DNN)技术在自动语音识别(Auto Speech Recognition,ASR)中取得了重大的突破,相比于传统的高斯混合模型(Gaussian Mixture Model,GMM)显着地提升了系统的识别性能。然而,像其他监督学习方法一样,DNN容易受到由于训练和测试条件不匹配导致的性能下降的影响,说话人自适应(Speaker Adaptation,SA)是为了解决说话人差异导致的不匹配问题,在基于神经网络的声学模型上研究说话人自适应技术成为语音识别领域的一个热门方向。本文分别从特征和模型的角度对说话人自适应方法进行研究,对这些自适应方法进行融合和改进,并深入探究基于卷积神经网络的说话人自适应方法,论文的主要研究工作如下:首先,针对声学模型中DNN对说话人信息辨别能力差的情况,引入基于辅助特征的说话人自适应方法,将包含说话人信息的特征与声学特征拼接共同作为DNN的输入,增强网络对说话人信息的感知能力。实验结果表明,基于辅助特征的说话人自适应方法有助于提升网络的区分能力,减小说话人之间的差异性,进而降低系统的单词错误率。接着,深入研究基于学习性隐层单元分布(Learning Hidden Unit Contributions,LHUC)的模型域自适应方法,并分别采取两种策略对原方法进行改进。从自适应方法之间的互补性角度出发,本文提出LHUC与辅助特征相融合的方法进一步提升系统的识别性能。此外,为了解决自适应阶段的数据稀疏问题,多任务学习(Multi-taskLearning,MTL)引入到LHUC自适应中,它通过加入额外的音素分类任务作为辅助任务帮助自适应参数更新。实验结果表明,基于融合的自适应方法能够有效地提升模型对特定说话人的匹配程度,进一步降低系统的单词错误率:基于MTL-LHUC的自适应方法通过扩大声学空间的覆盖范围弥补了稀少的状态分类问题,在有限的自适应数据条件下取得了更出色的性能提升。最后,本文对卷积神经网络(Convolutional Neural Network,CNN)框架的说话人自适应方法展开研究。为了利用LHUC这种具有诸多优良特性的模型域自适应方法,本文尝试对该方法进行改进使之适用于CNN的声学模型中,分别通过对比实验比较自适应层置于卷积层、池化层以及输入层的性能差异并证实该方法的有效性。同时,本文还提出一种基于i-vector的卷积层自适应结构,该方法通过一个变换矩阵将i-vector插入卷积层,新的卷积层结构在提取局部信息的同时也能够减小说话人之间的差异性。相关的实验结果表明该方法相比于基线系统有效地降低了单词错误率,并且仅增加了少量的参数作为代价。此外,将以上两种方法进行融合对系统性能有更进一步的提升,在无监督自适应模式下取得了最优的实验结果。(本文来源于《中国科学技术大学》期刊2018-06-01)
古典,李辉[6](2018)在《基于深度神经网络的说话人自适应方法研究》一文中研究指出在说话人自适应领域,基于深度神经网络(DNN)的说话人自适应方法已成为主流方法。学习性隐层单元贡献(LHUC)作为一种有效的无监督自适应方法比其他自适应方法有诸多优势,而自适应数据的稀疏问题却导致识别性能受到影响。为了降低数据稀疏所带来的影响,在原有LHUC技术的基础上,加入i-vector及多任务学习这两种方法分别与其相结合。在TEDLIUM语料库上进行实验,实验结果表明,两种融合方法都比原系统表现出了更好的性能,单词错误率(WER)分别相对降低了2.5%和1.9%。(本文来源于《信息技术与网络安全》期刊2018年04期)
金超,龚铖,李辉[7](2018)在《语音识别中神经网络声学模型的说话人自适应研究》一文中研究指出针对语音识别系统中测试的目标说话人语音和训练数据的说话人语音存在较大差异时,系统识别准确率下降的问题,提出一种基于深度神经网络DNN(Deep Neural Network)的说话人自适应SA(Speaker Adaptation)方法。它是在特征空间上进行的说话人自适应,通过在DNN声学模型中加入说话人身份向量I-Vector辅助信息来去除特征中的说话人差异信息,减少说话人差异的影响,保留语义信息。在TEDLIUM开源数据集上的实验结果表明,该方法在特征分别为fbank和f MLLR时,系统单词错误率WER(Word Error Rate)相对基线DNN声学模型提高了7.7%和6.7%。(本文来源于《计算机应用与软件》期刊2018年02期)
刘建航,杨喜鹏,李世宝,陈海华,黄庭培[8](2017)在《干扰空间投影在本征音说话人自适应中的应用》一文中研究指出本征音自适应是一种快速高效的自适应算法,它被广泛应用到说话人识别中,但由于同一个说话人的本征音自适应的说话人因子之间的信道特征和噪声存在差异,导致了算法的识别精度降低。针对这一问题,提出基于干扰空间投影的本征音说话人识别(EV-NSP)算法。将训练语音通过主成分分析(PCA)方法计算得到干扰投影矩阵;将投影矩阵应用到生成本征音矢量算法中;利用最大似然估计算法自适应地得到说话人因子的估计值。实验结果表明,EV-NSP算法相对于传统的本征音自适应算法识别性能有了较大的提高。(本文来源于《计算机应用与软件》期刊2017年11期)
黄智颖[9](2017)在《RNN-BLSTM声学模型的说话人自适应方法研究》一文中研究指出说话人自适应技术利用特定说话人提供的语料,让语音识别系统在识别性能上针对该说话人有明显的提升。它可以将说话人无关的识别系统转换成说话人相关的识别系统,从而和说话人相关的声学特征相匹配;也可以将说话人相关的声学特征转换成说话人无关的声学特征,从而和说话人无关的识别系统相匹配。因此,说话人自适应技术是为了让说话人和识别系统尽量匹配。基于双向长短时记忆单元的递归神经网络(recurrent neural network with bidi-rectional Long Short-Term Memory,RNN-BLSTM)声学模型不仅针对语音 的时序进行建模,而且利用一些控制器来控制信息流,从而解决了传统的基于递归神经网络声学模型的梯度爆炸和梯度消失问题。同时,在一些语音标准数据集上基于RNN-BLSTM声学模型的语音识别系统相比于深度神经网络(Deep Neural Networks,DNN)获得了超过10%的性能提升。虽然RNN-BLSTM声学模型在识别性能上相比于DNN有了大幅度的提升,但是依旧不能够解决上述的不匹配问题。因此,在RNN-BLSTM声学模型上进行说话人自适应技术的研究尤为重要。本文主要围绕RNN-BLSTM声学模型上的说话人自适应展开研究。首先,本文将基于说话人编码(speaker code)的说话人自适应方法应用于RNN-BLSTM声学模型,并分析RNN-BLSTM的记忆单元(memory cell)中的不同控制器对说话人自适应的识别性能的影响。与此同时,我们还提出一些启发式的算法来对基于speaker code的方法进行优化和改进,从而进一步地提升识别性能。然后,本文提出了基于深层编码(deep code,d-code)的离线说话人自适应方法,该方法提供了一种解决基于speaker code的说话人自适应方法的二遍解码问题的途径。通过实验对比,该方法在识别性能上与基于speaker code的方法相接近,并且比同样不需要二遍解码的基于鉴别性矢量(identity vector,i-vector)的说话人自适应方法在识别性能上更优,训练过程更加灵活。最后,本文研究基于d-code的在线说话人自适应方法,该方法不需要收集说话人整个句子。它在在线的语音识别过程中逐步进行说话人自适应,并取得了较好的识别效果。(本文来源于《中国科学技术大学》期刊2017-05-28)
梁玉龙[10](2017)在《深度神经网络的说话人自适应技术研究》一文中研究指出随着深度神经网络在大词汇连续语音识别中的应用越来越广泛,基于深度神经网络架构的语音识别系统也逐渐成为人们研究的重点与热点。与传统的高斯混合模型-隐马尔可夫模型(Gaussian Mixture Model-Hidden Markov Model,GMM-HMM)相似,在深度神经网络框架下也同样存在着训练数据和测试数据之间的不匹配问题。说话人自适应技术能够利用说话人信息对神经网络参数调整,有效的改善这种不匹配问题。本文研究如何运用说话人信息提出更为合理且实用的自适应技术,主要内容如下:针对bottleneck tandem系统中说话人自适应方法应用时,由于瓶颈层的存在,导致系统性能欠佳,本文提出一种结合半非负矩阵分解(Semi Non-negative Matrix Factorization,SNMF)及i-vector的说话人自适应方法。该方法有两种实现方式:第一种是利用i-vector进行说话人感知训练,然后利用SNMF算法对权值矩阵某一层做分解,并提取相关特征;第二种首先训练一个说话人无关的神经网络,其次利用i-vector训练自适应网络,接着调整说话人无关神经网络参数,最后利用SNMF算法对权值矩阵做分解并提取特征。最后利用该特征进行识别。在语料较充足的WSJ语料库以及语料数据量较少的捷克语语料库的语音识别任务中,该方法均能够使系统的识别性能进一步的提升。针对基于i-vector的说话人自适应方法在实现过程中,i-vector的提取用到了梅尔频率倒谱系数(Mel-Frequency Cepstrum Coefficient,MFCC)特征,由于该特征鲁棒性相对较差,提出一种改进i-vector的说话人自适应方法。该方法通过引入基于奇异值矩阵分解算法的低维特征提取方法,将i-vector提取过程中用到的特征用该方法提取的鲁棒性更强的低维特征替换,以提取表征能力更优的i-vector,使基于改进i-vector的说话人自适应方法的语音识别系统的识别性能得到改善。在捷克语语料库以及WSJ语料库中的语音识别实验表明,该方法相对于没有使用说话人自适应方法的深度神经网络语音识别系统的性能有明显的改善,且相对于传统的基于i-vector的说话人自适应方法的深度神经网络语音识别系统的性能也有一定的改善。针对说话人感知训练算法中的说话人信息选择的问题,本文引入一种新的说话人信息——说话人嵌入特征,该特征较i-vector能够很好的处理短的语音片段,基于此特征提出一种基于说话人嵌入特征的说话人自适应方法。该方法首先利用一阶统计量以及说话人标签训练深度神经网络(Deep Neural Network,DNN)模型并提取说话人嵌入特征,然后利用该特征和原始输入特征拼接后的特征进行说话人自适应。timit语料库的语音识别任务实验表明,该方法能够改善DNN-HMM语音识别系统的性能。(本文来源于《解放军信息工程大学》期刊2017-04-20)
说话人自适应论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
近些年来,语音识别任务中的说话人自适应技术在实际工程中得到广泛应用.基于i-vector的说话人自适应是其中最为重要的一种,但是提取i-vector需要用到整句话的信息,并不能用于线上的自适应.因此,本文设计了一种基于i-vector聚类字典及注意力机制的自适应框架,测试时能够在不提取i-vector和不进行二遍解码的前提下快速实现线上自适应,并且该框架具有灵活性优和可扩展性好的优点,能够方便的用于其他类型的自适应,如地域自适应和性别自适应.在Switchboard任务上,实验结果表明我们提出的框架在不同的声学模型上相对于基线均有性能提升,并且通过说话人识别任务进一步证明了该方法的合理性.
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
说话人自适应论文参考文献
[1].贾艳洁,陈曦,于洁琼,王连明.基于特征语谱图和自适应聚类SOM的快速说话人识别[J].科学技术与工程.2019
[2].黄俊,蒋兵,李先刚,郭武生,戴礼荣.I-vector聚类字典及注意力机制框架的说话人自适应[J].小型微型计算机系统.2019
[3].智鹏鹏,杨鸿武,宋南.利用说话人自适应实现基于DNN的情感语音合成[J].重庆邮电大学学报(自然科学版).2018
[4].李葵,徐海青,吴立刚,梁翀.基于多情感说话人自适应的情感语音合成研究[J].湘潭大学自然科学学报.2018
[5].古典.语音识别中神经网络声学模型的说话人自适应研究[D].中国科学技术大学.2018
[6].古典,李辉.基于深度神经网络的说话人自适应方法研究[J].信息技术与网络安全.2018
[7].金超,龚铖,李辉.语音识别中神经网络声学模型的说话人自适应研究[J].计算机应用与软件.2018
[8].刘建航,杨喜鹏,李世宝,陈海华,黄庭培.干扰空间投影在本征音说话人自适应中的应用[J].计算机应用与软件.2017
[9].黄智颖.RNN-BLSTM声学模型的说话人自适应方法研究[D].中国科学技术大学.2017
[10].梁玉龙.深度神经网络的说话人自适应技术研究[D].解放军信息工程大学.2017