说话人辨认论文_欧国振

导读:本文包含了说话人辨认论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:说话,向量,模型,得分,语音,高斯,模糊。

说话人辨认论文文献综述

欧国振[1](2017)在《基于SVM的文本无关的说话人辨认技术研究》一文中研究指出语音是人类最有效的交流方式,因为其独特性使其成为说话人识别技术的基本依据。在说话人识别基本框架下,寻找一种区分性强的说话人个性特征以获得更高的系统性能是当前说话人识别领域的研究热点。模型选择和特征提取是说话人识别技术中重点考虑的问题,在确定了模型选择的条件下,说话人识别系统性能的好坏就主要决定于选取何种类型的特征参数。当今数字化时代,寻找一种优越的说话人个性特征具有很好的理论研究意义和现实意义。本文的研究目标是设计能够使说话人识别系统的识别性能提升或系统时间复杂度降低的语音特征。为此重点研究了GMM Supervector在说话人识别系统中的特性,并在此基础上提出了重组超矢量,结合支持向量机的特性分析重组超矢量的可行性;接着研究了近几年热门的深度学习,设计了一个深度神经网络来提取说话人语音的瓶颈特征。本文的主要工作和创新如下:(1)本文介绍了说话人识别的基本框架,主要包括语音预处理方法、特征提取方法和说话人识别模型。详细介绍了LPC、MFCC及它们的倒谱特征的提取过程,并分析它们的特性。除此之外,还介绍了模板匹配算法、隐马尔科夫模型法、矢量量化法、高斯混合模型法、支持向量机法以及深度神经网络法这几种经典的说话人识别方法。通过前期的研究发现,后叁种方法在说话人识别系统中表现相对更佳,所以本文对说话人识别的研究也是基于这叁种方法上的。(2)针对传统超矢量在说话人辨认系统中性能表现不够好的问题,本文提出了基于重组超矢量构建文本无关的GMM-SVM说话人辨认系统。重组超矢量充分利用各相邻高斯分量的均值矢量的高关联性,并且每个高斯分量的均值矢量携带足够的说话人个性信息。重组超矢量能充分反应说话人身份的内在细节,更使得系统可以充分利用SVM处理高维小数据性能优越的特点。实验结果表明,重组超矢量的GMM-SVM说话人辨认系统与传统的基于GMMSVM的说话人系统相比,有效的提高了说话人的辨别率,同时大幅度缩短了系统建模的时间。(3)针对传统特征参数不能挖掘语音信号深层次结构信息的问题,本文设计了一个深度神经网络来提取说话人语音的瓶颈特征,搭建基于DNN-SVM的说话人辨认系统。这种特征可以挖掘说话人的深度特性,具有不变性和高区分性的特点。实验结果表明,基于DNN-SVM的说话人辨认系统比基于SVM的说话人辨认系统的识别性能有了明显的提高。(本文来源于《南京邮电大学》期刊2017-10-26)

单燕燕[2](2016)在《基于LPC和MFCC得分融合的说话人辨认》一文中研究指出实验室环境下,说话人识别研究已经取得很大进展,但是在实际生活中,说话人识别系统的性能受到环境噪声、健康状况等因素的影响很大。日常生活中,感冒是不可避免的。而感冒往往会诱发鼻腔的炎症,改变鼻腔的容积和形状,引起说话人声音的改变,导致说话人识别性能下降。文中研究测试者感冒时说话人识别系统的性能。为了有效利用不同特征参数得分的互补性,针对基于GMM模型的说话人辨认系统,提出了将特征LPC和MFCC分别应用于该系统,并将二者的得分归一化后进行融合计算。实验结果表明,对正常语音来说,与LPC特征系统相比,该方法能够有效提升辨认性能;对感冒语音来说,当高斯成分为16时,较之LPC特征系统,该方法提升辨认性能12.5%左右,较之MFCC特征系统,该方法也能提升8.5%左右的辨认性能。(本文来源于《计算机技术与发展》期刊2016年01期)

单燕燕[3](2015)在《变音环境下鲁棒性说话人辨认关键技术研究》一文中研究指出随着计算机技术的不断提高以及社会信息化程度的逐渐深入,说话人识别技术的应用场景也越来越多,并且用户对说话人识别系统的友好性、精确性和鲁棒性的期望也逐渐提高。在纯净语音环境下,说话人识别技术发展的已相当成熟了,但是在实际应用场景中,说话人识别系统的准确性受到许多环境因素的影响,例如由于环境噪声导致采集的语音受污染影响识别率,再比如说话人由于某种原因导致变声影响识别率,常见的就是身体健康状况的变化(例如感冒),上述各种因素都是导致目前说话人识别系统鲁棒性不强的主要原因。在语音识别鲁棒性技术研究中,第一种情况环境噪声的影响,目前已经得到研究人员广泛关注,采取各种措施降低噪声影响提高识别率,但对于后者即说话人本身变声的研究还十分缺乏,本文侧重研究变声环境下如何提高说话人识别系统鲁棒性的技术。变声的情况也有许多,有故意的(如犯罪分子变声掩盖身份),更多的是因为说话人身体健康原因导致的,本文主要研究后者,侧重针对常见的感冒导致的变声情景。我们将说话人感冒时发出的语音称为感冒语音,感冒改变了说话人个性特征的分布,导致感冒测试语音与正常语音训练得到的说话人模型不匹配,从而使得系统的识别准确性显着下降。本论文的主要研究工作和创新如下:针对仅有正常语音来训练说话人模型的情况,本文分析说话人感冒引起发声系统的变化、鼻音的特点以及感冒语音与正常语音的差异,重点研究了如何补偿感冒造成的语音变化,改善说话人识别系统的性能。具体工作包括:(1)分析了说话人感冒引发鼻腔通道的变化以及对其调制作用的影响。研究了鼻音的频谱特点以及对比感冒语音与正常语音的频谱图,采用了与正常语音不同的预加重滤波器来处理感冒语音,即用低频衰减幅度更大,高频提升效果更好的预加重滤波器来处理感冒语音。在语音实验室录制的语料基础上进行了仿真实验,经过大量的实验得到当训练语音使用系数为0.91的经典预加重滤波器来处理,而感冒语音使用特殊预加重滤波器(1??0.98,??0.8)处理,系统的识别效果达最佳。在高斯成分取64时,系统对感冒语音的识别率与正常语音的识别率相一致。(2)提出了将线性预测系数与梅尔倒谱系数进行得分融合的说话人辨认系统,利用特征LPC和MFCC得分的互补性,将这两者的得分进行线性加权融合。实验表明,LPC和MFCC得分融合系统优于单一特征系统,它可以显着提高系统对感冒语音的识别率。仿真结果表明了当基于MFCC系统得分的加权系数为0.7,基于LPC系统的加权系数为0.3时,系统识别率达最高。(3)针对智能移动终端普及,许多用户通过移动终端接入网络需要进行身份认证的场景,为降低传输和处理的数据量,提出一种基于压缩感知的感冒语音说话人识别系统,在提取感冒语音信号的CS-MFCC特征参数前首先进行语音检测。通过行阶梯观测矩阵进行压缩采样,实质上是对相邻采样点进行迭加,浊音信号具有周期性,合适的压缩比下迭加后的波形几乎不变,清音不具有周期性迭加后波形发生了明显的变化,无声语音也会影响波形的迭加效果,故而提出将无声帧和清音帧剔除后,再用行阶梯矩阵观测采样,得到的观测信号波形更加接近观测前的波形,即在保证说话人识别系统性能的前提下,可以大大降低语音信号的数据量。(本文来源于《南京邮电大学》期刊2015-03-01)

李强,彭益武[4](2014)在《基于FPGA的GMM说话人辨认系统》一文中研究指出目前基于GMM的说话人辨认系统主要在微机上由软件实现,难以胜任大语音流的多路实时处理任务。鉴于FPGA强大的流水和并行处理能力,提出了一种以FPGA为应用平台,基于GMM的与文本无关说话人实时辨认系统的硬件实现方法。抽取NIST2003语音库的语料进行试验,结果表明,与在PC上的软件实现相比,识别率几无差别,但实时处理速度提高了约90倍。(本文来源于《广东交通职业技术学院学报》期刊2014年02期)

刘婷婷[5](2014)在《基于因子分析的与文本无关的说话人辨认方法研究》一文中研究指出与文本无关的说话人辨认旨在通过说话人的语音而非语义信息从而辨认出话者的身份,该研究在充分利用语音识别的非接触性的基础上逐渐发展成为生物认证领域的关键技术。近年来伴随着日益复杂的网络环境以及语音传输信道的多样化,传统的说话人辨认方法已经无法适应实际的应用环境,因此说话人辨认的鲁棒性研究[1]成为当今说话人识别领域的热点。因子分析的方法实质上是对说话人的语音提取紧凑的能够代表说话人身份的特征矢量,被称为I向量或者总体变化因子。I向量是基于联合因子分析(JFA)[2]的方法在2010年由Dehak提出的,相比联合因子分析的方法,它只需训练出一个全局变化空间,从而每个说话人的语音特征就可以利用该空间的I向量来表示。实验表明因子分析的方法能够有效地解决训练与测试环境不匹配的问题。获取I向量首先要对每个说话人建模,文中采用LBG算法和模糊理论相结合的方法来初始化模型。由于I向量既包含说话人的特征又包含信道信息,因此对I向量进行信道补偿是必不可少的,目的是实现信道信息与说话人特征的分离。信道补偿技术包括线性区分性分析(LDA),主成分分析(PCA),类内协方差规整(WCCN),干扰属性映射(NAP)。实验中比较了不同信道补偿技术的识别性能,并且在识别过程中采用多种不同的方法包括矢量量化,对数似然度,支持向量机和余弦距离测度进行对比。结果表明信道补偿技术将LDA与WCCN方法结合,模式匹配模块采用余弦距离测度配合得分规整的系统能够达到较佳的正确识别率。最后论文对识别系统的训练和测试过程的图形用户界面进行设计与仿真。(本文来源于《中国科学技术大学》期刊2014-05-06)

孟君,杨大利[6](2013)在《说话人辨认中通用背景模型训练时长研究》一文中研究指出为更系统地讨论说话人辨认系统中UBM(universal background model)训练时长对系统识别性能的影响,针对UBM训练时长和混合度设置了一组实验,在基于GMM-UBM(gaussian mixture model-universal background model)的说话人辨认系统中,探讨了UBM训练时长和混合度之间的关系,得出了UBM平均每个混合得到100帧左右训练样本时,能够获得较高且较稳定识别率的结论,并总结出了在某一混合度下UBM训练数据净时长的范围,为以后的研究提供了一个基本的数据依据。(本文来源于《北京信息科技大学学报(自然科学版)》期刊2013年03期)

李秀怡,徐利敏[7](2011)在《基于汉语元音分类的多维特征说话人辨认研究》一文中研究指出由于说话人的语音特征和个性特征到目前为止无法很好地分离,本文提出了基于语音分类的说话人多维特征的提取方法,将语音识别技术应用到说话人特征提取上,提取出的N维组合特征较其它普通特征有更高的有效性。该方法从汉语语音的特点出发,对基于汉语的说话人识别进行研究。实验结果表明它的有效性较长时平均特征的有效性提高了2.915%。(本文来源于《信息与电脑(理论版)》期刊2011年12期)

王刚,邬晓钧,郑方,王琳琳,张陈昊[8](2011)在《基于参考说话人模型和双层结构的说话人辨认》一文中研究指出为了提高基于Gauss混合模型通用背景模型(GMM-UBM)的说话人辨认系统的运算效率,提出一种基于参考说话人模型的双层结构用于目标说话人剪枝,采用矢量量化方法从目标说话人模型集合中训练参考说话人模型,利用语音与参考说人模型的偏差来描述说话人的发音特性,将辨认语音偏差向量和目标说话人偏差向量的相似性作为距离度量来进行目标说话人剪枝。实验结果表明:在基于GMM-UBM的说话人辨认系统中,对包含5 200个目标说话人和1000个集外说话人的测试集进行开集辨认的条件下,在提高辨认的运算效率12.5倍的同时识别率仅下降0.3%。(本文来源于《第十一届全国人机语音通讯学术会议论文集(二)》期刊2011-10-16)

王刚,邬晓钧,郑方,王琳琳,张陈昊[9](2011)在《基于参考说话人模型和双层结构的说话人辨认》一文中研究指出为了提高基于Gauss混合模型通用背景模型(GMM-UBM)的说话人辨认系统的运算效率,提出一种基于参考说话人模型的双层结构用于目标说话人剪枝,采用矢量量化方法从目标说话人模型集合中训练参考说话人模型,利用语音与参考说人模型的偏差来描述说话人的发音特性,将辨认语音偏差向量和目标说话人偏差向量的相似性作为距离度量来进行目标说话人剪枝。实验结果表明:在基于GMM-UBM的说话人辨认系统中,对包含5 200个目标说话人和1 000个集外说话人的测试集进行开集辨认的条件下,在提高辨认的运算效率12.5倍的同时识别率仅下降0.3%。(本文来源于《清华大学学报(自然科学版)》期刊2011年09期)

蒋晔,唐振民[10](2011)在《短语音说话人辨认的研究》一文中研究指出针对短语音说话人辨认训练语料不充分的特点,对特征参数和GMM模型进行优化和改进,提出一种基于局部模糊PCA的GMM说话人辨认方法.该方法采用特征组合代替单一特征,以提高有效特征维数来弥补特征样本的不足,并用局部模糊PCA对组合特征进行有效降维,在对识别率影响很小的前提下,降低了系统的时空复杂度.本文还对GMM参数初始化方法进行改进,采用分裂法与模糊k均值聚类相结合方法.实验表明,与传统初始化方法相比该方法能有效提高短语音说话人辨认性能.(本文来源于《电子学报》期刊2011年04期)

说话人辨认论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

实验室环境下,说话人识别研究已经取得很大进展,但是在实际生活中,说话人识别系统的性能受到环境噪声、健康状况等因素的影响很大。日常生活中,感冒是不可避免的。而感冒往往会诱发鼻腔的炎症,改变鼻腔的容积和形状,引起说话人声音的改变,导致说话人识别性能下降。文中研究测试者感冒时说话人识别系统的性能。为了有效利用不同特征参数得分的互补性,针对基于GMM模型的说话人辨认系统,提出了将特征LPC和MFCC分别应用于该系统,并将二者的得分归一化后进行融合计算。实验结果表明,对正常语音来说,与LPC特征系统相比,该方法能够有效提升辨认性能;对感冒语音来说,当高斯成分为16时,较之LPC特征系统,该方法提升辨认性能12.5%左右,较之MFCC特征系统,该方法也能提升8.5%左右的辨认性能。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

说话人辨认论文参考文献

[1].欧国振.基于SVM的文本无关的说话人辨认技术研究[D].南京邮电大学.2017

[2].单燕燕.基于LPC和MFCC得分融合的说话人辨认[J].计算机技术与发展.2016

[3].单燕燕.变音环境下鲁棒性说话人辨认关键技术研究[D].南京邮电大学.2015

[4].李强,彭益武.基于FPGA的GMM说话人辨认系统[J].广东交通职业技术学院学报.2014

[5].刘婷婷.基于因子分析的与文本无关的说话人辨认方法研究[D].中国科学技术大学.2014

[6].孟君,杨大利.说话人辨认中通用背景模型训练时长研究[J].北京信息科技大学学报(自然科学版).2013

[7].李秀怡,徐利敏.基于汉语元音分类的多维特征说话人辨认研究[J].信息与电脑(理论版).2011

[8].王刚,邬晓钧,郑方,王琳琳,张陈昊.基于参考说话人模型和双层结构的说话人辨认[C].第十一届全国人机语音通讯学术会议论文集(二).2011

[9].王刚,邬晓钧,郑方,王琳琳,张陈昊.基于参考说话人模型和双层结构的说话人辨认[J].清华大学学报(自然科学版).2011

[10].蒋晔,唐振民.短语音说话人辨认的研究[J].电子学报.2011

论文知识图

基于传统GMM的说话人辨认原理图一28个说话人辨认实验的性能比较说话人辨认系统的主界面处理一,说话人辨认系统操作界面说话人辨认系统框图(训练UBM及自...说话人辨认系统框图(识别阶段)

标签:;  ;  ;  ;  ;  ;  ;  

说话人辨认论文_欧国振
下载Doc文档

猜你喜欢