说话人模型论文_梅文星

导读:本文包含了说话人模型论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:说话,神经网络,模型,深度,向量,概率,特征。

说话人模型论文文献综述

梅文星[1](2018)在《说话人识别中通用背景模型研究及深度学习初探》一文中研究指出说话人识别是语音信号处理领域重要的研究方向,主要目的是在语音中自动获取说话人身份,在银行、公安系统和智能家居等领域存在广泛应用。当前主流算法基于概率模型,在背景语料充足和信道单一情况下,GMM-UBM模型已经取得良好的性能;但在实际应用中,噪声和信道失配使该方法性能急剧下降,i-vector方法的提出一定程度上解决了这些问题。以上算法都以GMM-UBM为基础,在NIST评测中已经取得了很好的效果,但还有一些问题没有得到解决,主要体现为:一方面,通用背景说话人模型的训练需要大量计算资源和数据,使得方法难以在新的环境下快速部署;另一方面,对于通用背景模型训练的理论依据没有进一步的研究,仅通过采集大量不同说话人的数据来尽可能填充特征空间,对数据的采集工作造成了一定的挑战。本文围绕着文本无关说话人确认,以及通用背景说话人模型语料选择问题进行研究,主要工作以及创新如下:第一,分别构建了基于GMM-UBM模型和i-vector/PLDA方法的说话人确认系统。详细介绍了特征的预处理、UBM模型的训练方法、MAP自适应的过程、i-vector全局差异矩阵的提取方法以及基于PLDA的打分方法。探讨了 GMM模型阶数、MFCC特征维度等对于系统性能的影响。实验结果表明,本文构建的系统已经达到主流开源实现的性能。第二,提出了基于GMM超向量聚类的支撑说话人选择算法。支撑说话人选择算法的核心思路是使选择出的说话人语音特征分布差异尽可能大,以覆盖整个特征空间。因此,本文提出用每个背景说话人的数据分别训练GMM模型,用GMM超向量来近似其特征分布,最后用聚类算法(如K-means等)找出相互之间距离最大的说话人集合。实验表明,该算法在AISHELL、MASC和TIMIT叁个数据集上分别只需要使用基准说话人语料的8.8%、8.6%和4.3%即可构建出达到基线性能的UBM,性能优于Hansen等人提出的算法,进一步降低了构建UBM所需的训练时间和计算资源。第叁,实现了基于GMM托肯配比的背景说话人语料选择算法。UBM数据选择的另一个思路是直接在帧级层面进行筛选,目前主流算法是Hansen等人提出的IFS(Intelligent Feature Selection)算法,该算法通过动态估计背景语料帧之间的欧氏距离的概率分布,能够使所选的帧之间的欧氏距离尽可能大,但是该算法中存在两个超参,实验显示在不同语料库上这两个超参的值都不相同,难以估计最佳值。本文转变思路,从能够体现音素特性的GMM托肯(Token)着手,实现一种基于托肯配比的背景语料选择算法。实验表明,该算法在AISHELL、MASC和TIMIT叁个数据集上分别只需要基准说话人语料的18.1%、10.0%和9.1%就能构建达到基线性能的UBM。第四,构建了基于梅尔语谱图和卷积神经网络的说话人鉴别系统。目前主流的说话人确认方法使用的特征都是类似MFCC的手工特征,已经达到较好的识别效果,但是也存在信息过度压缩的问题。针对这个问题,本文提出使用梅尔语谱图直接作为系统的输入,基于卷积神经网络的说话人鉴别系统。实验结果表明,随着训练数据量的增大,本文构建的系统性能逐步接近并超过传统的概率模型。具体而言,在MASC库上,当训练数据与测试数据比值为8:2时,该方法鉴别率(IR)达到90%;当比例达到9:1时,鉴别率达到95.7%,超过GMM-UBM系统的鉴别率。(本文来源于《浙江大学》期刊2018-12-08)

李浩,鲍鸿,张晶[2](2018)在《基于深度神经网络的说话人识别模型研究》一文中研究指出在传统的说话人识别中,普遍采用的是高斯混合模型(GMM)及GMM-UBM模型。然而GMM及GMM-UBM模型由于对噪声非常敏感及对语音的长度有一定的要求,所以对说话人数据库质量要求很高。并且传统的机器学习算法(GMM,GMM-UBM)属于浅层以及不完全的学习,识别率随着识别人数的增加下降的剧烈,模型的鲁棒性相对较差。并且存在训练时间长,收敛困难的缺点,从而限制了说话人识别在实际中的应用。深度神经网络(DNN)具有强大的非线性特性以及对数据具有良好的模式分类能力,对语音信号的质量及长度要求不高,并且对噪声的容忍度较高,所以论文把深度神经网络引入到了说话人识别中。(本文来源于《电脑与信息技术》期刊2018年05期)

古典[3](2018)在《语音识别中神经网络声学模型的说话人自适应研究》一文中研究指出近年来,深度神经网络(Deep Neural Network,DNN)技术在自动语音识别(Auto Speech Recognition,ASR)中取得了重大的突破,相比于传统的高斯混合模型(Gaussian Mixture Model,GMM)显着地提升了系统的识别性能。然而,像其他监督学习方法一样,DNN容易受到由于训练和测试条件不匹配导致的性能下降的影响,说话人自适应(Speaker Adaptation,SA)是为了解决说话人差异导致的不匹配问题,在基于神经网络的声学模型上研究说话人自适应技术成为语音识别领域的一个热门方向。本文分别从特征和模型的角度对说话人自适应方法进行研究,对这些自适应方法进行融合和改进,并深入探究基于卷积神经网络的说话人自适应方法,论文的主要研究工作如下:首先,针对声学模型中DNN对说话人信息辨别能力差的情况,引入基于辅助特征的说话人自适应方法,将包含说话人信息的特征与声学特征拼接共同作为DNN的输入,增强网络对说话人信息的感知能力。实验结果表明,基于辅助特征的说话人自适应方法有助于提升网络的区分能力,减小说话人之间的差异性,进而降低系统的单词错误率。接着,深入研究基于学习性隐层单元分布(Learning Hidden Unit Contributions,LHUC)的模型域自适应方法,并分别采取两种策略对原方法进行改进。从自适应方法之间的互补性角度出发,本文提出LHUC与辅助特征相融合的方法进一步提升系统的识别性能。此外,为了解决自适应阶段的数据稀疏问题,多任务学习(Multi-taskLearning,MTL)引入到LHUC自适应中,它通过加入额外的音素分类任务作为辅助任务帮助自适应参数更新。实验结果表明,基于融合的自适应方法能够有效地提升模型对特定说话人的匹配程度,进一步降低系统的单词错误率:基于MTL-LHUC的自适应方法通过扩大声学空间的覆盖范围弥补了稀少的状态分类问题,在有限的自适应数据条件下取得了更出色的性能提升。最后,本文对卷积神经网络(Convolutional Neural Network,CNN)框架的说话人自适应方法展开研究。为了利用LHUC这种具有诸多优良特性的模型域自适应方法,本文尝试对该方法进行改进使之适用于CNN的声学模型中,分别通过对比实验比较自适应层置于卷积层、池化层以及输入层的性能差异并证实该方法的有效性。同时,本文还提出一种基于i-vector的卷积层自适应结构,该方法通过一个变换矩阵将i-vector插入卷积层,新的卷积层结构在提取局部信息的同时也能够减小说话人之间的差异性。相关的实验结果表明该方法相比于基线系统有效地降低了单词错误率,并且仅增加了少量的参数作为代价。此外,将以上两种方法进行融合对系统性能有更进一步的提升,在无监督自适应模式下取得了最优的实验结果。(本文来源于《中国科学技术大学》期刊2018-06-01)

雷磊,佘堃[4](2018)在《基于小波分析和超级向量的非对称文本相关的说话人识别模型》一文中研究指出在文本相关的说话人识别模型中,训练语音和测试语音内容固定且相同.由于语音内容相同,这种模型将无法有效抵御"合成语音攻击".提出一种非对称文本相关识别模型.在该模型中,训练语音和测试语音内容不同,且训练语音内容公开而测试语音内容由用户保留且不公开.这样就避免了测试语音被攻击者合成.同时,为了提高识别性能,小波分析和超级向量被引入该模型.小波分析能有效分析语音这种非平稳信号,而超级向量能有效提高不同特征向量间的区分度.实验结果表明新模型和传统模型相比可以提高识别性.(本文来源于《信息安全研究》期刊2018年04期)

仲伟峰,方祥,范存航,温正棋,陶建华[5](2018)在《深浅层特征及模型融合的说话人识别》一文中研究指出为了进一步提高说话人识别系统的性能,提出基于深、浅层特征融合及基于I-Vector的模型融合的说话人识别。基于深、浅层特征融合的方法充分考虑不同层级特征之间的互补性,通过深、浅层特征的融合,更加全面地描述说话人信息;基于I-Vector模型融合的方法融合不同说话人识别系统提取的I-Vector特征后进行距离计算,在系统的整体结构上综合了不同说话人识别系统的优势。通过利用CASIA南北方言语料库进行测试,以等错误率为衡量指标,相比基线系统,基于深、浅层特征融合的说话人识别其等错误率相对下降了54.8%,基于I-Vector的模型融合的方法其等错误率相对下降了69.5%。实验结果表明,深、浅层特征及模型融合的方法是有效的。(本文来源于《声学学报》期刊2018年02期)

金超,龚铖,李辉[6](2018)在《语音识别中神经网络声学模型的说话人自适应研究》一文中研究指出针对语音识别系统中测试的目标说话人语音和训练数据的说话人语音存在较大差异时,系统识别准确率下降的问题,提出一种基于深度神经网络DNN(Deep Neural Network)的说话人自适应SA(Speaker Adaptation)方法。它是在特征空间上进行的说话人自适应,通过在DNN声学模型中加入说话人身份向量I-Vector辅助信息来去除特征中的说话人差异信息,减少说话人差异的影响,保留语义信息。在TEDLIUM开源数据集上的实验结果表明,该方法在特征分别为fbank和f MLLR时,系统单词错误率WER(Word Error Rate)相对基线DNN声学模型提高了7.7%和6.7%。(本文来源于《计算机应用与软件》期刊2018年02期)

吴一凡[7](2017)在《基于因子分析概率统计模型的说话人识别》一文中研究指出说话人声识别就是对采集到的说话人的语音信号进行处理,提取信号特征,经过分析和处理来辨认说话的人。随着现代信息技术和互联网技术的快速发展,说话人识别技术在各个领域都有广泛应用,说话人识别技术符合现代社会身份验证技术的便捷性、数字化特点。本文讨论基于因子分析概率统计模型的说话人识别系统,分析了影响说话人识别性能的关键问题。(本文来源于《安阳师范学院学报》期刊2017年05期)

雷磊,佘堃[8](2018)在《基于小波倒谱系数和概率神经网络的取证说话人识别模型》一文中研究指出取证说话人识别是一种利用犯罪现场留下的质疑语音来识别犯罪分子身份的技术。为了提高识别模型的抗噪能力,提出了基于小波倒谱系数(WCC)和概率神经网络(PNN)的取证说话人识别模型。该模型包含WCC特征提取和PNN分类两个步骤,WCC对噪声不敏感,所以使得该模型有抗噪能力;PNN是一种高效的分类算法,从而提高了模型识别性能。实验表明,该模型以提高时间消耗为代价提高了识别率和抗噪能力。(本文来源于《计算机应用研究》期刊2018年04期)

叶于林,杨波,莫建华,刘夏[9](2017)在《基于说话人辨识的自上而下听觉显着性注意模型》一文中研究指出为体现听觉注意神经信息处理计算机制对听觉场景内容的自动分析与理解功能,本文基于人耳对频率变换的感知特性,结合深度信念网络的说话人辨识与听觉显着模型,提出了一种自上而下的听觉显着性注意提取模型.仿真结果表明:该模型具有可行性,同时在利用深度信念网络的说话人辨识技术中能够有效地凸显目标说话人的显着度.(本文来源于《计算机系统应用》期刊2017年07期)

陈爱月,徐波,申子健[10](2017)在《基于高斯混合模型及TIMIT语音库的说话人身份识别》一文中研究指出高斯混合模型是指对样本的概率密度分布进行估计,可以看做是对几个高斯模型的加权和。在语音识别中,语音信号的复杂性以及不同采集情况下的随机性都很适合使用高斯混合模型进行估计,文章对高斯混合模型以及其在语音识别中的应用进行研究,在MATLAB环境下,对算法程序进行分析,借助TIMIT语音库对算法进行实现。实验表明,高斯混合模型能够实现对语音信息的识别,并且能够为后续的研究提供框架。(本文来源于《信息通信》期刊2017年07期)

说话人模型论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

在传统的说话人识别中,普遍采用的是高斯混合模型(GMM)及GMM-UBM模型。然而GMM及GMM-UBM模型由于对噪声非常敏感及对语音的长度有一定的要求,所以对说话人数据库质量要求很高。并且传统的机器学习算法(GMM,GMM-UBM)属于浅层以及不完全的学习,识别率随着识别人数的增加下降的剧烈,模型的鲁棒性相对较差。并且存在训练时间长,收敛困难的缺点,从而限制了说话人识别在实际中的应用。深度神经网络(DNN)具有强大的非线性特性以及对数据具有良好的模式分类能力,对语音信号的质量及长度要求不高,并且对噪声的容忍度较高,所以论文把深度神经网络引入到了说话人识别中。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

说话人模型论文参考文献

[1].梅文星.说话人识别中通用背景模型研究及深度学习初探[D].浙江大学.2018

[2].李浩,鲍鸿,张晶.基于深度神经网络的说话人识别模型研究[J].电脑与信息技术.2018

[3].古典.语音识别中神经网络声学模型的说话人自适应研究[D].中国科学技术大学.2018

[4].雷磊,佘堃.基于小波分析和超级向量的非对称文本相关的说话人识别模型[J].信息安全研究.2018

[5].仲伟峰,方祥,范存航,温正棋,陶建华.深浅层特征及模型融合的说话人识别[J].声学学报.2018

[6].金超,龚铖,李辉.语音识别中神经网络声学模型的说话人自适应研究[J].计算机应用与软件.2018

[7].吴一凡.基于因子分析概率统计模型的说话人识别[J].安阳师范学院学报.2017

[8].雷磊,佘堃.基于小波倒谱系数和概率神经网络的取证说话人识别模型[J].计算机应用研究.2018

[9].叶于林,杨波,莫建华,刘夏.基于说话人辨识的自上而下听觉显着性注意模型[J].计算机系统应用.2017

[10].陈爱月,徐波,申子健.基于高斯混合模型及TIMIT语音库的说话人身份识别[J].信息通信.2017

论文知识图

说话人识别系统的框图对数扫频法测量的Kinect信道响应信号空间、特征空间、模型空间的信道...不同信道说话人模型转换示意图说话人模型训练2说话人i和其他说话人模型对应高...

标签:;  ;  ;  ;  ;  ;  ;  

说话人模型论文_梅文星
下载Doc文档

猜你喜欢