导读:本文包含了语音建模论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:建模,语音识别,语音,神经网络,声学,深度,蒙古语。
语音建模论文文献综述
王俊超[1](2019)在《基于迁移学习的低资源度语音识别声学建模研究》一文中研究指出自动语音识别(Automatic Speech Recognition,ASR)能将人类语音经过计算机处理为文字的过程,是人与机器更顺畅交流的关键技术。在自动语音识别中,声学模型的主流框架为深度神经网络-隐马尔可夫混合模型(Deep Neural Network–Hidden Markov Model,DNN-HMM)。随着技术的发展,在海量语音数据加持下的深度神经网络自动语音识别系统取得了接近人类语音转写能力的优异成绩。目前世界上的语言约有7000多种,具有海量语音数据的语种仅有英语、汉语普通话等几种语言,大部分其它的语种由于语音资源采集成本较高,仅有少量的语音资源可供研究,然而在低资源环境下的深度神经网络语音识别系统效果往往表现不佳。随着社会发展的需要,将语音识别技术应用于低资源语种的需求越来越大。迁移学习是一种能够从一种或多种相似的任务中学习到知识,并利用这些学到的知识快速构建其他类似新任务的方法,称之为迁移学习。在基于深度神经网络的语音识别中DNN声学模型的每一层输出都是语音特征的深度表示,这种特征表示包含了人类语音的声学特征共性,通过调整网络参数很容易迁移为其它语种的声学模型,这为低资源语音识别能够通过迁移学习而获得较强的声学模型成为可能。为了提升基于深度神经网络的低资源语音识别声学模型的性能,本文对声学模型的迁移进行了若干方面研究。具体内容包括:跨语种的声学模型迁移是否有效;语种之间的相似性对声学模型迁移的影响;基础模型的数据量对迁移效果的影响;迁移声学模型的训练方式;单音素声学模型能否迁移到叁音素声学模型;大数据量多语音共享隐层声学模型的迁移等。本文用资源丰富的汉语、英语训练基础声学模型,用维吾尔语作为低资源语种开展了各项实验。实验结果表明,迁移学习能够通过迁移基础模型来提高低资源语种声学模型的性能。(本文来源于《新疆大学》期刊2019-06-30)
米婧[2](2019)在《英语语音优化识别建模仿真分析》一文中研究指出随着中国经济高速发展以及全球一体化的进程,英语成为了人们日常交流必不可少的工具,然而对于初学者来说,能够通过语音识别技术将语音信号转化成文本的格式,更有利于快速掌握英语。而且语音识别技术经过多年的发展依然具有巨大的挖掘潜力,面对移动互联网的快速发展,通过对实时通信工具的大数据量的需求爆发,英语语音识别的实时性和系统稳定性越来越受到关注,文中分析了常用的传统语音识别技术,例如动态时间规整、神经网络模型和隐马尔可夫模型等,运用隐马尔可夫模型对语音信号进行处理和识别,提取出特征参数,与经过训练的模型体系进行匹配,找出最优的识别序列。然后在PC平台上,利用MATLAB建模仿真,基本实现了英语语音短句的识别,对于后续的硬件产品实现打下了良好的基础,具有积极的现实意义。(本文来源于《信息技术》期刊2019年06期)
何伟[3](2019)在《基于深度学习的语音情感识别建模研究》一文中研究指出随着计算机技术的发展和人工智能的普及,语音情感识别研究收到学界和工业届的广泛关注。目前的情感识别任务大多采用人工提取多种声学特征并物理降维,构建特征工程的方法,提升识别结果。本文旨在探究语音中情感信息的表达,了解语音中情感信息的变与不变,从语音中提炼出情感的本质特征,并搭建最合适的表征情感信息的网络结构。基于以上研究重点,本文内容包括以下几个部分:1.研究了基于传统声学特征的情感识别网络在大量的声学特征中,对现有数据做统计分析筛选出声学特征及其统计特征,搭建有效且完备的情感特征工程。从物理意义上出发,筛选合理的表达情感的特征并验证它们的有效性;从数学统计层面考虑,使用卡方检验做特征选择,去除特征集合的冗余信息,提高网络训练效率,构建完备的特征工程。2.研究了基于语谱图的深度学习情感识别网络语谱图几乎包含了所有的语音特征,二维频谱结构既可以体现谐波等激励源特征,又可以分析倒谱、共振峰等声道特性。深度神经网络引入非线性信息,具有自主学习输入数据特征的优点。搭建基于语谱图的深度学习情感识别网络,选用局部感知和跳跃连接的ResNet网络,并基于卷积核权重系数做出改进。再此基础上,搭建ResNet-LSTM网络,对ResNet网络学出的高层情感特征进行时序建模。3.引入了注意力机制,研究了低级描述符和高层语义信息的特征融合将经过验证的可以表征情感信息的声学特征集合作,与ResNet-LSTM网络学习到的语音信号的高层语义信息进行融合,将融合后的特征经过DN-N网络分类输出,增加深度学习的解释性和人工辅助。此外,引入注意力机制,探索语音中的关键帧信息。将学习到的注意力作为权重系数加入到人工提取的低级描述符特征中,并将它应用于特征融合实验。本文主要从情感的产生和感知层面出发,落实到特征和网络两个研究重点上展开工作,产生上探究如何构建具有情感表征意义的完备的特征集合,感知上从网络结构入手,尝试搭建具有情感认知的网络结构,并通过注意力机制讨论语音情感的局部关键性,结合产生、感知、和局部特性探讨语音情感的表达。(本文来源于《北京邮电大学》期刊2019-05-30)
史霖炎[4](2019)在《基于迁移学习的喀尔喀蒙古语语音识别声学建模》一文中研究指出面向低资源语言的语音识别系统性能较差,其主要原因是缺少足够的训练数据。迁移学习通过学习资源丰富的源领域知识来指导资源稀缺的目标领域的模型训练,在一定程度上解决了数据稀疏带来的问题。本文主要研究面向资源稀缺的喀尔喀方言蒙古语语音识别系统,并通过深度学习和迁移学习技术提高声学模型的性能。首先,鉴于喀尔喀方言和察哈尔方言的相似性,本文提出了基于时延神经网络(Time Delay Neural Network,TDNN)的喀尔喀方言蒙古语语音识别基线系统,该基线系统直接使用训练好的察哈尔方言蒙古语声学模型来识别喀尔喀方言。另外,本文利用已有喀尔喀方言数据训练了基于随机初始化的TDNN声学模型,并探究了基于区分性训练准则的链式模型训练方法在声学模型训练中的表现。实验结果表明,基于随机初始化的喀尔喀方言TDNN声学模型明显优于基线系统,并且链式模型训练方法可以进一步提升声学模型的性能。其次,本文首次将迁移学习中的微调(fine-tuning)方法应用到喀尔喀方言蒙古语语音识别系统中,分别以英语和察哈尔方言作为源领域,使用训练好的声学模型对喀尔喀方言声学模型进行参数初始化。实验结果表明,相比基线系统和随机初始化模型,基于fine-tuning的声学模型的性能有明显的提升,其中以察哈尔方言作为源领域训练得到的声学模型性能更优。最后,本文采用权重迁移方法搭建了喀尔喀方言蒙古语语音识别系统。通过实验验证了不同训练策略的有效性,分析TDNN不同隐藏层的可迁移性,比较预训练模型性能对迁移效果的影响。实验结果表明,基于权重迁移方法的喀尔喀方言蒙古语声学模型与微调(fine-tuning)方法相比具有更强的泛化能力。本文以察哈尔方言为源领域、基于权重迁移方法的链式TDNN声学模型作为最优的喀尔喀方言蒙古语声学模型,词错误率为15.67%。相比基线系统和随机初始化模型,词错误率分别降低了63%和38%。(本文来源于《内蒙古大学》期刊2019-04-25)
詹东深[5](2019)在《从语音识别出发浅析传统建模方法和数据驱动建模方法的比较》一文中研究指出弗雷德·贾里尼克教授在语音识别的研究过程中,创建了数据驱动方法。该方法的发明使得语音识别系统得以克服众多障碍继续向更高层次发展。本文从语音识别的简单介绍开始,由语音识别延伸到传统建模方式和数据驱动建模方式,分别对两种建模方式进行了简单介绍,最后又对两种建模方式进行了简单的比较。(本文来源于《通讯世界》期刊2019年03期)
王华朋,姜囡,刘恩,晁亚东[6](2019)在《法庭语音比对中话者自身变化性建模方法研究》一文中研究指出针对法庭说话人识别中待鉴定人员语音样本不足的问题,提出了一种新的对说话人自身变化性建模的替代性方法以及相应的方差控制算法。使用同条件下的参考数据库构建识别系统的多个相同说话人得分模型,代替检验需要的多个非同期的带检验人员语音样本比较时的得分模型,以获得能反映说话人自身变化性的统计模型。基于目前最新的法庭证据评估的似然比证据强度评估体系,使用MFCC(Mel Frequency Cepstral Coefficients)和GFCC(Gammatone Frequency Cepstral Coefficients)特征对该方法的有效性进行了验证,并对上述特征进行了特征级和决策级融合。实验结果表明:该方法在纯净语音环境和噪声环境下都具有很高的识别率和稳定性,并且特征级融合能进一步提高识别系统的性能。(本文来源于《计算机工程与应用》期刊2019年08期)
史晓兵,尤凤翔,黄克亚[7](2018)在《基于MATLAB/STM32的语音信号增强、系统建模与仿真优化》一文中研究指出传统的算法虽然能够抑制语音中的噪声,但易造成语音的失真。本文建立了一种改进的阈值法语音信号增强算法。通过MATLAB仿真平台的实验仿真和传统增强算法的比较,证明了本方法能有效去除信号中的噪声、改进语音质量、提高语音可懂度,达到增强语音信号的效果;在此基础上,利用STM32对系统在两种不同环境下进行了测试,然后根据测试结果进一步对系统进行了优化。优化内容集中在语音命令模式、增添命令列表和修改录音参数叁个方面,最终对优化后的系统再次进行了相同的测试,取得了相较于之前更加满足要求的结果。(本文来源于《中国管理信息化》期刊2018年13期)
杨洋,汪毓铎[8](2018)在《深度学习在语音识别声学建模中的应用》一文中研究指出目前人工智能时代已经到来,自动语音识别技术无疑是最好的人机交互方式之一。深度学习凭借其强大的建模能力在语音识别领域得到广泛使用。首先对深度学习进行简介;其次重点介绍了几种主流深度学习声学模型的研究现状;最后总结了语音识别领域直到现在仍存在的问题以及未来的可能研究方向。(本文来源于《电脑知识与技术》期刊2018年18期)
关键[9](2018)在《基于稀疏表示的语音盲解卷积和房间脉冲响应建模方法研究》一文中研究指出语音盲解卷积是语音信号处理领域极具挑战的研究课题之一。语音盲解卷积的目的是根据观测混响信号实现对源信号和声学信道的恢复,其意义不仅在于消除混响效应对自动语音识别、免提电话、助听器等应用的不利影响,同时通过所估计的声学信道还可以获得系统的声学特性,这对声学信道相关的声重放、语音增强等应用至关重要。然而,由于盲解卷积问题的非适定性,必须要为问题的求解提供一定的先验信息,如何获取这样的信息就成为问题求解的关键。本文研究了单输入单输出室内声学系统的语音盲解卷积问题,从挖掘和利用声学信道特性入手,围绕描述声学信道的房间脉冲响应展开工作,通过对房间脉冲响应施加正则约束和进行声学建模两种方式来获取先验信息,求解语音盲解卷积问题。本文主要研究内容如下:首先,研究了基于稀疏约束的语音盲解卷积问题。针对混响较低声学系统,提出了一种基于稀疏约束的语音盲解卷积模型,并给出了相应的求解方法。当混响较低时,房间脉冲响应可认为仅包含稀疏的前期反射部分。为此,所提模型采用了一个l1范数正则项对房间脉冲响应的稀疏特性进行约束;还采用了一个指示函数对源信号的动态范围进行约束,以进一步降低解空间维度。实验结果表明,所提方法不仅可以获得比同类方法更好的结果,而且通过引入对源信号的动态范围约束,还可以在一定程度上避免盲解卷积常见的尺度模糊问题。其次,研究了基于稀疏和密集联合约束的语音盲解卷积问题。针对混响较高声学系统,提出了一种基于l1-l2联合范数约束的语音盲解卷积模型,并给出了相应的求解方法。当混响较高时,房间脉冲响应同时包含稀疏的前期反射部分和密集的后期反射部分。针对此种情况,所提模型通过l1范数正则约束和l2范数正则约束分别考虑了前期反射的稀疏特性和后期反射的密集特性,以此获取先验信息,并用于语音盲解卷积问题的求解。实验结果表明,所提方法不仅可以较好地恢复源信号和房间脉冲响应,同时通过控制l2范数正则项的惩罚参数还可以实现对房间脉冲响应后期反射的抑制。然后,研究了房间脉冲响应的声学建模问题。通过对房间脉冲响应的声学建模来获取声学特性。针对传统字典学习方法无法直接处理时延信号的问题,提出了一种用于处理时延信号的多项式字典学习技术,使得从带有时延的房间脉冲响应学习获取描述声学特性的字典成为可能。由于一个多项式矩阵既可以表示为一个系数为标量矩阵的多项式(称为矩阵的多项式模型),又可以表示为一个元素均为多项式的矩阵(称为多项式的矩阵模型)。基于多项式矩阵的这两种不同表示方式,本文提出了两种用于多项式字典学习问题的求解方法。第一种方法可以通过对多项式矩阵的系数矩阵进行操作将多项式字典学习问题转化为传统字典学习问题,使得任何传统字典学习方法均可用于多项式字典学习问题的求解;第二种方法则可以直接对多项式矩阵进行操作,而无需将多项式字典学习问题转化为传统字典学习问题再行求解。此外,作为多项式字典学习的相关工作,本文还提出了一种用于多项式“信号”恢复的多项式稀疏表示方法。实验结果表明,所提方法能够解决多项式字典学习问题,由其学习获得的多项式字典能很好地描述声学特性,并可用于对房间脉冲响应的建模和去噪恢复。最后,研究了基于多项式字典学习技术的语音盲解卷积问题。针对基于稀疏约束模型和基于l1-l2联合范数约束模型适用范围的局限性,提出了一种基于多项式字典和稀疏表示的语音盲解卷积模型,并给出了相应的求解方法。所提模型通过预训练的多项式字典可以近似地表示待估计的房间脉冲响应,由此为语音盲解卷积提供先验信息。实验结果表明,基于多项式字典和稀疏表示的语音盲解卷积方法具有更好的通用性;由于预训练的多项式字典能很好的描述声学特性,这使得盲解卷积所估计的房间脉冲响应与真实值更为接近。(本文来源于《哈尔滨工业大学》期刊2018-03-01)
易江燕,陶建华,刘斌,温正棋[10](2018)在《基于迁移学习的噪声鲁棒语音识别声学建模》一文中研究指出为了提高噪声环境下语音识别系统的鲁棒性,提出了一种基于迁移学习的声学建模方法。该方法用干净语音的声学模型(老师模型)指导带噪语音的声学模型(学生模型)进行训练。学生模型在训练过程中,尽量使其逼近老师模型的后验概率分布。学生模型和老师模型间的后验概率分布差异通过相对熵(KL divergence)加以最小化。CHiME-2数据集上的实验结果表明,该方法的平均词错率(WER)比基线的绝对下降了7.29%,比CHiME-2竞赛第一名的绝对下降了3.92%。(本文来源于《清华大学学报(自然科学版)》期刊2018年01期)
语音建模论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
随着中国经济高速发展以及全球一体化的进程,英语成为了人们日常交流必不可少的工具,然而对于初学者来说,能够通过语音识别技术将语音信号转化成文本的格式,更有利于快速掌握英语。而且语音识别技术经过多年的发展依然具有巨大的挖掘潜力,面对移动互联网的快速发展,通过对实时通信工具的大数据量的需求爆发,英语语音识别的实时性和系统稳定性越来越受到关注,文中分析了常用的传统语音识别技术,例如动态时间规整、神经网络模型和隐马尔可夫模型等,运用隐马尔可夫模型对语音信号进行处理和识别,提取出特征参数,与经过训练的模型体系进行匹配,找出最优的识别序列。然后在PC平台上,利用MATLAB建模仿真,基本实现了英语语音短句的识别,对于后续的硬件产品实现打下了良好的基础,具有积极的现实意义。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
语音建模论文参考文献
[1].王俊超.基于迁移学习的低资源度语音识别声学建模研究[D].新疆大学.2019
[2].米婧.英语语音优化识别建模仿真分析[J].信息技术.2019
[3].何伟.基于深度学习的语音情感识别建模研究[D].北京邮电大学.2019
[4].史霖炎.基于迁移学习的喀尔喀蒙古语语音识别声学建模[D].内蒙古大学.2019
[5].詹东深.从语音识别出发浅析传统建模方法和数据驱动建模方法的比较[J].通讯世界.2019
[6].王华朋,姜囡,刘恩,晁亚东.法庭语音比对中话者自身变化性建模方法研究[J].计算机工程与应用.2019
[7].史晓兵,尤凤翔,黄克亚.基于MATLAB/STM32的语音信号增强、系统建模与仿真优化[J].中国管理信息化.2018
[8].杨洋,汪毓铎.深度学习在语音识别声学建模中的应用[J].电脑知识与技术.2018
[9].关键.基于稀疏表示的语音盲解卷积和房间脉冲响应建模方法研究[D].哈尔滨工业大学.2018
[10].易江燕,陶建华,刘斌,温正棋.基于迁移学习的噪声鲁棒语音识别声学建模[J].清华大学学报(自然科学版).2018