说话人识别方法及其系统的应用开发研究

说话人识别方法及其系统的应用开发研究

徐海华[1]2004年在《说话人识别方法及其系统的应用开发研究》文中指出本文对说话人识别方法应用作了较深入系统的研究。采用的方法分别是矢量量化(VQ)识别方法、隐马尔可夫模型(HMM)识别方法、高斯混合模型(GMM)识别方法。基于独立文本和闭集条件,在实验室环境下,对26位说话人进行语音采集和识别,识别率均为100%。在特征提取方面,分别以16阶LPC倒谱系数、12阶MEL频率倒谱系数和12阶LPC倒谱系数、基音周期与短时归一化帧能量形成的混合参数进行实验,均得到了较好的实验结果。对VQ识别中的LBG聚类算法分别以两种不同码字选择方法实现,实验结果证实它们均优于随机码字选择方法;同时改进了空包腔处理方法。对HMM,系统采用5状态、32混合数各态历经的连续模型实现,状态分割是基于归一化帧能量实现。对GMM,系统采用32混合数连续正交高斯密度函数实现,参数初始化采用LBG聚类方法实现。为提高系统的响应速度、改善系统性能,实验还对短时帧长进行比较,发现不同帧长对系统性能的影响较大。由于通常情况下短时语音处理技术认为语音帧长在10~30ms左右,文中在采样频率为11.025KHz条件下,既考虑到短时限制,又考虑到系统响应速度,取帧长为512点(约46ms)得到了较好的实验效果。该说话人系统在VC++6.0环境下用音频底层处理函数实现音频操作,能设置不同语音采样频率,对语音进行实时播放、动态波形显示和有用信号剪辑等同步处理功能。系统还支持数据库语音查询功能。虽然该系统是在闭集条件下进行独立文本的说话人识别,但是系统具有较好可扩充性,只要进行相关的实验和程序改进,即可实现开集条件下的说话人确认与辨认。

司向军[2]2017年在《基于Android的声纹识别和语音识别的设计》文中研究指明近年来,随着计算机应用的广泛普及,尤其是随着安卓平台的迅速发展,各种安卓应用数量呈现爆发式的增长。应用中涉及到用户私密性数据的安全性受到很大的威胁。同时对移动设备应用的操作也越来越复杂。因此寻求一种简洁的、安全的身份识别和简化应用操作的方法显得越来越重要。同时语言是人与人之间交流最方便、最有效的沟通方式,也是人与机器之间沟通最直接的方式,因此设计一款基于安卓平台的声纹识别和语音识别系统来保护用户隐私和方便用户操作具有很大的现实意义。本文首先分析了声纹识别和语音识别实现原理,包括其处理语音时特征参数的提取方法和模式匹配的方法,并提出这些方法在应用方面的不足。其次详细介绍了本文实现声纹识别和语音识别的具体方案,改进了 Shazam算法中语音特征提取的方法。然后,实现基于安卓的声纹识别和语音识别的设计,通过研究声纹识别和语音识别的可结合性,提出了基于安卓的声纹识别和语音识别的设计方案。最后在安卓平台上实现,并搭建测试平台,对本文的设计进行功能验证和性能评估。本文提出了一种改进Shazam算法,并应用于声纹识别系统中,有效结合声纹识别功能和语音识别功能使之形成一个整体系统。该系统在一定程度上提高了移动端设备中应用的安全性和可操作性。测试表明,本文声纹识别正确率不小于90%。在结合现有成熟的科大讯飞语音识别技术的情况下,本系统整体的识别率不小于85%。本文的研究成果对越来越重视应用安全和便捷操作的今天,具有重要的参考意义。

吴菲[3]2016年在《基于稀疏表示的说话人识别研究》文中认为随着现代生物识别技术的不断发展,说话人识别技术受到了越来越多的专家学者的关注。通过分析说话人的语音信息,从而有效的识别说话人的身份,说话人识别技术因其简便高效的特性受到广泛应用,例如网络安全、司法鉴定以及国家信息安全等领域。传统的说话人识别方法中,GMM-UBM采用通用背景模板自适应说话人模型,反映出了个性特征,但是计算量过大,区分能力不足,而流行的SVM分类器利用非线性核函数进行分类,尽管识别性能有所提高,但却过度依赖样本数据的分布。稀疏表示原理能够利用数量最少的原子反映信号特征,从而进一步提高系统的区分性。因此在深入的分析稀疏表示的原理以及字典构造方法的基础上,提出了基于稀疏表示的说话人识别,同时将Fisher判别字典学习算法应用于说话人识别,具体工作如下:(1)研究学习稀疏表示理论,对语音信号的稀疏性进行分析,探究语音信号稀疏性表示的可行性,结合语音信号的可重构的特性,提出基于稀疏表示的说话人识别方法i-SRC,采用当前主流的i-vector建模方式为说话人建立模型,利用说话人的均值超矢量构造随机字典,再通过重构误差进行识别,实验显示,GMM-SRC的识别率确实有所提升。(2)为了进一步提高识别的效率,在i-SRC的识别方法基础上,学习探讨了字典的构造方法,引入了一种具有判别性的字典学习方法,即Fisher判别字典学习算法,利用该算法训练得到一个具有区分性的结构化字典,该字典的原子与类别标签存在对应关系,以此可以很好地利用重构信息对测试语音进行分类。在NIST的语音数据库上的实验也表明,引入新字典算法改进后的识别方法等错误率有所下降,而识别效率得到了提高。

于天福[4]2010年在《基于声音特征的动物行为识别系统研究》文中提出随着经济发展,对环境的污染日趋严重、人类对自然资源掠夺式的开发、对野生动物的非法捕猎,严重破坏了动物的栖息地和种群结构,使野生动物的保护问题变得更加紧迫。然而实际情况是野生动物一般生存在人迹罕见的野外,人类通常是只闻其声不见其形,为研究和保护它们带来了困难。因此,基于动物叫声来研究它们的生存状态有着实际的意义,同时对生物其他特征的研究和环境监测也有一定的指导作用。人类通过语言彼此进行沟通传递信息,而动物多数情况下也是通过叫声与种群内的其它成员进行交流,因而基于动物叫声的行为识别是有一定事实基础的。本文选题的目的在于将数字信号处理理论,模式识别理论,以及相关的前沿计算机技术应用于动物保护工作,研究出一套能够自动监测反馈动物生存状态的智能仿真系统。通过对现有声音识别技术进行研究,在掌握识别原理及其系统的结构以后,提取动物特定行为时的叫声特征进行建模,并将其作为该行为的标准模型,最后在进行识别的时候根据判决策略做出动物相应的判断。高斯混合统计模型(GMM)具有其它模型无可比拟的诸多优点,能够更健壮地描述声音信号,捕获其中重要的声学特征。因此,本文主要依托BREWMP平台利用高斯统计模型对基于动物叫声的行为识别做了基础性研究。主要内容如下:(1)研究了在BREWMP平台对声音信号处理的基本方法,提出了一套针对高通公司特有的音频格式文件(QCP格式)的解码算法,并探讨了将此算法解码出的数据作为模型的输入进行模型训练的方法;(2)研究了动物特定行为叫声的规律,通过对叫声信号时域和频域的特征的提取,并对提取的特征参数做出评价,找出能够更具灵活性和鲁棒性的表征动物特定行为的叫声特征参数;(3)具体以狗攻击、警告、讨好时吠叫声为研究对象,以它们的功率谱、MFCC、基音频率为特征参量,为每种行为建立GMM模型,在计算模型特征似然度的时候对时域特征和频域特征分别加权,并且提高时域特征的权重,然后对待测叫声信号进行似然度计算,经过决策达到识别动物行为意义的目的。在此基础之上,本文在BREWMP仿真环境下,建立了基于动物叫声的行为识别系统的实验平台。通过测试表明,本系统可以较好地实现通过动物叫声进行行为识别的功能,获得了令人满意的识别效果。本文以狗为研究对象,通过对其叫声特征的研究达到识别攻击、警告、讨好叁种行为的目的,为进一步分析狗的其他行为伴随叫声特征以及野生动物的行为生物学特征提供了理论与方法基础。

张志霞[5]2009年在《语音识别中个人特征参数提取研究》文中研究说明随着计算机的不断发展,语音识别拥有可观的应用背景,不仅是指机器通过学习实现从语音信号到文字符号的理解过程,同时作为一门交叉学科也具有深远的理论研究价值。语音识别实质上就是语音训练与模式识别的过程,但是要保证识别效果的相对完好,与语音信号特征参数的有效提取是分不开的。特征参数的提取主要是为了提取语音信号中能代表语音特征的信息,减少语音识别时所要处理的数据量,尽量能够完全、准确地表达语音信号。本文以语音识别整体框架结构、语音识别技术为导向,对语音信号特征参数提取算法进行研究,对语音识别具有重要的理论与实际意义。首先,介绍了语音识别的基础知识,研究了语音信号的预处理、个人特征参数提取算法、语音识别模型匹配和训练技术——动态时间规整算法原理和隐马尔科夫模型,重点分析了本文用到的动态时间规整算法,给出语音信号特征参数提取的整体方案。其次,在办公室环境下对语音信号进行采集,直接剔除那些明显被偶然因素干扰和因说话人本身造成的不规则样本,并且显示所采集的语音信号。然后,对所采集的语音信号进行预处理,包括语音信号预加重、分帧和加窗,端点检测等。在此基础上,对语音信号进行特征参数提取,着重实现线性预测倒谱系数和美尔频标倒谱系数的提取,并分析其在办公室环境下提取的特征参数对个别个体语音识别的影响。最后,针对美尔频标倒谱系数,利用动态时间规整算法对所经过预处理之后的个别个体特定声音进行识别并实验仿真,然后分析实验结果。对动态时间规整算法的不足之处,提出改进方案。

宫晓梅[6]2007年在《中等词汇量汉语连续语音识别技术研究》文中研究说明语音识别的目的是让机器理解人的语言,实现更方便直接的人机交互。经过几十年的研究和发展,语音识别技术已日渐成熟并逐渐走向实用。越来越多具有语音识别功能的产品进入人类的日常生活。然而语音识别技术对环境的依赖性很强,语音识别系统通常是将在安静环境下训练得到的模板应用于实际环境中。而实际环境中一般都存在噪声,随着环境噪声的加大,识别性能将会急剧下降,这是因为噪声对语音识别的影响很大,而对噪声的处理比较困难,如何建立鲁棒性识别系统成为语音识别领域的重要研究课题。本文介绍了语音识别的主要应用领域,国内外发展历史与研究现状,简要介绍了语音识别的基本方法及涉及到的关键技术,包括语音识别系统的分类、识别基元的选取以及模板训练与模式匹配的主要方法等。分析语音识别系统的基本结构及涉及到的各种主要技术,讨论了语音信号的预处理及语音信号各种主要时、频域特征参数的提取,重点分析研究常用且效果良好的、反映语音倒谱特征的线性预测倒谱系数(LPCC)和美尔倒谱系数(MFCC)的提取方法。隐马尔科夫模型用统计原理建立语音识别的声学模型,是目前语音识别的主流声学建模技术,本文重点介绍了隐马尔科夫模型的原理及其在语音识别中的应用,并探讨了其局限性。最后在HTK平台上实现了中等词汇量特定人汉语连续语音识别的实验,验证了语音识别各个步骤的工作,提取出多种语音特征参数并对其进行对比实验以比较不同特征参数的识别效果;通过实验讨论HMM状态数的不同对识别率的影响;讨论基于最小统计谱减法的语音增强技术对加性噪声的抑制效果。

由扬[7]2001年在《空管模拟训练机的语音应用系统设计研究》文中进行了进一步梳理本文研究了空管模拟训练机语音应用系统的设计与实现。本文通过对语音识别技术和语音合成技术的研究,在引进IBM ViaVoice语音识别与语音合成系统的基础上,根据空管模拟训练机的功能需求分析,将语音识别技术与管制训练控制系统有机结合,实现了计算机系统自动对非特定管制学员、连续管制指令语言的识别和仿真模拟雷达显示控制。 本文分叁个部分进行了介绍。第一部分是对系统总体设计的介绍,分析介绍了本系统的模块化设计方案。第二部分重点研究了本系统的管制指令语音识别、自动机长语音合成、陆空通话管理器和飞行信息反馈显示四个模块的具体设计方法及过程。最后部分给出了针对空管模拟训练机语音应用系统进行的各项实验检验数据以及相应的分析结果。

佚名[8]2005年在《计算技术与计算机及网络设备》文中指出1710 计算技术与计算机科学IELDVD056:9035 05284632004年信息技术:编码和计算会议录=2004 Interna-tional Conference on Information Technology:Codingand Computing[会,英]/IEEE Computer Society TaskForce on Information Technology for Business Applica-tions.—P.814(E)本会议录收集了会上发表的320篇论文。内容涉及采用 GF 设计快速并行乘法器,基于约束的查询修

李飞[9]2007年在《基于视觉与语音的新型鼠标研究》文中认为普通鼠标是一种手动的传统交互方式,满足不了特殊人群的需求,譬如手臂残疾的人和游戏爱好者就期望采用多种交互方式来操作PC。随着图像、视觉核心算法的发展,语音识别的理论和应用研究的进展,再加上CCD、CMOS图像传感器制造工艺的成熟,为基于视觉与语音的鼠标实现提供了条件。本文主要的研究是基于视觉与语音的新型鼠标。首先对各种视觉跟踪算法的实现方法进行探讨。在充分了解各种算法优缺点的基础上,系统采用鼻子特征跟踪的方法来作为鼠标的光标移动,采用眼睛睁合判断的方法作为鼠标按键的操作,用HALCON视觉处理软件对各算法进行仿真,并在Visual Basic中调用HALCON库函数加以实现。另外,鼠标按键的操作还可选用语音识别的方式来实现,文中用MATLAB仿真实现了DTW(动态时间规整)算法,该算法训练方法简单,计算量小,适合于本系统的设计。采用Visual Basic与Matlab混编的方式在Visual Basic中调用创建的COM组件,实现语音识别的功能,进行性能测试。将视觉跟踪模块与语音识别模块结合起来,根据基于视觉与语音鼠标的体系结构进行设计,编写全部程序进行系统的整体调试,调试成功后进行预定的实验,记录实验结果。将视觉与语音技术应用于鼠标中,在国内还没有人开发研究,这无疑很有研究的价值,具有一定的市场潜力。从完成的设计表明,基于视觉与语音的方案可以完成鼠标的基本功能,而且可以适用于特殊人群。但本系统还处于研究设计阶段,还不够完善,后续工作将主要围绕算法性能的提高,程序的优化以及其他一些细节问题作进一步的改善、测试。

参考文献:

[1]. 说话人识别方法及其系统的应用开发研究[D]. 徐海华. 华中科技大学. 2004

[2]. 基于Android的声纹识别和语音识别的设计[D]. 司向军. 东南大学. 2017

[3]. 基于稀疏表示的说话人识别研究[D]. 吴菲. 江西师范大学. 2016

[4]. 基于声音特征的动物行为识别系统研究[D]. 于天福. 东北林业大学. 2010

[5]. 语音识别中个人特征参数提取研究[D]. 张志霞. 中北大学. 2009

[6]. 中等词汇量汉语连续语音识别技术研究[D]. 宫晓梅. 中国海洋大学. 2007

[7]. 空管模拟训练机的语音应用系统设计研究[D]. 由扬. 南京航空航天大学. 2001

[8]. 计算技术与计算机及网络设备[J]. 佚名. 电子科技文摘. 2005

[9]. 基于视觉与语音的新型鼠标研究[D]. 李飞. 东华大学. 2007

标签:;  ;  ;  ;  ;  ;  ;  

说话人识别方法及其系统的应用开发研究
下载Doc文档

猜你喜欢