马志友[1]2003年在《基于SONAR平台的说话人识别算法改进研究》文中提出本论文提出并实现了一种新型的基于组件的说话人识别软件平台(Speaker recOgnitioN softwAre platfoRm: SONAR)。SONAR提供了说话人语音数据库采集、性能测试以及说话人识别算法评测等功能,应用前景广阔。 SONAR可同时支持说话人识别与语音识别。它提供了多种说话人识别方法与算法,具体包括语音采集、预处理、特征提取、声学建模以及判决。在设计与实现过程中,本文提出并实现了以下新的方法与算法: 1.言语过滤识别方法:一种新型的说话人识别方法。它利用了语音识别对语音进行语义检验,从而过滤了复杂背景的影响,进而提高了识别性能。言语过滤识别方法是原有的与文本相关的说话人识别和与文本无关的说话人识别两种方法的重要补充。 2.二次特征提取:结合声学模型特点综合比较后得到的一种新颖处理方式。它通过综合运用加权、微分、组合、筛选等方法,进一步挖掘说话人语音背后的隐性个性差异。在采用138人的YOHO数据库上进行的说话人识别测试中,其性能优于传统的特征提取方法。 3.模型得分归一化与渐进等分法:考虑到分类器得分的依赖性与现有的验证性能计算的复杂性,提出了新的模型得分归一化方法优化分类器性能,以及一种新的渐进等分法计算等错误率。新的反全局模型归一化以及训练模型自归一化对说话人验证性能有不同程度的提高。此外,本文比较了渐进等分法与传统的阀值分析图法和接受者操作特性曲线图法在计算等错误率的优缺点。最后,针对YOHO数据库的说话人验证得分,验证了以上算法。 最后,本文提出并实现了两个基于SONAR的说话人识别应用系统。其一是互联环境说话人鉴别系统,它是针对互联环境的多种语音接入方式而研发的,来自个人电脑、掌上电脑、电话、手机的语音通过不同的接入途径(声卡、传输和语音调制解调器等)接入到SONAR软件平台。其二是电话提示性验证系统,它支持电话远程交互式验证,在保证识别性能的基础上增强了人机交互能力。
刘漪琰[2]2007年在《Sonar v2.0:开放式说话人识别研究平台的设计、实现和推广》文中提出近年来,说话人识别(Speaker Recognition)领域各种特征信息提取手段层出不穷,模型识别技术日新月异,给实验和研究带来一定的挑战,目前已有的软件平台的在覆盖面和扩展性上已经不能满足研究的需要。本文研究和比较了该领域现有的软件平台,在实验室项目组的Sonar平台版本1.0(Speaker recOgnitioN softwAre platfoRm:Sonar version 1.0)的基础上,研制了开放式说话人识别研究软件平台Sonar version 2.0(Sonar v2)。Sonar v2实现了一个支持多层次说话人识别研究和开发的开放式平台。Sonarv2不仅适用于科研工作,还充分考虑了教学需求,填补了该领域教学平台的空白。该系统提供了语音采集、预处理、特征提取、声学建模、得分优化判决和性能评价一套完整的说话人识别流程模块,在各个模块集成了现今最常用最流行的算法。与之前的Sonar v1相比,Sonar v2无论是在架构的合理性、平台的易用性、还是在软件的可扩展性和剪裁性、系统的时空高效性和鲁棒性,以及在文档的完整性方面都有了长足的改进;与目前在业内享有盛誉的软件平台Alize相比,Sonar v2不仅综合性更强,支持更丰富的特征提取算法和模型算法,而且经实验证明,Sonarv2在准确性和运行速度上都有一定的优势,此外,Sonar v2在教学平台建设方面的工作也是一大特色。本论文的主要工作在于:1、设计和建构了Sonar v2系统框架,实现并验证系统功能:Sonar v2实现了清晰的模块划分,明确的中间文件格式定义,完全透明的底层文件系统操作,此外,还实现了一个独创性的特色子系统:基于脚本的语音库自动评测。2、分析改进系统运行的时空效率和鲁棒性:分析现有系统Alize和Sonar v1的效率,Sonar v2吸收精华,改进其不足,在时空效率和鲁棒性上和Alize及Sonar v1软件平台相比都有一定的优势。3、基准评测:利用Sonar v2的语音库自动评测完成了现有算法的准确性评价,可重复性强,为算法实验提供了通用的基线。4、教学平台建设和软件系统推广:Sonar v2制定并实施了完整的系统推广计划,包括编程和系统模块扩展规范的制定,二次开发API文档的制作,用户体验调查和根据反馈改进系统等。Sonar v2还充分考虑教学需要,特别开发了两个教学辅助工具:Sonar应用程序和Sonar Practice自动练习检查系统。Sonar v2在教学平台建设方面所做的工作使其成为一个实用的教学平台,填补了说话人识别领域教学软件平台的空白。本文工作得到以下基金资助:国家杰出青年基金60525202,国家自然科学基金60533040,教育部新世纪优秀人才计划NCET-04-0545,国家高技术研究发展计划2006AA01Z136,长江学者和创新团队发展计划IRT0652,浙江省自然科学基金Y106705。
谢尔曼[3]2015年在《2D-Haar声学特征超向量生成及大规模说话人识别技术研究》文中提出随着信息技术的发展,信息系统越来越深入地融入社会生活,信息安全的重要性日益凸显。在身份认证和敏感信息监控领域,生物识别技术正得到越来越多的研究与应用。说话人识别(Speaker Recognition, SR,又称声纹识别)由于部署简单、成本低廉,一直是生物识别技术的一个重要分支。近年来,随着各类模式识别算法(例如模板匹配法、概率统计法、机器学习分类器方法等)以及特征向量处理技术(例如基于机器学习和数据挖掘方法的特征筛选、特征向量构造等)研究的日益深入,各类说话人识别系统的准确性逐渐提高,应用不断扩展。在目前的说话人识别研究中,当目标说话人的规模不断增加时,说话人识别的准确率随之衰减。本文针对该问题,研究相应的特征向量生成方法、说话人分类器的训练方法以及说话人识别的并行计算方法,论文的主要工作成果和创新包括:1.提出了一种利用声学特征图,声学特征可筛选,能有效提高识别准确率的2D-Haar声学特征超向量生成方法目前常见的音频特征向量生成方法,难以进行时序信息与跨维度信息的联合分析。通过对一定数量的连续音频帧的常用声学帧特征值进行跨维度、跨帧的加减运算,建立维数达到数十万的声学特征Haar-like模式,再根据不同的音频识别任务,用机器学习算法在高维Haar-like模式空间中进行特征筛选,即可生成2D-Haar声学特征超向量。该特征超向量的潜在维数可以更高,并可针对具体的识别应用筛选出不同的Haar-like模式,提升特征向量的表达能力,从而提高识别准确率。实验结果表明,在音频事件识别、说话人识别、说话人性别识别叁种应用中,2D-Haar声学特征超向量都获得了比常用声学帧特征更高的总体准确率,可使SVM、AdaBoost、C5.0叁种算法的总体准确率最高获得4.2%到9.5%的提升。2.提出了一种利用随机模式筛选特征的2D-Haar声学特征超向量生成快速计算方法2D-Haar声学特征超向量生成过程中,声学特征的Haar-like模式的筛选耗时较长,可通过优化Haar-like模式的筛选过程以提升计算效率,即在每轮迭代过程中,并不是对所有的Haar-like模式进行筛选,而是对随机选定的、特定个数的Haar-like模式进行迭代运算,在保证识别效果的前提下精简筛选过程、提升计算速度。实验结果表明,与常用声学帧特征相比,快速计算方法的训练速度是前者的2.9-6.8倍,识别速度是前者的4.9-8.9倍,并可获最高4.8%-8.8%的准确率提升。3.提出了一种通过两次迭代训练能有效降低目标说话人规模对识别准确率影响的说话人识别方法随着目标说话人规模的增加,特征空间中的样本密度持续提高,从而造成识别准确率不断衰减。提出一种通过两次迭代训练能有效降低目标说话人规模对识别准确率影响的说话人识别方法。在特征向量生成环节,针对不同说话人筛选出不同的Haar-like模式组合,生成因人而异的2D-Haar声学特征超向量,代替常用声学帧特征以提高不同说话人特征向量之间的差异、降低特征空间中的样本密度。在说话人分类器训练环节,利用AdaBoost.MH算法“当弱分类器个数大于特征维数时准确率更优”的特性,训练一个弱分类器个数大于2D-Haar声学特征超向量维数的说话人分类器,提高说话人分类器样本划分的准确性。实验结果表明,与GMM-SVM算法相比,该方法的识别速度更快,准确率更高,识别准确率随说话人规模增加而衰减的趋势更缓,在不同目标说话人规模下,该方法的平均识别准确率比GMM-SVM算法高2.5%。4.提出了一种利用CPU多核技术,支持大规模目标说话人识别应用的说话人识别并行处理方法CPU多核技术可提升大规模说话人的识别效率,提出ERF算法,构建说话人识别并行处理方法。ERF算法不存在贯穿始终的迭代运算,可通过程序并行化获得更高的效率提升。利用操作系统脚本进行16核并行运算时,并行ERF方法的训练倍速为5.53,是并行GMM-SVM方法的2.3倍、并行Turbo-Boost方法的2.2倍;并行ERF方法的识别倍速为8.33,是并行GMM-SVM方法的1.9倍、并行Turbo-Boost方法的1.3倍。此外,ERF算法在训练开始前对非目标说话人的特征超向量进行有放回随机取样,平衡训练集内非目标说话人与目标说话人的数据量,能够缓解大规模说话人分类器训练样本数据的不平衡问题。实验结果表明,随着说话人规模的不断增加,所提方法识别准确率的衰减趋势更缓;不同目标说话人规模下,该方法平均识别准确率比采用GMM-SVM算法提高2.7%。
郑建炜[4]2010年在《基于核方法的说话人辨认模型研究》文中指出说话人识别技术由于其独特的便利性、精确性和经济性,被认为是最自然的生物认证技术,在安全监控、司法鉴定、电子侦听、金融服务等方面都具有广泛的应用前景。当前,说话人识别系统开发已逐渐从理论研究转向实际应用,对其要求也随着应用环境的变更而越来越高,不仅期望具有极高的识别率,还要具有较高的实时性,此外,系统构建便捷性、模型扩展能力等都不容忽视。近十几年来,基于核函数的分类算法已成为模式识别领域的研究焦点,它有效克服了传统模式识别方法中局部极小和非完全统计分析的缺点,具有很强的非线性处理能力,而说话人识别系统中输入的语音特征参数正好是非线性的且局部特性复杂。因此,应用核分类模型于说话人识别时能够获得很好的效果。本文针对说话人识别中的辨认任务,以小样本语料库为应用对象,着重研究模型域的改进,提出具有各种优势的核分类方法。主要工作如下:1.深入分析当前主导的说话人识别模型GMM-UBM和SVM。产生性模型-高斯混合模型(GMM)一直作为说话人识别的基准技术,但其直接应用存在训练样本量需求过大的缺陷,而统一背景模型(UBM)可以削减目标说话人的输入数据,且效果更比单纯GMM优越。区分性模型-支持向量机(SVM)具有最大分类间隔、全局最优解、稀疏性能等优势,在小样本说话人识别应用中效果比GMM-UBM更佳。本文分别从原理、优缺点、融合策略、应用细节等几方面对两者作了细致地分析。通过说话人辨认实验表明,GMM-UBM模型的测试实时度稍逊,而两分类模型SVM的多元扩展能力较为薄弱。2.联合相关向量机与高斯混合模型进行说话人辨认。相关向量机(RVM)分类模型与SVM具有一致的判决公式,同样有很强的泛化能力,并且其稀疏性更好;此外,RVM使用概率输出克服了SVM二值结果的缺点,又无需进行繁琐的惩罚因子C计算。但是在与文本无关的话者辨别中,RVM模型构建过程却过于缓慢。本文将二元模型RVM引入说话人辨认领域,并采用快速训练算法进行基于帧的话者识别。为进一步提升模型构建速率,取GMM统计特征参数作为RVM的输入矢量,既能够有效地提炼话者个体性信息,解决大样本数据情形中的RVM训练问题,又结合了统计模型鲁棒性高和分辨模型辨别效果好的优点。实验结果表明,RVM与SVM模型扩展能力一致,识别率相仿,但测试实时性能明显优于SVM。3.提出多元核Logistic回归(MKLR)说话人辨认方法。虽然RVM与SVM都具有优秀的识别性能和测试实时度,但二元模型的本质使得两者都无法直接应用于说话人辨认。本文针对基于帧的与文本无关说话人辨认多分类目标和大训练样本的情况,将经典核Logistic回归(KLR)模型进行多元化变形,迭加L2惩罚因子,以提高模型泛化能力。把最优目标函数负对数Logistic公式对偶化,并利用序列最小优化算法进行模型训练,不仅保持了原KLR模型的强分辨能力,也加快了模型构建过程。实验结果表明,MKLR在辨认任务中无需进行繁复的多分类扩展,且识别率达到99.5%。4.提出概率稀疏型多元核Logistic说话人辨认方法(SMKLC)。MKLR的缺陷是测试速率低下,因此,本文对经典Logistic回归模型进行多元化扩展后,为参数迭加RVM中采用的稀疏性先验概率分布,在不引入新的先验信息性参数前提下使模型具有稀疏结果。模型训练采用自下向上贪婪算法,规避了大型矩阵逆操作,约简了训练过程计算量。说话人辨认实验结果表明,SMKLC在保持高识别性能的同时,其测试用时仅需0.0057秒/短语。5.提出保局部核Fisher鉴别说话人辨认方法(LWFDA)。结合核Fisher判别(KFD)方法与局部保持投影(LPP)两者的优势,将亲和因子引入KFD中的类内散度矩阵,保留KFD全局最优投影能力的同时,又凸现LPP的局部保持能力,对重迭(离群)样本与多态分簇样本都能实现有效的分类投影,并给出了快速求解算法,解决大样本训练时出现的内存溢出问题,以适应于说话人辨认。实验结果表明,LWFDA识别率与MKLR一致,测试用时较MKLR缩减了9.25%。6.提出增强型数据域描述说话人辨认方法(EDDD)。为适应开集的辨认任务,以支持向量域描述(SVDD)算法为基础,通过一种简易的形式引入数据间密度因子,使处于不同区域的数据对分类器的作用不再被同等对待,高密度区数据对分类支撑域的作用被强化,而低密区即呈零星分布的数据作用被削弱,结果使分类超球体自动靠近数据高密区而提高其识别性能。说话人辨认实验结果表明,EDDD模型的识别性能全面优于GMM。本文主要研究说话人辨认系统中的模型部分,提出或改进了各类基于核的分类方法,包括二元分类器、多元分类器、单类分类器、降维分类器等,它们各自都具有得天独厚的优势,能满足不同需求的说话人辨认系统。
姜志飞[5]2017年在《家庭陪护机器人语音控制系统研究与设计》文中研究说明随着机器人技术的快速发展以及社会需求的不断增加,清洁、安保、陪护及康复等服务机器人已经逐步走入大众日常生活。为了方便用户使用,本文基于实验室自主研发的一款家庭智能陪护机器人,研究设计了一套机器人语音控制系统,使得用户能够以一种最为亲切自然的方式与机器人进行交互。本文在完成整体方案设计的基础上,对系统涉及的声源定位和语音识别两个技术环节进行了重点研究。声源定位方面,本文在比较分析经典声源定位算法的基础上,选取一种基于到达时延的广义互相关法(GCC:Generalized CrossCorrelation)定位算法。针对该算法在噪声和回响较大环境中效果不够理想的问题,对其进行了改进,增加一个PHAT加权函数,对频谱信号进行处理;同时引入一种抛物线插值算法,在不提高采样频率的前提下,有效提高了空间搜索定位精度。此外,本文还完成了麦克风阵列的拓扑结构设计以及麦克风、声卡等硬件的选型工作。语音识别方面,本文采用Kaldi开源语音识别开发平台,基于准备的训练数据及脚本,进行了单音子、叁音子模型及改进算法模型的训练,并对其中涉及的HMM模型、基于加权有限状态机(WFST)的静态空间网络等理论进行了研究,针对其中的核心问题提出了相应的解决方法。通过语音识别精度测试实验,对各个模型的识别精度进行比较,最终确定系统采用基于叁音子的LSM语音识别模型。最后,本文制定了上下位机通信协议,搭建了语音控制系统实验平台,在机器人运动控制中,针对控制精度不高的问题,采用了一种PID控制同模糊控制融合的控制策略。在此基础上,进行了声源定位、自主转向以及语音指令识别并实时响应的相关测试。大量的实验结果及初步的应用表明,本文设计的陪护机器人语音控制系统具有较高的定位和指令识别精度,可以满足陪护机器人在家庭环境中的使用需求。
于俊钊[6]2014年在《孪生支持向量机及其优化方法研究》文中提出孪生支持向量机(Twin Support Vector Machines, TWSVM)是在支持向量机(Support Vector Machines, SVM)的基础上提出的一种新的机器学习方法。和SVM相比,TWSVM要寻找的是一对不平行的超平面,其中每个超平面都应该尽可能的靠近其中一类样本,而远离另一类样本。TWSVM在形式上完全类似于SVM,但算法最终归结为求解两个SVM型问题,计算开销缩减到标准SVM的1/4。鉴于TWSVM优秀的学习性能,目前其已成为机器学习领域的研究热点。然而,TWSVM在算法效率、参数寻优等方面还存在着改善的空间,针对这些问题,本文做了系统的研究,以下是主要研究内容:自TWSVM被提出以来,许多研究学者对其算法进行了改进,进一步提出了最小二乘孪生支持向量机,投影孪生支持向量机等,并将其应用于生物医学、说话人识别等领域。在深入的研究了TWSVM的基本思想和算法流程的之后,为了进一步提高其分类效率,本文首先考虑对其进行预处理的优化,提出了一种基于粗糙集的孪生支持向量机(Twin Support Vector Machines based on Rough Sets,RS-TWSVM),该算法利用基于属性重要度的属性约简方法对TWSVM做预处理优化。最后,通过在MATLAB平台下的实验,验证了该算法的可行性。在对TWSVM和RS-TWSVM进行研究和实验的过程中,发现TWSVM存在着参数难指定的缺点,因此本文继续探索如何对TWSVM做参数选择的优化,提出了一种基于粒子群优化算法的孪生支持向量机(Twin Support Vector Machinesbased on Particle Swarm Optimization, PSO-TWSVM),该算法使用粒子群算法迭代寻找TWSVM的最优参数,目的是为了避免TWSVM参数选择的盲目性。最后通过MATLAB平台下的实验,证明该算法确实有效。为了探讨不同的群智能优化算法对TWSVM进行参数选择优化的利弊,本文又提出了一种基于果蝇优化算法的孪生支持向量机(Twin Support VectorMachines based on Fruit Fly Optimization Algorithm, FOA-TWSVM),该算法使用最新的群优化算法——果蝇算法来优化TWSVM中的参数,同样可以避免TWSVM参数选择的盲目性。最后,在MATLAB实验平台下对该算法的有效性进行了验证,并对比分析了两种优化方法的优缺点。
曹慧敏[7]2010年在《基于海上侦察系统的声音识别技术研究》文中研究说明无线传感器在现代化军事中有着广泛的应用,海上无人值守的侦察系统可以代替人对进入侦察区域的目标进行外形轮廓和声音的辨别。由于此类系统所需要的无线传感器数量较多,因此发展实际可用的传感器系统和数据处理系统,使其能对进入侦察海域的声音进行初步感知,进而代替人的一部分工作具有实际意义。由于海上船只、海面飞行物、海鸟以及海洋背景声音的复杂性,对这类声音的识别不同于以往的语音识别,语音识别中使用的特征提取方法和声音识别算法很多,为了得知它们在海上声音识别中的可用性,课题研究了适用于环境声音识别的算法。课题研究内容主要是对于已经接收到监控中心的海上音频数据进行识别,首先介绍了声音传播和检测过程及其对后续处理的影响;深入分析了已有的语音识别技术、非语音识别技术、音乐识别技术和被动声纳分类技术,在此基础上总结出适用于环境声音识别中的几种技术,并进行阐述和分析。在MATLAB中运用动态时间规整技术结合傅里叶变换、美尔倒谱系数和短时傅里叶变换这叁种特征提取技术对海上声音进行识别研究;在HTK语音识别工具箱中搭建高斯混合模型分类系统,进行识别实验;根据实验结果分析了识别方法的性能和声源对结果的影响。利用快速傅里叶变换和动态时间规整算法在海上监测软件平台中添加编制了具有功能易用性的声音识别软件界面。
曹葵康[8]2010年在《支持向量机加速方法及应用研究》文中研究表明支持向量机(Support Vector Machines, SVMs)是基于统计学习理论以及结构风险最小化原则的新一代通用机器学习方法。它在解决小样本、非线性及高维模式分类及函数回归问题中表现出许多独特优势,是克服过学习、局部最优及维数灾难等传统困难的有效方法。由于其性能出色,支持向量机自诞生以来受到研究者越来越多的关注并已成为机器学习领域中一个新的研究热点。然而支持向量机计算复杂,效率较低,这在一定程度上制约了它的在产业界的推广和应用。本文从几个不同角度研究了提高其效率的方法,主要的研究内容及成果概述如下:1)增量及减量(在线)训练算法针对现有支持向量回归机(Support Vector Regression, SVR)在线训练算法每次只能处理一个样本而效率较低的问题提出一种基于多样本的支持向量回归机在线训练算法。算法以拉格朗日乘数法和卡罗需-库恩-塔克(KKT)条件为基础,逐步改变样本的系数,并在每次迭代中保持原来的样本满足KKT条件,最终使所有训练样本满足KKT条件。实验表明,本算法可以有效地实现SVR模型的精确在线更新,其运算效率优于针对单样本的支持向量回归机在线算法。在一次增加或减少的样本较少时,其训练速度远优于批量训练算法,因而可作为一种有效的在线训练算法。本算法可以高效地动态更新SVR模型,尤其适用于时变时间序列的预测以及时变系统的辨识等应用。2)SVM硬件实现针对嵌入式应用环境中灵活性和实时性的要求,本文提出一种基于流行的序贯最小优化(Sequential Minimal Optimization, SMO)算法的并行可扩展数字硬件结构以高效训练SVM分类器,并且基于FPGA平台验证了其各方面特性。由于SMO算法最终利用解析方法求解QP问题,从而可以有效避免数值稳定性问题。在深入分析SMO算法的基础上,我们提取出其中的并行性并将其映射至并行硬件结构。实验表明,本SVM硬件可以基于低成本的定点运算单元有效地处理SVM训练问题,并且具有良好可伸缩性。基于本SVM硬件结构,可以方便地在性能和资源消耗之间进行权衡折中以满足不同应用的要求。本SVM硬件方案克服了现有方案缺乏灵活性的缺点,因而更适合嵌入式环境中的应用。此外,为了给SVM相关算法的硬件实现提供参考,简化硬件架构的设计以及提高设计的可重用性等,本文还提出一种基于当前流行的映射-归约(MapReduce)并行计算模型的SVM硬件实现方法。我们以SVM训练和分类算法为例说明基于这一方法可以非常容易且有效地将相关算法映射至并行可扩展硬件结构。3)在光刻热点检测中的应用针对SVM在集成电路版图光刻热点检测(lithography hotspot)中的应用,提出一种在具体应用中提高SVM效率的方法。该方法首先利用离散余弦变换提取版图样本的频域特征,然后利用多目标遗传算法进行特征选择以减少用作热点检测的特征的数目,从而提高热点检测的效率。此外,SVM参数的选择也被集成到这一过程中同时进行以获得尽可能高的检测精度。实验表明,本检测方法在不影响检测精度的前提下,效率明显优于原先直接以图像像素为特征的检测方法。本热点检测方法不依赖于具体的工艺参数或可能使用的分辨率增强技术(RET),适合集成到集成电路的物理设计流程中对光刻热点进行快速预检。
陆佳妮[9]2013年在《基于win32的保安机器人上位机系统集成程序设计》文中研究说明随着计算机技术、控制论、传感技术、人工智能等学科的发展与应用,机器人技术发生了翻天覆地的变化。机器人的发展历程见证了人类在智能自动化技术发展史上做出的努力。本文针对采用轮式机械结构,适用于企业单位与科技场馆的保安机器人进行了上位机软件系统设计。主要内容包括上位机系统整体设计、行为规划、语音识别、人脸检测、人脸识别五部分内容。上位机软件系统整体设计是根据机器人的功能需求对机器人上、下位机的通信及各个功能模块的划分进行确定。文中针对保安机器人设计了一套专用的数据包结构和通信协议方式。行为规划部分和语音识别部分包含对机器人整个动作行为、反应方式的设计。包括机器人的路径规划以及机器人的语言动作规划。使机器人在得到命令后能够对命令进行一定的响应。人脸检测部分和人脸识别部分主要实现了保安机器人的“门禁”功能,完成对来访者的身份核查。在此,文中提出了一种基于肤色模型和边缘检测的快速人脸定位方法,提高了Adaboost算法的检测速度和检测效果。
王金甲[10]2009年在《基于多元数据图表示的可视化模式识别研究》文中提出模式识别通常认为是一个工程领域的问题,它集中研究系统的开发和评估,这个系统模仿并增强了人类识别模式的能力。但是,它也可以认为是一门科学,研究人类或其它生物学系统的发现、区别和刻画周围环境中的模式从而识别新的观测对象的能力。模式识别的工程方法试图建立模拟这种现象的系统,这样做,也就获得了为了识别模式所需要的科学理解。但是目前模式识别模型中有一些约定俗成的假设需要重新考虑,例如数据表示问题等。因此在多元数据图表示的多年研究工作基础上,提出将传统模式识别数据的特征表示转化为数据的多元图表示,从而开辟了一个新的研究方向:多元数据图表示模式识别。论文以模式识别中存在的数据表示问题和分类问题为背景,以多元数据2维(2D)图表示方法作为手段,以多元图图形特征提取和图形分类器为基础,以建立基于多元数据图表示模式识别理论框架为目的,开展可视化模式识别新方法的研究。首先给出了非图特征进行多元图表示的一般原理,研究了非图特征进行多元图表示(即公式表示、矩阵表示和几何表示)的数学理论框架,给出了非图特征进行多元图表示的唯一性定理及其证明。其次,研究了多元图的图形特征提取方法,给出了多元图图形特征提取的几何思路,特别对于多元数据星点图表示提出了面积、重心等图形特征。发现非图特征进行图表示存在的特征排序问题会导致不同特征排序下生成多元图图形特征的分类性能不同。因此研究了最优分类性能下对应的特征排序方法,第一种思路采用传统特征选择方法中的特征排序方法,第二种思路采用基于全局优化的随机搜索算法(如遗传算法等)用于特征排序方法,第叁种思路提出适合本问题的准则函数用于寻找最优的特征排序。再次提出了升维变换和特征选取思想并给出了方法实现。升维变换和特征选取是指,先对原始特征进行所有特征排序下多元图的图形特征提取,然后同时从原始特征和提取特征中选择出部分特征。可以猜测选取特征分类性能最差也是优化的特征排序下的鉴别图形特征的分类性能。接着研究了选择的部分特征的维数与分类性能之间的经验关系并用于指导选择维数。最后研究了基于多元图的图形分类和聚类方法。提出图形不相似度的定义和公式,按照模板匹配思想提出基于图形不相似度的单原型图形分类器,按照K近邻的思想提出基于图形不相似度的K近邻图形分类器。还研究了基于多元数据脸谱图的聚类和分类算法及其在健康智能家庭多源多维信息融合中的应用。整个系统采用Matlab编程实现设计思想。葡萄酒、乳腺癌和糖尿病等UCI真实数据集的最佳分类错误率分别达到了0%、1.61%和20.7%,优于国际分类性能比较的最优值,实验结果证实了我们的想法。
参考文献:
[1]. 基于SONAR平台的说话人识别算法改进研究[D]. 马志友. 浙江大学. 2003
[2]. Sonar v2.0:开放式说话人识别研究平台的设计、实现和推广[D]. 刘漪琰. 浙江大学. 2007
[3]. 2D-Haar声学特征超向量生成及大规模说话人识别技术研究[D]. 谢尔曼. 北京理工大学. 2015
[4]. 基于核方法的说话人辨认模型研究[D]. 郑建炜. 浙江工业大学. 2010
[5]. 家庭陪护机器人语音控制系统研究与设计[D]. 姜志飞. 山东大学. 2017
[6]. 孪生支持向量机及其优化方法研究[D]. 于俊钊. 中国矿业大学. 2014
[7]. 基于海上侦察系统的声音识别技术研究[D]. 曹慧敏. 南京理工大学. 2010
[8]. 支持向量机加速方法及应用研究[D]. 曹葵康. 浙江大学. 2010
[9]. 基于win32的保安机器人上位机系统集成程序设计[D]. 陆佳妮. 北京林业大学. 2013
[10]. 基于多元数据图表示的可视化模式识别研究[D]. 王金甲. 燕山大学. 2009
标签:电信技术论文; 分类器论文; svm论文; 分类数据论文; sonar论文; 支持向量机论文; 模式识别论文; 机器人论文; 算法论文;