低速率语音编码论文_赵月娇

导读:本文包含了低速率语音编码论文开题报告文献综述、选题提纲参考文献及外文文献翻译，主要关键词:语音,速率,矢量,听觉,线性,算法,音素。

低速率语音编码论文文献综述

赵月娇^[1]（2017）在《基于深度学习提高低速率语音编码质量方法研究》一文中研究指出语音通信在多媒体通信中有举足轻重的地位。而低速率语音编码更是凭借其占用更少的频带资源在安全保密通信等领域被广泛应用。然而,更低编码速率意味着包含更少的信息量,则编码质量会受其影响而降低。如何在低速率下保持高质量语音一直是语音研究者普遍研究的问题。深度学习技术推动传统神经网络向更深层复杂的深度神经网络衍变发展。近年来,深度学习在语音信号处理中显示出了巨大优势,特别是在语音识别、分离等方面有突出的表现。基于以上几点,本文提出两种基于深度学习的语音处理方法来提高低速率语音编码质量。语音帧类型的划分对语音编码质量影响较大,且传统方法分类准确率受背景噪声影响急剧下降。因此文章的研究重点之一是学习设计一种基于深度学习的语音分类算法来提高不同噪声环境中的分类准确率。栈自动编码机在分类问题中往往比其他模型表现更好。在语音分类实验中,在不同信噪比下提取基音周期、线谱频率、子带能量等参数。归一化处理后随机打乱顺序输入网络中,再逐层训练栈自动编码机。最后用有监督的标准反向传播方法实现整个网络微调达到较高的分类准确率。此实验中的监督信号均为纯净语音条件下提取的清浊分类标志位。语音信号带宽是影响语音编码质量的另一个重要因素。语音由于受压缩和通信信道影响带宽受限,重建传输语音的自然度会降低。因此,本文另一个研究是基于深度学习的带宽扩展方法,该方法通过提高语音自然度来提高语音质量。语音带宽扩展算法能够在编解码系统终端由前馈神经网络实现。首先将解码端恢复的信号进行快速傅立叶变换,然后提取窄带信号包络归一化处理后作为网络输入,而宽带信号的高频谱包络为监督信号。利用前馈神经网络非线性映射关系将窄带信号包络映射到高频部分。高频部分相位为低频相位翻折取反而来。整合高频部分相位和包络信息得到预测信号频谱。最后将预测信号进行傅立叶逆变换之后恢复到时域中与低频部分整合为宽带信号。为了评价语音分类和带宽扩展设计算法的有效性,进行了一系列相关测试。在语音清/浊帧分类中,所提算法能够提高不同信噪比下的分类准确率,特别是信噪比越低时,提升效果越明显。将此算法应用于混合激励线性预测编码系统中,不同噪声条件下的分类准确率均有提高。在带宽扩展方面,谱失真对数用来衡量算法性能,其结果在扩展前后由2.2372dB降低到0.8883dB。实验结果表明了深度神经网络能够提高低速率语音编码质量,这暗示了深度学习在语音压缩和处理方面有巨大的潜力。(本文来源于《西安电子科技大学》期刊2017-06-01）

吴秋玲,吴蒙^[2]（2016）在《一种挖掘低速率语音编码最低有效位的新方法》一文中研究指出信息隐藏是保证信息传输安全的重要手段。针对VOIP系统中低速率语音编码在信息隐藏时最低有效位难以确定的问题,利用遗传算法GA(Genetic Algorithm)作为优化工具,以客观的语音质量评价标准和信息隐藏容量为依据构建遗传算法目标函数,提出一种能够挖掘低速率语音编码最低有效位的新方法。以G.729a语音编码为例进行实验测试,测试结果表明,该方法在给定的语音质量下,以隐藏容量最大为目标可以精确搜索到所有最低有效位。最后通过在语音帧的最低有效位上进行机密信息的隐秘传输验证信息隐藏技术的可行性。(本文来源于《计算机应用与软件》期刊2016年08期）

周航麒^[3]（2016）在《基于iLBC扩展的多速率语音编码算法研究》一文中研究指出语音信号在网络上进行传输,当出现信道负荷增大,带宽减少等情况时,容易出现丢包,抖动,延时,这样降低了语音质量;提升编码器对语音信号的编码性能很有必要。语音编码的主要目的是在适当减少复杂度和通信时延的条件下,尽可能占用较少的通信容量,提高传输过程中语音的质量。为了对传输过程中的差错具有较高鲁棒性和保证语音质量的同时,降低编码速率,节约宽带资源,提出了很多语音编解码算法,如:G.729、AMR、EVRC和iLBC等以及对这些算法的改进。其中iLBC(internet Low Bit codec)采用的是基于帧的线性预测编码技术,相比于其它编解码算法,该编码器具有动态码本更新技术、丢包隐藏技术和语音增强等技术。该语音编解码算法在基于IP的分组交换网络中具有很好的性能,当网络环境较差时仍可以提供高质量的语音服务。然而,iLBC在数据处理速率方面灵活性并不高,在处理丢包时,相比于码激励线性预测模型的编解码器会占用较高的比特率,这样增加了网络负荷,造成时延。针对上述问题,本文研究了基于iLBC扩展的多速率语音编解码算法,主要工作如下:详细介绍了一些扩展编码器的原理,分析了这些编码算法重构语音的质量。然后阐述iLBC的基本流程,继而在标准的iLBC编码器上进行改进。首先根据离散余弦变换较高的能量压缩特性,需要较少的比特数就能描述起始状态的特征,因此对语音信号中的起始状态采用频域的离散余弦变化来代替时域上的标量量化。然后为了减缓发送端的编码器对语音信号编码时出现丢包,而对语音质量造成的影响,在前面的步骤上增加了反馈调节模块,对语音的质量进行实时调整。最后,为了使编码器能支持音质较高的音频信号,在窄带的基础上增加了宽带编码模块,该方法主要是基于层的比特流进行处理,并对窄带和宽带编码流程进行了详细的描述。通过仿真实验,与经典的语音编解码算法相比较,模拟在不同丢包率和编码速率下各自的性能,本文算法处理后的语音信号更自然并且可懂性也较高。(本文来源于《湖北工业大学》期刊2016-06-01）

何伟俊^[4]（2016）在《基于感知的低速率语音编码算法研究》一文中研究指出低速率语音编码技术的基本思路是识别语音与非语音信号并设计码本对两者进行压缩编码。现有的低速率语音编码算法侧重于对语音信号时空冗余度的挖掘,识别与压缩过程均忽略了人耳感知语音特点的考虑。目前,基于多帧联合技术的600bps~2.4kbps低速率语音编码器在高信噪比条件下已获得较好的性能,然而随着速率降低,在低信噪比环境下仍存在鲁棒性低、码本存储容量大、时延长等问题。鉴于以上考虑,论文把对语音信号的(主客观)感知因素纳入低速率语音编码器算法设计当中。首先,结合人耳对语音感知在频率上的差异对低信噪比下的鲁棒语音检测算法进行研究;其次,分别从人耳听觉对语音的主观感知和编码器对语音信号信息结构与内容的客观感知两个层面,重点研究设计更贴合语音信号信源空间的低复杂度码本。从识别与压缩两个角度进一步提高编码器的性能和稳定性。主要工作如下:1、针对编码器在低信噪比环境下语音检测准确率下降的问题,提出一种基于子带双特征的自适应保留似然比鲁棒语音检测算法。算法首先根据人耳对语音感知随频率的变化规律划分子带,然后在基于统计模型的似然比检验方法中引入保留权值,通过提取子带归一化双重特征,从时域的角度把具有明显语音特征的子带似然比保留下来参与综合评估,同时利用过去固定时长内的判决结果及相关子带特征参数自适应更新保留阈值。实验结果表明,与同类方法相比,在10dB,0dB和-10dB白噪声下检测准确率提高幅度分别为0.96%~15.91%,1.54%~17.96%和0.65%~11.44%,在10dB,0dB和-10d B Babble噪声下检测准确率提高幅度分别为2%~18.27%,2.9%~11.86%和0.18%~3.65%;方法同时被用于2.4kbps低速率语音编码器,在10dB,0dB和-10dB Babble噪声下,语音质量感知评价(Perceptual Evaluation of Speech Quality,PESQ)值分别提高了0.159,0.157和0.186;在10dB,0dB和-10dB白噪声下,分别提高了0.153,0.098和0.096。2、为了提高码本生成过程中初始码本对信源空间的感知表达能力,提出了一种基于自适应正交M码字分裂的码本生成方法。在码本初始化过程中把每个码字按照码本生成策略分裂成相互正交的多个码字,并通过感知码字对应胞腔的信源分布情况自适应设置分裂矢量大小,使初始化码字能更好地表达语音信号的信源空间,从而减少后续的聚类迭代次数。新方法与二分初始化码本生成方法相比,在保持相近量化失真的前提下,把生成不同大小码本的时间降低了18%~45%。3、针对基于平均失真度生成的传统码本对编码资源分配不合理问题,从人耳感知理解的语音角度,提出一种基于人耳感知的线谱频率(Linear Spectrum Frequency,LSF)参数矢量量化码本设计方案,该方案根据LSF残差的大致分布采用非标准椭圆方程划分多个区域,以过渡段信号更有助于人耳理解语音这一事实作为依据,采用按区域调整训练样本比例的方式对编码资源进行全局调整,并使用调整后的样本设计量化码本。实验结果表明,在500bps声码器应用中,新码本编译码后合成语音的PESQ值相比原码本在男女声样本上分别提高了0.03和0.02。另外,为了降低码本存储容量以及搜索码字造成的时延,把分区域设计码本的思想与格型矢量量化方法相结合,提出了一种基于全局非均匀局部均匀的自适应多尺度格型矢量量化方法,实验结果表明,改进方法在量化失真上略大于传统的多级矢量量化算法,但码本存储容量减少幅度为60%~100%,量化时延降低幅度为69%~80%,在时延、存储容量与量化性能之间取得更好的平衡。4、在编码器对语音信号信息结构与内容的客观感知层面上,从压缩和优化两个角度探讨利用压缩感知理论提升低速率编码器性能的可行性。一方面,分析了LSF参数在不同变换域下的稀疏性,开展了基于压缩感知的LSF参数重构性能研究,研究证实了LSF参数在DFT域和学习字典下均具有不同程度的稀疏性,且在重构性能方面学习字典优于固定变换域;另一方面,为了在译码端减少LSF参数的量化失真,提出了一种基于稀疏表示的译码端LSF参数优化算法,结合量化误差的先验知识,在译码端对声码器参数进行优化调整,研究结果表明,优化后的LSF参数平均失真度比优化前降低了约0.3~1.8%。5、最后,整合上述语音检测和感知码本设计的相关研究成果,提出了基于感知的500bps极低速率语音编码算法。实验结果表明,新算法与中科院在2013年提出的算法相比,在更低的码本存储需求下,无噪环境中合成语音的PESQ提高幅度为0.201和0.141。(本文来源于《华南理工大学》期刊2016-04-12）

刘锋^[5]（2016）在《紫外光通信系统中低速率语音编码技术研究》一文中研究指出以紫外光作为通信载体的紫外光语音通信系统,以其对噪声极强抗干扰能力、保密性能好、非视距通信(Non Line of Sight,NLOS)和全天候通信等优点逐渐成为军事通信领域的研究焦点。但是,光通信领域又面临着信道资源有限和系统误码率高的问题,如何解决光通信中的问题,研究者主要从改进调制方式和进行信源编码两个方向进行攻关,其中以信源编码方式较为有效,研究高语音质量和低编码速率的编码方式成为光通信领域信源编码的重点。论文研究的目的是在参数编码的理论基础上,对特征参数进行提取,并在现场可编程逻辑阵列(FieldProgrammable Gate Array,FPGA)上实现,从而达到低速率语音编码的目的,编码后的数据加载到输出光波长为266 nm的紫外激光器上并调制输出,紫外光在大气中传播由光电倍增管接收并转换输出电流信号,电流信号被信号处理电路进行电流电压转换和放大处理,在FPGA开发板上对放大后的电压信号进行处理,完成解码工作,最终还原语音信号,从而实现高质量低速率紫外光语音通信。首先阐述了大气吸收效应和散射效应,进一步以瑞利散射和米氏散射为理论基础,建立了紫外光通信的单散射椭球模型。另外提出了参数编码中LPC-10编码算法,该算法能够在8 kHz的音频采集频率下,以180个样点为一帧,从而实现语音的编码速率为2.4 kb/s。在对语音进行线性预测分析时,重点研究了提取滤波器参数的理论推导,为参数编码奠定了理论模型。在对参数编码研究的同时,本文也给出了波形编码中较为典型的A律语音压缩编码的基本原理方法。针对系统的发射光源和光电探测器工作原理进行了简要介绍,同时对不同类型的光源和光电探测器进行了对比分析,最终确定发射光源选择紫外激光,光电探测器选择光电倍增管(Photomultiplier Tube,PMT)。使用FPGA开发板对数据流进行处理,根据FPGA的设计流程和编程原则,设计了串并转换、并串转换、RAM调用、参数计算、编码输出等底层模块,并对每个底层模块的功能进行相应的时序仿真和验证。搭建了两个通信系统,一个是验证A律编码的红光激光通信,另一个就是以LPC-10参数编码为核心的紫外光语音通信。并对以上两个语音通信系统在实验室进行了多次测试。测试结果表明,设计的A律编码的红光激光通信的语音编码速率为64 kb/s,客观平均意见得分(Mean Opinion Score,MOS)≥3.0,设计的LPC-10编码的紫外光语音通信的语音编码速率为2.4 kb/s,实现了中低速率语音编码通信。(本文来源于《重庆大学》期刊2016-04-01）

张建利^[6]（2014）在《甚低速率语音编码算法研究》一文中研究指出近年来随着数字化通信技术的高速发展,频率资源越发宝贵。降低语音编码速率可以提高信道的利用率和节约开销,对实践有极大的指导意义和实用价值。因此低速率语音编码是未来语音编码技术的重要发展方向之一。混合激励线性预测算法是低速率语音编码(MELP)算法中最具潜力的编码器之一,它以线性预测模型为基础,结合多带思想,新增五项关键技术,使合成语音质量明显提升。本文以联邦标准MELP为基础研究对象。通过了解MELP算法的基本原理和实现方法,并进行系统的研究和分析,设计了一种0.6kb/s的甚低速率语音编解码算法。同时详细分析各个参数对合成语音质量的影响,从清浊音判决和基音周期两方面改进,以提高合成语音的质量。0.6kb/s算法的实现是采用联合帧的思想。本论文在MELP模型基础上增加处理帧长到200个样点,并将四帧组成一个超帧,以超帧为单位对参数进行量化传输,超帧共量化60bit。四个子帧的清浊状态共有16种组合,根据它们出现的概率,我们划分为四种模式或者两大类,分别代表清音类和浊音类。根据不同的分类对提取的参数进行最优的比特分配。清音类不传输基音周期,每个子帧的10个LSF参数均用一级矢量器量化为11比特。浊音类的超帧中的后叁个子帧的基音周期进行均匀量化传输,第一子帧基音周期不传输。对于线谱频率,只有第二子帧和第四子帧的LSF被传输和量化,每子帧LSF使用一级矢量器量化为11比特。增益是为了使合成语音与原信号幅度相匹配。分别从第二子帧和第四子帧提取两个增益,将这四个增益组合一个四维矢量,用矢量量化器将这个矢量量化为10比特。其它的比特用来传输子带清浊判决,其中第一子带清浊判决必须传输。在解码端,首先根据第一子带的清浊判决情况进行模式判断,然后再进行参数译码和插值恢复四组参数。超帧矢量量化方法使标准MELP编码算法速率降低到0.6kb/s。测试结果表明,0.6kb/s的编码算法合成语音质量PESQ值为2.18,比标准算法PESQ值平均低了0.534,合成语音的可懂度高。提高合成语音质量从清浊音判决和基音周期两方面进行改进。首先在编码端将增加一种语音判决,即过渡段。将清音误判为浊音处理,对合成语音质量影响不大,反之将浊音判为清音处理,音质变差,因此采取自适应窗提取过渡段线性预测系数,使其提取的预测系数包含更多的浊音信息。其次在提取基音周期时,对输入的语音信号进行上采样,因为上采样可以使数字信号更接近于原始模拟信号,使提取基音周期能更准确,因此能提高合成语音质量。测试结果表明基音周期和过渡段线性预测分析的改进使MELP标准算法的PESQ值提升了0.061。(本文来源于《西安电子科技大学》期刊2014-12-01）

龚柱^[7]（2014）在《基于码激励线性预测的低速率语音编码算法的设计和实现》一文中研究指出语音是人类交流信息最自然、最有效、最方便的手段,因此大多数通信系统都要包含语音传输的功能。近几十年来,随着信息社会和通信技术的飞速发展,所需传输的数据量呈几何倍数的增长,频率资源因此也变得愈发重要。但是,如何在尽可能低的编码速率上更加有效的对语音信息进行编码传输,同时获得更好的语音质量,长期以来没能得到很好的解决。码激励线性预测(CELP)编码算法具有高质量的合成语音及优良的抗噪声和多次转接性能,如果能够在保证合成语音质量的前提下,进一步降低其编码速率,在实际应用中必然有很大的价值,因此对CELP算法的研究工作是十分有意义的。本文围绕如何在保证语音质量基本不变的情况下进一步降低CELP的编码速率而展开,并在美国联邦标准FED-STD-1016算法的基础上进行了一系列的研究和实验。最终,提出了一种降低编码速率的方案,并进行了实现。本文所取得的研究成果有:1.研究帧长和子帧数的改变对于合成语音质量的影响。首先,通过理论上的分析,论证了帧长和子帧数的改变可以调整语音编码速率。接着,通过大量的实验,验证该方案的正确性。最后,在FED-STD-1016算法的基础上,实现通过帧长和子帧数的改变来调整编码速率的方案。测试结果表明,合成语音比较清晰、自然,验证了算法的可行性。2.改进LSF参数的量化方式。美国联邦标准的FED-STD-1016算法对线性预测的10个LSF参数采用独立、非均匀的标量量化方式,总共用34个比特进行编码传输,约占了总编码比特数的1/4,所占用的比特数较多。本文采用矢量量化方式对LSF参数进行量化编码,可以用十几个比特来表征LSF参数,节约了编码所需的比特数,从而降低编码速率,提高算法的运行效率。3.完成低速率语音编码方案的设计和实现。完整的低速率语音编码方案,结合了帧长和子帧数的改变以及改进LSF参数的量化方式。通过适当的调整帧长和子帧数,同时对LSF参数分配合理的量化比特数,可以实现多种编码速率方案。本文实现的编码速率有:4kb/s,3.6kb/s和3.2kb/s。经过客观测试和主观试听,叁种速率下的合成语音均具有良好的可懂度和自然度,语音质量达到了预期的目标。4.算法的定点化。算法的仿真是用浮点程序进行实现的,但算法最终需要应用到实际中去,因此需要对算法进行定点化,为后续的DSP平台移植工作做好准备。本文实现了算法的定点化。在定点化过程中,本文对原始的算法进行了一些优化和改进,进一步提升了算法的运行效率。最后,将定点化程序的结果与浮点程序的结果进行了对比,一方面对定点化的正确性进行了验证,另一方面也对本文设计的低速率编码算法进行了验证。(本文来源于《西安电子科技大学》期刊2014-12-01）

刘斌,陶建华,莫福源^[8]（2013）在《面向窄带通信的极低速率语音编码算法研究》一文中研究指出提出了一种面向窄带通信的极低速率参数语音编码算法。在2.4kbps MELP标准的基础上结合听觉感知,对线谱对参数进行联合矢量量化、对基音周期进行内插和非线性量化、对能量参数进行高效压缩,可以使语音数据在0.5kbps下匀速传输;线谱对参数的预测残差用于矢量量化,这是一种提高合成语音的音质的有效方法。实验结果表明,采用本文提出的语音编码算法可以使语音数据在极低码率下有效的传输,解码端合成的语音具有较高的可懂度。(本文来源于《信号处理》期刊2013年09期）

肖东,莫福源,陈庚,郭圣明,马力^[9]（2013）在《水声通信中低码速率语音编码算法的研究》一文中研究指出中远距离(>10 km)水声语音通信时,由于可利用带宽窄、复杂多变等不利因素对信息传输率的制约,语音编码速率应降到尽可能的低。利用水声信道传播时延大的特点,结合人耳听觉感知的特性,在深入研究混合激励线性预测编码(MELP)标准之后,提出一种语音编码速率可调节的变比特率语音编码算法。其平均码速率约600 bps,主观语音质量评估平均得分(PESQ MOS)约2.8分。对该编码算法性能进行了计算机仿真和海上实验验证。实验及仿真表明,在误码率不高于10~(-3)时,本算法表现良好且稳定,合成语音清晰可懂,易于辨认说话人。(本文来源于《声学学报》期刊2013年05期）

李松斌,黄永峰,卢记仓^[10]（2013）在《基于统计模型及SVM的低速率语音编码QIM隐写检测》一文中研究指出QIM(Quantization Index Modulation,量化索引调制)隐写在标量或矢量量化时嵌入机密信息,可在语音压缩编码过程中进行高隐蔽性的信息隐藏,文中试图对该种隐写进行检测.文中发现该种隐写将导致压缩语音流中的音素分布特性发生改变,提出了音素向量空间模型和音素状态转移模型对音素分布特性进行了量化表示.基于所得量化特征并结合SVM(Support Vector Machine,支持向量机)构建了隐写检测器.针对典型的低速率语音编码标准G.729以及G.723.1的实验表明,文中方法性能远优于现有检测方法,实现了对QIM隐写的快速准确检测.(本文来源于《计算机学报》期刊2013年06期）

低速率语音编码论文开题报告

（1）论文研究背景及目的

此处内容要求：

首先简单简介论文所研究问题的基本概念和背景，再而简单明了地指出论文所要研究解决的具体问题，并提出你的论文准备的观点或解决方法。

写法范例：

信息隐藏是保证信息传输安全的重要手段。针对VOIP系统中低速率语音编码在信息隐藏时最低有效位难以确定的问题,利用遗传算法GA(Genetic Algorithm)作为优化工具,以客观的语音质量评价标准和信息隐藏容量为依据构建遗传算法目标函数,提出一种能够挖掘低速率语音编码最低有效位的新方法。以G.729a语音编码为例进行实验测试,测试结果表明,该方法在给定的语音质量下,以隐藏容量最大为目标可以精确搜索到所有最低有效位。最后通过在语音帧的最低有效位上进行机密信息的隐秘传输验证信息隐藏技术的可行性。

（2）本文研究方法

调查法：该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法：用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法：通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法：通过调查文献来获得资料，从而全面的、正确的了解掌握研究方法。

实证研究法：依据现有的科学理论和实践的需要提出设计。

定性分析法：对研究对象进行“质”的方面的研究，这个方法需要计算的数据较少。

定量分析法：通过具体的数字，使人们对研究对象的认识进一步精确化。

跨学科研究法：运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法：这是社会科学用来分析社会现象的一种方法，从某一功能出发研究多个方面的影响。

模拟法：通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

低速率语音编码论文参考文献

[1].赵月娇.基于深度学习提高低速率语音编码质量方法研究[D].西安电子科技大学.2017

[2].吴秋玲,吴蒙.一种挖掘低速率语音编码最低有效位的新方法[J].计算机应用与软件.2016

[3].周航麒.基于iLBC扩展的多速率语音编码算法研究[D].湖北工业大学.2016

[4].何伟俊.基于感知的低速率语音编码算法研究[D].华南理工大学.2016

[5].刘锋.紫外光通信系统中低速率语音编码技术研究[D].重庆大学.2016

[6].张建利.甚低速率语音编码算法研究[D].西安电子科技大学.2014

[7].龚柱.基于码激励线性预测的低速率语音编码算法的设计和实现[D].西安电子科技大学.2014

[8].刘斌,陶建华,莫福源.面向窄带通信的极低速率语音编码算法研究[J].信号处理.2013

[9].肖东,莫福源,陈庚,郭圣明,马力.水声通信中低码速率语音编码算法的研究[J].声学学报.2013

[10].李松斌,黄永峰,卢记仓.基于统计模型及SVM的低速率语音编码QIM隐写检测[J].计算机学报.2013

论文知识图

标签：语音论文; 速率论文; 矢量论文; 听觉论文; 线性论文; 算法论文; 音素论文;

低速率语音编码论文_赵月娇

低速率语音编码论文文献综述

低速率语音编码论文开题报告

低速率语音编码论文参考文献

论文知识图

猜你喜欢