您的当前位置:首页正文

谱减法语音增强

2021-09-11 来源:独旅网
Value Engineering ・47・ 谱减法语音增强 Speech Enhancement Method Using Spectral Subtraction 郭欢Guo Huan (空军航空大学基础部,长春130022) (Basic Course Department of Air Force s Aviation s University,Changchun 130022,China) 摘要:本文就语音信号及各噪声信号的特点进行了分析研究,提出了一种具有高稳定性且适用范围广的语音信号增强算法,并更进一步提 出一种采用谱减法的语音增强方法。 三 二 Abstract:The study of characteristics of speech signal and noise signal analysis have suggested a high—integrity and a broad scope of speech signals and algorithms.The paper further brings forward a range of speech enhancement method using spectral subtraction. 关键词:语音信号处理;谱减法;语音增强 Key words:speech signal processing;spectral subtraction;speech enhancement 中图分类号:TN912 文献标识码:A 文章编号:1006—4311(2010)06—0047—02 0引言 些可以通过变换而转变为加性噪声。例如,乘性噪声f或卷积噪声)=-3- 语音增强的一个主要目标是从带噪语音信号中提取尽可能纯 以通过同态变换,而成为加性噪声。又如,某些与信号相关的量化噪 净的原始语音。然而,由于干扰通常都是随机的,从带噪语音中提取 声可以通过伪随机噪声扰动的方法变换成与信号独立的加性噪声。 完全纯净的语音几乎不可能。在这种情况下,语音增强的目的主要 这里仅讨论加性噪声。加性噪声大致上有:周期性噪声、脉冲噪声、 有两个一是改进语音质量,消除背景噪声,使听者乐于接受,不感 宽带噪声和同声道其他语音的干扰等。 觉疲劳,这是一种主观度量;二是提高语音可懂度,这是一种客观度 1.1周期性噪声:其特点是具有许多离散的线谱。主要来源于 量。这两个目的往往不能兼得。之前有一些对低信噪比带噪语音进 发动机等周期性运转的机械。电气干扰,特别是电源交流声,也会引 行语音增强的方法,可以显著地降低背景噪声,改进语音质量,但并 起周期性噪声。显然,这种周期性噪声可以用梳状滤波器予以抑制, 不能提高语音的可懂度,甚至略有下降。 这可以用数字信号处理的方法来实现。如图1所示,图中DFT和 环境噪声污染使许多语音处理系统的性能急剧恶化。例如,语 IDFT分别为离散傅里叶变换和反变换,其原理是一目了然的。 音识别已取得重大进展,正在步入实用阶段。但目前的识别系统大 r————]r——————]r————1 都是在安静环境中工作的,在噪声环境中尤其是强噪声环境,语音 带噪语 L—————_-JDFr I—上塑堂壁 l —I—DF一T 一 +增强语音 识别系统的识别率将受到严重影响。低速率语音编码,特别是参数 图1语音增强过程图 编码(声码器即为典型一例),也遇到类似问题。由于语音生成模型是 然而,实际环境中产生的周期性噪声并非简单地只含线谱分 低速率参数编码的基础,当模型参数的提取受到混杂在语音中背景 量,而是由许多窄谱带组成。而且,往往是时变的,并与语音信号频 噪声严重干扰时,重建语音的质量将急剧恶化,甚至变得完全不可 谱重叠,必须采用自适应滤波的方法才有可能自动识别和区分噪声 懂。在上述情况下,语音增强作为一种预处理手段,不失为解决噪声 分量。 污染的~种有效途径。 1.2脉冲噪声:脉冲噪声表现为时域波形中突然出现的窄脉 l噪声特性 冲。它来源于爆炸、撞击和放电等。消除脉冲噪声通常可以在时域内 噪声来源取决于实际的应用环境,因而噪声特性可以说是变化 进行,其过程如下:根据带噪语音信号幅度的平均值确定闭值。当信 无穷。噪声可以是加性的,也可以是非加性的。对于非加性噪声,有 号幅度超出这一闭值时,判别为脉;中噪声。然后对它进行适当的衰 7Occ条件下不同酶量(L)的破胶曲线 和支撑 剂孔隙渗透 4生物酶破胶剂与氧化剂对比 压 率的降 低。利用岩 常用的氧化破胶剂有过硫酸钾和过硫酸铵等。氧化破胶剂在高 刨1 芯实验 我们室内测 温下与压裂液反应迅速,使压裂液提前降解而失去输送支撑剂的能 蜒 试了压 裂液酶法破 力,甚至导致压裂施工失败;它属于非特殊性反应物,能和遇到的任 幽 胶后岩 芯渗透率变 何反应物如管材、地层基质和烃类等发生反应,生成与地层不配伍 化,与 常规破胶剂 的污染物,造成地层伤害;氧化破胶剂很可能在达到目的裂缝前就 相比, 生物破胶酶 消失耗尽了,因此达不到破胶的目的。生物酶破胶剂对瓜胶及其衍 能将渗 透率提高近 生物破胶,主要是通过催化瓜胶表面特定键使其裂解,最终将破胶 一倍, 也说明了压 残渣液中的聚合大分子物质变成简单的不可还原的单糖,使得压裂 裂液对 地层的伤害 液残渣液能从支撑剂充填中更稳定地返排出来,减少聚合物伤害, 程度。 提高采油增产效率。 3 石油压裂液 5现场应用效果 生物破 胶的应用工 树67—11和树81—33开展了石油压裂液生物破胶现场试验,共 时间(分钟) 乙 压裂8层,累计注入压裂液814.91m ,注入生物酶浓度50ppm,扩散 图6 为了设计生物 40分钟开始返排,共返排426m ,返排率达到52.28%,比不用生物 破胶剂的使用方法,测试了加有破胶剂的压裂液分别置于3O℃、 酶的43.57%平均返排率高出8.71%,两口井初期日捞液5t,目前日 40℃、60℃的恒温水浴中,观察破胶现象,结果显示,生物破胶剂在 捞液1.3t,从返排量和破胶液粘度看,返排比较彻底,破胶也很彻 低于40℃时在几个小时内不会使压裂液粘度降低,在60。C可在30 底,取得了较好的压裂效果。 分钟内将压裂液粘度降至10厘泊以下;并且生物破胶剂可提高破 6认识 胶性能。 针对榆树林油田压裂液配方体系,利用我国独特的极端微生物 根据本生物破胶剂在常温下活性很低的特性,设计生物破胶剂 资源,配制了适用于榆树林油田的石油压裂液的生物破胶剂,该生 的使用方法为从加砂开始,将一定量的生物破胶剂(携砂液量的十 物破胶剂可使瓜尔胶、田青胶、魔芋胶、胡麻胶、香豆胶等植物胶降 万分之六)和携砂液混合,之后压入地层;或先与交联剂混合,之后 粘,破胶后压裂液残渣相对较少,对岩芯伤害率明显低于化学破胶 再与基液混合,压入地层。其他工序不变。 的伤害率,取得了非常满意的压裂效果。 ・48・ 价值工程 上 减,甚至完全消除。也可以根据相邻信号样值通过内插的方法将脉 fs(w)『_[iY(w) iN(w)f 2】。 (8) 冲噪声在时域上进行平滑。 根据人耳对相位变化的不敏感这一特点,可以用原带噪语音信 1.3背景噪声对发音的影响:噪声破环了语音信号原有的声学 从而可以得 特征和模型参数,模糊了不同语音之间的差别,使语音质量下降,可 号y(t)的相位谱来代替估计之后的语音信号的相位谱,储度降低,强噪声会使人产生听觉疲劳。不仅如此,强噪声环境还对 到降噪后的语音时域信号。基本谱减法的原理图如5图所示 噪声 讲话人产生影响,使讲话人改变在安静环境或低噪声环境中的发音 带噪 方差 方式,从而改变了语音的特征参数,这称为Lombard效应,它对语音 语音 识别系统有很大影响。 1.4同声道语音干扰:人耳可以在两人以上讲话环境中分辨出 所需要的声音,这种分辨能力是人体内部语音理解机理具有的一种 增强 感知能力。人类的这种分离语音的能力称为“鸡尾酒会效应”,这种 语音 能力来源于人的双耳输入效应。但当多个语音叠合在一起,在单信 图5谮减法原理框图 道中传输时,双耳信号因合并而消失。如同人的指纹那样,每个人因 3改进的谱减法 发音系统生理构造的差异,也有不同的“声纹”,这种“声纹”在于他 由于假设加性噪声是零均值的高斯分布的,才有式(4)相关项 们的语音生成模型参数不同。同声道语音干扰及其传输和增强过程 等于0。但是这个假设在现实世界中并不总是正确的,因为噪声通 的示意如图2所示。 常不可能是零均值的高斯分布的,噪声可能是非零均值的,也可能 是非高斯分布的。在此时,这个非零项就不能被忽略,尤其是在低信 噪比时更不能被忽略。本文提出的近似估计此非零项的方法如下: 首先: 图2语音增强过程示意图 t/e[S(W)N (W)1=IS(W)IIN(W)Icos(Os-ON) (9) 其中S(W)=IS(W)lexp(j0s), N(W)=IN(W)Icos(Os-O ),所以有: E(1 ̄e{S(W)N (W)1)=E(IS(w)IIN(W)leos(0 eN)) (1 o) 假设IS(w)l、1N(w)I和C0¥(0 0 )是相互独立的,所以有: E=(Re{S(W)N (W)1)=E(Is(W)I)E(IN(W)1)E(CO¥(0 一0 }) (11) 1.5宽带噪声:宽带噪声的来源很多,热噪声、气流(如风、呼吸) 噪声及各种随机噪声源,量化噪声也可视为宽带噪声。由于宽带噪 声与语音信号在时域和频域上完全重叠,因而消除它最为困难。这 种噪声只有在语音间歇期才单独存在。对于平稳的宽带噪声通常可 以认为是白色高斯噪声。不具有白色频谱的噪声,可以先进行白化 处理。对于非平稳的宽带噪声,情况就更为复杂一些。 下面列举几种噪声波形图: = 由于不等式E(xz)≥【E(X)] 成立,所以有: E(IS(W)I):0【[EIS(W)I 和E(IN(W)f):p[EIN(w) ‘ (12) 其中0≤ ,B≤l,所以(11)变为: EfRe{S(W)N (W)})= pE(COS(0s-0 )):[EfIS(w)J )E(IN(w)12)】 } [E(IS(W)I )E(IN(w) I)] (13) 其中设 : pE((CO8(0s-0 )),故0≤ ≤1。所以(8)变为:E(IY 图3白噪声波形图 图4冲击噪声波形圈 2基本谱减算法 (W)f。):E(IS(W)『2)+E(IN(W)『2)+2 [E(IS(W)I )E(IN(W】i。)】 (14) 对一个分析帧内的短时平稳过程,有:IY(W)12=1S(w)12+IN(w)12+ 牟 基本谱减算法的思想是假设在加性噪声与短时平稳的语音信 2X[IS(w)FIN(W) Iz] (15) 号相互独立的条件下,从带噪语音的功率谱中减去噪声功率谱,从 由上式得 IS(w)12=ly(W)J2-(1—2 )IN(W)t2-2X[IY(w)f2_(1.. )lN 而得到较为纯净的语音频谱。 上 I4] (16) 如果设s(t)为纯净语音信号,n(t)为噪声信号,Y(t)为带噪语音 (w)从原带噪语音信号y(t)可以求得功率谱IY(W)l:通过发声前的 信号,则有: Y(t)=s(t)+n(t) 【1) “寂静段”可以估计噪声rl(t)的功率谱参数,取【0,1】之间的某个值 则根据式(16)就可以求得IS 用Y(W)、S(W)、N(W)分别表示Y(t)、S(t)、n(t)的傅立叶变换。 (不同语音帧可以取相同或不同的值)(W)Iz进而可以得到原始语音的估计值lS(W)I从而就可以得到降噪 则可得: Y(W):S(W)+N(W) (2) 后的语音时域信号。参数 根据实验结果来确定,可根据噪声的大 小来动态地确定它的大小,以获得最好的增强效果。 由此可得: 基本谱减算法能大大地消除背景噪声,提高语音信号的信噪 E(IY(W)l )=E(IS(W)I。)+E(IN(W) l)+2E{Re[S(W)N (W)]} (4) 比。实验结果表明这种改进的谱减法有效地提高了增强效果,更好 由于S(t)和n(t)独立,所以S(W)与N(w)也独立。而N(w)为零 地抑制了噪声,提高了语音质量。语音增强将越来越广泛的应用于 人们的生活中,所以本课题具有实际应用的意义。 均值得高斯分布,故E{Re[S(W)N (W)]l=0。所以有: E(IY(w)I )=E(IS(W)J )+E(IN(w)J:) 对一个分析帧内得短时平稳过程,有 (5) 参考文献: IY(W)IZ=lS(W) I+IN(W)。1+2Re[S(W)N (W)1 由上式可得: (3) 4结论 有变化,这样可以通过发音前所谓“寂静段”(认为在这~段里没 1995,6. 有语音只有噪声,一般为带噪语音的前3~4帧)来估计噪声的功率 【4]易克初,田赋,付强.语音信号处理 】.北京:国防工业出版社, 谱IN(w) ,从而有: 2O00,5. IS(W) I=IY(w)I 一IN(W) I (7) [1】【美]Thomas F.Quatieri.离散时间语音信号处理一原理与应用【M1.北京: 2004. IY(W)12=1S(w)21+IN(w) j (6) 电子工业出版社,[2]赵力.语音信号处理[M】.北京:机械工业出版社,2003,4. 由于平稳噪声的功率谱在发音前和发音期间可以认为基本没 [3]杨形峻,迟惠生.语音信号数字处理【M】.北京:电子工业出版社, [5]Tomas W Parsons.Voice and Speech Processing【M】.New York:I ̄tegmw- Hill,1986,2. 由此达到原始语音的估计值: 

因篇幅问题不能全部显示,请点此查看更多更全内容