風噪的特性和影響
風噪聲,專業名稱為空氣動力噪聲,是由流場中運動的物體與物體之間的作用產生,或者是由流體自身的湍流運動導致的流體之間的相互作用產生[1]。不同的場景下風噪聲的產生機理是不同的。日常生活中主要有兩個場景受風噪聲影響嚴重,一是戶外聲頻采集,二是高速行駛的汽車車廂內,此外超高速飛行器和風洞設備也會受到風噪聲的影響。由于篇幅限制本文著重關注聲頻采集尤其是語音采集中的風噪問題及其抑制技術。
圖1 風噪形成原理示意圖[2]
聲頻采集場景中的風噪聲主要由傳聲器膜附近的湍流氣流引起,使傳聲器產生相對較高的信號電平。風噪聲主要發生在低頻0~500Hz范圍內,向高頻迅速衰減[3]。突發的陣風常常引起持續時間為幾到幾百毫秒的風噪。并且由于陣風的突發性,風噪聲可能會產生超過標稱語音振幅的高幅值[4],因此風噪聲具有顯著的非平穩特性。
圖2 典型風噪聲的聲譜圖和波形[2]
風噪聲會對聲頻信號造成嚴重的破壞。如表1所示,無論是手持姿勢(HHP)還是免提姿勢(HFP),風噪聲均會顯著降低語音信號的信噪比,信噪比最差低于-20dB。同時風噪聲的出現也會明顯降低語音的質量(PESQ)和可懂度(STOI),因此要提高聲頻采集質量必須對風噪進行抑制。
表1 不同強度的風噪聲對語音信號質量的影響[4]
風噪抑制技術
聲學方法
防風罩 常見于手持式傳聲器以及專業槍式傳聲器。有海綿、人造毛皮、鐵網等多種材料。原理主要是降低傳聲器振膜附近的空氣流速,打散氣流減小湍流的產生,作用等效于聲學低通濾波器。
圖3 不同種類的防風罩(圖片來自網絡)
在TWS耳機上,也應用防風罩來抑制風噪聲。其最大的優勢在于簡單和可靠性高,不足之處在于防風罩需要增大尺寸來提升降噪量,而像手機、TWS耳機等小型設備,防風罩的效果非常有限。
圖4 TWS耳機上的防風罩(圖片來自網絡)
抗風噪導管 華為FreeBuds Pro采用了一種獨特的抗風噪導管設計,傳聲器的外側由一條縫隙前后聯通,聲音將從這里進入耳機抵達傳聲器。從側面吹來的風會被外壁阻擋,而前后吹來的風并不會被阻擋,也會從縫隙進入,但是由于氣體的康達效應,大部分的氣流不會流向傳聲器,而是沿著縫隙的內壁移動。這種“以疏代堵”的方法,為風噪抑制提供了新的思路。
圖5 抗風噪導管剖面圖(圖片來自網絡)
加速度計拾音 聲音本質是振動,因此可以通過加速度計采集在固體中傳播的聲音。為語音拾音設計的骨導傳感器VPU(Voice Pick Up),本質也是一種高性能加速度計,可通過采集人下頜骨的振動信號來拾取語音。由于風噪只存在于氣導聲中,骨導聲不受影響,因此在拾取語音時骨導傳感器可以直接規避風噪問題。目前已有多款TWS耳機搭載骨導傳感器,與MEMS傳聲器配合使用。
圖6 骨導和氣導聲傳播示意圖(圖片來自網絡)
信號處理方法
只應用聲學方法通常不能很好地解決風噪問題,因此人們也嘗試通過信號處理方法抑制風噪。信號處理中傳統的降噪方法主要有維納濾波[6]和譜減法[7],但是這兩種方法建立在噪聲平穩或準平穩假設之上,無法很好的抑制風噪聲。信號處理風噪抑制框架如下圖所示。
圖7 信號處理風噪抑制框架[2]
從框圖中可以看出,風噪抑制算法的研究可以從風噪估計/信噪比估計、增益估計、多通道方法和語音合成四個方面展開。下文中使用λ表示時間窗,μ表示頻率。
風噪聲估計
要想有效抑制風噪這種強非平穩性的噪聲,關鍵在于準確估計噪聲的短時功率譜(STPS)[2]。因此第一步通常是對輸入的帶噪信號做STFT變換,將信號轉換到STFT域X(λ,μ)。然后進行進一步的處理。
形態學方法 形態學方法[8]將帶噪信號的聲譜圖看成圖像,其中語音成分通常有明顯的諧波結構,而風噪的影響可以看作語音諧波結 構中的連接部分。形態學方法的目標就是估計出聲譜圖中的風噪掩膜。
算法首先根據設定的閾值篩選出聲譜圖中的高能量部分并計算其關于時間的偏導 ,
然后計算聲譜圖的上升沿 ,
再計算起點 ,
最后根據經驗選擇的閾值通過比較 中的信號能量確定完整的風噪掩膜 。這一方法的缺點是低頻的語音信號可能會包含進風噪掩膜中被濾除。
圖8 形態學方法估計風噪掩膜步驟[2]
噪聲模板方法 該方法的基本思想是將風噪的聲譜圖分解為譜包絡和精細結構,倒譜分析可以實現這個目的。首先計算帶噪信號的倒譜系數。
保留帶噪信號倒譜的高階系數,處理低階系數。將低階系數變換回STFT域生成譜包絡。
將譜包絡與預先訓練好的風噪聲參考譜包絡模板 進行比較,取平方和誤差最小的模板 計算低階倒譜系數來替換帶噪信號的低階倒譜系數,并與帶噪信號的高階倒譜系數組合,經逆倒譜運算即可得到風噪短時功率譜的估計。
圖9 噪聲模板方法[2]
譜質心方法 譜質心是信號能量關于頻率的一階矩,可以反映信號主要能量的頻率分布。譜質心方法的核心思想是通過譜質心和其他信號特征分析帶噪信號的組成成分,先對信號進行分類,然后進一步決定風噪STPS的估計策略。
計算譜質心 可以將帶噪信號分為三類[10]:純風噪( <200Hz)、風噪語音混合信號(200Hz< <550Hz)、純語音( >550Hz)。
圖10 不同信噪比下譜質心的差異[2]
通過譜質心和短時平均等特征對輸入帶噪信號進行三分類。第一步判斷是否為純語音,若為純語音則該時頻窗風噪的STPS為零。第二步判斷是否為純風噪,若為純風噪則風噪的STPS就等于輸入信號的STPS。若信號被判斷為語音和風噪的混合信號,則進行進一步的風噪估計,方法包括最小擬合估計法[10]和自適應音高估計法[11]等。
圖11 譜質心方法流程圖[2]
深度學習方法 風噪聲可以通過深度神經網絡來估計,[12]提出通過前向深度神經網絡(FNN)來估計風噪聲的幅度譜。方法是先估計語音信號和風噪聲的理想幅值掩膜(IAM) 和 ,然后從帶噪信號中分離出語音成分和風噪成分。
使用兩個FNN分別估計 和 ,如下式所示, 和 表示網絡參數。神經網絡的訓練使用[13]中方法使估計的信號和風噪聲幅度譜與目標幅度譜的均方誤差最小。
圖12 深度學習方法流程圖[12]
增益估計
如圖7所示,基于頻譜濾波的風噪抑制方法重點是求解增益。傳統方法如維納濾波法和譜減法不能取得很好的效果,下面總結幾種增益的求解算法。
決策導向信噪比估計 該方法[14]在維納濾波的框架下提出了一種更新先驗信噪比 的方法求解增益 。
風噪抑制系統的后驗信噪比估計 可由下式得到。該方法可以提升被增強語音的主觀質量,尤其是減少“musical tones”。
遞歸增益的譜減法 該方法[8]的目的是為了避免單個離群值對增益計算造成的影響。因此引入一種使用前一時頻塊增益的回歸運算來計算當前時頻塊的增益。
軟可聽噪聲掩膜法 該方法[15]的基本想法是根據心理聲學模型在噪聲抑制和引入失真之間尋找平衡,即令下式最小。
其中 是根據心理聲學模型計算得到的掩膜閾值。由上式推導可得增益估計值如下,參數α可設經驗值1。
多傳聲器風噪抑制技術
當前最新的智能手機和TWS耳機配備有2個或更多的傳聲器。因此可以考慮基于雙傳聲器的風噪抑制方法。
相關加權方法 該方法[16]的思想就是利用語音和風噪的相關性差異,使用幅度平方相關(MSC) 來計算增益,
差分陣列方法 該方法[17]利用了傳聲器陣列對于不相關噪聲(如風噪聲)比較敏感的特點來降風噪,引入功率比的概念,
其中 和 定義如下,
功率比可以有效分離語音和風噪,如下圖所示。從圖中可以看出,當傳聲器間距較小時( )功率比可以較好的分離風噪聲和語音。增益函數通過計算純凈語音功率比和帶噪信號功率比的比值確定。
圖13 風噪聲和語音功率比[2]
復相關風噪估計方法 根據[18],假設傳聲器x和y處的風噪不相關且能量相當,傳遞函數也相似,則可以得到如下關系,
于是風噪聲的功率譜密度可以用下式來估計,
在信號DOA已知的情況下引入復相關的相位信息 [19],
對于相關的語音信號, ;而對于不相關的風噪聲, 呈現均勻分布。
圖14 語音與風噪聲復相關的相位信息分布[2]
風噪聲的STPS估計由下式給出。
部分語音合成
實現風噪場景下的語音增強,除了通過抑制風噪,還可以通過部分語音合成的方式。稱其為部分語音合成是因為算法保留了原始帶噪信號中的不受風噪影響的高頻語音(主要為清音),只合成受風噪聲影響嚴重的低頻語音(主要為濁音)。實現方法如下圖所示,系統可以在抑制風噪的同時合成語音,二者結合生成對語音信號的估計。
圖15 結合語音生成的風噪抑制框架[2]
基于重建的部分語音合成 該方法[20]的基本思想是關注被風噪破壞的低頻語音部分,將問題轉化為帶限語音的增強問題。語音生成部分采用線性預測編碼(LPC)實現。帶噪語音信號通過截止頻率 的高通濾波器保留未被風噪影響的高頻部分,濾波器截至頻率由下式給出。
純風噪上限頻率 和語音重構上限頻率 可根據經驗取值(100Hz和1500Hz)。原始信號中包含風噪聲的低頻部分由人工合成的語音替代。
圖16 基于重建的部分語音合成框圖[2]
基于語料庫的部分語音合成 與基于重建的部分語音合成相比,該方法的主要區別是引入了預先訓練好的語音信息,方法的流程圖如下圖所示。方法的主體部分由三部分構成,一是語音合成,不同點在于該方法的激勵信號通過音高模板循環(TPC)生成,聲道濾波器系數通過比較特征向量的相似程度在預先訓練好的字典中尋找合適的系數。二是計算用于結合風噪估計和語音合成的二值掩膜,三是使用傳統噪聲抑制手段抑制殘留噪聲,具體實現方案參見[21]。
圖17 基于語料庫的部分語音合成框圖[2]
展望
到目前為止,人們從多個角度出發,想出了多種抑制風噪的方案并取得了巨大的進展,但距離完全解決聲頻采集中的風噪問題仍有很長的路要走。例如在大風噪情況(SNR<-10dB)時語音增強算法失效問題,實時風噪抑制問題等還沒有得到很好的解決。作為聲學領域最具挑戰的課題之一,風噪問題還需要更多能人志士投身其中,繼續研究。
參考文獻
[1] 戈爾茨坦. 氣動聲學[M]. 國防工業出版社, 2014.
[2] Nelke C M. Wind Noise Reduction: Signal Processing Concepts[D].2016.
[3] Fisol U M M, Ripin Z M, Ismail N A, et al. Wind noise analysis of atwo-way radio[C]. 2013 IEEE International Conference on Smart Instrumentation,Measurement and Applications (ICSIMA). 1–5.
[4] Nemer E, Leblanc W. Single-microphone wind noise reduction byadaptive postfiltering[C]. 2009 IEEE Workshop on Applications of SignalProcessing to Audio and Acoustics. : 177–180.
[5] Nelke C M, Vary P. Measurement, analysis and simulation of windnoise signals for mobile communication devices[C]. 2014 14th InternationalWorkshop on Acoustic Signal Enhancement (IWAENC). 327–331.
[6] LIM J S,OPPENHEIM A V. Enhancement and bandwidth compression of noisy speech[J].Proceedings of the IEEE, 1979, 67(12): 1586–1604.
[7] BOLL S.Suppression of acoustic noise in speech using spectral subtraction[J]. IEEETransactions on Acoustics, Speech, and Signal Processing, 1979, 27(2): 113–120.
[8] Hofmann C,Wolff T, Buck M, et al. A Morphological Approach to Single-Channel Wind-NoiseSuppression[C]. IWAENC 2012; International Workshop on Acoustic SignalEnhancement. 1–4.
[9] Kuroiwa S, Mori Y, Tsuge S, et al. Wind noise reduction method forspeech recording using multiple noise templates and observed spectrum finestructure[C]. 2006 International Conference on Communication Technology. 1–5.
[10] Nelke CM, Chatlani N, Beaugeant C, et al. Single microphone wind noise PSD estimationusing signal centroids[C]. 2014 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP). 7063–7067.
[11] Nelke CM, Vary P. Wind noise short term power spectrum estimation using pitch adaptiveinverse binary masks[C]. 2015 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP). 5068–5072.
[12] Bai H, GeF, Yan Y. DNN-based speech enhancement using soft audible noise masking forwind noise reduction[J]. China Communications, 2018, 15(9): 235–243.
[13] Wang Y,Narayanan A, Wang D. On Training Targets for Supervised Speech Separation[J].IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2014, 22(12):1849–1858.
[14] Ephraim Y, Malah D. Speech enhancement using a minimum-mean squareerror short-time spectral amplitude estimator[J]. IEEE Transactions onAcoustics, Speech, and Signal Processing, 1984, 32(6): 1109–1121.
[15] Yu R. Speech enhancement based on soft audible noise masking andnoise power estimation[J]. Speech Communication, 2013, 55(10): 964–974.
[16] Franz S,Bitzer J. Multi-channel algorithms for wind noise reduction and signalcompensation in binaural hearing aids[C]. IWAENC 2010; International Workshopon Acoustic Echo and Noise Control. Tel Aviv, Israel.
[17] ELKO G W.Reducing Noise in Audio Systems: USA, US7171008 B2[P]. 2007-01-30.
[18] Dörbecker M, Ernst S. Combination ofTwo-Channel Spectral Subtraction and Adaptive Wiener Post-Filtering for NoiseReduction and Dereverberation[C]. European Signal Processing Conference(EUSIPCO). Trieste, Italy.
[19] Nelke CM, Vary P. Dual Microphone Wind Noise Reduction by Exploiting the ComplexCoherence[C]. Speech Communication; 11. ITG Symposium. Erlangen, Germany.
[20] Nelke CM, Nawroth N, Jeub M, et al. Single microphone wind noise reduction usingtechniques of artificial bandwidth extension[C]. 2012 Proceedings of the 20thEuropean Signal Processing Conference (EUSIPCO). Bucharest, Romania: IEEE.
[21] Nelke CM, Naylor P A, Vary P. Corpus based reconstruction of speech degraded by windnoise[C]. 2015 23rd European Signal Processing Conference (EUSIPCO). Nice:IEEE: 864–868.
|