語音信號(hào)作為人類信息交互的核心載體,在實(shí)際采集與傳輸過程中常受到環(huán)境噪聲干擾,導(dǎo)致可懂度下降、聽覺舒適性降低。噪聲抑制旨在從帶噪語音中提取純凈語音,而聲品質(zhì)分析則聚焦于人耳對(duì)語音主觀感知質(zhì)量的量化評(píng)價(jià)。本文系統(tǒng)闡述了噪聲抑制的主流技術(shù)(傳統(tǒng)方法與深度學(xué)習(xí)方法)、聲品質(zhì)的關(guān)鍵評(píng)價(jià)指標(biāo)及分析方法,并探討了兩者的關(guān)聯(lián)機(jī)制,為語音通信、智能交互等場景中的語音質(zhì)量優(yōu)化提供理論與技術(shù)參考。
1. 引言
語音信號(hào)在真實(shí)場景(如車載通話、會(huì)議錄音、智能語音助手交互)中不可避免地混入背景噪聲(如交通噪聲、人聲嘈雜、電子干擾),這些噪聲不僅掩蓋語音細(xì)節(jié)(如輔音的高頻成分),還可能引入非線性失真(如嘯叫、混響),嚴(yán)重影響語音的可懂度(Intelligibility)與聽感質(zhì)量(Quality)。噪聲抑制(Noise Suppression)通過信號(hào)處理技術(shù)分離語音與噪聲,而聲品質(zhì)分析(Speech Quality Assessment)則從人耳感知角度量化語音的“好聽程度”。兩者相輔相成:噪聲抑制是提升聲品質(zhì)的手段,聲品質(zhì)分析則為抑制算法的效果評(píng)估提供依據(jù)。
2. 語音信號(hào)的噪聲抑制技術(shù)
2.1 噪聲特性與抑制目標(biāo)
環(huán)境噪聲可分為穩(wěn)態(tài)噪聲(如空調(diào)嗡嗡聲、白噪聲,頻譜特性穩(wěn)定)與非穩(wěn)態(tài)噪聲(如突發(fā)的人聲、車輛鳴笛,頻譜隨時(shí)間變化)。噪聲抑制的核心目標(biāo)是:在盡可能保留語音原始特征(如頻譜包絡(luò)、諧波結(jié)構(gòu))的前提下,降低噪聲能量,同時(shí)避免引入“音樂噪聲”(Musical Noise,由傳統(tǒng)方法頻譜處理導(dǎo)致的類似口哨聲的偽影)。
2.2 傳統(tǒng)噪聲抑制方法
傳統(tǒng)方法基于信號(hào)處理的統(tǒng)計(jì)特性,主要包括以下三類:
(1)譜減法(Spectral Subtraction)
原理:假設(shè)噪聲為加性且統(tǒng)計(jì)平穩(wěn),通過估計(jì)噪聲頻譜(通常利用語音靜音段預(yù)計(jì)算),從帶噪語音頻譜中直接減去噪聲頻譜。公式表示為:
∣S^(f,t)∣2=max(∣Y(f,t)∣2−α⋅∣N^(f,t)∣2,β⋅∣N^(f,t)∣2)
其中 Y(f,t)為帶噪語音頻譜,N^(f,t)為估計(jì)的噪聲頻譜,S^(f,t)為抑制后的語音頻譜,α為過減因子(通常取1~2),β為殘余噪聲下限系數(shù)(避免負(fù)值)。
優(yōu)缺點(diǎn):計(jì)算簡單、實(shí)時(shí)性好,但對(duì)非平穩(wěn)噪聲(噪聲頻譜快速變化)效果差,易殘留音樂噪聲。
(2)維納濾波(Wiener Filtering)
原理:基于最小均方誤差準(zhǔn)則,通過估計(jì)語音與噪聲的功率譜密度(PSD),構(gòu)造線性濾波器,使輸出語音與純凈語音的均方誤差最小。濾波器頻率響應(yīng)為:
H(f)=PS?(f)+PN?(f)PS?(f)?
其中 PS?(f)和 PN?(f)分別為語音與噪聲的功率譜。
優(yōu)缺點(diǎn):比譜減法更適應(yīng)非平穩(wěn)噪聲,但依賴準(zhǔn)確的噪聲功率譜估計(jì),且在低信噪比(SNR<5 dB)時(shí)語音失真明顯。
(3)子空間分解法(如K-SVD、MUSIC)
原理:將帶噪語音信號(hào)投影到語音子空間與噪聲子空間,通過保留語音子空間的分量實(shí)現(xiàn)抑制。例如,基于奇異值分解(SVD)將信號(hào)協(xié)方差矩陣分解為信號(hào)主導(dǎo)和噪聲主導(dǎo)的奇異值,保留大奇異值對(duì)應(yīng)的分量。
優(yōu)缺點(diǎn):對(duì)穩(wěn)態(tài)噪聲效果較好,但計(jì)算復(fù)雜度高,實(shí)時(shí)性受限。
2.3 深度學(xué)習(xí)驅(qū)動(dòng)的噪聲抑制方法
近年來,深度神經(jīng)網(wǎng)絡(luò)(DNN)憑借強(qiáng)大的非線性建模能力,成為噪聲抑制的主流技術(shù),主要分為以下兩類:
(1)時(shí)頻域方法(如DCCRN、SEGAN)
核心思路:將帶噪語音轉(zhuǎn)換到時(shí)頻域(如短時(shí)傅里葉變換STFT的幅度譜或復(fù)數(shù)譜),通過神經(jīng)網(wǎng)絡(luò)預(yù)測干凈語音的時(shí)頻分量,再逆變換回時(shí)域。
典型模型:深度復(fù)數(shù)卷積遞歸網(wǎng)絡(luò)(DCCRN)直接處理STFT的復(fù)數(shù)譜(包含幅度與相位信息),通過編碼器-解碼器結(jié)構(gòu)與門控循環(huán)單元(GRU)捕捉時(shí)頻依賴關(guān)系;生成對(duì)抗網(wǎng)絡(luò)(SEGAN)利用生成器生成干凈語音譜,判別器區(qū)分生成譜與真實(shí)譜,提升譜的真實(shí)性。
優(yōu)勢:能自適應(yīng)復(fù)雜噪聲(如非穩(wěn)態(tài)噪聲、混響),抑制效果好且音樂噪聲少;
挑戰(zhàn):依賴大量帶噪-純凈語音配對(duì)數(shù)據(jù)訓(xùn)練,計(jì)算資源需求高。
(2)端到端時(shí)域方法(如Demucs、Wave-U-Net)
核心思路:直接在時(shí)域處理原始波形信號(hào),通過編碼器-解碼器結(jié)構(gòu)(如U-Net)分離語音與噪聲。例如,Demucs利用多層卷積與殘差連接,將輸入信號(hào)分解為語音、噪聲等多個(gè)源信號(hào)。
優(yōu)勢:無需頻域變換,保留完整的時(shí)域信息(如瞬態(tài)脈沖),適合處理突發(fā)噪聲;
挑戰(zhàn):模型復(fù)雜度更高,對(duì)訓(xùn)練數(shù)據(jù)的多樣性要求更嚴(yán)格。
3. 語音信號(hào)的聲品質(zhì)分析
聲品質(zhì)分析旨在量化語音的主觀聽感質(zhì)量,通常從客觀指標(biāo)與主觀評(píng)價(jià)兩方面展開。
3.1 客觀評(píng)價(jià)指標(biāo)
(1)基于語音清晰度的指標(biāo)
語音可懂度(STOI, Short-Time Objective Intelligibility):通過計(jì)算帶噪語音與純凈語音在短時(shí)幀上的相關(guān)性,反映語音信息的保留程度(取值0~1,越接近1可懂度越高),對(duì)噪聲引起的頻譜掩蔽敏感。
PESQ(Perceptual Evaluation of Speech Quality):基于人耳聽覺感知模型,將帶噪語音與純凈語音映射到感知域,計(jì)算失真得分(范圍1~5,接近5表示質(zhì)量高),綜合反映噪聲導(dǎo)致的失真與頻譜畸變。
POLQA(Perceptual Objective Listening Quality Analysis):PESQ的升級(jí)版,支持寬帶/超寬帶語音(>7 kHz),對(duì)噪聲、延遲、丟包等復(fù)合失真的評(píng)價(jià)更準(zhǔn)確。
(2)基于噪聲特性的指標(biāo)
信噪比(SNR, Signal-to-Noise Ratio):純凈語音與噪聲的能量比(dB),直接反映噪聲強(qiáng)度(公式:SNR=10log10?(∑(y(t)−s(t))2∑s2(t)?)),但無法衡量人耳對(duì)噪聲的敏感差異(如低頻噪聲可能比高頻噪聲更易察覺)。
噪聲掩蔽比(NMR, Noise Masking Ratio):評(píng)估噪聲對(duì)語音關(guān)鍵頻段(如300~3400 Hz的語音頻帶)的掩蔽程度,與語音可懂度強(qiáng)相關(guān)。
3.2 主觀評(píng)價(jià)方法
通過人工聽音實(shí)驗(yàn)(如MOS, Mean Opinion Score)讓受試者對(duì)語音質(zhì)量打分(通常1~5分,1為“極差”,5為“佳”),但主觀評(píng)價(jià)成本高、一致性依賴受試者經(jīng)驗(yàn),常作為客觀指標(biāo)的校準(zhǔn)基準(zhǔn)。
3.3 聲品質(zhì)與噪聲抑制的關(guān)聯(lián)
噪聲抑制的目標(biāo)是通過降低噪聲能量(提升SNR)、保留語音諧波結(jié)構(gòu)(維持PESQ高分),最終改善主觀聽感。例如,深度學(xué)習(xí)抑制算法因能精準(zhǔn)保留語音諧波(如輔音的高頻噪聲),通常在PESQ和STOI上顯著優(yōu)于傳統(tǒng)方法;而傳統(tǒng)譜減法若參數(shù)設(shè)置不當(dāng)(如過減因子過大),雖可能提升SNR,但會(huì)引入語音失真(PESQ下降)。
4. 典型應(yīng)用場景與挑戰(zhàn)
4.1 典型場景
車載語音交互:需抑制發(fā)動(dòng)機(jī)噪聲(低頻轟鳴)、風(fēng)噪(寬帶噪聲)及乘客對(duì)話(非穩(wěn)態(tài)干擾),對(duì)實(shí)時(shí)性與魯棒性要求高;
遠(yuǎn)程會(huì)議系統(tǒng):需處理多人混響(房間反射導(dǎo)致的拖尾效應(yīng))與背景人聲(同頻段干擾),重點(diǎn)提升語音可懂度;
助聽器與人工耳蝸:針對(duì)老年性耳聾用戶,需在極低SNR(如-5 dB)下抑制環(huán)境噪聲,同時(shí)避免過度壓縮導(dǎo)致語音自然度下降。
4.2 當(dāng)前挑戰(zhàn)
非穩(wěn)態(tài)噪聲抑制:突發(fā)噪聲(如玻璃破碎聲)的頻譜變化快,傳統(tǒng)方法難以跟蹤,深度學(xué)習(xí)模型需更大規(guī)模的動(dòng)態(tài)噪聲數(shù)據(jù);
計(jì)算復(fù)雜度與實(shí)時(shí)性平衡:深度學(xué)習(xí)模型(如DCCRN)的參數(shù)量大,在移動(dòng)端(如手機(jī)、耳機(jī))部署時(shí)需輕量化設(shè)計(jì)(如知識(shí)蒸餾、量化壓縮);
個(gè)性化適配:不同用戶對(duì)噪聲的敏感度差異大(如耳鳴患者對(duì)高頻噪聲更敏感),需結(jié)合用戶反饋的自適應(yīng)抑制策略。
5. 結(jié)論與展望
噪聲抑制與聲品質(zhì)分析是提升語音信號(hào)可用性的關(guān)鍵技術(shù)。傳統(tǒng)方法在穩(wěn)態(tài)噪聲場景下仍具實(shí)用價(jià)值,而深度學(xué)習(xí)方法通過數(shù)據(jù)驅(qū)動(dòng)的自適應(yīng)能力,已成為復(fù)雜噪聲環(huán)境的主流解決方案。未來發(fā)展趨勢包括:
多模態(tài)融合:結(jié)合視覺(唇動(dòng)信息)、麥克風(fēng)陣列(空間定位)等多傳感器數(shù)據(jù),進(jìn)一步提升抑制魯棒性;
輕量化與邊緣計(jì)算:通過模型剪枝、神經(jīng)架構(gòu)搜索(NAS)設(shè)計(jì)低功耗抑制算法,適配物聯(lián)網(wǎng)設(shè)備;
主觀感知優(yōu)化:引入心理聲學(xué)模型(如響度、粗糙度感知),使抑制后的語音不僅“清晰”而且“自然”。
通過跨學(xué)科技術(shù)的融合,語音信號(hào)的噪聲抑制與聲品質(zhì)分析將為智能人機(jī)交互、醫(yī)療輔助等領(lǐng)域提供更可靠的技術(shù)支撐。