功能性超聲成像解碼聽覺層次之雪貂如何“屏蔽”背景噪聲_abio生物試劑品牌網
在自然聲音場景中,根據聲音的平穩性,可以把聲音分為背景聲音(background sounds)和前景聲音(foreground sounds)。背景聲音被定義為平穩性最高的聲音,其聲學統計特性在較長時間尺度上波動,更具可預測性,對提示突發事件的重要性較低。前景聲音被定義為平穩性最低的聲音,屬于動態聲音,在較短時間尺度上波動,能隨時間傳遞新信息(如言語或發聲)。人類聽覺皮層存在背景不變性(即神經元對背景聲音的響應不隨背景變化而改變的特性)的層級梯度,但跨物種保守性及潛在神經機制尚不明確。
2025年5月,巴黎高等師范學院認知研究系Yves Boubenec 教授團隊在eLife上發表了題名為“Hierarchical encoding of natural sounds mixtures in ferret auditory cortex”的研究論文。研究聚焦于兩個核心問題:一是背景不變性的層級組織原則是否跨物種保守,即人類聽覺皮層中從初級到非初級區域逐漸增強的背景不變性特征,是否在其他哺乳動物(如雪貂)中同樣存在;二是驅動這種背景不變性的神經機制是什么,是由低階聲學特征調諧(如頻率、頻譜時間調制)主導,還是依賴更高階的神經計算,且這種機制是否在物種間存在差異。研究通過比較雪貂與人類聽覺皮層對自然聲音混合信號的處理,旨在揭示聽覺系統提取有效信號的通用原理與物種特異性機制。
研究亮點
1、首次在雪貂聽覺皮層發現背景不變性的層級梯度
與人類類似 —— 初級區域同時反映前景和背景聲音的貢獻,高階區域(次級、三級)的背景不變性顯著增強,驗證了該組織原則的跨物種部分保守性。
2、揭示雪貂的層級結構可通過頻譜時間濾波器組模型解釋
主要依賴對低階聲學特征(如頻率、頻譜時間調制)的調諧,為低階機制驅動背景不變性提供了實證。
3、跨物種對比發現人類的背景不變性無法被頻譜時間濾波器組模型完全解釋
提示人類非初級聽覺皮層可能依賴高階聲學特征或額外神經機制(如語音相關的高階編碼),為理解物種特異性聽覺處理差異提供了關鍵線索。
研究結果
雪貂聽覺皮層穩定編碼聲音特征
研究采用功能性超聲成像技術(fUSI)研究雪貂聽覺皮層對自然聲音流的處理機制。實驗設計了三類聲音刺激:前景音(非平穩)、背景音(平穩)及其混合音,通過計算聲音的時域平穩性進行區分。研究發現,聽覺皮層血流動力學響應在初始瞬態反應后能穩定編碼聲音特征。單獨背景音引發的持續響應強度低于前景音和混合音。通過分析響應性體素的活動模式,證實了聽覺皮層能夠在聲音切換后2-4.8秒的時間窗內穩定表征不同聲音類別,展現了其對復雜聲景的層次化處理能力。
圖 1. 血流動力學活動反映對前景音和背景音的編碼
(A)前景音(方形)和背景音(菱形)的平穩性。(B)聲音呈現范式及示例耳蝸圖。我們按照圖示設計,將 9.6 秒的前景音片段(冷色)和背景音片段(暖色)連接起來,形成連續的聲音流。每個前景音(或背景音)流單獨呈現,并與兩個不同的背景音(或前景音)流混合呈現。(C)我們使用功能性超聲成像技術,在雪貂聽覺皮層的冠狀切片(藍色平面)中測量腦血容量(CBV)(黑色輪廓為雪貂聽覺皮層)。我們通過連續切片在幾天內對整個聽覺皮層進行成像。(D)在不同條件下,聽覺皮層中與聲音變化同步的 CBV 平均變化(以安靜基線為基準進行標準化),對所有雪貂的數據進行平均。陰影區域表示不同聲音片段的均值標準誤。(E)每種條件下的重測交叉相關性。聲音兩次重復的體素反應在不同滯后下的相關性。然后對所有有反應的體素(ΔCBV > 2.5%)的結果矩陣進行平均。
雪貂聽覺皮層中背景音不變性的層次化組織
研究揭示了雪貂聽覺皮層對背景音處理的層次化組織特征。
通過fUSI,研究人員發現聽覺皮層不同區域對聲音混合場景的處理存在顯著差異。在初級聽覺皮層(MEG),神經元對前景音和背景音的響應差異不大;而在更高級的次級區(dPEG)和三級區(VP),神經元表現出明顯的背景音不變性增強現象,即對混合音和單獨前景音的響應模式更為相似。特別值得注意的是,這種背景音不變性呈現出明確的層次梯度:三級區VP的表現最優,其次是次級區dPEG,初級區MEG最弱。與此同時,前景音不變性則呈現相反趨勢,從初級區到高級區逐漸降低。這種雙向變化導致在非初級區,背景音不變性顯著高于前景音不變性。這些發現不僅證實了聽覺系統層次化處理聲音場景的普遍原則,也為理解大腦如何從復雜聲學環境中提取關鍵信息提供了新的神經機制解釋。
圖 2. 雪貂聽覺皮層中對背景音的不變性呈層級組織
(A)一個示例半球(雪貂 L)的平均反應圖。反應以相對于安靜時期基線活動的 CBV 百分比變化表示。對深度方向的值進行平均,得到聽覺皮層的表面視圖。(B)重測信度圖。在以下各圖中,僅顯示有可靠反應的體素(至少在一種聲音類別中重測信度 > 0.3),圖中表面單元的透明度由納入平均的(可靠)體素數量決定。(C)基于解剖學標志的感興趣區域(ROIs)圖。箭頭指示圖 D 中所示的示例切片(橙色:初級;綠色:非初級示例)。(D)對單獨呈現和混合呈現的前景音的反應。底部:示例體素(左:初級;右:非初級)對混合音和單獨呈現的前景音的反應。每個點代表體素對每個前景音(x 軸)和混合音(y 軸)的時間平均反應,取兩次重復的平均值。r 表示皮爾遜相關系數值。頂部:圖中顯示不變性,定義為混合音和單獨呈現的前景音之間的噪聲校正相關性,示例體素所在切片的值疊加在代表基線 CBV 的解剖學圖像上。示例體素用白色方塊標記。(E)同一半球的背景不變性圖。(F)每個 ROI 的背景不變性量化結果。十字符號(+)表示跨動物的每個 ROI 所有體素的中值。灰色圓點表示每個動物的初級(MEG)和非初級(dPEG + VP)體素的中值。每個圓點的大小與計算中值所依據的體素數量成正比。較粗的線對應示例雪貂 L。***:通過對每個動物體內素的 ROI 標簽進行置換檢驗,比較動物間 ROI 對的平均背景不變性,p <= 0.001。(G-I)與 D-F 相同,但為前景不變性(比較混合音與單獨呈現的背景音)。AEG,前外 sylvian 回;MEG,內側外 sylvian 回;dPEG,背側后外 sylvian 回;VP,腹側后聽覺區。
聽覺處理模型預測層次化差異
研究通過建立頻譜時域調制模型,系統揭示了雪貂聽覺皮層層次化處理聲音場景的神經機制。
模型分析表明,前景音和背景音在時域調制特性上存在本質差異:前景音主導低調制速率(<8Hz),而背景音集中于高速率區(>8Hz)。基于濾波器組模型和交叉驗證方法,研究發現不同聽覺皮層區域對聲學特征的調諧偏好呈現規律性變化:次級區dPEG偏好高頻和高頻譜調制,三級區VP則偏向低頻和中等調制參數。這些調諧差異直接影響了各區域的背景不變性表現——偏好低調制速率的體素表現出更強的背景不變性。值得注意的是,模型不僅能夠準確預測單個體素的響應特性(背景不變性預測準確度r=0.65),還完整重現了從初級區到高級區的背景不變性遞增梯度(VP>dPEG>MEG)和前景不變性遞減梯度。這一發現證實,聽覺皮層通過區域特異的頻譜時域調諧機制,實現了對復雜聲景的層次化解析,其中低階聲學特征調諧差異足以解釋雪貂聽覺系統的大部分不變性特征。
圖 3. 簡單的頻譜時間調諧解釋背景不變性的空間組織
(A)兩階段濾波器組(即頻譜時間模型)的呈現。耳蝸圖(為示例前景音和背景音所示)通過一組頻譜時間調制濾波器進行卷積。(B)在頻譜時間調制空間中,前景音和背景音的能量,對所有頻率箱進行平均。(C)在完整的聲學特征空間(頻率時間調制頻譜調制)中,前景音和背景音之間的平均能量差異。(D)我們使用從 A 中呈現的頻譜時間模型得到的聲音特征,通過嶺回歸預測體素的時間平均反應。因此,對于每個體素,我們獲得一組頻率和頻譜時間調制特征的權重,以及對所有聲音的交叉驗證預測反應。(E)MEG 的平均模型權重。(F)基于擬合模型的偏好頻率、時間和頻譜調制圖。為計算每個特征的偏好值,我們對權重矩陣在其他兩個維度上進行邊緣化處理。(G)每個非初級區域(dPEG 和 VP)與初級區域(MEG)體素的權重平均差異。(H)每個 ROI 內調諧至低(<8Hz)或高(>8Hz)時間調制率的體素的背景不變性(左)和前景不變性(右)。***:通過對每個動物體內素的調諧進行置換檢驗,比較調諧至低速率和高速率的體素在動物間的平均背景不變性,p <= 0.001。
圖 4. 聽覺處理模型預測雪貂聽覺皮層的層級差異
與圖 2 相同,但使用來自頻譜時間模型的交叉驗證預測結果。(A)示例體素(左:初級;右:非初級)對混合音和單獨呈現的前景音的預測反應。每個點代表體素對前景音(x 軸)和混合音(y 軸)的預測反應。r 表示皮爾遜相關系數值。上方的圖顯示示例體素所在切片的預測不變性值,疊加在代表基線 CBV 的解剖學圖像上。示例體素用白色方塊標記。(B)預測的背景不變性圖,定義為對混合音和單獨呈現的前景音的預測反應之間的相關性。(C)體素間預測的與測量的背景不變性的分箱散點圖。每條線對應一只動物,使用 0.1 個測量不變性箱。(D)每個 ROI 的預測背景不變性。十字符號(+)表示跨動物的每個 ROI 所有體素的中值。灰色圓點表示每個動物的初級(MEG)和非初級(dPEG + VP)體素的中值。每個圓點的大小與計算中值所依據的體素數量成正比。較粗的線對應示例雪貂 L。:p <= 0.05;**:通過對每個動物體內素的 ROI 標簽進行置換檢驗,比較動物間 ROI 對的平均預測背景不變性,p <= 0.001。(E-H)與 A-D 相同,但為預測的前景不變性,即比較對混合音和單獨呈現的背景音的預測反應。
背景音不變性的物種差異
通過跨物種比較,揭示了聽覺系統處理背景音不變的顯著物種差異。
雖然人類和雪貂的聽覺皮層都表現出從初級區到非初級區背景音不變性增強、前景音不變性減弱的層次化模式,但其神經機制存在本質區別。在雪貂中,簡單的頻譜時域調諧特征(如時域調制速率)足以解釋大部分不變性差異;而在人類聽覺皮層,同樣的模型僅能解釋約23%的背景音不變性變異,且完全無法預測前景音不變性特征(r=-0.17)。這種顯著的模型性能差距表明,人類聽覺系統可能進化出了更復雜的高階處理機制,特別是在非初級皮層區域,這些機制可能涉及對語音、音樂等復雜聲學特征的專門化處理。研究結果不僅證實了聽覺系統層次化處理的跨物種保守性,更揭示了人類特有的高級聽覺認知功能可能依賴于超越簡單聲學特征分析的神經計算機制,為理解聽覺處理的進化提供了重要啟示。
圖 5. 頻譜時間模型難以預測人類的背景不變性
(A)我們使用一個類似實驗的數據集(Kell & McDermott, 2019)重復了我們的分析,該數據集測量人類聽覺皮層的 fMRI 反應。我們比較了初級和非初級聽覺皮層的反應,如 Kell & McDermott(2019)所劃分。(B)示例體素(左:初級;右:非初級)對混合音和單獨呈現的前景音的反應。每個點代表體素對前景音(x 軸)和混合音(y 軸)的反應,取重復測量的平均值。r 表示皮爾遜相關系數值。(C-D)每個 ROI 的背景不變性量化結果,包括測量的反應(C)和來自頻譜時間模型的預測反應(D)。十字符號(+)表示跨被試的每個 ROI 所有體素的中值。灰色圓點表示每個 ROI 和每個被試的中值。每個圓點的大小與計算中值所依據的(可靠)體素數量成正比。(E)體素間預測的與測量的背景不變性的分箱散點圖。每條線對應一名被試,使用 0.1 個測量不變性箱。(F-I)與 B-E 相同,但為前景不變性,即比較對混合音和單獨呈現的背景音的預測反應。
研究總結
該研究通過功能超聲成像(fUSI)技術,揭示了雪貂聽覺皮層對自然聲音混合的分層編碼機制:從初級到高階區域,背景不變性逐漸增強。研究發現,這種分層結構可通過低頻聲學特征調諧解釋,但在人類聽覺皮層中需依賴更高階機制。這一成果不僅證實了跨物種聽覺處理的保守性原則,還揭示了人類聽覺系統的獨特性,為理解復雜聲景中的聲音分離提供了重要線索,對聽覺神經科學和跨物種比較研究具有深遠意義。
參考文獻
Landemard Agnès, Bimbard Célian, Boubenec Yves (2025) Hierarchical encoding of natural sounds mixtures in ferret auditory cortex. eLife 14:RP106628. https://doi.org/10.7554/eLife.106628.1
想要獲取本篇文獻的老師同學們,可以拉到文末掃碼添加禮智小客服哦!




