TWI518676B - 低複雜度聽覺事件邊界檢測技術 - Google Patents

低複雜度聽覺事件邊界檢測技術 Download PDF

Info

Publication number
TWI518676B
TWI518676B TW099112159A TW99112159A TWI518676B TW I518676 B TWI518676 B TW I518676B TW 099112159 A TW099112159 A TW 099112159A TW 99112159 A TW99112159 A TW 99112159A TW I518676 B TWI518676 B TW I518676B
Authority
TW
Taiwan
Prior art keywords
digital audio
audio signal
subsampled
signal
filter
Prior art date
Application number
TW099112159A
Other languages
English (en)
Other versions
TW201106338A (en
Inventor
格倫 狄更斯
Original Assignee
杜比實驗室特許公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 杜比實驗室特許公司 filed Critical 杜比實驗室特許公司
Publication of TW201106338A publication Critical patent/TW201106338A/zh
Application granted granted Critical
Publication of TWI518676B publication Critical patent/TWI518676B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Auxiliary Devices For Music (AREA)

Description

低複雜度聽覺事件邊界檢測技術 參考相關申請案
本申請案主張於2009年4月30日申請的美國臨時專利申請案61/174,467的優先權,其完整內容合併於本文中以供參考。
本發明係有關於一種低複雜度聽覺事件邊界檢測技術。
發明背景
依據本發明之一些層面,一聽覺事件邊界檢測器處理一數位音訊取樣串流以指示出有一聽覺事件邊界的時間。令人感興趣的聽覺事件邊界包括位準的突然增加(例如聲音或樂器的開始)以及頻譜平衡的改變(例如音高的改變和音色的改變)。檢測此等事件邊界提供了一聽覺事件邊界串流,每一個事件邊界具有關於該音頻信號(事件邊界是由此得出)的發生時間。此聽覺事件邊界串流對於許多目的而言是有用的,這些目的包括去控制具有最小可聽到之人為因素的音頻信號的處理。例如,只允許在聽覺事件邊界上或附近處理音頻信號的某些改變。受益於限於在聽覺事件邊界上或附近的時間點上處理的例子可包括動態範圍控制、音量控制、動態等化以及主動矩陣化,例如使用於升混或降混音頻通道的主動矩陣化。一或多個以下的申請案和專利案與此等範例有關,且每一個的完整內容合併於本文中以供參考:於2009年3月24日公告的美國專利案7,508,947“Method for Combining Signals Using Auditory Scene Analysis”,其發明人為Michael John Smithers,此案也於2006年2月23日公開於WO 2006/019719 A1。而代理人檔案編號為DOL147。
於2007年12月3日申請的美國專利申請案11/999,159“Channel Reconfiguration with Side Information”,其發明人為Seefeldt等人,此案也於2006年12月14日公開於WO 2006/132857。而代理人檔案編號為DOL16101。
於2008年2月1日申請的美國專利申請案11/989,974“Controlling Spacial Audio Coding Parameters as a Function of Auditory Events”,其發明人為Seefeldt等人,此案也於2007年2月8日公開於WO 2007/016107。而代理人檔案編號為DOL16301。
於2008年10月24日申請的美國專利申請案12/226,698“Audio Gain Control Using Specific-Loudness-Based Auditory Event Detection”,其發明人為Crockett等人,此案也於2007年11月8日公開於WO 2007/127023。而代理人檔案編號為DOL186 US。
在專利合作條約下於2008年7月11日國際申請的國際申請案PCT/US2008/008592“Audio Processing Using Auditory Scene Analysis and Spectral Skewness”其發明人為Smithers等人,此案也於2009年1月1日公開於WO 2009/011827。而代理人檔案編號為DOL220。
另一方面,處理音頻信號的某些改變只被允許在聽覺事件的邊界之間。受益於限於在聽覺事件邊界之間的時間點上處理的例子可包括時間縮放和音高轉換。以下的申請案與此等範例有關,且其完整內容合併於本文中以供參考:於2003年10月7日申請的美國專利申請案10/474,387“High Quality Time Scaling and Pitch-Scaling of Audio Signals”,其發明人為Brett Graham Crockett,此案也於2002年10月24日公開於WO 2002/084645。而代理人檔案編號為DOL07503。
聽覺事件邊界對於時間對準或識別多個音頻通道也是有用的。以下的申請案與此等範例有關,且其等完整內容合併於本文中以供參考:於2007年10月16日公告的美國專利案7,283,954“Comparing Audio Using Characterizations Based on Auditory Events”,其發明人為Crockett等人,此案也於2002年12月5日公開於WO 2002/097790。而代理人檔案編號為DOL092。
於2008年12月2日公告的美國專利案7,461,002“Method for Time Aligning Audio Signals Using Characterizations Based on Auditory Events”,其發明人為Crockett等人,此案也於2002年12月5日公開於WO 2002/097791。而代理人檔案編號為DOL09201。
本發明是針對轉換一數位音頻信號為一相關的聽覺事件邊界串流。此與音頻信號相關的聽覺事件邊界串流對於以上所述的任何目的或其他目的而言是有用的。
發明概要
本發明之一層面是實現了:一數位音頻信號在頻譜上之改變的檢測可以較低的複雜度完成(例如:低的記憶體需求和低的處理負擔,且後者常常以「MIPS(每秒幾百萬條指令)」為其特徵),且是藉由次取樣該數位音頻信號以造成頻疊且接著在該經次取樣信號上操作。當經次取樣後,該數位音頻信號的所有頻譜成分被保留在一減少的頻寬中(其等被「摺疊」至基帶),但是是以不照順序的方式。藉由檢測非頻疊之信號成分和有頻疊之信號成分(由次取樣產生)的頻率內容的改變,數位音頻信號之頻譜的改變可隨時間被檢測到。
「整數倍降低取樣率」此用語常常在音頻領域中被用於表示在數位音頻信號之低通去頻疊之後數位音頻信號的次取樣或「降低取樣」。去頻疊濾波器通常被使用以最小化頻疊信號成分自高於經次取樣尼奎士頻率至低於經次取樣尼奎士頻率之非頻疊(基帶)信號成分的「摺疊」。例如可參見:<http://en.wikipedia.org/wiki/Decimation_(signal_processing)>。
與正常的實施方式相反,依據本發明之一些層面的頻疊不需要與一去頻疊濾波器結合-的確,以下此現象是我們想要的:頻疊信號成分沒有被抑制而是與低於該經次取樣尼奎士頻率之非頻疊(基帶)信號成份一起出現,而這是在大部分音頻處理中不想要的結果。頻疊和非頻疊(基帶)信號成分的混合已被發現適用於檢測在數位音頻信號中的聽覺事件邊界,允許該邊界檢測在比沒有頻疊時所存在的取樣數量下,有著較為減少的信號取樣之下的較低頻寬中操作。
具有取樣率48 kHz的一數位音頻信號的更進一步的次取樣(例如,每16個取樣中略去15個,從而以3 kHz送出取樣,且使運算複雜度減少為1/256),產生1.5 kHz的尼奎士頻率,此已發現可產生有用的結果,同時只需要約50字的記憶體且少於0.5 MIPS。這些剛提及的示範性數值不是嚴格限制的。本發明不限於這些示範性數值。也可使用其他次取樣率。儘管使用了頻疊且可產生較低的複雜度,然而對於數位音頻信號之改變的敏感性的增加在實際的實施例(使用了頻疊)中可被獲得。此出乎意料的結果是本發明的一層面。
雖然上述的範例是假設一數位輸入信號具有48 kHz的取樣率,其是此領域普遍常見的音頻取樣率,但該取樣率僅僅是一範例且不是嚴格限制的。其他數位輸入信號可被使用,例如44.1 kHz,其為標準的光碟取樣率。本發明設計於48 kHz輸入取樣率的一實際實施例也可令人滿意地操作於例如44.1 kHz上,或反之亦然。對於較該輸入信號取樣率(本裝置或方法所設計的)高出或低於約10%的那些取樣率,在該裝置或方法中的參數可能需要調整以實現令人滿意的操作。
在本發明之較佳實施例中,在經次取樣數位音頻信號中的頻率內容之改變可在沒有明確地計算該經次取樣數位音頻信號之頻譜下予以檢測。透過使用此一檢測方式,在記憶體和處理複雜度中的降低可予以最大化。如以下所進一步解釋的,此可透過施加一擇譜式濾波器來完成,例如施加一線性預測濾波器到經次取樣數位音頻信號。此方法的特徵在於於時域上發生。
另一方式是,經次取樣數位音頻信號之頻率內容的改變可透過明確地計算經次取樣數位音頻信號的頻譜而予以檢測,例如透過使用時間至頻率的轉換。下面的申請案與此種範例有關且其完整內容合併於本文中以供參考:於2003年11月20日申請的美國專利申請案10/478,538“Segmenting Audio Signals into Auditory Events”,其發明人為Brett Graham Crockett,此案也於2002年12月5日公開於WO 2002/097792。而代理人檔案編號為DOL098。
雖然此頻域的方法較時域的方法需要較多的記憶體和處理,因為它使用了時間至頻率轉換,但是其於上述的經次取樣數位音頻信號上操作,經次取樣數位音頻具有數量降低的取樣,從而,相較於如果數位音頻信號尚未降低取樣之下,提供了較低的複雜度(較小的轉換)。因此,本發明之一些層面包括明確地計算該經次取樣數位音頻信號的頻譜以及沒有執行此動作兩者。依據本發明之一些層面,檢測聽覺事件邊界可以是大小不變的,使得音頻信號的絕對位準實質上不會影響事件的檢測或事件檢測的敏感度。
依據本發明之一些層面,檢測聽覺事件邊界可最小化猝發性或類雜訊信號情況(例如噓聲、爆裂聲和背景雜訊)下的假事件邊界的偽檢測。
如上述所提,令人感興趣的聽覺事件邊界包括該數位音頻取樣所代表之聲音或樂器的開始(位準的突然增加)和音高或音色的改變(頻譜平衡的改變)。
透過在瞬時信號位準(例如幅值或能量)找尋一突然的增加,開始通常可被檢測到。然而,如果一樂器是在沒有任何中斷下改變音高,例如連音,信號位準改變的偵測是不足以檢測到事件邊界。只檢測在位準上的突然增加將無法檢測到一音源的突然結束,而此突然結束也被視為是一聽覺事件邊界。
依據本發明之一層面,透過使用一自適應性濾波器以追蹤每一連續音頻取樣的一線性預測模型(LPC),音高的改變可予以檢測到。該濾波器是具有可變係數,且能預測出未來的取樣,比較經濾波結果與實際信號,且修改該濾波器以最小化誤差。當經次取樣數位音頻信號的頻譜是穩定時,該濾波器將收斂且該誤差信號的位準將減少。當頻譜改變,該濾波器將自適應且在該自適應期間,該誤差的位準將變大許多。因而當有改變發生時,可經由該誤差的位準或該濾波器係數必須改變的程度而檢測到。如果該頻譜的改變較該自適應性濾波器可調適的還快,這指示了該可預測濾波器之誤差的位準增加。該自適應性可預測濾波器需要夠長以實現想要的頻率選擇性,且需要被調整以具有適當的收斂速度以區別出時間上的連續事件。例如正規化最小均方的演算法或其他適合的自適應演算法被用來更新濾波器係數,以嘗試預測出下一取樣。雖然這不是嚴格限制的且其他的自適應率也可被使用,但被設定以在20至50 ms收斂的一濾波器自適應率已被發現是有用的。允許該濾波器的收斂在50 ms的一自適應率允許事件以大約20 Hz的速率被檢測到。這可被認為是在人類之事件感知的最大速率。
另一方面,因為頻譜上的改變造成濾波器係數的改變,因此可以檢測該等係數改變的方式取代檢測在該誤差信號上的改變。然而,當該等係數朝向收斂移動時,該等係數改變的較緩慢,所以檢測在該等係數的改變增加了延遲,而當檢測該誤差信號的改變時,該延遲是不存在的。雖然檢測濾波器係數的改變可能不需要任何正規化(而當檢測誤差信號的改變時可能需要),但是通常來說,檢測誤差信號的改變較檢測濾波器係數的改變要來的簡單,其需要較少的記憶體和處理能力。
該等事件邊界是與預測器誤差信號的位準之增加相關。短期誤差位準透過以一時間平滑濾波器濾波該誤差幅值或功率而予以獲得。接著該信號具有在每一事件邊界上顯示出一急速增加的特性。進一步縮放及/或處理該信號可予以施加,以產生指示出該等事件邊界之時間的信號。經由使用適當的臨界和限制,該事件信號可以一二進制「是或否」提供或以在一範圍內的一值來提供。確切的處理和由該預測器誤差信號得出的輸出將取決於想要的敏感度和該事件邊界檢測器的應用。
本發明之一層面是聽覺事件邊界可經由頻譜平衡的相對改變(而非絕對的頻譜平衡)來予以檢測。因此,可施加如上所述的頻疊技術,其中原始數位音頻信號頻譜被分為較小的片段且被互相摺疊,以產生用於分析的較小頻寬。從而,只有一部分的原始音頻取樣需要被處理。此方法具有減少了有效頻寬的優點,從而減少了所需的濾波器長度。因為只有一部分的原始取樣需要處理,減少了運算複雜度。在上述所提的實際實施例中,1/16的次取樣被使用,產生了1/256的運算降低。透過次取樣,48 kHz的信號降為3000 Hz,以一個例如20階的預測濾波器,有用的頻譜選擇性可被實現。在沒有此次取樣下,具有320階此等級的預測濾波器是需要的。從而,記憶體和處理負擔的大量降低可予以實現。
本發明之一層面是有了此認知:造成頻疊的次取樣沒有不利地影響了預測器的收斂和聽覺事件邊界的檢測。這是因為大部分的聽覺事件是調和的且在許多週期上延伸,且因為許多令人感興趣的聽覺事件邊界是與頻譜非頻疊部分的基帶的改變有關。
圖式簡單說明
第1圖是依據本發明之一些層面顯示一聽覺事件邊界檢測器之一範例的示意功能方塊圖。
第2圖是依據本發明之一些層面顯示一聽覺事件邊界檢測器之另一範例的示意功能方塊圖。第2圖之範例不同於第1圖之範例的地方在於其顯示了一第三輸入加到該分析16’,以得到在經次取樣數位音頻信號中的相關程度或音調的量測。
第3圖是依據本發明之一些層面顯示一聽覺事件邊界檢測器之又一範例的示意功能方塊圖。第3圖之範例不同於第2圖之範例的地方在於其具有一額外的次取樣器或次取樣功能。
第4圖是一示意功能方塊圖,顯示了第3圖之範例的較詳細版本。
第5A-F、6A-F以及7A-F圖是對於理解依據第4圖之範例的一聽覺事件邊界檢測裝置或方法的操作是有用的示範性波形組。每一組波形沿著一共同的時間刻度(水平軸)在時間上是對齊的。每一波形具有其自己的位準刻度(垂直軸),如所示。
在第5A-F圖中,第5A圖的數位輸入信號代表三個猝發音,其中從一猝發音至另一猝發音在振幅上有步階增加,且其中在每一促發音間音高是中途改變的。
第6A-F圖的示範性波形組與第5A-F圖的波形組不同的地方在於該數位音頻信號代表兩串鋼琴音符。
第7A-F圖的示範性波形組與第5A-F圖和第6A-F圖的波形組不同的地方在於該數位音頻信號代表著在有背景雜訊存在下的語音。
較佳實施例之詳細說明
現在參考各個圖,第1-4圖是依據本發明之所有層面顯示一聽覺事件邊界檢測器或檢測器方法之範例的示意功能方塊圖。在那些圖式中,相同的參考數字表示該裝置或功能實質上是與具有相同參考數字的另一者或另一些是一致的。具有引號的參考數字(例如:「10’」)表示該裝置或功能在結構或功能上是相似的,但是可能是具有相同基本參考數字或其引號版本之另一者或另一些的修改。在第1-4圖的範例中,在經次取樣數位音頻信號之頻率內容的改變是在沒有明確地計算該經次取樣數位音頻信號的頻譜下受到檢測。
第1圖是依據本發明之一些層面顯示一聽覺事件邊界檢測器的一示意功能方塊圖。一數位音頻信號,包含一特定取樣率的一取樣串流,是施加到一產生頻疊次取樣器或次取樣功能(「次取樣」)2。該數位音頻輸入信號可由一離散時間序列x[n]表示,其已經自一音頻源在某一取樣頻率f s 下取樣出。對於一典型的48 kHz或44.1 kHz的取樣率,次取樣2可透過自每16個音頻取樣中丟棄15個來減少該取樣率為1/16倍。該次取樣2之輸出是經由一延遲或延遲功能(「延遲」)6施加到一自適應預測濾波器或濾波器功能(「預測器」)4,其作為一擇譜式濾波器。預測器4可是例如一有限脈衝響應(FIR)濾波器或濾波功能。延遲6可具有一單位延遲(以該次取樣率而言)以確保預測器4沒有使用目前的取樣。一LPC預測濾波器的一些常見的表示包括該濾波器本身內的延遲。可參考例如:<http://en.wikipedia.org/wiki/Linear_prediction>。
仍參考第1圖,透過在一減法器或減法功能8(以符號顯示)將輸入信號減去該預測器4之輸出而形成一誤差信號。預測器4響應於開始事件和頻譜改變事件兩者。對於48 kHz的原始音頻以1/16倍被次取樣以產生3 kHz的取樣,20階的濾波器長度已被發現是有用的,而其他值也可被接受。利用正規化的最小均方或另一相似的自適應性方案,一自適應更新可實現,以完成一想要的的收斂時間(例如20至50 ms)。來自預測器4的誤差信號接著在「幅值或功率」裝置或功能10中被平方(以提供誤差信號的能量)或取絕對值(以提供誤差信號的幅值)(絕對值是較適於一固定點的實現),且接著在一第一時間平滑濾波器或濾波功能(「短期濾波器」)12和一第二時間平滑濾波器或濾波功能(「較長期濾波器」)14中被濾波,以分別產生第一和第二信號。該第一信號是該預測器誤差的一短期量測,而該第二信號是該濾波器誤差的較長期平均。雖然以下不是嚴格要求的且也可使用其他值或其他類型的濾波器,然而已發現具有10至20 ms範圍之時間常數的一低通濾波器可用於該第一時間平滑濾波器12,且具有50至100 ms範圍之時間常數的一低通濾波器可用於該第二時間平滑濾波器14。
該第一和第二平滑化的信號在一分析器或分析功能(「分析」)16中被比較和分析,以產生一聽覺事件邊界串流,且該等邊界是經由該第一信號相對於該第二信號的一急速增加而被指出。產生該事件邊界信號的一方法是考慮該第一信號相對於該第二信號的比率。此具有以下優點:產生實質上不受輸入信號之絕對大小的變化影響的信號。在獲得此比率後(一除法運算),此值可與一臨界值或一範圍的值比較,以產生一個指出一事件邊界存在的二進制或連續值的輸出。而這些值並不是嚴格要求的且將取決於應用的需求,短期對長期濾波信號的比率大於1.2將暗示出一可能的事件邊界,而大於2.0的比率可被明確地視為是一事件邊界。一二進制事件輸出的單一信號臨界值可予以使用,或另一方式是,一些值可被映射到具有例如0至1範圍的一事件邊界量測。
很明顯的,其他濾波器及/或其他處理安排可自誤差信號的位準來識別出表示事件邊界之特徵。此外,敏感度和事件邊界輸出的範圍可適應於被施予該邊界輸出的裝置或方法。此可透過例如改變在聽覺事件邊界檢測器中的濾波及/或處理參數而予以完成。
因為該第二時間平滑濾波器(「較長期濾波器」)14具有較長的時間常數,其可使用第一時間平滑濾波器(「短期濾波器」)12之輸出作為其輸入。這允許了該第二濾波器和此分析以一較低的取樣率實現。
如果該第二平滑濾波器具有用於增加的較長時間常數且具有與平滑濾波器12相同的用於位準減少的時間常數,則事件邊界的改良性檢測可予以獲得。透過使該第一濾波器輸出等於或大於該第二濾波器輸出,在檢測事件邊界上可減少延遲。
在分析16中的除法或正規化只需要大致實現實質上大小不變的一輸出。透過比較和位準位移,一粗略的正規化可被實現而避免了除法的步驟。另一方式是正規化可在預測器4之前予以執行,允許了預測濾波器在較小的字上操作。
要實現降低一類雜訊本質事件的敏感度的需求,可使用預測器的狀態以提供該音頻信號之音調或可預測性的一量測。此量測可自該預測器係數推得出,以強調當該信號是較音調性或可預測時發生的事件,且不強調發生在類雜訊情況下的事件。
該自適應性濾波器4可被設計有一洩漏項,該洩漏項在該濾波器係數沒有收斂以匹配一音調輸入時,使該濾波器係數隨時間衰減。給予一類雜訊信號時,該濾波器係數衰減到零。從而,該等絕對濾波器值之總和的一量測或濾波器能量可提供頻譜偏斜的合理量測。只使用該濾波器係數的一子集,偏斜的較合量測可予以獲得;尤其透過忽略最先的一些濾波器係數。總和為0.2或更少可被視為代表著低的頻譜偏斜且從而可映射到0的值,而當總合為1.0或更多時,可被視為代表著嚴重的頻譜偏斜且從而可映射到1的值。頻譜偏斜的量測可被使用來修改用於產生該事件邊界輸出信號的該等信號或臨界值,使得對於類雜訊信號的總體敏感度降低。
第2圖是顯示依據本發明之一些層面的一聽覺事件邊界檢測器之另一範例的示意功能方塊圖。第2圖之範例不同於第1圖之範例的地方至少在於其顯示了一第三輸入加到該分析16’(用引號表示是代表與第1圖之分析16不同)。該第三輸入可稱為一「偏斜」輸入,可自一分析器或分析功能(「分析相關性」)18中分析預測器之係數而予以獲得,以得到在該經次取樣數位音頻信號中的相關程度或音調的量測,如以上兩個段落中的描述。
要自該三個輸入中產生該事件邊界信號,該分析16’的處理可如下所述操作。首先,其取得平滑濾波器12之輸出對平滑濾波器14之輸出的比率,並減去1且強迫該信號大於或等於0。該信號接著乘上「偏斜」輸入,而該「偏斜」輸入的範圍是自0(對於類雜訊信號而言)到1(對於音調信號而言)。此結果是用於指示事件邊界的存在,大於0.2的值暗示著有一可能的事件邊界,而大於1.0的值則表示有一明確的事件邊界。如同以上第1圖的範例中所描述的,此輸出可轉換成具有一信號臨界值在此範圍的二進制信號或轉換成一可信範圍。很明顯的,數值的較廣範圍以及得到此最終事件邊界信號的其他方法對於一些應用來說也是適合的。
第3圖是顯示依據本發明之一些層面的一聽覺事件邊界檢測器之又一範例的示意功能方塊圖。第3圖之範例不同於第2圖之範例的地方至少在於其具有額外的一次取樣器或次取樣功能。如果與該事件邊界檢測相關的處理相較於次取樣2所提供之次取樣動作而言,需要較不頻繁的一事件邊界輸出,則一額外的次取樣器或次取樣功能(「次取樣」)20可在短期濾波器12之後提供。例如,在次取樣2取樣率的 1/16的縮減可進一步縮減1/16,以每256個取樣在事件邊界輸出串流提供一可能的事件邊界。該第二平滑濾波器,即較長期濾波器14’,接收該次取樣20的輸出以提供該第二濾波器輸入給分析16”。因為至平滑濾波器14’的輸入現在已經經由平滑濾波器12低通濾波,且由20次取樣過,因而14’的濾波器特性應該要修改。一種適當的設計是對於輸入的增加使用50到100ms的時間常數,且對於輸入的減少有一立即的響應。要匹配至分析16”的其他輸入的已降低取樣率,該預測器之係數也應該在另一次取樣器或次取樣功能(「次取樣」)22中用相同的次取樣率(在此範例中是1/16)次取樣,以產生至該分析16”(用雙引號表示是代表與第1圖之分析16和第2圖之分析16’不同)的偏斜輸入。分析16”實質上與第2圖之分析16’相似,但具有微小的改變以調整較低的取樣率。此額外的降低取樣率級20大大地降低了運算。在次取樣20之輸出,這些信號代表了緩慢的時變包封信號,所以頻疊不是令人在意的問題。
第4圖是依據本發明之一些層面的一事件邊界檢測器的特定範例。此特定實現是被設計來處理在48kHz且音頻取樣值在-1.0至+1.0之範圍內的輸入音頻。在本實施中所使用的各種值和常數並不是嚴格限制的,而是建議出有用的操作點。此圖和下面的方程式使此流程和本發明的特定變化更加詳細,以產生接下來有示範性信號的圖式。輸入音頻x[n]係透過次取樣功能(「次取樣」)2’選取每第16個取樣而被次取樣:x'[n]=x[16n]。
該延遲功能(「延遲」)6和該預測器功能(「FIR預測器」)4’於先前取樣上使用一20階FIR濾波器產生目前取樣的一估計:
w i [n]代表在次取樣時間n時的第i個濾波器係數。該減法功能8產生該預測誤差信號:
e[n]=x'[n]-y[n]。
依據有加入一洩漏項以穩定該濾波器的正規化最小均方自適應方法,此被用於更新該預測器4’係數:
其中分母是包含先前20個輸入取樣的平方和的一正規化項,且加入一小的偏移以避免除以0。變數j用於索引先前的20個取樣x'[n-j],j=1到20。此誤差信號接著通過一幅值功能(「幅值」)10’和第一時間濾波器(「短期濾波器」)12’,該第一時間濾波器是一簡單的一階低通濾波器,以產生第一濾波後信號:
f[n]=0.99f[n-1]+0.01|e[n]|。
該信號接著通過一第二時間濾波器(「較長期濾波器」)14’,其具有用於增加之輸入的一階低通,以及用於減少之輸入的立即響應,以產生一第二濾波後信號:
預測器4’之係數用於產生音調的一初始量測(「分析相關性」)18’,以第3至最後的濾波器係數之幅值的和:
此信號通過一偏移35、縮放36以及限制器(「限制器」)37以產生偏斜的量測:
該第一和第二濾波後信號和偏斜的量測是以加法31、除法32、減法33和縮放34結合在一起,以產生一最初事件邊界指示信號:
最後,該信號通過一偏移38、縮放39和限制器(「限制器」)40以產生於0至1之範圍內的一事件邊界信號:
在這兩個時間濾波器12’和14”的值的相似性和這兩個信號轉換35、36、37和38、39、40不代表固定不變的設計或本系統的限制。
第5A-F、6A-F以及7A-F圖對於理解依據第4圖之範例的一聽覺事件邊界檢測裝置或方法的操作是有用的示範性波形組。每一組波形沿著一共同的時間刻度(水平軸)在時間上是對齊的。每一波形具有其自己的位準刻度(垂直軸),如所示。
首先參考在第5A-F圖中的示範性波形組,在第5A圖中的數位輸入信號代表三個猝發音,其中從一猝發音至另一猝發音在振幅上有步階增加,且其中在每一促發音間音高是中途改變的。如第5B圖所示,可看到一簡單的幅值量測是沒有檢測到音高的改變。來自該預測濾波器的誤差檢測到該猝發音的開始、音高改變和結束,然而,這些特徵不是清楚的且仰賴於輸入信號的位準(第5C圖)。透過如上述所述的縮放,獲得標示該等事件邊界且仍然與信號位準無關的一組脈衝(第5D圖)。然而,此信號對於最後的類雜訊輸入可能產生不想要的事件信號。由除了首先兩個濾波器階之外的全部的絕對總和獲得的偏斜量測(第5E圖)接著被用於降低沒有強頻譜成分發生的敏感性事件。最後,被縮放且被截斷的事件邊界串流(第5F圖)由「分析」獲得。
第6A-F圖的示範性波形組與第5A-F圖的波形組不同的地方在於該數位音頻信號代表兩串鋼琴音符。如同第5A-F圖的示範性波形所驗證的,此驗證了預測誤差甚至在事件邊界的幅值包封(第6B圖)不明顯之下,仍可以識別出事件邊界。在此組範例中,末端音符逐漸淡出,所以在序列的末端沒有事件顯示出。
第7A-F圖的示範性波形組與第5A-F圖和第6A-F圖的波形組不同的地方在於該數位音頻信號代表著在有背景雜訊存在下的語音。該偏斜因子允許背景雜訊中的事件被抑制,因為它們本質是寬頻的,同時語音片段有事件邊界的細節。
這些範例顯示了任何音調聲的突然結束可以被檢測到。聲音的平緩衰減沒有指示一事件邊界,因為沒有明確的邊界(只有淡出)。雖然類雜訊聲音的突然結束可能沒有指示出一事件,但大部分的語音或具有突然結束的音樂事件在將被檢測到的結束時將有一些頻譜改變或夾止事件。
實現
本發明可被實現在硬體或軟體上,或其等結合(例如可規劃邏輯陣列)。除非有特別指出,否則被包含以作為本發明之一部份的演算法在先天上沒有與任何特定電腦或其他設備有關。尤其,各種通用機器可具有依據這裡之技術而寫入的程式而予以使用,或更方便的是,建造更多特定化設備(例如積體電路)來執行所需的方法步驟。從而,本發明可在一或多個可規劃電腦系統上執行的一或多個電腦程式上實現,且每一電腦系統包含至少一處理器、至少一資料儲存系統(包括依電性和非依電性記憶體及/或儲存元件)、至少一輸入裝置或埠,以及至少一輸出裝置或埠。程式碼被施以輸入資料以執行這裡所描述的功能且產生輸出資訊。該輸出資訊以已知的方式被施加到一或多個輸出裝置。
每一個此程式可以任何想要的電腦語言(包括機器、組合或高階程序、邏輯或物件導向程式語言)實現,以與一電腦系統溝通。在任何情況中,該語言可是一編譯過或解譯過的語言。
每一此電腦程式較佳地是儲存在或下載到可由通用或特定可規劃電腦讀取的一儲存媒體或裝置(例如固態記憶體或媒體,或磁性媒體或光學媒體),以當該儲存媒體或裝置被該電腦系統讀取時組配和操作該電腦,以執行這裡所述的程序。此具發明性的系統也可被視為以一電腦可讀取儲存媒體實現,其被組配有一電腦程式,其中該儲存媒體是被組配以使一電腦系統以一特定和預定方式操作以執行這裡所述的功能。
本發明的一些實施例已經予以描述。然而,應理解的是可作出各種修改而沒有脫離本發明的精神和範圍。例如,這裡所描述的一些步驟可以是無關順序的,且從而可以一不同於所描述之順序執行。
2...次取樣器/次取樣功能
2’...次取樣功能
4...預測濾波器/預測濾波器功能
4’...預測器/預測器功能
6...延遲/延遲功能
8...減法器/減法功能
10...幅值或功率裝置/幅值或功率功能
10’...幅值功能
12...第一時間平滑濾波器/第一時間平滑濾波功能
12’...第一時間濾波器
14...第二時間平滑濾波器/第二時間平滑濾波功能
14’...較長期濾波器/第二平滑濾波器/第二時間濾波器
16...分析器/分析功能
16’、16”‧‧‧分析
18、18’‧‧‧分析器/分析功能
20‧‧‧次取樣器/次取樣功能/降低取樣率級
22‧‧‧次取樣器/次取樣功能
31‧‧‧加法
32‧‧‧除法
33‧‧‧減法
34、36、39‧‧‧縮放
35、38‧‧‧偏移
37、40‧‧‧限制器
第1圖是依據本發明之一些層面顯示一聽覺事件邊界檢測器之一範例的示意功能方塊圖。
第2圖是依據本發明之一些層面顯示一聽覺事件邊界檢測器之另一範例的示意功能方塊圖。第2圖之範例不同於第1圖之範例的地方在於其顯示了一第三輸入加到該分析16’,以得到在經次取樣數位音頻信號中的相關程度或音調的量測。
第3圖是依據本發明之一些層面顯示一聽覺事件邊界檢測器之又一範例的示意功能方塊圖。第3圖之範例不同於第2圖之範例的地方在於其具有一額外的次取樣器或次取樣功能。
第4圖是一示意功能方塊圖,顯示了第3圖之範例的較詳細版本。
第5A-F、6A-F以及7A-F圖是對於理解依據第4圖之範例的一聽覺事件邊界檢測裝置或方法的操作是有用的示範性波形組。每一組波形沿著一共同的時間刻度(水平軸)在時間上是對齊的。每一波形具有其自己的位準刻度(垂直軸),如所示。
在第5A-F圖中,第5A圖的數位輸入信號代表三個猝發音,其中從一猝發音至另一猝發音在振幅上有步階增加,且其中在每一促發音間音高是中途改變的。
第6A-F圖的示範性波形組與第5A-F圖的波形組不同的地方在於該數位音頻信號代表兩串鋼琴音符。
第7A-F圖的示範性波形組與第5A-F圖和第6A-F圖的波形組不同的地方在於該數位音頻信號代表著在有背景雜訊存在下的語音。
2...次取樣器/次取樣功能
4...預測濾波器/預測濾波器功能
6...延遲
8...減法器/減法功能
10...幅值或功率裝置/幅值或功率功能
12...第一時間平滑濾波器/第一時間平滑濾波功能
14...第二時間平滑濾波器/第二時間平滑濾波功能
16...分析器/分析功能

Claims (12)

  1. 一種用以處理數位音頻信號以自其得到聽覺事件邊界串流的方法,該方法包含以下步驟:藉由次取樣該數位音頻信號以得到一經次取樣的數位音頻信號,使得其經次取樣尼奎士頻率是在該數位音頻信號的頻寬內,使該數位音頻信號中高於該經次取樣尼奎士頻率的信號成分在低於該經次取樣尼奎士頻率下出現在該經次取樣的數位音頻信號中,以及檢測該經次取樣的數位音頻信號的頻率內容隨時間的改變,以得到該聽覺事件邊界串流。
  2. 如申請專利範圍第1項所述之方法,其中,當該經次取樣的數位音頻信號的頻率內容隨著時間的一改變超過一臨界值時,則一聽覺事件邊界被檢測出。
  3. 如申請專利範圍第1或2項所述之方法,其中,就代表類雜訊的數位音頻信號,針對該經次取樣的數位音頻信號的頻率內容隨著時間之改變的敏感度是藉由量測該數位音頻信號之音調或可預測性或藉由量測該頻譜偏斜被降低。
  4. 如申請專利範圍第1-2項中任一項所述之方法,其中,該經次取樣的數位音頻信號的頻率內容隨著時間的改變,是透過對該經次取樣的數位音頻信號施加一擇譜式濾波器而得出。
  5. 如申請專利範圍第1-2項中任一項所述之方法,其中,檢測該經次取樣的數位音頻信號的頻率內容隨著時間的 改變之步驟,包括自一組先前取樣中預測出目前取樣,產生一預測誤差信號,及檢測該誤差信號之位準隨著時間的改變何時超過一臨界值。
  6. 如申請專利範圍第1-2項中任一項所述之方法,其中,該經次取樣的數位音頻信號的頻率內容隨著時間的改變,是透過包括明確計算該經次取樣數位音頻信號之頻譜的一程序而被檢測出。
  7. 如申請專利範圍第6項中所述之方法,其中,明確地計算該經次取樣數位音頻信號的頻率內容之步驟,包含對該經次取樣數位音頻信號施加一時間至頻率轉換,且該程序進一步包括檢測該經次取樣數位音頻信號之頻域表示型態隨時間的改變。
  8. 如申請專利範圍第1-2項中任一項所述之方法,其中,一檢測到的聽覺事件邊界具有指示出該邊界存在或不存在的一個二進制值。
  9. 如申請專利範圍第1-2項中任一項所述之方法,其中,一檢測到的聽覺事件邊界具有指示出一邊界不存在或該邊界存在及其強度的一範圍的值。
  10. 一種用以處理數位音頻信號之設備,包含適用於執行申請專利範圍第1-9項中任一項所述之方法的裝置。
  11. 一種儲存在電腦可讀媒體上的電腦程式,用於使一電腦執行申請專利範圍第1-9項中任一項所述之方法。
  12. 一種電腦可讀媒體,其存有執行申請專利範圍第1-9項中任一項所述之方法的電腦程式。
TW099112159A 2009-04-30 2010-04-19 低複雜度聽覺事件邊界檢測技術 TWI518676B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US17446709P 2009-04-30 2009-04-30

Publications (2)

Publication Number Publication Date
TW201106338A TW201106338A (en) 2011-02-16
TWI518676B true TWI518676B (zh) 2016-01-21

Family

ID=42313737

Family Applications (1)

Application Number Title Priority Date Filing Date
TW099112159A TWI518676B (zh) 2009-04-30 2010-04-19 低複雜度聽覺事件邊界檢測技術

Country Status (7)

Country Link
US (1) US8938313B2 (zh)
EP (1) EP2425426B1 (zh)
JP (1) JP5439586B2 (zh)
CN (1) CN102414742B (zh)
HK (1) HK1168188A1 (zh)
TW (1) TWI518676B (zh)
WO (1) WO2010126709A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8315398B2 (en) 2007-12-21 2012-11-20 Dts Llc System for adjusting perceived loudness of audio signals
TWI503816B (zh) 2009-05-06 2015-10-11 Dolby Lab Licensing Corp 調整音訊信號響度並使其具有感知頻譜平衡保持效果之技術
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
WO2015189533A1 (en) * 2014-06-10 2015-12-17 Meridian Audio Limited Digital encapsulation of audio signals
DE102014115967B4 (de) 2014-11-03 2023-10-12 Infineon Technologies Ag Kommunikationsvorrichtungen und Verfahren
JP6976277B2 (ja) * 2016-06-22 2021-12-08 ドルビー・インターナショナル・アーベー 第一の周波数領域から第二の周波数領域にデジタル・オーディオ信号を変換するためのオーディオ・デコーダおよび方法
US11036462B2 (en) 2017-04-24 2021-06-15 Maxim Integrated Products, Inc. System and method for reducing power consumption in an audio system by disabling filter elements based on signal level
EP3827429A4 (en) 2018-07-25 2022-04-20 Dolby Laboratories Licensing Corporation COMPRESSOR TARGET CURVE TO AVOID AMPLIFICATION NOISE
EP3618019B1 (en) * 2018-08-30 2021-11-10 Infineon Technologies AG Apparatus and method for event classification based on barometric pressure sensor data
GB2596169B (en) * 2020-02-11 2022-04-27 Tymphany Acoustic Tech Ltd A method and an audio processing unit for detecting a tone
CN111916090B (zh) * 2020-08-17 2024-03-05 北京百瑞互联技术股份有限公司 一种lc3编码器近奈奎斯特频率信号检测方法、检测器、存储介质及设备

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4935963A (en) 1986-01-24 1990-06-19 Racal Data Communications Inc. Method and apparatus for processing speech signals
JP2573352B2 (ja) * 1989-04-10 1997-01-22 富士通株式会社 音声検出装置
US5325425A (en) * 1990-04-24 1994-06-28 The Telephone Connection Method for monitoring telephone call progress
CA2105269C (en) 1992-10-09 1998-08-25 Yair Shoham Time-frequency interpolation with application to low rate speech coding
KR0155315B1 (ko) 1995-10-31 1998-12-15 양승택 Lsp를 이용한 celp보코더의 피치 검색방법
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7283954B2 (en) 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
MXPA03010751A (es) * 2001-05-25 2005-03-07 Dolby Lab Licensing Corp Segmentacion de senales de audio en eventos auditivos.
EP1440433B1 (en) * 2001-11-02 2005-05-04 Matsushita Electric Industrial Co., Ltd. Audio encoding and decoding device
AUPS270902A0 (en) 2002-05-31 2002-06-20 Canon Kabushiki Kaisha Robust detection and classification of objects in audio using limited training data
US7454331B2 (en) * 2002-08-30 2008-11-18 Dolby Laboratories Licensing Corporation Controlling loudness of speech in signals that contain speech and other types of audio material
US7536305B2 (en) * 2002-09-04 2009-05-19 Microsoft Corporation Mixed lossless audio compression
US7508947B2 (en) 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
BRPI0518278B1 (pt) 2004-10-26 2018-04-24 Dolby Laboratories Licensing Corporation Método e aparelho para controlar uma característica de sonoridade particular de um sinal de áudio
FI20041541A (fi) * 2004-11-30 2006-05-31 Teknillinen Korkeakoulu Menetelmä puheen automaattiseksi segmentoimiseksi
CA2610430C (en) 2005-06-03 2016-02-23 Dolby Laboratories Licensing Corporation Channel reconfiguration with side information
TWI396188B (zh) 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
TWI517562B (zh) 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
KR101200615B1 (ko) 2006-04-27 2012-11-12 돌비 레버러토리즈 라이쎈싱 코오포레이션 청각 이벤트 검출에 기반한 비-라우드니스를 이용한 자동 이득 제어
US8010350B2 (en) 2006-08-03 2011-08-30 Broadcom Corporation Decimated bisectional pitch refinement
WO2008051347A2 (en) 2006-10-20 2008-05-02 Dolby Laboratories Licensing Corporation Audio dynamics processing using a reset
US8521314B2 (en) 2006-11-01 2013-08-27 Dolby Laboratories Licensing Corporation Hierarchical control path with constraints for audio dynamics processing
US8194889B2 (en) 2007-01-03 2012-06-05 Dolby Laboratories Licensing Corporation Hybrid digital/analog loudness-compensating volume control
JP5192544B2 (ja) 2007-07-13 2013-05-08 ドルビー ラボラトリーズ ライセンシング コーポレイション 聴覚情景分析とスペクトルの歪みを用いた音響処理
WO2009011826A2 (en) 2007-07-13 2009-01-22 Dolby Laboratories Licensing Corporation Time-varying audio-signal level using a time-varying estimated probability density of the level
WO2010127024A1 (en) 2009-04-30 2010-11-04 Dolby Laboratories Licensing Corporation Controlling the loudness of an audio signal in response to spectral localization
TWI503816B (zh) 2009-05-06 2015-10-11 Dolby Lab Licensing Corp 調整音訊信號響度並使其具有感知頻譜平衡保持效果之技術

Also Published As

Publication number Publication date
CN102414742B (zh) 2013-12-25
JP2012525605A (ja) 2012-10-22
US8938313B2 (en) 2015-01-20
EP2425426B1 (en) 2013-03-13
TW201106338A (en) 2011-02-16
JP5439586B2 (ja) 2014-03-12
US20120046772A1 (en) 2012-02-23
EP2425426A1 (en) 2012-03-07
HK1168188A1 (en) 2012-12-21
CN102414742A (zh) 2012-04-11
WO2010126709A1 (en) 2010-11-04

Similar Documents

Publication Publication Date Title
TWI518676B (zh) 低複雜度聽覺事件邊界檢測技術
US11694711B2 (en) Post-processing gains for signal enhancement
RU2464652C2 (ru) Способ и устройство для оценки энергии полосы высоких частот в системе расширения полосы частот
EP2737479B1 (en) Adaptive voice intelligibility enhancement
US9294060B2 (en) Bandwidth extender
JP5841666B2 (ja) 予測ベースのfmステレオ・ノイズ削減
JP4173641B2 (ja) 音声活動に基づくゲイン制限による音声強化
JP5453740B2 (ja) 音声強調装置
RU2719543C1 (ru) Устройство и способ для определения предварительно определенной характеристики, относящейся к обработке искусственного ограничения частотной полосы аудиосигнала
US8332210B2 (en) Regeneration of wideband speech
JP2006201802A (ja) 情報源符号化システムの性能向上装置
JPWO2007000988A1 (ja) スケーラブル復号装置および消失データ補間方法
JP2009539132A (ja) オーディオ信号の線形予測符号化
EP2502230A1 (en) Improved excitation signal bandwidth extension
KR20190042070A (ko) 보상 값을 사용하여 오디오 신호를 인코딩하기 위한 장치 및 방법
US20150071463A1 (en) Method and apparatus for filtering an audio signal
TW201532035A (zh) 預測式fm立體聲無線電雜訊降低
JP4173525B2 (ja) 雑音抑圧装置及び雑音抑圧方法
JP6065488B2 (ja) 帯域拡張装置及び方法
JP7152112B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
JP6765124B2 (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
JP2004234023A (ja) 雑音抑圧装置
EP2760022B1 (en) Audio bandwidth dependent noise suppression
BR112017001631B1 (pt) Aparelho e método para processamento de um sinal de áudio utilizando um pós-filtro harmônico
TWM527596U (zh) 用於預測式fm立體聲無線電雜訊降低的設備