TWI501661B - 參數式立體聲轉換系統及方法 - Google Patents

參數式立體聲轉換系統及方法 Download PDF

Info

Publication number
TWI501661B
TWI501661B TW098127411A TW98127411A TWI501661B TW I501661 B TWI501661 B TW I501661B TW 098127411 A TW098127411 A TW 098127411A TW 98127411 A TW98127411 A TW 98127411A TW I501661 B TWI501661 B TW I501661B
Authority
TW
Taiwan
Prior art keywords
data
channel
phase
frequency domain
phase difference
Prior art date
Application number
TW098127411A
Other languages
English (en)
Other versions
TW201016041A (en
Inventor
Jeffrey Thompson
Robert Reams
Aaron Warner
Original Assignee
Dts Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dts Inc filed Critical Dts Inc
Publication of TW201016041A publication Critical patent/TW201016041A/zh
Application granted granted Critical
Publication of TWI501661B publication Critical patent/TWI501661B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Description

參數式立體聲轉換系統及方法 相關申請案
本申請案主張申請於2007年8月17日,名為「Parametric Stereo Conversion System and Method」的美國臨時申請案第60/965,227號案之優先權,該申請案基於所有目的被併入此文以為參考資料。
發明領域
本發明係有關於音訊編碼器之領域,且較特定地關於一種系統及方法,用於調節具有振幅及相位資料的多聲道音訊資料,以對該相位資料的改變補償振幅資料,容使振幅資料僅對每一聲道發送,而不產生音訊人工因素(artifacts)或當該相位資料被忽略時可發生的其他雜訊。
發明背景
消除來自包括相位及振幅資料的音訊信號中的相位資料的多聲道音訊編碼技術在為業界習知者。此等技術包括參數式立體聲,利用一左聲道信號與一右聲道信號之間的振幅差的參數式立體聲被用於模擬通常會包括相位資訊的立體聲。雖然這種參數式立體聲不允許收聽者體驗完整音場深度的立體聲--完整音場深度立體聲是在相位資料也包括在信號中時會被體驗到,但是這種參數式立體聲確實提供改進簡單單聲道聲音(諸如每一聲道之振幅是相等的)上的聲音品質之一定音場深度。
將包括振幅與相位及相位資料的多聲道音訊資料轉換為僅包括振幅資料的多聲道音訊資料的一個問題是該相位資料的恰當處理。如果該相位資料僅僅被刪除,那麼音訊人工因素將被產生而導致所產生的僅振幅資料對收聽者不悅耳。一些系統,諸如先進音訊編碼(AAC)系統,利用接收器所使用的邊頻帶資訊以補償相位資料的消除,但是這種系統要求使用者具有可處理該邊頻帶資料的一指定接收器,且也遭受當一雜訊信號被引入該邊頻帶資料中時可能產生的問題,該等問題可能產生不悅耳的音訊人工因素。另外,當低位元率傳輸處理被使用時,試圖針對高頻相位變化發送邊頻帶資料可能產生音訊人工因素。
發明概要
依據本發明,一種用於處理多聲道音訊信號以用振幅資料補償相位資料的系統及方法被提供,其能克服將具有相位及振幅資料的音訊資料轉換為僅具有振幅資料的音訊資料習知問題。
特定地,一種用於處理多聲道音訊信號以用振幅資料補償相位資料的系統及方法被提供,其能消除對邊頻帶資料的需求,且對在轉換處理中可能產生的音訊人工因素提供補償。
依據本發明之一示範性實施例,一種從相位調變立體聲資料產生參數式立體聲資料之系統被提供。一相位差系統接收左聲道資料及右聲道資料,且判定該左聲道資料與該右聲道資料之間的一相位差。一相位差加權系統接收該相位差資料,且產生加權資料以基於該相位差資料調整左聲道振幅資料及右聲道振幅資料。一振幅修改系統使用該加權資料調整該左聲道振幅資料與該右聲道振幅資料,以消除該左聲道資料及右聲道資料中的相位資料。
本發明提供許多重要的技術優勢。本發明的一個重要技術優勢是一種用於處理多聲道音訊信號以用振幅資料補償相位資料的系統及方法,該系統及方法基於相位資料的變化使該振幅資料平滑,以避免音訊人工因素的產生,當低位元率振幅資料被調整以包括高頻相位變化時該等人工因素可能產生。
該技藝中具有通常知識者將在閱讀以下配合圖式的詳細說明時進一步理解本發明之優勢與更佳特徵,及本發明之其他重要層面。
圖式簡單說明
第1圖繪示依據本發明之一示範性實施例,一種用於將具有相位及振幅資料的多聲道音訊資料轉換為僅使用振幅資料的多聲道音訊資料,諸如參數式立體聲之系統的圖示;第2圖繪示依據本發明之一示範性實施例的一相位差加權因數的圖示;第3圖繪示依據本發明之一示範性實施例的一空間相干調節系統的圖示;第4圖繪示依據本發明之一示範性實施例的一種用於參數式編碼的方法的圖示;第5圖繪示依據本發明之一示範性實施例的一種用於動態相位趨勢校正的系統的圖示;第6圖繪示依據本發明之一示範性實施例的一種用於執行頻譜平滑的系統的圖示;第7圖繪示依據本發明之一示範性實施例的一種用於功率補償重新聲像調整的系統的圖示;
較佳實施例之詳細說明
在下文的描述中,相似部份在貫穿本說明書及附圖以相同的參考數字被標記。該等圖式可以不是成比例的,且某些部份可用概括性或示意性的形式被繪示,且為了清晰及簡潔可由商用名稱命名。
第1圖是一依據本發明一示範性實施例的一系統100的圖式,用於將具有相位及振幅資料的多聲道音訊資料轉換成僅使用振幅資料的多聲道音訊資料,諸如參數式立體聲。系統100識別右及左聲道聲音資料中的相位差,且將該等相位差轉換成振幅差,以僅使用強度或振幅資料產生立體聲像資料。同樣,另外的聲道也可或可選擇地被用於合適的情況。
系統100在時間對頻率轉換系統102接收時域右聲道音訊資料,在時間對頻率轉換系統104接收時域左聲道音訊資料。在一個示範性實施例中,系統100可以硬體、軟體,或硬體與軟體的一是適當組合被實施,且可以是在一數位系統處理器、一通用處理平臺,或其他適當平臺上操作的一個或一個以上軟體系統。如本文所使用的,一硬體系統可包括離散組件、一積體電路、一特定應用積體電路、一現場可程式閘陣列或其他適合硬體之一組合。一軟體系統可包括一個或一個以上物件、代理、線、編碼行、次常式、分離軟體應用、兩個或兩個以上編碼行或在兩個或兩個以上軟體應用中或在兩個或兩個以上處理器上操作的其他適合軟體結構,或其他適合的軟體結構。在一個示範性實施例中,一軟體系統可包括一個或一個以上編碼行或在一通用軟體應用上操作的其他適合軟體結構,諸如一操作系統,及一個或一個以上編碼行或在一專用軟體應用中操作的其他適合軟體結構。
時間對頻率轉換系統102及時間對頻率轉換系統104分別將該右及左聲道時域音訊資料變換為頻域資料。在一個示範性實施例中,該頻域資料可包括在一取樣週期上被捕獲的一訊框頻率資料,一適合時期,諸如30毫秒的諸如1024個頻率資料點。該等頻率資料點可在一預定頻率範圍上諸如20kHZ被被均勻地間隔,可被集中於預定頻帶,諸如巴克、等效矩形帶寬(ERB),或可被適當地分佈。
時間對頻率轉換系統102及時間對頻率轉換系統104被耦接至相位差系統106。如本文所使用的,名詞「被耦接」及其同源詞諸如「耦接(couples)」「耦接(couple)」可包括一實體連接(諸如一導線、光纖,或一電信媒體)、一虛擬連接(諸如一資料記憶體裝置之通過隨機指定的記憶體位置及一超檔傳輸協定(HTTP)鏈接)、一邏輯連接(諸如在一積體電路中通過一個或一個以上半導體裝置),或其他合適的連接。在一個示範性實施例中,一通信媒體可以是一網路或其他或適合的通信媒體。
相位差系統106判定由時間對頻率轉換系統102及時間對頻率轉換系統104產生的該訊框頻率資料中的頻率點之間的一相位差。該等相位差表示通常會由一收聽者感知的相位資料,該相位資料增強該信號的立體聲品質。
相位差系統106被耦接至緩衝器系統108,該緩衝器系統108包括N-2訊框緩衝器110、N-1訊框緩衝器112,及N訊框緩衝器114。在一個示範性實施例中,緩衝器系統108可包括一適當數目的訊框緩衝器,以儲存來自一希望數目訊框的相位差資料。N-2訊框緩衝器110儲存從相位差系統106接收的相位差資料,用於由時間對頻率轉換系統102與時間對頻率轉換系統104轉換的第二上一訊框的資料。同樣N-1訊框緩衝器112儲存相位差,用於來自相位差系統106的上一訊框的相位差資料。N訊框緩衝器114儲存目前的相位差資料,用於由相位差系統106產生的目前訊框的相位差。
相位差系統116被耦接至N-2訊框緩衝器110及N-1訊框緩衝器112,且判定儲存於該等緩衝器中的該兩組相位差資料之間的相位差。同樣,相位差系統118被耦接至N-1訊框緩衝器112及N訊框緩衝器114,且判定儲存於該等緩衝器中的該兩組相位差資料之間的相位差。同樣,附加相位差系統可被用以產生相位差,用於儲存於緩衝器系統108中的一適當數目的訊框。
相位差系統120被耦接至相位差系統116及相位差系統118,且從每一系統接收相位差資料,且判定一總的相位差。在此一示範性實施例中,三個連續訊框的頻率資料的相位差被判定,以識別具有大相位差的頻率點及具有較小相位差的頻率點。附加的相位差系統也可,或可選擇地被用以判定一預定數目訊框相位差資料的總相位差。
相位差緩衝器122儲存來自相位差系統120的前一組三訊框之相位差。同樣,如果緩衝器系統108包括多於三個訊框的相位差,相位差緩衝器122可儲存該附加相位差。相位差緩衝器122也可或可選擇地儲存相位差資料,附加之前幾組相位差資料,諸如由訊框(N-4、N-3、N-2)產生的一組,由訊框(N-3、N-2、N-1)產生的一組、由訊框(N-2、N-1、N)產生的一組、由訊框(N-1、N、N+1)產生的一組,或其他適當的相位差資料組。
相位差加權系統124接收來自相位差緩衝器122的緩衝相位差資料及來自相位差系統120的目前相位差資料,且施用一相位差加權因數。在一個示範性實施例中,顯示一高度相位差的頻率點被給予比顯示一致相位差的頻率內容較小的加權因數。以此方式,頻率差資料可被用於使該振幅資料平滑,以消除顯示連續訊框之間的高度相位差的頻率點之變化,且提供顯示連續訊框之間較低相位差之頻率點的增強。該平滑可有助於減少或消除可能藉由從具有相位及振幅資料的音訊資料到僅具有振幅資料的音訊資料,諸如參數式立體聲資料,特別是低位元率音訊資料被處理或產生的參數式立體聲資料的轉換被引入的音訊人工因素。
振幅修改系統126從相位差加權系統124接收該相位差加權因數資料,且向來自時間對頻率轉換系統102及時間對頻率轉換系統104的經轉換的右聲道及左聲道資料提供振幅修改資料。以此方式,右及左聲道依循的目前訊框頻率資料被修改,以調整該振幅以校正相位差,允許左與右振幅值之間的聲像調整被用於產生立體聲。以此方式,右聲道與左聲道之間的相位差被平滑化,且被轉換至振幅修改資料,以僅藉由振幅而不需發送相位資料模擬立體聲或其他多聲道聲音。同樣,一緩衝器系統可被用以緩衝被修改的目前訊框的頻率資料,以使用來自(N-1、N、N+1)訊框組頻率資料的資料,或其他適合的資料組。振幅修改系統126也可對預定之頻率點、頻率點組、或其他適合方式的兩個或兩個以上聲道壓縮或擴大其間的振幅差,以窄化或加寬收聽者的表觀基寬。
頻率對時間轉換系統128及頻率對時間轉換系統130從振幅修改系統126接收該修改的振幅資料,且將該頻率資料轉換為一時間信號。以此方式,由頻率對時間轉換系統128及頻率對時間轉換系統130分別產生的左聲道及右聲道資料同相,但是在振幅上變化,以僅使用強度模擬立體聲資料,使得相位資料不需要被儲存、發送或處理。
在操作中,系統100處理包含相位及振幅資料的多聲道音訊資料,且產生僅具有振幅資料的多聲道音訊資料,以減少需要被發送以產生立體聲或其他多聲道音訊資料的資料數量。系統100藉由降低高頻相位變化之效果的方式,用振幅資料補償頻率資料中之變化而消除音訊人工因素,該等音訊人工因素可在包含相位及振幅資料的音訊信號被轉換為僅包含振幅資料的音訊信號時被產生。以此方式,音訊人工因素被消除,該等人工因素可能在可供發送該音訊信號的的位元率低於精確表示高頻相位資料所需要的位元率時被引入。
第2圖是依據本發明之一示範性實施例的相位差加權因數200A與200B的圖示。相位差加權因數200A與200B繪示要以一相位變化的函數被施加於振幅資料的示範性正規化加權因數。在一個示範性實施例中,顯示一高度相位變化的頻率點是以一比顯示一較小程度相位變化的頻率點者為低的正規化加權因數加權,以消除潛在的雜訊或其他會導致參數式立體聲資料或其他多聲道資料不適當地表示該立體聲的音訊人工因素。在一個示範性實施例中,相位差加權因數200A與200B可藉由一相位差加權系統124或其他合適的系統被施用。該加權量可被修改以適應該音訊信號位元率上所期望的降低。例如,當需一高度資料減少時,給予顯示一高度相位變化之頻率點的加權可顯著地減少,諸如以相位差加權因數200A中所示的漸進方式,且當需要一較低度的資料減少時,給予顯示一高度相位變化之頻率點的加權可較不顯著地降低,諸如藉由施用相位差加權因數200B。
第3圖是依據本發明之一示範性實施例的一空間相干調節系統300。空間相干調節系統300可以硬體、軟體,或硬體與軟體的一適當組合被實施,且可以是一個或一個以上離散裝置,在一通用處理平臺上操作的一個或一個以上離散系統,或其他合適的系統。
空間相干調節系統300提供一空間調節系統,但是其他用於實施空間調節演算法的適合的框架、系統、處理或架構也可或選擇性地被使用。
空間相干調節系統300修改一多聲道音訊信號的空間層面(即,系統300說明一立體聲調節系統),以減少音訊壓縮期間的人工因素。該等立體聲輸入頻譜的相位頻譜首先由減法器302差分,以產生一差相位頻譜。該差相位頻譜通過放大器由加權因數Y(K)=B1 X(K)+B2 X(K-1)-A1 Y(K-1)被加權,其中:
Y(K)=平滑的頻率點K振幅
Y(K-1)=平滑的頻率點K-1振幅
X(K)=頻率點K振幅
X(K-1)=頻率點K-1振幅
B1 =加權因數
B2 =加權因數
A1 =加權因數;及
B1 +B2 +A1 =1
加權因數B1 、B2 及A1 可基於一觀察、系統設計,或其他適合的因素被判定。在一個示範性實施例中,加權因數B1 、B2 及A1 針對全部頻譜帶被固定。同樣,加權因數B1 、B2 及A1 可基於巴克或其他適合頻率點組被修改。
加權的差相位信號接著被分為兩個,且分別由減法器308被從該輸入相位頻譜0中被減去,由加法器306與輸入相位頻譜1求和。
在操作中,空間相干調節系統300具有產生單聲道相位頻譜帶之效果,諸如用於參數式立體聲。
第4圖是依據本發明之一示範性實施例用於參數式編碼的一方法400的圖示。方法400在音訊資料的N聲道被轉換為一頻域的402處開始。在一個示範性實施例中,左與右聲道立體聲資料在一預定時期上,可諸如藉由使用一傅立葉變換或其他適合的變換,各被轉換為一訊框頻域資料。該方法進而前進至404。
在404,該等聲道之間的相位差被判定。在一個示範性實施例中,左與右聲道音訊資料的頻譜帶可被比較,以判定該左與右聲道之間的相位差。該方法進而前進至406。
在406,該等訊框的相位差資料被儲存於一緩衝器。在一個示範性實施例中,一緩衝器系統可包括一預定數目的緩衝器,用於儲存該相位差資料,緩衝器可被動態地指定,或其他適合的處理可被使用。該方法進而前進至408。
在408,判定M訊框的資料是否被儲存於該緩衝器。在一個示範性實施例中,M可以等於三或任何其他適合的整數,以允許平滑以在一希望數目的訊框之間被執行。如果在408判定M訊框的資料未被儲存,該方法返回402。否則,該方法進而前進至410。
在410,M-1訊框與M訊框之間的一相位差被判定。例如,如果M等於三,那麼該第二訊框與地三訊框資料之間的相位差被判定。該方法進而前進至412,在412,該相位差資料被緩衝。在一個示範性實施例中,一預定數目的緩衝器可以硬體或軟體被產生,緩衝器系統可動態地分配緩衝器資料儲存帶,或其他適合的處理可被使用。該方法進而前進至414,在414,M被減少1。該方法進而前進至416,在416,判定M是否等於0。例如,當M等於0時,那麼所有經緩衝訊框的資料被處理。如果判定M不等於0,該方法返回至402。否則,該方法前進至418。
在418經緩衝訊框相位差資料之間的相位差被判定。例如,如果兩個訊框的相位差資料被儲存,那麼該等兩個訊框之間的相位差被判定。同樣,三個、四個,或其他適合數目訊框的相位差資料之間的相位差可被使用。該方法僅以前進至420,在420,該多訊框相位差資料被緩衝。該方法進而前進至422。
在422,判定一預定數目的多訊框緩衝值是否被儲存。如果判定該預定數目的多訊框緩衝值未被儲存,該方法返回402。否則該方法前進至424。
在424,上一個及目前的多訊框緩衝器的相位差資料被產生。例如,當兩個多訊框經緩衝資料值存在時,該兩個多訊框緩衝器之間的相位差被判定。同樣,當N大於2時,該目前與上一個多訊框緩衝器之間的相位差也可被判定。該方法進而前進至426。
在426,一加權因數基於該相位差資料被施用於目前、上一個或其他適合訊框的頻率資料中的每一頻率點。例如,該加權因數可將一較高權重施用於顯示小相位變化頻率點的振幅值,且可降低顯示高變化頻率點的重要性,以減少音訊人工因素、雜訊,或其他如果該相位資料被廢棄或不被計算在內時可在參數式立體聲資料中產生音訊人工因素的相位資料的資訊。該等加權因數可基於音訊資料傳輸位元率的一預定降低被選擇,且也可或可選擇地基於該頻率點或頻率點組被改變。該方法進而前進至428。
在428,該左與右聲道資料的加權頻率資料從頻域被轉換至時域。在一個示範性實施例中,該平滑處理可在一組目前訊框的音訊資料上,基於上一組訊框的音訊資料被執行。在另一示範性實施例中,該平滑處理可在上一組訊框的音訊資料上,基於上一組及下一組訊框的音訊資料被執行。同樣,其他適合的處理也可或可選擇地被使用。以此方式,音訊信號的該等聲道顯示參數式多聲道品質,其中相位資料被移除,但是該相位資料被轉換成振幅資料,以模擬多聲道聲音,而不需儲存或傳輸相位信號,且未產生音訊人工因數,該等音訊人工因素當聲道之間的相位變化頻率超出可由可利用之傳輸聲道帶寬提供的頻率時被產生。
在操作中,方法400允許參數式立體聲或其他多聲道資料被產生。方法400除去立體聲或其他多聲道資料之間的頻率差,且將該等頻率變化轉換為振幅變化,以在不需要左與右或其他要被發送或處理的多聲道之間相位關係下保存該立體聲或其他多聲道聲音的各層面。以此方式,現存的接收器可被用以產生相位補償多聲道音訊資料,毋需邊頻帶資料或其他接收器可能需要用來補償該相位資料之消除的資料。
第5圖繪示依據本發明一示範性實施例用於動態相位趨勢校正的系統500。系統500可以硬體、軟體,或硬體與軟體的一適當的組合被實施,且可以是在一通用處理平臺上操作的一個或一個以上軟體系統。
系統500包括可提供從一立體聲音源產生或接收的左及右聲道時間信號的左時間信號系統502及右時間信號系統504,或其他適合的系統。短時間傅立葉變換系統506及508分別被耦接至左時間信號系統502及右時間信號系統504,且執行該等時間信號的一時域對頻域變換。其他變換也可或可選擇地被使用,諸如一傅立葉變換、一離散餘弦變換,或其他適合的變換。
從短時間傅立葉變換系統506及508的輸出分別被提供至三訊框延遲系統510及520。短時間傅立葉變換系統506及508的振幅輸出分別被提供至振幅系統512及518。短時間傅立葉變換系統506及508的相位輸出分別被提供至相位系統514及516。附加處理可由振幅系統512與518及相位系統514與516被執行,或該等系統可提供各自的未處理信號或資料。
臨界頻帶濾波器組522及524分別從振幅系統512及518接收振幅資料,及頻率資料的濾波器預定頻帶。在一個示範性實施例中,臨界濾波器組522及524可基於一心理聲學濾波器將線性相關的頻率點分組為非線性組的頻率點,該心理聲學濾波器基於該等頻率點的感知能量及人類聽覺或回應,諸如一巴克頻率標度而將頻率點分組。在一個示範性實施例中,該巴克頻率標度可以1到24巴克為範圍,相對應於人類聽覺的第一個24臨界頻帶。該示範性巴克頻帶邊緣被給定為0、100、200、300、400、510、630、770、920、1080、1270、1480、1720、2000、2320、2700、3150、3700、4400、5300、6400、7700、9500、12000、15500赫茲。該示範性頻帶以50、150、250、350、450、570、700、840、1000、1170、1370、1600、1850、2150、2500、2900、3400、4000、4800、5800、7000、8500、10500、13500赫茲為中心。
在該示範性實施例中,該巴克頻率標度僅被界定為高達15.5kHz。正因如此,該示範性巴克標度的最高取樣率是奈奎斯特基線,或31kHz。一第25示範性巴克頻帶可被使用,其延伸於19kHz之上(第34巴克頻帶邊緣與第23臨界帶寬之和),使得一40kHz的取樣率可被使用。同樣,附加巴克頻帶邊緣諸如藉由附加20500與27000的值可被使用,使得高達54kHz的取樣率可被使用。雖然人類聽覺通常不延伸於20kHz之上,但是高於40kHz的音訊取樣率在實施中很普通。
時間平滑系統526從臨界頻帶濾波器組522與524接收濾波振幅資料,且從相位系統514與516接收相位資料,且執行該資料的時間平滑。在一個示範性實施例中,該左與右聲道之間的一相位差量可諸如藉由應用如下的演算法或以其他適當方式被判定:
P [m ,k ]=∠X l [m ,k ]-∠X r [m ,k ]
其中:P=左與右聲道之間的相位差;Xl =左立體聲輸入信號;Xr =右立體聲輸入信號;m=目前訊框;及k=頻率點指數
一差量平滑係數可進而,諸如藉由應用如下演算法或以其他適當方式被判定:
其中:δ=平滑係數;x=控制平滑偏移的參數(典型地是1,可大於1以增加聲像調整且可小於1以減少聲像調整);P=左、右聲道之間的相位差;m=目前訊框;及k=頻率點指數。
該頻譜支配平滑係數可進而諸如藉由應用如下演算法或以其他適當方式被判定:
其中:D=平滑係數;C=臨界頻帶能量(濾波器組輸出);N=感知頻帶(濾波器組頻帶);m=目前訊框;及b=頻帶。
該相位差量信號可進而,諸如藉由應用如下演算法或以適當方式被平滑:
P [m ,k ]=D [m ,k ]‧δ[m ,k ]‧(P [m ,k ]-P [m -1,k ])
其中:δ=平滑係數;D=被重映射至線性等效頻率的頻譜支配權重;及P=左與右聲道之間的相位差。
頻譜平滑系統528從時間平滑系統接收該輸出,且執行該輸出的頻譜平滑,諸如減少可產生不需要的人工因素的頻譜變化。
相位響應濾波器系統530接收頻譜平滑系統528及時間延遲系統510與512的輸出,且執行相位響應濾波。在一個示範性實施例中,相位響應濾波器系統530可,諸如應用如下方程式或以其他適當方式計算相移係數:
其中:Yl =左聲道複合濾波器係數;Yr =右聲道複合濾波器係數;及X=輸入相位信號。
該輸入信號可進而,諸如藉由施用如下演算法或以其他適當方式被濾波:
H l (e j ω )=X l (e j ω )‧Y l (e j ω )
H r (e j ω )=X r (e j ω )‧Y r (e j ω )
其中:Yl =左複合係數;Yr =右複合係數;Xl =左立體聲輸入信號;Yr =右立體聲輸入信號;Hl =左相移結果;及Hl =右相移結果。
短時傅立葉反變換系統532及534分別從相位響應濾波器系統530接收左及右相移資料,且在該資料上執行一短時傅立葉反變換。其他變換也可,或可選擇地被使用,諸如一反傅立葉變換、一反離散餘弦變換,或其他適合的變換。
左時間信號系統536及右時間信號系統538提供一左及右聲道信號,諸如傳輸在一低位元率聲道上的一立體聲信號。在一個示範性實施例中,由左時間信號系統536與右時間信號系統538提供的處理信號可被用以提供立體聲音資料,藉由消除會產生不想要的音訊人工因素的音訊成份,該立體聲音資料具有低位元率的改進音訊品質。
第6圖繪示依據本發明之一示範性實施例的用於執行頻譜平滑的一系統600。系統600可以硬體、軟體或硬體與軟體的一適當組合被實施,且可以是在一通用處理平臺上操作的一個或一個以上軟體系統。
系統600包括相位信號系統602,該相位信號系統602可諸如從時間平滑系統502或其他適當系統接受一經處理的相位信號。餘弦系統604及正弦系統606分別產生該經處理相位信號的一相位的餘弦及正弦值。零相位濾波器608及610分別執行該等餘弦及正弦值的零相位濾波,且相位估計系統612接收零相位濾波之餘弦及正弦資料,且產生一頻譜平滑的信號。
在操作中,系統600接收具有從Π到-Π變化的一相位值的相位信號,該相位信號可為難以濾波減少高頻成份者。系統600將該相位信號轉換為正弦及餘弦值,以允許一零相位濾波器被用以減少高頻成份。
第7圖繪示依據本發明一示範性實施例用於功率補償強度重新聲像調整的一系統700。系統700可以軟體、硬體,或硬體與軟體的一適當組合被實施,且可以是在一通用處理平臺上操作的一個或一個以上軟體系統。
系統700包括可提供從一立體聲音源產生或接收的左及右聲道時間信號的左時間信號系統702及右時間信號系統704,或其他適當系統。短時間傅立葉變換系統706及710分別被耦接至左時間信號系統702及右時間信號系統704,且執行該等時間信號的一時域對頻域變換。其他變換也可或可選擇地被使用,諸如一傅立葉變換、一離散餘弦變換,或其他適當變換。
強度重新聲像調整系統708執行右及左聲道變換信號的強度重新聲像調整。在一個示範性實施例中,強度重新聲像調整系統708可應用如下演算法或其他適當處理:
其中:Ml =左聲道強度聲像調整信號;Mr =右聲道強度聲像調整信號;Xl =左聲道立體聲輸入信號;Mr =右聲道立體聲輸入信號;及β=補償因該左與右信號之間的相位差除去造成的立體聲聲像之感知塌陷的非線性選項(典型地是1,可大於1以增加聲像調整或小於1以減少聲像調整)。
合成信號產生系統712由該右與左聲道變換信號及該左與右聲道強度聲像調整信號產生一合成信號。在一個示範性實施例中,該合成信號產生系統712可應用如下演算法或其他適當處理:
C l (e j ω )=(X l (e j ω )‧(1-W (e j ω )))+(M l (e j ω )‧W (e j ω ))
C r (e j ω )=(X r (e j ω )‧(1-W (e j ω )))+(M r (e j ω )‧W (e j ω ))
其中:
Cl =由該依賴頻率視窗(W)決定、包含與強度聲像調整信號混合之原始信號的左聲道合成信號
Cr =由該依賴頻率視窗(W)決定、包含與強度聲像調整信號混合之原始信號的右聲道合成信號
Xl =左立體聲輸入信號
Xr =右立體聲輸入信號
Ml =左強度聲像調整信號
Mr =右強度聲像調整信號
W=決定不同頻率之混合的頻率依賴視窗(可變旁路頻率;如果是0,則僅大於零(例如0.5)的原始信號導致原始及強度聲像調整信號混合)
功率補償系統714從該右與左聲道變換信號及該左與右聲道複合信號產生一功率補償信號。在一個示範性實施例中,功率補償系統714可應用如下演算法或其他適當處理:
其中:Yl =左聲道功率補償信號;Yr =右聲道功率補償信號;Cl =左聲道合成信號;Cr =右聲道合成信號;Xl =左聲道立體聲輸入信號;及Xr =右聲道立體聲輸入信號。
短時傅立葉反變換系統716及718從功率補償系統714接收功率補償資料,且在該資料上執行一短時傅立葉反變換。其他變換也可或可選擇地被使用,諸如一傅立葉反變換、一離散餘弦變反換,或其他適當變換。
左時間信號系統720及右時間信號系統722提供一左及右聲道信號,諸如一立體聲信號,用於一低位元率聲道上的傳輸。在一個示範性實施例中,由左時間信號系統720及右時間信號系統722提供的處理信號可被用於提供立體聲資料,該立體聲資料藉由消除會產生不想要的音訊人工因素的音訊成份而具有低位元率的改進音訊品質。
雖然本發明之一系統及方法的示範性實施例已在本文中被詳細描述,該技藝中具有通常知識者也將認識到可對該等系統及方法作出各種替換及修改,而不違背所附申請專利範圍的範圍及精神。
100、600、700...系統
102、104...時間對頻率轉換系統
106、116、118、120...相位差系統
108...緩衝器系統
110...N-2訊框緩衝器
112...N-1訊框緩衝器
114...N訊框緩衝器
122...相位差緩衝器
124...相位差加權系統
126...振幅修改系統
128、130...頻率對時間轉換系統
200A、200B...相位差加權因數
300...空間相干調節系統
302、308...減法器
306...加法器
400...方法
402~428...步驟
500...動態相位趨勢校正系統
502、536、702、720...左時間信號系統
504、538、704、722...右時間信號系統
506、508、706、710...短時間傅立葉變換系統
510、520...三訊框延遲
512、518...振幅系統
514、516...相位系統
522、524...臨界頻帶濾波器組
526...時間平滑系統
528...頻譜平滑系統
530...相位響應濾波器系統
532、534、716、718...短時傅立葉反變換系統
602...相位信號系統
604...餘弦系統
606...正弦系統
608、610...零相位濾波器
612...相位估計
708...強度重新聲像調整系統
712...合成信號產生系統
714...功率補償系統
STFT...短時間傅立葉變換
MAG...振幅系統
INV STFT...短時傅立葉反變換
第1圖繪示依據本發明之一示範性實施例,一種用於將具有相位及振幅資料的多聲道音訊資料轉換為僅使用振幅資料的多聲道音訊資料,諸如參數式立體聲之系統的圖示;
第2圖繪示依據本發明之一示範性實施例的一相位差加權因數的圖示;
第3圖繪示依據本發明之一示範性實施例的一空間相干調節系統的圖示;
第4圖繪示依據本發明之一示範性實施例的一種用於參數式編碼的方法的圖示;
第5圖繪示依據本發明之一示範性實施例的一種用於動態相位趨勢校正的系統的圖示;
第6圖繪示依據本發明之一示範性實施例的一種用於執行頻譜平滑的系統的圖示;
第7圖繪示依據本發明之一示範性實施例的一種用於功率補償強度重新聲像調整的系統的圖示;
100...系統
102、104...時間對頻率轉換系統
106、116、118、120...相位差系統
108...緩衝器系統
110...N-2訊框緩衝器
112...N-1訊框緩衝器
114...N訊框緩衝器
122...相位差緩衝器
124...相位差加權系統
126...振幅修改系統
128、130...頻率對時間轉換系統

Claims (5)

  1. 一種用以從經相位調變的立體聲資料產生參數式立體聲資料的系統,包含:一相位差系統,接收左聲道音訊資料及右聲道音訊資料,且基於從該左聲道音訊資料產生之左聲道頻域資料與從該右聲道音訊資料產生之右聲道頻域資料之間的一相位差來產生相位差資料,其中該左聲道頻域資料包含左聲道振幅資料及左聲道相位資料,且該右聲道頻域資料包含右聲道振幅資料及右聲道相位資料;一相位差加權系統,接收該相位差資料,且產生加權資料,以供基於該相位差資料調整該左聲道振幅資料與該右聲道振幅資料;及一量值修改系統,使用該加權資料調整該左聲道振幅資料及該右聲道振幅資料,並從該左聲道頻域資料中消除該左聲道相位資料及從該右聲道頻域資料中消除該右聲道相位資料。
  2. 如申請專利範圍第1項所述之系統,其中該相位差加權系統接收左聲道頻域資料及右聲道頻域資料的多個訊框。
  3. 如申請專利範圍第2項所述之系統,進一步包含一緩衝器系統,其針對左聲道頻域資料與右聲道頻域資料的兩個或兩個以上對應訊框來儲存該左聲道頻域資料與該右聲道頻域資料之間的該相位差資料。
  4. 如申請專利範圍第1項所述之系統,進一步包含一頻域 對時域轉換系統,其從該量值修改系統接收消除掉該左聲道相位資料的該左聲道頻域資料及消除掉該右聲道相位資料的該右聲道頻域資料,並將該左聲道頻域資料及該右聲道頻域資料轉換成經振幅調整的左聲道時域資料與經振幅調整的右聲道時域資料。
  5. 一種用以從經相位調變的音訊資料產生參數式音訊資料的方法,其包含下列步驟:將一第一聲道音訊資料從一時域信號轉換為第一聲道頻域資料,其中該第一聲道頻域資料包含第一聲道振幅資料及第一聲道相位資料;將一第二聲道音訊資料從一時域信號轉換為第二聲道頻域資料,其中該第二聲道頻域資料包含第二聲道振幅資料及第二聲道相位資料;判定該第一聲道頻域資料與該第二聲道頻域資料之間的一相位差;判定加權資料,以供基於該第一聲道頻域資料與該第二聲道頻域資料之間的該相位差,應用至該第一聲道振幅資料及該第二聲道振幅資料;及以該加權資料調整該第一聲道振幅資料;以該加權資料調整該第二聲道振幅資料;從該第一聲道頻域資料中消除該第一聲道相位資料;以及從該第二聲道頻域資料中消除該第二聲道相位資料。
TW098127411A 2008-08-15 2009-08-14 參數式立體聲轉換系統及方法 TWI501661B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US12/192,404 US8385556B1 (en) 2007-08-17 2008-08-15 Parametric stereo conversion system and method

Publications (2)

Publication Number Publication Date
TW201016041A TW201016041A (en) 2010-04-16
TWI501661B true TWI501661B (zh) 2015-09-21

Family

ID=41669154

Family Applications (1)

Application Number Title Priority Date Filing Date
TW098127411A TWI501661B (zh) 2008-08-15 2009-08-14 參數式立體聲轉換系統及方法

Country Status (9)

Country Link
US (1) US8385556B1 (zh)
EP (1) EP2313884B1 (zh)
JP (1) JP5607626B2 (zh)
KR (1) KR101552750B1 (zh)
CN (1) CN102132340B (zh)
HK (2) HK1150186A1 (zh)
PL (1) PL2313884T3 (zh)
TW (1) TWI501661B (zh)
WO (1) WO2010019265A1 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110206223A1 (en) * 2008-10-03 2011-08-25 Pasi Ojala Apparatus for Binaural Audio Coding
US20110206209A1 (en) * 2008-10-03 2011-08-25 Nokia Corporation Apparatus
EP2326108B1 (en) * 2009-11-02 2015-06-03 Harman Becker Automotive Systems GmbH Audio system phase equalizion
RU2683175C2 (ru) 2010-04-09 2019-03-26 Долби Интернешнл Аб Стереофоническое кодирование на основе mdct с комплексным предсказанием
FR2966634A1 (fr) * 2010-10-22 2012-04-27 France Telecom Codage/decodage parametrique stereo ameliore pour les canaux en opposition de phase
JP6216553B2 (ja) * 2013-06-27 2017-10-18 クラリオン株式会社 伝搬遅延補正装置及び伝搬遅延補正方法
PL3429233T3 (pl) 2013-07-30 2020-11-16 Dts, Inc. Dekoder matrycowy z panoramowaniem parami o stałej mocy
EP3074969B1 (en) * 2013-11-27 2018-11-21 DTS, Inc. Multiplet-based matrix mixing for high-channel count multichannel audio
CN104681029B (zh) * 2013-11-29 2018-06-05 华为技术有限公司 立体声相位参数的编码方法及装置
US10045145B2 (en) * 2015-12-18 2018-08-07 Qualcomm Incorporated Temporal offset estimation
US10491179B2 (en) * 2017-09-25 2019-11-26 Nuvoton Technology Corporation Asymmetric multi-channel audio dynamic range processing
CN107799121A (zh) * 2017-10-18 2018-03-13 广州珠江移动多媒体信息有限公司 一种无线广播音频的数字水印嵌入及检出方法
CN108962268B (zh) * 2018-07-26 2020-11-03 广州酷狗计算机科技有限公司 确定单声道的音频的方法和装置
CN109036455B (zh) * 2018-09-17 2020-11-06 中科上声(苏州)电子有限公司 直达声与背景声提取方法、扬声器系统及其声重放方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060029231A1 (en) * 2001-07-10 2006-02-09 Fredrik Henn Efficient and scalable parametric stereo coding for low bitrate audio coding applications
US20070189551A1 (en) * 2006-01-26 2007-08-16 Tadaaki Kimijima Audio signal processing apparatus, audio signal processing method, and audio signal processing program
TW200742275A (en) * 2006-03-21 2007-11-01 Dolby Lab Licensing Corp Low bit rate audio encoding and decoding in which multiple channels are represented by fewer channels and auxiliary information
TW200746697A (en) * 2005-09-30 2007-12-16 Thine Electronics Inc Stereo modulator and FM stereo modulator employing the same
TW200829066A (en) * 2006-10-16 2008-07-01 Fraunhofer Ges Forschung Apparatus and method for multi-channel parameter transformation

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL9100173A (nl) * 1991-02-01 1992-09-01 Philips Nv Subbandkodeerinrichting, en een zender voorzien van de kodeerinrichting.
AU2003201097A1 (en) 2002-02-18 2003-09-04 Koninklijke Philips Electronics N.V. Parametric audio coding
ATE430360T1 (de) 2004-03-01 2009-05-15 Dolby Lab Licensing Corp Mehrkanalige audiodekodierung
US7639823B2 (en) 2004-03-03 2009-12-29 Agere Systems Inc. Audio mixing using magnitude equalization
TWI393121B (zh) 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式
US7848931B2 (en) * 2004-08-27 2010-12-07 Panasonic Corporation Audio encoder
US7283634B2 (en) * 2004-08-31 2007-10-16 Dts, Inc. Method of mixing audio channels using correlated outputs
US8190425B2 (en) 2006-01-20 2012-05-29 Microsoft Corporation Complex cross-correlation parameters for multi-channel audio

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060029231A1 (en) * 2001-07-10 2006-02-09 Fredrik Henn Efficient and scalable parametric stereo coding for low bitrate audio coding applications
TW200746697A (en) * 2005-09-30 2007-12-16 Thine Electronics Inc Stereo modulator and FM stereo modulator employing the same
US20070189551A1 (en) * 2006-01-26 2007-08-16 Tadaaki Kimijima Audio signal processing apparatus, audio signal processing method, and audio signal processing program
TW200742275A (en) * 2006-03-21 2007-11-01 Dolby Lab Licensing Corp Low bit rate audio encoding and decoding in which multiple channels are represented by fewer channels and auxiliary information
TW200829066A (en) * 2006-10-16 2008-07-01 Fraunhofer Ges Forschung Apparatus and method for multi-channel parameter transformation

Also Published As

Publication number Publication date
JP2012500410A (ja) 2012-01-05
WO2010019265A1 (en) 2010-02-18
CN102132340B (zh) 2012-10-03
JP5607626B2 (ja) 2014-10-15
EP2313884A1 (en) 2011-04-27
KR101552750B1 (ko) 2015-09-11
CN102132340A (zh) 2011-07-20
US8385556B1 (en) 2013-02-26
EP2313884B1 (en) 2014-03-26
TW201016041A (en) 2010-04-16
HK1155549A1 (en) 2012-05-18
EP2313884A4 (en) 2012-12-12
PL2313884T3 (pl) 2014-08-29
KR20110055651A (ko) 2011-05-25
HK1150186A1 (en) 2011-11-04

Similar Documents

Publication Publication Date Title
TWI501661B (zh) 參數式立體聲轉換系統及方法
US8971551B2 (en) Virtual bass synthesis using harmonic transposition
US8494199B2 (en) Stability improvements in hearing aids
JP5290956B2 (ja) 音声信号相関分離器、マルチチャンネル音声信号プロセッサ、音声信号プロセッサ、入力音声信号から出力音声信号を導き出すための方法およびコンピュータプログラム
KR101283741B1 (ko) N채널 오디오 시스템으로부터 m채널 오디오 시스템으로 변환하는 오디오 공간 환경 엔진 및 그 방법
US8755545B2 (en) Stability and speech audibility improvements in hearing devices
EP2612322A1 (en) Method and apparatus for encoding/decoding multichannel audio signal
EP2720477B1 (en) Virtual bass synthesis using harmonic transposition
CN111970627A (zh) 音频信号的增强方法、装置、存储介质和处理器
KR101637407B1 (ko) 부가적인 출력 채널들을 제공하기 위하여 스테레오 출력 신호를 발생시키기 위한 장치와 방법 및 컴퓨터 프로그램
CN106941006B (zh) 用于音频信号的分离和低音增强的方法、装置和系统
CN108604454B (zh) 音频信号处理装置和输入音频信号处理方法
US20130085762A1 (en) Audio encoding device
JPWO2019203127A1 (ja) 情報処理装置、これを用いたミキシング装置、及びレイテンシ減少方法
CA2729707C (en) Sub-band processing complexity reduction
WO2013050605A1 (en) Stability and speech audibility improvements in hearing devices

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees