TWI429302B - 音頻訊號之處理方法及其裝置 - Google Patents

音頻訊號之處理方法及其裝置 Download PDF

Info

Publication number
TWI429302B
TWI429302B TW098125672A TW98125672A TWI429302B TW I429302 B TWI429302 B TW I429302B TW 098125672 A TW098125672 A TW 098125672A TW 98125672 A TW98125672 A TW 98125672A TW I429302 B TWI429302 B TW I429302B
Authority
TW
Taiwan
Prior art keywords
signal
gain
audio signal
volume
audio
Prior art date
Application number
TW098125672A
Other languages
English (en)
Other versions
TW201012246A (en
Inventor
Jong Ha Moon
Hyen O Oh
Joon Il Lee
Myung Hoon Lee
Yang Won Jung
Original Assignee
Lg Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lg Electronics Inc filed Critical Lg Electronics Inc
Publication of TW201012246A publication Critical patent/TW201012246A/zh
Application granted granted Critical
Publication of TWI429302B publication Critical patent/TWI429302B/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/05Generation or adaptation of centre channel in multi-channel audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

音頻訊號之處理方法及其裝置
本發明係關於一種語音訊號之音量控制裝置及其方法,用於單獨地控制從音頻訊號中擷取之語音訊號之音量,特別是一種透過其相位被反向之左右通道之一條通道對應之增益值之相位被反向,單獨地控制語音訊號之音量之裝置及其方法。
通常,音頻放大技術用於放大家庭娛樂系統、立體聲系統以及其他家用電子產品裝置中的低頻訊號與實施各種收聽之環境(例如,音樂廳等)。例如,單獨對話音量(separate dialog volume;SDV)表示一種技術,用於從立體聲/多通道音頻訊號中擷取語音訊號(例如,對話),然後單獨地控制擷取之語音訊號之音量,以解決在觀看電視或電影時難以傳送語音之問題。
通常,在例如電視接收機、數位多媒體廣播(digital multimedia broadcast;DMB)播放器、個人媒體播放器(personal media players;PMP)等用於播放音頻訊號之各種裝置中,依照使用者做出的請求,音頻/視訊訊號中包含的語音訊號之音量控制裝置與方法能夠高效地控制語音訊號。
然而,由於傳輸錯誤之原因或者有意而為,左右通道訊號之相位被反向,無論單聲道訊號如何(例如,如果輸入訊號被廣泛傳播而非集中於聲音上的特定點),如果左右通道訊號之相關性為負值,由於單獨對話音量演算法之特性之原因,對應訊號不會被識別為語音訊號。因此,無法控制對應的音量。
其間,單獨對話音量演算法之操作需要依照使用者做出地請求被人工控制,因此使用者不便於使用電視接收機等。
因此,本發明的目的在於提供一種語音訊號之音量控制裝置及其方法,用於單獨地控制從音頻訊號中擷取之語音訊號之音量,實質上避免習知技術之限制與缺陷所導致的一或多個問題。
本發明之目的在於提供一種用於單獨控制反向相位音頻訊號之語音訊號之音量之裝置及其方法,其中透過輸入訊號是否為包含相位被反向之左右通道之反向相位單聲道訊號之判定過程,此音頻訊號之一條通道對應之最終增益值之標誌被改變,或者此音頻訊號之一條通道對應之最終增益之值被調整。
本發明之另一目的在於提供一種裝置,透過自動地控制啟動單獨對話音量之時序點,以單獨地控制語音訊號之音量。
因此,本發明提供以下效果或優點。
首先,在反向相位之輸入音頻訊號中,透過改變最終增益之標誌或者調整此音頻訊號之左右通道之一條通道對應之最終增益之值,可控制語音訊號之音量。
第二,在反向相位輸入音頻訊號中,透過反向此語音訊號之或者左通道或者右通道之相位,可控制語音訊號之音量。
第三,透過判定輸入音頻訊號之通道間相關性,可檢查此輸入音頻訊號之相位是否被反向。
第四,透過自動地控制啟動單獨對話音量之時序點,可單獨地控制語音訊號之音量。
本發明其他的優點、目的和特徵將在如下的說明書中部分地加以闡述,並且本發明其他的優點、目的和特徵對於本領域的普通技術人員來說,可以透過本發明如下的說明得以部分地理解或者可以從本發明的實踐中得出。本發明的目的和其它優點可以透過本發明所記載的說明書和申請專利範圍中特別指明的結構並結合图式部份,得以實現和獲得。
為了獲得本發明的這些目的和其他特徵,現對本發明作具體化和概括性的描述,本發明的一種音頻訊號之處理方法包含:獲得多通道音頻訊號,此多通道音頻訊號包含語音分量訊號以及其他分量訊號;獲得此音頻訊號之增益;獲得修正強度參數,用於判定語音分量訊號之修正強度;根據修正強度參數修正增益;以及根據修正增益修正語音分量訊號。
較佳地,此方法更包含修正獲得增益。
較佳地,修正強度參數係根據語音分量訊號以及其他分量訊號之功率被判定。
更佳地,此增益係根據語音分量訊號之功率與其他分量訊號之功率之間的差值被修正。
較佳地,此修正強度參數係根據外部雜訊之一值被判定。
更佳地,此增益係根據外部雜訊之值被修正而被修正。
為了進一步獲得本發明的這些目的和其他優點,本發明的一種音頻訊號之處理裝置包含:增益獲得單元,用於獲得多通道音頻訊號以及獲得此音頻訊號之增益,此多通道音頻訊號包含語音分量訊號與其他分量訊號;自動單獨對話音量偵測單元,用於獲得修正強度參數,此修正強度參數用於判定語音分量訊號之修正強度;增益修正單元,用於根據修正強度參數修正增益;以及訊號修正單元,根據修正增益修正此語音分量訊號。
可以理解的是,如上所述的本發明之概括說明和隨後所述的本發明之詳細說明均是具有代表性和解釋性的說明,並且是為了進一步揭示本發明之申請專利範圍。
現在將結合圖式部份對本發明的較佳實施方式作詳細說明。首先,本說明與申請專利範圍中使用的術語或詞彙並非被解釋為限制於一般或詞典含義,而是應該根據發明人依照最佳方式能夠適當地定義術語之概念以描述發明人之發明之原則,被解釋為與本發明之技術構思匹配之含義與概念。本說明所揭露之實施例與附圖所示配置僅僅為一個較佳實施例,並非表示本發明之全部技術構思。因此,可以理解的是,在不脫離本發明之精神和範圍內,所為之更動與潤飾,均屬本發明之專利保護範圍。
特別地,本揭露之〞資訊〞係為通常包含數值、參數、係數、元素等的術語,其含義偶爾可被解釋為不同的意思,本發明並非限制於此。
本發明之語音訊號(特別地,對話分量)音量控制技術係關於一種音頻訊號處理裝置及其方法,用於修正反向相位單聲道訊號環境中的語音訊號,其中左右通道的相位由於傳輸錯誤或有意被反向。首先,在以下描述中,將解釋代替反向相位單聲道訊號環境之一般環境中用於修正語音訊號之音頻訊號處理裝置及方法。
「第1圖」所示係為透過電視等播放音頻訊號之過程示意圖。
請參考「第1圖」,語音訊號C作為相同訊號被應用至左右揚聲器,然後通過觀看者所處的收聽空間被傳送至收聽者的兩個耳朵。由此,單獨對話音量法擷取作為相同訊號被應用至左右通道之語音訊號C,然後控制所擷取之語音訊號之音量,以被收聽者清楚地或者不清楚地聽到。例如在新聞之單聲道訊號中,當單獨對話音量從左右通道訊號中擷取相同訊號時,整個訊號被擷取。當單獨對話音量控制語音訊號時,更特別地當對話音量被控制時,可產生控制整個音量之效果。
「第2圖」所示係為一般單聲道訊號環境或反向相位單聲道訊號環境中透過電視等播放音頻訊號之過程示意圖。
請參考「第2圖」,在一般單聲道訊號環境中,左右通道訊號之功率與相位相同。然而,為了給特別廣播之單聲道訊號環境產生輕微地立體聲效果,左右通道訊號可依照左右通道訊號之相位被反向之方式被傳送。這被稱為反向相位單聲道訊號環境。此實例中,如果透過廣播站有意反向之訊號被傳送,如果由於傳輸錯誤導致的錯誤訊號被傳送,或者如果初始訊號包含此特性,則產生反向相位單聲道訊號環境。在反向相位單聲道訊號環境中,雖然左右通道訊號建立相同訊號,因為左右訊號之相位被反向,所以一般的單獨對話音量無法找到左右通道訊號之相同分量。因此,根本無法擷取任何語音分量。
「第3圖」所示係為用於對話增強技術之混合模型300之方塊圖。在模型300中,收聽者接收來自左右通道之音頻訊號。音頻訊號s對應透過因數a所判定之方向之局部聲音。獨立音頻訊號n1與n2對應橫向反射或回響之聲音,通常被稱為環繞聲音或氛圍。立體聲訊號可被記錄或混合,這樣對應既定音頻來源而言,此來源音頻訊號同調地進入帶有特定方向暗示(例如,位準差、時間差)之左右音頻訊號通道,橫向反射或回響之獨立訊號n1與n2進入通道,判定聽覺事件寬度與收聽者圍繞暗示。模型300可在數學上被表示為立體聲訊號之感知推動分解,具有捕獲音頻來源之一個音頻來源以及氛圍。
【數學公式1】
x 1 ( n )= s ( n )+ n 1 ( n )
x 2 ( n )= as ( n )+ n 2 ( n )
在具有多個同時啟動的音頻來源的非靜止情景中,為了得到有效的分解,[1]之分解可獨立地根據頻帶數以及適應性地在時間上被完成。
【數學公式2】
X 1 ( i , k )= S ( i , k )+ N 1 ( i , k )
X 2 ( i , k )= A ( i , k ) S ( i , k )+ N 2 ( i , k ),
其中,i為次頻帶索引,k為次頻帶時間索引。
「第4圖」所示係為使用時-頻網格(tiles)之立體聲訊號之分解圖形。具有索引i與k之每一時-頻網格400中,訊號S、N1、N2以及分解增益因數A可單獨被估計。為了便於表示,在以下描述中省略次頻帶索引i與時間索引k。
當使用感知推動的次頻帶頻寬之次頻帶分解時,可選擇次頻帶之頻寬以等於一個臨界頻帶。在每一次頻帶中,大約每t毫秒(例如,20毫秒)可估計S、N1、N2與A。對於低計算複雜度,短時傅立葉轉換(short-time Fourier transform;STFT)可用於實施快速傅立葉轉換(fast Fourier transform;FFT)。給出立體聲次頻帶訊號X1與X2,可判定估計S、A、N1、N2。X1之功率之短時估計可被標記為
【數學公式3】
其中E {(i ,k )}為短時平均操作。對於其他訊號來說,可使用相同的約定,即PX2、PS以及PN=PN1=PN2係為對應的短時功率估計。假設N1與N2之功率相同,即假設橫向獨立聲音之數量對於左右通道來說相同。
給出立體聲訊號之次頻帶表示,可判定功率(PX1,PX2)與正規化互相關(cross-correlation)。左右通道之間的正規化互相關為
A、PS、PN可被計算為估計的PX1、PX2與Φ之函數。與已知以及未知變數相關之三個方程為:
方程[5]可解出A、PS與PN,從而產生
【數學公式6】
其中
接下來,S、N1、N2之最小平方估計被計算為A、PS與PN之函數。對於每一i與k,訊號S可被估計為
其中,w1與w2為實值權重(real-valued weight)。估計錯誤為
【數學公式9】
E =(1- w 1 - w 2 A ) S - w 1 N 1 - w 2 N 2 .
當誤差E正交於X1與X2時,權重w1與w2在最小二乘意義中為最佳,即
【數學公式10】
E { EX 1 }=0
E { EX 2 }=0,
產生兩個方程
【數學公式11】
(1- w 1 - w 2 A ) P S - w 1 P N =0
A (1- w 1 - w 2 A ) P S - w 2 P N =0,
由此計算出權重,
N1 之估計可為
估計誤差為
【數學公式14】
E =(- w 3 - w 4 A ) S -(1- w 3 ) N 1 - w 2 N 2 .
再次計算權重,這樣估計誤差正交於X1與X2,產生
【數學公式15】
用於計算N2之最小平方估計之權重,
某些實施例中,最小平方估計可被後規格化(post-scaled),這樣估計之功率等於PS並且PN=PN1=PN2。之功率為
因此,為了用功率PS獲得S之估計,被規格化為
因為類似的理由,被規格化
給出之前描述的訊號分解,透過在每一時間為每一此頻帶應用[2]並且轉換此次頻帶回到時間域,可獲得與原始立體聲訊號類似的訊號。
為了用經過修正的對話增益產生此訊號,次頻帶被計算為
此處g(i,k)係為計算的用分貝表示的增益因數,這樣對話增益依照期望被修正。
這些觀察意味著在非常低的頻率以及8 kHz以上處g(i,k)被設定為0 dB,潛在地盡可能小地修正立體聲訊號。
如上所述,X1與X2分別表示公式2中單獨對話音量之左右輸入訊號。Y1與Y2分別表示公式21中單獨對話音量之左右輸出訊號。然而,在反向相位單聲道訊號環境中,其中輸入包含反向相位,在單獨對話音量之左右輸入訊號中,則變為X2=-X1。如果這被插入公式,然後展開,則變為Y1=X1以及Y2=X2[A=1]。因此,如果輸入包含相反相位,一般單獨對話音量可在此輸入中識別出背景聲音,背景聲音中根本不存在任何語音訊號,然後完整地輸出此輸入。
然而,反向相位單聲道訊號環境並非完全不包含語音訊號之狀況。反而,反向相位單聲道訊號環境被產生以被迫產生立體聲效果,或者由於傳輸期間的錯誤而出現。因此,整個訊號被識別為語音訊號,然後被處理。
為了避免在產生公式21之Y1與Y2時X1與X2被抵消,需要反向X1或者X2之相位,或者反向與X1或者X2對應之增益值之相位。
使用以上公式,X與Y之間的關係可表示如下。
此實例中,表示增益X1Y1,w 2 +w 4 表示增益X1Y2,表示增益X2Y2,Aw 2 +w 4 表示增益X2Y1。
公式22中,透過增加包含增益X1Y2以及反向的X2Y1之相位至原始相位,因為語音訊號被抵消,透過反向或者X1或者X2之相位或者增益之相位,可輸出未被抵消之語音訊號。
本發明係關於一種獨立地控制輸入訊號之語音訊號之方法,輸入訊號中包含由反向增益之相位而產生的反向相位,本發明並非限制於此。在反向相位單聲道訊號環境中,如果增益X1Y2與X2Y1之相位被反向,Y1與Y2可被輸出,而X1與X2之相位被保持。即,語音訊號可透過控制(例如,對話音量被控制)被輸出,而反向相位單聲道訊號環境被保持。另一方面,如果增益X2Y1與X2Y2之相位被反向,Y1與Y2被輸出,作為包含輸入X1之相同相位之一般單聲道環境訊號,以代替反向相位單聲道訊號環境。如果增益X1Y1與X1Y2之相位被反向,Y1與Y2被輸出作為包含輸入X2之相同相位之一般單聲道環境訊號。
「第5圖」所示係為本發明實施例之包含反向相位偵測單元之語音訊號控制系統之方塊圖。
請參考「第5圖」,語音訊號控制系統500包含單獨對話音量處理單元510以及反向相位偵測單元520,單獨對話音量處理單元510包含語音訊號估計單元530、增益獲得單元540以及增益修正單元550。語音訊號係使用輸入訊號透過語音訊號估計單元530被估計。指定增益(例如,使用者設定的增益)可被應用至估計語音訊號。接下來,輸出訊號之增益係透過增益獲得單元540被獲得。其間,透過反向相位偵測單元520判定輸入訊號是否為反向相位單聲道訊號。增益獲得單元540獲得的增益之標記或數值透過增益修正單元550被修正。因此,語音訊號可被修正。為了清楚且方便地描述本發明,解釋一種輸入音頻訊號之整個頻帶上音頻訊號之估計或控制方法,本發明並非限制於此。即,依照指定實施例,語音訊號控制系統500包含分析濾波器組、功率估計器、訊號估計器、後規格化模組、訊號合成模組以及合成濾波器組。因此,如果輸入音頻訊號在複數個次頻帶上被劃分,然後語音訊號透過語音訊號估計器(圖中未表示)在每一次頻帶上被估計,可能更加高效。語音訊號控制系統500之元件可作為分離製程存在。至少兩個或多個元件之製程可被組合為一個元件。
本發明需要透過反向相位偵測單元520判定輸入訊號環境是否為反向相位單聲道訊號環境。依照指定實施例,反向相位偵測單元520檢查每一次頻帶之輸入訊號框之通道間相關性。如果其總和無法達到閥值,對應框被認為反向相位單聲道訊號框。或者,反向相位偵測單元520檢查每一次頻帶之輸入訊號框之通道間相關性。如果負的次頻帶數大於閥值,則可認為對應框為反向相位單聲道訊號框。此外,以上方法可共同使用。
「第6圖」所示係為本發明實施例之包含自動單獨對話音量偵測單元之語音訊號控制系統之方塊圖。如果音頻訊號之對話在相當程度上大於音頻訊號之雜訊分量或外部雜訊,單獨對話音量之必要性被降低。因此,透過自動地判定單獨對話音量操作之必要性,可判定單獨對話音量操作之方法。請參考「第6圖」,語音訊號控制系統600包含自動單獨對話音量偵測單元610與單獨對話音量處理單元620。藉由自動單獨對話音量偵測單元610自動地判定單獨對話音量操作之必要性,可改變單獨對話音量操作之出現與未出現以及增益範圍。特別地,語音訊號透過語音訊號估計單元630被估計。輸出訊號之增益係透過增益獲得單元640被獲得。增益修正單元650改變增益之標記或者修正自動單獨對話音量偵測單元610判定的增益之值。訊號修正單元660可根據修正的增益修正語音訊號。
依照指定實施例,首先,僅僅如果對話分量訊號之功率PC小於訊號內的雜訊分量之功率Pn或者外部雜訊(可被限制於特定比率)之功率Ps,自動單獨對話音量偵測單元610判定以完成單獨對話音量操作。第二,透過接合用於測量外部雜訊之裝置例如麥克風等至提供單獨對話音量之應用之外部,然後測量透過此裝置獲得的外部雜訊之範圍,自動單獨對話音量偵測單元610可判定以完成單獨對話音量操作。或者,自動單獨對話音量偵測單元610可共同使用以上兩種方法。
透過依照以上方法判定單獨對話音量操作之出現與未出現,單獨對話音量可依照輸入訊號或外部環境之雜訊範圍被啟動,或者輸入可完整地被輸出。依照輸入訊號或外部環境之雜訊值,可改變音頻訊號之對話分量之增益值。本發明實施例之一種自動單獨對話音量方法係結合功率被解釋,本發明並非限制於此。本發明可考慮其他公式與參數,包含絕對值等。
「第7圖」所示係為本發明實施例之由於偵測聲音特性之音頻訊號處理裝置之方塊圖。
請參考「第7圖」,音頻訊號處理裝置700包含單獨對話音量處理單元710、對話處理單元、指向性聲音處理單元以及環繞處理單元。獨立的聲音品質增強方法可分別應用至使用單獨對話音量處理單元710所偵測之對話、指向性聲音以及環繞聲音(surround sound)。特別地,訊號處理可依照偵測聲音之特性依照不同的方式被完成。例如,使用單獨對話音量後區別的聲音作為輸入,可為每一訊號之聲音品質增強或聲音色彩完成等化、水印以及其他訊號處理。對話的例子中,可完成例如聲音取消等訊號處理以用於商業及其他使用。對於指向性聲音,可完成例如聲音加寬等訊號處理以用於加強環繞效果。在環繞聲音的例子中,可完成例如加強3D聲音效果之訊號處理。其間,透過獲得單獨對話音量處理單元710輸入的訊號之特性,可藉由頻率、影像位置等區分對話或指向性聲音。由於其特性與位置不變,因此對話大多數位於中央。特別地,如果通道間位置差值(ICLD)變化較少,則輸入訊號很可能為對話。
「第8圖」所示係為本發明實施例之包含通道間位置差值偵測單元之語音訊號控制系統之方塊圖。
請參考「第8圖」,語音訊號處理控制系統800包含單獨對話音量處理單元820以及通道間位置差值變化偵測單元810,單獨對話音量處理單元820包含語音訊號估計單元830、增益獲得單元840以及增益修正單元850。單獨對話音量處理單元820為輸入訊號框計算每一頻帶之通道間位置差值,然後傳送此資訊至通道間位置差值變化偵測單元810。然後,通道間位置差值變化偵測單元810比較傳送之當前框之每一頻帶之通道間位置差值資訊與前一框之每一頻帶之通道間位置差值資訊。如果通道間位置差值沒有變化或者通道間位置差值存在很小的變化(判定為對話),輸入訊號框之分類被移交至單獨對話音量處理單元。如果通道間位置差值變化較大,雖然單獨對話音量處理單元判定此輸入訊號框為對話,但是通道間位置差值變化偵測單元810判定此輸入訊號框並非為對話,然後可使用此資訊以用於增益控制。
「第9圖」所示係為包含遠程控制器音量按鈕之遠程控制器之局部示意圖,其中具有用於控制對話音量之單獨對話音量控制器。
請參考「第9圖」,主音量控制按鈕910從上至下而放置,用於增加或減少主音量(例如,整個訊號之音量)。語音訊號音量控制按鈕920可從右到左而放置,用於增加或減少特別音頻訊號例如透過語音訊號估計單元所計算之語音訊號之音量。遠程控制器音量按鈕係為語音訊號音量之控制裝置之一個實施例,本發明並非限制於此。
「第10圖」與「第11圖」所示係為藉由電視接收器之螢幕顯示(on screen display;OSD)之對話音量控制資訊之通知方法之示意圖。
請參考「第10圖」,音量列之長度表示主音量,而音量列之寬度表示對話音量之位準。特別地,如果音量列之長度增加較多,則表示主音量之位準被增加到更高。如果音量列之寬度增加較多,則表示對話音量之位準被增加到更高。
請參考「第11圖」,對話音量位準可使用音量列之色彩以代替音量列之寬度被表示。特別地,如果音量列之色彩之密度增加,則表示對話音量之位準增加。
「第12圖」所示係為數位電視系統1200之例子之方塊圖,用於實施「第1圖」、「第2圖」、「第3圖」、「第4圖」、「第5圖」、「第6圖」、「第7圖」、「第8圖」、「第9圖」、「第10圖」以及「第11圖」所述之特徵與過程。數位電視(Digital television;DTV)係為用於藉由數位訊號以廣播和接收動態影像與聲音之通訊系統。數位電視使用數位調變資料,其中數位調變資料被數位壓縮,並且需要透過特別設計的電視機、具有機上盒之標準接收器或者裝設有電視卡之個人電腦被解碼。雖然「第12圖」之系統為數位電視系統,但是本發明揭露之用於對話增強之實施例也可用於類比電視系統或能夠實現對話增強之任意其他系統。
某些實施例中,系統1200可包含介面1202、解調器1204、解碼器1206、語音/視訊輸出1208、使用者輸入介面1210、一或多個處理器1212,以及一或多個電腦可讀媒體1214(例如,隨機存取記憶體、唯讀記憶體、同步動態隨機存取記憶體、硬碟、光碟、快閃記憶體、儲存區域網路SAN等)。這些元件各自耦合於一或多個通訊通道1216(例如,匯流排)。某些實施例中,介面1202包含各種電路,用於獲得語音訊號或組合語音/視訊訊號。例如,在類比電視系統中,介面可包含電子天線、調諧器或混合器、射頻(radio frequency;RF)放大器、本地振盪器、中頻(intermediate frequency;IF)放大器、一或多個濾波器、解調器、音頻放大器等。系統1200之其他實施例可能包含具有更多或更少元件之實施例。
調諧器可為數位電視調諧器,用於接收包含視訊與音頻內容之數位電視訊號。解調器1204從數位電視訊號中擷取視訊與音頻訊號。如果視訊與音頻訊號被編碼(例如,經過動畫壓縮標準MPEG之編碼),解碼器1206則解碼這些訊號。A/V輸出可為能夠顯示視訊與播放音頻之任何裝置(例如,電視顯示器、電腦監視器、液晶顯示器、揚聲器、音頻系統)。
某些實施例中,例如對話音量位準可使用遠程控制器上的顯示裝置或螢幕顯示(On Screen Display;OSD)而顯示給使用者,使用者輸入介面可包含電路(例如,無線或紅外線接收器)與/或軟體,用於接收或解碼透過遠程控制器所產生的紅外線或無線訊號。遠程控制器可包含分離對話音量控制鍵或按鈕,或者「第10圖」以及「第11圖」所述之主音量控制按鈕以及對話音量控制按鈕。
某些實施例中,一或多個處理器可執行電腦可讀媒體1214中儲存的代碼,以實施作業系統1218、分析/合成濾波器組1220、功率估計器1222、訊號估計器1224、後規格化模組1226、訊號合成器1228、正規化器1230與單聲道偵測器1232之特徵與操作。
電腦可讀媒體更包含作業系統1218、分析/合成濾波器組1220、功率估計器1222、訊號估計器1224、後規格化模組1226以及訊號合成器1228。
雖然本發明以前述之實施例揭露如上,然其並非用以限定本發明。在不脫離本發明之精神和範圍內,所為之更動與潤飾,均屬本發明之專利保護範圍。關於本發明所界定之保護範圍請參考所附之申請專利範圍。
因此,本發明可應用至音頻訊號之編碼/解碼。
300...模型
400...時-頻網格
500...語音訊號控制系統
510...單獨對話音量處理單元
520...反向相位偵測單元
530...語音訊號估計單元
540...增益獲得單元
550...增益修正單元
600...語音訊號控制系統
610...自動單獨對話音量偵測單元
620...單獨對話音量處理單元
630...語音訊號估計單元
640...增益獲得單元
650...增益修正單元
660...訊號修正單元
700...音頻訊號處理裝置
710...單獨對話音量處理單元
800...語音訊號處理控制系統
810...通道間位置差值變化偵測單元
820...單獨對話音量處理單元
830...語音訊號估計單元
840...增益獲得單元
850...增益修正單元
1200...系統
1202...介面
1204...解調器
1206...解碼器
1208...語音/視訊輸出
1210...使用者輸入介面
1212...處理器
1214...電腦可讀媒體
1216...通訊通道
1218...作業系統
1220...分析/合成濾波器組
1222...功率估計器
1224...訊號估計器
1226...後規格化模組
1228...訊號合成器
1230...正規化器
1232...單聲道偵測器
第1圖所示係為透過電視等播放音頻訊號之過程示意圖;第2圖所示係為一般單聲道訊號環境或反向相位單聲道訊號環境中透過電視等播放音頻訊號之過程示意圖;第3圖所示係為用於語音訊號控制技術之混合模型之示意圖;第4圖所示係為使用時-頻網格之立體聲訊號之分析圖形;第5圖所示係為本發明實施例之包含反向相位偵測單元之語音訊號控制系統之方塊圖;第6圖所示係為本發明實施例之包含自動單獨對話音量偵測單元之語音訊號控制系統之方塊圖;第7圖所示係為本發明實施例之由於偵測聲音特性原因之音頻訊號處理裝置之方塊圖;第8圖所示係為本發明實施例之包含通道間位置差值偵測單元之語音訊號控制系統之方塊圖;第9圖所示係為包含遠程控制器音量按鈕之遠程控制器之局部示意圖,其中包含用於控制對話音量之單獨對話音量控制器;第10圖與第11圖所示係為透過電視接收機之螢幕顯示之對話音量控制資訊之通知方法之示意圖;以及第12圖所示係為完成對話放大技術之數位電視系統1200之例子之方塊圖。
500...語音訊號控制系統
510...單獨對話音量處理單元
520...反向相位偵測單元
530...語音訊號估計單元
540...增益獲得單元
550...增益修正單元

Claims (12)

  1. 一種音頻訊號之處理方法,該方法包含:獲得一多通道音頻訊號,該多通道音頻訊號包含一語音分量訊號以及其他分量訊號;獲得該音頻訊號之增益;判定該音頻訊號是否為相位被反向之反向相位單聲道訊號;當該音頻訊號為反向相位單聲道訊號時,將獲得的該音頻訊號之一個通道所對應的增益的相位反向;獲得修正強度參數,用於判定該語音分量訊號之修正強度;根據該修正強度參數修正相位被反向之增益;以及根據該修正增益修正該語音分量訊號。
  2. 如請求項第1項所述之音頻訊號之處理方法,更包含修正該獲得的增益。
  3. 如請求項第1項或第2項所述之音頻訊號之處理方法,其中該修正強度參數係根據該語音分量訊號以及其他分量訊號之功率被判定。
  4. 如請求項第3項所述之音頻訊號之處理方法,其中該增益係根據該語音分量訊號之功率與其他分量訊號之功率之間的差值被修正。
  5. 如請求項第1項或第2項所述之音頻訊號之處理方法,其中該修正強度參數係根據外部雜訊之一僅被判定。
  6. 如請求項第5項所述之音頻訊號之處理方法,其中該增益係根據該外部雜訊之該值被修正而被修正。
  7. 一種音頻訊號之處理裝置,該裝置包含:一增益獲得單元,用於獲得一多通道音頻訊號以及獲得該音頻訊號之增益,該多通道音頻訊號包含一語音分量訊號與其他分量訊號;一反向相位偵測單元,用於判定該音頻訊號是否為相位被反向之反向相位單聲道訊號;一自動單獨對話音量偵測單元,用於獲得修正強度參數,該修正強度參數用於判定該語音分量訊號之修正強度;一增益修正單元,當該音頻訊號為反向相位單聲道訊號時,將獲得的該音頻訊號之一個通道所對應的增益的相位反向,以及根據該修正強度參數修正相位被反向之增益;以及一訊號修正單元,根據該修正增益修正該語音分量訊號。
  8. 如請求項第7項所述之音頻訊號之處理裝置,其中該增益獲得單元修正該獲得增益。
  9. 如請求項第7項或第8項所述之音頻訊號之處理裝置,其中該修正強度參數係根據該語音分量訊號與其他分量訊號之功率被判定。
  10. 如請求項第9項所述之音頻訊號之處理裝置,其中該增益係根據該語音分量訊號之功率與其他分量訊號之功率之間的差值被修正。
  11. 如請求項第7項或第8項所述之音頻訊號之處理裝置,其中該修正強度參數係根據外部雜訊之一值被判定。
  12. 如請求項第11項所述之音頻訊號之處理裝置,其中該增益係根據外部雜訊之該值被修正而被修正。
TW098125672A 2008-07-29 2009-07-29 音頻訊號之處理方法及其裝置 TWI429302B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US8426708P 2008-07-29 2008-07-29

Publications (2)

Publication Number Publication Date
TW201012246A TW201012246A (en) 2010-03-16
TWI429302B true TWI429302B (zh) 2014-03-01

Family

ID=41217682

Family Applications (2)

Application Number Title Priority Date Filing Date
TW098125675A TWI413421B (zh) 2008-07-29 2009-07-29 音頻訊號之處理方法及其裝置
TW098125672A TWI429302B (zh) 2008-07-29 2009-07-29 音頻訊號之處理方法及其裝置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
TW098125675A TWI413421B (zh) 2008-07-29 2009-07-29 音頻訊號之處理方法及其裝置

Country Status (6)

Country Link
US (2) US8396223B2 (zh)
EP (2) EP2149877B1 (zh)
KR (2) KR101599534B1 (zh)
CN (2) CN102113315B (zh)
TW (2) TWI413421B (zh)
WO (2) WO2010013946A2 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2144229A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Efficient use of phase information in audio encoding and decoding
EP2565667A1 (en) 2011-08-31 2013-03-06 Friedrich-Alexander-Universität Erlangen-Nürnberg Direction of arrival estimation using watermarked audio signals and microphone arrays
US20160054976A1 (en) * 2013-05-03 2016-02-25 Cheol SEOK Method for producing media contents in duet mode and apparatus used therein
EP3503095A1 (en) 2013-08-28 2019-06-26 Dolby Laboratories Licensing Corp. Hybrid waveform-coded and parametric-coded speech enhancement
WO2015089733A1 (zh) * 2013-12-17 2015-06-25 华为终端有限公司 一种在多媒体终端中播放音频文件的方法及多媒体终端
TWI554943B (zh) * 2015-08-17 2016-10-21 李鵬 音訊處理方法及其系統
WO2017132396A1 (en) 2016-01-29 2017-08-03 Dolby Laboratories Licensing Corporation Binaural dialogue enhancement
JP2018159759A (ja) * 2017-03-22 2018-10-11 株式会社東芝 音声処理装置、音声処理方法およびプログラム
KR102468799B1 (ko) 2017-08-11 2022-11-18 삼성전자 주식회사 전자장치, 그 제어방법 및 그 컴퓨터프로그램제품
CN108170399B (zh) * 2017-12-26 2021-04-30 上海展扬通信技术有限公司 一种双声道处理方法及终端
EP3790006A4 (en) * 2018-06-29 2021-06-09 Huawei Technologies Co., Ltd. VOICE COMMAND PROCESS, PORTABLE DEVICE AND TERMINAL
CN110232931B (zh) * 2019-06-18 2022-03-22 广州酷狗计算机科技有限公司 音频信号的处理方法、装置、计算设备及存储介质
US10904690B1 (en) * 2019-12-15 2021-01-26 Nuvoton Technology Corporation Energy and phase correlated audio channels mixer
CN111200777B (zh) * 2020-02-21 2021-07-20 北京达佳互联信息技术有限公司 信号处理方法及装置、电子设备和存储介质

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3148287A (en) * 1961-03-09 1964-09-08 Columbia Broadcasting Syst Inc Signal phase sensing and maintaining system
US3772479A (en) * 1971-10-19 1973-11-13 Motorola Inc Gain modified multi-channel audio system
GB1522599A (en) * 1974-11-16 1978-08-23 Dolby Laboratories Inc Centre channel derivation for stereophonic cinema sound
US4415768A (en) * 1981-05-28 1983-11-15 Carver R W Tuning apparatus and method
KR100198289B1 (ko) * 1996-12-27 1999-06-15 구자홍 마이크 시스템의 지향성 제어장치와 제어방법
US6311155B1 (en) * 2000-02-04 2001-10-30 Hearing Enhancement Company Llc Use of voice-to-remaining audio (VRA) in consumer applications
US20030035549A1 (en) * 1999-11-29 2003-02-20 Bizjak Karl M. Signal processing system and method
US7039201B1 (en) * 2000-10-31 2006-05-02 Leetronics Corporation Audio signal phase detection system and method
KR20030059624A (ko) * 2002-01-03 2003-07-10 삼성전자주식회사 휴대용컴퓨터의 볼륨제어시스템 및 볼륨제어방법
KR20040023084A (ko) 2002-09-10 2004-03-18 엘지전자 주식회사 사운드 레벨 조절장치 및 방법
KR100542129B1 (ko) * 2002-10-28 2006-01-11 한국전자통신연구원 객체기반 3차원 오디오 시스템 및 그 제어 방법
JP4694763B2 (ja) * 2002-12-20 2011-06-08 パイオニア株式会社 ヘッドホン装置
US7970144B1 (en) * 2003-12-17 2011-06-28 Creative Technology Ltd Extracting and modifying a panned source for enhancement and upmix of audio signals
NO320942B1 (no) * 2003-12-23 2006-02-13 Tandberg Telecom As System og fremgangsmate for forbedret stereolyd
JP4349123B2 (ja) * 2003-12-25 2009-10-21 ヤマハ株式会社 音声出力装置
KR20060007243A (ko) 2004-07-19 2006-01-24 엘지전자 주식회사 휴대용 컴퓨터의 볼륨 제어 방법
CN101015230B (zh) * 2004-09-06 2012-09-05 皇家飞利浦电子股份有限公司 音频信号增强
EP1761110A1 (en) * 2005-09-02 2007-03-07 Ecole Polytechnique Fédérale de Lausanne Method to generate multi-channel audio signals from stereo signals
KR100733965B1 (ko) * 2005-11-01 2007-06-29 한국전자통신연구원 객체기반 오디오 전송/수신 시스템 및 그 방법
US8705747B2 (en) * 2005-12-08 2014-04-22 Electronics And Telecommunications Research Institute Object-based 3-dimensional audio service system using preset audio scenes
KR100802179B1 (ko) 2005-12-08 2008-02-12 한국전자통신연구원 프리셋 오디오 장면을 이용한 객체기반 3차원 오디오서비스 시스템 및 그 방법
EP2369836B1 (en) * 2006-05-19 2014-04-23 Electronics and Telecommunications Research Institute Object-based 3-dimensional audio service system using preset audio scenes
KR100648394B1 (ko) 2006-06-15 2006-11-24 (주)엑스파미디어 스테레오 음원의 음성 제거 방법 및 장치
CN2938669Y (zh) * 2006-06-29 2007-08-22 彭发龙 低音处理电路
JP4835298B2 (ja) * 2006-07-21 2011-12-14 ソニー株式会社 オーディオ信号処理装置、オーディオ信号処理方法およびプログラム
WO2008035227A2 (en) * 2006-09-14 2008-03-27 Lg Electronics Inc. Dialogue enhancement techniques

Also Published As

Publication number Publication date
WO2010013946A2 (en) 2010-02-04
WO2010013940A3 (en) 2010-06-03
TW201012246A (en) 2010-03-16
EP2149877A3 (en) 2014-06-04
KR101599534B1 (ko) 2016-03-03
CN102113315A (zh) 2011-06-29
EP2149878A3 (en) 2014-06-11
TW201012247A (en) 2010-03-16
US20100034394A1 (en) 2010-02-11
EP2149877A2 (en) 2010-02-03
TWI413421B (zh) 2013-10-21
KR20110042305A (ko) 2011-04-26
CN102113315B (zh) 2013-03-13
WO2010013940A2 (en) 2010-02-04
KR101599533B1 (ko) 2016-03-03
EP2149878A2 (en) 2010-02-03
US8265299B2 (en) 2012-09-11
US20100054485A1 (en) 2010-03-04
WO2010013946A3 (en) 2010-06-03
US8396223B2 (en) 2013-03-12
CN102113314B (zh) 2013-08-07
KR20110036830A (ko) 2011-04-11
CN102113314A (zh) 2011-06-29
EP2149877B1 (en) 2020-12-09

Similar Documents

Publication Publication Date Title
TWI429302B (zh) 音頻訊號之處理方法及其裝置
KR101061132B1 (ko) 다이알로그 증폭 기술
US9282419B2 (en) Audio processing method and audio processing apparatus
CN102016994B (zh) 用于处理音频信号的设备及其方法
US9521502B2 (en) Method for determining a stereo signal
RU2818982C2 (ru) Управление акустической эхокомпенсацией для распределенных аудиоустройств
JP2015065551A (ja) 音声再生システム
CN116830604A (zh) 动态应用的渲染配置的渐进计算和应用

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees