TWI493962B

TWI493962B - 多媒體處理系統及音訊信號調整方法

Info

Publication number: TWI493962B
Application number: TW101132295A
Authority: TW
Inventors: Chueh Pin Ko
Original assignee: Acer Inc
Priority date: 2012-09-05
Filing date: 2012-09-05
Publication date: 2015-07-21
Also published as: TW201412091A

Description

多媒體處理系統及音訊信號調整方法

本發明係有關於音訊處理，特別是有關於使用立體影像之深度影像以處理音訊信號之的多媒體處理系統及音訊信號調整方法。

隨著立體顯示器的發展，立體影像之處理亦愈來愈重要。一般而言，立體影像之取得可藉由幾種方式，例如利用可得到深度影像的深度攝影機進行拍攝、由模擬人類雙眼視覺之雙攝影機進行拍攝、或是由二維影像經過適當的影像處理以得到立體影像。如第1A圖所示，由二維影像轉換至立體影像的處理過程可約略分為幾個步驟：影像縮小、邊緣偵測(edge detection)、線劃追蹤(line tracing)、深度指派(depth assignment)、深度影像放大及平滑化、橫向偏移(lateral shifting)，當深度影像建立之後，即可與原本之二維影像結合以產生立體影像(stereoscopic image)。傳統二維影像轉換為立體影像之演算法亦可透過建立空間模型、邊緣偵測、計算消失點等方式，透過對一張或多張影像的分析來建立深度影像。

如第1B圖所示，視覺深度感知因素可分為生理因素及心理因素。一般而言，二維影像轉換為立體影像之深度圖往往係針對幾項心理因素以進行演算法之運算，。舉例來說，在心理因素上往往會認為黃色物體、移動量大的物體或大物體之景深最淺，反過來說，在心理因素上亦會認為藍色物體、移動量小的物體或小物體之景深最深，而且材質接近會視為景深相同。

更進一步，景深資訊係為立體顯示技術中的關鍵，但傳統立體顯示技術往往只著重於如何產生正確景深的產生方式，但卻鮮少利用景深資訊以進一步處理立體影像及對應的音訊信號。

本發明係提供一種多媒體處理系統，包括：一深度分析器，用以接收一輸入影像，並據以產生一深度影像；以及一音訊處理單元，用以接收一輸入音訊信號及該深度影像，並由該深度影像中偵測一物件及其對應的一位置資訊，依據該位置資訊對該輸入音訊信號進行調整以產生一輸出音訊信號。

本發明更提供一種音訊信號調整方法，用於一多媒體處理系統。該方法包括下列步驟：接收一輸入影像，並據以產生一深度影像；接收一輸入音訊信號及該深度影像，並由該深度影像中偵測一物件及其對應的一位置資訊；以及依據該位置資訊對該輸入音訊信號進行調整以產生一輸出音訊信號。

第2圖係顯示依據本發明一實施例之多媒體處理系統200的方塊圖。多媒體處理系統200係包括一深度分析器210、一視訊處理單元220及一音訊處理單元230。深度分析器210係用以接收一輸入影像，並依據輸入影像以取得一二維影像及其對應的深度影像。需注意的是，上述輸入影像係可為一二維影像，或是一立體影像(二維影像及其對應的深度影像)。換言之，若輸入影像是立體影像，則可直接取得其深度影像。若輸入影像僅為二維影像，則需進一步計算其對應的深度影像。視訊處理單元220係接收來自深度分析器210的二維影像及對應的深度影像，並據以產生一輸出影像。值得注意的是，深度分析器210所接收的輸入影像係可為二維影像、三維影像、或二維影像及其深度影像。又，視訊處理單元220所產生的輸出影像亦可為二維影像或立體影像。音訊處理單元230係接收一輸入音訊信號，並調整輸入音訊信號以產生一輸出音訊信號。在一實施例中，輸入音訊信號及輸出音訊信號係可為單聲道、2聲道(立體聲)，或是2.1聲道、4.1聲道、5.1聲道、6.1聲道或7.1聲道等多聲道之音訊信號，且輸出音訊信號之聲道數係大於或等於輸入音訊信號之聲道數。輸入音訊信號的各聲道之間係具有一強度比例、一延遲比例及一頻率比例，且各聲道亦具有其對應的音量，意即上述聲音因素係對應至左/右聲道音量、左/右聲道平衡、等化器(equalizer)、音場(sound field)等。

在一實施例中，音訊處理單元230更由深度影像以偵測主物件(main object)之深度影像，意即由深度產生器210所產生之深度影像中分析主物件之影像特徵以取得其深度影像。舉例來說，深度影像係可分成靜態深度影像及動態深度影像。靜態深度影像係可為深度影像中之特定深度值 (例如灰階值0、10、250)、絕對極值(absolute extrema)或區域相對極值(local extrema)。動態深度影像係可分為移動資訊及深度變化資訊，其中移動資訊係指在深度影像中之同深度分布之像素集合的特定位移向量，深度變化資訊係指在深度影像中，相同座標之像素或集合在不同時間的深度改變量。深度分析器210係可由深度變化資訊中取得該主物件之座標，其中座標係可為一維、二維或三維座標，且座標之數值係可為一絕對值(例如(200,300,251))或相對值(例如2：3、40%或0.6等等)，意即取得座標以表示該主物件在二維影像中的位置。又，主物件之座標係可包括物件大小之資訊。

在另一實施例中，音訊處理單元230係將所偵測出的主物件之座標，轉換為各聲道之間的比例，意即音訊處理單元230可取得主物件於二維影像中之位置，並進而調整各聲道之間的相對關係。在又一實施例中，音訊處理單元230係可偵測出主物件，並持續追蹤物件移動時其座標變化值，並根據座標變化值以產生對應的各聲道比例。

在又一實施例中，音訊處理單元230除了由二維影像或深度影像中以辨識出主物件，更可選擇性地接收外來的物件資訊，其中物件資訊係包括主物件之座標、位置、大小及區域，例如是大範圍的像素移動或移動向量大幅變化，亦或是辨識出的人臉資訊。音訊處理單元230係可依據物件資訊，對輸入音訊信號之各聲道進行調整，以產生輸出音訊信號。

第3A~3D圖係顯示依據本發明一實施例中音訊處理單元230辨識主物件以調整聲道比例之示意圖。如第3A及3B圖所示，音訊處理單元230係可依據物件資訊以決定二維影像中之主物件310(例如新聞主播)之位置約在右邊距離2/5畫面寬度之處，此時音訊處理單元230係將輸入音訊信號(例如2聲道)中之左聲道(L)及右聲道(R)之比例調整為L：R=60%：40%。如第3C及3D圖所示，音訊處理單元230係可由連續影像之深度影像中判斷主物件320(例如新聞畫面)之位置約在左邊距離3/10畫面寬度之處，此時音訊處理單元230係可將輸入音訊信號(例如2聲道)中之左聲道(L)及右聲道(R)之比例調整為L：R=32%：68%。值得注意的是，左聲道及右聲道之比例係具有一對應關係，但上述實施例中之左右聲道的比例並非絕對，可視情況調整。熟習本發明此領域之技藝者當了解，上述實施例僅說明音訊處理單元230對聲道調整之一方式，當不能以此限定本發明。

第4A~4F圖係顯示依據本發明另一實施例中音訊處理單元230辨識主物件以調整聲道比例之示意圖。如第4A~4C圖所示，物件410在撥放過程中逐漸放大至全螢幕。在第4A圖中，物件410係位於左邊距離2/5畫面寬度之處，音訊處理單元230係將左右聲道之比例設定為L：R=2：3。在第4B圖中，物件410係逐漸增大，此時音訊處理單元230係將左右聲道之比例調整為L：R=2.2：2.8(意即L：R=45%：55%)。在第4C圖中，物件410係已放大至全螢幕，此時音訊處理單元230係將左右聲道之比例設定為L：R=2.5：2.5(意即L：R=50%：50%)。

如第4D~4F圖所示，使用者係選擇顯示器之顯示介面(OSD)由English選至Reset。舉例來說，物件420一開始係在位置430，接著移動至位置440、450及460，若位置430、440、450及460之座標係分別為(300,500,200)、(200,500,200)、(200,300,150)及(200,200,200)，除了平面位置變化之外，物件420之深度亦有變化，音訊處理單元係可將對應的輸入音訊信號調整為左聲道30%及2毫秒延遲、左聲道40%及1.8秒延遲，以及左聲道50%及1.6毫秒延遲。值得注意的是，為了維持輸出音訊信號與輸出影像之同步性，音訊處理單元230更包括一同步單元(第1圖中未繪示)，用以執行音訊及影像之同步處理，其係可稱為「對嘴(lip sync)」。

第5圖係顯示依據本發明一實施例之音訊信號調整方法的流程圖。在步驟S500，音訊處理單元230係接收一輸入音訊信號。在步驟S510，音訊處理單元230係接收來自深度分析器210之深度影像。在步驟S520，音訊處理單元230係由深度影像中偵測物件特徵。接著，在步驟S530，音訊處理單元係判斷是否偵測到任何物件，若有，則執行步驟S540，若否，則回到步驟S510，持續接收深度影像。在步驟S540，音訊處理單元230係由深度影像中取得物件之一位置或一位移量。在步驟S550，音訊處理單元230係依據物件之位置或位移量以調整輸入音訊信號以產生一輸出音訊信號。在步驟S560，音訊處理單元230係輸出上述輸出音訊信號。需注意的是，音訊處理單元230係持續接收來自深度分析器210的深度影像，當音訊處理單元230 判斷在深度影像中並無物件存在，則音訊處理單元230將不對輸入音訊信號進行調整，意即此時輸出音訊信號係為輸入音訊信號。

第6A~6E圖係顯示依據本發明一實施例中音訊處理單元230依據深度影像調整聲道之示意圖。如第6A~6E圖所示，車子610係由右往左行駛，意即車子610相對於使用者620之位置係為由右方逐漸靠近，並往左方逐漸遠離。此時音訊處理單元230係可判斷車子610在畫面中之位置，並據以對輸入音訊信號進行調整。如第5A~5B圖，音訊處理單元230係將右聲道之比例逐漸降低，在第5C圖時，左右聲道係為平衡，接著在第6D~6E圖中，音訊處理單元230係將左聲道之比例逐漸提高。

第7A~7E圖係顯示依據本發明一實施例中音訊處理單元230依據深度影像以調整音訊信號之淡出的示意圖。舉例來說，如第7A~7D圖所示，人物710係逐漸往畫面遠方離開，此時音訊處理單元230係可對應地調整輸入音訊信號之聲道的比例及音量強度(volume或intensity)。而在第7E圖中，人物710係已消失於視線中，亦即主物件已消失在畫面中，但聲音通常不會馬上消失，音訊處理單元230係可判斷人物710在牆後，並持續送出一淡出值(fade-out value)，例如是每張影像下降50%的音量強度。

第8A~8E係顯示依據本發明一實施例中音訊處理單元230依據深度影像以調整音訊信號之淡入(fade-in)的示意圖。如第8A~8E圖所示，音訊處理單元230已知飛機810為主物件。當在第8A圖中，飛機810由畫面左邊往右邊飛入且只出現機頭時，音訊處理單元230係可辨識飛機810係為淡入的物件，並可對輸入音訊信號套用一淡入值，使得左聲道之比例大於右聲道。值得注意的是，音訊處理單元230使用淡出/淡入值之設定，係可在第5圖中之步驟S550之後執行，因主物件在進行淡出/淡入的動作時，往往亦會有對應的位置資訊產生變化。音訊處理單元230除了可設定淡出/淡入功能，亦可將淡出/淡入功能關閉，當音訊處理單元230判斷畫面中並無物件時，亦可回復輸入音訊信號之各聲道的原始比例，但本發明不限於此。除此之外，本發明透過對於聲音物件的偵測更可模擬出都卜勒效應(Doppler effect)，意即當聲音靠近與遠離時，其所觀測到的聲音頻率亦會產生變化，其可如下列公式進行計算：其中f’ 係為觀測所得的聲音頻率；f 為物件所發出的聲音頻率；v 為聲音在介質(例如：空氣)中所傳播的速度；v _o 係為觀測者相對於介質的速度，若觀測者朝聲音物件移動，則v _o 為正值；v _s 係為聲音物件相對於介質的速度，若聲音物件遠離觀測者，則v _s 為正值。

本發明之方法，或特定型態或其部份，可以以程式碼的型態包含於實體媒體，如軟碟、光碟片、硬碟、或是任何其他機器可讀取(如電腦可讀取)儲存媒體，其中，當程式碼被機器，如電腦載入且執行時，此機器變成用以參與本發明之裝置或系統。本發明之方法、系統與裝置也可以以程式碼型態透過一些傳送媒體，如電線或電纜、光纖、或是任何傳輸型態進行傳送，其中，當程式碼被機器，如電腦接收、載入且執行時，此機器變成用以參與本發明之裝置或系統。當在一般用途處理器實作時，程式碼結合處理器提供一操作類似於應用特定邏輯電路之獨特裝置。

惟以上所述者，僅為本發明之各項實施例而已，當不能以此限定本發明實施之範圍，即大凡依本發明申請專利範圍及發明說明內容所作之簡單的等效變化與修飾，皆仍屬本發明專利涵蓋之範圍內。另外本發明的任一實施例或申請專利範圍不須達成本發明所揭露之全部目的或優點或特點。此外，摘要部分和標題僅是用以輔助專利文件搜尋之用，並非用以限制本發明之權利範圍。

200‧‧‧多媒體處理系統

210‧‧‧深度分析器

220‧‧‧視訊處理單元

230‧‧‧音訊處理單元

310‧‧‧主物件

410、420‧‧‧物件

430-460‧‧‧位置

610‧‧‧車子

620‧‧‧使用者

710‧‧‧人物

810‧‧‧飛機

第1A圖係顯示將二維影像轉換為立體影像之傳統演算法的流程圖。

第1B圖係顯示視覺深度感知因素的示意圖。

第2圖係顯示依據本發明一實施例之多媒體處理系統200的方塊圖。

第3A~3D圖係顯示依據本發明一實施例中音訊處理單元辨識主物件以調整聲道比例之示意圖。

第4A~4F圖係顯示依據本發明另一實施例中音訊處理單元230辨識主物件以調整聲道比例之示意圖。

第5圖係顯示依據本發明一實施例之音訊信號調整方法的流程圖。

第6A~6E圖係顯示依據本發明一實施例中音訊處理單元230依據深度影像調整聲道之示意圖。

第7A~7E圖係顯示依據本發明一實施例中音訊處理單元230依據深度影像以調整音訊信號之淡出的示意圖。

第8A~8E係顯示依據本發明一實施例中音訊處理單元230依據深度影像以調整音訊信號之淡入(fade-in)的示意圖。

200‧‧‧多媒體處理系統

210‧‧‧深度分析器

220‧‧‧視訊處理單元

230‧‧‧音訊處理單元

Claims

一種多媒體處理系統，包括：一深度分析器，用以接收一輸入影像，並據以產生一深度影像；以及一音訊處理單元，用以接收一輸入音訊信號及該深度影像，並由該深度影像中偵測一物件及其對應的一位置資訊，依據該位置資訊對該輸入音訊信號進行調整以產生一輸出音訊信號，其中該位置資訊係包括該物件之一位置或一位移量，其中該輸入音訊信號係包括至少一聲道，且該音訊處理單元更依據該位置或該位移量以調整該輸入音訊信號中之各聲道之音量比例。
如申請專利範圍第1項所述之多媒體處理系統，其中該輸入影像係為一二維影像或一立體影像。
如申請專利範圍第1項所述之多媒體處理系統，其中該音訊處理單元係依據該深度影像之一特定深度值、一絕對極值或一區域相對極值以由該深度影像中偵測該物件及該位置資訊。
如申請專利範圍第1項所述之多媒體處理系統，其中該音訊處理單元係判斷該深度影像中具有相同之一深度的複數個像素為該物件，並計算該物件之該位移量。
如申請專利範圍第1項所述之多媒體處理系統，其中該音訊處理單元係偵測該深度影像中具有相同之一座標之複數個像素於不同時間的一深度改變量，並據以取得該物件之該位置資訊。
如申請專利範圍第1項所述之多媒體處理系統，其中當該物件係進入或離開該輸入影像所對應之一場景，該音訊處理單元係分別依據一淡入值(fade-in value)或一淡出值(fade-out value)以調整該輸入音訊信號中之各聲道所對應的聲音強度、延遲及/或聲音頻率。
如申請專利範圍第1項所述之多媒體處理系統，其中該深度分析器更依據該輸入影像以產生一二維影像，且該多媒體處理系統更包括：一視訊處理單元，用以接收該二維影像及該深度影像，並據以產生一輸出影像。
如申請專利範圍第6項所述之多媒體處理系統，其中該輸出影像係可為該二維影像或一立體影像。
一種音訊信號調整方法，用於一多媒體處理系統，包括：接收一輸入影像，並據以產生一深度影像；接收一輸入音訊信號及該深度影像，並由該深度影像中偵測一物件及其對應的一位置資訊，其中該位置資訊係包括該物件之一位置或一位移量；依據該位置資訊對該輸入音訊信號進行調整以產生一輸出音訊信號，其中該輸入音訊信號係包括至少一聲道；以及依據該位置或該位移量以調整該輸入音訊信號中之各聲道之音量比例。
如申請專利範圍第9項所述之音訊信號調整方法，其中該輸入影像係為一二維影像或一立體影像。
如申請專利範圍第9項所述之音訊信號調整方法，其中偵測該物件及該位置資訊之步驟更包括：依據該深度影像之一特定深度值、一絕對極值或一區域相對極值以由該深度影像中偵測該物件及該位置資訊。
如申請專利範圍第9項所述之音訊信號調整方法，其中偵測該物件及該位置資訊之步驟更包括：判斷該深度影像中具有相同之一深度的複數個像素為該物件，並計算該物件之該位移量。
如申請專利範圍第9項所述之音訊信號調整方法，其中偵測該物件及該位置資訊之步驟更包括：偵測該深度影像中具有相同之一座標之複數個像素於不同時間的一深度改變量，並據以取得該物件之該位置資訊。
如申請專利範圍第9項所述之音訊信號調整方法，更包括：當該物件係進入或離開該輸入影像所對應之一場景，分別依據一淡入值(fade-in value)或一淡出值(fade-out value)以調整該輸入音訊信號中之各聲道所對應的聲音強度、延遲及/或聲音頻率。
如申請專利範圍第9項所述之音訊信號調整方法，更包括：依據該輸入影像以產生一二維影像；以及依據該二維影像及該深度影像以產生一輸出影像。
如申請專利範圍第15項所述之音訊信號調整方法，其中該輸出影像係可為該二維影像或一立體影像。