TWI496480B

TWI496480B - 偕同一可攜式電子裝置用於產生多頻道音訊之系統和方法

Info

Publication number: TWI496480B
Application number: TW098128314A
Authority: TW
Original assignee: Sony Ericsson Mobile Comm Ab
Priority date: 2008-10-22
Filing date: 2009-08-21
Publication date: 2015-08-11
Also published as: WO2010046736A1; US20100098258A1; TW201036463A; EP2359595A1; CN102197646B; CN102197646A

Description

偕同一可攜式電子裝置用於產生多頻道音訊之系統和方法

本發明係關於一可攜式電子裝置中的音訊複製，更特定而言，係關於一種用一可攜式電子裝置產生多頻道音訊的系統及方法。

諸如行動電話、媒體播放器、個人數位助理(PDA)及其它的可攜式電子裝置正變得越來越流行。為避免須攜帶多個裝置，現今可攜式電子裝置經組態以提供多種功能。舉例來說，一行動電話不再僅用於撥打或接收電話呼叫。一行動電話亦可為一照相機(靜態及/或視訊)、一用於獲取新聞及資訊的網際網路流覽器、一視聽媒體播放器、一傳訊裝置(文字、音訊及/或視訊訊息)、一遊戲裝置、一個人電子記事器，並亦可具有其他功能。因此當代的可攜式電子裝置通常包含用於播放視聽內容的媒體播放器功能。

通常對於視聽內容來說，這些內容的音訊部分已被改善。詳細而言，三維(「3D」)音訊可被複製以提供一種更逼真的聲音複製。環繞聲技術係此技術中所週知並提供一種方向分量以模仿一3D聲音環境。舉例來說，在該視聽內容中似乎來自左邊的聲音將主要經由一定位於左側的音源(例如一揚聲器)而被聽到，在該視聽內容中似乎來自右邊的聲音將主要經由一定位於右側的音源而被聽到，等等。利用這種方式，該音訊內容可作為一整體而被複製以模擬一種逼真的3D聲音環境。

為產生環繞聲，聲音可被錄製並編碼於數個分離的頻道中。當重播時，該等被編碼的頻道可被解碼成多個頻道以便重播。有時，錄製頻道和重播頻道之數量可相同，或者該解碼可將該等錄製頻道轉換為不同數量的重播頻道。該等重播頻道可對應於一揚聲器配置中之一特定數量的揚聲器。舉例來說，一個常見的環繞聲音訊格式被表示為「5.1」音訊。此系統可包含5個重播頻道，該等重播頻道可經由5個揚聲器-一中央頻道、左及右前頻道以及左及右後頻道播放(雖然並非必須)。該「.1」代表一低頻效果(LFE)或低音頻道，例如可由一重低音揚聲器提供。其他常見格式在該配置中提供附加頻道及/或揚聲器，例如6.1及7.1音訊。利用此等多頻道配置，聲音可以一種模擬一3D聲音環境的方式按頻道發送至多個揚聲器。此外，可使用聲音信號處理以便利用比重播頻道少的揚聲器模擬3D聲音，這通常被稱為「虛擬環繞聲」。

對於一種可攜式電子裝置來說，已以多種方式嘗試3D聲音複製。舉例來說，該裝置可被連接至一經組態以用於環繞聲或其他3D或多頻道聲音複製的外部揚聲器系統，例如一5.1揚聲器系統。然而，一外部揚聲器系統在視聽重播時限制該裝置之可攜性。為保持可攜性，已研發出經改良之耳機及頭戴式耳機，該等耳機或頭戴式耳機在只使用左及右耳揚聲器時模仿一3D聲音環境。該等增強型耳機及頭戴式耳機可提供一種虛擬環繞聲音環境以增強該內容的音訊特徵而無需使用於一外部揚聲器環繞聲系統中的多個揚聲器。

在該視聽內容已被專業地產生或以一種精密的方式產生時，外部揚聲器或者3D增強可攜式耳機或頭戴式耳機通常已足夠。內容創建者一般藉由記錄多個音訊頻道而產生3D音訊，該等多個音訊頻道可藉由在該內容被創建時使用多個麥克風錄製。藉由適當定位該等麥克風，方向性音訊分量可被編碼成該等被錄製的音訊頻道。可使用附加處理以增強該多頻道錄製的頻道化。該音訊可被編碼成該等常見多頻道格式中之一者，例如5.1或6.1等。然後該等方向性音訊分量可在重播時被複製，只要該播放器具有合適的解碼能力，且該揚聲器系統(揚聲器、耳機、頭戴式耳機等)具有一對應的3D/多頻道環繞聲或虛擬環繞聲複製能力。

然而，這些被描述的系統對於使用者創建之內容來說已被證明效率較低。現在對於可攜式電子裝置來說包含一數位視訊錄製功能以錄製諸如具有一視訊部分及一音訊部分之數位視訊的視聽內容係常見的。此等裝置之實例包含一專用數位視訊相機、或具有一數位視訊功能的多功能裝置(例如一行動電話、PDA、遊戲裝置等)。不考慮類型，可攜式電子裝置一般只具有一個麥克風以錄製視聽內容之音訊部分。僅利用單一麥克風，3D或多頻道音訊的產生將需要尖端或特殊的聲音信號處理，此處理通常不能在消費者導向的可攜式電子裝置中找到。因此一般無法在一可攜式電子裝置中針對使用者創建內容產生3D或多頻道音訊。

在一個獨立技術領域中，眼追蹤及凝視檢測系統已被納入考量。眼追蹤為測量凝視點及/或眼睛相對於頭部之動作的過程。現今眼追蹤或凝視方向檢測之最常見的方法包括從該眼睛之一視訊影像中提取眼睛相對於頭部的位置。除了眼追蹤之外，臉部檢測的其他形式亦被研發。舉例來說，臉部檢測的一個形式可檢測特定臉部特徵，例如一個人是否在微笑或眨眼。然而，到現在為止，此等技術並未完全被利用。

因此，在本技術中存在對一種在一可攜式電子裝置中產生3D或多頻道音訊之改良系統及方法的需求。詳細而言，在本技術中存在對一種在一可攜式電子裝置中產生3D或多頻道音訊之改良系統及方法的需求，該系統及方法不需要比可攜式電子裝置中常見之單一麥克風更多的麥克風。

一電子裝置被提供用於操縱一具有一視訊部分及一音訊部分的數位視訊以將該音訊部分編碼成一種3D或多頻道格式。該電子裝置可包含一用於接收該數位視訊之音訊部分的音訊接收器及一用於接收該數位視訊之視訊部分並測定來自該數位視訊中之一音訊源的音訊之至少一個方向分量的影像分析器。為測定該方向分量，該影像分析器可包含一用於測定一音訊源在該數位視訊內之一位置的影像定位器及一用於測定該音訊源之一定向的定向檢測器。該定向檢測器可包含一面部檢測模組，該檢測模組基於一對象人物之面部特徵之動作及組態而測定係一音訊源之該人物的定向。一音訊源之位置及定向可被用於測定來自該音訊源的音訊之一方向分量。一音訊編碼器可接收該音訊部分之一輸入及該至少一個方向分量，且該編碼器可基於來自該音訊源的音訊之該至少一個方向分量而將該音訊部分編碼成一種多頻道格式。

因此，根據本發明之一態樣，一種電子裝置被提供用於操縱一具有一視訊部分及一音訊部分的數位視訊。該電子裝置包括一用於接收該數位視訊之音訊部分的音訊接收器以及一用於接收該數位視訊之視訊部分並測定來自該數位視訊中之一音訊源的音訊之至少一個方向分量的影像分析器。一音訊編碼器接收該音訊部分之一輸入及該至少一個方向分量，其中該編碼器基於來自該音訊源的音訊之至少一個方向分量而將該音訊部分編碼成一多頻道格式。

根據該電子裝置的一個實施例，該電子裝置進一步包括一用於產生被該影像分析器接收的數位視訊之視訊部分的相機總成及一用於收集被該音訊接收器接收的數位視訊之音訊部分的麥克風。

根據該電子裝置的一個實施例，該電子裝置進一步包括一用於檢測該電子裝置之一動作的動作感應器及一用於基於該電子裝置之動作測定來自該數位視訊中之音訊源的音訊之一方向分量的動作分析器。該編碼器基於被該動作分析器測定的來自該音訊源的音訊之方向分量而進一步將該音訊部分編碼成一多頻道格式。

根據該電子裝置的一個實施例，該電子裝置進一步包括一用於儲存該數位視訊的記憶體，其中該影像分析器藉由從所儲存的數位視訊中提取該視訊部分而接收該視訊部分，且該音訊接收器藉由從所儲存的數位視訊中提取該音訊部分而接收該音訊部分。

根據該電子裝置的一個實施例，該電子裝置進一步包括一用於從一網路取得該數位視訊的網路介面，其中該影像分析器藉由從所獲取的數位視訊中提取該視訊部分而接收該視訊部分，且該音訊接收器藉由從所獲取的數位視訊中提取該音訊部分而接收該音訊部分。

根據該電子裝置的一個實施例，該影像分析器包括一用於對該數位視訊之視訊部分內之一音訊源定位的影像定位器，且該影像分析器基於該音訊源在該視訊部分內的位置而測定來自該音訊源之音訊的方向分量。

根據該電子裝置的一個實施例，該影像分析器進一步包括一用於測定該數位視訊之視訊部分內之一音訊源之定向的定向檢測器，以測定該音訊源之一定向，且該影像分析器基於在該視訊部分內之該音訊源的定向而進一步測定來自該音訊源之音訊的方向分量。

根據該電子裝置的一個實施例，該定向檢測器包含一臉部檢測模組，該模組基於一係一人之音訊源之臉部特徵之一組態而測定該音訊源的定向。

根據該電子裝置之一實施例，該影像分析器包含一干擾檢測器，該檢測器用於檢測該視訊部分中之一干擾一在該數位視訊之視訊部分中之音訊源之影像的物體，使得該編碼器可對該多頻道音訊編碼而不被該干擾物體打斷。

根據該電子裝置的一個實施例，該影像分析器測定來自該數位視訊中之複數個音訊源之各者之音訊的至少一個方向分量，且編碼器基於來自該等複數個音訊源之音訊的至少一個方向分量而將該音訊部分編碼成一多頻道格式。

根據該電子裝置的一個實施例，該影像分析器測定來自該數位視訊中之複數個音訊源之各者的音訊之複數個方向分量，且該編碼器基於來自該複數個音訊源之音訊的複數個方向分量而將該音訊部分編碼成一多頻道格式。

根據本發明的另一個態樣，一種為一具有一視訊部分及一音訊部分的數位視訊編碼多頻道音訊的方法包括如下步驟：接收該數位視訊之音訊部分、接收該數位視訊之視訊部分並測定來自該數位視訊中之一音訊源的音訊之至少一個方向分量、將該音訊部分及該至少一個方向分量輸入至一多頻道音訊編碼器中以及基於來自該音訊源之音訊的至少一個方向分量將該音訊部分編碼成一多頻道格式。

根據該方法的一個實施例，該方法進一步包括用一電子裝置產生該數位視訊、檢測該電子裝置之一動作以及基於該電子裝置之動作而測定來自該數位視訊中之音訊源的音訊之一方向分量。該編碼器基於測定自該電子裝置之動作的來自該音訊源之音訊的方向分量而進一步將該音訊部分編碼成一多頻道格式。

根據該方法的一個實施例，該方法進一步包括將該數位視訊儲存於一電子裝置中之一記憶體中、從該記憶體擷取該數位視訊以及從所儲存的數位視訊提取該視訊部分及該音訊部分。

根據該方法的一個實施例，測定該至少一個方向分量包括對一在該數位視訊之視訊部分內的音訊源定位以及基於該音訊源在該視訊部分內的位置而測定來自該音訊源之音訊的方向分量。

根據該方法的一個實施例，測定該至少一個方向分量進一步包括測定一在該數位視訊之視訊部分內的音訊源之一定向以及基於該音訊源在該視訊部分內的定向而進一步測定來自該音訊源之音訊的方向分量。

根據該方法的一個實施例，測定一音訊源之定向包含執行臉部檢測以便基於一係一人的音訊源之臉部特徵之一組態而測定該音訊源之定向。

根據該方法之一實施例，該方法進一步包括檢測該視訊部分中之一干擾該數位視訊之視訊部分中之一音訊源之影像的物體，以及對該音訊部分編碼而不被該干擾物體打斷。

根據該方法之一實施例，該方法進一步包括測定來自該數位視訊中之複數個音訊源之各者的音訊之至少一個方向分量，以及基於來自該複數個音訊源之各者之音訊的至少一個方向分量而將該音訊部分編碼成一多頻道格式。

根據該方法的一個實施例，該方法進一步包括創建一視訊會議電話呼叫，其中該複數個音訊源之各者為該視訊會議呼叫之一參與者，以及對該音訊部分編碼以模擬各個參與者在該視訊會議呼叫中的相對位置。

本發明的這些特徵及其它特徵將參考如下描述及該等圖式而變得明顯。在該描述及圖式中，本發明之特定實施例以一些可指示本發明之原理可被利用之方式的細節而被揭示，但應理解本發明之範圍不因而限於此。相反地，本發明包含所有在附於此之請求項之精神及項目內的改變、修改及等效物。

被描述及/或顯示的關於一個實施例的特徵可以相同或相似的方式使用於一個或更多個實施例中及/或與其他實施例的特徵組合或替代其他實施例的特徵。

應強調的係，當使用於此文中時，術語「包括」係用於指明所陳述之特徵、整數、步驟或元件的存在，但並不排除一個或更多個其他特徵、整數、步驟、元件或其群組的存在或增加。

現將參考圖式描述本發明之實施例，其中相似的標號係用於指代相似的元件。應理解該等圖式不必按照比例。

參考圖1，一種示例性電子裝置10被實施於一具有一數位視訊功能的可攜式電子裝置中。在圖1中，該示例性可攜式電子裝置被描繪為一行動電話10。雖然如下之描述在一習知的行動電話之背景下而被做出，但應瞭解本發明不限於一行動電話之背景，且可涉及任意類型的具有一數位視訊功能的適當電子裝置，包含一數位相機、數位視訊相機、行動PDA、其他行動無線通信裝置、遊戲裝置、可攜式媒體播放器或類似物。應瞭解使用於此之術語「數位視訊」包含視聽內容，該視聽內容可包含一視訊部分及一音訊部分。此外，雖然此處之該描述主要涉及具有一視訊部分及一音訊部分的內容，相當之原理亦可被應用至獨立於或不關聯於視訊部分而僅複製該內容之音訊部分。

圖1顯示該示例性行動電話10的多個外部元件，及圖2顯示該行動電話10之操作部分之一功能方塊圖。行動電話10可為一具有一可在一打開及一關閉位置之間移動之翻轉開啟式蓋子15的蛤殼型行動電話。在圖1中，該蓋子處於打開位置。應瞭解該行動電話10可具有其他組態，例如一種「方塊」或「磚塊」組態、滑蓋式組態、旋蓋式組態或其他組態。

行動電話10可包含一經組態以執行該行動電話之功能及操作之總體控制的主要控制電路41。該控制電路41可包含一處理裝置42，例如一CPU、微控制器或微處理器。在其功能中，為實施本發明之特徵，該控制電路41及/或處理裝置42可包括一控制器，該控制器可執行被實施為具有一3D音訊應用程式60之數位視訊應用程式43的程式碼。對於電腦程式化，特別係相機、行動電話或其他電子裝置之應用程式程式化之技術一般者來說顯而易見的係如何對一行動電話程式化以操作並執行與應用程式43及60相關的邏輯功能。因此，諸如具體程式化代碼的細節因簡潔之故而略之。此外，雖然根據一示例性實施例該代碼可被控制電路41執行，但該控制器功能亦可經由專用硬體、韌體、軟體或其組合執行而不脫離本發明之範圍。

行動電話10亦可包含一相機總成20。該相機總成20構成一用於產生一諸如數位靜態影像或數位移動視訊影像之數位影像的影像產生裝置。該相機總成20可包含一面朝外並遠離該使用者以截取相對於該使用者的標的物之靜態照片或移動數位視訊影像的鏡頭21。相機總成20亦可包含一個或更多個用於從該鏡頭接收光以產生該等影像的影像感應器22。相機總成20亦可包含在習知數位靜態或視訊相機中常見的特徵，例如一閃光燈23、測光表24及類似物。

行動電話10具有一顯示器14，當該蛤殼式電話處於打開位置時該顯示器14可視。該顯示器14向一使用者顯示關於該行動電話之多種特徵及操作狀態的資訊，並顯示被該行動電話接收及/或從一記憶體25擷取的視覺內容。顯示器14亦可用於顯示圖片、視訊及多媒體內容之視訊部分。對於照片或數位視訊功能來說，該顯示器14可被用作一用於該相機總成20的電子取景器。該顯示器14可被一視訊處理電路54耦合至該控制電路41，該處理電路54將視訊資料轉換為一用於驅動該等多個顯示器的視訊信號。該視訊處理電路54可包含任何適用的緩衝器、解碼器、視訊資料處理器等。該視訊資料可由該控制電路41產生、從一儲存於該記憶體25中的視訊文件中擷取、從一傳入的視訊資料串流導出或以任何其他合適的方法獲取。根據本發明之實施例，該顯示器14可顯示被該相機總成20補捉或者由該電子裝置10播放的數位視訊影像之視訊部分。

該行動電話10進一步包含一用於處理音訊信號的聲音信號處理電路48。一揚聲器50及麥克風52被耦合至該聲音處理電路48，習知的係該揚聲器50及麥克風52可使一使用者能經由該行動電話聽及說。被進一步描述於下的係，在本發明之實施例中，該麥克風52可用於收集由該使用者產生之視聽內容的音訊部分。

本發明係提供用於與該使用者利用該行動電話10創建之視聽內容有關的3D或多頻道音訊之產生。舉例來說，一使用者可使用該數位視訊功能43以創建一具有一視訊部分及一音訊部分的數位視訊。該相機總成20可產生該視訊部分，且該麥克風52可收集該音訊部分。該數位視訊功能43可將該等兩個分量合併成一具有該視訊部分及該音訊部分的數位視訊。

該數位視訊功能43可以多種方式被一使用者執行。舉例來說，行動電話10可包含一提供多種使用者輸入操作的鍵盤18。舉例來說，鍵盤18一般包含字母數字按鍵，該等按鍵允許諸如電話號碼、電話清單、聯繫資訊、筆記等的字母數字資訊之輸入。此外，鍵盤18一般包含專用功能按鍵，例如一用於開始或應答一呼叫及其它的「發送」按鍵，或者方向導航按鍵。該等按鍵中的一些或所有可關聯於該顯示器用作軟式按鍵。按鍵或按鍵式功能亦可被實施為一種與該顯示器14關聯的觸控螢幕。因此，該數位視訊功能43可藉由來自一顯示於該顯示器14上之功能表的選擇或藉由任意適當方式用鍵盤18上之一專用按鍵選擇。

在此示例性電子裝置10中只有一個麥克風52，如上述，這對於直接錄製3D或多頻道音訊來說一般係不夠的。如果該數位視訊係以一種除了電子裝置10之使用者之外的方式創建，則與之類似該數位視訊在此被認定為未被創建有多頻道或3D音訊特徵。為產生3D或多頻道音訊，該數位視訊功能43可包含一3D音訊應用程式60。如上述，該應用程式60可被實施為可被該控制電路41執行的可執行程式碼。對於電腦程式化，特別係相機、行動電話或其他電子裝置之應用程式程式化之一般技術者來說，如何對一行動電話程式化以操作並執行與應用程式60相關的邏輯功能並無窒礙。因此，諸如具體程式化代碼的細節因簡潔之故而略之。雖然根據一示例性實施例該代碼可被控制電路41執行，但該控制器功能亦可經由專用硬體、韌體、軟體或其組合執行而不脫離本發明之範圍。此外，雖然該應用程式60被描述為該數位視訊功能43之部分，但應用程式60或其部分可獨立於該數位視訊功能43。

圖3顯示一種示例性數位視訊之一示例性部分96。在圖中可看到，該數位視訊部分96可包括組成該數位視訊的一系列影像96a-c。一在該數位視訊中的對象90可為一音訊源。舉例來說，在圖3中該對象90為一在該數位視訊正被錄製時說話的人。應瞭解來自該對象90的音訊之一方向分量可被兩個參數影響。首先，由於該對象移動，該音訊來源於一相對於該電子裝置之數位視訊相機的不同方向。此外，該音訊之方向分量可隨著該對象改變其相對於該視訊相機的定向而改變。舉例來說，暫時參考圖4，如果該對象為一人，則來自該人之音訊的方向分量可隨著該對象相對於該視訊相機重定向其臉部45而改變。如以下之進一步描述，這些參數之各者-該對象之位置及該對象之定向-可被使用以便針對該數位視訊而產生3D或多頻道音訊。

圖5為一種示例性3D音訊應用程式60的操作部分之一概要方塊圖。該應用程式60可包含一接收一數位視訊之一視訊部分的影像分析器62及一接收一數位視訊之音訊部分的音訊接收器66。在一個實施例中，該視訊部分及該音訊部分可在一數位視訊被產生時被該應用程式60即時接收。舉例來說，該視訊部分可從該相機總成20即時接收，該音訊部分可經由該聲音信號處理電路48從該麥克風52即時接收。在一替代實施例中，該數位視訊可為一包含該視訊部分及該音訊部分的先前創建之視訊檔。然後可從該數位視訊檔中提取該等視訊及音訊部分以進行處理。舉例來說，該視訊檔可從該內部記憶體25擷取、從一外部儲存裝置下載、從來自一網路視訊饋送之串流或藉由其他習知方式獲取。因此，該3D音訊可在一使用者利用該可攜式電子裝置產生該數位視訊時以亦被描述於此的方式即時產生，或者作為一種被應用至一先前創建及/或非使用者創建之數位視訊的後期處理功能而被產生。

該影像分析器可包含一用於測定一數位視訊中之一音訊源之位置的影像定位器63。該影像定位器可藉由使用與被該音訊接收器66接收之音訊組合的影像識別技術(例如物體識別、邊緣檢測、輪廓識別或其他)而將一對象識別為一音訊源。如上述，一個用於產生3D音訊的參數可為一音訊源相對於產生該視訊的電子裝置之數位視訊相機的位置。再次參考圖3，當該對象在該數位視訊中從左側移動至右側時，該對象之位置相對於該相機總成而改變。一種逼真的音訊複製將反映此位置變化使得當該對象在該相機總成之左側(圖框96a)時，該音訊複製將更集中於一左音訊頻道。當該對象在該相機總成之右側(圖框96c)時，該音訊複製將更集中於一右音訊頻道。當該對象在該相機總成之正前方(圖框96b)時，該音訊複製將更集中於一中音訊頻道，及/或在左及右音訊通道之間大體均等地分開。

該影像分析器62之影像定位器63可隨著一對象在該數位視訊中移動而測定該對象之位置變化。舉例來說，對於圖框96a來說，一形成於一被描繪至該對象90的直線及一至該相機總成的法線93之間的角度為92a。當該對象在該相機總成之正前方時，此角度在圖框96b中為零，且當該對象移動至右側時，此角度在圖框96c中為92b。利用這種方式，該影像定位器可在一對象在該數位視訊中移動時追蹤該對象。此外，雖然在此實例中該移動係從左到右，但亦可測定諸如上對下或近對遠的其他定向變化。

如上述，產生3D或多頻道音訊的另一個參數可為一音訊源相對於產生該數位視訊之相機總成的定向。因此，該影像分析器62亦可包含一用於測定一音訊源相對於該相機總成之定向的定向檢測器64。在一個實施例中，該定向檢測器64可包含一用於基於該音訊源之臉部特徵之一組態(或其變化)而檢測一人物對象相對於該相機總成之定向的臉部檢測模組。

圖4顯示一數位視訊中之一人物對象之定向的一個示例性變化序列。該定向檢測器/臉部檢測模組64可檢測一對象之臉部特徵的動作及定向，特別係該使用者之眼睛及鄰近臉部特徵之移動及定向。該移動及定向可藉由物體識別、邊緣檢測、輪廓識別或其他用於檢測任何檢測於一影像序列內的對象或物體之動作的方式測定。然後該等臉部特徵之移動可被轉換成一種對應於從該對象發出之音訊之一方向分量的方向向量。

舉例來說，在圖4中元件45a-45d代表一可被該定向檢測器/臉部檢測模組64檢測的對象之定向的一系列變化。由此，該定向檢測器/臉部檢測模組64監測由圖框45a-45d代表的動作序列。首先在這個實例中，該對象面朝前，如圖框45a。該定向檢測器64可檢測該對象將其頭部轉向右側，如從45a到45b的縮略圖框所描繪。該定向檢測器64可界定一對應於該使用者之臉部之至少一部分之定向的方向向量49，舉例來說，該定向係由該使用者之雙眼及相鄰臉部特徵之組態及定向中的變化表示。該方向向量49可藉由測定被一在該相機總成所捕捉之影像序列內的使用者之雙眼及鼻尖之相對位置形成的三角形之相對位移及扭曲而導出。舉例來說，三角形47a代表該使用者之雙眼及鼻子在圖框45a內的相對位置，三角形47b代表該使用者之雙眼及鼻子在圖框45b內的相對位置。三角形47a及47b之間的相對位移與相對扭曲一同指示該使用者向右側看，如方向向量49所示。與之類似，圖框45c所描繪之使用者將其頭部轉向左側時，如圖框45d，該定向檢測器64可檢測另一個對應於該使用者之臉部之定向之方向的方向向量51，該方向向量51可從三角形47c及47d明顯看到。在一逼真的音訊複製中，音訊中應有一種等量的變化以反映該對象何時遠離(或至少不是直接面朝)該相機總成而說話。

如上述，該音訊接收器66接收被該麥克風52收集的音訊。該麥克風音訊從該音訊接收器66輸入至一編碼器68中。此外，來自包含該影像定位器63及定向檢測器64的該影像分析器62之方向資料亦被輸入至該編碼器68中。然後該編碼器可基於被該影像分析器產生的方向資料而重新處理該麥克風音訊以便針對該數位視訊產生3D或多頻道音訊。舉例來說，該編碼器可基於被該影像定位器及該定向檢測器測定的一對象之位置及定向而將該音訊編碼成多頻道音訊。該音訊可被編碼成一種標準格式(例如5.1、6.1等)或一些由一使用者研發或界定的其它格式。利用這種方式，即使一數位視訊之音訊部分最初僅利用一單一麥克風收集，一種逼真的3D音訊複製亦可被產生。

根據上述，圖6為一種針對一數位視訊產生3D或多頻道音訊的示例性方法之一流程圖。雖然該示例性方法被描述為執行功能性邏輯步驟的一個特定順序，但執行該等步驟的順序亦可相對於上述順序而改變。此外，兩個或更多個連續描述的步驟可同時或部分同時執行。應理解所有該等變化都在本發明之範圍內。

該方法可自步驟100開始，一數位視訊之一視訊部分被接收於此步驟100。如上述，該視訊部分可被該影像分析器62接收。在步驟110，該數位視訊之一音訊部分可例如被該音訊接收器66接收。在步驟120，該視訊部分可被分析。舉例來說，步驟120a可包含利用該影像定位器63對該視訊部分內之一音訊源定位。藉由定位一音訊源，來自該音訊源之音訊之一方向分量可被測定。此外，步驟120b可包含利用該定向檢測器64在一音訊源上執行定向檢測以測定該音訊源之定向，該步驟亦可用於測定來自該音訊源之音訊之一方向分量。如果該音訊源為一人物對象，則該定向檢測器可執行臉部檢測以便基於該音訊源之臉部特徵之一組態(或其變化)而測定該音訊源之定向。在步驟130，被接收之音訊及經分析的影像資料可被輸入至一音訊編碼器，例如該編碼器68。在步驟140，該音訊可被編碼成任何多頻道音訊格式以便針對該數位視訊產生一逼真的3D音訊分量。在步驟150，該多頻道音訊可被併入該數位視訊檔中使得該數位視訊可與所產生的3D或多頻道音訊一同播放。

參考圖2，該電子裝置10可包含一具有一用於解碼多頻道或3D音訊之解碼器29的媒體播放器28。該解碼器允許該音訊以一種多頻道格式輸出至一揚聲器系統(外部揚聲器、耳機、頭戴式耳機等)。應瞭解雖然圖2顯示一種能產生及重播具有3D或多頻道音訊之內容的電子裝置，但情況並不必如此。舉例來說，該3D音訊可被一個裝置編碼，然後併入該3D音訊的該內容可被傳送至一具有該媒體播放器及解碼器而用於重播的第二裝置。

此外，該3D音訊應用程式60不必被呈現於任何可攜式電子裝置上。舉例來說，在一個實施例中，該3D音訊應用程式可藉由任何習知方式儲存於一網路伺服器並存取之。

根據上述該等示例性實施例，該數位視訊可被具有該數位視訊功能43的電子裝置10本身創建。在操作中，該視訊部分可被該相機總成20產生，對於一數位視訊相機來說這係常見的。此外，該數位視訊之一音訊部分可被該麥克風52收集，該音訊部分被提供至該聲音信號處理電路48中。該數位視訊功能43將該等視訊及音訊部分合併成一單一數位視訊檔，該檔可被儲存於一諸如該記憶體25的內部記憶體中、即時播放、傳送至一外部裝置以儲存或重播，或者該等操作之一組合。在一個實施例中，利用上述方式該數位視訊可在該數位視訊被該使用者用電子裝置10創建時用多頻道或3D音訊即時增強。

在其他實施例中，該數位視訊可首先被該使用者或另一者創建，然後用多頻道或3D音訊編碼增強作為一後期處理常式之部分。再次參考圖2，舉例來說，該數位視訊可被儲存於該電子裝置10之內部記憶體25中。該3D音訊應用程式60可從該記憶體擷取該數位視訊，且該影像分析器62及音訊接收器66可分別從被儲存的數位視訊中提取該視訊部分及該音訊部分。在另一個實例中，該電子裝置10可包含一用於經由一有線或無線網路獲取該數位視訊的網路介面26。該數位視訊可藉由將該數位視訊下載或串流至該電子裝置而被獲取。然後該影像分析器62及音訊接收器66可分別從獲取於網路的數位視訊中提取該視訊部分及該音訊部分。

該3D音訊應用程式60可包含用於增強該音訊複製之品質的其他元件。舉例來說，再次參考圖5，該影像分析器62可包含一干擾檢測器65。應瞭解在一數位視訊的創建過程中，一音訊源可能不能被該數位視訊相機觀察到。舉例來說，一非預期物體可能移動至該相機及該對象之間，即使來自該對象的音訊仍保持不變，該物體亦可打斷對該對象之觀察。該干擾檢測器可在某種程度上充當一記憶體以儲存關於觀察中斷期間之音訊源的影像位置及定向資料。按此方式，即使觀察中斷，亦可根據對象音訊源之位置及定向來連續編碼多頻道音訊。

參考圖2及圖5，在另一個實施例中，該3D音訊應用程式60亦可考量在該數位視訊被創建時該相機的動作。應瞭解該相機之動作亦可改變來自一音訊源之音訊相對於該相機位置的方向分量。舉例來說，該電子裝置10可包含一用於感測該相機之動作的動作感應器27。該動作感應器可為一用於檢測一物體之動作的加速計或與之相當的裝置。當該相機移動時，來自一音訊源的音訊之方向分量亦可等量改變。在這個實施例中，該3D音訊應用程式60可包含一用於從該動作感應器接收該輸入的動作分析器70。該動作分析器可基於該電子裝置之動作而測定該數位視訊中來自一音訊源的音訊之一方向分量。來自該動作分析器的資料可被輸入至該編碼器68以便被用於將該數位視訊之音訊部分編碼成3D或多頻道格式。

在另一個實施例中，該3D音訊應用程式60可包含一編輯器介面72，一使用者可藉由此介面編輯該多頻道音訊。舉例來說，一使用者可修改該等頻道之任一者的音量、將該音訊之一部分或若干部分重分為不同頻道或類似操作。一使用者可利用該鍵盤18及/或一功能表系統或者藉由使用應用程式及輸入資料或命令的任何習知方式而使用該編輯器並輸入該等編輯。

上述該等實例通常係連同測定一數位視訊中之一單一音訊源之一方向分量而描述。該系統可具有足夠的精密度，以測定一音訊源的複數個方向分量及/或複數個音訊源的複數個方向分量。此外，如上述，該等音訊源不必為人物對象，亦可為任何其它類型的音訊源。舉例來說，替代或附加音訊源可包含諸如揚聲器、狗或其他動物、環境物體及其它物體的物體。對於非人物對象來說，該定向檢測器64可使用識別技術而非臉部檢測。舉例來說，該定向檢測器可使用物體識別、邊緣檢測、輪廓識別或其它方式，以檢測於一影像或對應於一數位視訊之影像序列中被檢測之對象或物體的定向。

參考圖7，可使用多源功能以創建一視訊會議系統200。在這個實施例中，三個視訊會議呼叫參與者95a、95b及95c係標示於圍繞一示例性會議桌91的不同位置。該視訊會議呼叫可由一具有一相機總成20及麥克風52的電子裝置10產生。一逼真音訊編碼及複製將模擬該呼叫中各個參與者的不同位置，使得從該對象95a到該相機總成左側的音訊(語音)將更集中於一左音訊頻道中。從該對象95c到該相機總成之右側的音訊(語音)將更集中於一右音訊頻道中，且來自處於該相機總成之正前方之對象95b的音訊(語音)將更集中於一中央音訊頻道，及/或在左及右音訊頻道之間大體均等地分開。

與圖3所顯示之系統相似，可在描繪至該等對象95a、95b及95c之各者的直線及一至該相機總成的法線93之間形成一角度。(對於在該相機總成之正前方的對象95b來說，該角度為零。)利用這種方式，該影像定位器可基於在該視訊會議呼叫中該對象相對於該相機總成的位置而測定來自各個對象之音訊之一方向分量。應瞭解此系統亦可用於任意數量的會議呼叫參與者。

因此該會議呼叫之音訊部分可被編碼以模擬各個參與者在該呼叫中的相對位置。然後一視訊會議呼叫來源可被傳送至一使用該行動電話10a的遠端參與者，如圖7中的鋸齒箭頭所示。假設該行動電話10a裝有一多頻道解碼器及揚聲器系統(外部揚聲器、虛擬環繞聲耳機或頭戴式耳機)，該遠端參與者將聽到各個參與者95a-c，如同該等參與者正圍繞該會議桌91而坐。在一個實施例中，該遠端參與者僅可接收該呼叫之音訊部分。如果是這樣，該遠端參與者可基於該音訊之方向編碼而更輕易地識別各個說話者。或者，該呼叫之一視訊分量可被顯示於該行動電話10a之顯示器14上。即使在這種狀況下，該遠端參與者亦可獲得更好的呼叫樂趣，因為該音訊將匹配各個說話者之實體定位。亦應瞭解哪個電子裝置(10或10a)測定該多頻道視訊並對其編碼並不重要。任一裝置都可分析該視訊會議呼叫之視訊部分並將該音訊部分編碼成多頻道格式。

雖然本發明參考某些較佳實施例而被顯示及描述，應理解在研讀及理解本文之後其他技術熟練者可做出等效物及修改。本發明包含所有該等等效物及修改，且僅被如下之請求項的範圍限制。

10．．．電子裝置

14．．．顯示器

15．．．翻轉開啟式蓋子

18．．．鍵盤

20．．．相機總成

21．．．鏡頭

22．．．影像感測器

23．．．閃光燈

24．．．測光表

25．．．記憶體

26．．．網路介面

27．．．動作感測器

28．．．媒體播放器

29．．．解碼器

41．．．主要控制電路

42．．．處理裝置

43．．．數位視訊應用程式

44．．．天線

45．．．臉部

46．．．通信電路系統

48．．．聲音信號處理電路

49．．．方向向量

50．．．揚聲器

51．．．另一個方向向量

52．．．麥克風

54．．．視訊處理電路

60．．．3D音訊應用程式

62．．．影像分析器

63．．．影像定位器

64．．．定向檢測器/臉部檢測模組

65．．．干擾檢測器

66．．．音訊接收器

68．．．編碼器

70．．．動作分析器

72．．．編輯器介面

90．．．對象

91．．．會議桌

95a-c．．．參與者

96．．．數位視訊部分

96a-c．．．影像序列

200．．．視訊會議系統

圖1為一種根據本發明之一實施例而使用的示例性電子裝置之一概要圖；

圖2為圖1之電子裝置的操作部分之一概要方塊圖；

圖3顯示一種組成一示例性數位視訊之一視訊部分的影像序列；

圖4顯示一數位視訊中之一對象的定向之一示例性變化序列；

圖5為一種示例性3D音訊應用程式的操作部分之一概要方塊圖；

圖6為一種為一數位視訊產生3D或多頻道音訊的示例性方法之一流程圖；及

圖7為一種示例性視訊會議系統之一概要圖。