TW201036463A

TW201036463A - System and method for generating multichannel audio with a portable electronic device

Info

Publication number: TW201036463A
Application number: TW098128314A
Authority: TW
Inventors: Thoern Karl Ola
Original assignee: Sony Ericsson Mobile Comm Ab
Priority date: 2008-10-22
Filing date: 2009-08-21
Publication date: 2010-10-01
Also published as: TWI496480B; CN102197646A; EP2359595A1; WO2010046736A1; CN102197646B; US20100098258A1

Description

201036463 六、發明說明：【發明所屬之技術領域】本發明係關於一可攜式電子裝置中的音訊複製，更特定而吕，係關於一種用一可攜式電子裝置產生多頻道音訊的系統及方法。【先前技術】諸如行動電話、媒體播放器、個人數位助理（PDA)及其 _ 匕的了攜式電子裝置正變得越來越流行。為避免須攜帶多 0 «置，現今可攜式電子裝置經組態以提供多種功能。舉例來說，一行動電話不再僅用於撥打或接收電話呼叫。一行動電5舌亦可為一照相機（靜態及/或視訊）、一用於獲取新聞及資訊的網際網路流覽器、一視聽媒體播放器、一傳訊 4置（文子曰此及/或視訊訊息）、一遊戲裝置、一個人電子記事器，並亦可具有其他功能。因此當代的可攜式電子裝置通常包含用於播放視聽内容的媒體播放器功能。 ❹ 通常對於視聽内容來說，這些内容的音訊部分已被改善。詳細而言，三維（「3D」）音訊可被複製以提供一種更 _ 逼真的聲音複製。環繞聲技術係此技術中所週知並提供一種方向分量以模仿一 3D聲音環境。舉例來說，在該視聽内今中似乎來自左邊的聲音將主要經由一定位於左側的音源 (例如一揚聲器）而被聽到，在該視聽内容中似乎來自右邊的聲音將主要經由一定位於右侧的音源而被聽到，等等。利用這種方式，該音訊内容可作為一整體而被複製以模擬一種逼真的3D聲音環境。 142688.doc 201036463 為產生環繞聲，聲音可被錄製並編碼於數個分離的頻道中。當重播時，該等被編碼的頻道可被解碼成多個頻道以便重播。有時，錄製頻道和重播頻道之數量可相同，或者該解碼可將該等錄製頻道轉換為不同數量的重播頻道。該等重播頻道可對應於一揚聲器配置中之一特定數量=揚聲器。舉例來說，一個常見的環繞聲音訊格式被表示為「5.1」音訊。此系統可包含5個重播頻道，該等重播頻道可經由5個揚聲器—中央頻道、左及右前頻道以及乂及右後頻道播放（雖然並非必須）。該「.1」代表-低㈣果 (=FE)或低音頻道，例如可由—重低音揚聲器提供。其他㊉見格式在該配置中提供附加頻道及/或揚聲器，例如6 1 及”音訊。利用此等多頻道配置…聲音可 3D聲音環境时式按頻道發送至多個揚聲器。此外，、= :聲:=理以便利用比重播頻道少的揚聲器模擬辦曰，廷通常被稱為「虛擬環繞聲」。對於一種可攜式電子裝音複製。舉例來說，該裝置可:查已以:種方式嘗試辦繞聲或其他3D或多頻u L接至一經組態以用於環 - 5日㈣❸卜部揚聲“統，例如 5.1持聲盗系統。然而，時限制該裝置之可攜性@系統在視聽重播之耳機及頭戴式耳機等耳機:攜性’已研發出經改良及右耳揚聲器時模仿頭戴式耳機在只使用左戴式耳機可提供一種虛擬環環型耳機及頭訊特徵而無需使用於-外部揚声/衷兄增強該内容的音卜#知聲器環繞聲系統中的多個揚 I42688.doc 201036463 聲器。在該視聽内容已被專業地產生或以-種精密的方式產生時，外部揚聲器或者3D增強可攜式耳機或頭戴式耳機通常已足夠。内容創建者一般藉由記錄多個音訊頻道而產生3D ^ 纟訊，該等多個音訊頻道可藉由在該内容被創建時使用多自麥克風錄製。藉由適當定位該等麥克風，方向性立气八量可被編碼成該等被錄製的音訊頻道。可使用附加1理: ❹ h強該多頻道錄製的頻道化。該音訊可被編碼成該等常見 2頻料式中之—者，例如或6」等。然後該等方向性曰广刀里可在重播時被複製，只要該播放器具有合適的解碼能力，且該揚聲”統（揚聲器、耳機、頭戴式耳機等） ”有對應的3D/夕頻道環繞聲或虛擬環繞聲複製能力。、然而，這些被描述的系統對於使用者創建之内容來說已被也明效率較低。現在對於可攜式電子裝置來說包含一數位視訊錄製功能以錄製諸如具有一視訊部分及一音訊部分〇 <數位視訊的視聽内容係常見的。此等裝置之實例包含一專用數位視訊相機、或具有一數位視訊功能的多功能裝置 (:如：行動電話、PDA、遊戲裝置等)。不考慮類型，可 t式电子裝置一般只具有一個麥克風以錄製視聽内容之音訊部分。僅利用單一麥克風，3D或多頻道音訊的產生將需要尖端或特殊的聲音信號處理’此處理通常不能在消費者導向的可攜式電子裝置令找到。因此一般無法在一可攜式電衫置中針對使用者創建内容產生3D或多頻道音訊。在個獨立技術領域中，眼追縱及凝視檢測系統已被納 142688.doc 201036463 入考量。眼追蹤為測量凝視點及/或眼睛㈣於頭部之動作的過程。現今眼追蹤或凝視方向檢測之最常見的方法包括從該眼睛之-視訊影像中提取眼睛相對於頭部的位置。除了眼追蹤之外，臉部檢測的其他形式亦被研發。舉例來說，臉部檢測的-個形式可檢測特定臉部特徵，例如一個人是否在微笑或目乏眼。然而，到現在為止，此等技術並未元全被利用。【發明内容】因此，在本技術中存在對一種在一可攜式電子裝置中產生3D或多頻道音訊之改良系統及方法的需求。詳細而言，在本技術中存在對一種在一可攜式電子裝置中產生3d^多頻道音訊之改良系統及方法的需求，該系統及方法不需要比可攜式電子裝置中常見之單一麥克風更多的麥克風。电子裝置被長:供用於操縱一具有一視訊部分及一音訊部分的數位視訊以將該音訊部分編碼成一種3D或多頻道格式。該電子裝置可包含一用於接收該數位視訊之音訊部分的音訊接收器及一用於接收該數位視訊之視訊部分並測定來自該數位視訊中之一音訊源的音訊之至少一個方向分量的影像分析器。為測定該方向分量，該影像分析器可包含用於測疋一音訊源在該數位視訊内之一位置的影像定位器及一用於測定該音訊源之一定向的定向檢測器。該定向檢測器可包含一面部檢測模組，該檢測模組基於一對象人物之面部特徵之動作及組態而測定係一音訊源之該人物的定向。一音訊源之位置及定向可被用於測定來自該音訊源 142688.doc • 8 - 201036463 的音訊之-方向分量。一音訊編碼器可接收該音訊部分之 -輸入及該至少-個方向分量，且該編碼器可基於來自該音訊源的音訊之該至少一個方向分量而將該音訊部分編碼成一種多頻道格式。因此’根據本發明之-態樣種電子裝置被提供用於操縱-具有-視訊部分及-音訊部分的數位視訊。該電子裝置包括-用於接收該數位視訊之音訊部分的音訊接收器以及用於接收§亥數位視訊之視訊部分並測定來自該數位視訊中之一音訊源的音訊之至少—個方向分量的影像分析器。一音訊編碼器接收該音訊部分之一輸入及該至少一個方向分量，其中該編碼器基於來自該音訊源的音訊之至少一個方向分量而將該音訊部分編碼成一多頻道格式。根據該電子裝置的一個實施例，該電子裝置進一步包括一用於產生被該影像分析器接收的數位視訊之視訊部分的相機總成及一用於收集被該音訊接收器接收的數位視訊之音訊部分的麥克風。根據该電子裝置的一個實施例，該電子裝置進一步包括一用於檢測該電子裝置之一動作的動作感應器及—用於基於該電子裝置之動作測定來自該數位視訊中之音訊源的音訊之一方向分量的動作分析器。該編碼器基於被該動作分析器測定的來自該音訊源的音訊之方向分量而進_步將該音訊部分編碼成一多頻道格式。根據该電子裝置的一個實施例，該電子裝置進—步包括一用於儲存該數位視訊的記憶體，其中該影像分析器藉由 142688.doc 201036463 從所儲存的數位視訊中提取該視訊部分而接收該視訊部分’且該音訊接收器藉由從所儲存的數位視訊中提取該音訊部分而接收該音訊部分。根據該電子裝置的一個實施例，該電子裝置進一步包括一用於從一網路取得該數位視訊的網路介面，其中該影像分析器藉由從所獲取的數位視訊中提取該視訊部分而接收該視訊部分’且該音訊接收器藉由從所獲取的數位視訊中提取該音訊部分而接收該音訊部分。根據該電子裝置的一個實施例，該影像分析器包括一用於對該數位視訊之視訊部分内之一音訊源定位的影像定位器，且該影像分析器基於該音訊源在該視訊部分内的位置而測定來自該音訊源之音訊的方向分量。根據該電子裝置的一個實施例，該影像分析器進一步包括一用於測定該數位視訊之視訊部分内之一音訊源之定向的定向檢測器，以測定該音訊源之一定向，且該影像分析器基於在該視訊部分内之該音訊源的定向而進一步測定來自該音訊源之音訊的方向分量。根據該電子裝置的一個實施例’該定向檢測器包含一臉部檢測模組，該模組基於一係一人之音訊源之臉部特徵之一組態而測定該音訊源的定向。根據該電子裝置之一實施例，該影像分析器包含一干擾檢測益，該檢測器用於檢測該視訊部分中之—干择一在續數位視訊之視訊部分中之音訊源之影像的物體，使得該編碼器可對該多頻道音訊編碼而不被該干擾物體打斷。 142688.doc -10- 201036463 根據該電子裝置的一個實施例，該影像分析器測定來自該數：視訊中之複數個音訊源之各者之音訊的至少—個方向分量，且編碼器基於來自該等複數個音訊源之音訊的至少一個方向分量而將該音訊部分編碼成一多頻道格式。 ‘ 根據該電子裝置的一個實施例，該影像分析器測定來自 ”位視訊中之複數個音訊源之各者的音訊之複數個方向分量’且該編碼器基於來自該複數個音訊源之音訊的複數〇個方向分量而將該音訊部分編碼成一多頻道格式。 :據本發明的另一個態樣’ 一種為一具有一視訊部分及一音訊部分的數位視訊編碼多頻道音訊的方法包括如下步驟：接收該數位視訊之音訊部分、接收該數位視訊之視訊部分並測定來自該數位視訊中之一音訊源的音訊之至少— 個方向分量、將該音訊部分及該至少一個方向分量輪入至一多頻道音訊編碼器中以及基於來自該音訊源之音訊的至少一個方向分量將該音訊部分編碼成一多頻道格式。 Q 根據該方法的一個實施例，該方法進一步包括用—電子裝置產生該數位視訊、檢測該電子裝置之一動作以及基於遠電子裝置之動作而測定來自該數位視訊中之音訊源的音訊之一方向分量。該編碼器基於測定自該電子裝置之動作的來自該音訊源之音訊的方向分量而進一步將該音訊部分編碼成一多頻道格式。根據該方法的一個實施例，該方法進一步包括將該數位視訊儲存於一電子裝置中之一記憶體中、從該記憶體摘取該數位視訊以及從所儲存的數位視訊提取該視訊部分及該 142688.doc -11 - 201036463 音訊部分。根據該方法的一個實施例，測定該至少一 v 個方向分量包括對一在該數位視訊之視訊部分内的音訊源定位以及基於該音訊源在該視訊部分内的位置而測定來个曰该音訊源之音訊的方向分量。根據該方法的一個實施例，測定該至少—彳乂彳固方向分量進一步包括測定一在該數位視訊之視訊部分内的音訊源之一定向以及基於該音訊源在該視訊部分内的定向而進一步測定來自該音訊源之音訊的方向分量。根據該方法的一個實施例，測定一音訊源之定向包含執行臉部檢測以便基於一係一人的音訊源之臉部特徵之一組態而測定該音訊源之定向。根據該方法之-實施例’該方法進—步包括檢測該視訊部分中之一干擾該數位視訊之視訊部分中之一音訊源之影像的物體，以及對該音訊部分編碼而不被該干擾物體打斷。根據該方法之一實施例，該方法進一步包括測定來自該數位視訊中之複數個音訊源之各者的音訊之至少一個方向分量，以及基於來自該複數個音訊源之各者之音訊的至少一個方向分量而將該音訊部分編碼成一多頻道格式。根據該方法的一個實施例，該方法進一步包括創建一視訊會議電話呼叫，其中該複數個音訊源之各者為該視訊會 4呼叫之一參與者，以及對該音訊部分編碼以模擬各個參與者在該視訊會議呼叫中的相對位置。 142688.doc -12- 201036463 本發明的這些特徵及其它特徵將參考如下描述及該等圖式而變得明顯。在該描述及圖式中，本發明之特定實施例以一些可指示本發明之原理可被利用之方式的細節而被揭不，但應理解本發明之範圍不因而限於此。相反地，本發明包含所有在附於此之請求項之精神及項目内的改變、修改及等效物。 Ο

被描述及/或顯示的關於一個實施例的特徵可以相同或相似的方式使用於一個或更多個實施例中及/或與其他實施例的特徵組合或替代其他實施例的特徵。應強調的係’當使用於此文中時，術語「包括」係用於指明所陳述之特徵、整數、步驟或元件的存在，但並不排除一個或更多個其他特徵、整數、步驟、元件或其群組的存在或增加。【實施方式】現將參考圖式描述本發明之實施例’其中相似的標號係用於扣代相似的兀件。應理解該等圖式不必按照比例。參考圖1 ’―種示例性電子裝置10被實施於-具有-數位視訊功能的可攜式電子裝置中。在圖1中，該示例性可攜式電子裝置被描給免_ ^ 仃動電話1 〇。雖然如下之描述在一習知的行動電話之背吾月厅、下而破做出，但應瞭解本發明不限於一行動電話之背景，^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ 、且』丨步及任思類型的具有一數位視訊功能的適當電子奘番、置’包含一數位相機、數位視訊相機、行動PDA、其他杆叙包動無線通信裝置、遊戲裝置、可携式媒體播放器或類似物。廣愿瞭解使用於此之術語「數位視 142688.doc -13· 201036463 讯」包含視聽内容，該視聽内容可包含—視訊部分及—音訊部分。此外，雖然此處之該描述主要涉及具有—視訊部分及一音訊部分的内容，相當之原理亦可被應用至獨立於或不關聯於視訊部分而僅複製該内容之音訊部分。

圖1顯示該示例性行動電話10的多個外部元件，及圖2顯示該行動電話10之操作部分之一功能方塊圖。行動電話1〇可為一具有一可在—打開及一關閉位置之間移動之翻轉開啟式蓋子15的蛤殼型行動電話。在圖丨中，該蓋子處於打開位置。應瞭解該行動電話10可具有其他組態，例如一種「方塊」或「磚塊」組態、滑蓋式組態、旋蓋式纟且態或其他組態。行動電話10可包含一經組態以執行該行動電話之功能及操作之總體控制的主要控制電路41。該控制電路41可包含一處理裝置42，例如一 CPU、微控制器或微處理器。在其功能中，為實施本發明之特徵，該控制電路41及/或處理裝置42可包括-控制器，該控制器可執行被實施為具有一 3D音訊應用喊6G之數倾訊應餘仏的料碼。對於電腦程式化，特別係相機、行動電料其他電子袭置之應用私式程式化之技術-般者來說顯而易見的係如何對一行動電話程式化以操作並執行與應用程式43及6()相關的邏輯功能。因A ’諸如具體程式化代碼的細節因簡潔之故而略之。此外，雖然根據一示例性實施例該代碼可被控制電路 4:執仃’但该控制器功能亦可經由專用硬體、韌體、軟體或其組合執行而不脫離本發明之範圍。 l4268S.doc 14 201036463 行動電話10亦可包含一相機總成2〇。該相機總成2〇構成一用於產生一諸如數位靜態影像或數位移動視訊影像之數位影像的影像產生裝置。該相機總成2〇可包含一面朝外並通離該使用者以截取相對於該使用者的標的物之靜態照片 • 或移動數位視訊影像的鏡頭21。相機總成20亦可包含一個或更多個用於從該鏡頭接收光以產生該等影像的影像感應器22。相機總成20亦可包含在習知數位靜態或視訊相機中 0 常見的特徵，例如一閃光燈23、測光表24及類似物。仃動電話10具有一顯示器14，當該蛤殼式電話處於打開位置時該顯示器14可視。該顯示器14向一使用者顯示關於該行動電話之多種特徵及操作狀態的資訊，並顯示被該行動電話接收及/或從-記憶體25搁取的視覺内容。顯示器 14亦可用於顯示圖片、視訊及多媒體内容之視訊部分。對於照片或數位視訊功能來說，該顯示器14可被用作一用於該相機總成20的電子取景器。該顯示器14可被一視訊處理〇電路54㉝合至該控制電路41，該處理電路54將視訊資料轉換為一用於驅動該等多個顯示器的視訊信號。該視訊處理電路54可包含任何適用的緩衝器、解石馬器、視訊資料處理器等。該視訊資料可由該控制電路41產生、從一儲存於該記憶體25中的視訊文件中操取、從一傳入的視訊資料串：導出或以任何其他合適的方法獲取。根據本發明之實施例’該顯示器14可顯示被該相機總成2〇補捉或者由該電子裝置10播放的數位視訊影像之視訊部分。該行動電話10進一步包含一用於處理音訊信號的聲音信 142688.doc 15 201036463 號處理電路48。一揚聲器5〇及麥克風52被耦合至該聲音處理電路48，習知的係該揚聲器5〇及麥克風52可使一使用者能經由該行動電話聽及說。被進一步描述於下的係，在本發明之實施例中，該麥克風52可用於收集由該使用者產生之視聽内容的音訊部分。本發明係提供用於與該使用者利用該行動電話1〇創建之視聽内容有關的3D或多頻道音訊之產生。舉例來說，一使歸可使用該數位視訊功能43以㈣—具有—視訊部分及 :音訊部分的數位視訊。該相機總成2G可產生該視訊部刀且5亥麥克風52可收集該音訊部分。該數位視訊功能Μ 可將-亥等兩個分1合併成一具有該視訊部分及該音訊部分的數位視訊。该數位視訊功能43可 ^ / 1玉々八饮—1定用者執行。舉 a說’行動電話10可包含_提供多種使用者輸入操作的盤18。舉例來說’鍵盤18_般包含字母數字按鍵，該等鍵允許諸如電話號碼、電話清單、聯繫資訊、筆記等的母數字資訊之輸…外，鍵盤18—般包含專用功能鍵例如一用於開始或應答一啤叫及其它的「發送」者Γ向導航按鍵。該等按鍵中的—些或所有可關i :該顯以用作軟式按鍵。按鍵或按鍵式功能亦可被實; 為-種與該顯示器14關聯的觸控螢幕。因此 =藉由來自一顯示於該顯示器14上之功能二或藉由任意適當方式用鍵盤18上之—專用按鍵選擇。在此不例性電子裝置10中只有-個麥克風52,如上述 142688.doc -16- 201036463 這對於直接錄製3D或多頻道音訊來說一般係不夠的。如果該數位視訊係以一種除了電子裝置丨〇之使用者之外的方式創建，則與之類似該數位視訊在此被認定為未被創建有多頻道或3D音訊特徵。為產生3D或多頻道音訊，該數位視訊功能43可包含-3D音訊應用程式6〇。如上述，該應用程式60可被實施為可被該控制電路41執行的可執行程式碼。對於電腦程式化，特別係相機、行動電話或其他電子裝置〇 t應用程式程式化之一般技術者來說，如何對一行動電話程式化以操作並執行與應用程式6〇相關的邏輯功能並益窒礙。因此，諸如具體程式化代碼的細節因簡潔之故而略 ^ °雖然根據-示例性實施例該代碼可被控制電路41執灯，但該控制器功能亦可經由專用硬體、動體、軟體或其組合執行而不脫離本發明之範圍。此外，雖然該應用程式 ^描述為該數位視訊功能43之部分，但應用程式Μ或其〇刀可獨立於該數位視訊功能43。 ^ ❹ =示-種示例性數位視訊之一示例性部分 2看到，㈣位視訊部㈣可包括㈣㈣沔。舉仞龙纟該數位視訊中的對象90可為一音訊源舉例來說，在圖3巾# 錄製時說話的人。庫睁: 一在該數位視訊正被量可被兩個… 對象9〇的音訊之-方向分 "衫響。首先，由於該對象移動，續立1來源於一相對於該電 -曰況來外，該音訊之方向八Γ 相機的不同方向。此相機的定向而改變1 2相對於該視訊例果犮，暫％參考圖4，如果該對】42688.doc -17· 201036463 象為一人，則來自該人少立之θ況的方向分量可隨著該對象相對於該視訊相機重定向其臉部45而改變。如以下之進一步描述，這些參數之各者·該對象之位置及該對象之定向·可被使用以便針對該數位視訊而產生扣或多頻道音訊。圖5為-種示例性料訊應用程式㈣操作部分之一概要方塊圖。該應用程式60可包含一接收一數位視訊之一視訊部分的影像分析！！62及—接收—數位視訊之音訊部分的音訊接收器66。在-個實施例中，該視訊部分及該音訊部分可在-數位視訊被產生時被該應用程式的即時接收。舉例來說，該視訊部分可從該相機總成2〇即時接收，該音訊部分可經由該聲音信號處理電路48從該麥克風Μ即:接收。在-替代實施例中，該數位視訊可為一包含該視訊部分及該音訊部分的先前創建之視訊樓。然後可從該數位視訊檔中提取該等視訊及音訊部分以進行處自。舉例來說，該視訊檔可從該内部記憶體25擷取、從一外部儲存裝置下載、從來自一網路視訊饋送之串流或藉由其他習知方式獲取。因此’該3D音訊可在一使用者利用該可攜式電子裝^ 產生s玄數位視訊時以亦被描述於此的方式即時產生，戈者作為-種被應用至-先前創建及/或非使用者創建之數位視訊的後期處理功能而被產生。該影像分析器可包含一用於測定—數位視訊中之一音气源之位置的影隸位器63。該影敎位器可藉由使^被該音訊接收器66接收之音訊組合的影像識別技術（例2物體識別、邊緣檢測、輪廓識別或其他）而將—對象識別為 142688.doc -18- 201036463 一音訊源。如上述，一個用於產生3D音訊的參數可為一音訊源相對於產生該視訊的電子裝置之數位視訊相機的位置。再次參考圖3，當該對象在該數位視訊中從左側移動至右側時，該對象之位置相對於該相機總成而改變。一種逼真的音訊複製將反映此位置變化使得當該對象在該相機總成之左侧（圖框96a)時，該音訊複製將更集中於一左音訊頻道。當該對象在該相機總成之右側（圖框96c)時，該音訊〇複製將更集中於一右音訊頻道。當該對象在該相機總成之正前方（圖框96b)時，該音訊複製將更集中於一中音訊頻道，及/或在左及右音訊通道之間大體均等地分開。該影像分析器62之影像定位器63可隨著一對象在該數位視sfL中移動而測定該對象之位置變化。舉例來說，對於圖框96a來說，一形成於一被描繪至該對象9〇的直線及一至該相機總成的法線93之間的角度為92a。當該對象在該相機總成之正鈾方日7 ’此角度在圖框96b中為零，且當該對 ❹ 象移動至右側時，此角度在圖框96C中為92b。利用這種方式，該影像定位器可在一對象在該數位視訊中移動時追蹤該對象。此外，雖然在此實例中該移動係從左到右，但亦可測定諸如上對下或近對遠的其他定向變化。如上述，產生3D或多頻道音訊的另一個參數可為一音訊源相對於產生該數位視訊之相機總成的定向。因此，該影像分析器62亦可包含一用於測定一音訊源相對於該相機總成之定向的定向檢測器64。在一個實施例中，該定向檢測窃64可包含一用於基於該音訊源之臉部特徵之一組態（或 142688.doc -19- 201036463 其變化）而檢測一人物對象相對於該相機總成之定向的臉部檢測模組。圖4顯示一數位視訊中之一人物對象之定向的一個示例性變化序列。該定向檢測器/臉部檢測模組64可檢測一對象之臉部特徵的動作及定向’特別係該使用者之眼睛及鄰近臉部特徵之移動及定向。該移動及定向可藉由物體識別、邊緣檢測、輪廓識別或其他用於檢測任何檢測於一影

像序列内的對象或物體之動作的方式測^ '然後該等臉S 特徵之移動可被轉換成一種對應於從該對象發出之音訊之〇一方向分量的方向向量。舉例來說’在圖4中元件45a-45d代表一可被該定向檢測器/臉部檢測模組64檢測的對象之定向的一系列變化。由此，該定向檢測器/臉部檢測模組64監測由圖框45a_45d代表的動作序列。首先在這個實例中，該對象面朝前，如圖框45a。該定向檢測器64可檢測該對象將其頭部轉向右側，如從45a到45b的縮略圖框所描緣。該定向檢測器料可界2一對應於該使用者之臉部之至少一部分之定向的方向 ◎ 向量49,舉例來說’該定向係由該使用者之雙眼及相鄰臉部=徵之組態及定向中的變化表示。該方向向量49可藉由測疋被一在該相機總成所捕捉之影像序列内的使用者之雙眼及鼻大之相董十位置形成的三角形之相對位移及扭曲而導出。舉例來說，三角形47峨表該使用者之雙眼及鼻子在圖框45a内的相對位置，三角形代表該使用者之=眼及鼻子在圖框45b内的相對位置。三角形47a及—之間的相 142688.doc •20- 201036463 對位移與相對扭曲一同指示該使用者向右側看，如方向向量49所示。與之類似，圖框45c所描繪之使用者將其頭部轉向左側時，如圖框45d，該定向檢測器64可檢測另一個對應於該使用者之臉部之定向之方向的方向向量5丨，該方向向量51可從三角形47c及47d明顯看到。在一逼真的^訊複製中’音訊中應有一種等量的變化以反映該對象何時遠離（或至少不是直接面朝）該相機總成而說話。 Ο Ο 如上述，該音訊接收器66接收被該麥克風52收集的音訊。該麥克風音訊從該音訊接收器66輸入至—編二中。此外，來自包含該影像定位器63及定向檢測器以的該影像分析器62之方向資料亦被輸人至該編碼器⑽中。然後該編碼器可基於被該影像分析器產生的方向資料而重新處理該麥克風音訊以便針對該數位視訊產生扣或多頻道音訊。舉例來說’該編碼H可基於被該影像定位器及該定^ 檢測器測定的-對象之位置及定向而將該音訊編碼成多頻道音訊。該音訊可被編碼成—種標準格式(例如5.i、Η 等)或-些由-使用者研發或界定的其它格式。利用這種方式’即使-數位視訊之音訊部分最初僅利用—單一麥克風收集’一種逼真的3D音訊複製亦可被產生。根據上述’圖6為—種針對-數位視訊產生3D或多頻道音m的㈣程圖。㈣該示例性方法被描述為執行功能性邏輯步驟的一個特定順序，但執行該等步驟的順序亦可相對於上述順序而改變。此外，兩個或更多個連續描述的步驟可同時或部分同時執行。應理解所有該等 142688.doc •21 · 201036463 變化都在本發明之範圍内。該方法可自步驟_開始，—數位視訊之一視訊部分被接收於此步驟丨00 ^如上述，視矾部分可被該影像分析 _收。在步驟110,該數位視訊之一音訊部分可例如被该音訊接收器66接收。在步驟12〇,該視訊部分可被分析。舉例來說，步驟12〇&可包含利用該影像定位器63對該視訊部分内之一音訊源定位。藉由定位一音訊源，來自該音訊源之音訊之-方向分量可被測定。此外，步驟上鳩可包含利用較向檢測器64在-音訊源上執料向檢測以測定該音訊社定向，該㈣亦可詩敎來自該音訊源之音訊之-方向分量。如果該音訊源為一人物對象則該定向檢測器可執行臉部檢測以便基於該音訊源之臉部特徵之一組態（或其變化）而測定該音訊源之定向。在步驟13〇，被接收之音訊及經分析的影像資料可被輸入至一音訊編碼器，例如該編碼器68。在步驟14〇,該音訊可被編碼成任何多頻道音訊格式以便針對該數位視訊產生一逼真的3〇音訊分置。在步驟15〇，該多頻道音訊可被併入該數位視訊檔中使得該數位視訊可與所產生的3D或多頻道音訊一同播放。參考圖2,該電子裝置10可包含一具有一用於解碼多頻道或3D音訊之解碼器29的媒體播放器28。該解碼器允許該音訊以一種多頻道格式輸出至一揚聲器系統（外部揚聲器耳機、頭戴式耳機等）。應瞭解雖然圖2顯示一種能產生及重播具有3D或多頻道音訊之内容的電子裝置，但情況 142688.doc -22- 201036463 並不必如此。舉例來說，該3D音訊可被一個裝置編碼，然後併入該3D音訊的該内容可被傳送至一具有該媒體播放器及解碼器而用於重播的第二裝置。此外，該3D音訊應用程式6〇不必被呈現於任何可攜式電子裝置上。舉例來說’在一個實施例中，該3D音訊應用程式可藉由任何習知方式儲存於一網路伺服器並存取之。

根據上述該等示例性實施例，該數位視訊可被具有該數位視訊功能43的電子裝置10本身創建。在操作中，該視訊部分可被該相機總成2G產生，對於—數位視訊相機來說這係常見的。此外，該數位視訊之—音訊部分可被該麥克風 52收集，該音訊部分被提供至該聲音信號處理電路48中。該數位視訊功能43將該等視訊及音訊部分合併成一單一數位視λ檔’該檔可被健存於一諸如該記憶體25的内部記憶體中、即時㈣、傳送至一外部裝置以儲存或重播，或^ 該等操作之—組合。在-個實施例中，利用上述方式該數位視訊可在該數位視訊被該使用相電子裝置_建時用多頻道或3 D音訊即時增強。在其他實施例中’該數位視訊可首先被該使用者或另一者創建，然後用多頻道或料訊編碼增強作為一後期處理常式之部分。再次參考圖2，舉例來說，該數位視訊可被儲存於該電子裝置H)之内部記㈣25中。該扣音訊應用程式可從該記憶體操取該數位視訊，且該影像分析器咖音訊接收器66可分別從被儲存的數位視訊中提取該視訊部分及該音訊部分。在另—個實例中，該電子裝置ι〇可包含 142688.doc -23· 201036463 一用於經由一有線或無線網路獲取該數位視訊的網路介面 26。該數位視訊可藉由將該數位視訊下載或串流至該電子裝置而被獲取。然後該影像分析器62及音訊接收器66可分別從獲取於網路的數位視訊中提取該視訊部分及該音訊部分。 e亥3D音訊應用程式60可包含用於增強該音訊複製之品質的其他元件。舉例來說，再次參考圖5，該影像分析器62 可包含一干擾檢測器65。應瞭解在一數位視訊的創建過程

中，一音訊源可能不能被該數位視訊相機觀察到。舉例來說非預期物體可能移動至該相機及該對象之間，即使來自該對象的音訊仍保持不變，該物體亦可打斷對該對象之觀察。該干擾檢測器可在某種程度上充當一記憶體以儲存關於觀察中斷期間之音訊源的影像位置及定向資料。按此方式’即使觀察中斷’亦可根據對象音訊源之位置及定向來連續編碼多頻道音訊。

，考圖2及圖5，在另一個實施例中，該扣音訊應用: 亦可考量在该數位視訊被創建時該相機的動作。應丨該相機之動作亦可改變來自一音訊源之音訊相對㈣; 位置的方向分量。舉例來說，該電子裝置10可包含感測該相機之動作的動作感應器27。該動作感應器可用於檢剛-物體之動作的加速計或與之相當的裝置… :機：：時’“一音訊源的音訊之方向分量亦可等: 從嗜則固實施例中’該3D音訊應用程式60可包含〜作感應ϋ接收該輸人的動作分析器I該動作d 142688.doc •24- 201036463 而測定該數位視訊中來自一音來自該動作分析器的資料可被於將該數位視訊之音訊部分編器可基於該電子裝置之動作訊源的音訊之一方向分量。輸入至該編碼器6 8以便被用碼成3D或多頻道格式。

Ο 2另一個實施例中，該3D音訊應用程式6〇可包含—編輯 …72 ’ 一使用者可藉由此介面編輯該多頻道音訊。舉例來說，—使用者可修改該等頻道之任-者的音量、將咳音訊之-部分或若干部分重分為不同頻道或類似操作。一乂使用者可利用該鍵盤18及/或—功能表系統或者藉由使用應用程式及輸入資料或命令的任何習知方式而使用該編輯器並輸入該等編輯。上述該等實例通常係ϋ同測定一數位牙見訊中《一單一音訊源之-方向分量而描述。該系統可具妓夠的精密度，以測疋一音訊源的複數個方向分量及/或複數個音訊源的複數個方向分量。此外，如上述，該等音訊源不必為人物對象，亦可為任何其它類型的音訊源。舉例來說，替代或附加a況源可包含諸如揚聲器、狗或其他動物、環境物體及其它物體的物體。對於非人物對象來說，該定向檢測器 64可使用識別技術而非臉部檢測。舉例來說，該定向檢測器可使用物體識別、邊緣檢測、輪廓識別或其它方式，以檢測於一影像或對應於一數位視訊之影像序列中被檢測之對象或物體的定向。參考圖7，可使用多源功能以創建一視訊會議系統2〇〇。在這個實施例中’三個視訊會議呼叫參與者9 5 a、9 5 b及 142688.doc -25- 201036463 95c係標示於圍繞一示例性會議卓9丨沾尤n 1妁『王f哦杲91的不同位置。該視訊 5呼叫可由一具有一相機總成2〇及麥克風52的電子裝置 10產生。-逼真音訊編碼及複製將模擬該呼叫中各個參與者的不同位置，使得從該對象95a到該相機總成左側的音訊（語音）將更集中於-左音訊頻道中。從該對象〜到該相機總成之右側的音訊（語音）將更集中於一右音訊頻道中，且來自處於該相機總成之正前方之對象糾的音訊（語音）將更集中於-中央音訊頻道’及/或在左及右音訊頻道之間大體均等地分開。與圖3所顯示之系統相似，可在描繪至該等對象仏、及95c之各者的直線及—至該相機總成的法線％之間形成一角度。（對於在該相機總成之正前方的對象祝來說，該角度為零。）利用這種方式，該影像定位器可基於在該視訊會議呼叫中該對象相對於該相機總成的位置而測定來自各個對象之音訊之一方向分量。應瞭解此系統亦可用於任意數量的會議呼叫參與者。因此該會議呼叫之音訊部分可被編碼以模擬各個參盗者在該呼叫中的相對位置。然後一視訊會議啤叫來源可被傳送至-使用該行動電話1()a的遠端參與者，如圖7中的鑛齒箭頭所示。假設該行動電話10a裝有一多頻道解碼器及揚聲器系統(外部揚聲器、虛擬環繞聲耳機或頭戴式耳機)，該遠端參與者將聽到各個參與者95a_c，如同該等參與者正圍繞該會議桌而坐。在一個實施例中，該遠端參與者僅可接收該呼叫之音訊部分。如果是這樣，該遠端參與者 142688.doc -26- 201036463 可基於該音訊之方向編碼而更輕易地識別各個說話者。或者’遠呼叫之一視訊分量可被顯示於該行動電話1 〇a之顯示益14上。即使在這種狀況下，該遠端參與者亦可獲得更好的呼叫樂趣，因為該音訊將匹配各個說話者之實體定 - 位。亦應瞭解哪個電子裝置（10或l〇a)測定該多頻道視訊並對其編碼並不重要。任一裝置都可分析該視訊會議呼叫之視訊部分並將該音訊部分編碼成多頻道格式。〇雖然本發明參考某些較佳實施例而被顯示及描述，應理解在研讀及理解本文之後其他技術熟練者可做出等效物及 :本發明包含所有該等等效物及修改，且僅被如下之請求項的範圍限制。【圖式簡單說明】例性電子圖1為一種根據本發明之一實施例而使用的示裝置之—概要圖；圖；圖2為圖！之電子裝置的操作部分之一概要方塊 ❹像— 視訊之—視訊部分的影圖4顯示一數位視訊中之_對象的定 —— 序列；不例性變化之一概要方二為—種示例性3D音訊應用程式的操作部分圖6為—種為—數位視訊產生扣或方法之—流程圖；及貝、a矾的示例性圖7為-種示例性視訊會議系統之—概要圖。 142688.doc •27- 201036463 【主要元件符號說明】 10 電子裝置 14 顯示器 15 翻轉開啟式蓋子 18 鍵盤 20 相機總成 21 鏡頭 22 影像感測器 23 閃光燈 24 測光表 25 記憶體 26 網路介面 27 動作感測器 28 媒體播放器 29 解碼器 41 主要控制電路 42 處理裝置 43 數位視訊應用程式 44 天線 45 臉部 46 通信電路系統 48 聲音信號處理電路 49 方向向量 50 揚聲器 142688.doc -28- 201036463 ❹ 〇 51 另一個方向向量 52 麥克風 54 視訊處理電路 60 3D音訊應用程式 62 影像分析器 63 影像定位器 64 定向檢測器/臉部檢測模組 65 干擾檢測器 66 音訊接收器 68 編碼器 70 動作分析器 72 編輯器介面 90 對象 91 會議桌 95a-c 參與者 96 數位視訊部分 96a-c 影像序列 200 視訊會議系統 142688.doc 29-

Claims

201036463 七、申請專利範園： 1 · 種用於操縱一具有一視訊部分及一音訊部分之數位視訊的電子裝置（10)，該電子裝置包括：一用於接收該數位視訊之音訊部分的音訊接收器 (66)；一用於接收該數位視訊之視訊部分並测定來自該數位視sfl中之一音訊源之音訊之至少—個方向分量的影像分析器（62);及一用於接收該音訊部分及該至少一個方向分量之一輸入的編碼器（68)，其中該編碼器基於來自該音訊源之音訊之至少一個方向分量，將該音訊部分編碼成一多頻道格式。 2_如請求項1之電子裝置（10)，進一步包括：一用於產生由該影像分析器（62)接收之該數位視訊之視訊部分的相機總成（20);及一用於收集由该音訊接收器接收之該數位視訊之音訊部分的麥克風（52)。 3.如請求項1之電子裝置（1〇)，進一步包括： -用於檢測該電子裝置之一動作的動作感應器（27);及一基於該電子裝置之動作而測定在該數位視訊中來自該音訊源之音訊之一方向分量的動作分析器（7〇); 其中該編碼器(68)基於由該動作分析器測定之來自該音訊源之音訊的方向分量而將該音訊部分編碼成一多頻道格式。 142688.doc 201036463 4. 如請求項1至3中任一項之電子裝置（1〇)，進一步包括一用於儲存該數位視訊的記憶體（25)，其令該影像分析器 (62)藉由從該經儲存之數位視訊中提取該視訊部分而接收該視訊部分，且該音訊接收器（66)藉由從該經儲存之數位視§fl令提取該音訊部分而接收該音訊部分。 5. 如請求項〗至3中任一項之電子裝置（1〇)，進一步包括一用於從一網路獲取該數位視訊的網路介面（26)，其中該影像分析器（62)藉由從該經獲取之數位視訊中提取該視訊部分而接收該視訊部分，且該音訊接收器（66)藉由從該經獲取之數位視訊中提取該音訊部分而接收該音訊部分。 6. 如請求項1至3中任一項之電子裝置（1〇),其中該影像分析器（62)包括一用於定位該數位視訊之視訊部分内之一音訊源的影像定位器（63)，且該影像分析器基於該視訊部分内該音訊源之位置而測定來自該音訊源之音訊的方向分量。 7. 如請求項6之電子裝置（1〇)，其中該影像分析器（62)進一步包括一用於測定該數位視訊之視訊部分内之一音訊之疋向以測定該音訊源之該定向的定向檢測器（64)，且该影像分析器基於在該視訊部分内該音訊源的定向而進一步測定來自該音訊源之音訊的方向分量。 8·如請求項7之電子裝置（10)，其中該定向檢測器（64)包含 —臉部檢測模組’該臉部檢測模組基於一係—人之音訊源之臉部特徵之一組態來測定該音訊源的定向。 142688.doc 201036463 9·如請求項1至3中任一項之電子裝置⑽，其中該影像分析器(62)包含-檢測一在該視訊部分中干擾該數位視訊之視訊部分中之-音訊源之影像之物體的干擾檢測器 (65)，使得該編碼器（68)對鮮頻道音訊編碼而不被該干擾物體打斷。〇 ❹ 10.如請求項1至3中任一項之電子裝置⑽其中該影像分析器（62)測定來自該數位視訊中複數個音訊源之各者之 a Λ之至V個方向分量，且該編碼器⑽）基於來自該等複數個音訊源之音訊之至少一個方向分量而將該音訊部分編碼成一多頻道袼式。 11_如3青求項10之電子裝晉甘士装罝（1〇)其中該影像分析器（62)測定來自該數位視訊中複數個音訊源之各者^㈣⑽ 個方向分量’且該編碼器⑽基於來自該複數個音訊源之音訊之該複數個方向分量而將該音訊部分編碼成一多頻道格式。 12_ -種為一具有一視訊部分及一音訊部分之數位視訊編碼多頻道音訊的方法’該方法包括如下步驟：接收該數位視訊之音訊部分；接收該數位視訊之視訊部分並測定來自該數位視訊中之一音訊源之音訊之至少一個方向分量；輸入該音訊部分及該至少一個方向分量至一多頻道音訊編碼器（68)中；及广來自該音訊源之音訊之該至少—個方向分量而將 δ亥音訊部分編碼成一多頻道格式。 142688.doc 201036463 13. 如請求項12之方法，進一步包括：以一電子裝置（10)產生該數位視訊；檢測該電子裝置之一動作；及基於該電子裝置之該動作，測定來自該數位視訊中之音源之音訊之一方向分量；其中該編碼器（68)基於從該電子裝置之該動作而測定之來自該音訊源之音訊的該方向分量，進—步將該音訊部分編碼成一多頻道格式。 14. 如請求項12至13中任一項之方法，進一步包括：儲存該數位視訊於一電子裝置（10)之一記憶體（25) 中；從該記憶體擷取該數位視訊；及從該經儲存之數位視訊中提取該視訊部分及該音％舍分。 /曰。。P 15.如請求項12至13中任一項之方法，其中測定該至少一個方向分量包括定位該數位視訊之視訊部分内立^ 源’及基於該音訊源在該視訊部分内之位番 — 罝向測疋來自該音訊源之音訊的該方向分量。 16·如請求項15之方法’其中測定該至少一個 lu万向分量進— 步包括測定該數位視訊之視訊部分内之—立μ 曰讯源之一定向’以及基於該音訊源在該視訊部分内夕# & , J〜碭疋向而進— 步測定來自該音訊源之音訊的該方向分量。 17.如請求項16之方法，其中測定一音訊源之通疋向包含執行臉部檢測以基於一係一人之音訊源之臉部特徵 142688.doc 201036463 態來進一步測定該音訊源的定向β 如請求項12至13中任-項之方法，進—步包括檢測該視訊部分中之一干擾一在該數位視訊之視訊部分中之音訊源之影像的物體，及對該音訊部分編碼以被該干優物體打斷。 19·如請求項12至13中任-項之方法，進—步包括測定來自該數位視訊中之複數個音訊源之各者之音訊的至少一個方向分量，及基於來自該箄诒〇 "寺複數個音訊源之各者之音訊之至少一個方向分量而將該咅茨9訊部分編碼成一多頻道格式。 2〇·如請求項19之方法，進—步包括：創建一視訊會議電話呼叫，生吁Η其中該等複數個音訊源之各者為該視訊會議呼叫中的—個參與者；及 =該音訊部分編碼以模仿各個參與者在該叫中的相對位置。 3我π 〇 142688.doc