TW201036463A - System and method for generating multichannel audio with a portable electronic device - Google Patents

System and method for generating multichannel audio with a portable electronic device Download PDF

Info

Publication number
TW201036463A
TW201036463A TW098128314A TW98128314A TW201036463A TW 201036463 A TW201036463 A TW 201036463A TW 098128314 A TW098128314 A TW 098128314A TW 98128314 A TW98128314 A TW 98128314A TW 201036463 A TW201036463 A TW 201036463A
Authority
TW
Taiwan
Prior art keywords
audio
video
digital video
electronic device
source
Prior art date
Application number
TW098128314A
Other languages
English (en)
Other versions
TWI496480B (zh
Inventor
Thoern Karl Ola
Original Assignee
Sony Ericsson Mobile Comm Ab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Ericsson Mobile Comm Ab filed Critical Sony Ericsson Mobile Comm Ab
Publication of TW201036463A publication Critical patent/TW201036463A/zh
Application granted granted Critical
Publication of TWI496480B publication Critical patent/TWI496480B/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2368Multiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/414Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance
    • H04N21/41407Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance embedded in a portable device, e.g. video client on a mobile phone, PDA, laptop
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4341Demultiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/22Source localisation; Inverse modelling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field

Description

201036463 六、發明說明: 【發明所屬之技術領域】 本發明係關於一可攜式電子裝置中的音訊複製,更特定 而吕,係關於一種用一可攜式電子裝置產生多頻道音訊的 系統及方法。 【先前技術】 諸如行動電話、媒體播放器、個人數位助理(PDA)及其 _ 匕的了攜式電子裝置正變得越來越流行。為避免須攜帶多 0 «置,現今可攜式電子裝置經組態以提供多種功能。舉 例來說,一行動電話不再僅用於撥打或接收電話呼叫。一 行動電5舌亦可為一照相機(靜態及/或視訊)、一用於獲取新 聞及資訊的網際網路流覽器、一視聽媒體播放器、一傳訊 4置(文子曰此及/或視訊訊息)、一遊戲裝置、一個人電 子記事器,並亦可具有其他功能。因此當代的可攜式電子 裝置通常包含用於播放視聽内容的媒體播放器功能。 ❹ 通常對於視聽内容來說,這些内容的音訊部分已被改 善。詳細而言,三維(「3D」)音訊可被複製以提供一種更 _ 逼真的聲音複製。環繞聲技術係此技術中所週知並提供一 種方向分量以模仿一 3D聲音環境。舉例來說,在該視聽内 今中似乎來自左邊的聲音將主要經由一定位於左側的音源 (例如一揚聲器)而被聽到,在該視聽内容中似乎來自右邊 的聲音將主要經由一定位於右侧的音源而被聽到,等等。 利用這種方式,該音訊内容可作為一整體而被複製以模擬 一種逼真的3D聲音環境。 142688.doc 201036463 為產生環繞聲,聲音可被錄製並編碼於數個分離的頻道 中。當重播時,該等被編碼的頻道可被解碼成多個頻道以 便重播。有時,錄製頻道和重播頻道之數量可相同,或者 該解碼可將該等錄製頻道轉換為不同數量的重播頻道。該 等重播頻道可對應於一揚聲器配置中之一特定數量=揚聲 器。舉例來說,一個常見的環繞聲音訊格式被表示為 「5.1」音訊。此系統可包含5個重播頻道,該等重播頻道 可經由5個揚聲器—中央頻道、左及右前頻道以及乂及右 後頻道播放(雖然並非必須)。該「.1」代表-低㈣果 (=FE)或低音頻道,例如可由—重低音揚聲器提供。其他 ㊉見格式在該配置中提供附加頻道及/或揚聲器,例如6 1 及”音訊。利用此等多頻道配置…聲音可 3D聲音環境时式按頻道發送至多個揚聲器。此外,、= :聲:=理以便利用比重播頻道少的揚聲器模擬辦 曰,廷通常被稱為「虛擬環繞聲」。 對於一種可攜式電子裝 音複製。舉例來說,該裝置可:查已以:種方式嘗試辦 繞聲或其他3D或多頻u L接至一經組態以用於環 - 5日㈣❸卜部揚聲“統,例如 5.1持聲盗系統。然而, 時限制該裝置之可攜性@系統在視聽重播 之耳機及頭戴式耳機等耳機:攜性’已研發出經改良 及右耳揚聲器時模仿頭戴式耳機在只使用左 戴式耳機可提供一種虛擬環環型耳機及頭 訊特徵而無需使用於-外部揚声/衷兄增強該内容的音 卜#知聲器環繞聲系統中的多個揚 I42688.doc 201036463 聲器。 在該視聽内容已被專業地產生或以-種精密的方式產生 時,外部揚聲器或者3D增強可攜式耳機或頭戴式耳機通常 已足夠。内容創建者一般藉由記錄多個音訊頻道而產生3D ^ 纟訊,該等多個音訊頻道可藉由在該内容被創建時使用多 自麥克風錄製。藉由適當定位該等麥克風,方向性立气八 量可被編碼成該等被錄製的音訊頻道。可使用附加1理: ❹ h強該多頻道錄製的頻道化。該音訊可被編碼成該等常見 2頻料式中之—者,例如或6」等。然後該等方向性 曰广刀里可在重播時被複製,只要該播放器具有合適的解 碼能力,且該揚聲”統(揚聲器、耳機、頭戴式耳機等) ”有對應的3D/夕頻道環繞聲或虛擬環繞聲複製能力。 、然而,這些被描述的系統對於使用者創建之内容來說已 被也明效率較低。現在對於可攜式電子裝置來說包含一數 位視訊錄製功能以錄製諸如具有一視訊部分及一音訊部分 〇 <數位視訊的視聽内容係常見的。此等裝置之實例包含一 專用數位視訊相機、或具有一數位視訊功能的多功能裝置 (:如:行動電話、PDA、遊戲裝置等)。不考慮類型,可 t式电子裝置一般只具有一個麥克風以錄製視聽内容之音 訊部分。僅利用單一麥克風,3D或多頻道音訊的產生將需 要尖端或特殊的聲音信號處理’此處理通常不能在消費者 導向的可攜式電子裝置令找到。因此一般無法在一可攜式 電衫置中針對使用者創建内容產生3D或多頻道音訊。 在個獨立技術領域中,眼追縱及凝視檢測系統已被納 142688.doc 201036463 入考量。眼追蹤為測量凝視點及/或眼睛㈣於頭部之動 作的過程。現今眼追蹤或凝視方向檢測之最常見的方法包 括從該眼睛之-視訊影像中提取眼睛相對於頭部的位置。 除了眼追蹤之外,臉部檢測的其他形式亦被研發。舉例來 說,臉部檢測的-個形式可檢測特定臉部特徵,例如一個 人是否在微笑或目乏眼。然而,到現在為止,此等技術並未 元全被利用。 【發明内容】 因此,在本技術中存在對一種在一可攜式電子裝置中產 生3D或多頻道音訊之改良系統及方法的需求。詳細而言, 在本技術中存在對一種在一可攜式電子裝置中產生3d^多 頻道音訊之改良系統及方法的需求,該系統及方法不需要 比可攜式電子裝置中常見之單一麥克風更多的麥克風。 电子裝置被長:供用於操縱一具有一視訊部分及一音訊 部分的數位視訊以將該音訊部分編碼成一種3D或多頻道格 式。該電子裝置可包含一用於接收該數位視訊之音訊部分 的音訊接收器及一用於接收該數位視訊之視訊部分並測定 來自該數位視訊中之一音訊源的音訊之至少一個方向分量 的影像分析器。為測定該方向分量,該影像分析器可包含 用於測疋一音訊源在該數位視訊内之一位置的影像定位 器及一用於測定該音訊源之一定向的定向檢測器。該定向 檢測器可包含一面部檢測模組,該檢測模組基於一對象人 物之面部特徵之動作及組態而測定係一音訊源之該人物的 定向。一音訊源之位置及定向可被用於測定來自該音訊源 142688.doc • 8 - 201036463 的音訊之-方向分量。一音訊編碼器可接收該音訊部分之 -輸入及該至少-個方向分量,且該編碼器可基於來自該 音訊源的音訊之該至少一個方向分量而將該音訊部分編碼 成一種多頻道格式。 因此’根據本發明之-態樣種電子裝置被提供用於 操縱-具有-視訊部分及-音訊部分的數位視訊。該電子 裝置包括-用於接收該數位視訊之音訊部分的音訊接收器 以及用於接收§亥數位視訊之視訊部分並測定來自該數位 視訊中之一音訊源的音訊之至少—個方向分量的影像分析 器。一音訊編碼器接收該音訊部分之一輸入及該至少一個 方向分量,其中該編碼器基於來自該音訊源的音訊之至少 一個方向分量而將該音訊部分編碼成一多頻道格式。 根據該電子裝置的一個實施例,該電子裝置進一步包括 一用於產生被該影像分析器接收的數位視訊之視訊部分的 相機總成及一用於收集被該音訊接收器接收的數位視訊之 音訊部分的麥克風。 根據该電子裝置的一個實施例,該電子裝置進一步包括 一用於檢測該電子裝置之一動作的動作感應器及—用於基 於該電子裝置之動作測定來自該數位視訊中之音訊源的音 訊之一方向分量的動作分析器。該編碼器基於被該動作分 析器測定的來自該音訊源的音訊之方向分量而進_步將該 音訊部分編碼成一多頻道格式。 根據该電子裝置的一個實施例,該電子裝置進—步包括 一用於儲存該數位視訊的記憶體,其中該影像分析器藉由 142688.doc 201036463 從所儲存的數位視訊中提取該視訊部分而接收該視訊部 分’且該音訊接收器藉由從所儲存的數位視訊中提取該音 訊部分而接收該音訊部分。 根據該電子裝置的一個實施例,該電子裝置進一步包括 一用於從一網路取得該數位視訊的網路介面,其中該影像 分析器藉由從所獲取的數位視訊中提取該視訊部分而接收 該視訊部分’且該音訊接收器藉由從所獲取的數位視訊中 提取該音訊部分而接收該音訊部分。 根據該電子裝置的一個實施例,該影像分析器包括一用 於對該數位視訊之視訊部分内之一音訊源定位的影像定位 器,且該影像分析器基於該音訊源在該視訊部分内的位置 而測定來自該音訊源之音訊的方向分量。 根據該電子裝置的一個實施例,該影像分析器進一步包 括一用於測定該數位視訊之視訊部分内之一音訊源之定向 的定向檢測器,以測定該音訊源之一定向,且該影像分析 器基於在該視訊部分内之該音訊源的定向而進一步測定來 自該音訊源之音訊的方向分量。 根據該電子裝置的一個實施例’該定向檢測器包含一臉 部檢測模組,該模組基於一係一人之音訊源之臉部特徵之 一組態而測定該音訊源的定向。 根據該電子裝置之一實施例,該影像分析器包含一干擾 檢測益,該檢測器用於檢測該視訊部分中之—干择一在續 數位視訊之視訊部分中之音訊源之影像的物體,使得該編 碼器可對該多頻道音訊編碼而不被該干擾物體打斷。 142688.doc -10- 201036463 根據該電子裝置的一個實施例,該影像分析器測定來自 該數:視訊中之複數個音訊源之各者之音訊的至少—個方 向分量,且編碼器基於來自該等複數個音訊源之音訊的至 少一個方向分量而將該音訊部分編碼成一多頻道格式。 ‘ 根據該電子裝置的一個實施例,該影像分析器測定來自 ”位視訊中之複數個音訊源之各者的音訊之複數個方向 分量’且該編碼器基於來自該複數個音訊源之音訊的複數 〇 個方向分量而將該音訊部分編碼成一多頻道格式。 :據本發明的另一個態樣’ 一種為一具有一視訊部分及 一音訊部分的數位視訊編碼多頻道音訊的方法包括如下步 驟:接收該數位視訊之音訊部分、接收該數位視訊之視訊 部分並測定來自該數位視訊中之一音訊源的音訊之至少— 個方向分量、將該音訊部分及該至少一個方向分量輪入至 一多頻道音訊編碼器中以及基於來自該音訊源之音訊的至 少一個方向分量將該音訊部分編碼成一多頻道格式。 Q 根據該方法的一個實施例,該方法進一步包括用—電子 裝置產生該數位視訊、檢測該電子裝置之一動作以及基於 遠電子裝置之動作而測定來自該數位視訊中之音訊源的音 訊之一方向分量。該編碼器基於測定自該電子裝置之動作 的來自該音訊源之音訊的方向分量而進一步將該音訊部分 編碼成一多頻道格式。 根據該方法的一個實施例,該方法進一步包括將該數位 視訊儲存於一電子裝置中之一記憶體中、從該記憶體摘取 該數位視訊以及從所儲存的數位視訊提取該視訊部分及該 142688.doc -11 - 201036463 音訊部分。 根據該方法的一個實施例,測定該至少一 v 個方向分量包 括對一在該數位視訊之視訊部分内的音訊源定位以及基於 該音訊源在該視訊部分内的位置而測定來 个曰该音訊源之音 訊的方向分量。 根據該方法的一個實施例,測定該至少—彳 乂彳固方向分量進 一步包括測定一在該數位視訊之視訊部分内的音訊源之一 定向以及基於該音訊源在該視訊部分内的定向而進一步測 定來自該音訊源之音訊的方向分量。 根據該方法的一個實施例,測定一音訊源之定向包含執 行臉部檢測以便基於一係一人的音訊源之臉部特徵之一組 態而測定該音訊源之定向。 根據該方法之-實施例’該方法進—步包括檢測該視訊 部分中之一干擾該數位視訊之視訊部分中之一音訊源之影 像的物體,以及對該音訊部分編碼而不被該干擾物體打 斷。 根據該方法之一實施例,該方法進一步包括測定來自該 數位視訊中之複數個音訊源之各者的音訊之至少一個方向 分量,以及基於來自該複數個音訊源之各者之音訊的至少 一個方向分量而將該音訊部分編碼成一多頻道格式。 根據該方法的一個實施例,該方法進一步包括創建一視 訊會議電話呼叫,其中該複數個音訊源之各者為該視訊會 4呼叫之一參與者,以及對該音訊部分編碼以模擬各個參 與者在該視訊會議呼叫中的相對位置。 142688.doc -12- 201036463 本發明的這些特徵及其它特徵將參考如下描述及該等圖 式而變得明顯。在該描述及圖式中,本發明之特定實施例 以一些可指示本發明之原理可被利用之方式的細節而被揭 不,但應理解本發明之範圍不因而限於此。相反地,本發 明包含所有在附於此之請求項之精神及項目内的改變、修 改及等效物。 Ο
被描述及/或顯示的關於一個實施例的特徵可以相同或 相似的方式使用於一個或更多個實施例中及/或與其他實 施例的特徵組合或替代其他實施例的特徵。 應強調的係’當使用於此文中時,術語「包括」係用於 指明所陳述之特徵、整數、步驟或元件的存在,但並不排 除一個或更多個其他特徵、整數、步驟、元件或其群組的 存在或增加。 【實施方式】 現將參考圖式描述本發明之實施例’其中相似的標號係 用於扣代相似的兀件。應理解該等圖式不必按照比例。 參考圖1 ’―種示例性電子裝置10被實施於-具有-數 位視訊功能的可攜式電子裝置中。在圖1中,該示例性可 攜式電子裝置被描給免_ ^ 仃動電話1 〇。雖然如下之描述在 一習知的行動電話之背吾 月厅、下而破做出,但應瞭解本發明不 限於一行動電話之背景,^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ 、 且』丨步及任思類型的具有一數位 視訊功能的適當電子奘番 、置’包含一數位相機、數位視訊相 機、行動PDA、其他杆叙包 動無線通信裝置、遊戲裝置、可携 式媒體播放器或類似物。廣 愿瞭解使用於此之術語「數位視 142688.doc -13· 201036463 讯」包含視聽内容,該視聽内容可包含—視訊部分及—音 訊部分。此外,雖然此處之該描述主要涉及具有—視訊部 分及一音訊部分的内容,相當之原理亦可被應用至獨立於 或不關聯於視訊部分而僅複製該内容之音訊部分。
圖1顯示該示例性行動電話10的多個外部元件,及圖2顯 示該行動電話10之操作部分之一功能方塊圖。行動電話1〇 可為一具有一可在—打開及一關閉位置之間移動之翻轉開 啟式蓋子15的蛤殼型行動電話。在圖丨中,該蓋子處於打 開位置。應瞭解該行動電話10可具有其他組態,例如一種 「方塊」或「磚塊」組態、滑蓋式組態、旋蓋式纟且態或其 他組態。 行動電話10可包含一經組態以執行該行動電話之功能及 操作之總體控制的主要控制電路41。該控制電路41可包含 一處理裝置42,例如一 CPU、微控制器或微處理器。在其 功能中,為實施本發明之特徵,該控制電路41及/或處理 裝置42可包括-控制器,該控制器可執行被實施為具有一 3D音訊應用喊6G之數倾訊應餘仏的料碼。對於 電腦程式化,特別係相機、行動電料其他電子袭置之應 用私式程式化之技術-般者來說顯而易見的係如何對一行 動電話程式化以操作並執行與應用程式43及6()相關的邏輯 功能。因A ’諸如具體程式化代碼的細節因簡潔之故而略 之。此外,雖然根據一示例性實施例該代碼可被控制電路 4:執仃’但该控制器功能亦可經由專用硬體、韌體、軟體 或其組合執行而不脫離本發明之範圍。 l4268S.doc 14 201036463 行動電話10亦可包含一相機總成2〇。該相機總成2〇構成 一用於產生一諸如數位靜態影像或數位移動視訊影像之數 位影像的影像產生裝置。該相機總成2〇可包含一面朝外並 通離該使用者以截取相對於該使用者的標的物之靜態照片 • 或移動數位視訊影像的鏡頭21。相機總成20亦可包含一個 或更多個用於從該鏡頭接收光以產生該等影像的影像感應 器22。相機總成20亦可包含在習知數位靜態或視訊相機中 0 常見的特徵,例如一閃光燈23、測光表24及類似物。 仃動電話10具有一顯示器14,當該蛤殼式電話處於打開 位置時該顯示器14可視。該顯示器14向一使用者顯示關於 該行動電話之多種特徵及操作狀態的資訊,並顯示被該行 動電話接收及/或從-記憶體25搁取的視覺内容。顯示器 14亦可用於顯示圖片、視訊及多媒體内容之視訊部分。對 於照片或數位視訊功能來說,該顯示器14可被用作一用於 該相機總成20的電子取景器。該顯示器14可被一視訊處理 〇 電路54㉝合至該控制電路41,該處理電路54將視訊資料轉 換為一用於驅動該等多個顯示器的視訊信號。該視訊處理 電路54可包含任何適用的緩衝器、解石馬器、視訊資料處理 器等。該視訊資料可由該控制電路41產生、從一儲存於該 記憶體25中的視訊文件中操取、從一傳入的視訊資料串: 導出或以任何其他合適的方法獲取。根據本發明之實施 例’該顯示器14可顯示被該相機總成2〇補捉或者由該電子 裝置10播放的數位視訊影像之視訊部分。 該行動電話10進一步包含一用於處理音訊信號的聲音信 142688.doc 15 201036463 號處理電路48。一揚聲器5〇及麥克風52被耦合至該聲音處 理電路48,習知的係該揚聲器5〇及麥克風52可使一使用者 能經由該行動電話聽及說。被進一步描述於下的係,在本 發明之實施例中,該麥克風52可用於收集由該使用者產生 之視聽内容的音訊部分。 本發明係提供用於與該使用者利用該行動電話1〇創建之 視聽内容有關的3D或多頻道音訊之產生。舉例來說,一使 歸可使用該數位視訊功能43以㈣—具有—視訊部分及 :音訊部分的數位視訊。該相機總成2G可產生該視訊部 刀且5亥麥克風52可收集該音訊部分。該數位視訊功能Μ 可將-亥等兩個分1合併成一具有該視訊部分及該音訊部分 的數位視訊。 该數位視訊功能43可 ^ / 1玉々八饮—1定用者執行。舉 a說’行動電話10可包含_提供多種使用者輸入操作的 盤18。舉例來說’鍵盤18_般包含字母數字按鍵,該等 鍵允許諸如電話號碼、電話清單、聯繫資訊、筆記等的 母數字資訊之輸…外,鍵盤18—般包含專用功能 鍵例如一用於開始或應答一啤叫及其它的「發送」 者Γ向導航按鍵。該等按鍵中的—些或所有可關i :該顯以用作軟式按鍵。按鍵或按鍵式功能亦可被實; 為-種與該顯示器14關聯的觸控螢幕。因此 =藉由來自一顯示於該顯示器14上之功能二 或藉由任意適當方式用鍵盤18上之—專用按鍵選擇。 在此不例性電子裝置10中只有-個麥克風52,如上述 142688.doc -16- 201036463 這對於直接錄製3D或多頻道音訊來說一般係不夠的。如果 該數位視訊係以一種除了電子裝置丨〇之使用者之外的方式 創建,則與之類似該數位視訊在此被認定為未被創建有多 頻道或3D音訊特徵。為產生3D或多頻道音訊,該數位視 訊功能43可包含-3D音訊應用程式6〇。如上述,該應用程 式60可被實施為可被該控制電路41執行的可執行程式碼。 對於電腦程式化,特別係相機、行動電話或其他電子裝置 〇 t應用程式程式化之一般技術者來說,如何對一行動電話 程式化以操作並執行與應用程式6〇相關的邏輯功能並益窒 礙。因此,諸如具體程式化代碼的細節因簡潔之故而略 ^ °雖然根據-示例性實施例該代碼可被控制電路41執 灯,但該控制器功能亦可經由專用硬體、動體、軟體或其 組合執行而不脫離本發明之範圍。此外,雖然該應用程式 ^描述為該數位視訊功能43之部分,但應用程式Μ或其 〇刀可獨立於該數位視訊功能43。 ^ ❹ =示-種示例性數位視訊之一示例性部分 2看到,㈣位視訊部㈣可包括㈣㈣ 沔。舉仞龙 纟該數位視訊中的對象90可為一音訊 源舉例來說,在圖3巾# 錄製時說話的人。庫睁: 一在該數位視訊正被 量可被兩個… 對象9〇的音訊之-方向分 "衫響。首先,由於該對象移動,續立1來 源於一相對於該電 -曰況來 外,該音訊之方向八Γ 相機的不同方向。此 相機的定向而改變1 2相對於該視訊 例果犮,暫%參考圖4,如果該對 】42688.doc -17· 201036463 象為一人,則來自該人少立 之θ況的方向分量可隨著該對象相 對於該視訊相機重定向其臉部45而改變。如以下之進一步 描述,這些參數之各者·該對象之位置及該對象之定向·可 被使用以便針對該數位視訊而產生扣或多頻道音訊。 圖5為-種示例性料訊應用程式㈣操作部分之一概 要方塊圖。該應用程式60可包含一接收一數位視訊之一視 訊部分的影像分析!!62及—接收—數位視訊之音訊部分的 音訊接收器66。在-個實施例中,該視訊部分及該音訊部 分可在-數位視訊被產生時被該應用程式的即時接收。舉 例來說,該視訊部分可從該相機總成2〇即時接收,該音訊 部分可經由該聲音信號處理電路48從該麥克風Μ即:接 收。在-替代實施例中,該數位視訊可為一包含該視訊部 分及該音訊部分的先前創建之視訊樓。然後可從該數位視 訊檔中提取該等視訊及音訊部分以進行處自。舉例來說, 該視訊檔可從該内部記憶體25擷取、從一外部儲存裝置下 載、從來自一網路視訊饋送之串流或藉由其他習知方式獲 取。因此’該3D音訊可在一使用者利用該可攜式電子裝^ 產生s玄數位視訊時以亦被描述於此的方式即時產生,戈者 作為-種被應用至-先前創建及/或非使用者創建之數位 視訊的後期處理功能而被產生。 該影像分析器可包含一用於測定—數位視訊中之一音气 源之位置的影隸位器63。該影敎位器可藉由使^被 該音訊接收器66接收之音訊組合的影像識別技術(例2物 體識別、邊緣檢測、輪廓識別或其他)而將—對象識別為 142688.doc -18- 201036463 一音訊源。如上述,一個用於產生3D音訊的參數可為一音 訊源相對於產生該視訊的電子裝置之數位視訊相機的位 置。再次參考圖3,當該對象在該數位視訊中從左側移動 至右側時,該對象之位置相對於該相機總成而改變。一種 逼真的音訊複製將反映此位置變化使得當該對象在該相機 總成之左侧(圖框96a)時,該音訊複製將更集中於一左音訊 頻道。當該對象在該相機總成之右側(圖框96c)時,該音訊 〇 複製將更集中於一右音訊頻道。當該對象在該相機總成之 正前方(圖框96b)時,該音訊複製將更集中於一中音訊頻 道,及/或在左及右音訊通道之間大體均等地分開。 該影像分析器62之影像定位器63可隨著一對象在該數位 視sfL中移動而測定該對象之位置變化。舉例來說,對於圖 框96a來說,一形成於一被描繪至該對象9〇的直線及一至 該相機總成的法線93之間的角度為92a。當該對象在該相 機總成之正鈾方日7 ’此角度在圖框96b中為零,且當該對 ❹ 象移動至右側時,此角度在圖框96C中為92b。利用這種方 式,該影像定位器可在一對象在該數位視訊中移動時追蹤 該對象。此外,雖然在此實例中該移動係從左到右,但亦 可測定諸如上對下或近對遠的其他定向變化。 如上述,產生3D或多頻道音訊的另一個參數可為一音訊 源相對於產生該數位視訊之相機總成的定向。因此,該影 像分析器62亦可包含一用於測定一音訊源相對於該相機總 成之定向的定向檢測器64。在一個實施例中,該定向檢測 窃64可包含一用於基於該音訊源之臉部特徵之一組態(或 142688.doc -19- 201036463 其變化)而檢測一人物對象相對於該相機總成之定向的臉 部檢測模組。 圖4顯示一數位視訊中之一人物對象之定向的一個示例 性變化序列。該定向檢測器/臉部檢測模組64可檢測一對 象之臉部特徵的動作及定向’特別係該使用者之眼睛及鄰 近臉部特徵之移動及定向。該移動及定向可藉由物體識 別、邊緣檢測、輪廓識別或其他用於檢測任何檢測於一影
像序列内的對象或物體之動作的方式測^ '然後該等臉S 特徵之移動可被轉換成一種對應於從該對象發出之音訊之 〇 一方向分量的方向向量。 舉例來說’在圖4中元件45a-45d代表一可被該定向檢測 器/臉部檢測模組64檢測的對象之定向的一系列變化。由 此,該定向檢測器/臉部檢測模組64監測由圖框45a_45d代 表的動作序列。首先在這個實例中,該對象面朝前,如圖 框45a。該定向檢測器64可檢測該對象將其頭部轉向右 側,如從45a到45b的縮略圖框所描緣。該定向檢測器料可 界2一對應於該使用者之臉部之至少一部分之定向的方向 ◎ 向量49,舉例來說’該定向係由該使用者之雙眼及相鄰臉 部=徵之組態及定向中的變化表示。該方向向量49可藉由 測疋被一在該相機總成所捕捉之影像序列内的使用者之雙 眼及鼻大之相董十位置形成的三角形之相對位移及扭曲而導 出。舉例來說,三角形47峨表該使用者之雙眼及鼻子在 圖框45a内的相對位置,三角形代表該使用者之=眼及 鼻子在圖框45b内的相對位置。三角形47a及—之間的相 142688.doc •20- 201036463 對位移與相對扭曲一同指示該使用者向右側看,如方向向 量49所示。與之類似,圖框45c所描繪之使用者將其頭部 轉向左側時,如圖框45d,該定向檢測器64可檢測另一個 對應於該使用者之臉部之定向之方向的方向向量5丨,該方 向向量51可從三角形47c及47d明顯看到。在一逼真的^訊 複製中’音訊中應有一種等量的變化以反映該對象何時遠 離(或至少不是直接面朝)該相機總成而說話。 Ο Ο 如上述,該音訊接收器66接收被該麥克風52收集的音 訊。該麥克風音訊從該音訊接收器66輸入至—編二 中。此外,來自包含該影像定位器63及定向檢測器以的該 影像分析器62之方向資料亦被輸人至該編碼器⑽中。然後 該編碼器可基於被該影像分析器產生的方向資料而重新處 理該麥克風音訊以便針對該數位視訊產生扣或多頻道音 訊。舉例來說’該編碼H可基於被該影像定位器及該定^ 檢測器測定的-對象之位置及定向而將該音訊編碼成多頻 道音訊。該音訊可被編碼成—種標準格式(例如5.i、Η 等)或-些由-使用者研發或界定的其它格式。利用這種 方式’即使-數位視訊之音訊部分最初僅利用—單一麥克 風收集’一種逼真的3D音訊複製亦可被產生。 根據上述’圖6為—種針對-數位視訊產生3D或多頻道 音m的㈣程圖。㈣該示例性方法被描述 為執行功能性邏輯步驟的一個特定順序,但執行該等步驟 的順序亦可相對於上述順序而改變。此外,兩個或更多個 連續描述的步驟可同時或部分同時執行。應理解所有該等 142688.doc •21 · 201036463 變化都在本發明之範圍内。 該方法可自步驟_開始,—數位視訊之一視訊部分被 接收於此步驟丨00 ^如上述, 視矾部分可被該影像分析 _收。在步驟110,該數位視訊之一音訊部分可例如 被该音訊接收器66接收。在步驟12〇,該視訊部分可被分 析。舉例來說,步驟12〇&可包含利用該影像定位器63對該 視訊部分内之一音訊源定位。藉由定位一音訊源,來自該 音訊源之音訊之-方向分量可被測定。此外,步驟上鳩可 包含利用較向檢測器64在-音訊源上執料向檢測以測 定該音訊社定向,該㈣亦可詩敎來自該音訊源之 音訊之-方向分量。如果該音訊源為一人物對象則該定 向檢測器可執行臉部檢測以便基於該音訊源之臉部特徵之 一組態(或其變化)而測定該音訊源之定向。在步驟13〇,被 接收之音訊及經分析的影像資料可被輸入至一音訊編碼 器,例如該編碼器68。在步驟14〇,該音訊可被編碼成任 何多頻道音訊格式以便針對該數位視訊產生一逼真的3〇音 訊分置。在步驟15〇,該多頻道音訊可被併入該數位視訊 檔中使得該數位視訊可與所產生的3D或多頻道音訊一同播 放。 參考圖2,該電子裝置10可包含一具有一用於解碼多頻 道或3D音訊之解碼器29的媒體播放器28。該解碼器允許該 音訊以一種多頻道格式輸出至一揚聲器系統(外部揚聲 器耳機、頭戴式耳機等)。應瞭解雖然圖2顯示一種能產 生及重播具有3D或多頻道音訊之内容的電子裝置,但情況 142688.doc -22- 201036463 並不必如此。舉例來說,該3D音訊可被一個裝置編碼,然 後併入該3D音訊的該内容可被傳送至一具有該媒體播放器 及解碼器而用於重播的第二裝置。 此外,該3D音訊應用程式6〇不必被呈現於任何可攜式電 子裝置上。舉例來說’在一個實施例中,該3D音訊應用程 式可藉由任何習知方式儲存於一網路伺服器並存取之。
根據上述該等示例性實施例,該數位視訊可被具有該數 位視訊功能43的電子裝置10本身創建。在操作中,該視訊 部分可被該相機總成2G產生,對於—數位視訊相機來說這 係常見的。此外,該數位視訊之—音訊部分可被該麥克風 52收集,該音訊部分被提供至該聲音信號處理電路48中。 該數位視訊功能43將該等視訊及音訊部分合併成一單一數 位視λ檔’該檔可被健存於一諸如該記憶體25的内部記憶 體中、即時㈣、傳送至一外部裝置以儲存或重播,或^ 該等操作之—組合。在-個實施例中,利用上述方式該數 位視訊可在該數位視訊被該使用相電子裝置_建時用 多頻道或3 D音訊即時增強。 在其他實施例中’該數位視訊可首先被該使用者或另一 者創建,然後用多頻道或料訊編碼增強作為一後期處理 常式之部分。再次參考圖2,舉例來說,該數位視訊可被 儲存於該電子裝置H)之内部記㈣25中。該扣音訊應用程 式可從該記憶體操取該數位視訊,且該影像分析器咖 音訊接收器66可分別從被儲存的數位視訊中提取該視訊部 分及該音訊部分。在另—個實例中,該電子裝置ι〇可包含 142688.doc -23· 201036463 一用於經由一有線或無線網路獲取該數位視訊的網路介面 26。該數位視訊可藉由將該數位視訊下載或串流至該電子 裝置而被獲取。然後該影像分析器62及音訊接收器66可分 別從獲取於網路的數位視訊中提取該視訊部分及該音訊部 分。 e亥3D音訊應用程式60可包含用於增強該音訊複製之品質 的其他元件。舉例來說,再次參考圖5,該影像分析器62 可包含一干擾檢測器65。應瞭解在一數位視訊的創建過程
中,一音訊源可能不能被該數位視訊相機觀察到。舉例來 說 非預期物體可能移動至該相機及該對象之間,即使 來自該對象的音訊仍保持不變,該物體亦可打斷對該對象 之觀察。該干擾檢測器可在某種程度上充當一記憶體以儲 存關於觀察中斷期間之音訊源的影像位置及定向資料。按 此方式’即使觀察中斷’亦可根據對象音訊源之位置及定 向來連續編碼多頻道音訊。
,考圖2及圖5,在另一個實施例中,該扣音訊應用: 亦可考量在该數位視訊被創建時該相機的動作。應丨 該相機之動作亦可改變來自一音訊源之音訊相對㈣; 位置的方向分量。舉例來說,該電子裝置10可包含 感測該相機之動作的動作感應器27。該動作感應器可 用於檢剛-物體之動作的加速計或與之相當的裝置… :機::時’“一音訊源的音訊之方向分量亦可等: 從嗜則固實施例中’該3D音訊應用程式60可包含 〜作感應ϋ接收該輸人的動作分析器I該動作d 142688.doc •24- 201036463 而測定該數位視訊中來自一音 來自該動作分析器的資料可被 於將該數位視訊之音訊部分編 器可基於該電子裝置之動作 訊源的音訊之一方向分量。 輸入至該編碼器6 8以便被用 碼成3D或多頻道格式。
Ο 2另一個實施例中,該3D音訊應用程式6〇可包含—編輯 …72 ’ 一使用者可藉由此介面編輯該多頻道音訊。舉 例來說,—使用者可修改該等頻道之任-者的音量、將咳 音訊之-部分或若干部分重分為不同頻道或類似操作。一乂 使用者可利用該鍵盤18及/或—功能表系統或者藉由使用 應用程式及輸入資料或命令的任何習知方式而使用該編輯 器並輸入該等編輯。 上述該等實例通常係ϋ同測定一數位牙見訊中《一單一音 訊源之-方向分量而描述。該系統可具妓夠的精密度, 以測疋一音訊源的複數個方向分量及/或複數個音訊源的 複數個方向分量。此外,如上述,該等音訊源不必為人物 對象,亦可為任何其它類型的音訊源。舉例來說,替代或 附加a況源可包含諸如揚聲器、狗或其他動物、環境物體 及其它物體的物體。對於非人物對象來說,該定向檢測器 64可使用識別技術而非臉部檢測。舉例來說,該定向檢測 器可使用物體識別、邊緣檢測、輪廓識別或其它方式,以 檢測於一影像或對應於一數位視訊之影像序列中被檢測之 對象或物體的定向。 參考圖7,可使用多源功能以創建一視訊會議系統2〇〇。 在這個實施例中’三個視訊會議呼叫參與者9 5 a、9 5 b及 142688.doc -25- 201036463 95c係標示於圍繞一示例性會議卓9丨沾尤n 1妁『王f哦杲91的不同位置。該視訊 5呼叫可由一具有一相機總成2〇及麥克風52的電子裝置 10產生。-逼真音訊編碼及複製將模擬該呼叫中各個參與 者的不同位置,使得從該對象95a到該相機總成左側的音 訊(語音)將更集中於-左音訊頻道中。從該對象〜到該相 機總成之右側的音訊(語音)將更集中於一右音訊頻道中, 且來自處於該相機總成之正前方之對象糾的音訊(語音)將 更集中於-中央音訊頻道’及/或在左及右音訊頻道之間 大體均等地分開。 與圖3所顯示之系統相似,可在描繪至該等對象仏、 及95c之各者的直線及—至該相機總成的法線%之間形 成一角度。(對於在該相機總成之正前方的對象祝來說, 該角度為零。)利用這種方式,該影像定位器可基於在該 視訊會議呼叫中該對象相對於該相機總成的位置而測定來 自各個對象之音訊之一方向分量。應瞭解此系統亦可用於 任意數量的會議呼叫參與者。 因此該會議呼叫之音訊部分可被編碼以模擬各個參盗者 在該呼叫中的相對位置。然後一視訊會議啤叫來源可被傳 送至-使用該行動電話1()a的遠端參與者,如圖7中的鑛齒 箭頭所示。假設該行動電話10a裝有一多頻道解碼器及揚 聲器系統(外部揚聲器、虛擬環繞聲耳機或頭戴式耳機), 該遠端參與者將聽到各個參與者95a_c,如同該等參與者 正圍繞該會議桌而坐。在一個實施例中,該遠端參與者 僅可接收該呼叫之音訊部分。如果是這樣,該遠端參與者 142688.doc -26- 201036463 可基於該音訊之方向編碼而更輕易地識別各個說話者。或 者’遠呼叫之一視訊分量可被顯示於該行動電話1 〇a之顯 示益14上。即使在這種狀況下,該遠端參與者亦可獲得更 好的呼叫樂趣,因為該音訊將匹配各個說話者之實體定 - 位。亦應瞭解哪個電子裝置(10或l〇a)測定該多頻道視訊並 對其編碼並不重要。任一裝置都可分析該視訊會議呼叫之 視訊部分並將該音訊部分編碼成多頻道格式。 〇 雖然本發明參考某些較佳實施例而被顯示及描述,應理 解在研讀及理解本文之後其他技術熟練者可做出等效物及 :本發明包含所有該等等效物及修改,且僅被如下之 請求項的範圍限制。 【圖式簡單說明】 例性電子 圖1為一種根據本發明之一實施例而使用的示 裝置之—概要圖; 圖; 圖2為圖!之電子裝置的操作部分之一概要方塊 ❹像— 視訊之—視訊部分的影 圖4顯示一數位視訊中之_對象的定 —— 序列; 不例性變化 之一概要 方二為—種示例性3D音訊應用程式的操作部分 圖6為—種為—數位視訊產生扣或 方法之—流程圖;及 貝、a矾的示例性 圖7為-種示例性視訊會議系統之—概要圖。 142688.doc •27- 201036463 【主要元件符號說明】 10 電子裝置 14 顯示器 15 翻轉開啟式蓋子 18 鍵盤 20 相機總成 21 鏡頭 22 影像感測器 23 閃光燈 24 測光表 25 記憶體 26 網路介面 27 動作感測器 28 媒體播放器 29 解碼器 41 主要控制電路 42 處理裝置 43 數位視訊應用程式 44 天線 45 臉部 46 通信電路系統 48 聲音信號處理電路 49 方向向量 50 揚聲器 142688.doc -28- 201036463 ❹ 〇 51 另一個方向向量 52 麥克風 54 視訊處理電路 60 3D音訊應用程式 62 影像分析器 63 影像定位器 64 定向檢測器/臉部檢測模組 65 干擾檢測器 66 音訊接收器 68 編碼器 70 動作分析器 72 編輯器介面 90 對象 91 會議桌 95a-c 參與者 96 數位視訊部分 96a-c 影像序列 200 視訊會議系統 142688.doc 29-

Claims (1)

  1. 201036463 七、申請專利範園: 1 · 種用於操縱一具有一視訊部分及一音訊部分之數位視 訊的電子裝置(10),該電子裝置包括: 一用於接收該數位視訊之音訊部分的音訊接收器 (66); 一用於接收該數位視訊之視訊部分並测定來自該數位 視sfl中之一音訊源之音訊之至少—個方向分量的影像分 析器(62);及 一用於接收該音訊部分及該至少一個方向分量之一輸 入的編碼器(68),其中該編碼器基於來自該音訊源之音 訊之至少一個方向分量,將該音訊部分編碼成一多頻道 格式。 2_如請求項1之電子裝置(10),進一步包括: 一用於產生由該影像分析器(62)接收之該數位視訊之 視訊部分的相機總成(20);及 一用於收集由该音訊接收器接收之該數位視訊之音訊 部分的麥克風(52)。 3.如請求項1之電子裝置(1〇),進一步包括: -用於檢測該電子裝置之一動作的動作感應器(27);及 一基於該電子裝置之動作而測定在該數位視訊中來自 該音訊源之音訊之一方向分量的動作分析器(7〇); 其中該編碼器(68)基於由該動作分析器測定之來自該 音訊源之音訊的方向分量而將該音訊部分編碼成一多頻 道格式。 142688.doc 201036463 4. 如請求項1至3中任一項之電子裝置(1〇),進一步包括一 用於儲存該數位視訊的記憶體(25),其令該影像分析器 (62)藉由從該經儲存之數位視訊中提取該視訊部分而接 收該視訊部分,且該音訊接收器(66)藉由從該經儲存之 數位視§fl令提取該音訊部分而接收該音訊部分。 5. 如請求項〗至3中任一項之電子裝置(1〇),進一步包括一 用於從一網路獲取該數位視訊的網路介面(26),其中該 影像分析器(62)藉由從該經獲取之數位視訊中提取該視 訊部分而接收該視訊部分,且該音訊接收器(66)藉由從 該經獲取之數位視訊中提取該音訊部分而接收該音訊部 分。 6. 如請求項1至3中任一項之電子裝置(1〇),其中該影像分 析器(62)包括一用於定位該數位視訊之視訊部分内之一 音訊源的影像定位器(63),且該影像分析器基於該視訊 部分内該音訊源之位置而測定來自該音訊源之音訊的方 向分量。 7. 如請求項6之電子裝置(1〇),其中該影像分析器(62)進一 步包括一用於測定該數位視訊之視訊部分内之一音訊之 疋向以測定該音訊源之該定向的定向檢測器(64),且 该影像分析器基於在該視訊部分内該音訊源的定向而進 一步測定來自該音訊源之音訊的方向分量。 8·如請求項7之電子裝置(10),其中該定向檢測器(64)包含 —臉部檢測模組’該臉部檢測模組基於一係—人之音訊 源之臉部特徵之一組態來測定該音訊源的定向。 142688.doc 201036463 9·如請求項1至3中任一項之電子裝置⑽,其中該影像分 析器(62)包含-檢測一在該視訊部分中干擾該數位視訊 之視訊部分中之-音訊源之影像之物體的干擾檢測器 (65),使得該編碼器(68)對鮮頻道音訊編碼而不被該 干擾物體打斷。 〇 ❹ 10.如請求項1至3中任一項之電子裝置⑽其中該影像分 析器(62)測定來自該數位視訊中複數個音訊源之各者之 a Λ之至V個方向分量,且該編碼器⑽)基於來自該 等複數個音訊源之音訊之至少一個方向分量而將該音訊 部分編碼成一多頻道袼式。 11_如3青求項10之電子裝晉甘士 装罝(1〇)其中該影像分析器(62)測 定來自該數位視訊中複數個音訊源之各者^㈣⑽ 個方向分量’且該編碼器⑽基於來自該複數個音訊源 之音訊之該複數個方向分量而將該音訊部分編碼成一多 頻道格式。 12_ -種為一具有一視訊部分及一音訊部分之數位視訊編碼 多頻道音訊的方法’該方法包括如下步驟: 接收該數位視訊之音訊部分; 接收該數位視訊之視訊部分並測定來自該數位視訊中 之一音訊源之音訊之至少一個方向分量; 輸入該音訊部分及該至少一個方向分量至一多頻道音 訊編碼器(68)中;及 广來自該音訊源之音訊之該至少—個方向分量而將 δ亥音訊部分編碼成一多頻道格式。 142688.doc 201036463 13. 如請求項12之方法,進一步包括: 以一電子裝置(10)產生該數位視訊; 檢測該電子裝置之一動作;及 基於該電子裝置之該動作,測定來自該數位視訊中之 音源之音訊之一方向分量; 其中該編碼器(68)基於從該電子裝置之該動作而測定 之來自該音訊源之音訊的該方向分量,進—步將該音訊 部分編碼成一多頻道格式。 14. 如請求項12至13中任一項之方法,進一步包括: 儲存該數位視訊於一電子裝置(10)之一記憶體(25) 中; 從該記憶體擷取該數位視訊;及 從該經儲存之數位視訊中提取該視訊部分及該音%舍 分。 /曰。。P 15.如請求項12至13中任一項之方法,其中測定該至少一個 方向分量包括定位該數位視訊之視訊部分内立^ 源’及基於該音訊源在該視訊部分内之位番 — 罝向測疋來自 該音訊源之音訊的該方向分量。 16·如請求項15之方法’其中測定該至少一個 lu万向分量進— 步包括測定該數位視訊之視訊部分内之—立μ 曰讯源之一定 向’以及基於該音訊源在該視訊部分内夕# & , J〜碭疋向而進— 步測定來自該音訊源之音訊的該方向分量。 17.如請求項16之方法,其中測定一音訊源之 通疋向包含執 行臉部檢測以基於一係一人之音訊源之臉部特徵 142688.doc 201036463 態來進一步測定該音訊源的定向β 如請求項12至13中任-項之方法,進—步包括檢測該視 訊部分中之一干擾一在該數位視訊之視訊部分中之音訊 源之影像的物體,及對該音訊部分編碼以被該干優物 體打斷。 19·如請求項12至13中任-項之方法,進—步包括測定來自 該數位視訊中之複數個音訊源之各者之音訊的至少一個 方向分量,及基於來自該箄诒 〇 "寺複數個音訊源之各者之音訊 之至少一個方向分量而將該咅 茨9訊部分編碼成一多頻道格 式。 2〇·如請求項19之方法,進—步包括: 創建一視訊會議電話呼叫,生 吁Η其中該等複數個音訊源之 各者為該視訊會議呼叫中的—個參與者;及 =該音訊部分編碼以模仿各個參與者在該 叫中的相對位置。 3我π 〇 142688.doc
TW098128314A 2008-10-22 2009-08-21 偕同一可攜式電子裝置用於產生多頻道音訊之系統和方法 TWI496480B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US12/255,828 US20100098258A1 (en) 2008-10-22 2008-10-22 System and method for generating multichannel audio with a portable electronic device

Publications (2)

Publication Number Publication Date
TW201036463A true TW201036463A (en) 2010-10-01
TWI496480B TWI496480B (zh) 2015-08-11

Family

ID=40848636

Family Applications (1)

Application Number Title Priority Date Filing Date
TW098128314A TWI496480B (zh) 2008-10-22 2009-08-21 偕同一可攜式電子裝置用於產生多頻道音訊之系統和方法

Country Status (5)

Country Link
US (1) US20100098258A1 (zh)
EP (1) EP2359595A1 (zh)
CN (1) CN102197646B (zh)
TW (1) TWI496480B (zh)
WO (1) WO2010046736A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI607654B (zh) * 2011-07-01 2017-12-01 杜比實驗室特許公司 用於增強3d音頻編輯與呈現之設備、方法及非暫態媒體

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9602295B1 (en) 2007-11-09 2017-03-21 Avaya Inc. Audio conferencing server for the internet
US20100228487A1 (en) * 2009-03-05 2010-09-09 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Postural information system and method
US8699849B2 (en) * 2009-04-14 2014-04-15 Strubwerks Llc Systems, methods, and apparatus for recording multi-dimensional audio
US8363810B2 (en) 2009-09-08 2013-01-29 Avaya Inc. Method and system for aurally positioning voice signals in a contact center environment
US8547880B2 (en) 2009-09-30 2013-10-01 Avaya Inc. Method and system for replaying a portion of a multi-party audio interaction
US8306641B2 (en) * 2009-12-04 2012-11-06 Sony Mobile Communications Ab Aural maps
CN102281425A (zh) * 2010-06-11 2011-12-14 华为终端有限公司 一种播放远端与会人员音频的方法、装置及远程视频会议系统
US8744065B2 (en) 2010-09-22 2014-06-03 Avaya Inc. Method and system for monitoring contact center transactions
US9031256B2 (en) * 2010-10-25 2015-05-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for orientation-sensitive recording control
US8855341B2 (en) 2010-10-25 2014-10-07 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for head tracking based on recorded sound signals
US9552840B2 (en) 2010-10-25 2017-01-24 Qualcomm Incorporated Three-dimensional sound capturing and reproducing with multi-microphones
US9736312B2 (en) * 2010-11-17 2017-08-15 Avaya Inc. Method and system for controlling audio signals in multiple concurrent conference calls
KR101861590B1 (ko) * 2011-10-26 2018-05-29 삼성전자주식회사 휴대용 단말기에서 입체 데이터를 생성하기 위한 장치 및 방법
US9265458B2 (en) 2012-12-04 2016-02-23 Sync-Think, Inc. Application of smooth pursuit cognitive testing paradigms to clinical drug development
US9338420B2 (en) 2013-02-15 2016-05-10 Qualcomm Incorporated Video analysis assisted generation of multi-channel audio data
US9380976B2 (en) 2013-03-11 2016-07-05 Sync-Think, Inc. Optical neuroinformatics
KR20150068112A (ko) * 2013-12-11 2015-06-19 삼성전자주식회사 오디오를 추적하기 위한 방법 및 전자 장치
JP6464449B2 (ja) * 2014-08-29 2019-02-06 本田技研工業株式会社 音源分離装置、及び音源分離方法
CN104283697A (zh) * 2014-09-28 2015-01-14 北京塞宾科技有限公司 一种可采集声场信息的通信装置及通信方法
CN107210045B (zh) * 2015-02-03 2020-11-17 杜比实验室特许公司 会议搜索以及搜索结果的回放
US11095869B2 (en) 2015-09-22 2021-08-17 Fyusion, Inc. System and method for generating combined embedded multi-view interactive digital media representations
US10147211B2 (en) 2015-07-15 2018-12-04 Fyusion, Inc. Artificially rendering images using viewpoint interpolation and extrapolation
US10222932B2 (en) 2015-07-15 2019-03-05 Fyusion, Inc. Virtual reality environment based manipulation of multilayered multi-view interactive digital media representations
US10242474B2 (en) 2015-07-15 2019-03-26 Fyusion, Inc. Artificially rendering images using viewpoint interpolation and extrapolation
US11006095B2 (en) 2015-07-15 2021-05-11 Fyusion, Inc. Drone based capture of a multi-view interactive digital media
TWI736542B (zh) * 2015-08-06 2021-08-21 日商新力股份有限公司 資訊處理裝置、資料配訊伺服器及資訊處理方法、以及非暫時性電腦可讀取之記錄媒體
US11783864B2 (en) * 2015-09-22 2023-10-10 Fyusion, Inc. Integration of audio into a multi-view interactive digital media representation
CN105611204A (zh) * 2015-12-29 2016-05-25 太仓美宅姬娱乐传媒有限公司 一种信号处理系统
US11202017B2 (en) 2016-10-06 2021-12-14 Fyusion, Inc. Live style transfer on a mobile device
CN106774930A (zh) 2016-12-30 2017-05-31 中兴通讯股份有限公司 一种数据处理方法、装置及采集设备
US10437879B2 (en) 2017-01-18 2019-10-08 Fyusion, Inc. Visual search using multi-view interactive digital media representations
US10313651B2 (en) 2017-05-22 2019-06-04 Fyusion, Inc. Snapshots at predefined intervals or angles
US11069147B2 (en) 2017-06-26 2021-07-20 Fyusion, Inc. Modification of multi-view interactive digital media representation
CN108537150B (zh) * 2018-03-27 2019-01-18 长沙英迈智越信息技术有限公司 基于图像识别的反光处理系统
US10592747B2 (en) 2018-04-26 2020-03-17 Fyusion, Inc. Method and apparatus for 3-D auto tagging
CN108777832B (zh) * 2018-06-13 2021-02-09 上海艺瓣文化传播有限公司 一种基于视频对象追踪的实时3d声场构建和混音系统
US11343545B2 (en) * 2019-03-27 2022-05-24 International Business Machines Corporation Computer-implemented event detection using sonification
CN111273887A (zh) * 2020-01-19 2020-06-12 深圳巴金科技有限公司 一种音频信号分流回传方法及系统
CN113438548B (zh) * 2021-08-30 2021-10-29 深圳佳力拓科技有限公司 基于视频数据包与音频数据包的数字电视展示方法与装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3714706B2 (ja) * 1995-02-17 2005-11-09 株式会社竹中工務店 音抽出装置
JPH1063470A (ja) * 1996-06-12 1998-03-06 Nintendo Co Ltd 画像表示に連動する音響発生装置
JP3195920B2 (ja) * 1999-06-11 2001-08-06 科学技術振興事業団 音源同定・分離装置及びその方法
US6829017B2 (en) * 2001-02-01 2004-12-07 Avid Technology, Inc. Specifying a point of origin of a sound for audio effects using displayed visual information from a motion picture
US7606372B2 (en) * 2003-02-12 2009-10-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Device and method for determining a reproduction position
US20070168183A1 (en) * 2004-02-17 2007-07-19 Koninklijke Philips Electronics, N.V. Audio distribution system, an audio encoder, an audio decoder and methods of operation therefore
US7667728B2 (en) * 2004-10-15 2010-02-23 Lifesize Communications, Inc. Video and audio conferencing system with spatial audio
JP4441879B2 (ja) * 2005-06-28 2010-03-31 ソニー株式会社 信号処理装置および方法、プログラム、並びに記録媒体
KR100636252B1 (ko) * 2005-10-25 2006-10-19 삼성전자주식회사 공간 스테레오 사운드 생성 방법 및 장치
KR100788515B1 (ko) * 2005-12-01 2007-12-24 엘지전자 주식회사 음성신호 처리장치 및 방법

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI607654B (zh) * 2011-07-01 2017-12-01 杜比實驗室特許公司 用於增強3d音頻編輯與呈現之設備、方法及非暫態媒體
US9838826B2 (en) 2011-07-01 2017-12-05 Dolby Laboratories Licensing Corporation System and tools for enhanced 3D audio authoring and rendering
US10244343B2 (en) 2011-07-01 2019-03-26 Dolby Laboratories Licensing Corporation System and tools for enhanced 3D audio authoring and rendering
US10609506B2 (en) 2011-07-01 2020-03-31 Dolby Laboratories Licensing Corporation System and tools for enhanced 3D audio authoring and rendering
US11057731B2 (en) 2011-07-01 2021-07-06 Dolby Laboratories Licensing Corporation System and tools for enhanced 3D audio authoring and rendering
TWI785394B (zh) * 2011-07-01 2022-12-01 美商杜比實驗室特許公司 用於增強3d音頻編輯與呈現之設備、方法及非暫態媒體
US11641562B2 (en) 2011-07-01 2023-05-02 Dolby Laboratories Licensing Corporation System and tools for enhanced 3D audio authoring and rendering
TWI816597B (zh) * 2011-07-01 2023-09-21 美商杜比實驗室特許公司 用於增強3d音頻編輯與呈現之設備、方法及非暫態媒體

Also Published As

Publication number Publication date
TWI496480B (zh) 2015-08-11
CN102197646A (zh) 2011-09-21
EP2359595A1 (en) 2011-08-24
WO2010046736A1 (en) 2010-04-29
CN102197646B (zh) 2013-11-06
US20100098258A1 (en) 2010-04-22

Similar Documents

Publication Publication Date Title
TWI496480B (zh) 偕同一可攜式電子裝置用於產生多頻道音訊之系統和方法
WO2016177296A1 (zh) 一种生成视频的方法和装置
US20090219224A1 (en) Head tracking for enhanced 3d experience using face detection
US10798518B2 (en) Apparatus and associated methods
JP6016322B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2011217197A (ja) 電子機器、再生制御システム、再生制御方法及びプログラム
JP2013106298A (ja) 撮像制御装置、撮像制御方法、撮像制御方法のプログラムおよび撮像装置
JP7347597B2 (ja) 動画編集装置、動画編集方法及びプログラム
US9558761B2 (en) Causation of rendering of song audio information based upon distance from a sound source
US20120317594A1 (en) Method and system for providing an improved audio experience for viewers of video
TW201228332A (en) Mobile electronic device
JP2013093840A (ja) ポータブル端末における立体データ生成装置及び方法並びに電子装置
CN101729771B (zh) 相机、声音播放装置以及声音播放方法
JP2010252008A (ja) 撮影装置、表示装置、再生装置、撮影方法、および表示方法
JP2009239348A (ja) 撮影装置
CN107679485A (zh) 基于虚拟现实的辅助阅读方法及装置
JP2013168878A (ja) 録音機器
JP2010093603A (ja) カメラ、再生装置、および再生方法
WO2018116678A1 (ja) 情報処理装置及びその制御方法
Suzuki et al. AnnoTone: Record-time audio watermarking for context-aware video editing
JP6456171B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP7148788B2 (ja) 情報処理装置、動画合成方法及び動画合成プログラム
Hamanaka Sound scope phone: focusing parts by natural movement
JP5750668B2 (ja) カメラ、再生装置、および再生方法
JP2015233284A (ja) 情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees