TWI595785B - 用於螢幕相關音訊物件再對映之裝置及方法 - Google Patents
用於螢幕相關音訊物件再對映之裝置及方法 Download PDFInfo
- Publication number
- TWI595785B TWI595785B TW104108296A TW104108296A TWI595785B TW I595785 B TWI595785 B TW I595785B TW 104108296 A TW104108296 A TW 104108296A TW 104108296 A TW104108296 A TW 104108296A TW I595785 B TWI595785 B TW I595785B
- Authority
- TW
- Taiwan
- Prior art keywords
- screen
- audio
- metadata
- audio object
- depending
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 40
- 238000013507 mapping Methods 0.000 claims description 43
- 238000004590 computer program Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 37
- 238000013519 translation Methods 0.000 description 13
- 230000014616 translation Effects 0.000 description 13
- 238000003384 imaging method Methods 0.000 description 9
- 230000000007 visual effect Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 238000012544 monitoring process Methods 0.000 description 5
- 238000009877 rendering Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000006798 recombination Effects 0.000 description 3
- 238000005215 recombination Methods 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012384 transportation and delivery Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
- H04N21/4318—Generation of visual interfaces for content selection or interaction; Content or additional data rendering by altering the content in the rendering process, e.g. blanking, blurring or masking an image region
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/4508—Management of client data or end-user data
- H04N21/4516—Management of client data or end-user data involving client characteristics, e.g. Set-Top-Box type, software version or amount of memory available
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8106—Monomedia components thereof involving special audio data, e.g. different tracks for different languages
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/84—Generation or processing of descriptive data, e.g. content descriptors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/308—Electronic adaptation dependent on speaker or headphone connection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/15—Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Stereophonic System (AREA)
Description
本發明係關於音訊信號處理,詳言之係關於用於音訊物件再對映之裝置及方法,且更特定言之係關於用於螢幕相關音訊物件再對映之裝置及方法。
隨著日常生活中多媒體內容消費之增加,對於複雜之多媒體解決方案的需求穩步地增大。在此情形中,視覺及音訊內容之整合起到重要作用。視覺及音訊多媒體內容對於可利用的視覺及音訊重播設置之最佳調整將為合乎需要的。
在此項技術之狀態中,音訊物件為已知的。音訊物件可例如被視為具有相關聯之元資料的音軌。元資料可例如描述原始音訊資料之特性,例如,所要之播放位置或音量大小。基於物件之音訊的優點在於,預定義移動可藉由播放側上之特殊轉譯處理程序以對於所有再現揚聲器佈局可能之最好方式再現。
幾何元資料可用以定義應轉譯音訊物件之位
置,例如,相對於例如收聽者之參考點的方位角或仰角或絕對位置。元資料連同物件音訊信號一起儲存或傳輸。
在MPEG-H之情形中,在第105次MPEG會議,音訊小組審查了不同應用程式標準之要求及時間表(MPEG=動畫專家小組)。根據該審查,對於下一代廣播系統滿足某些時間點及特定要求將為必需的。根據該情況,系統應能夠在編碼器輸入端處接受音訊物件。此外,系統應支援音訊物件之傳訊、遞送及轉譯,且應啟用物件之使用者控制例如以用於對話增強、替代性語言軌道及音訊描述語言。
在此項技術之狀態中,不同概念得以提供。根據在「Method and apparatus for playback of a higher-order ambisonics audio signal」(參見[1])中所呈現之第一先前技術,空間音場定向之音訊對其連結之可視物件的播放藉由應用空間扭曲處理而調適。在該先前技術中,解碼器使音場扭曲,使得在螢幕之方向上的所有聲音物件根據目標及參考螢幕之大小的比率壓縮或伸展。一可能性得以包括,以將在內容產生中所使用之螢幕的參考大小(或自參考收聽位置之視角)作為元資料連同內容一起編碼及傳輸。或者,固定的參考螢幕大小在編碼中得以假設且用於解碼,且解碼器知曉目標螢幕之實際大小。在此先前技術中,解碼器以如下方式使音場扭曲:在螢幕之方向上的所有聲音物件根據目標螢幕之大小與參考螢幕之大小的比率壓縮或伸展。所謂之「兩段分段線性」扭曲函數得以使用。伸展限於聲音項目之角位置。在該先前技術中,對於定中心螢
幕而言,扭曲函數之定義類似於用於螢幕相關再對映之對映函數的定義。三段分段線性對映函數之第一及第三段,對映函數可定義為兩段分段線性函數。然而,藉由該先前技術,應用限於空間域中之HOA(HOA=較高階立體混響聲)(音場定向之)信號。此外,扭曲函數僅取決於參考螢幕與再現螢幕之比率,用於非定中心螢幕之定義並未提供。
在另一先前技術「Vorrichtung und Verfahren zum Bestimmen einer Wiedergabeposition」(參見[2])中,調適音源對視訊再現之位置的方法得以描述。音源之播放位置依賴於參考點之方向及距參考點之距離且依賴於攝影機參數對於每一聲音物件個別地判定。該先前技術亦描述假設有固定參考大小之螢幕。所有位置參數(在笛卡兒座標中)之線性縮放經進行,以用於將場景調適至大於或小於參考螢幕的再現螢幕。然而,根據該先前技術,實體攝影機及投影參數之合併係複雜的,且此等參數並非始終可利用的。此外,該先前技術之方法在笛卡兒座標(x,y,z)中起作用,因此不僅僅物件之位置而且距離隨場景縮放而改變。此外,此先前技術對於物件之位置關於角座標中的相對螢幕大小(孔徑角、視角)之改變的調適並非適用的。
在又一先前技術「Verfahren zur Audiocodierung」(參見[3])中,一方法得以描述,該方法包括當前(時間變化)水平及垂直視角(參考視角,與原始場景中之收聽者位置相關)在資料串流中之傳輸。在再現側上,再現之大小及位置經分析,且聲音物件之播放經個別地最佳化以與參考螢幕
匹配。
在另一先前技術「Acoustical Zooming Based on a parametric Sound Field Representation」(參見[4])中,一方法得以描述,其提供遵循視覺場景之移動的音訊轉譯(「聲學放縮」)。聲學放縮處理程序定義為虛擬記錄位置之移位。用於放縮演算法之場景模型將所有音源置放於具有任意但固定之半徑的圓上。然而,該先前技術之方法在DirAC參數域中起作用,距離及角度(到達方向)改變,對映函數為非線性的且取決於放縮因子/參數,且非定中心螢幕不受支援。
本發明之目標為對於使用現有多媒體再現設置之音訊及視覺多媒體內容整合提供改良之概念。本發明之目標藉由如請求項1之裝置、藉由如請求項13之解碼器設備、藉由如請求項14之方法且藉由如請求項15之電腦程式來達成。
提供一種用於音訊物件再對映之裝置。該裝置包含一物件元資料處理器及一物件轉譯器。該物件轉譯器經組配來接收一音訊物件。該物件元資料處理器經組配來接收元資料,包含對該音訊物件是否為螢幕相關之一指示,且進一步包含該音訊物件的一第一位置。此外,該物件元資料處理器經組配來在該音訊物件在該元資料中指示為螢幕相關的情況下,取決於該音訊物件之該第一位置且取決於一螢幕的一大小而計算該音訊物件之一第二位置。該物
件轉譯器經組配來取決於該音訊物件且取決於位置資訊產生揚聲器信號。該物件元資料處理器經組配來在該音訊物件在該元資料中指示為並非螢幕相關的情況下將該音訊物件之該第一位置作為該位置資訊饋送至該物件轉譯器中。此外,該物件元資料處理器經組配來在該音訊物件在該元資料中指示為螢幕相關的情況下將該音訊物件之該第二位置作為該位置資訊饋送至該物件轉譯器中。
根據實施例,該物件元資料處理器可例如經組配來在該音訊物件在該元資料中指示為並非螢幕相關的情況下並不計算該音訊物件之該第二位置。
在實施例中,該物件轉譯器可例如經組配來並不判定該位置資訊為該音訊物件之該第一位置抑或該音訊物件之該第二位置。
根據實施例,該物件轉譯器可例如經組配來進一步取決於一播放環境之揚聲器的數目產生該等揚聲器信號。
在實施例中,該物件轉譯器可例如經組配來進一步取決於該播放環境之該等揚聲器中之每一者的一揚聲器位置產生該等揚聲器信號。
根據實施例,該物件元資料處理器經組配來在該音訊物件在該元資料中指示為螢幕相關的情況下取決於該音訊物件之該第一位置且取決於該螢幕的該大小而計算該音訊物件之該第二位置,其中該第一位置指示一個三維空間中之該第一位置,且其中該第二位置指示該三維空間中
的該第二位置。
在實施例中,該物件元資料處理器可例如經組配來在該音訊物件在該元資料中指示為螢幕相關的情況下取決於該音訊物件之該第一位置且取決於該螢幕的該大小而計算該音訊物件之該第二位置,其中該第一位置指示一第一方位、一第一高程(elevation)及一第一距離,且其中該第二位置指示一第二方位、一第二高程及一第二距離。
根據實施例,該物件元資料處理器可例如經組配來接收該元資料,包含對該音訊物件是否為螢幕相關之該指示作為一第一指示,且在該音訊物件為螢幕相關的情況下進一步包含一第二指示,該第二指示指示該音訊物件是否為一螢幕上物件。該物件元資料處理器可例如經組配來取決於該音訊物件之該第一位置且取決於該螢幕的該大小而計算該音訊物件之該第二位置,使得在該第二指示指示該音訊物件為一螢幕上物件的情況下,該第二位置採取在該螢幕之一螢幕區域上的一第一值。
在實施例中,該物件元資料處理器可例如經組配來取決於該音訊物件之該第一位置且取決於該螢幕的該大小而計算該音訊物件之該第二位置,使得在該第二指示指示該音訊物件並非一螢幕上物件的情況下,該第二位置採取在該螢幕區域上抑或不在該螢幕區域上的一第二值。
根據實施例,該物件元資料處理器可例如經組配來接收該元資料,包含對該音訊物件是否為螢幕相關之該指示作為一第一指示,且在該音訊物件為螢幕相關的情況
下進一步包含一第二指示,該第二指示指示該音訊物件是否為一螢幕上物件。該物件元資料處理器可例如經組配來在該第二指示指示該音訊物件為一螢幕上物件的情況下取決於該音訊物件之該第一位置、取決於該螢幕之該大小且取決於作為對映曲線的一第一對映曲線而計算該音訊物件之該第二位置,其中該第一對映曲線定義一第一值區間中之原始物件位置至一第二值區間中之經再對映物件位置的一對映。此外,該物件元資料處理器可例如經組配來在該第二指示指示該音訊物件並非一螢幕上物件的情況下取決於該音訊物件之該第一位置、取決於該螢幕之該大小且取決於作為該對映曲線的一第二對映曲線而計算該音訊物件之該第二位置,其中該第二對映曲線定義該第一值區間中之原始物件位置至一第三值區間中之經再對映物件位置的一對映,且其中該第二值區間藉由該第三值區間包含,且其中該第二值區間小於該第三值區間。
在實施例中,該第一值區間及該第二值區間及該第三值區間中之每一者可例如為方位角的一值區間,或該第一值區間及該第二值區間及該第三值區間中之每一者可例如為仰角的一值區間。
根據實施例,該物件元資料處理器可例如經組配來取決於一第一線性對映函數及一第二線性對映函數中之至少一者計算該音訊物件的該第二位置,其中該第一線性對映函數經定義以將一第一方位值對映至一第二方位值,其中該第二線性對映函數經定義以將一第一高程值對映至
一第二高程值,其中指示一左方位螢幕邊緣參考,其中階示一右方位螢幕邊緣參考,其中階示一頂高程螢幕邊緣參考,其中指示一底高程螢幕邊緣參考,其中指示該螢幕之一左方位螢幕邊緣,其中指示該螢幕之一右方位螢幕邊緣,其中指示該螢幕之一頂高程螢幕邊緣,其中階示該螢幕之一底高程螢幕邊緣,其中φ指示該第一方位值,其中φ'指示該第二方位值,其中θ指示該第一高程值,其中θ'指示該第二高程值,其中該第二方位值φ'可例如根據下式根據該第一線性對映函數得自該第一方位值φ之一第一對映
且其中該第二高程值θ'可例如根據下式根據該第二線性對映函數得自該第一高程值θ之一第二對映
此外,提供一種解碼器設備。該解碼器設備包含一USAC解碼器,該USAC解碼器用於解碼一位元串流以獲得一或多個音訊輸入通道、獲得一或多個輸入音訊物件、獲得經壓縮物件元資料且獲得一或多個SAOC運輸通道。此外,該解碼器設備包含一SAOC解碼器,該SAOC解碼器用於解碼該一或多個SAOC運輸通道以獲得一或多個經轉譯音訊物件之一第一群組。此外,該解碼器設備包含根據上文所述之實施例的一裝置。該裝置包含一物件元資料解碼器,該物件元資料解碼器為根據上文所述之實施例的該裝置之該物件元資料處理器,且經實施以用於解碼該經壓縮物件元資料以獲得未壓縮元資料,且該裝置進一步包含根據上文所述之實施例的該裝置之該物件轉譯器,該物件轉譯器用於取決於該未壓縮元資料而轉譯該一或多個輸入音訊物件以獲得一或多個經轉譯音訊物件之一第二群組。此外,該解碼器設備包含一格式轉換器,該格式轉換器用於轉換該一或多個音訊輸入通道以獲得一或多個經轉換通道。此外,該解碼器設備包含一混音器,該混音器用於混合一或多個經轉譯音訊物件之該第一群組的該一或多個音訊物件、一或多個經轉譯音訊物件之該第二群組的該一或多個音訊物件及該一或多個經轉換通道以獲得一或多個經解碼音訊通道。
此外,提供一種用於產生揚聲器信號之方法。該方法包含:
- 接收一音訊物件。
- 接收元資料,包含對該音訊物件是否為螢幕相關之一指示,且進一步包含該音訊物件的一第一位置。
- 在該音訊物件在該元資料中指示為螢幕相關的情況下,取決於該音訊物件之該第一位置且取決於一螢幕的一大小而計算該音訊物件之一第二位置。
- 取決於該音訊物件且取決於位置資訊產生該等揚聲器信號。
在該音訊物件在該元資料中指示為並非螢幕相關的情況下,該位置資訊為該音訊物件之該第一位置。在該音訊物件在該元資料中指示為螢幕相關的情況下,該位置資訊為該音訊物件之該第二位置。
此外,提供一種電腦程式,其中該電腦程式經組配來在執行於一電腦或信號處理器上時實施上文所述之方法。
110‧‧‧物件元資料處理器
120‧‧‧物件轉譯器
810‧‧‧預轉譯器
815‧‧‧SAOC編碼器
818‧‧‧元資料編碼器
820‧‧‧USAC編碼器
910‧‧‧USAC解碼器
915‧‧‧SAOC解碼器
917‧‧‧裝置
918‧‧‧物件元資料解碼器
920‧‧‧物件轉譯器/混音器
922‧‧‧格式轉換器/揚聲器轉譯器
930‧‧‧混音器
940‧‧‧立體聲轉譯器模組
1010‧‧‧降混組配器
1110‧‧‧轉譯器
1210‧‧‧物件元資料(預)處理器
1510‧‧‧非虛線對映函數
1520‧‧‧虛線對映函數
在下文中,參考諸圖更詳細地描述本發明之實施例,在該等諸圖中:圖1為根據實施例的用於產生揚聲器信號之裝置,圖2例示根據實施例之物件轉譯器,圖3例示根據實施例之物件元資料處理器,圖4例示根據實施例之方位再對映,圖5例示根據實施例之高程再對映,圖6例示根據實施例之方位再對映,
圖7例示根據其他實施例之高程再對映,圖8例示3D音訊編碼器之概觀,圖9例示根據實施例之3D音訊解碼器的概觀,圖10例示格式轉換器之結構,圖11例示根據實施例的基於物件之音訊的轉譯,圖12例示根據實施例之物件元資料預處理器,圖13例示根據實施例之方位再對映,圖14例示根據實施例之仰角的再對映,圖15例示根據實施例之方位角的再對映,圖16例示根據其他實施例之高程再對映,及圖17例示根據其他實施例之高程再對映。
圖1例示根據實施例的用於音訊物件再對映之裝置。裝置包含物件元資料處理器110及物件轉譯器120。
物件轉譯器120經組配來接收音訊物件。
物件元資料處理器110經組配來接收元資料,包含對音訊物件是否為螢幕相關之指示,且進一步包含音訊物件的第一位置。此外,物件元資料處理器110經組配來在音訊物件在元資料中指示為螢幕相關的情況下,取決於音訊物件之第一位置且取決於螢幕的大小而計算音訊物件之第二位置。
物件轉譯器120經組配來取決於音訊物件且取決於位置資訊產生揚聲器信號。
物件元資料處理器110經組配來在音訊物件在元資料中指示為並非螢幕相關的情況下將音訊物件之第一位置作為位置資訊饋送至物件轉譯器120中。
此外,物件元資料處理器110經組配來在音訊物件在元資料中指示為螢幕相關的情況下將音訊物件之第二位置作為位置資訊饋送至物件轉譯器120中。
根據實施例,物件元資料處理器110可例如經組配來在音訊物件在元資料中指示為並非螢幕相關的情況下並不計算音訊物件之第二位置。
在實施例中,物件轉譯器120可例如經組配來並不判定位置資訊為音訊物件之第一位置抑或音訊物件之第二位置。
根據實施例,物件轉譯器120可例如經組配來進一步取決於播放環境之揚聲器的數目產生揚聲器信號。
在實施例中,物件轉譯器120可例如經組配來進一步取決於播放環境之揚聲器中之每一者的揚聲器位置產生揚聲器信號。
根據實施例,物件元資料處理器110經組配來在音訊物件在元資料中指示為螢幕相關的情況下取決於音訊物件之第一位置且取決於螢幕的大小而計算音訊物件之第二位置,其中第一位置指示三維空間中之第一位置,且其中第二位置指示三維空間中的第二位置。
在實施例中,物件元資料處理器110可例如經組配來在音訊物件在元資料中指示為螢幕相關的情況下取決
於音訊物件之第一位置且取決於螢幕的大小而計算音訊物件之第二位置,其中第一位置指示第一方位、第一高程及第一距離,且其中第二位置指示第二方位、第二高程及第二距離。
根據實施例,物件元資料處理器110可例如經組配來接收元資料,包含對音訊物件是否為螢幕相關之指示作為第一指示,且在音訊物件為螢幕相關的情況下進一步包含第二指示,該第二指示指示音訊物件是否為螢幕上物件。物件元資料處理器110可例如經組配來取決於音訊物件之第一位置且取決於螢幕的大小而計算音訊物件之第二位置,使得在第二指示指示音訊物件為螢幕上物件的情況下,第二位置採取在螢幕區域上的第一值。
在實施例中,物件元資料處理器110可例如經組配來取決於音訊物件之第一位置且取決於螢幕的大小而計算音訊物件之第二位置,使得在第二指示指示音訊物件並非螢幕上物件的情況下,第二位置採取在螢幕區域上抑或不在螢幕區域上的第二值。
根據實施例,物件元資料處理器110可例如經組配來接收元資料,包含對音訊物件是否為螢幕相關之指示作為第一指示,且在音訊物件為螢幕相關的情況下進一步包含第二指示,該第二指示指示音訊物件是否為螢幕上物件。物件元資料處理器110可例如經組配來在第二指示指示音訊物件為螢幕上物件的情況下取決於音訊物件之第一位置、取決於螢幕之大小且取決於作為對映曲線的第一對
映曲線而計算音訊物件之第二位置,其中第一對映曲線定義第一值區間中之原始物件位置至第二值區間中之經再對映物件位置的對映。此外,物件元資料處理器110可例如經組配來在第二指示指示音訊物件並非螢幕上物件的情況下取決於音訊物件之第一位置、取決於螢幕之大小且取決於作為對映曲線的第二對映曲線而計算音訊物件之第二位置,其中第二對映曲線定義第一值區間中之原始物件位置至第三值區間中之經再對映物件位置的對映,且其中該第二值區間係由第三值區間所包含,且其中該第二值區間小於該第三值區間。
在實施例中,第一值區間及第二值區間及第三值區間中之每一者可例如為方位角的值區間,或第一值區間及第二值區間及第三值區間中之每一者可例如為仰角的值區間。
在下文中,本發明之特定實施例及本發明之多個實施例的任擇特徵得以描述。
可存在並不意欲用於固定位置之音訊物件(與3D空間中之位置相關聯的音訊信號,該位置例如所給出之方位、高程及距離),但其位置應隨再現設置中之螢幕的大小改變。
若物件經傳訊為螢幕相關的(例如,藉由元資料中之旗標),則其位置根據特定規則關於螢幕大小再對映/重新計算。
圖2例示根據實施例之物件轉譯器。
作為介紹,注意以下內容:
在基於物件之音訊格式中,元資料連同物件信號一起儲存或傳輸。音訊物件係使用元資料及關於播放環境之資訊轉譯於播放側上。此資訊為例如揚聲器之數目或螢幕之大小。
對於物件而言,幾何元資料可用以定義應轉譯其之方式,例如,相對於例如收聽者之參考點的方位角或仰角或絕對位置。轉譯器以幾何資料及可利用的揚聲器及其位置為基礎來計算揚聲器信號。
根據本發明之實施例以以下方式自上文顯露。
為了控制螢幕相關轉譯,額外元資料欄位控制解譯幾何元資料之方式:
若欄位設定為OFF,則幾何元資料藉由轉譯器解譯以計算揚聲器信號。
若欄位設定為ON,則幾何元資料自標稱資料對映至其他值。再對映對幾何元資料進行,使得跟隨物件元資料處理器之轉譯器不可知物件元資料的預處理且無改變地操作。此等元資料欄位之實例在以下表格中給出。
另外,標稱(nominal)螢幕大小或在音訊內容之產生期間所使用的螢幕大小可發送作為元資料資訊。
下表呈現可有效地寫碼此元資料之方式的實例。
isScreenRelatedObject 此旗標定義物件位置
是否為螢幕相對的(該位置應不同地轉譯,使得其位置經再對映,但仍可含有所有有效角度值)。
isOnScreenObject 此旗標定義對應的物件為「螢幕上的」。此旗標等於1之物件應不同地轉譯,使得其位置可僅採取螢幕區域上之值。根據替代例,並未使用旗標,但參考螢幕角度得以定義。若isScreenRelativeObject=1,則所有角度與此參考角度相對。在需要知曉音訊物件在螢幕上之情況下,可存在其他使用狀況。
應關於isScreenRelativeObject注意,根據實施例,存在兩種可能性:位置之再對映,但其仍可採取所有值(螢幕相對),及再對映以使得其可僅含有在螢幕區域上(螢幕上)的值。
考慮本地螢幕大小且執行幾何元資料之對映的再對映在物件元資料處理器中進行。
圖3例示根據實施例之物件元資料處理器。
關於螢幕相關幾何元資料修改,以下內容得以說明。
取決於資訊isScreenRelativeObject及isOnScreenObject,對於傳訊螢幕相關音訊元素存在兩種可能性:
a)螢幕相對音訊元素
b)螢幕上音訊元素
在兩種狀況下,音訊元素之位置資料藉由物件元資料
處理器再對映。將位置之原始方位及仰角對映至經再對映方位及經再對映仰角的曲線得以應用。
參考為元資料中之標稱螢幕大小或假設的預設螢幕大小。
舉例而言,在ITU-R REC-BT.2022(用於平板顯示器上之SDTV及HDTV電視圖像的品質之主觀評價的一般檢視條件)中所定義之視角可得以使用。
兩種類型之螢幕相關之間的差異為再對映曲線之定義。
在a)之狀況下,經再對映方位可採取介於-180°與180°之間的值且經再對映高程可採取介於-90°與90°之間的值。曲線經定義,使得在預設左邊緣方位與預設右邊緣方位之間的方位值對映(壓縮或擴張)至在給定之左螢幕邊緣與給定之右螢幕邊緣之間的間隔(及相應地對於高程)。其他方位及高程值相應地壓縮或擴張,使得整個範圍之值得以涵蓋。
圖4例示根據實施例之方位再對映。
在b)之狀況下,經再對映方位及高程可僅採取描述螢幕區域上之位置的值(方位(左螢幕邊緣)方位(經再對映)方位(右螢幕邊緣)及高程(下部螢幕邊緣)高程(經再對映)高程(上部螢幕邊緣))。
對於處理此等範圍外之值存在不同的可能性:其可對映至螢幕之邊緣,使得在-180°方位與左螢幕邊緣之間的所有物件在左螢幕邊緣處結束且在右螢幕邊緣與180°方
位之間的所有物件在右螢幕處結束。另一可能性為將後半球之值對映至前半球。在左半球上,則在-180°+方位(左螢幕邊緣)與方位(左螢幕邊緣)之間的位置對映至左螢幕邊緣。在-180°與-180°+方位(左螢幕邊緣)之間的值對映至在0°與方位(左螢幕邊緣)之間的值。右半球及仰角係以相同方式處理。
圖5例示根據實施例之高程再對映。
梯度改變之曲線點-x1及+x2(其可為不同的或等於+x1)設定為預設值(預設假設標準螢幕大小+位置)抑或其可存在於元資料中(例如,藉由生產者,其可接著將生產螢幕大小放於該處)。
亦存在並非由線性段而是由彎曲段組成之可能對映函數。
額外元資料可控制再對映之方式,例如,定義偏移或非線性係數以慮及平移行為或聽力之解析度。
又,可例如藉由將意欲用於後部之所有物件「投影」至螢幕上而傳訊執行對映的方式。
此等替代性對映方法在以下諸圖中得以聽從。
該處,圖6例示根據實施例之方位再對映。
圖7例示根據實施例之高程再對映。
關於未知的螢幕大小行為:若無再現螢幕大小被給出,則- 預設螢幕大小得以假設,抑或- 不應用對映,即使物件獲標記為螢幕相關或螢幕上
亦如此。
轉至圖4,在另一實施例中,在b)之狀況下,經再對映方位及高程可僅採取描述螢幕區域上之位置的值(方位(左螢幕邊緣)方位(經再對映)方位(右螢幕邊緣)及高程(下部螢幕邊緣)高程(經再對映)高程(上部螢幕邊緣))。對於處理此等範圍外之值存在不同的可能性:在一些實施例中,其可對映至螢幕之邊緣,使得在+180°方位與左螢幕邊緣之間的所有物件在左螢幕邊緣處結束且在右螢幕邊緣與-180°方位之間的所有物件在右螢幕邊緣處結束。另一可能性為將後半球之值對映至前半球。
在左半球上,則在+180°-方位(左螢幕邊緣)與方位(左螢幕邊緣)之間的位置對映至左螢幕邊緣。在+180°與+180°-方位(左螢幕邊緣)之間的值對映至在0°與方位(左螢幕邊緣)之間的值。右半球及仰角係以相同方式處理。
圖16例示類似於圖5之圖。在藉由圖16所例示之實施例中,在兩個圖式中,在自-90°至+90°之橫坐標軸線上的值區間及在自-90°至+90°之縱坐標軸線上的值區間得以例示。
圖17例示類似於圖7之圖。在藉由圖17所例示之實施例中,在兩個圖式中,在自-90°至+90°之橫坐標軸線上的值區間及在自-90°至+90°之縱坐標軸線上的值區間得以例示。
在下文中,參看圖8至圖15描述本發明之其他實施例及其他實施例之任擇特徵。
根據一些實施例,螢幕相關元素再對映可例如僅在以下情況下得以處理:位元串流含有伴隨有OAM資料(OAM資料=相關聯之物件元資料)的螢幕相關元素(對於至少一音訊元素,isScreenRelativeObject旗標==1),及本地螢幕大小經由LocalScreenSize( )介面傳訊至解碼器。
幾何位置資料(在藉由使用者互動之任何位置修改已發生之前的OAM資料)可例如藉由對映函數之定義及利用而對映至不同範圍的值。再對映可例如改變幾何位置資料作為對轉譯之預處理步驟,使得轉譯器不可知再對映且無改變地操作。
標稱參考螢幕(在混合及監視處理程序中所使用)的螢幕大小及/或播放室中之本地螢幕大小資訊,可例如於再對映時加入考慮。
若無標稱參考螢幕大小被給出,則預設參考值可例如得以使用,例如,假設4k顯示器及最佳檢視距離。
若無本地螢幕大小資訊被給出,則再對映應例如不被應用。
兩個線性對映函數可例如經定義以用於高程及方位值之再對映:
標稱螢幕大小之螢幕邊緣可例如藉由以下各者給出:,,,
再現螢幕邊緣可例如藉由以下各者縮寫:,,,
方位及高程位置資料之再對映可例如藉由以下線性對
映函數定義:
圖13例示根據實施例之位置資料的再對映函數。詳言之,在圖13中,用於方位之對映的對映函數得以描繪。在圖13中,曲線經定義,使得在標稱參考左邊緣方位與標稱參考右邊緣方位之間的方位值映射(壓縮或擴張)至在給定之本地左螢幕邊緣與給定之本地右螢幕邊緣之間的間隔。其他方位值相應地壓縮或擴張,使得整個範圍之值得以涵蓋。
經再對映方位可例如採取介於-180°與180°之間的值且經再對映高程可採取介於-90°與90°之間的值。
根據實施例,舉例而言,若isScreenRelativeObject旗標設定為零,則無螢幕相關元素
再對映對於對應的元素應用,且幾何位置資料(OAM資料加上藉由使用者互動性之位置改變)藉由轉譯器直接使用以計算播放信號。
根據一些實施例,所有螢幕相關元素之位置可例如根據再現螢幕大小再對映以作為對再現室的調適。舉例而言,若無再現螢幕大小資訊被給出或無螢幕相關元素存在,則無再對映被應用。
再對映可例如藉由線性對映函數定義,該等線性對映函數考慮播放室中之再現螢幕大小資訊及例如在混合及監視處理程序中所使用之參考螢幕的螢幕大小資訊。
根據實施例之方位對映函數描繪於圖13中。在該圖13中,方位角之對映函數得以例示。如在圖13中,其可例如經定義,使得在參考螢幕之左邊緣與右邊緣之間的方位值對映(壓縮或擴張)至在再現螢幕之左邊緣與右邊緣之間的間隔。其他方位值經壓縮或擴張,使得整個範圍之值得以涵蓋。
高程對映函數可例如得以相應地定義(參見圖14)。螢幕相關處理可例如亦考慮用於放縮為高解析度視訊內容之放縮區域。螢幕相關處理可例如僅對於伴隨有動態位置資料且加標籤為螢幕相關之元素來定義。
在下文中,3D音訊編解碼器系統之系統概觀得以提供。本發明之實施例可在此3D音訊編解碼器系統中使用。3D音訊編解碼器系統可例如基於MPEG-D USAC編解碼器以用於通道及物件信號之寫碼。
根據實施例,為了增大用於寫碼大量物件之效率,MPEG SAOC技術已得以調適(SAOC=空間音訊物件寫碼)。舉例而言,根據一些實施例,三種類型之轉譯器可例如執行將物件轉譯至通道、將通道轉譯至頭戴式耳機或將通道轉譯至不同揚聲器設置的任務。
當物件信號使用SAOC明確地傳輸或參數式地編碼時,對應的物件元資料資訊壓縮及多工為3D音訊位元串流。
圖8及圖9展示3D音訊系統之不同算法區塊。詳言之,圖8例示3D音訊編碼器之概觀。圖9例示根據實施例之3D音訊解碼器的概觀。
現描述圖8及圖9之模組的可能實施例。
在圖8中,預轉譯器810(亦稱為混音器)得以例示。在圖8之組態中,預轉譯器810(混音器)為任擇的。預轉譯器810可任擇地用以在編碼之前將通道+物件輸入場景轉換為通道場景。在功能上,在編碼器側上之預轉譯器810可例如與下文描述的在解碼器側上之物件轉譯器/混音器920的功能性相關。物件之預轉譯確保基本上獨立於同時有效的物件信號之數目的在編碼器輸入端處之確定性信號熵。藉由物件之預轉譯,不需要物件元資料傳輸。離散物件信號轉譯至編碼器經組配來使用之通道佈局。用於每一通道之物件的權重係自相關聯之物件元資料(OAM)獲得。
用於揚聲器-通道信號、離散物件信號、物件降混信號及預轉譯信號之核心編解碼器係基於MPEG-D
USAC技術(USAC核心編解碼器)。USAC編碼器820(例如,圖8中所例示)藉由基於輸入之通道及物件指派的幾何及語義資訊產生通道及物件對映資訊而處置許多信號的寫碼。此對映資訊描述輸入通道及物件對映至USAC通道元素(CPE、SCE、LFE)及對應的資訊傳輸至解碼器之方式。
如SAOC資料或物件元資料之所有額外有效負載已通過擴展元素,且可例如在USAC編碼器之速率控制中得以考慮。
物件之寫碼以不同方式為可能的,此取決於對於轉譯器之速率/失真要求及互動性要求。以下物件寫碼變體為可能的:
- 經預轉譯物件:物件信號在編碼之前預轉譯且混合至22.2通道信號。後續寫碼鏈參見22.2通道信號。
- 離散物件波形:物件作為單聲道波形供應至USAC編碼器820。除通道信號之外,USAC編碼器820亦使用單通道元素SCE來傳輸物件。經解碼物件在接收器側處經轉譯及混合。經壓縮物件元資料資訊沿側傳輸至接收器/轉譯器。
- 參數物件波形:物件性質及其彼此相關性藉由SAOC參數來描述。物件信號之降混藉由USAC編碼器820用USAC寫碼。參數資訊沿側傳輸。降混通道之數目取決於物件之數目及總資料速率來選擇。經壓縮物件元資料資訊傳輸至SAOC轉譯器。
在解碼器側上,USAC解碼器910進行USAC解
碼。
此外,根據實施例,解碼器設備得以提供,參見圖9。解碼器設備包含USAC解碼器910,USAC解碼器910用於解碼位元串流以獲得一或多個音訊輸入通道、獲得一或多個輸入音訊物件、獲得經壓縮物件元資料且獲得一或多個SAOC運輸通道。
此外,解碼器設備包含SAOC解碼器915,SAOC解碼器915用於解碼一或多個SAOC運輸通道以獲得一或多個經轉譯音訊物件之第一群組。
此外,解碼器設備包含根據上文關於圖1至圖7所述之實施例或如下文關於圖11至圖15描述的裝置917。裝置917包含物件元資料解碼器918,物件元資料解碼器918例如為圖1之裝置的物件元資料處理器110且經實施以用於解碼經壓縮物件元資料來獲得未壓縮元資料。
此外,根據上文所述之實施例的裝置917包含物件轉譯器920,物件轉譯器920例如為圖1之裝置的物件轉譯器120,用於取決於未壓縮元資料而轉譯一或多個輸入音訊物件以獲得一或多個經轉譯音訊物件的第二群組。
此外,解碼器設備包含格式轉換器922,格式轉換器922用於轉換一或多個音訊輸入通道以獲得一或多個經轉換通道。
此外,解碼器設備包含混音器930,混音器930用於混合一或多個經轉譯音訊物件之第一群組的一或多個音訊物件、一或多個經轉譯音訊物件之第二群組的一或多
個音訊物件及一或多個經轉換通道以獲得一或多個經解碼音訊通道。
在圖9中,解碼器設備之特定實施例得以例示。用於物件信號之SAOC編碼器815(SAOC編碼器815為任擇的,參見圖8)及SAOC解碼器915(參見圖9)係基於MPEG SAOC技術。系統能夠基於較小數目個所傳輸通道及額外參數資料(OLD、IOC、DMG)(OLD=物件層級差、IOC=物件間相關性、DMG=降混增益)而重新產生、修改及轉譯數個音訊物件。額外參數資料展現與針對個別地傳輸所有物件所需相比顯著較低的資料速率,從而使寫碼極其有效。
SAOC編碼器815將如單聲道波形之物件/通道信號作為輸入,且輸出參數資訊(其經分封至3D音訊位元串流中)及SAOC運輸通道(其使用單通道元素而編碼且經傳輸)。
SAOC解碼器915自經解碼SAOC運輸通道及參數資訊重建構物件/通道信號,且基於再現佈局、經解壓縮物件元資料資訊且任擇地基於使用者互動資訊而產生輸出音訊場景。
關於物件元資料編解碼器,對於每一物件而言,指定物件在3D空間中之幾何位置及展開的相關聯元資料藉由物件在時間及空間上之性質例如藉由圖8之元資料編碼器818的量化有效地寫碼。經壓縮物件元資料cOAM(cOAM=經壓縮音訊物件元資料)作為旁側資訊傳輸至接收器。在接收器處,cOAM藉由元資料解碼器918解碼。
舉例而言,在圖9中,元資料解碼器918可例如根
據上文所述之實施例中之一者實施物件元資料處理器。
例如圖9之物件轉譯器920的物件轉譯器利用經壓縮物件元資料來根據給定之再現格式產生物件波形。每一物件根據其元資料轉譯至某些輸出通道。此區塊之輸出得自部分結果之總和。
舉例而言,在圖9中,物件轉譯器920可例如根據上文所述之實施例中之一者來實施。
在圖9中,元資料解碼器918可例如實施為如根據參看圖1至圖7及圖11至圖15所述的上文所述或下文所述之實施例中之一者所述的物件元資料處理器,且物件轉譯器920可例如實施為如根據參看圖1至圖7及圖11至圖15所述的上文所述或下文所述之實施例中之一者所述的物件轉譯器。元資料解碼器918及物件轉譯器920可例如一起實施如上文參看圖1至圖7所述或如下文參看圖11至15所述的用於產生揚聲器信號之裝置917。
若基於通道之內容以及離散/參數物件兩者經解碼,則基於通道之波形及經轉譯物件波形在輸出所得波形之前例如藉由圖9之混音器930混合(或在將其饋送至如立體聲轉譯器或揚聲器轉譯器模組的後處理器模組之前)。
立體聲轉譯器模組940可例如產生多通道音訊材料之立體聲降混,使得每一輸入通道藉由虛擬音源表示。處理在QMF域中按訊框進行。立體聲化可例如基於所量測之立體聲室脈衝回應。
揚聲器轉譯器922可例如在所傳輸通道組態與所
要再現格式之間轉換。該揚聲器轉譯器因此在下文中被稱作格式轉換器922。格式轉換器922執行至較低數目個輸出通道之轉換,例如,其產生降混。系統自動地產生用於輸入格式及輸出格式之給定組合的最佳化降混矩陣,且在降混處理程序中應用此等矩陣。格式轉換器922慮及標準揚聲器組態以及慮及具有非標準揚聲器位置的隨機組態。
圖10例示格式轉換器之結構。圖10例示降混組配器1010及用於在QMF域(QMF域=正交鏡相濾波器域)中處理降混之降混處理器。
根據一些實施例,物件轉譯器920可經組配來實現如關於已參看圖1至圖7描述的上文所述之多個實施例中之一者所述或如關於將參看圖11至圖15描述的多個下文所述實施例中之一者所述的螢幕相關音訊物件再對映。
在下文中,其他實施例及本發明之實施例的概念得以描述。
根據一些實施例,物件之使用者控制可例如使用描述性元資料,例如,關於位元串流內部之物件之存在的資訊,且物件之高階性質可例如使用限制性元資料,例如,關於互動為可能的或藉由內容產生者允許之方式的資訊。
根據一些實施例,音訊物件之傳訊、遞送及轉譯可例如使用位置元資料、結構元資料,例如,物件之分群及階層、轉譯特定揚聲器及傳訊通道內容作為物件之能力,及將物件場景調適為螢幕大小的方式。
實施例規定,除3D空間中之物件的已定義之幾
何位置及層級之外,亦開發新的元資料欄位。
若基於物件之音訊場景以不同的再現設置再現,則根據一些實施例,經再現音源之位置可例如自動地縮放至再現的尺寸。在音訊-視覺內容經呈現之狀況下,音訊物件對於再現之標準轉譯可例如導致作為音源位置對位置音訊-視覺一致性的違反,且聲音之視覺發起者的位置可例如不再為連續的。
為了避免此效應,一種可能性可例如用以傳訊音訊物件不欲用於3D空間中之固定位置,但其位置應隨再現設置中之螢幕的大小改變。根據一些實施例,此等音訊物件之特殊處理及用於場景縮放演算法之定義可例如允許更擬真的體驗,此係由於播放可例如對播放環境之本地特性最佳化。
在一些實施例中,轉譯器或預處理模組可例如考慮再現室中之本地螢幕大小,且可例如因此保留在電影或遊戲背景中之音訊與視訊之間的關係。在此等實施例中,音訊場景可例如接著根據再現設置自動地縮放,使得視覺元素之位置及對應的音源之位置為一致的。對於大小變化之螢幕的位置音訊-視覺一致性可例如得以維持。
舉例而言,根據實施例,對話及話音可例如接著獨立於再現螢幕大小自螢幕上之揚聲器的方向感知。此接著對於直立源以及對於聲音軌道及視覺元素之移動必須對應的移動源為可能的。
為了控制螢幕相關轉譯,允許將物件標記為螢幕
相關之額外元資料欄位得以引入。若物件標記為螢幕相關,則其幾何位置元資料在轉譯之前再對映至其他值。舉例而言,圖13例示用於方位角之示範性(再)對映函數。
尤其,一些實施例可例如達成經定義在角域(方位、高程)中工作的簡單對映函數。
此外,一些實施例可例如認識到,物件之距離並未改變,並未朝向螢幕或遠離螢幕進行「放縮」或虛擬移動,而僅縮放物件之位置。
此外,一些實施例可例如處置非定中心再現螢幕(及/或),此係由於對映函數不僅基於螢幕比率而且考慮螢幕邊緣的方位及高程。
此外,一些實施例可例如定義用於螢幕上物件之特殊對映函數。根據一些實施例,用於方位及高程之對映函數可例如為獨立的,因此其可經選擇以僅再對映方位或高程值。
在下文中,其他實施例得以提供。
圖11例示根據實施例的基於物件之音訊的轉譯。音訊物件可例如使用元資料及關於播放環境之資訊轉譯於播放側上。此資訊為例如揚聲器之數目或螢幕之大小。轉譯器1110可例如以幾何資料及可利用的揚聲器及其位置為基礎來計算揚聲器信號。
現在,參看圖12描述根據實施例之物件元資料(預)處理器1210。
在圖12中,物件元資料處理器1210經組配來進行
考慮本地螢幕大小且執行幾何元資料之對映的再對映。
螢幕相關物件之位置資料藉由物件元資料處理器1210再對映。一曲線可例如被應用以將位置之原始方位及仰角對映至經再對映方位及經再對映仰角。
例如,在混合及監視處理程序中所使用之標稱參考螢幕的螢幕大小及播放室中之本地螢幕大小資訊可例如於再對映時加入考慮。
可例如被稱為生產螢幕大小之參考螢幕大小可例如在元資料中傳輸。
在一些實施例中,若無標稱螢幕大小被給出,則預設螢幕大小可例如得以假設。
舉例而言,在ITU-R REC-BT.2022(參見:用於平板顯示器上之SDTV及HDTV電視圖像的品質之主觀評價的一般檢視條件)中所定義之視角可例如得以使用。
在一些實施例中,兩個線性對映函數可例如對於高程及方位值之再對映而定義。
在下文中,參看圖13至圖15描述根據一些實施例之螢幕相關幾何元資料修改。
經再對映方位可採取介於-180°與180°之間的值且經再對映高程可採取介於-90°與90°之間的值。對映曲線大體經定義,使得在預設左邊緣方位與預設右邊緣方位之間的方位值對映(壓縮或擴張)至在給定之左螢幕邊緣與給定之右螢幕邊緣之間的間隔(及相應地對於高程)。其他方位及高程值相應地壓縮或擴張,使得整個範圍之值得以涵蓋。
如上文已描述,標稱螢幕大小之螢幕邊緣可例如藉由以下各者給出:,,,
再現螢幕邊緣可例如藉由以下各者縮寫:,,,
方位及高程位置資料之再對映可例如藉由以下線性對映函數定義:
用於方位之對映函數描繪於圖13中,且用於高程之對映函數描繪於圖14中。
梯度改變之曲線點,,,可設定為預設值(預設假設標準螢幕大小及預設假設標準螢幕位置)抑或其可存在於元資料中(例如,藉由生產者,其可接著
將生產/監視螢幕大小放於該處)。
關於用於螢幕相關再對映之物件元資料的定義,為了控制螢幕相關轉譯,名為「isScreenRelativeObject」之額外元資料旗標得以定義。此旗標可例如定義音訊物件是否應關於本地再現螢幕大小而處理/轉譯。
若有螢幕相關元素存在於音訊場景中,則可能性經提供以提供用於混合及監視之標稱參考螢幕的螢幕大小資訊(在音訊內容之產生期間所使用的螢幕大小)。
hasScreenRelativeObjects 此旗標指定螢幕相對物件是否存在。
hasScreenSize 此旗標指定標稱螢幕大小是否得以定義。該定義係經由對應於螢幕邊緣之視角而進行。在hasScreenSize為零之狀況下,以下值用作預設值:
bsScreenSizeAz 此欄位定義對應於左及右螢幕邊緣之方位:
bsScreenSizeTopEl此欄位定義對應於頂螢幕邊緣之高程:
bsScreenSizeBottomEl 此欄位定義對應於底螢幕邊緣之高程:
isScreenRelativeObject 此旗標定義物件位置是否為螢幕相對的(該位置應不同地轉譯,使得其位置經再對映,但仍可含有所有有效角度值)。
根據實施例,若無再現螢幕大小被給出,則預設
再現螢幕大小及預設再現螢幕位置得以假設抑或無對映被應用,即使物件標記為螢幕相關亦如此。
實施例中之一些實現可能變化。
在一些實施例中,非線性對映函數得以使用。此等可能之對映函數並非由線性段而是由彎曲段組成。在一些實施例中,額外元資料控制再對映之方式,例如,定義偏移或非線性係數以慮及平移行為或聽力之解析度。
一些實施例實現方位及高程之獨立處理。方位及高程可獨立地標記及處理為螢幕相關的。表5例示根據此實施例之ObjectMetadataConfig()的語法。
一些實施例使用螢幕上物件之定義。其可在螢幕相關物件與螢幕上物件之間加以區分。可能語法接著可為表6之以下語法:表6-根據實施例之ObjectMetadataConfig()的語法:
hasOnScreenObjects此旗標指定螢幕相關物件是否存在。
isScreenRelatedObject此旗標定義物件位置是否為螢幕相對的(該位置應不同地轉譯,使得其位置經再對映,但仍可含有所有有效角度值)。
isOnScreenObject此旗標定義對應的物件是否為「螢幕上的」。此旗標等於1之物件應不同地轉譯,使得其位置可僅採取螢幕區域上之值。
對於螢幕上物件而言,經再對映方位及高程可僅採取描述螢幕區域上之位置的值(及)。
如藉由一些實施例實現,存在處理此等範圍外之值的不同可能性:其可對映至螢幕之邊緣。在左半球上,則在180°與180°-之間的位置對映至左螢幕邊緣。右半球及仰角係以相同方式處理(圖15中之非虛線對
映函數1510)。
藉由實施例中之一些所實現的另一可能性為將後半球之值對映至前半球。介於180°與180°-之間的值對映至介於0°與之間的值。右半球及仰角係以相同方式處理(圖15中之虛線對映函數1520)。
圖15例示根據此等實施例之方位角(螢幕上物件)的再對映。
所要行為之選擇可藉由額外元資料(例如,用於將意欲用於後部([180°及180°-]及[-180°及-180°-])之所有螢幕上物件投影至螢幕上的旗標)傳訊。
儘管一些態樣已在裝置之內容脈絡中得以描述,但清楚地,此等態樣亦表示對應的方法之描述,其中區塊或設備對應於方法步驟或方法步驟之特徵。相似地,在方法步驟之內容脈絡中所述的態樣亦表示對應的裝置之對應區塊或項目或特徵的描述。
發明性分解信號可儲存於數位儲存媒體上或可在諸如無線傳輸媒體或有線傳輸媒體之傳輸媒體上傳輸,該傳輸媒體諸如網際網路。
取決於某些實行方案要求,本發明之實施例可以硬體或以軟體來實施。該實行方案可使用儲存有電子可讀控制信號之數位儲存媒體來執行,例如軟性碟片、DVD、CD、ROM、PROM、EPROM、EEPROM或FLASH記憶體,該等信號與可規劃電腦系統合作(或能夠合作)以使得個別方法得以執行。
根據本發明之一些實施例包含具有電子可讀控制信號之非暫時性資料載體,該等信號能夠與可規劃電腦系統合作以使得本文所述之方法中的一者得以執行。
一般而言,本發明之實施例可實施為具有程式碼之電腦程式產品,該程式碼在電腦程式產品在電腦上執行時對於執行方法中之一者為可操作的。程式碼可例如儲存於機器可讀載體上。
其他實施例包含儲存於機器可讀載體上的用於執行本文所述之方法中之一者的電腦程式。
換言之,當電腦程式在電腦上執行時,發明性方法之實施例因此為具有用於執行本文所述之方法中之一者的程式碼之該電腦程式。
發明性方法之又一實施例因此為記錄有用於執行本文所述之方法中之一者的電腦程式之資料載體(或數位儲存媒體,或電腦可讀媒體)。
發明性方法之又一實施例因此為表示用於執行本文所述之方法中之一者的電腦程式之資料串流或信號序列。資料串流或信號序列可例如經組配來經由資料通訊連接(例如,經由網際網路)而傳送。
又一實施例包含經組配或調適來執行本文所述之方法中之一者的處理構件,例如電腦或可規劃邏輯設備。
又一實施例包含安裝有用於執行本文所述之方法中之一者的電腦程式之電腦。
在一些實施例中,可規劃邏輯設備(例如,場可
規劃閘陣列)可用以執行本文所述之方法之功能性中的一些或全部。在一些實施例中,場可規劃閘陣列可與微處理器合作以便執行本文所述之方法中的一者。一般而言,方法較佳藉由任何硬體裝置執行。
上文所述之實施例對於本發明之原理僅為例示性的。應理解,本文所述之配置及細節的修改及變化對於其他熟習此項技術者而言將為顯而易見的。因此,意圖為僅藉由未決之專利申請專利範圍的範疇而非藉由藉助於本文之實施例之描述及解釋所呈現的特定細節來限制。
[1]“Method and apparatus for playback of a higher-order ambisonics audio signal”, Patent application number EP20120305271
[2]“Vorrichtung und Verfahren zum Bestimmen einer Wiedergabeposition“, Patent application number WO20040733
[3]“Verfahren zur Audiocodierung”, Patent application number EP20020024643
[4]“Acoustical Zooming Based on a Parametric Sound Field Representation” http://www.aes.org/tmpFiles/elib/20140814/15417.pdf
110‧‧‧物件元資料處理器
120‧‧‧物件轉譯器
Claims (15)
- 一種用於產生揚聲器信號之裝置,其包含:一物件元資料處理器,及一物件轉譯器,其中該物件轉譯器經組配來接收一音訊物件,其中該物件元資料處理器經組配來接收元資料,該元資料包含對該音訊物件是否為螢幕相關之一指示,且進一步包含該音訊物件的一第一位置,其中該物件元資料處理器經組配來在該音訊物件在該元資料中指示為螢幕相關的情況下,取決於該音訊物件之該第一位置且取決於一螢幕的一大小而計算該音訊物件之一第二位置,其中該物件轉譯器經組配來取決於該音訊物件且取決於位置資訊產生該等揚聲器信號,其中該物件元資料處理器經組配來在該音訊物件在該元資料中指示為並非螢幕相關的情況下將該音訊物件之該第一位置作為該位置資訊饋送至該物件轉譯器中,且其中該物件元資料處理器經組配來在該音訊物件在該元資料中指示為螢幕相關的情況下將該音訊物件之該第二位置作為該位置資訊饋送至該物件轉譯器中。
- 如請求項1之裝置,其中該物件元資料處理器經組配來在該音訊物件在該元資料中指示為並非螢幕相關的情 況下並不計算該音訊物件之該第二位置。
- 如請求項1之裝置,其中該物件轉譯器經組配來並不判定該位置資訊為該音訊物件之該第一位置抑或該音訊物件之該第二位置。
- 如請求項1之裝置,其中該物件轉譯器經組配來進一步取決於一播放環境之揚聲器的數目產生該等揚聲器信號。
- 如請求項4之裝置,其中該物件轉譯器經組配來進一步取決於該播放環境之該等揚聲器中之每一者的一揚聲器位置產生該等揚聲器信號。
- 如請求項1之裝置,其中該物件元資料處理器經組配來在該音訊物件在該元資料中指示為螢幕相關的情況下取決於該音訊物件之該第一位置且取決於該螢幕的該大小而計算該音訊物件之該第二位置,其中該第一位置及該第二位置均為三維空間中的位置。
- 如請求項6之裝置,其中該物件元資料處理器經組配來在該音訊物件在該元資料中指示為螢幕相關的情況下取決於該音訊物件之該第一位置且取決於該螢幕的該大小而計算該音訊物件之該第二位置,其中該第一位置指示一第一方位、一第一高程及一第一距離,且其中該第二位置指示一第二方位、一第二高程及一第二距離。
- 如請求項1之裝置,其中該物件元資料處理器經組配來接收該元資料,該元資料包含對該音訊物件是否為螢幕相關之該指 示作為一第一指示,且在該音訊物件為螢幕相關的情況下進一步包含一第二指示,該第二指示指示該音訊物件是否為一螢幕上物件,且其中該物件元資料處理器經組配來取決於該音訊物件之該第一位置且取決於該螢幕的該大小而計算該音訊物件之該第二位置,使得在該第二指示指示該音訊物件為一螢幕上物件的情況下,該第二位置採取在該螢幕之一螢幕區域上的一第一值。
- 如請求項8之裝置,其中該物件元資料處理器經組配來取決於該音訊物件之該第一位置且取決於該螢幕的該大小而計算該音訊物件之該第二位置,使得在該第二指示指示該音訊物件並非一螢幕上物件的情況下,該第二位置採取在該螢幕區域上抑或不在該螢幕區域上的一第二值。
- 如請求項1之裝置,其中該物件元資料處理器經組配來接收該元資料,該元資料包含對該音訊物件是否為螢幕相關之該指示作為一第一指示,且在該音訊物件為螢幕相關的情況下進一步包含一第二指示,該第二指示指示該音訊物件是否為一螢幕上物件,其中該物件元資料處理器經組配來在該第二指示指示該音訊物件為一螢幕上物件的情況下取決於該音訊物件之該第一位置、取決於該螢幕之該大小且取決於作為對映曲線的一第一對映曲線而計算該音訊物件之 該第二位置,其中該第一對映曲線定義一第一值區間中之原始物件位置至一第二值區間中之經再對映物件位置的一對映,且其中該物件元資料處理器經組配來在該第二指示指示該音訊物件並非一螢幕上物件的情況下取決於該音訊物件之該第一位置、取決於該螢幕之該大小且取決於作為該對映曲線的一第二對映曲線而計算該音訊物件之該第二位置,其中該第二對映曲線定義該第一值區間中之原始物件位置至一第三值區間中之經再對映物件位置的一對映,且其中該第二值區間係由該第三值區間所包含,且其中該第二值區間小於該第三值區間。
- 如請求項10之裝置,其中該第一值區間及該第二值區間及該第三值區間中之每一者為方位角的一值區間,或其中該第一值區間及該第二值區間及該第三值區間中之每一者為仰角的一值區間。
- 如請求項1之裝置,其中該物件元資料處理器經組配來取決於一第一線性對映函數及一第二線性對映函數中之至少一者計算該音訊物件的該第二位置,其中該第一線性對映函數經定義以將一第一方位值對映至一第二方位值,其中該第二線性對映函數經定義以將一第一高程值對映至一第二高程值, 其中指示一左方位螢幕邊緣參考,其中指示一右方位螢幕邊緣參考,其中指示一頂高程螢幕邊緣參考,其中指示一底高程螢幕邊緣參考,其中指示該螢幕之一左方位螢幕邊緣,其中指示該螢幕之一右方位螢幕邊緣,其中指示該螢幕之一頂高程螢幕邊緣,其中指示該螢幕之一底高程螢幕邊緣,其中φ指示該第一方位值,其中φ'指示該第二方位值,其中θ指示該第一高程值,其中θ'指示該第二高程值,其中該第二方位值φ'根據下式根據該第一線性對映函數得自該第一方位值φ之一第一對映
- 一種解碼器設備,其包含:一USAC解碼器,其用於解碼一位元串流以獲得一或多個音訊輸入通道、獲得一或多個輸入音訊物件、獲得經壓縮物件元資料且獲得一或多個SAOC運輸通道,一SAOC解碼器,其用於解碼該一或多個SAOC運輸通道以獲得一或多個經轉譯音訊物件之一第一群組,根據請求項1之一裝置,其中該裝置包含一物件元資料解碼器,其為根據請求項1之該裝置的該物件元資料處理器,且經實施以用於解碼該經壓縮物件元資料以獲得未壓縮元資料,及根據請求項1之該裝置的該物件轉譯器,其用於取決於該未壓縮元資料而轉譯該一或多個輸入音訊物件以獲得一或多個經轉譯音訊物件之一第二群組,一格式轉換器,其用於轉換該一或多個音訊輸入通道以獲得一或多個經轉換通道,及一混音器,其用於混合一或多個經轉譯音訊物件之該第一群組的該一或多個音訊物件、一或多個經轉譯音訊物件之該第二群組的該一或多個音訊物件及該一或多個經轉換通道以獲得一或多個經解碼音訊通道。
- 一種用於產生揚聲器信號之方法,其包含:接收一音訊物件,接收元資料,該元資料包含對該音訊物件是否為螢幕相關之一指示,且進一步包含該音訊物件的一第一位置,在該音訊物件在該元資料中指示為螢幕相關的情況下,取決於該音訊物件之該第一位置且取決於一螢幕的一大小而計算該音訊物件之一第二位置,取決於該音訊物件且取決於位置資訊產生該等揚聲器信號,其中在該音訊物件在該元資料中指示為並非螢幕相關的情況下,該位置資訊為該音訊物件之該第一位置,且其中在該音訊物件在該元資料中指示為螢幕相關的情況下,該位置資訊為該音訊物件之該第二位置。
- 一種電腦程式,該電腦程式於一電腦或信號處理器上執行時,用以實施如請求項14之方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP14161819 | 2014-03-26 | ||
EP14196769.5A EP2928216A1 (en) | 2014-03-26 | 2014-12-08 | Apparatus and method for screen related audio object remapping |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201603584A TW201603584A (zh) | 2016-01-16 |
TWI595785B true TWI595785B (zh) | 2017-08-11 |
Family
ID=52015948
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW104108296A TWI595785B (zh) | 2014-03-26 | 2015-03-16 | 用於螢幕相關音訊物件再對映之裝置及方法 |
Country Status (19)
Country | Link |
---|---|
US (4) | US10192563B2 (zh) |
EP (4) | EP2928216A1 (zh) |
JP (4) | JP6422995B2 (zh) |
KR (1) | KR101920356B1 (zh) |
CN (2) | CN106463128B (zh) |
AR (1) | AR099835A1 (zh) |
AU (1) | AU2015238354B2 (zh) |
BR (1) | BR112016022045B1 (zh) |
CA (1) | CA2943570C (zh) |
ES (2) | ES2953685T3 (zh) |
FI (1) | FI3487189T3 (zh) |
MX (1) | MX355455B (zh) |
MY (1) | MY184715A (zh) |
PL (2) | PL3487189T3 (zh) |
PT (2) | PT3123741T (zh) |
RU (1) | RU2683380C2 (zh) |
SG (1) | SG11201607953TA (zh) |
TW (1) | TWI595785B (zh) |
WO (1) | WO2015144766A1 (zh) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2830051A3 (en) | 2013-07-22 | 2015-03-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals |
EP2928216A1 (en) | 2014-03-26 | 2015-10-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for screen related audio object remapping |
US9940937B2 (en) * | 2014-10-10 | 2018-04-10 | Qualcomm Incorporated | Screen related adaptation of HOA content |
CN115209186A (zh) | 2014-10-10 | 2022-10-18 | 索尼公司 | 再现装置和再现方法 |
CN106303897A (zh) * | 2015-06-01 | 2017-01-04 | 杜比实验室特许公司 | 处理基于对象的音频信号 |
CN113242448B (zh) | 2015-06-02 | 2023-07-14 | 索尼公司 | 发送装置和方法、媒体处理装置和方法以及接收装置 |
EP4207756A1 (en) | 2015-07-16 | 2023-07-05 | Sony Group Corporation | Information processing apparatus and method |
DE102015220595A1 (de) * | 2015-10-22 | 2017-04-27 | Robert Bosch Gmbh | Batteriezelle mit teilweise flexibel formbarer Wandung |
EP3378240B1 (en) | 2015-11-20 | 2019-12-11 | Dolby Laboratories Licensing Corporation | System and method for rendering an audio program |
US9854375B2 (en) * | 2015-12-01 | 2017-12-26 | Qualcomm Incorporated | Selection of coded next generation audio data for transport |
JP2019518373A (ja) * | 2016-05-06 | 2019-06-27 | ディーティーエス・インコーポレイテッドDTS,Inc. | 没入型オーディオ再生システム |
CN117612539A (zh) * | 2016-05-30 | 2024-02-27 | 索尼公司 | 视频音频处理设备、视频音频处理方法和存储介质 |
US10979844B2 (en) | 2017-03-08 | 2021-04-13 | Dts, Inc. | Distributed audio virtualization systems |
US10972859B2 (en) * | 2017-04-13 | 2021-04-06 | Sony Corporation | Signal processing apparatus and method as well as program |
WO2018198767A1 (ja) * | 2017-04-25 | 2018-11-01 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
WO2019013400A1 (ko) * | 2017-07-09 | 2019-01-17 | 엘지전자 주식회사 | 비디오 화면 줌에 연동되는 오디오 출력 방법 및 출력 장치 |
JP6988904B2 (ja) * | 2017-09-28 | 2022-01-05 | 株式会社ソシオネクスト | 音響信号処理装置および音響信号処理方法 |
WO2019149337A1 (en) | 2018-01-30 | 2019-08-08 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatuses for converting an object position of an audio object, audio stream provider, audio content production system, audio playback apparatus, methods and computer programs |
CN111801952A (zh) * | 2018-03-08 | 2020-10-20 | 索尼公司 | 信息处理装置、信息处理方法、信息处理系统和程序 |
JP7102024B2 (ja) | 2018-04-10 | 2022-07-19 | ガウディオ・ラボ・インコーポレイテッド | メタデータを利用するオーディオ信号処理装置 |
SG11202012259RA (en) | 2018-07-04 | 2021-01-28 | Sony Corp | Information processing device and method, and program |
GB2577698A (en) | 2018-10-02 | 2020-04-08 | Nokia Technologies Oy | Selection of quantisation schemes for spatial audio parameter encoding |
US20230171557A1 (en) * | 2020-03-16 | 2023-06-01 | Nokla Technologies Oy | Rendering encoded 6dof audio bitstream and late updates |
US11743670B2 (en) * | 2020-12-18 | 2023-08-29 | Qualcomm Incorporated | Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications |
GB202118094D0 (en) * | 2021-12-14 | 2022-01-26 | Nokia Technologies Oy | A method and apparatus for AR scene modification |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120183162A1 (en) * | 2010-03-23 | 2012-07-19 | Dolby Laboratories Licensing Corporation | Techniques for Localized Perceptual Audio |
TW201325269A (zh) * | 2011-07-01 | 2013-06-16 | Dolby Lab Licensing Corp | 用於適應性音頻信號的產生、譯碼與呈現之系統與方法 |
US20130202129A1 (en) * | 2009-08-14 | 2013-08-08 | Dts Llc | Object-oriented audio streaming system |
US20140016786A1 (en) * | 2012-07-15 | 2014-01-16 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients |
US20140019146A1 (en) * | 2011-03-18 | 2014-01-16 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Frame element positioning in frames of a bitstream representing audio content |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030007648A1 (en) * | 2001-04-27 | 2003-01-09 | Christopher Currell | Virtual audio system and techniques |
DE10154932B4 (de) | 2001-11-08 | 2008-01-03 | Grundig Multimedia B.V. | Verfahren zur Audiocodierung |
US7606372B2 (en) * | 2003-02-12 | 2009-10-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Device and method for determining a reproduction position |
DE10305820B4 (de) | 2003-02-12 | 2006-06-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Bestimmen einer Wiedergabeposition |
US7548657B2 (en) * | 2005-06-25 | 2009-06-16 | General Electric Company | Adaptive video compression of graphical user interfaces using application metadata |
JP5174527B2 (ja) * | 2008-05-14 | 2013-04-03 | 日本放送協会 | 音像定位音響メタ情報を付加した音響信号多重伝送システム、制作装置及び再生装置 |
JP5258967B2 (ja) | 2008-07-15 | 2013-08-07 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号の処理方法及び装置 |
KR101387902B1 (ko) * | 2009-06-10 | 2014-04-22 | 한국전자통신연구원 | 다객체 오디오 신호를 부호화하는 방법 및 부호화 장치, 복호화 방법 및 복호화 장치, 그리고 트랜스코딩 방법 및 트랜스코더 |
ES2644520T3 (es) * | 2009-09-29 | 2017-11-29 | Dolby International Ab | Decodificador de señal de audio MPEG-SAOC, método para proporcionar una representación de señal de mezcla ascendente usando decodificación MPEG-SAOC y programa informático usando un valor de parámetro de correlación inter-objeto común dependiente del tiempo/frecuencia |
EP2450880A1 (en) | 2010-11-05 | 2012-05-09 | Thomson Licensing | Data structure for Higher Order Ambisonics audio data |
CA3151342A1 (en) * | 2011-07-01 | 2013-01-10 | Dolby Laboratories Licensing Corporation | System and tools for enhanced 3d audio authoring and rendering |
EP2637427A1 (en) | 2012-03-06 | 2013-09-11 | Thomson Licensing | Method and apparatus for playback of a higher-order ambisonics audio signal |
EP2637327A1 (en) * | 2012-03-09 | 2013-09-11 | Harman International Industries Ltd. | Audio mixing console with lighting control and method of mixing by means of a mixing console |
US9516446B2 (en) * | 2012-07-20 | 2016-12-06 | Qualcomm Incorporated | Scalable downmix design for object-based surround codec with cluster analysis by synthesis |
WO2014032709A1 (en) * | 2012-08-29 | 2014-03-06 | Huawei Technologies Co., Ltd. | Audio rendering system |
EP2928216A1 (en) * | 2014-03-26 | 2015-10-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for screen related audio object remapping |
-
2014
- 2014-12-08 EP EP14196769.5A patent/EP2928216A1/en not_active Withdrawn
-
2015
- 2015-03-16 TW TW104108296A patent/TWI595785B/zh active
- 2015-03-25 JP JP2016559292A patent/JP6422995B2/ja active Active
- 2015-03-25 WO PCT/EP2015/056417 patent/WO2015144766A1/en active Application Filing
- 2015-03-25 EP EP23167354.2A patent/EP4254988A3/en active Pending
- 2015-03-25 KR KR1020167029805A patent/KR101920356B1/ko active IP Right Grant
- 2015-03-25 MY MYPI2016001725A patent/MY184715A/en unknown
- 2015-03-25 AR ARP150100877A patent/AR099835A1/es active IP Right Grant
- 2015-03-25 MX MX2016012286A patent/MX355455B/es active IP Right Grant
- 2015-03-25 CN CN201580026227.6A patent/CN106463128B/zh active Active
- 2015-03-25 FI FIEP18248305.7T patent/FI3487189T3/fi active
- 2015-03-25 CA CA2943570A patent/CA2943570C/en active Active
- 2015-03-25 AU AU2015238354A patent/AU2015238354B2/en active Active
- 2015-03-25 RU RU2016141642A patent/RU2683380C2/ru active
- 2015-03-25 ES ES18248305T patent/ES2953685T3/es active Active
- 2015-03-25 EP EP15716439.3A patent/EP3123741B1/en active Active
- 2015-03-25 PT PT15716439T patent/PT3123741T/pt unknown
- 2015-03-25 BR BR112016022045-5A patent/BR112016022045B1/pt active IP Right Grant
- 2015-03-25 SG SG11201607953TA patent/SG11201607953TA/en unknown
- 2015-03-25 PL PL18248305.7T patent/PL3487189T3/pl unknown
- 2015-03-25 PL PL15716439T patent/PL3123741T3/pl unknown
- 2015-03-25 CN CN202010076120.5A patent/CN111276153B/zh active Active
- 2015-03-25 ES ES15716439T patent/ES2723965T3/es active Active
- 2015-03-25 EP EP18248305.7A patent/EP3487189B1/en active Active
- 2015-03-25 PT PT182483057T patent/PT3487189T/pt unknown
-
2016
- 2016-09-23 US US15/274,310 patent/US10192563B2/en active Active
-
2018
- 2018-10-16 JP JP2018194721A patent/JP6734343B2/ja active Active
- 2018-12-28 US US16/236,079 patent/US10854213B2/en active Active
-
2020
- 2020-07-09 JP JP2020118271A patent/JP2020182227A/ja active Pending
- 2020-11-17 US US16/950,768 patent/US11527254B2/en active Active
-
2022
- 2022-11-18 US US18/057,188 patent/US11900955B2/en active Active
-
2023
- 2023-10-06 JP JP2023174101A patent/JP2023175947A/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130202129A1 (en) * | 2009-08-14 | 2013-08-08 | Dts Llc | Object-oriented audio streaming system |
US20120183162A1 (en) * | 2010-03-23 | 2012-07-19 | Dolby Laboratories Licensing Corporation | Techniques for Localized Perceptual Audio |
US20140019146A1 (en) * | 2011-03-18 | 2014-01-16 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Frame element positioning in frames of a bitstream representing audio content |
TW201325269A (zh) * | 2011-07-01 | 2013-06-16 | Dolby Lab Licensing Corp | 用於適應性音頻信號的產生、譯碼與呈現之系統與方法 |
US20140016786A1 (en) * | 2012-07-15 | 2014-01-16 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients |
Non-Patent Citations (1)
Title |
---|
M. Neuendorf, et al., "The ISO/MPEG Unified Speech and Audio Coding Standard – Consistent High Quality for all Content Types and at all Bit Rates," J. Audio Eng. Soc., Vol. 61, No. 12, Audio Engineering Society, Dec. 2013. * |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI595785B (zh) | 用於螢幕相關音訊物件再對映之裝置及方法 | |
JP7116144B2 (ja) | 空間的に拡散したまたは大きなオーディオ・オブジェクトの処理 | |
RU2661775C2 (ru) | Передача сигнальной информации рендеринга аудио в битовом потоке | |
AU2014295270B2 (en) | Apparatus and method for realizing a SAOC downmix of 3D audio content | |
CN108924729B (zh) | 采用几何距离定义的音频呈现装置和方法 | |
US9478228B2 (en) | Encoding and decoding of audio signals | |
JP6820386B2 (ja) | 高次アンビソニック(hoa)コンテンツの画面に関連した適応 | |
CN117475983A (zh) | 信号处理装置、方法和存储介质 |