TW202325040A - 資訊處理裝置及方法、以及程式 - Google Patents
資訊處理裝置及方法、以及程式 Download PDFInfo
- Publication number
- TW202325040A TW202325040A TW111141214A TW111141214A TW202325040A TW 202325040 A TW202325040 A TW 202325040A TW 111141214 A TW111141214 A TW 111141214A TW 111141214 A TW111141214 A TW 111141214A TW 202325040 A TW202325040 A TW 202325040A
- Authority
- TW
- Taiwan
- Prior art keywords
- data
- directivity
- model
- information
- frequency
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 460
- 230000010365 information processing Effects 0.000 title claims abstract description 135
- 238000004364 calculation method Methods 0.000 claims abstract description 142
- 238000009826 distribution Methods 0.000 claims description 307
- 238000012545 processing Methods 0.000 claims description 156
- 239000000203 mixture Substances 0.000 claims description 99
- 230000008569 process Effects 0.000 claims description 32
- 230000001174 ascending effect Effects 0.000 claims description 9
- 230000001568 sexual effect Effects 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 abstract description 34
- 238000005516 engineering process Methods 0.000 abstract description 24
- 239000013598 vector Substances 0.000 description 105
- 230000006870 function Effects 0.000 description 32
- 238000005562 fading Methods 0.000 description 31
- 238000010586 diagram Methods 0.000 description 26
- 238000013500 data storage Methods 0.000 description 11
- 238000013461 design Methods 0.000 description 11
- 230000002441 reversible effect Effects 0.000 description 11
- 238000013459 approach Methods 0.000 description 10
- 230000008859 change Effects 0.000 description 10
- 239000000654 additive Substances 0.000 description 9
- 230000000996 additive effect Effects 0.000 description 9
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 238000003672 processing method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000007667 floating Methods 0.000 description 4
- 230000014759 maintenance of location Effects 0.000 description 4
- 101100365087 Arabidopsis thaliana SCRA gene Proteins 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 238000009396 hybridization Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004064 recycling Methods 0.000 description 2
- 230000008929 regeneration Effects 0.000 description 2
- 238000011069 regeneration method Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Stereophonic System (AREA)
- Debugging And Monitoring (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本技術係有關於能夠使指向性資料的傳輸量降低的資訊處理裝置及方法、以及程式。
資訊處理裝置,係具備:取得部,係取得將表示音源之指向性的指向性資料進行模型化所得到的模型資料;和算出部,係基於模型資料,而算出指向性資料。本技術係可適用於資訊處理裝置。
Description
本技術係有關於資訊處理裝置及方法、以及程式,尤其是有關於,能夠使得指向性資料的傳輸量降低的資訊處理裝置及方法、以及程式。
先前已知,藉由考慮音源的指向性,而可實現較高臨場感的音訊再生。
例如,連同物件的音訊資料,一併準備表示從物件發出的聲音之指向性的指向性資料,則使用音訊資料與指向性資料,就可進行基於物件之指向特性的音訊再生。
又,作為關於指向性的技術,例如於錄音時可讓使用者任意地選擇指向性方向而進行錄音,且於再生時讓使用者選擇與錄音時之指向性方向不同的所望之指向性之方向而進行再生的技術,已被提出(例如參照專利文獻1)。
[先前技術文獻]
[專利文獻]
[專利文獻1] 日本特開2021-100209號公報
[發明所欲解決之課題]
順便一提,由於隨著每個音源而指向特性(指向性)會有所不同,因此作為內容是提供物件的音訊資料、和該物件的指向性資料的情況下,必須按照音源之種別,亦即每一物件之種別,來準備指向性資料。又,若要針對較多的方向及頻率而使其帶有關於指向性的資訊,則指向性資料的資料量會變多。
如此一來,對內容之傳遞目標的指向性資料的傳輸量就會變多,而恐怕會導致發生傳輸延遲,或是傳輸速率增大等等。
本技術係有鑑於此種狀況而研發,係要能夠使得指向性資料的傳輸量降低。
[用以解決課題之手段]
本技術之第1側面的資訊處理裝置,係具備:取得部,係取得將表示音源之指向性的指向性資料進行模型化所得到的模型資料;和算出部,係基於前記模型資料,而算出前記指向性資料。
本技術之第1側面的資訊處理方法或程式,係含有以下步驟:取得將表示音源之指向性的指向性資料進行模型化所得到的模型資料;基於前記模型資料,而算出前記指向性資料。
於本技術的第1側面中,將表示音源之指向性的指向性資料進行模型化所得到的模型資料係被取得;基於前記模型資料,前記指向性資料係被算出。
本技術之第2側面的資訊處理裝置,係具備:模型化部,係將表示音源之指向性的指向性資料,以由複數個分布所成之混合模型來進行模型化;模型資料生成部,係生成模型資料,其係含有:將藉由前記模型化所得到的前記混合模型予以構成的模型參數。
本技術之第2側面的資訊處理方法或程式,係含有以下步驟:將表示音源之指向性的指向性資料,以由複數個分布所成之混合模型來進行模型化;生成模型資料,其係含有:將藉由前記模型化所得到的前記混合模型予以構成的模型參數。
於本技術的第2側面中,表示音源之指向性的指向性資料,係以由複數個分布所成之混合模型而被模型化;含有將藉由前記模型化所得到的前記混合模型予以構成的模型參數的模型資料,係被生成。
以下參照圖式來說明適用了本技術的實施形態。
〈第1實施形態〉
〈關於本技術〉
本技術係藉由將指向性資料進行模型化,而可使得指向性資料的傳輸量降低。
在本技術中,是提供例如3D音源之音訊資料和指向性資料,來作為內容。
具體而言,例如作為3D音源是將1或複數個音訊物件(以下亦簡稱為物件)的聲音予以收音(收錄),而生成各物件的音訊資料。又,隨著每一物件之種別,亦即每一音源種別,而準備有物件(音源)的指向特性,亦即表示指向性的指向性資料。
然後,各物件之音訊資料、和每一音源種別的指向性資料,是作為內容之資料而被提供。亦即,配合物件之音訊資料而將指向性資料往再生側之裝置進行傳輸。然後,在再生側上,基於構成內容的音訊資料和指向性資料,進行考慮到指向性資料的音訊再生。
指向性資料,係可藉由例如將物件之聲音以複數個麥克風進行收錄而獲得。此外,指向性資料的收錄,係亦可與物件的音訊資料之收錄同時進行,亦可在與物件的音訊資料之收錄不同的時序上進行。
指向性資料,係按照例如聲音或樂器、揚聲器等之每一音源種別,而被準備。又,指向性資料係例如,針對從音源觀看的位於各方向上的位置,從DC的頻率到奈奎斯特頻率為止的全頻率帶寬中的每一對象頻率,而帶有來自音源的聲音之振幅與相位之資訊的資料。
例如從音源觀看的方向係藉由:從音源位置觀看的水平方向之角度亦即方位角、和從音源位置觀看的垂直方向之角度亦即仰角,而被表示。此時,例如方位角的範圍係被設成0度乃至360度之範圍,仰角的範圍係被設成-90度乃至+90度之範圍。
在本技術中,在將如此的指向性資料進行離散化及壓縮時,並非直接將資料進行壓縮,而是進行模型化所致之參數壓縮。
此外,在本技術中,被當作模型化之對象的指向性資料,係將藉由收錄等所得到的指向性資料,適宜地進行離散化及正規化而被獲得。
以下,被當作模型化之對象的指向性資料,係視為由複數個各資料點上的,音源之複數個離散的表示各頻率之指向特性的增益(以下稱作指向性增益)所成,來進行說明。
例如成為資料點的位置係藉由:以音源位置為原點的極座標系之座標(極座標),亦即從音源位置觀看的表示水平方向之位置的方位角、與從音源位置觀看的表示垂直方向之位置的仰角,就可加以表示。此外,為了表示資料點之位置,亦可使用從音源位置起算之距離(半徑)。又,指向性增益,係可藉由將資料點上的來自音源之聲音之振幅(音壓)進行正規化而獲得。
(關於音源之指向性資料的記錄方式)
說明每一音源種別的指向性資料的記錄方式。
在本技術中,指向性資料的模型化中係使用,平面上所被定義之相當於多變量/單變量之高斯分布的,由球面上的vMF(von Mises Fisher)分布、Kent分布、或vMF分布和Kent分布之至少任一者所成之混合模型。
此外,關於vMF分布或Kent分布、混合模型係例如,在「John T. Kent (1982). The Fisher-Bingham Distribution on the Sphere」等中有被詳細記載。
首先說明一般的混合高斯分布。
例如圖1的箭頭Q11所示的部分,係表示2維的高斯分布。在此例中,係在直線上存在有2個高斯分布。亦即,曲線L11係表示1個高斯分布,曲線L12係表示另1個高斯分布。
又,曲線L13係表示,藉由將曲線L11所示的高斯分布、與曲線L12所示的高斯分布進行混合而獲得的混合高斯分布。
另一方面,圖1中的箭頭Q12所示的部分,係表示平面上的3個分布。亦可將如此的平面上的複數個分布,進行混合。
通常,混合高斯分布係被利用於,用來表現平面上的機率密度分布(pdf(Probability Density Function))。藉由減少了所望之pdf的模型參數,且以盡可能少的混合數來表現,就可削減資訊量。
在本技術中,係使用在球表面上所被定義之相當於高斯分布的vMF分布或Kent分布之混合模型,來將球表面上的指向性資料,亦即指向性增益之形狀(分布)進行模型化。
混合模型係亦可由1或複數個vMF分布所構成,亦可由1或複數個Kent分布所構成,亦可由1個以上之vMF分布與1個以上之Kent分布所構成。亦即,混合模型係藉由含有vMF分布和Kent分布之至少任一者的1或複數個分布所構成。
表示球表面之位置的位置向量,亦即正交座標系(笛卡兒座標系)的座標若令作x,則對應於位置向量x的Kent分布之值f(x),亦即藉由位置向量x而被表示之位置上的Kent分布之值f(x),係可藉由下式(1)來表示。
此外,於式(1)中,κ係表示參數集中度,β係表示橢圓率。又,γ
1係表示將mean direction分布之中心做規定的向量,γ
2係表示major軸向量,γ
3係表示minor軸向量。
再者,c(κ,β)係為下式(2)所示的正規化定數。此外,於式(2)中Γ係表示伽瑪函數,I係表示第一種變形貝索函數。
又,藉由位置向量x而被表示之位置上的vMF分布之值,也可藉由和式(1)相同的式子來表示。在如此的情況下,式(1)中的橢圓率β之值係被設成0。
圖2中係圖示vMF分布和Kent分布之例子。
在圖2中,箭頭Q21所示的部分,係表示vMF分布之例子。特別是,向量V11係表示,式(1)中所示的向量γ
1。
vMF分布,係不具有橢圓率β、major軸向量γ
2、及minor軸向量γ
3來作為參數,係為於球表面上,以藉由向量V11(向量γ
1)而被表示之位置為中心而等方向性地擴展開來的圓形狀之分布。亦即,若使用vMF分布(vMF分布模型),則可重現圓形狀之分布。
相對於此,箭頭Q22所示的部分,係表示Kent分布之例子。特別是,向量V21乃至向量V23係表示,式(1)中所示的向量γ
1、major軸向量γ
2、及minor軸向量γ
3。
Kent分布係為,於球表面上,以藉由向量V21(向量γ
1)而被表示之位置為中心,以球表面上的major軸向量γ
2及minor軸向量γ
3為長軸及短軸的橢圓形狀之分布。亦即,若使用Kent分布(Kent分布模型),則可重現藉由橢圓率β、major軸向量γ
2、及minor軸向量γ
3而決定的橢圓形狀之分布。
Kent分布,係可藉由橢圓率β等之參數而使橢圓的形狀做變化,因此自由度較高,但是參數數係會較vMF分布還多。
在本技術中係使用,將vMF分布或Kent分布進行混合所得的混合模型,來表示指向性資料(將其模型化)。
例如,和式(1)中的情況相同的藉由位置向量x而被表示之位置上的,使用了N個Kent分布f(x;θ
i)的混合模型之輸出值F(x;Θ),係可藉由下式(3)來表示。亦即,混合模型F(x;Θ),係可藉由N個Kent分布f(x;θ
i)的加權加算,來加以表示。
此外,式(3)中Kent分布f(x;θ
i),係和上述的式(1)中所示的相同,係表示了所混合的N個Kent分布之中的第i個Kent分布。
又,θ
i係為構成Kent分布f(x;θ
i)的參數,更詳言之係為參數的集合,參數θ
i係由式(1)中的參數集中度κ、橢圓率β、向量γ
1、major軸向量γ
2、及minor軸向量γ
3所成。混合模型F(x;Θ)的參數Θ,係表示N個Kent分布f(x;θ
i)的參數θ
i之集合。
再者於式(3)中,ϕ
i係表示了將N個Kent分布進行混合時的第i個Kent分布f(x;θ
i)之權重(權重係數),如下式(4)所示,N個Kent分布f(x;θ
i)之權重ϕ
i的總和係被設成1。
本技術中所被使用的指向性資料,係可藉由被配置在物件之周圍的複數個麥克風所成之麥克風陣列進行收錄(收音)而獲得。
作為一例,若收錄小號的演奏音,則會觀測到圖3所示的指向性。特別是,圖中左側係圖示水平面亦即仰角為0度之面上的各頻率之指向性,圖中右側係圖示正中面上的各頻率之指向性。
在此例中,於水平面及正中面之雙方中可知,隨著頻率(音調)而指向性的概形會有所變化,在低頻側的頻率上指向性係較小,但隨著頻率變高,指向性就會變大(變尖銳)。例如在水平面上,於8000Hz時,隨著方向不同,最大會產生25dB左右的音壓差。
順便一提,在身為模型化對象的指向性資料中,例如如圖4所示般地,係在以音源位置為中心的球表面上,設有複數個資料點。在圖4的例子中,1個點係代表了1個資料點,可知在球表面全體存在有多數的資料點。
此處,例如若在方位角方向上以2度之間隔(2度刻度),且在仰角方向上也是以2度之間隔來設置資料點,則在球表面全體係會設置有16022個資料點。又,在如此的情況下,若針對各資料點而欲將以19Hz乃至20kHz為對象的512個之頻格(頻率格)上的指向性增益(音壓)進行傳輸,則1音源的指向性資料會是約31MB。
如此,每一音源種別的指向性資料係由於資料大小很大,因此傳輸量會變成很多。
又,由於語音中係還有母音和子音等,樂器也是隨著演奏方法而指向性會有所不同等,音源種別的多樣性係為非常大,因此若想要按照每一音源種別而準備指向性資料,則會需要多數的指向性資料。
由於這些原因,而導致指向性資料的傳輸量會變多,指向性資料的傳輸量之增加係成為傳輸延遲之發生或傳輸速率之增大的主因。因此,隨著情況不同,有時候會無法隨應於音源種別或頻率、物件與受聽者之朝向等來重現指向性。
於是,在本技術中係如上述般地藉由使用混合模型來將指向性資料進行模型化,而可使得指向性資料的傳輸量降低。
〈模型資料之例子〉
此處,針對指向性資料進行模型化所得的模型資料之具體例,來做說明。
在本技術中,係在指向性資料的傳輸時,基於vMF分布或Kent分布所成之混合模型來進行指向性資料的模型化,將其結果所得到的,含有構成混合模型之模型參數等的模型資料,予以生成。然後,該模型資料係被往內容的再生側之裝置進行傳輸。藉此,就不需要資料大小很大的指向性資料之傳輸。換言之,可以使得指向性資料之傳輸時的資料量(傳輸量)降低。
此處,以num_sound_types_id而被指定的1個音源種別的模型資料之例子,示於圖5。在此例中,1個音源種別之模型資料,是作為directivityConfig而被描述。
在模型資料中,藉由資料點數「num_point_ indices」而被表示的數量為多少,就有多少個模型化前的原本指向性資料中的表示資料點之位置的方位角「azimuth_table[i]」、仰角「elevation_table[i]」、及半徑「distance[i]」就會被含有。
資料點的位置,係由:從音源位置觀看的資料點的水平方向之角度也就是方位角「azimuth_table [i]」、從音源位置觀看的資料點的垂直方向之角度也就是仰角「elevation_table[i]」、及從音源位置到資料點為止之距離也就是半徑「distance[i]」所成,是藉由以音源位置為原點的極座標系之座標,而被表示。
又,模型資料中係含有頻率點數「bin_ count」和頻率「freq[i_bin]」。在模型化前的原本之指向性資料中,身為對象的頻率帶寬全體係被分割成藉由頻率點數「bin_count」而被表示之數量的頻率帶寬(頻率)也就是頻率格,亦即頻格(bin);這些頻格之中的第i個頻格的中心頻率(Hz)是被設成頻率「freq[i_bin]」。
因此,模型化前的原本之指向性資料中係含有,複數個各資料點上的1或複數個各頻格(頻率格)之指向性增益。
然後在模型資料中,作為關於Kent分布或vMF分布的參數,還含有:進行模型化的頻帶數「band_ count」、各頻帶上的混合數「mix_count[i_band]」、各頻帶中所含之模型化前的原本之指向性資料的頻格資訊「bin_range_per_band[i_band]」。
例如在模型化時,身為對象的頻率帶寬全體係被分割成藉由頻帶數「band_count」而被表示之數量的頻率帶寬也就是頻帶(band),按照這些每一頻帶,指向性增益之分布係藉由混合模型而被表示。換言之,將各頻帶上的表示指向性增益之分布的混合模型予以構成的模型參數,會被推定。此外,藉由各頻帶(band)而被表示的頻率帶寬中,係一定包含(隸屬)有藉由1或複數個頻格而被表示之頻率,亦即頻格的中心頻率「freq[i_bin]」。
混合數「mix_count[i_band]」係表示,將表示第i個頻帶之指向性增益之分布的混合模型予以構成的分布的數量,亦即表示Kent分布或vMF分布的數量,該混合數係對應於式(3)中的N。
指向性資料的頻格資訊「bin_range_per_ band[i_band]」係為表示,被第i個頻帶所包含的,關於模型化前的原本之指向性資料之頻格(bin)的資訊。例如頻格資訊係被設成,表示第i個頻帶中所屬之最大頻率之頻格的索引資訊等。若參照頻格資訊「bin_range_per_band [i_band]」,則可特定出,關於模型化前的原本之指向性資料的頻格(頻率格),是被包含在模型化後的哪個頻帶中。
又,模型資料中,作為關於Kent分布或vMF分布的參數,係針對各頻帶,按照構成混合模型的每一分布(Kent分布或vMF分布),而含有上述的權重ϕ
i、參數集中度κ、及向量γ
1。
在此例中,「weight[i_band][i_mix]」及「kappa[i_band][i_mix]」係表示,關於藉由「i_band」而被表示之第i個頻帶的藉由「i_mix」而被表示之分布的權重ϕ
i及參數集中度κ。
又,「gamma1[i_band][i_mix][x]」及「gamma1[i_band][i_mix][y]」係表示,關於第i個頻帶「i_band」的藉由「i_mix」而被表示之分布的構成向量γ
1的X成分(X座標)及Y成分(Y座標)。
模型資料中係含有,表示關於構成混合模型的第i個頻帶「i_band」的藉由「i_mix」而被表示之分布係為Kent分布與vMF分布之哪一分布的選擇旗標「dist_flag」。
選擇旗標「dist_flag」之值「1」係表示分布是Kent分布,選擇旗標「dist_flag」之值「0」係表示分布是vMF分布。
選擇旗標「dist_flag」之值為「1」的情況下,模型資料中係含有上述的橢圓率β、major軸向量γ
2、及minor軸向量γ
3。
「beta[i_band][i_mix]」係表示,關於藉由「i_band」而被表示之第i個頻帶的藉由「i_mix」而被表示之分布(Kent分布)的橢圓率β。又,「gamma2[i_band] [i_mix][x]」及「gamma2[i_band][i_mix][y]」係表示,關於第i個頻帶「i_band」的藉由「i_mix」而被表示之分布(Kent分布)的構成major軸向量γ
2的X成分(X座標)及Y成分(Y座標)。
同樣地,「gamma3[i_band][i_mix][x]」及「gamma3[i_band][ i_mix][y]」係表示,關於第i個頻帶「i_band」的藉由「i_mix」而被表示之分布(Kent分布)的構成minor軸向量γ
3的X成分(X座標)及Y成分(Y座標)。
模型資料中係還含有各頻格上的指向性資料,更詳言之係為:表示指向性增益之動態範圍的比例因數「scale_factor[i_bin]」、和各頻格上的指向性資料(指向性增益)之偏置值,亦即最小值「offset[i_bin]」。
以下,將模型資料中所包含的橢圓率β、參數集中度κ、權重ϕ
i、向量γ
1、major軸向量γ
2、minor軸向量γ
3、比例因數、及最小值(偏置值)所成之參數集合,亦稱作模型參數。
模型資料中係還含有:表示資料點上的,模型化前的原本之指向性資料之值(指向性增益)、與藉由進行模型化所得到之混合模型而被表示的指向性資料之值(指向性增益)之差分的差分資訊「diff_data[i_point]」。換言之,差分資訊係為表示資料點上的,模型化前的指向性資料、與模型化後的指向性資料之差分的資訊。
此外,亦可設計成,可以選擇是否要儲存差分資訊。又,模型資料中被儲存的「diff_data [i_point]」,係亦可為已被霍夫曼編碼的差分資訊。
在再生側(解碼側)的裝置上,例如基於圖5所示之構成(格式)的模型資料,而將各資料點上的混合模型之輸出值F(x;Θ),亦即指向性增益,予以算出。
模型化前的原本之指向性資料的各頻格係隸屬於,考慮指向性資料的形狀之類似性而被決定的模型化時之頻帶數「band_count」所描述之數量的頻帶(band)之中的任一頻帶。
又,各頻格與頻帶的對應關係,係藉由頻格資訊「bin_range_per_band[i_band]」而被描述,作為該頻格資訊,表示頻帶中所屬之最大頻率之頻格的索引資訊也就是最大索引,會被寫入。
此情況下,例如如圖6所示般地,各頻帶中所屬之頻格的數量係亦可隨每一頻帶而有所不同。
在此例中,頻率最低的最初之頻帶0(band0)中係有2個也就是頻格0(bin0)與頻格1隸屬之,在下個頻帶1中係有1個頻格2隸屬之,在其再下個頻帶2中係有2個也就是頻格3與頻格4隸屬之。
因此,頻帶0的頻格資訊「bin_range_per_ band[i_band]」之值,係被設成表示頻格1的值「1」,亦即「bin_range_per_band[0]=1」。同樣地,頻帶1的頻格資訊之值係被設成「2」,亦即「bin_range_per_band[1]= 2」,頻帶2的頻格資訊之值係被設成「4」,亦即「bin_range_per_band[2]=4」。
由於模型資料中係包含有模型參數,因此從該模型參數可獲得關於各頻帶的混合模型F’(x;Θ)。此處,混合模型F’(x;Θ),係對應於式(3)中所示的每一頻格之混合模型F(x;Θ)。
模型化前的指向性資料,係按照各資料點的每一頻格而具有指向性增益之值。因此,必須將從模型參數所得的每一頻帶之混合模型F’(x;Θ),更詳言之係為混合模型之輸出值F’(x;Θ),轉換成原本的每一頻格之混合模型F(x;Θ)。
於是,在再生側(解碼側)的裝置上,係基於每一頻帶之混合模型F’(x;Θ)、每一頻格之比例因數「scale_factor[i_bin]」、每一頻格之最小值「offset [i_bin]」,而算出資料點上的每一頻格之混合模型之輸出值F(x;Θ)。
亦即,會計算F(x;Θ)=F’(x;Θ)×scale_factor [i_bin]+offset[i_bin]。在該計算中,每一頻帶之混合模型之輸出值F’(x;Θ)係會配合各頻格的動態範圍而被補正。
再者,在併用差分壓縮的情況下,亦即在模型資料中是含有每一資料點之差分資訊「diff_data [i_point]」的情況下,則對藉由計算所得到的輸出值F(x;Θ)會加算差分資訊,而被當作最終的輸出值F(x;Θ)。
藉由以上的計算,就可從模型資料,復原模型化前的原本之指向性資料。此外,在再生側,成為各資料點的位置或各頻格的頻率,係可根據模型資料中所被儲存之方位角「azimuth_table[i]」、仰角「elevation_table [i]」、半徑「distance[i]」、及頻率「freq[i_bin]」而加以特定。
實際上,以使得模型資料會成為圖5所示之構成的方式來將指向性資料進行了模型化時的模型資料之資料量,示於圖7。
在此例中,模型化前的原本之指向性資料中的資料點數係為2522個,頻格數係為29個。又,在模型化時,頻帶數「band_count」是被設成「3」,以由vMF分布(沒有橢圓率β、major軸向量γ
2、minor軸向量γ
3)所成之混合模型來進行模型化。
根據圖7的模型化可知,模型化前資料量為306KB的原本之指向性資料,被轉換成資料量為0.85KB的模型參數,資料量被壓縮成約1/360。
又,在圖5的例子中,因應需要而在模型資料中包含有差分資訊,並適宜地使用差分資訊來進行指向性資料的復原。
亦即,例如在聽覺心理之觀點上差分是可察覺的情況下,配合本技術之模型化而併用差分編碼,可將指向性資料復原到無法察覺差分的程度。
例如假設圖8的箭頭Q41所示的指向性資料是被當作對象而被進行模型化。此外,於圖8中各球表面上的顏色之濃淡係表示指向性增益之大小。
在此例中,假設將箭頭Q41所示的指向性資料進行了模型化的結果,是得到了箭頭Q42所示的混合模型,更詳言之係為藉由混合模型而被表示的指向性資料。
此外,於箭頭Q42所示的部分中,被描會在球表面的複數個各直線,係代表了上述的向量γ
1。例如向量V51係代表了1個向量γ
1。
在得到了如此的箭頭Q41所示的指向性資料、和箭頭Q42所示的混合模型的情況下,若求出這些指向性資料與混合模型的差分,則箭頭Q43所示的殘差之資料就會被當作差分資訊而獲得。
在圖5所示的例子中,箭頭Q43所示的殘差之資料的各資料點上之值(殘差),係作為差分資訊「diff_data[i_point]」而被儲存在模型資料中。
此外,指向性的表現方式中係有一種被稱作HOA(Higher Order Ambisonics)的方式存在。在HOA中,雖然有不只振幅就連相位之資訊也可記錄的優點,但指向性的形狀越複雜就會越需要高次項,因此資料量會變多。又,在HOA由於係數係會發散,因此還會存在有無法使用的禁止頻率。
指向性,一般而言越是高頻,則形狀會變得越複雜而凸度變得越高。又,在高頻中,相位的資訊的利用價值就會相對地降低。因此,在要使得指向性資料的資料量降低的情況下,與其利用HOA,不如採用像是本技術般地藉由混合分布模型來進行模型化的方式,好處較多。此外,在低頻中指向性的形狀比較緩和,且藉由記錄相位就可重現繞射、干涉等之物理現象,因此亦可設計成,在低頻中是利用HOA,在高頻中是利用藉由混合分布模型來進行模型化的方式。
順便一提,將模型資料傳輸至再生側(解碼側)的情況下,在基於該模型資料而被生成(復原)的指向性資料(振幅資料)中,只會在特定之離散頻率點,亦即特定之頻格上有指向性增益存在。換言之,由於會有不存在指向性增益的頻率,因此若直接使用從模型資料所被生成的指向性資料則會有無法進行演繹處理的情況。
又,由於資料點也是被離散性配置,因此一旦使用者的視點位置(受聽位置)或物件有所移動,這些使用者與物件的位置關係有所變化,則演繹處理中所利用的指向性資料之資料點也會變化。在如此的情況下,彼此相鄰的資料點間之間隔若太寬則會發生glitch(波形不連續)。
於是,亦可藉由對指向性資料進行頻率方向或時間方向之補插處理,以針對更多的頻率(頻格)或方向(資料點)而獲得指向性增益。
例如作為頻率方向之補插處理,考慮使用所欲獲得之特定頻率附近之表示複數個頻率的頻格之指向性增益來進行1次補插處理或2次補插處理等。
又,例如作為時間方向之補插處理,考慮使用所欲獲得之方向(位置)附近之複數個資料點上的每一頻格的指向性增益,進行方位角方向或仰角方向之雙一次補插處理等。
此外,隨著音訊資料的音框長度(樣本數/音框)、混合模型中的混合數或所選擇的模型(分布)、資料點數等之各種參數等,指向性資料的模型化時的計算量與對音質的影響會有所變化(取捨)。
亦即,例如隨著音訊資料之每1音框而使用者(受聽者)或物件之位置與朝向有所變化的情況下,藉由進行時間方向之補插處理,可抑制波形不連續之發生,可實現更高品質的音訊再生。
又,例如在再生側,藉由適切地決定是否為了獲得更高精度的指向性資料而增加混合模型之混合數、或是否使用參數數多於vMF分布但表現能力較高的Kent分布等,可調整計算量與音質之平衡。
再者,內容的製作者等,係亦可例如隨應於音源(物件)的指向性之形狀,而決定是否增加指向性資料之資料點數,或藉由再生時的補插處理來應付資料點數太少等。
除此以外,亦可將表示成為模型化(編碼)之對象的原本之指向性資料、與混合模型,亦即模型化後的指向性資料之誤差(差分)的差分資訊,藉由霍夫曼編碼等之任意之編碼方式而進行編碼,並予以傳輸。
又,例如頻率方向之補插處理或時間方向之補插處理等,指向性資料的利用方式(演繹方式)、或是否使用差分資訊等之各種資訊,亦可藉由旗標等來做切換。
例如亦可藉由旗標,而可切換低資源再生機器專用等之低精度用的參數、與高資源再生機器專用等之高精度用的參數,亦即可進行參數精度之切換。在如此的情況下,例如可隨著再生機器的資源或內容傳遞時的網路環境等來切換參數。
此外,以上雖然說明將本技術適用於指向性資料的例子,但除此以外,本技術係亦可適用於映像中的紋理資料,例如對於volumetric點群資料的顏色、或透明度資訊等。
再者,在本技術中係亦可設計成,例如微細結構之重現甚為重要的情況下,則可讓內容的製作者等以手動(manual)來進行混合模型的混合數之追加、或模型參數等之各種參數的調整。
〈伺服器之構成例〉
圖9係適用了本技術之伺服器之構成例的圖示。
圖9所示的伺服器11,係為例如由電腦等所成之資訊處理裝置,進行內容的傳遞。
例如內容係由:1或複數個各物件的音訊資料(物件音訊資料),和按照每一音源種別而被準備的音源(物件)之指向性,亦即表示指向特性的指向性資料所構成。
如此的內容係可藉由例如,將3D音源之聲音連同指向性資料一併以麥克風陣列等進行收錄,即可獲得。又,內容中亦可包含有,對應於音訊資料的映像資料。
伺服器11係具有:模型化部21、模型資料生成部22、音訊資料編碼部23、及輸出部24。
模型化部21,係將所被輸入之各音源種別的指向性資料進行模型化,將其結果所得之模型參數或差分資訊,供給至模型資料生成部22。
模型資料生成部22,係基於從模型化部21所被供給之模型參數或差分資訊而生成模型資料,並供給至輸出部24。
音訊資料編碼部23,係將已被輸入之各物件的音訊資料進行編碼,將其結果所得之編碼音訊資料,供給至輸出部24。
輸出部24,係將從模型資料生成部22所被供給之模型資料、和從音訊資料編碼部23所被供給之編碼音訊資料進行多工化而生成編碼位元串流,並予以輸出。
此外,此處為了簡化說明,而是針對模型資料與編碼音訊資料是被同時輸出的例子加以說明,但這些模型資料與編碼音訊資料亦可被個別地生成,在彼此互異之時序上被輸出。又,模型資料與編碼音訊資料,係亦可藉由彼此互異之裝置而被生成。
〈編碼處理之說明〉
接著,說明伺服器11的動作。亦即,以下參照圖10的流程圖,說明伺服器11所進行的編碼處理。
於於步驟S11中,模型化部21係將所被輸入之各音源種別的指向性資料進行模型化,將其結果所得之模型參數或差分資訊,供給至模型資料生成部22。
例如模型化部21,係藉由將指向性資料,以上述的式(3)中所示的,由複數個分布所成之混合模型來加以表示(表現),以將指向性資料進行模型化。
藉此,將式(3)中所示的混合模型予以構成的參數集中度κ、或橢圓率β、權重ϕ
i、向量γ
1、major軸向量γ
2、minor軸向量γ
3、比例因數、最小值,係作為模型參數而被獲得。
又,模型化部21,作為關於模型化前的原本之指向性資料的資訊,會生成表示資料點數或資料點之位置、頻率點數、頻格之中心頻率的資訊等。
然後,例如模型化部21,係將已被模型化之指向性資料,亦即藉由混合模型而被表示之指向性資料、與模型化前的原本之指向性資料的殘差(差分),當作差分資訊而加以生成。
此外,差分資訊係亦可設計成,例如,在藉由混合模型而被表示之指向性資料、與原本之指向性資料之殘差是所定值以上等滿足特定之條件的情況、或藉由內容的製作者等而指示了差分資訊之生成的情況等,才會被生成。
模型化部21,係將如此所得之模型參數、或關於模型化前的原本之指向性資料的資訊、差分資訊,供給至模型資料生成部22。
於步驟S12中,模型資料生成部22,係將從模型化部21所被供給之模型參數、或關於模型化前的原本之指向性資料的資訊、差分資訊進行打包,以生成模型資料,並供給至輸出部24。
此時,模型資料生成部22係例如將差分資訊進行霍夫曼編碼,將其結果所得之編碼後的差分資訊(以下亦稱作差分編碼資料)或模型參數等進行打包,以生成圖5所示之格式的模型資料。此外,亦可進行模型參數或模型資料之編碼。
於步驟S13中,音訊資料編碼部23係將已被輸入之各物件的音訊資料進行編碼,將其結果所得之編碼音訊資料,供給至輸出部24。
此外,對各物件之音訊資料而有後設資料時,則音訊資料編碼部23係也將各物件(音訊資料)的後設資料進行編碼,將其結果所得之編碼後設資料,供給至輸出部24。
例如後設資料中係含有:表示該物件於3維空間中的絕對位置的物件位置資訊、或表示3維空間中的物件之朝向的物件方向資訊、表示物件(音源)之種別的音源種別資訊等。
於步驟S14中,輸出部24係將從模型資料生成部22所被供給之模型資料、和從音訊資料編碼部23所被供給之編碼音訊資料進行多工化而生成編碼位元串流,並予以輸出。此外,在物件中有後設資料時,則輸出部24係生成含有模型資料、編碼音訊資料、及編碼後設資料的編碼位元串流。
例如輸出部24,係向未圖示的身為客戶端而發揮機能的資訊處理裝置,發送編碼位元串流。一旦編碼位元串流被發送,編碼處理就結束。
如以上所述,伺服器11,係將指向性資料進行模型化,將含有其結果所得之模型參數或差分資訊的編碼位元串流予以輸出。藉由如此設計,可以使得往客戶端進行傳輸的指向性資料的資料量,亦即指向性資料的傳輸量能夠降低。藉此,可抑制傳輸延遲的發生或傳輸速率的增大。
〈資訊處理裝置之構成例〉
將從伺服器11所被輸出的編碼位元串流加以取得,並將用來再生內容之聲音所需之輸出音訊資料予以生成的資訊處理裝置,係被構成為例如如圖11所示。圖11所示的資訊處理裝置51,係由例如個人電腦或智慧型手機、平板、遊戲機器等所成。
資訊處理裝置51係具有:取得部61、分布模型解碼部62、音訊資料解碼部63、及演繹處理部64。
取得部61,係將從伺服器11所被輸出之編碼位元串流加以取得,並且從編碼位元串流抽出模型資料及編碼音訊資料。取得部61,係將模型資料供給至分布模型解碼部62,並且將編碼音訊資料供給至音訊資料解碼部63。
分布模型解碼部62,係從模型資料算出指向性資料。分布模型解碼部62係具有:解包部81、指向性資料算出部82、差分資訊解碼部83、加算部84、及頻率補插處理部85。
解包部81,係藉由進行從取得部61所被供給之模型資料的解包,以從模型資料抽出模型參數或關於模型化前的原本之指向性資料的資訊、差分編碼資料。又,解包部81,係將模型參數或關於模型化前的原本之指向性資料的資訊供給至指向性資料算出部82,並將差分編碼資料供給至差分資訊解碼部83。
指向性資料算出部82,係基於從解包部81所被供給之模型參數或關於模型化前的原本之指向性資料的資訊,而將指向性資料予以算出(復原),並供給至加算部84。此外,以下,藉由指向性資料算出部82基於模型參數而被算出(復原)的指向性資料,亦稱作概形指向性資料。
差分資訊解碼部83,係對從解包部81所被供給之差分編碼資料,以對應於霍夫曼編碼的方式進行解碼,將其結果所得之差分資訊,當作指向性資料殘差而供給至加算部84。
加算部84,係藉由將從指向性資料算出部82所被供給之概形指向性資料、與從差分資訊解碼部83所被供給之指向性資料殘差(差分資訊)進行加算,以生成較接近於原本之指向性資料的指向性資料,並供給至頻率補插處理部85。
頻率補插處理部85,係對從加算部84所被供給之指向性資料進行頻率方向之補插處理,將其結果所得之指向性資料,供給至演繹處理部64。
音訊資料解碼部63,係對從取得部61所被供給之編碼音訊資料進行解碼,將其結果所得之各物件的音訊資料,供給至演繹處理部64。
又,在編碼位元串流中含有編碼後設資料的情況下,則音訊資料解碼部63係將從取得部61所被供給之編碼後設資料予以解碼,將其結果所得之後設資料,供給至演繹處理部64。
演繹處理部64,係基於從頻率補插處理部85所被供給之指向性資料、與從音訊資料解碼部63所被供給之音訊資料,而將輸出音訊資料予以生成。
演繹處理部64係具有:指向性資料保持部86、HRTF(Head Related Transfer Function)資料保持部87、時間補插處理部88、指向性卷積部89、及HRTF卷積部90。
對於指向性資料保持部86及HRTF資料保持部87,係隨應於使用者等之指定或感測器等所致之測定等,而會供給視點位置資訊、受聽者方向資訊、物件位置資訊、及物件方向資訊。
例如視點位置資訊,係為表示觀賞內容之使用者(受聽者)於3維空間中的視點位置(受聽位置)的資訊,受聽者方向資訊係為表示,3維空間中的觀賞內容之使用者的臉部之朝向的資訊。
又,在編碼位元串流中含有編碼後設資料的情況下,物件位置資訊及物件方向資訊,係從藉由編碼後設資料之解碼而獲得的後設資料中被抽出,並被供給至指向性資料保持部86和HRTF資料保持部87。
除此以外,對於指向性資料保持部86,係還會供給有從後設資料所被抽出等而獲得的音源種別資訊,對於HRTF資料保持部87,係適宜地被供給有表示觀賞內容之使用者的使用者ID。
指向性資料保持部86,係將從頻率補插處理部85所被供給之指向性資料,予以保持。又,指向性資料保持部86,係從所保持的指向性資料之中,將與所被供給的視點位置資訊、受聽者方向資訊、物件位置資訊、物件方向資訊、及音源種別資訊所相應的指向性資料予以讀出,並供給至時間補插處理部88。
HRTF資料保持部87,係針對藉由使用者ID而被表示的各使用者,按照從使用者(受聽者)所觀看的複數個方向之各者,而保持著HRTF。
HRTF資料保持部87,係從所保持的HRTF之中,將與所被供給的視點位置資訊、受聽者方向資訊、物件位置資訊、物件方向資訊、及使用者ID所相應的HRTF予以讀出,並供給至HRTF卷積部90。
時間補插處理部88,係對從指向性資料保持部86所被供給之指向性資料,進行時間方向的補插處理,將其結果所得之指向性資料,供給至指向性卷積部89。
指向性卷積部89,係將從音訊資料解碼部63所被供給之音訊資料、和從時間補插處理部88所被供給之指向性資料,進行卷積,將其結果所得之音訊資料,供給至HRTF卷積部90。藉由指向性資料的卷積,就會對於音訊資料,附加上物件(音源)所具有的指向特性。
HRTF卷積部90,係將從指向性卷積部89所被供給之音訊資料,亦即已被卷積有指向性資料的音訊資料、和從HRTF資料保持部87所被供給之HRTF,進行卷積,將其結果所得之音訊資料,當作輸出音訊資料而予以輸出。藉由HRTF之卷積,就可獲得從使用者(受聽者)所觀看的物件之位置上有該物件的聲音被定位的輸出音訊資料。
〈指向性資料生成處理之說明〉
接著,說明資訊處理裝置51的動作。
首先說明,資訊處理裝置51在各音源種別的指向性資料的生成時所進行的指向性資料生成處理。亦即,以下參照圖12的流程圖,說明資訊處理裝置51所致之指向性資料生成處理。
該指向性資料生成處理,係從伺服器11所被發送過來的編碼位元串流是被取得部61所接收,取得部61從編碼位元串流所抽出的模型資料被供給至解包部81,就被開始。
於步驟S51中,解包部81係進行從取得部61所被供給之模型資料的解包,並將從模型資料所抽出的模型參數或關於模型化前的原本之指向性資料的資訊,供給至指向性資料算出部82。
於步驟S52中,指向性資料算出部82係基於從解包部81所被供給之模型參數或關於模型化前的原本之指向性資料的資訊,而將概形指向性資料予以算出(生成),並供給至加算部84。
例如指向性資料算出部82,係基於根據模型參數所得之各頻帶的混合模型F’(x;Θ)、每一頻格的比例因數「scale_factor[i_bin]」、每一頻格的最小值「offset [i_bin]」,而將資料點上的每一頻格的混合模型之輸出值F(x;Θ),予以算出。藉此,由各資料點上的每一頻格的指向性增益(振幅資料)所成之概形指向性資料,就被獲得。
於步驟S53中,解包部81係判定,從取得部61所被供給之模型資料中,是否含有差分編碼資料,亦即是否有差分編碼資料。
於步驟S53中判定為有含差分編碼資料的情況,則解包部81係從模型資料中抽出差分編碼資料並供給至差分資訊解碼部83,其後,處理係往步驟S54前進。
於步驟S54中,差分資訊解碼部83係對從解包部81所被供給之差分編碼資料進行解碼,將其結果所得之指向性資料殘差(差分資訊),供給至加算部84。
於步驟S55中,加算部84係對從指向性資料算出部82所被供給之概形指向性資料,加算從差分資訊解碼部83所被供給之指向性資料殘差。
加算部84係將藉由加算所得到的指向性資料,供給至頻率補插處理部85,其後,處理係往步驟S56前進。
相對於此,於步驟S53中判定為不含差分編碼資料的情況下,則步驟S54及步驟S55的處理係被略過,其後,處理係往步驟S56前進。此情況下,加算部84係將從指向性資料算出部82所被供給之概形指向性資料,直接當作已被復原之指向性資料而供給至頻率補插處理部85。
於步驟S53中判定為不含差分編碼資料,或是步驟S55之處理一旦被進行,則步驟S56之處理就被進行。
於步驟S56中,頻率補插處理部85係對從加算部84所被供給之指向性資料,進行頻率方向之補插處理,將藉由補插處理所得到的指向性資料,供給至指向性資料保持部86而令其保持之。
例如假設物件的音訊資料係為頻率領域之資料,音訊資料是按照複數個頻率格之各者而具有頻率成分值。在如此的情況下,在頻率方向之補插處理中,例如指向性資料,係以使得音訊資料是針對帶有頻率成分值的全頻率格而會具有指向性增益的方式,而被進行將必要之頻格的指向性增益予以算出的補插處理。
具體而言,例如頻率補插處理部85,係基於指向性資料中的所定之資料點的複數個頻格(頻率)之指向性增益來進行補插處理,藉此以算出原本之指向性資料中不存在的,相一資料點上的新的頻率(頻格)的指向性增益。藉由如此的頻率方向之補插處理,就可獲得在更多頻率上含有指向性增益的指向性資料。
頻率方向之補插處理一旦被進行,在指向性資料保持部86中保持了補插處理後的指向性資料,指向性資料生成處理就結束。
如以上,資訊處理裝置51係基於模型資料而算出指向性資料。藉由如此設計,可使得所被傳輸的指向性資料的資料量,亦即指向性資料的傳輸量被降低。藉此,可抑制傳輸延遲的發生或傳輸速率的增大。
〈輸出音訊資料生成處理之說明〉
接下來,參照圖13的流程圖,說明藉由資訊處理裝置51而被進行的輸出音訊資料生成處理。該輸出音訊資料生成處理,係在參照圖12所說明的指向性資料生成處理被進行後的任意時序上被進行。
步驟S81中,音訊資料解碼部63係進行從取得部61所被供給之編碼音訊資料的解碼,將其結果所得之音訊資料,供給至指向性卷積部89。例如藉由解碼,就可獲得頻率領域之音訊資料。
此外,在從取得部61被供給編碼後設資料的情況下,音訊資料解碼部63,係將編碼後設資料予以解碼,將其結果所得之後設資料中所含的物件位置資訊、物件方向資訊、音源種別資訊,適宜地供給至指向性資料保持部86或HRTF資料保持部87。
又,指向性資料保持部86,係將所被供給之視點位置資訊、受聽者方向資訊、物件位置資訊、物件方向資訊、及音源種別資訊所相應的指向性資料,供給至時間補插處理部88。
例如指向性資料保持部86,係從視點位置資訊、受聽者方向資訊、物件位置資訊、及物件方向資訊,特定出3維空間中的物件與使用者的視點位置(受聽位置)之關係,將相應於該特定結果的資料點,加以特定。
作為一例,例如若把從物件朝向視點位置的方向當作視點位置方向,則從混合模型之中心來看,位於視點位置方向上的,混合模型之球表面上的位置,係被特定作為對象資料點位置。此外,也會有在對象資料點位置上沒有實際之資料點的情況。
指向性資料保持部86,係從藉由音源種別資訊而被表示之音源種別的指向性資料,抽出位於已被特定之對象資料點位置附近的複數個資料點上的各頻格的指向性增益。
然後,指向性資料保持部86,係將由已抽出之複數個資料點上的各頻格的指向性增益所成之資料,作為物件與使用者(受聽者)的位置或方向之關係所相應的指向性資料而供給至時間補插處理部88。
然後,HRTF資料保持部87,係將所被供給之視點位置資訊、受聽者方向資訊、物件位置資訊、物件方向資訊、及使用者ID所相應之HRTF,供給至HRTF卷積部90。
具體而言,例如HRTF資料保持部87,係基於視點位置資訊、受聽者方向資訊、物件位置資訊、及物件方向資訊,而將從受聽者(使用者)所觀看之物件的相對的方向,特定作為物件方向。然後,HRTF資料保持部87,係在對應於使用者ID的各方向的HRTF之中,將對應於物件方向之方向的HRTF,供給至HRTF卷積部90。
於步驟S82中,時間補插處理部88係對從指向性資料保持部86所被供給之指向性資料,進行時間方向的補插處理,將其結果所得之指向性資料,供給至指向性卷積部89。
例如時間補插處理部88,係基於指向性資料中所含之複數個資料點上的各頻格的指向性增益,而將上述的對象資料點位置上的各頻格的指向性增益,藉由補插處理而予以算出。亦即,與原本之資料點不同的新的資料點(對象資料點位置)上的指向性增益,係藉由補插處理而被算出。
時間補插處理部88,係將由對象資料點位置上的各頻格的指向性增益所成之資料,作為藉由時間方向之補插處理所得到的指向性資料,而供給至指向性卷積部89。
於步驟S83中,指向性卷積部89係將從音訊資料解碼部63所被供給之音訊資料、和從時間補插處理部88所被供給之指向性資料,進行卷積,將其結果所得之音訊資料,供給至HRTF卷積部90。
於步驟S84中,HRTF卷積部90係將從指向性卷積部89所被供給之音訊資料、和從HRTF資料保持部87所被供給之HRTF,進行卷積,並將其結果所得之輸出音訊資料予以輸出。
於步驟S85中,資訊處理裝置51係判定是否結束處理。
例如在從取得部61往音訊資料解碼部63供給了新的音框之編碼音訊資料的情況下,則於步驟S85中係判定為不結束處理。相對於此,例如在從取得部61往音訊資料解碼部63沒有供給新的音框之編碼音訊資料,內容之全部音框的輸出音訊資料都已被生成的情況下,則於步驟S85中係判定為結束處理。
於步驟S85中,在判定為不結束處理的情況下,則其後,處理係回到步驟S81,重複進行上述處理。
相對於此,於步驟S85中判定為要結束處理的情況下,則資訊處理裝置51係令各部之動作結束,輸出音訊資料生成處理就結束。
如以上所述,資訊處理裝置51係選擇適切的指向性資料與HRTF,將這些指向性資料與HRTF對音訊資料進行卷積而當作輸出音訊資料。藉由如此設計,就可考慮物件(音源)的指向特性、或物件與受聽者的位置或朝向之關係,而實現更具臨場感的高品質的音訊再生。
〈第2實施形態〉
〈關於差分資訊之編碼〉
順便一提,指向性資料,係具有隨著每一音源種別或每一頻率帶寬而不同的指向性形狀。
又,在伺服器11中,表示模型化前的指向性資料、與模型化後的指向性資料之差分的差分資訊,係被適宜生成。在上述的例子中係說明了,差分資訊是以霍夫曼編碼等之編碼方式而被編碼,獲得差分編碼資料。
亦可不是只有Kent分布或vMF分布所致之模型化,為了針對差分資訊之編碼也可隨著音源種別或頻率帶寬而進行適切的編碼,而設計成在伺服器11側,亦即在編碼器側,可以選擇差分資訊之編碼手法。
此處,作為例子,說明差分資訊是被霍夫曼編碼的情況。
在霍夫曼編碼中,例如如圖14所示,基於從身為編碼之對象的1個指向性資料所得到的複數個頻格之各者的差分資訊,而生成出現機率之分布(機率密度分布)。
此外,於圖14中,橫軸係表示差分資訊之值(dB值),縱軸係表示差分資訊之各值的出現機率。
例如,指向性資料的全部資料點上的所有頻格(頻率)都被當作對象,藉由從這些各頻格的差分資訊來生成直方圖,以求出差分資訊之各值的出現機率。此外,出現機率之分布(機率密度分布),係亦可按照每一頻格而求出,亦可以特定之頻率帶寬中所包含之頻格為對象而求出,亦可以全頻格為對象而求出,亦可選擇這些之中的任意者。
在伺服器11中,基於如此的差分資訊之出現機率,從預先準備的複數個霍夫曼編碼表之中選擇出適切的1個霍夫曼編碼表,或生成1個新的霍夫曼編碼表。
亦可指向性資料的全部資料點上的所有頻格(頻率)都被當作對象,對於這些所有頻格而選擇或生成1個霍夫曼編碼表,亦可針對每1或複數個頻格而選擇或生成1個霍夫曼編碼表。
使用如此所被選擇或生成的霍夫曼編碼表來進行差分資訊的霍夫曼編碼。
霍夫曼編碼表,係表示編碼前的資料亦即差分資訊、與藉由編碼所得之霍夫曼碼(編碼資料)之對應,係為用來將編碼前的資料轉換成霍夫曼碼所需之表格。
又,將差分資訊進行霍夫曼編碼所得之差分編碼資料的解碼時,係使用對應於霍夫曼編碼表的反向表。
反向表,係表示霍夫曼碼(編碼資料)與解碼後的資料之對應,係為用來將霍夫曼碼轉換成解碼後的資料所需之表格。該反向表,係可從霍夫曼編碼表來加以生成。
將差分資訊進行霍夫曼編碼的情況下,亦可使得在預先伺服器11(編碼器)與資訊處理裝置51(解碼器)之雙方中變成已經保持有霍夫曼編碼表的狀態。在如此的情況下,從伺服器11對資訊處理裝置51係會通知,表示在差分資訊的霍夫曼編碼時所使用之霍夫曼編碼表的ID資訊。
又,伺服器11亦可將霍夫曼編碼表或反向表儲存在編碼位元串流中,並傳輸至資訊處理裝置51。
尤其是,由於反向表之大小(資料量)很大,因此亦可先從伺服器11往資訊處理裝置51傳輸霍夫曼編碼表,然後讓資訊處理裝置51在進行解碼時等,基於霍夫曼編碼表而生成反向表。
又,在出現機率之分布(機率密度分布)中,會有出現機率(出現頻率)較低的差分資訊之值與出現機率較高的差分資訊之值。於是,例如亦可將差分資訊所可能採取的值的範圍設成±3dB之範圍等,把含有出現機率較高之差分資訊之值的狹窄動態範圍之資料所對應之範圍當作對象範圍,僅以該對象範圍為對象而使用霍夫曼編碼表。
在如此的情況下,針對對象範圍外之值的差分資訊,亦即出現機率較低的非常規之值的差分資訊,係亦可將差分資訊直接儲存至模型資料中。換言之,差分資訊是直接被視為差分編碼資料。
如以上,就可隨應於差分資訊之機率密度分布,來選擇或生成高效率的霍夫曼編碼表,藉由將關於要利用哪個霍夫曼編碼表的資訊等,在編碼位元串流中做描述,就可效率良好地將差分資訊進行編碼及傳輸。
又,在將差分資訊進行編碼時,係藉由將1或複數個方式做組合使用,就可更為縮小動態範圍,而提升編碼效率。尤其是,藉由組合複數個方式,可實現多段差分編碼。
例如在多段差分編碼中,可考慮將空間相鄰差分方式、頻率間差分方式、及複差分方式之中的至少2者以上加以組合來進行編碼。
又,例如表示多段差分編碼之有無或方式的mode,係可於模型資料中,作為enc_mode等而被記錄。此時,例如在下位4bit中記錄了多段差分編碼之方式,在上位4bit中記錄了對象是實數或複數(complex number)之何者的情況下,如以下的資訊會被儲存在模型資料中。
(對象資料為實數)
0x00:無多段差分編碼
0x01:空間相鄰差分方式
0x02:頻率間差分方式
0x03:空間相鄰差分方式+頻率間差分方式
(對象資料為複數(complex number))
0x1*:下位位元係和對象資料實數的情況相同
空間相鄰差分方式,係在進行處理對象之資料點的差分資訊之編碼時,該處理對象之資料點上的差分資訊、與位於處理對象之資料點之附近的其他資料點上的差分資訊之差分,係被當作空間差分資訊而求出。例如,彼此相鄰的資料點間的差分資訊之差分,係被當作空間差分資訊而求出。然後,所得到的空間差分資訊係被霍夫曼編碼而被當作差分編碼資料。
在空間相鄰差分方式中,在指向性資料中的空間上相近位置(資料點)的資料,亦即指向性增益或差分資訊,係會容易採取相近的值,是利用了此一性質。
頻率間差分方式,係在進行處理對象之頻格(頻率)的差分資訊之編碼時,該處理對象之頻格上的差分資訊、與處理對象之頻格所相鄰之頻格等之附近頻率也就是其他頻格上的差分資訊之差分,係被當作頻率間差分資訊而求出。然後,所得到的頻率間差分資訊係被霍夫曼編碼而被當作差分編碼資料。
在頻率間差分方式中,相近的頻率(頻格)之資料,亦即指向性增益或差分資訊,係會容易採取相近的值,是利用了此一性質。
例如在將空間相鄰差分方式與頻率間差分方式加以組合而使用的情況下,彼此相近的頻格間的空間差分資訊之差分是被當作頻率間差分資訊而求出,該頻率間差分資訊係被霍夫曼編碼,或者,彼此相近的資料點間的頻率間差分資訊之差分是被當作空間差分資訊而求出,該空間差分資訊係被霍夫曼編碼。
複差分方式,係在指向性資料不只有上述的關於振幅的資訊,還有關於相位的資訊的情況下,會被使用。
例如指向性資料是具有關於振幅與相位之資訊的情況下,這些關於振幅與相位之資訊,亦即指向性增益,係藉由複數(complex number)而被表現。亦即,指向性資料,係會按照每一資料點,具有關於各頻格的表示振幅與相位的複數(complex number)之資料(以下亦稱作複指向性增益),差分資訊也會是複數(complex number)之資料。
在複差分方式中,藉由複數(complex number)而被表現的差分資訊的實部與虛部係分別獨立(個別)地被霍夫曼編碼,或對由實部與虛部所成之2維資料(複指向性增益)進行霍夫曼編碼。此外,在複差分方式中,亦可選擇是否對實部與虛部之各者個別地進行霍夫曼編碼,還是對2維資料進行霍夫曼編碼。
以下,將空間相鄰差分方式、頻率間差分方式、及複差分方式之中的至少1者以上加以組合而進行編碼的各方式、或將差分資訊直接進行霍夫曼編碼的方式,亦稱作1個差分編碼方式或差分編碼模式。尤其是,將差分資訊直接進行霍夫曼編碼的差分編碼方式,係可說是未進行使用差分的編碼,亦即未進行差分編碼的方式。
例如伺服器11,係基於差分資訊等,而在複數個差分編碼方式(差分編碼模式)之中選擇出效率最高者,以該所選擇的差分編碼方式來進行差分資訊的霍夫曼編碼。
具體而言,亦可為例如,各差分編碼方式下的差分編碼資料之編碼量(資料量)係藉由基於差分資訊的演算而被求出,差分編碼方式之中編碼量最少者,係被視為效率最高者而被選擇。
除此以外,例如亦可基於指向性資料的音源種別、或無響室等之指向性資料之收錄時的環境等,來選擇適切的差分編碼方式。
〈關於指向性資料的表現方式〉
以上係主要說明了,指向性資料是藉由Kent分布或vMF分布所成之混合模型(混合分布模型)而被模型化的例子。
又說明了,例如亦可在低頻,亦即較低頻率之頻格上是藉由HOA來將指向性資料進行模型化而也將關於相位之資訊加以記錄,而在相位之重要度相對較低的高頻,亦即較高頻率之頻格上則是藉由Kent分布或vMF分布所成之混合模型來將指向性資料進行模型化。此情況下,考慮例如在1.5kHz乃至2kHz之附近的所定之頻率上,將混合模型所致之模型化與HOA所致之模型化做切換。例如在音訊編解碼器等中未利用相位之資訊的Intensity stereo,是在上記的帶寬以上被使用。如此將HOA與混合模型加以組合的手法,係在例如哨笛或小號等,具有尖銳之正面指向性的情況下,被認為是有效的。
此外,不限於此,亦可設計成,每一頻率帶寬,亦即每一頻格或頻帶地,或全頻率帶寬間為共通地,將HOA方式、混合方式、複混合方式、及差分方式之中的至少1個以上之方式加以組合而生成模型資料。在如此的情況下,例如藉由HOA方式或混合方式等之彼此互異之1或複數個方式而將指向性資料進行模型化,而生成含有其結果所得之模型參數等的模型資料。
HOA方式,係將由各資料點之每一頻格的複指向性增益所成之指向性資料,利用HOA來進行模型化的方式。亦即,HOA方式係為,將指向性資料藉由球面調和函數展開而進行模型化的方式。
具體而言,在HOA方式中係對指向性資料進行球面調和函數展開,其結果為,關於各維度之球面調和函數的係數也就是球面調和係數,係作為模型參數而被獲得。從這些各維度之球面調和係數,可獲得由HOA所致之模型化後的複指向性增益所成之指向性資料。
如上述,在HOA方式下的模型化中,雖然包含了相位的表現係為可能,但為了進行微細的表現必須提高球面調和函數展開的次數,亦即必須到高次項為止都要求出球面調和係數,在如此的情況下,模型資料的資料量會變多。尤其是在HOA方式下的模型化中,無法僅對特定之方位(方向)進行振幅或相位之分布的微細的表現。
反之,僅對低次項求出球面調和係數的情況下,係只能夠描述比較趨緩的振幅或相位之變化。
混合方式係為,使用由上述的Kent分布或vMF分布所成之混合模型來進行模型化的方式。藉由混合方式,可以描述從音源觀看的特定之方位(方向),亦即資料點之位置上變化劇烈的指向性增益之形狀。
複混合方式係為,將由複指向性增益所成之指向性資料,亦即振幅與相位之資料,使用對應於複數(complex number)的混合分布(混合模型)來進行模型化的方式。
作為複混合方式的例子,可考慮例如以下所示的2個方法所致之模型化。
首先,第1個方法係為,考慮將複指向性增益的實部與虛部之各者,或從複指向性增益所求出的振幅與相位角之各者,獨立地以實數為對象之機率密度分布之混合模型來進行描述,藉此以進行模型化的方法。
第2個方法係為,考慮使用對應於複數(complex number)的複Bingham分布混合模型、或複watson分布混合模型等,來描述指向性資料(複指向性增益之分布),以進行模型化的方法。
此情況下,例如指向性資料是使用由1或複數個複Bingham分布所成之混合模型、或由1或複數個複watson分布所成之混合模型而被模型化,其結果為,可獲得和混合方式時的情況相同的模型參數。從如此所得之模型參數,可獲得由複混合方式下的模型化後的複指向性增益所成之指向性資料。
作為一例,將身為對象的複數(complex number)資料之分布直接以複Bingham分布進行描述的情況下,藉由以下的式(5)所示的形式來進行描述。亦即,複Bingham分布之值f(z)係藉由下式(5)而被表示。
式(5)中的複數(complex number)向量z,係對應於Kent分布或vMF分布中的球表面之位置向量x,z*係為其共軛複數。複矩陣A係為表示位置、陡峭度、方向、形狀的k×k維之矩陣,正規化係數C(A)係同下式(6)所示。
此處a
j的定義係如以下的式(7)所示。λ
j係為複矩陣A之固有值,且為λ
1<λ
2<λ
3<…λ
k。
由1或複數個複Bingham分布所成之混合模型,亦即複Bingham混合模型中的混合數及權重,係與上述的由Kent分布或vMF分布所成之混合模型的定型化為共通。使用了N個複Bingham分布f(z;θ
i)的混合模型之值F(x;Θ)係如以下的式(8)所示,可作加權描述。此外,如式(9)所示般地,權重之總和係為1,Θ係表示全參數集合,θ
i係表示各複Bingham分布之參數集合(構成複Bingham分布的參數),ϕ
i係表示對於各個複Bingham分布的權重。
差分方式,係為利用差分來生成模型資料的方式。
例如將HOA方式或混合方式等之1或複數個其他方式與差分方式進行組合來生成模型資料的情況下,在差分方式中,表示模型化前的指向性資料、與1或複數個其他方式所致之模型化後的指向性資料之差分的差分資訊,係藉由上述的任意之差分編碼方式而被編碼,其結果所得之差分編碼資料係被儲存至模型資料中。此外,藉由差分方式而被求出的指向性資料之差分,亦可藉由HOA方式等而被模型化。
在差分方式中,例如針對差分資訊而求出空間上的位置間(資料點間)之差分與頻率間(頻格間或頻帶間)之差分之至少任一者,其結果所得之差分係被霍夫曼編碼成為差分編碼資料。此時,身為霍夫曼編碼之對象的差分資訊之差分是複數(complex number)的情況下,則該差分的實部與虛部之各者亦可個別地被霍夫曼編碼,複數(complex number)亦可直接被霍夫曼編碼,從差分所求出的振幅成分與相位成分之各者亦可個別地被霍夫曼編碼。
相對於此,僅使用差分方式,亦即以差分方式單獨地生成模型資料的情況下,則是與上述的任意之差分編碼方式同樣地對指向性資料進行編碼(霍夫曼編碼)。
此時,包含有空間相鄰差分方式與頻率間差分方式之其中至少1者的,空間相鄰差分方式、頻率間差分方式、及複差分方式之其中至少1個以上之方式,會被使用。亦即,空間上的位置間(資料點間)或頻率間(頻格間或頻帶間)的指向性增益之差分係被求出,該差分係被霍夫曼編碼。此外,差分是以複數(complex number)而被表現時,亦可為差分的實部與虛部之各者是個別地被霍夫曼編碼,亦可為差分(複數(complex number))是被霍夫曼編碼。又,亦可為從差分所求出的振幅成分與相位成分之各者是個別地被霍夫曼編碼。
然後,對於藉由差分方式所得到之差分進行霍夫曼編碼所得到的由霍夫曼碼所成之資料(以下亦稱作編碼指向性資料),含有其的模型資料係被生成。此情況下,由於不會產生指向性資料之殘差,因此模型資料中不會含有差分編碼資料。
此外,在差分方式中,雖然可逆壓縮係為可能,但隨著資料而壓縮率會有所變動。又,將空間相鄰差分方式或頻率間差分方式等之複數個方式加以組合而求出多段之差分,亦即求出差分的處理是進行複數次的情況下,則與1維的資料的情況不同,將差分編碼資料或編碼指向性資料儲存至模型資料之際的資料順序之定義會變成必須,隨著該資料順序而壓縮率會有所變動。
從指向性資料生成模型資料時,亦可考慮將指向性資料的每一頻格或每一頻帶之指向性增益的平均值,亦即平均指向特性,進行模。在如此的情況下,差分資訊,係對平均指向特性適用偏置與比例因數,配合動態範圍然後被計算。
如以上般地將HOA方式或混合方式、複混合方式、差分方式加以組合而生成模型資料的情況下,作為模型資料的生成方式,可考慮類型化成主要有以下所示的5個方式。
這裡所謂的5個方式,係為帶寬雜合方式、加算雜合方式、乘算雜合方式、球面調和係數模型化方式、及組合雜合方式。以下,針對各方式來做說明。
(帶寬雜合方式)
帶寬雜合方式,係每一頻率帶寬地,亦即每一頻格或每一頻帶地,切換使用HOA方式、混合方式、複混合方式、及差分方式之中的任一方式來生成模型資料的方式。此情況下,亦可例如在低頻中是以複指向性增益來進行記錄,在高頻中則是以實數之指向性增益來進行記錄。
作為具體的例子,可以設計成例如:在低頻側之頻帶是進行HOA方式下的模型化,在高頻側之頻帶則是進行混合方式下的模型化等,以隨每一頻帶(頻率帶寬)而不同的方式,進行指向性資料的模型化。
又,亦可設計成例如:在低頻側之頻帶是進行以複Bingham分布等所致之複混合方式下的模型化,在高頻側之頻帶則是進行混合方式下的模型化。
(加算雜合方式)
在加算雜合方式中,表示與模型化後的指向性資料之差分的差分資訊,會被再次模型化,或是藉由差分方式再被編碼等等。
作為加算雜合方式的具體例,可考慮例如以下所示的方式(AH1)乃至方式(AH4)等。尤其是,在以下所示的例子中,是從被描述在左側的方式起依序逐步執行處理。
方式(AH1):混合方式+差分方式
方式(AH2):HOA方式(低次)+混合方式
方式(AH3):HOA方式(低次)+差分方式
方式(AH4):HOA方式(低次)+混合方式+差分方式
在方式(AH1)中,首先指向性資料是以混合方式而被模型化。接著,表示模型化前的指向性資料、與混合方式下的模型化後的指向性資料之差分的差分資訊係藉由差分方式而被編碼,生成差分編碼資料。
然後,含有進行混合方式下的模型化所得到的模型參數、與差分編碼資料的模型資料,係被生成。
在方式(AH2)中,首先指向性資料係以HOA方式而被模型化。尤其是,在HOA方式下的模型化中,到低次項為止的球面調和函數展開,會被進行。接著,表示模型化前的指向性資料、與HOA方式下的模型化後的指向性資料之差分的差分資訊,係再以混合方式而被模型化。
然後,含有進行HOA方式下的模型化所得到的模型參數、與混合方式下的差分資訊之模型化所得到的模型參數的模型資料,係被生成。
在方式(AH3)中,係和方式(AH2)中的情況同樣地,以HOA方式來進行到低次項為止的模型化,其後,針對HOA方式下的模型化所得的差分資訊係藉由差分方式而被編碼,生成差分編碼資料。
然後,含有進行HOA方式下的模型化所得到的模型參數、與差分編碼資料的模型資料,係被生成。
在方式(AH4)中,係和方式(AH2)中的情況同樣地,以HOA方式來進行到低次項為止的模型化後,再進行混合方式下的差分資訊的模型化。
接著,針對HOA方式下的模型化所得到的差分資訊、與混合方式下的模型化後的差分資訊,表示這兩者之差分的差分資訊,係藉由差分方式而被編碼,生成差分編碼資料。換言之,藉由HOA方式及混合方式之組合而被模型化之模型化後的指向性資料、與模型化前的指向性資料,表示這兩者之差分的差分資訊,係藉由差分方式而被編碼,生成差分編碼資料。
然後,含有進行HOA方式下的模型化所得到的模型參數、與混合方式下的差分資訊之模型化所得到的模型參數、與差分編碼資料的模型資料,係被生成。
以下,為了區別在所定之方式下的指向性資料的模型化後,再次被當作模型化對象的差分資訊、與被當作差分方式下之編碼對象的差分資訊,而把被當作模型化對象的差分資訊,特別亦稱作中間差分資訊。
例如在方式(AH4)中,藉由HOA方式下的模型化所得的差分資訊係為中間差分資訊,該中間差分資訊是以混合方式而被模型化。然後,其後,表示原本的中間差分資訊、與混合方式下的模型化後的中間差分資訊之差分的差分資訊,係藉由差分方式而被編碼。
在以上的方式(AH1)乃至方式(AH4)之中,在方式(AH2)中雖然在解碼側無法獲得與原本之指向性資料完全一致的資料,但在方式(AH1)、方式(AH3)、及方式(AH4)中係可獲得與原本之指向性資料完全一致的資料。
又,亦可不是用加算雜合方式,指向性資料亦可用單獨的方式而被模型化或編碼。亦即,例如亦可只使用HOA方式、混合方式、及差分方式之其中任1個方式來將指向性資料進行模型化或編碼,而生成含有其結果所得之模型參數或編碼指向性資料的模型資料。
(乘算雜合方式)
在乘算雜合方式中,是以所定之方式將指向性資料進行模型化,然後模型化後的指向性資料、與模型化前的指向性資料之比(商),係再以異於所定之方式的其他方式進行模型化。
作為乘算雜合方式的具體例,可考慮例如以下所示的方式(MH1)及方式(MH2)等。
方式(MH1):HOA方式(低次)×振幅調變(混合方式)
方式(MH2):HOA方式(低次)×振幅相位調變(混合方式)
在方式(MH1)中,首先指向性資料係以HOA方式而被模型化。尤其是,在HOA方式下的模型化中,到低次項為止的球面調和函數展開,會被進行。
接著,將模型化前的指向性資料,以HOA方式下的模型化後的指向性資料進行除算所得的值(以下亦稱作振幅調變資訊),係再以混合方式而被模型化。此時,亦可為例如,構成振幅調變資訊的複數(complex number)(複指向性增益)之絕對值(振幅成分)是被當作混合方式下的模型化之對象,亦可為模型化前後的指向性資料的振幅成分之比是被當作振幅調變資訊。然後,含有進行HOA方式下的模型化所得到的模型參數、與混合方式下的振幅調變資訊之模型化所得到的模型參數的模型資料,係被生成。
在解碼時,則是對於從關於HOA方式的模型參數所被算出之指向性資料,乘算從關於混合方式的模型參數所被算出之振幅調變資訊,以算出最終的指向性資料。
在如此的方式(MH1)中,藉由HOA方式下的到低次項為止的模型化所無法表現的,高頻之方位(來自音源之方向)所相應之表示細微的振幅之搖擺的振幅調變資訊,是以混合方式而被模型化並被記錄(儲存)在模型資料中。然後在解碼時,對於從關於HOA方式的模型參數所被算出之指向性資料,藉由振幅調變資訊而施以調變,以求出誤差較少的指向性資料。
在方式(MH2)中,係和方式(MH1)中的情況同樣地,對指向性資料會進行HOA方式下的到低次項為止的模型化。
接著,將模型化前的指向性資料,以HOA方式下的模型化後的指向性資料進行除算所得的值(以下亦稱作振幅相位調變資訊),係再以混合方式而被模型化。此時,例如構成振幅相位調變資訊的複數(complex number)(複指向性增益)的實部與虛部或振幅成分與相位成分,是被當作混合方式下的模型化之對象。此外,振幅相位調變資訊亦可藉由複混合方式而被模型化。然後,含有進行HOA方式下的模型化所得到的模型參數、與混合方式下的振幅相位調變資訊之模型化所得到的模型參數的模型資料,係被生成。
在解碼時,則是對於從關於HOA方式的模型參數所被算出之指向性資料,乘算從關於混合方式的模型參數所被算出之振幅相位調變資訊,以算出最終的指向性資料。
在如此的方式(MH2)中,藉由HOA方式下的到低次項為止的模型化所無法表現的,方位(來自音源之方向)所相應之表示高頻之相位之旋轉變化的振幅相位調變資訊,是以混合方式而被模型化並被記錄(儲存)在模型資料中。然後在解碼時,對於從關於HOA方式的模型參數所被算出之指向性資料,藉由振幅相位調變資訊而施以調變,以求出誤差較少的指向性資料。
在乘算雜合方式或其他方式中,將藉由複數(complex number)而被表現的指向性增益(複指向性增益)或中間差分資訊進行模型化的情況下,複數(complex number)的實部與虛部亦可藉由各自不同或相同的方式,而被獨立(個別)地進行模型化。例如亦可為,實部是以混合方式而被模型化,虛部也是以混合方式而被模型化。
同樣地,振幅成分與相位成分亦可各自獨立(個別)地以任意之方式而被模型化,亦可為複數(complex number)之資料是以複混合方式而被模型化。
(球面調和係數模型化方式)
在球面調和係數模型化方式中,指向性資料是以HOA方式而被模型化,其結果所得之模型參數,亦即球面調和係數則是再以混合方式而被模型化,其結果所得之模型參數係被儲存至模型資料中。
因此,在球面調和係數模型化方式中,指向性資料是可以藉由HOA方式與混合方式之二階段,而被模型化。在解碼時,首先基於關於混合方式的模型參數而算出球面調和係數,然後再基於球面調和係數而算出指向性資料(概形指向性資料)。
除此以外,例如作為模型參數的球面調和係數的實部與虛部之各者,或從模型參數所求出的振幅成分與相位成分之各者,亦可個別(獨立)地藉由混合方式等之任意之方式而被模型化。又,亦可為,球面調和係數是藉由複混合方式,亦即1或複數個複Bingham分布等,而被模型化。
(組合雜合方式)
在組合雜合方式中,上述的帶寬雜合方式、加算雜合方式、乘算雜合方式、及球面調和係數模型化方式之其中至少2者以上之組合係被使用,而生成模型資料。
又,例如HOA方式或混合方式等,表示模型資料之生成中所被使用的1或複數個方式之組合的資訊,亦可被儲存在模型資料中。在如此的情況下,於伺服器11側,就可將模型資料之生成中所使用的1或複數個方式之組合,適切地進行選擇或切換等等。
如以上般地指向性資料被模型化的情況下,模型資料係被設成例如圖15及圖16所示之構成。此外,圖16中係圖示了,圖15所示之部分的後續部分。又,於圖15及圖16中,關於與圖5所示之情況相對應的部分,係適宜省略其說明。
圖15及圖16所示的例子係為,將藉由num_ sound_types_id而被指定的1種類之音源的指向性資訊(指向性資料),作為directivityConfig而予以描述的例子。尤其是,此處係圖示了,作為實現雜合方式之一例是存在有vMF分布和Kent分布、差分資料(差分資訊)之情況的Syntax,各資訊的位元數係僅止於一例。
圖15及圖16所示的模型資料,基本上是由與圖5所示之模型資料相同的資料所構成,但在圖15及圖16的例子與圖5的例子中,這些資料之中的數個資料的位元數與資料構成係為不同。
具體而言,於圖15及圖16所示的例子中,方位角「azimuth_table[i]」及仰角「elevation_table[i]」是被設成16位元的unsigned short。
又,頻帶數「band_count」及混合數「mix_ count[i_band]」是被設成8位元的unsigned char,選擇旗標「dist_flag」是被設成1位元的bool。
然後,在此例中係在模型資料中含有:差分資訊之編碼時所被使用的雜合之模式(差分編碼模式(差分編碼方式))的ID,亦即表示差分編碼模式資訊的「mode」。又,模型資料中係還含有:表示差分資訊之編碼時所被使用之霍夫曼編碼表的索引「table_index」。
然後在模型資料中係還含有:表示每1.0dB的量化等之量化步距的「int db_resolution」。例如關於「int db_resolution」,值「0」係表示沒有量化,值「1」係表示0.01dB,值「2」係表示0.2dB,值「3」係表示0.4dB,值「256」係表示25.6dB。
除此以外,在模型資料中,係還針對各頻格,而儲存有:按照每一資料點而將差分資訊進行霍夫曼編碼所得到的霍夫曼碼(Huffman code),亦即差分編碼資料「diff_data[i_bin][i_point]」。
又,從伺服器11往資訊處理裝置51,係以儲存在模型資料中的方式,或有別於模型資料,而將圖17所示之構成的資訊予以傳輸。在圖17所示的資訊中係含有霍夫曼編碼表或反向表。
在圖17所示的例子中,「diff_mode_count」係為表示差分編碼方式之總數的資訊,該總數「diff_mode_count」為多少,就會有多少個「int_nbits_ res_data」被儲存。
該「int_nbits_res_data」,係為表示霍夫曼碼之最大位元數,亦即霍夫曼碼之最大碼字長度的資訊,例如在1.0dB刻度的情況下則被設成7位元等,可表現0dB至128dB為止之範圍。
「element_count」係為表示霍夫曼編碼表或反向表之要素數的資訊,該要素數為多少,就會有多少個要素「Huff_dec_table[i_element]」被儲存。尤其是,在此例中「Huff_dec_table[i_element]」,係為反向表之要素。
又,霍夫曼編碼表,係為例如如圖18所示。亦即,圖18係圖示了霍夫曼編碼表的具體的一例。
例如,作為具體例,於圖16中設成int db_resolution=1dB的情況下,則會如以下般地進行編碼。
0:0dB
10:+1dB
11:+2dB
element_count=4;
int_nbits_res_data=2;// huffman decode表(從index獲得data的反向表)之最大碼字長度
Huff_dec_table[4]={0,0,1,2};
Huff_dec_table係為最大碼字長度2bit之情況下的反向表。
0:0dB
1:0dB
2:1dB
3:2dB
又,在解碼時,係按照以下的程序來進行處理。
(1)以最大碼字長度從bitstream取得位元列
(2)將位元列當作i_element(與將huffman code以最大碼字長度所記錄而成者等價)而參照huff_dec_table
(3)獲得i_element之要素已被復原之資料
(4)將上記資料根據db_resolution而進行復原,獲得dB值
此外,復原時係需要偏置值。
又,原始資料的音壓(dB值),係可藉由Db=Huff_dec_table[code] * db_resolution而獲得。
〈伺服器之構成例〉
於伺服器11中,將1或複數個方式加以組合而進行模型資料之生成或差分編碼模式下的差分資訊之編碼的情況下,例如伺服器11係如圖19所示般地被構成。
此外,圖19中,和圖9對應的部份,係標示同一符號,並適宜地省略其說明。
圖19所示的伺服器11,係由電腦等所成之資訊處理裝置,和圖9中的情況同樣地成為編碼裝置而發揮機能。
伺服器11係具有:指向性資料編碼部201、音訊資料編碼部23、及輸出部24。
指向性資料編碼部201,係基於所被供給的指向性資料而生成模型資料。指向性資料編碼部201係具有:模型參數推定部211、殘差算出部212、編碼方式選擇部213、霍夫曼編碼部214、及模型資料生成部215。
尤其是,在此例中模型參數推定部211及殘差算出部212是對應於圖9的模型化部21,編碼方式選擇部213乃至模型資料生成部215是對應於圖9的模型資料生成部22。
模型參數推定部211,係將所被供給之處理對象之指向性資料,藉由HOA方式或混合方式等至少1個以上之方式而進行模型化,將其結果所得之每一方式的模型參數,供給至殘差算出部212及模型資料生成部215。
殘差算出部212,係基於所被供給之處理對象之指向性資料、和從模型參數推定部211所被供給之模型參數,而算出差分資訊,並供給至編碼方式選擇部213及霍夫曼編碼部214。
編碼方式選擇部213,係基於已被供給之處理對象之指向性資料、和從殘差算出部212所被供給之差分資訊,來選擇將差分資訊進行霍夫曼編碼時的差分編碼模式與霍夫曼編碼表,並將表示該選擇結果的編碼模式資訊,供給至霍夫曼編碼部214及模型資料生成部215。
編碼模式資訊係由:表示已被選擇之差分編碼模式(差分編碼方式)的差分編碼模式資訊、和表示已被選擇之霍夫曼編碼表的表格索引資訊所成。此外,編碼方式選擇部213中的編碼模式資訊之生成時,係亦可僅使用差分資訊。
霍夫曼編碼部214,係基於從編碼方式選擇部213所被供給之編碼模式資訊,而將從殘差算出部212所被供給之差分資訊進行霍夫曼編碼,將其結果所得之差分編碼資料,供給至模型資料生成部215。
模型資料生成部215,係將含有:從模型參數推定部211所被供給之每一方式的模型參數、和從霍夫曼編碼部214所被供給之差分編碼資料、和從編碼方式選擇部213所被供給之編碼模式資訊的模型資料,加以生成,並供給至輸出部24。此外,在差分資訊之編碼未被進行的情況下,則模型資料中係不含差分編碼資料。又,更詳言之,模型資料中係還儲存有,上述的關於指向性資料的資訊。除此以外,表示指向性資料之模型化中所被使用之方式的資訊,亦可被儲存在模型資料中。
伺服器11是被設成圖19所示之構成的情況下,在伺服器11中也是進行參照圖10所說明的編碼處理。但是,在步驟S11及步驟S12中,更詳言之,則是進行以下所說明的處理。
亦即,在步驟S11中,係於模型參數推定部211中,藉由至少1個以上之方式,來進行所被供給之處理對象之指向性資料的模型化,並且於殘差算出部212中,因應需要而將差分資訊予以算出。
換言之,例如HOA方式或混合方式、複混合方式、差分方式等係因應需要而被組合,藉此而會使用上述的帶寬雜合方式、或加算雜合方式、乘算雜合方式、球面調和係數模型化方式、組合雜合方式等,來算出模型參數與差分資訊。
又,在步驟S12中,編碼方式選擇部213中的差分編碼模式與霍夫曼編碼表之選擇、及霍夫曼編碼部214中的霍夫曼編碼係因應需要而被進行,並且會進行模型資料生成部215所致之模型資料的生成。
具體而言,例如藉由加算雜合方式之方式(AH4)而算出模型參數的情況下,首先模型參數推定部211係將指向性資料以HOA方式進行模型化,其結果為,會獲得作為模型參數的球面調和係數。
又,模型參數推定部211,係將HOA方式所致之模型化後的指向性資料、與模型化前的指向性資料之差分,當作中間差分資訊而予以求出,並且將中間差分資訊以混合方式進行模型化。藉由混合方式所致之中間差分資訊的模型化,參數集中度κ或橢圓率β、權重ϕ
i、向量γ
1、major軸向量γ
2、minor軸向量γ
3、比例因數、最小值,係作為模型參數而被獲得。
模型參數推定部211,係將HOA方式所致之指向性資料之模型化所得到的模型參數、和混合方式所致之中間差分資訊之模型化所得到的模型參數,供給至殘差算出部212及模型資料生成部215。
如此一來,殘差算出部212,係基於從模型參數推定部211所被供給之模型參數、和所被供給之指向性資料,而生成差分資訊。該差分資訊係為,藉由HOA方式及混合方式之組合而被模型化之模型化後的指向性資料、與模型化前的指向性資料之殘差。
又,霍夫曼編碼部214,係依照從編碼方式選擇部213所被供給之編碼模式資訊,而將從殘差算出部212所被供給之差分資訊,因應需要而進行霍夫曼編碼。
此時,以藉由差分編碼模式資訊而被表示的方式來進行處理。亦即,例如藉由空間相鄰差分方式、頻率間差分方式、及複差分方式之其中1個以上之方式而將差分資訊進行霍夫曼編碼,或是不對差分資訊進行霍夫曼編碼等。
例如在藉由空間相鄰差分方式來進行霍夫曼編碼的情況下,霍夫曼編碼部214係將彼此相鄰之資料點間的差分資訊之差分,當作空間差分資訊而予以求出,藉由將該空間差分資訊進行霍夫曼編碼,以生成差分編碼資料。
模型資料生成部215係生成含有:從模型參數推定部211所被供給的HOA方式之模型參數及混合方式之模型參數、和從編碼方式選擇部213所被供給之編碼模式資訊的模型資料。尤其是,差分資訊的霍夫曼編碼有被進行的情況下,則模型資料生成部215係還將從霍夫曼編碼部214所被供給之差分編碼資料,儲存至模型資料中。
此外,以差分方式單獨來生成模型資料的情況下,模型參數推定部211,係基於所被供給之指向性資料,藉由空間相鄰差分方式與頻率間差分方式之其中至少1個以上之方式,而求出指向性資料之差分(以下亦稱作差分指向性資料)。該差分指向性資料,係為資料點間或頻格間的指向性資料,亦即指向性增益之差分。
此情況下,編碼方式選擇部213,係基於透過殘差算出部212而從模型參數推定部211所被供給之差分指向性資料,來生成編碼模式資訊。又,霍夫曼編碼部214,係基於從編碼方式選擇部213所被供給之編碼模式資訊,將透過殘差算出部212而從模型參數推定部211所被供給之差分指向性資料,藉由所被指定之差分編碼方式而進行霍夫曼編碼,生成編碼指向性資料。
然後,模型資料生成部215係生成含有從霍夫曼編碼部214所被供給之編碼指向性資料、和從編碼方式選擇部213所被供給之編碼模式資訊的模型資料,並供給至輸出部24。
〈指向性資料生成處理之說明〉
從圖19所示之構成的伺服器11受到編碼位元串流之供給的資訊處理裝置51,係進行例如圖20所示的指向性資料生成處理,並且在其後,在任意之時序上進行參照圖13所說明的輸出音訊資料生成處理。
以下,參照圖20的流程圖,說明藉由身為解碼裝置而發揮機能的資訊處理裝置51而被進行的指向性資料生成處理。
此外,在步驟S111中係進行和圖12的步驟S51之處理相同的處理。亦即,在步驟S111中,解包部81係進行模型資料的解包,並將模型參數或關於模型化前的原本之指向性資料的資訊、差分編碼資料等,從模型資料予以抽出。
於步驟S112中,解包部81係在藉由解包而被抽出的每一方式的模型參數之中,判定是否有尚未被供給至指向性資料算出部82的模型參數。
於步驟S112中判定為有模型參數的情況下,則解包部81係將尚未被供給至指向性資料算出部82,亦即尚未進行處理的模型參數,供給至指向性資料算出部82,處理係往步驟S113前進。
於步驟S113中,指向性資料算出部82係基於從解包部81所被供給之1個方式的模型參數,而將基於模型參數的資料予以算出。
例如在步驟S113中,係基於HOA方式或混合方式等每一方式的模型參數,將模型化後的指向性資料予以構成之指向性增益或中間差分資訊、振幅調變資訊、振幅相位調變資訊等,係作為基於模型參數的資料而被算出。
一旦步驟S113之處理被進行,其後,處理係回到步驟S112,重複進行上述的處理。
又,步驟S112中,判定為沒有未被供給至指向性資料算出部82的模型參數的情況下,則其後,處理係往步驟S114前進。
於步驟S114中,解包部81係判定,從取得部61所被供給之模型資料中,是否含有差分編碼資料,亦即是否有差分編碼資料。
於步驟S114中判定為有含差分編碼資料的情況,則解包部81係將從模型資料所抽出的編碼模式資訊及差分編碼資料,供給至差分資訊解碼部83,其後,處理係往步驟S115前進。
於步驟S115中,差分資訊解碼部83係將從解包部81所被輸出的編碼模式資訊及差分編碼資料,加以取得。
於步驟S116中,差分資訊解碼部83係基於已取得的編碼模式資訊來進行差分編碼資料之解碼,將其結果所得之差分資訊(指向性資料殘差),供給至加算部84。
例如假設藉由編碼模式資訊中所含有的差分編碼模式資訊,而已經特定出是進行了空間相鄰差分方式所致之編碼。
在如此的情況下,差分資訊解碼部83,係使用藉由編碼模式資訊中所含之表格索引資訊而被特定的反向表,對從解包部81所被供給之差分編碼資料進行解碼,獲得各資料點的空間差分資訊。
然後,差分資訊解碼部83係藉由對處理對象之資料點的空間差分資訊,加算位於該資料點之附近的已解碼之其他資料點的差分資訊,藉此以求出處理對象之資料點的差分資訊。
在步驟S116之處理是已被進行、或於步驟S114中判定為沒有差分編碼資料的情況下,則其後,步驟S117的處理會被進行。
於步驟S117中,指向性資料算出部82及加算部84係將指向性資料予以算出。
亦即,指向性資料算出部82,係基於被進行了1或複數次的步驟S113之處理所得到的資料,而算出概形指向性資料,並供給至加算部84。
作為具體例,例如假設於伺服器11側,藉由加算雜合方式之方式(AH4)而已經算出模型參數。
在如此的情況下,在第1次的步驟S113的處理中,基於HOA方式的模型參數而模型化後的指向性資料(概形指向性資料),係被算出。又,在第2次的步驟S113的處理中,基於混合方式之模型參數而模型化後的中間差分資訊,係被算出。
於是,指向性資料算出部82,係藉由對概形指向性資料加算中間差分資訊,亦即對各資料點上的每一頻格的指向性增益,加算各資料點上的每一頻格的中間差分資訊,以求出最終的概形指向性資料。
加算部84,係藉由對如此在指向性資料算出部82中所得到的最終的概形指向性資料,加算從差分資訊解碼部83所被供給之差分資訊(指向性資料殘差),以算出指向性資料,並供給至頻率補插處理部85。此外,在沒有差分資訊的情況下,則最終的概形指向性資料就直接被當作指向性資料。
又,例如於伺服器11側,藉由乘算雜合方式之方式(MH1)而已經算出模型參數。
在如此的情況下,在第1次的步驟S113的處理中,基於HOA方式的模型參數而模型化後的指向性資料(概形指向性資料),係被算出。又,在第2次的步驟S113的處理中,基於混合方式之模型參數而模型化後的振幅調變資訊,係被算出。
於是,指向性資料算出部82,係藉由對概形指向性資料乘算振幅調變資訊,亦即對各資料點上的每一頻格的指向性增益,乘算各資料點上的每一頻格的振幅調變資訊,以求出最終的指向性資料。此情況下,步驟S115及步驟S116的處理係不會進行,由於沒有差分資訊,因此指向性資料算出部82中所得到的指向性資料係直接透過加算部84而被供給至頻率補插處理部85。
此外,例如於伺服器11側,也會單獨以差分方式來生成模型資料。在如此的情況下,步驟S113的處理係不會進行,於步驟S115及步驟S116中,藉由差分資訊解碼部83而進行編碼指向性資料之解碼。
亦即,差分資訊解碼部83,係使用藉由編碼模式資訊中所含之表格索引資訊而被特定的反向表,對從解包部81所被供給之編碼指向性資料進行解碼,獲得差分指向性資料。
然後,在步驟S117中,差分資訊解碼部83係基於將差分指向性資料予以構成的各資料點的每一頻格的值(差分),而算出指向性資料。
具體而言,例如於伺服器11側,已經藉由空間相鄰差分方式而算出了差分指向性資料的情況下,差分資訊解碼部83,係藉由對處理對象之資料點的每一頻格的值(差分),加算位於該資料點之附近的已復原之其他資料點的相同頻格的指向性增益,以求出處理對象之資料點的每一頻格的指向性增益。
又,例如於伺服器11側,已經藉由頻率間差分方式而算出了差分指向性資料的情況下,差分資訊解碼部83,係藉由對資料點的處理對象之頻格的值(差分),加算相同資料點上的位於處理對象之頻格之附近的已復原之其他頻格的指向性增益,以求出處理對象之頻格的指向性增益。
如此,即使是把編碼指向性資料儲存在模型資料中的情況下,仍可降低指向性資料的傳輸量。
一旦步驟S117之處理被進行,指向性資料被算出,則其後,步驟S118之處理會被進行而指向性資料生成處理就結束,但由於步驟S118之處理係和圖12的步驟S56之處理相同,因此省略其說明。
如以上,資訊處理裝置51係基於模型資料而算出指向性資料。藉由如此設計,可使指向性資料的傳輸量降低。藉此,可抑制傳輸延遲的發生或傳輸速率的增大。
〈加算雜合方式之具體例〉
〈指向性資料編碼部之構成例〉
順便一提,於伺服器11中是固定地以加算雜合方式來生成模型資料的情況下,圖19所示的伺服器11中的指向性資料編碼部201之構成,係可設計成例如圖21所示之構成。此外,圖21中,和圖19對應的部份,係標示同一符號,並適宜地省略其說明。
在圖21的例子中,指向性資料編碼部201係具有:模型參數推定部241、演算部242、模型參數推定部243、演算部244、差分編碼部245、及模型資料生成部215。
模型參數推定部241乃至演算部244,係對應於圖19的模型參數推定部211。
模型參數推定部241,係將所被供給之處理對象之指向性資料以混合方式進行模型化,將其結果所得之模型參數供給至模型資料生成部215,並且將混合方式所致之模型化後的指向性資料供給至演算部242。
演算部242,係從所被供給之處理對象之指向性資料,減算從模型參數推定部241所被供給之模型化後的指向性資料(求出差分),藉此以算出中間差分資訊,並供給至模型參數推定部243及演算部244。
模型參數推定部243,係將從演算部242所被供給之中間差分資訊以HOA方式進行模型化,將其結果所得之模型參數供給至模型資料生成部215,並且將HOA方式所致之模型化後的中間差分資訊供給至演算部244。
演算部244,係從演算部242所被供給之中間差分資訊,減算從模型參數推定部243所被供給之模型化後的中間差分資訊(求出差分),藉此以算出差分資訊,並供給至差分編碼部245。
差分編碼部245,係基於從演算部244所被供給之差分資訊、和適宜地基於所被供給之處理對象之指向性資料等,而生成編碼模式資訊及差分編碼資料,並供給至模型資料生成部215。
此外,這裡是說明了,於模型參數推定部241中進行混合方式所致之模型化,於模型參數推定部243中進行HOA方式所致之模型化的例子。
可是,不限於此,於模型參數推定部241或模型參數推定部243中,無論使用何種方式來進行模型化皆可。例如亦可為,於模型參數推定部241中進行HOA方式所致之模型化,於模型參數推定部243中進行混合方式所致之模型化。
〈差分編碼部之構成例〉
又,差分編碼部245係可設計成例如圖22所示之構成。此外,圖22中,和圖19對應的部份,係標示同一符號,並適宜地省略其說明。
在圖22的例子中,差分編碼部245係具有:殘差算出部212、編碼方式選擇部213、多段差分處理部271、及霍夫曼編碼部214。
殘差算出部212,係基於所被供給之處理對象之指向性資料、和從模型參數推定部241及模型參數推定部243所被供給之模型化後的指向性資料及中間差分資訊,而算出差分資訊,並供給至編碼方式選擇部213及多段差分處理部271。
多段差分處理部271,係基於來自殘差算出部212的差分資訊、或來自演算部244的差分資訊之中的任一者,以藉由從編碼方式選擇部213所被供給之編碼模式資訊而被表示的差分編碼模式,生成多段差分資訊。
例如作為差分編碼模式是在以空間相鄰差分方式來進行霍夫曼編碼的情況下,則空間差分資訊是被當作多段差分資訊而被獲得,作為差分編碼模式是在以頻率間差分方式來進行霍夫曼編碼的情況下,則頻率間差分資訊是被當作多段差分資訊而被獲得。同樣地,作為差分編碼模式是以空間相鄰差分方式與頻率間差分方式來進行霍夫曼編碼的情況下,則藉由求出空間差分資訊或頻率間差分資訊而被獲得的身為霍夫曼編碼之對象的資訊,會成為多段差分資訊。
多段差分處理部271,係將所得到的多段差分資訊,供給至編碼方式選擇部213及霍夫曼編碼部214。
編碼方式選擇部213,係基於所被供給之處理對象之指向性資料、和從殘差算出部212或演算部244所被供給之差分資訊、和從多段差分處理部271所被供給之多段差分資訊,而生成編碼模式資訊,並供給至多段差分處理部271、霍夫曼編碼部214、及模型資料生成部215。
霍夫曼編碼部214,係基於從編碼方式選擇部213所被供給之編碼模式資訊,而將從多段差分處理部271所被供給之多段差分資訊進行霍夫曼編碼,將其結果所得之差分編碼資料,供給至模型資料生成部215。
〈模型資料生成處理之說明〉
指向性資料編碼部201是採取圖21所示之構成的情況下,在指向性資料編碼部201中,作為對應於圖10的步驟S11及步驟S12之處理,會進行圖23所示的模型資料生成處理。
亦即,於步驟S151中,模型參數推定部241,係對所被供給之處理對象之指向性資料,進行混合方式所致之模型化。
模型參數推定部241,係將進行模型化所得到的模型參數供給至模型資料生成部215,並且將混合方式所致之模型化後的指向性資料供給至演算部242。
於步驟S152中,演算部242係基於所被供給之處理對象之指向性資料、和從模型參數推定部241所被供給之模型化後的指向性資料,而算出中間差分資訊,並供給至模型參數推定部243及演算部244。
於步驟S153中,模型參數推定部243係對從演算部242所被供給之中間差分資訊,進行HOA方式所致之模型化。
模型參數推定部243,係將進行模型化所得到的模型參數供給至模型資料生成部215,並且將HOA方式所致之模型化後的中間差分資訊供給至演算部244。
於步驟S154中,演算部244係基於從演算部242所被供給之中間差分資訊、與從模型參數推定部243所被供給之模型化後的中間差分資訊而算出差分資訊,並供給至差分編碼部245。
於步驟S155中,差分編碼部245係基於從演算部244所被供給之差分資訊而進行差分編碼。
亦即,例如差分編碼部245的編碼方式選擇部213,係基於所被供給之處理對象之指向性資料、和從演算部244所被供給之差分資訊、和前音框等之前次處理中從多段差分處理部271所被供給之多段差分資訊,而生成編碼模式資訊,並供給至多段差分處理部271、霍夫曼編碼部214、及模型資料生成部215。此外,編碼方式選擇部213亦可使用從殘差算出部212所被供給之差分資訊來生成編碼模式資訊。
又,多段差分處理部271係例如基於從演算部244所被供給之差分資訊、和從編碼方式選擇部213所被供給之編碼模式資訊,而生成多段差分資訊,並供給至編碼方式選擇部213及霍夫曼編碼部214。
霍夫曼編碼部214,係基於從編碼方式選擇部213所被供給之編碼模式資訊,而將從多段差分處理部271所被供給之多段差分資訊進行霍夫曼編碼,將其結果所得之差分編碼資料,供給至模型資料生成部215。
於步驟S156中,模型資料生成部215係藉由進行打包以生成模型資料,並供給至輸出部24。
具體而言,模型資料生成部215係生成含有:來自模型參數推定部241的混合方式之模型參數、來自模型參數推定部243的HOA方式之模型參數、來自編碼方式選擇部213的編碼模式資訊、及來自霍夫曼編碼部214的差分編碼資料的模型資料。一旦如此生成了模型資料,模型資料生成處理就結束。
如以上般地,指向性資料編碼部201係藉由加算雜合方式而生成模型資料。藉由如此設計,可使指向性資料的傳輸量降低,可抑制傳輸延遲之發生或傳輸速率之增大。
〈分布模型解碼部之構成例〉
又,指向性資料編碼部201是被設成圖21所示之構成的情況下,資訊處理裝置51的分布模型解碼部62,係被設成例如圖24所示之構成。此外,圖24中,和圖11對應的部份,係標示同一符號,並適宜地省略其說明。
圖24所示的分布模型解碼部62係具有:解包部81、計算部301、計算部302、差分資訊解碼部83、演算部303、演算部304、及頻率補插處理部85。在此例中,計算部301及計算部302是對應於圖11所示的指向性資料算出部82。
計算部301,係基於從解包部81所被供給之混合方式的模型參數,而算出混合方式所致之模型化後的指向性資料(概形指向性資料),並供給至演算部304。計算部302,係基於從解包部81所被供給之HOA方式的模型參數,而算出HOA方式所致之模型化後的中間差分資訊,並供給至演算部303。
差分資訊解碼部83,係基於從解包部81所被供給之編碼模式資訊及差分編碼資料而算出差分資訊(指向性資料殘差),並供給至演算部303。演算部303,係將從差分資訊解碼部83所被供給之差分資訊、與從計算部302所被供給之中間差分資訊,進行加算(合成),並將該加算結果(差分資訊),供給至演算部304。
演算部304,係將從計算部301所被供給之指向性資料(概形指向性資料)、與從演算部303所被供給之加算結果(差分資訊)進行加算,並將其結果所得之指向性資料,供給至頻率補插處理部85。
分布模型解碼部62是被設成圖24所示之構成的情況,上述的圖20的指向性資料生成處理中的第1次的步驟S113中係藉由計算部301而算出指向性資料(概形指向性資料)。又,在第2次的步驟S113中係藉由計算部302而算出中間差分資訊。
然後,藉由差分資訊解碼部83來進行步驟S115及步驟S116之處理而生成差分資訊,在步驟S117中係藉由演算部303及演算部304來進行加算處理,生成指向性資料。
〈關於資料點之配置〉
順便一提,上述的模型資料之構成,係不限於圖5所示之構成、或圖15及圖16所示之構成,亦可設計成圖25所示之構成。
此外,於圖25中,關於與圖5所示之情況相對應的部分,係適宜省略其說明。於圖25中,bslbf係為bit string、left bit first,亦即表示左位元是開頭。又,uimsbf係為unsigned integer most significant bit first,亦即表示最上位位元為開頭的不帶符號的整數。
在圖25所示的模型資料中,係含有表示頻率格之數量的頻率點數「bin_count」,該頻率點數「bin_count」為多少,就有多少個頻率格之中心的頻率「bin_freq[i]」被儲存。
又,頻帶數「band_count」為多少,就有多少個表示將各頻帶中之混合模型予以構成的分布之數量的混合數「mix_count[j]」、與表示頻帶中所含之頻格的頻格資訊「bin_range_per_band[j]」被儲存。
然後,關於各頻帶,混合數「mix_count [k]」為多少,就有多少個作為模型參數的參數集中度κ、權重ϕ
i、及向量γ
1、和選擇旗標「dist_flag」被儲存。
在此例中,「kappa[j][k]」係表示參數集中度κ,「weight[j][k]」係表示權重ϕ
i。又,「gamma_x [j][k]」、「gamma_y[j][k]」、及「gamma_z[j][k]」,係表示構成向量γ
1的X成分(X座標)、Y成分(Y座標)、及Z成分(Z座標)。
選擇旗標「dist_flag」為「1」的情況,亦即分布是Kent分布的情況下,則還會被儲存有橢圓率β、major軸向量γ
2、及minor軸向量γ
3。
此處,「beta[j][k]」係表示橢圓率β,「gamma2_x[j][k]」、「gamma2_y[j][k]」、及「gamma2_z[j][k]」係表示構成major軸向量γ
2的X成分、Y成分、及Z成分。「gamma3_x[j][k]」、「gamma3_y [j][k]」、及「gamma3_z[j][k]」,係表示構成minor軸向量γ
3的X成分、Y成分、及Z成分。
模型資料中,係頻率點數「bin_count」為多少,就還有多少個表示指向性增益之動態範圍的比例因數「scale_factor[i]」、與各頻格上的指向性資料之偏置值亦即最小值「offset[i]」會被含有。
除此以外,模型資料中係還含有,用來特定各資料點之位置所需之資訊。
於上述的指向性之記錄手法中,是以盡可能地將原始資料(原本之指向性資料)中所被定義的資料點上的指向性資料之值,亦即指向性增益正確復原,作為前提。
於資訊處理裝置51中,係在進行演繹處理之際,會利用已被解碼之指向性資料。可是,此情況所需要的,並不限於原本之指向性資料中所被描述之資料點上的值(指向性增益),係為在演繹處理時所被利用的位置(方位)中的指向性增益。
因此,不只有例如將球表面上的緯度、經度做等間隔分割而成的格子點上配置有資料(指向性增益)亦即資料點的這類資料配置(以下稱作棋盤格資料配置),必須以各式各樣之資料配置來記錄指向性資料。換言之,將資料點之座標資訊盡可能地效率良好地加以記錄所需之Syntax,係為必須。
作為指向性資料中的資料點之配置方式,可考慮例如以下的方式(配置)。
・棋盤格資料配置
・均勻資料配置
・非均勻資料配置
這裡所謂的均勻資料配置係為,例如如圖26所示般地,在以音源位置為中心的球表面上,複數個資料點是被均勻地配置的資料配置。換言之,在均勻資料配置中,球表面上的任一領域中,都是以一定之密度來配置資料點。
在圖26的例子中,球表面上的各點係代表資料點,可知從音源位置來看無論在哪個方位上,都是以一定之密度來配置資料點,亦即以一定之密度來記錄指向性增益(指向性資料)。
如此的均勻資料配置所致之指向性資料的記錄,係在從音源觀看的受聽者(使用者)之方向是隨著時間而全面地變化等情況下,尤其有效。
又,所謂非均勻資料配置係為,在以音源位置為中心的球表面上,複數個資料點是被非均勻地配置的資料配置。換言之,在非均勻資料配置中,係以隨著球表面上的每一領域而不同的密度,來配置資料點。因此,棋盤格資料配置,雖然可以說成是非均勻資料配置的1個配置例,但在以下是假設,非均勻資料配置中不包含有棋盤格資料配置,而繼續說明。
作為非均勻資料配置的具體例,例如以音源位置為中心的球表面上的,聽感上重要的音源的正面方位所對應之領域、或就位置關係而言使用者之視點與音源接近的可能性較高的方位所對應之領域中,考慮將資料點做高密度地配置。又,在非均勻資料配置中,也可考慮在指向性增益較大的領域中,將資料點做高密度配置。
作為非均勻資料配置之其他例,亦可考慮將以音源位置為中心的於球表面上的,就全體而言指向性增益之變化量較大的部位(領域)或重要的領域中,將資料點亦即指向性增益配置得較密,在重要度較低的領域中則將資料點配置得較疏。
以上的棋盤格資料配置、均勻資料配置、及非均勻資料配置之何一者中,在指向性資料之優先度等的決定時,都要考慮使其與物件之優先度協調等。例如,指向性資料之優先度,亦可基於該指向性資料所被活用之內容中的物件之音源種別之優先度,而被決定。
作為與物件之優先度的協調之例子,例如於內容中,有複數個物件存在的情況下,若為音樂之內容,則考慮使歌手所對應之物件之優先度變得較高。
又,例如音樂內容中的歌手、或電影內容中的語音等優先度較高的音源種別,亦即有優先度較高的物件音源存在的情況下,則對於該音源種別之指向性資料之描述,考慮分配較多的位元。亦即,考慮在優先度較高的音源種別之指向性資料中,係設置較多的資料點,以使指向性資料被高清晰度地記錄。
在以如上的資料配置來記錄資料點之配置位置等的情況下,在含有圖25所示之資訊的模型資料中,亦可還描述有例如圖27所示的資訊。亦即,圖27係圖示了,用來特定各資料點之位置所需之資訊等的描述形式(Syntax)之例子。
此外,此處,從音源位置(音源中心)到各資料點為止之距離係假設為一定。亦即,針對各資料點是被配置在以音源位置為中心的球的表面上的例子,來做說明。可是,不限於此,從音源位置到資料點為止之距離亦可隨著每一資料點而不同。
圖27的例子中,「position_type」係為表示資料點之配置形式(配置方式),亦即座標記錄方式的資訊。
例如資料點之配置是棋盤格資料配置的情況下,則座標記錄方式「position_type」之值係被設成「0x000」。
又,例如資料點之配置是均勻資料配置的情況下,則座標記錄方式「position_type」之值係被設成「0x001」,資料點之配置是非均勻資料配置的情況下,則座標記錄方式「position_type」之值係被設成「0x010」。
「priority_index」係為表示指向性資料之優先度,更詳言之係為指向性資料之優先度的優先度資訊。例如指向性資料,係按照物件之每一種別,亦即每一音源種別而被準備,因此優先度資訊係可說是表示了音源(物件)之每一種別的指向性資料之優先度。該優先度係亦可隨著時間而變化。
具體而言,例如優先度「priority_index」之值為「0x000」的情況,亦即表示優先度的值為最小的情況下,則表示指向性資料之優先度係為最大。此處,指向性資料的優先度越高,表示優先度的值就越小。
又,指向性資料之優先度為最大的情況下,則亦可例如針對該指向性資料,係在解碼側也就是資訊處理裝置51中,不會降低空間解析度,而使得模型化前(編碼前)的所有資料點都被復原(解碼)。
亦即,在資訊處理裝置51,更詳言之係為分布模型解碼部62中,係亦可基於模型資料,將具有與模型化前之情況相同位置及相同數量之資料點的指向性資料,予以算出。除此以外,例如亦可隨應於指向性資料之優先度,來決定構成指向性資料的資料點之密度(數量)。
甚至,在此例中是隨應於座標記錄方式「position_type」之值,而被描述有用來特定資料點之配置位置(座標)所需之資訊。
具體而言,座標記錄方式「position_type」之值為「0x000」的情況,亦即棋盤格資料配置的情況下,則方位角方向間隔「azimuth_interval」及仰角方向間隔「elevation_interval」係被描述(有被儲存)。
方位角方向間隔「azimuth_interval」係表示,於球表面上的,方位角方向彼此相鄰之資料點之間的表示方位角方向之間隔的角度(方位角之差分)。
仰角方向間隔「elevation_interval」係表示,於球表面上的,仰角方向彼此相鄰之資料點之間的表示仰角方向之間隔的角度(仰角之差分)。
又,在棋盤格資料配置中,係於資訊處理裝置51側,例如從音源位置觀看的正面方向之位置等,作為基準的至少1個位置,是作為資料點之配置位置而為已知。因此,根據這些方位角方向間隔及仰角方向間隔、與預先決定之作為基準的位置,就可特定出全部的資料點之位置。
座標記錄方式「position_type」之值為「0x001」的情況,亦即均勻資料配置的情況下,則表示在球表面上均勻分布(被配置)的資料點之數量的資料點數「uniform_dist_point_count」,係被描述(有被儲存)。
在均勻資料配置中,例如在資訊處理裝置51側,隨著每種資料點數而各資料點之配置位置會是已知,因此可根據資料點數,而特定出全部的資料點之位置。
座標記錄方式「position_type」之值為「0x010」的情況,亦即非均勻資料配置的情況下,則必須資料點數「num_mandatory_point」,以及,該必須資料點數為多少,就有多少個表示必須資料點之位置的方位角資料「azimuth_table[i]」及仰角資料「elevation_table [i]」,係被描述(有被儲存)。
再者,座標記錄方式「position_type」之值為「0x010」的情況下,資料點之配置的解析度,換言之表示資料點之配置密度的資料點配置用解析度「gain_resolution」,也會被描述(有被儲存)。例如資料點配置用解析度「gain_resolution」,係被設成表示資料(指向性增益)之變動量的分貝值等。
在非均勻配置中,係隨著藉由資料點配置用解析度「gain_resolution」而被表示之指向性增益之每一變動量,而設定資料點。亦即,隨應於資料點配置用解析度,解碼所得的指向性資料中的資料點之數量會有所變化。
具體而言,在非均勻配置中,不隨應於資料點配置用解析度而一定會存在(被配置)的資料點,亦即在解碼時必定會被復原的資料點,係被設成必須資料點。然後,表示該必須資料點之數量的必須資料點數「num_ mandatory_point」係被描述。
又,方位角資料「azimuth_table[i]」及仰角資料「elevation_table[i]」,係分別被設成表示必須資料點之方位角方向及仰角方向之位置(座標)的方位角及仰角。
因此,於解碼側,係藉由這些方位角資料「azimuth_table[i]」及仰角資料「elevation_table[i]」,就可特定出各必須資料點之配置位置。此外,方位角資料或仰角資料,係只要是能夠特定出必須資料點之配置位置的資訊,則不限於座標,亦即方位角或仰角,亦可為能夠獲得方位角或仰角的索引等其他任意的資訊。
在非均勻配置中,各必須資料點之配置位置一旦被特定,則指向性資料中的必須資料點以外的資料點之配置位置,係基於必須資料點之配置位置、與資料點配置用解析度「gain_resolution」,而被特定。
具體而言,首先係基於模型資料,更詳言之係為基於模型參數,而求出每一頻格的混合模型F(x;Θ)。根據該混合模型F(x;Θ),圍繞音源位置的球表面上的任意之位置上的指向性增益之值會被獲得。
接著,基於混合模型F(x;Θ)、必須資料點之位置、資料點配置用解析度,而在球表面上配置不是必須資料點的資料點(以下亦稱作非必須資料點)。
非必須資料點之位置係被設成,藉由混合模型F(x;Θ)而被表示的指向性增益之值,是從球表面上的必須資料點上的指向性增益之值,變化了例如3dB等藉由資料點配置用解析度而被表示的變動量,所得的值所在的位置。
因此,例如藉由資料點配置用解析度而被表示的變動量是+3dB,且任意1個必須資料點上的指向性增益之值為48dB的情況下,則在球表面上的指向性增益為51dB之位置上,會配置非必須資料點。
此時,球表面上的指向性增益之值,是從已被設定之非必須資料點上的指向性增益之值起,變化了藉由資料點配置用解析度而被表示的變動量所得的值所在的位置上,亦可還被設定有其他非必須資料點。亦即,對於必須資料點,亦可按照藉由資料點配置用解析度而被表示的變動量之間隔,來配置非必須資料點。
除此以外,例如資料點配置用解析度所相應之數量的非必須資料點,亦可在方位角方向或仰角方向彼此相鄰之必須資料點之間,被等間隔地配置。
藉由如以上地設計,非均勻配置中的構成指向性資料的全資料點之配置位置,亦即全部的必須資料點及非必須資料點之配置位置,就會被特定。
如此在非均勻配置中,在解碼側所獲得的指向性資料的非必須資料點之配置位置或數量,隨著資料點配置用解析度「gain_resolution」而變動。
在以上的例子中,無論在資料點之配置形式(座標記錄方式)是棋盤格資料配置、均勻資料配置、及非均勻資料配置之任一形式的情況下,在解碼側(資訊處理裝置51)中,都可隨應於優先度「priority_index」之值,來調整指向性資料的空間解析度,亦即資料點之數量。此情況下,於各配置形式中,隨應於優先度「priority_ index」之值而資料點之數量會有所變化。
具體而言,例如在棋盤格資料配置中,藉由加大方位角方向間隔「azimuth_interval」或仰角方向間隔「elevation_interval」,就可使指向性資料的空間解析度降低。
又,在均勻資料配置中,藉由改小資料點數「uniform_dist_point_count」,就可使指向性資料的空間解析度降低。
同樣地,在非均勻資料配置中,藉由加大資料點配置用解析度「gain_resolution」,就可使指向性資料的空間解析度降低。
作為指向性資料的空間解析度,亦即藉由解碼所得之指向性資料的資料量之調整方法,考慮例如將優先度「priority_index」之值,乘算至方位角方向間隔「azimuth_interval」或仰角方向間隔「elevation_ interval」的方法。
又,作為指向性資料的空間解析度之調整方法,也可考慮例如將優先度「priority_index」之值的倒數乘算至資料點數「uniform_dist_point_count」的方法、或將優先度「priority_index」之值乘算至資料點配置用解析度「gain_resolution」的方法等。
藉由如此設計,在資訊處理裝置51中,就可獲得適切的空間解析度之指向性資料。亦即,可適切地調整指向性資料的空間解析度(資料點之數量)。
此外,於圖5或圖15及圖16所示的模型資料中也是,作為用來特定各資料點之位置所需之資訊,亦可取代每一資料點的方位角或仰角等,改為儲存圖27所示之構成的資訊(以下亦稱作資料點位置資訊)。
模型資料中含有圖27所示之構成的資料點位置資訊的情況下,在參照圖10所說明的編碼處理之步驟S12中,模型資料生成部22係生成含有圖25及圖27所示之各資訊的模型資料。亦即,含有資料點位置資訊的模型資料,係被生成。
此外,伺服器11是被設成圖19所示之構成的情況下也是,亦可藉由模型資料生成部215來生成含有資料點位置資訊的模型資料。
又,於模型資料之生成時,差分資訊等,每一資料點的資訊被求出的情況下,則按照解碼後的指向性資料之資料點,亦即藉由資料點位置資訊而被特定之每一資料點,而算出差分資訊等之各資訊。
再者,在模型資料中含有資料點位置資訊的情況下,在參照圖12所說明的指向性資料生成處理的步驟S52中,指向性資料算出部82係也使用資料點位置資訊而生成指向性資料。
亦即,指向性資料算出部82,係基於模型資料中所含之資料點位置資訊,而特定出資料點之配置形式(座標記錄方式),並且特定出指向性資料中的各資料點之配置位置。此時,指向性資料算出部82,係因應需要而也使用指向性資料之優先度資訊來特定出資料點之配置位置。
又,指向性資料算出部82,係基於從模型參數等所被算出之各頻帶的混合模型F’(x;Θ)、各資料點之配置位置的特定結果、每一頻格的比例因數、每一頻格的最小值,而算出資料點上的每一頻格的混合模型之輸出值F(x;Θ)。藉此,由各資料點上的每一頻格的指向性增益所成之概形指向性資料,就被獲得。
再者,在模型資料中含有資料點位置資訊的情況下,在參照圖20所說明的指向性資料生成處理中也是,於步驟S113或步驟S116、步驟S117中,資料點之配置位置的特定結果係被適宜利用。
順便一提,以上係為,作為差分編碼之方式,是針對空間相鄰差分方式或頻率間差分方式而做了說明。
例如在頻率間差分方式中,相鄰的頻格間,亦即相鄰的頻率間的差分資訊或指向性增益之差分,會被求出。
在如此的頻率間差分方式中,係於指向性資料中,在相鄰的頻率(頻格)間,指向性增益之值會相近,亦即指向性資料之形狀會相近,是利用了此一性質。
同樣地,在空間相鄰差分方式中,相鄰的資料點間,亦即相鄰的位置間的差分資訊或指向性增益之差分,會被求出。
在如此的空間相鄰差分方式中,係於指向性資料中,在空間上相近位置之間,指向性增益之差分會較小,是利用了此一性質。亦即,於指向性資料中,球表面上的指向性增益經常會連續性變化,若位置(方位)相近則指向性增益之值也會相近,是利用了此一性質。
一般而言,例如SOFA(Spatially Oriented Format for Acoustics)形式之檔案等,將指向性或HRTF(頭部傳達函數)予以記錄的情況下,則通常會在球表面上定義資料,藉由如以下之方式來記錄資料點。
具體而言,例如球表面上的同一緯度上,亦即對應於緯度的圓周上,沿著該圓周而彼此相鄰之經度的位置上,會逐一配置資料點。此時,以繞著圓周一周的方式,例如等間隔地配置資料點。
然後,一旦針對處理對象之緯度來設置資料點,則其後係一面依序變更緯度之值,一面在該緯度所對應之圓周上的各經度之位置上逐一配置資料點,藉此以在球表面上設置資料點。
藉由如此設計,棋盤格資料配置等之方式的指向性資料就被獲得。在如此的棋盤格資料配置中,南極或北極等之極的週邊的資料密度,亦即資料點的密度係會變高。
可是,如上述,在實際記錄指向性資料(指向性增益)時,在有必要將指向性增益之變化做高清晰度地記錄的重要之方位上資料(資料點)會變密,或是以全體會變成均勻(均勻之分布)的這類資料分布,來記錄指向性資料為佳。這裡所謂的重要的方位,係為例如正面方向等或演繹時經常被利用的方向、指向性增益之值較大之位置的方向等。
又,考慮到實際的指向性資料之收錄的情況,因為收錄的方便也想到水平面之資料係較密,極週邊係較疏地而被收錄。
於是,亦可如以下般地進行整列(排序)然後進行差分編碼。
(手法DE1):以所定之基準將資料點做了整列之順序進行差分編碼
(手法DE2):將指向性增益之分貝值按升順或降順整列而進行差分編碼
(手法DE3):從優先度較高的方位起依序整列而進行差分編碼
手法DE1中,係按照對棋盤格資料配置或均勻資料配置、非均勻資料配置等之資料配置而預先決定之順序,資料點亦即資料點上的差分資訊或指向性增益係被整列(被排序)。然後,在整列後的彼此相鄰之資料點間,差分資訊或指向性增益之差分會被求出。此情況下,在解碼側,亦即資訊處理裝置51側,整列之順序係為已知。
在手法DE2中,資料點,係以這些資料點上的差分資訊或指向性增益等之差分之計算對象的值(分貝值(dB值))的升順或降順,而被整列。此時,要用升順與降順之何者來進行整列,係只要被預先決定即可。
又,一旦以升順或降順來進行整列,則在整列後的彼此相鄰之資料點間,差分資訊或指向性增益之差分會被求出。藉由如此設計,就可更加縮小資料點間的差分資訊或指向性增益之差分。
此外,在手法DE2中,為了讓解碼側(資訊處理裝置51側)中可以特定出整列之順序,表示整列後的資料點之排列順序的資訊,係被儲存在模型資料中。例如,亦可在圖27所示的資料點位置資訊中,儲存表示整列後的資料點之排列順序的資訊。
又,表示整列後的資料點之排列順序的資訊,係可為例如將表示各資料點的索引按照整列順序做排列所得的資訊等,可為任意的資料。
在手法DE3中,從音源位置觀看的各方位(方向)之中,正面之方位或指向性增益較大之方位等,從位於優先度較高之方位的資料點起依序將各資料點做整列,在整列後的彼此相鄰之資料點間,差分資訊或指向性增益之差分會被求出。藉此,可使已被差分編碼的差分資訊等之資料量,壓低在所定位元數內。
於手法DE3中,也是和手法DE2中的情況同樣地,表示整列後的資料點之排列順序的資訊,係被儲存在模型資料中。
在這些手法DE1乃至手法DE3中,雖然針對求出資料點間之差分的例子做說明,但差分的計算係只要針對資料點間與頻格間之其中至少任一者進行即可。
因此,例如在手法DE1乃至手法DE3之各手法中,亦可不只資料點之位置,也考慮頻率亦即頻格,來進行排序。
在如此的情況下,例如在手法DE1中,以預先決定的資料點或頻率(頻格)之順序來將差分資訊或指向性增益做整列,整列後的彼此相鄰之差分資訊或指向性增益的差分,亦即資料點間或頻格間的差分,係被求出。此外,在按照預先決定之順序進行了整列後,亦可在資料點間與頻格間之雙方中都求出差分,亦可只在頻格間求出差分。
又,例如於手法DE2中,係以同一頻格或同一資料點等為對象,針對已被升順或降順整列過的差分資訊或指向性增益,求出彼此相鄰之差分資訊或指向性增益之差分,亦即資料點間或頻格間的差分。
同樣地,在手法DE3中,係隨應於資料點或頻率(頻格)之優先度,各資料點之頻格間的差分資訊或指向性資料會被整列,整列後的彼此相鄰之差分資訊或指向性增益的差分,亦即資料點間或頻格間的差分就可被求出。換言之,在此例中,資料點或頻格係按照優先度之順序而被整列。
此外,藉由以上之任一手法而進行整列的情況下,可只以相同頻率之頻格、或只以所定之頻率帶寬中所屬之複數個頻格、只以相同資料點或彼此相鄰之複數個資料點上的頻格為整列對象等,亦可按照由1或複數個頻格或資料點所成之每一群組來進行整列。
又,亦可將模型資料內等,編碼位元串流內的各變數(資訊)進行表格化,而僅將表示表格化後之變數之值的索引予以傳輸。
亦即,於以上所說明的例子中,係於模型資料等中,模型參數等之各種變數值,係以例如如以下的方式,來描述Syntax。
・將Syntax內的變數值以浮動小數點格式進行記錄
・以9bit(將0到1為止之間的值以512階段加以表現)或11bit等之整數格式而隨應於動態範圍和必要的解析度來將值進行分配
此處,在將變數值予以記錄的浮動小數點格式中,作為變數值係可在float(32bit)之格式內,採取任意之值。
相對於此,實際上為了更加削減位元數,亦可用如以下的方式來描述Syntax。
亦即,描述對象之變數值(參數)經常會採取特定之值,或可用特定之值來代表的情況下,則實際使用的值,亦即所描述的變數值,係被表格化。然後,在模型資料等之編碼位元串流內,亦即Syntax內,係僅將藉由表格化所得到的索引,予以描述。
此情況下,表格本身係有別於編碼位元串流而另外被傳輸至解碼側。藉由如此設計,就可用較少的位元數來描述變數值,可使編碼位元串流的資料量(傳輸量)降低。
作為具體例,考慮例如僅在變數值之中的0.0乃至0.1之範圍、或僅在0.9乃至1.0之範圍等,僅將變數值所可能採取的值之中的一部分之範圍予以表格化等。
在如此的情況下,例如0.0乃至0.1之範圍等,對於身為表格化對象之範圍內的離散性的各值(變數值),規定用來表示這些值的索引。然後,實際的變數值是身為表格化對象之範圍內的值的情況下,則該實際之變數值所對應之索引,係被儲存在模型資料內等而被傳輸。
相對於此,實際的變數值是身為表格化對象之範圍外的值的情況下,則該實際的變數值係被儲存在模型資料內等而被傳輸。
再者,也考慮將上述的比例因數「scale_ factor[i]」或偏置值,亦即最小值「offset[i]」,進行參數表現(壓縮表現)。
以上係說明了,使用各頻格的比例因數「scale_factor[i]」與最小值「offset[i]」,如以下般地將每一頻格的混合模型F(x;Θ)予以求出。
此處,F’(x;Θ)係為每一頻帶的混合模型之輸出值。
又,比例因數「scale_factor[i]」係為,vMF分布或Kent分布之總和(模型資料總和),亦即混合模型F’(x;Θ)之各資料點上的值(指向性增益)之總和、與藉由索引i而被表示的頻格,亦即第i個頻格上的模型化前的原本(原始)之指向性資料的各資料點上的值之總和,兩者的比率。該比例因數,係為表示動態範圍的浮點值。
此外,模型資料總和,係為球表面上所被定義之值(指向性增益)的總和,理想而言係為1,但實際上由於是被離散化,因此不會是1。又,模型化前的原本之指向性資料,係為dB比例之資料,在比例因數之算出時係往正的方向被偏置。
最小值「offset[i]」,係為第i個頻格上的模型化前的原本(原始)之指向性資料亦即指向性增益的最小值(dB值),是以浮點值而被表現。
藉由使用了如此的比例因數與最小值的演算,就可將混合模型的輸出值,配合各頻格的動態範圍而予以補正、復原。
此情況下,會需要頻格數份的比例因數與最小值,若使指向性資料的頻率解析度變成高清晰度,則比例因數與最小值之記錄所需要的資訊量,亦即位元數,會隨著頻格數而成比例地增多。
於是,亦可藉由將比例因數與最小值進行參數表現,以使比例因數與最小值之記錄所需要的資訊量(位元數)降低。
例如,作為一例而針對6個各音源種別之指向性資料,作為其比例因數及最小值(偏置值),會獲得圖28及圖29所示的值。
圖28係圖示了6個各音源種別的比例因數。此外,在圖28中,縱軸係表示無維度之比率也就是比例因數之值,橫軸係表示頻格的索引i。
在此例中,隨著音源種別,有的是在相鄰的頻格間比例因數會大幅變動,有的是在相鄰的頻格間比例因數的變動較少。
圖29係圖示了6個各音源種別的最小值(偏置值)。此外,在圖29中,縱軸係表示dB值也就是最小值(偏置值),橫軸係表示頻格的索引i。
可知於最小值中也是和比例因數中的情況同樣地,隨著音源種別,有的在相鄰的頻格間最小值會大幅變動,有的則是變動較少。
如此,隨著音源種別而相鄰頻率間(相鄰頻格間)的比例因數或最小值的變動之大小會有很大的不同。
因此,將比例因數或最小值予以模型化,亦即進行參數表現時,會有可用較少的參數即可模型化的情況,和參數數會變得較多的情況。
於是,例如模型資料生成部22或模型資料生成部215,係在頻格間的變動較大,藉由比例因數或最小值之參數表現而無法改善編碼效率的情況下,則將各頻格的比例因數或最小值直接儲存(描述)在模型資料中。
相對於此,模型資料生成部22或模型資料生成部215,係在頻格間的變動較小,可以改善編碼效率的情況下,則將比例因數或最小值進行參數化而儲存(描述)在模型資料中。
作為參數化(參數表現)之一例,可舉出例如函數近似所致之曲線擬合等。
在如此的情況下,模型資料生成部22或模型資料生成部215,係藉由曲線擬合等,生成用來獲得各頻格的表示比例因數或最小值的圖形所對應之近似函數所需之函數近似參數。然後,模型資料生成部22或模型資料生成部215,係取代各頻格的比例因數或最小值,改為將函數近似參數,儲存在模型資料中。
於解碼側,指向性資料算出部82或計算部301,係基於函數近似參數、與頻格之索引i,從近似函數求出各頻格上的比例因數或最小值,當作模型參數來使用。
藉由如此設計,需要將全頻格的比例因數或最小值儲存至模型資料內的,係只須描述函數近似參數即可,因而可壓縮資料量。此外,作為函數近似,可進行線性函數或n次函數(n≧2)所致之近似、多項式近似等任意之近似。
又,比例因數或最小值之動態範圍較大的情況下,作為函數近似之前處理,亦可藉由進行取比例因數或最小值之對數的處理、或將比例因數或最小值藉由非線性函數予以轉換的處理等,以壓縮動態範圍。
除此以外,以上,作為將HOA方式或混合方式、複混合方式、差分方式加以組合來生成模型資料的情況之方式的例子,說明了帶寬雜合方式、加算雜合方式、乘算雜合方式、球面調和係數模型化方式、組合雜合方式。
可是,不限於此,當然亦可藉由其他組合來生成模型資料。
例如亦可按照從音源位置觀看的每一方位,亦即每一資料點、或由複數個資料點所成之每一領域,而將上述的HOA方式或混合方式、複混合方式、差分方式、帶寬雜合方式、加算雜合方式等之任意方式進行切換來生成模型資料。
於指向性資料中,水平面之資料,亦即赤道上之資料(指向性增益)的使用頻率係較高,反之在極附近之資料的使用頻率為低的可能性較高。因此,藉由每一領域地切換方式,就可適切地削減模型資料的位元數。此外,這裡所謂的水平面係為,將從音源位置觀看的緯度,亦即仰角(elevation)為0度的複數個各位置予以包含的平面。
作為具體例,例如考慮將HOA方式、與混合方式,更詳言之係為藉由vMF分布來進行模型化的方式,加以組合等。此時,例如假設HOA方式下的球面調和函數展開之次數為1次,而亦可隨著每一領域(方位)來切換是否將HOA方式與混合方式做組合來使用,還是只使用混合方式。
又,也考慮按照每一領域而改變HOA方式下的球面調和函數展開之次數以生成模型資料。甚至亦可考慮,按照每一領域而將HOA方式、與混合方式及HOA方式之組合方式做切換,並且也按照每一領域而將HOA方式下的球面調和函數展開之次數做變化。
除此以外,也可考慮針對水平面附近的資料點,不是使用球面調和函數展開,而是藉由圓調和函數展開來將指向性資料進行模型化的方式來做高清晰度地記錄,針對水平面附近以外之資料點則是藉由其他任意之方式而將指向性增益做較稀疏地記錄。
〈第3實施形態〉
〈關於資料的對稱性之活用〉
順便一提,指向性資料,係會有隨著原本的音源之形狀而存在有對稱性的情況。
例如作為音源的揚聲器的形狀係為左右對稱,揚聲器的指向性資料也會是對稱的,但在揚聲器中存在有高音單體、低音單體的情況下,則由於這些高音單體與低音單體的再生帶寬係為不同,因此指向性資料係在上下方向不會呈現對稱。
又,由於正12面體揚聲器等也已經商用化,在正12面體揚聲器中則是對於12方向會成立對稱性。又,若為立方體形狀之全範圍揚聲器,則會有不只是左右對稱,就連上下對稱也會成立的情況。另一方面,人類的外形係呈左右對稱的形狀,雖然左右對稱會是某種程度地成立,但上下係為頭部、胴體、腳部這種不對稱的形狀,指向性係不會呈現上下對稱。
由於這些原因,在指向性資料中存有對稱性的情況下,則藉由活用該對稱性就可削減傳輸資料量。
在如此的情況下,模型資料之Syntax,係變成例如如圖30所示。
在圖30所示的模型資料中,係含有表示頻格之數量的頻率點數「bin_count」,頻率點數「bin_count」為多少,就有多少個頻格之中心的頻率「bin_freq[i]」被儲存。
又,頻帶數「band_count」也有被儲存,頻帶數「band_count」為多少,就有多少個,亦即每一頻帶地,關於指向性資料之對稱性之利用的對稱性資訊「use_symmetry」係被儲存。
例如對稱性資訊「use_symmetry」之值「4」、「3」、「2」、「1」、及「0」,係分別表示進行上下左右對稱操作、進行左右對稱操作、進行上下對稱操作,活用任意之對稱、旋轉,及不進行任何對稱、旋轉之操作。
尤其是在對稱性資訊「use_symmetry」之值為「0」的情況下,則指向性資料係為,全方位之指向性增益都是藉由上述的由vMF分布或Kent分布等所成之模型,亦即混合模型等,而被描述。又,對稱性資訊「use_symmetry」之值「5」乃至「7」係被設成reserved。
模型資料中,係隨應於對稱性資訊「use_symmetry」之值,而被儲存有旋轉操作或對稱操作所需之操作關連資訊。
對稱性資訊「use_symmetry」之值為「4」的情況下,則在模型資料中係被描述有上下左右對稱操作所需之操作關連資訊「LeftRightVerticalLineSymmetricDir()」。對稱性資訊「use_symmetry」之值為「3」的情況下,則在模型資料中係被描述有左右對稱操作所需之操作關連資訊「LeftRightLineSymmetricDir()」。
又,對稱性資訊「use_symmetry」之值為「2」的情況下,則在模型資料中係被描述有上下對稱操作所需之操作關連資訊「VerticalLineSymmetricDir()」。
對稱性資訊「use_symmetry」之值為「1」的情況下,則在模型資料中係被描述有任意之對稱或旋轉之操作所需之操作關連資訊「SymmetricDir()」。
對稱性資訊「use_symmetry」之值為「0」的情況下,則在模型資料中係被描述有,不進行任何操作即獲得指向性資料所需之資訊「NonSymmetricDir()」。
圖31係圖示了「SymmetricDir()」之Syntax。
在此例中,模型資料的「SymmetricDir()」中,係和圖25中的情況同樣地,被儲存有:混合數「mix_count[j]」及頻格資訊「bin_range_per_band[j]」、和作為模型參數的「kappa[j][k]」、「weight[j][k]」、「gamma_x[j][k]」、「gamma_y[j][k]」、及「gamma_z [j][k]」、和選擇旗標「dist_flag[j][k]」。
又,隨應於選擇旗標「dist_flag[j][k]」之值,而還被儲存有作為模型參數的「beta[j][k]」、「gamma2_x[j][k]」、「gamma2_y[j][k]」、「gamma2_z [j][k]」、「gamma3_x[j][k]」、「gamma3_y[j][k]」、及「gamma3_z[j][k]」。
再者,在「SymmetricDir()」中係還被儲存有操作次數資訊「sym_operation_count」及操作旗標「sym_operation_flag」。
操作次數資訊「sym_operation_count」係為表示,對於vMF分布或Kent分布等之1個分布(分布模型),進行旋轉並複製的操作也就是旋轉操作,或複製至對稱位置的操作也就是對稱操作之次數的資訊。
操作旗標「sym_operation_flag」係為表示,進行旋轉操作與對稱操作之中的何種操作的旗標資訊。例如操作旗標「sym_operation_flag」之值為「1」的情況,則表示進行旋轉操作,值為「0」的情況,則表示對稱操作。
尤其是,此處係為,藉由操作次數資訊「sym_operation_count」而被表示之次數為多少,就會含有多少個操作旗標「sym_operation_flag」,隨應於該操作旗標之值,而會儲存有操作上所必須之資訊。
亦即,操作旗標「sym_operation_flag」之值為「1」的情況下,則會儲存有旋轉操作上所必須的旋轉軸方位角「sym_azi」、旋轉軸仰角「sym_elev」、及旋轉角「sym_rotation」。
此處,旋轉軸方位角「sym_azi」及旋轉軸仰角「sym_elev」係為表示,旋轉操作進行時的從音源位置觀看的旋轉軸之朝向的方位角及仰角。亦即,藉由這些旋轉軸方位角及旋轉軸仰角,而決定了旋轉軸。又,旋轉角「sym_rotation」係為,於旋轉操作中,以旋轉軸為中心(軸)而進行旋轉時的角度。
又,操作旗標「sym_operation_flag」之值不是「1」的情況,亦即操作旗標之值為「0」的情況下,則從音源位置觀看的對稱操作上所必須之球剖面,亦即表示對稱面之朝向的偏擺角「sym_yaw」、俯仰角「sym_pitch」、及翻滾角「sym_roll」,係被儲存。亦即,藉由這些偏擺角、俯仰角、及翻滾角,而決定了對稱面。
因此,例如操作次數資訊「sym_operation_ count」之值為「2」的情況下,則會進行藉由2個各操作旗標「sym_operation_flag」而被表示之操作。亦即,旋轉操作或對稱操作會被進行2次。
再者,在「SymmetricDir()」中,係和圖25中的情況同樣地,頻率點數「bin_count」為多少,就還有多少個比例因數「scale_factor[i]」與最小值「offset[i]」會被儲存。
此處,參照圖32及圖33,說明旋轉操作與對稱操作。此外,在圖32及圖33所示的例子中,是關於Kent分布而進行旋轉操作或對稱操作的例子。
圖32係圖示了關於Kent分布而進行旋轉操作的例子。
在此例中,球SP11上的指向性增益是藉由Kent分布而被表現,向量V81乃至向量V83係表示了Kent分布的向量γ
1、major軸向量γ
2、及minor軸向量γ
3。
這些向量V81乃至向量V83,係藉由模型資料中所被儲存之模型參數,亦即「gamma_x[j][k]」乃至「gamma_z[j][k]」或「gamma2_x[j][k]」乃至「gamma2_z [j][k]」,而被求出。
在旋轉操作被進行的情況下,資訊處理裝置51的指向性資料算出部82,係基於從模型資料所讀出的旋轉軸方位角「sym_azi」及旋轉軸仰角「sym_elev」,而求出旋轉軸RS11。
指向性資料算出部82,係使用向量V81乃至向量V83而求出Kent分布f(x;θ
i)。
又,指向性資料算出部82,係使用向量V'81乃至向量V'83而求出Kent分布f(x;θ
i)。
此處,向量V'81乃至向量V'83,係以旋轉軸RS11為軸,令向量V81乃至向量V83旋轉了模型資料中所被儲存之旋轉角「sym_rotation」所得的旋轉後之向量。
此情況下,向量V'81乃至向量V'83就會被當作Kent分布的向量γ
1、major軸向量γ
2、及minor軸向量γ
3而被使用。
因此,在此例中指向性資料算出部82,係基於旋轉軸方位角等而對Kent分布的向量γ
1等之模型參數進行旋轉操作,藉此而算出已被旋轉的模型參數。然後,指向性資料算出部82,係基於旋轉前的模型參數、與已被旋轉之(旋轉後的)模型參數之各者而求出Kent分布,使用所被求出的這些Kent分布而算出混合模型,亦即指向性資料(指向性增益)。換言之,根據從旋轉操作前的模型參數所被求出的Kent分布、與從旋轉操作後的模型參數所被求出的Kent分布,藉由合成而求出1個分布,使用該分布而求出混合模型。此外,亦可將2個Kent分布直接使用於混合模型的算出,亦可僅將右半或左半等這2個各Kent分布的一部分之領域,使用於混合模型的算出。這不只是在旋轉操作的情況,就連在對稱操作的情況下也是同樣如此。
圖33係圖示了關於Kent分布而進行對稱操作的例子。此外,圖33中,和圖32對應的部份,係標示同一符號,並適宜地省略其說明。
在此例中,指向性資料算出部82,係基於從模型資料所讀出的偏擺角「sym_yaw」、俯仰角「sym_pitch」、及翻滾角「sym_roll」,而求出對稱面的球SP11之剖面SF11。該剖面SF11,係為包含有球SP11之中心(音源位置)的平面。
指向性資料算出部82,係使用向量V81乃至向量V83而求出Kent分布f(x;θ
i)。
又,指向性資料算出部82,係使用向量V''81乃至向量V''83而求出Kent分布f(x;θ
i)。
此處,向量V''81乃至向量V''83係為,以剖面SF11為對稱面而將向量V81乃至向量V83予以折返(令其對稱移動)所得的向量。亦即,向量V''81乃至向量V''83與向量V81乃至向量V83,係關於剖面SF11而呈對稱(面對稱)。
在指向性資料算出部82中,向量V''81乃至向量V''83係被當作Kent分布的向量γ
1、major軸向量γ
2、及minor軸向量γ
3而使用。
因此,在此例中指向性資料算出部82,係基於偏擺角等而對Kent分布的向量γ
1等之模型參數進行對稱操作,藉此而算出已被對稱移動(對稱操作)的模型參數。然後,指向性資料算出部82,係基於對稱移動前的模型參數、和對已被稱移動的(對稱移動後的)模型參數之各者,而求出Kent分布,從已被求的這些Kent分布等,算出指向性資料(指向性增益)。
又,圖30所示的模型資料中的,用來獲得指向性資料所需的資訊「NonSymmetricDir()」之Syntax例,示於圖34。
在圖34所示的例子中,係和圖25中的情況同樣地,被儲存有:混合數「mix_count[j]」及頻格資訊「bin_range_per_band[j]」、和作為模型參數的「kappa[j][k]」、「weight[j][k]」、「gamma_x[j][k]」、「gamma_y[j][k]」、及「gamma_z[j][k]」、和選擇旗標「dist_flag[j][k]」。
又,隨應於選擇旗標「dist_flag[j][k]」之值,而還被儲存有作為模型參數的「beta[j][k]」、「gamma2_x[j][k]」、「gamma2_y[j][k]」、「gamma2_z[j][k]」、「gamma3_x[j][k]」、「gamma3_y[j][k]」、及「gamma3_z[j][k]」。
再者,頻率點數「bin_count」為多少,就還有多少個比例因數「scale_factor[i]」與最小值「offset[i]」被儲存。
在此例中,由於旋轉操作或對稱操作未被進行,因此模型資料中係被描述有,構成所有分布的模型參數。
又,操作關連資訊「LeftRightVerticalLineSymmetricDir()」、「LeftRightLineSymmetricDir()」、及「VerticalLineSymmetricDir()」的資料形式(Syntax),係與圖34所示的「NonSymmetricDir()」相同。
但是,這些「LeftRightVerticalLineSymmetricDir()」、「LeftRightLineSymmetricDir()」、或「VerticalLineSymmetricDir()」有被儲存的情況,亦即對稱性資訊「use_symmetry」之值為「4」、「3」、或「2」的情況下,則指向性資料算出部82係在指向性資料的解碼時,進行對稱操作。
具體而言,對稱性資訊「use_symmetry」之值為「3」的情況下,指向性資料算出部82,係針對模型資料中所被描述的模型參數所對應之分布,相對於正面正中面而進行左右對稱操作,獲得新的vMF分布或Kent分布。
此情況下所被進行的左右對稱操作係為,將從音源觀看的正面正中面(正中面)當作圖33所示的剖面SF11的對稱操作。換言之,以正中面為剖面SF11而進行參照圖33所說明的對稱操作,藉此而實現左右對稱操作。此情況下,若將從左右對稱操作前的模型參數所得之分布、與從左右對稱操作後的模型參數所得之分布進行合成,則會獲得從音源來看而為左右對稱的1個分布。
又,對稱性資訊「use_symmetry」之值為「2」的情況下,指向性資料算出部82,係針對模型資料中所被描述的模型參數所對應之分布,相對於正面水平面而進行上下對稱操作,獲得新的vMF分布或Kent分布。
此情況下所被進行的上下對稱操作係為,將從音源觀看的正面水平面(水平面)當作圖33所示的剖面SF11的對稱操作。換言之,以水平面為剖面SF11而進行參照圖33所說明的對稱操作,藉此而實現上下對稱操作。此情況下,若將從上下對稱操作前的模型參數所得之分布、與從上下對稱操作後的模型參數所得之分布進行合成,則會獲得從音源來看而為上下對稱的1個分布。
再者,對稱性資訊「use_symmetry」之值為「4」的情況下,指向性資料算出部82,係針對模型資料中所被描述的模型參數所對應之分布,相對於正面而進行上下左右對稱操作,獲得新的分布。此處,所謂上下左右對稱操作係為,藉由對於身為操作對象之分布進行上下對稱操作及左右對稱操作,以獲得上下左右對稱之分布的操作。此外,進行了包含左右對稱操作或上下對稱操作之對稱操作的vMF分布或Kent分布,係在解碼時(復原時)跨越整個有被定義指向性資料的球表面全域皆為有效。又,亦可於操作對象之分布或藉由操作所得到的分布中係被定義有交界,而在該交界上,指向性增益會呈不連續。
〈第4實施形態〉
〈關於頻帶間的交叉衰落〉
以上說明了,將指向性資料按照每一頻率帶寬,亦即每一頻帶來進行模型化以削減資料量的手法。
可是,指向性資料,亦即指向性增益會有隨應於頻率而逐漸緩緩變動的情況,在如此的情況下,已模型化的資料的交叉衰落被認為是有效的。
圖35中圖示了進行交叉衰落之情況下的模型資料之Syntax例。
圖35所示的例子,係除了圖25所示的各資訊以外,還被儲存有(含有)交叉衰落旗標「fade_flag」及上限頻格索引「bin_range_per_band_fadein[j]」。
尤其是,在此例中頻帶數「band_count」為多少,就有多少個各頻帶中的交叉衰落旗標「fade_flag」被儲存。
交叉衰落旗標「fade_flag」係為表示,每一頻格的混合模型F(x;Θ)的算出時,是否進行彼此相鄰之頻帶間的交叉衰落,亦即每一頻帶之混合模型F’(x;Θ)的加權加算是否進行的旗標資訊。
例如交叉衰落旗標「fade_flag」之值為「1」的情況下,頻帶間之交叉衰落會被進行,值為「0」的情況下,頻帶間之交叉衰落係不被進行。此外,頻帶間之交叉衰落,係於第2個以上之頻帶中被利用。
又,交叉衰落旗標「fade_flag」之值為「1」的情況下,則上限頻格索引「bin_range_per_band_ fadein[j]」會被儲存。
上限頻格索引「bin_range_per_band_fadein [j]」係為表示,頻帶間之交叉衰落被進行的上限頻格,亦即頻帶間之交叉衰落被進行的頻帶內的頻格之中的頻率最高的頻格的索引。
在頻帶間之交叉衰落中,指向性資料算出部82,係將針對所定之頻帶所求出的混合模型之輸出值F’(x;Θ),與針對該所定之頻帶所相鄰之其他頻帶所求出的混合模型之輸出值F’(x;Θ),進行加權加算。
然後指向性資料算出部82,係對藉由加權加算所得到的輸出值,乘算比例因數,然後將對該乘算結果加算最小值(偏置值)所得的值,當作其他頻帶內的身為對象之頻格上的混合模型之輸出值F(x;Θ)。
此情況下,身為交叉衰落之對象的係為從其他頻帶內的頻率最低的頻格,到其他頻帶中的藉由上限頻格索引「bin_range_per_band_fadein[j]」而被表示的上限頻格為止的各頻格,在其他頻格中係不進行交叉衰落。在交叉衰落未被進行的頻格中,根據該頻格所屬之頻帶中的混合模型之輸出值F’(x;Θ)與比例因數與最小值而求出混合模型之輸出值F(x;Θ)。
因此,在頻帶間之交叉衰落被進行的情況下,於指向性資料(指向性增益)的算出時,在比例因數與最小值的適用前,將相鄰的頻帶間的已被復原的混合模型的輸出值的加權和(加權加算值)當作最終的頻帶之混合模型之輸出值的程序,會被追加。
圖36中圖示了頻帶間之交叉衰落的概念圖。
在圖36中,縱軸係表示交叉衰落時所被使用的權重,橫軸係表示頻率。又,此處係以頻帶數為3的情況為例來做圖示。
圖中左側係圖示了不進行頻帶間之交叉衰落之情況下的加權加算時的權重。
直線L51乃至直線L53係表示,在各頻格的混合模型之輸出值F(x;Θ)的算出時所被使用的,頻帶「bin_range_per_band[0]」乃至頻帶「bin_range_per_band [2]」之各頻帶的混合模型之輸出值F’(x;Θ)的權重。
尤其是,在此例中,直線L51乃至直線L53之頻率方向之範圍係未彼此重疊,關於各頻格(頻率)的每一頻帶之混合模型之輸出值F’(x;Θ)之權重係為1。因此,可知實質上並未進行頻帶間之交叉衰落。
相對於此,圖中右側中係圖示了在頻帶間之交叉衰落有被進行的情況下的加權加算時的權重。
折線L61乃至折線L63係表示,在各頻格的混合模型之輸出值F(x;Θ)的算出時所被使用的,頻帶「bin_range_per_band[0]」乃至頻帶「bin_range_per_band [2]」之各頻帶的混合模型之輸出值F’(x;Θ)的權重。
在此例中,例如關於頻帶「bin_range_per_ band[0]」的表示混合模型之輸出值F’(x;Θ)之權重的折線L61的右側之邊端,係位於頻帶「bin_range_per_band [0]」之範圍外的頻率之位置。
尤其是,折線L61的右側之邊端部分的頻率(頻格),係變成位於頻帶「bin_range_per_band[0]」所相鄰之頻帶「bin_range_per_band[1]」內的頻格,該頻格係成為上限頻格「bin_range_per_band_fadein[1]」。
因此,例如頻帶「bin_range_per_band[1]」內的各頻格之中,針對位於從頻率最低的頻格到上限頻格「bin_range_per_band_fadein[1]」為止之間的各頻格,可知係被進行頻帶間之交叉衰落而求出各頻格的混合模型之輸出值F(x;Θ)。此情況下,於各頻格中,以使得混合模型之輸出值F(x;Θ)之算出時所被使用的權重之總和為1的方式,而算出權重。
相對於此,在頻帶「bin_range_per_band [1]」內的各頻格之中,針對比上限頻格的頻率還高的各頻格,藉由折線L62而被表示的權重之值係為1,可知在這些頻格中係沒有進行頻帶間之交叉衰落。
頻帶間之交叉衰落有被進行的情況下,針對所定之頻格「i_bin」的較低頻率側之頻帶「i_band-1」的混合模型之輸出值的權重model_weight
i_band-1[i_bin],係可藉由下式(10)而獲得。
又,針對所定之頻格「i_bin」的較高頻率側之頻帶「i_band」的混合模型之輸出值的權重model_ weight
i_band[i_bin],係可藉由下式(11)而獲得。
然後,基於這些權重、與針對頻格「i_bin」的頻帶「i_band+j-1」之混合模型之輸出值F
i_band+j-1(x),來計算以下的式(12),藉此可獲得針對頻格「i_bin」的混合模型之輸出值F
i_bin(x)。
此外,式(12)中scale_factor[i_bin]及offset [i_bin]係表示,頻格「i_bin」的比例因數及最小值(偏置值)。
指向性資料算出部82,係藉由計算式(12),以算出各頻格的混合模型之輸出值,亦即各資料點的每一頻格的指向性增益。藉由如此設計,可削減模型資料的資料量。
〈第5實施形態〉
〈關於資料的對稱性之活用〉
於第3實施形態中,說明了資料的對稱性之活用。
在活用如此的對稱性來削減傳輸資料量的情況下,不只上述的指向性資料的上下或左右之對稱性,亦可還活用前後方向之對稱性,或將前後方向與上下方向或左右方向之對稱性做組合來活用。
在如此的情況下,模型資料之Syntax,係變成例如如圖37所示。
在圖37所示的模型資料中,係含有表示頻格之數量的頻率點數「bin_count」,頻率點數「bin_count」為多少,就有多少個頻格之中心的頻率「bin_freq[i]」被儲存。
又,在模型資料中係還被儲存有頻帶數「band_count」,頻帶數「band_count」為多少,就有多少個,亦即每一頻帶地,關於指向性資料之對稱性之利用的對稱性資訊「use_symmetry[j]」與混合數「mix_count[j]」與頻格資訊「bin_range_per_band[j]」,係被儲存。
對稱性資訊「use_symmetry[j]」,係和圖30所示的對稱性資訊「use_symmetry」相同,但在此例中,對稱性資訊「use_symmetry[j]」之值「5」乃至「7」係如後述般地不被設成reserved而會被使用。
又,混合數「mix_count[j]」及頻格資訊「bin_range_per_band[j]」,係和圖31所示的相同,係為表示將頻帶之混合模型予以構成的分布之數量、及關於模型化前的原本之指向性資料的頻格(bin)的資訊。
在圖30所示的例子中,按照每一操作關連資訊等而被儲存有混合數「mix_count[j]」及頻格資訊「bin_range_per_band[j]」。可是,這些混合數與頻格資訊係為相同,因此在圖37的例子中係在模型資料中的操作關連資訊外之部分,儲存了混合數與頻格資訊。
在圖37的例子中,每一頻帶的對稱性資訊「use_symmetry[j]」之值,係被設成「0」乃至「7」之任一值。
對稱性資訊「use_symmetry[j]」之值「4」、「3」、「2」、「1」、及「0」,係和圖30的例子同樣地,表示:進行上下左右對稱操作、進行左右對稱操作、進行上下對稱操作,活用任意之對稱、旋轉,及不進行任何對稱、旋轉之操作。
對稱性資訊「use_symmetry[j]」之值「7」、「6」、及「5」係表示:進行上下前後對稱操作、進行前後左右對稱操作、及進行前後對稱操作。
在頻帶數「band_count」大於0的情況下(j>0),模型資料中係被儲存有各頻帶中的交叉衰落旗標「fade_flag」。
該交叉衰落旗標「fade_flag」,係和參照圖35所說明的相同。亦即,交叉衰落旗標「fade_flag」之值為「1」的情況下,頻帶間之交叉衰落會被進行,值為「0」的情況下,頻帶間之交叉衰落係不被進行。
又,交叉衰落旗標「fade_flag」之值為「1」的情況下,在模型資料中係被儲存有關於頻帶的上限頻格索引「bin_range_per_band_fadein[j]」。
除此以外,在模型資料係被儲存有開始頻格「start_bin」。
在模型化前的原本之指向性資料中,藉由頻率「bin_freq[i]」而被表示的頻格之中,關於頻率較低的頻格,有時候係為實質上不含有資料。亦即,有時候,頻率較低之頻格的指向性增益係為0。
開始頻格「start_bin」係為表示,在藉由頻率「bin_freq[i]」而被表示的頻格之中,非0的指向性增益是被當作資料而含有的頻率最低的頻格的資訊。
又,模型資料中,係隨應於對稱性資訊「use_symmetry[j]」之值,而被儲存有旋轉操作或對稱操作所需之操作關連資訊。
對稱性資訊「use_symmetry[j]」之值為「7」的情況下,則在模型資料中係被描述有上下前後對稱操作所需之操作關連資訊
「FrontBackVerticalSymmetricDir()」。對稱性資訊「use_symmetry[j]」之值為「6」的情況下,則在模型資料中係被描述有前後左右對稱操作所需之操作關連資訊「FrontBackLeftRightSymmetricDir()」。
又,對稱性資訊「use_symmetry[j]」之值為「5」的情況下,則在模型資料中係被描述有前後對稱操作所需之操作關連資訊「FrontBackSymmetricDir()」。
對稱性資訊「use_symmetry[j]」之值為「4」的情況下,則在模型資料中係被描述有操作關連資訊「LeftRightVerticalLineSymmetricDir()」。對稱性資訊「use_symmetry[j]」之值為「3」的情況下,則在模型資料中係被描述有操作關連資訊
「LeftRightLineSymmetricDir()」。
又,對稱性資訊「use_symmetry[j]」之值為「2」的情況下,則在模型資料中係被描述有操作關連資訊「VerticalLineSymmetricDir()」。
對稱性資訊「use_symmetry[j]」之值為「1」的情況下,則在模型資料中係被描述有操作關連資訊「SymmetricDir()」。對稱性資訊「use_symmetry[j]」之值為「0」的情況下,則在模型資料中係被描述有資訊「NonSymmetricDir()」。
然後在模型資料中係被描述有,關於動態範圍的資訊「DynamicRangeForDir()」。
在該資訊「DynamicRangeForDir()」中,係針對中心之頻率為藉由開始頻格「start_bin」而被表示之頻格之中心之頻率以上的各頻格,而儲存有比例因數「scale_factor[i]」與最小值「offset[i]」。
圖37所示的模型資料中的,用來獲得指向性資料所需的資訊「NonSymmetricDir()」之Syntax例,示於圖38。
在圖38所示的例子中,混合數「mix_count[k]」為多少,就有多少個作為模型參數的「kappa[j][k]」、「weight[j][k]」、「gamma_azi[j][k]」、及「gamma_elev[j][k]」、和選擇旗標「dist_flag[j][k]」被儲存。
此處,「gamma_azi[j][k]」及「gamma_ elev[j][k]」係表示了,表示向量γ
1之方向的水平方向角度(方位角)及垂直方向角度(仰角)。
在圖34的例子中,雖然藉由「gamma_x[j][k]」、「gamma_y[j][k]」、及「gamma_z [j][k]」來表現向量γ
1,但在圖38中是藉由方位角及仰角來表現向量γ
1。
又,隨應於選擇旗標「dist_flag[j][k]」之值,作為模型參數的「beta[j][k]」及「gamma1_azi [j][k]」也被儲存。
「gamma1_azi[j][k]」係為表示,從向量γ
1觀看時的表示major軸向量γ
2或minor軸向量γ
3之相對性方向的水平方向之角度(旋轉角度)。
亦即,在此例中係可根據向量γ
1和角度「gamma1_azi[j][k]」,而獲得major軸向量γ
2及minor軸向量γ
3。
圖39係圖示了操作關連資訊
「LeftRightLineSymmetricDir()」之Syntax例。
在此例中,係和圖38的「NonSymmetricDir()」中的情況同樣地,混合數「mix_count[k]」為多少,就有多少個作為模型參數的「kappa[j][k]」、「weight[j][k]」、「gamma_azi[j][k]」、及「gamma_elev[j][k]」、和選擇旗標「dist_flag[j][k]」被儲存。
又,隨應於選擇旗標「dist_flag[j][k]」之值,作為模型參數的「beta[j][k]」及「gamma1_azi [j][k]」也被儲存。
再者,在操作關連資訊
「LeftRightLineSymmetricDir()」中,混合數「mix_count [k]」為多少,就有多少個將頻帶中的表示指向性增益之分布的混合模型予以構成的Kent分布或vMF分布等之每一分布(混合)的「sym_flag[k]」被儲存。
「sym_flag[k]」係為,針對身為對象之分布,表示是否進行對稱或旋轉等之操作的旗標資訊。例如旗標資訊「sym_flag[k]」之值「00」,係表示不進行對稱或旋轉這類操作,旗標資訊「sym_flag[k]」之值「01」,係表示進行對稱操作。
因此,例如操作關連資訊
「LeftRightLineSymmetricDir()」中所被儲存之所定之分布之旗標資訊「sym_flag[k]」之值為「01」的情況下,針對該分布會進行左右對稱操作。
模型資料中的操作關連資訊「FrontBackVerticalSymmetricDir()」、「FrontBackLeftRightSymmetricDir()」、「FrontBackSymmetricDir()」、「LeftRightVerticalLineSymmetricDir()」、「VerticalLineSymmetricDir()」、及「SymmetricDir()」的資料形式(Syntax),係被設成與圖39的「LeftRightLineSymmetricDir()」相同。
此情況下,各操作關連資訊內的旗標資訊「sym_flag[k]」,係被當作表示是否進行這些操作關連資訊所對應之操作的旗標資訊。
具體而言,例如操作關連資訊「VerticalLineSymmetricDir()」中所被儲存之所定之分布(混合)之旗標資訊「sym_flag[k]」之值為「01」的情況下,則針對該分布會進行上下對稱操作。
又,例如操作關連資訊「SymmetricDir()」中,係除了圖39所示的操作關連資訊
「LeftRightLineSymmetricDir()」中所被儲存的各資訊以外,還會隨應於旗標資訊「sym_flag[k]」之值,而被儲存有旋轉操作或對稱操作上所必須之資訊。
具體而言,例如參照圖31所說明的旋轉軸方位角「sym_azi」、旋轉軸仰角「sym_elev」、及旋轉角「sym_rotation」、或偏擺角「sym_yaw」、俯仰角「sym_pitch」、及翻滾角「sym_roll」,係適宜地被儲存在操作關連資訊中。然後,隨應於旗標資訊「sym_flag[k]」之值,按照構成混合模型的每一分布而進行旋轉操作或對稱操作。此情況下,根據旗標資訊「sym_flag[k]」之值,可以指定只進行旋轉操作或只進行對稱操作、進行旋轉操作與對稱操作之雙方等,可指定所要執行之操作的組合。
此外,亦可將操作關連資訊「SymmetricDir()」之構成,設成和圖31所示之例子相同的構成,藉由操作次數資訊「sym_operation_count」與操作旗標「sym_operation_flag」來規定旋轉操作或對稱操作之執行的有無。
甚至,在模型資料中被儲存有操作關連資訊「FrontBackVerticalSymmetricDir()」、「FrontBackLeftRightSymmetricDir()」、或「FrontBackSymmetricDir()」的情況下,亦即對稱性資訊「use_symmetry[j]」之值為「7」、「6」、或「5」的情況下,則指向性資料算出部82係在指向性資料的解碼時,進行對稱操作。
具體而言,對稱性資訊「use_symmetry[j]」之值為「7」的情況下,指向性資料算出部82,係針對旗標資訊「sym_flag[k]」之值為「01」的分布,進行上下前後對稱操作,獲得新的分布。
然後,指向性資料算出部82,係從該新的分布等,算出指向性資料(指向性增益)。又,其後,隨應於每一頻帶的交叉衰落旗標「fade_flag」之值,還會適宜地進行頻帶間之交叉衰落。
此處,所謂上下前後對稱操作係為,藉由對於身為操作對象之分布進行上下對稱操作及前後對稱操作,以獲得上下前後對稱之分布的操作。
此情況下所被進行的上下對稱操作係為,將從音源觀看的正面水平面(水平面)當作圖33所示的剖面SF11的對稱操作。換言之,以水平面為剖面SF11而進行參照圖33所說明的對稱操作,藉此而實現上下對稱操作。
又,前後對稱操作係為,將從音源觀看的正面正中面(正中面)往水平方向旋轉了90度所得到的面,當作圖33所示的剖面SF11的對稱操作。換言之,將正面正中面往水平方向旋轉了90度所得到的面當作剖面SF11而進行參照圖33所說明的對稱操作,以實現前後對稱操作。
對稱性資訊「use_symmetry[j]」之值為「6」的情況下,指向性資料算出部82,係針對旗標資訊「sym_flag[k]」之值為「01」的分布,進行前後左右對稱操作而獲得新的分布,並且使用所得到的分布來算出指向性資料。
所謂前後左右對稱操作係為,藉由對於身為操作對象之分布進行前後對稱操作及左右對稱操作,以獲得前後左右對稱之分布的操作。此情況下所被進行的左右對稱操作係為,將從音源觀看的正面正中面(正中面)當作圖33所示的剖面SF11的對稱操作。
再者,例如對稱性資訊「use_symmetry[j]」之值為「5」的情況下,指向性資料算出部82,係針對旗標資訊「sym_flag[k]」之值為「01」的分布,進行前後對稱操作而獲得新的分布,並且使用所得到的分布來算出指向性資料。
此外,進行了包含左右對稱操作或上下對稱操作、前後對稱操作之對稱操作的vMF分布或Kent分布等之分布,係在解碼時(復原時)跨越整個有被定義指向性資料的球表面全域皆為有效。又,亦可於操作對象之分布或藉由操作所得到的分布中係被定義有交界,而在該交界上,指向性增益會呈不連續。
除此以外,於第5實施形態中,針對每一頻帶之對稱性資訊「use_symmetry[j]」所規定的對稱或旋轉之操作,按照將頻帶之混合模型予以構成的Kent分布等之每一分布(混合)而實際是否進行對稱或旋轉之操作,是藉由旗標資訊「sym_flag[k]」來加以規定。
可是,不限於此,亦可按照將頻帶之混合模型予以構成的Kent分布等之每一分布(混合),來規定所要執行的對稱或旋轉之操作。
在如此的情況下,可考慮例如按照每一分布,適宜地將1bit的對稱性資訊「use_symmetry」與3bit的旗標資訊「sym_flag[k]」,儲存在模型資料的操作關連資訊等中,針對各分布來規定所要進行的操作。
在此例中,例如1bit的對稱性資訊「use_symmetry」,係被當作表示是否進行對稱或旋轉等之操作的旗標資訊。
具體而言,例如對稱性資訊「use_symmetry」之值為「1」的情況下,則進行對稱或旋轉等之操作,對稱性資訊「use_symmetry」之值為「0」的情況下,則不進行對稱或旋轉等之操作。
又,對稱性資訊「use_symmetry」之值為「0」的情況下,由於針對對象之分布係不進行對稱或旋轉之操作,因此在操作關連資訊等中係不會儲存關於該分布的旗標資訊「sym_flag[k]」。
相對於此,對稱性資訊「use_symmetry」之值為「1」的情況下,則由於針對對象之分布係會進行對稱或旋轉之操作,因此在操作關連資訊等中係會儲存有關於該分布的旗標資訊「sym_flag[k]」。
然後,在指向性資料算出部82中,旗標資訊「sym_flag[k]」之值所相應之操作會被進行,求出新的分布。
此時,對於旗標資訊「sym_flag[k]」之值「0」、「1」、「2」、「3」、「4」、「5」、「6」、及「7」,亦可分配例如:無操作、任意之對稱、旋轉之操作、上下對稱操作、左右對稱操作、上下左右對稱操作、前後對稱操作、前後左右對稱操作、及上下前後對稱操作。
〈其他〉
順便一提,圖12的步驟S52或圖20的步驟S117等,在概形指向性資料(指向性資料)的算出時,指向性資料算出部82係基於模型參數而算出各頻帶的混合模型F’(x;Θ)。
此時,指向性資料算出部82,係將從模型參數所獲得的Kent分布或vMF分布、複Bingham分布等構成這些混合模型的複數個分布,使用這些分布的權重ϕ
i,亦即上述的weight[j][k]或weight[i_band][i_mix]來進行加權加算,以算出混合模型F’(x;Θ)(指向性資料)。
各分布的權重ϕ
i之值,係以使得構成混合模型的複數個分布的權重ϕ
i之總和為1的方式而被決定,但各權重ϕ
i之值係亦可為正的值,亦可為負的值。
例如藉由將數個分布之權重ϕ
i設成負的值,就可以和濾波器中的頻通與帶阻濾波器之關係同樣地,在混合模型不只設置陡峭的峰值還可設置低點。
例如,將構成混合模型的Kent分布或vMF分布等之1個分布的權重ϕ
i設成正的值的情況下,若對該分布乘算權重ϕ
i,則權重ϕ
i之乘算後的分布,係變成例如圖40的箭頭Q101所示。
此外,於圖40中,橫方向係表示球表面上所被定義之Kent分布等之分布中的球表面上的所定之方向,縱方向係表示分布之各位置上的值,亦即指向性增益。
在箭頭Q101所示的例子中,可知權重ϕ
i乘算後之分布,在圖中係有朝上凸出的峰值。
相對於此,將構成混合模型的Kent分布或vMF分布等之1個分布的權重ϕ
i設成負的值的情況下,若對該分布乘算權重ϕ
i,則權重ϕi乘算後的分布,係變成例如箭頭Q102所示。在此例中,可知權重ϕ
i乘算後之分布,在圖中係有朝下凸出的低點。
因此,在關於頻帶的構成混合模型的全分布之權重ϕ
i之總和為1的此一條件下,若適宜地含有負的值來決定各分布的權重ϕ
i,則可自由度更高地,表現更多樣之形狀的混合模型。
如此,即使將任意之分布的權重ϕ
i設成負的值的情況下,只要以使得全分布的權重ϕ
i之總和會是1(1.0)的方式來做設定,就不會喪失一般性。
又,做權重ϕ
i之值也可取負的值的情況下,例如圖25或圖31、圖34等中的作為權重ϕ
i的10bit之權重weight[j][k]之中的上位1bit,就會作為符號bit而被使用。這在例如圖5中的權重weight[i_band][i_mix]中也是同樣如此。
〈電腦之構成例〉
順便一提,上述一連串處理,係可藉由硬體來執行,也可藉由軟體來執行。在以軟體來執行一連串之處理時,構成該軟體的程式,係可安裝至電腦。此處,電腦係包含:被組裝在專用硬體中的電腦、或藉由安裝各種程式而可執行各種機能的例如通用之個人電腦等。
圖41係以程式來執行上述一連串處理的電腦的硬體之構成例的區塊圖。
於電腦中,CPU(Central Processing Unit) 501、ROM(Read Only Memory)502、RAM(Random Access Memory)503,係藉由匯流排504而被彼此連接。
在匯流排504上係還連接有輸出入介面505。輸出入介面505上係連接有:輸入部506、輸出部507、記錄部508、通訊部509、及驅動機510。
輸入部506,係由鍵盤、滑鼠、麥克風、攝像元件等所成。輸出部507係由顯示器、揚聲器等所成。記錄部508,係由硬碟或非揮發性記憶體等所成。通訊部509係由網路介面等所成。驅動機510係驅動:磁碟、光碟、光磁碟、或半導體記憶體等之可移除式記錄媒體511。
在如以上構成的電腦中,藉由CPU501而例如將記錄部508中所記錄之程式透過輸出入介面505及匯流排504,而載入至RAM503裡並加以執行,就可進行上述一連串處理。
電腦(CPU501)所執行的程式,係可記錄在例如封裝媒體等之可移除式記錄媒體511中而提供。又,程式係可透過區域網路、網際網路、數位衛星播送這類有線或無線的傳輸媒體而提供。
在電腦中,程式係藉由將可移除式記錄媒體511裝著至驅動機510,就可透過輸出入介面505,安裝至記錄部508。又,程式係可透過有線或無線之傳輸媒體,以通訊部509接收之,安裝至記錄部508。除此以外,程式係可事前安裝在ROM502或記錄部508中。
此外,電腦所執行的程式,係可為依照本說明書所說明之順序而在時間序列上進行處理的程式,也可平行地,或呼叫進行時等必要之時序上進行處理的程式。
又,本技術的實施形態係不限定於上述實施形態,在不脫離本技術主旨的範圍內可做各種變更。
例如,本技術係亦可將1個機能透過網路而分擔給複數台裝置,採取共通進行處理的雲端運算之構成。
又,上述的流程圖中所說明的各步驟,係可由1台裝置來執行以外,亦可由複數台裝置來分擔執行。
甚至,若1個步驟中含有複數處理的情況下,該1個步驟中所含之複數處理,係可由1台裝置來執行以外,也可由複數台裝置來分擔執行。
甚至,本技術係亦可採取以下構成。
(1) 一種資訊處理裝置,係具備:
取得部,係取得將表示音源之指向性的指向性資料進行模型化所得到的模型資料;和
算出部,係基於前記模型資料,而算出前記指向性資料。
(2) 如(1)所記載之資訊處理裝置,其中,
前記模型資料中係含有,將前記指向性資料以由1或複數個分布所成之混合模型來進行模型化所得到的,構成前記混合模型的模型參數。
(3) 如(2)所記載之資訊處理裝置,其中,
前記1或複數個分布,係包含vMF分布和Kent分布之至少任一者。
(4) 如(2)或(3)所記載之資訊處理裝置,其中,
前記指向性資料,係含有複數個各頻率格之指向性增益;
前記模型資料中,係按照含有1或複數個前記頻率格的頻率帶寬也就是每一頻帶而含有:將表示前記指向性增益之分布的前記混合模型予以構成的前記模型參數。
(5) 如(4)所記載之資訊處理裝置,其中,
前記模型資料中係含有:前記頻率格上的表示前記指向性增益之動態範圍的比例因數、和前記頻率格上的前記指向性增益的最小值。
(6) 如(1)乃至(5)之任一項所記載之資訊處理裝置,其中,
前記模型資料中係含有:表示模型化前的前記指向性資料、與模型化後的前記指向性資料之差分的差分資訊;
還具備:加算部,係對已被前記算出部所算出之前記指向性資料,加算前記差分資訊。
(7) 如(6)所記載之資訊處理裝置,其中,
前記差分資訊,係被霍夫曼編碼。
(8) 如(1)乃至(7)之任一項所記載之資訊處理裝置,其中,
前記指向性資料,係含有複數個各頻率格之指向性增益;
還具備:補插處理部,係基於已被前記算出部所算出之前記指向性資料來進行補插處理,以算出新的前記頻率格之前記指向性增益。
(9) 如(1)乃至(8)之任一項所記載之資訊處理裝置,其中,
前記指向性資料,係含有複數個各資料點上的指向性增益;
還具備:補插處理部,係基於已被前記算出部所算出之前記指向性資料來進行補插處理,以算出新的前記資料點上的前記指向性增益。
(10) 如(1)乃至(9)之任一項所記載之資訊處理裝置,其中,
還具備:指向性卷積部,係將前記指向性資料和音訊資料進行卷積。
(11) 如(10)所記載之資訊處理裝置,其中,
還具備:HRTF卷積部,係將已被卷積有前記指向性資料的前記音訊資料、和HRTF,進行卷積。
(12) 如(2)所記載之資訊處理裝置,其中,
前記1或複數個分布,係含有複Bingham分布或複watson分布。
(13) 如(1)所記載之資訊處理裝置,其中,
前記模型資料中係含有:將前記指向性資料藉由球面調和函數展開而進行模型化所得到的球面調和係數,作為模型參數。
(14) 如(1)所記載之資訊處理裝置,其中,
前記模型資料中係含有:藉由彼此互異之1或複數個方式而將前記指向性資料進行模型化所得到的模型參數。
(15) 如(14)所記載之資訊處理裝置,其中,
前記方式係包含:以由1或複數個分布所成之混合模型來進行模型化的方式、及以球面調和函數展開來進行模型化的方式之其中至少任一者。
(16) 如(14)或(15)所記載之資訊處理裝置,其中,
前記模型資料中係還含有:表示前記1或複數個方式所致之模型化後的前記指向性資料、與模型化前的前記指向性資料之差分的差分資訊。
(17) 如(16)所記載之資訊處理裝置,其中,
前記差分資訊,係被霍夫曼編碼。
(18) 如(17)所記載之資訊處理裝置,其中,
前記差分資訊的實部與虛部之各者係被個別地霍夫曼編碼。
(19) 如(14)或(15)所記載之資訊處理裝置,其中,
前記模型資料中係含有:將表示前記1或複數個方式所致之模型化後的前記指向性資料、與模型化前的前記指向性資料之差分的差分資訊的空間上之位置間及頻率間之其中至少任一者之差分進行霍夫曼編碼所得到的差分編碼資料。
(20) 如(19)所記載之資訊處理裝置,其中,
前記模型資料中係含有:將前記差分資訊之差分的實部與虛部之各者個別地進行霍夫曼編碼所得到的前記差分編碼資料。
(21) 如(14)或(15)所記載之資訊處理裝置,其中,
前記模型資料中係含有:將前記指向性資料以所定之方式進行模型化所得到的前記模型參數、及將前記所定之方式所致之模型化後的前記指向性資料與模型化前的前記指向性資料之差分,以異於前記所定之方式的方式進行模型化所得到的其他模型參數。
(22) 如(14)或(15)所記載之資訊處理裝置,其中,
前記模型資料中係含有:將前記指向性資料以所定之方式進行模型化所得到的前記模型參數、及將前記所定之方式所致之模型化後的前記指向性資料與模型化前的前記指向性資料之比,以異於前記所定之方式的方式進行模型化所得到的其他模型參數。
(23) 如(14)或(15)所記載之資訊處理裝置,其中,
前記模型資料中係含有:將前記指向性資料進行模型化所得到的前記模型參數再進行模型化所得到的模型參數。
(24) 如(14)乃至(23)之任一項所記載之資訊處理裝置,其中,
前記模型資料中係含有:以隨著每一頻率帶寬而不同之方式將前記指向性資料進行模型化所得到的前記模型參數。
(25) 如(1)乃至(24)之任一項所記載之資訊處理裝置,其中,
前記指向性資料,係含有複數個各資料點上的指向性增益;
前記模型資料中係含有,表示前記資料點之配置方式的資訊、及用來特定前記資料點之配置位置所需之資訊。
(26) 如(25)所記載之資訊處理裝置,其中,
前記模型資料中係含有,表示前記音源之每一種別的前記指向性資料之優先度的優先度資訊。
(27) 如(26)所記載之資訊處理裝置,其中,
前記資料點之數量係隨著前記優先度而變化;
前記算出部係使用前記優先度資訊而特定出前記資料點之配置位置。
(28) 如(19)所記載之資訊處理裝置,其中,
前記指向性資料係含有複數個各資料點上的每一頻率格的指向性增益;
前記模型資料中係含有:前記差分資訊之排序後的,表示前記1或複數個方式所致之模型化後的前記指向性資料的前記指向性增益、與模型化前的前記指向性資料的前記指向性增益之差分的前記差分資訊的前記資料點間及前記頻率格間之其中至少任一者之差分的前記差分編碼資料。
(29) 如(28)所記載之資訊處理裝置,其中,
前記排序係為,按照預先決定之順序、前記資料點或是前記頻率格的優先度之順序、前記差分資訊之升順、或前記差分資訊之降順的排序。
(30) 如(4)所記載之資訊處理裝置,其中,
前記模型資料中係含有:將表示各前記頻率格上的前記指向性增益之動態範圍的比例因數、和各前記頻率格上的前記指向性增益的最小值之至少任一者,進行參數化所得到的參數。
(31) 如(2)乃至(5)之任一項所記載之資訊處理裝置,其中,
前記模型資料中係含有:旋轉操作或對稱操作所需之操作關連資訊;
前記算出部,係基於前記操作關連資訊,來對前記模型參數進行前記旋轉操作或前記對稱操作,以算出已被旋轉或對稱移動過的前記模型參數,並且使用藉由前記已被旋轉或對稱移動過的前記模型參數所得到的前記分布,來算出前記指向性資料。
(32) 如(4)或(5)所記載之資訊處理裝置,其中,
前記算出部,係藉由將所定之前記頻帶的前記混合模型之輸出值、與前記所定之前記頻帶所相鄰之其他前記頻帶的前記混合模型之輸出值,進行加權加算,以算出所定之前記頻率格的前記指向性增益。
(33) 如(2)乃至(5)之任一項所記載之資訊處理裝置,其中,
前記算出部,係藉由將從前記模型參數所得的複數個前記分布,使用含有負值的權重來進行加權加算,以算出前記指向性資料。
(34) 一種資訊處理方法,係
由資訊處理裝置:
取得將表示音源之指向性的指向性資料進行模型化所得到的模型資料;
基於前記模型資料,而算出前記指向性資料。
(35) 一種程式,係令電腦執行以下處理:
取得將表示音源之指向性的指向性資料進行模型化所得到的模型資料;
基於前記模型資料,而算出前記指向性資料。
(36) 一種資訊處理裝置,係具備:
模型化部,係將表示音源之指向性的指向性資料,以由1或複數個分布所成之混合模型來進行模型化;
模型資料生成部,係生成模型資料,其係含有:將藉由前記模型化所得到的前記混合模型予以構成的模型參數。
(37) 一種資訊處理方法,係
由資訊處理裝置:
將表示音源之指向性的指向性資料,以由1或複數個分布所成之混合模型來進行模型化;
生成模型資料,其係含有:將藉由前記模型化所得到的前記混合模型予以構成的模型參數。
(38) 一種程式,係令電腦執行以下處理:
將表示音源之指向性的指向性資料,以由1或複數個分布所成之混合模型來進行模型化;
生成模型資料,其係含有:將藉由前記模型化所得到的前記混合模型予以構成的模型參數。
(39) 一種資訊處理裝置,係具備:
取得部,係取得差分指向性資料,其係藉由,對於表示音源之指向性的指向性資料,且為由複數個各資料點上的複數個各頻率格的指向性增益所成之指向性資料,求出前記指向性增益的前記資料點間及前記頻率格間之其中至少任一者之差分,而被獲得;和
算出部,係基於前記差分指向性資料,而算出前記指向性資料。
(40) 如(39)所記載之資訊處理裝置,其中,
前記差分指向性資料,係被霍夫曼編碼;
前記算出部,係進行已被霍夫曼編碼的前記差分指向性資料之解碼。
(41) 如(40)所記載之資訊處理裝置,其中,
前記差分指向性資料的實部與虛部之各者係被個別地霍夫曼編碼。
(42) 如(39)乃至(41)之任一項所記載之資訊處理裝置,其中,
前記差分指向性資料,係藉由求出前記指向性增益之排序後的,前記資料點間及前記頻率格間之其中至少任一者之前記差分,而被獲得。
(43) 如(42)所記載之資訊處理裝置,其中,
前記排序係為,按照預先決定之順序、前記資料點或是前記頻率格的優先度之順序、前記指向性增益之升順、或前記指向性增益之降順的排序。
(44) 一種資訊處理方法,係
由資訊處理裝置:
取得差分指向性資料,其係藉由,對於表示音源之指向性的指向性資料,且為由複數個各資料點上的複數個各頻率格的指向性增益所成之指向性資料,求出前記指向性增益的前記資料點間及前記頻率格間之其中至少任一者之差分,而被獲得;和
基於前記差分指向性資料,而算出前記指向性資料。
(45) 一種程式,係令電腦執行以下處理:
取得差分指向性資料,其係藉由,對於表示音源之指向性的指向性資料,且為由複數個各資料點上的複數個各頻率格的指向性增益所成之指向性資料,求出前記指向性增益的前記資料點間及前記頻率格間之其中至少任一者之差分,而被獲得;和
基於前記差分指向性資料,而算出前記指向性資料。
11:伺服器
21:模型化部
22:模型資料生成部
23:音訊資料編碼部
24:輸出部
51:資訊處理裝置
61:取得部
62:分布模型解碼部
63:音訊資料解碼部
64:演繹處理部
81:解包部
82:指向性資料算出部
83:差分資訊解碼部
84:加算部
85:頻率補插處理部
86:指向性資料保持部
87:HRTF資料保持部
88:時間補插處理部
89:指向性卷積部
90:HRTF卷積部
201:指向性資料編碼部
211:模型參數推定部
212:殘差算出部
213:編碼方式選擇部
214:霍夫曼編碼部
215:模型資料生成部
241:模型參數推定部
242:演算部
243:模型參數推定部
244:演算部
245:差分編碼部
271:多段差分處理部
301:計算部
302:計算部
303:演算部
304:演算部
501:CPU
502:ROM
503:RAM
504:匯流排
505:輸出入介面
506:輸入部
507:輸出部
508:記錄部
509:通訊部
510:驅動機
511:可移除式記錄媒體
[圖1]混合高斯分布的說明圖。
[圖2]vMF分布和Kent分布的說明圖。
[圖3]指向性之例子的圖示。
[圖4]資料點的說明圖。
[圖5]模型資料之例子的圖示。
[圖6]頻帶與頻格之關係的說明圖。
[圖7]指向性資料之資料量之降低例的圖示。
[圖8]指向性資料之殘差的說明圖。
[圖9]伺服器之構成例的圖示。
[圖10]編碼處理的說明用流程圖。
[圖11]資訊處理裝置之構成例的圖示。
[圖12]指向性資料生成處理的說明用流程圖。
[圖13]輸出音訊資料生成處理的說明用流程圖。
[圖14]差分資訊之出現機率的說明圖。
[圖15]模型資料之例子的圖示。
[圖16]模型資料之例子的圖示。
[圖17]霍夫曼編碼表之傳輸的說明圖。
[圖18]霍夫曼編碼表之例子的圖示。
[圖19]伺服器之構成例的圖示。
[圖20]指向性資料生成處理的說明用流程圖。
[圖21]指向性資料編碼部之構成例的圖示。
[圖22]差分編碼部之構成例的圖示。
[圖23]模型資料生成處理的說明用流程圖。
[圖24]分布模型解碼部之構成例的圖示。
[圖25]模型資料之例子的圖示。
[圖26]資料點之配置例的圖示。
[圖27]資料點之描述例的圖示。
[圖28]各頻格的比例因數之例子的圖示。
[圖29]各頻格的最小值之例子的圖示。
[圖30]模型資料之例子的圖示。
[圖31]SymmetricDir()之Syntax例的圖示。
[圖32]旋轉操作的說明圖。
[圖33]對稱操作的說明圖。
[圖34]NonSymmetricDir()之Syntax例的圖示。
[圖35]模型資料之例子的圖示。
[圖36]各頻格的混合模型之輸出值之算出中所使用的權重之例子的圖示。
[圖37]模型資料之例子的圖示。
[圖38]NonSymmetricDir()之Syntax例的圖示。
[圖39]LeftRightLineSymmetricDir()之Syntax例的圖示。
[圖40]相應於權重之分布的說明圖。
[圖41]電腦之構成例的圖示。
51:資訊處理裝置
61:取得部
62:分布模型解碼部
63:音訊資料解碼部
64:演繹處理部
81:解包部
82:指向性資料算出部
83:差分資訊解碼部
84:加算部
85:頻率補插處理部
86:指向性資料保持部
87:HRTF資料保持部
88:時間補插處理部
89:指向性卷積部
90:HRTF卷積部
Claims (45)
- 一種資訊處理裝置,係具備: 取得部,係取得將表示音源之指向性的指向性資料進行模型化所得到的模型資料;和 算出部,係基於前記模型資料,而算出前記指向性資料。
- 如請求項1所記載之資訊處理裝置,其中, 前記模型資料中係含有,將前記指向性資料以由1或複數個分布所成之混合模型來進行模型化所得到的,構成前記混合模型的模型參數。
- 如請求項2所記載之資訊處理裝置,其中, 前記1或複數個分布,係包含vMF分布和Kent分布之至少任一者。
- 如請求項2所記載之資訊處理裝置,其中, 前記指向性資料,係含有複數個各頻率格之指向性增益; 前記模型資料中,係按照含有1或複數個前記頻率格的頻率帶寬也就是每一頻帶而含有:將表示前記指向性增益之分布的前記混合模型予以構成的前記模型參數。
- 如請求項4所記載之資訊處理裝置,其中, 前記模型資料中係含有:前記頻率格上的表示前記指向性增益之動態範圍的比例因數、和前記頻率格上的前記指向性增益的最小值。
- 如請求項1所記載之資訊處理裝置,其中, 前記模型資料中係含有:表示模型化前的前記指向性資料、與模型化後的前記指向性資料之差分的差分資訊; 還具備:加算部,係對已被前記算出部所算出之前記指向性資料,加算前記差分資訊。
- 如請求項6所記載之資訊處理裝置,其中, 前記差分資訊,係被霍夫曼編碼。
- 如請求項1所記載之資訊處理裝置,其中, 前記指向性資料,係含有複數個各頻率格之指向性增益; 還具備:補插處理部,係基於已被前記算出部所算出之前記指向性資料來進行補插處理,以算出新的前記頻率格之前記指向性增益。
- 如請求項1所記載之資訊處理裝置,其中, 前記指向性資料,係含有複數個各資料點上的指向性增益; 還具備:補插處理部,係基於已被前記算出部所算出之前記指向性資料來進行補插處理,以算出新的前記資料點上的前記指向性增益。
- 如請求項1所記載之資訊處理裝置,其中, 還具備:指向性卷積部,係將前記指向性資料和音訊資料進行卷積。
- 如請求項10所記載之資訊處理裝置,其中, 還具備:HRTF卷積部,係將已被卷積有前記指向性資料的前記音訊資料、和HRTF,進行卷積。
- 如請求項2所記載之資訊處理裝置,其中, 前記1或複數個分布,係含有複Bingham分布或複watson分布。
- 如請求項1所記載之資訊處理裝置,其中, 前記模型資料中係含有:將前記指向性資料藉由球面調和函數展開而進行模型化所得到的球面調和係數,作為模型參數。
- 如請求項1所記載之資訊處理裝置,其中, 前記模型資料中係含有:藉由彼此互異之1或複數個方式而將前記指向性資料進行模型化所得到的模型參數。
- 如請求項14所記載之資訊處理裝置,其中, 前記方式係包含:以由1或複數個分布所成之混合模型來進行模型化的方式、及以球面調和函數展開來進行模型化的方式之其中至少任一者。
- 如請求項14所記載之資訊處理裝置,其中, 前記模型資料中係還含有:表示前記1或複數個方式所致之模型化後的前記指向性資料、與模型化前的前記指向性資料之差分的差分資訊。
- 如請求項16所記載之資訊處理裝置,其中, 前記差分資訊,係被霍夫曼編碼。
- 如請求項17所記載之資訊處理裝置,其中, 前記差分資訊的實部與虛部之各者係被個別地霍夫曼編碼。
- 如請求項14所記載之資訊處理裝置,其中, 前記模型資料中係含有:將表示前記1或複數個方式所致之模型化後的前記指向性資料、與模型化前的前記指向性資料之差分的差分資訊的空間上之位置間及頻率間之其中至少任一者之差分進行霍夫曼編碼所得到的差分編碼資料。
- 如請求項19所記載之資訊處理裝置,其中, 前記模型資料中係含有:將前記差分資訊之差分的實部與虛部之各者個別地進行霍夫曼編碼所得到的前記差分編碼資料。
- 如請求項14所記載之資訊處理裝置,其中, 前記模型資料中係含有:將前記指向性資料以所定之方式進行模型化所得到的前記模型參數、及將前記所定之方式所致之模型化後的前記指向性資料與模型化前的前記指向性資料之差分,以異於前記所定之方式的方式進行模型化所得到的其他模型參數。
- 如請求項14所記載之資訊處理裝置,其中, 前記模型資料中係含有:將前記指向性資料以所定之方式進行模型化所得到的前記模型參數、及將前記所定之方式所致之模型化後的前記指向性資料與模型化前的前記指向性資料之比,以異於前記所定之方式的方式進行模型化所得到的其他模型參數。
- 如請求項14所記載之資訊處理裝置,其中, 前記模型資料中係含有:將前記指向性資料進行模型化所得到的前記模型參數再進行模型化所得到的模型參數。
- 如請求項14所記載之資訊處理裝置,其中, 前記模型資料中係含有:以隨著每一頻率帶寬而不同之方式將前記指向性資料進行模型化所得到的前記模型參數。
- 如請求項1所記載之資訊處理裝置,其中, 前記指向性資料,係含有複數個各資料點上的指向性增益; 前記模型資料中係含有,表示前記資料點之配置方式的資訊、及用來特定前記資料點之配置位置所需之資訊。
- 如請求項25所記載之資訊處理裝置,其中, 前記模型資料中係含有,表示前記音源之每一種別的前記指向性資料之優先度的優先度資訊。
- 如請求項26所記載之資訊處理裝置,其中, 前記資料點之數量係隨著前記優先度而變化; 前記算出部係使用前記優先度資訊而特定出前記資料點之配置位置。
- 如請求項19所記載之資訊處理裝置,其中, 前記指向性資料係含有複數個各資料點上的每一頻率格的指向性增益; 前記模型資料中係含有:前記差分資訊之排序後的,表示前記1或複數個方式所致之模型化後的前記指向性資料的前記指向性增益、與模型化前的前記指向性資料的前記指向性增益之差分的前記差分資訊的前記資料點間及前記頻率格間之其中至少任一者之差分的前記差分編碼資料。
- 如請求項28所記載之資訊處理裝置,其中, 前記排序係為,按照預先決定之順序、前記資料點或是前記頻率格的優先度之順序、前記差分資訊之升順、或前記差分資訊之降順的排序。
- 如請求項4所記載之資訊處理裝置,其中, 前記模型資料中係含有:將表示各前記頻率格上的前記指向性增益之動態範圍的比例因數、和各前記頻率格上的前記指向性增益的最小值之至少任一者,進行參數化所得到的參數。
- 如請求項2所記載之資訊處理裝置,其中, 前記模型資料中係含有:旋轉操作或對稱操作所需之操作關連資訊; 前記算出部,係基於前記操作關連資訊,來對前記模型參數進行前記旋轉操作或前記對稱操作,以算出已被旋轉或對稱移動過的前記模型參數,並且使用藉由前記已被旋轉或對稱移動過的前記模型參數所得到的前記分布,來算出前記指向性資料。
- 如請求項4所記載之資訊處理裝置,其中, 前記算出部,係藉由將所定之前記頻帶的前記混合模型之輸出值、與前記所定之前記頻帶所相鄰之其他前記頻帶的前記混合模型之輸出值,進行加權加算,以算出所定之前記頻率格的前記指向性增益。
- 如請求項2所記載之資訊處理裝置,其中, 前記算出部,係藉由將從前記模型參數所得的複數個前記分布,使用含有負值的權重來進行加權加算,以算出前記指向性資料。
- 一種資訊處理方法,係 由資訊處理裝置: 取得將表示音源之指向性的指向性資料進行模型化所得到的模型資料; 基於前記模型資料,而算出前記指向性資料。
- 一種程式,係令電腦執行以下處理: 取得將表示音源之指向性的指向性資料進行模型化所得到的模型資料; 基於前記模型資料,而算出前記指向性資料。
- 一種資訊處理裝置,係具備: 模型化部,係將表示音源之指向性的指向性資料,以由1或複數個分布所成之混合模型來進行模型化; 模型資料生成部,係生成模型資料,其係含有:將藉由前記模型化所得到的前記混合模型予以構成的模型參數。
- 一種資訊處理方法,係 由資訊處理裝置: 將表示音源之指向性的指向性資料,以由1或複數個分布所成之混合模型來進行模型化; 生成模型資料,其係含有:將藉由前記模型化所得到的前記混合模型予以構成的模型參數。
- 一種程式,係令電腦執行以下處理: 將表示音源之指向性的指向性資料,以由1或複數個分布所成之混合模型來進行模型化; 生成模型資料,其係含有:將藉由前記模型化所得到的前記混合模型予以構成的模型參數。
- 一種資訊處理裝置,係具備: 取得部,係取得差分指向性資料,其係藉由,對於表示音源之指向性的指向性資料,且為由複數個各資料點上的複數個各頻率格的指向性增益所成之指向性資料,求出前記指向性增益的前記資料點間及前記頻率格間之其中至少任一者之差分,而被獲得;和 算出部,係基於前記差分指向性資料,而算出前記指向性資料。
- 如請求項39所記載之資訊處理裝置,其中, 前記差分指向性資料,係被霍夫曼編碼; 前記算出部,係進行已被霍夫曼編碼的前記差分指向性資料之解碼。
- 如請求項40所記載之資訊處理裝置,其中, 前記差分指向性資料的實部與虛部之各者係被個別地霍夫曼編碼。
- 如請求項39所記載之資訊處理裝置,其中, 前記差分指向性資料,係藉由求出前記指向性增益之排序後的,前記資料點間及前記頻率格間之其中至少任一者之前記差分,而被獲得。
- 如請求項42所記載之資訊處理裝置,其中, 前記排序係為,按照預先決定之順序、前記資料點或是前記頻率格的優先度之順序、前記指向性增益之升順、或前記指向性增益之降順的排序。
- 一種資訊處理方法,係 由資訊處理裝置: 取得差分指向性資料,其係藉由,對於表示音源之指向性的指向性資料,且為由複數個各資料點上的複數個各頻率格的指向性增益所成之指向性資料,求出前記指向性增益的前記資料點間及前記頻率格間之其中至少任一者之差分,而被獲得;和 基於前記差分指向性資料,而算出前記指向性資料。
- 一種程式,係令電腦執行以下處理: 取得差分指向性資料,其係藉由,對於表示音源之指向性的指向性資料,且為由複數個各資料點上的複數個各頻率格的指向性增益所成之指向性資料,求出前記指向性增益的前記資料點間及前記頻率格間之其中至少任一者之差分,而被獲得;和 基於前記差分指向性資料,而算出前記指向性資料。
Applications Claiming Priority (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021177285 | 2021-10-29 | ||
JP2021-177285 | 2021-10-29 | ||
PCT/JP2022/000355 WO2023074009A1 (ja) | 2021-10-29 | 2022-01-07 | 情報処理装置および方法、並びにプログラム |
WOPCT/JP2022/000355 | 2022-01-07 | ||
WOPCT/JP2022/024014 | 2022-06-15 | ||
PCT/JP2022/024014 WO2023074039A1 (ja) | 2021-10-29 | 2022-06-15 | 情報処理装置および方法、並びにプログラム |
PCT/JP2022/040170 WO2023074800A1 (ja) | 2021-10-29 | 2022-10-27 | 情報処理装置および方法、並びにプログラム |
WOPCT/JP2022/040170 | 2022-10-27 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202325040A true TW202325040A (zh) | 2023-06-16 |
Family
ID=86159688
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW111141214A TW202325040A (zh) | 2021-10-29 | 2022-10-28 | 資訊處理裝置及方法、以及程式 |
Country Status (7)
Country | Link |
---|---|
EP (1) | EP4425960A1 (zh) |
JP (1) | JPWO2023074800A1 (zh) |
KR (1) | KR20240104089A (zh) |
AU (1) | AU2022375400A1 (zh) |
MX (1) | MX2024004869A (zh) |
TW (1) | TW202325040A (zh) |
WO (2) | WO2023074039A1 (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4572755B2 (ja) * | 2005-06-27 | 2010-11-04 | ソニー株式会社 | 復号化装置,復号化方法及びデジタル音声通信システム |
JP4888048B2 (ja) * | 2006-10-26 | 2012-02-29 | 日本電気株式会社 | オーディオ信号の符号化復号化方法、この方法を実施するための装置及びプログラム |
US8718285B2 (en) * | 2009-03-26 | 2014-05-06 | Panasonic Corporation | Decoding device, coding and decoding device, and decoding method |
WO2020255810A1 (ja) * | 2019-06-21 | 2020-12-24 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
JP7396029B2 (ja) | 2019-12-23 | 2023-12-12 | ティアック株式会社 | 録音再生装置 |
-
2022
- 2022-06-15 WO PCT/JP2022/024014 patent/WO2023074039A1/ja unknown
- 2022-10-27 MX MX2024004869A patent/MX2024004869A/es unknown
- 2022-10-27 KR KR1020247011453A patent/KR20240104089A/ko unknown
- 2022-10-27 EP EP22887125.7A patent/EP4425960A1/en active Pending
- 2022-10-27 JP JP2023556636A patent/JPWO2023074800A1/ja active Pending
- 2022-10-27 WO PCT/JP2022/040170 patent/WO2023074800A1/ja active Application Filing
- 2022-10-27 AU AU2022375400A patent/AU2022375400A1/en active Pending
- 2022-10-28 TW TW111141214A patent/TW202325040A/zh unknown
Also Published As
Publication number | Publication date |
---|---|
EP4425960A1 (en) | 2024-09-04 |
WO2023074039A1 (ja) | 2023-05-04 |
MX2024004869A (es) | 2024-05-06 |
WO2023074800A1 (ja) | 2023-05-04 |
AU2022375400A1 (en) | 2024-04-11 |
JPWO2023074800A1 (zh) | 2023-05-04 |
KR20240104089A (ko) | 2024-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9959875B2 (en) | Specifying spherical harmonic and/or higher order ambisonics coefficients in bitstreams | |
US9105271B2 (en) | Complex-transform channel coding with extended-band frequency coding | |
US8190425B2 (en) | Complex cross-correlation parameters for multi-channel audio | |
US7953604B2 (en) | Shape and scale parameters for extended-band frequency coding | |
US9466305B2 (en) | Performing positional analysis to code spherical harmonic coefficients | |
CN105264598A (zh) | 声场的经分解表示中的误差的补偿 | |
CN107710790A (zh) | 用于处理声音的装置、方法及程序 | |
KR20150115822A (ko) | 물리적 스피커들에 가상 스피커들을 맵핑하기 | |
US10515645B2 (en) | Method and apparatus for transforming an HOA signal representation | |
US10366698B2 (en) | Variable length coding of indices and bit scheduling in a pyramid vector quantizer | |
CN105659319A (zh) | 使用被插值矩阵的多通道音频的渲染 | |
US20230360665A1 (en) | Method and apparatus for processing audio for scene classification | |
TW202325040A (zh) | 資訊處理裝置及方法、以及程式 | |
WO2023074009A1 (ja) | 情報処理装置および方法、並びにプログラム | |
US9781539B2 (en) | Encoding device and method, decoding device and method, and program | |
TW202029185A (zh) | 音訊資料之靈活渲染 | |
US20210390964A1 (en) | Method and apparatus for encoding and decoding an hoa representation | |
EP4310839A1 (en) | Apparatus and method for processing multi-channel audio signal | |
KR20230157225A (ko) | 장면 분류를 위한 오디오 처리 방법 및 장치 | |
KR20220157848A (ko) | 다채널 오디오 신호 처리 장치 및 방법 | |
CN116917985A (zh) | 用于处理多通道音频信号的装置和方法 |