KR20240104089A - 정보 처리 장치 및 방법, 그리고 프로그램 - Google Patents

정보 처리 장치 및 방법, 그리고 프로그램 Download PDF

Info

Publication number
KR20240104089A
KR20240104089A KR1020247011453A KR20247011453A KR20240104089A KR 20240104089 A KR20240104089 A KR 20240104089A KR 1020247011453 A KR1020247011453 A KR 1020247011453A KR 20247011453 A KR20247011453 A KR 20247011453A KR 20240104089 A KR20240104089 A KR 20240104089A
Authority
KR
South Korea
Prior art keywords
data
directivity
model
information
directional
Prior art date
Application number
KR1020247011453A
Other languages
English (en)
Inventor
류이치 남바
도루 치넨
미노루 츠지
미츠유키 하타나카
히로유키 혼마
야스히로 도구리
Original Assignee
소니그룹주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니그룹주식회사 filed Critical 소니그룹주식회사
Publication of KR20240104089A publication Critical patent/KR20240104089A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Abstract

본 기술은, 지향성 데이터의 전송량을 저감시킬 수 있도록 하는 정보 처리 장치 및 방법, 그리고 프로그램에 관한 것이다. 정보 처리 장치는, 음원의 지향성을 나타내는 지향성 데이터를 모델화함으로써 얻어진 모델 데이터를 취득하는 취득부와, 모델 데이터에 기초하여, 지향성 데이터를 산출하는 산출부를 구비한다. 본 기술은 정보 처리 장치에 적용할 수 있다.

Description

정보 처리 장치 및 방법, 그리고 프로그램
본 기술은, 정보 처리 장치 및 방법, 그리고 프로그램에 관한 것으로, 특히, 지향성 데이터의 전송량을 저감시킬 수 있도록 한 정보 처리 장치 및 방법, 그리고 프로그램에 관한 것이다.
종래, 음원의 지향성을 고려함으로써, 보다 현장감이 높은 오디오 재생을 실현할 수 있는 것이 알려져 있다.
예를 들어, 오브젝트의 오디오 데이터와 함께, 오브젝트로부터의 소리의 지향성을 나타내는 지향성 데이터를 준비하면, 오디오 데이터와 지향성 데이터를 사용하여, 오브젝트의 지향 특성에 기초하는 오디오 재생을 행하는 것이 가능하다.
또한, 지향성에 관한 기술로서, 예를 들어 녹음 시에 있어서 유저가 지향성 방향을 임의로 선택해서 녹음할 수 있으며, 또한 재생 시에 있어서 유저가 녹음 시의 지향성 방향과는 별도로 원하는 지향성의 방향을 선택해서 재생하는 기술이 제안되어 있다(예를 들어, 특허문헌 1 참조).
일본 특허 공개 제2021-100209호 공보
그런데, 음원마다 지향 특성(지향성)은 다르기 때문에, 콘텐츠로서, 오브젝트의 오디오 데이터와, 그 오브젝트의 지향성 데이터를 제공할 경우, 음원의 종별, 즉 오브젝트의 종별마다 지향성 데이터를 준비할 필요가 있다. 또한, 보다 많은 방향 및 주파수에 대해서 지향성에 관한 정보를 부여하려고 하면, 지향성 데이터의 데이터양이 많아져 버린다.
그러면, 콘텐츠의 배신처에 대한 지향성 데이터의 전송량이 많아져 버려, 전송 지연이 발생하거나, 전송 레이트가 증대하거나 할 우려가 있다.
본 기술은, 이러한 상황을 감안하여 이루어진 것으로, 지향성 데이터의 전송량을 저감시킬 수 있도록 하는 것이다.
본 기술의 제1 측면의 정보 처리 장치는, 음원의 지향성을 나타내는 지향성 데이터를 모델화함으로써 얻어진 모델 데이터를 취득하는 취득부와, 상기 모델 데이터에 기초하여, 상기 지향성 데이터를 산출하는 산출부를 구비한다.
본 기술의 제1 측면의 정보 처리 방법 또는 프로그램은, 음원의 지향성을 나타내는 지향성 데이터를 모델화함으로써 얻어진 모델 데이터를 취득하고, 상기 모델 데이터에 기초하여, 상기 지향성 데이터를 산출하는 스텝을 포함한다.
본 기술의 제1 측면에서는, 음원의 지향성을 나타내는 지향성 데이터를 모델화함으로써 얻어진 모델 데이터가 취득되고, 상기 모델 데이터에 기초하여, 상기 지향성 데이터가 산출된다.
본 기술의 제2 측면의 정보 처리 장치는, 음원의 지향성을 나타내는 지향성 데이터를, 복수의 분포를 포함하는 혼합 모델에 의해 모델화하는 모델화부와, 상기 모델화에 의해 얻어진, 상기 혼합 모델을 구성하는 모델 파라미터를 포함하는 모델 데이터를 생성하는 모델 데이터 생성부를 구비한다.
본 기술의 제2 측면의 정보 처리 방법 또는 프로그램은, 음원의 지향성을 나타내는 지향성 데이터를, 복수의 분포를 포함하는 혼합 모델에 의해 모델화하고, 상기 모델화에 의해 얻어진, 상기 혼합 모델을 구성하는 모델 파라미터를 포함하는 모델 데이터를 생성하는 스텝을 포함한다.
본 기술의 제2 측면에서는, 음원의 지향성을 나타내는 지향성 데이터가, 복수의 분포를 포함하는 혼합 모델에 의해 모델화되고, 상기 모델화에 의해 얻어진, 상기 혼합 모델을 구성하는 모델 파라미터를 포함하는 모델 데이터가 생성된다.
도 1은 혼합 가우스 분포에 대해서 설명하는 도면이다.
도 2는 vMF 분포와 Kent 분포에 대해서 설명하는 도면이다.
도 3은 지향성의 예를 나타내는 도면이다.
도 4는 데이터 포인트에 대해서 설명하는 도면이다.
도 5는 모델 데이터의 예를 나타내는 도면이다.
도 6은 밴드와 빈의 관계에 대해서 설명하는 도면이다.
도 7은 지향성 데이터의 데이터양의 저감예를 나타내는 도면이다.
도 8은 지향성 데이터의 잔차에 대해서 설명하는 도면이다.
도 9는 서버의 구성예를 나타내는 도면이다.
도 10은 부호화 처리를 설명하는 흐름도이다.
도 11은 정보 처리 장치의 구성예를 나타내는 도면이다.
도 12는 지향성 데이터 생성 처리를 설명하는 흐름도이다.
도 13은 출력 오디오 데이터 생성 처리를 설명하는 흐름도이다.
도 14는 차분 정보의 출현 확률에 대해서 설명하는 도면이다.
도 15는 모델 데이터의 예를 나타내는 도면이다.
도 16은 모델 데이터의 예를 나타내는 도면이다.
도 17은 허프만 부호화 테이블의 전송에 대해서 설명하는 도면이다.
도 18은 허프만 부호화 테이블의 예를 나타내는 도면이다.
도 19는 서버의 구성예를 나타내는 도면이다.
도 20은 지향성 데이터 생성 처리를 설명하는 흐름도이다.
도 21은 지향성 데이터 부호화부의 구성예를 나타내는 도면이다.
도 22는 차분 부호화부의 구성예를 나타내는 도면이다.
도 23은 모델 데이터 생성 처리를 설명하는 흐름도이다.
도 24는 분포 모델 복호부의 구성예를 나타내는 도면이다.
도 25는 모델 데이터의 예를 나타내는 도면이다.
도 26은 데이터 포인트의 배치예를 나타내는 도면이다.
도 27은 데이터 포인트의 기술예를 나타내는 도면이다.
도 28은 각 빈의 스케일 팩터의 예를 나타내는 도면이다.
도 29는 각 빈의 최솟값의 예를 나타내는 도면이다.
도 30은 모델 데이터의 예를 나타내는 도면이다.
도 31은 SymmetricDir( )의 Syntax예를 나타내는 도면이다.
도 32는 회전 조작에 대해서 설명하는 도면이다.
도 33은 대칭 조작에 대해서 설명하는 도면이다.
도 34는 NonSymmetricDir( )의 Syntax예를 나타내는 도면이다.
도 35는 모델 데이터의 예를 나타내는 도면이다.
도 36은 각 빈의 혼합 모델의 출력값의 산출에 사용하는 가중치의 예를 나타내는 도면이다.
도 37은 모델 데이터의 예를 나타내는 도면이다.
도 38은 NonSymmetricDir( )의 Syntax예를 나타내는 도면이다.
도 39는 LeftRightLineSymmetricDir( )의 Syntax예를 나타내는 도면이다.
도 40은 가중치에 따른 분포에 대해서 설명하는 도면이다.
도 41은 컴퓨터의 구성예를 나타내는 도면이다.
이하, 도면을 참조하여 본 기술을 적용한 실시 형태에 대해서 설명한다.
<제1 실시 형태>
<본 기술에 대해서>
본 기술은, 지향성 데이터를 모델화함으로써, 지향성 데이터의 전송량을 저감시킬 수 있도록 하는 것이다.
본 기술에서는, 예를 들어 콘텐츠로서, 3D 음원의 오디오 데이터와 지향성 데이터가 제공된다.
구체적으로는, 예를 들어 3D 음원으로서 1개 또는 복수의 오디오 오브젝트(이하, 단순히 오브젝트라고 칭함)의 소리가 수음(수록)되어, 각 오브젝트의 오디오 데이터가 생성된다. 또한, 오브젝트의 종별, 즉 음원 종별마다, 오브젝트(음원)의 지향 특성, 즉 지향성을 나타내는 지향성 데이터가 준비된다.
또한, 각 오브젝트의 오디오 데이터와, 음원 종별마다의 지향성 데이터가 콘텐츠의 데이터로서 제공된다. 즉, 오브젝트의 오디오 데이터와 함께 지향성 데이터가 재생측 장치에 전송된다. 그리고 재생측에서는, 콘텐츠를 구성하는 오디오 데이터와 지향성 데이터에 기초하여, 지향성 데이터를 고려한 오디오 재생이 행해진다.
지향성 데이터는, 예를 들어 오브젝트의 소리를 복수의 마이크로폰으로 수록함으로써 얻을 수 있다. 또한, 지향성 데이터의 수록은, 오브젝트의 오디오 데이터의 수록과 동시에 행해져도 되고, 오브젝트의 오디오 데이터의 수록과는 다른 타이밍에 행해져도 된다.
지향성 데이터는, 예를 들어 음성이나 악기, 스피커 등의 음원 종별마다 준비된다. 또한, 지향성 데이터는, 예를 들어 음원에서 본 각 방향에 있는 위치에 대해서, DC가 되는 주파수부터 나이키스트 주파수까지의 전주파수 대역에서의 대상 주파수마다, 음원으로부터의 소리의 진폭과 위상의 정보를 갖는 데이터이다.
예를 들어 음원에서 본 방향은, 음원 위치에서 본 수평 방향의 각도, 즉 방위각과, 음원 위치에서 본 수직 방향의 각도, 즉 앙각에 의해 표현된다. 이때, 예를 들어 방위각의 범위는 0도 내지 360도의 범위가 되고, 앙각의 범위는 -90도 내지 +90도의 범위가 된다.
본 기술에서는, 이러한 지향성 데이터를 이산화 및 압축함에 있어서, 직접, 데이터가 압축되는 것이 아니라, 모델화에 의한 파라메트릭 압축이 행해진다.
또한, 본 기술에서는, 모델화의 대상이 되는 지향성 데이터는, 수록 등에 의해 얻어진 지향성 데이터를 적절하게 이산화 및 정규화함으로써 얻어진 것이 된다.
이하에서는, 모델화의 대상이 되는 지향성 데이터는, 복수의 각 데이터 포인트에서의, 음원의 복수의 이산적인 각 주파수의 지향 특성을 나타내는 게인(이하, 지향성 게인이라고 칭함)을 포함하는 것으로서 설명을 행한다.
예를 들어 데이터 포인트가 되는 위치는, 음원 위치를 원점으로 하는 극좌표계의 좌표(극좌표), 즉 음원 위치에서 본 수평 방향의 위치를 나타내는 방위각과, 음원 위치에서 본 수직 방향의 위치를 나타내는 앙각에 의해 나타낼 수 있다. 또한, 데이터 포인트의 위치를 나타내는데 음원 위치로부터의 거리(반경)가 사용되도록 해도 된다. 또한, 지향성 게인은, 데이터 포인트에서의 음원으로부터의 소리의 진폭(음압)을 정규화함으로써 얻을 수 있다.
(음원의 지향성 데이터의 기록 방식에 대해서)
음원 종별마다의 지향성 데이터의 기록 방식에 대해서 설명한다.
본 기술에서는, 지향성 데이터의 모델화에는, 평면 상에서 정의되는 다변량/단변량의 가우스 분포에 상당하는, 구면 상의 vMF(von Mises Fisher) 분포, Kent 분포 또는 vMF 분포와 Kent 분포의 적어도 어느 것을 포함하는 혼합 모델이 사용된다.
또한, vMF 분포나 Kent 분포, 혼합 모델에 대해서는, 예를 들어 「John T. Kent(1982). The Fisher-Bingham Distribution on the Sphere」 등에 상세하게 기재되어 있다.
먼저, 일반적인 혼합 가우스 분포에 대해서 설명한다.
예를 들어 도 1의 화살표 Q11에 나타내는 부분에는, 2차원의 가우스 분포가 나타내져 있다. 이 예에서는, 직선 상에 2개의 가우스 분포가 존재하고 있다. 즉, 곡선 L11은 1개의 가우스 분포를 나타내고 있고, 곡선 L12는 다른 1개의 가우스 분포를 나타내고 있다.
또한, 곡선 L13은, 곡선 L11에 나타내는 가우스 분포와, 곡선 L12에 나타내는 가우스 분포를 혼합함으로써 얻어지는 혼합 가우스 분포를 나타내고 있다.
한편, 도 1에서의 화살표 Q12에 나타내는 부분에는, 평면 상에서의 3개의 분포가 나타내져 있다. 이러한 평면 상의 복수의 분포를 혼합할 수도 있다.
통상, 혼합 가우스 분포는, 평면 상에서의 확률 밀도 분포(pdf(Probability Density Function))를 표현하는데 이용된다. 원하는 pdf를 적은 모델 파라미터이면서 또한 가능한 한 적은 혼합수로 표현함으로써 정보량의 삭감이 가능해진다.
본 기술에서는, 구 표면 상에서 정의되는 가우스 분포에 상당하는 vMF 분포나 Kent 분포의 혼합 모델이 사용되며, 구 표면 상의 지향성 데이터, 즉 지향성 게인의 형상(분포)이 모델화된다.
혼합 모델은, 1개 또는 복수의 vMF 분포에 의해 구성되어도 되고, 1개 또는 복수의 Kent 분포에 의해 구성되어도 되고, 1 이상의 vMF 분포와 1 이상의 Kent 분포에 의해 구성되어도 된다. 즉, 혼합 모델은, vMF 분포와 Kent 분포의 적어도 어느 것을 포함하는 1개 또는 복수의 분포에 의해 구성된다.
구 표면의 위치를 나타내는 위치 벡터, 즉 직교 좌표계(데카르트 좌표계)의 좌표를 x로 하면, 위치 벡터 x에 대응하는 Kent 분포의 값 f(x), 즉 위치 벡터 x에 의해 나타내지는 위치에서의 Kent 분포의 값 f(x)는, 다음 식 (1)에 의해 나타낼 수 있다.
Figure pct00001
또한, 식 (1)에서, κ는 파라미터 집중도를 나타내고 있고, β는 타원율을 나타내고 있다. 또한, γ1은 mean direction 분포의 중심을 규정하는 벡터를 나타내고 있고, γ2는 major축 벡터를 나타내고 있고, γ3은 minor축 벡터를 나타내고 있다.
또한, c(κ, β)는 다음 식 (2)에 나타내는 정규화 상수이다. 또한, 식 (2)에서 Γ는 감마 함수를 나타내고 있고, I는 제1종 변형 베셀 함수를 나타내고 있다.
Figure pct00002
또한, 위치 벡터 x에 의해 나타내지는 위치에서의 vMF 분포의 값도 식 (1)과 마찬가지의 식에 의해 나타낼 수 있다. 그러한 경우, 식 (1)에서의 타원율 β의 값은 0이 된다.
도 2에 vMF 분포와 Kent 분포의 예를 나타낸다.
도 2에서는, 화살표 Q21에 나타내는 부분에는 vMF 분포의 예가 나타내져 있다. 특히, 벡터 V11은, 식 (1)에 나타낸 벡터 γ1을 나타내고 있다.
vMF 분포는, 타원율 β, major축 벡터 γ2 및 minor축 벡터 γ3을 파라미터로서 갖지 않고, 구 표면 상에서, 벡터 V11(벡터 γ1)에 의해 나타내지는 위치를 중심으로 해서 등방적으로 넓어져 가는 원 형상의 분포로 되어 있다. 즉, vMF 분포(vMF 분포 모델)를 사용하면, 원 형상의 분포를 재현할 수 있다.
이에 반해, 화살표 Q22에 나타내는 부분에는 Kent 분포의 예가 나타내져 있다. 특히, 벡터 V21 내지 벡터 V23은, 식 (1)에 나타낸 벡터 γ1, major축 벡터 γ2 및 minor축 벡터 γ3을 나타내고 있다.
Kent 분포는, 구 표면 상에서, 벡터 V21(벡터 γ1)에 의해 나타내지는 위치를 중심으로 해서, 구 표면 상의 major축 벡터 γ2 및 minor축 벡터 γ3을 장축 및 단축으로 하는 타원 형상의 분포로 되어 있다. 즉, Kent 분포(Kent 분포 모델)를 사용하면, 타원율 β, major축 벡터 γ2 및 minor축 벡터 γ3에 의해 정해지는 타원 형상의 분포를 재현할 수 있다.
Kent 분포는, 타원율 β 등의 파라미터에 의해 타원의 형상을 변화시킬 수 있으므로 자유도는 높지만, 파라미터수는 vMF 분포보다 많아져 버린다.
본 기술에서는, vMF 분포나 Kent 분포를 혼합해서 얻어지는 혼합 모델이 사용되어 지향성 데이터가 표현된다(모델화된다).
예를 들어, 식 (1)에서의 경우와 마찬가지의 위치 벡터 x에 의해 나타내지는 위치에서의, N개의 Kent 분포 f(x; θi)를 사용한 혼합 모델의 출력값 F(x; Θ)는, 다음 식 (3)에 의해 나타낼 수 있다. 즉, 혼합 모델 F(x; Θ)는, N개의 Kent 분포 f(x; θi)의 가중 가산에 의해 표기할 수 있다.
Figure pct00003
또한, 식 (3)에서 Kent 분포 f(x; θi)는, 상술한 식 (1)에 나타낸 것과 마찬가지이며, 혼합하는 N개의 Kent 분포 중 i번째의 Kent 분포를 나타내고 있다.
또한, θi는 Kent 분포 f(x; θi)를 구성하는 파라미터, 보다 상세하게는 파라미터의 집합이며, 파라미터 θi는, 식 (1)에서의 파라미터 집중도 κ, 타원율 β, 벡터 γi, major축 벡터 γ2 및 minor축 벡터 γ3을 포함한다. 혼합 모델 F(x; Θ)의 파라미터 Θ는, N개의 Kent 분포 f(x; θi)의 파라미터 θi의 집합을 나타내고 있다.
또한 식 (3)에서, φi는 N개의 Kent 분포를 혼합할 때의 i번째의 Kent 분포 f(x; θi)의 가중치(가중 계수)를 나타내고 있고, 다음 식 (4)에 나타내는 바와 같이, N개의 Kent 분포 f(x; θi)의 가중치 φi의 총합은 1이 된다.
Figure pct00004
본 기술에서 사용되는 지향성 데이터는, 오브젝트의 주위에 배치된 복수의 마이크로폰을 포함하는 마이크 어레이로 수록(수음)을 행함으로써 얻을 수 있다.
일례로서, 트럼펫의 연주음을 수록하면, 도 3에 나타내는 지향성이 관측된다. 특히, 도면 중, 좌측에는 수평면, 즉 앙각이 0도가 되는 면에서의 각 주파수의 지향성이 나타내져 있고, 도면 중, 우측에는 정중면에서의 각 주파수의 지향성이 나타내져 있다.
이 예에서는, 수평면 및 정중면의 양쪽에서, 주파수(피치)에 의해 지향성의 개형이 변화하여, 저역측 주파수에서는 지향성은 작지만, 주파수가 높아짐에 따라서 지향성이 커져(날카로워져) 가는 것을 알 수 있다. 예를 들어 수평면에서는, 8000Hz에 있어서 방향에 따라서는 최대 25dB 정도의 음압차가 생기고 있다.
그런데, 모델화 대상이 되는 지향성 데이터에서는, 예를 들어 도 4에 나타내는 바와 같이 음원 위치를 중심으로 하는 구 표면 상에 복수의 데이터 포인트가 마련된다. 도 4의 예에서는, 1개의 점이 1개의 데이터 포인트를 나타내고 있어, 구 표면 전체에 다수의 데이터 포인트가 존재하는 것을 알 수 있다.
여기서, 예를 들어 방위각 방향으로 2도의 간격(2도마다)이면서 또한 앙각 방향으로도 2도의 간격으로 데이터 포인트를 마련한다고 하면, 구 표면 전체에는 16022개의 데이터 포인트가 마련되게 된다. 또한, 그러한 경우에, 각 데이터 포인트에 대해서 19Hz 내지 20kHz를 대상으로 한 512개의 빈(주파수 빈)에서의 지향성 게인(음압)을 전송하려고 하면, 1음원의 지향성 데이터는 약 31MB가 된다.
이와 같이, 음원 종별마다의 지향성 데이터는 데이터 사이즈가 크기 때문에, 전송량이 많아져 버린다.
또한, 음성에도 모음과 자음 등이 있고, 악기도 연주 방법에 따라서 지향성이 다른 등, 음원 종별의 다양성이 매우 크기 때문에, 음원 종별마다 지향성 데이터를 준비하려고 하면, 다수의 지향성 데이터가 필요하게 된다.
이러한 점에서, 지향성 데이터의 전송량이 많아져 버리는데, 지향성 데이터의 전송량의 증가는 전송 지연의 발생이나 전송 레이트의 증대 요인이 된다. 그 때문에, 경우에 따라서는 음원 종별이나 주파수, 오브젝트와 수청자의 배향 등에 따른 지향성의 재현을 할 수 없게 되어 버리는 경우가 있다.
그래서, 본 기술에서는, 상술한 바와 같이 혼합 모델을 사용하여 지향성 데이터를 모델화함으로써, 지향성 데이터의 전송량을 저감할 수 있도록 하였다.
<모델 데이터의 예>
여기서, 지향성 데이터를 모델화함으로써 얻어지는 모델 데이터의 구체적인 예에 대해서 설명한다.
본 기술에서는, 지향성 데이터의 전송 시에, vMF 분포나 Kent 분포를 포함하는 혼합 모델에 기초하는 지향성 데이터의 모델화가 행해지고, 그 결과 얻어진, 혼합 모델을 구성하는 모델 파라미터 등을 포함하는 모델 데이터가 생성된다. 그리고 그 모델 데이터가 콘텐츠의 재생측 장치에 전송된다. 이에 의해, 데이터 사이즈가 큰 원래의 지향성 데이터의 전송이 불필요하게 된다. 바꾸어 말하면, 지향성 데이터의 전송 시의 데이터양(전송량)을 저감시킬 수 있다.
여기서, num_sound_types_id로 지정되는 1개의 음원 종별의 모델 데이터의 예를 도 5에 나타낸다. 이 예에서는 1개의 음원 종별의 모델 데이터가 directivityConfig로서 기술되어 있다.
모델 데이터에는, 데이터 포인트수 「num_point_indices」에 의해 나타내지는 수만큼, 모델화 전의 원래의 지향성 데이터에서의 데이터 포인트의 위치를 나타내는 방위각 「azimuth_table[i]」, 앙각 「elevation_table[i]」 및 반경 「distance[i]」이 포함되어 있다.
데이터 포인트의 위치는, 음원 위치에서 본 데이터 포인트의 수평 방향의 각도인 방위각 「azimuth_table[i]」, 음원 위치에서 본 데이터 포인트의 수직 방향의 각도인 앙각 「elevation_table[i]」 및 음원 위치부터 데이터 포인트까지의 거리인 반경 「distance[i]」를 포함하는, 음원 위치를 원점으로 하는 극좌표계의 좌표에 의해 표현된다.
또한, 모델 데이터에는, 주파수 포인트수 「bin_count」와 주파수 「freq[i_bin]」이 포함되어 있다. 모델화 전의 원래의 지향성 데이터에서는, 대상이 되는 주파수 대역 전체가 주파수 포인트수 「bin_count」에 의해 나타내지는 수의 주파수 대역(주파수)인 주파수 빈, 즉 빈(bin)으로 분할되고, 그러한 빈 중 i번째의 빈의 중심 주파수(Hz)가 주파수 「freq[i_bin]」이 된다.
따라서, 모델화 전의 원래의 지향성 데이터에는, 복수의 각 데이터 포인트에서의 1개 또는 복수의 각 빈(주파수 빈)의 지향성 게인이 포함되어 있다.
또한 모델 데이터에는, Kent 분포나 vMF 분포에 관한 파라미터로서, 모델화하는 밴드수 「band_count」, 각 밴드에서의 혼합수 「mix_count[i_band]」, 각 밴드에 포함되는 모델화 전의 원래의 지향성 데이터의 빈 정보 「bin_range_per_band[i_band]」가 포함되어 있다.
예를 들어 모델화에서는, 대상이 되는 주파수 대역 전체가 밴드수 「band_count」에 의해 나타내지는 수의 주파수 대역인 밴드(band)로 분할되고, 그러한 밴드마다 지향성 게인의 분포가 혼합 모델에 의해 표현된다. 바꾸어 말하면, 각 밴드에서의 지향성 게인의 분포를 나타내는 혼합 모델을 구성하는 모델 파라미터가 추정된다. 또한, 각 밴드(band)에 의해 나타내지는 주파수 대역에는, 반드시 1개 또는 복수의 빈에 의해 나타내지는 주파수, 즉 빈의 중심 주파수 「freq[i_bin]」이 포함되어 있다(속해 있다).
혼합수 「mix_count[i_band]」는, i번째의 밴드의 지향성 게인의 분포를 나타내는 혼합 모델을 구성하는 분포의 수, 즉 Kent 분포나 vMF 분포의 수를 나타내고 있고, 이 혼합수는 식 (3)에서의 N에 대응한다.
지향성 데이터의 빈 정보 「bin_range_per_band[i_band]」는, i번째의 밴드에 포함되어 있는, 모델화 전의 원래의 지향성 데이터에 관한 빈(bin)을 나타내는 정보이다. 예를 들어 빈 정보는, i번째의 밴드에 속하는 가장 큰 주파수의 빈을 나타내는 인덱스 정보 등이 된다. 빈 정보 「bin_range_per_band[i_band]」를 참조하면, 모델화 전의 원래의 지향성 데이터에 관한 빈(주파수 빈)이, 모델화 후의 어느 밴드에 포함되어 있는지를 특정할 수 있다.
또한, 모델 데이터에는, Kent 분포나 vMF 분포에 관한 파라미터로서, 각 밴드에 대해서, 혼합 모델을 구성하는 분포(Kent 분포 또는 vMF 분포)마다, 상술한 가중치 φi, 파라미터 집중도 κ 및 벡터 γ1이 포함되어 있다.
이 예에서는, 「weight[i_band][i_mix]」 및 「kappa[i_band][i_mix]」가 「i_band」에 의해 나타내지는 i번째의 밴드에 관한 「i_mix」에 의해 나타내지는 분포의 가중치 φi 및 파라미터 집중도 κ를 나타내고 있다.
또한, 「gamma1[i_band][i_mix][x]」 및 「gamma1[i_band][i_mix][y]」는, i번째의 밴드 「i_band」에 관한 「i_mix」에 의해 나타내지는 분포의 벡터 γ1을 구성하는 X 성분(X 좌표) 및 Y 성분(Y 좌표)을 나타내고 있다.
모델 데이터에는, 혼합 모델을 구성하는 i번째의 밴드 「i_band」에 관한 「i_mix」에 의해 나타내지는 분포가 Kent 분포와 vMF 분포의 어느 분포인지를 나타내는 선택 플래그 「dist_flag」가 포함되어 있다.
선택 플래그 「dist_flag」의 값 「1」은 분포가 Kent 분포인 것을 나타내고 있고, 선택 플래그 「dist_flag」의 값 「0」은 분포가 vMF 분포인 것을 나타내고 있다.
선택 플래그 「dist_flag」의 값이 「1」일 경우, 모델 데이터에는 상술한 타원율 β, major축 벡터 γ2 및 minor축 벡터 γ3이 포함되어 있다.
「beta[i_band][i_mix]」는 「i_band」에 의해 나타내지는 i번째의 밴드에 관한 「i_mix」에 의해 나타내지는 분포(Kent 분포)의 타원율 β를 나타내고 있다. 또한, 「gamma2[i_band][i_mix][x]」 및 「gamma2[i_band][i_mix][y]」는, i번째의 밴드 「i_band」에 관한 「i_mix」에 의해 나타내지는 분포(Kent 분포)의 major축 벡터 γ2를 구성하는 X 성분(X 좌표) 및 Y 성분(Y 좌표)을 나타내고 있다.
마찬가지로, 「gamma3[i_band][i_mix][x]」 및 「gamma3[i_band][i_mix][y]」는, i번째의 밴드 「i_band」에 관한 「i_mix」에 의해 나타내지는 분포(Kent 분포)의 minor축 벡터 γ3을 구성하는 X 성분(X 좌표) 및 Y 성분(Y 좌표)을 나타내고 있다.
모델 데이터에는, 각 빈에서의 지향성 데이터, 보다 상세하게는 지향성 게인의 다이내믹 레인지를 나타내는 스케일 팩터 「scale_factor[i_bin]」과, 각 빈에서의 지향성 데이터(지향성 게인)의 오프셋값, 즉 최솟값 「offset[i_bin]」도 포함되어 있다.
이하에서는, 모델 데이터에 포함되어 있는 타원율 β, 파라미터 집중도 κ, 가중치 φi, 벡터 γ1, major축 벡터 γ2, minor축 벡터 γ3, 스케일 팩터 및 최솟값(오프셋값)을 포함하는 파라미터 집합을 모델 파라미터라고도 칭하는 것으로 한다.
모델 데이터에는, 데이터 포인트에서의, 모델화 전의 원래의 지향성 데이터의 값(지향성 게인)과, 모델화에 의해 얻어진 혼합 모델에 의해 나타내지는 지향성 데이터의 값(지향성 게인)의 차분을 나타내는 차분 정보 「diff_data[i_point]」도 포함되어 있다. 바꾸어 말하면, 차분 정보는, 데이터 포인트에서의, 모델화 전의 지향성 데이터와, 모델화 후의 지향성 데이터의 차분을 나타내는 정보이다.
또한, 차분 정보가 저장되는지 여부를 선택할 수 있도록 해도 된다. 또한, 모델 데이터에 저장되는 「diff_data[i_point]」는, 허프만 부호화된 차분 정보이어도 된다.
재생측(복호측) 장치에서는, 예를 들어 도 5에 나타낸 구성(포맷)의 모델 데이터에 기초하여, 각 데이터 포인트에서의 혼합 모델의 출력값 F(x; Θ), 즉 지향성 게인이 산출된다.
모델화 전의 원래의 지향성 데이터의 각 빈은, 지향성 데이터의 형상의 유사성을 고려해서 결정되는 모델화 시의 밴드수 「band_count」에 의해 기술되는 수의 밴드(band) 중 어느 하나의 밴드에 속한다.
또한, 각 빈과 밴드의 대응 관계는, 빈 정보 「bin_range_per_band[i_band]」에 의해 기술되고, 그 빈 정보로서, 밴드에 속하는 가장 큰 주파수의 빈을 나타내는 인덱스 정보인 최대 인덱스가 기입되어 있다.
이 경우, 예를 들어 도 6에 나타내는 바와 같이 각 밴드에 속하는 빈의 수는 밴드마다 다르게 되어 있어도 된다.
이 예에서는, 가장 주파수가 낮은 최초의 밴드 0(band0)에는 2개의 빈 0(bin0)과 빈 1이 속하고 있고, 다음 밴드 1에는 1개의 빈 2가 속하고 있고, 또한 그 다음 밴드 2에는 2개의 빈 3과 빈 4가 속해 있다.
따라서, 밴드 0의 빈 정보 「bin_range_per_band[i_band]」의 값은, 빈 1을 나타내는 값 「1」, 즉 「bin_range_per_band[0]=1」이 된다. 마찬가지로, 밴드 1의 빈 정보의 값은 「2」, 즉 「bin_range_per_band[1]=2」가 되고, 밴드 2의 빈 정보의 값은 「4」, 즉 「bin_range_per_band[2]=4」가 된다.
모델 데이터에는 모델 파라미터가 포함되어 있기 때문에, 그 모델 파라미터로부터 각 밴드에 관한 혼합 모델 F'(x; Θ)를 얻을 수 있다. 여기서, 혼합 모델 F'(x; Θ)는, 식 (3)에 나타낸 빈마다의 혼합 모델 F(x; Θ)에 대응한다.
모델화 전의 지향성 데이터는, 각 데이터 포인트의 빈마다 지향성 게인의 값을 갖고 있다. 그 때문에, 모델 파라미터로부터 얻어지는 밴드마다의 혼합 모델 F'(x; Θ), 보다 상세하게는 혼합 모델의 출력값 F'(x; Θ)를, 원래의 빈마다의 혼합 모델 F(x; Θ)로 변환할 필요가 있다.
그래서, 재생측(복호측) 장치에서는, 밴드마다의 혼합 모델 F'(x; Θ)와, 빈마다의 스케일 팩터 「scale_factor[i_bin]」과, 빈마다의 최솟값 「offset[i_bin]」에 기초하여, 데이터 포인트에서의 빈마다의 혼합 모델의 출력값 F(x; Θ)가 산출된다.
즉, F(x; Θ)=F'(x; Θ)×scale_factor[i_bin]+offset[i_bin]이 계산된다. 이 계산에서는, 밴드마다의 혼합 모델의 출력값 F'(x; Θ)가 각 빈의 다이내믹 레인지에 맞추어서 보정된다.
또한, 차분 압축을 병용하고 있을 경우, 즉 모델 데이터에 데이터 포인트마다의 차분 정보 「diff_data[i_point]」가 포함되어 있는 경우에는, 계산에 의해 얻어진 출력값 F(x; Θ)에 차분 정보가 가산되어, 최종적인 출력값 F(x; Θ)가 된다.
이상의 계산에 의해, 모델 데이터로부터, 모델화 전의 원래의 지향성 데이터가 복원되게 된다. 또한, 재생측에서는, 각 데이터 포인트가 되는 위치나 각 빈의 주파수는, 모델 데이터에 저장되어 있는 방위각 「azimuth_table[i]」, 앙각 「elevation_table[i]」, 반경 「distance[i]」 및 주파수 「freq[i_bin]」으로부터 특정하는 것이 가능하다.
실제로, 모델 데이터가 도 5에 나타낸 구성이 되도록 지향성 데이터를 모델화했을 때의 모델 데이터의 데이터양을 도 7에 나타낸다.
이 예에서는, 모델화 전의 원래의 지향성 데이터에서의 데이터 포인트수는 2522개이며, 빈수는 29개로 되어 있다. 또한, 모델화 시에는, 밴드수 「band_count」가 「3」이 되고, vMF 분포(타원율 β, major축 벡터 γ2, minor축 벡터 γ3 없음)를 포함하는 혼합 모델에서의 모델화가 행해지고 있다.
도 7의 모델화에서는, 모델화 전은 데이터양이 306KB이었던 원래의 지향성 데이터가, 데이터양이 0.85KB의 모델 파라미터로 변환되어 있어, 데이터양이 약 1/360로 압축되어 있는 것을 알 수 있다.
또한, 도 5의 예에서는, 필요에 따라 모델 데이터에 차분 정보가 포함되어 있으며, 적절하게, 차분 정보가 사용되어 지향성 데이터의 복원이 행해진다.
즉, 예를 들어 청각 심리의 관점에서 차분을 지각할 수 있을 경우에는, 본 기술의 모델화와 함께 차분 부호화가 병용되어, 지각 불가능한 정도까지 지향성 데이터가 복원된다.
예를 들어 도 8의 화살표 Q41에 나타내는 지향성 데이터가 대상으로 되어 모델화가 행해졌다고 하자. 또한, 도 8에서 각 구 표면에서의 색의 농담은 지향성 게인의 크기를 나타내고 있다.
이 예에서는, 화살표 Q41에 나타내는 지향성 데이터를 모델화한 결과, 화살표 Q42에 나타내는 혼합 모델, 보다 상세하게는 혼합 모델에 의해 표현되는 지향성 데이터가 얻어졌다고 하자.
또한, 화살표 Q42에 나타내는 부분에 있어서, 구 표면에 그려진 복수의 각 직선은 상술한 벡터 γ1을 나타내고 있다. 예를 들어 벡터 V51은 1개의 벡터 γ1을 나타내고 있다.
이러한 화살표 Q41에 나타내는 지향성 데이터와, 화살표 Q42에 나타내는 혼합 모델이 얻어진 경우, 그러한 지향성 데이터와 혼합 모델의 차분을 구하면, 화살표 Q43에 나타내는 잔차의 데이터가 차분 정보로서 얻어진다.
도 5에 나타낸 예에서는, 화살표 Q43에 나타내는 잔차의 데이터의 각 데이터 포인트에서의 값(잔차)이 차분 정보 「diff_data[i_point]」로서 모델 데이터에 저장된다.
또한, 지향성의 표현 방식에서 HOA(Higher Order Ambisonics)라고 불리는 방식이 존재한다. HOA에서는, 진폭뿐만 아니라 위상의 정보도 기록할 수 있다는 이점이 있지만, 지향성의 형상이 복잡해질수록 고차의 항이 필요해져 데이터양이 많아진다. 또한, HOA에서는 계수가 발산해 버리기 때문에, 사용할 수 없는 금지 주파수도 존재한다.
지향성은, 일반적으로 고역쪽이, 보다 형상이 복잡해져 볼록도가 높아진다. 또한, 고역에서는 위상 정보의 이용 가치가 상대적으로 저하된다. 그 때문에, 지향성 데이터의 데이터양을 저감시킬 경우에, HOA를 이용하는 것보다, 본 기술과 같이 혼합 분포 모델에 의해 모델화하는 방식을 채용하는 것의 장점이 크다. 또한, 저역에서는 지향성의 형상이 비교적 완만해서, 위상을 기록함으로써 회절, 간섭 등의 물리 현상을 재현할 수 있기 때문에, 저역에서는 HOA를 이용하고, 고역에서는 혼합 분포 모델에 의해 모델화하는 방식을 이용하도록 해도 된다.
그런데, 모델 데이터를 재생측(복호측)에 전송한 경우, 그 모델 데이터에 기초하여 생성(복원)되는 지향성 데이터(진폭 데이터)에서는, 특정 이산 주파수 포인트, 즉 특정 빈에서만 지향성 게인이 존재한다. 바꾸어 말하면, 지향성 게인이 존재하지 않는 주파수가 있기 때문에, 모델 데이터로부터 생성된 지향성 데이터를 그대로 사용한다면 렌더링 처리를 할 수 없는 경우가 있다.
또한, 데이터 포인트도 이산적으로 배치되어 있기 때문에, 유저의 시점 위치(수청 위치)나 오브젝트가 이동하여, 그러한 유저와 오브젝트의 위치 관계가 변화하면, 렌더링 처리에 이용하는 지향성 데이터의 데이터 포인트도 변화한다. 그러한 경우에, 서로 인접하는 데이터 포인트간의 간격이 넓으면 glitch(파형 불연속)가 발생해 버린다.
그래서, 지향성 데이터에 대해서 주파수 방향이나 시간 방향의 보간 처리를 행함으로써, 보다 많은 주파수(빈)나 방향(데이터 포인트)에 대해서 지향성 게인이 얻어지도록 해도 된다.
예를 들어 주파수 방향의 보간 처리로서, 얻고자 하는 특정 주파수 근방의 복수의 주파수를 나타내는 빈의 지향성 게인을 사용한 1차 보간 처리나 2차 보간 처리 등을 행하는 것을 생각할 수 있다.
또한, 예를 들어 시간 방향의 보간 처리로서, 얻고자 하는 방향(위치) 근방의 복수의 데이터 포인트에서의 빈마다의 지향성 게인을 사용한, 방위각 방향이나 앙각 방향의 쌍 1차 보간 처리 등을 행하는 것을 생각할 수 있다.
또한, 오디오 데이터의 프레임 길이(샘플수/프레임), 혼합 모델에서의 혼합수나 선택하는 모델(분포), 데이터 포인트수 등의 각종 파라미터 등에 의해, 지향성 데이터의 모델화 시의 계산량과 음질에의 영향이 변화한다(트레이드오프).
즉, 예를 들어 오디오 데이터의 1프레임마다 유저(수청자)나 오브젝트의 위치와 배향이 변화하는 경우, 시간 방향의 보간 처리를 행함으로써, 파형 불연속의 발생을 억제하여, 보다 고품질의 오디오 재생을 실현할 수 있다.
또한, 예를 들어 재생측에서, 보다 고정밀도의 지향성 데이터를 얻기 위해서 혼합 모델의 혼합수를 증가시킬지나, vMF 분포보다 파라미터수는 많지만, 보다 표현 능력이 높은 Kent 분포를 사용할지 등을 적절하게 결정함으로써, 계산량과 음질의 밸런스를 조정할 수 있다.
또한, 콘텐츠의 제작자 등은, 예를 들어 음원(오브젝트)의 지향성의 형상에 따라, 지향성 데이터의 데이터 포인트수를 증가시킬지, 또는 재생 시의 보간 처리에 의해 데이터 포인트수의 적음에 대처할지 등을 결정할 수도 있다.
그 밖에, 모델화(부호화)의 대상이 되는 원래의 지향성 데이터와, 혼합 모델, 즉 모델화 후의 지향성 데이터의 오차(차분)를 나타내는 차분 정보를 허프만 부호화 등의 임의의 부호화 방식에 의해 부호화하여, 전송해도 된다.
또한, 예를 들어 주파수 방향의 보간 처리나 시간 방향의 보간 처리 등, 지향성 데이터의 이용 방식(렌더링 방식)이나, 차분 정보 등의 각종 정보를 사용할지 여부를 플래그 등에 의해 전환할 수 있도록 해도 된다.
예를 들어 플래그에 의해, 저리소스 재생 기기 대상 등의 저정밀도용 파라미터와, 고리소스 재생 기기 대상 등의 고정밀도용 파라미터의 전환, 즉 파라미터 정밀도의 전환을 행할 수 있도록 해도 된다. 그러한 경우, 예를 들어 재생 기기의 리소스나 콘텐츠 배신 시의 네트워크 환경 등에 따라 파라미터가 전환된다.
또한, 이상에서는 본 기술을 지향성 데이터에 적용하는 예에 대해서 설명하였지만, 그 밖에, 본 기술은, 영상에서의 텍스처 데이터, 예를 들어 volumetric 점군 데이터에 대한 색이나, 투명도 정보 등에도 적용 가능하다.
또한, 본 기술에서는, 예를 들어 미세 구조의 재현이 중요할 경우에는, 콘텐츠의 제작자 등이 매뉴얼(수동)로 혼합 모델의 혼합수의 추가나, 모델 파라미터 등의 각종 파라미터의 조정을 행할 수 있도록 해도 된다.
<서버의 구성예>
도 9는 본 기술을 적용한 서버의 구성예를 나타내는 도면이다.
도 9에 나타내는 서버(11)는, 예를 들어 컴퓨터 등을 포함하는 정보 처리 장치이며, 콘텐츠의 배신을 행한다.
예를 들어 콘텐츠는, 1개 또는 복수의 각 오브젝트의 오디오 데이터(오브젝트 오디오 데이터)와, 음원 종별마다 준비된, 음원(오브젝트)의 지향성, 즉 지향 특성을 나타내는 지향성 데이터로 구성된다.
이러한 콘텐츠는, 예를 들어 3D 음원의 소리와 함께 지향성 데이터를 마이크로폰 어레이 등에 의해 수록함으로써 얻을 수 있다. 또한, 콘텐츠에 오디오 데이터에 대응하는 영상 데이터가 포함되어 있어도 된다.
서버(11)는, 모델화부(21), 모델 데이터 생성부(22), 오디오 데이터 부호화부(23) 및 출력부(24)를 갖고 있다.
모델화부(21)는, 입력된 각 음원 종별의 지향성 데이터를 모델화하고, 그 결과 얻어진 모델 파라미터나 차분 정보를 모델 데이터 생성부(22)에 공급한다.
모델 데이터 생성부(22)는, 모델화부(21)로부터 공급된 모델 파라미터나 차분 정보에 기초하여 모델 데이터를 생성하고, 출력부(24)에 공급한다.
오디오 데이터 부호화부(23)는, 입력된 각 오브젝트의 오디오 데이터를 부호화하고, 그 결과 얻어진 부호화 오디오 데이터를 출력부(24)에 공급한다.
출력부(24)는, 모델 데이터 생성부(22)로부터 공급된 모델 데이터와, 오디오 데이터 부호화부(23)로부터 공급된 부호화 오디오 데이터를 다중화함으로써 부호화 비트 스트림을 생성하여, 출력한다.
또한, 여기서는 설명을 간단하게 하기 위해서, 모델 데이터와 부호화 오디오 데이터가 동시에 출력되는 예에 대해서 설명하지만, 이들 모델 데이터와 부호화 오디오 데이터는 개별로 생성되어, 서로 다른 타이밍에 출력되도록 해도 된다. 또한, 모델 데이터와 부호화 오디오 데이터는, 서로 다른 장치에 의해 생성되어도 된다.
<부호화 처리의 설명>
이어서, 서버(11)의 동작에 대해서 설명한다. 즉, 이하, 도 10의 흐름도를 참조하여, 서버(11)에 의한 부호화 처리에 대해서 설명한다.
스텝 S11에서 모델화부(21)는, 입력된 각 음원 종별의 지향성 데이터를 모델화하고, 그 결과 얻어진 모델 파라미터나 차분 정보를 모델 데이터 생성부(22)에 공급한다.
예를 들어 모델화부(21)는, 지향성 데이터를 상술한 식 (3)에 나타낸, 복수의 분포를 포함하는 혼합 모델로 나타냄(표현함)으로써, 지향성 데이터를 모델화한다.
이에 의해, 식 (3)에 나타낸 혼합 모델을 구성하는 파라미터 집중도 κ나, 타원율 β, 가중치 φi, 벡터 γ1, major축 벡터 γ2, minor축 벡터 γ3, 스케일 팩터, 최솟값이 모델 파라미터로서 얻어진다.
또한, 모델화부(21)는, 모델화 전의 원래의 지향성 데이터에 관한 정보로서, 데이터 포인트수나 데이터 포인트의 위치, 주파수 포인트수, 빈의 중심 주파수를 나타내는 정보 등을 생성한다.
또한, 예를 들어 모델화부(21)는, 모델화된 지향성 데이터, 즉 혼합 모델로 표현된 지향성 데이터와, 모델화 전의 원래의 지향성 데이터의 잔차(차분)를 차분 정보로서 생성한다.
또한, 차분 정보는, 예를 들어 혼합 모델로 표현된 지향성 데이터와, 원래의 지향성 데이터의 잔차가 소정값 이상인 등, 특정 조건이 충족될 경우나, 콘텐츠의 제작자 등에 의해 차분 정보의 생성이 지시된 경우 등에 생성되도록 해도 된다.
모델화부(21)는, 이와 같이 하여 얻어진 모델 파라미터나, 모델화 전의 원래의 지향성 데이터에 관한 정보, 차분 정보를 모델 데이터 생성부(22)에 공급한다.
스텝 S12에서 모델 데이터 생성부(22)는, 모델화부(21)로부터 공급된 모델 파라미터나, 모델화 전의 원래의 지향성 데이터에 관한 정보, 차분 정보를 패킹함으로써 모델 데이터를 생성하고, 출력부(24)에 공급한다.
이때, 모델 데이터 생성부(22)는, 예를 들어 차분 정보를 허프만 부호화하고, 그 결과 얻어진 부호화 후의 차분 정보(이하, 차분 부호 데이터라고도 칭함)나 모델 파라미터 등을 패킹함으로써, 도 5에 나타낸 포맷의 모델 데이터를 생성한다. 또한, 모델 파라미터나 모델 데이터의 부호화가 행해지도록 해도 된다.
스텝 S13에서 오디오 데이터 부호화부(23)는, 입력된 각 오브젝트의 오디오 데이터를 부호화하고, 그 결과 얻어진 부호화 오디오 데이터를 출력부(24)에 공급한다.
또한, 각 오브젝트의 오디오 데이터에 대해서 메타데이터가 있을 때는, 오디오 데이터 부호화부(23)는, 각 오브젝트(오디오 데이터)의 메타데이터도 부호화하고, 그 결과 얻어진 부호화 메타데이터를 출력부(24)에 공급한다.
예를 들어 메타데이터에는, 그 오브젝트의 3차원 공간에서의 절대적인 위치를 나타내는 오브젝트 위치 정보나, 3차원 공간에서의 오브젝트의 배향을 나타내는 오브젝트 방향 정보, 오브젝트(음원)의 종별을 나타내는 음원 종별 정보 등이 포함되어 있다.
스텝 S14에서 출력부(24)는, 모델 데이터 생성부(22)로부터 공급된 모델 데이터와, 오디오 데이터 부호화부(23)로부터 공급된 부호화 오디오 데이터를 다중화해서 부호화 비트 스트림을 생성하여, 출력한다. 또한, 오브젝트에 메타데이터가 있을 때는, 출력부(24)는, 모델 데이터, 부호화 오디오 데이터 및 부호화 메타데이터를 포함하는 부호화 비트 스트림을 생성한다.
예를 들어 출력부(24)는, 도시하지 않은 클라이언트로서 기능하는 정보 처리 장치에 부호화 비트 스트림을 송신한다. 부호화 비트 스트림이 송신되면, 부호화 처리는 종료된다.
이상과 같이 해서 서버(11)는, 지향성 데이터를 모델화하고, 그 결과 얻어진 모델 파라미터나 차분 정보가 포함되는 부호화 비트 스트림을 출력한다. 이와 같이 함으로써, 클라이언트에 전송하는 지향성 데이터의 데이터양, 즉 지향성 데이터의 전송량을 저감시킬 수 있다. 이에 의해, 전송 지연의 발생이나 전송 레이트의 증대를 억제할 수 있다.
<정보 처리 장치의 구성예>
서버(11)로부터 출력된 부호화 비트 스트림을 취득하여, 콘텐츠의 소리를 재생하기 위한 출력 오디오 데이터를 생성하는 정보 처리 장치는, 예를 들어 도 11에 나타내는 바와 같이 구성된다. 도 11에 나타내는 정보 처리 장치(51)는, 예를 들어 퍼스널 컴퓨터나 스마트폰, 태블릿, 게임 기기 등을 포함한다.
정보 처리 장치(51)는, 취득부(61), 분포 모델 복호부(62), 오디오 데이터 복호부(63) 및 렌더링 처리부(64)를 갖고 있다.
취득부(61)는, 서버(11)로부터 출력된 부호화 비트 스트림을 취득함과 함께, 부호화 비트 스트림으로부터 모델 데이터 및 부호화 오디오 데이터를 추출한다. 취득부(61)는, 모델 데이터를 분포 모델 복호부(62)에 공급함과 함께, 부호화 오디오 데이터를 오디오 데이터 복호부(63)에 공급한다.
분포 모델 복호부(62)는, 모델 데이터로부터 지향성 데이터를 산출한다. 분포 모델 복호부(62)는, 언패킹부(81), 지향성 데이터 산출부(82), 차분 정보 복호부(83), 가산부(84) 및 주파수 보간 처리부(85)를 갖고 있다.
언패킹부(81)는, 취득부(61)로부터 공급된 모델 데이터의 언패킹을 행함으로써, 모델 데이터로부터 모델 파라미터나 모델화 전의 원래의 지향성 데이터에 관한 정보, 차분 부호 데이터를 추출한다. 또한, 언패킹부(81)는, 모델 파라미터나 모델화 전의 원래의 지향성 데이터에 관한 정보를 지향성 데이터 산출부(82)에 공급하고, 차분 부호 데이터를 차분 정보 복호부(83)에 공급한다.
지향성 데이터 산출부(82)는, 언패킹부(81)로부터 공급된 모델 파라미터나 모델화 전의 원래의 지향성 데이터에 관한 정보에 기초해서 지향성 데이터를 산출(복원)하여, 가산부(84)에 공급한다. 또한, 이하, 지향성 데이터 산출부(82)에 의해 모델 파라미터에 기초하여 산출(복원)된 지향성 데이터를 개형 지향성 데이터라고도 칭한다.
차분 정보 복호부(83)는, 언패킹부(81)로부터 공급된 차분 부호 데이터에 대해서, 허프만 부호화에 대응하는 방식으로의 복호를 행하고, 그 결과 얻어진 차분 정보를 지향성 데이터 잔차로서 가산부(84)에 공급한다.
가산부(84)는, 지향성 데이터 산출부(82)로부터 공급된 개형 지향성 데이터와, 차분 정보 복호부(83)로부터 공급된 지향성 데이터 잔차(차분 정보)를 가산함으로써, 보다 원래의 지향성 데이터에 가까운 지향성 데이터를 생성하여, 주파수 보간 처리부(85)에 공급한다.
주파수 보간 처리부(85)는, 가산부(84)로부터 공급된 지향성 데이터에 대해서 주파수 방향의 보간 처리를 행하고, 그 결과 얻어진 지향성 데이터를 렌더링 처리부(64)에 공급한다.
오디오 데이터 복호부(63)는, 취득부(61)로부터 공급된 부호화 오디오 데이터에 대한 복호를 행하고, 그 결과 얻어진 각 오브젝트의 오디오 데이터를 렌더링 처리부(64)에 공급한다.
또한, 부호화 비트 스트림에 부호화 메타데이터가 포함되어 있는 경우, 오디오 데이터 복호부(63)는, 취득부(61)로부터 공급된 부호화 메타데이터를 복호하고, 그 결과 얻어진 메타데이터를 렌더링 처리부(64)에 공급한다.
렌더링 처리부(64)는, 주파수 보간 처리부(85)로부터 공급된 지향성 데이터와, 오디오 데이터 복호부(63)로부터 공급된 오디오 데이터에 기초하여 출력 오디오 데이터를 생성한다.
렌더링 처리부(64)는, 지향성 데이터 보유부(86), HRTF(Head Related Transfer Function) 데이터 보유부(87), 시간 보간 처리부(88), 지향성 컨벌루션부(89) 및 HRTF 컨벌루션부(90)를 갖고 있다.
지향성 데이터 보유부(86) 및 HRTF 데이터 보유부(87)에는, 유저 등의 지정이나 센서 등에 의한 측정 등에 따라, 시점 위치 정보, 수청자 방향 정보, 오브젝트 위치 정보 및 오브젝트 방향 정보가 공급된다.
예를 들어 시점 위치 정보는, 콘텐츠를 시청하는 유저(수청자)의 3차원 공간에서의 시점 위치(수청 위치)를 나타내는 정보이며, 수청자 방향 정보는, 3차원 공간에서의, 콘텐츠를 시청하는 유저의 얼굴 배향을 나타내는 정보이다.
또한, 부호화 비트 스트림에 부호화 메타데이터가 포함되어 있는 경우, 오브젝트 위치 정보 및 오브젝트 방향 정보는, 부호화 메타데이터의 복호에 의해 얻어진 메타데이터로부터 추출되어, 지향성 데이터 보유부(86)와 HRTF 데이터 보유부(87)에 공급된다.
그 밖에, 지향성 데이터 보유부(86)에는, 메타데이터로부터 추출되거나 해서 얻어진 음원 종별 정보도 공급되고, HRTF 데이터 보유부(87)에는, 적절하게, 콘텐츠를 시청하는 유저를 나타내는 유저 ID가 공급된다.
지향성 데이터 보유부(86)는, 주파수 보간 처리부(85)로부터 공급된 지향성 데이터를 보유한다. 또한, 지향성 데이터 보유부(86)는, 보유하고 있는 지향성 데이터 중에서, 공급된 시점 위치 정보, 수청자 방향 정보, 오브젝트 위치 정보, 오브젝트 방향 정보 및 음원 종별 정보에 따른 지향성 데이터를 판독해서 시간 보간 처리부(88)에 공급한다.
HRTF 데이터 보유부(87)는, 유저 ID에 의해 나타내지는 각 유저에 대해서, 유저(수청자)에서 본 복수의 방향마다 HRTF를 보유하고 있다.
HRTF 데이터 보유부(87)는, 보유하고 있는 HRTF 중에서, 공급된 시점 위치 정보, 수청자 방향 정보, 오브젝트 위치 정보, 오브젝트 방향 정보 및 유저 ID에 따른 HRTF를 판독해서 HRTF 컨벌루션부(90)에 공급한다.
시간 보간 처리부(88)는, 지향성 데이터 보유부(86)로부터 공급된 지향성 데이터에 대해서, 시간 방향의 보간 처리를 행하고, 그 결과 얻어진 지향성 데이터를 지향성 컨벌루션부(89)에 공급한다.
지향성 컨벌루션부(89)는, 오디오 데이터 복호부(63)로부터 공급된 오디오 데이터와, 시간 보간 처리부(88)로부터 공급된 지향성 데이터를 컨벌브하고, 그 결과 얻어진 오디오 데이터를 HRTF 컨벌루션부(90)에 공급한다. 지향성 데이터의 컨벌루션에 의해, 오디오 데이터에 대해서, 오브젝트(음원)가 갖는 지향 특성이 부가된다.
HRTF 컨벌루션부(90)는, 지향성 컨벌루션부(89)로부터 공급된 오디오 데이터, 즉 지향성 데이터가 컨벌브된 오디오 데이터와, HRTF 데이터 보유부(87)로부터 공급된 HRTF를 컨벌브하고, 그 결과 얻어진 오디오 데이터를 출력 오디오 데이터로서 출력한다. HRTF의 컨벌루션에 의해, 유저(수청자)에서 본 오브젝트의 위치에, 그 오브젝트의 소리가 정위하는 출력 오디오 데이터를 얻을 수 있다.
<지향성 데이터 생성 처리의 설명>
이어서, 정보 처리 장치(51)의 동작에 대해서 설명한다.
먼저, 정보 처리 장치(51)가 각 음원 종별의 지향성 데이터를 생성할 때 행해지는 지향성 데이터 생성 처리에 대해서 설명한다. 즉, 이하, 도 12의 흐름도를 참조하여, 정보 처리 장치(51)에 의한 지향성 데이터 생성 처리에 대해서 설명한다.
이 지향성 데이터 생성 처리는, 서버(11)로부터 송신되어 온 부호화 비트 스트림을 취득부(61)가 수신하고, 취득부(61)가 부호화 비트 스트림으로부터 추출한 모델 데이터를 언패킹부(81)에 공급하면 개시된다.
스텝 S51에서 언패킹부(81)는, 취득부(61)로부터 공급된 모델 데이터의 언패킹을 행하여, 모델 데이터로부터 추출한 모델 파라미터나 모델화 전의 원래의 지향성 데이터에 관한 정보를 지향성 데이터 산출부(82)에 공급한다.
스텝 S52에서 지향성 데이터 산출부(82)는, 언패킹부(81)로부터 공급된 모델 파라미터나 모델화 전의 원래의 지향성 데이터에 관한 정보에 기초해서, 개형 지향성 데이터를 산출(생성)하여, 가산부(84)에 공급한다.
예를 들어 지향성 데이터 산출부(82)는, 모델 파라미터에 의해 얻어지는 각 밴드의 혼합 모델 F'(x; Θ)와, 빈마다의 스케일 팩터 「scale_factor[i_bin]」와, 빈마다의 최솟값 「offset[i_bin]」에 기초하여, 데이터 포인트에서의 빈마다의 혼합 모델의 출력값 F(x; Θ)를 산출한다. 이에 의해, 각 데이터 포인트에서의 빈마다의 지향성 게인(진폭 데이터)를 포함하는 개형 지향성 데이터가 얻어진다.
스텝 S53에서 언패킹부(81)는, 취득부(61)로부터 공급된 모델 데이터에 차분 부호 데이터가 포함되어 있는지 여부, 즉 차분 부호 데이터가 있는지 여부를 판정한다.
스텝 S53에서 차분 부호 데이터가 포함되어 있다고 판정된 경우, 언패킹부(81)는, 모델 데이터로부터 차분 부호 데이터를 추출해서 차분 정보 복호부(83)에 공급하고, 그 후, 처리는 스텝 S54로 진행한다.
스텝 S54에서 차분 정보 복호부(83)는, 언패킹부(81)로부터 공급된 차분 부호 데이터에 대한 복호를 행하고, 그 결과 얻어진 지향성 데이터 잔차(차분 정보)를 가산부(84)에 공급한다.
스텝 S55에서 가산부(84)는, 지향성 데이터 산출부(82)로부터 공급된 개형 지향성 데이터에, 차분 정보 복호부(83)로부터 공급된 지향성 데이터 잔차를 가산한다.
가산부(84)는, 가산에 의해 얻어진 지향성 데이터를 주파수 보간 처리부(85)에 공급하고, 그 후, 처리는 스텝 S56으로 진행한다.
이에 반해, 스텝 S53에서 차분 부호 데이터가 포함되어 있지 않다고 판정된 경우, 스텝 S54 및 스텝 S55의 처리는 스킵되고, 그 후, 처리는 스텝 S56으로 진행한다. 이 경우, 가산부(84)는, 지향성 데이터 산출부(82)로부터 공급된 개형 지향성 데이터를, 그대로 복원된 지향성 데이터로서 주파수 보간 처리부(85)에 공급한다.
스텝 S53에서 차분 부호 데이터가 포함되어 있지 않다고 판정되었거나 또는 스텝 S55의 처리가 행해지면, 스텝 S56의 처리가 행해진다.
스텝 S56에서 주파수 보간 처리부(85)는, 가산부(84)로부터 공급된 지향성 데이터에 대해서 주파수 방향의 보간 처리를 행하고, 보간 처리에 의해 얻어진 지향성 데이터를 지향성 데이터 보유부(86)에 공급하여 보유시킨다.
예를 들어 오브젝트의 오디오 데이터가 주파수 영역의 데이터이며, 오디오 데이터가 복수의 주파수 빈마다 주파수 성분값을 갖고 있다고 하자. 그러한 경우, 주파수 방향의 보간 처리에서는, 예를 들어 지향성 데이터가, 오디오 데이터가 주파수 성분값을 갖는 전체 주파수 빈에 대해서 지향성 게인을 갖도록, 필요한 빈의 지향성 게인을 산출하는 보간 처리가 행해진다.
구체적으로는, 예를 들어 주파수 보간 처리부(85)는, 지향성 데이터에서의 소정의 데이터 포인트의 복수의 빈(주파수)의 지향성 게인에 기초하는 보간 처리를 행함으로써, 원래의 지향성 데이터에는 존재하고 있지 않았던, 동일한 데이터 포인트에서의 새로운 주파수(빈)의 지향성 게인을 산출한다. 이러한 주파수 방향의 보간 처리에 의해, 보다 많은 주파수에서의 지향성 게인을 포함하는 지향성 데이터를 얻을 수 있다.
주파수 방향의 보간 처리가 행해지고, 지향성 데이터 보유부(86)에 보간 처리 후의 지향성 데이터가 보유되면, 지향성 데이터 생성 처리는 종료된다.
이상과 같이 해서 정보 처리 장치(51)는, 모델 데이터에 기초하여 지향성 데이터를 산출한다. 이와 같이 함으로써, 전송되는 지향성 데이터의 데이터양, 즉 지향성 데이터의 전송량을 저감시킬 수 있다. 이에 의해, 전송 지연의 발생이나 전송 레이트의 증대를 억제할 수 있다.
<출력 오디오 데이터 생성 처리의 설명>
계속해서, 도 13의 흐름도를 참조하여, 정보 처리 장치(51)에 의해 행해지는 출력 오디오 데이터 생성 처리에 대해서 설명한다. 이 출력 오디오 데이터 생성 처리는, 도 12를 참조하여 설명한 지향성 데이터 생성 처리가 행해진 후의 임의의 타이밍에 행해진다.
스텝 S81에서 오디오 데이터 복호부(63)는, 취득부(61)로부터 공급된 부호화 오디오 데이터의 복호를 행하고, 그 결과 얻어진 오디오 데이터를 지향성 컨벌루션부(89)에 공급한다. 예를 들어 복호에 의해, 주파수 영역의 오디오 데이터가 얻어진다.
또한, 취득부(61)로부터 부호화 메타데이터가 공급된 경우, 오디오 데이터 복호부(63)는, 부호화 메타데이터를 복호하고, 그 결과 얻어진 메타데이터에 포함되어 있는 오브젝트 위치 정보, 오브젝트 방향 정보, 음원 종별 정보를, 적절하게, 지향성 데이터 보유부(86)나 HRTF 데이터 보유부(87)에 공급한다.
또한, 지향성 데이터 보유부(86)는, 공급된 시점 위치 정보, 수청자 방향 정보, 오브젝트 위치 정보, 오브젝트 방향 정보 및 음원 종별 정보에 따른 지향성 데이터를 시간 보간 처리부(88)에 공급한다.
예를 들어 지향성 데이터 보유부(86)는, 시점 위치 정보, 수청자 방향 정보, 오브젝트 위치 정보 및 오브젝트 방향 정보로부터, 3차원 공간에서의 오브젝트와 유저의 시점 위치(수청 위치)의 관계를 특정하고, 그 특정 결과에 따른 데이터 포인트를 특정한다.
일례로서, 예를 들어 오브젝트로부터 시점 위치를 향하는 방향을 시점 위치 방향으로 하면, 혼합 모델의 중심에서 보아 시점 위치 방향에 있는, 혼합 모델의 구 표면 상의 위치가 대상 데이터 포인트 위치로서 특정된다. 또한, 대상 데이터 포인트 위치에 실제 데이터 포인트가 없는 경우도 있다.
지향성 데이터 보유부(86)는, 음원 종별 정보에 의해 나타내지는 음원 종별의 지향성 데이터로부터, 특정된 대상 데이터 포인트 위치 근방에 있는 복수의 데이터 포인트에서의 각 빈의 지향성 게인을 추출한다.
그리고 지향성 데이터 보유부(86)는, 추출한 복수의 데이터 포인트에서의 각 빈의 지향성 게인을 포함하는 데이터를, 오브젝트와 유저(수청자)의 위치나 방향의 관계에 따른 지향성 데이터로서 시간 보간 처리부(88)에 공급한다.
또한, HRTF 데이터 보유부(87)는, 공급된 시점 위치 정보, 수청자 방향 정보, 오브젝트 위치 정보, 오브젝트 방향 정보 및 유저 ID에 따른 HRTF를 HRTF 컨벌루션부(90)에 공급한다.
구체적으로는, 예를 들어 HRTF 데이터 보유부(87)는, 시점 위치 정보, 수청자 방향 정보, 오브젝트 위치 정보 및 오브젝트 방향 정보에 기초하여, 수청자(유저)에서 본 오브젝트의 상대적인 방향을 오브젝트 방향으로서 특정한다. 그리고 HRTF 데이터 보유부(87)는, 유저 ID에 대응하는 각 방향의 HRTF 중, 오브젝트 방향에 대응하는 방향의 HRTF를 HRTF 컨벌루션부(90)에 공급한다.
스텝 S82에서 시간 보간 처리부(88)는, 지향성 데이터 보유부(86)로부터 공급된 지향성 데이터에 대해서 시간 방향의 보간 처리를 행하고, 그 결과 얻어진 지향성 데이터를 지향성 컨벌루션부(89)에 공급한다.
예를 들어 시간 보간 처리부(88)는, 지향성 데이터에 포함되는 복수의 데이터 포인트에서의 각 빈의 지향성 게인에 기초하여, 상술한 대상 데이터 포인트 위치에서의 각 빈의 지향성 게인을 보간 처리에 의해 산출한다. 즉, 원래의 데이터 포인트와는 다른 새로운 데이터 포인트(대상 데이터 포인트 위치)에서의 지향성 게인이 보간 처리에 의해 산출된다.
시간 보간 처리부(88)는, 대상 데이터 포인트 위치에서의 각 빈의 지향성 게인을 포함하는 데이터를, 시간 방향의 보간 처리에 의해 얻어진 지향성 데이터로서 지향성 컨벌루션부(89)에 공급한다.
스텝 S83에서 지향성 컨벌루션부(89)는, 오디오 데이터 복호부(63)로부터 공급된 오디오 데이터와, 시간 보간 처리부(88)로부터 공급된 지향성 데이터를 컨벌브하고, 그 결과 얻어진 오디오 데이터를 HRTF 컨벌루션부(90)에 공급한다.
스텝 S84에서 HRTF 컨벌루션부(90)는, 지향성 컨벌루션부(89)로부터 공급된 오디오 데이터와, HRTF 데이터 보유부(87)로부터 공급된 HRTF를 컨벌브하고, 그 결과 얻어진 출력 오디오 데이터를 출력한다.
스텝 S85에서 정보 처리 장치(51)는, 처리를 종료할지 여부를 판정한다.
예를 들어 취득부(61)로부터 오디오 데이터 복호부(63)에 새로운 프레임의 부호화 오디오 데이터가 공급된 경우, 스텝 S85에서 처리를 종료하지 않는다고 판정된다. 이에 반해, 예를 들어 취득부(61)로부터 오디오 데이터 복호부(63)에 새로운 프레임의 부호화 오디오 데이터가 공급되지 않고, 콘텐츠의 전체 프레임의 출력 오디오 데이터가 생성되었을 경우, 스텝 S85에서 처리를 종료한다고 판정된다.
스텝 S85에서, 아직 처리를 종료하지 않는다고 판정된 경우, 그 후, 처리는 스텝 S81로 돌아가서, 상술한 처리가 반복해서 행해진다.
이에 반해, 스텝 S85에서 처리를 종료한다고 판정된 경우, 정보 처리 장치(51)는 각 부의 동작을 종료시키고, 출력 오디오 데이터 생성 처리는 종료된다.
이상과 같이 해서 정보 처리 장치(51)는, 적절한 지향성 데이터와 HRTF를 선택하고, 그러한 지향성 데이터와 HRTF를 오디오 데이터로 컨벌브해서 출력 오디오 데이터로 한다. 이와 같이 함으로써, 오브젝트(음원)의 지향 특성이나, 오브젝트와 수청자의 위치나 배향 관계를 고려하여, 보다 현장감이 있는 고품질의 오디오 재생을 실현할 수 있다.
<제2 실시 형태>
<차분 정보의 부호화에 대해서>
그런데, 지향성 데이터는, 음원 종별마다나 주파수 대역마다 다른 지향성 형상을 갖고 있다.
또한, 서버(11)에서는, 모델화 전의 지향성 데이터와, 모델화 후의 지향성 데이터의 차분을 나타내는 차분 정보가 적절하게 생성된다. 상술한 예에서는, 차분 정보가 허프만 부호화 등의 부호화 방식으로 부호화되어, 차분 부호 데이터가 얻어진다고 설명하였다.
Kent 분포나 vMF 분포에 의한 모델화뿐만 아니라, 차분 정보의 부호화에 대해서도 음원 종별이나 주파수 대역에 따라서 적절한 부호화를 행할 수 있도록 서버(11)측, 즉 인코더측에서 차분 정보의 부호화 방법을 선택할 수 있도록 해도 된다.
여기서는, 예로서 차분 정보가 허프만 부호화되는 경우에 대해서 설명한다.
허프만 부호화에서는, 예를 들어 도 14에 나타내는 바와 같이, 부호화의 대상이 되는 1개의 지향성 데이터로부터 얻어진 복수의 빈마다의 차분 정보에 기초하여 출현 확률의 분포(확률 밀도 분포)가 생성된다.
또한, 도 14에서 횡축은 차분 정보의 값(dB값)을 나타내고 있고, 종축은 차분 정보의 각 값의 출현 확률을 나타내고 있다.
예를 들어, 지향성 데이터의 전데이터 포인트에서의 모든 빈(주파수)이 대상으로 되고, 그러한 각 빈의 차분 정보로부터 히스토그램을 생성함으로써, 차분 정보의 각 값의 출현 확률이 구해진다. 또한, 출현 확률의 분포(확률 밀도 분포)는, 빈마다 구해져도 되고, 특정 주파수 대역에 포함되는 빈이 대상으로 되어 구해져도 되고, 전체 빈이 대상으로 되어 구해져도 되고, 그것들 중 어느 것을 선택 가능하여도 된다.
서버(11)에서는, 이러한 차분 정보의 출현 확률에 기초하여, 미리 준비된 복수의 허프만 부호화 테이블 중에서 적절한 1개의 허프만 부호화 테이블이 선택되거나 또는 1개의 신규의 허프만 부호화 테이블이 생성된다.
지향성 데이터의 전데이터 포인트에서의 모든 빈(주파수)이 대상으로 되고, 그러한 모든 빈에 대해서 1개의 허프만 부호화 테이블이 선택 또는 생성되어도 되며, 1개 또는 복수의 빈마다 1개의 허프만 부호화 테이블이 선택 또는 생성되어도 된다.
이와 같이 하여 선택 또는 생성된 허프만 부호화 테이블이 사용되어 차분 정보의 허프만 부호화가 행해진다.
허프만 부호화 테이블은, 부호화 전의 데이터, 즉 차분 정보와, 부호화에 의해 얻어지는 허프만 코드(부호 데이터)의 대응을 나타내는, 부호화 전의 데이터를 허프만 코드로 변환하기 위한 테이블이다.
또한, 차분 정보를 허프만 부호화함으로써 얻어지는 차분 부호 데이터의 복호 시에는, 허프만 부호화 테이블에 대응하는 리버스 테이블이 사용된다.
리버스 테이블은, 허프만 코드(부호 데이터)와 복호 후의 데이터의 대응을 나타내는, 허프만 코드를 복호 후의 데이터로 변환하기 위한 테이블이다. 이 리버스 테이블은, 허프만 부호화 테이블로부터 생성할 수 있다.
차분 정보를 허프만 부호화할 경우에는, 미리 서버(11)(인코더)와 정보 처리 장치(51)(디코더)의 양쪽에서 허프만 부호화 테이블을 보유하고 있는 상태가 되도록 해도 된다. 그러한 경우, 서버(11)로부터 정보 처리 장치(51)에 대해서, 차분 정보의 허프만 부호화에 사용한 허프만 부호화 테이블을 나타내는 ID 정보가 통지된다.
또한, 서버(11)가 허프만 부호화 테이블 또는 리버스 테이블을 부호화 비트 스트림에 저장하고, 정보 처리 장치(51)에 전송하도록 해도 된다.
특히, 리버스 테이블의 사이즈(데이터양)는 크므로, 서버(11)로부터 정보 처리 장치(51)에 허프만 부호화 테이블을 전송해 두고, 정보 처리 장치(51)가 복호 시 등에 허프만 부호화 테이블에 기초하여 리버스 테이블을 생성하도록 해도 된다.
또한, 출현 확률의 분포(확률 밀도 분포)에서는, 출현 확률(출현 빈도)이 낮은 차분 정보의 값과 출현 확률이 높은 차분 정보의 값이 있다. 그래서, 예를 들어 차분 정보가 취할 수 있는 값의 범위로서 ±3dB의 범위 등, 출현 확률이 높은 차분 정보의 값을 포함하는 좁은 다이내믹 레인지의 데이터에 대응하는 범위를 대상 범위로 하고, 그 대상 범위만을 대상으로 한 허프만 부호화 테이블을 사용하도록 해도 된다.
그러한 경우, 대상 범위 외의 값의 차분 정보, 즉 출현 확률이 낮은 불규칙한 값의 차분 정보에 대해서는, 차분 정보를 그대로 모델 데이터에 저장하도록 해도 된다. 바꾸어 말하면, 차분 정보가 그대로 차분 부호 데이터로서 취급된다.
이상과 같이 하여, 차분 정보의 확률 밀도 분포에 따라, 고효율이 되는 허프만 부호화 테이블을 선택하거나 생성하거나 하여, 어떤 허프만 부호화 테이블을 이용할지에 관한 정보 등을 부호화 비트 스트림에 기술함으로써, 효율적으로 차분 정보를 부호화 및 전송할 수 있다.
또한, 차분 정보를 부호화함에 있어서는, 1개 또는 복수의 방식을 조합해서 사용함으로써, 더욱 다이내믹 레인지를 작게 하여, 부호화 효율을 향상시킬 수 있다. 특히, 복수의 방식을 조합함으로써, 다단 차분 부호화를 실현할 수 있다.
예를 들어 다단 차분 부호화에서는, 공간 인접 차분 방식, 주파수간 차분 방식 및 복소 차분 방식 중 적어도 2 이상을 조합해서 부호화를 행하는 것을 생각할 수 있다.
또한, 예를 들어 다단 차분 부호화의 유무나 방식을 나타내는 mode가 모델 데이터에 있어서 enc_mode 등으로서 기록된다. 이때, 예를 들어 하위 4bit에 다단 차분 부호화의 방식을 기록하고, 상위 4bit에 대상이 실수 또는 복소수의 어느 것인지를 기록한 경우, 이하와 같은 정보가 모델 데이터에 저장된다.
(대상 데이터가 실수)
0x00: 다단 차분 부호화 없음
0x01: 공간 인접 차분 방식
0x02: 주파수간 차분 방식
0x03: 공간 인접 차분 방식+주파수간 차분 방식
(대상 데이터가 복소수)
0x1*: 하위 비트는 대상 데이터 실수의 경우와 동일함
공간 인접 차분 방식은, 처리 대상의 데이터 포인트의 차분 정보의 부호화를 행할 때, 그 처리 대상의 데이터 포인트에서의 차분 정보와, 처리 대상의 데이터 포인트의 근방에 있는 다른 데이터 포인트에서의 차분 정보의 차분이 공간 차분 정보로서 구해진다. 예를 들어, 서로 인접하는 데이터 포인트간의 차분 정보의 차분이 공간 차분 정보로서 구해진다. 그리고 얻어진 공간 차분 정보가 허프만 부호화되어 차분 부호 데이터가 된다.
공간 인접 차분 방식에서는, 지향성 데이터에서의 공간적으로 가까운 위치(데이터 포인트)의 데이터, 즉 지향성 게인이나 차분 정보는, 가까운 값을 취하기 쉽다는 성질이 이용되고 있다.
주파수간 차분 방식은, 처리 대상의 빈(주파수)의 차분 정보의 부호화를 행할 때, 그 처리 대상의 빈에서의 차분 정보와, 처리 대상의 빈에 인접하는 빈 등의 근방의 주파수인 다른 빈에서의 차분 정보의 차분이 주파수간 차분 정보로서 구해진다. 그리고 얻어진 주파수간 차분 정보가 허프만 부호화되어 차분 부호 데이터가 된다.
주파수간 차분 방식에서는, 가까운 주파수(빈)의 데이터, 즉 지향성 게인이나 차분 정보는, 가까운 값을 취하기 쉽다는 성질이 이용되고 있다.
예를 들어 공간 인접 차분 방식과 주파수간 차분 방식을 조합해서 사용하는 경우에는, 서로 근접하는 빈간의 공간 차분 정보의 차분이 주파수간 차분 정보로서 구해지고, 그 주파수간 차분 정보가 허프만 부호화되거나, 또는 서로 근접하는 데이터 포인트간의 주파수간 차분 정보의 차분이 공간 차분 정보로서 구해지고, 그 공간 차분 정보가 허프만 부호화된다.
복소 차분 방식은, 지향성 데이터가 상술한 진폭에 관한 정보뿐만 아니라, 위상에 관한 정보도 갖는 경우에 사용된다.
예를 들어 지향성 데이터가 진폭과 위상에 관한 정보를 갖는 경우, 그러한 진폭과 위상에 관한 정보, 즉 지향성 게인은 복소수에 의해 표현된다. 즉, 지향성 데이터는, 데이터 포인트마다, 각 빈에 관한 진폭과 위상을 나타내는 복소수의 데이터(이하, 복소 지향성 게인이라고도 칭함)를 갖게 되고, 차분 정보도 복소수의 데이터가 된다.
복소 차분 방식에서는, 복소수에 의해 표현되는 차분 정보의 실부와 허부가 각각 독립(개별)적으로 허프만 부호화되거나, 또는 실부와 허부를 포함하는 2차원 데이터(복소 지향성 게인)에 대한 허프만 부호화가 행해진다. 또한, 복소 차분 방식에서는, 실부와 허부 각각에 대해서 개별로 허프만 부호화를 행할지, 또는 2차원 데이터에 대한 허프만 부호화를 행할지를 선택할 수 있도록 해도 된다.
이하에서는, 공간 인접 차분 방식, 주파수간 차분 방식 및 복소 차분 방식 중 적어도 1 이상을 조합해서 부호화하는 각 방식이나, 차분 정보를 그대로 허프만 부호화하는 방식을 1개의 차분 부호화 방식 또는 차분 부호화 모드라고도 칭하는 것으로 한다. 특히, 차분 정보를 그대로 허프만 부호화하는 차분 부호화 방식은, 차분을 사용하는 부호화, 즉 차분 부호화를 행하지 않는 방식이라고 할 수 있다.
예를 들어 서버(11)는, 차분 정보 등에 기초하여, 복수의 차분 부호화 방식(차분 부호화 모드) 중에서 가장 효율이 높은 것을 선택하고, 그 선택한 차분 부호화 방식으로 차분 정보의 허프만 부호화를 행한다.
구체적으로는, 예를 들어 각 차분 부호화 방식에서의 차분 부호 데이터의 부호량(데이터양)이 차분 정보에 기초하는 연산에 의해 구해지고, 차분 부호화 방식 중에서 가장 부호량이 적은 것이, 가장 효율이 높은 것으로서 선택되도록 해도 된다.
그 밖에, 예를 들어 지향성 데이터의 음원 종별이나, 무향실 등의 지향성 데이터의 수록 시의 환경 등에 기초하여, 적절한 차분 부호화 방식이 선택되도록 해도 된다.
<지향성 데이터의 표현 방식에 대해서>
이상에서는, 주로 지향성 데이터가 Kent 분포나 vMF 분포를 포함하는 혼합 모델(혼합 분포 모델)에 의해 모델화되는 예에 대해서 설명하였다.
또한, 예를 들어 저역, 즉 낮은 주파수의 빈에서는 HOA에 의해 지향성 데이터를 모델화해서 위상에 관한 정보도 기록하고, 위상의 중요도가 상대적으로 낮은 고역, 즉 높은 주파수의 빈에서는 Kent 분포나 vMF 분포를 포함하는 혼합 모델에 의해 지향성 데이터를 모델화해도 된다고 설명하였다. 이 경우, 예를 들어 1.5kHz 내지 2kHz의 근방의 소정의 주파수에서 혼합 모델에 의한 모델화와 HOA에 의한 모델화를 전환하는 것을 생각할 수 있다. 예를 들어 오디오 코덱 등에서 위상의 정보를 이용하지 않는 Intensity stereo가 상기 대역 이상에서 사용되고 있다. 이와 같이 HOA와 혼합 모델을 조합하는 방법은, 예를 들어 휘슬이나 트럼펫 등, 날카로운 정면 지향성을 갖는 경우에 유효하다고 생각된다.
또한, 이에 한정하지 않고, 주파수 대역마다, 즉 빈이나 밴드마다, 또는 전주파수 대역에서 공통되게, HOA 방식, 혼합 방식, 복소 혼합 방식 및 차분 방식 중 적어도 1 이상의 방식을 조합해서 모델 데이터를 생성하도록 해도 된다. 그러한 경우, 예를 들어 HOA 방식이나 혼합 방식 등의 서로 다른 1개 또는 복수의 방식에 의해 지향성 데이터가 모델화되고, 그 결과 얻어진 모델 파라미터 등을 포함하는 모델 데이터가 생성된다.
HOA 방식은, 각 데이터 포인트의 빈마다의 복소 지향성 게인을 포함하는 지향성 데이터를, HOA를 이용하여 모델화하는 방식이다. 즉, HOA 방식은 지향성 데이터를 구면 조화 함수 전개에 의해 모델화하는 방식이다.
구체적으로는, HOA 방식에서는 지향성 데이터에 대해서 구면 조화 함수 전개가 행해지고, 그 결과, 각 차원의 구면 조화 함수에 관한 계수인 구면 조화 계수가 모델 파라미터로서 얻어진다. 이러한 각 차원의 구면 조화 계수로부터, HOA에 의한 모델화 후의 복소 지향성 게인을 포함하는 지향성 데이터를 얻을 수 있다.
상술한 바와 같이, HOA 방식으로의 모델화에서는, 위상을 포함한 표현이 가능하지만, 미세한 표현을 행하기 위해서는 구면 조화 함수 전개의 차수를 높이는, 즉 고차의 항까지 구면 조화 계수를 구할 필요가 있으며, 그러한 경우에는 모델 데이터의 데이터양이 많아져 버린다. 특히 HOA 방식으로의 모델화에서는, 특정 방위(방향)만 진폭이나 위상의 분포의 미세한 표현을 행할 수 없다.
반대로, 저차의 항만 구면 조화 계수를 구할 경우에는, 비교적 완만한 진폭이나 위상의 변화만을 기술 가능하게 된다.
혼합 방식은, 상술한 Kent 분포나 vMF 분포를 포함하는 혼합 모델에 의해 모델화를 행하는 방식이다. 혼합 방식에서는, 음원에서 본 특정 방위(방향), 즉 데이터 포인트의 위치에 있어서 변화가 심한 지향성 게인의 형상을 기술 가능하다.
복소 혼합 방식은, 복소 지향성 게인을 포함하는 지향성 데이터, 즉 진폭과 위상의 데이터를, 복소수에 대응한 혼합 분포(혼합 모델)를 사용하여 모델화하는 방식이다.
복소 혼합 방식의 예로서, 예를 들어 이하에 나타내는 2개의 방법에 의한 모델화를 생각할 수 있다.
먼저, 첫번째 방법으로서, 복소 지향성 게인의 실부와 허부 각각 또는 복소 지향성 게인으로부터 구해지는 진폭과 위상각 각각을 독립적으로 실수를 대상으로 한 확률 밀도 분포의 혼합 모델로 기술함으로써 모델화를 행하는 방법을 생각할 수 있다.
두번째 방법으로서, 복소수에 대응한 복소 Bingham 분포 혼합 모델이나, 복소 watson 분포 혼합 모델 등을 사용하여 지향성 데이터(복소 지향성 게인의 분포)를 기술함으로써 모델화를 행하는 방법을 생각할 수 있다.
이 경우, 예를 들어 지향성 데이터가 1개 또는 복수의 복소 Bingham 분포를 포함하는 혼합 모델이나, 1개 또는 복수의 복소 watson 분포를 포함하는 혼합 모델에 의해 모델화되고, 그 결과, 혼합 방식에서의 경우와 마찬가지의 모델 파라미터가 얻어진다. 이와 같이 하여 얻어진 모델 파라미터로부터, 복소 혼합 방식으로의 모델화 후의 복소 지향성 게인을 포함하는 지향성 데이터를 얻을 수 있다.
일례로서 대상으로 하는 복소수 데이터의 분포를 그대로 복소 Bingham 분포로 기술할 경우, 이하의 식 (5)에 나타내는 형식으로 기술이 행해진다. 즉, 복소 Bingham 분포의 값 f(z)는 다음 식 (5)에 의해 표현된다.
Figure pct00005
식 (5)에서의 복소수 벡터 z는, Kent 분포나 vMF 분포에서의 구 표면의 위치 벡터 x에 대응하고, z*는 그 복소 공액이 된다. 복소 행렬 A는 위치, 급준함, 방향, 형상을 나타내는 k×k차원의 행렬이며, 정규화 계수 C(A)는 다음 식 (6)와 같다.
Figure pct00006
여기서 aj의 정의는 이하의 식 (7)과 같다. λj는 복소 행렬 A의 고유값이며, λ123< … λk이다.
Figure pct00007
1개 또는 복수의 복소 Bingham 분포를 포함하는 혼합 모델, 즉 복소 Bingham 혼합 모델에서의 혼합수 및 가중치는, 상술한 Kent 분포나 vMF 분포를 포함하는 혼합 모델의 정식화와 공통이다. N개의 복소 Bingham 분포 f(z; θi)를 사용한 혼합 모델의 값 F(x; Θ)는, 이하의 식 (8)와 같이, 가중 기술이 가능하다. 또한, 식 (9)에 나타내는 바와 같이 가중치의 총합은 1이며, Θ는 전체 파라미터 집합, θi는 각 복소 Bingham 분포의 파라미터 집합(복소 Bingham 분포를 구성하는 파라미터), φi는 각각의 복소 Bingham 분포에 대한 가중치를 나타내고 있다.
Figure pct00008
Figure pct00009
차분 방식은, 차분을 이용하여 모델 데이터를 생성하는 방식이다.
예를 들어 HOA 방식이나 혼합 방식 등의 1개 또는 복수의 다른 방식과 차분 방식을 조합해서 모델 데이터를 생성할 경우, 차분 방식에서는, 모델화 전의 지향성 데이터와, 1개 또는 복수의 다른 방식에 의한 모델화 후의 지향성 데이터의 차분을 나타내는 차분 정보가, 상술한 임의의 차분 부호화 방식에 의해 부호화되고, 그 결과 얻어진 차분 부호 데이터가 모델 데이터에 저장된다. 또한, 차분 방식에 의해 구해진 지향성 데이터의 차분이 HOA 방식 등에 의해 모델화되어도 된다.
차분 방식에서는, 예를 들어 차분 정보에 대해서 공간 상의 위치간(데이터 포인트간)의 차분과 주파수간(빈간 또는 밴드간)의 차분의 적어도 어느 것이 구해지고, 그 결과 얻어진 차분이 허프만 부호화되어 차분 부호 데이터가 된다. 이때, 허프만 부호화의 대상이 되는 차분 정보의 차분이 복소수일 경우에는, 그 차분의 실부와 허부 각각이 개별로 허프만 부호화되어도 되고, 복소수가 그대로 허프만 부호화되어도 되고, 차분으로부터 구해지는 진폭 성분과 위상 성분 각각이 개별로 허프만 부호화되어도 된다.
이에 반해, 차분 방식만이 사용되어, 즉 차분 방식 단독으로 모델 데이터가 생성될 경우, 상술한 임의의 차분 부호화 방식과 마찬가지로 하여 지향성 데이터에 대한 부호화(허프만 부호화)가 행해진다.
이때, 공간 인접 차분 방식과 주파수간 차분 방식 중 적어도 하나를 포함하는, 공간 인접 차분 방식, 주파수간 차분 방식 및 복소 차분 방식 중 적어도 1 이상의 방식이 사용된다. 즉, 공간 상의 위치간(데이터 포인트간)이나 주파수간(빈간 또는 밴드간)에서의 지향성 게인의 차분이 구해지고, 그 차분이 허프만 부호화된다. 또한, 차분이 복소수로 표현될 때는, 차분의 실부와 허부 각각이 개별로 허프만 부호화되어도 되고, 차분(복소수)이 허프만 부호화되어도 된다. 또한, 차분으로부터 구해지는 진폭 성분과 위상 성분 각각이 개별로 허프만 부호화되어도 된다.
또한, 차분 방식에 의해 얻어진 차분에 대한 허프만 부호화에 의해 얻어진 허프만 코드를 포함하는 데이터(이하, 부호화 지향성 데이터라고도 칭함)가 포함되는 모델 데이터가 생성된다. 이 경우, 지향성 데이터의 잔차는 생기지 않으므로, 모델 데이터에 차분 부호 데이터는 포함되어 있지 않다.
또한, 차분 방식에서는, 가역 압축이 가능한데, 데이터에 따라서 압축률이 변동한다. 또한, 공간 인접 차분 방식이나 주파수간 차분 방식 등의 복수의 방식을 조합해서 다단의 차분을 구하는, 즉 차분을 구하는 처리를 복수회 행하는 경우에는, 1차원의 데이터의 경우와는 달리, 차분 부호 데이터나 부호화 지향성 데이터를 모델 데이터에 저장할 때의 데이터순의 정의가 필요해지고, 이 데이터순에 따라 압축률이 변동한다.
지향성 데이터로부터 모델 데이터를 생성함에 있어서는, 지향성 데이터의 빈마다나 밴드마다의 지향성 게인의 평균값, 즉 평균 지향 특성을 모델화하는 것도 생각할 수 있다. 그러한 경우, 차분 정보는, 평균 지향 특성에 오프셋과 스케일 팩터를 적용하여, 다이내믹 레인지를 맞추고 나서 계산된다.
이상과 같이 HOA 방식이나 혼합 방식, 복소 혼합 방식, 차분 방식을 조합해서 모델 데이터를 생성할 경우, 모델 데이터를 생성하는 방식으로서 주로 이하에 나타내는 5개의 방식으로의 유형화를 생각할 수 있다.
여기서 말하는 5개의 방식이란, 대역 하이브리드 방식, 가산 하이브리드 방식, 승산 하이브리드 방식, 구면 조화 계수 모델화 방식 및 조합 하이브리드 방식이다. 이하, 각 방식에 대해서 설명한다.
(대역 하이브리드 방식)
대역 하이브리드 방식은, 주파수 대역마다, 즉 빈마다나 밴드마다 HOA 방식, 혼합 방식, 복소 혼합 방식 및 차분 방식 중 어느 방식을 사용하여 모델 데이터를 생성할지를 전환하는 방식이다. 이 경우, 예를 들어 저역에서는 복소 지향성 게인으로의 기록이 행해지고, 고역에서는 실수의 지향성 게인으로의 기록이 행해지도록 해도 된다.
구체적인 예로서, 예를 들어 저역측 밴드에서는 HOA 방식으로의 모델화가 행해지고, 고역측 밴드에서는 혼합 방식으로의 모델화가 행해지는 등, 밴드(주파수 대역)마다 다른 방식으로 지향성 데이터의 모델화가 행해지도록 할 수 있다.
또한, 예를 들어 저역측 밴드에서는 복소 Bingham 분포 등에 의한 복소 혼합 방식으로의 모델화가 행해지고, 고역측 밴드에서는 혼합 방식으로의 모델화가 행해지도록 해도 된다.
(가산 하이브리드 방식)
가산 하이브리드 방식에서는, 모델화 후의 지향성 데이터와의 차분을 나타내는 차분 정보가, 또한 모델화되거나, 차분 방식에 의해 부호화되거나 한다.
가산 하이브리드 방식의 구체적인 예로서, 예를 들어 이하에 나타내는 방식 (AH1) 내지 방식 (AH4) 등을 생각할 수 있다. 특히, 이하에 나타내는 예에서는 좌측에 기술되어 있는 방식부터 차례로 처리가 실행되어 간다.
방식 (AH1): 혼합 방식+차분 방식
방식 (AH2): HOA 방식(낮은 차원)+혼합 방식
방식 (AH3): HOA 방식(낮은 차원)+차분 방식
방식 (AH4): HOA 방식(낮은 차원)+혼합 방식+차분 방식
방식 (AH1)에서는, 먼저 지향성 데이터가 혼합 방식으로 모델화된다. 이어서, 모델화 전의 지향성 데이터와, 혼합 방식으로의 모델화 후의 지향성 데이터의 차분을 나타내는 차분 정보가 차분 방식에 의해 부호화되어, 차분 부호 데이터가 생성된다.
그리고 혼합 방식으로의 모델화에 의해 얻어진 모델 파라미터와, 차분 부호 데이터가 포함되는 모델 데이터가 생성된다.
방식 (AH2)에서는, 먼저 지향성 데이터가 HOA 방식으로 모델화된다. 특히, HOA 방식으로의 모델화에서는, 저차의 항까지의 구면 조화 함수 전개가 행해진다. 이어서, 모델화 전의 지향성 데이터와, HOA 방식으로의 모델화 후의 지향성 데이터의 차분을 나타내는 차분 정보가, 또한 혼합 방식으로 모델화된다.
그리고 HOA 방식으로의 모델화에 의해 얻어진 모델 파라미터와, 혼합 방식으로의 차분 정보의 모델화에 의해 얻어진 모델 파라미터가 포함되는 모델 데이터가 생성된다.
방식 (AH3)에서는, 방식 (AH2)에서의 경우와 마찬가지로, HOA 방식으로 저차의 항까지의 모델화가 행해지고, 그 후, HOA 방식으로의 모델화에 대해서 얻어지는 차분 정보가 차분 방식에 의해 부호화되어, 차분 부호 데이터가 생성된다.
그리고 HOA 방식으로의 모델화에 의해 얻어진 모델 파라미터와, 차분 부호 데이터가 포함되는 모델 데이터가 생성된다.
방식 (AH4)에서는, 방식 (AH2)에서의 경우와 마찬가지로, HOA 방식으로 저차의 항까지의 모델화 후, 또한 혼합 방식으로의 차분 정보의 모델화가 행해진다.
이어서 HOA 방식으로의 모델화에 대해서 얻어진 차분 정보와, 혼합 방식으로의 모델화 후의 차분 정보의 차분을 나타내는 차분 정보가 차분 방식에 의해 부호화되어, 차분 부호 데이터가 생성된다. 바꾸어 말하면, HOA 방식 및 혼합 방식의 조합에 의해 모델화된 모델화 후의 지향성 데이터와, 모델화 전의 지향성 데이터의 차분을 나타내는 차분 정보가 차분 방식에 의해 부호화되어, 차분 부호 데이터가 생성된다.
그리고 HOA 방식으로의 모델화에 의해 얻어진 모델 파라미터와, 혼합 방식으로의 차분 정보의 모델화에 의해 얻어진 모델 파라미터와, 차분 부호 데이터가 포함되는 모델 데이터가 생성된다.
이하에서는, 소정의 방식으로의 지향성 데이터의 모델화 후에, 또한 모델화 대상이 되는 차분 정보와, 차분 방식에서의 부호화 대상이 되는 차분 정보를 구별하기 위해서, 모델화 대상이 되는 차분 정보를, 특히 중간 차분 정보라고도 칭하는 것으로 한다.
예를 들어 방식 (AH4)에서는, HOA 방식으로의 모델화에 의해 얻어지는 차분 정보가 중간 차분 정보이며, 이 중간 차분 정보가 혼합 방식으로 모델화된다. 그리고 그 후, 원래의 중간 차분 정보와, 혼합 방식으로의 모델화 후의 중간 차분 정보의 차분을 나타내는 차분 정보가 차분 방식에 의해 부호화된다.
이상의 방식 (AH1) 내지 방식 (AH4) 중 방식 (AH2)에서는 복호측에서 원래의 지향성 데이터와 완전히 일치하는 것을 얻을 수 없지만, 방식 (AH1), 방식 (AH3) 및 방식 (AH4)에서는 원래의 지향성 데이터와 완전히 일치하는 것이 얻어진다.
또한, 가산 하이브리드 방식이 아니라, 지향성 데이터가 단독 방식으로 모델화 또는 부호화되도록 해도 된다. 즉, 예를 들어 HOA 방식, 혼합 방식 및 차분 방식 중 어느 1개의 방식만으로 지향성 데이터가 모델화 또는 부호화되고, 그 결과 얻어진 모델 파라미터 또는 부호화 지향성 데이터가 포함되는 모델 데이터가 생성되도록 해도 된다.
(승산 하이브리드 방식)
승산 하이브리드 방식에서는, 소정의 방식으로 지향성 데이터가 모델화되고, 모델화 후의 지향성 데이터와, 모델화 전의 지향성 데이터의 비(몫)가 또한 소정의 방식과는 상이한 다른 방식으로 모델화된다.
승산 하이브리드 방식의 구체적인 예로서, 예를 들어 이하에 나타내는 방식 (MH1) 및 방식 (MH2) 등을 생각할 수 있다.
방식 (MH1): HOA 방식(저차)×진폭 변조(혼합 방식)
방식 (MH2): HOA 방식(저차)×진폭 위상 변조(혼합 방식)
방식 (MH1)에서는, 먼저 지향성 데이터가 HOA 방식으로 모델화된다. 특히, HOA 방식으로의 모델화에서는, 저차의 항까지의 구면 조화 함수 전개가 행해진다.
이어서, 모델화 전의 지향성 데이터를, HOA 방식으로의 모델화 후의 지향성 데이터로 제산해서 얻어지는 값(이하, 진폭 변조 정보라고도 칭함)이, 또한 혼합 방식으로 모델화된다. 이때, 예를 들어 진폭 변조 정보를 구성하는 복소수(복소 지향성 게인)의 절댓값(진폭 성분)이 혼합 방식으로의 모델화의 대상으로 되어도 되고, 모델화 전후의 지향성 데이터의 진폭 성분의 비가 진폭 변조 정보로 되어도 된다. 그리고 HOA 방식으로의 모델화에 의해 얻어진 모델 파라미터와, 혼합 방식으로의 진폭 변조 정보의 모델화에 의해 얻어진 모델 파라미터가 포함되는 모델 데이터가 생성된다.
복호 시에는, HOA 방식에 관한 모델 파라미터로부터 산출된 지향성 데이터에 대해서, 혼합 방식에 관한 모델 파라미터로부터 산출된 진폭 변조 정보가 승산되어, 최종적인 지향성 데이터가 산출된다.
이러한 방식 (MH1)에서는, HOA 방식으로의 저차의 항까지의 모델화에서는 전부 표현할 수 없는, 고역의 방위(음원으로부터의 방향)에 따른 미세한 진폭의 흔들림을 나타내는 진폭 변조 정보가 혼합 방식으로 모델화되어 모델 데이터에 기록(저장)된다. 그리고 복호 시에는, HOA 방식에 관한 모델 파라미터로부터 산출된 지향성 데이터에 대해서, 진폭 변조 정보에 의해 변조되어, 보다 오차가 적은 지향성 데이터가 구해진다.
방식 (MH2)에서는, 방식 (MH1)에서의 경우와 마찬가지로, 지향성 데이터에 대해서 HOA 방식으로의 저차의 항까지의 모델화가 행해진다.
이어서, 모델화 전의 지향성 데이터를, HOA 방식으로의 모델화 후의 지향성 데이터로 제산해서 얻어지는 값(이하, 진폭 위상 변조 정보라고도 칭함)이, 또한 혼합 방식으로 모델화된다. 이때, 예를 들어 진폭 위상 변조 정보를 구성하는 복소수(복소 지향성 게인)의 실부와 허부나 진폭 성분과 위상 성분이 혼합 방식으로의 모델화의 대상으로 된다. 또한, 진폭 위상 변조 정보가 복소 혼합 방식에 의해 모델화되어도 된다. 그리고 HOA 방식으로의 모델화에 의해 얻어진 모델 파라미터와, 혼합 방식으로의 진폭 위상 변조 정보의 모델화에 의해 얻어진 모델 파라미터가 포함되는 모델 데이터가 생성된다.
복호 시에는, HOA 방식에 관한 모델 파라미터로부터 산출된 지향성 데이터에 대해서, 혼합 방식에 관한 모델 파라미터로부터 산출된 진폭 위상 변조 정보가 승산되어, 최종적인 지향성 데이터가 산출된다.
이러한 방식 (MH2)에서는, HOA 방식으로의 저차의 항까지의 모델화에서는 전부 표현할 수 없는, 방위(음원으로부터의 방향)에 따른 고역의 위상의 회전 변화를 나타내는 진폭 위상 변조 정보가 혼합 방식으로 모델화되어 모델 데이터에 기록(저장)된다. 그리고 복호 시에는, HOA 방식에 관한 모델 파라미터로부터 산출된 지향성 데이터에 대해서, 진폭 위상 변조 정보에 의해 변조되어, 보다 오차가 적은 지향성 데이터가 구해진다.
승산 하이브리드 방식이나 다른 방식에 있어서, 복소수에 의해 표현되는 지향성 게인(복소 지향성 게인)이나 중간 차분 정보를 모델화할 경우, 복소수의 실부와 허부에서 각각 다른 또는 동일한 방식에 의해 독립(개별)적으로 모델화가 행해져도 된다. 예를 들어 실부가 혼합 방식에 의해 모델화되고, 허부도 혼합 방식에 의해 모델화되어도 된다.
마찬가지로, 진폭 성분과 위상 성분이 각각 독립(개별)적으로 임의의 방식에 의해 모델화되어도 되고, 복소수의 데이터가 복소 혼합 방식에 의해 모델화되어도 된다.
(구면 조화 계수 모델화 방식)
구면 조화 계수 모델화 방식에서는, 지향성 데이터가 HOA 방식으로 모델화되고, 그 결과 얻어진 모델 파라미터, 즉 구면 조화 계수가 또한 혼합 방식으로 모델화되어, 그 결과 얻어진 모델 파라미터가 모델 데이터에 저장된다.
따라서, 구면 조화 계수 모델화 방식에서는, 지향성 데이터가 HOA 방식과 혼합 방식의 2단계로 모델화된다고 할 수 있다. 복호 시에는, 먼저 혼합 방식에 관한 모델 파라미터에 기초하여 구면 조화 계수가 산출되고, 또한 구면 조화 계수에 기초하여 지향성 데이터(개형 지향성 데이터)가 산출된다.
그 밖에, 예를 들어 모델 파라미터로서의 구면 조화 계수의 실부와 허부 각각, 또는 모델 파라미터로부터 구해지는 진폭 성분과 위상 성분 각각이 개별(독립)적으로 혼합 방식 등의 임의의 방식으로 모델화되도록 해도 된다. 또한, 구면 조화 계수가 복소 혼합 방식, 즉 1개 또는 복수의 복소 Bingham 분포 등에 의해 모델화되어도 된다.
(조합 하이브리드 방식)
조합 하이브리드 방식에서는, 상술한 대역 하이브리드 방식, 가산 하이브리드 방식, 승산 하이브리드 방식 및 구면 조화 계수 모델화 방식 중 적어도 2 이상의 것의 조합이 사용되어 모델 데이터가 생성된다.
또한, 예를 들어 HOA 방식이나 혼합 방식 등, 모델 데이터의 생성에 사용된 1개 또는 복수의 방식의 조합을 나타내는 정보가 모델 데이터에 저장되도록 해도 된다. 그러한 경우, 서버(11)측에서 모델 데이터의 생성에 사용하는 1개 또는 복수의 방식의 조합을 적절하게 선택하거나 전환하거나 할 수 있다.
이상과 같이 해서 지향성 데이터가 모델화될 경우, 모델 데이터는, 예를 들어 도 15 및 도 16에 나타내는 구성이 된다. 또한, 도 16에는 도 15에 나타낸 부분에 계속되는 부분이 나타내져 있다. 또한, 도 15 및 도 16에서 도 5에 나타낸 경우와 대응하는 부분에 대해서는, 그 설명은 적절하게 생략한다.
도 15 및 도 16에 나타내는 예는, num_sound_types_id로 지정되는 1종류의 음원의 지향성 정보(지향성 데이터)를 directivityConfig로서 기술한 예로 되어 있다. 특히 여기서는, 하이브리드 방식을 실현하는 일례로서 vMF 분포와 Kent 분포, 차분 데이터(차분 정보)가 존재하는 경우의 Syntax가 나타내져 있고, 각 정보의 비트수는 어디까지나 일례이다.
도 15 및 도 16에 나타내는 모델 데이터는, 기본적으로는 도 5에 나타낸 모델 데이터와 동일한 데이터로 구성되어 있지만, 도 15 및 도 16의 예와 도 5의 예에서는, 그러한 데이터 중 몇 가지의 데이터의 비트수와 데이터 구성이 다르게 되어 있다.
구체적으로는, 도 15 및 도 16에 나타내는 예에서는, 방위각 「azimuth_table[i]」 및 앙각 「elevation_table[i]」가 16비트의 unsigned short로 되어 있다.
또한, 밴드수 「band_count」 및 혼합수 「mix_count[i_band]」가 8비트의 unsigned char로 되어 있고, 선택 플래그 「dist_flag」가 1비트의 bool로 되어 있다.
또한, 이 예에서는 모델 데이터에는, 차분 정보의 부호화에 사용된 하이브리드의 모드(차분 부호화 모드(차분 부호화 방식))의 ID, 즉 차분 부호화 모드 정보를 나타내는 「mode」가 포함되어 있다. 또한, 모델 데이터에는 차분 정보의 부호화에 사용된 허프만 부호화 테이블을 나타내는 인덱스 「table_index」도 포함되어 있다.
또한 모델 데이터에는, 1.0dB마다의 양자화 등의 양자화 스텝 사이즈를 나타내는 「int db_resolution」이 포함되어 있다. 예를 들어 「int db_resolution」에 대해서, 값 「0」은 양자화 없음을 나타내고 있고, 값 「1」은 0.01dB을 나타내고 있고, 값 「2」는 0.2dB을 나타내고 있고, 값 「3」은 0.4dB을 나타내고 있고, 값 「256」은 25.6dB을 나타내고 있다.
그 밖에, 모델 데이터에는, 각 빈에 대해서, 데이터 포인트마다 차분 정보를 허프만 부호화함으로써 얻어진 허프만 코드(허프만 부호), 즉 차분 부호 데이터인 「diff_data[i_bin][i_point]」도 저장되어 있다.
또한, 서버(11)로부터 정보 처리 장치(51)에는, 모델 데이터에 저장되거나 또는 모델 데이터와는 별도로 도 17에 나타내는 구성의 정보가 전송된다. 도 17에 나타내는 정보에는, 허프만 부호화 테이블 또는 리버스 테이블이 포함되어 있다.
도 17에 나타내는 예에서는, 「diff_mode_count」는 차분 부호화 방식의 총수를 나타내는 정보이며, 이 총수 「diff_mode_count」의 분만큼 「int_nbits_res_data」가 저장되어 있다.
이 「int_nbits_res_data」는, 허프만 코드의 최대 비트수, 즉 허프만 코드의 최대 단어 길이를 나타내는 정보이며, 예를 들어 1.0dB 간격일 경우에는 7비트 등으로 되어, 0dB부터 128dB까지의 범위를 표현할 수 있다.
「element_count」는 허프만 부호화 테이블 또는 리버스 테이블의 요소 수를 나타내는 정보이며, 그 요소 수만큼 요소인 「Huff_dec_table[i_element]」가 저장되어 있다. 특히, 이 예에서는 「Huff_dec_table[i_element]」는, 리버스 테이블의 요소로 되어 있다.
또한, 허프만 부호화 테이블은, 예를 들어 도 18에 나타내는 바와 같이 된다. 즉, 도 18은, 허프만 부호화 테이블의 구체적인 일례를 나타내고 있다.
예를 들어, 구체적인 예로서 도 16에서 int db_resolution=1dB로 한 경우, 이하와 같이 부호화가 행해진다.
0: 0dB
10: +1dB
11: +2dB
element_count=4;
int_nbits_res_data=2;//huffman decode 테이블(index로부터 data를 얻는 리버스 테이블)의 최대 단어 길이
Huff_dec_table[4]={0, 0, 1, 2};
Huff_dec_table은 최대 단어 길이 2bit의 경우의 리버스 테이블이 된다.
0: 0dB
1: 0dB
2: 1dB
3: 2dB
또한, 복호 시에는, 이하의 수순으로 처리가 행해진다.
(1) 최대 단어 길이로 bitstream으로부터 비트 열을 취득
(2) 비트 열을 i_element(huffman code를 최대 단어 길이로 기록한 것과 등가)로 해서 huff_dec_table을 참조
(3) i_element의 요소가 복원된 데이터를 얻는다.
(4) 상기 데이터를 db_resolution을 바탕으로 복원하여, dB값을 얻는다.
또한, 복원에는 오프셋값이 필요하다.
또한, 원래 데이터의 음압(dB값)은, Db=Huff_dec_table[code]*db_resolution에 의해 얻을 수 있다.
<서버의 구성예>
서버(11)에 있어서, 1개 또는 복수의 방식을 조합한 모델 데이터의 생성이나 차분 부호화 모드에서의 차분 정보의 부호화가 행해지는 경우, 예를 들어 서버(11)는 도 19에 나타내는 바와 같이 구성된다.
또한, 도 19에서 도 9에서의 경우와 대응하는 부분에는 동일한 부호를 부여하고 있으며, 그 설명은 적절하게 생략한다.
도 19에 나타내는 서버(11)는, 컴퓨터 등을 포함하는 정보 처리 장치이며, 도 9에서의 경우와 마찬가지로 부호화 장치로서 기능한다.
서버(11)는, 지향성 데이터 부호화부(201), 오디오 데이터 부호화부(23) 및 출력부(24)를 갖고 있다.
지향성 데이터 부호화부(201)는, 공급된 지향성 데이터에 기초하여 모델 데이터를 생성한다. 지향성 데이터 부호화부(201)는, 모델 파라미터 추정부(211), 잔차 산출부(212), 부호화 방식 선택부(213), 허프만 부호화부(214) 및 모델 데이터 생성부(215)를 갖고 있다.
특히, 이 예에서는 모델 파라미터 추정부(211) 및 잔차 산출부(212)가 도 9의 모델화부(21)에 대응하고, 부호화 방식 선택부(213) 내지 모델 데이터 생성부(215)가 도 9의 모델 데이터 생성부(22)에 대응한다.
모델 파라미터 추정부(211)는, 공급된 처리 대상의 지향성 데이터를 HOA 방식이나 혼합 방식 등, 적어도 1 이상의 방식에 의해 모델화하고, 그 결과 얻어진 방식마다의 모델 파라미터를 잔차 산출부(212) 및 모델 데이터 생성부(215)에 공급한다.
잔차 산출부(212)는, 공급된 처리 대상의 지향성 데이터와, 모델 파라미터 추정부(211)로부터 공급된 모델 파라미터에 기초하여 차분 정보를 산출하고, 부호화 방식 선택부(213) 및 허프만 부호화부(214)에 공급한다.
부호화 방식 선택부(213)는, 공급된 처리 대상의 지향성 데이터와, 잔차 산출부(212)로부터 공급된 차분 정보에 기초하여, 차분 정보를 허프만 부호화할 때의 차분 부호화 모드와 허프만 부호화 테이블을 선택하고, 그 선택 결과를 나타내는 부호화 모드 정보를 허프만 부호화부(214) 및 모델 데이터 생성부(215)에 공급한다.
부호화 모드 정보는, 선택된 차분 부호화 모드(차분 부호화 방식)를 나타내는 차분 부호화 모드 정보와, 선택된 허프만 부호화 테이블을 나타내는 테이블 인덱스 정보를 포함한다. 또한, 부호화 방식 선택부(213)에서의 부호화 모드 정보의 생성에 있어서는, 차분 정보만이 사용되도록 해도 된다.
허프만 부호화부(214)는, 부호화 방식 선택부(213)로부터 공급된 부호화 모드 정보에 기초하여, 잔차 산출부(212)로부터 공급된 차분 정보를 허프만 부호화하고, 그 결과 얻어진 차분 부호 데이터를 모델 데이터 생성부(215)에 공급한다.
모델 데이터 생성부(215)는, 모델 파라미터 추정부(211)로부터 공급된 방식마다의 모델 파라미터와, 허프만 부호화부(214)로부터 공급된 차분 부호 데이터와, 부호화 방식 선택부(213)로부터 공급된 부호화 모드 정보를 포함하는 모델 데이터를 생성하여, 출력부(24)에 공급한다. 또한, 차분 정보의 부호화가 행해지지 않는 경우에는, 모델 데이터에는 차분 부호 데이터는 포함되지 않는다. 또한, 보다 상세하게는, 모델 데이터에는, 상술한 지향성 데이터에 관한 정보도 저장된다. 그 밖에, 지향성 데이터의 모델화에 사용된 방식을 나타내는 정보가 모델 데이터에 저장되어도 된다.
서버(11)가 도 19에 나타낸 구성으로 되는 경우에도, 서버(11)에서는 도 10을 참조하여 설명한 부호화 처리가 행해진다. 단, 스텝 S11 및 스텝 S12에서는, 보다 상세하게는, 이하에서 설명하는 처리가 행해진다.
즉, 스텝 S11에서는, 모델 파라미터 추정부(211)에서 적어도 1 이상의 방식에 의해, 공급된 처리 대상의 지향성 데이터의 모델화가 행하여짐과 함께, 잔차 산출부(212)에서 필요에 따라 차분 정보가 산출된다.
바꾸어 말하면, 예를 들어 HOA 방식이나 혼합 방식, 복소 혼합 방식, 차분 방식 등이 필요에 따라서 조합되고, 이에 의해 상술한 대역 하이브리드 방식이나, 가산 하이브리드 방식, 승산 하이브리드 방식, 구면 조화 계수 모델화 방식, 조합 하이브리드 방식 등에 의해 모델 파라미터와 차분 정보가 산출된다.
또한, 스텝 S12에서는 부호화 방식 선택부(213)에서의 차분 부호화 모드와 허프만 부호화 테이블의 선택, 및 허프만 부호화부(214)에서의 허프만 부호화가 필요에 따라서 행하여짐과 함께, 모델 데이터 생성부(215)에 의한 모델 데이터의 생성이 행해진다.
구체적으로는, 예를 들어 가산 하이브리드 방식의 방식 (AH4)에 의해 모델 파라미터가 산출될 경우, 먼저 모델 파라미터 추정부(211)는, 지향성 데이터를 HOA 방식으로 모델화하고, 그 결과, 모델 파라미터로서의 구면 조화 계수를 얻는다.
또한, 모델 파라미터 추정부(211)는, HOA 방식에 의한 모델화 후의 지향성 데이터와, 모델화 전의 지향성 데이터의 차분을 중간 차분 정보로서 구함과 함께, 중간 차분 정보를 혼합 방식에 의해 모델화한다. 혼합 방식에 의한 중간 차분 정보의 모델화에 의해, 파라미터 집중도 κ나 타원율 β, 가중치 φi, 벡터 γ1, major축 벡터 γ2, minor축 벡터 γ3, 스케일 팩터, 최솟값이 모델 파라미터로서 얻어진다.
모델 파라미터 추정부(211)는, HOA 방식에 의한 지향성 데이터의 모델화에 의해 얻어진 모델 파라미터와, 혼합 방식에 의한 중간 차분 정보의 모델화에 의해 얻어진 모델 파라미터를 잔차 산출부(212) 및 모델 데이터 생성부(215)에 공급한다.
그러면, 잔차 산출부(212)는, 모델 파라미터 추정부(211)로부터 공급된 모델 파라미터와, 공급된 지향성 데이터에 기초하여 차분 정보를 생성한다. 이 차분 정보는, HOA 방식 및 혼합 방식의 조합에 의해 모델화된 모델화 후의 지향성 데이터와, 모델화 전의 지향성 데이터의 잔차이다.
또한, 허프만 부호화부(214)는, 부호화 방식 선택부(213)로부터 공급된 부호화 모드 정보에 따라서, 잔차 산출부(212)로부터 공급된 차분 정보를 필요에 따라 허프만 부호화한다.
이때, 차분 부호화 모드 정보에 의해 나타내지는 방식으로 처리가 행해진다. 즉, 예를 들어 공간 인접 차분 방식, 주파수간 차분 방식 및 복소 차분 방식 중 1 이상의 방식에 의해 차분 정보가 허프만 부호화되거나, 차분 정보에 대한 허프만 부호화가 행해지지 않거나 한다.
예를 들어 공간 인접 차분 방식에 의해 허프만 부호화가 행해지는 경우, 허프만 부호화부(214)는, 서로 인접하는 데이터 포인트간에서의 차분 정보의 차분을 공간 차분 정보로서 구하고, 그 공간 차분 정보를 허프만 부호화함으로써 차분 부호 데이터를 생성한다.
모델 데이터 생성부(215)는, 모델 파라미터 추정부(211)로부터 공급된, HOA 방식의 모델 파라미터 및 혼합 방식의 모델 파라미터와, 부호화 방식 선택부(213)로부터 공급된 부호화 모드 정보를 포함하는 모델 데이터를 생성한다. 특히, 차분 정보의 허프만 부호화가 행해진 경우에는, 모델 데이터 생성부(215)는, 허프만 부호화부(214)로부터 공급된 차분 부호 데이터도 모델 데이터에 저장한다.
또한, 차분 방식 단독으로 모델 데이터가 생성될 경우, 모델 파라미터 추정부(211)는, 공급된 지향성 데이터에 기초하여, 공간 인접 차분 방식과 주파수간 차분 방식 중 적어도 1 이상의 방식에 의해 지향성 데이터의 차분(이하, 차분 지향성 데이터라고도 칭함)을 구한다. 이 차분 지향성 데이터는, 데이터 포인트간이나 빈간에서의 지향성 데이터, 즉 지향성 게인의 차분이다.
이 경우, 부호화 방식 선택부(213)는, 잔차 산출부(212)를 통해서 모델 파라미터 추정부(211)로부터 공급된 차분 지향성 데이터에 기초하여 부호화 모드 정보를 생성한다. 또한, 허프만 부호화부(214)는, 부호화 방식 선택부(213)로부터 공급된 부호화 모드 정보에 기초하여, 잔차 산출부(212)를 통해서 모델 파라미터 추정부(211)로부터 공급된 차분 지향성 데이터를 지정된 차분 부호화 방식에 의해 허프만 부호화하여, 부호화 지향성 데이터를 생성한다.
그리고 모델 데이터 생성부(215)는, 허프만 부호화부(214)로부터 공급된 부호화 지향성 데이터와, 부호화 방식 선택부(213)로부터 공급된 부호화 모드 정보를 포함하는 모델 데이터를 생성하여, 출력부(24)에 공급한다.
<지향성 데이터 생성 처리의 설명>
도 19에 나타낸 구성의 서버(11)로부터 부호화 비트 스트림의 공급을 받은 정보 처리 장치(51)는, 예를 들어 도 20에 나타내는 지향성 데이터 생성 처리를 행함과 함께, 그 후, 임의의 타이밍에 도 13을 참조하여 설명한 출력 오디오 데이터 생성 처리를 행한다.
이하, 도 20의 흐름도를 참조하여, 복호 장치로서 기능하는 정보 처리 장치(51)에 의해 행해지는 지향성 데이터 생성 처리에 대해서 설명한다.
또한, 스텝 S111에서는 도 12의 스텝 S51의 처리와 마찬가지의 처리가 행해진다. 즉, 스텝 S111에서는 언패킹부(81)는, 모델 데이터의 언패킹을 행하여, 모델 파라미터나 모델화 전의 원래의 지향성 데이터에 관한 정보, 차분 부호 데이터 등을 모델 데이터로부터 추출한다.
스텝 S112에서 언패킹부(81)는, 언패킹에 의해 추출된 방식마다의 모델 파라미터 중에, 아직 지향성 데이터 산출부(82)에 공급하지 않은 모델 파라미터가 있는지 여부를 판정한다.
스텝 S112에서 모델 파라미터가 있다고 판정된 경우, 언패킹부(81)는, 아직 지향성 데이터 산출부(82)에 공급하지 않은, 즉 아직 처리를 행하지 않은 모델 파라미터를 지향성 데이터 산출부(82)에 공급하고, 처리는 스텝 S113으로 진행한다.
스텝 S113에서 지향성 데이터 산출부(82)는, 언패킹부(81)로부터 공급된 1개의 방식의 모델 파라미터에 기초하여, 모델 파라미터에 기초하는 데이터를 산출한다.
예를 들어 스텝 S113에서는, HOA 방식이나 혼합 방식 등, 방식마다의 모델 파라미터에 기초하여, 모델화 후의 지향성 데이터를 구성하는 지향성 게인이나 중간 차분 정보, 진폭 변조 정보, 진폭 위상 변조 정보 등이 모델 파라미터에 기초하는 데이터로서 산출된다.
스텝 S113의 처리가 행해지면, 그 후, 처리는 스텝 S112로 돌아가서, 상술한 처리가 반복해서 행해진다.
또한, 스텝 S112에서, 지향성 데이터 산출부(82)에 공급하지 않은 모델 파라미터가 없다고 판정된 경우, 그 후, 처리는 스텝 S114로 진행한다.
스텝 S114에서 언패킹부(81)는, 취득부(61)로부터 공급된 모델 데이터에 차분 부호 데이터가 포함되어 있는지 여부, 즉 차분 부호 데이터가 있는지 여부를 판정한다.
스텝 S114에서 차분 부호 데이터가 포함되어 있다고 판정된 경우, 언패킹부(81)는, 모델 데이터로부터 추출한 부호화 모드 정보 및 차분 부호 데이터를 차분 정보 복호부(83)에 공급하고, 그 후, 처리는 스텝 S115로 진행한다.
스텝 S115에서 차분 정보 복호부(83)는, 언패킹부(81)로부터 출력된 부호화 모드 정보 및 차분 부호 데이터를 취득한다.
스텝 S116에서 차분 정보 복호부(83)는, 취득한 부호화 모드 정보에 기초하여 차분 부호 데이터의 복호를 행하고, 그 결과 얻어진 차분 정보(지향성 데이터 잔차)를 가산부(84)에 공급한다.
예를 들어 부호화 모드 정보에 포함되어 있는 차분 부호화 모드 정보에 의해, 공간 인접 차분 방식에 의한 부호화가 행해지고 있는 것이 특정되었다고 하자.
그러한 경우, 차분 정보 복호부(83)는, 부호화 모드 정보에 포함되어 있는 테이블 인덱스 정보에 의해 특정되는 리버스 테이블을 사용하여, 언패킹부(81)로부터 공급된 차분 부호 데이터에 대한 복호를 행하고, 각 데이터 포인트의 공간 차분 정보를 얻는다.
그리고 차분 정보 복호부(83)는, 처리 대상의 데이터 포인트의 공간 차분 정보에, 그 데이터 포인트의 근방에 있는 복호 완료된 다른 데이터 포인트의 차분 정보를 가산함으로써, 처리 대상의 데이터 포인트의 차분 정보를 구한다.
스텝 S116의 처리가 행해졌거나 또는 스텝 S114에서 차분 부호 데이터가 없다고 판정된 경우, 그 후, 스텝 S117의 처리가 행해진다.
스텝 S117에서 지향성 데이터 산출부(82) 및 가산부(84)는, 지향성 데이터를 산출한다.
즉, 지향성 데이터 산출부(82)는, 1개 또는 복수회 행해진 스텝 S113의 처리에 의해 얻어진 데이터에 기초해서 개형 지향성 데이터를 산출하여, 가산부(84)에 공급한다.
구체적인 예로서, 예를 들어 서버(11)측에서, 가산 하이브리드 방식의 방식 (AH4)에 의해 모델 파라미터가 산출되었다고 하자.
그러한 경우, 1회째의 스텝 S113의 처리에서는, HOA 방식의 모델 파라미터에 기초하여 모델화 후의 지향성 데이터(개형 지향성 데이터)가 산출된다. 또한, 2회째의 스텝 S113의 처리에서는, 혼합 방식의 모델 파라미터에 기초하여 모델화 후의 중간 차분 정보가 산출된다.
그래서, 지향성 데이터 산출부(82)는, 개형 지향성 데이터에 중간 차분 정보를 가산함으로써, 즉 각 데이터 포인트에서의 빈마다의 지향성 게인에, 각 데이터 포인트에서의 빈마다의 중간 차분 정보를 가산함으로써, 최종적인 개형 지향성 데이터를 구한다.
가산부(84)는, 이와 같이 하여 지향성 데이터 산출부(82)에서 얻어진 최종적인 개형 지향성 데이터에, 차분 정보 복호부(83)로부터 공급된 차분 정보(지향성 데이터 잔차)를 가산함으로써 지향성 데이터를 산출하여, 주파수 보간 처리부(85)에 공급한다. 또한, 차분 정보가 없을 경우에는, 최종적인 개형 지향성 데이터가 그대로 지향성 데이터로 된다.
또한, 예를 들어 서버(11)측에서, 승산 하이브리드 방식의 방식 (MH1)에 의해 모델 파라미터가 산출되었다고 하자.
그러한 경우, 1회째의 스텝 S113의 처리에서는, HOA 방식의 모델 파라미터에 기초하여 모델화 후의 지향성 데이터(개형 지향성 데이터)가 산출된다. 또한, 2회째의 스텝 S113의 처리에서는, 혼합 방식의 모델 파라미터에 기초하여 모델화 후의 진폭 변조 정보가 산출된다.
그래서, 지향성 데이터 산출부(82)는, 개형 지향성 데이터에 진폭 변조 정보를 승산함으로써, 즉 각 데이터 포인트에서의 빈마다의 지향성 게인에, 각 데이터 포인트에서의 빈마다의 진폭 변조 정보를 승산함으로써, 최종적인 지향성 데이터를 구한다. 이 경우, 스텝 S115 및 스텝 S116의 처리는 행해지지 않고, 차분 정보가 없으므로, 지향성 데이터 산출부(82)에서 얻어진 지향성 데이터가 그대로 가산부(84)를 통해서 주파수 보간 처리부(85)에 공급된다.
또한, 예를 들어 서버(11)측에서 차분 방식 단독으로 모델 데이터가 생성되는 경우도 있다. 그러한 경우, 스텝 S113의 처리는 행해지지 않고, 스텝 S115 및 스텝 S116에서 차분 정보 복호부(83)에 의해 부호화 지향성 데이터의 복호가 행해진다.
즉, 차분 정보 복호부(83)는, 부호화 모드 정보에 포함되어 있는 테이블 인덱스 정보에 의해 특정되는 리버스 테이블을 사용하여, 언패킹부(81)로부터 공급된 부호화 지향성 데이터에 대한 복호를 행하여, 차분 지향성 데이터를 얻는다.
그리고 스텝 S117에서는, 차분 정보 복호부(83)는, 차분 지향성 데이터를 구성하는 각 데이터 포인트의 빈마다의 값(차분)에 기초하여, 지향성 데이터를 산출한다.
구체적으로는, 예를 들어 서버(11)측에서, 공간 인접 차분 방식에 의해 차분 지향성 데이터가 산출되어 있는 경우, 차분 정보 복호부(83)는, 처리 대상의 데이터 포인트의 빈마다의 값(차분)에, 그 데이터 포인트의 근방에 있는 복원 완료된 다른 데이터 포인트의 동일한 빈의 지향성 게인을 가산함으로써, 처리 대상의 데이터 포인트 빈마다의 지향성 게인을 구한다.
또한, 예를 들어 서버(11)측에서, 주파수간 차분 방식에 의해 차분 지향성 데이터가 산출되어 있는 경우, 차분 정보 복호부(83)는, 데이터 포인트의 처리 대상의 빈 값(차분)에, 동일한 데이터 포인트에서의 처리 대상의 빈의 근방에 있는 복원 완료된 다른 빈의 지향성 게인을 가산함으로써, 처리 대상의 빈의 지향성 게인을 구한다.
이와 같이, 부호화 지향성 데이터가 모델 데이터에 저장되도록 하는 경우라도, 지향성 데이터의 전송량을 저감시킬 수 있다.
스텝 S117의 처리가 행해져서, 지향성 데이터가 산출되면, 그 후, 스텝 S118의 처리가 행해져서 지향성 데이터 생성 처리는 종료되는데, 스텝 S118의 처리는 도 12의 스텝 S56의 처리와 마찬가지이므로, 그 설명은 생략한다.
이상과 같이 해서 정보 처리 장치(51)는, 모델 데이터에 기초하여 지향성 데이터를 산출한다. 이와 같이 함으로써 지향성 데이터의 전송량을 저감시킬 수 있다. 이에 의해, 전송 지연의 발생이나 전송 레이트의 증대를 억제할 수 있다.
<가산 하이브리드 방식의 구체예>
<지향성 데이터 부호화부의 구성예>
그런데, 서버(11)에서 고정적으로 가산 하이브리드 방식으로 모델 데이터가 생성될 경우, 도 19에 나타낸 서버(11)에서의 지향성 데이터 부호화부(201)의 구성은, 예를 들어 도 21에 나타내는 구성으로 할 수 있다. 또한, 도 21에서 도 19에서의 경우와 대응하는 부분에는 동일한 부호를 부여하고 있어, 그 설명은 적절하게 생략한다.
도 21의 예에서는, 지향성 데이터 부호화부(201)는, 모델 파라미터 추정부(241), 연산부(242), 모델 파라미터 추정부(243), 연산부(244), 차분 부호화부(245) 및 모델 데이터 생성부(215)를 갖고 있다.
모델 파라미터 추정부(241) 내지 연산부(244)는, 도 19의 모델 파라미터 추정부(211)에 대응하고 있다.
모델 파라미터 추정부(241)는, 공급된 처리 대상의 지향성 데이터를 혼합 방식에 의해 모델화하고, 그 결과 얻어진 모델 파라미터를 모델 데이터 생성부(215)에 공급함과 함께, 혼합 방식에 의한 모델화 후의 지향성 데이터를 연산부(242)에 공급한다.
연산부(242)는, 공급된 처리 대상의 지향성 데이터로부터, 모델 파라미터 추정부(241)로부터 공급된 모델화 후의 지향성 데이터를 감산함(차분을 구함)으로써 중간 차분 정보를 산출하여, 모델 파라미터 추정부(243) 및 연산부(244)에 공급한다.
모델 파라미터 추정부(243)는, 연산부(242)로부터 공급된 중간 차분 정보를 HOA 방식에 의해 모델화하고, 그 결과 얻어진 모델 파라미터를 모델 데이터 생성부(215)에 공급함과 함께, HOA 방식에 의한 모델화 후의 중간 차분 정보를 연산부(244)에 공급한다.
연산부(244)는, 연산부(242)로부터 공급된 중간 차분 정보로부터, 모델 파라미터 추정부(243)로부터 공급된 모델화 후의 중간 차분 정보를 감산함(차분을 구함)으로써 차분 정보를 산출하여, 차분 부호화부(245)에 공급한다.
차분 부호화부(245)는, 연산부(244)로부터 공급된 차분 정보와, 적절하게, 공급되는 처리 대상의 지향성 데이터 등에 기초해서, 부호화 모드 정보 및 차분 부호 데이터를 생성하여, 모델 데이터 생성부(215)에 공급한다.
또한, 여기서는 모델 파라미터 추정부(241)에서 혼합 방식에 의한 모델화를 행하고, 모델 파라미터 추정부(243)에서 HOA 방식에 의한 모델화를 행하는 예에 대해서 설명하였다.
그러나, 이에 한정하지 않고, 모델 파라미터 추정부(241)나 모델 파라미터 추정부(243)에서 어떤 방식으로 모델화가 행해지도록 해도 된다. 예를 들어, 모델 파라미터 추정부(241)에서 HOA 방식에 의한 모델화가 행해지고, 모델 파라미터 추정부(243)에서 혼합 방식에 의한 모델화가 행해져도 된다.
<차분 부호화부의 구성예>
또한, 차분 부호화부(245)는, 예를 들어 도 22에 나타내는 구성으로 할 수 있다. 또한, 도 22에서 도 19에서의 경우와 대응하는 부분에는 동일한 부호를 부여하고 있어, 그 설명은 적절하게 생략한다.
도 22의 예에서는, 차분 부호화부(245)는 잔차 산출부(212), 부호화 방식 선택부(213), 다단 차분 처리부(271) 및 허프만 부호화부(214)를 갖고 있다.
잔차 산출부(212)는, 공급된 처리 대상의 지향성 데이터와, 모델 파라미터 추정부(241) 및 모델 파라미터 추정부(243)로부터 공급된 모델화 후의 지향성 데이터 및 중간 차분 정보에 기초해서 차분 정보를 산출하여, 부호화 방식 선택부(213) 및 다단 차분 처리부(271)에 공급한다.
다단 차분 처리부(271)는, 잔차 산출부(212)로부터의 차분 정보 또는 연산부(244)로부터의 차분 정보 중 어느 하나에 기초하여, 부호화 방식 선택부(213)로부터 공급되는 부호화 모드 정보에 의해 나타내지는 차분 부호화 모드에서 다단 차분 정보를 생성한다.
예를 들어 차분 부호화 모드로서, 공간 인접 차분 방식으로 허프만 부호화가 행해지는 경우에는 공간 차분 정보가 다단 차분 정보로서 얻어지고, 차분 부호화 모드로서, 주파수간 차분 방식으로 허프만 부호화가 행해지는 경우에는 주파수간 차분 정보가 다단 차분 정보로서 얻어진다. 마찬가지로, 차분 부호화 모드로서, 공간 인접 차분 방식과 주파수간 차분 방식으로 허프만 부호화가 행해지는 경우에는, 공간 차분 정보나 주파수간 차분 정보를 구함으로써 얻어지는 허프만 부호화의 대상이 되는 정보가 다단 차분 정보로 된다.
다단 차분 처리부(271)는, 얻어진 다단 차분 정보를 부호화 방식 선택부(213) 및 허프만 부호화부(214)에 공급한다.
부호화 방식 선택부(213)는, 공급된 처리 대상의 지향성 데이터와, 잔차 산출부(212) 또는 연산부(244)로부터 공급된 차분 정보와, 다단 차분 처리부(271)로부터 공급된 다단 차분 정보에 기초해서 부호화 모드 정보를 생성하여, 다단 차분 처리부(271), 허프만 부호화부(214) 및 모델 데이터 생성부(215)에 공급한다.
허프만 부호화부(214)는, 부호화 방식 선택부(213)로부터 공급된 부호화 모드 정보에 기초하여, 다단 차분 처리부(271)로부터 공급된 다단 차분 정보를 허프만 부호화하고, 그 결과 얻어진 차분 부호 데이터를 모델 데이터 생성부(215)에 공급한다.
<모델 데이터 생성 처리의 설명>
지향성 데이터 부호화부(201)가 도 21에 나타낸 구성으로 될 경우, 지향성 데이터 부호화부(201)에서는, 도 10의 스텝 S11 및 스텝 S12에 대응하는 처리로서, 도 23에 나타내는 모델 데이터 생성 처리가 행해진다.
즉, 스텝 S151에서 모델 파라미터 추정부(241)는, 공급된 처리 대상의 지향성 데이터에 대해서 혼합 방식에 의한 모델화를 행한다.
모델 파라미터 추정부(241)는, 모델화에 의해 얻어진 모델 파라미터를 모델 데이터 생성부(215)에 공급함과 함께, 혼합 방식에 의한 모델화 후의 지향성 데이터를 연산부(242)에 공급한다.
스텝 S152에서 연산부(242)는, 공급된 처리 대상의 지향성 데이터와, 모델 파라미터 추정부(241)로부터 공급된 모델화 후의 지향성 데이터에 기초해서 중간 차분 정보를 산출하여, 모델 파라미터 추정부(243) 및 연산부(244)에 공급한다.
스텝 S153에서 모델 파라미터 추정부(243)는, 연산부(242)로부터 공급된 중간 차분 정보에 대해서 HOA 방식에 의한 모델화를 행한다.
모델 파라미터 추정부(243)는, 모델화에 의해 얻어진 모델 파라미터를 모델 데이터 생성부(215)에 공급함과 함께, HOA 방식에 의한 모델화 후의 중간 차분 정보를 연산부(244)에 공급한다.
스텝 S154에서 연산부(244)는, 연산부(242)로부터 공급된 중간 차분 정보와, 모델 파라미터 추정부(243)로부터 공급된 모델화 후의 중간 차분 정보에 기초해서 차분 정보를 산출하여, 차분 부호화부(245)에 공급한다.
스텝 S155에서 차분 부호화부(245)는, 연산부(244)로부터 공급된 차분 정보에 기초하여 차분 부호화를 행한다.
즉, 예를 들어 차분 부호화부(245)의 부호화 방식 선택부(213)는, 공급된 처리 대상의 지향성 데이터와, 연산부(244)로부터 공급된 차분 정보와, 전방 프레임 등의 전회의 처리에서 다단 차분 처리부(271)로부터 공급된 다단 차분 정보에 기초해서 부호화 모드 정보를 생성하여, 다단 차분 처리부(271), 허프만 부호화부(214) 및 모델 데이터 생성부(215)에 공급한다. 또한, 부호화 방식 선택부(213)가 잔차 산출부(212)로부터 공급된 차분 정보를 사용하여 부호화 모드 정보를 생성해도 된다.
또한, 다단 차분 처리부(271)는, 예를 들어 연산부(244)로부터 공급된 차분 정보와, 부호화 방식 선택부(213)로부터 공급되는 부호화 모드 정보에 기초해서 다단 차분 정보를 생성하여, 부호화 방식 선택부(213) 및 허프만 부호화부(214)에 공급한다.
허프만 부호화부(214)는, 부호화 방식 선택부(213)로부터 공급된 부호화 모드 정보에 기초하여, 다단 차분 처리부(271)로부터 공급된 다단 차분 정보를 허프만 부호화하고, 그 결과 얻어진 차분 부호 데이터를 모델 데이터 생성부(215)에 공급한다.
스텝 S156에서 모델 데이터 생성부(215)는, 패킹을 행함으로써 모델 데이터를 생성하여, 출력부(24)에 공급한다.
구체적으로는, 모델 데이터 생성부(215)는, 모델 파라미터 추정부(241)로부터의 혼합 방식의 모델 파라미터, 모델 파라미터 추정부(243)로부터의 HOA 방식의 모델 파라미터, 부호화 방식 선택부(213)로부터의 부호화 모드 정보 및 허프만 부호화부(214)로부터의 차분 부호 데이터를 포함하는 모델 데이터를 생성한다. 이와 같이 하여 모델 데이터가 생성되면, 모델 데이터 생성 처리는 종료된다.
이상과 같이 해서 지향성 데이터 부호화부(201)는, 가산 하이브리드 방식에 의해 모델 데이터를 생성한다. 이와 같이 함으로써, 지향성 데이터의 전송량을 저감시켜, 전송 지연의 발생이나 전송 레이트의 증대를 억제할 수 있다.
<분포 모델 복호부의 구성예>
또한, 지향성 데이터 부호화부(201)가 도 21에 나타낸 구성으로 될 경우, 정보 처리 장치(51)의 분포 모델 복호부(62)는, 예를 들어 도 24에 나타내는 구성으로 된다. 또한, 도 24에서 도 11에서의 경우와 대응하는 부분에는 동일한 부호를 부여하고 있어, 그 설명은 적절하게 생략한다.
도 24에 나타내는 분포 모델 복호부(62)는, 언패킹부(81), 계산부(301), 계산부(302), 차분 정보 복호부(83), 연산부(303), 연산부(304) 및 주파수 보간 처리부(85)를 갖고 있다. 이 예에서는 계산부(301) 및 계산부(302)가 도 11에 나타낸 지향성 데이터 산출부(82)에 대응한다.
계산부(301)는, 언패킹부(81)로부터 공급되는 혼합 방식의 모델 파라미터에 기초해서, 혼합 방식에 의한 모델화 후의 지향성 데이터(개형 지향성 데이터)를 산출하여, 연산부(304)에 공급한다. 계산부(302)는, 언패킹부(81)로부터 공급되는 HOA 방식의 모델 파라미터에 기초해서, HOA 방식에 의한 모델화 후의 중간 차분 정보를 산출하여, 연산부(303)에 공급한다.
차분 정보 복호부(83)는, 언패킹부(81)로부터 공급되는 부호화 모드 정보 및 차분 부호 데이터에 기초하여 차분 정보(지향성 데이터 잔차)를 산출하여, 연산부(303)에 공급한다. 연산부(303)는, 차분 정보 복호부(83)로부터 공급된 차분 정보와, 계산부(302)로부터 공급된 중간 차분 정보를 가산(합성)하고, 그 가산 결과(차분 정보)를 연산부(304)에 공급한다.
연산부(304)는, 계산부(301)로부터 공급된 지향성 데이터(개형 지향성 데이터)와, 연산부(303)로부터 공급된 가산 결과(차분 정보)를 가산하고, 그 결과 얻어진 지향성 데이터를 주파수 보간 처리부(85)에 공급한다.
분포 모델 복호부(62)가 도 24에 나타내는 구성으로 될 경우, 상술한 도 20의 지향성 데이터 생성 처리에서의 1회째의 스텝 S113에서는 계산부(301)에 의해 지향성 데이터(개형 지향성 데이터)가 산출된다. 또한, 2회째의 스텝 S113에서는 계산부(302)에 의해 중간 차분 정보가 산출된다.
그리고 차분 정보 복호부(83)에 의해 스텝 S115 및 스텝 S116의 처리가 행해져서 차분 정보가 생성되고, 스텝 S117에서는 연산부(303) 및 연산부(304)에 의해 가산 처리가 행해져서, 지향성 데이터가 생성된다.
<데이터 포인트의 배치에 대해서>
그런데, 상술한 모델 데이터의 구성은, 도 5에 나타낸 구성이나, 도 15 및 도 16에 나타낸 구성에 한정되지 않고, 도 25에 나타내는 구성으로 할 수도 있다.
또한, 도 25에서 도 5에 나타낸 경우와 대응하는 부분에 대해서는, 그 설명은 적절하게 생략한다. 도 25에서 bslbf는 bit string, left bit first, 즉 좌측 비트가 선두인 것을 나타내고 있다. 또한, uimsbf는 unsigned integer most significant bit first, 즉 최상위 비트가 선두인 부호 없는 정수를 나타내고 있다.
도 25에 나타내는 모델 데이터에는, 주파수 빈의 수를 나타내는 주파수 포인트수 「bin_count」가 포함되어 있고, 그 주파수 포인트수 「bin_count」의 분만큼 주파수 빈의 중심의 주파수 「bin_freq[i]」가 저장되어 있다.
또한, 밴드수 「band_count」의 분만큼, 각 밴드에서의 혼합 모델을 구성하는 분포의 수를 나타내는 혼합수 「mix_count[j]」와, 밴드에 포함되어 있는 빈을 나타내는 빈 정보 「bin_range_per_band[j]」가 저장되어 있다.
또한, 각 밴드에 대해서, 혼합수 「mix_count[k]」의 분만큼, 모델 파라미터로서의 파라미터 집중도 κ, 가중치 φi 및 벡터 γ1과, 선택 플래그 「dist_flag」가 저장되어 있다.
이 예에서는, 「kappa[j][k]」는 파라미터 집중도 κ를 나타내고 있고, 「weight[j][k]」는 가중치 φi를 나타내고 있다. 또한, 「gamma_x[j][k]」, 「gamma_y[j][k]」 및 「gamma_z[j][k]」는, 벡터 γ1을 구성하는 X 성분(X 좌표), Y 성분(Y 좌표) 및 Z 성분(Z 좌표)을 나타내고 있다.
선택 플래그 「dist_flag」가 「1」일 경우, 즉 분포가 Kent 분포일 경우에는, 또한 타원율 β, major축 벡터 γ2 및 minor축 벡터 γ3이 저장되어 있다.
여기서는, 「beta[j][k]」는 타원율 β를 나타내고 있고, 「gamma2_x[j][k]」, 「gamma2_y[j][k]」 및 「gamma2_z[j][k]」는, major축 벡터 γ2를 구성하는 X 성분, Y 성분 및 Z 성분을 나타내고 있다. 「gamma3_x[j][k]」, 「gamma3_y[j][k]」 및 「gamma3_z[j][k]」는, minor축 벡터 γ3을 구성하는 X 성분, Y 성분 및 Z 성분을 나타내고 있다.
모델 데이터에는, 주파수 포인트수 「bin_count」의 분만큼, 지향성 게인의 다이내믹 레인지를 나타내는 스케일 팩터 「scale_factor[i]」와, 각 빈에서의 지향성 데이터의 오프셋값, 즉 최솟값 「offset[i]」도 포함되어 있다.
그 밖에, 모델 데이터에는, 각 데이터 포인트의 위치를 특정하기 위한 정보도 포함되어 있다.
상술한 지향성의 기록 방법에서는, 원래 데이터(원래의 지향성 데이터)로 정의되어 있었던 데이터 포인트에서의 지향성 데이터의 값, 즉 지향성 게인을 가능한 한 정확하게 복원하는 것을 전제로 한 것으로 되어 있다.
정보 처리 장치(51)에서는, 렌더링 처리를 행할 때, 복호된 지향성 데이터가 이용된다. 그러나, 이 경우에 필요해지는 것은, 원래의 지향성 데이터로 기술되어 있었던 데이터 포인트에서의 값(지향성 게인)에 한하지는 않고, 렌더링 처리 시에 이용되는 위치(방위)에서의 지향성 게인이다.
그 때문에, 예를 들어 구 표면 상의 위도, 경도를 등간격으로 분할한 격자점에 데이터(지향성 게인), 즉 데이터 포인트를 배치하는 데이터 배치(이하, 바둑판 눈 데이터 배치라고 칭함)뿐만 아니라, 다양한 데이터 배치로 지향성 데이터를 기록할 필요가 있다. 바꾸어 말하면, 데이터 포인트의 좌표 정보를 가능한 한 효율적으로 기록하기 위한 Syntax가 필요하다.
지향성 데이터에서의 데이터 포인트의 배치 방식으로서, 예를 들어 이하의 방식(배치)을 생각할 수 있다.
·바둑판 눈 데이터 배치
·균일 데이터 배치
·비균일 데이터 배치
여기서 말하는 균일 데이터 배치란, 예를 들어 도 26에 나타내는 바와 같이 음원 위치를 중심으로 하는 구 표면 상에 복수의 데이터 포인트가 균일하게 배치되는 데이터 배치이다. 바꾸어 말하면, 균일 데이터 배치에서는, 구 표면 상의 어느 영역에서든 일정 밀도로 데이터 포인트가 배치된다.
도 26의 예에서는, 구 표면 상의 각 점이 데이터 포인트를 나타내고 있으며, 음원 위치에서 보아 어느 방위에서든 일정 밀도로 데이터 포인트가 배치되어 있는, 즉 일정 밀도로 지향성 게인(지향성 데이터)이 기록되는 것을 알 수 있다.
이러한 균일 데이터 배치에 의한 지향성 데이터의 기록은, 음원에서 본 수청자(유저)의 방향이 시간과 함께 고르게 변화하는 경우 등에 특히 유효하다.
또한, 비균일 데이터 배치란, 음원 위치를 중심으로 하는 구 표면 상에 복수의 데이터 포인트가 비균일하게 배치되는 데이터 배치이다. 바꾸어 말하면, 비균일 데이터 배치에서는, 구 표면 상의 영역마다 다른 밀도로 데이터 포인트가 배치된다. 따라서, 바둑판 눈 데이터 배치는, 비균일 데이터 배치의 하나의 배치예라고 할 수 있는데, 이하에서는, 비균일 데이터 배치에는, 바둑판 눈 데이터 배치는 포함되지 않는 것으로서 설명을 계속한다.
비균일 데이터 배치의 구체적인 예로서, 예를 들어 음원 위치를 중심으로 하는 구 표면 상에서의, 청감상 중요한 음원의 정면 방위에 대응하는 영역이나, 위치 관계로서 유저의 시점과 음원이 가까워질 가능성이 높은 방위에 대응하는 영역에 데이터 포인트를 고밀도로 배치하는 것을 생각할 수 있다. 또한, 비균일 데이터 배치에서는, 지향성 게인이 큰 영역에 데이터 포인트를 고밀도로 배치하는 것도 생각할 수 있다.
비균일 데이터 배치의 다른 예로서, 음원 위치를 중심으로 하는 구 표면 상에서의, 전체로서 지향성 게인의 변화량이 큰 부위(영역)나 중요한 영역에 데이터 포인트, 즉 지향성 게인을 밀하게 배치하고, 중요도가 낮은 영역에는 데이터 포인트를 성기게 배치하는 것도 생각할 수 있다.
이상의 바둑판 눈 데이터 배치, 균일 데이터 배치 및 비균일 데이터 배치의 어느 것에서든, 지향성 데이터의 우선도 등을 결정함에 있어서, 오브젝트의 우선도와 연계시키는 것 등을 생각할 수 있다. 예를 들어, 지향성 데이터의 우선도가, 그 지향성 데이터가 활용되는 콘텐츠에서의 오브젝트의 음원 종별의 우선도에 기초하여 결정되도록 해도 된다.
오브젝트의 우선도와의 연계의 예로서, 예를 들어 콘텐츠에 있어서 복수의 오브젝트가 존재하는 경우에, 음악 콘텐츠라면, 보컬에 대응하는 오브젝트의 우선도가 높아지도록 하는 것을 생각할 수 있다.
또한, 예를 들어 음악 콘텐츠에서의 보컬이나, 영화 콘텐츠에서의 음성 등, 우선도가 높은 음원 종별, 즉 우선도가 높은 오브젝트 음원이 있을 경우에는, 그 음원 종별의 지향성 데이터의 기술에 대해서, 보다 많은 비트가 배분되도록 하는 것을 생각할 수 있다. 즉, 보다 우선도가 높은 음원 종별의 지향성 데이터에서는, 보다 많은 데이터 포인트가 마련되어, 고정밀도로 지향성 데이터가 기록되도록 하는 것을 생각할 수 있다.
이상과 같은 데이터 배치로 데이터 포인트의 배치 위치 등을 기록하는 경우, 도 25에 나타낸 정보를 포함하는 모델 데이터에, 예를 들어 도 27에 나타내는 정보를 또한 기술하도록 해도 된다. 즉, 도 27은, 각 데이터 포인트의 위치를 특정하기 위한 정보 등의 기술 형식(Syntax)의 예를 나타내고 있다.
또한, 여기서는, 음원 위치(음원 중심)로부터 각 데이터 포인트까지의 거리는 일정한 것으로 한다. 즉, 각 데이터 포인트가 음원 위치를 중심으로 하는 구의 표면 상에 배치되는 예에 대해서 설명한다. 그러나, 이에 한정하지 않고, 음원 위치로부터 데이터 포인트까지의 거리가 데이터 포인트마다 다르게 해도 된다.
도 27의 예에서는, 「position_type」은, 데이터 포인트의 배치 형식(배치 방식), 즉 좌표 기록 방식을 나타내는 정보이다.
예를 들어 데이터 포인트의 배치가 바둑판 눈 데이터 배치일 경우에는, 좌표 기록 방식 「position_type」의 값은 「0x000」이 된다.
또한, 예를 들어 데이터 포인트의 배치가 균일 데이터 배치일 경우에는, 좌표 기록 방식 「position_type」의 값은 「0x001」이 되고, 데이터 포인트의 배치가 비균일 데이터 배치일 경우에는, 좌표 기록 방식 「position_type」의 값은 「0x010」이 된다.
「priority_index」는, 지향성 데이터의 우선도, 보다 상세하게는 지향성 데이터의 우선도를 나타내는 우선도 정보이다. 예를 들어 지향성 데이터는, 오브젝트의 종별마다, 즉 음원 종별마다 준비되기 때문에, 우선도 정보는, 음원(오브젝트)의 종별마다의 지향성 데이터의 우선도를 나타내고 있다고 할 수 있다. 이 우선도는 시간과 함께 변화해도 된다.
구체적으로는, 예를 들어 우선도 「priority_index」의 값이 「0x000」일 경우, 즉 우선도를 나타내는 값이 최소일 경우, 지향성 데이터의 우선도가 최대인 것을 나타내고 있다. 여기서는, 지향성 데이터의 우선도가 높을수록, 우선도를 나타내는 값이 작아진다.
또한, 지향성 데이터의 우선도가 최대일 경우에는, 예를 들어 그 지향성 데이터에 대해서는, 복호측인 정보 처리 장치(51)에서 공간 해상도를 떨어뜨리지 않고, 모델화 전(부호화 전)의 모든 데이터 포인트가 복원(복호)되도록 해도 된다.
즉, 정보 처리 장치(51), 보다 상세하게는 분포 모델 복호부(62)에서는, 모델 데이터에 기초하여, 모델화 전의 경우와 동일 위치 및 동일 수의 데이터 포인트를 갖는 지향성 데이터가 산출되도록 해도 된다. 그 밖에, 예를 들어 지향성 데이터의 우선도에 따라, 지향성 데이터를 구성하는 데이터 포인트의 밀도(수)가 결정되어도 된다.
또한, 이 예에서는 좌표 기록 방식 「position_type」의 값에 따라, 데이터 포인트의 배치 위치(좌표)를 특정하기 위한 정보가 기술되어 있다.
구체적으로는, 좌표 기록 방식 「position_type」의 값이 「0x000」일 경우, 즉 바둑판 눈 데이터 배치일 경우에는, 방위각 방향 간격 「azimuth_interval」 및 앙각 방향 간격 「elevation_interval」이 기술되어 있다(저장되어 있다).
방위각 방향 간격 「azimuth_interval」은, 구 표면 상에서의, 방위각 방향에 서로 인접하는 데이터 포인트의 사이의 방위각 방향의 간격을 나타내는 각도(방위각의 차분)를 나타내고 있다.
앙각 방향 간격 「elevation_interval」은, 구 표면 상에서의, 앙각 방향으로 서로 인접하는 데이터 포인트의 사이의 앙각 방향의 간격을 나타내는 각도(앙각의 차분)를 나타내고 있다.
또한, 바둑판 눈 데이터 배치에서는, 정보 처리 장치(51)측에서, 예를 들어 음원 위치에서 본 정면 방향의 위치 등, 기준이 되는 적어도 하나의 위치가 데이터 포인트의 배치 위치로서 기지로 되어 있다. 따라서, 이들 방위각 방향 간격 및 앙각 방향 간격과, 미리 정해진 기준이 되는 위치로부터, 모든 데이터 포인트의 위치를 특정할 수 있다.
좌표 기록 방식 「position_type」의 값이 「0x001」일 경우, 즉 균일 데이터 배치일 경우에는, 구 표면 상에 균일하게 분포하는(배치되는) 데이터 포인트의 수를 나타내는 데이터 포인트수 「uniform_dist_point_count」가 기술되어 있다(저장되어 있다).
균일 데이터 배치에서는, 예를 들어 정보 처리 장치(51)측에서, 데이터 포인트수마다 각 데이터 포인트의 배치 위치가 기지로 되어 있어, 데이터 포인트수로부터 모든 데이터 포인트의 위치를 특정할 수 있다.
좌표 기록 방식 「position_type」의 값이 「0x010」일 경우, 즉 비균일 데이터 배치일 경우에는, 필수 데이터 포인트수 「num_mandatory_point」와 함께, 그 필수 데이터 포인트 수만큼, 필수 데이터 포인트의 위치를 나타내는 방위각 데이터 「azimuth_table[i]」 및 앙각 데이터 「elevation_table[i]」가 기술되어 있다(저장되어 있다).
또한, 좌표 기록 방식 「position_type」의 값이 「0x010」일 경우, 데이터 포인트의 배치 해상도, 바꾸어 말하면 데이터 포인트의 배치 밀도를 나타내는 데이터 포인트 배치용 해상도 「gain_resolution」도 기술되어 있다(저장되어 있다). 예를 들어 데이터 포인트 배치용 해상도 「gain_resolution」은, 데이터(지향성 게인)의 변동량을 나타내는 데시벨값 등이 된다.
비균일 배치에서는, 데이터 포인트 배치용 해상도 「gain_resolution」에 의해 나타내지는 지향성 게인의 변동량마다 데이터 포인트가 설정된다. 즉, 데이터 포인트 배치용 해상도에 따라, 복호로 얻어지는 지향성 데이터에서의 데이터 포인트의 수가 변화한다.
구체적으로는, 비균일 배치에서는, 데이터 포인트 배치용 해상도에 구애되지 않고, 반드시 존재하는(배치되는) 데이터 포인트, 즉 복호 시에 반드시 복원되는 데이터 포인트가 필수 데이터 포인트로 되어 있다. 그리고 그 필수 데이터 포인트의 수를 나타내는 필수 데이터 포인트수 「num_mandatory_point」가 기술되어 있다.
또한, 방위각 데이터 「azimuth_table[i]」 및 앙각 데이터 「elevation_table[i]」는, 각각 필수 데이터 포인트의 방위각 방향 및 앙각 방향의 위치(좌표)를 나타내는 방위각 및 앙각이 된다.
따라서, 복호측에서는, 이들 방위각 데이터 「azimuth_table[i]」 및 앙각 데이터 「elevation_table[i]」에 의해, 각 필수 데이터 포인트의 배치 위치를 특정할 수 있다. 또한, 방위각 데이터나 앙각 데이터는, 필수 데이터 포인트의 배치 위치를 특정 가능한 정보라면 좌표, 즉 방위각이나 앙각에 한정되지 않고, 방위각이나 앙각을 얻을 수 있는 인덱스 등, 다른 어떤 정보이어도 된다.
비균일 배치에서는, 각 필수 데이터 포인트의 배치 위치가 특정되면, 지향성 데이터에서의 필수 데이터 포인트 이외의 데이터 포인트의 배치 위치가, 필수 데이터 포인트의 배치 위치와, 데이터 포인트 배치용 해상도 「gain_resolution」에 기초해서 특정된다.
구체적으로는, 먼저 모델 데이터, 보다 상세하게는 모델 파라미터에 기초하여, 빈마다의 혼합 모델 F(x; Θ)가 구해진다. 이 혼합 모델 F(x; Θ)에 의해 음원 위치를 둘러싸는 구 표면 상의 임의의 위치에서의 지향성 게인의 값이 얻어진다.
이어서, 혼합 모델 F(x; Θ)와, 필수 데이터 포인트의 위치와, 데이터 포인트 배치용 해상도에 기초하여, 구 표면 상에 필수 데이터 포인트가 아닌 데이터 포인트(이하, 비필수 데이터 포인트라고도 칭함)가 배치된다.
비필수 데이터 포인트의 위치는, 혼합 모델 F(x; Θ)에 의해 나타내지는 지향성 게인의 값이, 구 표면 상에서의 필수 데이터 포인트에서의 지향성 게인의 값으로부터, 예를 들어 3dB 등, 데이터 포인트 배치용 해상도에 의해 나타내지는 변동량만큼 변화한 값으로 되는 위치가 된다.
따라서, 예를 들어 데이터 포인트 배치용 해상도에 의해 나타내지는 변동량이 +3dB이며, 임의의 1개의 필수 데이터 포인트에서의 지향성 게인의 값이 48dB이었을 경우에는, 구 표면 상에서의 지향성 게인이 51dB로 되는 위치에 비필수 데이터 포인트가 배치된다.
이때, 구 표면 상의 지향성 게인의 값이, 이미 설정된 비필수 데이터 포인트에서의 지향성 게인의 값으로부터, 데이터 포인트 배치용 해상도에 의해 나타내지는 변동량만큼 변화한 값으로 되는 위치에, 또 다른 비필수 데이터 포인트가 설정되도록 해도 된다. 즉, 필수 데이터 포인트에 대해서, 데이터 포인트 배치용 해상도에 의해 나타내지는 변동량분의 간격으로 비필수 데이터 포인트가 배치되도록 해도 된다.
그 밖에, 예를 들어 데이터 포인트 배치용 해상도에 따른 수의 비필수 데이터 포인트가, 방위각 방향이나 앙각 방향으로 서로 인접하는 필수 데이터 포인트의 사이에 등간격으로 배치되도록 해도 된다.
이상과 같이 함으로써, 비균일 배치에서의 지향성 데이터를 구성하는 전체 데이터 포인트의 배치 위치, 즉 모든 필수 데이터 포인트 및 비필수 데이터 포인트의 배치 위치가 특정되게 된다.
이와 같이 비균일 배치에서는, 복호측에서 얻어지는 지향성 데이터의 비필수 데이터 포인트의 배치 위치나 수가, 데이터 포인트 배치용 해상도 「gain_resolution」에 의해 변동한다.
이상의 예에서는, 데이터 포인트의 배치 형식(좌표 기록 방식)이 바둑판 눈 데이터 배치, 균일 데이터 배치 및 비균일 데이터 배치의 어느 형식인 경우에든, 복호측(정보 처리 장치(51))에서, 우선도 「priority_index」의 값에 따라 지향성 데이터의 공간 해상도, 즉 데이터 포인트의 수를 조정할 수 있다. 이 경우, 각 배치 형식에 있어서, 우선도 「priority_index」의 값에 따라 데이터 포인트의 수가 변화한다.
구체적으로는, 예를 들어 바둑판 눈 데이터 배치에서는, 방위각 방향 간격 「azimuth_interval」이나 앙각 방향 간격 「elevation_interval」을 크게 함으로써, 지향성 데이터의 공간 해상도를 저감시키는 것이 가능하다.
또한, 균일 데이터 배치에서는, 데이터 포인트수 「uniform_dist_point_count」를 작게 함으로써, 지향성 데이터의 공간 해상도를 저감시키는 것이 가능하다.
마찬가지로, 비균일 데이터 배치에서는, 데이터 포인트 배치용 해상도 「gain_resolution」을 크게 함으로써, 지향성 데이터의 공간 해상도를 저감시키는 것이 가능하다.
지향성 데이터의 공간 해상도, 즉 복호에 의해 얻어지는 지향성 데이터의 데이터양의 조정 방법으로서, 예를 들어 우선도 「priority_index」의 값을, 방위각 방향 간격 「azimuth_interval」이나 앙각 방향 간격 「elevation_interval」에 승산하는 방법을 생각할 수 있다.
또한, 지향성 데이터의 공간 해상도의 조정 방법으로서, 예를 들어 우선도 「priority_index」의 값의 역수를 데이터 포인트수 「uniform_dist_point_count」에 승산하는 방법이나, 우선도 「priority_index」의 값을 데이터 포인트 배치용 해상도 「gain_resolution」에 승산하는 방법 등도 생각할 수 있다.
이와 같이 함으로써, 정보 처리 장치(51)에서는, 적절한 공간 해상도의 지향성 데이터를 얻을 수 있다. 즉, 지향성 데이터의 공간 해상도(데이터 포인트의 수)를 적절하게 조정할 수 있다.
또한, 도 5나 도 15 및 도 16에 나타낸 모델 데이터에서도, 각 데이터 포인트의 위치를 특정하기 위한 정보로서, 데이터 포인트마다의 방위각이나 앙각 등 대신에, 도 27에 나타낸 구성의 정보(이하, 데이터 포인트 위치 정보라고도 칭함)가 저장되도록 해도 된다.
모델 데이터에 도 27에 나타내는 구성의 데이터 포인트 위치 정보가 포함되어 있는 경우, 도 10을 참조하여 설명한 부호화 처리의 스텝 S12에서는, 모델 데이터 생성부(22)는, 도 25 및 도 27에 나타낸 각 정보가 포함되는 모델 데이터를 생성한다. 즉, 데이터 포인트 위치 정보가 포함되는 모델 데이터가 생성된다.
또한, 서버(11)가 도 19에 나타낸 구성으로 되는 경우에도, 모델 데이터 생성부(215)에 의해 데이터 포인트 위치 정보가 포함되는 모델 데이터가 생성되도록 해도 된다.
또한, 모델 데이터의 생성 시에 있어서, 차분 정보 등, 데이터 포인트마다의 정보가 요구되는 경우에는, 복호 후의 지향성 데이터의 데이터 포인트, 즉 데이터 포인트 위치 정보에 의해 특정되는 데이터 포인트마다 차분 정보 등의 각 정보가 산출된다.
또한, 모델 데이터에 데이터 포인트 위치 정보가 포함되어 있는 경우, 도 12를 참조하여 설명한 지향성 데이터 생성 처리의 스텝 S52에서는, 지향성 데이터 산출부(82)는, 데이터 포인트 위치 정보도 사용하여 지향성 데이터를 생성한다.
즉, 지향성 데이터 산출부(82)는, 모델 데이터에 포함되어 있는 데이터 포인트 위치 정보에 기초하여, 데이터 포인트의 배치 형식(좌표 기록 방식)을 특정함과 함께, 지향성 데이터에서의 각 데이터 포인트의 배치 위치를 특정한다. 이때, 지향성 데이터 산출부(82)는, 필요에 따라 지향성 데이터의 우선도 정보도 사용하여 데이터 포인트의 배치 위치를 특정한다.
또한, 지향성 데이터 산출부(82)는, 모델 파라미터 등으로부터 산출된 각 밴드의 혼합 모델 F'(x; Θ)와, 각 데이터 포인트의 배치 위치의 특정 결과와, 빈마다의 스케일 팩터와, 빈마다의 최솟값에 기초하여, 데이터 포인트에서의 빈마다의 혼합 모델의 출력값 F(x; Θ)를 산출한다. 이에 의해, 각 데이터 포인트에서의 빈마다의 지향성 게인을 포함하는 개형 지향성 데이터가 얻어진다.
마찬가지로, 모델 데이터에 데이터 포인트 위치 정보가 포함되어 있는 경우, 도 20을 참조하여 설명한 지향성 데이터 생성 처리에서도, 스텝 S113이나 스텝 S116, 스텝 S117에서, 데이터 포인트의 배치 위치의 특정 결과가 적절하게 이용된다.
그런데, 이상에서는, 차분 부호화의 방식으로서 공간 인접 차분 방식이나 주파수간 차분 방식에 대해서 설명하였다.
예를 들어 주파수간 차분 방식에서는, 인접하는 빈간, 즉 인접하는 주파수간에서의 차분 정보나 지향성 게인의 차분이 구해진다.
이러한 주파수간 차분 방식에서는, 지향성 데이터에 있어서, 인접하는 주파수(빈)간에서는 지향성 게인의 값이 가까운, 즉 지향성 데이터의 형상이 가깝다는 성질이 이용되고 있다.
마찬가지로, 공간 인접 차분 방식에서는, 인접하는 데이터 포인트간, 즉 인접하는 위치간에서의 차분 정보나 지향성 게인의 차분이 구해진다.
이러한 공간 인접 차분 방식에서는, 지향성 데이터에 있어서, 공간적으로 가까운 위치의 사이에는 지향성 게인의 차분이 작다는 성질이 이용되고 있다. 즉, 지향성 데이터에 있어서, 구 표면 상의 지향성 게인은 연속적으로 변화하는 경우가 많고, 위치(방위)가 가까우면 지향성 게인의 값도 가까워진다는 성질이 이용되고 있다.
일반적으로, 예를 들어 SOFA(Spatially Oriented Format for Acoustics) 형식의 파일 등, 지향성이나 HRTF(두부 전달 함수)를 기록하는 경우에는, 구 표면 상에 데이터가 정의되어 있어, 이하와 같은 방식으로 데이터 포인트가 기록되는 경우가 많다.
for elev in elevation
for azi in azimuth
data_point(azi, elev)
end
end
구체적으로는, 예를 들어 구 표면에서의 동일 위도상, 즉 위도에 대응하는 원주 상에서, 그 원주를 따라 서로 인접하는 경도의 위치에 데이터 포인트가 배치되어 간다. 이때, 원주를 일주하도록, 예를 들어 등간격으로 데이터 포인트가 배치된다.
그리고 처리 대상의 위도에 대해서 데이터 포인트가 마련되면, 그 후에는, 순차, 위도의 값을 변경시키면서, 그 위도에 대응하는 원주 상의 각 경도의 위치에 데이터 포인트를 배치해 감으로써, 구 표면 상에 데이터 포인트가 마련된다.
이와 같이 함으로써, 바둑판 눈 데이터 배치 등의 방식의 지향성 데이터가 얻어진다. 이러한 바둑판 눈 데이터 배치에서는, 남극이나 북극 등의 극의 주변에서의 데이터 밀도, 즉 데이터 포인트의 밀도가 높아진다.
그러나, 상술한 바와 같이 실제로 지향성 데이터(지향성 게인)를 기록함에 있어서는, 지향성 게인의 변화를 고정밀도로 기록할 필요가 있는 중요한 방위에서 데이터(데이터 포인트)가 밀하게 되거나, 또는 전체로서 균일(균일한 분포)하게 되는 데이터 분포로 지향성 데이터를 기록하는 것이 바람직하다. 여기서 말하는 중요한 방위란, 예를 들어 정면 방향 등이나 렌더링 시에 주로 이용되는 방향, 지향성 게인의 값이 큰 위치의 방향 등이다.
또한, 실제로 지향성 데이터의 수록을 고려한 경우, 수록의 사정에 따라 수평면의 데이터는 밀하게, 극 주변은 성기게 수록되는 경우도 생각할 수 있다.
그래서, 이하와 같이 소트(재배열)를 행하여 차분 부호화를 행하도록 해도 된다.
(방법 DE1): 소정의 기준으로 데이터 포인트를 소트한 순으로 차분 부호화
(방법 DE2): 지향성 게인의 데시벨값을 오름차순 또는 내림차순으로 소트해서 차분 부호화
(방법 DE3): 우선도가 높은 방위부터 순서대로 소트해서 차분 부호화
방법 DE1에서는, 바둑판 눈 데이터 배치나 균일 데이터 배치, 비균일 데이터 배치 등의 데이터 배치에 대해서 미리 정해진 순번으로 데이터 포인트, 즉 데이터 포인트에서의 차분 정보나 지향성 게인이 소트된다(재배열된다). 그리고 소트 후의 서로 인접하는 데이터 포인트간에서 차분 정보나 지향성 게인의 차분이 구해진다. 이 경우, 복호측, 즉 정보 처리 장치(51)측에서는, 소트의 순번은 기지로 되어 있다.
방법 DE2에서는, 데이터 포인트가, 그러한 데이터 포인트에서의 차분 정보나 지향성 게인 등의 차분의 계산 대상이 되는 값(데시벨값(dB값))의 오름차순 또는 내림차순으로 소트된다. 이때, 오름차순과 내림차순의 어느 것으로 소트를 행할지는, 미리 정해져 있도록 하면 된다.
또한, 오름차순 또는 내림차순으로 소트가 행해지면, 소트 후의 서로 인접하는 데이터 포인트간에서 차분 정보나 지향성 게인의 차분이 구해진다. 이와 같이 함으로써, 데이터 포인트간에서의 차분 정보나 지향성 게인의 차분을 보다 작게 할 수 있다.
또한, 방법 DE2에서는, 복호측(정보 처리 장치(51)측)에서 소트의 순번을 특정할 수 있도록, 소트 후의 데이터 포인트의 배열순을 나타내는 정보가 모델 데이터에 저장된다. 예를 들어, 도 27에 나타낸 데이터 포인트 위치 정보에, 소트 후의 데이터 포인트의 배열순을 나타내는 정보가 저장되도록 해도 된다.
또한, 소트 후의 데이터 포인트의 배열순을 나타내는 정보는, 예를 들어 각 데이터 포인트를 나타내는 인덱스를 소트순으로 배열해서 얻어지는 정보 등, 어떤 것이어도 된다.
방법 DE3에서는, 음원 위치에서 본 각 방위(방향) 중, 정면의 방위나 지향성 게인이 큰 방위 등, 우선도가 높은 방위에 있는 데이터 포인트부터 차례로 각 데이터 포인트가 소트되고, 소트 후의 서로 인접하는 데이터 포인트간에서 차분 정보나 지향성 게인의 차분이 구해진다. 이에 의해, 차분 부호화된 차분 정보 등의 데이터양을 소정 비트수 내에 수용할 수 있다.
방법 DE3에서도 방법 DE2에서의 경우와 마찬가지로, 소트 후의 데이터 포인트의 배열순을 나타내는 정보가 모델 데이터에 저장된다.
이들 방법 DE1 내지 방법 DE3에서는, 데이터 포인트간의 차분을 구하는 예에 대해서 설명하였지만, 차분의 계산은, 데이터 포인트간과 빈간 중 적어도 어느 것에 대해서 행해지도록 하면 된다.
따라서, 예를 들어 방법 DE1 내지 방법 DE3의 각 방법에 있어서, 데이터 포인트의 위치뿐만 아니라, 주파수, 즉 빈도 고려해서 재배열을 행하도록 해도 된다.
그러한 경우, 예를 들어 방법 DE1에서는, 미리 정해진 데이터 포인트나 주파수(빈)의 순번으로 차분 정보나 지향성 게인이 소트되고, 소트 후의 서로 인접하는 차분 정보나 지향성 게인의 차분, 즉 데이터 포인트간이나 빈간에서의 차분이 구해진다. 또한, 미리 정해진 순번으로 소트가 행해진 후, 데이터 포인트간과 빈간의 양쪽에서 차분이 구해져도 되고, 빈간에서만 차분이 구해져도 된다.
또한, 예를 들어 방법 DE2에서는, 동일 빈이나 동일 데이터 포인트 등을 대상으로 해서, 오름차순 또는 내림차순으로 소트된 차분 정보나 지향성 게인에 대해서, 서로 인접하는 차분 정보나 지향성 게인의 차분, 즉 데이터 포인트간이나 빈간에서의 차분이 구해지도록 할 수 있다.
마찬가지로, 방법 DE3에서는, 데이터 포인트나 주파수(빈)의 우선도에 따라, 각 데이터 포인트의 빈에서의 차분 정보나 지향성 데이터가 소트되고, 소트 후의 서로 인접하는 차분 정보나 지향성 게인의 차분, 즉 데이터 포인트간이나 빈간에서의 차분이 구해지도록 할 수 있다. 바꾸어 말하면, 이 예에서는, 데이터 포인트나 빈이 우선도의 순으로 소트된다.
또한, 이상의 어느 것의 방법에 의해 소트를 행하는 경우, 동일한 주파수의 빈만이나, 소정의 주파수 대역에 속하는 복수의 빈만, 동일한 데이터 포인트 또는 서로 인접하는 복수의 데이터 포인트에서의 빈만을 소트 대상으로 하는 등, 1개 또는 복수의 빈이나 데이터 포인트를 포함하는 그룹마다 소트가 행해지도록 해도 된다.
또한, 모델 데이터 내 등, 부호화 비트 스트림 내의 각 변수(정보)를 테이블화하고, 테이블화 후의 변수의 값을 나타내는 인덱스만을 전송해도 된다.
즉, 이상에서 설명한 예에서는, 모델 데이터 등에 있어서, 모델 파라미터 등의 각종 변수값은, 예를 들어 이하와 같은 방식으로 Syntax가 기술되어 있었다.
·Syntax 내의 변수값을 부동 소수점 포맷에서 기록
·9bit(0부터 1까지의 사이의 값을 512단계로 표현)나 11bit 등의 정수 포맷에서 다이내믹 레인지와 필요한 해상도에 따라 값을 할당
여기서, 변수값을 기록하는 부동 소수점 포맷에서는, 변수값으로서 float(32bit)의 포맷 내에서 임의의 값을 취하는 것이 가능하다.
이에 대해, 실제로 더한층의 비트수 삭감을 위해서 이하와 같은 방식으로 Syntax가 기술되도록 해도 된다.
즉, 기술 대상의 변수값(파라미터)이 특정 값을 취하는 경우가 많거나, 또는 특정 값으로 대표할 수 있을 경우에는, 실제로 사용하는 값, 즉 기술하는 변수값이 테이블화된다. 그리고 모델 데이터 등의 부호화 비트 스트림 내, 즉 Syntax 내에는, 테이블화에 의해 얻어진 인덱스만이 기술된다.
이 경우, 테이블 자체는 부호화 비트 스트림과는 별도로 복호측에 전송된다. 이와 같이 함으로써, 적은 비트수로 변수값을 기술하여, 부호화 비트 스트림의 데이터양(전송량)을 저감시킬 수 있다.
구체적인 예로서, 예를 들어 변수값 중 0.0 내지 0.1의 범위만이나, 0.9 내지 1.0의 범위만 등, 변수값이 취할 수 있는 값 중 일부 범위만을 테이블화하는 것 등을 생각할 수 있다.
그러한 경우, 예를 들어 0.0 내지 0.1의 범위 등, 테이블화 대상이 되는 범위 내의 이산적인 각 값(변수값)에 대해서, 그러한 값을 나타내는 인덱스가 정해진다. 그리고 실제의 변수값이 테이블화 대상으로 되는 범위 내의 값일 경우에는, 그 실제의 변수값에 대응하는 인덱스가 모델 데이터 내 등에 저장되어 전송된다.
이에 반해, 실제의 변수값이 테이블화 대상으로 되는 범위 밖의 값일 경우에는, 그 실제의 변수값이 모델 데이터 내 등에 저장되어 전송된다.
또한, 상술한 스케일 팩터 「scale_factor[i]」나 오프셋값, 즉 최솟값 「offset[i]」를 파라메트릭 표현(압축 표현)하는 것도 생각할 수 있다.
이상에서는, 각 빈의 스케일 팩터 「scale_factor[i]」와 최솟값 「offset[i]」를 사용하여, 이하와 같이 해서 빈마다의 혼합 모델 F(x; Θ)가 구해진다고 설명하였다.
For i_bin in bin
F(x; Θ)=F'(x; Θ)×scale_factor[i]+offset[i]
End
여기서, F'(x; Θ)는 밴드마다의 혼합 모델의 출력값이다.
또한, 스케일 팩터 「scale_factor[i]」는, vMF 분포나 Kent 분포의 총합(모델 데이터 총합), 즉 혼합 모델 F'(x; Θ)의 각 데이터 포인트에서의 값(지향성 게인)의 총합과, 인덱스 i에 의해 나타내지는 빈, 즉 i번째의 빈에서의 모델화 전의 원래(오리지널)의 지향성 데이터의 각 데이터 포인트에서의 값의 총합의 비율이다. 이 스케일 팩터는, 다이내믹 레인지를 나타내는 플로트값이다.
또한, 모델 데이터 총합은, 구 표면에서 정의되는 값(지향성 게인)의 총합이며, 이상적으로는 1이 되지만, 실제로는 이산화되어 있기 때문에, 1이 되지는 않는다. 또한, 모델화 전의 원래의 지향성 데이터는, dB 스케일의 데이터이며, 스케일 팩터의 산출 시에는 정의 방향으로 오프셋된다.
최솟값 「offset[i]」는, i번째의 빈에서의 모델화 전의 원래(오리지널)의 지향성 데이터, 즉 지향성 게인의 최솟값(dB값)이며, 플로트값으로 표현되어 있다.
이러한 스케일 팩터와 최솟값을 사용한 연산에 의해, 혼합 모델의 출력값을 각 빈의 다이내믹 레인지에 맞추어서 보정, 복원할 수 있다.
이 경우, 빈수분의 스케일 팩터와 최솟값이 필요하게 되고, 지향성 데이터의 주파수 해상도를 고정밀도로 하면, 스케일 팩터와 최솟값의 기록에 필요한 정보량, 즉 비트수가 빈수에 비례해서 많아져 버린다.
그래서, 스케일 팩터와 최솟값을 파라메트릭 표현함으로써, 스케일 팩터와 최솟값의 기록에 필요한 정보량(비트수)을 저감시키도록 해도 된다.
예를 들어, 일례로서 6개의 각 음원 종별의 지향성 데이터에 관한 스케일 팩터 및 최솟값(오프셋값)으로서, 도 28 및 도 29에 나타내는 값이 얻어진다.
도 28은 6개의 각 음원 종별의 스케일 팩터를 나타내고 있다. 또한, 도 28에서는, 종축은 무차원의 비율인 스케일 팩터의 값을 나타내고 있고, 횡축은 빈의 인덱스 i를 나타내고 있다.
이 예에서는, 음원 종별에 따라, 인접하는 빈간에서 스케일 팩터가 크게 변동하고 있거나, 인접하는 빈간에서 스케일 팩터의 변동이 적거나 하고 있다.
도 29는 6개의 각 음원 종별의 최솟값(오프셋값)을 나타내고 있다. 또한, 도 29에서는, 종축은 dB값인 최솟값(오프셋값)을 나타내고 있고, 횡축은 빈의 인덱스 i를 나타내고 있다.
최솟값에서도, 스케일 팩터에서의 경우와 마찬가지로, 음원 종별에 따라, 인접하는 빈간에서 최솟값이 크게 변동하고 있거나, 변동이 적거나 하는 것을 알 수 있다.
이와 같이, 음원 종별에 따라 인접 주파수간(인접 빈간)에 있어서 스케일 팩터나 최솟값의 변동 크기가 크게 다르다.
그 때문에, 스케일 팩터나 최솟값을 모델화, 즉 파라메트릭 표현함에 있어서, 적은 파라미터로 모델화가 가능한 경우와, 파라미터수가 많아져 버리는 경우가 있을 수 있다.
그래서, 예를 들어 모델 데이터 생성부(22)나 모델 데이터 생성부(215)는, 빈간의 변동이 크고, 스케일 팩터 또는 최솟값의 파라메트릭 표현에 의해 부호화 효율을 개선할 수 없는 경우에는, 각 빈의 스케일 팩터 또는 최솟값을 그대로 모델 데이터에 저장(기술)한다.
이에 반해, 모델 데이터 생성부(22)나 모델 데이터 생성부(215)는, 빈간의 변동이 작고, 부호화 효율을 개선할 수 있을 경우에는, 스케일 팩터 또는 최솟값을 파라메트릭화해서 모델 데이터에 저장(기술)한다.
파라메트릭화(파라메트릭 표현)의 일례로서, 예를 들어 함수 근사에 의한 커브 피팅 등을 들 수 있다.
그러한 경우, 모델 데이터 생성부(22)나 모델 데이터 생성부(215)는, 커브 피팅 등에 의해, 각 빈의 스케일 팩터 또는 최솟값을 나타내는 그래프에 대응하는 근사 함수를 얻기 위한 함수 근사 파라미터를 생성한다. 그리고 모델 데이터 생성부(22)나 모델 데이터 생성부(215)는, 각 빈의 스케일 팩터 또는 최솟값 대신에, 함수 근사 파라미터를 모델 데이터에 저장한다.
복호측에서는, 지향성 데이터 산출부(82)나 계산부(301)는, 함수 근사 파라미터와, 빈의 인덱스 i에 기초하여, 근사 함수로부터 각 빈에서의 스케일 팩터 또는 최솟값을 구하여, 모델 파라미터로서 사용한다.
이와 같이 함으로써, 전체 빈의 스케일 팩터나 최솟값을 모델 데이터 내에 저장할 필요가 있었던 것이, 함수 근사 파라미터만을 기술하면 되어, 데이터양을 압축할 수 있다. 또한, 함수 근사로서, 선형 함수나 n차 함수(n≥2)에 의한 근사, 다항식 근사 등, 임의의 근사를 행하는 것이 가능하다.
또한, 스케일 팩터나 최솟값의 다이내믹 레인지가 큰 경우에는, 함수 근사의 전처리로서, 스케일 팩터나 최솟값의 대수를 취하는 처리나, 스케일 팩터나 최솟값을 비선형 함수에 의해 변환하는 처리 등을 행함으로써 다이내믹 레인지를 압축하도록 해도 된다.
그 밖에, 이상에서는, HOA 방식이나 혼합 방식, 복소 혼합 방식, 차분 방식을 조합해서 모델 데이터를 생성하는 경우의 방식의 예로서, 대역 하이브리드 방식, 가산 하이브리드 방식, 승산 하이브리드 방식, 구면 조화 계수 모델화 방식, 조합 하이브리드 방식에 대해서 설명하였다.
그러나, 이에 한정하지 않고, 다른 조합에 의해 모델 데이터를 생성하는 것도 물론 가능하다.
예를 들어 음원 위치에서 본 방위마다, 즉 데이터 포인트마다나, 복수의 데이터 포인트를 포함하는 영역마다, 상술한 HOA 방식이나 혼합 방식, 복소 혼합 방식, 차분 방식, 대역 하이브리드 방식, 가산 하이브리드 방식 등의 임의의 방식을 전환해서 모델 데이터를 생성하도록 해도 된다.
지향성 데이터에서는 수평면의 데이터, 즉 적도 상의 데이터(지향성 게인)의 사용 빈도는 높고, 반대로 극 부근의 데이터의 사용 빈도는 낮을 가능성이 높다. 그 때문에, 영역마다 방식을 전환함으로써, 적절하게 모델 데이터의 비트수를 삭감할 수 있다. 또한, 여기서 말하는 수평면이란, 음원 위치에서 본 위도, 즉 앙각(elevation)이 0도가 되는 복수의 각 위치를 포함하는 평면이다.
구체적인 예로서, 예를 들어 HOA 방식과, 혼합 방식, 보다 상세하게는 vMF 분포에 의해 모델화하는 방식을 조합하는 것 등을 생각할 수 있다. 이때, 예를 들어 HOA 방식에서의 구면 조화 함수 전개의 차수를 1차로 하고, 영역(방위)마다 HOA 방식과 혼합 방식을 조합해서 사용할지, 혼합 방식만으로 할지를 전환하도록 해도 된다.
또한, 영역마다 HOA 방식에서의 구면 조화 함수 전개의 차수를 바꾸어서 모델 데이터를 생성하는 것도 생각할 수 있다. 또한, 영역마다 HOA 방식과, 혼합 방식 및 HOA 방식을 조합한 방식을 전환하고, 또한 영역마다 HOA 방식에서의 구면 조화 함수 전개의 차수도 변화시키는 것도 생각할 수 있다.
그 밖에, 수평면 부근의 데이터 포인트에 대해서는, 구면 조화 함수 전개가 아니라, 원 조화 함수 전개에 의해 지향성 데이터를 모델화하는 방식을 사용하여 고정밀도로 기록하고, 수평면 부근 이외의 데이터 포인트에 대해서는 다른 임의의 방식에 의해 지향성 게인을 성기게 기록하는 것도 생각할 수 있다.
<제3 실시 형태>
<데이터의 대칭성의 활용에 대해서>
그런데, 지향성 데이터에는, 원래의 음원의 형상에 따라서 대칭성이 존재하는 경우가 있다.
예를 들어 음원으로서의 스피커의 형상은 좌우 대칭이며, 스피커의 지향성 데이터도 대칭이 되는데, 스피커에 트위터, 우퍼가 존재하는 경우에는, 그러한 트위터와 우퍼의 재생 대역이 다르기 때문에, 지향성 데이터는 상하 방향에 대해서는 대칭이 되지 않는다.
또한, 정12면체 스피커 등도 상용화되어 있어, 정12면체 스피커에서는 12방향에 대해서 대칭성이 성립한다. 또한, 입방체 형상의 풀 레인지 스피커라면, 좌우 대칭뿐만 아니라, 상하 대칭도 성립하는 경우가 있다. 한편, 인간도 외형은 좌우 대칭인 형상을 하고 있어, 좌우 대칭이 어느 정도 성립하지만, 상하는 헤드부, 동체, 다리부로 대칭이 아닌 형상을 하고 있어, 지향성은 상하 대칭이 되지는 않는다.
이러한 점에서, 지향성 데이터에 대칭성이 있을 경우에, 그 대칭성을 활용함으로써 전송 데이터양을 삭감하는 것이 가능하다.
그러한 경우, 모델 데이터의 Syntax는, 예를 들어 도 30에 나타내는 바와 같이 된다.
도 30에 나타내는 모델 데이터에는, 빈의 수를 나타내는 주파수 포인트수 「bin_count」가 포함되어 있고, 주파수 포인트수 「bin_count」의 분만큼, 빈의 중심의 주파수 「bin_freq[i]」가 저장되어 있다.
또한, 밴드수 「band_count」도 저장되어 있어, 밴드수 「band_count」의 분만큼, 즉 밴드마다 지향성 데이터의 대칭성의 이용에 관한 대칭성 정보 「use_symmetry」가 저장되어 있다.
예를 들어 대칭성 정보 「use_symmetry」의 값 「4」, 「3」, 「2」, 「1」 및 「0」은, 각각 상하 좌우 대칭 조작을 행하는 것, 좌우 대칭 조작을 행하는 것, 상하 대칭 조작을 행하는 것, 임의의 대칭, 회전을 활용하는 것, 및 어느 대칭, 회전의 조작도 행하지 않는 것을 나타내고 있다.
특히 대칭성 정보 「use_symmetry」의 값이 「0」일 경우에는, 지향성 데이터는, 전방위의 지향성 게인이 상술한 vMF 분포나 Kent 분포 등을 포함하는 모델, 즉 혼합 모델 등에 의해 기술된다. 또한, 대칭성 정보 「use_symmetry」의 값 「5」 내지 「7」은 reserved로 되어 있다.
모델 데이터에는, 대칭성 정보 「use_symmetry」의 값에 따라, 회전 조작 또는 대칭 조작을 위한 조작 관련 정보가 저장되어 있다.
대칭성 정보 「use_symmetry」의 값이 「4」일 경우, 모델 데이터에는, 상하 좌우 대칭 조작을 위한 조작 관련 정보 「LeftRightVerticalLineSymmetricDir( )」이 기술되어 있다. 대칭성 정보 「use_symmetry」의 값이 「3」일 경우, 모델 데이터에는, 좌우 대칭 조작을 위한 조작 관련 정보 「LeftRightLineSymmetricDir( )」이 기술되어 있다.
또한, 대칭성 정보 「use_symmetry」의 값이 「2」일 경우, 모델 데이터에는, 상하 대칭 조작을 위한 조작 관련 정보 「VerticalLineSymmetricDir( )」이 기술되어 있다.
대칭성 정보 「use_symmetry」의 값이 「1」일 경우, 모델 데이터에는, 임의의 대칭 또는 회전의 조작을 위한 조작 관련 정보 「SymmetricDir( )」이 기술되어 있다.
대칭성 정보 「use_symmetry」의 값이 「0」일 경우, 모델 데이터에는, 어느 조작도 행해지지 않고, 지향성 데이터를 얻기 위한 정보 「NonSymmetricDir( )」이 기술되어 있다.
도 31은 「SymmetricDir( )」의 Syntax를 나타내고 있다.
이 예에서는, 모델 데이터의 「SymmetricDir( )」에는, 도 25에서의 경우와 마찬가지로, 혼합수 「mix_count[j]」 및 빈 정보 「bin_range_per_band[j]」와, 모델 파라미터로서의 「kappa[j][k]」, 「weight[j][k]」, 「gamma_x[j][k]」, 「gamma_y[j][k]」 및 「gamma_z[j][k]」와, 선택 플래그 「dist_flag[j][k]」가 저장되어 있다.
또한, 선택 플래그 「dist_flag[j][k]」의 값에 따라, 모델 파라미터로서의 「beta[j][k]」, 「gamma2_x[j][k]」, 「gamma2_y[j][k]」, 「gamma2_z[j][k]」, 「gamma3_x[j][k]」, 「gamma3_y[j][k]」 및 「gamma3_z[j][k]」도 저장되어 있다.
또한, 「SymmetricDir( )」에는, 조작 횟수 정보 「sym_operation_count」 및 조작 플래그 「sym_operation_flag」가 저장되어 있다.
조작 횟수 정보 「sym_operation_count」는, vMF 분포나 Kent 분포 등의 1개의 분포(분포 모델)에 대해서, 회전해서 카피하는 조작인 회전 조작 또는 대칭 위치에 카피하는 조작인 대칭 조작을 행하는 횟수를 나타내는 정보이다.
조작 플래그 「sym_operation_flag」는, 회전 조작과 대칭 조작 중 어느 조작을 행할지를 나타내는 플래그 정보이다. 예를 들어 조작 플래그 「sym_operation_flag」의 값이 「1」일 경우, 회전 조작을 행하는 것을 나타내고 있고, 값이 「0」일 경우, 대칭 조작을 행하는 것을 나타내고 있다.
특히, 여기서는 조작 횟수 정보 「sym_operation_count」에 의해 나타내지는 횟수분만큼, 조작 플래그 「sym_operation_flag」가 포함되어 있고, 그 조작 플래그의 값에 따라, 조작에 필요한 정보가 저장되어 있다.
즉, 조작 플래그 「sym_operation_flag」의 값이 「1」일 경우, 회전 조작에 필요해지는 회전축 방위각 「sym_azi」, 회전축 앙각 「sym_elev」 및 회전각 「sym_rotation」이 저장되어 있다.
여기서, 회전축 방위각 「sym_azi」 및 회전축 앙각 「sym_elev」는, 회전 조작을 행할 때의 음원 위치에서 본 회전축의 배향을 나타내는 방위각 및 앙각이다. 즉, 이들 회전축 방위각 및 회전축 앙각에 의해 회전축이 정해진다. 또한, 회전각 「sym_rotation」은, 회전 조작에 있어서 회전축을 중심(축)으로 해서 회전시킬 때의 각도이다.
또한, 조작 플래그 「sym_operation_flag」의 값이 「1」이 아닐 경우, 즉 조작 플래그의 값이 「0」일 경우, 음원 위치에서 본 대칭 조작에 필요해지는 구 단면, 즉 대칭면의 배향을 나타내는 요각 「sym_yaw」, 피치각 「sym_pitch」 및 롤각 「sym_roll」이 저장되어 있다. 즉, 이들 요각, 피치각 및 롤각에 의해 대칭면이 정해진다.
따라서, 예를 들어 조작 횟수 정보 「sym_operation_count」의 값이 「2」일 경우, 2개의 각 조작 플래그 「sym_operation_flag」에 의해 나타내지는 조작이 행해지게 된다. 즉, 회전 조작이나 대칭 조작이 2회 행해지게 된다.
또한, 「SymmetricDir( )」에는, 도 25에서의 경우와 마찬가지로, 주파수 포인트수 「bin_count」의 분만큼, 스케일 팩터 「scale_factor[i]」와 최솟값 「offset[i]」도 저장되어 있다.
여기서, 도 32 및 도 33을 참조하여, 회전 조작과 대칭 조작에 대해서 설명한다. 또한, 도 32 및 도 33에 나타내는 예에서는, Kent 분포에 대해서 회전 조작이나 대칭 조작이 행해지는 예로 되어 있다.
도 32는 Kent 분포에 대해서 회전 조작을 행하는 예를 나타내고 있다.
이 예에서는, 구 SP11 상에서의 지향성 게인이 Kent 분포에 의해 표현되고, 벡터 V81 내지 벡터 V83은, Kent 분포의 벡터 γ1, major축 벡터 γ2 및 minor축 벡터 γ3을 나타내고 있다.
이들 벡터 V81 내지 벡터 V83은, 모델 데이터에 저장되어 있는 모델 파라미터, 즉 「gamma_x[j][k]」 내지 「gamma_z[j][k]」나 「gamma2_x[j][k]」 내지 「gamma2_z[j][k]」에 의해 구해지는 것이다.
회전 조작이 행해지는 경우, 정보 처리 장치(51)의 지향성 데이터 산출부(82)는, 모델 데이터로부터 판독한 회전축 방위각 「sym_azi」 및 회전축 앙각 「sym_elev」에 기초하여, 회전축 RS11을 구한다.
지향성 데이터 산출부(82)는, 벡터 V81 내지 벡터 V83을 사용하여 Kent 분포 f(x; θi)를 구한다.
또한, 지향성 데이터 산출부(82)는, 벡터 V'81 내지 벡터 V'83을 사용하여 Kent 분포 f(x; θi)를 구한다.
여기서 벡터 V'81 내지 벡터 V'83은, 회전축 RS11을 축으로 해서, 모델 데이터에 저장되어 있는 회전각 「sym_rotation」만큼, 벡터 V81 내지 벡터 V83을 회전시킴으로써 얻어지는 회전 후의 벡터이다.
이 경우, 벡터 V'81 내지 벡터 V'83이 Kent 분포의 벡터 γ1, major축 벡터 γ2 및 minor축 벡터 γ3으로서 사용되게 된다.
따라서, 이 예에서는 지향성 데이터 산출부(82)는, 회전축 방위각 등에 기초하여 Kent 분포의 벡터 γ1 등의 모델 파라미터에 대한 회전 조작을 행함으로써, 회전된 모델 파라미터를 산출한다. 그리고 지향성 데이터 산출부(82)는, 회전 전의 모델 파라미터와, 회전된(회전 후의) 모델 파라미터 각각에 기초하여 Kent 분포를 구하고, 구해진 그들의 Kent 분포를 사용하여 혼합 모델, 즉 지향성 데이터(지향성 게인)를 산출한다. 바꾸어 말하면, 회전 조작 전의 모델 파라미터로부터 구해진 Kent 분포와, 회전 조작 후의 모델 파라미터로부터 구해진 Kent 분포로부터 합성에 의해 1개의 분포가 구해지고, 그 분포가 사용되어 혼합 모델이 구해진다. 또한, 2개의 Kent 분포를 그대로 혼합 모델의 산출에 사용해도 되고, 우측 절반이나 좌측 절반 등, 그러한 2개의 각 Kent 분포의 일부 영역만을 혼합 모델의 산출에 사용해도 된다. 이것은 회전 조작의 경우뿐만 아니라, 대칭 조작의 경우에도 마찬가지이다.
도 33은 Kent 분포에 대해서 대칭 조작을 행하는 예를 나타내고 있다. 또한, 도 33에서 도 32에서의 경우와 대응하는 부분에는 동일한 부호를 부여하고 있어, 그 설명은 적절하게 생략한다.
이 예에서는, 지향성 데이터 산출부(82)는, 모델 데이터로부터 판독한 요각 「sym_yaw」, 피치각 「sym_pitch」 및 롤각 「sym_roll」에 기초하여, 대칭면이 되는 구 SP11의 단면 SF11을 구한다. 이 단면 SF11은, 구 SP11의 중심(음원 위치)을 포함하는 평면으로 되어 있다.
지향성 데이터 산출부(82)는, 벡터 V81 내지 벡터 V83을 사용하여 Kent 분포 f(x; θi)를 구한다.
또한, 지향성 데이터 산출부(82)는, 벡터 V"81 내지 벡터 V"83을 사용하여 Kent 분포 f(x; θi)를 구한다.
여기서 벡터 V"81 내지 벡터 V"83은, 단면 SF11을 대칭면으로 해서 벡터 V81 내지 벡터 V83을 되접음(대칭 이동시킴)으로써 얻어지는 벡터이다. 즉, 벡터 V"81 내지 벡터 V"83과 벡터 V81 내지 벡터 V83은, 단면 SF11에 관해서 대칭(면 대칭)으로 되어 있다.
지향성 데이터 산출부(82)에서는, 벡터 V"81 내지 벡터 V"83이 Kent 분포의 벡터 γ1, major축 벡터 γ2 및 minor축 벡터 γ3으로서 사용된다.
따라서, 이 예에서는 지향성 데이터 산출부(82)는, 요각 등에 기초하여 Kent 분포의 벡터 γi 등의 모델 파라미터에 대한 대칭 조작을 행함으로써, 대칭 이동(대칭 조작)된 모델 파라미터를 산출한다. 그리고 지향성 데이터 산출부(82)는, 대칭 이동 전의 모델 파라미터와, 대칭 이동된(대칭 이동 후의) 모델 파라미터 각각에 기초하여 Kent 분포를 구하고, 구해진 그것들의 Kent 분포 등으로부터 지향성 데이터(지향성 게인)를 산출한다.
또한, 도 30에 나타낸 모델 데이터에서의, 지향성 데이터를 얻기 위한 정보 「NonSymmetricDir( )」의 Syntax예를 도 34에 나타낸다.
도 34에 나타내는 예에서는, 도 25에서의 경우와 마찬가지로, 혼합수 「mix_count[j]」 및 빈 정보 「bin_range_per_band[j]」와, 모델 파라미터로서의 「kappa[j][k]」, 「weight[j][k]」, 「gamma_x[j][k]」, 「gamma_y[j][k]」 및 「gamma_z[j][k]」와, 선택 플래그 「dist_flag[j][k]」가 저장되어 있다.
또한, 선택 플래그 「dist_flag[j][k]」의 값에 따라, 모델 파라미터로서의 「beta[j][k]」, 「gamma2_x[j][k]」, 「gamma2_y[j][k]」, 「gamma2_z[j][k]」, 「gamma3_x[j][k]」, 「gamma3_y[j][k]」 및 「gamma3_z[j][k]」도 저장되어 있다.
또한, 주파수 포인트수 「bin_count」의 분만큼, 스케일 팩터 「scale_factor[i]」와 최솟값 「offset[i]」도 저장되어 있다.
이 예에서는, 회전 조작이나 대칭 조작이 행해지지 않기 때문에, 모델 데이터에는, 모든 분포를 구성하는 모델 파라미터가 기술되어 있다.
또한, 조작 관련 정보 「LeftRightVerticalLineSymmetricDir( )」, 「LeftRightLineSymmetricDir( )」 및 「VerticalLineSymmetricDir( )」의 데이터 형식(Syntax)은, 도 34에 나타낸 「NonSymmetricDir( )」와 동일하게 된다.
단, 이들 「LeftRightVerticalLineSymmetricDir( )」, 「LeftRightLineSymmetricDir( )」 또는 「VerticalLineSymmetricDir( )」가 저장되어 있을 경우, 즉 대칭성 정보 「use_symmetry」의 값이 「4」, 「3」 또는 「2」일 경우, 지향성 데이터 산출부(82)는, 지향성 데이터의 복호 시에 대칭 조작을 행한다.
구체적으로는, 대칭성 정보 「use_symmetry」의 값이 「3」일 경우, 지향성 데이터 산출부(82)는, 모델 데이터에 기술되어 있는 모델 파라미터에 대응하는 분포에 대해서, 정면 정중면에 대해서 좌우 대칭 조작을 행하여, 새로운 vMF 분포나 Kent 분포를 얻는다.
이 경우에 행해지는 좌우 대칭 조작은, 음원에서 본 정면 정중면(정중면)을 도 33에 나타낸 단면 SF11로 하는 대칭 조작이다. 바꾸어 말하면, 정중면을 단면 SF11로 해서 도 33을 참조하여 설명한 대칭 조작을 행함으로써 좌우 대칭 조작이 실현된다. 이 경우, 좌우 대칭 조작 전의 모델 파라미터로부터 얻어지는 분포와, 좌우 대칭 조작 후의 모델 파라미터로부터 얻어지는 분포를 합성하면, 음원에서 보아 좌우 대칭인 1개의 분포가 얻어지게 된다.
또한, 대칭성 정보 「use_symmetry」의 값이 「2」일 경우, 지향성 데이터 산출부(82)는, 모델 데이터에 기술되어 있는 모델 파라미터에 대응하는 분포에 대해서, 정면 수평면에 대해서 상하 대칭 조작을 행하여, 새로운 vMF 분포나 Kent 분포를 얻는다.
이 경우에 행해지는 상하 대칭 조작은, 음원에서 본 정면 수평면(수평면)을 도 33에 나타낸 단면 SF11로 하는 대칭 조작이다. 바꾸어 말하면, 수평면을 단면 SF11로 해서 도 33을 참조하여 설명한 대칭 조작을 행함으로써 상하 대칭 조작이 실현된다. 이 경우, 상하 대칭 조작 전의 모델 파라미터로부터 얻어지는 분포와, 상하 대칭 조작 후의 모델 파라미터로부터 얻어지는 분포를 합성하면, 음원에서 보아 상하 대칭인 1개의 분포가 얻어지게 된다.
또한, 대칭성 정보 「use_symmetry」의 값이 「4」일 경우, 지향성 데이터 산출부(82)는, 모델 데이터에 기술되어 있는 모델 파라미터에 대응하는 분포에 대해서, 정면에 대해서 상하 좌우 대칭 조작을 행하여, 새로운 분포를 얻는다. 여기서, 상하 좌우 대칭 조작이란, 조작 대상이 되는 분포에 대해서 상하 대칭 조작 및 좌우 대칭 조작을 행함으로써, 상하 좌우로 대칭인 분포를 얻는 조작이다. 또한, 좌우 대칭 조작이나 상하 대칭 조작을 포함하는 대칭 조작을 행한 vMF 분포나 Kent 분포는, 복호 시(복원 시)에 지향성 데이터가 정의되는 구 표면 전역에 걸쳐 유효해진다. 또한, 조작 대상의 분포 또는 조작에 의해 얻어진 분포에 있어서 경계가 정의되고, 그 경계에서 지향성 게인이 불연속으로 되도록 해도 된다.
<제4 실시 형태>
<밴드간의 크로스페이드에 대해서>
이상에서는, 지향성 데이터를 주파수 대역마다, 즉 밴드마다 모델화해서 데이터양을 삭감하는 방법에 대해서 설명하였다.
그러나, 지향성 데이터, 즉 지향성 게인이 주파수에 따라 서서히 변동해 가는 경우가 있고, 그러한 경우에는 모델화한 데이터의 크로스페이드가 유효하다고 생각된다.
도 35에 크로스페이드를 행하는 경우의 모델 데이터의 Syntax예를 나타낸다.
도 35에 나타내는 예는, 도 25에 나타낸 각 정보에 더하여, 또한 크로스페이드 플래그 「fade_flag」 및 상한 빈 인덱스 「bin_range_per_band_fadein[j]」가 저장되어 있다(포함되어 있다).
특히, 이 예에서는 밴드수 「band_count」의 분만큼, 각 밴드에서의 크로스페이드 플래그 「fade_flag」가 저장되어 있다.
크로스페이드 플래그 「fade_flag」는, 빈마다의 혼합 모델 F(x; Θ)를 산출함에 있어서, 서로 인접하는 밴드간의 크로스페이드, 즉 밴드마다의 혼합 모델 F'(x; Θ)의 가중치 부여 가산을 행할지 여부를 나타내는 플래그 정보이다.
예를 들어 크로스페이드 플래그 「fade_flag」의 값이 「1」일 경우, 밴드간의 크로스페이드가 행해지고, 값이 「0」일 경우, 밴드간의 크로스페이드는 행해지지 않는다. 또한, 밴드간의 크로스페이드는, 2번째 이상의 밴드에서 이용된다.
또한, 크로스페이드 플래그 「fade_flag」의 값이 「1」일 경우에는, 상한 빈 인덱스 「bin_range_per_band_fadein[j]」가 저장되어 있다.
상한 빈 인덱스 「bin_range_per_band_fadein[j]」는, 밴드간의 크로스페이드가 행해지는 상한 빈, 즉 밴드간의 크로스페이드가 행해지는 밴드 내의 빈 중 가장 주파수가 높은 빈을 나타내는 인덱스이다.
밴드간의 크로스페이드에서는, 지향성 데이터 산출부(82)는, 소정의 밴드에 대해서 구한 혼합 모델의 출력값 F'(x; Θ)와, 그 소정의 밴드에 인접하는 다른 밴드에 대해서 구한 혼합 모델의 출력값 F'(x; Θ)를 가중치 부여 가산한다.
그리고 지향성 데이터 산출부(82)는, 가중치 부여 가산에 의해 얻어진 출력값에 스케일 팩터를 승산하고, 또한 그 승산 결과에 최솟값(오프셋값)을 가산해서 얻어지는 값을, 다른 밴드 내의 대상이 되는 빈에서의 혼합 모델의 출력값 F(x; Θ)로 한다.
이 경우, 크로스페이드의 대상이 되는 것은 다른 밴드 내의 가장 주파수가 낮은 빈부터, 다른 밴드에서의 상한 빈 인덱스 「bin_range_per_band_fadein[j]」에 의해 나타내지는 상한 빈까지의 각 빈이며, 기타 빈에서는 크로스페이드는 행해지지 않는다. 크로스페이드가 행해지지 않는 빈에서는, 그 빈이 속하는 밴드에서의 혼합 모델의 출력값 F'(x; Θ)와 스케일 팩터와 최솟값으로부터 혼합 모델의 출력값 F(x; Θ)가 구해진다.
따라서, 밴드간의 크로스페이드가 행해지는 경우, 지향성 데이터(지향성 게인)의 산출에서는, 스케일 팩터와 최솟값의 적용 전에, 인접하는 밴드간의 복원된 혼합 모델의 출력값의 가중치 부여합(가중치 부여 가산값)을 최종적인 밴드의 혼합 모델의 출력값으로 하는 수순이 추가가 된다.
도 36에 밴드간의 크로스페이드의 개념도를 나타낸다.
도 36에서는, 종축은 크로스페이드 시에 사용되는 가중치를 나타내고 있고, 횡축은 주파수를 나타내고 있다. 또한, 여기서는 밴드수가 3일 경우가 예로 해서 나타내져 있다.
도면 중, 좌측에는 밴드간의 크로스페이드가 행해지지 않는 경우의 가중치 부여 가산 시의 가중치가 나타내져 있다.
직선 L51 내지 직선 L53은, 각 빈의 혼합 모델의 출력값 F(x; Θ)의 산출에 사용되는, 밴드 「bin_range_per_band[0]」 내지 밴드 「bin_range_per_band[2]」의 각 밴드의 혼합 모델의 출력값 F'(x; Θ)의 가중치를 나타내고 있다.
특히, 이 예에서는, 직선 L51 내지 직선 L53의 주파수 방향의 범위는 서로 겹쳐 있지 않고, 각 빈(주파수)에 관한 밴드마다의 혼합 모델의 출력값 F'(x; Θ)의 가중치가 1로 되어 있다. 따라서, 실질적으로 밴드간의 크로스페이드가 행해지지 않는 것을 알 수 있다.
이에 반해, 도면 중, 우측에는 밴드간의 크로스페이드가 행해지는 경우에서의 가중치 부여 가산 시의 가중치가 나타내져 있다.
꺾은선 L61 내지 꺾은선 L63은, 각 빈의 혼합 모델의 출력값 F(x; Θ)의 산출에 사용되는, 밴드 「bin_range_per_band[0]」 내지 밴드 「bin_range_per_band[2]」의 각 밴드의 혼합 모델의 출력값 F'(x; Θ)의 가중치를 나타내고 있다.
이 예에서는, 예를 들어 밴드 「bin_range_per_band[0]」에 관한 혼합 모델의 출력값 F'(x; Θ)의 가중치를 나타내는 꺾은선 L61의 우측 단부는, 밴드 「bin_range_per_band[0]」의 범위 밖의 주파수의 위치에 있다.
특히, 꺾은선 L61의 우측 단부 부분의 주파수(빈)는, 밴드 「bin_range_per_band[0]」에 인접하는 밴드 「bin_range_per_band[1]」 내에 있는 빈으로 되어 있고, 이 빈이 상한 빈 「bin_range_per_band_fadein[1]」로 되어 있다.
따라서, 예를 들어 밴드 「bin_range_per_band[1]」 내의 각 빈 중, 가장 주파수가 낮은 빈부터 상한 빈 「bin_range_per_band_fadein[1]」까지의 사이에 있는 각 빈에 대해서는, 밴드간의 크로스페이드가 행해져서 각 빈의 혼합 모델의 출력값 F(x; Θ)가 구해지는 것을 알 수 있다. 이 경우, 각 빈에 있어서, 혼합 모델의 출력값 F(x; Θ)의 산출에 사용되는 가중치의 총합은 1이 되도록 가중치가 산출된다.
이에 반해, 밴드 「bin_range_per_band[1]」 내의 각 빈 중, 상한 빈보다 주파수가 높은 각 빈에 대해서는, 꺾은선 L62에 의해 나타내지는 가중치의 값이 1로 되어 있고, 이들 빈에서는 밴드간의 크로스페이드는 행해지지 않는 것을 알 수 있다.
밴드간의 크로스페이드가 행해지는 경우, 소정의 빈 「i_bin」에 관한 보다 주파수가 낮은 측의 밴드 「i_band-1」의 혼합 모델의 출력값의 가중치 model_weighti_band-1[i_bin]은, 다음 식 (10)에 의해 얻을 수 있다.
Figure pct00010
또한, 소정의 빈 「i_bin」에 관한 보다 주파수가 높은 측의 밴드 「i_band」의 혼합 모델의 출력값의 가중치 model_weighti_band[i_bin]은, 다음 식 (11)에 의해 얻을 수 있다.
Figure pct00011
또한, 이들의 가중치와, 빈 「i_bin」에 관한 밴드 「i_band+j-1」의 혼합 모델의 출력값 Fi_band+j-1(x)에 기초하여, 이하의 식 (12)를 계산함으로써, 빈 「i_bin」에 관한 혼합 모델의 출력값 Fi_bin(x)를 얻을 수 있다.
Figure pct00012
또한, 식 (12)에서 scale_factor[i_bin] 및 offset[i_bin]은, 빈 「i_bin」의 스케일 팩터 및 최솟값(오프셋값)을 나타내고 있다.
지향성 데이터 산출부(82)는, 식 (12)를 계산함으로써, 각 빈의 혼합 모델의 출력값, 즉 각 데이터 포인트의 빈마다의 지향성 게인을 산출한다. 이와 같이 함으로써, 모델 데이터의 데이터양을 삭감할 수 있다.
<제5 실시 형태>
<데이터의 대칭성의 활용에 대해서>
제3 실시 형태에서는, 데이터의 대칭성의 활용에 대해서 설명하였다.
이러한 대칭성을 활용해서 전송 데이터양을 삭감할 경우, 상술한 지향성 데이터의 상하나 좌우의 대칭성뿐만 아니라, 전후 방향의 대칭성을 활용하거나, 전후 방향과 상하 방향이나 좌우 방향의 대칭성을 조합해서 활용하거나 하는 것도 가능하다.
그러한 경우, 모델 데이터의 Syntax는, 예를 들어 도 37에 나타내는 바와 같이 된다.
도 37에 나타내는 모델 데이터에는, 빈의 수를 나타내는 주파수 포인트수 「bin_count」가 포함되어 있고, 주파수 포인트수 「bin_count」의 분만큼, 빈의 중심의 주파수 「bin_freq[i]」가 저장되어 있다.
또한, 모델 데이터에는 밴드수 「band_count」도 저장되어 있고, 밴드수 「band_count」의 분만큼, 즉 밴드마다 지향성 데이터의 대칭성의 이용에 관한 대칭성 정보 「use_symmetry[j]」와 혼합수 「mix_count[j]」와 빈 정보 「bin_range_per_band[j]」가 저장되어 있다.
대칭성 정보 「use_symmetry[j]」는, 도 30에 나타낸 대칭성 정보 「use_symmetry」와 마찬가지의 것이지만, 이 예에서는 대칭성 정보 「use_symmetry[j]」의 값 「5」 내지 「7」은 후술하는 바와 같이 reserved가 되지는 않고 사용된다.
또한, 혼합수 「mix_count[j]」 및 빈 정보 「bin_range_per_band[j]」는, 도 31에 나타낸 것과 마찬가지의 것으로, 밴드의 혼합 모델을 구성하는 분포의 수 및 모델화 전의 원래의 지향성 데이터에 관한 빈(bin)을 나타내는 정보이다.
도 30에 나타낸 예에서는, 조작 관련 정보 등마다 혼합수 「mix_count[j]」 및 빈 정보 「bin_range_per_band[j]」가 저장되어 있었다. 그러나, 그러한 혼합수와 빈 정보는 동일한 것이므로, 도 37의 예에서는 모델 데이터에서의 조작 관련 정보 외의 부분에 혼합수와 빈 정보가 저장되어 있다.
도 37의 예에서는 밴드마다의 대칭성 정보 「use_symmetry[j]」의 값은, 「0」 내지 「7」의 어느 것의 값으로 된다.
대칭성 정보 「use_symmetry[j]」의 값 「4」, 「3」, 「2」, 「1」 및 「0」은, 도 30의 예와 마찬가지로, 상하 좌우 대칭 조작을 행하는 것, 좌우 대칭 조작을 행하는 것, 상하 대칭 조작을 행하는 것, 임의의 대칭, 회전을 활용하는 것 및 어느 대칭, 회전의 조작도 행하지 않는 것을 나타내고 있다.
대칭성 정보 「use_symmetry[j]」의 값 「7」, 「6」 및 「5」는, 상하 전후 대칭 조작을 행하는 것, 전후 좌우 대칭 조작을 행하는 것 및 전후 대칭 조작을 행하는 것을 나타내고 있다.
밴드수 「band_count」가 0보다 큰 경우(j>0), 모델 데이터에는 각 밴드에서의 크로스페이드 플래그 「fade_flag」가 저장되어 있다.
이 크로스페이드 플래그 「fade_flag」는, 도 35를 참조하여 설명한 것과 동일한 것이다. 즉, 크로스페이드 플래그 「fade_flag」의 값이 「1」일 경우, 밴드간의 크로스페이드가 행해지고, 값이 「0」일 경우, 밴드간의 크로스페이드는 행해지지 않는다.
또한, 크로스페이드 플래그 「fade_flag」의 값이 「1」일 경우, 모델 데이터에는 밴드에 대한 상한 빈 인덱스 「bin_range_per_band_fadein[j]」가 저장되어 있다.
그 밖에, 모델 데이터에는, 스타트 빈 「start_bin」이 저장되어 있다.
모델화 전의 원래의 지향성 데이터에서는, 주파수 「bin_freq[i]」에 의해 나타내지는 빈 중, 주파수가 낮은 빈에 대해서는 실질적으로 데이터가 포함되어 있지 않은 경우가 있다. 즉, 주파수가 낮은 빈의 지향성 게인이 0인 것도 있다.
스타트 빈 「start_bin」은, 주파수 「bin_freq[i]」에 의해 나타내지는 빈 중, 0이 아닌 지향성 게인이 데이터로서 포함되어 있는 가장 주파수가 낮은 빈을 나타내는 정보이다.
또한, 모델 데이터에는, 대칭성 정보 「use_symmetry[j]」의 값에 따라, 회전 조작 또는 대칭 조작을 위한 조작 관련 정보가 저장되어 있다.
대칭성 정보 「use_symmetry[j]」의 값이 「7」일 경우, 모델 데이터에는, 상하 전후 대칭 조작을 위한 조작 관련 정보 「FrontBackVerticalSymmetricDir( )」가 기술되어 있다. 대칭성 정보 「use_symmetry[j]」의 값이 「6」일 경우, 모델 데이터에는, 전후 좌우 대칭 조작을 위한 조작 관련 정보 「FrontBackLeftRightSymmetricDir( )」가 기술되어 있다.
또한, 대칭성 정보 「use_symmetry[j]」의 값이 「5」일 경우, 모델 데이터에는, 전후 대칭 조작을 위한 조작 관련 정보 「FrontBackSymmetricDir( )」가 기술되어 있다.
대칭성 정보 「use_symmetry[j]」의 값이 「4」일 경우, 모델 데이터에는 조작 관련 정보 「LeftRightVerticalLineSymmetricDir( )」가 기술되어 있다. 대칭성 정보 「use_symmetry[j]」의 값이 「3」일 경우, 모델 데이터에는 조작 관련 정보 「LeftRightLineSymmetricDir( )」가 기술되어 있다.
또한, 대칭성 정보 「use_symmetry[j]」의 값이 「2」일 경우, 모델 데이터에는 조작 관련 정보 「VerticalLineSymmetricDir( )」가 기술되어 있다.
대칭성 정보 「use_symmetry[j]」의 값이 「1」일 경우, 모델 데이터에는 조작 관련 정보 「SymmetricDir( )」가 기술되어 있다. 대칭성 정보 「use_symmetry[j]」의 값이 「0」일 경우, 모델 데이터에는 정보 「NonSymmetricDir( )」가 기술되어 있다.
또한 모델 데이터에는, 다이내믹 레인지에 관한 정보 「DynamicRangeForDir( )」가 기술되어 있다.
이 정보 「DynamicRangeForDir( )」에는, 중심의 주파수가 스타트 빈 「start_bin」에 의해 나타내지는 빈의 중심의 주파수 이상인 각 빈에 대해서, 스케일 팩터 「scale_factor[i]」와 최솟값 「offset[i]」가 저장되어 있다.
도 37에 나타낸 모델 데이터에서의, 지향성 데이터를 얻기 위한 정보 「NonSymmetricDir( )」의 Syntax예를 도 38에 나타낸다.
도 38에 나타내는 예에서는, 혼합수 「mix_count[k]」의 분만큼, 모델 파라미터로서의 「kappa[j][k]」, 「weight[j][k]」, 「gamma_azi[j][k]」 및 「gamma_elev[j][k]」와, 선택 플래그 「dist_flag[j][k]」가 저장되어 있다.
여기서, 「gamma_azi[j][k]」 및 「gamma_elev[j][k]」는, 벡터 γ1의 방향을 나타내는 수평 방향 각도(방위각) 및 수직 방향 각도(앙각)를 나타내고 있다.
도 34의 예에서는, 「gamma_x[j][k]」, 「gamma_y[j][k]」 및 「gamma_z[j][k]」에 의해 벡터 γ1이 표현되어 있었지만, 도 38에서는 방위각 및 앙각에 의해 벡터 γ1이 표현되어 있다.
또한, 선택 플래그 「dist_flag[j][k]」의 값에 따라, 모델 파라미터로서의 「beta[j][k]」 및 「gamma1_azi[j][k]」도 저장되어 있다.
「gamma1_azi[j][k]」는, 벡터 γ1에서 보았을 때의 major축 벡터 γ2나 minor축 벡터 γ3의 상대적인 방향을 나타내는 수평 방향의 각도(회전 각도)이다.
즉, 이 예에서는 벡터 γ1과 각도 「gamma1_azi[j][k]」로부터, major축 벡터 γ2 및 minor축 벡터 γ3을 얻을 수 있다.
도 39는, 조작 관련 정보 「LeftRightLineSymmetricDir( )」의 Syntax예를 나타내고 있다.
이 예에서는, 도 38의 「NonSymmetricDir( )」에서의 경우와 마찬가지로, 혼합수 「mix_count[k]」의 분만큼, 모델 파라미터로서의 「kappa[j][k]」, 「weight[j][k]」, 「gamma_azi[j][k]」 및 「gamma_elev[j][k]」와, 선택 플래그 「dist_flag[j][k]」가 저장되어 있다.
또한, 선택 플래그 「dist_flag[j][k]」의 값에 따라, 모델 파라미터로서의 「beta[j][k]」 및 「gamma1_azi[j][k]」도 저장되어 있다.
또한 조작 관련 정보 「LeftRightLineSymmetricDir( )」에는, 혼합수 「mix_count[k]」의 분만큼, 밴드에서의 지향성 게인의 분포를 나타내는 혼합 모델을 구성하는 Kent 분포나 vMF 분포 등의 분포(혼합)마다의 「sym_flag[k]」가 저장되어 있다.
「sym_flag[k]」는, 대상이 되는 분포에 대해서, 대칭이나 회전 등의 조작을 행할지 여부를 나타내는 플래그 정보이다. 예를 들어 플래그 정보 「sym_flag[k]」의 값 「00」은, 대칭이나 회전과 같은 조작을 행하지 않는 것을 나타내고 있고, 플래그 정보 「sym_flag[k]」의 값 「01」은, 대칭 조작을 행하는 것을 나타내고 있다.
따라서, 예를 들어 조작 관련 정보 「LeftRightLineSymmetricDir( )」에 저장되어 있는 소정의 분포의 플래그 정보 「sym_flag[k]」의 값이 「01」일 경우, 그 분포에 대해서 좌우 대칭 조작이 행해진다.
모델 데이터에서의 조작 관련 정보 「FrontBackVerticalSymmetricDir( )」, 「FrontBackLeftRightSymmetricDir( )」, 「FrontBackSymmetricDir( )」, 「LeftRightVerticalLineSymmetricDir( )」, 「VerticalLineSymmetricDir( )」 및 「SymmetricDir( )」의 데이터 형식(Syntax)은, 도 39의 「LeftRightLineSymmetricDir( )」와 마찬가지가 된다.
이 경우, 각 조작 관련 정보 내의 플래그 정보 「sym_flag[k]」는, 그러한 조작 관련 정보에 대응한 조작을 행할지 여부를 나타내는 플래그 정보가 된다.
구체적으로는, 예를 들어 조작 관련 정보 「VerticalLineSymmetricDir( )」에 저장된 소정의 분포(혼합)의 플래그 정보 「sym_flag[k]」의 값이 「01」일 경우에는, 그 분포에 대해서 상하 대칭 조작이 행해진다.
또한, 예를 들어 조작 관련 정보 「SymmetricDir( )」에는, 도 39에 나타낸 조작 관련 정보 「LeftRightLineSymmetricDir( )」에 저장되어 있는 각 정보에 더하여, 또한 플래그 정보 「sym_flag[k]」의 값에 따라, 회전 조작이나 대칭 조작에 필요해지는 정보도 저장된다.
구체적으로는, 예를 들어 도 31을 참조하여 설명한 회전축 방위각 「sym_azi」, 회전축 앙각 「sym_elev」 및 회전각 「sym_rotation」이나, 요각 「sym_yaw」, 피치각 「sym_pitch」 및 롤각 「sym_roll」이 적절하게, 조작 관련 정보에 저장된다. 그리고 플래그 정보 「sym_flag[k]」의 값에 따라, 혼합 모델을 구성하는 분포마다 회전 조작이나 대칭 조작이 행해진다. 이 경우, 플래그 정보 「sym_flag[k]」의 값에 의해, 회전 조작만이나 대칭 조작만, 회전 조작과 대칭 조작의 양쪽 등, 실행시키는 조작의 조합을 지정할 수 있다.
또한, 조작 관련 정보 「SymmetricDir( )」의 구성을, 도 31에 나타낸 예와 마찬가지의 구성으로 하여, 조작 횟수 정보 「sym_operation_count」와 조작 플래그 「sym_operation_flag」에 의해 회전 조작이나 대칭 조작의 실행 유무를 규정하도록 해도 된다.
또한, 모델 데이터에 조작 관련 정보 「FrontBackVerticalSymmetricDir( )」, 「FrontBackLeftRightSymmetricDir( )」 또는 「FrontBackSymmetricDir( )」가 저장되어 있을 경우, 즉 대칭성 정보 「use_symmetry[j]」의 값이 「7」, 「6」 또는 「5」일 경우, 지향성 데이터 산출부(82)는, 지향성 데이터의 복호 시에 대칭 조작을 행한다.
구체적으로는, 대칭성 정보 「use_symmetry[j]」의 값이 「7」일 경우, 지향성 데이터 산출부(82)는, 플래그 정보 「sym_flag[k]」의 값이 「01」인 분포에 대해서 상하 전후 대칭 조작을 행하여, 새로운 분포를 얻는다.
그리고 지향성 데이터 산출부(82)는, 그 새로운 분포 등으로부터 지향성 데이터(지향성 게인)를 산출한다. 또한 그 후, 밴드마다의 크로스페이드 플래그 「fade_flag」의 값에 따라, 적절하게 밴드간의 크로스페이드도 행해진다.
여기서, 상하 전후 대칭 조작이란, 조작 대상이 되는 분포에 대해서 상하 대칭 조작 및 전후 대칭 조작을 행함으로써, 상하 전후로 대칭인 분포를 얻는 조작이다.
이 경우에 행해지는 상하 대칭 조작은, 음원에서 본 정면 수평면(수평면)을 도 33에 나타낸 단면 SF11로 하는 대칭 조작이다. 바꾸어 말하면, 수평면을 단면 SF11로 해서 도 33을 참조하여 설명한 대칭 조작을 행함으로써 상하 대칭 조작이 실현된다.
또한, 전후 대칭 조작은, 음원에서 본 정면 정중면(정중면)을 수평 방향으로 90도만큼 회전시켜 얻어지는 면을 도 33에 나타낸 단면 SF11로 하는 대칭 조작이다. 바꾸어 말하면, 정면 정중면을 수평 방향으로 90도만큼 회전시켜 얻어진 면을 단면 SF11로 해서 도 33을 참조하여 설명한 대칭 조작을 행함으로써 전후 대칭 조작이 실현된다.
대칭성 정보 「use_symmetry[j]」의 값이 「6」일 경우, 지향성 데이터 산출부(82)는, 플래그 정보 「sym_flag[k]」의 값이 「01」인 분포에 대해서 전후 좌우 대칭 조작을 행하여 새로운 분포를 얻음과 함께, 얻어진 분포를 사용하여 지향성 데이터를 산출한다.
전후 좌우 대칭 조작이란, 조작 대상이 되는 분포에 대해서 전후 대칭 조작 및 좌우 대칭 조작을 행함으로써, 전후 좌우로 대칭인 분포를 얻는 조작이다. 이 경우에 행해지는 좌우 대칭 조작은, 음원에서 본 정면 정중면(정중면)을 도 33에 나타낸 단면 SF11로 하는 대칭 조작이다.
또한, 예를 들어 대칭성 정보 「use_symmetry[j]」의 값이 「5」일 경우, 지향성 데이터 산출부(82)는, 플래그 정보 「sym_flag[k]」의 값이 「01」인 분포에 대해서 전후 대칭 조작을 행하여 새로운 분포를 얻음과 함께, 얻어진 분포를 사용하여 지향성 데이터를 산출한다.
또한, 좌우 대칭 조작이나 상하 대칭 조작, 전후 대칭 조작을 포함하는 대칭 조작을 행한 vMF 분포나 Kent 분포 등의 분포는, 복호 시(복원 시)에 지향성 데이터가 정의되는 구 표면 전역에 걸쳐 유효해진다. 또한, 조작 대상의 분포 또는 조작에 의해 얻어진 분포에 있어서 경계가 정의되고, 그 경계에서 지향성 게인이 불연속으로 되도록 해도 된다.
그 밖에, 제5 실시 형태에서는, 밴드마다의 대칭성 정보 「use_symmetry[j]」로 규정한 대칭이나 회전의 조작에 대해서, 밴드의 혼합 모델을 구성하는 Kent 분포 등의 분포(혼합)마다 실제로 대칭이나 회전의 조작을 행할지 여부를 플래그 정보 「sym_flag[k]」에 의해 규정하고 있다.
그러나, 이에 한정하지 않고, 밴드의 혼합 모델을 구성하는 Kent 분포 등의 분포(혼합)마다, 실행하는 대칭이나 회전의 조작을 규정할 수 있도록 해도 된다.
그러한 경우, 예를 들어 분포마다, 적절하게 1bit의 대칭성 정보 「use_symmetry」와 3bit의 플래그 정보 「sym_flag[k]」를 모델 데이터의 조작 관련 정보 등에 저장하고, 각 분포에 대해서 행하는 조작을 규정하는 것을 생각할 수 있다.
이 예에서는, 예를 들어 1bit의 대칭성 정보 「use_symmetry」는, 대칭이나 회전 등의 조작을 행할지 여부를 나타내는 플래그 정보가 된다.
구체적으로는, 예를 들어 대칭성 정보 「use_symmetry」의 값이 「1」일 경우, 대칭이나 회전 등의 조작이 행해지고, 대칭성 정보 「use_symmetry」의 값이 「0」일 경우, 대칭이나 회전 등의 조작이 행해지지 않게 된다.
또한, 대칭성 정보 「use_symmetry」의 값이 「0」일 경우에는, 대상이 되는 분포에 대해서는 대칭이나 회전의 조작은 행해지지 않으므로, 조작 관련 정보 등에는 그 분포에 관한 플래그 정보 「sym_flag[k]」는 저장되지 않는다.
이에 반해, 대칭성 정보 「use_symmetry」의 값이 「1」일 경우에는, 대상이 되는 분포에 대해서는 대칭이나 회전의 조작이 행해지므로, 조작 관련 정보 등에는 그 분포에 관한 플래그 정보 「sym_flag[k]」가 저장된다.
그리고 지향성 데이터 산출부(82)에서는, 플래그 정보 「sym_flag[k]」의 값에 따른 조작이 행해져서, 새로운 분포가 구해진다.
이때, 플래그 정보 「sym_flag[k]」의 값 「0」, 「1」, 「2」, 「3」, 「4」, 「5」, 「6」 및 「7」에 대해서, 예를 들어 조작 없음, 임의의 대칭, 회전 조작, 상하 대칭 조작, 좌우 대칭 조작, 상하 좌우 대칭 조작, 전후 대칭 조작, 전후 좌우 대칭 조작 및 상하 전후 대칭 조작을 할당하도록 해도 된다.
<기타>
그런데, 도 12의 스텝 S52나 도 20의 스텝 S117 등, 개형 지향성 데이터(지향성 데이터)의 산출 시에 있어서는, 지향성 데이터 산출부(82)는, 모델 파라미터에 기초하여 각 밴드의 혼합 모델 F'(x; Θ)를 산출한다.
이때, 지향성 데이터 산출부(82)는, 모델 파라미터로부터 얻어지는 Kent 분포나 vMF 분포, 복소 Bingham 분포 등과 같은, 혼합 모델을 구성하는 복수의 분포를, 그러한 분포의 가중치 φi, 즉 상술한 weight[j][k]나 weight[i_band][i_mix]를 사용하여 가중치 부여 가산함으로써 혼합 모델 F'(x; Θ)(지향성 데이터)를 산출한다.
각 분포의 가중치 φi의 값은, 혼합 모델을 구성하는 복수의 분포의 가중치 φi의 총합이 1이 되도록 정해지지만, 각 가중치 φi의 값은 양의 값이어도 되고, 음의 값이어도 된다.
예를 들어 몇 가지의 분포의 가중치 φi를 음의 값으로 함으로써, 필터에서의 밴드패스와 밴드 리젝트 필터의 관계와 마찬가지로, 혼합 모델에 급준한 피크뿐만 아니라 딥도 마련할 수 있게 된다.
예를 들어, 혼합 모델을 구성하는 Kent 분포나 vMF 분포 등의 1개의 분포의 가중치 φi를 양의 값으로 한 경우, 그 분포에 가중치 φi를 승산하면, 가중치 φi의 승산 후의 분포는, 예를 들어 도 40의 화살표 Q101에 나타내는 바와 같이 된다.
또한, 도 40에서 가로 방향은, 구 표면 상에서 정의되는 Kent 분포 등의 분포에서의 구 표면 상의 소정의 방향을 나타내고 있고, 세로 방향은 분포의 각 위치에서의 값, 즉 지향성 게인을 나타내고 있다.
화살표 Q101에 나타내는 예에서는, 가중치 φi 승산 후의 분포에는 도면 중, 위로 볼록한 피크가 있는 것을 알 수 있다.
이에 반해, 혼합 모델을 구성하는 Kent 분포나 vMF 분포 등의 1개의 분포의 가중치 φi를 음의 값으로 한 경우, 그 분포에 가중치 φi를 승산하면, 가중치 φi 승산 후의 분포는, 예를 들어 화살표 Q102에 나타내는 바와 같이 된다. 이 예에서는, 가중치 φi 승산 후의 분포에는 도면 중, 아래로 볼록한 딥이 있는 것을 알 수 있다.
따라서, 밴드에 관한 혼합 모델을 구성하는 전체 분포의 가중치 φi의 총합이 1이 된다는 조건에서, 적절하게, 음의 값을 포함하는 각 분포의 가중치 φi를 정하면, 보다 자유도를 높게 하여, 보다 다양한 형상의 혼합 모델을 표현할 수 있게 된다.
이와 같이, 임의의 분포의 가중치 φi를 음의 값으로 하는 경우에도, 전체 분포의 가중치 φi의 총합이 1(1.0)이 되도록 설정하면, 일반성이 상실되지는 않는다.
또한, 가중치 φi의 값으로서 음의 값도 취할 수 있도록 하는 경우, 예를 들어 도 25나 도 31, 도 34 등에서의 가중치 φi로서의 10bit의 가중치 weight[j][k] 중 상위 1bit가 부호 bit로서 사용되게 된다. 이것은, 예를 들어 도 5에서의 가중치 weight[i_band][i_mix]에서도 마찬가지이다.
<컴퓨터의 구성예>
그런데, 상술한 일련의 처리는, 하드웨어에 의해 실행할 수도 있고, 소프트웨어에 의해 실행할 수도 있다. 일련의 처리를 소프트웨어에 의해 실행하는 경우에는, 그 소프트웨어를 구성하는 프로그램이 컴퓨터에 인스톨된다. 여기서, 컴퓨터에는, 전용의 하드웨어에 내장되어 있는 컴퓨터나, 각종 프로그램을 인스톨함으로써, 각종 기능을 실행하는 것이 가능한, 예를 들어 범용의 퍼스널 컴퓨터 등이 포함된다.
도 41은, 상술한 일련의 처리를 프로그램에 의해 실행하는 컴퓨터의 하드웨어의 구성예를 도시하는 블록도이다.
컴퓨터에 있어서, CPU(Central Processing Unit)(501), ROM(Read Only Memory)(502), RAM(Random Access Memory)(503)은, 버스(504)에 의해 서로 접속되어 있다.
버스(504)에는 또한, 입출력 인터페이스(505)가 접속되어 있다. 입출력 인터페이스(505)에는, 입력부(506), 출력부(507), 기록부(508), 통신부(509) 및 드라이브(510)가 접속되어 있다.
입력부(506)는, 키보드, 마우스, 마이크로폰, 촬상 소자 등을 포함한다. 출력부(507)는, 디스플레이, 스피커 등을 포함한다. 기록부(508)는, 하드 디스크나 불휘발성 메모리 등을 포함한다. 통신부(509)는, 네트워크 인터페이스 등을 포함한다. 드라이브(510)는, 자기 디스크, 광 디스크, 광자기 디스크, 또는 반도체 메모리 등의 리무버블 기록 매체(511)를 구동한다.
이상과 같이 구성되는 컴퓨터에서는, CPU(501)가, 예를 들어 기록부(508)에 기록되어 있는 프로그램을, 입출력 인터페이스(505) 및 버스(504)를 통해서 RAM(503)에 로드해서 실행함으로써, 상술한 일련의 처리가 행해진다.
컴퓨터(CPU(501))가 실행하는 프로그램은, 예를 들어 패키지 미디어 등으로서의 리무버블 기록 매체(511)에 기록해서 제공할 수 있다. 또한 프로그램은, 로컬 에어리어 네트워크, 인터넷, 디지털 위성 방송과 같은, 유선 또는 무선의 전송 매체를 통해서 제공할 수 있다.
컴퓨터에서는, 프로그램은, 리무버블 기록 매체(511)를 드라이브(510)에 장착함으로써, 입출력 인터페이스(505)를 통해서 기록부(508)에 인스톨할 수 있다. 또한 프로그램은, 유선 또는 무선의 전송 매체를 통해서 통신부(509)에서 수신하고, 기록부(508)에 인스톨할 수 있다. 그 밖에, 프로그램은, ROM(502)이나 기록부(508)에 미리 인스톨해 둘 수 있다.
또한, 컴퓨터가 실행하는 프로그램은, 본 명세서에서 설명하는 순서를 따라 시계열로 처리가 행해지는 프로그램이어도 되고, 병렬로, 혹은 호출이 행해졌을 때 등의 필요한 타이밍에 처리가 행해지는 프로그램이어도 된다.
또한, 본 기술의 실시 형태는, 상술한 실시 형태에 한정되는 것이 아니라, 본 기술의 요지를 일탈하지 않는 범위에서 다양한 변경이 가능하다.
예를 들어, 본 기술은, 1개의 기능을 네트워크를 통해서 복수의 장치에서 분담, 공동해서 처리하는 클라우드 컴퓨팅의 구성을 취할 수 있다.
또한, 상술한 흐름도에서 설명한 각 스텝은, 1개의 장치에서 실행하는 것 외에, 복수의 장치에서 분담해서 실행할 수 있다.
또한, 1개의 스텝에 복수의 처리가 포함되는 경우에는, 그 1개의 스텝에 포함되는 복수의 처리는, 1개의 장치에서 실행하는 것 외에, 복수의 장치에서 분담해서 실행할 수 있다.
또한 본 기술은, 이하의 구성으로 하는 것도 가능하다.
(1) 음원의 지향성을 나타내는 지향성 데이터를 모델화함으로써 얻어진 모델 데이터를 취득하는 취득부와,
상기 모델 데이터에 기초하여, 상기 지향성 데이터를 산출하는 산출부
를 구비하는 정보 처리 장치.
(2) 상기 모델 데이터에는, 상기 지향성 데이터를 1개 또는 복수의 분포를 포함하는 혼합 모델에 의해 모델화함으로써 얻어진, 상기 혼합 모델을 구성하는 모델 파라미터가 포함되어 있는, (1)에 기재된 정보 처리 장치.
(3) 상기 1개 또는 복수의 분포는, vMF 분포와 Kent 분포의 적어도 어느 것을 포함하는, (2)에 기재된 정보 처리 장치.
(4) 상기 지향성 데이터는, 복수의 각 주파수 빈의 지향성 게인을 포함하고,
상기 모델 데이터에는, 1개 또는 복수의 상기 주파수 빈을 포함하는 주파수 대역인 밴드마다, 상기 지향성 게인의 분포를 나타내는 상기 혼합 모델을 구성하는 상기 모델 파라미터가 포함되어 있는, (2) 또는 (3)에 기재된 정보 처리 장치.
(5) 상기 모델 데이터에는, 상기 주파수 빈에서의 상기 지향성 게인의 다이내믹 레인지를 나타내는 스케일 팩터와, 상기 주파수 빈에서의 상기 지향성 게인의 최솟값이 포함되어 있는, (4)에 기재된 정보 처리 장치.
(6) 상기 모델 데이터에는, 모델화 전의 상기 지향성 데이터와, 모델화 후의 상기 지향성 데이터의 차분을 나타내는 차분 정보가 포함되어 있고,
상기 산출부에 의해 산출된 상기 지향성 데이터에, 상기 차분 정보를 가산하는 가산부를 더 구비하는, (1) 내지 (5) 중 어느 한 항에 기재된 정보 처리 장치.
(7) 상기 차분 정보는, 허프만 부호화되어 있는, (6)에 기재된 정보 처리 장치.
(8) 상기 지향성 데이터는, 복수의 각 주파수 빈의 지향성 게인을 포함하고,
상기 산출부에 의해 산출된 상기 지향성 데이터에 기초하여 보간 처리를 행함으로써, 새로운 상기 주파수 빈의 상기 지향성 게인을 산출하는 보간 처리부를 더 구비하는, (1) 내지 (7) 중 어느 한 항에 기재된 정보 처리 장치.
(9) 상기 지향성 데이터는, 복수의 각 데이터 포인트에서의 지향성 게인을 포함하고,
상기 산출부에 의해 산출된 상기 지향성 데이터에 기초하여 보간 처리를 행함으로써, 새로운 상기 데이터 포인트에서의 상기 지향성 게인을 산출하는 보간 처리부를 더 구비하는, (1) 내지 (8) 중 어느 한 항에 기재된 정보 처리 장치.
(10) 상기 지향성 데이터와 오디오 데이터를 컨벌브하는 지향성 컨벌루션부를 더 구비하는, (1) 내지 (9) 중 어느 한 항에 기재된 정보 처리 장치.
(11) 상기 지향성 데이터가 컨벌브된 상기 오디오 데이터와, HRTF를 컨벌브하는 HRTF 컨벌루션부를 더 구비하는, (10)에 기재된 정보 처리 장치.
(12) 상기 1개 또는 복수의 분포는, 복소 Bingham 분포 또는 복소 watson 분포를 포함하는, (2)에 기재된 정보 처리 장치.
(13) 상기 모델 데이터에는, 상기 지향성 데이터를 구면 조화 함수 전개에 의해 모델화함으로써 얻어진 구면 조화 계수가 모델 파라미터로서 포함되어 있는, (1)에 기재된 정보 처리 장치.
(14) 상기 모델 데이터에는, 서로 다른 1개 또는 복수의 방식에 의해 상기 지향성 데이터를 모델화함으로써 얻어진 모델 파라미터가 포함되어 있는, (1)에 기재된 정보 처리 장치.
(15) 상기 방식은, 1개 또는 복수의 분포를 포함하는 혼합 모델에 의해 모델화하는 방식 및 구면 조화 함수 전개에 의해 모델화하는 방식 중 적어도 어느 것을 포함하는, (14)에 기재된 정보 처리 장치.
(16) 상기 모델 데이터에는, 상기 1개 또는 복수의 방식에 의한 모델화 후의 상기 지향성 데이터와, 모델화 전의 상기 지향성 데이터의 차분을 나타내는 차분 정보가 더 포함되어 있는, (14) 또는 (15)에 기재된 정보 처리 장치.
(17) 상기 차분 정보는, 허프만 부호화되어 있는, (16)에 기재된 정보 처리 장치.
(18) 상기 차분 정보의 실부와 허부 각각이 개별로 허프만 부호화되어 있는, (17)에 기재된 정보 처리 장치.
(19) 상기 모델 데이터에는, 상기 1개 또는 복수의 방식에 의한 모델화 후의 상기 지향성 데이터와, 모델화 전의 상기 지향성 데이터의 차분을 나타내는 차분 정보의 공간 상의 위치간 및 주파수간 중 적어도 어느 것의 차분을 허프만 부호화함으로써 얻어진 차분 부호 데이터가 포함되어 있는, (14) 또는 (15)에 기재된 정보 처리 장치.
(20) 상기 모델 데이터에는, 상기 차분 정보의 차분의 실부와 허부 각각을 개별로 허프만 부호화함으로써 얻어진 상기 차분 부호 데이터가 포함되어 있는, (19)에 기재된 정보 처리 장치.
(21) 상기 모델 데이터에는, 상기 지향성 데이터를 소정의 방식에 의해 모델화함으로써 얻어진 상기 모델 파라미터, 및 상기 소정의 방식에 의한 모델화 후의 상기 지향성 데이터와 모델화 전의 상기 지향성 데이터의 차분을, 상기 소정의 방식과는 다른 방식에 의해 모델화함으로써 얻어진 다른 모델 파라미터가 포함되어 있는, (14) 또는 (15)에 기재된 정보 처리 장치.
(22) 상기 모델 데이터에는, 상기 지향성 데이터를 소정의 방식에 의해 모델화함으로써 얻어진 상기 모델 파라미터, 및 상기 소정의 방식에 의한 모델화 후의 상기 지향성 데이터와 모델화 전의 상기 지향성 데이터의 비를, 상기 소정의 방식과는 다른 방식에 의해 모델화함으로써 얻어진 다른 모델 파라미터가 포함되어 있는, (14) 또는 (15)에 기재된 정보 처리 장치.
(23) 상기 모델 데이터에는, 상기 지향성 데이터를 모델화함으로써 얻어진 상기 모델 파라미터를 또한 모델화함으로써 얻어진 모델 파라미터가 포함되어 있는, (14) 또는 (15)에 기재된 정보 처리 장치.
(24) 상기 모델 데이터에는, 주파수 대역마다 다른 방식으로 상기 지향성 데이터를 모델화함으로써 얻어진 상기 모델 파라미터가 포함되어 있는, (14) 내지 (23) 중 어느 한 항에 기재된 정보 처리 장치.
(25) 상기 지향성 데이터는, 복수의 각 데이터 포인트에서의 지향성 게인을 포함하고,
상기 모델 데이터에는, 상기 데이터 포인트의 배치 방식을 나타내는 정보 및 상기 데이터 포인트의 배치 위치를 특정하기 위한 정보가 포함되어 있는, (1) 내지 (24) 중 어느 한 항에 기재된 정보 처리 장치.
(26) 상기 모델 데이터에는, 상기 음원의 종별마다의 상기 지향성 데이터의 우선도를 나타내는 우선도 정보가 포함되어 있는, (25)에 기재된 정보 처리 장치.
(27) 상기 데이터 포인트의 수는 상기 우선도에 따라 변화하고,
상기 산출부는, 상기 우선도 정보를 사용하여 상기 데이터 포인트의 배치 위치를 특정하는, (26)에 기재된 정보 처리 장치.
(28) 상기 지향성 데이터는, 복수의 각 데이터 포인트에서의 주파수 빈마다의 지향성 게인을 포함하고,
상기 모델 데이터에는, 상기 차분 정보의 재배열 후의, 상기 1개 또는 복수의 방식에 의한 모델화 후의 상기 지향성 데이터의 상기 지향성 게인과, 모델화 전의 상기 지향성 데이터의 상기 지향성 게인의 차분을 나타내는 상기 차분 정보의 상기 데이터 포인트간 및 상기 주파수 빈간 중 적어도 어느 것의 차분의 상기 차분 부호 데이터가 포함되어 있는, (19)에 기재된 정보 처리 장치.
(29) 상기 재배열은, 미리 정해진 순, 상기 데이터 포인트 혹은 상기 주파수 빈의 우선도순, 상기 차분 정보의 오름차순 또는 상기 차분 정보의 내림차순으로의 재배열인, (28)에 기재된 정보 처리 장치.
(30) 상기 모델 데이터에는, 각 상기 주파수 빈에서의 상기 지향성 게인의 다이내믹 레인지를 나타내는 스케일 팩터와, 각 상기 주파수 빈에서의 상기 지향성 게인의 최솟값의 적어도 어느 것을 파라메트릭화해서 얻어진 파라미터가 포함되어 있는, (4)에 기재된 정보 처리 장치.
(31) 상기 모델 데이터에는, 회전 조작 또는 대칭 조작을 위한 조작 관련 정보가 포함되어 있고,
상기 산출부는, 상기 조작 관련 정보에 기초하여, 상기 모델 파라미터에 대한 상기 회전 조작 또는 상기 대칭 조작을 행함으로써, 회전 또는 대칭 이동된 상기 모델 파라미터를 산출함과 함께, 상기 회전 또는 대칭 이동된 상기 모델 파라미터에 의해 얻어지는 상기 분포를 사용하여 상기 지향성 데이터를 산출하는, (2) 내지 (5) 중 어느 한 항에 기재된 정보 처리 장치.
(32) 상기 산출부는, 소정의 상기 밴드의 상기 혼합 모델의 출력값과, 상기 소정의 상기 밴드에 인접하는 다른 상기 밴드의 상기 혼합 모델의 출력값을 가중치 부여 가산함으로써, 소정의 상기 주파수 빈의 상기 지향성 게인을 산출하는, (4) 또는 (5)에 기재된 정보 처리 장치.
(33) 상기 산출부는, 상기 모델 파라미터로부터 얻어지는 복수의 상기 분포를, 음의 값을 포함하는 가중치를 사용하여 가중치 부여 가산함으로써 상기 지향성 데이터를 산출하는, (2) 내지 (5) 중 어느 한 항에 기재된 정보 처리 장치.
(34) 정보 처리 장치가,
음원의 지향성을 나타내는 지향성 데이터를 모델화함으로써 얻어진 모델 데이터를 취득하고,
상기 모델 데이터에 기초하여, 상기 지향성 데이터를 산출하는,
정보 처리 방법.
(35) 음원의 지향성을 나타내는 지향성 데이터를 모델화함으로써 얻어진 모델 데이터를 취득하고,
상기 모델 데이터에 기초하여, 상기 지향성 데이터를 산출하는
처리를 컴퓨터에 실행시키는 프로그램.
(36) 음원의 지향성을 나타내는 지향성 데이터를, 1개 또는 복수의 분포를 포함하는 혼합 모델에 의해 모델화하는 모델화부와,
상기 모델화에 의해 얻어진, 상기 혼합 모델을 구성하는 모델 파라미터를 포함하는 모델 데이터를 생성하는 모델 데이터 생성부
를 구비하는 정보 처리 장치.
(37) 정보 처리 장치가,
음원의 지향성을 나타내는 지향성 데이터를, 1개 또는 복수의 분포를 포함하는 혼합 모델에 의해 모델화하고,
상기 모델화에 의해 얻어진, 상기 혼합 모델을 구성하는 모델 파라미터를 포함하는 모델 데이터를 생성하는
정보 처리 방법.
(38) 음원의 지향성을 나타내는 지향성 데이터를, 1개 또는 복수의 분포를 포함하는 혼합 모델에 의해 모델화하고,
상기 모델화에 의해 얻어진, 상기 혼합 모델을 구성하는 모델 파라미터를 포함하는 모델 데이터를 생성하는
처리를 컴퓨터에 실행시키는 프로그램.
(39) 음원의 지향성을 나타내는 지향성 데이터이며, 복수의 각 데이터 포인트에서의 복수의 각 주파수 빈의 지향성 게인을 포함하는 지향성 데이터에 대해서, 상기 지향성 게인의 상기 데이터 포인트간 및 상기 주파수 빈간 중 적어도 어느 것의 차분을 구함으로써 얻어진 차분 지향성 데이터를 취득하는 취득부와,
상기 차분 지향성 데이터에 기초하여, 상기 지향성 데이터를 산출하는 산출부
를 구비하는 정보 처리 장치.
(40) 상기 차분 지향성 데이터는, 허프만 부호화되어 있고,
상기 산출부는, 허프만 부호화된 상기 차분 지향성 데이터의 복호를 행하는, (39)에 기재된 정보 처리 장치.
(41) 상기 차분 지향성 데이터의 실부와 허부 각각이 개별로 허프만 부호화되어 있는, (40)에 기재된 정보 처리 장치.
(42) 상기 차분 지향성 데이터는, 상기 지향성 게인의 재배열 후의, 상기 데이터 포인트간 및 상기 주파수 빈간 중 적어도 어느 것의 상기 차분을 구함으로써 얻어진 것인, (39) 내지 (41) 중 어느 한 항에 기재된 정보 처리 장치.
(43) 상기 재배열은, 미리 정해진 순, 상기 데이터 포인트 혹은 상기 주파수 빈의 우선도순, 상기 지향성 게인의 오름차순 또는 상기 지향성 게인의 내림차순으로의 재배열인, (42)에 기재된 정보 처리 장치.
(44) 정보 처리 장치가,
음원의 지향성을 나타내는 지향성 데이터이며, 복수의 각 데이터 포인트에서의 복수의 각 주파수 빈의 지향성 게인을 포함하는 지향성 데이터에 대해서, 상기 지향성 게인의 상기 데이터 포인트간 및 상기 주파수 빈간 중 적어도 어느 것의 차분을 구함으로써 얻어진 차분 지향성 데이터를 취득하고,
상기 차분 지향성 데이터에 기초하여, 상기 지향성 데이터를 산출하는
정보 처리 방법.
(45) 음원의 지향성을 나타내는 지향성 데이터이며, 복수의 각 데이터 포인트에서의 복수의 각 주파수 빈의 지향성 게인을 포함하는 지향성 데이터에 대해서, 상기 지향성 게인의 상기 데이터 포인트간 및 상기 주파수 빈간 중 적어도 어느 것의 차분을 구함으로써 얻어진 차분 지향성 데이터를 취득하고,
상기 차분 지향성 데이터에 기초하여, 상기 지향성 데이터를 산출하는
처리를 컴퓨터에 실행시키는 프로그램.
11: 서버 21: 모델화부
22: 모델 데이터 생성부 23: 오디오 데이터 부호화부
51: 정보 처리 장치 61: 취득부
62: 분포 모델 복호부 63: 오디오 데이터 복호부
64: 렌더링 처리부 82: 지향성 데이터 산출부
83: 차분 정보 복호부 84: 가산부
85: 주파수 보간 처리부 88: 시간 보간 처리부
89: 지향성 컨벌루션부 90: HRTF 컨벌루션부

Claims (45)

  1. 음원의 지향성을 나타내는 지향성 데이터를 모델화함으로써 얻어진 모델 데이터를 취득하는 취득부와,
    상기 모델 데이터에 기초하여, 상기 지향성 데이터를 산출하는 산출부
    를 구비하는 정보 처리 장치.
  2. 제1항에 있어서, 상기 모델 데이터에는, 상기 지향성 데이터를 1개 또는 복수의 분포를 포함하는 혼합 모델에 의해 모델화함으로써 얻어진, 상기 혼합 모델을 구성하는 모델 파라미터가 포함되어 있는, 정보 처리 장치.
  3. 제2항에 있어서, 상기 1개 또는 복수의 분포는, vMF 분포와 Kent 분포의 적어도 어느 것을 포함하는, 정보 처리 장치.
  4. 제2항에 있어서, 상기 지향성 데이터는, 복수의 각 주파수 빈의 지향성 게인을 포함하고,
    상기 모델 데이터에는, 1개 또는 복수의 상기 주파수 빈을 포함하는 주파수 대역인 밴드마다, 상기 지향성 게인의 분포를 나타내는 상기 혼합 모델을 구성하는 상기 모델 파라미터가 포함되어 있는, 정보 처리 장치.
  5. 제4항에 있어서, 상기 모델 데이터에는, 상기 주파수 빈에서의 상기 지향성 게인의 다이내믹 레인지를 나타내는 스케일 팩터와, 상기 주파수 빈에서의 상기 지향성 게인의 최솟값이 포함되어 있는, 정보 처리 장치.
  6. 제1항에 있어서, 상기 모델 데이터에는, 모델화 전의 상기 지향성 데이터와, 모델화 후의 상기 지향성 데이터의 차분을 나타내는 차분 정보가 포함되어 있고,
    상기 산출부에 의해 산출된 상기 지향성 데이터에, 상기 차분 정보를 가산하는 가산부를 더 구비하는, 정보 처리 장치.
  7. 제6항에 있어서, 상기 차분 정보는, 허프만 부호화되어 있는, 정보 처리 장치.
  8. 제1항에 있어서, 상기 지향성 데이터는, 복수의 각 주파수 빈의 지향성 게인을 포함하고,
    상기 산출부에 의해 산출된 상기 지향성 데이터에 기초하여 보간 처리를 행함으로써, 새로운 상기 주파수 빈의 상기 지향성 게인을 산출하는 보간 처리부를 더 구비하는, 정보 처리 장치.
  9. 제1항에 있어서, 상기 지향성 데이터는, 복수의 각 데이터 포인트에서의 지향성 게인을 포함하고,
    상기 산출부에 의해 산출된 상기 지향성 데이터에 기초하여 보간 처리를 행함으로써, 새로운 상기 데이터 포인트에서의 상기 지향성 게인을 산출하는 보간 처리부를 더 구비하는, 정보 처리 장치.
  10. 제1항에 있어서, 상기 지향성 데이터와 오디오 데이터를 컨벌브하는 지향성 컨벌루션부를 더 구비하는, 정보 처리 장치.
  11. 제10항에 있어서, 상기 지향성 데이터가 컨벌브된 상기 오디오 데이터와, HRTF를 컨벌브하는 HRTF 컨벌루션부를 더 구비하는, 정보 처리 장치.
  12. 제2항에 있어서, 상기 1개 또는 복수의 분포는, 복소 Bingham 분포 또는 복소 watson 분포를 포함하는, 정보 처리 장치.
  13. 제1항에 있어서, 상기 모델 데이터에는, 상기 지향성 데이터를 구면 조화 함수 전개에 의해 모델화함으로써 얻어진 구면 조화 계수가 모델 파라미터로서 포함되어 있는, 정보 처리 장치.
  14. 제1항에 있어서, 상기 모델 데이터에는, 서로 다른 1개 또는 복수의 방식에 의해 상기 지향성 데이터를 모델화함으로써 얻어진 모델 파라미터가 포함되어 있는, 정보 처리 장치.
  15. 제14항에 있어서, 상기 방식은, 1개 또는 복수의 분포를 포함하는 혼합 모델에 의해 모델화하는 방식 및 구면 조화 함수 전개에 의해 모델화하는 방식 중 적어도 어느 것을 포함하는, 정보 처리 장치.
  16. 제14항에 있어서, 상기 모델 데이터에는, 상기 1개 또는 복수의 방식에 의한 모델화 후의 상기 지향성 데이터와, 모델화 전의 상기 지향성 데이터의 차분을 나타내는 차분 정보가 더 포함되어 있는, 정보 처리 장치.
  17. 제16항에 있어서, 상기 차분 정보는, 허프만 부호화되어 있는, 정보 처리 장치.
  18. 제17항에 있어서, 상기 차분 정보의 실부와 허부 각각이 개별로 허프만 부호화되어 있는, 정보 처리 장치.
  19. 제14항에 있어서, 상기 모델 데이터에는, 상기 1개 또는 복수의 방식에 의한 모델화 후의 상기 지향성 데이터와, 모델화 전의 상기 지향성 데이터의 차분을 나타내는 차분 정보의 공간 상의 위치간 및 주파수간 중 적어도 어느 것의 차분을 허프만 부호화함으로써 얻어진 차분 부호 데이터가 포함되어 있는, 정보 처리 장치.
  20. 제19항에 있어서, 상기 모델 데이터에는, 상기 차분 정보의 차분의 실부와 허부 각각을 개별로 허프만 부호화함으로써 얻어진 상기 차분 부호 데이터가 포함되어 있는, 정보 처리 장치.
  21. 제14항에 있어서, 상기 모델 데이터에는, 상기 지향성 데이터를 소정의 방식에 의해 모델화함으로써 얻어진 상기 모델 파라미터, 및 상기 소정의 방식에 의한 모델화 후의 상기 지향성 데이터와 모델화 전의 상기 지향성 데이터의 차분을, 상기 소정의 방식과는 다른 방식에 의해 모델화함으로써 얻어진 다른 모델 파라미터가 포함되어 있는, 정보 처리 장치.
  22. 제14항에 있어서, 상기 모델 데이터에는, 상기 지향성 데이터를 소정의 방식에 의해 모델화함으로써 얻어진 상기 모델 파라미터, 및 상기 소정의 방식에 의한 모델화 후의 상기 지향성 데이터와 모델화 전의 상기 지향성 데이터의 비를, 상기 소정의 방식과는 다른 방식에 의해 모델화함으로써 얻어진 다른 모델 파라미터가 포함되어 있는, 정보 처리 장치.
  23. 제14항에 있어서, 상기 모델 데이터에는, 상기 지향성 데이터를 모델화함으로써 얻어진 상기 모델 파라미터를 또한 모델화함으로써 얻어진 모델 파라미터가 포함되어 있는, 정보 처리 장치.
  24. 제14항에 있어서, 상기 모델 데이터에는, 주파수 대역마다 다른 방식으로 상기 지향성 데이터를 모델화함으로써 얻어진 상기 모델 파라미터가 포함되어 있는, 정보 처리 장치.
  25. 제1항에 있어서, 상기 지향성 데이터는, 복수의 각 데이터 포인트에서의 지향성 게인을 포함하고,
    상기 모델 데이터에는, 상기 데이터 포인트의 배치 방식을 나타내는 정보 및 상기 데이터 포인트의 배치 위치를 특정하기 위한 정보가 포함되어 있는, 정보 처리 장치.
  26. 제25항에 있어서, 상기 모델 데이터에는, 상기 음원의 종별마다의 상기 지향성 데이터의 우선도를 나타내는 우선도 정보가 포함되어 있는, 정보 처리 장치.
  27. 제26항에 있어서, 상기 데이터 포인트의 수는 상기 우선도에 따라 변화하고,
    상기 산출부는, 상기 우선도 정보를 사용하여 상기 데이터 포인트의 배치 위치를 특정하는, 정보 처리 장치.
  28. 제19항에 있어서, 상기 지향성 데이터는, 복수의 각 데이터 포인트에서의 주파수 빈마다의 지향성 게인을 포함하고,
    상기 모델 데이터에는, 상기 차분 정보의 재배열 후의, 상기 1개 또는 복수의 방식에 의한 모델화 후의 상기 지향성 데이터의 상기 지향성 게인과, 모델화 전의 상기 지향성 데이터의 상기 지향성 게인의 차분을 나타내는 상기 차분 정보의 상기 데이터 포인트간 및 상기 주파수 빈간 중 적어도 어느 것의 차분의 상기 차분 부호 데이터가 포함되어 있는, 정보 처리 장치.
  29. 제28항에 있어서, 상기 재배열은, 미리 정해진 순, 상기 데이터 포인트 혹은 상기 주파수 빈의 우선도순, 상기 차분 정보의 오름차순 또는 상기 차분 정보의 내림차순으로의 재배열인, 정보 처리 장치.
  30. 제4항에 있어서, 상기 모델 데이터에는, 각 상기 주파수 빈에서의 상기 지향성 게인의 다이내믹 레인지를 나타내는 스케일 팩터와, 각 상기 주파수 빈에서의 상기 지향성 게인의 최솟값의 적어도 어느 것을 파라메트릭화해서 얻어진 파라미터가 포함되어 있는, 정보 처리 장치.
  31. 제2항에 있어서, 상기 모델 데이터에는, 회전 조작 또는 대칭 조작을 위한 조작 관련 정보가 포함되어 있고,
    상기 산출부는, 상기 조작 관련 정보에 기초하여, 상기 모델 파라미터에 대한 상기 회전 조작 또는 상기 대칭 조작을 행함으로써, 회전 또는 대칭 이동된 상기 모델 파라미터를 산출함과 함께, 상기 회전 또는 대칭 이동된 상기 모델 파라미터에 의해 얻어지는 상기 분포를 사용하여 상기 지향성 데이터를 산출하는, 정보 처리 장치.
  32. 제4항에 있어서, 상기 산출부는, 소정의 상기 밴드의 상기 혼합 모델의 출력값과, 상기 소정의 상기 밴드에 인접하는 다른 상기 밴드의 상기 혼합 모델의 출력값을 가중치 부여 가산함으로써, 소정의 상기 주파수 빈의 상기 지향성 게인을 산출하는, 정보 처리 장치.
  33. 제2항에 있어서, 상기 산출부는, 상기 모델 파라미터로부터 얻어지는 복수의 상기 분포를, 음의 값을 포함하는 가중치를 사용하여 가중치 부여 가산함으로써 상기 지향성 데이터를 산출하는, 정보 처리 장치.
  34. 정보 처리 장치가,
    음원의 지향성을 나타내는 지향성 데이터를 모델화함으로써 얻어진 모델 데이터를 취득하고,
    상기 모델 데이터에 기초하여, 상기 지향성 데이터를 산출하는
    정보 처리 방법.
  35. 음원의 지향성을 나타내는 지향성 데이터를 모델화함으로써 얻어진 모델 데이터를 취득하고,
    상기 모델 데이터에 기초하여, 상기 지향성 데이터를 산출하는
    처리를 컴퓨터에 실행시키는 프로그램.
  36. 음원의 지향성을 나타내는 지향성 데이터를, 1개 또는 복수의 분포를 포함하는 혼합 모델에 의해 모델화하는 모델화부와,
    상기 모델화에 의해 얻어진, 상기 혼합 모델을 구성하는 모델 파라미터를 포함하는 모델 데이터를 생성하는 모델 데이터 생성부
    를 구비하는 정보 처리 장치.
  37. 정보 처리 장치가,
    음원의 지향성을 나타내는 지향성 데이터를, 1개 또는 복수의 분포를 포함하는 혼합 모델에 의해 모델화하고,
    상기 모델화에 의해 얻어진, 상기 혼합 모델을 구성하는 모델 파라미터를 포함하는 모델 데이터를 생성하는
    정보 처리 방법.
  38. 음원의 지향성을 나타내는 지향성 데이터를, 1개 또는 복수의 분포를 포함하는 혼합 모델에 의해 모델화하고,
    상기 모델화에 의해 얻어진, 상기 혼합 모델을 구성하는 모델 파라미터를 포함하는 모델 데이터를 생성하는
    처리를 컴퓨터에 실행시키는 프로그램.
  39. 음원의 지향성을 나타내는 지향성 데이터이며, 복수의 각 데이터 포인트에서의 복수의 각 주파수 빈의 지향성 게인을 포함하는 지향성 데이터에 대해서, 상기 지향성 게인의 상기 데이터 포인트간 및 상기 주파수 빈간 중 적어도 어느 것의 차분을 구함으로써 얻어진 차분 지향성 데이터를 취득하는 취득부와,
    상기 차분 지향성 데이터에 기초하여, 상기 지향성 데이터를 산출하는 산출부
    를 구비하는 정보 처리 장치.
  40. 제39항에 있어서, 상기 차분 지향성 데이터는, 허프만 부호화되어 있고,
    상기 산출부는, 허프만 부호화된 상기 차분 지향성 데이터의 복호를 행하는, 정보 처리 장치.
  41. 제40항에 있어서, 상기 차분 지향성 데이터의 실부와 허부 각각이 개별로 허프만 부호화되어 있는, 정보 처리 장치.
  42. 제39항에 있어서, 상기 차분 지향성 데이터는, 상기 지향성 게인의 재배열 후의, 상기 데이터 포인트간 및 상기 주파수 빈간 중 적어도 어느 것의 상기 차분을 구함으로써 얻어진 것인, 정보 처리 장치.
  43. 제42항에 있어서, 상기 재배열은, 미리 정해진 순, 상기 데이터 포인트 혹은 상기 주파수 빈의 우선도순, 상기 지향성 게인의 오름차순 또는 상기 지향성 게인의 내림차순으로의 재배열인, 정보 처리 장치.
  44. 정보 처리 장치가,
    음원의 지향성을 나타내는 지향성 데이터이며, 복수의 각 데이터 포인트에서의 복수의 각 주파수 빈의 지향성 게인을 포함하는 지향성 데이터에 대해서, 상기 지향성 게인의 상기 데이터 포인트간 및 상기 주파수 빈간 중 적어도 어느 것의 차분을 구함으로써 얻어진 차분 지향성 데이터를 취득하고,
    상기 차분 지향성 데이터에 기초하여, 상기 지향성 데이터를 산출하는
    정보 처리 방법.
  45. 음원의 지향성을 나타내는 지향성 데이터이며, 복수의 각 데이터 포인트에서의 복수의 각 주파수 빈의 지향성 게인을 포함하는 지향성 데이터에 대해서, 상기 지향성 게인의 상기 데이터 포인트간 및 상기 주파수 빈간 중 적어도 어느 것의 차분을 구함으로써 얻어진 차분 지향성 데이터를 취득하고,
    상기 차분 지향성 데이터에 기초하여, 상기 지향성 데이터를 산출하는
    처리를 컴퓨터에 실행시키는 프로그램.
KR1020247011453A 2021-10-29 2022-10-27 정보 처리 장치 및 방법, 그리고 프로그램 KR20240104089A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JPJP-P-2021-177285 2021-10-29
JPPCT/JP2022/000355 2022-01-07
JPPCT/JP2022/024014 2022-06-15

Publications (1)

Publication Number Publication Date
KR20240104089A true KR20240104089A (ko) 2024-07-04

Family

ID=

Similar Documents

Publication Publication Date Title
JP7400910B2 (ja) 音声処理装置および方法、並びにプログラム
KR101877604B1 (ko) 구면 고조파 계수들에 대한 렌더들 결정
US20150163615A1 (en) Method and device for rendering an audio soundfield representation for audio playback
KR20240104089A (ko) 정보 처리 장치 및 방법, 그리고 프로그램
WO2023074039A1 (ja) 情報処理装置および方法、並びにプログラム
WO2023074009A1 (ja) 情報処理装置および方法、並びにプログラム