KR20210030279A - 정보 처리 장치 및 방법, 그리고 프로그램 - Google Patents

정보 처리 장치 및 방법, 그리고 프로그램 Download PDF

Info

Publication number
KR20210030279A
KR20210030279A KR1020207036936A KR20207036936A KR20210030279A KR 20210030279 A KR20210030279 A KR 20210030279A KR 1020207036936 A KR1020207036936 A KR 1020207036936A KR 20207036936 A KR20207036936 A KR 20207036936A KR 20210030279 A KR20210030279 A KR 20210030279A
Authority
KR
South Korea
Prior art keywords
space
information
position information
parent
quantization
Prior art date
Application number
KR1020207036936A
Other languages
English (en)
Inventor
미츠유키 하타나카
도루 치넨
미노루 츠지
히로유키 혼마
유키 야마모토
Original Assignee
소니 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니 주식회사 filed Critical 소니 주식회사
Publication of KR20210030279A publication Critical patent/KR20210030279A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field

Abstract

본 기술은, 부호량을 삭감할 수 있도록 하는 정보 처리 장치 및 방법, 그리고 프로그램에 관한 것이다. 정보 처리 장치는, 친공간 내에 포함되는 자공간의 친공간 내에 있어서의 위치와 크기에 관한 공간 정보와, 자공간에 포함되는 오브젝트의 자공간 내에 있어서의 위치를 나타내는 자공간 내 위치 정보를 취득하는 취득부와, 공간 정보 및 자공간 내 위치 정보에 기초하여, 친공간 내에 있어서의 오브젝트의 위치를 나타내는 친공간 내 위치 정보를 산출하는 산출부를 구비한다. 본 기술은 신호 처리 장치에 적용할 수 있다.

Description

정보 처리 장치 및 방법, 그리고 프로그램
본 기술은, 정보 처리 장치 및 방법, 그리고 프로그램에 관한 것으로, 특히, 부호량을 삭감할 수 있도록 한 정보 처리 장치 및 방법, 그리고 프로그램에 관한 것이다.
종래의 고정 시점용 3D Audio로서 규격화된 MPEG(Moving Picture Experts Group)-H 부호화 규격은, 수청자의 위치를 원점으로 하여, 그 둘레의 공간 내를 오디오 오브젝트가 이동한다는 사고 방식에 기초하고 있다(예를 들어, 비특허문헌 1 참조).
이에 비해, 수청자가 공간상을 자유롭게 이동할 수 있는, 즉 수청자의 시점 위치(수청 위치)를 자유롭게 이동시킬 수 있는 자유 시점에 관한 기술도 제안되어 있다.
ISO/IEC 23008-3 Information technology-High efficiency coding and media delivery in heterogeneous environments-Part 3: 3D audio
예를 들어, 자유 시점용 오디오 재생에 있어서, 공간 내에 존재하는 각각의 오브젝트의 위치를 전송하는 경우, 모든 오브젝트가 포함되는 공간 전체에 대한 위치 정보의 부호화가 행해지고 있다. 즉, 공간 전체를 포함하는 좌표계에 있어서의 오브젝트의 위치 정보가 부호화된다.
그러나, 공간 전체에 있어서의 오브젝트의 존재 개소에는 치우침이 있어, 오브젝트가 공간 내의 특정 영역에 집중되어 있는 경우도 있다. 그러한 경우, 공간 전체에 대하여 오브젝트의 위치 정보의 정규화 및 부호화를 행하면, 실제로는 오브젝트가 존재하지 않는 영역까지를 표현하기 위한 정보량(부호량)이 필요해져, 결과적으로 전송 부호량이 많아져 버린다.
본 기술은, 이러한 상황을 감안하여 이루어진 것이고, 부호량을 삭감할 수 있도록 하는 것이다.
본 기술의 일측면의 정보 처리 장치는, 친공간 내에 포함되는 자공간의 상기 친공간 내에 있어서의 위치와 크기에 관한 공간 정보와, 상기 자공간에 포함되는 오브젝트의 상기 자공간 내에 있어서의 위치를 나타내는 자공간 내 위치 정보를 취득하는 취득부와, 상기 공간 정보 및 상기 자공간 내 위치 정보에 기초하여, 상기 친공간 내에 있어서의 상기 오브젝트의 위치를 나타내는 친공간 내 위치 정보를 산출하는 산출부를 구비한다.
본 기술의 일측면의 정보 처리 방법 또는 프로그램은, 친공간 내에 포함되는 자공간의 상기 친공간 내에 있어서의 위치와 크기에 관한 공간 정보와, 상기 자공간에 포함되는 오브젝트의 상기 자공간 내에 있어서의 위치를 나타내는 자공간 내 위치 정보를 취득하고, 상기 공간 정보 및 상기 자공간 내 위치 정보에 기초하여, 상기 친공간 내에 있어서의 상기 오브젝트의 위치를 나타내는 친공간 내 위치 정보를 산출하는 스텝을 포함한다.
본 기술의 일측면에 있어서는, 친공간 내에 포함되는 자공간의 상기 친공간 내에 있어서의 위치와 크기에 관한 공간 정보와, 상기 자공간에 포함되는 오브젝트의 상기 자공간 내에 있어서의 위치를 나타내는 자공간 내 위치 정보가 취득되고, 상기 공간 정보 및 상기 자공간 내 위치 정보에 기초하여, 상기 친공간 내에 있어서의 상기 오브젝트의 위치를 나타내는 친공간 내 위치 정보가 산출된다.
본 기술의 일측면에 의하면, 부호량을 삭감할 수 있다.
또한, 여기에 기재된 효과는 반드시 한정되는 것은 아니고, 본 개시 중에 기재된 어느 효과여도 된다.
도 1은 친공간과 자공간에 대하여 설명하는 도면이다.
도 2는 친공간과 자공간의 좌표계에 대하여 설명하는 도면이다.
도 3은 양자화에 대하여 설명하는 도면이다.
도 4는 분할 인덱스와 분할수의 예를 나타내는 도면이다.
도 5는 자공간 내 위치 정보의 양자화예를 나타내는 도면이다.
도 6은 사용 비트수의 차에 대하여 설명하는 도면이다.
도 7은 인코더의 구성예를 나타내는 도면이다.
도 8은 부호화 처리를 설명하는 흐름도이다.
도 9는 디코더의 구성예를 나타내는 도면이다.
도 10은 복호 처리를 설명하는 흐름도이다.
도 11은 헤더 정보의 예를 나타내는 도면이다.
도 12는 자공간 정보의 예를 나타내는 도면이다.
도 13은 첫회 양자화 위치 정보 송신 요구의 예를 나타내는 도면이다.
도 14는 첫회 양자화 위치 정보의 예를 나타내는 도면이다.
도 15는 추가 비트 정보 송신 요구의 예를 나타내는 도면이다.
도 16은 추가 비트 정보의 예를 나타내는 도면이다.
도 17은 콘텐츠 재생 시스템의 구성예를 나타내는 도면이다.
도 18은 절대 좌표 위치 정보 인코더의 구성예를 나타내는 도면이다.
도 19는 서버의 구성예를 나타내는 도면이다.
도 20은 클라이언트의 구성예를 나타내는 도면이다.
도 21은 부호화 처리 및 파일 저장 처리를 설명하는 흐름도이다.
도 22는 위치 정보 취득 처리 및 위치 정보 송신 처리를 설명하는 흐름도이다.
도 23은 추가 비트 정보 취득 처리 및 추가 비트 정보 송신 처리를 설명하는 흐름도이다.
도 24는 자공간의 예를 나타내는 도면이다.
도 25는 자공간의 예를 나타내는 도면이다.
도 26은 헤더 정보의 예를 나타내는 도면이다.
도 27은 자공간 정보의 예를 나타내는 도면이다.
도 28은 프레임의 스킵에 대하여 설명하는 도면이다.
도 29는 첫회 양자화 위치 정보 송신 요구의 예를 나타내는 도면이다.
도 30은 첫회 양자화 위치 정보의 예를 나타내는 도면이다.
도 31은 위치 정보 취득 처리 및 위치 정보 송신 처리를 설명하는 흐름도이다.
도 32는 컴퓨터의 구성예를 나타내는 도면이다.
이하, 도면을 참조하여, 본 기술을 적용한 실시 형태에 대하여 설명한다.
<제1 실시 형태>
<본 기술에 대하여>
본 기술은, 소정의 공간 내에 존재하는 오브젝트의 위치 정보를, 그 공간보다도 작은 자공간 내의 위치 정보로 변환하고, 변환 후의 위치 정보를 양자화함으로써 부호량을 삭감할 수 있도록 하는 것이다.
특히, 본 기술은, 이하의 특징 T(1) 내지 특징 T(4)를 갖고 있다.
특징 T(1)
전체 공간(친공간)으로부터 부호화 대상으로 되는 오브젝트의 존재 범위를 포함하는 스케일링된 공간(자공간)을 형성한다
특징 T(2)
친공간으로부터 자공간으로의 스케일링 변환을 행하고 나서 부호화 및 복호를 행하고, 복호된 자공간의 오브젝트의 위치 정보에 대하여 자공간으로부터 친공간으로의 역스케일링 변환을 행하여, 친공간 상으로 복원한다
특징 T(3)
복수의 다른 공간을 자공간으로서 배치하여, 수청자가 원하는 자공간을 선택적으로 수신, 재생한다
특징 T(4)
복호측은 전송된 스킵 프레임 정보와 보간 정보를 바탕으로 현재의 재생 위치로부터 스킵 프레임처의 하나 앞의 프레임까지 보간된 오브젝트의 위치 정보를 생성한다
또한, 본 기술에 있어서 부호화 대상으로 되는 오브젝트의 위치 정보는, 오디오 오브젝트의 위치를 나타내는 위치 정보에 한정되지 않고, 화상 위나 가상적인 공간 내의 비디오 오브젝트의 위치를 나타내는 위치 정보 등, 어느 것이어도 된다. 이하에는, 오디오 오브젝트의 위치 정보를 부호화 및 복호하는 예에 대하여 설명을 행한다.
그러면, 이하, 본 기술에 대하여 더 상세하게 설명한다.
먼저, 도 1의 화살표 Q11로 나타내는 바와 같은 3차원 절대 좌표계의 전체 공간인 친공간 PA11 내에 국소적으로 집중한 오브젝트군의 영역이 있는 경우에 대하여 생각한다. 또한, 도 1에 있어서 각 원은 오브젝트(오디오 오브젝트)를 나타내고 있다.
여기서는 친공간 PA11은 절대 좌표에 의해 표시되는 공간이고, 친공간 PA11 내의 위치는 절대 좌표에 의해 표현된다. 바꾸어 말하면, 친공간 PA11은 절대 좌표계의 좌표 공간이다. 또한, 친공간은, 예를 들어 극좌표계 등의 절대 좌표계와는 상이한 다른 좌표계의 좌표 공간이어도 되지만, 이하에는 친공간이 절대 좌표계의 좌표 공간인 경우를 예로 들어 설명을 계속한다.
예를 들어, 친공간 PA11 내에 있는 오브젝트의 위치를 표현하는 경우, 친공간 PA11 내에 있는 3차원 절대 좌표계의 원점 O로부터 본 오브젝트의 위치를 3차원의 절대 좌표로 나타내는 것이 일반적이다.
이에 비해 본 기술에서는, 부호화측의 장치, 즉 인코더는 친공간 PA11 내에 있어서의 오브젝트의 분포 상황을 검지하고, 그 검지 결과에 따라 국소적으로 집중된 오브젝트군을 포위하는 소공간을 자공간으로 한다. 이 예에서는, 예를 들어 화살표 Q12로 나타낸 바와 같이 복수의 오브젝트가 포함되는, 스케일링된 소공간이 자공간 CA11로 되어 있다.
여기서는 친공간 PA11 내에 포함되어 있는 자공간 CA11은 절대 좌표에 의해 표시되는 공간이고, 본 기술에서는 자공간 CA11 내의 위치를 절대 좌표에 의해 나타내는 것으로 한다. 바꾸어 말하면, 자공간 CA11은 절대 좌표계의 좌표 공간이다. 또한, 자공간은, 예를 들어 극좌표계 등의 절대 좌표계와는 상이한 다른 좌표계의 좌표 공간이어도 되지만, 이하에는 자공간이 절대 좌표계의 좌표 공간인 경우를 예로 들어 설명을 계속한다.
본 기술에서는, 친공간 PA11 내의 오브젝트의 위치를 친공간 PA11의 절대 좌표계의 좌표로 표현하는 것은 아니고, 친공간 PA11 내에 있어서의 자공간 CA11의 위치와 크기에 관한 자공간 정보와, 자공간 CA11의 절대 좌표계에 있어서의 오브젝트의 위치 좌표로 표현한다.
여기서, 도 2를 참조하여 친공간 PA11의 좌표계와 자공간 CA11의 좌표계에 대하여 설명한다. 또한, 도 2에 있어서 도 1에 있어서의 경우와 대응하는 부분에는 동일한 부호를 붙이고, 그 설명은 적절히 생략한다.
예를 들어, 도 2에는 화살표 Q21로 나타낸 바와 같이, 친공간 PA11은 MPEG-H에서 취급되고 있는 입방체의 중심을 원점 O로 하고, x축, y축 및 z축의 합계 3개의 축을 포함하는 절대 좌표계의 좌표 공간이다.
친공간 PA11에서는 각 축방향의 위치를 표현하기 위해서는, 원점 O로부터 단까지의 사이의 위치를 표현하기 위한 0부터 1까지의 정규화값과, 정부의 부호 정보가 필요해진다. 즉, x축 방향, y축 방향 및 z축 방향의 각 방향의 위치를 나타내는 x좌표, y좌표 및 z좌표는, 각각 -1부터 1까지의 값으로 된다.
이하에는, 원점 O를 기준으로 한 친공간 PA11의 절대 좌표계를 xyz 좌표계라고도 칭하고, xyz 좌표계에 있어서의 위치를 나타내는 좌표를 (x, y, z)라고 기재하는 것으로 한다.
또한, 친공간 PA11에서는, 예를 들어 x좌표가 0인 위치로부터, x좌표가 1인 위치까지의 실제의 길이(거리)가, 후술하는 친공간 PA11의 절대 거리 absoluteDistance로 된다. 예를 들어, 절대 거리 absoluteDistance는 미터를 단위로 하여 기술된다.
이에 비해, 화살표 Q22로 나타낸 바와 같이 자공간 CA11의 절대 좌표계의 좌표 표현에서는, 위치 정보의 부호화를 용이하게 한다는 관점에서 정부의 부호는 사용되지 않도록 되어 있다.
여기서는 자공간 CA11은 입방체 또는 직육면체의 형상으로 되어 있다. 또한, 자공간 CA11의 절대 좌표계는, 친공간 PA11의 위치(-1, -1, -1)에 상당하는 자공간 CA11의 정점을 원점 O'으로 하고, 각 변은 0부터 1까지의 정규화값을 사용한 것으로 되어 있다.
즉, 자공간 CA11은, 자공간 CA11의 도면 중, 좌측 하방의 정점을 원점 O'으로 하고, X축, Y축 및 Z축의 합계 3개의 축을 포함하는 절대 좌표계의 좌표 공간이다.
이하에는, 원점 O'을 기준으로 한 자공간 CA11의 절대 좌표계를 XYZ 좌표계라고도 칭하고, XYZ 좌표계에 있어서의 위치를 나타내는 좌표를 (X, Y, Z)라고 기재하는 것으로 한다. 특히, 여기서는 X, Y, Z의 좌표값은, 0부터 1까지의 사이의 값이 된다.
또한, 여기서는 XYZ 좌표계의 각 축방향의 좌표값은 0 이상의 값으로 되는 경우에 대하여 설명하지만, 각 축방향의 좌표값이 음의 값도 취할 수 있도록 해도 된다. 또한, 자공간 CA11의 형상은 입방체나 직육면체에 한정되지 않고, 어느 형상이어도 된다.
도 2에 나타내는 예에서는, 친공간 PA11 내에 있어서의 자공간 CA11의 원점 O'의 위치를 나타내는 xyz 좌표계의 좌표는 (x0, y0, z0)으로 되어 있고, 자공간 CA11의 원점 O'의 대각 정점의 위치를 나타내는 xyz 좌표계의 좌표는 (x1, y1, z1)로 되어 있다.
또한, 이하에는 xyz 좌표계에 있어서의 오브젝트의 위치, 즉 친공간 내에 있어서의 오브젝트의 위치를 나타내는 정보를 친공간 내 위치 정보라고도 칭한다. 또한, 이하, XYZ 좌표계에 있어서의 오브젝트의 위치, 즉 자공간 내에 있어서의 오브젝트의 위치를 나타내는 정보를 자공간 내 위치 정보라고도 칭한다.
그런데, 예를 들어 오브젝트의 위치를 나타내는 위치 정보를 부호화하는 경우, 입력되는 오브젝트의 위치를 나타내는 정보는, 친공간 내에 있어서의 위치를 나타내는 친공간 내 위치 정보로 되어 있다. 그래서, 본 기술에서는, 친공간으로부터 자공간, 즉 친공간 내 위치 정보로부터 자공간 내 위치 정보로의 좌표 변환(스케일링 변환)이 행해진다.
지금, 친공간 내에 있는 i번째의 자공간을 나타내는 인덱스를 i라고 하고, 친공간 내 위치 정보인 좌표 (x, y, z)를, i번째의 자공간의 자공간 내 위치 정보인 좌표 (X, Y, Z)로 좌표 변환하는 것으로 하면, 그 변환식은 다음 식(1)에 나타낸 바와 같이 된다.
Figure pct00001
단, 식(1)에 있어서 0≤X≤1, 0≤Y≤1, 0≤Z≤1이다. 또한, 식(1)에 있어서의 a_x[i], b_x[i], a_y[i], b_y[i], a_z[i] 및 b_z[i]는 i번째의 자공간의 스케일링 변환 계수이고, 다음 식(2)에 나타난다.
Figure pct00002
또한, 식(2)에 있어서 x0[i], y0[i] 및 z0[i]는 i번째의 자공간의 원점 O'의 위치를 나타내는 xyz 좌표계의 x좌표, y좌표 및 z좌표를 나타내고 있고, 상술한 (x0, y0, z0)에 대응한다. 또한, x1[i], y1[i] 및 z1[i]는, i번째의 자공간의 원점 O'에 대한 대각 정점의 위치를 나타내는 xyz 좌표계의 x좌표, y좌표 및 z좌표를 나타내고 있고, 상술한 (x1, y1, z1)에 대응한다.
따라서, 여기서는 좌표 변환으로서 좌표계의 축마다 1차 함수를 사용한 함수 변환이 행해지고 있다. 그리고, 그 1차 함수의 파라미터로서 각 축에 관한 1차 함수의 기울기 a_x[i], a_y[i] 및 a_z[i]와, 1차 함수의 절편 b_x[i], b_y[i] 및 b_z[i]가 사용되고 있다.
예를 들어, 본 기술에서는, 이들 합계 6개의 파라미터가, 친공간 내에 있어서의 자공간의 위치와 크기에 관한 자공간 정보로서 사용되도록 할 수 있다. 이들 1차 함수의 파라미터는, 자공간의 원점 O'의 좌표 (x0, y0, z0) 및 대각 정점의 좌표 (x1, y1, z1)로부터 얻어지는 것이므로, 실질적으로 친공간 내에 있어서의 자공간의 위치와 크기를 나타내는 정보라고 할 수 있다.
또한, 비트 스트림으로부터 친공간 내에 있어서의 자공간의 위치를 나타내는 정보를 직접 취득하고 싶은 경우에는, 자공간 정보로서 식(2)에 나타낸 1차 함수의 파라미터 대신에, 친공간 내에 있어서의 자공간의 원점 O'의 좌표 (x0, y0, z0)과, 그 원점 O'에 대한 자공간의 대각 정점의 좌표 (x1, y1, z1)을 자공간 정보로서 그대로 전송해도 된다.
단, 자공간의 기준이 되는 정점인 원점 O'의 좌표 (x0, y0, z0)과 대각 정점의 좌표 (x1, y1, z1)을 자공간 정보로서 전송하는 경우와 비교하여, 1차 함수의 파라미터를 자공간 정보로서 전송하는 쪽이, 복호측에 있어서의 연산량은 적어진다.
또한, 오브젝트군이 친공간 내의 복수 개소에 존재하는 경우에는 1개의 친공간에 대하여 복수의 자공간을 형성하도록 해도 된다.
이렇게 부호화 대상의 오브젝트가 존재하는 범위에 한정된 자공간에 맞추어, 오브젝트의 위치 정보를 정규화하는 것은, 기존의 오디오 부호화의 스펙트럼의 크기에 맞춘 스케일 팩터의 적용과 유사한 관계로 된다.
자공간의 위치나 크기, 형상의 결정은 인코더에 맡겨지지만, 자공간은 대상이 되는 오브젝트가 모두 포함되고, 또한 가장 공간의 용적이 작은 것으로 되는 것이 바람직하다.
이상의 좌표 변환에 의해 자공간 내 위치 정보인 좌표 (X, Y, Z)가 얻어지면, 그 자공간 내 위치 정보가 소정의 양자화 정밀도로 양자화되어 양자화 위치 정보로 된다.
양자화 처리에서는, 예를 들어 도 3에 나타낸 바와 같이 자공간의 한 변, 즉 하나의 축방향의 변이 0부터 1로 정규화되고, 한 변에 대한 2의 멱승의 분할된 영역의 중앙값이 양자화 후의 값으로 된다. 또한, 도 3에서는 설명을 간단하게 하기 위해, 자공간이 X축 방향과 Y축 방향의 2차원인 것으로 되어 있다.
예를 들어, 자공간의 각 축방향의 범위, 즉 각 축의 좌표의 범위는 0부터 1까지이지만, 이 범위를 도면 중, 우측에 나타낸 바와 같이 2n(단 0≤n)개로 분할하고, 분할 후의 각 범위의 중앙값이 양자화 후의 값으로서 취할 수 있는 대푯값으로 된다.
이하에는, 각 축방향의 범위를 2n개로 분할할 때의 n(지수부)의 값을 특히 분할 인덱스라고 칭하는 것으로 한다. 이 분할 인덱스는, 2의 멱승으로 각 축방향의 범위를 몇 분할할지를 나타내는 것이다.
예를 들어, 도 3에 나타내는 예에서는, 분할 인덱스의 값이 0인 경우에는, 각 축방향의 범위가 0개로 분할, 즉 실질적으로는 분할되지 않기 때문에, 자공간 내 위치 정보인 좌표 (X, Y, Z)는 (0.5, 0.5, 0.5)로 된다.
또한, 예를 들어 분할 인덱스의 값이 1인 경우에는, 각 축방향의 범위가 2개로 분할되기 때문에, 자공간 내 위치 정보의 각 축의 좌표는, 0.25 또는 0.75의 어느 값으로 된다. 또한, 도 3에서는, 쐐기 표시의 위치가 양자화 후의 대푯값을 나타내고 있다.
이렇게 양자화를 행하는 경우, 2의 멱승값, 즉 분할 인덱스에 의해 정해지는 분할수가 많을수록, 양자화 정밀도가 높아진다.
여기서, 도 4에 분할 인덱스가 0부터 10인 경우에 있어서의, 그 분할 인덱스에 대응하는 각 축방향의 범위의 분할수를 나타낸다. 도 4에서는, 예를 들어 분할 인덱스의 값이 0인 경우에는 분할수는 0이고, 분할 인덱스의 값이 10인 경우에는 분할수는 512로 되어 있다.
이어서, 자공간 내 위치 정보를 가장 고정밀도로 양자화하기 위한 분할 인덱스, 즉 가장 작은 양자화 스텝 폭으로 양자화하기 위한 분할 인덱스는, 다음 식(3)에 나타낸 바와 같이 된다. 단, 여기서는 수청자로부터 오브젝트까지의 최소 거리 MinDist 이하는 양자화하지 않는 룰이 적용되어 있는 것으로 한다. 최소 거리 MinDist는, 수청자로부터 오브젝트까지의 거리로서 취할 수 있는 최소의 거리이고, 최소 거리 MinDist는, 예를 들어 수청자의 헤드부의 크기가 고려되어, 수청자와 오브젝트가 겹치지 않도록 정해진다.
Figure pct00003
또한, 식(3)에 있어서 max_exp_index_X, max_exp_index_Y, max_exp_index_Z는, 각각 가장 높은 정밀도로 양자화하기 위한 X축(X방향), Y축(Y방향) 및 Z축(Z방향)의 분할 인덱스(이하, 최고 정밀도 분할 인덱스라고도 칭함)를 나타내고 있다. 또한, 식(3)에 있어서 INT()는, 인수의 정수부를 출력하는 INT 함수를 나타내고 있고, 「^」은 멱승을 나타내고 있다.
또한, 식(3)에 있어서, absoluteDistanceX, absoluteDistanceY 및 absoluteDistanceZ는, 자공간의 X축 방향, Y축 방향 및 Z축 방향의 각 방향의 변의 실제의 거리(절대 거리)를 나타내고 있고, 이들 절대 거리는, 예를 들어 미터(m)를 단위로 하는 것이다. 마찬가지로, 수청자로부터의 오브젝트까지의 최소 거리 MinDist도, 예를 들어 미터(m)를 단위로 하는 것이고, 이 최소 거리 MinDist는 일반적인 유저의 헤드의 크기 등의 미리 정해진 값으로 된다.
식(3)에 의해 최고 정밀도 분할 인덱스가 구해지면, 자공간의 XYZ 좌표계의 각 축에 대한 양자화 스텝 폭이 이하의 식(4)에 의해 구해진다.
Figure pct00004
또한, 식(4)에 있어서 step_encX, step_encY 및 step_encZ는, XYZ 좌표계의 X축, Y축 및 Z축에 대한 양자화 스텝 폭을 나타내고 있고, 「^」은 멱승을 나타내고 있다.
또한, 이와 같이 하여 구한 양자화 스텝 폭을 사용하여 다음 식(5)를 계산함으로써, 자공간 내의 오브젝트의 자공간 내 위치 정보 (X, Y, Z)를 가장 높은 정밀도로 양자화하여 얻어지는 양자화 위치 정보의 X좌표, Y좌표 및 Z좌표인 Qpx_high[i], Qpy_high[i] 및 Qpz_high[i]가 구해진다. 또한, 식(5)에 있어서 i는 자공간을 나타내는 인덱스이다.
Figure pct00005
또한, 이하에는, 자공간 내 위치 정보를 양자화하여 얻어진 양자화 위치 정보 중, 특히 최고 정밀도 분할 인덱스에 기초하여 양자화함으로써 얻어진 양자화 위치 정보를 최고 정밀도 양자화 위치 정보라고도 칭하는 것으로 한다.
또한, 여기서는 가장 높은 양자화 정밀도에 있어서의 각 축방향의 영역의 분할수의 결정 방법에 대하여 수청자로부터 오브젝트까지의 최소 거리 MinDist를 기준으로 하여 사용했지만, 다른 기준을 사용해도 된다.
또한, 최고 정밀도 분할 인덱스는 자공간의 절대 거리가 작은 경우 등, 분할수를 많이 필요로 하지 않는 경우가 있기 때문에, 공간의 절대 거리에 따라 상한의 분할 인덱스를 정하여 분할수를 제한하면 불필요한 비트수를 삭감할 수 있다.
그 외, 자공간 내 위치 정보의 양자화값, 즉 양자화 위치 정보의 값은, 2의 멱승의 분할수에 의한 제산을 행함으로써 얻어진 것으로 되어 있다. 그 때문에, 최고 정밀도 양자화 위치 정보의 MSB(Most Significant Bit)측, 즉 최상위 비트측으로부터 필요한 비트수를 취출함으로써, 임의의 양자화 정밀도의 양자화 위치 정보를 얻을 수 있다.
즉, 예를 들어 자공간 내 위치 정보의 소정의 축의 좌표값 「0.2」를 각 양자화 정밀도, 즉 각 분할수로 양자화 한 경우에 있어서의 양자화 위치 정보를 도 5에 나타낸다.
도 5에 있어서 문자 「분할 인덱스」, 「1사분면의 한 변의 분할수」, 「양자화 스텝 폭」은, 상술한 분할 인덱스, 1개의 축방향의 범위의 분할수 및 양자화 시의 양자화 스텝 폭을 나타내고 있다.
또한 「양자화값」, 「비트 표기」 및 「전송 비트수」는 양자화 위치 정보(정수값)의 1개의 축방향의 좌표값, 양자화 위치 정보의 1개의 축방향의 좌표값의 비트 표기 및 양자화 위치 정보의 1개의 축방향의 좌표값의 비트수를 나타내고 있다. 또한 「디코드값」 및 「참값과의 오차」는, 양자화 위치 정보를 복호하여 얻어지는 자공간 내 위치 정보의 1개의 축방향의 좌표값 및 복호 후의 자공간 내 위치 정보에 1개의 축방향의 좌표값과, 양자화 전의 자공간 내 위치 정보의 1개의 축방향의 좌표값의 오차를 나타내고 있다.
여기서는, 예를 들어 최고 정밀도 분할 인덱스가 「11」이라고 하면, 그 최고 정밀도 분할 인덱스로 양자화를 행했을 때의 양자화값의 비트 표기는 「00110011001」로 된다.
또한, 예를 들어 최고 정밀도 분할 인덱스보다도 적은 분할수, 즉 더 양자화 정밀도가 낮은 분할 인덱스 「10」으로 양자화를 행했을 때의 양자화값의 비트 표기는 「0011001100」으로 된다.
따라서, 최고 정밀도 양자화 위치 정보의 양자화값 「00110011001」의 최상위 비트측으로부터, 분할 인덱스 「10」에 의해 나타나는 비트수(10비트)분만큼 비트를 추출하면, 그 분할 인덱스 「10」에 대응하는 양자화값 「0011001100」이 얻어지는 것을 알 수 있다.
즉, 최고 정밀도 양자화 위치 정보의 최상위 비트측으로부터 분할 인덱스에 대응하는 비트수분만큼 최고 정밀도 양자화 위치 정보의 비트를 추출함으로써, 임의의 분할 인덱스, 즉 임의의 양자화 정밀도의 양자화 위치 정보를 얻을 수 있다.
이상과 같이 자공간의 결정, 친공간 내 위치 정보의 자공간 내 위치 정보로의 좌표 변환 및 자공간 내 위치 정보의 양자화를 행하는 처리가 친공간 내 위치 정보의 부호화 처리로서 행해진다.
이어서, 양자화 위치 정보의 복호에 대하여 설명한다. 양자화 위치 정보의 역양자화와, 그 역양자화에 의해 얻어진 자공간 내 위치 정보의 친공간 내 위치 정보로의 역변환이 복호 처리로서 행해진다.
예를 들어, 양자화 위치 정보의 X좌표, Y좌표 및 Z좌표를 Qpx_dec, Qpy_dec 및 Qpz_dec라고 하고, X좌표, Y좌표 및 Z좌표의 분할 인덱스를 exp_index_fin_X, exp_index_fin_Y 및 exp_index_fin_Z라고 한다. 특히 자공간을 나타내는 인덱스를 i라고 하고, 그 자공간에 대한 분할 인덱스 exp_index_fin_X, exp_index_fin_Y 및 exp_index_fin_Z를, 분할 인덱스 exp_index_fin_X[i], exp_index_fin_Y[i] 및 exp_index_fin_Z[i]라고 기재하는 것으로 한다.
또한, 양자화 위치 정보를 역양자화하여 얻어지는 자공간 내 위치 정보(이하, 특히 복호 자공간 내 위치 정보라고도 칭함)의 X좌표, Y좌표 및 Z좌표를 Xdec, Ydec 및 Zdec라고 한다.
이 경우, 역양자화에서는 다음 식(6)의 계산이 행해져 복호 자공간 내 위치 정보가 구해진다. 또한, 식(6)에 있어서 i는 오브젝트가 속하는 자공간을 나타내는 인덱스이고, 「^」은 멱승을 나타내고 있다.
Figure pct00006
계속해서, 이와 같이 하여 얻어진 복호 자공간 내 위치 정보의 좌표 (Xdec, Ydec, Zdec)에 대하여, 다음 식(7)에 나타내는 역스케일링 변환을 행하면, 원래의 친공간 내 위치 정보의 좌표 (xdec, ydec, zdec)를 얻을 수 있다. 이 식(7)의 계산은, 상술한 식(1)의 역변환이다. 또한, 식(7)에 있어서 i는 오브젝트가 속하는 자공간을 나타내는 인덱스이다.
Figure pct00007
또한, 식(7)에 있어서 a'_x[i], b'_x[i], a'_y[i], b'_y[i], a'_z[i] 및 b'_z[i]는 i번째의 자공간으로부터 친공간으로의 역스케일링 변환 계수이고, 자공간 정보로서의 a_x[i], b_x[i], a_y[i], b_y[i], a_z[i] 및 b_z[i]를 사용하여 다음 식(8)에 의해 나타난다.
Figure pct00008
이상의 복호 처리에 의해, 친공간 내에서의 오브젝트의 위치를 나타내는 친공간 내 위치 정보로서 좌표 (xdec, ydec, zdec)가 얻어진다. 또한, 이하, 복호 처리에 의해 얻어진 친공간 내 위치 정보를, 적절히, 복호 친공간 내 위치 정보라고도 칭하는 것으로 한다.
본 기술과 같이 친공간 내 위치 정보를 자공간 내 위치 정보로 변환하고 나서 양자화를 행함으로써, 친공간 내 위치 정보를 그대로 양자화하는 경우와 비교하여, 양자화 위치 정보의 부호량을 적게 할 수 있다. 바꾸어 말하면, 오브젝트의 위치 정보의 전송 부호량을 삭감할 수 있다.
구체적으로는, 예를 들어 도 6에 나타낸 바와 같이 친공간 PA11 내의 일부의 영역에 복수의 오브젝트가 집중하여 존재하고 있고, 자공간 CA11을 형성하여 오브젝트의 위치 정보를 부호화하는 것을 생각한다. 또한, 도 6에 있어서 도 1에 있어서의 경우와 대응하는 부분에는 동일한 부호를 붙이고 있고, 그 설명은 적절히 생략한다.
도 6에 나타내는 예에서는, 각 원은 1개의 오브젝트를 나타내고 있고, 입방체인 친공간 PA11의 한 변의 길이는 128m로 되어 있다. 이 친공간 PA11에 대하여, 친공간 PA11 내에 포함되는 입방체의 자공간 CA11이 형성되어 있고, 자공간 CA11의 한 변의 길이는 10m로 되어 있다.
이러한 경우, 예를 들어 친공간 내 위치 정보의 참값에 대하여 위치의 정밀도를 0.2m 이하로 하기 위해 필요한 좌표계의 1축당 부호화 비트수는, 친공간 PA11에서 9비트, 자공간 CA11에서 5비트로 된다. 즉, 좌표 공간의 한 변이 128m이면 9비트, 좌표 공간의 한 변이 10m이면 5비트가 필요해진다.
따라서, 각 좌표 공간의 좌표는 3개의 축이 있으므로, 예를 들어 친공간 내 위치 정보를 그대로 양자화하는 경우에는 양자화 위치 정보의 비트수로서 27비트 필요로 되는 것에 비해, 자공간 내 위치 정보를 양자화하는 경우에는, 동일한 정밀도의 정보를 얻는 데 양자화 위치 정보의 비트수로서 15비트로 되게 된다. 이렇게 1개의 오브젝트에서 12비트 삭감할 수 있다.
단, 자공간 내 위치 정보를 양자화하는 경우에는, 그 자공간 CA11의 위치와 크기에 관한 자공간 정보가 필요로 되지만, 자공간 정보는, 예를 들어 1차 함수의 파라미터가 하나에 32비트인 것으로 하면 합계 32×6=192비트로 된다. 또한, 시간 방향에 있어서 자공간의 위치나 크기가 변화되지 않는 경우에는, 프레임마다 자공간 정보를 전송할 필요가 없다.
이렇게 자공간 CA11 내에 포함되는 오브젝트의 수가 많아질수록 삭감할 수 있는 비트수는 커지므로, 오브젝트수가 많은 경우에는, 친공간 내 위치 정보를 그대로 양자화하는 것보다도 자공간 내 위치 정보를 양자화한 쪽이 적은 부호양(비트수)으로 오브젝트의 위치 정보를 전송할 수 있다.
<인코더의 구성예>
계속해서, 이상에 있어서 설명한 본 기술의 더 구체적인 실시 형태에 대하여 설명한다.
도 7은, 본 기술을 적용한 인코더의 일 실시 형태의 구성예를 나타내는 도면이다.
도 7에 나타내는 인코더(11)는, 취득부(21), 부호화부(22) 및 통신부(23)를 갖고 있다.
취득부(21)는, 외부의 장치 등으로부터 부호화 대상이 되는 오브젝트의 수를 나타내는 오브젝트수, 친공간의 절대 거리 absoluteDistance 및 각 오브젝트의 친공간 내 위치 정보를 취득하여 부호화부(22)에 공급한다.
부호화부(22)는, 취득부(21)로부터 공급된 오브젝트수나, 친공간의 절대 거리 absoluteDistance, 오브젝트의 친공간 내 위치 정보에 기초하여, 각 오브젝트의 친공간 내 위치 정보를 부호화하고, 그 결과 얻어진 부호화 데이터를 통신부(23)에 공급한다.
부호화부(22)는, 자공간 결정부(31), 변환부(32) 및 양자화부(33)를 갖고 있다.
자공간 결정부(31)는, 각 오브젝트의 친공간 내 위치 정보에 기초하여 자공간을 결정한다. 변환부(32)는, 자공간 결정부(31)에 의한 자공간의 결정 결과에 기초하여, 각 오브젝트의 친공간 내 위치 정보를 자공간 내 위치 정보로 변환한다. 양자화부(33)는, 자공간 내 위치 정보를 양자화한다.
통신부(23)는, 부호화부(22)로부터 공급된 부호화 데이터를 송신한다.
<인코더에 의한 부호화 처리의 설명>
이어서, 인코더(11)의 동작에 대하여 설명한다. 즉, 이하, 도 8의 흐름도를 참조하여, 인코더(11)에 의한 부호화 처리에 대하여 설명한다.
스텝 S11에 있어서, 취득부(21)는 오브젝트수, 친공간의 절대 거리 absoluteDistance 및 각 오브젝트의 친공간 내 위치 정보를 취득하여 부호화부(22)에 공급한다.
스텝 S12에 있어서 자공간 결정부(31)는, 취득부(21)로부터 공급된 각 오브젝트의 친공간 내 위치 정보에 기초하여 자공간을 결정한다.
예를 들어, 스텝 S12에서는, 친공간 내에 존재하는 모든 오브젝트를 포함하고, 또한 가장 용적이 작아지는 입방체의 영역(공간)이 자공간으로 된다. 또한, 예를 들어 복수의 오브젝트군 사이의 거리가 소정의 거리 이상 이격되어 있는 경우 등에 있어서는, 복수의 오브젝트군마다 자공간이 결정되도록 해도 된다.
스텝 S13에 있어서 변환부(32)는, 취득부(21)로부터 공급된 각 오브젝트의 친공간 내 위치 정보를 자공간 내 위치 정보로 변환한다.
예를 들어, 스텝 S13에서는, 상술한 식(1)의 계산이 행해져 좌표 변환에 의해 공간 내 위치 정보가 산출된다. 또한, 식(1)의 계산에 사용되는 1차 함수의 파라미터는, 자공간의 결정 결과, 즉 친공간 내에 있어서의 자공간의 원점 O'의 좌표와, 그 원점 O'에 대한 자공간의 대각 정점의 좌표로부터 식(2)에 의해 얻을 수 있다.
스텝 S14에 있어서 양자화부(33)는, 분할 인덱스를 결정한다.
예를 들어 스텝 S14에서는, 미리 정해진 최소 거리 MinDist와, 자공간의 결정 결과 및 절대 거리 absoluteDistance로부터 구해지는 절대 거리 absoluteDistanceX, absoluteDistanceY 및 absoluteDistanceZ에 기초하여 상술한 식(3)의 계산이 행해져, 최고 정밀도 분할 인덱스가 구해진다.
그리고 최고 정밀도 분할 인덱스에 기초하여, 필요한 양자화 정밀도에 대응하는 분할 인덱스가 결정된다. 여기서는, 최고 정밀도 분할 인덱스가, 그대로 양자화에 사용하는 분할 인덱스로 되어도 되고, 최고 정밀도 분할 인덱스보다도 작은 값의 분할 인덱스가 양자화에 사용하는 분할 인덱스로 되어도 된다.
또한, 분할 인덱스는, 각 오브젝트에 대하여 자공간의 XYZ 좌표계의 축마다 결정되도록 할 수 있다.
스텝 S15에 있어서 양자화부(33)는, 스텝 S14에서 결정한 분할 인덱스에 기초하여, 상술한 식(4)와 동일한 계산을 행함으로써 양자화 스텝 폭을 구한다.
스텝 S16에 있어서 양자화부(33)는, 스텝 S13에서 얻어진 각 오브젝트의 자공간 내 위치 정보를 양자화한다.
예를 들어, 스텝 S16에서는, 스텝 S15에서 구해진 양자화 스텝 폭이 사용되어 상술한 식(5)와 동일한 계산이 행해져, 친공간 내 위치 정보의 각 축의 좌표의 양자화가 행해진다. 즉, 각 축의 좌표 성분마다 양자화가 행해진다. 이에 의해, 각 오브젝트의 양자화 위치 정보가 얻어진다.
이상의 스텝 S12 내지 스텝 S16의 처리가 친공간 내 위치 정보를 부호화하는 처리로서 행해진다. 또한, 여기서는 모든 오브젝트의 친공간 내 위치 정보가 자공간 내 위치 정보로 변환되어 양자화된다고 설명했지만, 일부의 친공간 내 위치 정보만이 자공간 내 위치 정보로 변환되어 양자화되고, 나머지 일부의 친공간 내 위치 정보는 그대로 양자화되도록 해도 된다. 그러한 경우, 예를 들어 다른 모든 오브젝트와의 사이의 거리가 소정의 거리 이상이고, 근처에 다른 오브젝트가 존재하지 않는 오브젝트에 대해서는, 친공간 내 위치 정보가 그대로 양자화되도록 해도 된다.
스텝 S17에 있어서 부호화부(22)는, 스텝 S16에서 얻어진 양자화 위치 정보, 스텝 S11에서 취득된 오브젝트수와 절대 거리 absoluteDistance, 스텝 S12에 있어서의 자공간의 결정 결과로부터 얻어지는 자공간 정보와 각 오브젝트가 속하는 자공간을 나타내는 정보(이하, 오브젝트 소속 정보라고도 칭함) 및 스텝 S14에서 결정된 분할 인덱스를 포함하는 부호화 데이터를 생성한다.
부호화부(22)는, 얻어진 부호화 데이터를 통신부(23)에 공급한다.
스텝 S18에 있어서 통신부(23)는, 부호화부(22)로부터 공급된 부호화 데이터를 송신하고, 부호화 처리는 종료된다.
이상과 같이 하여 인코더(11)는, 친공간 내 위치 정보를 좌표 변환에 의해 자공간 내 위치 정보로 변환함과 함께, 자공간 내 위치 정보를 양자화하여, 부호화 데이터를 생성한다. 이렇게 함으로써, 친공간 내 위치 정보를 그대로 부호화(양자화)하는 경우와 비교하여 양자화 위치 정보의 부호량을 삭감할 수 있다.
<디코더의 구성예>
또한, 인코더(11)로부터 출력된 부호화 데이터는, 직접, 또는 다른 장치나 기록 매체를 통해 디코더에 공급되어, 복호된다.
여기서, 인코더(11)에 의해 출력된 부호화 데이터를 복호하는 디코더에 대하여 설명한다. 도 9는 본 기술을 적용한 디코더의 일 실시 형태의 구성예를 나타내는 것이다.
도 9에 나타내는 디코더(61)는, 취득부(71), 복호부(72) 및 출력부(73)를 갖고 있다.
취득부(71)는, 인코더(11)에 의해 송신된 부호화 데이터를 수신하거나, 다른 장치로부터 부호화 데이터를 취득하거나, 기록 매체로부터 부호화 데이터를 판독하거나 함으로써 부호화 데이터를 취득하여, 복호부(72)에 공급한다.
복호부(72)는, 취득부(71)로부터 공급된 부호화 데이터를 언패킹함과 함께, 부호화 데이터로부터 추출된 양자화 위치 정보를 복호하여, 각 오브젝트의 친공간 내 위치 정보를 얻는다. 복호부(72)는 역양자화부(81) 및 변환부(82)를 갖고 있다.
역양자화부(81)는, 각 오브젝트의 양자화 위치 정보를 역양자화하여, 자공간 내 위치 정보를 산출한다. 변환부(82)는, 부호화 데이터로부터 추출된 자공간 정보를 사용하여 자공간 내 위치 정보를 친공간 내 위치 정보로 변환한다. 또한 변환부(82)는, 친공간 내 위치 정보에 부호화 데이터로부터 추출된 절대 거리 absoluteDistance를 승산함으로써, 친공간 내에 있어서의, 정규화되어 있지 않은 절대적인 오브젝트의 위치를 산출하고, 그 결과 얻어진 위치 정보를 출력부(73)에 공급한다.
이러한 역양자화부(81)와 변환부(82)를 갖는 복호부(72)는, 공간 정보와, 양자화된 자공간 내 위치 정보인 양자화 위치 정보에 기초하여, 친공간 내에 있어서의 오브젝트의 위치를 나타내는 친공간 내 위치 정보를 산출하는 산출부로서 기능한다.
출력부(73)는, 복호부(72)로부터 공급된 친공간 내에 있어서의 오브젝트의 위치를 나타내는 위치 정보를 후단에 출력한다.
<디코더에 의한 복호 처리의 설명>
이어서 디코더(61)의 동작에 대하여 설명한다. 즉, 이하, 도 10의 흐름도를 참조하여 디코더(61)에 의한 복호 처리에 대하여 설명한다.
스텝 S41에 있어서 취득부(71)는 부호화 데이터를 취득하여 복호부(72)에 공급한다. 복호부(72)는, 취득부(71)로부터 공급된 부호화 데이터를 언패킹하고, 각 오브젝트의 양자화 위치 정보, 오브젝트수, 절대 거리 absoluteDistance, 자공간 정보, 오브젝트 소속 정보 및 분할 인덱스를 추출한다.
스텝 S42에 있어서 역양자화부(81)는, 각 오브젝트의 양자화 위치 정보에 대하여, 양자화 위치 정보와 분할 인덱스에 기초하여 상술한 식(6)을 계산함으로써, 양자화 위치 정보를 역양자화한다. 이에 의해, 자공간 내 위치 정보(복호 자공간 내 위치 정보)가 얻어진다.
스텝 S43에 있어서 변환부(82)는, 각 오브젝트에 대하여, 스텝 S42에서 얻어진 자공간 내 위치 정보와, 자공간 정보에 기초하여 역스케일링 변환을 행하여, 자공간 내 위치 정보를 친공간 내 위치 정보로 변환한다.
예를 들어, 스텝 S43에서는 상술한 식(8)에 의해 자공간 정보로서의 1차 함수의 파라미터로부터 역스케일링 변환 계수가 구해지고, 또한 역스케일링 변환 계수와, 복호 자공간 내 위치 정보에 기초하여 식(7)의 계산이 행해져, 복호 친공간 내 위치 정보가 산출된다.
변환부(82)는, 이와 같이 하여 각 오브젝트의 복호 친공간 내 위치 정보가 얻어지면, 그들 복호 친공간 내 위치 정보에 절대 거리 absoluteDistance를 승산함으로써, 친공간 내에 있어서의 오브젝트의 위치를 나타내는 위치 정보를 구하여, 출력부(73)에 공급한다.
이때, 변환부(82)는, 필요에 따라 오브젝트수나 오브젝트 소속 정보도 출력부(73)에 공급하고, 출력부(73)는 변환부(82)로부터 공급된 오브젝트의 위치 정보나 오브젝트수, 오브젝트 소속 정보를 후단에 출력한다.
이상의 스텝 S42 및 스텝 S43의 처리가, 양자화 위치 정보를 복호하여 친공간 내 위치 정보를 얻는 처리로 된다. 이와 같이 하여 오브젝트의 위치 정보가 출력되면, 복호 처리는 종료된다.
이상과 같이 하여 디코더(61)는 양자화 위치 정보를 역양자화하고, 그 결과 얻어진 자공간 내 위치 정보를 친공간 내 위치 정보로 변환한다. 이렇게 함으로써, 친공간 내 위치 정보가 그대로 부호화(양자화)되는 경우와 비교하여, 오브젝트의 위치를 나타내는 정보의 부호량을 삭감할 수 있다.
<제2 실시 형태>
<콘텐츠의 배신에 대하여>
그런데, 본 기술은 적어도 오디오 오브젝트의 오디오 데이터를 포함하는 자유 시점의 콘텐츠의 배치에도 이용할 수 있다. 이 경우, 예를 들어 서버로부터 클라이언트에 대하여, 콘텐츠로서의 오디오 데이터와, 콘텐츠의 보조 정보로서의 오디오 오브젝트(오브젝트)의 위치 정보가 송신된다.
이렇게 서버로부터 클라이언트에 대하여 콘텐츠의 보조 정보로서, 오브젝트의 위치를 나타내는 양자화 위치 정보가 송신되는 경우, 서버는 양자화 위치 정보로서, 상술한 최고 정밀도 양자화 위치 정보를 미리 보유해 두도록 할 수 있다.
그렇게 하면 클라이언트측, 즉 수청자측의 조건 등에 따라, 서버가 최고 정밀도 양자화 위치 정보로부터 임의의 양자화 정밀도의 양자화 위치 정보를 생성하여, 클라이언트로 공급하는 것이 가능해진다.
예를 들어, 통신 속도의 제한이 없는 경우에는, 서버가 가장 양자화 정밀도가 높은 최고 정밀도 양자화 위치 정보를 그대로 클라이언트로 송신할 수도 있다. 이에 반해, 예를 들어 통신 속도 등에 제한이 있는 경우에는, 어떤 조건에 따라 최고 정밀도보다도 낮은 양자화 정밀도의 양자화 위치 정보를 클라이언트로 송신함으로써, 양자화 위치 정보의 전송 비트 레이트를 낮출 수 있다.
여기서 말하는 조건으로서는, 예를 들어 친공간에 있어서의 수청자로부터 오브젝트까지의 실제의 거리나 전송로의 대역 상황 등에 기초하는 것으로 할 수 있다.
구체적으로는, 예를 들어 인간의 청각에서는 수평 방향에 대해서는, 정면의 오브젝트에 대하여 좌우의 일정 범위 내의 각도라면 정면 각도와 동일한 각도라고 인식된다는 지견이 있고, 이 각도는 지각 한계 각도라고 불리고 있다.
그 때문에, 수청자로부터 보아 오브젝트가 있는 위치에 있어서 지각 한계 각도에 대응하는 수평 방향의 거리보다도 양자화 스텝 폭이 작다는 조건이 만족되어 있으면, 어느 양자화 정밀도의 양자화 위치 정보를 취득해도, 그 양자화 위치 정보로부터 얻어지는 오브젝트의 위치에 소리를 정위시킨 경우에 수청자가 음상 위치의 어긋남을 느끼는 경우는 없다. 바꾸어 말하면, 지각 한계 각도에 의한 허용 오차 이하의 양자 스텝 폭의 양자화 위치 정보라면, 수청자에게 음상 위치의 어긋남을 느끼게 하는 경우는 없다.
그래서, 예를 들어 수청자로부터 오브젝트까지의 실제의 거리와, 지각 한계 각도에 기초하여, 지각 한계 각도에 대응하는 수평 방향의 거리를 초과하지 않는 최대의 양자화 스텝 폭으로 양자화된 양자화 위치 정보가 선택되도록 하면, 수청자에게 음상 위치의 어긋남을 느끼게 하지 않고 양자화 위치 정보의 부호량을 삭감하여, 전송 비트 레이트를 저감시킬 수 있다.
또한, 예를 들어 양자화 위치 정보를 전송하는 전송로의 대역 상태에 따른 양자화 정밀도의 양자화 위치 정보가 취득되도록 해도 된다. 이 경우, 예를 들어 전송로의 전송 대역에 여유가 있을 때에는 최고 정밀도 양자화 위치 정보를 취득하도록 하고, 전송로의 전송 대역이 좁을 때에는, 그 전송 대역폭에 대하여 정해지는, 더 낮은 양자화 정밀도의 양자화 위치 정보를 취득하도록 하면 된다.
또한, 서버로부터 클라이언트로는, 오디오 데이터의 프레임마다 등에, 오브젝트수나 절대 거리 absoluteDistance 등의 클라이언트에 의한 복호 등에 필요로 되는 정보를 전송할 필요가 있다.
그래서 서버로부터 클라이언트에 대하여, 예를 들어 도 11에 나타내는 헤더 정보를 전송함으로써, 오브젝트수나 절대 거리 absoluteDistance 등의 필요한 정보를 전송하면 된다.
도 11에 나타내는 예에서는, 헤더 정보에는, 문자 「absoluteDistance」에 의해 나타나는 친공간의 크기를 나타내는 절대 거리 absoluteDistance, 문자 「ChildAreaInfo()」에 의해 나타나는 자공간 정보, 문자 「nobjs」에 의해 나타나는 친공간 내에 있는 오브젝트의 오브젝트수가 포함되어 있다.
또한, 헤더 정보에는, 오브젝트수의 수만큼, 즉 각 오브젝트에 대하여, 오브젝트가 속하는 자공간을 나타내는 인덱스가 오브젝트 소속 정보로서 저장되어 있다. 여기서는 문자 「ChildAreaIndexForObj[i]」가 i번째의 오브젝트의 오브젝트 소속 정보를 나타내고 있다.
또한, 헤더 정보에 포함되어 있는 자공간 정보 「ChildAreaInfo()」 부분의 포맷은, 예를 들어 도 12에 나타낸 바와 같이 된다.
도 12에 나타내는 예에서는, 자공간 정보에는, 문자 「numOfChildArea」에 의해 나타나는, 친공간 내에 포함되어 있는 자공간의 수를 나타내는 자공간수가 포함되어 있다.
또한, 자공간 정보에는, 자공간수의 수만큼, 각 축방향의 최고 정밀도 분할 인덱스와 1차 함수의 파라미터가 저장되어 있다.
즉, 문자 「max_exp_index_X[i]」, 「max_exp_index_Y[i]」 및 「max_exp_index_Z[i]」는, 각각 i번째의 자공간에 대한 X축 방향, Y축 방향 및 Z축 방향의 각 축방향의 최고 정밀도 분할 인덱스를 나타내고 있다.
또한, 문자 「a_x[i]」, 「a_y[i]」 및 「a_z[i]」는, 각각 i번째의 자공간에 대한 X축 방향, Y축 방향 및 Z축 방향의 각 축방향의 1차 함수의 기울기를 나타내는 파라미터이다. 또한 문자 「b_x[i]」, 「b_y[i]」 및 「b_z[i]」는, 각각 i번째의 자공간에 대한 X축 방향, Y축 방향 및 Z축 방향의 각 축방향의 1차 함수의 절편을 나타내는 파라미터이다. 이들 1차 함수의 기울기와 절편이 상술한 식(2)에 나타낸 스케일링 변환 계수이다.
또한, 헤더 정보는 클라이언트에 대하여 프레임마다 송신해도 되고, 자공간의 수나 위치, 크기에 변화가 생긴 경우에 송신하도록 해도 된다. 그 밖에, 일정 프레임 간격으로 헤더 정보가 송신되도록 해도 된다.
또한, 자신이 속해 있는 자공간의 밖으로 오브젝트가 이동한 경우에는, 그 오브젝트가 기존의 다른 자공간이나 신규 자공간에 속하도록, 오브젝트 소속 정보를 갱신하면 된다. 이 경우, 갱신 후의 오브젝트 소속 정보가 포함되는 헤더 정보가 서버로부터 클라이언트로 송신된다.
또한, 상술한 바와 같이 서버에 최고 정밀도 양자화 위치 정보가 보유되어 있도록 하면, 클라이언트는 서버로부터 임의의 양자화 정밀도의 양자화 위치 정보를 취득하는 것이 가능하다.
예를 들어, 클라이언트가 소정의 양자화 정밀도의 양자화 위치 정보를 취득한 후라도, 이미 취득한 양자화 위치 정보보다도 높은 양자화 정밀도의 양자화 위치 정보를 얻는 것이 가능하다.
구체적으로는, 먼저 클라이언트가 최초에 서버로부터 취득하는 양자화 위치 정보를 첫회 양자화 위치 정보라고 칭하는 것으로 한다.
또한, 첫회 양자화 위치 정보는, 헤더 정보에 포함되어 있는 최고 정밀도 분할 인덱스에 대응하는 최고 정밀도 이하의 양자화 정밀도의 양자화 위치 정보이다. 따라서, 첫회 양자화 위치 정보로서 최고 정밀도 양자화 위치 정보를 취득하는 것도 가능하다.
클라이언트는, 예를 들어 도 13에 나타내는 비트 스트림 포맷의 첫회 양자화 위치 정보 송신 요구를 서버로 송신함으로써, 서버로부터 첫회 양자화 위치 정보를 취득한다.
도 13에 나타내는 예에서는, 첫회 양자화 위치 정보 송신 요구에는, 오브젝트마다, 각 축방향에 대하여, 송신을 요구하는 양자화 정밀도에 대응하는 분할 인덱스가 저장되어 있다.
즉, 문자 「exp_index_initial_x[i]」, 「exp_index_initial_y[i]」 및 「exp_index_initial_z[i]」는, 각각 i번째의 오브젝트에 대한 X축 방향, Y축 방향 및 Z축 방향의 각 축방향의 분할 인덱스를 나타내고 있다.
이러한 첫회 양자화 위치 정보 송신 요구를 수신한 서버는, 오브젝트마다, 각 축방향에 대하여 첫회 양자화 위치 정보 송신 요구에 포함되는 분할 인덱스에 대응하는 양자화 정밀도의 양자화 위치 정보를 첫회 양자화 위치 정보로서 클라이언트로 송신한다.
예를 들어, 도 5에 나타낸 예에 있어서, 첫회 양자화 위치 정보 송신 요구에 포함되는 분할 인덱스가 「3」인 경우에는, 그 분할 인덱스 「3」에 대응하는 양자화 위치 정보 「001」이 첫회 양자화 위치 정보로서 클라이언트로 송신된다.
구체적으로는 서버로부터 클라이언트로는, 예를 들어 도 14에 나타내는 비트 스트림 포맷으로 첫회 양자화 위치 정보가 송신된다.
도 14에 나타내는 예에서는, 비트 스트림에는 오브젝트마다, 각 축방향에 대하여 첫회 양자화 위치 정보가 저장되어 있다.
여기서는, 문자 「Xpos_initial[i]」, 「Ypos_initial[i]」 및 「Zpos_initial[i]」는, 각각 i번째의 오브젝트에 대한 X축 방향, Y축 방향 및 Z축 방향의 각 축방향의 첫회 양자화 위치 정보, 더 상세하게는 첫회 양자화 위치 정보를 구성하는 각 축방향의 성분의 좌표값을 나타내고 있다.
클라이언트에서는, 이와 같이 하여 첫회 양자화 위치 정보를 취득한 후, 또한 그 첫회 양자화 위치 정보보다도 양자화 정밀도가 높은 양자화 위치 정보를 얻고 싶은 경우에는, 그 양자화 위치 정보와, 첫회 양자화 위치 정보의 차분 정보인 추가 비트 정보를 취득한다.
클라이언트에서는, 첫회 양자화 위치 정보의 하위 비트측에 추가 비트 정보를 부가함으로써, 그 첫회 양자화 위치 정보보다도 양자화 정밀도가 높은 양자화 위치 정보가 얻어진다.
구체적으로는, 예를 들어 도 5에 나타낸 예에서, 첫회 양자화 위치 정보로서 분할 인덱스 「3」에 대응하는 양자화 위치 정보 「001」을 취득했지만, 최종적으로 분할 인덱스 「5」에 대응하는 양자화 위치 정보 「00110」을 얻고 싶은 것으로 하자.
이 경우, 클라이언트는, 첫회 양자화 위치 정보 「001」과, 최종적으로 얻고 싶은 양자화 위치 정보 「00110」은 차분 정보인 「10」을 추가 비트 정보로서 취득한다. 그리고, 클라이언트는, 이미 취득한 첫회 양자화 위치 정보 「001」의 하위 비트측에 새롭게 취득한 추가 비트 정보 「10」을 부가함으로써, 최종적으로 얻고 싶은 양자화 정밀도의 양자화 위치 정보 「00110」을 얻을 수 있다.
이렇게 클라이언트가 서버로부터 추가 비트 정보를 취득하는 경우, 클라이언트는 전송 대역의 상황 등에 따라 추가 비트 정보를 취득할 때의 요구 모드를 선택한다. 그리고, 클라이언트는, 선택한 요구 모드에 따른 포맷으로, 추가 비트 정보의 송신을 요구하는 취지의 추가 비트 정보 송신 요구를 서버로 송신한다.
여기서는, 예를 들어 도 15에 나타내는 추가 비트 정보 송신 요구가 서버로 송신된다.
도 15에 나타내는 예에서는, 추가 비트 정보 송신 요구에는, 문자 「request_mode」에 의해 나타나는 요구 모드를 나타내는 정보가 포함되어 있다. 예를 들어, 요구 모드에는, 공통 모드, 자공간 공통 모드 및 개별 모드의 3개가 있다.
공통 모드란, 축방향마다 추가로 취득하는 추가 비트 정보의 비트수가 전체 오브젝트에서 동일해지도록, 전체 오브젝트의 각 축방향에 대하여 추가 비트 정보를 요구하는 모드이다. 예를 들어, 공통 모드에서는 축방향마다 추가할 비트수, 즉 추가로 높이는 양자화 정밀도를 선택할 수 있다.
또한, 자공간 공통 모드란 동일한 자공간에 속하는 전체 오브젝트에서, 축방향마다 추가로 취득할 추가 비트 정보의 비트수가 동일해지도록, 원하는 하나 또는 복수의 자공간에 대하여, 자공간에 속하는 전체 오브젝트의 각 축방향에 대하여 추가 비트 정보를 요구하는 모드이다. 예를 들어, 자공간 공통 모드에서도 축방향마다 추가할 비트수를 선택할 수 있다. 또한, 자공간 공통 모드에서는 추가 비트 정보를 요구하는 자공간과, 추가 비트 정보를 요구하지 않는 자공간이 있다.
또한, 개별 모드란, 오브젝트마다 개별로 추가 비트 정보를 요구하는 모드이다. 개별 모드에서는, 오브젝트마다 추가 비트 정보를 요구할지 여부를 선택할 수 있고, 또한 각 오브젝트에 대하여, 축방향마다 원하는 양자화 정밀도의 양자화 위치 정보가 얻어지도록 추가 비트 정보를 요구할 수 있다.
도 15에서는, 예를 들어 문자 「request_mode」에 의해 나타나는 요구 모드가 공통 모드를 나타내고 있는 경우, 문자 「case 0」의 부분에 나타낸 바와 같이, 추가 비트 정보 송신 요구에는 문자 「addbit_x」, 「addbit_y」 및 「addbit_z」에 의해 나타나는, X축 방향, Y축 방향 및 Z축 방향의 각 축방향의 추가 비트수를 나타내는 정보가 저장된다.
예를 들어, 추가 비트수를 나타내는 정보가 3비트를 나타내는 정보라면, 추가 비트 정보로서 첫회 양자화 위치 정보에 부가되는 3비트분의 추가 비트 정보가 송신되어 온다.
또한, 문자 「request_mode」에 의해 나타나는 요구 모드가 자공간 공통 모드를 나타내고 있는 경우, 문자 「case 1」의 부분에 나타낸 바와 같이, 추가 비트 정보 송신 요구에는 문자 「num_of_addprec_childArea」에 의해 나타나는, 추가 비트 정보를 요구하는 자공간의 수를 나타내는 정보가 저장되어 있다.
이 경우, 또한 추가 비트 정보 송신 요구에는 문자 「addprec_childArea_index[i]」에 의해 나타나는, 추가 비트 정보를 요구하는 자공간을 나타내는 인덱스와, 그 자공간에서의 각 축방향의 추가 비트수를 나타내는 「addbit_x[i]」, 「addbit_y[i]」 및 「addbit_z[i]」가, 추가 비트 정보를 요구하는 자공간의 수만큼 저장되어 있다. 특히, 여기서는 문자 「addbit_x[i]」, 「addbit_y[i]」 및 「addbit_z[i]」의 각각은, X축 방향, Y축 방향 및 Z축 방향의 각 축방향의 추가 비트수를 나타내는 정보로 되어 있다.
또한, 문자 「request_mode」에 의해 나타나는 요구 모드가 개별 모드를 나타내고 있는 경우, 문자 「case 2」의 부분에 나타낸 바와 같이, 추가 비트 정보 송신 요구에는 문자 「num_of_addprec_objects」에 의해 나타나는, 추가 비트 정보를 요구하는 오브젝트의 수를 나타내는 정보가 저장되어 있다.
이 경우, 또한 추가 비트 정보 송신 요구에는 문자 「addprec_object_index[i]」에 의해 나타나는, 추가 비트 정보를 요구하는 오브젝트를 나타내는 인덱스와, 그 오브젝트의 각 축방향의 추가 비트수를 나타내는 「addbit_x[i]」, 「addbit_y[i]」 및 「addbit_z[i]」가, 추가 비트 정보를 요구하는 오브젝트의 수만큼 저장되어 있다. 특히, 여기서는 문자 「addbit_x[i]」, 「addbit_y[i]」 및 「addbit_z[i]」의 각각은, X축 방향, Y축 방향 및 Z축 방향의 각 축방향의 추가 비트수를 나타내는 정보로 되어 있다.
이러한 도 15에 나타내는 추가 비트 정보 송신 요구를 수신하면, 서버는, 예를 들어 도 16에 나타내는 비트 스트림 포맷으로 추가 비트 정보를 클라이언트로 송신한다.
도 16에 나타내는 예에서는, 요구 모드가 공통 모드인 경우, 문자 「case 0」의 부분에 나타낸 바와 같이, 비트 스트림에는 문자 「Xpos_add[i]」, 「Ypos_add[i]」 및 「Zpos_add[i]」에 의해 나타나는 i번째의 오브젝트에 대한 X축 방향, Y축 방향 및 Z축 방향의 각 축방향의 추가 비트 정보가 저장된다.
또한, 요구 모드가 자공간 공통 모드인 경우, 문자 「case 1」의 부분에 나타낸 바와 같이, 비트 스트림에는 추가 비트 정보가 요구된 자공간마다, 그 자공간에 속하는 각 오브젝트의 추가 비트 정보가 저장된다. 구체적으로는, 문자 「Xpos_add[j]」, 「Ypos_add[j]」 및 「Zpos_add[j]」에 의해 나타나는 자공간 내의 j번째의 오브젝트에 대한 X축 방향, Y축 방향 및 Z축 방향의 각 축방향의 추가 비트 정보가 저장되어 있다.
또한 요구 모드가 개별 모드인 경우, 문자 「case 2」의 부분에 나타낸 바와 같이, 비트 스트림에는 추가 비트 정보가 요구된 오브젝트마다, 그 오브젝트의 추가 비트 정보가 저장된다. 구체적으로는, 문자 「Xpos_add[addprec_object_index[i]]」, 「Ypos_add[addprec_object_index[i]]」 및 「Zpos_add[addprec_object_index[i]]」에 의해 나타나는, 오브젝트의 X축 방향, Y축 방향 및 Z축 방향의 각 축방향의 추가 비트 정보가 저장되어 있다.
이렇게 추가 비트 정보를 취득할 수 있도록 함으로써, 처음부터 최고 정밀도 양자화 위치 정보를 취득하는 것보다도 적은 전송량으로, 충분한 양자화 정밀도의 양자화 위치 정보를 얻을 수 있게 된다.
<콘텐츠 재생 시스템의 구성예>
이어서, 이상에 있어서 설명한 바와 같이, 클라이언트가 서버로부터 콘텐츠나 양자화 위치 정보를 취득하여 콘텐츠의 재생을 행하는 콘텐츠 재생 시스템에 대하여 설명한다.
그러한 콘텐츠 재생 시스템은, 예를 들어 도 17에 나타낸 바와 같이 구성된다.
도 17에 나타내는 콘텐츠 재생 시스템은 절대 좌표 위치 정보 인코더(111), 서버(112), 수청자 위치 취득 장치(113), 클라이언트(114) 및 MPEG-H 렌더러(115)를 갖고 있다. 이 콘텐츠 재생 시스템에서는, 클라이언트(114)에 있어서, 수청자(U12)로부터 본 오브젝트의 위치를 나타내는 극좌표 표현의 극좌표 위치 정보가 산출된다.
즉, 콘텐츠의 배신측에서는 유저(U11)가 친공간 내에 있어서의 각 오브젝트의 위치를 나타내는 친공간 내 위치 정보 등을 절대 좌표 위치 정보 인코더(111)에 입력한다.
이 친공간 내 위치 정보는, 상술한 바와 같이 3차원의 절대 좌표계(직교 좌표계), 즉 xyz 좌표계의 좌표에 의해 나타나는 절대 좌표 정보이다.
절대 좌표 위치 정보 인코더(111)는, 유저(U11)에 의해 입력된 친공간 내 위치 정보를 부호화하고, 그 결과 얻어진 부호화 데이터 파일을 서버(112)로 송신한다.
서버(112)는 기록부(121)를 갖는 정보 처리 장치이고, 절대 좌표 위치 정보 인코더(111)로부터 수신한 부호화 데이터 파일을 기록부(121)에 기록한다. 여기서, 부호화 데이터 파일에는, 각 오브젝트의 최고 정밀도 양자화 위치 정보가 포함되어 있다.
서버(112)는, 기록부(121)에 기록되어 있는 최고 정밀도 양자화 위치 정보로부터 첫회 양자화 위치 정보나 추가 비트 정보를 생성하여 클라이언트(114)로 송신한다.
클라이언트(114)측에서는, 수청자 위치 취득 장치(113)에 의해, 친공간 내에 있어서의 수청자(U12)의 위치를 나타내는 수청자 위치 정보가 취득되어, 클라이언트(114)에 공급된다. 이 수청자 위치 취득 장치(113)는, 예를 들어 GPS(Global Positioning System)나 자이로 센서 등의 측거 디바이스, 친공간으로서의 버추얼 공간 내의 수청자(U12)의 가상적인 위치 정보를 취득하는 입력 장치 등으로 구성된다.
클라이언트(114)는, 절대 좌표 위치 정보 디코더(131) 및 좌표 변환부(132)를 갖는 정보 처리 장치이고, 서버(112)로부터 첫회 양자화 위치 정보나 추가 비트 정보를 취득한다.
절대 좌표 위치 정보 디코더(131)는, 서버(112)로부터 취득된 첫회 양자화 위치 정보나, 첫회 양자화 위치 정보와 추가 비트 정보로부터 얻어진 양자화 위치 정보를 복호한다.
좌표 변환부(132)는, 양자화 위치 정보의 복호에 의해 얻어진, 친공간 내에 있어서의 오브젝트의 위치를 나타내는 정보를, 친공간 내에 있어서의 수청자(U12)로부터 본 오브젝트의 상대적인 위치를 나타내는 극좌표로 변환하여, 극좌표 위치 정보로 한다.
좌표 변환부(132)는, 각 오브젝트의 극좌표 위치 정보를 MPEG-H 렌더러(115)에 공급하고, MPEG-H 렌더러(115)는, 공급된 극좌표 위치 정보와, 서버(112)로부터 취득한 각 오브젝트의 오디오 데이터에 기초하여 렌더링을 행한다.
그리고, MPEG-H 렌더러(115)는, 렌더링에 의해 얻어진, 친공간 내의 각 위치에 오브젝트의 음상이 정위되는 재생 오디오 데이터를 스피커 등의 재생계로 출력하여, 음성을 재생시킨다. 또한, MPEG-H 렌더러(115)는, MPEG-H에서 규격화된 극좌표계의 렌더러이다.
이상과 같은 콘텐츠 재생 시스템에서는, 서버(112)와 클라이언트(114) 사이에서 수수되는 오브젝트의 위치를 나타내는 정보가, 절대 좌표인 양자화 위치 정보로 되어 있다. 따라서, 친공간 내에 있어서의 수청자(U12)의 위치를 고려할 필요는 없고, 이동하는 오브젝트에 대해서만 양자화 위치 정보를 클라이언트(114)로 전송하면 된다는 이점이 있다.
<절대 좌표 위치 정보 인코더의 구성예>
이어서, 도 17에 나타낸 절대 좌표 위치 정보 인코더(111), 서버(112) 및 클라이언트(114)의 더 상세한 구성예에 대하여 설명한다.
먼저, 절대 좌표 위치 정보 인코더(111)의 구성예에 대하여 설명한다.
절대 좌표 위치 정보 인코더(111)는, 예를 들어 도 18에 나타낸 바와 같이 구성된다.
도 18에 나타내는 절대 좌표 위치 정보 인코더(111)는 취득부(161), 부호화부(162) 및 통신부(163)를 갖고 있다.
취득부(161)는, 외부의 장치 등으로부터 부호화 대상으로 되는 오브젝트의 오브젝트수, 친공간의 절대 거리 absoluteDistance 및 각 오브젝트의 친공간 내 위치 정보를 취득하여 부호화부(162)에 공급한다.
부호화부(162)는, 취득부(161)로부터 공급된 오브젝트수나, 친공간의 절대 거리 absoluteDistance, 오브젝트의 친공간 내 위치 정보에 기초하여, 각 오브젝트의 친공간 내 위치 정보를 부호화하고, 그 결과 얻어진 부호화 데이터 파일을 통신부(163)에 공급한다.
부호화부(162)는, 자공간 결정부(171), 변환부(172) 및 양자화부(173)를 갖고 있다. 또한, 이들 자공간 결정부(171) 내지 양자화부(173)는, 도 7에 나타낸 자공간 결정부(31) 내지 양자화부(33)에 대응하여, 동일한 동작을 행하므로, 그 설명은 생략한다.
통신부(163)는, 부호화부(162)로부터 공급된 부호화 데이터 파일을 송신한다.
<서버의 구성예>
또한, 서버(112)는, 예를 들어 도 19에 나타낸 바와 같이 구성된다. 또한, 도 19에 있어서 도 17에 있어서의 경우와 대응하는 부분에는 동일한 부호를 붙이고 있고, 그 설명은 적절히 생략한다.
도 19에 나타내는 서버(112)는 통신부(201), 제어부(202) 및 기록부(121)를 갖고 있다.
통신부(201)는, 제어부(202)로부터 공급된 각종 정보를 클라이언트(114)로 송신하거나, 절대 좌표 위치 정보 인코더(111)나 클라이언트(114)로부터 송신되어 온 각종 정보를 수신하여 제어부(202)에 공급하거나 한다.
제어부(202)는, 서버(112) 전체의 동작을 제어한다. 제어부(202)는 통신 제어부(211) 및 송신 정보 생성부(212)를 갖고 있다.
통신 제어부(211)는, 통신부(201)를 제어함으로써, 통신부(201)에 의한 절대 좌표 위치 정보 인코더(111)나 클라이언트(114)와의 통신을 제어한다. 송신 정보 생성부(212)는, 필요에 따라 기록부(121)에 기록되어 있는 부호화 데이터 파일 등의 정보를 사용하여, 클라이언트(114)로 송신하는 각종 정보를 생성한다.
<클라이언트의 구성예>
또한, 클라이언트(114)는, 예를 들어 도 20에 나타낸 바와 같이 구성된다. 또한, 도 20에 있어서 도 17에 있어서의 경우와 대응하는 부분에는 동일한 부호를 붙이고 있고, 그 설명은 적절히 생략한다.
도 20에 나타내는 클라이언트(114)는, 통신부(241), 제어부(242) 및 출력부(243)를 갖고 있다.
통신부(241)는, 제어부(242)로부터 공급된 각종 정보를 서버(112)로 송신하거나, 서버(112)로부터 송신되어 온 각종 정보를 수신하여 제어부(242)에 공급하거나 한다.
제어부(242)는, 클라이언트(114) 전체의 동작을 제어한다. 제어부(242)는 통신 제어부(251), 절대 좌표 위치 정보 디코더(131) 및 좌표 변환부(132)를 갖고 있다.
통신 제어부(251)는, 통신부(241)를 제어함으로써, 통신부(241)에 의한 서버(112)와의 통신을 제어한다. 예를 들어 통신 제어부(251)는, 통신부(241)를 제어하여, 서버(112)로부터 첫회 양자화 위치 정보나 추가 비트 정보를 취득하는 취득부로서 기능한다.
절대 좌표 위치 정보 디코더(131)는, 양자화 위치 정보나 추가 비트 정보에 기초하여 친공간 내에 있어서의 오브젝트의 절대적인 위치를 나타내는 친공간 내 위치 정보를 산출함으로써, 부호화된 친공간 내 위치 정보의 복호(디코드)를 행하는 산출부로서 기능한다.
출력부(243)는, 좌표 변환부(132)에 의한 좌표 변환에 의해 얻어진 각 오브젝트의 극좌표 위치 정보를 MPEG-H 렌더러(115)에 출력한다.
<부호화 처리 및 파일 저장 처리의 설명>
이어서, 콘텐츠 재생 시스템에 있어서 행해지는 구체적인 처리에 대하여 설명한다.
먼저, 도 21의 흐름도를 참조하여, 절대 좌표 위치 정보 인코더(111)에 의한 부호화 처리 및 서버(112)에 의한 파일 저장 처리에 대하여 설명한다.
절대 좌표 위치 정보 인코더(111)에 의해 부호화 처리가 개시되면, 스텝 S71에 있어서 취득부(161)는, 유저(U11)에 의해 입력된 오브젝트수, 친공간의 절대 거리 absoluteDistance 및 각 오브젝트의 친공간 내 위치 정보를 취득하여 부호화부(162)에 공급한다.
스텝 S72에 있어서 자공간 결정부(171)는, 취득부(161)로부터 공급된 각 오브젝트의 친공간 내 위치 정보에 기초하여 자공간을 결정한다. 스텝 S72에서는, 도 8의 스텝 S12와 동일한 처리가 행해져 자공간이 결정된다.
스텝 S73에 있어서 변환부(172)는, 취득부(161)로부터 공급된 각 오브젝트의 친공간 내 위치 정보를 자공간 내 위치 정보로 변환한다. 스텝 S73에서는, 도 8의 스텝 S13과 동일한 처리가 행해진다.
스텝 S74에 있어서 양자화부(173)는, 최고 정밀도 분할 인덱스를 결정한다.
예를 들어, 스텝 S74에서는, 미리 정해진 최소 거리 MinDist와, 자공간의 결정 결과 및 절대 거리 absoluteDistance로부터 구해지는 절대 거리 absoluteDistanceX, absoluteDistanceY 및 absoluteDistanceZ에 기초하여 상술한 식(3)의 계산이 행해져, 최고 정밀도 분할 인덱스가 구해진다.
스텝 S75에 있어서 양자화부(173)는, 스텝 S74에서 결정한 최고 정밀도 분할 인덱스에 기초하여, 상술한 식(4)의 계산을 행함으로써 양자화 스텝 폭을 구한다.
스텝 S76에 있어서 양자화부(173)는, 스텝 S73에서 얻어진 각 오브젝트의 자공간 내 위치 정보를 양자화한다.
예를 들어 스텝 S76에서는, 스텝 S75에서 구해진 양자화 스텝 폭이 사용되어 상술한 식(5)의 계산이 행해지고, 친공간 내 위치 정보의 각 축방향의 좌표의 양자화가 행해져, 각 오브젝트의 최고 정밀도 양자화 위치 정보가 얻어진다.
이상의 스텝 S72 내지 스텝 S76의 처리에 의해, 친공간 내 위치 정보가 부호화되게 된다.
스텝 S77에 있어서 부호화부(162)는, 최고 정밀도 양자화 위치 정보, 스텝 S71에서 취득된 오브젝트수와 절대 거리 absoluteDistance 및 스텝 S72에 있어서의 자공간의 결정 결과로부터 얻어지는 자공간 정보와 오브젝트 소속 정보를 포함하는 부호화 데이터 파일을 생성하여, 통신부(163)에 공급한다.
여기서는, 예를 들어 자공간 정보에는, 친공간 내에 포함되는 자공간의 수를 나타내는 정보, 각 자공간에서의 최고 정밀도 분할 인덱스 및 각 자공간에 대한 좌표 변환을 위한 1차 함수의 파라미터가 포함되어 있다.
스텝 S78에 있어서 통신부(163)는, 부호화부(162)로부터 공급된 부호화 데이터 파일을, 무선 또는 유선의 통신 등에 의해 서버(112)로 송신하고, 부호화 처리는 종료된다.
또한, 후술하는 바와 같이 부호화 데이터 파일이 서버(112)에서 정확하게 저장되면, 그 취지의 저장 완료 통지가 서버(112)로부터 송신되어 오므로, 절대 좌표 위치 정보 인코더(111)는 송신되어 온 저장 완료 통지를 수신하여, 적절히 표시시킨다.
또한, 부호화 데이터 파일이 송신되면, 서버(112)에서는, 파일 저장 처리가 개시된다.
즉, 스텝 S101에 있어서 서버(112)의 통신부(201)는, 절대 좌표 위치 정보 인코더(111)로부터 송신되어 온 부호화 데이터 파일을 통신 제어부(211)의 제어에 따라 수신하여, 제어부(202)에 공급한다.
스텝 S102에 있어서 제어부(202)는, 통신부(201)로부터 공급된 부호화 데이터 파일을 기록부(121)에 공급하고, 저장시킨다. 이에 의해, 기록부(121)에 최고 정밀도 양자화 위치 정보 등이 저장(기록)된 상태로 된다.
그 후, 통신 제어부(211)는, 통신부(201)를 제어하여, 부호화 데이터 파일을 정확하게 저장하였다는 취지의 저장 완료 통지를 절대 좌표 위치 정보 인코더(111)로 송신하고, 파일 저장 처리는 종료한다.
이상과 같이 하여 절대 좌표 위치 정보 인코더(111)는, 친공간 내 위치 정보를 좌표 변환에 의해 자공간 내 위치 정보로 변환함과 함께, 자공간 내 위치 정보를 양자화하여, 부호화 데이터 파일을 생성한다. 이렇게 함으로써, 친공간 내 위치 정보를 그대로 부호화(양자화)하는 경우와 비교하여 양자화 위치 정보의 부호량을 삭감할 수 있다.
또한, 서버(112)는, 절대 좌표 위치 정보 인코더(111)로부터 송신되어 온 부호화 데이터 파일을 수신하여 저장한다. 이에 의해, 클라이언트(114)의 요구에 따라 최고 정밀도 양자화 위치 정보로부터 임의의 양자화 정밀도의 양자화 위치 정보를 생성하여, 클라이언트(114)로 전송하는 것이 가능해진다.
그 결과, 클라이언트(114)에 있어서 각 오브젝트의 극좌표 위치 정보를 구하도록 하여 서버(112)나 절대 좌표 위치 정보 인코더(111)와 같은 콘텐츠의 배신측의 처리 부하를 저감시킴과 함께, 정보의 전송량을 삭감할 수 있다.
<위치 정보 취득 처리 및 위치 정보 송신 처리의 설명>
서버(112)에 부호화 데이터 파일이 저장되면, 클라이언트(114)는 서버(112)로부터 콘텐츠에 대한 각 오브젝트의 양자화 위치 정보의 공급을 받을 수 있게 된다.
이하, 클라이언트(114)가 서버(112)로부터 첫회 양자화 위치 정보를 취득할 때에 행해지는 처리에 대하여 설명한다. 즉, 이하, 도 22의 흐름도를 참조하여, 클라이언트(114)에 의한 위치 정보 취득 처리 및 서버(112)에 의한 위치 정보 송신 처리에 대하여 설명한다.
클라이언트(114)에 의해 위치 정보 취득 처리가 개시되면, 스텝 S131에 있어서, 통신부(241)는, 통신 제어부(251)의 제어에 따라 헤더 정보 송신 요구를 서버(112)로 송신한다.
헤더 정보 송신 요구가 송신되면, 서버(112)에서는 위치 정보 송신 처리가 개시된다. 즉, 스텝 S161에 있어서 통신부(201)는, 클라이언트(114)로부터 송신되어 온 헤더 정보 송신 요구를 통신 제어부(211)의 제어에 따라 수신하여, 제어부(202)에 공급한다.
그러면, 송신 정보 생성부(212)는, 기록부(121)에 기록되어 있는 부호화 데이터 파일을 참조하여, 절대 거리 absoluteDistance나 자공간 정보, 오브젝트수, 오브젝트 소속 정보가 포함되는 헤더 정보를 생성한다. 이에 의해, 예를 들어 도 11에 나타낸 헤더 정보가 생성된다.
송신 정보 생성부(212)가 헤더 정보를 생성하면, 통신 제어부(211)는, 생성된 헤더 정보를 통신부(201)에 공급한다.
스텝 S162에 있어서 통신부(201)는, 통신 제어부(211)의 제어에 따라, 통신 제어부(211)로부터 공급된 헤더 정보를 클라이언트(114)로 송신한다.
그러면 클라이언트(114)에서는, 스텝 S132에 있어서 통신부(241)는, 서버(112)로부터 송신되어 온 헤더 정보를 통신 제어부(251)의 제어에 따라 수신하여, 제어부(242)에 공급한다.
이와 같이 하여 헤더 정보가 얻어지면, 제어부(242)는, 서버(112)와의 사이의 전송 대역의 상황이나, 헤더 정보에 포함되어 있는 오브젝트수나 최고 정밀도 분할 인덱스 등에 기초하여, 첫회 양자화 위치 정보의 양자화 정밀도, 즉 분할 인덱스를 결정한다.
그리고 제어부(242)는, 결정한 양자화 정밀도에 기초하여, 첫회 양자화 위치 정보의 송신을 요구하는 첫회 양자화 위치 정보 송신 요구를 생성하여, 통신부(241)에 공급한다. 예를 들어, 여기서는 도 13에 나타낸 첫회 양자화 위치 정보 송신 요구가 생성된다.
스텝 S133에 있어서, 통신부(241)는, 통신 제어부(251)의 제어에 따라, 제어부(242)로부터 공급된 첫회 양자화 위치 정보 송신 요구를 서버(112)로 송신한다.
그러면 서버(112)에서는, 스텝 S163에 있어서 통신부(201)는, 통신 제어부(211)의 제어에 따라, 클라이언트(114)로부터 송신되어 온 첫회 양자화 위치 정보 송신 요구를 수신하여 제어부(202)에 공급한다.
스텝 S164에 있어서, 송신 정보 생성부(212)는, 통신부(201)로부터 공급된 첫회 양자화 위치 정보 송신 요구에 따라, 기록부(121)에 기록되어 있는 부호화 데이터 파일을 참조하여, 첫회 양자화 위치 정보를 생성한다.
예를 들어 도 5의 예에 있어서, 첫회 양자화 위치 정보 송신 요구에 의해 요구된 분할 인덱스가 「9」인 경우, 송신 정보 생성부(212)는, 부호화 데이터 파일에 포함되어 있는 최고 정밀도 양자화 위치 정보의 상위 9비트를 추출하여 첫회 양자화 위치 정보로 한다.
도 5의 예에서는, 최고 정밀도 양자화 위치 정보의 소정의 축방향의 좌표값 「00110011001」로부터 분할 인덱스 「9」와 동일한 비트수, 즉 9비트만 최상위 비트측으로부터 추출하여 얻어지는 「001100110」이 첫회 양자화 위치 정보의 소정의 축방향의 좌표값으로 된다.
또한, 첫회 양자화 위치 정보 송신 요구에 의해 최고 정밀도 분할 인덱스가 요구된 경우에는, 최고 정밀도 양자화 위치 정보가 그대로 첫회 양자화 위치 정보로 된다.
송신 정보 생성부(212)는, 오브젝트마다 첫회 양자화 위치 정보를 생성하면, 그것들의 첫회 양자화 위치 정보를 도 14에 나타낸 포맷으로 비트 스트림에 저장하고, 통신 제어부(211)는 생성된 비트 스트림을 통신부(201)에 공급한다.
스텝 S165에 있어서, 통신부(201)는, 통신 제어부(211)로부터 공급된 비트 스트림, 즉 각 오브젝트의 첫회 양자화 위치 정보를 통신 제어부(211)의 제어에 따라 클라이언트(114)로 송신하고, 위치 정보 송신 처리는 종료된다.
서버(112)에 의해 첫회 양자화 위치 정보가 송신되면, 클라이언트(114)에서는, 스텝 S134의 처리가 행해진다.
스텝 S134에 있어서, 통신부(241)는, 서버(112)로부터 송신되어 온 첫회 양자화 위치 정보를 통신 제어부(251)의 제어에 따라 수신하고, 제어부(242)에 공급한다. 즉, 통신 제어부(251)는 첫회 양자화 위치 정보를 취득한다.
스텝 S135에 있어서 절대 좌표 위치 정보 디코더(131)는, 각 오브젝트의 첫회 양자화 위치 정보에 대하여, 첫회 양자화 위치 정보와, 첫회 양자화 위치 정보 송신 요구에 저장된 분할 인덱스에 기초하여 상술한 식(6)과 동일한 계산을 행함으로써, 첫회 양자화 위치 정보를 역양자화한다. 이에 의해, 복호 자공간 내 위치 정보가 얻어진다.
스텝 S136에 있어서 절대 좌표 위치 정보 디코더(131)는, 각 오브젝트에 대하여 얻어진 자공간 내 위치 정보를 친공간 내 위치 정보로 변환한다.
즉, 절대 좌표 위치 정보 디코더(131)는, 스텝 S135에서 얻어진 복호 자공간 내 위치 정보와, 헤더 정보에 포함되어 있는 자공간 정보에 기초하여 상술한 식(7) 및 식(8)의 계산을 행함으로써 역스케일링 변환을 행한다. 이에 의해, 복호 자공간 내 위치 정보가 복호 친공간 내 위치 정보로 변환된다.
또한 절대 좌표 위치 정보 디코더(131)는, 얻어진 복호 친공간 내 위치 정보에 대하여, 헤더 정보 내에 포함되어 있는 절대 거리 absoluteDistance를 승산함으로써, 친공간 내에 있어서의 오브젝트의 위치를 나타내는 위치 정보를 구한다. 그리고, 오브젝트의 위치를 나타내는 위치 정보가 구해지면, 위치 정보 취득 처리는 종료된다.
절대 좌표 위치 정보 디코더(131)는, 이상의 스텝 S135 및 스텝 S136의 처리를 오브젝트마다 복호의 처리로서 행한다.
이상과 같이 하여 클라이언트(114)는, 적절한 양자화 정밀도의 양자화 위치 정보를 첫회 양자화 위치 정보로서 취득하여, 복호한다. 또한, 서버(112)는, 클라이언트(114)의 요구에 따라 첫회 양자화 위치 정보를 생성하여, 클라이언트(114)로 송신한다.
이렇게 함으로써, 친공간 내 위치 정보가 그대로 부호화(양자화)되는 경우와 비교하여, 오브젝트의 위치를 나타내는 정보의 부호량을 삭감할 수 있다.
<추가 비트 정보 취득 처리 및 추가 비트 정보 송신 처리의 설명>
그런데, 도 22를 참조하여 설명한 위치 정보 취득 처리가 행해지면, 각 오브젝트에 대하여 친공간 내에 있어서의 오브젝트의 위치를 나타내는 위치 정보(이하, 오브젝트 위치 정보라고도 칭함)가 얻어지게 된다.
예를 들어, 첫회 양자화 위치 정보로서 최고 정밀도 양자화 위치 정보를 취득한 경우에는, 가장 높은 정밀도의 오브젝트의 위치 정보가 얻어지지만, 그렇지 않은 경우에는 오브젝트 위치 정보의 정밀도가 충분하지 않은 경우도 있다.
또한, 비교적 낮은 양자화 정밀도의 첫회 양자화 위치 정보를 취득했지만, 전송 대역에 여유가 발생하거나, 콘텐츠의 재생 시각까지 여유가 발생하거나 하여, 더 높은 양자화 정밀도의 양자화 위치 정보를 얻기 위한 추가 비트 정보를 취득하고 싶은 경우도 있다.
그래서, 클라이언트(114)는, 오브젝트 위치 정보가 얻어지면, 필요에 따라 서버(112)로부터 추가 비트 정보를 취득한다. 이하, 그러한 경우에 클라이언트(114) 및 서버(112)에 의해 행해지는 처리에 대하여 설명한다.
즉, 이하, 도 23의 흐름도를 참조하여, 클라이언트(114)에 의한 추가 비트 정보 취득 처리 및 서버(112)에 의한 추가 비트 정보 송신 처리에 대하여 설명한다. 또한, 이들 처리는 첫회 양자화 위치 정보로서 최고 정밀도 양자화 위치 정보가 취득된 경우에는 행해지지 않는다.
클라이언트(114)에 있어서 추가 비트 정보 취득 처리가 개시되면, 스텝 S191에 있어서 절대 좌표 위치 정보 디코더(131)는, 각 오브젝트에 대하여, 수청자(U12)로부터 오브젝트까지의 거리를 산출한다.
구체적으로는, 수청자 위치 취득 장치(113)로부터 공급된 수청자 위치 정보와, 도 22의 스텝 S136의 처리에서 얻어진 오브젝트 위치 정보에 기초하여, 친공간 내에 있어서의 수청자(U12)로부터 오브젝트까지의 유클리드 거리가 산출된다.
스텝 S192에 있어서, 절대 좌표 위치 정보 디코더(131)는, 추가 비트 정보를 취득할 오브젝트를 특정한다.
예를 들어, 친공간 내의 오브젝트의 양자화 위치 정보로서, 첫회 양자화 위치 정보, 즉 복호 친공간 내 위치 정보가 충분한 정밀도의 것인지 여부는, 수청자(U12)로부터, 오브젝트 위치 정보에 의해 나타나는 위치까지의 거리에 의해 특정 가능하다.
그래서, 절대 좌표 위치 정보 디코더(131)는, 수청자(U12)로부터 오브젝트까지의 거리와 지각 한계 각도로부터 양자 스텝 폭의 허용 오차를 구하고, 그 허용 오차와, 첫회 양자화 위치 정보의 분할 인덱스에 의해 구해지는 양자화 스텝 폭을 비교한다. 그리고 절대 좌표 위치 정보 디코더(131)는, 그 비교 결과에 기초하여 첫회 양자화 위치 정보의 양자화 정밀도가 충분하지 않은 오브젝트, 즉 추가 비트 정보를 취득하는 오브젝트를 특정한다.
또한, 예를 들어 절대 좌표 위치 정보 디코더(131)는, 서버(112)와의 사이의 전송로의 대역 상황, 현시점부터 콘텐츠의 재생 시각까지의 시간, 첫회 양자화 위치 정보의 양자화 정밀도 등에 기초하여, 추가 비트 정보를 취득하는 오브젝트를 특정한다.
또한 절대 좌표 위치 정보 디코더(131)는, 추가 비트 정보를 취득하는 오브젝트에 대하여, 요구할 추가 비트 정보의 비트수, 즉 요구하는 양자화 정밀도를 결정한다.
또한, 추가 비트 정보를 취득하는지 여부나, 요구하는 추가 비트 정보의 비트수는, 각 오브젝트에 대하여 XYZ 좌표계의 각 축방향마다 정하는 것이 가능하다.
스텝 S193에 있어서 절대 좌표 위치 정보 디코더(131)는, 스텝 S192의 특정 결과에 기초하여 요구 모드를 선택한다.
여기서는, 예를 들어 전송 대역의 상황이나, 추가 비트 정보를 취득하는 오브젝트의 개수, 추가 비트 정보를 취득할 복수의 오브젝트의 위치 관계 등에 기초하여, 적절한 요구 모드가 선택된다.
스텝 S194에 있어서 절대 좌표 위치 정보 디코더(131)는, 스텝 S192의 특정 결과와, 스텝 S193의 요구 모드의 선택 결과에 기초하여 추가 비트 정보 송신 요구를 생성한다. 이에 의해, 예를 들어 도 15에 나타낸 추가 비트 정보 송신 요구가 생성된다.
통신 제어부(251)는, 이와 같이 하여 생성된 추가 비트 정보 송신 요구를 통신부(241)에 공급하여, 서버(112)로 송신시킨다.
스텝 S195에 있어서 통신부(241)는, 통신 제어부(251)의 제어에 따라, 제어부(242)로부터 공급된 추가 비트 정보 송신 요구를 서버(112)로 송신한다.
추가 비트 정보 송신 요구가 송신되면, 서버(112)에서는, 추가 비트 정보 송신 처리가 개시된다.
즉, 스텝 S221에 있어서 통신부(201)는, 클라이언트(114)로부터 송신되어 온 추가 비트 정보 송신 요구를 통신 제어부(211)의 제어에 따라 수신하여, 제어부(202)에 공급한다.
스텝 S222에 있어서, 송신 정보 생성부(212)는, 통신부(201)로부터 공급된 추가 비트 정보 송신 요구에 따라, 송신이 요구된 오브젝트의 추가 비트 정보를 생성한다.
예를 들어, 송신 정보 생성부(212)는, 기록부(121)에 기록되어 있는 부호화 데이터 파일의 최고 정밀도 양자화 위치 정보에 있어서의 첫회 양자화 위치 정보의 양자화 정밀도(분할 인덱스)에 의해 정해지는 위치로부터, 추가 비트 정보 송신 요구에 의해 지정된 추가 비트수분의 비트를 추출함으로써 추가 비트 정보를 생성한다. 이러한 추가 비트 정보의 생성은 비트 시프트에 의해 실현할 수 있다.
송신 정보 생성부(212)는, 필요한 오브젝트에 대하여 추가 비트 정보를 생성하면, 그것들의 추가 비트 정보를 도 16에 나타낸 포맷으로 추가 비트 스트림에 저장하고, 통신 제어부(211)는 생성된 추가 비트 스트림을 통신부(201)에 공급한다.
스텝 S223에 있어서 통신부(201)는, 통신 제어부(211)의 제어에 따라, 통신 제어부(211)로부터 공급된 추가 비트 정보가 포함되는 추가 비트 스트림을 클라이언트(114)로 송신하고, 추가 비트 정보 송신 처리는 종료된다.
또한, 추가 비트 스트림이 송신되면, 클라이언트(114)에서는 스텝 S196의 처리가 행해진다.
스텝 S196에 있어서, 통신부(241)는 통신 제어부(251)의 제어에 따라, 서버(112)로부터 송신되어 온 추가 비트 스트림을 수신하여 제어부(242)에 공급한다. 즉, 통신 제어부(251)는, 추가 비트 정보가 포함되는 추가 비트 스트림을 취득한다.
스텝 S197에 있어서 절대 좌표 위치 정보 디코더(131)는, 추가 비트 정보의 송신을 요구한 오브젝트에 대하여, 첫회 양자화 위치 정보의 하위 비트측에 추가 비트 정보를 부가함으로써 양자화 위치 정보를 생성한다.
스텝 S198에 있어서 절대 좌표 위치 정보 디코더(131)는, 스텝 S197의 처리에서 얻어진 양자화 위치 정보를 역양자화한다.
그리고, 스텝 S199에 있어서 절대 좌표 위치 정보 디코더(131)는, 스텝 S198의 역양자화에 의해 얻어진 자공간 내 위치 정보를 친공간 내 위치 정보로 변환한다.
또한, 스텝 S198 및 스텝 S199에서는, 도 22의 스텝 S135 및 스텝 S136과 동일한 처리가 행해진다.
또한, 스텝 S199에서는, 절대 좌표 위치 정보 디코더(131)는, 얻어진 복호 친공간 내 위치 정보에 대하여 절대 거리 absoluteDistance를 승산함으로써, 오브젝트 위치 정보를 구한다.
이상의 스텝 S197 내지 스텝 S199의 처리는, 추가 비트 정보를 취득한 오브젝트에 대해서만 행해진다.
또한, 이와 같이 하여 얻어진 오브젝트 위치 정보에 대하여, 충분한 양자화 정밀도의 오브젝트의 위치 정보(친공간 내 위치 정보)가 얻어질 때까지, 상술한 스텝 S191 내지 스텝 S199의 처리가 반복해서 행해지도록 해도 된다.
스텝 S200에 있어서 좌표 변환부(132)는, 오브젝트마다, 오브젝트 위치 정보와, 수청자 위치 취득 장치(113)로부터 공급된 수청자 위치 정보에 기초하여, 친공간 내에 있어서의 수청자(U12)로부터 본 오브젝트의 위치를 나타내는 극좌표 위치 정보를 산출한다.
그리고, 좌표 변환부(132)는, 얻어진 극좌표 위치 정보를 출력부(243)에 공급하고, 출력부(243)는, 그것들의 극좌표 위치 정보를 MPEG-H 렌더러(115)에 출력한다. 출력부(243)가 전체 오브젝트의 극좌표 위치 정보를 MPEG-H 렌더러(115)에 출력하면, 추가 비트 정보 취득 처리는 종료된다.
추가 비트 정보 취득 처리가 종료되면 MPEG-H 렌더러(115)에서는 렌더링이 행해진다. 즉, MPEG-H 렌더러(115)는, 서버(112) 등으로부터 취득한 각 오브젝트의 오디오 데이터와, 출력부(243)로부터 공급된 극좌표 위치 정보에 기초하여 렌더링을 행하고, 친공간 내의 각 위치에 오브젝트의 음상이 정위되는 재생 오디오 데이터를 생성하여, 스피커 등의 재생계로 출력한다.
이상과 같이 하여 클라이언트(114)는, 필요에 따라 추가 비트 정보를 취득하여, 최종적인 오브젝트 위치 정보를 구한다. 또한, 서버(112)는, 클라이언트(114)의 요구에 따라 추가 비트 정보를 생성하여, 송신한다.
이렇게 함으로써, 클라이언트(114)에서는, 처음부터 최고 정밀도 양자화 위치 정보를 서버(112)로부터 취득하는 것보다도 적은 정보 전송량으로, 충분한 정밀도의 친공간 내 위치 정보를 얻을 수 있다.
또한, 필요로 되는 양자화 정밀도를 구하는 처리나 극좌표 위치 정보를 산출하는 처리는, 모두 클라이언트(114)에서 행해지므로, 서버(112)나 절대 좌표 위치 정보 인코더(111)와 같은 콘텐츠 배신측의 처리 부하를 저감시킬 수 있다.
<제2 실시 형태의 변형예 1>
<자공간의 배치에 대하여>
그런데, 이상에 있어서는 친공간 내에 하나 또는 복수의 자공간을 형성함으로써, 효율적으로 친공간 내 위치 정보를 부호화하는 예에 대하여 설명했다.
그러나, 예를 들어 도 24에 나타낸 바와 같이, 원래는 상이한 2개의 친공간의 각각에 포함되어 있는 자공간의 각각을, 가상적인 1개의 친공간 내에 배치하도록 해도 된다.
도 24에 나타내는 예에서는, 자공간 CA31과 자공간 CA32는, 원래 서로 다른 친공간 내에 포함되는 것이었지만, 여기서는 가상적인 1개의 친공간 내에 그것들의 자공간 CA31과 자공간 CA32가 배치되어 있다.
이렇게 함으로써, 예를 들어 수청자(U12)가 자신의 기호에 따라 자공간 CA31과 자공간 CA32 중 어느 한쪽만을 선택할 수도 있다. 이 경우, 서버(112)는 수청자(U12)의 선택에 따라, 자공간 CA31과 자공간 CA32 중 수청자(U12)에 선택된 쪽의 자공간 내에 있는 오브젝트의 오디오 데이터와, 그것들의 오브젝트의 양자화 위치 정보를 클라이언트(114)로 전송한다.
이에 의해, 클라이언트(114)측에서는, 수청자(U12)에 의해 선택된 자공간에 대해서만 오디오 데이터의 재생을 행할 수 있다.
또한, 이러한 예에 있어서, 예를 들어 자공간 CA31과 자공간 CA32가 서로 다른 잔향 특성을 갖는 공간으로 되어도 된다. 즉, 자공간 CA31과 자공간 CA32에 대하여 서로 다른 잔향 특성을 부여하도록 해도 된다. 또한, 자공간 CA31 내와 자공간 CA32 내에서 완전히 동일한 오브젝트가 동일한 위치 관계로 존재하도록 해도 된다.
그렇게 하면, 수청자(U12)는 자공간을 선택하는 것만으로, 다른 잔향 특성이 부가된 오디오 데이터를 재생할 수 있으므로, 동일한 오브젝트의 배치에서도 다른 공간에 있는 듯한 체험을 할 수 있다. 또한, 수청자(U12)는, 자공간 CA31과 자공간 CA32라는 복수의 전혀 다른 공간을 왕래하고 있는 듯한 체험을 할 수 있다. 또한, 1개의 친공간 내에 복수의 자공간을 형성하는 경우, 악기의 오브젝트나 환성의 오브젝트와 같은 각 오브젝트의 속성마다 자공간을 형성하도록 해도 된다. 이 경우, 서로 다른 자공간의 각각에 포함되어 있는 오브젝트의 각각은 서로 다른 속성을 갖게 된다.
그 외, 예를 들어 도 25에 나타낸 바와 같이 복수의 자공간이 서로 겹치도록 되어 있어도 된다. 이 예에서는, 자공간 CA41과 자공간 CA42가 1개의 친공간 내에 형성되어 있지만, 자공간 CA42 전체가 자공간 CA41 내에 포함되어 있다.
즉, 자공간 CA42 내에 존재하는 오브젝트는, 그 자공간 CA42에 속할뿐만 아니라 동시에 자공간 CA41에도 속하게 된다.
이러한 경우에 있어서도 수청자(U12)가 자공간 CA41과 자공간 CA42 중 어느 한쪽을 선택할 수 있도록 하여, 그 선택된 자공간 내의 오브젝트의 오디오 데이터가 재생되도록 할 수 있다.
그러한 경우, 예를 들어 친공간에 관한 콘텐츠를 재생할 때에, 어느 자공간을 선택할지에 따라 재생되는 오브젝트가 변화되도록 할 수 있다.
예를 들어, 콘서트의 콘텐츠를 재생하는 것으로 하고, 자공간 CA42 내에만 존재하는 오브젝트는 악기의 오브젝트이고, 자공간 CA41 내에 존재하지만, 자공간 CA42 내에는 존재하지 않는 오브젝트는 환성의 오브젝트라고 한다.
이 경우, 수청자(U12)가 자공간 CA41을 선택하면, 악기와 환성의 양쪽의 소리가 재생되고, 수청자(U12)가 자공간 CA42를 선택하면, 악기의 소리만이 재생되게 된다. 즉, 악기만의 공간과, 악기뿐만 아니라 환성까지 포함된 공간을 자유롭게 전환할 수 있다.
도 25에 나타낸 예와 같이 1개의 오브젝트가 복수의 자공간에 속할 수 있는 경우, 상술한 헤더 정보는, 예를 들어 도 26에 나타낸 바와 같이 된다.
도 26에 나타내는 예에서는, 헤더 정보에는 도 11에 나타낸 예의 경우에 더하여, 새롭게 문자 「numOfAttChildArea」에 의해 나타나는 i번째의 오브젝트가 속하는 자공간의 수를 나타내는 정보가 오브젝트마다 저장되어 있다. 그리고, 오브젝트가 속하는 자공간의 수를 나타내는 정보 「numOfAttChildArea」에 이어서, 그 정보에 의해 나타나는 수만큼, 오브젝트 소속 정보 「ChildAreaIndexForObj[i]」가 저장되어 있다.
또한, 복수의 자공간에 중복하여 속하는 오브젝트의 자공간 내 위치 정보의 양자화는, 예를 들어 ChildAreaIndexForObj[0]으로 지정된 자공간 등, 그 오브젝트가 속하는 자공간 중 어느 하나의 자공간에 대하여 행해지도록 하면 된다. 또한, 동일한 오브젝트가 복수의 자공간에 속하는 경우에는, 그 오브젝트에 대하여, 어느 자공간의 자공간 내 위치 정보가 양자화되는지를 미리 정해 두면 된다.
즉, 오브젝트가 속하는 복수의 자공간 중 1개의 자공간에 대한 자공간 내 위치 정보만이 양자화되어 전송되고, 나머지 자공간에 대한 양자화 위치 정보는 전송되지 않는다. 클라이언트(114)측에서는, 어느 오브젝트의 1개의 자공간에 대한 자공간 내 위치 정보로부터, 동일한 오브젝트의 다른 자공간에 대한 자공간 내 위치 정보를 구하도록 하면 된다.
또한, 도 26에 나타내는 헤더 정보 내의 자공간 정보 「ChildAreaInfo()」 부분의 포맷은, 예를 들어 도 27에 나타낸 바와 같이 된다. 또한, 도 27에 나타내는 자공간 정보의 포맷은, 도 12에 나타낸 것과 동일하므로, 그 설명은 생략한다.
<제2 실시 형태의 변형예 2>
<스킵 프레임에 대하여>
또한, 자유 시점 오디오에서는, 서버(112)와 클라이언트(114) 사이에서 서로 통신이 행해지고, 이에 의해 양자화 위치 정보 등의 정보가 교환된다.
그러나, 서버(112)와 클라이언트(114) 사이의 네트워크, 즉 전송로의 폭주 상황에 따라서는 지연이 발생하여, 오디오 데이터의 재생 시각까지 양자화 위치 정보 등의 재생에 필요한 정보를 클라이언트(114)가 취득할 수 없을 가능성도 있다.
그래서, 예를 들어 도 28에 나타낸 바와 같이 전송 지연이 커진 경우에는, 클라이언트(114)로부터 서버(112)에 대하여 스킵할 프레임수를 전달하도록 해도 된다.
이 경우, 서버(112)는 클라이언트(114)에 의해 지정된 스킵 프레임수만큼, 시간적으로 앞의 오브젝트의 양자화 위치 정보와, 현재의 재생 시각으로부터 스킵 프레임의 시각까지의 보간 정보를 전송한다.
예를 들어, 도 28의 화살표 Q61로 나타낸 바와 같이, 프레임 1에 있어서는 XYZ 좌표계에 있어서의 위치(X1, Y1, Z1)에 있던 오브젝트가, 7프레임 후의 프레임 8에서는 XYZ 좌표계에 있어서의 위치(X2, Y2, Z2)로 이동하고 있는 콘텐츠를 재생하는 것으로 한다.
이때, 화살표 Q62로 나타낸 바와 같이 프레임 1 및 프레임 2까지는 양자화 위치 정보를 지연 없이 송수신할 수 있었지만, 이 시점에 있어서 클라이언트(114)에 의해, 전송로의 대역이 좁아 지연이 발생할 가능성이 높다고 판정된 것으로 하자.
그러면, 클라이언트(114)는, 서버(112)에 대하여, 프레임 3의 첫회 양자화 위치 정보의 송신을 요구하는 것이 아니라, 그 대신에 프레임 8을 지정하는 요구 스킵 프레임수와 보간 처리에 사용하는 보간 정보의 송신을 요구한다.
여기서 요구 스킵 프레임수는, 양자화 위치 정보의 송신을 스킵하는 프레임의 수를 나타내는 정보이다. 여기서는, 예를 들어 요구 스킵 프레임수 「5」가 서버(112)에 대하여 송신되므로, 서버(112)는 송신이 완료된 프레임 2 후의 5프레임분을 스킵하고, 그 다음 프레임 8에 대하여 양자화 위치 정보와 보간 정보를 송신한다.
이에 의해, 클라이언트(114)측에서는 프레임 8의 양자화 위치 정보에 대한 복호 처리에 의해 친공간 내 위치 정보를 얻을 수 있다. 또한, 클라이언트(114)에서는 프레임 2의 친공간 내 위치 정보와 프레임 8의 친공간 내 위치 정보 및 보간 정보에 기초하여, 프레임 3 내지 프레임 7에 있어서의 친공간 내 위치 정보를 보간 처리에 의해 구할 수 있다.
이러한 보간 처리를 행함으로써, 위치(X1, Y1, Z1)로부터 위치(X2, Y2, Z2)로 이동하는 오브젝트가 임의의 타이밍(프레임)에 있어서의 위치를 구할 수 있다.
이렇게 클라이언트(114)가 서버(112)에 대하여 요구 스킵 프레임수를 송신하는 경우, 클라이언트(114)에 의해 송신되는 첫회 양자화 위치 정보 송신 요구는, 예를 들어 도 29에 나타낸 바와 같이 된다.
도 29에 나타내는 예에서는, 첫회 양자화 위치 정보 송신 요구에는, 도 13에 나타낸 i번째의 오브젝트의 각 축방향의 분할 인덱스 「exp_index_initial_x[i]」, 「exp_index_initial_y[i]」 및 「exp_index_initial_z[i]」에 더하여, 문자 「SkipFrameRequest」에 의해 나타나는 요구 스킵 프레임수가 더 포함되어 있다.
또한, 도 29에 나타낸 첫회 양자화 위치 정보 송신 요구를 수신한 서버(112)는, 예를 들어 도 30에 나타내는 비트 스트림 포맷으로 첫회 양자화 위치 정보를 송신한다.
도 30에 나타내는 예에서는, 비트 스트림에는 도 14에 나타낸 첫회 양자화 위치 정보 「Xpos_initial[i]」, 「Ypos_initial[i]」 및 「Zpos_initial[i]」에 더하여, 문자 「InterpolMode[i]」에 의해 나타나는 보간 정보가 더 포함되어 있다.
특히, 여기서는 보간 정보 InterpolMode[i]는, i번째의 오브젝트에 대하여, 1차 보간을 행할지 또는 2차 보간을 행할지를 나타내는 정보로 되어 있다. 단, 클라이언트(114)로부터 도 29가 아니라 도 13에 나타낸 첫회 양자화 위치 정보 송신 요구가 수신된 경우에는, 보간 정보 InterpolMode[i]는 비트 스트림에 저장되지 않는다.
예를 들어 오브젝트가 등속도 운동에 상당하는 움직임을 하고 있는 경우에는 1차 보간이 행해지게 되고, 오브젝트가 등가속도 운동에 상당하는 움직임을 하고 있는 경우에는 2차 보간이 행해지도록 하면 된다.
또한, 여기서는 1차 보간과 2차 보간 중 어느 것이 선택적으로 행해지는 예에 대하여 설명하지만, 그 이외의 보간 방법이 사용되어도 물론 된다. 또한, 보간 정보로서 보간 처리에 사용하는 계수가 저장되도록 해도 되고, 보간 처리에 사용하는 계수 자체는 클라이언트(114)가 미리 보유하고 있도록 해도 된다.
또한, 도 30에 나타내는 예에서 비트 스트림에 저장되어 있는 첫회 양자화 위치 정보는, 요구 스킵 프레임수분만큼 스킵한 앞의 프레임의 것으로 되어 있다.
<위치 정보 취득 처리 및 위치 정보 송신 처리의 설명>
여기서, 클라이언트(114)가 전송로에서의 지연 등에 의해 도 29에 나타낸 첫회 양자화 위치 정보 송신 요구를 송신하는 경우에 행해지는 처리에 대하여 설명한다.
즉, 이하, 도 31의 흐름도를 참조하여, 클라이언트(114)에 의한 위치 정보 취득 처리 및 서버(112)에 의한 위치 정보 송신 처리에 대하여 설명한다.
또한, 제어부(242)는, 예를 들어 서버(112)와 클라이언트(114) 사이의 전송로의 대역 상황, 즉 네트워크의 트래픽이나, 콘텐츠의 재생 시의 타임 스탬프, 즉 콘텐츠의 재생 상황에 기초하여, 양자화 위치 정보에 대한 프레임의 스킵을 행할지, 몇 프레임분 스킵할지를 결정한다.
클라이언트(114)에 의해 위치 정보 취득 처리가 개시되면, 스텝 S251에 있어서, 통신부(241)는, 통신 제어부(251)의 제어에 따라, 제어부(242)로부터 공급된 첫회 양자화 위치 정보 송신 요구를 서버(112)로 송신한다.
즉, 제어부(242)는, 네트워크의 트래픽이나 콘텐츠의 재생 상황 등에 기초하여, 도 29에 나타낸 첫회 양자화 위치 정보 송신 요구를 생성하여, 통신부(241)에 공급한다. 이 첫회 양자화 위치 정보 송신 요구에는, 요구 스킵 프레임수가 포함되어 있다.
그러면, 서버(112)에서는, 스텝 S291에 있어서 통신부(201)는, 통신 제어부(211)의 제어에 따라, 클라이언트(114)로부터 송신되어 온 첫회 양자화 위치 정보 송신 요구를 수신하여 제어부(202)에 공급한다.
스텝 S292에 있어서, 송신 정보 생성부(212)는, 통신부(201)로부터 공급된 첫회 양자화 위치 정보 송신 요구에 따라, 기록부(121)에 기록되어 있는 부호화 데이터 파일을 참조하여, 첫회 양자화 위치 정보를 생성한다.
이 경우, 예를 들어 도 30에 나타내는 비트 스트림 포맷으로, 스킵 후의 최초의 프레임의 첫회 양자화 위치 정보와 보간 정보가 포함되는 비트 스트림이 생성된다. 통신 제어부(211)는, 이와 같이 하여 생성된 비트 스트림을 통신부(201)에 공급한다. 이때, 송신 정보 생성부(212)는, 스킵 전후의 프레임이나 스킵되는 프레임에 있어서의 양자화 위치 정보, 즉 오브젝트의 위치로부터 오브젝트의 움직임을 특정하고, 그 특정 결과에 따른 보간 정보가 비트 스트림에 포함되도록 한다.
스텝 S293에 있어서, 통신부(201)는, 통신 제어부(211)로부터 공급된 비트 스트림, 즉 각 오브젝트의 첫회 양자화 위치 정보를 통신 제어부(211)의 제어에 따라 클라이언트(114)로 송신하고, 위치 정보 송신 처리는 종료된다.
서버(112)에 의해 첫회 양자화 위치 정보가 송신되면, 스텝 S252에 있어서, 통신부(241)는, 서버(112)로부터 송신되어 온 첫회 양자화 위치 정보를 통신 제어부(251)의 제어에 따라 수신하여, 제어부(242)에 공급한다.
첫회 양자화 위치 정보가 취득되면, 그 후, 스텝 S253 및 스텝 S254의 처리가 행해지지만, 이들 처리는 도 22의 스텝 S135 및 스텝 S136의 처리와 마찬가지이므로, 그 설명은 생략한다. 단, 여기서는 스킵 후의 최초의 프레임에 대하여 처리가 행해져, 그 프레임의 복호 친공간 내 위치 정보가 구해진다.
스텝 S255에 있어서, 절대 좌표 위치 정보 디코더(131)는, 스텝 S254에 있어서 얻어진 스킵 후의 프레임의 복호 친공간 내 위치 정보와, 그 직전에 얻어진 스킵 전의 프레임의 복호 친공간 내 위치 정보에 기초하여, 스텝 S252에서 첫회 양자화 위치 정보와 함께 수신한 보간 정보에 의해 나타나는 보간 처리를 행한다.
즉, 예를 들어 절대 좌표 위치 정보 디코더(131)는, 보간 정보에 의해 나타나는 처리, 즉 1차 보간 또는 2차 보간을 행함으로써, 스킵된 각 프레임의 복호 친공간 내 위치 정보를 생성한다.
또한 절대 좌표 위치 정보 디코더(131)는, 이상의 처리에서 얻어진, 스킵된 프레임과, 스킵 후의 최초의 프레임에 대하여, 각 프레임의 복호 친공간 내 위치 정보에 절대 거리 absoluteDistance를 승산함으로써, 각 프레임에 있어서의 오브젝트의 위치 정보를 구한다. 이와 같이 하여 오브젝트 위치 정보가 구해지면, 위치 정보 취득 처리는 종료된다.
이상과 같이 하여 클라이언트(114)는, 몇몇 프레임을 스킵할 때에는, 요구 스킵 프레임수가 포함되는 첫회 양자화 위치 정보 송신 요구를 송신하고, 스킵 후의 프레임의 친공간 내 위치 정보를 구함과 함께, 보간 처리에 의해 스킵한 프레임의 친공간 내 위치 정보를 구한다. 또한, 서버(112)는, 요구 스킵 프레임수에 따라 첫회 양자화 위치 정보와 보간 정보를 클라이언트(114)로 송신한다.
이렇게 함으로써, 전송로에서 지연이 발생하는 경우라도, 콘텐츠의 재생에 지연이 발생해 버리는 것을 억제할 수 있다.
이상과 같이 본 기술에 의하면, 친공간 내에서 오브젝트의 존재 위치에 치우침이 있는 경우에는 자공간을 사용하여 오브젝트의 위치를 나타내는 정보를 전송함으로써, 적은 전송량으로 필요 정밀도를 보유한 채, 오브젝트의 위치를 나타내는 정보를 전송할 수 있다.
또한, 제2 실시 형태의 변형예 1과 같이, 2 이상의 전혀 다른 공간을 각각 자공간으로서 취급하고, 1개의 친공간 내에서 그것들의 자공간을 관리함으로써, 수청자는 필요한 자공간만을 복호함으로써 전혀 다른 복수의 공간의 왕래 체험이 가능해진다.
또한 제2 실시 형태의 변형예 2와 같이, 전송로가 혼잡해져 재생 시각까지 필요한 비트 스트림이 도착하지 않는 경우에도, 미리 판독과 보간에 의해 원활하게 오브젝트의 이동 재생이 가능해진다.
<컴퓨터의 구성예>
그런데, 상술한 일련의 처리는, 하드웨어에 의해 실행할 수도 있고, 소프트웨어에 의해 실행할 수도 있다. 일련의 처리를 소프트웨어에 의해 실행하는 경우에는, 그 소프트웨어를 구성하는 프로그램이, 컴퓨터에 인스톨된다. 여기서, 컴퓨터에는, 전용의 하드웨어에 내장되어 있는 컴퓨터나, 각종 프로그램을 인스톨함으로써, 각종 기능을 실행하는 것이 가능한, 예를 들어 범용의 퍼스널 컴퓨터 등이 포함된다.
도 32는, 상술한 일련의 처리를 프로그램에 의해 실행하는 컴퓨터의 하드웨어의 구성예를 나타내는 블록도이다.
컴퓨터에 있어서, CPU(Central Processing Unit)(501), ROM(Read Only Memory)(502), RAM(Random Access Memory)(503)은, 버스(504)에 의해 서로 접속되어 있다.
버스(504)에는, 또한, 입출력 인터페이스(505)가 접속되어 있다. 입출력 인터페이스(505)에는, 입력부(506), 출력부(507), 기록부(508), 통신부(509) 및 드라이브(510)가 접속되어 있다.
입력부(506)는, 키보드, 마우스, 마이크로폰, 촬상 소자 등을 포함한다. 출력부(507)는, 디스플레이, 스피커 등을 포함한다. 기록부(508)는, 하드 디스크나 불휘발성의 메모리 등을 포함한다. 통신부(509)는, 네트워크 인터페이스 등을 포함한다. 드라이브(510)는, 자기 디스크, 광 디스크, 광자기 디스크, 또는 반도체 메모리 등의 리무버블 기록 매체(511)를 구동한다.
이상과 같이 구성되는 컴퓨터에서는, CPU(501)가, 예를 들어 기록부(508)에 기록되어 있는 프로그램을, 입출력 인터페이스(505) 및 버스(504)를 통해, RAM(503)에 로드하여 실행함으로써, 상술한 일련의 처리가 행해진다.
컴퓨터(CPU(501))가 실행하는 프로그램은, 예를 들어 패키지 미디어 등으로서의 리무버블 기록 매체(511)에 기록하여 제공할 수 있다. 또한, 프로그램은, 로컬 에어리어 네트워크, 인터넷, 디지털 위성 방송과 같은, 유선 또는 무선의 전송 매체를 통해 제공할 수 있다.
컴퓨터에서는, 프로그램은, 리무버블 기록 매체(511)를 드라이브(510)에 장착함으로써, 입출력 인터페이스(505)를 통해, 기록부(508)에 인스톨할 수 있다. 또한, 프로그램은, 유선 또는 무선의 전송 매체를 통해, 통신부(509)에서 수신하여, 기록부(508)에 인스톨할 수 있다. 그 밖에, 프로그램은, ROM(502)이나 기록부(508)에, 미리 인스톨해 둘 수 있다.
또한, 컴퓨터가 실행하는 프로그램은, 본 명세서에서 설명하는 순서에 따라 시계열로 처리가 행해지는 프로그램이어도 되고, 병렬로, 혹은 호출이 행해졌을 때 등의 필요한 타이밍에 처리가 행해지는 프로그램이어도 된다.
또한, 본 기술의 실시 형태는, 상술한 실시 형태에 한정되는 것은 아니고, 본 기술의 요지를 일탈하지 않는 범위에 있어서 다양한 변경이 가능하다.
예를 들어, 본 기술은, 하나의 기능을 네트워크를 통해 복수의 장치에서 분담, 공동하여 처리하는 클라우드 컴퓨팅의 구성을 취할 수 있다.
또한, 상술한 흐름도에서 설명한 각 스텝은, 하나의 장치에서 실행하는 것 외에, 복수의 장치에서 분담하여 실행할 수 있다.
또한, 하나의 스텝에 복수의 처리가 포함되는 경우에는, 그 1개의 스텝에 포함되는 복수의 처리는, 하나의 장치에서 실행하는 것 외에, 복수의 장치에서 분담하여 실행할 수 있다.
또한, 본 기술은, 이하의 구성으로 하는 것도 가능하다.
(1)
친공간 내에 포함되는 자공간의 상기 친공간 내에 있어서의 위치와 크기에 관한 공간 정보와, 상기 자공간에 포함되는 오브젝트의 상기 자공간 내에 있어서의 위치를 나타내는 자공간 내 위치 정보를 취득하는 취득부와,
상기 공간 정보 및 상기 자공간 내 위치 정보에 기초하여, 상기 친공간 내에 있어서의 상기 오브젝트의 위치를 나타내는 친공간 내 위치 정보를 산출하는 산출부
를 구비하는 정보 처리 장치.
(2)
상기 친공간은 절대 좌표에 의해 표시되는
(1)에 기재된 정보 처리 장치.
(3)
상기 공간 정보는, 좌표 변환을 위한 변환 계수인
(1) 또는 (2)에 기재된 정보 처리 장치.
(4)
상기 변환 계수는 1차 함수의 파라미터인
(3)에 기재된 정보 처리 장치.
(5)
상기 공간 정보는, 상기 친공간 내에 있어서의 상기 자공간의 기준이 되는 정점의 위치를 나타내는 정보 및 상기 친공간 내에 있어서의 상기 자공간의 상기 정점에 대한 대각 정점의 위치를 나타내는 정보인
(1) 또는 (2)에 기재된 정보 처리 장치.
(6)
상기 자공간은 절대 좌표에 의해 표시되는
(1) 내지 (5) 중 어느 한 항에 기재된 정보 처리 장치.
(7)
상기 친공간 내에는 복수의 상기 자공간이 포함되어 있는
(1) 내지 (6) 중 어느 한 항에 기재된 정보 처리 장치.
(8)
상기 복수의 상기 자공간의 각각에 포함되어 있는 상기 오브젝트의 각각은, 서로 속성이 다른
(7)에 기재된 정보 처리 장치.
(9)
복수의 상기 자공간이 서로 겹쳐져 있는
(7)에 기재된 정보 처리 장치.
(10)
상기 복수의 상기 자공간은 서로 다른 잔향 특성을 갖고 있는
(7)에 기재된 정보 처리 장치.
(11)
상기 자공간에는 복수의 상기 오브젝트가 포함되어 있는
(1) 내지 (10) 중 어느 한 항에 기재된 정보 처리 장치.
(12)
1개의 상기 오브젝트가 복수의 상기 자공간 내에 포함되어 있는
(1) 내지 (11) 중 어느 한 항에 기재된 정보 처리 장치.
(13)
상기 취득부는, 취득한 상기 자공간 내 위치 정보보다도 정밀도가 높은 상기 자공간 내 위치 정보를 얻기 위한 추가 위치 정보를 더 취득하고,
상기 산출부는, 취득한 상기 자공간 내 위치 정보 및 상기 추가 위치 정보에 기초하여 얻어지는, 보다 정밀도가 높은 상기 자공간 내 위치 정보와, 상기 공간 정보에 기초하여 친공간 내 위치 정보를 산출하는
(1) 내지 (12) 중 어느 한 항에 기재된 정보 처리 장치.
(14)
상기 오브젝트는 오디오 오브젝트인
(1) 내지 (13) 중 어느 한 항에 기재된 정보 처리 장치.
(15)
정보 처리 장치가,
친공간 내에 포함되는 자공간의 상기 친공간 내에 있어서의 위치와 크기에 관한 공간 정보와, 상기 자공간에 포함되는 오브젝트의 상기 자공간 내에 있어서의 위치를 나타내는 자공간 내 위치 정보를 취득하고,
상기 공간 정보 및 상기 자공간 내 위치 정보에 기초하여, 상기 친공간 내에 있어서의 상기 오브젝트의 위치를 나타내는 친공간 내 위치 정보를 산출하는
정보 처리 방법.
(16)
친공간 내에 포함되는 자공간의 상기 친공간 내에 있어서의 위치와 크기에 관한 공간 정보와, 상기 자공간에 포함되는 오브젝트의 상기 자공간 내에 있어서의 위치를 나타내는 자공간 내 위치 정보를 취득하고,
상기 공간 정보 및 상기 자공간 내 위치 정보에 기초하여, 상기 친공간 내에 있어서의 상기 오브젝트의 위치를 나타내는 친공간 내 위치 정보를 산출하는
스텝을 포함하는 처리를 컴퓨터에 실행시키는 프로그램.
11: 인코더
21: 취득부
22: 부호화부
23: 통신부
31: 자공간 결정부
32: 변환부
33: 양자화부
61: 디코더
71: 취득부
72: 복호부
73: 출력부
81: 역양자화부
82: 변환부

Claims (16)

  1. 친공간 내에 포함되는 자공간의 상기 친공간 내에 있어서의 위치와 크기에 관한 공간 정보와, 상기 자공간에 포함되는 오브젝트의 상기 자공간 내에 있어서의 위치를 나타내는 자공간 내 위치 정보를 취득하는 취득부와,
    상기 공간 정보 및 상기 자공간 내 위치 정보에 기초하여, 상기 친공간 내에 있어서의 상기 오브젝트의 위치를 나타내는 친공간 내 위치 정보를 산출하는 산출부
    를 구비하는, 정보 처리 장치.
  2. 제1항에 있어서, 상기 친공간은 절대 좌표에 의해 표시되는,
    정보 처리 장치.
  3. 제1항에 있어서, 상기 공간 정보는, 좌표 변환을 위한 변환 계수인,
    정보 처리 장치.
  4. 제3항에 있어서, 상기 변환 계수는 1차 함수의 파라미터인,
    정보 처리 장치.
  5. 제1항에 있어서, 상기 공간 정보는, 상기 친공간 내에 있어서의 상기 자공간의 기준이 되는 정점의 위치를 나타내는 정보 및 상기 친공간 내에 있어서의 상기 자공간의 상기 정점에 대한 대각 정점의 위치를 나타내는 정보인,
    정보 처리 장치.
  6. 제1항에 있어서, 상기 자공간은 절대 좌표에 의해 표시되는,
    정보 처리 장치.
  7. 제1항에 있어서, 상기 친공간 내에는 복수의 상기 자공간이 포함되어 있는,
    정보 처리 장치.
  8. 제7항에 있어서, 상기 복수의 상기 자공간의 각각에 포함되어 있는 상기 오브젝트의 각각은, 서로 속성이 다른,
    정보 처리 장치.
  9. 제7항에 있어서, 복수의 상기 자공간이 서로 겹쳐져 있는,
    정보 처리 장치.
  10. 제7항에 있어서, 상기 복수의 상기 자공간은 서로 다른 잔향 특성을 갖고 있는,
    정보 처리 장치.
  11. 제1항에 있어서, 상기 자공간에는 복수의 상기 오브젝트가 포함되어 있는,
    정보 처리 장치.
  12. 제1항에 있어서, 1개의 상기 오브젝트가 복수의 상기 자공간 내에 포함되어 있는,
    정보 처리 장치.
  13. 제1항에 있어서, 상기 취득부는, 취득한 상기 자공간 내 위치 정보보다도 정밀도가 높은 상기 자공간 내 위치 정보를 얻기 위한 추가 위치 정보를 더 취득하고,
    상기 산출부는, 취득한 상기 자공간 내 위치 정보 및 상기 추가 위치 정보에 기초하여 얻어지는, 보다 정밀도가 높은 상기 자공간 내 위치 정보와, 상기 공간 정보에 기초하여 친공간 내 위치 정보를 산출하는,
    정보 처리 장치.
  14. 제1항에 있어서, 상기 오브젝트는 오디오 오브젝트인,
    정보 처리 장치.
  15. 정보 처리 장치가,
    친공간 내에 포함되는 자공간의 상기 친공간 내에 있어서의 위치와 크기에 관한 공간 정보와, 상기 자공간에 포함되는 오브젝트의 상기 자공간 내에 있어서의 위치를 나타내는 자공간 내 위치 정보를 취득하고,
    상기 공간 정보 및 상기 자공간 내 위치 정보에 기초하여, 상기 친공간 내에 있어서의 상기 오브젝트의 위치를 나타내는 친공간 내 위치 정보를 산출하는,
    정보 처리 방법.
  16. 친공간 내에 포함되는 자공간의 상기 친공간 내에 있어서의 위치와 크기에 관한 공간 정보와, 상기 자공간에 포함되는 오브젝트의 상기 자공간 내에 있어서의 위치를 나타내는 자공간 내 위치 정보를 취득하고,
    상기 공간 정보 및 상기 자공간 내 위치 정보에 기초하여, 상기 친공간 내에 있어서의 상기 오브젝트의 위치를 나타내는 친공간 내 위치 정보를 산출하는
    스텝을 포함하는 처리를 컴퓨터에 실행시키는, 프로그램.
KR1020207036936A 2018-07-04 2019-06-20 정보 처리 장치 및 방법, 그리고 프로그램 KR20210030279A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2018127547 2018-07-04
JPJP-P-2018-127547 2018-07-04
JPJP-P-2018-132490 2018-07-12
JP2018132490 2018-07-12
PCT/JP2019/024441 WO2020008890A1 (ja) 2018-07-04 2019-06-20 情報処理装置および方法、並びにプログラム

Publications (1)

Publication Number Publication Date
KR20210030279A true KR20210030279A (ko) 2021-03-17

Family

ID=69060234

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207036936A KR20210030279A (ko) 2018-07-04 2019-06-20 정보 처리 장치 및 방법, 그리고 프로그램

Country Status (8)

Country Link
US (2) US11790925B2 (ko)
EP (1) EP3819902A4 (ko)
JP (2) JP7276337B2 (ko)
KR (1) KR20210030279A (ko)
CN (1) CN112352278A (ko)
BR (1) BR112020026728A2 (ko)
SG (1) SG11202012259RA (ko)
WO (1) WO2020008890A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11937070B2 (en) * 2021-07-01 2024-03-19 Tencent America LLC Layered description of space of interest

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3214776B2 (ja) * 1994-04-13 2001-10-02 株式会社東芝 仮想環境表示装置および方法
WO2004063893A2 (en) * 2003-01-13 2004-07-29 Christopher Spooner System and method for spatial organization
US8504317B2 (en) * 2009-09-04 2013-08-06 Panasonic Corporation Position calibration information collecting apparatus, position calibration information collecting method, and position calibration information collecting program
US9564138B2 (en) 2012-07-31 2017-02-07 Intellectual Discovery Co., Ltd. Method and device for processing audio signal
KR20140128564A (ko) * 2013-04-27 2014-11-06 인텔렉추얼디스커버리 주식회사 음상 정위를 위한 오디오 시스템 및 방법
EP2928216A1 (en) 2014-03-26 2015-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for screen related audio object remapping
WO2019012131A1 (en) * 2017-07-14 2019-01-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. CONCEPT FOR GENERATING AN ENHANCED AUDIO FIELD DESCRIPTION OR A MODIFIED AUDIO FIELD DESCRIPTION USING A MULTIPOINT SOUND FIELD DESCRIPTION
WO2019149337A1 (en) * 2018-01-30 2019-08-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatuses for converting an object position of an audio object, audio stream provider, audio content production system, audio playback apparatus, methods and computer programs

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ISO/IEC 23008-3 Information technology-High efficiency coding and media delivery in heterogeneous environments-Part 3: 3D audio

Also Published As

Publication number Publication date
BR112020026728A2 (pt) 2021-03-23
US11790925B2 (en) 2023-10-17
US20210272576A1 (en) 2021-09-02
JPWO2020008890A1 (ja) 2021-08-02
JP2023083539A (ja) 2023-06-15
JP7276337B2 (ja) 2023-05-18
SG11202012259RA (en) 2021-01-28
WO2020008890A1 (ja) 2020-01-09
US20240013795A1 (en) 2024-01-11
EP3819902A1 (en) 2021-05-12
EP3819902A4 (en) 2021-11-10
CN112352278A (zh) 2021-02-09

Similar Documents

Publication Publication Date Title
JP7226436B2 (ja) 情報処理装置および方法、並びにプログラム
EP4250726A1 (en) Point cloud data encoding method, point cloud data decoding method, device, medium, and program product
US11843932B2 (en) Six degrees of freedom and three degrees of freedom backward compatibility
KR20200075826A (ko) 신호 처리 장치 및 방법, 그리고 프로그램
US20240013795A1 (en) Information processing device and method, and program
WO2019142665A1 (ja) 情報処理装置および方法
TW202228442A (zh) 幾何點雲壓縮編碼中顏色屬性的分量間殘差預測
CN114747231A (zh) 基于运动来选择音频流
KR20200139149A (ko) 정보 처리 장치 및 방법, 그리고 프로그램
KR20200054978A (ko) 부호화 장치 및 방법, 복호 장치 및 방법, 그리고 프로그램
WO2023172703A1 (en) Geometry point cloud coding
US20220377488A1 (en) Information processing apparatus and information processing method, and program
CN114787918A (zh) 信号处理装置、方法和程序
JP7485109B2 (ja) 情報処理装置および方法、並びにプログラム
EP4167600A2 (en) A method and apparatus for low complexity low bitrate 6dof hoa rendering
US20240129681A1 (en) Scaling audio sources in extended reality systems
WO2023132329A1 (ja) 点群復号装置、点群復号方法及びプログラム
CN115474041B (zh) 点云属性的预测方法、装置及相关设备
WO2023132330A1 (ja) 点群復号装置、点群復号方法及びプログラム
WO2022044818A1 (ja) 情報処理装置および方法
US20220201419A1 (en) Smart hybrid rendering for augmented reality/virtual reality audio
KR20230167090A (ko) 방위각 부호화 모드를 사용하여 점군 지오메트리 데이터를 부호화/복호화하는 방법 및 장치
JP2024500486A (ja) 点群ジオメトリデータを符号化/復号化するために球座標を量子化する方法及び装置
KR20230080405A (ko) 정보 처리 장치 및 방법, 그리고 프로그램