KR102140388B1

KR102140388B1 - 복호 장치, 복호 방법, 및 기록 매체

Info

Publication number: KR102140388B1
Application number: KR1020187027071A
Authority: KR
Inventors: 유키 야마모토; 도루 치넨; 미노루 츠지
Original assignee: 소니 주식회사
Priority date: 2015-06-19
Filing date: 2016-06-03
Publication date: 2020-07-31
Also published as: CN113470665A; US20180315436A1; WO2016203994A1; HK1244384A1; TWI607655B; TW201717663A; CA2989099C; JPWO2016203994A1; EP3316599B1; JP2023025251A; BR112017026743A2; CN107637097B; EP3316599A4; EP3316599A1; MX2017016228A; RU2017143404A3; JP6915536B2; JP7509190B2; CN107637097A; JP7205566B2

Abstract

본 기술은, 보다 고음질의 음성을 얻을 수 있도록 하는 부호화 장치 및 방법, 복호 장치 및 방법, 그리고 프로그램에 관한 것이다. 오디오 신호 복호부는, 부호화 오디오 데이터를 복호하여, 각 오브젝트의 오디오 신호를 얻는다. 메타데이터 복호부는, 부호화 메타데이터를 복호하여, 각 오브젝트의 오디오 신호의 프레임마다 복수의 메타데이터를 얻는다. 게인 산출부는, 메타데이터에 기초하여 스피커마다, 각 오브젝트의 오디오 신호의 VBAP 게인을 산출한다. 오디오 신호 생성부는, 스피커마다, 각 오브젝트의 오디오 신호에 VBAP 게인을 승산하고 가산하여, 각 스피커에 공급하는 오디오 신호를 생성한다. 본 기술은 복호 장치에 적용할 수 있다.

Description

복호 장치, 복호 방법, 및 기록 매체{DECODING DEVICE, DECODING METHOD AND RECORDING MEDIUM}

본 기술은 부호화 장치 및 방법, 복호 장치 및 방법, 그리고 프로그램에 관한 것으로, 특히 보다 고음질의 음성을 얻을 수 있도록 한 부호화 장치 및 방법, 복호 장치 및 방법, 그리고 프로그램에 관한 것이다.

종래, 오디오 오브젝트의 오디오 신호와, 그 오디오 오브젝트의 위치 정보 등의 메타데이터를 압축(부호화)하는 MPEG(Moving Picture Experts Group)-H 3D Audio 규격이 알려져 있다(예를 들어, 비특허문헌 1 참조).

이 기술에서는, 오디오 오브젝트의 오디오 신호와 메타데이터가 프레임마다 부호화되어 전송된다. 이때, 오디오 오브젝트의 오디오 신호의 1프레임당, 최대 하나의 메타데이터가 부호화되어 전송된다. 즉, 프레임에 따라서는, 메타데이터가 없는 경우도 있다.

또한, 부호화된 오디오 신호와 메타데이터는, 복호 장치에 있어서 복호되고, 복호에 의해 얻어진 오디오 신호와 메타데이터에 기초하여 렌더링이 행하여진다.

즉, 복호 장치에서는, 먼저 오디오 신호와 메타데이터가 복호된다. 복호의 결과, 오디오 신호에 대해서는 프레임 내의 샘플마다의 PCM(Pulse Code Modulation) 샘플값이 얻어진다. 즉, 오디오 신호로서 PCM 데이터가 얻어진다.

한편, 메타데이터에 대해서는, 프레임 내의 대표 샘플의 메타데이터, 구체적으로는 프레임 내의 마지막 샘플의 메타데이터가 얻어진다.

이와 같이 하여 오디오 신호와 메타데이터가 얻어지면, 복호 장치 내의 렌더러는, 프레임 내의 대표 샘플의 메타데이터로서의 위치 정보에 기초하여, 그 위치 정보에 의해 나타나는 위치에 오디오 오브젝트의 음상이 정위하도록, VBAP(Vector Base Amplitude Panning)에 의해 VBAP 게인을 산출한다. 이 VBAP 게인은, 재생측의 스피커마다 산출된다.

단, 오디오 오브젝트의 메타데이터는, 상술한 바와 같이 프레임 내의 대표 샘플, 즉 프레임 내의 마지막 샘플의 메타데이터이다. 따라서, 렌더러에서 산출된 VBAP 게인은 프레임 내의 마지막 샘플의 게인이며, 프레임 내의 그 이외의 샘플의 VBAP 게인은 구해져 있지 않다. 그로 인해, 오디오 오브젝트의 음성을 재생하기 위해서는, 오디오 신호의 대표 샘플 이외의 샘플의 VBAP 게인도 산출할 필요가 있다.

그래서, 렌더러에서는 보간 처리에 의해 각 샘플의 VBAP 게인이 산출된다. 구체적으로는, 스피커마다, 현프레임의 마지막 샘플의 VBAP 게인과, 그 현프레임 직전의 프레임의 마지막 샘플의 VBAP 게인으로부터, 이들 샘플 사이에 있는 현프레임의 샘플의 VBAP 게인이 선형 보간에 의해 산출된다.

이와 같이 하여, 오디오 오브젝트의 오디오 신호에 승산되는 각 샘플의 VBAP 게인이 스피커마다 얻어지면, 오디오 오브젝트의 음성을 재생할 수 있게 된다.

즉, 복호 장치에서는, 스피커마다 산출된 VBAP 게인이, 그 오디오 오브젝트의 오디오 신호에 승산되어 각 스피커에 공급되어, 음성이 재생된다.

ISO/IEC JTC1/SC29/WG11 N14747, August 2014, Sapporo, Japan, "Text of ISO/IEC 23008-3/DIS, 3D Audio"

그러나, 상술한 기술에서는, 충분히 고음질의 음성을 얻는 것이 곤란했다.

예를 들어 VBAP에서는, 산출된 각 스피커의 VBAP 게인의 제곱합이 1이 되도록 정규화가 행하여진다. 이러한 정규화에 의해, 음상의 정위 위치는, 재생 공간에 있어서 소정의 기준점, 예를 들어 음성 첨부 동화상이나 악곡 등의 콘텐츠를 시청하는 가상의 유저 헤드부 위치를 중심으로 하는, 반경이 1인 구의 표면 위에 위치하게 된다.

그러나, 프레임 내의 대표 샘플 이외의 샘플의 VBAP 게인은 보간 처리에 의해 산출되기 때문에, 그러한 샘플의 각 스피커의 VBAP 게인의 제곱합은 1이 되지 않는다. 그로 인해, 보간 처리에 의해 VBAP 게인을 산출한 샘플에 대해서는, 음성의 재생 시에 음상의 위치가 가상의 유저로부터 보아, 상술한 구면의 법선 방향이나, 구의 표면 위의 상하좌우 방향으로 어긋나 버리게 된다. 그렇게 되면, 음성 재생 시에 있어서, 1프레임의 기간 내에서 오디오 오브젝트의 음상 위치가 흔들리거나 하여 정위감이 악화되어, 음성의 음질이 열화되어 버린다.

특히, 1프레임을 구성하는 샘플수가 많아지면 질수록, 현프레임의 마지막 샘플 위치와, 그 현프레임 직전의 프레임의 마지막 샘플 위치 사이의 길이가 길어진다. 그렇게 되면, 보간 처리에 의해 산출된 각 스피커의 VBAP 게인의 제곱합과 1의 차가 커져, 음질의 열화가 커진다.

또한, 대표 샘플 이외의 샘플의 VBAP 게인을 보간 처리에 의해 산출하는 경우, 오디오 오브젝트의 움직임이 빠를 때일수록, 현프레임의 마지막 샘플의 VBAP 게인과, 그 현프레임 직전의 프레임의 마지막 샘플의 VBAP 게인의 차가 커진다. 그렇게 되면, 오디오 오브젝트의 움직임을 정확하게 렌더링할 수 없어져, 음질이 열화되어 버린다.

또한, 스포츠나 영화 등의 실제의 콘텐츠에서는, 씬이 불연속으로 전환된다. 그러한 경우, 씬의 전환 부분에서는, 오디오 오브젝트가 불연속으로 이동하게 된다. 그러나, 상술한 바와 같이 보간 처리에 의해 VBAP 게인을 산출하면, 보간 처리에 의해 VBAP 게인을 산출한 샘플의 구간, 즉 현프레임의 마지막 샘플과, 그 현프레임 직전의 프레임의 마지막 샘플 사이에서는, 음성에 대해서는 오디오 오브젝트가 연속적으로 이동하게 되어 버린다. 그렇게 되면, 오디오 오브젝트의 불연속적인 이동을 렌더링에 의해 표현할 수 없게 되어버려, 그 결과, 음성의 음질이 열화되어 버린다.

본 기술은, 이러한 상황을 감안하여 이루어진 것이며, 보다 고음질의 음성을 얻을 수 있도록 하는 것이다.

본 기술의 제1 측면의 복호 장치는, 오디오 오브젝트의 소정 시간 간격의 프레임의 오디오 신호를 부호화하여 얻어진 부호화 오디오 데이터와, 상기 프레임의 복수의 메타데이터를 취득하는 취득부와, 상기 부호화 오디오 데이터를 복호하는 복호부와, 상기 복호에 의해 얻어진 오디오 신호와, 상기 복수의 메타데이터에 기초하여 렌더링을 행하는 렌더링부를 구비한다.

상기 메타데이터에는, 상기 오디오 오브젝트의 위치를 나타내는 위치 정보가 포함되어 있도록 할 수 있다.

상기 복수의 메타데이터의 각각을, 상기 오디오 신호의 상기 프레임 내의 복수의 샘플의 각각의 메타데이터로 할 수 있다.

상기 복수의 메타데이터의 각각을, 상기 프레임을 구성하는 샘플의 수를 상기 복수의 메타데이터의 수로 나누어 얻어지는 샘플수의 간격으로 배열하는 복수의 샘플의 각각의 메타데이터로 할 수 있다.

상기 복수의 메타데이터의 각각을, 복수의 샘플 인덱스의 각각에 의해 나타나는 복수의 샘플의 각각의 메타데이터로 할 수 있다.

상기 복수의 메타데이터의 각각을, 상기 프레임 내의 소정 샘플수 간격으로 배열하는 복수의 샘플의 각각의 메타데이터로 할 수 있다.

상기 복수의 메타데이터에는, 메타데이터에 기초하여 산출되는 상기 오디오 신호의 샘플의 게인의 보간 처리를 행하기 위한 메타데이터가 포함되어 있도록 할 수 있다.

본 기술의 제1 측면의 복호 방법 또는 프로그램은, 오디오 오브젝트의 소정 시간 간격의 프레임의 오디오 신호를 부호화하여 얻어진 부호화 오디오 데이터와, 상기 프레임의 복수의 메타데이터를 취득하고, 상기 부호화 오디오 데이터를 복호하여, 상기 복호에 의해 얻어진 오디오 신호와, 상기 복수의 메타데이터에 기초하여 렌더링을 행하는 스텝을 포함한다.

본 기술의 제1 측면에 있어서는, 오디오 오브젝트의 소정 시간 간격의 프레임의 오디오 신호를 부호화하여 얻어진 부호화 오디오 데이터와, 상기 프레임의 복수의 메타데이터가 취득되고, 상기 부호화 오디오 데이터가 복호되고, 상기 복호에 의해 얻어진 오디오 신호와, 상기 복수의 메타데이터에 기초하여 렌더링이 행하여진다.

본 기술의 제2 측면의 부호화 장치는, 오디오 오브젝트의 소정 시간 간격의 프레임의 오디오 신호를 부호화하는 부호화부와, 상기 부호화에 의해 얻어진 부호화 오디오 데이터와, 상기 프레임의 복수의 메타데이터가 포함된 비트 스트림을 생성하는 생성부를 구비한다.

부호화 장치에는, 메타데이터에 대한 보간 처리를 행하는 보간 처리부를 더 설치할 수 있다.

본 기술의 제2 측면의 부호화 방법 또는 프로그램은, 오디오 오브젝트의 소정 시간 간격의 프레임의 오디오 신호를 부호화하고, 상기 부호화에 의해 얻어진 부호화 오디오 데이터와, 상기 프레임의 복수의 메타데이터가 포함된 비트 스트림을 생성하는 스텝을 포함한다.

본 기술의 제2 측면에 있어서는, 오디오 오브젝트의 소정 시간 간격의 프레임의 오디오 신호가 부호화되어, 상기 부호화에 의해 얻어진 부호화 오디오 데이터와, 상기 프레임의 복수의 메타데이터가 포함된 비트 스트림이 생성된다.

본 기술의 제1 측면 및 제2 측면에 의하면, 보다 고음질의 음성을 얻을 수 있다.

또한, 여기에 기재된 효과는 반드시 한정되는 것은 아니며, 본 개시 중에 기재된 어느 하나의 효과여도 된다.

도 1은 비트 스트림에 대하여 설명하는 도면이다.
도 2는 부호화 장치의 구성예를 도시하는 도면이다.
도 3은 부호화 처리를 설명하는 흐름도이다.
도 4는 복호 장치의 구성예를 도시하는 도면이다.
도 5는 복호 처리를 설명하는 흐름도이다.
도 6은 컴퓨터의 구성예를 도시하는 도면이다.

이하, 도면을 참조하여, 본 기술을 적용한 실시 형태에 대하여 설명한다.

<제1 실시 형태>

<본 기술의 개요에 대하여>

본 기술은 오디오 오브젝트의 오디오 신호와, 그 오디오 오브젝트의 위치 정보 등의 메타데이터를 부호화하여 전송하거나, 복호측에 있어서 이들 오디오 신호와 메타데이터를 복호하여 음성을 재생하거나 하는 경우에, 보다 고음질의 음성을 얻을 수 있도록 하는 것이다. 또한, 이하에서는, 오디오 오브젝트를 간단히 오브젝트라고도 칭하기로 한다.

본 기술에서는, 1프레임의 오디오 신호에 대하여 복수의 메타데이터, 즉 2 이상의 메타데이터를 부호화하여 송신하도록 했다.

여기서, 메타데이터는, 오디오 신호의 프레임 내의 샘플의 메타데이터, 즉 샘플에 대하여 부여된 메타데이터이다. 예를 들어 메타데이터로서의 위치 정보에 의해 나타나는 공간 내의 오디오 오브젝트의 위치는, 그 메타데이터가 부여된 샘플에 기초하는 음성의 재생 타이밍에 있어서의 위치를 나타내고 있다.

또한, 메타데이터를 송신하는 방법으로서 이하에 나타내는 3가지 방법, 즉 개수 지정 방식, 샘플 지정 방식 및 자동 전환 방식에 의한 송신 방법 중 어느 방법에 의해 메타데이터를 송신할 수 있다. 또한, 메타데이터 송신 시에는, 소정 시간 간격의 구간인 프레임마다나 오브젝트마다, 이들 3개의 방식을 전환하면서 메타데이터를 송신할 수 있다.

(개수 지정 방식)

먼저, 개수 지정 방식에 대하여 설명한다.

개수 지정 방식은, 1프레임당 송신되는 메타데이터의 수를 나타내는 메타데이터 개수 정보를 비트 스트림 신택스에 포함하여, 지정된 개수의 메타데이터를 송신하는 방식이다. 또한, 1프레임을 구성하는 샘플의 수를 나타내는 정보는, 비트 스트림의 헤더 내에 저장되어 있다.

또한, 송신되는 각 메타데이터가, 1프레임 내의 어느 샘플의 메타데이터인지는, 1프레임을 등분했을 때의 위치 등, 미리 정해져 있게 하면 된다.

예를 들어, 1프레임을 구성하는 샘플의 수가 2048샘플이며, 1프레임당 4개의 메타데이터를 송신한다고 하자. 이때, 1프레임의 구간을, 송신하는 메타데이터의 수로 등분하고, 분할된 구간 경계의 샘플 위치의 메타데이터를 보내는 것으로 하자. 즉, 1프레임의 샘플수를 메타데이터수로 나누어 얻어지는 샘플수의 간격으로 배열하는 프레임 내의 샘플의 메타데이터를 송신한다고 하자.

이 경우, 프레임 선두로부터, 각각 512개째의 샘플, 1024개째의 샘플, 1536개째의 샘플 및 2048개째의 샘플에 대하여 메타데이터가 송신된다.

그 밖에, 1프레임을 구성하는 샘플의 수를 S라고 하고, 1프레임당 송신되는 메타데이터의 수를 A라고 했을 때에, S/2^(A-1)에 의해 정해지는 샘플 위치의 메타데이터가 송신되도록 해도 된다. 즉, 프레임 내에서 S/2^(A-1) 샘플 간격으로 배열하는 샘플의 일부 또는 전부의 메타데이터를 송신해도 된다. 이 경우, 예를 들어 메타데이터수 A=1일 때에는, 프레임 내의 마지막 샘플의 메타데이터가 송신되게 된다.

또한, 소정 간격으로 배열하는 샘플마다, 즉 소정 샘플수마다 메타데이터를 송신하도록 해도 된다.

(샘플 지정 방식)

이어서, 샘플 지정 방식에 대하여 설명한다.

샘플 지정 방식에서는, 상술한 개수 지정 방식에 있어서 송신되는 메타데이터 개수 정보 외에도, 각 메타데이터의 샘플 위치를 나타내는 샘플 인덱스도 비트 스트림에 저장되어 더 송신된다.

예를 들어 1프레임을 구성하는 샘플의 수가 2048샘플이며, 1프레임당 4개의 메타데이터를 송신한다고 하자. 또한, 프레임 선두로부터, 각각 128개째의 샘플, 512개째의 샘플, 1536개째의 샘플 및 2048개째의 샘플에 대하여 메타데이터를 송신한다고 하자.

이 경우, 비트 스트림에는, 1프레임당 송신되는 메타데이터의 개수 「4」를 나타내는 메타데이터 개수 정보와, 프레임 선두로부터 128개째의 샘플, 512개째의 샘플, 1536개째의 샘플 및 2048개째의 샘플의 각각의 샘플의 위치를 나타내는 샘플 인덱스의 각각이 저장된다. 예를 들어 프레임 선두로부터 128개째의 샘플의 위치를 나타내는 샘플 인덱스의 값은 128 등이 된다.

샘플 지정 방식에서는, 프레임마다 임의의 샘플의 메타데이터를 송신하는 것이 가능해지기 때문에, 예를 들어 씬의 전환 위치의 전후 샘플의 메타데이터를 송신할 수 있다. 이 경우, 렌더링에 의해 오브젝트의 불연속의 이동을 표현할 수 있어, 고음질의 음성을 얻을 수 있다.

(자동 전환 방식)

또한, 자동 전환 방식에 대하여 설명한다.

자동 전환 방식에서는, 1프레임을 구성하는 샘플의 수, 즉 1프레임의 샘플수에 따라, 각 프레임당 송신되는 메타데이터의 수가 자동으로 전환된다.

예를 들어 1프레임의 샘플수가 1024샘플인 경우에는, 프레임 내에서 256샘플 간격으로 배열하는 각 샘플의 메타데이터가 송신된다. 이 예에서는, 프레임 선두로부터, 각각 256개째의 샘플, 512개째의 샘플, 768개째의 샘플 및 1024개째의 샘플에 대하여, 합계 4개의 메타데이터가 송신된다.

또한, 예를 들어 1프레임의 샘플수가 2048샘플인 경우에는, 프레임 내에서 256샘플 간격으로 배열하는 각 샘플의 메타데이터가 송신된다. 이 예에서는, 합계8개의 메타데이터가 송신되게 된다.

이렇게 개수 지정 방식, 샘플 지정 방식 및 자동 전환 방식의 각 방식으로 1프레임당 2 이상의 메타데이터를 송신하면, 프레임을 구성하는 샘플의 수가 많은 경우 등에, 보다 많은 메타데이터를 송신할 수 있다.

이에 의해, 선형 보간에 의해 VBAP 게인이 산출되는 샘플이 연속하여 배열하는 구간의 길이가 보다 짧아져, 보다 고음질의 음성을 얻을 수 있게 된다.

예를 들어 선형 보간에 의해 VBAP 게인이 산출되는 샘플이 연속하여 배열하는 구간의 길이가 보다 짧아지면, 각 스피커의 VBAP 게인의 제곱합과 1의 차도 작아지므로, 오브젝트의 음상 정위감을 향상시킬 수 있다.

또한, 메타데이터를 갖는 샘플 사이의 거리도 짧아지므로, 이들 샘플에 있어서의 VBAP 게인의 차도 작아져, 오브젝트의 움직임을 보다 정확하게 렌더링할 수 있다. 또한 메타데이터를 갖는 샘플 사이의 거리가 짧아지면, 씬의 전환 부분 등, 원래 오브젝트가 불연속으로 이동하는 기간에 있어서, 음성에 대하여 오브젝트가 연속적으로 이동하는 것처럼 되어 버리는 기간을 보다 짧게 할 수 있다. 특히, 샘플 지정 방식에서는, 적절한 샘플 위치의 메타데이터를 송신함으로써, 오브젝트의 불연속의 이동을 표현할 수 있다.

또한, 이상에서 설명한 개수 지정 방식, 샘플 지정 방식 및 자동 전환 방식의 3개의 방식의 어느 하나만을 사용하여 메타데이터를 송신하도록 해도 되지만, 이들 3개의 방식 중 2 이상의 방식을 프레임마다나 오브젝트마다 전환하도록 해도 된다.

예를 들어 개수 지정 방식, 샘플 지정 방식 및 자동 전환 방식의 3개의 방식을 프레임마다나 오브젝트마다 전환하는 경우에는, 비트 스트림에, 어느 방식에 의해 메타데이터가 송신되었는지를 나타내는 전환 인덱스를 저장하도록 하면 된다.

이 경우, 예를 들어 전환 인덱스의 값이 0일 때는 개수 지정 방식이 선택된 것, 즉 개수 지정 방식에 의해 메타데이터가 송신된 것을 나타내고 있으며, 전환 인덱스의 값이 1일 때는 샘플 지정 방식이 선택된 것을 나타내고 있으며, 전환 인덱스의 값이 2일 때는 자동 전환 방식이 선택된 것을 나타내고 있게 된다. 이하에서는, 이들 개수 지정 방식, 샘플 지정 방식 및 자동 전환 방식이, 프레임마다나 오브젝트마다 전환되는 것으로 하여 설명을 계속한다.

또한, 상술한 MPEG-H 3D Audio 규격으로 정해져 있는 오디오 신호와 메타데이터의 송신 방법에서는, 프레임 내의 마지막 샘플의 메타데이터만이 송신된다. 그로 인해, 보간 처리에 의해 각 샘플의 VBAP 게인을 산출하는 경우에는, 현프레임보다도 전 프레임의 마지막 샘플의 VBAP 게인이 필요해진다.

따라서, 예를 들어 재생측(복호측)에 있어서, 임의의 프레임의 오디오 신호로부터 재생을 개시하는 랜덤 액세스를 하려고 해도, 그 랜덤 액세스한 프레임보다도 전 프레임의 VBAP 게인은 산출되어 있지 않으므로, VBAP 게인의 보간 처리를 행할 수 없다. 이러한 이유로 인하여, MPEG-H 3D Audio 규격에서는 랜덤 액세스를 행할 수 없었다.

그래서, 본 기술에서는, 각 프레임이나 임의의 간격의 프레임 등에 있어서, 이들 프레임의 메타데이터와 함께, 보간 처리를 행하기 위하여 필요한 메타데이터도 송신함으로써, 현프레임보다도 전 프레임 샘플 또는 현프레임의 선두 샘플의 VBAP 게인을 산출할 수 있도록 했다. 이에 의해, 랜덤 액세스가 가능해진다. 또한, 이하에서는, 통상의 메타데이터와 함께 송신되는, 보간 처리를 행하기 위한 메타데이터를 특별히 추가 메타데이터라고도 칭하기로 한다.

여기서, 현프레임의 메타데이터와 함께 송신되는 추가 메타데이터는, 예를 들어 현프레임 직전의 프레임의 마지막 샘플의 메타데이터 또는 현프레임의 선두 샘플의 메타데이터 등이 된다.

또한, 프레임마다 추가 메타데이터가 있는지 여부를 용이하게 특정할 수 있도록, 비트 스트림 내에 각 오브젝트에 대하여, 프레임마다 추가 메타데이터의 유무를 나타내는 추가 메타데이터 플래그가 저장된다. 예를 들어 소정의 프레임의 추가 메타데이터 플래그의 값이 1인 경우, 그 프레임에는 추가 메타데이터가 존재하고, 추가 메타데이터 플래그의 값이 0인 경우에는, 그 프레임에는 추가 메타데이터는 존재하지 않거나 한다.

또한, 기본적으로는, 동일 프레임의 모든 오브젝트의 추가 메타데이터 플래그의 값은 동일값이 된다.

이렇게 프레임마다 추가 메타데이터 플래그를 송신함과 함께, 필요에 따라 추가 메타데이터를 송신함으로써, 추가 메타데이터가 있는 프레임에 대해서는, 랜덤 액세스를 행할 수 있게 된다.

또한, 랜덤 액세스의 액세스처로서 지정된 프레임에 추가 메타데이터가 없을 때에는, 그 프레임에 시간적으로 가장 가까운, 추가 메타데이터가 있는 프레임을 랜덤 액세스의 액세스처로 하면 된다. 따라서, 적절한 프레임 간격 등으로 추가 메타데이터를 송신함으로써, 유저에게 부자연스러움을 느끼게 하지 않고 랜덤 액세스를 실현하는 것이 가능해진다.

이상, 추가 메타데이터의 설명을 행했지만, 랜덤 액세스의 액세스처로서 지정된 프레임에 있어서, 추가 메타데이터를 사용하지 않고, VBAP 게인의 보간 처리를 행하도록 해도 된다. 이 경우, 추가 메타데이터를 저장하는 것에 의한 비트 스트림의 데이터양(비트 레이트)의 증대를 억제하면서, 랜덤 액세스가 가능해진다.

구체적으로는, 랜덤 액세스의 액세스처로서 지정된 프레임에 있어서, 현프레임보다도 전 프레임의 VBAP 게인의 값을 0으로 하여, 현프레임에서 산출되는 VBAP 게인의 값과의 보간 처리를 행한다. 또한, 이 방법에 한하지 않고, 현프레임의 각 샘플의 VBAP 게인의 값이, 모두, 현프레임에서 산출되는 VBAP 게인과 동일한 값이 되도록 보간 처리를 행하도록 해도 된다. 한편, 랜덤 액세스의 액세스처로서 지정되지 않는 프레임에 있어서는, 종래대로, 현프레임보다도 전 프레임의 VBAP 게인을 사용한 보간 처리가 행하여진다.

이와 같이, 랜덤 액세스의 액세스처로서 지정되었는지 여부에 기초하여 VBAP 게인의 보간 처리의 전환을 행함으로써, 추가 메타데이터를 사용하지 않고, 랜덤 액세스를 하는 것이 가능해진다.

또한, 상술한 MPEG-H 3D Audio 규격에서는, 프레임마다, 현프레임이, 비트 스트림 내의 현프레임뿐인 데이터를 사용하여 복호 및 렌더링할 수 있는 프레임(독립 프레임이라고 칭한다)인지 여부를 나타내는, 독립 플래그(indepFlag라고도 칭한다)가 비트 스트림 내에 저장되어 있다. 독립 플래그의 값이 1인 경우, 복호측에서는, 비트 스트림 내의, 현프레임보다도 전 프레임 데이터 및 그 데이터의 복호에 의해 얻어지는 어떠한 정보도 사용하지 않고 복호 및 렌더링을 행할 수 있게 되어 있다.

따라서, 독립 플래그의 값이 1인 경우, 현프레임보다도 전 프레임의 VBAP 게인을 사용하지 않고 복호 및 렌더링을 행하는 것이 필요해진다.

그래서, 독립 플래그의 값이 1인 프레임에 있어서, 상술한 추가 메타데이터를 비트 스트림에 저장하도록 해도 되고, 상술한 보간 처리의 전환을 행해도 된다.

이와 같이, 독립 플래그의 값에 따라, 비트 스트림 내에 추가 메타데이터를 저장하는지 여부의 전환이나, VBAP 게인의 보간 처리의 전환을 행함으로써, 독립 플래그의 값이 1인 경우에, 현프레임보다도 전 프레임의 VBAP 게인을 사용하지 않고 복호 및 렌더링을 행하는 것이 가능해진다.

또한, 상술한 MPEG-H 3D Audio 규격에서는, 복호에 의해 얻어지는 메타데이터는, 프레임 내의 대표 샘플, 즉 마지막 샘플의 메타데이터뿐이라고 설명했다. 그러나, 애당초 오디오 신호와 메타데이터의 부호화측에 있어서는, 부호화 장치에 입력되는 압축(부호화) 전의 메타데이터도 프레임 내의 전체 샘플에 대하여 정의되어 있는 것은 거의 없다. 즉, 오디오 신호의 프레임 내의 샘플에는, 부호화 전의 상태로부터 메타데이터가 없는 샘플도 많다.

현 상황에서는, 예를 들어 0번째의 샘플, 1024번째의 샘플, 2048번째의 샘플 등의 등간격으로 배열하는 샘플만 메타데이터를 갖고 있거나, 0번째의 샘플, 138번째의 샘플, 2044번째의 샘플 등의 부등간격으로 배열하는 샘플만 메타데이터를 갖고 있거나 하는 것이 대부분이다.

이러한 경우, 프레임에 따라서는 메타데이터를 갖는 샘플이 하나도 존재하지 않는 경우도 있고, 그러한 프레임에 대해서는 메타데이터가 송신되지 않게 된다. 그렇게 되면, 복호측에 있어서, 메타데이터를 갖는 샘플이 하나도 없는 프레임에 대하여, 각 샘플의 VBAP 게인을 산출하기 위해서는, 그 프레임 이후의 메타데이터가 있는 프레임의 VBAP 게인의 산출을 행해야 한다. 그 결과, 메타데이터의 복호와 렌더링에 지연이 발생하여, 실시간으로 복호 및 렌더링을 행할 수 없게 되어 버린다.

그래서, 본 기술에서는, 부호화측에 있어서, 필요에 따라 메타데이터를 갖는 샘플 사이의 각 샘플에 대하여, 보간 처리(샘플 보간)에 의해 이들 샘플의 메타데이터를 구하고, 복호측에 있어서 실시간으로 복호 및 렌더링을 행할 수 있도록 했다. 특히, 비디오 게임 등에 있어서는, 오디오 재생의 지연을 가능한 한 작게 하고 싶다는 요구가 있다. 그로 인해, 본 기술에 의해 복호 및 렌더링의 지연을 작게 하는 것, 즉 게임 조작 등에 대한 인터랙티브성을 향상시킬 수 있도록 하는 것의 의의는 크다.

또한, 메타데이터의 보간 처리는, 예를 들어 선형 보간, 고차 함수를 사용한 비선형 보간 등, 어떤 처리여도 된다.

<비트 스트림에 대하여>

이어서, 이상에 있어서 설명한 본 기술을 적용한, 보다 구체적인 실시 형태에 대하여 설명한다.

각 오브젝트의 오디오 신호와 메타데이터를 부호화하는 부호화 장치로부터는, 예를 들어 도 1에 도시하는 비트 스트림이 출력된다.

도 1에 도시하는 비트 스트림에서는, 선두에 헤더가 배치되어 있고, 그 헤더 내에는, 각 오브젝트의 오디오 신호의 1프레임을 구성하는 샘플의 수, 즉 1프레임의 샘플수를 나타내는 정보(이하, 샘플수 정보라고도 칭한다)가 저장되어 있다.

그리고, 비트 스트림에 있어서 헤더 뒤에는, 프레임마다의 데이터가 배치된다. 구체적으로는, 영역 R10의 부분에는, 현프레임이, 독립 프레임인지 여부를 나타내는, 독립 플래그가 배치되어 있다. 그리고, 영역 R11의 부분에는, 동일 프레임의 각 오브젝트의 오디오 신호를 부호화하여 얻어진 부호화 오디오 데이터가 배치되어 있다.

또한, 영역 R11에 이어지는 영역 R12의 부분에는, 동일 프레임의 각 오브젝트의 메타데이터 등을 부호화하여 얻어진 부호화 메타데이터가 배치되어 있다.

예를 들어 영역 R12 내의 영역 R21의 부분에는, 하나의 오브젝트의 1프레임분의 부호화 메타데이터가 배치되어 있다.

이 예에서는, 부호화 메타데이터의 선두에는, 추가 메타데이터 플래그가 배치되어 있고, 그 추가 메타데이터 플래그에 이어, 전환 인덱스가 배치되어 있다.

또한, 전환 인덱스 다음에는 메타데이터 개수 정보와 샘플 인덱스가 배치되어 있다. 또한, 여기에서는 샘플 인덱스가 하나만 그려져 있지만, 보다 상세하게는, 샘플 인덱스는, 부호화 메타데이터에 저장되는 메타데이터의 수만큼, 그 부호화 메타데이터 내에 저장된다.

부호화 메타데이터에서는, 전환 인덱스에 의해 나타나는 방식이 개수 지정 방식인 경우에는, 전환 인덱스에 이어 메타데이터 개수 정보는 배치되지만, 샘플 인덱스는 배치되지 않는다.

또한, 전환 인덱스에 의해 나타나는 방식이 샘플 지정 방식인 경우에는, 전환 인덱스에 이어 메타데이터 개수 정보 및 샘플 인덱스가 배치된다. 또한, 전환 인덱스에 의해 나타나는 방식이 자동 전환 방식인 경우에는, 전환 인덱스에 이어 메타데이터 개수 정보도 샘플 인덱스도 배치되지 않는다.

필요에 따라 배치되는 메타데이터 개수 정보나 샘플 인덱스에 이어지는 위치에는, 추가 메타데이터가 배치되고, 또한 그 추가 메타데이터에 이어 각 샘플의 메타데이터가 정의된 개수만큼 배치된다.

여기서, 추가 메타데이터는, 추가 메타데이터 플래그의 값이 1인 경우에만 배치되고, 추가 메타데이터 플래그의 값이 0인 경우에는 배치되지 않는다.

영역 R12의 부분에는, 영역 R21의 부분에 배치된 부호화 메타데이터와 마찬가지의 부호화 메타데이터가 오브젝트마다 배열되어 배치되어 있다.

비트 스트림에서는, 영역 R10의 부분에 배치된 독립 플래그와, 영역 R11의 부분에 배치된 각 오브젝트의 부호화 오디오 데이터와, 영역 R12의 부분에 배치된 각 오브젝트의 부호화 메타데이터로부터, 1프레임분의 데이터가 구성된다.

<부호화 장치의 구성예>

이어서, 도 1에 도시한 비트 스트림을 출력하는 부호화 장치의 구성에 대하여 설명한다. 도 2는 본 기술을 적용한 부호화 장치의 구성예를 도시하는 도면이다.

부호화 장치(11)는 오디오 신호 취득부(21), 오디오 신호 부호화부(22), 메타데이터 취득부(23), 보간 처리부(24), 관련 정보 취득부(25), 메타데이터 부호화부(26), 다중화부(27) 및 출력부(28)를 갖고 있다.

오디오 신호 취득부(21)는 각 오브젝트의 오디오 신호를 취득하여 오디오 신호 부호화부(22)에 공급한다. 오디오 신호 부호화부(22)는 오디오 신호 취득부(21)로부터 공급된 오디오 신호를 프레임 단위로 부호화하고, 그 결과 얻어진 각 오브젝트의 프레임마다의 부호화 오디오 데이터를 다중화부(27)에 공급한다.

메타데이터 취득부(23)는 각 오브젝트의 프레임마다의 메타데이터, 보다 상세하게는 프레임 내의 각 샘플의 메타데이터를 취득하여 보간 처리부(24)에 공급한다. 여기서, 메타데이터에는, 예를 들어 공간 내에 있어서의 오브젝트의 위치를 나타내는 위치 정보, 오브젝트의 중요도를 나타내는 중요도 정보, 오브젝트의 음상의 확대 정도를 나타내는 정보 등이 포함되어 있다. 메타데이터 취득부(23)에서는, 각 오브젝트의 오디오 신호의 소정 샘플(PCM 샘플)의 메타데이터가 취득된다.

보간 처리부(24)는 메타데이터 취득부(23)로부터 공급된 메타데이터에 대한 보간 처리를 행하여, 오디오 신호의 메타데이터가 없는 샘플 중 모든 샘플 또는 일부의 특정한 샘플의 메타데이터를 생성한다. 보간 처리부(24)에서는, 하나의 오브젝트의 1프레임의 오디오 신호가 복수의 메타데이터를 갖도록, 즉 1프레임 내의 복수의 샘플이 메타데이터를 갖도록, 보간 처리에 의해 프레임 내의 샘플의 메타데이터가 생성된다.

보간 처리부(24)는 보간 처리에 의해 얻어진, 각 오브젝트의 프레임마다의 메타데이터를 메타데이터 부호화부(26)에 공급한다.

관련 정보 취득부(25)는 프레임마다, 현프레임을, 독립 프레임으로 할지를 나타내는 정보(독립 프레임 정보라고 칭한다)나, 각 오브젝트에 대하여, 오디오 신호의 프레임마다, 샘플수 정보나, 어느 방식으로 메타데이터를 송신할지를 나타내는 정보, 추가 메타데이터를 송신할지를 나타내는 정보, 어느 샘플의 메타데이터를 송신할지를 나타내는 정보 등, 메타데이터에 관련된 정보를 관련 정보로서 취득한다. 또한, 관련 정보 취득부(25)는 취득한 관련 정보에 기초하여, 각 오브젝트에 대하여, 프레임마다 추가 메타데이터 플래그, 전환 인덱스, 메타데이터 개수 정보 및 샘플 인덱스 중 필요한 정보를 생성하여, 메타데이터 부호화부(26)에 공급한다.

메타데이터 부호화부(26)는 관련 정보 취득부(25)로부터 공급된 정보에 기초하여, 보간 처리부(24)로부터 공급된 메타데이터의 부호화를 행하고, 그 결과 얻어진 각 오브젝트의 프레임마다의 부호화 메타 데이터와, 관련 정보 취득부(25)로부터 공급된 정보에 포함되는 독립 프레임 정보를 다중화부(27)에 공급한다.

다중화부(27)는 오디오 신호 부호화부(22)로부터 공급된 부호화 오디오 데이터와, 메타데이터 부호화부(26)로부터 공급된 부호화 메타 데이터와, 메타데이터 부호화부(26)로부터 공급된 독립 프레임 정보에 기초하여 얻어지는 독립 플래그를 다중화하여 비트 스트림을 생성하여, 출력부(28)에 공급한다. 출력부(28)는 다중화부(27)로부터 공급된 비트 스트림을 출력한다. 즉, 비트 스트림이 송신된다.

<부호화 처리의 설명>

부호화 장치(11)는 외부로부터 오브젝트의 오디오 신호가 공급되면, 부호화 처리를 행하여 비트 스트림을 출력한다. 이하, 도 3의 흐름도를 참조하여, 부호화 장치(11)에 의한 부호화 처리에 대하여 설명한다. 또한, 이 부호화 처리는 오디오 신호의 프레임마다 행하여진다.

스텝 S11에 있어서, 오디오 신호 취득부(21)는 각 오브젝트의 오디오 신호를 1프레임분만 취득하여 오디오 신호 부호화부(22)에 공급한다.

스텝 S12에 있어서, 오디오 신호 부호화부(22)는 오디오 신호 취득부(21)로부터 공급된 오디오 신호를 부호화하고, 그 결과 얻어진 각 오브젝트의 1프레임분의 부호화 오디오 데이터를 다중화부(27)에 공급한다.

예를 들어 오디오 신호 부호화부(22)는 오디오 신호에 대하여 MDCT(Modified Discrete Cosine Transform) 등을 행함으로써, 오디오 신호를 시간 신호로부터 주파수 신호로 변환한다. 그리고, 오디오 신호 부호화부(22)는 MDCT에 의해 얻어진 MDCT 계수를 부호화하고, 그 결과 얻어진 스케일 팩터, 사이드 정보 및 양자화 스펙트럼을, 오디오 신호를 부호화하여 얻어진 부호화 오디오 데이터로 한다.

이에 의해, 예를 들어 도 1에 도시한 비트 스트림의 영역 R11의 부분에 저장되는 각 오브젝트의 부호화 오디오 데이터가 얻어진다.

스텝 S13에 있어서, 메타데이터 취득부(23)는 각 오브젝트에 대하여, 오디오 신호의 프레임마다의 메타데이터를 취득하여 보간 처리부(24)에 공급한다.

스텝 S14에 있어서, 보간 처리부(24)는 메타데이터 취득부(23)로부터 공급된 메타데이터에 대한 보간 처리를 행하여, 메타데이터 부호화부(26)에 공급한다.

예를 들어 보간 처리부(24)는 하나의 오디오 신호에 대하여, 소정의 샘플의 메타데이터로서의 위치 정보와, 그 소정의 샘플의 시간적으로 앞에 위치하는 다른 샘플의 메타데이터로서의 위치 정보에 기초하여, 선형 보간에 의해 이들 2개의 샘플 사이에 위치하는 각 샘플의 위치 정보를 산출한다. 마찬가지로, 메타데이터로서의 중요도 정보나 음상의 확대 정도를 나타내는 정보 등에 대해서도 선형 보간 등의 보간 처리가 행하여져, 각 샘플의 메타데이터가 생성된다.

또한, 메타데이터의 보간 처리에서는, 오브젝트의 1프레임의 오디오 신호의 전체 샘플이 메타데이터를 갖도록 메타데이터가 산출되어도 되고, 전체 샘플 중 필요한 샘플만 메타데이터를 갖도록 메타데이터가 산출되어도 된다. 또한, 보간 처리는 선형 보간에 한하지 않고, 비선형 보간이어도 된다.

스텝 S15에 있어서, 관련 정보 취득부(25)는 각 오브젝트의 오디오 신호의 프레임에 대하여, 메타데이터에 관련된 관련 정보를 취득한다.

그리고, 관련 정보 취득부(25)는 취득한 관련 정보에 기초하여, 오브젝트마다 추가 메타데이터 플래그, 전환 인덱스, 메타데이터 개수 정보 및 샘플 인덱스 중 필요한 정보를 생성하여, 메타데이터 부호화부(26)에 공급한다.

또한, 관련 정보 취득부(25)가 추가 메타데이터 플래그나 전환 인덱스 등을 생성하는 것이 아니고, 관련 정보 취득부(25)가 추가 메타데이터 플래그나 전환 인덱스 등을 외부로부터 취득하도록 해도 된다.

스텝 S16에 있어서, 메타데이터 부호화부(26)는 관련 정보 취득부(25)로부터 공급된 추가 메타데이터 플래그나, 전환 인덱스, 메타데이터 개수 정보, 샘플 인덱스 등에 기초하여, 보간 처리부(24)로부터 공급된 메타데이터를 부호화한다.

메타데이터의 부호화에 있어서는, 각 오브젝트에 대하여, 오디오 신호의 프레임 내의 각 샘플의 메타데이터 중 샘플수 정보나, 전환 인덱스에 의해 나타나는 방식, 메타데이터 개수 정보, 샘플 인덱스 등에 의해 정해지는 샘플 위치의 메타데이터만이 송신되도록, 부호화 메타데이터가 생성된다. 또한, 프레임의 선두 샘플의 메타데이터, 또는 유지되어 있던 직전의 프레임의 마지막 샘플의 메타데이터가, 필요에 따라 추가 메타데이터가 된다.

부호화 메타데이터에는, 메타데이터 외에도, 추가 메타데이터 플래그 및 전환 인덱스가 포함되며, 또한 필요에 따라 메타데이터 개수 정보나 샘플 인덱스, 추가 메타데이터 등이 포함되게 된다.

이에 의해, 예를 들어 도 1에 도시한 비트 스트림의 영역 R12에 저장되는 각 오브젝트의 부호화 메타데이터가 얻어진다. 예를 들어 영역 R21에 저장되어 있는 부호화 메타데이터가, 하나의 오브젝트의 1프레임분의 부호화 메타데이터이다.

이 경우, 예를 들어 오브젝트의 처리 대상으로 되어 있는 프레임으로 개수 지정 방식이 선택되며, 또한 추가 메타데이터가 송신될 때에는, 추가 메타데이터 플래그, 전환 인덱스, 메타데이터 개수 정보, 추가 메타데이터 및 메타데이터를 포함하는 부호화 메타데이터가 생성된다.

또한, 예를 들어 오브젝트의 처리 대상으로 되어 있는 프레임으로 샘플 지정 방식이 선택되며, 또한 추가 메타데이터가 송신되지 않을 때에는, 추가 메타데이터 플래그, 전환 인덱스, 메타데이터 개수 정보, 샘플 인덱스 및 메타데이터를 포함하는 부호화 메타데이터가 생성된다.

또한, 예를 들어 오브젝트의 처리 대상으로 되어 있는 프레임으로 자동 전환 방식이 선택되며, 또한 추가 메타데이터가 송신될 때에는, 추가 메타데이터 플래그, 전환 인덱스, 추가 메타데이터 및 메타데이터를 포함하는 부호화 메타데이터가 생성된다.

메타데이터 부호화부(26)는 메타데이터의 부호화에 의해 얻어진 각 오브젝트의 부호화 메타 데이터와, 관련 정보 취득부(25)로부터 공급된 정보에 포함되는 독립 프레임 정보를 다중화부(27)에 공급한다.

스텝 S17에 있어서, 다중화부(27)는 오디오 신호 부호화부(22)로부터 공급된 부호화 오디오 데이터와, 메타데이터 부호화부(26)로부터 공급된 부호화 메타 데이터와, 메타데이터 부호화부(26)로부터 공급된 독립 프레임 정보에 기초하여 얻어지는 독립 플래그를 다중화하여 비트 스트림을 생성하여, 출력부(28)에 공급한다.

이에 의해, 1프레임분의 비트 스트림으로서, 예를 들어 도 1에 도시한 비트 스트림의 영역 R10 내지 영역 R12의 부분을 포함하는 비트 스트림이 생성된다.

스텝 S18에 있어서, 출력부(28)는 다중화부(27)로부터 공급된 비트 스트림을 출력하고, 부호화 처리는 종료된다. 또한, 비트 스트림의 선두 부분이 출력되는 경우에는, 도 1에 도시한 바와 같이, 샘플수 정보 등이 포함되는 헤더도 출력된다.

이상과 같이 하여 부호화 장치(11)는 오디오 신호를 부호화함과 함께, 메타데이터를 부호화하고, 그 결과 얻어진 부호화 오디오 데이터와 부호화 메타데이터를 포함하는 비트 스트림을 출력한다.

이때, 1프레임에 대하여 복수의 메타데이터가 송신되도록 함으로써, 복호측에 있어서, 보간 처리에 의해 VBAP 게인이 산출되는 샘플이 배열되는 구간의 길이를 보다 짧게 할 수 있어, 보다 고음질의 음성을 얻을 수 있게 된다.

또한, 메타데이터에 대하여 보간 처리를 행함으로써, 반드시 1프레임으로 1 이상의 메타데이터를 송신할 수 있고, 복호측에 있어서 실시간으로 복호 및 렌더링을 행할 수 있게 된다. 또한, 필요에 따라 추가 메타데이터를 송신함으로써, 랜덤 액세스를 실현할 수 있다.

<복호 장치의 구성예>

계속하여, 부호화 장치(11)로부터 출력된 비트 스트림을 수신(취득)하여 복호를 행하는 복호 장치에 대하여 설명한다. 예를 들어 본 기술을 적용한 복호 장치는, 도 4에 도시한 바와 같이 구성된다.

이 복호 장치(51)에는, 재생 공간에 배치된 복수의 스피커를 포함하는 스피커 시스템(52)이 접속되어 있다. 복호 장치(51)는 복호 및 렌더링에 의해 얻어진 각 채널의 오디오 신호를, 스피커 시스템(52)을 구성하는 각 채널의 스피커에 공급하여, 음성을 재생시킨다.

복호 장치(51)는 취득부(61), 분리부(62), 오디오 신호 복호부(63), 메타데이터 복호부(64), 게인 산출부(65) 및 오디오 신호 생성부(66)를 갖고 있다.

취득부(61)는 부호화 장치(11)로부터 출력된 비트 스트림을 취득하여 분리부(62)에 공급한다. 분리부(62)는 취득부(61)로부터 공급된 비트 스트림을, 독립 플래그와 부호화 오디오 데이터와 부호화 메타데이터로 분리시켜, 부호화 오디오 데이터를 오디오 신호 복호부(63)에 공급함과 함께, 독립 플래그와 부호화 메타데이터를 메타데이터 복호부(64)에 공급한다.

또한, 분리부(62)는 필요에 따라, 비트 스트림의 헤더로부터 샘플수 정보 등의 각종 정보를 판독하여, 오디오 신호 복호부(63)나 메타데이터 복호부(64)에 공급한다.

오디오 신호 복호부(63)는 분리부(62)로부터 공급된 부호화 오디오 데이터를 복호하여, 그 결과 얻어진 각 오브젝트의 오디오 신호를 오디오 신호 생성부(66)에 공급한다.

메타데이터 복호부(64)는 분리부(62)로부터 공급된 부호화 메타데이터를 복호하여, 그 결과 얻어진 오브젝트마다의 오디오 신호의 각 프레임의 메타 데이터와, 분리부(62)로부터 공급된 독립 플래그를 게인 산출부(65)에 공급한다.

메타데이터 복호부(64)는 부호화 메타데이터로부터 추가 메타데이터 플래그를 판독하는 추가 메타데이터 플래그 판독부(71)와, 부호화 메타데이터로부터 전환 인덱스를 판독하는 전환 인덱스 판독부(72)를 갖고 있다.

게인 산출부(65)는 미리 유지하고 있는 스피커 시스템(52)을 구성하는 각 스피커의 공간 상의 배치 위치를 나타내는 배치 위치 정보와, 메타데이터 복호부(64)로부터 공급된 각 오브젝트의 프레임마다의 메타데이터와 독립 플래그에 기초하여, 각 오브젝트에 대하여, 오디오 신호의 프레임 내의 샘플의 VBAP 게인을 산출한다.

또한, 게인 산출부(65)는 소정의 샘플의 VBAP 게인에 기초하여, 보간 처리에 의해 다른 샘플의 VBAP 게인을 산출하는 보간 처리부(73)를 갖고 있다.

게인 산출부(65)는 각 오브젝트에 대하여, 오디오 신호의 프레임 내의 샘플마다 산출된 VBAP 게인을 오디오 신호 생성부(66)에 공급한다.

오디오 신호 생성부(66)는 오디오 신호 복호부(63)로부터 공급된 각 오브젝트의 오디오 신호와, 게인 산출부(65)로부터 공급된 각 오브젝트의 샘플마다의 VBAP 게인에 기초하여, 각 채널의 오디오 신호, 즉 각 채널의 스피커에 공급하는 오디오 신호를 생성한다.

오디오 신호 생성부(66)는 생성된 오디오 신호를 스피커 시스템(52)을 구성하는 각 스피커에 공급하여, 오디오 신호에 기초하는 음성을 출력시킨다.

복호 장치(51)에서는, 게인 산출부(65) 및 오디오 신호 생성부(66)를 포함하는 블록이, 복호에 의해 얻어진 오디오 신호와 메타데이터에 기초하여 렌더링을 행하는 렌더러(렌더링부)로서 기능한다.

<복호 처리의 설명>

복호 장치(51)는 부호화 장치(11)로부터 비트 스트림이 송신되어 오면, 그 비트 스트림을 수신(취득)하여 복호하는 복호 처리를 행한다. 이하, 도 5의 흐름도를 참조하여, 복호 장치(51)에 의한 복호 처리에 대하여 설명한다. 또한, 이 복호 처리는 오디오 신호의 프레임마다 행하여진다.

스텝 S41에 있어서, 취득부(61)는 부호화 장치(11)로부터 출력된 비트 스트림을 1프레임분만 취득하여 분리부(62)에 공급한다.

스텝 S42에 있어서, 분리부(62)는 취득부(61)로부터 공급된 비트 스트림을, 독립 플래그와 부호화 오디오 데이터와 부호화 메타데이터로 분리시켜, 부호화 오디오 데이터를 오디오 신호 복호부(63)에 공급함과 함께, 독립 플래그와 부호화 메타데이터를 메타데이터 복호부(64)에 공급한다.

이때, 분리부(62)는 비트 스트림의 헤더로부터 판독한 샘플수 정보를 메타데이터 복호부(64)에 공급한다. 또한, 샘플수 정보의 공급 타이밍은 비트 스트림의 헤더가 취득된 타이밍으로 하면 된다.

스텝 S43에 있어서, 오디오 신호 복호부(63)는 분리부(62)로부터 공급된 부호화 오디오 데이터를 복호하여, 그 결과 얻어진 각 오브젝트의 1프레임분의 오디오 신호를 오디오 신호 생성부(66)에 공급한다.

예를 들어 오디오 신호 복호부(63)는 부호화 오디오 데이터를 복호하여 MDCT 계수를 구한다. 구체적으로는, 오디오 신호 복호부(63)는 부호화 오디오 데이터로서 공급된 스케일 팩터, 사이드 정보 및 양자화 스펙트럼에 기초하여 MDCT 계수를 산출한다.

또한, 오디오 신호 복호부(63)는 MDCT 계수에 기초하여, IMDCT(Inverse Modified Discrete Cosine Transform)를 행하고, 그 결과 얻어진 PCM 데이터를 오디오 신호로서 오디오 신호 생성부(66)에 공급한다.

부호화 오디오 데이터의 복호가 행하여지면, 그 후, 부호화 메타데이터의 복호가 행하여진다. 즉, 스텝 S44에 있어서, 메타데이터 복호부(64)의 추가 메타데이터 플래그 판독부(71)는 분리부(62)로부터 공급된 부호화 메타데이터로부터 추가 메타데이터 플래그를 판독한다.

예를 들어 메타데이터 복호부(64)는 분리부(62)로부터 순차 공급되어 오는 부호화 메타데이터에 대응하는 오브젝트를 차례로 처리 대상의 오브젝트로 한다. 추가 메타데이터 플래그 판독부(71)는 처리 대상이 된 오브젝트의 부호화 메타데이터로부터 추가 메타데이터 플래그를 판독한다.

스텝 S45에 있어서, 메타데이터 복호부(64)의 전환 인덱스 판독부(72)는 분리부(62)로부터 공급된, 처리 대상의 오브젝트의 부호화 메타데이터로부터 전환하여 인덱스를 판독한다.

스텝 S46에 있어서, 전환 인덱스 판독부(72)는 스텝 S45에서 판독한 전환 인덱스에 의해 나타나는 방식이 개수 지정 방식인지 여부를 판정한다.

스텝 S46에 있어서 개수 지정 방식이라고 판정된 경우, 스텝 S47에 있어서, 메타데이터 복호부(64)는 분리부(62)로부터 공급된, 처리 대상의 오브젝트의 부호화 메타데이터로부터 메타데이터 개수 정보를 판독한다.

처리 대상의 오브젝트의 부호화 메타데이터에는, 이와 같이 하여 판독된 메타데이터 개수 정보에 의해 나타나는 수만큼, 메타데이터가 저장되어 있다.

스텝 S48에 있어서, 메타데이터 복호부(64)는 스텝 S47에서 판독한 메타데이터 개수 정보와, 분리부(62)로부터 공급된 샘플수 정보에 기초하여, 처리 대상의 오브젝트의 오디오 신호의 프레임에 있어서의, 송신되어 온 메타데이터의 샘플 위치를 특정한다.

예를 들어 샘플수 정보에 의해 나타나는 수의 샘플을 포함하는 1프레임의 구간이, 메타데이터 개수 정보에 의해 나타나는 메타데이터수의 구간으로 등분되고, 등분된 각 구간의 마지막 샘플 위치가 메타데이터의 샘플 위치, 즉 메타데이터를 갖는 샘플의 위치가 된다. 이와 같이 하여 구해진 샘플 위치가, 부호화 메타데이터에 포함되는 각 메타데이터의 샘플 위치, 즉 이들 메타데이터를 갖는 샘플이 된다.

또한, 여기에서는 1프레임의 구간이 등분되고, 이들 등분된 구간의 마지막 샘플의 메타데이터가 송신되는 경우에 대하여 설명했지만, 어느 샘플의 메타데이터를 송신할지에 따라, 샘플수 정보와 메타데이터 개수 정보로부터 각 메타데이터의 샘플 위치가 산출된다.

이와 같이 하여 처리 대상의 오브젝트의 부호화 메타데이터에 포함되어 있는 메타데이터의 개수와, 각 메타데이터의 샘플 위치가 특정되면, 그 후, 처리는 스텝 S53으로 진행한다.

한편, 스텝 S46에 있어서 개수 지정 방식이 아니라고 판정된 경우, 스텝 S49에 있어서, 전환 인덱스 판독부(72)는 스텝 S45에서 판독한 전환 인덱스에 의해 나타나는 방식이 샘플 지정 방식인지 여부를 판정한다.

스텝 S49에 있어서 샘플 지정 방식이라고 판정된 경우, 스텝 S50에 있어서, 메타데이터 복호부(64)는 분리부(62)로부터 공급된, 처리 대상의 오브젝트의 부호화 메타데이터로부터 메타데이터 개수 정보를 판독한다.

스텝 S51에 있어서, 메타데이터 복호부(64)는 분리부(62)로부터 공급된, 처리 대상의 오브젝트의 부호화 메타데이터로부터 샘플 인덱스를 판독한다. 이때, 메타데이터 개수 정보에 의해 나타나는 개수만큼, 샘플 인덱스가 판독된다.

이와 같이 하여 판독된 메타데이터 개수 정보와 샘플 인덱스로부터, 처리 대상의 오브젝트의 부호화 메타데이터에 저장되어 있는 메타데이터의 개수와, 이들 메타데이터의 샘플 위치를 특정할 수 있다.

처리 대상의 오브젝트의 부호화 메타데이터에 포함되어 있는 메타데이터의 개수와, 각 메타데이터의 샘플 위치가 특정되면, 그 후, 처리는 스텝 S53으로 진행한다.

또한, 스텝 S49에 있어서 샘플 지정 방식이 아니라고 판정된 경우, 즉 전환 인덱스에 의해 나타나는 방식이 자동 전환 방식인 경우, 처리는 스텝 S52로 진행한다.

스텝 S52에 있어서, 메타데이터 복호부(64)는 분리부(62)로부터 공급된 샘플수 정보에 기초하여, 처리 대상의 오브젝트의 부호화 메타데이터에 포함되어 있는 메타데이터의 개수와, 각 메타데이터의 샘플 위치를 특정하고, 처리는 스텝 S53으로 진행한다.

예를 들어 자동 전환 방식에서는, 1프레임을 구성하는 샘플의 수에 대하여, 송신되는 메타데이터의 개수와, 각 메타데이터의 샘플 위치, 즉 어느 샘플의 메타데이터를 송신할지가 미리 정해져 있다.

그로 인해, 메타데이터 복호부(64)는 샘플수 정보로부터, 처리 대상의 오브젝트의 부호화 메타데이터에 저장되어 있는 메타데이터의 개수와, 이들 메타데이터의 샘플 위치를 특정할 수 있다.

스텝 S48, 스텝 S51 또는 스텝 S52의 처리가 행하여지면, 스텝 S53에 있어서, 메타데이터 복호부(64)는 스텝 S44에서 판독된 추가 메타데이터 플래그의 값에 기초하여, 추가 메타데이터가 있는지 여부를 판정한다.

스텝 S53에 있어서, 추가 메타데이터가 있다고 판정된 경우, 스텝 S54에 있어서, 메타데이터 복호부(64)는 처리 대상의 오브젝트의 부호화 메타데이터로부터, 추가 메타데이터를 판독한다. 추가 메타데이터가 판독되면, 그 후, 처리는 스텝 S55로 진행한다.

이에 반하여, 스텝 S53에 있어서 추가 메타데이터가 없다고 판정된 경우, 스텝 S54의 처리는 스킵되어, 처리는 스텝 S55로 진행한다.

스텝 S54에서 추가 메타데이터가 판독되었는지 또는 스텝 S53에 있어서 추가 메타데이터가 없다고 판정되면, 스텝 S55에 있어서, 메타데이터 복호부(64)는 처리 대상의 오브젝트의 부호화 메타데이터로부터 메타데이터를 판독한다.

이때, 부호화 메타데이터로부터는, 상술한 처리에 의해 특정된 개수만큼, 메타데이터가 판독되게 된다.

이상의 처리에 의해, 처리 대상의 오브젝트 1프레임분의 오디오 신호에 대하여, 메타데이터와 추가 메타데이터의 판독이 행하여지게 된다.

메타데이터 복호부(64)는 판독한 각 메타데이터를 게인 산출부(65)에 공급한다. 그 때, 게인 산출부(65)는 어느 메타데이터가, 어느 오브젝트의 어느 샘플의 메타데이터인지를 특정할 수 있도록 메타데이터의 공급을 행한다. 또한, 추가 메타데이터가 판독되었을 때에는, 메타데이터 복호부(64)는 판독한 추가 메타데이터도 게인 산출부(65)에 공급한다.

스텝 S56에 있어서, 메타데이터 복호부(64)는 모든 오브젝트에 대하여, 메타데이터의 판독을 행했는지 여부를 판정한다.

스텝 S56에 있어서, 아직 모든 오브젝트에 대하여, 메타데이터의 판독을 행하지 않는다고 판정된 경우, 처리는 스텝 S44로 되돌아가, 상술한 처리가 반복하여 행하여진다. 이 경우, 아직 처리 대상이 되지 않은 오브젝트가, 새로운 처리 대상의 오브젝트가 되고, 그 오브젝트의 부호화 메타데이터로부터 메타데이터 등이 판독된다.

이에 반하여, 스텝 S56에 있어서 모든 오브젝트에 대하여 메타데이터의 판독을 행했다고 판정된 경우, 메타데이터 복호부(64)는 분리부(62)로부터 공급된 독립 플래그를 게인 산출부(65)에 공급하고, 그 후, 처리는 스텝 S57로 진행하여, 렌더링이 개시된다.

즉, 스텝 S57에 있어서, 게인 산출부(65)는 메타데이터 복호부(64)로부터 공급된 메타데이터나 추가 메타데이터나 독립 플래그에 기초하여, VBAP 게인을 산출한다.

예를 들어 게인 산출부(65)는 각 오브젝트를 차례로 처리 대상의 오브젝트로서 선택해도 되고, 또한 그 처리 대상의 오브젝트의 오디오 신호의 프레임 내에 있는, 메타데이터가 있는 샘플을, 차례로 처리 대상의 샘플로서 선택한다.

게인 산출부(65)는 처리 대상의 샘플에 대하여, 그 샘플의 메타데이터로서의 위치 정보에 의해 나타나는 공간 상의 오브젝트의 위치와, 배치 위치 정보에 의해 나타나는 스피커 시스템(52)의 각 스피커의 공간 상의 위치에 기초하여, VBAP에 의해 처리 대상의 샘플 각 채널, 즉 각 채널의 스피커 VBAP 게인을 산출한다.

VBAP에서는, 오브젝트 주위에 있는 3개 또는 2개의 스피커로부터, 소정의 게인으로 음성을 출력함으로써, 그 오브젝트의 위치에 음상을 정위시킬 수 있다. 또한, VBAP에 대해서는, 예를 들어 「Ville Pulkki, "Virtual Sound Source Positioning Using Vector Base Amplitude Panning", Journal of AES, vol.45, no.6, pp.456-466, 1997」 등에 상세하게 기재되어 있다.

스텝 S58에 있어서, 보간 처리부(73)는 보간 처리를 행하여, 메타데이터가 없는 샘플의 각 스피커의 VBAP 게인을 산출한다.

예를 들어 보간 처리에서는, 직전의 스텝 S57에서 산출한 처리 대상의 샘플의 VBAP 게인과, 그 처리 대상의 샘플보다도 시간적으로 앞에 있는, 처리 대상의 오브젝트의 동일한 프레임 또는 직전의 프레임의 메타데이터가 있는 샘플(이하, 참조 샘플이라고도 칭한다)의 VBAP 게인이 사용된다. 즉, 스피커 시스템(52)을 구성하는 스피커(채널)마다, 처리 대상의 샘플의 VBAP 게인과, 참조 샘플의 VBAP 게인이 사용되고, 이들 처리 대상의 샘플과, 참조 샘플 사이에 있는 각 샘플의 VBAP 게인이 선형 보간 등에 의해 산출된다.

또한, 예를 들어 랜덤 액세스가 지시된 경우, 혹은 메타데이터 복호부(64)로부터 공급된 독립 플래그의 값이 1인 경우이며, 추가 메타데이터가 있는 경우에는, 게인 산출부(65)는 추가 메타데이터를 사용하여 VBAP 게인의 산출을 행한다.

구체적으로는, 예를 들어 처리 대상의 오브젝트의 오디오 신호의 프레임 내에서, 가장 프레임 선두측에 있는, 메타데이터를 갖는 샘플이 처리 대상의 샘플이 되어, 그 샘플의 VBAP 게인이 산출되었다고 하자. 이 경우, 이 프레임보다도 전 프레임에 대해서는 VBAP 게인이 산출되어 있지 않으므로, 게인 산출부(65)는 추가 메타데이터를 사용하여, 그 프레임의 선두 샘플 또는 그 프레임 직전의 프레임의 마지막 샘플을 참조 샘플로 하여, 그 참조 샘플의 VBAP 게인을 산출한다.

그리고, 보간 처리부(73)는 처리 대상의 샘플의 VBAP 게인과, 참조 샘플의 VBAP 게인으로부터, 이들 처리 대상의 샘플과 참조 샘플 사이에 있는 각 샘플의 VBAP 게인을 보간 처리에 의해 산출한다.

한편, 예를 들어 랜덤 액세스가 지시된 경우, 혹은 메타데이터 복호부(64)로부터 공급된 독립 플래그의 값이 1인 경우이며, 추가 메타데이터가 없는 경우에는, 추가 메타데이터를 사용한 VBAP 게인의 산출은 행하여지지 않고, 보간 처리의 전환이 행하여진다.

구체적으로는, 예를 들어 처리 대상의 오브젝트의 오디오 신호의 프레임 내에서, 가장 프레임 선두측에 있는, 메타데이터를 갖는 샘플이 처리 대상의 샘플이 되어, 그 샘플의 VBAP 게인이 산출되었다고 하자. 이 경우, 이 프레임보다도 전 프레임에 대해서는 VBAP 게인이 산출되어 있지 않으므로, 게인 산출부(65)는 그 프레임의 선두 샘플 또는 그 프레임 직전의 프레임의 마지막 샘플을 참조 샘플로 하고, 그 참조 샘플의 VBAP 게인을 0으로 하여 산출한다.

또한, 이 방법에 한하지 않고, 예를 들어 보간되는 각 샘플의 VBAP 게인을, 모두, 처리 대상의 샘플의 VBAP 게인과 동일한 값이 되도록 보간 처리를 행해도 된다.

이와 같이, VBAP 게인의 보간 처리를 전환함으로써, 추가 메타데이터가 없는 프레임에 있어서도, 랜덤 액세스나, 독립 프레임에 있어서의 복호 및 렌더링이 가능해진다.

또한, 여기서는 메타데이터가 없는 샘플의 VBAP 게인이 보간 처리에 의해 구해지는 예에 대하여 설명했지만, 메타데이터 복호부(64)에 있어서, 메타데이터가 없는 샘플에 대하여, 보간 처리에 의해 샘플의 메타데이터가 구해지도록 해도 된다. 이 경우, 오디오 신호의 모든 샘플의 메타데이터가 얻어지므로, 보간 처리부(73)에서는 VBAP 게인의 보간 처리는 행하여지지 않는다.

스텝 S59에 있어서, 게인 산출부(65)는 처리 대상의 오브젝트의 오디오 신호의 프레임 내의 전체 샘플의 VBAP 게인을 산출했는지 여부를 판정한다.

스텝 S59에 있어서, 아직 전체 샘플의 VBAP 게인을 산출하지 않는다고 판정된 경우, 처리는 스텝 S57로 되돌아가, 상술한 처리가 반복하여 행하여진다. 즉, 메타데이터를 갖는 다음 샘플이 처리 대상의 샘플로서 선택되어, VBAP 게인이 산출된다.

이에 반하여, 스텝 S59에 있어서 전체 샘플의 VBAP 게인을 산출했다고 판정된 경우, 스텝 S60에 있어서, 게인 산출부(65)는 전체 오브젝트의 VBAP 게인을 산출했는지 여부를 판정한다.

예를 들어 모든 오브젝트가 처리 대상의 오브젝트가 되고, 이들 오브젝트에 대하여, 스피커마다의 각 샘플의 VBAP 게인이 산출된 경우, 전체 오브젝트의 VBAP 게인을 산출했다고 판정된다.

스텝 S60에 있어서, 아직 전체 오브젝트의 VBAP 게인을 산출하지 못하였다고 판정된 경우, 처리는 스텝 S57로 되돌아가, 상술한 처리가 반복하여 행하여진다.

이에 반하여, 스텝 S60에 있어서 전체 오브젝트의 VBAP 게인을 산출했다고 판정된 경우, 게인 산출부(65)는 산출한 VBAP 게인을 오디오 신호 생성부(66)에 공급하고, 처리는 스텝 S61로 진행한다. 이 경우, 스피커마다 산출된, 각 오브젝트의 오디오 신호의 프레임 내의 각 샘플의 VBAP 게인이 오디오 신호 생성부(66)로 공급된다.

스텝 S61에 있어서, 오디오 신호 생성부(66)는 오디오 신호 복호부(63)로부터 공급된 각 오브젝트의 오디오 신호와, 게인 산출부(65)로부터 공급된 각 오브젝트의 샘플마다의 VBAP 게인에 기초하여, 각 스피커의 오디오 신호를 생성한다.

예를 들어 오디오 신호 생성부(66)는 각 오브젝트의 오디오 신호 각각에 대하여, 이들 오브젝트마다 얻어진 동일한 스피커의 VBAP 게인의 각각을 샘플마다 승산하여 얻어진 신호를 가산함으로써, 그 스피커의 오디오 신호를 생성한다.

구체적으로는, 예를 들어 오브젝트로서 오브젝트 OB1 내지 오브젝트 OB3의 3개의 오브젝트가 있고, 이들 오브젝트의 스피커 시스템(52)을 구성하는 소정의 스피커 SP1의 VBAP 게인으로서, VBAP 게인 G1 내지 VBAP 게인 G3이 얻어지고 있다고 하자. 이 경우, VBAP 게인 G1이 승산된 오브젝트 OB1의 오디오 신호, VBAP 게인 G2가 승산된 오브젝트 OB2의 오디오 신호 및 VBAP 게인 G3이 승산된 오브젝트 OB3의 오디오 신호가 가산되어, 그 결과 얻어진 오디오 신호가, 스피커 SP1에 공급되는 오디오 신호가 된다.

스텝 S62에 있어서, 오디오 신호 생성부(66)는 스텝 S61의 처리에서 얻어진 각 스피커의 오디오 신호를 스피커 시스템(52)의 각 스피커에 공급하고, 이들 오디오 신호에 기초하여 음성을 재생시키고, 복호 처리는 종료된다. 이에 의해, 스피커 시스템(52)에 의해, 각 오브젝트의 음성이 재생된다.

이상과 같이 하여 복호 장치(51)는 부호화 오디오 데이터 및 부호화 메타데이터를 복호하고, 복호에 의해 얻어진 오디오 신호 및 메타데이터에 기초하여 렌더링을 행하여, 각 스피커의 오디오 신호를 생성한다.

복호 장치(51)에서는, 렌더링을 행하는 데 있어서, 오브젝트의 오디오 신호의 프레임에 대하여 복수의 메타데이터가 얻어지므로, 보간 처리에 의해 VBAP 게인이 산출되는 샘플이 배열되는 구간의 길이를 보다 짧게 할 수 있다. 이에 의해, 보다 고음질의 음성을 얻을 수 있을 뿐만 아니라, 실시간으로 복호와 렌더링을 행할 수 있다. 또한, 프레임에 따라서는 추가 메타데이터가 부호화 메타데이터에 포함되어 있으므로, 랜덤 액세스나 독립 프레임에 있어서의 복호 및 렌더링을 실현할 수도 있다. 또한, 추가 메타데이터가 포함되지 않는 프레임에 있어서도, VBAP 게인의 보간 처리를 전환함으로써, 랜덤 액세스나 독립 프레임에 있어서의 복호 및 렌더링을 실현할 수도 있다.

그런데, 상술한 일련의 처리는, 하드웨어에 의해 실행할 수도 있고, 소프트웨어에 의해 실행할 수도 있다. 일련의 처리를 소프트웨어에 의해 실행하는 경우에는, 그 소프트웨어를 구성하는 프로그램이 컴퓨터에 인스톨된다. 여기서, 컴퓨터에는, 전용 하드웨어에 내장되어 있는 컴퓨터나, 각종 프로그램을 인스톨함으로써, 각종 기능을 실행하는 것이 가능한, 예를 들어 범용의 퍼스널 컴퓨터 등이 포함된다.

도 6은 상술한 일련의 처리를 프로그램에 의해 실행하는 컴퓨터의 하드웨어의 구성예를 도시하는 블록도이다.

컴퓨터에 있어서, CPU(Central Processing Unit)(501), ROM(Read Only Memory)(502), RAM(Random A㏄ess Memory)(503)은, 버스(504)에 의해 서로 접속되어 있다.

버스(504)에는, 입출력 인터페이스(505)가 더 접속되어 있다. 입출력 인터페이스(505)에는, 입력부(506), 출력부(507), 기록부(508), 통신부(509) 및 드라이브(510)가 접속되어 있다.

입력부(506)는 키보드, 마우스, 마이크로폰, 촬상 소자 등을 포함한다. 출력부(507)는 디스플레이, 스피커 등을 포함한다. 기록부(508)는 하드 디스크나 불휘발성의 메모리 등을 포함한다. 통신부(509)는 네트워크 인터페이스 등을 포함한다. 드라이브(510)는 자기 디스크, 광 디스크, 광자기 디스크, 또는 반도체 메모리 등의 리무버블 기록 매체(511)를 구동한다.

이상과 같이 구성되는 컴퓨터에서는, CPU(501)가, 예를 들어 기록부(508)에 기록되어 있는 프로그램을, 입출력 인터페이스(505) 및 버스(504)를 통하여, RAM(503)에 로드하여 실행함으로써, 상술한 일련의 처리가 행하여진다.

컴퓨터(CPU(501))가 실행하는 프로그램은, 예를 들어 패키지 미디어 등으로서의 리무버블 기록 매체(511)에 기록하여 제공할 수 있다. 또한, 프로그램은, 로컬 에어리어 네트워크, 인터넷, 디지털 위성 방송이라는, 유선 또는 무선의 전송 매체를 통하여 제공할 수 있다.

컴퓨터에서는, 프로그램은, 리무버블 기록 매체(511)를 드라이브(510)에 장착함으로써, 입출력 인터페이스(505)를 통하여, 기록부(508)에 인스톨할 수 있다. 또한, 프로그램은, 유선 또는 무선의 전송 매체를 통하여, 통신부(509)로 수신하여, 기록부(508)에 인스톨할 수 있다. 기타, 프로그램은 ROM(502)이나 기록부(508)에 미리 인스톨해 둘 수 있다.

또한, 컴퓨터가 실행하는 프로그램은, 본 명세서에서 설명하는 순서를 따라 시계열로 처리가 행하여지는 프로그램이어도 되고, 병렬로, 혹은 호출이 행하여졌을 때 등의 필요한 타이밍에 처리가 행하여지는 프로그램이어도 된다.

또한, 본 기술의 실시 형태는, 상술한 실시 형태에 한정되는 것은 아니며, 본 기술의 요지를 일탈하지 않는 범위에서 다양한 변경이 가능하다.

예를 들어, 본 기술은, 하나의 기능을 네트워크를 통하여 복수의 장치로 분담, 공동으로 처리하는 클라우드 컴퓨팅의 구성을 취할 수 있다.

또한, 상술한 흐름도에서 설명한 각 스텝은, 하나의 장치로 실행하는 것 외에도, 복수의 장치로 분담하여 실행할 수 있다.

또한, 하나의 스텝에 복수의 처리가 포함되는 경우에는, 그 하나의 스텝에 포함되는 복수의 처리는, 하나의 장치로 실행하는 것 외에도, 복수의 장치로 분담하여 실행할 수 있다.

또한, 본 기술은, 이하의 구성으로 하는 것도 가능하다.

(1)

오디오 오브젝트의 소정 시간 간격의 프레임의 오디오 신호를 부호화하여 얻어진 부호화 오디오 데이터와, 상기 프레임의 복수의 메타데이터를 취득하는 취득부와,

상기 부호화 오디오 데이터를 복호하는 복호부와,

상기 복호에 의해 얻어진 오디오 신호와, 상기 복수의 메타데이터에 기초하여 렌더링을 행하는 렌더링부

를 구비하는, 복호 장치.

(2)

상기 메타데이터에는, 상기 오디오 오브젝트의 위치를 나타내는 위치 정보가 포함되어 있는

(1)에 기재된 복호 장치.

(3)

상기 복수의 메타데이터의 각각은, 상기 오디오 신호의 상기 프레임 내의 복수의 샘플의 각각의 메타데이터인

(1) 또는 (2)에 기재된 복호 장치.

(4)

상기 복수의 메타데이터의 각각은, 상기 프레임을 구성하는 샘플의 수를 상기 복수의 메타데이터의 수로 나누어 얻어지는 샘플수의 간격으로 배열하는 복수의 샘플의 각각의 메타데이터인

(3)에 기재된 복호 장치.

(5)

상기 복수의 메타데이터의 각각은, 복수의 샘플 인덱스의 각각에 의해 나타나는 복수의 샘플의 각각의 메타데이터인

(3)에 기재된 복호 장치.

(6)

상기 복수의 메타데이터의 각각은, 상기 프레임 내의 소정 샘플수 간격으로 배열하는 복수의 샘플의 각각의 메타데이터인

(3)에 기재된 복호 장치.

(7)

상기 복수의 메타데이터에는, 메타데이터에 기초하여 산출되는 상기 오디오 신호의 샘플의 게인의 보간 처리를 행하기 위한 메타데이터가 포함되어 있는

(1) 내지 (6) 중 어느 하나에 기재된, 복호 장치.

(8)

오디오 오브젝트의 소정 시간 간격의 프레임의 오디오 신호를 부호화하여 얻어진 부호화 오디오 데이터와, 상기 프레임의 복수의 메타데이터를 취득하고,

상기 부호화 오디오 데이터를 복호하고,

상기 복호에 의해 얻어진 오디오 신호와, 상기 복수의 메타데이터에 기초하여 렌더링을 행하는

스텝을 포함하는 복호 방법.

(9)

상기 부호화 오디오 데이터를 복호하고,

스텝을 포함하는 처리를 컴퓨터에 실행시키는 프로그램.

(10)

오디오 오브젝트의 소정 시간 간격의 프레임의 오디오 신호를 부호화하는 부호화부와,

상기 부호화에 의해 얻어진 부호화 오디오 데이터와, 상기 프레임의 복수의 메타데이터가 포함된 비트 스트림을 생성하는 생성부

를 구비하는, 부호화 장치.

(11)

(10)에 기재된 부호화 장치.

(12)

(10) 또는 (11)에 기재된 부호화 장치.

(13)

(12)에 기재된 부호화 장치.

(14)

(12)에 기재된 부호화 장치.

(15)

(12)에 기재된 부호화 장치.

(16)

(10) 내지 (15) 중 어느 하나에 기재된, 부호화 장치.

(17)

메타데이터에 대한 보간 처리를 행하는 보간 처리부를 더 구비하는

(10) 내지 (16) 중 어느 하나에 기재된, 부호화 장치.

(18)

오디오 오브젝트의 소정 시간 간격의 프레임의 오디오 신호를 부호화하고,

상기 부호화에 의해 얻어진 부호화 오디오 데이터와, 상기 프레임의 복수의 메타데이터가 포함된 비트 스트림을 생성하는

스텝을 포함하는 부호화 방법.

(19)

스텝을 포함하는 처리를 컴퓨터에 실행시키는 프로그램.

11: 부호화 장치
22: 오디오 신호 부호화부
24: 보간 처리부
25: 관련 정보 취득부
26: 메타데이터 부호화부
27: 다중화부
28: 출력부
51: 복호 장치
62: 분리부
63: 오디오 신호 복호부
64: 메타데이터 복호부
65: 게인 산출부
66: 오디오 신호 생성부
71: 추가 메타데이터 플래그 판독부
72: 전환 인덱스 판독부
73: 보간 처리부

Claims

오디오 오브젝트의 소정 시간 간격의 프레임의 오디오 신호를 부호화하여 얻어진 부호화 오디오 데이터와, 상기 프레임의 복수의 메타데이터, 및 전환 인덱스를 취득하는 취득부와,
상기 부호화 오디오 데이터를 복호하는 복호부와,
상기 복호에 의해 얻어진 오디오 신호와, 상기 복수의 메타데이터에 기초하여 렌더링을 행하는 렌더링부
를 구비하고,
상기 복수의 메타데이터의 각각은, 상기 프레임을 구성하는 샘플 수를 상기 복수의 메타데이터의 수로 나누어 얻어지는 샘플 수의 간격으로 배열되는 복수의 샘플의 각각의 메타데이터이고,
상기 전환 인덱스는, 1 프레임당 지정된 개수의 메타데이터를 송신하는 개수 지정 방식, 1 프레임당 송신되는 메타데이터의 샘플 위치를 지정하는 샘플 지정 방식, 및 1 프레임의 샘플 수에 따라 송신되는 메타데이터의 개수가 자동으로 전환되는 자동 전환 방식 중 어느 하나를 나타내는, 복호 장치.
오디오 오브젝트의 소정 시간 간격의 프레임의 오디오 신호를 부호화하여 얻어진 부호화 오디오 데이터와, 상기 프레임의 복수의 메타데이터, 및 전환 인덱스를 취득하고,
상기 부호화 오디오 데이터를 복호하고,
상기 복호에 의해 얻어진 오디오 신호와, 상기 복수의 메타데이터에 기초하여 렌더링을 행하는
스텝을 포함하고,
상기 복수의 메타데이터의 각각은, 상기 프레임을 구성하는 샘플 수를 상기 복수의 메타데이터의 수로 나누어 얻어지는 샘플 수의 간격으로 배열되는 복수의 샘플의 각각의 메타데이터이고,
상기 전환 인덱스는, 1 프레임당 지정된 개수의 메타데이터를 송신하는 개수 지정 방식, 1 프레임당 송신되는 메타데이터의 샘플 위치를 지정하는 샘플 지정 방식, 및 1 프레임의 샘플 수에 따라 송신되는 메타데이터의 개수가 자동으로 전환되는 자동 전환 방식 중 어느 하나를 나타내는, 복호 방법.
오디오 오브젝트의 소정 시간 간격의 프레임의 오디오 신호를 부호화하여 얻어진 부호화 오디오 데이터와, 상기 프레임의 복수의 메타데이터, 및 전환 인덱스를 취득하고 - 상기 복수의 메타데이터의 각각은, 상기 프레임을 구성하는 샘플 수를 상기 복수의 메타데이터의 수로 나누어 얻어지는 샘플 수의 간격으로 배열되는 복수의 샘플의 각각의 메타데이터이고,
상기 전환 인덱스는, 1 프레임당 지정된 개수의 메타데이터를 송신하는 개수 지정 방식, 1 프레임당 송신되는 메타데이터의 샘플 위치를 지정하는 샘플 지정 방식, 및 1 프레임의 샘플 수에 따라 송신되는 메타데이터의 개수가 자동으로 전환되는 자동 전환 방식 중 어느 하나를 나타냄 -,
상기 부호화 오디오 데이터를 복호하고,
상기 복호에 의해 얻어진 오디오 신호와, 상기 복수의 메타데이터에 기초하여 렌더링을 행하는
스텝을 포함하는 처리를 컴퓨터에 실행시키는 프로그램을 기록한 컴퓨터 판독가능 기록 매체.