KR102243395B1

KR102243395B1 - 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법, 오디오 재생 장치

Info

Publication number: KR102243395B1
Application number: KR1020130106861A
Authority: KR
Inventors: 백승권; 이태진; 성종모; 강경옥; 서정일; 장대영; 이용주; 김진웅
Original assignee: 한국전자통신연구원
Priority date: 2013-09-05
Filing date: 2013-09-05
Publication date: 2021-04-22
Also published as: US10237673B2; US20200154224A1; KR20150028147A; US20190215631A1; US10575111B2; US20180139556A1; US11310615B2; US9906883B2; US20150066518A1

Abstract

객체음, 배경음 및 메타데이터가 포함된 하이브리드 콘텐츠를 부호화하는 오디오 부호화 장치 및 방법, 그리고 부호화된 하이브리드 콘텐츠를 복호화하는 오디오 복호화 장치 및 방법이 개시된다. 일실시예에 따른 오디오 부호화 장치는 배경음과 객체음을 믹싱 처리하여 중간 채널 신호를 생성하는 믹싱부; 상기 믹싱 처리에 이용되는 매트릭스 정보를 부호화하는 매트릭스 정보 부호화부; 상기 중간 채널 신호를 부호화하는 오디오 부호화부; 및 상기 객체음의 제어 정보를 포함하는 메타데이터를 부호화하는 메타데이터 부호화부를 포함할 수 있다.

Description

오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법, 오디오 재생 장치{APPARATUS FOR ENCODING AUDIO SIGNAL, APPARATUS FOR DECODING AUDIO SIGNAL, AND APPARATUS FOR REPLAYING AUDIO SIGNAL}

아래의 설명은 배경음 및 객체음 등의 오디오 신호를 부호화하는 오디오 부호화 장치, 부호화된 오디오 신호를 복호화하는 오디오 복호화 장치, 그리고 오디오 신호를 재생하는 오디오 재생 장치에 관한 것이다.

최근, 돌비(Dolby)사는 Atmos 라는 극장용 사운드 포멧 기술을 선보였다. Atmos는 기존의 극장용 사운드 포멧인 5.1 채널 또는 7.1 채널의 신호로 이루어진 것과 달리, 배경음을 이루는 오디오 채널 신호와 제어가 가능한 오디오 채널 신호를 포함하는 사운드 포멧이다.

Atmos에서는 배경음을 이루는 오디오 채널 신호를 Beds라 하고, 제어가 가능한 오디오 채널 신호를 object라 정의한다. Beds는 일반적인 오디오 채널 신호로서, 오디오 객체를 제외한 음향 장면을 구성할 수 있는 오디오 콘텐츠를 나타낸다. Object는 Beds가 형성하는 오디오 장면에 주(main)가되는 오디오 콘텐츠로서, 오디오 신호의 제어를 통해 오디오 장면에 포함되는 오디오 콘텐츠를 나타낸다.

Object의 제어와 관련된 제어 정보는 메타데이터(Metadata)를 통해 표현된다. Atmos는 Beds, Object, 및 Metadata가 하나의 package로 구성되어 있으며, Beds, Object, 및 Metadata를 통해 최종적인 채널 신호가 생성된다.

일실시예에 따른 오디오 부호화 장치는, 배경음과 객체음을 믹싱 처리하여 중간 채널 신호를 생성하는 믹싱부; 상기 믹싱 처리에 이용되는 매트릭스 정보를 부호화하는 매트릭스 정보 부호화부; 상기 중간 채널 신호를 부호화하는 오디오 부호화부; 및 상기 객체음의 제어 정보를 포함하는 메타데이터를 부호화하는 메타데이터 부호화부를 포함할 수 있다.

일실시예에 따른 오디오 부호화 장치에서, 상기 오디오 부호화부는 상기 중간 채널 신호를 부호화하여 비트스트림을 생성하는 제1 부호화부; 및 상기 중간 채널 신호의 언믹싱 처리에 이용될 객체음 또는 배경음을 부호화하는 제2 부호화부를 포함할 수 있다.

일실시예에 따른 오디오 복호화 장치는, 비트스트림에 포함된 부호화된 중간 채널 신호를 복호화하는 오디오 복호화부; 상기 복호화된 중간 채널 신호를 언믹싱 처리하여 객체음 및 배경음을 출력하는 언믹싱부; 상기 언믹싱 처리에 이용되는 매트릭스 정보를 복호화하는 매트릭스 정보 복호화부; 및 상기 객체음의 제어 정보를 포함하는 메타데이터를 복호화하는 메타데이터 복호화부를 포함할 수 있다.

일실시예에 따른 오디오 복호화 장치에서, 상기 오디오 복호화부는 상기 비트스트림을 복호화하여 중간 채널 신호를 출력하는 제1 복호화부; 및 상기 언믹싱 처리에 이용될 객체음 또는 배경음을 복호화하는 제2 복호화부를 포함할 수 있다.

일실시예에 따른 오디오 재생 장치는, 비트스트림에 포함된 부호화된 중간 채널 신호를 복호화하고, 상기 복호화된 중간 채널 신호를 언믹싱 처리하여 객체음 및 배경음을 출력하는 복호화부; 오디오 재생 환경 정보에 기초하여 렌더링에 이용할 메타데이터를 결정하는 메타데이터 결정부; 및 상기 결정된 메타데이터에 기초하여 상기 객체음 및 상기 배경음을 렌더링하는 렌더링부를 포함할 수 있다.

일실시예에 따른 오디오 부호화 방법은, 배경음과 객체음을 믹싱 처리하여 중간 채널 신호를 생성하는 단계; 상기 믹싱 처리에 이용되는 매트릭스 정보를 부호화하는 단계; 및 상기 중간 채널 신호, 상기 객체음의 제어 정보를 포함하는 메타데이터를 부호화하고, 상기 중간 채널 신호의 언믹싱 처리에 이용될 객체음 또는 배경음을 부호화하는 단계를 포함할 수 있다.

일실시예에 따른 오디오 복호화 방법은, 비트스트림에 포함된 중간 채널 신호, 및 상기 중간 채널 신호의 언믹싱 처리에 이용될 객체음 또는 배경음을 복호화하는 단계; 상기 언믹싱 처리에 이용되는 매트릭스 정보를 복호화하는 단계; 상기 매트릭스 정보를 이용하여 상기 중간 채널 신호를 언믹싱 처리하고, 객체음 및 배경음을 출력하는 단계; 및 상기 객체음의 제어 정보를 포함하는 메타데이터를 복호화하고, 상기 복호화된 메타데이터를 출력하는 단계를 포함할 수 있다.

일실시예에 따른 오디오 복호화 방법은, 오디오 재생 환경 정보에 기초하여 렌더링에 이용할 메타데이터를 결정하는 단계; 및 상기 결정된 메타데이터에 기초하여 상기 배경음 및 상기 객체음을 렌더링하는 단계를 더 포함할 수 있다.

도 1은 일실시예에 따른 오디오 부호화 장치와 오디오 복호화 장치 사이의 동작을 설명하기 위한 도면이다.
도 2는 일실시예에 따른 오디오 부호화 장치, 오디오 복호화 장치, 및 오디오 재생 장치의 세부 구성을 도시한 도면이다.
도 3은 일실시예에 따른 믹싱부와 언믹싱부의 동작을 설명하기 위한 도면이다.
도 4는 일실시예에 따른 오디오 재생 장치의 세부 구성을 도시한 도면이다.
도 5는 일실시예에 따른 오디오 부호화 방법의 동작을 도시한 흐름도이다.
도 6은 일실시예에 따른 오디오 복호화 방법의 동작을 도시한 흐름도이다.

이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 아래의 특정한 구조적 내지 기능적 설명들은 단지 발명의 실시예들을 설명하기 위한 목적으로 예시된 것으로, 발명의 범위가 본문에 설명된 실시예들에 한정되는 것으로 해석되어서는 안된다. 일실시예에 따른 오디오 부호화 방법은 오디오 부호화 장치에 의해 수행될 수 있고, 오디오 복호화 방법은 오디오 복호화 장치 또는 오디오 재생 장치에 의해 수행될 수 있다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.

도 1은 일실시예에 따른 오디오 부호화 장치(110)와 오디오 복호화 장치(120) 사이의 동작을 설명하기 위한 도면이다.

오디오 부호화 장치(110)는 배경음, 객체음 및 메타데이터를 부호화할 수 있다. 배경음, 객체음, 및 메타데이터는 하나의 패키지(package)를 구성하는 하이브리드 콘텐츠(hybrid contents)일 수 있다. 예를 들어, 하이브리드 콘텐츠는 돌비(Dolby) 사의 Atmos 오디오 신호 등을 포함할 수 있다.

배경음은 일반적인 오디오 채널 신호로서, 음향 장면을 구성할 수 있는 오디오 신호를 나타낸다. 객체음은 제어가 가능한 오디오 신호로서, 메타데이터를 통해 제어된다. 객체음은 배경음이 구성하는 음향 장면에 결합되어 동적인 음향 장면을 구성한다.

메타데이터는 객체음의 제어 정보를 포함할 수 있다. 메타데이터는 오디오 콘텐츠 제작자에 의해 생성될 수 있다. 메타데이터는 다양한 재생 환경을 고려하여 생성된 복수 개의 메타데이터들이 존재할 수 있다. 예를 들어, 메타데이터는 스테레오, 5.1 채널, 7.1 채널 등의 스피커 시스템의 레이아웃에 렌더링하기 위한 메타데이터가 존재할 수 있다. 오디오 부호화 장치(110)는 다양한 오디오 재생 환경을 고려하여 생성된 복수 개의 메타데이터들을 부호화하여 전송할 수 있다.

오디오 부호화 장치(110)는 이와 같은 하이브리드 콘텐츠를 부호화하고, 전송함으로써 하이브리드 콘텐츠의 저장 및 전송에 있어 개선된 효율을 제공한다. 배경음, 객체음, 및 메타데이터는 부호화되어 오디오 복호화 장치(120)에 전송될 수 있다. 오디오 부호화 장치(110)는 배경음 및 객체음을 중간 채널 신호(intermediate channel)로 믹싱(mixing)한 후, 믹싱 처리된 중간 채널 신호를 부호화할 수 있다. 오디오 부호화 장치(110)는 중간 채널 신호의 언믹싱(un-mixing) 처리에 필요한 객체음 또는 배경음, 매트릭스 정보도 부호화할 수 있다. 예를 들어, 부호화된 메타데이터 및 부호화된 매트릭스 정보는 비트스트림 또는 부가정보 비트스트림의 형태로 오디오 복호화 장치(120)에 전송될 수 있다.

오디오 복호화 장치(120)는 중간 채널 신호, 중간 채널 신호의 언믹싱 처리에 필요한 객체음 또는 배경음, 메타데이터를 복호화할 수 있다. 오디오 복호화 장치(120)는 언믹싱 처리에 필요한 객체음 또는 배경음 및 매트릭스 정보에 기초하여 중간 채널 신호로부터 객체음 또는 배경음을 추출할 수 있다. 오디오 복호화 장치(120)는 중간 채널 신호로부터 추출한 객체음 또는 배경음 및 복호화된 배경음 또는 배경음, 복호화된 메타데이터를 출력할 수 있다.

도 2는 일실시예에 따른 오디오 부호화 장치(210), 오디오 복호화 장치(245), 및 오디오 재생 장치(250)의 세부 구성을 도시한 도면이다.

도 2를 참조하면, 오디오 부호화 장치(210)는 믹싱부(215), 오디오 부호화부(220), 매트릭스 정보 부호화부(235) 및 메타데이터 부호화부(240)를 포함할 수 있다.

믹싱부는 배경음과 객체음을 믹싱 처리하여 중간 채널 신호를 생성할 수 있다. 믹싱부(215)는 배경음과 객체음을 믹싱하기 위한 매트릭스 정보를 이용하여 믹싱 처리를 수행할 수 있다. 믹싱부(215)는 오디오 부호화 장치(210)에 미리 저장된 매트릭스 정보를 이용하거나, 또는 콘텐츠 제작자 또는 시스템 설계자에 의해 결정된 매트릭스 정보를 이용할 수 있다. 배경음과 객체음을 믹싱하는데 이용된 매트릭스 정보는 매트릭스 정보 부호화부(235)에 의해 부호화될 수 있다.

믹싱부는 배경음의 벡터 요소에 대한 렌더링 매트릭스 및 객체음의 벡터 요소에 대한 렌더링 매트릭스를 이용하여 믹싱 처리를 수행할 수 있다. 예를 들어, 믹싱부(215)는 배경음의 채널 이득값 및 배경음에 믹싱되는 객체음의 이득값에 기초하여 매트릭스 연산을 수행할 수 있다. 믹싱부(215)에 의해 출력된 중간 채널 신호는 배경음의 벡터 요소, 객체음의 벡터 요소, 배경음의 채널 이득값, 및 배경음에 믹싱되는 객체음의 이득값에 기초하여 결정될 수 있다.

메타데이터 부호화부(240)는 객체음에 관한 제어 정보를 포함하는 메타데이터를 부호화할 수 있다. 메타데이터 부호화부(240)는 다양한 재생 환경에 기초하여 생성된 복수의 메타데이터들을 부호화할 수 있다. 즉, 메타데이터 부호화부(240)는 서로 다른 오디오 재생 환경에 대응되는 복수의 메타데이터들을 부호화할 수 있다. 예를 들어, 부호화된 매트릭스 정보 및 부호화된 메타데이터는 비트스트림 또는 부가정보 비트스트림의 형태로 전송될 수 있다. 단, 부호화된 매트릭스 정보 및 부호화된 메타데이터가 전송되는 형태는 위 기재에 한정되지 아니하며, 다양한 실시예가 가능하다.

오디오 부호화부(220)는 오디오 신호를 부호화할 수 있다. 오디오 부호화부(220)는 믹싱부(215)가 출력한 중간 채널 신호를 부호화하는 제1 부호화부(225) 및 중간 채널 신호의 언믹싱 처리에 이용될 객체음 또는 배경음을 부호화하는 제2 부호화부(230)를 포함할 수 있다.

제1 부호화부(225)는 중간 채널 신호를 부호화하고, 부호화된 중간 채널 신호를 비트스트림으로 출력할 수 있다. 제2 부호화부(230)는 배경음 및 객체음 중 적어도 하나를 부호화할 수 있다. 오디오 복호화 장치(245)의 언믹싱부(270)가 중간 채널 신호로부터 원래의 객체음 및 원래의 배경음을 추출하기 위해서는 객체음 또는 배경음이 언믹싱부(270)에 입력되어야 한다. 제2 부호화부(230)는 언믹싱부(270)의 언믹싱 처리에 이용될 배경음 또는 객체음을 부호화할 수 있다.

예를 들어, 객체음이 중간 채널 신호의 언믹싱 처리에 이용되는 경우, 제2 부호화부(230)는 객체음을 부호화하고, 부호화된 객체음을 비트스트림으로 출력할 수 있다. 부호화된 객체음은 오디오 복호화 장치(245)의 제2 복호화부(265)로 전송되고, 제2 복호화부(265)는 부호화된 객체음을 복호화하여 언믹싱부(270)에 전송할 수 있다. 언믹싱부(270)는 제2 복호화부(265)로부터 수신한 객체음을 이용하여 중간 채널 신호로부터 배경음을 추출할 수 있다.

다른 예로, 배경음이 중간 채널 신호의 언믹싱 처리에 이용되는 경우, 제2 부호화부(230)는 배경음을 부호화하고, 부호화된 배경음을 비트스트림으로 출력할 수 있다. 부호화된 배경음은 오디오 복호화 장치(245)의 제2 복호화부(265)로 전송되고, 제2 복호화부(265)는 부호화된 배경음을 복호화하여 언믹싱부(270)에 전송할 수 있다. 언믹싱부(270)는 제2 복호화부(265)로부터 수신한 배경음을 이용하여 중간 채널 신호로부터 객체음을 추출할 수 있다.

도 2의 실시예에서는, 설명의 편의를 위해 중간 채널 신호의 언믹싱 처리에 객체음이 이용되는 것으로 가정한다.

도 2를 참조하면, 오디오 복호화 장치(245)는 오디오 복호화부(255), 매트릭스 정보 복호화부(275), 언믹싱부(270) 및 메타데이터 복호화부(280)를 포함할 수 있다.

오디오 복호화부(255)는 비트스트림에 포함된 부호화된 오디오 신호를 복호화할 수 있다. 오디오 복호화부(255)는 비트스트림을 복호화하여 중간 채널 신호를 출력하는 제1 복호화부(260) 및 중간 채널 신호의 언믹싱 처리에 이용될 객체음 또는 배경음을 복호화하는 제2 복호화부(265)를 포함할 수 있다.

매트릭스 정보 복호화부(275)는 언믹싱 처리에 이용되는 매트릭스 정보를 복호화할 수 있다. 언믹싱부(270)는 복호화된 매트릭스 정보를 이용하여 매트릭스 연산을 수행할 수 있다. 매트릭스 정보는 오디오 부호화 장치(210)의 믹싱부(215)에서 중간 채널 신호를 생성하기 위해 이용된 매트릭스 정보에 대응된다.

언믹싱부(un-mixing unit, 270)는 중간 채널 신호를 언믹싱 처리하여 객체음 및 배경음을 출력할 수 있다. 언믹싱부(270)는 언믹싱 처리를 위해 제2 복호화부(265)에서 복호화된 객체음 또는 복호화된 배경음을 이용할 수 있다. 언믹싱부(270)는 믹싱부(215)에서 수행된 매트릭스 연산의 역의 과정을 수행하여 중간 채널 신호로부터 객체음 또는 배경음을 추출할 수 있다.

예를 들어, 언믹싱부(270)는 제2 복호화부(265)로부터 복호화된 객체음을 수신하는 경우, 복호화된 객체음을 이용하여 중간 채널 신호로부터 배경음을 추출하고, 복호화된 객체음과 추출된 배경음을 출력할 수 있다.

다른 예로, 언믹싱부(270)는 제2 복호화부(265)로부터 복호화된 배경음을 수신하는 경우, 복호화된 배경음을 이용하여 중간 채널 신호로부터 객체음을 추출하고, 복호화된 배경음과 추출된 객체음을 출력할 수 있다.

메타데이터 복호화부(280)는 부호화된 메타데이터를 복호화할 수 있다. 메타데이터의 복호화 결과, 복수 개의 메타데이터들이 복원될 수 있다.

오디오 복호화 장치(245)는 메타데이터 복호화부(280)에서 출력된 메타데이터, 및 언믹싱부(270)에서 출력된 배경음 및 객체음을 조합하여 하이브리드 콘텐츠를 출력할 수 있다. 부호화된 하이브리드 콘텐츠는 복호화 과정 및 언믹싱 처리 과정을 통해 다시 하이브리드 콘텐츠로 복원될 수 있다. 믹싱부(215)에 의해 배경음 및 객체음으로부터 중간 채널 신호가 생성되는 과정 및 언믹싱부(270)에 의해 중간 채널 신호가 배경음 및 객체음으로 변환되는 과정은 도 3에서 보다 상세히 설명하도록 한다.

도 2를 참조하면, 오디오 재생 장치(250)는 오디오 복호화 장치(245)의 구성을 모두 포함하면서, 렌더링부(290) 및 메타데이터 결정부(285)를 더 포함할 수 있다. 오디오 재생 장치(250)에 포함되는 오디오 복호화 장치(245)의 구성은 위에 기재된 내용을 참고할 수 있다.

메타데이터 결정부(285)는 메타데이터 복호화부(280)에 의해 복원된 복수의 메타데이터들 중 오디오 재생 환경 정보에 기초하여 렌더링에 이용될 메타데이터를 결정할 수 있다. 오디오 재생 환경 정보는 사용자의 오디오 재생 시스템에 관한 정보 또는 사용자에 의해 입력된 오디오 재생 환경 정보를 포함할 수 있다. 예를 들어, 오디오 재생 환경 정보가 현재 오디오 재생 환경이 5.1 채널임을 나타내는 경우, 메타데이터 결정부(285)는 복수의 메타데이터 중에서 5.1 채널의 재생 환경에 대응되는 메타데이터를 선택하고, 선택된 메타데이터를 렌더링부(290)에 제공할 수 있다.

메타데이터 결정부(285)가 오디오 재생 환경 정보를 고려하여 렌더링에 이용될 메타데이터를 결정함으로써, 오디오 재생 장치(250)는 스피커 시스템의 레이아웃에 적합한 출력을 유연하게 재생할 수 있다.

렌더링부(290)는 메타데이터 결정부(285)로부터 제공받은 메타데이터에 기초하여 객체음 및 배경음을 렌더링(rendering)할 수 있다. 렌더링부(290)는 객체음 및 배경음을 렌더링하여 타겟(target) 채널 신호를 출력할 수 있다. 타겟 채널 신호는 배경음과 객체음이 결합되어 음향 장면을 표현하는 오디오 신호를 나타낸다. 렌더링부(290)는 메타데이터에 기초하여 오디오 재생 환경의 채널 레이아웃에 적합한 음향 장면을 구성할 수 있다.

도 3은 일실시예에 따른 믹싱부(215)와 언믹싱부(270)의 동작을 설명하기 위한 도면이다.

이하에서는, 믹싱부(215)가 매트릭스 정보에 기초하여 배경음과 객체음을 믹싱 처리하는 것에 의해 중간 채널 신호를 생성하는 구성과 언믹싱부(270)가 매트릭스 정보에 기초하여 중간 채널 신호를 언믹싱 처리하는 것에 의해 배경음과 객체음을 출력하는 구성을 보다 상세히 설명하도록 한다.

도 3에서, 배경음 X_beds과 객체음 X_object을 포함하는 하이브리드 콘텐츠 X_hybrid는 다음의 수학식 1과 같이 표현할 수 있다. 하이브리드 콘텐츠의 배경음과 객체음은 믹싱부(215)에 입력된다.

여기서,

는 하이브리드 콘텐츠의 입력 신호 벡터를 나타낸다.

는 배경음에 대한 벡터 열을 나타내고,

는 객체음에 대한 벡터 열을 나타낸다.

배경음에 대한 벡터 열

은 다음의 수학식 2와 같이 나타낼 수 있다.

여기서, ch 는 배경음의 채널 인덱스를 나타내고, N 은 하이브리드 콘텐츠에 포함되어 있는 배경음의 채널 수를 나타낸다.

객체음에 대한 벡터 열

은 다음의 수학식 3와 같이 나타낼 수 있다.

여기서, obj 는 객체 개수에 대한 인덱스이고, M 은 하이브리드 콘텐츠에 포함되어 있는 객체음의 개수를 나타낸다. 하이브리드 콘텐츠 제작 시, 일반적으로 M 은 1 또는 2 가 될 것이나 M 의 값이 이에 한정되는 것은 아니다.

믹싱부는 다음의 수학식 4에 기초하여 믹싱 처리를 수행할 수 있다. 믹싱 처리는 매트릭스 연산을 포함한다.

여기서,

는 믹싱 처리의 결과로 생성되는 중간 채널 신호로서, 다음의 수학식 5와 같이 나타낼 수 있다.

중간 채널 신호

는 배경음의 차원과 동일한 열 벡터를 나타낸다.

수학식 4에서,

은 믹싱 처리를 수행하는 렌더링 매트릭스로서,

로 구성될 수 있다.

는

에 대한 렌더링을 수행하기 위한 매트릭스를 나타내고,

는

에 대한 렌더링을 수행하기 위한 매트릭스를 나타낸다.

일실시예에 따른

의 매트릭스 요소는 다음의 수학식 6과 같이 나타낼 수 있다.

수학식 6에서는, 설명의 편의를 위해 객체음이 하나인 실시예를 가정하였다. 수학식 6에서,

는 배경음의 ch 번째 채널에 대한 채널 이득값(gain)을 나타내고,

는 ch 번째 배경음 채널 신호에 믹싱되는 객체음의 이득값을 나타낸다. ch 는 0 이상 N-1 이하의 정수값을 가진다. N는 하이브리드 콘텐츠에 포함되어 있는 배경음의 채널 수를 나타낸다. 객체음이 하나인 것으로 가정하였으므로,

에서 obj는 0 이 된다.

는 시간 지연을 나타내기 위한 요소로서, 배경음의 ch 번째 채널에

만큼의 시간 지연을 적용시킨 후 믹싱한다.

수학식 5 및 수학식 6으로부터 중간 채널 신호

는 다음의 수학식 7과 같이 나타낼 수 있다.

수학식 7로부터, 중간 채널 신호

는 배경음과 객체음으로 구성됨을 알 수 있고, 중간 채널 신호는 사용자에게 그대로 서비스될 수 있다. 또한, 중간 채널 신호는 기존 오디오 코덱 시스템과 하위 호환성을 갖는다.

중간 채널 신호가 배경음 및 객체음을 포함하는 하이브리드 콘텐츠로 변환되기 위해서는 언믹싱 처리가 필요하다. 언믹싱 처리에 필요한 매트릭스 정보

및 언믹싱 처리에 필요한 객체음 정보는 복호화된 후 언믹싱부(270)에 입력된다. 도 3에서는 언믹싱 처리에 객체음 정보를 이용하는 것으로 가정하였으므로, 객체음 정보가 언믹싱부(270)에 입력된다.

언믹싱부(270)는 매트릭스 정보 및 객체음 정보를 이용하여 중간 채널 신호에서 배경음에 대한 성분을 추출할 수 있다. 언믹싱부(270)는 전송된 객체음과 언믹싱된 배경음을 이용하여 다시 하이브리드 콘텐츠를 구성할 수 있다.

언믹싱부(270)의 언믹싱 처리는 다음의 수학식 8에 기초하여 수행될 수 있다.

배경음과 객체음은 부호화 및 복호화 과정에서 원본이 달라지기 때문에 수학식 8에서, 객체음과 배경음을 hat 형태로 나타내었다. 언믹싱부(270)는 언믹싱 처리를 위해 믹싱 과정에서 이용된 매트릭스 연산을 역으로 수행할 수 있다. 수학식 7로부터 객체음 및 배경음으로부터 중간 채널 신호가 생성되는 방법을 알 수 있으므로, 수학식 8과 관련된 매트릭스 연산에 대한 자세한 내용은 생략하도록 한다.

도 4는 일실시예에 따른 오디오 재생 장치(410)의 세부 구성을 도시한 도면이다.

도 4를 참조하면, 오디오 재생 장치(410)는 복호화부(420), 메타데이터 결정부(430) 및 렌더링부(440)를 포함할 수 있다.

복호화부(420)는 비트스트림에 포함된 부호화된 중간 채널 신호를 복호화하고, 복호화된 중간 채널 신호를 언믹싱 처리하여 객체음 및 배경음을 출력할 수 있다. 복호화부(420)는 언믹싱 처리에 이용되는 매트릭스 정보를 복호화하고, 복호화된 매트릭스 정보에 기초하여 복호화된 중간 채널 신호를 언믹싱 처리할 수 있다.

복호화부(420)는 언믹싱 처리에 이용될 객체음 또는 배경음을 복호화하고, 복호화된 객체음 또는 복호화된 배경음을 이용하여 중간 채널 신호로부터 배경음 또는 객체음을 추출할 수 있다. 예를 들어, 복호화부(420)는 언믹싱 처리에 이용되는 것이 배경음인 경우, 복호화된 배경음을 이용하여 중간 채널 신호로부터 객체음을 추출하고, 복호화된 배경음과 추출된 객체음을 출력할 수 있다. 다른 예로, 복호화부(420)는 언믹싱 처리에 이용되는 것이 객체음인 경우, 복호화된 객체음을 이용하여 중간 채널 신호로부터 배경음을 추출하고, 복호화된 객체음과 추출된 배경음을 출력할 수 있다.

복호화부(420)는 객체음의 제어 정보를 포함하는 복수의 메타데이터들을 복호화할 수 있다. 메타데이터 결정부(430)는 오디오 재생 환경 정보에 포함된 스피커 시스템의 레이아웃 정보에 기초하여 복수의 메타데이터들 중 렌더링에 이용할 메타데이터를 결정할 수 있다.

렌더링부(440)는 메타데이터 결정부(430)에 의해 결정된 메타데이터에 기초하여 객체음 및 배경음을 렌더링할 수 있다. 렌더링부(440)는 배경음, 객체음 및 메타데이터를 이용하여 타겟 채널 신호를 생성할 수 있다. 렌더링부(440)는 배경음이 구성하는 음향 장면에 메타데이터를 통해 제어된 객체음을 렌더링하는 것에 의해 타겟 채널 신호를 생성할 수 있다. 렌더링부(440)는 배경음, 객체음, 메타데이터를 이용하여 다양한 채널 환경에서 음향 장면을 구성할 수 있다.

도 5는 일실시예에 따른 오디오 부호화 방법의 동작을 도시한 흐름도이다.

단계(510)에서, 오디오 부호화 장치는 배경음과 객체음을 믹싱 처리하여 중간 채널 신호를 생성할 수 있다. 오디오 부호화 장치는 배경음과 객체음을 믹싱하기 위한 매트릭스 정보를 이용하여 믹싱 처리를 수행할 수 있다. 오디오 부호화 장치는 배경음의 벡터 요소에 대한 렌더링 매트릭스 및 객체음의 벡터 요소에 대한 렌더링 매트릭스를 이용하여 믹싱 처리를 수행할 수 있다. 믹싱부에 의해 출력된 중간 채널 신호는 배경음의 벡터 요소, 객체음의 벡터 요소, 배경음의 채널 이득값, 및 배경음에 믹싱되는 객체음의 이득값에 기초하여 결정될 수 있다.

단계(520)에서, 오디오 부호화 장치는 믹싱 처리에 이용되는 매트릭스 정보를 부호화할 수 있다. 일실시예에 따르면, 단계(520)은 단계(510)보다 먼저 수행되거나, 또는 단계(510)과 동시에 수행될 수도 있다.

단계(530)에서, 오디오 부호화 장치는 중간 채널 신호, 객체음의 제어 정보를 포함하는 메타데이터를 부호화하고, 중간 채널 신호의 언믹싱 처리에 이용될 객체음 또는 배경음을 부호화할 수 있다. 오디오 부호화 장치는 다양한 재생 환경에 기초하여 생성된 복수의 메타데이터들을 부호화할 수 있다.

도 6은 일실시예에 따른 오디오 복호화 방법의 동작을 도시한 흐름도이다.

단계(610)에서, 오디오 재생 장치는 비트스트림에 포함된 중간 채널 신호, 및 중간 채널 신호의 언믹싱 처리에 이용될 객체음 또는 배경음을 복호화할 수 있다.

단계(620)에서, 오디오 재생 장치는 중간 채널 신호의 언믹싱 처리에 이용되는 매트릭스 정보를 복호화할 수 있다. 일실시예에 따르면, 단계(620)은 단계(610)보다 먼저 수행되거나, 또는 단계(610)과 동시에 수행될 수도 있다.

단계(630)에서, 오디오 재생 장치는 매트릭스 정보를 이용하여 중간 채널 신호를 언믹싱 처리하고, 객체음 및 배경음을 출력할 수 있다. 오디오 재생 장치는 언믹싱 처리를 위해 복호화된 객체음 또는 복호화된 배경음을 이용할 수 있다. 예를 들어, 오디오 재생 장치는 복호화된 객체음을 이용하여 중간 채널 신호로부터 배경음을 추출하고, 복호화된 객체음과 추출된 배경음을 출력할 수 있다. 다른 예로, 오디오 재생 장치는 복호화된 배경음을 이용하여 중간 채널 신호로부터 객체음을 추출하고, 복호화된 배경음과 추출된 객체음을 출력할 수 있다.

단계(640)에서, 오디오 재생 장치는 객체음의 제어 정보를 포함하는 메타데이터를 복호화하고, 복호화된 메타데이터를 출력할 수 있다. 메타데이터의 복호화 결과, 복수 개의 메타데이터들이 복원될 수 있다.

단계(650)에서, 오디오 재생 장치는 오디오 재생 환경 정보에 기초하여 렌더링에 이용할 메타데이터를 결정할 수 있다. 오디오 재생 장치는 복호화된 복수의 메타데이터들 중 오디오 재생 환경 정보에 기초하여 렌더링에 이용될 메타데이터를 결정할 수 있다.

단계(660)에서, 오디오 재생 장치는 결정된 메타데이터에 기초하여 배경음 및 객체음을 렌더링할 수 있다. 오디오 재생 장치는 객체음 및 배경음을 렌더링하여 음향 장면을 표현하는 타겟 채널 신호를 출력할 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

110: 오디오 부호화 장치
120: 오디오 복호화 장치

Claims

배경음과 객체음을 믹싱(mixing) 처리하여 중간 채널 신호를 생성하는 믹싱부;
상기 믹싱 처리에 이용되는 매트릭스 정보를 부호화하는 매트릭스 정보 부호화부;
상기 중간 채널 신호를 부호화하는 오디오 부호화부; 및
상기 객체음의 제어 정보를 포함하는 메타데이터를 부호화하는 메타데이터 부호화부
를 포함하고,
상기 중간 채널 신호의 채널 개수는 배경음의 채널 개수와 동일하고,
상기 중간 채널 신호는 배경음의 채널 이득값 및 배경음과 믹싱되는 객체음의 이득값에 기초하여 결정되고,
상기 메타데이터는,
오디오 재생 환경 정보에 기초하여 렌더링을 위해 객체음의 제어 정보를 포함하는 오디오 부호화 장치.
제1항에 있어서,
상기 오디오 부호화부는,
상기 중간 채널 신호를 부호화하여 비트스트림을 생성하는 제1 부호화부; 및
상기 중간 채널 신호의 언믹싱 처리에 이용될 객체음 또는 배경음을 부호화하는 제2 부호화부
를 포함하는 오디오 부호화 장치.
제1항에 있어서,
상기 믹싱부는,
상기 배경음의 채널 이득값 및 상기 배경음에 믹싱되는 객체음의 이득값에 기초하여 매트릭스 연산을 수행하는 것을 특징으로 하는 오디오 부호화 장치.
제1항에 있어서,
상기 믹싱부는,
상기 배경음의 벡터 요소에 대한 렌더링 매트릭스 및 상기 객체음의 벡터 요소에 대한 렌더링 매트릭스를 이용하여 믹싱 처리를 수행하는 것을 특징으로 하는 오디오 부호화 장치.
삭제
제1항에 있어서,
상기 메타데이터 부호화부는,
서로 다른 오디오 재생 환경에 대응되는 복수의 메타데이터들을 부호화하는 것을 특징으로 하는 오디오 부호화 장치.
비트스트림에 포함된 부호화된 중간 채널 신호를 복호화하는 오디오 복호화부;
상기 복호화된 중간 채널 신호를 언믹싱(unmixing) 처리하여 객체음 및 배경음을 출력하는 언믹싱부;
상기 언믹싱 처리에 이용되는 매트릭스 정보를 복호화하는 매트릭스 정보 복호화부; 및
상기 객체음의 제어 정보를 포함하는 메타데이터를 복호화하는 메타데이터 복호화부
를 포함하고,
상기 중간 채널 신호의 채널 개수는 배경음의 채널 개수와 동일하고,
상기 중간 채널 신호는 배경음의 채널 이득값 및 배경음과 믹싱되는 객체음의 이득값에 기초하여 결정되고,
상기 메타데이터는,
오디오 재생 환경 정보에 기초하여 렌더링을 위해 객체음의 제어 정보를 포함하는 오디오 복호화 장치.
제7항에 있어서,
상기 오디오 복호화부는,
상기 비트스트림을 복호화하여 중간 채널 신호를 출력하는 제1 복호화부; 및
상기 언믹싱 처리에 이용될 객체음 또는 배경음을 복호화하는 제2 복호화부
를 포함하는 오디오 복호화 장치.
제8항에 있어서,
상기 언믹싱부는,
상기 제2 복호화부로부터 복호화된 객체음을 수신하는 경우, 상기 복호화된 객체음을 이용하여 상기 중간 채널 신호로부터 배경음을 추출하고, 상기 복호화된 객체음과 상기 추출된 배경음을 출력하는 것을 특징으로 하는 오디오 복호화 장치.
제8항에 있어서,
상기 언믹싱부는,
상기 제2 복호화부로부터 복호화된 배경음을 수신하는 경우, 상기 복호화된 배경음을 이용하여 상기 중간 채널 신호로부터 객체음을 추출하고, 상기 복호화된 배경음과 상기 추출된 객체음을 출력하는 것을 특징으로 하는 오디오 복호화 장치.
삭제
제7항에 있어서,
상기 오디오 복호화 장치는,
상기 메타데이터 복호화부에서 출력된 메타데이터, 및 상기 언믹싱부에서 출력된 배경음 및 객체음을 조합하여 하이브리드 콘텐츠를 출력하는 것을 특징으로 하는 오디오 복호화 장치.
비트스트림에 포함된 부호화된 중간 채널 신호를 복호화하고, 상기 복호화된 중간 채널 신호를 언믹싱 처리하여 객체음 및 배경음을 출력하는 복호화부;
오디오 재생 환경 정보에 기초하여 렌더링에 이용할 메타데이터를 결정하는 메타데이터 결정부; 및
상기 결정된 메타데이터에 기초하여 상기 객체음 및 상기 배경음을 렌더링하는 렌더링부
를 포함하고,
상기 중간 채널 신호의 채널 개수는 배경음의 채널 개수와 동일하고,
상기 중간 채널 신호는 배경음의 채널 이득값 및 배경음과 믹싱되는 객체음의 이득값에 기초하여 결정되고,
상기 메타데이터는,
오디오 재생 환경 정보에 기초하여 렌더링을 위해 객체음의 제어 정보를 포함하는 오디오 재생 장치.
제13항에 있어서,
상기 복호화부는,
상기 언믹싱 처리에 이용되는 매트릭스 정보를 복호화하고, 상기 복호화된 매트릭스 정보에 기초하여 상기 복호화된 중간 채널 신호를 언믹싱 처리하는 것을 특징으로 하는 오디오 재생 장치.
제13항에 있어서,
상기 복호화부는,
상기 언믹싱 처리에 이용될 객체음 또는 배경음을 복호화하고, 상기 복호화된 객체음 또는 복호화된 배경음을 이용하여 중간 채널 신호로부터 배경음 또는 객체음을 추출하는 것을 특징으로 하는 오디오 재생 장치.
제15항에 있어서,
상기 복호화부는,
상기 언믹싱 처리에 이용되는 것이 객체음인 경우, 복호화된 객체음을 이용하여 상기 중간 채널 신호로부터 배경음을 추출하고, 상기 복호화된 객체음과 상기 추출된 배경음을 출력하는 것을 특징으로 하는 오디오 재생 장치.
제15항에 있어서,
상기 복호화부는,
상기 언믹싱 처리에 이용되는 것이 배경음인 경우, 복호화된 배경음을 이용하여 상기 중간 채널 신호로부터 객체음을 추출하고, 상기 복호화된 배경음과 상기 추출된 객체음을 출력하는 것을 특징으로 하는 오디오 재생 장치.
제13항에 있어서,
상기 복호화부는,
상기 객체음의 제어 정보를 포함하는 복수의 메타데이터들을 복호화하고,
상기 메타데이터 결정부는,
오디오 재생 환경 정보에 포함된 스피커 시스템의 레이아웃 정보에 기초하여 상기 복수의 메타데이터들 중 렌더링에 이용할 메타데이터를 결정하는 것을 특징으로 하는 오디오 재생 장치.
제13항에 있어서,
상기 렌더링부는,
상기 객체음 및 상기 배경음을 렌더링하여 음향 장면을 표현하기 위한 타겟 채널 신호를 출력하는 것을 특징으로 하는 오디오 재생 장치.
배경음과 객체음을 믹싱 처리하여 중간 채널 신호를 생성하는 단계;
상기 믹싱 처리에 이용되는 매트릭스 정보를 부호화하는 단계; 및
상기 중간 채널 신호, 상기 객체음의 제어 정보를 포함하는 메타데이터를 부호화하고, 상기 중간 채널 신호의 언믹싱 처리에 이용될 객체음 또는 배경음을 부호화하는 단계
를 포함하고,
상기 중간 채널 신호의 채널 개수는 배경음의 채널 개수와 동일하고,
상기 중간 채널 신호는 배경음의 채널 이득값 및 배경음과 믹싱되는 객체음의 이득값에 기초하여 결정되고,
상기 메타데이터는,
오디오 재생 환경 정보에 기초하여 렌더링을 위해 객체음의 제어 정보를 포함하는 오디오 부호화 방법.
비트스트림에 포함된 중간 채널 신호, 및 상기 중간 채널 신호의 언믹싱 처리에 이용될 객체음 또는 배경음을 복호화하는 단계;
상기 언믹싱 처리에 이용되는 매트릭스 정보를 복호화하는 단계;
상기 매트릭스 정보를 이용하여 상기 중간 채널 신호를 언믹싱 처리하고, 객체음 및 배경음을 출력하는 단계; 및
상기 객체음의 제어 정보를 포함하는 메타데이터를 복호화하고, 상기 복호화된 메타데이터를 출력하는 단계
를 포함하고,
상기 중간 채널 신호의 채널 개수는 배경음의 채널 개수와 동일하고,
상기 중간 채널 신호는 배경음의 채널 이득값 및 배경음과 믹싱되는 객체음의 이득값에 기초하여 결정되고,
상기 메타데이터는,
오디오 재생 환경 정보에 기초하여 렌더링을 위해 객체음의 제어 정보를 포함하는 오디오 복호화 방법.
제21항에 있어서,
상기 결정된 메타데이터에 기초하여 상기 배경음 및 상기 객체음을 렌더링하는 단계
를 더 포함하는 오디오 복호화 방법.