KR20120036329A

KR20120036329A - 객체 기반 오디오 컨텐츠 생성／재생 장치

Info

Publication number: KR20120036329A
Application number: KR1020120021215A
Authority: KR
Inventors: 유재현; 심환; 정현주; 성굉모; 서정일; 강경옥; 홍진우; 안치득
Original assignee: 한국전자통신연구원
Priority date: 2008-12-02
Filing date: 2012-02-29
Publication date: 2012-04-17
Also published as: KR20100062784A

Abstract

객체 기반 오디오 컨텐츠 생성/재생 장치가 개시된다. 객체 기반 오디오 컨텐츠 생성 장치는 복수의 음원 신호를 녹음하여 복수의 객체 오디오 신호를 획득하는 객체 오디오 신호 획득부, 상기 복수의 음원 신호의 녹음 공간에 대한 녹음 공간 정보를 획득하는 녹음 공간 정보 획득부, 상기 복수의 음원 신호의 음원 위치 정보를 획득하는 음원 위치 정보 획득부, 및 상기 복수의 객체 오디오 신호, 상기 녹음 공간 정보 및 상기 음원 위치 정보 중에서 적어도 하나를 부호화하여 객체 기반 오디오 컨텐츠를 생성하는 부호화부를 포함한다.

Description

객체 기반 오디오 컨텐츠 생성／재생 장치{APPARATUS FOR GENERATING AND PLAYING OBJECT BASED AUDIO CONTENTS}

본 발명은 객체 기반 오디오 컨텐츠 생성/재생 장치에 관한 것으로서, 더욱 상세하게는 객체 기반 오디오 컨텐츠의 사용자 환경에 구애 받지 않고 객체 기반 오디오 컨텐츠를 생성/재생할 수 있는 객체 기반 오디오 컨텐츠 생성/재생 장치에 관한 것이다.

MPEG-4의 표준은 1998년에 표준 ISO/IEC(International Organization for Standardization/International Electrotechnical Commission) 산하의 MPEG(Moving Picture Experts Group)에 의해서 제안된 오디오/비디오의 부호화 표준이다. MPEG-4는 이전의 MPEG-1, MPEG-2의 표준체계를 더욱 발전시켜 VRML(Virtual Reality Markup Language), 객체 기반 복합 파일 체계(object-oriented composite file)에 관한 내용 등을 추가하였다. MPEG-4는 부호화 효율을 높이고 오디오, 비디오, 음성에 대한 통합적 부호화 방법을 개발하고, 대화형의 오디오/비디오 재생을 가능하게 하고, 에러 복원 기술을 발전시키는 것을 주된 목표로 하고 있다.

MPEG-4는 객체 기반의 오디오/비디오를 재생할 수 있다는 점을 주된 특징으로 하고 있다. 즉, MPEG-1, MPEG-2는 일반적인 구조, 다중 송신, 및 동기화에 국한되었다면, MPEG-4는 이에 부가하여 장면 묘사, 양방향성, 내용 묘사와 프로그램화 가능성을 포함하고 있다. MPEG-4에서는 부호화 대상을 객체 별로 나누고, 각 객체의 속성에 따라 부호화 방법을 설정하고 원하는 장면을 묘사하여 오디오 장면 정보 이진 포맷(audio Binary Format for Scenes, AudioBIFS)의 형태로 전송하게 된다. 또한 청취자들은 단말기를 통해서 각 객체의 크기나 위치 등의 정보를 조절하여 오디오를 청취할 수 있다.

대표적인 객체 기반의 오디오 컨텐츠 재생 기법으로 음장 합성 재생 기법이 있다. 음장 합성 재생 기술은 임의의 1차 음원에서 발생하는 1차 파면을, 다수의 라우드스피커(loudspeaker)를 통해서 재생되는 소리들로 합성하여 라우드스피커 어레이로 구분 지어지는 임의의 체적 안에 1차 파면과 동일한 파장을 발생키는 음장 재생 기술이다.

음장 합성 재생 기법과 관련한 표준화 프로젝트인 CARROUSO(Creating Assessing and Rendering on Real time Of high quality aUdio-viSual envirOnments in MPEG-4 context)에서는 객체 지향적이고 상호적인 특징을 가진 MPEG-4를 통해서 객체의 형태로 음원을 전송하고 음장 합성으로 재생하기 위한 연구가 수행되었다

본 발명은 사용자의 오디오 재생 환경에 구애 받지 않고, 음장 합성 재생 방식 및 멀티 채널 서라운드 재생 방식 중에서 적어도 하나에 기초하여 객체 기반 오디오 컨텐츠를 재생할 수 있도록 하는 객체 기반 오디오 컨텐츠 생성/재생 장치를 제공하는 것을 목적으로 한다.

상기와 같은 본 발명의 목적을 달성하기 위하여, 본 발명의 일실시예에 따른 객체 기반 오디오 컨텐츠 생성 장치는 복수의 음원 신호를 녹음하여 복수의 객체 오디오 신호를 획득하는 객체 오디오 신호 획득부, 상기 복수의 음원 신호의 녹음 공간에 대한 녹음 공간 정보를 획득하는 녹음 공간 정보 획득부, 상기 복수의 음원 신호의 음원 위치 정보를 획득하는 음원 위치 정보 획득부, 및 상기 복수의 객체 오디오 신호, 상기 녹음 공간 정보 및 상기 음원 위치 정보 중에서 적어도 하나를 부호화하여 객체 기반 오디오 컨텐츠를 생성하는 부호화부를 포함한다.

또한, 본 발명의 일실시예에 따른 객체 기반 오디오 컨텐츠 재생 장치는 객체 기반 오디오 컨텐츠로부터, 복수의 음원 신호에 대한 복수의 객체 오디오 신호, 상기 복수의 음원 신호의 녹음 공간 정보, 및 상기 복수의 음원 신호의 음원 위치 정보를 복호화하는 복호화부, 상기 복수의 객체 기반 오디오 컨텐츠의 재생 공간에 대한 재생 공간 정보를 획득하는 재생 공간 정보 획득부, 상기 녹음 공간 정보, 상기 음원 위치 정보, 및 상기 재생 공간 정보에 기초하여 상기 복호화된 객체 오디오 신호를 복수의 스피커 신호로 합성하는 신호 합성부, 및 상기 복수의 스피커 신호를 상기 복수의 스피커 신호 각각에 상응하는 복수의 스피커로 전송하는 전송부를 포함한다.

본 발명에 따르면, 사용자의 오디오 재생 환경에 구애 받지 않고, 음장 합성 재생 방식 및 멀티 채널 서라운드 재생 방식 중에서 적어도 하나에 기초하여 객체 기반 오디오 컨텐츠를 재생할 수 있게 된다.

도 1은 본 발명의 일실시예에 따른 객체 기반 오디오 컨텐츠 생성 장치의 상세한 구성을 도시한 블록도이다.
도 2는 본 발명의 다른 일실시예에 따른 객체 기반 오디오 컨텐츠 생성 장치의 상세한 구성을 도시한 블록도이다.
도 3은 본 발명의 일실시예에 따른 객체 기반 오디오 컨텐츠 재생 장치의 상세한 구성을 도시한 블록도이다.
도 4는 본 발명의 일실시예에 따른 객체 기반 오디오 컨텐츠 생성 방법의 흐름도를 도시한 도면이다.
도 5는 본 발명의 일실시예에 따른 객체 기반 오디오 컨텐츠 재생 방법의 흐름도를 도시한 도면이다.

이하 첨부된 도면들 및 첨부된 도면들에 기재된 내용들을 참조하여 본 발명의 바람직한 실시예를 상세하게 설명하지만, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

도 1은 본 발명의 일실시예에 따른 객체 기반 오디오 컨텐츠 생성 장치의 상세한 구성을 도시한 블록도이다.

본 발명의 일실시예에 따른 객체 기반 오디오 컨텐츠 생성 장치(100)는 객체 오디오 신호 획득부(110), 음원 위치 정보 획득부(120), 녹음 공간 정보 획득부(130), 및 부호화부(140)를 포함한다. 또한, 본 발명의 일실시예에 따른 객체 기반 오디오 컨텐츠 생성 장치(100)는 충격 음원 신호 방사부(150), 및 충격 음원 신호 수신부(160)를 더 포함할 수 있다. 이하 각 구성 요소 별로 그 기능을 상술하기로 한다.

객체 오디오 신호 획득부(110)는 복수의 음원 신호를 녹음하여 복수의 객체 오디오 신호를 획득한다.

이 때, 복수의 음원 신호의 개수와 복수의 객체 오디오 신호의 개수는 동일할 수 있다. 즉, 객체 오디오 신호 획득부(110)는 하나의 음원 신호에 대하여 하나의 객체 오디오 신호를 획득할 수 있다.

본 발명의 일실시예에 따르면, 객체 오디오 신호 획득부(110)는 복수의 스팟 마이크로폰(spot microphone) 및 마이크로폰 어레이(microphone array) 중에서 적어도 하나를 이용하여 복수의 객체 오디오 신호를 획득할 수 있다.

스팟 마이크로폰은 복수의 음원 각각과 인접 설치되어, 복수의 음원 각각으로부터 음원 신호를 녹음하여 객체 오디오 신호를 획득한다.

마이크로폰 어레이는 복수의 마이크로폰을 어레이 형태로 배열한 것이다. 마이크로폰 어레이를 사용하는 경우, 마이크로폰 어레이에 도달하는 복수의 음원 신호의 지연 시간 및 음압 레벨(Sound Pressure Level, SPL)을 이용하여 하여 복수의 음원 신호를 분리하여, 음원 별로 복수의 객체 오디오 신호를 획득할 수 있다.

여기서, 복수의 음원 신호의 지연 시간은 마이크로폰 어레이를 구성하는 복수의 마이크로폰 중에서 하나의 마이크로폰에 도달하는 복수의 음원 간의 지연 시간, 및 하나의 음원 신호가 복수의 마이크로폰 각각에 도달하는 경우에 있어, 각각의 마이크로폰에 도달하는 음원 신호의 지연 시간 중에서 적어도 어느 하나를 포함할 수 있다.

음원 위치 정보 획득부(120)는 복수의 음원 신호의 음원 위치 정보를 획득한다.

여기서, 음원 위치 정보는 녹음하고자 하는 복수의 음원 신호가 재생되는 공간, 즉, 녹음 공간 상에서의 복수의 음원 신호 각각의 위치에 대한 정보를 포함한다. 즉, 음원 위치 정보는 음상 정위 정보(Sound Image Location Information)를 포함할 수 있다. 음원 위치 정보, 즉 음상 정위 정보는 복수의 음원 신호 각각에 대하여 직교 좌표 형태 (즉, (x, y, z) 형태) 또는 원통 좌표 형태(즉, 형태)로 표현될 수 있다.

본 발명의 일실시예에 따르면, 음원 위치 정보 획득부(120)는 복수의 스팟 마이크로폰의 위치, 마이크로폰 어레이에서의 복수의 음원 신호의 시간 지연, 및 마이크로폰 어레이에서의 복수의 음원 신호의 음압 레벨 중에서 적어도 하나를 이용하여 음원 위치 정보를 획득할 수 있다.

또한, 본 발명의 다른 일실시예에 따르면, 음원 위치 정보 획득부(120)는 객체 기반 오디오 컨텐츠 생성 장치(100)의 사용자로부터 복수의 음원의 위치를 입력 받아 음원 위치 정보를 획득할 수 있다.

녹음 공간 정보 획득부(130)는 복수의 음원 신호의 녹음 공간에 대한 녹음 공간 정보를 획득한다.

여기서, 녹음 공간 정보는 녹음하고자 하는 복수의 음원이 재생되는 공간에 대한 정보를 의미한다.

상기 언급한 바와 같이, 본 발명의 일실시예에 따르면, 객체 기반 오디오 컨텐츠 생성 장치(100)는 충격 음원 신호 방사부(150), 및 충격 음원 신호 수신부(160)를 더 포함할 수 있다.

충격 음원 신호 방사부(150)는 충격 음원 신호를 방사한다.

충격(impulse) 음원 신호는 아래에서 설명할 충격 응답(impulse response)을 산출하기 위한 신호를 의미한다.

일례로서, 충격 음원 신호 방사부(150)는 MLS(Maximum-Length Sequence) 신호를 방사할 수 있다.

충격 음원 신호 수신부(160)는 충격 음원 신호 방사부(150)에서 방사된 충격 음원 신호를 수신하고, 수신된 충격 음원 신호에 기초하여 충격 응답을 산출한다.

충격 음원 신호 수신부(160)에서 수신되는 충격 음원 신호는 충격 음원 신호 방사부(150)에서 직접 충격 음원 신호 수신부(160)로 도달하는 음원 신호와 충격 음원 신호 방사부(150)에서 방사되어 녹음 공간의 벽면, 녹음 공간에 존재하는 임의의 객체 등으로부터 반사되어 충격 음원 신호 수신부(160)에 도달하는 음원 신호를 모두 포함한다.

이 경우, 녹음 공간 정보 획득부(130)는 산출된 충격 응답에 기초하여 녹음 공간 정보를 획득할 수 있는데, 본 발명의 일실시예에 따르면, 충격 응답은 복수의 임펄스 신호(impulse signal)를 포함하고, 녹음 공간 정보는 복수의 임펄스 신호 간의 수신 시간 차, 복수의 임펄스 신호 간의 음압 레벨 차, 및 복수의 임펄스 신호 간의 수신 각도 차 중에서 적어도 하나를 포함할 수 있다. 즉, 녹음 공간 정보 획득부(130)는 녹음 공간에 대한 충격 응답을 웨이브 파일(wave file)과 같은 오디오 포맷 형태뿐만 아니라 데이터 형태로 획득할 수도 있다. 녹음 공간 정보가 상기 언급한 수신 시간 차, 음압 레벨 차, 및 수신 각도 차를 모두 포함하는 경우, 녹음 공간 정보는 (시간, 음압, 각도)의 순서쌍으로 표현될 수 있다.

부호화부(140)는 복수의 객체 오디오 신호, 녹음 공간 정보 및 음원 위치 정보 중에서 적어도 하나를 부호화하여 객체 기반 오디오 컨텐츠를 생성한다.

이 경우, 복수의 객체 오디오 신호 각각은 다양한 방식으로 부호화될 수 있다. 예를 들어, 객체 오디오 신호가 음악(music) 신호일 경우, 부호화부(140)는 음악 신호에 최적화된 오디오 부호화 방식(일례로, transform기반의 오디오 부호화 방식)을 적용하여 객체 오디오 신호를 부호화 할 수 있고, 객체 오디오 신호가 음성(speech) 신호일 경우, 부호화부(140)는 음성 신호에 최적의 오디오 부호화 방식(일례로, CELP구조의 오디오 부호화 방식)을 적용하여 객체 오디오 신호를 부호화 할 수 있다.

이 때, 부호화부(140)는 부호화된 객체 오디오 신호, 부호화된 음원 위치 정보 및 부호화된 녹음 공간 정보를 다중화하여 객체 기반 오디오 컨텐츠를 생성할 수 있다.

부호화부(140)에서 생성된 객체 기반 오디오 컨텐츠는 네트워크를 통해 전송될 수도 있고, 별도의 기록 매체에 저장될 수도 있다.

이와 같이, 본 발명의 일실시예에 따른 객체 기반 오디오 컨텐츠 생성 장치(100)는 복수의 객체 오디오 신호를 믹싱하여 멀티 채널 오디오 신호 형태로 부호화하지 않고, 복수의 객체 오디오 신호를 각각 부호화하고, 부호화된 객체 오디오 신호에 음원 위치 정보, 녹음 공간 정보 등의 기타 정보를 부가하여 객체 기반 오디오 컨텐츠를 생성함으로써, 객체 기반 오디오 컨텐츠 재생 장치의 사용자가 자신의 객체 기반 오디오 컨텐츠 재생 장치에 적합하도록 객체 기반 오디오 컨텐츠를 재생할 수 있도록 한다. 상기 객체 기반 오디오 컨텐츠 재생 장치에 대해서는 도 3을 참고하기로 한다.

도 2는 본 발명의 다른 일실시예에 따른 객체 기반 오디오 컨텐츠 생성 장치의 상세한 구성을 도시한 블록도이다.

본 발명의 다른 일실시예에 따른 객체 기반 오디오 컨텐츠 생성 장치(200)는 객체 오디오 신호 획득부(210), 음원 위치 정보 획득부(220), 녹음 공간 정보 획득부(230), 멀티 채널 오디오 믹싱부(240) 및 부호화부(250)를 포함한다.

도 2에 도시된 객체 오디오 신호 획득부(210), 음원 위치 정보 획득부(220), 녹음 공간 정보 획득부(230), 및 부호화부(250)는 도 1에서 설명한 객체 오디오 신호 획득부(110), 음원 위치 정보 획득부(120), 녹음 공간 정보 획득부(130), 및 부호화부(140)와 대응된다. 따라서, 이하 생략된 내용이라 하더라도 도 1에 도시된 객체 기반 오디오 컨텐츠 생성 장치(100)에 관하여 이상에서 기술된 내용은 도 2에 도시된 객체 기반 오디오 컨텐츠 생성 장치(200)에도 적용된다.

객체 오디오 신호 획득부(210)는 복수의 음원 신호를 녹음하여 복수의 객체 오디오 신호를 획득한다.

음원 위치 정보 획득부(220)는 복수의 음원 신호의 음원 위치 정보를 획득한다.

녹음 공간 정보 획득부(230)는 복수의 음원 신호의 녹음 공간에 대한 녹음 공간 정보를 획득한다.

멀티 채널 오디오 믹싱부(240)는 복수의 객체 오디오 신호, 녹음 공간 정보, 및 음원 위치 정보 중에서 적어도 하나를 믹싱하여 멀티 채널 오디오 신호를 생성한다.

즉, 멀티 채널 오디오 믹싱부(240)는 멀티 채널 서라운드 재생 방식에 따른 오디오 컨텐츠 재생 장치와의 하위 호환성을 위하여, 객체 오디오 신호, 음원 위치 정보 및 녹음 공간 정보 중에서 적어도 하나를 믹싱하여 2채널 오디오 신호, 5.1채널 오디오 신호, 또는 7.1채널 오디오 신호 등의 멀티 채널 오디오 신호를 생성할 수 있다.

부호화부(250)는 복수의 객체 오디오 신호, 녹음 공간 정보, 음원 위치 정보, 멀티 채널 오디오 신호 중에서 적어도 하나를 부호화하여 객체 기반 오디오 컨텐츠를 생성한다

도 3은 본 발명의 일실시예에 따른 객체 기반 오디오 컨텐츠 재생 장치의 상세한 구성을 도시한 블록도이다.

본 발명의 일실시예에 따른 객체 기반 오디오 컨텐츠 재생 장치(300)는 복호화부(310), 재생 공간 정보 획득부(320), 신호 합성부(330), 및 전송부(340)를 포함한다. 이하 구성 요소 별로 그 기능을 상술하기로 한다.

복호화부(310)는 객체 기반 오디오 컨텐츠로부터, 복수의 음원 신호에 대한 복수의 객체 오디오 신호, 및 복수의 음원 신호의 음원 위치 정보를 복호화한다.

객체 기반 오디오 컨텐츠는 네트워크를 통해 객체 기반 오디오 컨텐츠 생성 장치로부터 전송된 것일 수도 있고, 별도의 기록 매체로부터 독출된 것일 수도 있다.

복호화부(310)는 객체 기반 오디오 컨텐츠를 역다중화하여 부호화된 복수의 객체 오디오 신호, 및 부호화된 음원 위치 정보를 생성하고, 이로부터 복수의 객체 오디오 신호, 녹음 공간 정보, 및 음원 위치 정보를 복원할 수 있다.

재생 공간 정보 획득부(320)는 복수의 객체 오디오 신호의 재생 공간에 대한 재생 공간 정보를 획득한다.

재생 공간 정보는 객체 기반 오디오 컨텐츠를 재생하고자 하는 사용자 측의 재생 공간에 대한 정보를 의미하는 것으로서, 재생 공간에는 객체 기반 오디오 컨텐츠를 재생하는 복수 개의 스피커가 배치될 수 있다.

따라서, 본 발명의 일실시예에 따르면, 재생 공간 정보는 재생 공간에 배치된 복수의 스피커의 개수, 복수의 스피커간의 간격, 복수의 스피커의 배치 각도, 스피커의 종류, 스피커의 위치 정보 및 재생 공간의 크기에 대한 정보 중에서 적어도 하나를 포함할 수 있다.

또한, 본 발명의 일실시예에 따르면, 재생 공간 정보 획득부(320)는 사용자로부터 직접 재생 공간 정보를 입력 받을 수도 있고, 재생 공간에 배치된 별도의 마이크로폰을 이용하여 재생 공간 정보를 산출할 수도 있다.

신호 합성부(330)는 음원 위치 정보, 및 재생 공간 정보에 기초하여 복호화된 객체 오디오 신호를 복수의 스피커 신호로 합성한다.

즉, 신호 합성부(330)는 객체 오디오 신호, 음원의 위치 정보 및 재생 공간 정보에 기초하여, 객체 기반 오디오 컨텐츠가 효율적으로 재생될 수 있도록 스피커 신호를 합성하는 기능을 수행한다. 이 경우, 스피커 신호는 녹음 공간 정보에 따라서 복수의 객체 오디오 신호를 합성하여 생성한다.

본 발명의 일실시예에 따르면, 재생 공간의 크기 및 재생 공간에 설치된 스피커의 개수, 종류, 및 위치를 고려하였을 때, 객체 오디오 신호가 음장 합성 재생 방식으로 재생 가능한 경우, 신호 합성부(330)는 음장 합성 재생 방식에 따라 객체 오디오 신호를 렌더링하고, 객체 오디오 신호가 음장 합성 재생 방식으로 재생할 수 없는 경우, 신호 합성부(330)는 멀티 채널 서라운드 재생 방식에 따라 객체 오디오 신호를 렌더링하여 스피커 신호를 합성한다. 스피커 어레이가 설치되어 있는 환경에서 멀티 채널 서라운드 재생 방식에 따라 객체 오디오 신호를 렌더링 하는 경우, 신호 합성부(330)는 객체 오디오 신호를 재생하고자 하는 특정 스피커를 선택할 수도 있다.

예를 들어, 청취자를 기준으로, 재생 공간의 전방에 라우드스피커 어레이가 배치되어 있고, 재생 공간의 후방에 2채널 서라운드 스피커가 설치되어 있는 경우에 있어서, 오디오 객체(즉, 음원)가 청취자를 기준으로 라우드스피커 어레이의 양끝단까지의 각도 내에 존재하는 경우, 신호 합성부(330)는 음장 합성 기법을 통하여 해당 오디오 객체에 대한 객체 오디오 신호를 렌더링하며, 그 이외의 각도에 위치하는 오디오 객체에 대한 객체 오디오 신호에 대하여서는 위성 서라운드 라우드스피커를 활용하여, 파워 패닝 기법(power panning law)을 적용하여 렌더링한다.

전송부(340)는 복수의 스피커 신호를 복수의 스피커 신호 각각에 상응하는 스피커로 전송한다. 전송된 스피커 신호는 상응하는 스피커를 통해 재생된다.

본 발명의 일실시예에 따르면, 복호화부(310)는 객체 기반 오디오 컨텐츠로부터 복수의 음원 녹음 공간 정보를 더 복호화하고, 신호 합성부(330)는 객체 오디오 신호, 음원 위치 정보 및 재생 공간 정보를 이용하여 객체 오디오 신호로부터 복수의 음원 신호에 대한 직접음을 생성하고, 생성된 직접음에 녹음 공간 정보에 기초하여 상기 생성된 직접음에 반사음을 부가하여 복수의 스피커 신호를 합성할 수 있다.

일례로서, 재생 공간의 전방에 라우드스피커 어레이가 배치되어 있고, 상기 라우드스피커 어레이를 통하여 음장 합성 재생 기법을 통해 복수의 객체 오디오 신호를 재생하고자 하는 경우, 신호 합성부(330)는 하기 수학식 1 또는 수학식 2에 기초하여 복수의 객체 오디오 신호를 렌더링하여 복수의 음원 신호에 대한 직접음을 생성할 수 있다.

여기서,

는 라우드스피커 어레이의 n번째 라우드스피커가 방사하는 오디오 신호의 구동함수,

는 틸티드(tilted) 라우드스피커 어레이의 n번째 라우드스피커가 방사하는 오디오 신호의 구동함수,

는 가상 음원 신호,

는 라우드스피커의 지향성으로 음압에 가중치를 주는 성분,

는 라우드스피커의 좌표 정보,

는 음원의 좌표 정보,

는 가상 음원의 좌표 정보,

는 파수(wave number),

는 각속도,

는 n번째 라우드스피커와 청취자간의 각도,

는 음원과 청취자 간의 거리,

는 스피커와 청취자 간의 거리,

은 노말라이제이션(normalization) 변수,

은 틸티드 라우드스피커와 청취자 간의 각도를 각각 의미한다.

또한, 상기 수학식 1 및 수학식 2에서

는 가상 음원 신호의 크기에 대한 가중치,

는 고주파 증폭 이퀄라이징(equalizing),

는 가상 음원과 n번째 라우드스피커 간의 거리에 의해 발생하는 전달 시간,

는 수직거리에 대한 가상 음원과 n번째 라우드스피커 간의 거리 비율,

는 하나의 원통파(cylindrical wave)의 확산을 의미한다.

이 후, 신호 합성부(330)은 상기 수학식 1 내지 수학식 2에 따라 생성된 직접음과 (시간, 음압, 각도)의 순서쌍으로 표현된 녹음 공간 정보를 집합 반사음 기법(grouped reflections algorithm)에 따라 연산하여 직접음에 녹음 공간에서의 초기 반사음 정보를 부가한다. 이 때, 신호 합성부(330)는 반사음 정보에 포함된 각도 정보를 이용해서 각각의 반사음을 라우드스피커에 할당하는데, 만약 해당 각도에 라우드스피커가 존재하지 않는 경우, 해당 각도에 인접한 라우드스피커에서 반사음을 재생되도록 스피커 신호를 합성한다.

또한, 본 발명의 일실시예에 따르면, 신호 합성부(330)는 무한 충격 응답 필터(IIR filter : Infinite Impulse Response Filter)를 이용하여 상기 스피커 신호에 잔향 효과를 부가할 수 있다.

도 2에서 살펴본 바와 같이, 본 발명의 일실시예에 따르면, 객체 오디오 신호는 멀티 채널 오디오 신호를 더 포함할 수 있는데, 만약, 재생하고자 하는 오디오 신호가 채널 기반 신호이고, 재상 공간은 음장 합성 재생 방식에 적합하도록 설정되어 있는데, 청취자가 멀티 채널 서라운드 방식에 따라 오디오 신호를 재생하고자 하는 경우, 신호 합성부(330)는 특정 라우드스피커를 선택하여 멀티 채널 서라운드 재생 방법에 따라 객체 기반 오디오 컨텐츠가 재생되도록 스피커 신호를 합성할 수 있다. 예를 들어, 멀티 채널 오디오 신호가 5.1채널 오디오 신호이고, 재생 공간의 전방에 라우드스피커 어레이가 배치되어 있고, 재생 공간의 후방에 2채널 서라운드 스피커가 배치되어 있는 경우, 신호 합성부(330)는 청취자의 전면을 기준으로 0°, ±30°, ±110°에 배치된 라우드스피커를 선택하고, 선택된 라우드스피커를 통해 객체 기반 오디오 컨텐츠가 재생되도록 스피커 신호를 합성할 수 있다.

또한, 재생하고자 하는 오디오 신호가 멀티 채널 오디오 신호이고, 재생 공간이 멀티 채널 서라운드 방식에 적합하도록 설정되어 있는 경우, 신호 합성부(330)는 멀티 채널 서라운드 방식에 따라 객체 기반 오디오 컨텐츠가 재생되도록 한다.

이와 같이, 본 발명의 일실시예에 따른 객체 기반 오디오 컨텐츠 재생 장치(300)는 청취자의 재생 환경에 상관 없이, 음장 합성 재생 방식 및 멀티 채널 서라운드 방식 중에서 적어도 하나를 이용하여 객체 기반 오디오 컨텐츠를 재생할 수 있게 된다.

도 4는 본 발명의 일실시예에 따른 객체 기반 오디오 컨텐츠 생성 방법의 흐름도를 도시한 도면이다. 이하 도 4를 참고하여 각 단계별로 수행되는 과정을 설명하기로 한다.

단계(S410)에서는 복수의 음원 신호를 녹음하여 복수의 객체 오디오 신호를 획득한다.

본 발명의 일실시예에 따르면, 단계(S410)에서는 복수의 스팟 마이크로폰 및 마이크로폰 어레이 중에서 적어도 하나를 이용하여 복수의 객체 오디오 신호를 획득할 수 있다.

단계(S420)에서는 복수의 음원 신호의 음원 위치 정보를 획득한다.

본 발명의 일실시예에 따르면, 단계(S420)에서는 복수의 스팟 마이크로폰의 위치, 마이크로폰 어레이에서의 복수의 음원 신호의 시간 지연, 및 마이크로폰 어레이에서의 복수의 음원 신호의 음압 레벨 중에서 적어도 하나를 이용하여 음원 위치 정보를 획득할 수 있다.

또한, 본 발명의 다른 일실시예에 따르면, 단계(S420)에서는 사용자로부터 복수의 음원의 위치를 입력 받아 음원 위치 정보를 획득할 수 있다.

단계(S430)에서는 복수의 음원 신호의 녹음 공간에 대한 녹음 공간 정보를 획득한다.

본 발명의 일실시예에 따르면, 객체 기반 오디오 컨텐츠 생성 방법은 충격 음원 신호를 방사하는 단계(미도시) 및 방사된 충격 음원 신호를 수신하고, 수신된 충격 음원 신호에 기초하여 충격 응답을 산출하는 단계(미도시)를 더 포함할 수 있다. 이 경우, 단계(S430)은 산출된 충격 응답에 기초하여 녹음 공간 정보를 획득할 수 있다. 이 경우, 본 발명의 일실시예에 따르면, 충격 응답은 복수의 임펄스 신호를 포함하고 녹음 공간 정보는 복수의 임펄스 신호 간의 수신 시간 차, 복수의 임펄스 신호 간의 음압 레벨 차, 및 복수의 임펄스 신호 간의 수신 각도 차 중에서 적어도 하나를 포함할 수 있다.

단계(S440)에서는 복수의 객체 오디오 신호, 녹음 공간 정보 및 음원 위치 정보 중에서 적어도 하나를 부호화하여 객체 기반 오디오 컨텐츠를 생성한다.

또한 본 발명의 일실시예에 따르면, 객체 기반 오디오 컨텐츠 생성 방법은 복수의 객체 오디오 신호, 녹음 공간 정보, 및 음원 위치 정보 중에서 적어도 하나를 믹싱하여 멀티 채널 오디오 신호를 생성하는 단계(미도시)를 더 포함할 수 있다. 이 경우, 단계(S440)에서는 복수의 객체 오디오 신호, 녹음 공간 정보, 음원 위치 정보, 멀티 채널 오디오 신호 중에서 적어도 하나를 부호화하여 객체 기반 오디오 컨텐츠를 생성할 수 있다.

도 5는 본 발명의 일실시예에 따른 객체 기반 오디오 컨텐츠 재생 방법의 흐름도를 도시한 도면이다. 이하 도 5를 참고하여 각 단계별로 수행되는 과정을 설명하기로 한다.

단계(S510)에서는 객체 기반 오디오 컨텐츠로부터, 복수의 음원 신호에 대한 복수의 객체 오디오 신호, 및 복수의 음원 신호의 음원 위치 정보를 복호화한다.

단계(S520)에서는 복수의 객체 오디오 신호의 재생 공간에 대한 재생 공간 정보를 획득한다.

본 발명의 일실시예에 따르면, 재생 공간 정보는 재생 공간에 배치된 복수의 스피커의 개수, 복수의 스피커 간의 간격, 복수의 스피커의 배치 간격, 복수의 스피커의 종류, 스피커의 위치 정보 및 재생 공간의 크기에 대한 정보 중에서 적어도 하나를 포함할 수 있다.

또한, 본 발명의 일실시예에 따르면, 단계(S520)에서는 사용자로부터 직접 재생 공간 정보를 입력 받을 수도 있고, 재생 공간에 배치된 별도의 마이크로폰을 이용하여 재생 공간 정보를 산출할 수도 있다.

단계(S530)에서는 음원 위치 정보, 및 재생 공간 정보에 기초하여 복호화된 객체 오디오 신호를 복수의 스피커 신호로 합성한다.

본 발명의 일실시예에 따르면, 단계(S530)에서는 무한 충격 응답 필터를 이용하여 상기 스피커 신호에 잔향 효과를 부가할 수 있다.

단계(S540)에서는 복수의 스피커 신호를 복수의 스피커 신호 각각에 상응하는 스피커로 전송한다. 전송된 스피커 신호는 상응하는 스피커를 통해 재생된다.

지금까지 본 발명에 따른 객체 기반 오디오 컨텐츠 생성/재생 방법의 실시예들에 대하여 설명하였고, 앞서 도 1 내지 도 3에서 설명한 객체 기반 오디오 컨텐츠 생성/재생 장치에 관한 구성이 본 실시예에도 그대로 적용 가능하다. 이에, 보다 상세한 설명은 생략하기로 한다.

또한, 본 발명에 따른 객체 기반 오디오 컨텐츠 생성/재생 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 안되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

100: 객체 기반 오디오 컨텐츠 생성 장치
110: 객체 오디오 신호 획득부
120: 음원 위치 정보 획득부
130: 녹음 공간 정보 획득부
140: 부호화부
150: 충격 음원 신호 방사부
160: 충격 음원 신호 수신부

Claims

복수의 음원 신호를 녹음하여 복수의 객체 오디오 신호를 획득하는 단계;
상기 복수의 음원 신호의 녹음 공간에 대한 녹음 공간 정보를 획득하는 단계;
상기 복수의 음원 신호의 음원 위치 정보를 획득하는 단계; 및
상기 복수의 객체 오디오 신호, 상기 녹음 공간 정보 및 상기 음원 위치 정보 중에서 적어도 하나를 부호화하여 객체 기반 오디오 컨텐츠를 생성하는 단계
를 포함하는 객체 기반 오디오 컨텐츠 생성 방법.