KR20090066190A

KR20090066190A - 대화형 오디오 송/수신 장치 및 그 방법

Info

Publication number: KR20090066190A
Application number: KR1020080043581A
Authority: KR
Inventors: 장대영; 이태진; 이용주; 강경옥
Original assignee: 한국전자통신연구원
Priority date: 2007-12-18
Filing date: 2008-05-09
Publication date: 2009-06-23

Abstract

본 발명은 대화형 오디오 송/수신 장치 및 그 방법에 관한 것으로, 객체음원의 다운믹싱과 관련된 음원 복원정보 및 혼합음원의 음원 분리를 이용하여 대화형 오디오 신호를 송/수신함으로써, 객체음원의 확보 여부에 관계없이 대화형 오디오 서비스를 제공할 수 있는, 대화형 오디오 송/수신 장치 및 그 방법을 제공하고자 한다.

이를 위하여, 본 발명은 대화형 오디오 송신 장치에 있어서, 객체음원을 믹싱음원으로 다운믹싱하고 상기 객체음원의 복원에 필요한 객체음원 복원정보와 장면정보를 생성하기 위한 콘텐츠 생성 수단; 상기 믹싱음원을 부호화하기 위한 부호화 수단; 및 상기 부호화된 믹싱음원과 상기 생성된 객체음원 복원정보 및 장면정보를 함께 송신하기 위한 송신 수단을 포함한다.

객체음원, 다운믹싱, 믹싱음원, 객체음원 복원정보, 혼합음원, 음원 분리, 대화형 오디오

Description

대화형 오디오 송/수신 장치 및 그 방법{APPARATUS AND METHOD OF TRANSMITTING/RECEIVING FOR INTERACTIVE AUDIO SERVICE}

본 발명은 대화형 오디오 송/수신 장치 및 그 방법에 관한 것으로, 더욱 상세하게는 객체음원의 다운믹싱과 관련된 음원 복원정보 및 혼합음원의 음원 분리를 이용하여 대화형 오디오 신호를 송/수신함으로써, 객체음원의 확보 여부에 관계없이 대화형 오디오 서비스를 제공할 수 있는, 대화형 오디오 송/수신 장치 및 그 방법에 관한 것이다.

본 발명은 정보통신부 및 정보통신연구진흥원의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2007-S-004-01, 과제명: 무안경 개인형 3D 방송기술개발].

3차원 오디오 서비스는 사용자가 인간의 3차원 오디오 지각 능력을 이용하여 임의 공간의 음향적인 분위기를 가상적으로 체험할 수 있게 한다. 또한, 3차원 오디오 서비스는 각 객체음원들이 가상적인 3차원 공간상에 배치되므로, 사용자가 실 제와 유사한 음원 객체들에 대한 분별력을 가질 수 있게 한다.

이러한 3차원 오디오 서비스에서 3차원 오디오를 녹음 및 재생하는 기술은 오래전부터 개발되어 왔다. 그러나 오디오 재생 환경의 제약 때문에 상용화 단계에까지는 이르지 못하고 있다. 최근, 수년간의 DVD와 고선명 TV방송의 상용화로 인하여 멀티채널 오디오가 급속히 보급되고 있다. 따라서 3차원 오디오를 녹음 및 재생하는 기술의 지속적인 상용화 시도로 인하여, 3차원 오디오 서비스는 새로운 오디오 방송 기술의 하나로 대두되고 있다.

특히, 3차원 오디오 서비스 중 객체 기반 대화형 오디오 서비스란 사용자(청취자)가 각각의 오디오 객체 및 3차원 장면정보를 적절히 제어하면서 3차원 오디오를 청취할 수 있게 하는 서비스를 말한다. 이를 위해, 객체 기반 대화형 오디오 서비스는 독립적으로 제어될 수 있는 객체음원과, 전체 객체음원을 하나의 장면(Scene)으로 표현하기 위한 3차원 장면정보를 이용하고 있다.

예를 들면, 객체 기반 대화형 오디오 서비스는 객체음원을 청취자의 전/후/좌/우 및 상/하 모든 곳에 위치시킬 수 있는 3차원 오디오 기술을 이용한다. 또한, 객체 기반 대화형 오디오 서비스는 혼합된 오디오 신호에서 특정 오디오 신호만을 객체화하여 제어할 수 있는 객체 기반의 오디오 기술을 이용한다. 또한, 객체 기반 대화형 오디오 서비스는 객체 오디오 신호를 3차원 오디오 공간상에서 제어할 수 있는 현실감 있는 멀티미디어 서비스 기술을 이용한다.

즉, 객체 기반 대화형 오디오 서비스에서 오디오 신호는 음원에 따라 여러 개의 독립된 객체로 전송되고, 사용자 단말에서 객체별로 제어될 수 있다. 따라서 객체 기반 대화형 오디오 서비스는 수동적인 오디오 서비스와 달리 자신만의 새로운 오디오 장면을 구성할 수 있는 대화형 멀티미디어 서비스라 할 수 있다.

한편, 일반적인 스테레오나 멀티채널 기반의 오디오 기술에 있어서, 사용자는 편집자가 편집한 의도에 따른 오디오 신호만을 청취할 수 있었다. 스테레오나 멀티채널 기반의 오디오 전송 기술에서 다양한 마이크를 이용하여 획득한 오디오 신호는 스테레오나 멀티채널로 다운믹싱되어 사용자에게 전달된다. 그리고 사용자는 편집자가 의도한 오디오 신호만을 수동적으로 청취할 수밖에 없었다.

또한, 일반적인 스테레오나 멀티채널 음원에 방향성이나 거리/공간감 등을 추가한 3차원 오디오 기술은 청취자에게 좀더 사실적인 오디오 신호를 제공할 수 있게 한다. 그러나 이러한 오디오 기술에서도 사용자는 역시 수동적인 입장에서 오디오 신호를 청취할 수밖에 없었다.

이를 해결하기 위하여, 이러한 객체 기반 대화형 오디오 기술에서 사용자는 편집자의 다양한 객체 기반 오디오 장면 중 자신의 취향에 따른 오디오 장면을 선택할 수 있다. 이러한 대화형 오디오 기술에서 사용자는 자신의 취항에 따라 오디오 장면을 변경하여 임의의 오디오 장면을 구성할 수 있다.

구체적으로 이러한 객체 기반 대화형 오디오 기술을 살펴보면, 객체 기반 대화형 오디오 부호화 장치는 객체음원을 객체 단위로 저장하거나 전송하는 경우, 객체 단위로 부호화한다. 한편, 대화형 오디오 복호화 장치는 오디오 부호화 장치에서 부호화된 객체음원을 객체 단위로 음원을 복원한다. 그리고 대화형 오디오 복호화 장치는 객체음원과 함께 전송된 장면정보를 이용하여 대화형 오디오 콘텐츠를 합성하게 된다. 여기서, 객체음원은 음원 단위 또는 트랙 단위 또는 혼합음원에서 분리되고 추출된 음원이 될 수 있다. 대화형 오디오 복호화 장치에 해당하는 사용자 단말은 사용자의 제어에 따라 대화형 오디오 콘텐츠의 공간정보(예를 들면, 음원의 위치, 음원의 레벨, 음원의 음색 및 공간감 등)를 변화시킬 수 있다.

최근, 서비스되고 있는 종래의 대화형 오디오 기술은 대화형 음반을 음원 단위 또는 트랙 단위의 음원으로 제공하고 있다. 하지만, 종래의 대화형 오디오 기술은 혼합 음반이나 음원을 확보하지 않은 음반에 대해서 대화형 음반으로 사용자에게 서비스하는 것은 불가능하다는 문제점이 있다. 즉, 종래의 대화형 오디오 기술은 트랙 단위의 객체음원을 모두 확보하여야 하는 곤란하다는 문제점이 있다.

예를 들어, 종래의 대화형 오디오 기술에서 음반 제작자들이 음원 단위 또는 트랙 단위로 된 음반을 제작하기 위해서, 트랙 단위의 음원이 확보되어야만 한다. 이렇게 확보된 트랙 단위의 음원을 이용하여 음반 제작자들은 사용자에게 대화형 오디오 서비스를 제공할 수 있다. 이를 위해서, 음반 제작자들은 모든 음반에 대하여 음원을 확보해야 하는 노력을 기울여야만 한다. 확보되지 못한 음원에 대해서는 대화형 오디오 서비스가 사용자에게 제공될 수 없게 되는 문제점이 있다.

또한, 종래의 대화형 오디오 기술은 수신 측인 사용자 단말이 송신 측으로부터 전송받은 객체음원과 장면정보를 이용하여 객체음원을 처리하지 못하면, 대화형 오디오 서비스를 제공하지 못할 수 있다. 여기서, 사용자 단말은 혼합음원 또는 믹싱음원을 처리할 수 있지만, 부호화된 객체음원을 처리하지 못하여 사용자에게 대화형 오디오 서비스를 제공하지 못하게 된다.

따라서 상기와 같은 종래 기술은, 송신 측에서 객체음원이 모두 확보되지 못하거나, 수신 측에서 객체음원을 처리하지 못하여 대화형 오디오 서비스를 제공할 수 없게 된다는 문제점이 있으며, 이러한 문제점을 해결하고자 하는 것이 본 발명의 과제이다.

따라서 본 발명은 객체음원의 다운믹싱과 관련된 음원 복원정보 및 혼합음원의 음원 분리를 이용하여 대화형 오디오 신호를 송/수신함으로써, 객체음원의 확보 여부에 관계없이 대화형 오디오 서비스를 제공할 수 있는, 대화형 오디오 송/수신 장치 및 그 방법을 제공하는데 그 목적이 있다.

본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.

본 발명은 상기 문제점을 해결하기 위하여, 객체음원의 다운믹싱과 관련된 음원 복원정보 및 혼합음원의 음원 분리를 이용하여 대화형 오디오 신호를 송/수신 하는 것을 특징으로 한다.

더욱 구체적으로, 본 발명은, 대화형 오디오 송신 장치에 있어서, 객체음원을 믹싱음원으로 다운믹싱하고 상기 객체음원의 복원에 필요한 객체음원 복원정보와 장면정보를 생성하기 위한 콘텐츠 생성 수단; 상기 믹싱음원을 부호화하기 위한 부호화 수단; 및 상기 부호화된 믹싱음원과 상기 생성된 객체음원 복원정보 및 장면정보를 함께 송신하기 위한 송신 수단을 포함한다.

한편, 본 발명은, 대화형 오디오 수신 장치에 있어서, 믹싱음원과, 상기 믹싱음원의 복원에 필요한 객체음원 복원정보 및 장면정보를 수신받기 위한 수신 수단; 상기 믹싱음원을 복호화하기 위한 복호화 수단; 상기 복호화된 믹싱음원과 상기 수신받은 객체음원 복원정보를 이용하여 객체음원을 복원하기 위한 공간정보 복원 수단; 및 상기 수신받은 장면정보와 상기 복원된 객체음원을 이용하여 대화형 오디오 콘텐츠를 합성하기 위한 콘텐츠 합성 수단을 포함한다.

한편, 본 발명은, 대화형 오디오 송신 장치에 있어서, 혼합음원을 각각 분리하여 객체음원을 추출하고, 상기 추출된 객체음원의 공간정보를 추출하여 장면정보를 검출하기 위한 콘텐츠 생성 수단; 상기 추출된 객체음원을 부호화하기 위한 부호화 수단; 및 상기 부호화된 객체음원과 상기 생성된 장면정보를 송신하기 위한 송신 수단을 포함한다.

한편, 본 발명은, 대화형 오디오 수신 장치에 있어서, 부호화된 혼합음원을 수신받기 위한 수신 수단; 상기 수신받은 혼합음원을 각각 분리하여 객체음원을 추출하고, 상기 혼합음원의 공간정보를 추출하여 장면정보를 검출하기 위한 공간정보 복원 수단; 및 상기 검출된 장면정보와 상기 추출된 객체음원을 이용하여 대화형 오디오 콘텐츠를 합성하기 위한 콘텐츠 합성 수단을 포함한다.

한편, 본 발명은, 대화형 오디오 송신 방법에 있어서, 객체음원을 믹싱음원으로 다운믹싱하고 상기 객체음원의 복원에 필요한 객체음원 복원정보와 장면정보를 생성하는 콘텐츠 생성 단계; 상기 믹싱음원을 부호화하는 부호화 단계; 및 상기 부호화된 믹싱음원과 상기 생성된 객체음원 복원정보 및 장면정보를 함께 송신하는 송신 단계를 포함한다.

한편, 본 발명은, 대화형 오디오 수신 방법에 있어서, 믹싱음원과, 상기 믹싱음원의 복원에 필요한 객체음원 복원정보 및 장면정보를 수신받는 수신 단계; 상기 믹싱음원을 복호화하는 복호화 단계; 상기 복호화된 믹싱음원과 상기 수신받은 객체음원 복원정보를 이용하여 객체음원을 복원하는 공간정보 복원 단계; 및 상기 수신받은 장면정보와 상기 복원된 객체음원을 이용하여 대화형 오디오 콘텐츠를 합성하는 콘텐츠 합성 단계를 포함한다.

한편, 본 발명은, 대화형 오디오 송신 방법에 있어서, 혼합음원을 각각 분리하여 객체음원을 추출하고, 상기 추출된 객체음원의 공간정보를 추출하여 장면정보를 검출하는 콘텐츠 생성 단계; 상기 추출된 객체음원을 부호화하는 부호화 단계; 및 상기 부호화된 객체음원과 상기 생성된 장면정보를 송신하는 송신 단계를 포함한다.

한편, 본 발명은, 대화형 오디오 수신 방법에 있어서, 부호화된 혼합음원을 수신받는 수신 단계; 상기 수신받은 혼합음원을 각각 분리하여 객체음원을 추출하 고, 상기 혼합음원의 공간정보를 추출하여 장면정보를 검출하는 공간정보 복원 단계; 및 상기 검출된 장면정보와 상기 추출된 객체음원을 이용하여 대화형 오디오 콘텐츠를 합성하는 콘텐츠 합성 단계를 포함한다.

상기와 같은 본 발명은, 객체음원의 다운믹싱과 관련된 음원 복원정보 및 혼합음원의 음원 분리를 이용하여 대화형 오디오 신호를 송/수신함으로써, 객체음원의 확보 여부에 관계없이 대화형 오디오 서비스를 제공할 수 있는 효과가 있다.

즉, 본 발명은, 새로운 대화형 오디오 서비스를 제공하기 위해, 개별 트랙 음원이 반드시 확보되어야 하는 문제를 해결할 수 있으며, 음원의 종류, 저장 및 전송 매체의 용량, 단말의 계산 용량 등에 따라 다양한 서비스 시나리오를 구상할 수 있는 효과가 있다. 더 나아가, 본 발명은, 공통적인 범용 대화형 오디오 서비스를 제공함으로써 대화형 오디오 서비스를 활성화시킬 수 있게 하는 효과가 있다.

상술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되어 있는 상세한 설명을 통하여 보다 명확해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하기로 한다.

도 1 은 본 발명에 따른 대화형 오디오 송/수신 장치의 일실시예 구성도이다.

도 1에 도시된 바와 같이, 본 발명에 따른 대화형 오디오 송신 장치(110)는 콘텐츠 생성부(111), 부호화부(112) 및 송신부(113)를 포함한다. 한편, 대화형 오디오 수신 장치(120)는 수신부(121), 복호화부(122), 공간정보 복원부(123) 및 콘텐츠 합성부(124)를 포함한다.

이하, 하기의 [표 1]의 유형별로 대화형 오디오 송/수신 장치(110)를 살펴보기로 한다.

우선, 음원에 대해 살펴보면, 음원은 객체 단위로 구분되어 있는 객체음원과, 스테레오 또는 5.1채널 음원을 그대로 사용하는 혼합음원으로 구분된다.

객체음원은 실제 음을 발생시키는 음원 단위의 음원 또는 전처리 과정에 의해 서로 다른 객체로 믹싱된 음원으로 이루어질 수 있다. 또한, 객체음원은 음원들에 대한 콘텐츠를 획득하고 제작하는 과정에서 녹음된 트랙 신호 또는 악기 타입별로 그룹핑된 트랙 신호로 이루어질 수 있다. 예를 들면, 트랙 신호는 보컬 트랙, 연주 트랙(보컬만 제외), 타악기 트랙, 현악기 트랙, 관악기 트랙 또는 건반악기 트랙 등으로 그룹핑될 수 있다.

혼합음원에 대해서, 본 발명에 따른 대화형 오디오 송/수신 장치(110, 120)는 혼합음원을 각각 분리하여 객체음원을 추출하는 기술을 적용하여 사용자에게 대 화형 오디오 서비스를 제공할 수 있다. 여기서, 혼합음원으로부터 분리된 음원들은 객체음원과 동일하게 이용될 수 있다.

대화형 오디오 송/수신 장치(110)는 콘텐츠를 생성할 경우, 고품질 음원을 미리 다양한 방법으로 분리하여 객체음원을 추출할 수 있다. 또한, 혼합음원은 대화형 오디오 송/수신 장치(110)에 의해 수신 측으로 그대로 전송하고, 대화형 오디오 송/수신 장치(120)는 전송된 혼합음원을 분리하여 객체음원을 추출하고, 그 추출된 객체음원을 이용하여 대화형 오디오 서비스를 사용자에게 제공할 수 있다.

사용자 단말에서 음원이 분리되고 추출되는 경우, 실시간으로 음원이 처리되어야 한다. 여기서, 사용자 단말은 대화형 오디오 수신 장치(120)를 포함하고 있으며, 많은 연산을 제공할 수 없는 환경에 속할 가능성이 크기 때문에 그 연산 기술에 종속되어 고품질 대화형 오디오 서비스를 기대할 수 없다. 하지만, 본 발명에 따른 대화형 오디오 수신 장치(120)는 사용자 단말만 새로 개발하는 것에 의해 간단히 서비스를 할 수 있으므로 서비스 제공 시 외부 요인에 종속되지 않는다.

상기의 [표 1]에는 종래의 대화형 오디오 송/수신 장치에 해당하는 '유형 1'과 본 발명에 따른 대화형 오디오 송/수신 장치(110, 120)의 제1 내지 제3 실시예에 해당하는 '유형 2' 내지 '유형 4'가 나타나 있다. 이러한 유형은 대화형 오디오 서비스에서 이용되는 음원 및 콘텐츠의 생성 과정에 따라 구분된 것이다.

첫 번째로, '유형 1'은 종래의 대화형 오디오 송/수신 장치에서의 콘텐츠 생성, 부호화/복호화, 공간정보 복원을 나타내고 있다. 구체적으로, '유형 1'은 종래의 대화형 오디오 송신 장치로서, 객체음원을 이용하여 음원/트랙 단위의 객체음원과 장면정보를 생성한다. 그리고 '유형 1'은 객체 단위로 부호화 및 복호화를 수행한다. 그리고 '유형 1'은 공간정보인 장면정보와 객체음원을 이용하여 대화형 오디오 서비스를 제공한다. 여기서, '유형 1'은 고품질 서비스를 제공하며, 다양한 서비스에 적용가능하다. 하지만, '유형 1'은 데이터량이 증가한다는 문제점이 있으며, 역 호환성이 없다.

두 번째로, '유형 2'는 객체음원을 다운믹싱하고 복원정보와 장면정보를 생성한다. 그리고 '유형 2'는 다운믹싱된 신호에 대해 부호화 및 복호화를 수행한다. 그리고 '유형 2'는 다운믹싱된 신호로부터 음원/트랙 신호를 복원하고, 그 복원된 음원/트랙 신호와 공간정보인 장면정보를 이용하여 대화형 오디오 서비스를 제공한다. 여기서, '유형 2'는 중간 품질 서비스를 제공하며, 서비스 범위에 제한이 있다. 하지만, '유형 2'는 데이터량이 감소할 수 있으며, 역 호환성이 있다.

세 번째로, '유형 3'은 혼합음원을 분리하여 객체음원을 추출하고 장면정보를 생성한다. 그리고 '유형 3'은 객체 단위로 부호화 및 복호화를 수행한다. 그리고 '유형 3'은 공간정보인 장면정보와 객체음원을 이용하여 대화형 오디오 서비스를 제공한다. 여기서, '유형 3'은 중간 품질 서비스를 제공하며, 서비스 범위에 제한이 있다. 하지만, '유형 3'은 데이터량이 감소할 수 있으며, '유형 2'와 역 호환성이 가능하다.

네 번째로, '유형 4'는 혼합음원을 그대로 사용한다. 그리고 '유형 4'는 혼합음원 신호에 대해서 부호화 및 복호화를 수행한다. 그리고 '유형 4'는 혼합음원을 분리하여 객체음원을 추출하고, 혼합음원으로부터 장면정보를 검출한다. '유형 4'는 객체음원과 장면정보를 이용하여 대화형 오디오 서비스를 제공한다. 여기서, '유형 4'는 저품질 서비스를 제공하며, 서비스 범위에 제한이 있다. 하지만, '유형 3'은 최소의 데이터량을 가지고 단말은 복잡해질 수 있으며, 역 호환성이 있다.

본 발명의 이해를 돕기 위하여, 종래의 대화형 오디오 송/수신 장치에 대해서 살펴보기로 한다.

도 2 는 종래의 대화형 오디오 송/수신 장치의 구성도이다.

도 2에 도시된 바와 같이, 종래의 대화형 오디오 송신 장치(210)는 콘텐츠 생성부(211), 부호화부(212) 및 송신부(213)를 포함한다. 한편, 종래의 대화형 오디오 수신 장치(220)는 수신부(221), 복호화부(222), 공간정보 복원부(223) 및 콘텐츠 합성부(224)를 포함한다.

종래의 대화형 오디오 송신 장치(210)는 객체음원을 객체 단위로 전송한다. 이때, 종래의 대화형 오디오 송신 장치(210)는 각 객체음원에 대한 장면정보를 객체음원과 함께 전송함으로써, 종래의 대화형 오디오 수신 장치(220)에서 고품질의 대화형 오디오 서비스가 가능하도록 하게 한다. 이를 통해, 종래의 대화형 오디오 송/수신 장치(210, 220)는 고품질의 서비스를 제공할 수 있다. 하지만, 종래의 대화형 오디오 송신 장치(210)는 장면정보를 이용하여 대화형 오디오 콘텐츠를 합성하기 전에는 서비스를 제공할 수 없으므로, 종래의 대화형 오디오 수신 장치(220)에 대해서 역 호환성을 제공하지 않는다.

구체적으로 살펴보면, 콘텐츠 생성부(211)는 객체음원을 이용하여 그 객체음원에 대한 장면정보를 생성하고, 객체음원을 부호화부(212)로 전달한다.

그리고 부호화부(212)는 객체음원을 부호화한다. 여기서, 부호화부(212)는 객체음원을 객체 단위로 저장하거나 전송하는 경우, 그 객체음원을 객체 단위로 부호화하게 된다.

송신부(213)는 부호화부(212)에서 부호화된 객체음원과 콘텐츠 생성부(211)에서 생성된 장면정보를 대화형 오디오 수신 장치(220)로 송신한다.

한편, 수신부(221)는 종래의 대화형 오디오 송신 장치(210)로부터, 부호화된 객체음원과 장면정보를 수신받는다.

그리고 복호화부(222)는 수신부(221)에서 수신받은 객체음원을 객체 단위로 복호화하여 원래의 객체음원을 복원한다.

그리고 공간정보 복원부(223)는 수신부(221)에서 수신받은 장면정보를 콘텐츠 합성부(224)로 전달한다.

그리고 콘텐츠 합성부(224)는 복호화부(222)에서 복호화된 객체음원과 공간정보 복원부(223)로부터 전달받은 장면정보를 이용하여 대화형 오디오 콘텐츠를 합성한다. 여기서, 객체음원은 음원 단위, 트랙 단위 또는 혼합음원에서 분리 및 추출된 단위의 음원이 될 수 있다. 사용자 단말인 대화형 오디오 수신 장치(220)는 사용자의 제어에 의해, 대화형 오디오 콘텐츠의 공간정보(예를 들면, 음원의 위치, 음원의 레벨, 음원의 음색 및 공간감 등)를 변화시킬 수 있다.

전술된 바와 같이, 종래의 대화형 오디오 송신 장치(210)는 입력되는 음원에 대해서 객체음원이 모두 확보되지 못하면 대화형 오디오 서비스를 제공할 수 없게 된다. 한편, 종래의 대화형 오디오 수신 장치(220)와 다른 대화형 오디오 수신 장치는 객체음원을 처리하지 못하여 대화형 오디오 서비스를 제공할 수 없게 된다.

이하, 본 발명에 따른 대화형 오디오 송/수신 장치의 제1 내지 제3 실시예를 도 3 내지 도 5를 통해 살펴보기로 한다.

도 3 은 본 발명에 따른 대화형 오디오 송/수신 장치의 제1 실시예 구성도이다.

도 3에 도시된 바와 같이, 본 발명의 제1 실시예에 따른 대화형 오디오 송신 장치(310)는 콘텐츠 생성부(311), 부호화부(312) 및 송신부(313)를 포함한다. 한편, 대화형 오디오 수신 장치(320)는 수신부(321), 복호화부(322), 공간정보 복원부(323) 및 콘텐츠 합성부(324)를 포함한다.

본 발명의 제1 실시예에 따른 대화형 오디오 송/수신 장치(310, 320)는 객체음원의 다운믹싱 및 그 다운믹싱과 관련된 객체음원 복원정보를 이용하여 대화형 오디오 서비스를 사용자에게 제공하기 위한 것이다. 여기서, 객체음원 복원정보는 객체음원의 형태에 따라 음원 복원정보 또는 트랙 복원정보 중 적어도 하나의 복원정보를 포함한다.

대화형 오디오 송신 장치(310)는 객체음원을 다운믹싱하여 기존 사용자 단말에서 서비스 가능한 믹싱음원을 대화형 오디오 수신 장치(320)로 전송한다. 이때, 대화형 오디오 송신 장치(310)는 대화형 오디오 수신 장치(320)에서 객체음원을 복원하기 위한 객체음원 복원정보 및 장면정보를 함께 대화형 오디오 수신 장치(320)로 전송한다.

한편, 대화형 오디오 수신 장치(320)는 대화형 오디오 송신 장치(310)로부터 다운믹싱된 믹싱음원과, 객체음원 복원정보 및 장면정보를 함께 수신받는다. 대화형 오디오 수신 장치(320)는 객체음원 복원정보와 다운믹싱된 믹싱음원을 이용하여 객체음원을 복원한다. 여기서 복원된 객체음원은 음원 신호 또는 트랙 신호로 이루어질 수 있다. 그리고 대화형 오디오 수신 장치(320)는 장면정보와 복원된 객체음원을 이용하여 대화형 오디오 콘텐츠를 합성한다. 여기서, 다운믹싱된 믹싱음원은 그대로 서비스가 가능하므로 기존 사용자 단말에 서비스될 수 있다.

구체적으로 살펴보면, 콘텐츠 생성부(311)는 객체음원을 객체 단위로 전송하지 않고 다운믹싱하여 전송하는 경우, 객체음원을 다운믹싱하여 믹싱음원을 생성하고 그 믹싱음원과 함께 객체음원 복원정보를 전송해야 한다. 이를 위해, 콘텐츠 생성부(311)는 다운믹싱된 믹싱음원을 객체음원으로 복원하기 위하여 객체음원 복원정보와 장면정보를 생성한다.

여기서, 콘텐츠 생성부(311)는 객체음원이 각 음원 간 상호상관 값에 따라 공간적으로 구분되도록 객체음원을 하나의 대역에 다운믹싱한다. 또한, 콘텐츠 생성부(311)는 시간 영역, 주파수 영역, 또는 공간 영역 중 어느 하나의 영역에서의 각 객체음원(음원 신호 또는 트랙 신호) 간 믹싱 파라미터를 이용하여 객체음원 복원정보를 생성한다. 객체음원이 트랙 단위 음원이면, 콘텐츠 생성부(311)는 객체음원을 트랙 단위로 복원하기 위한 트랙 복원정보를 생성한다. 다수 개의 음원이 믹싱되어 있다는 것은 음원 사이의 유사성이 있어 동일한 대역에 포함되는 경우 또는 하나의 음원이 공간적으로 여러 지점에서 도래하는 경우를 나타낸다.

부호화부(312)는 콘텐츠 생성부(311)에서 다운믹싱된 믹싱음원을 부호화한다.

송신부(313)는 부호화부(312)에서 부호화된 믹싱음원과, 콘텐츠 생성부(311)에서 생성된 객체음원 복원정보 및 장면정보를 믹싱음원과 함께 대화형 오디오 수신 장치(320)로 송신한다.

한편, 수신부(321)는 대화형 오디오 송신 장치(310)로부터 믹싱음원과 그 믹싱음원과 관련된 객체음원 복원정보 및 장면정보를 수신받는다.

그리고 복호화부(322)는 수신부(321)에서 수신받은 믹싱음원을 복호화한다.

그리고 공간정보 복원부(323)는 수신부(321)에서 수신받은 믹싱음원과 객체음원 복원정보를 이용하여 객체음원을 복원한다. 공간정보 복원부(423)는 수신받은 객체음원 복원정보가 트랙 복원정보이면, 상기 트랙 복원정보를 이용하여 상기 객체음원을 트랙 단위로 복원할 수 있다.

그리고 콘텐츠 합성부(324)는 장면정보와 공간정보 복원부(323)에서 복원된 객체음원을 이용하여 대화형 오디오 콘텐츠를 합성한다. 이러한 대화형 오디오 서비스에서 사용자에 의해 사용자 제어가 가능하다. 즉, 콘텐츠 합성부(324)는 사용자의 요청에 따라, 음원의 위치, 음원의 레벨, 음윈의 음색 또는 공간감 중 적어도 하나의 공간정보를 변화시킬 수 있다.

도 4 는 본 발명에 따른 대화형 오디오 송/수신 장치의 제2 실시예 구성도이다.

도 4에 도시된 바와 같이, 본 발명의 제2 실시예에 따른 대화형 오디오 송신 장치(410)는 콘텐츠 생성부(411), 부호화부(412) 및 송신부(413)를 포함한다. 한편, 대화형 오디오 수신 장치(420)는 수신부(421), 복호화부(422), 공간정보 복원부(423) 및 콘텐츠 합성부(424)를 포함한다.

본 발명의 제2 실시예에 따른 대화형 오디오 송/수신 장치(410, 420)는 혼합음원에 대해서 음원 분리 및 추출을 이용하여 대화형 오디오 서비스를 제공하기 위한 것이다.

대화형 오디오 송/수신 장치(410, 420)는 혼합음원(예를 들면, 스테레오 또는 5.1채널 음원 등)을 이용하여 대화형 오디오 서비스를 제공하기 위한 것이다. 이를 위해, 대화형 오디오 송신 장치(410)는 음원 분리 및 추출을 통해 객체음원을 생성한다. 이후, 대화형 오디오 수신 장치(420)는 음원 분리 및 추출을 통한 객체음원과 장면정보를 이용하여 대화형 오디오 콘텐츠를 합성한다. 물론, 대화형 오디오 송/수신 장치(410, 420)는 분리 및 추출된 객체음원을 다운믹싱하고, 음원 복원정보를 생성함으로써 도 3과 같이 서비스할 수도 있다.

콘텐츠 생성부(411)는 혼합음원을 객체 단위의 객체음원으로 이용하기 위해서, 음원 분리 및 추출 기술을 적용하여 혼합음원을 분리하여 객체음원을 추출한다. 상기와 같은 혼합음원 분리 및 추출 과정이 수행된 후, 콘텐츠 생성부(411)는 추출된 객체음원들의 공간정보를 추출하여 객체음원의 장면정보를 검출한다. 장면정보는 혼합음원 분리 및 추출과정에서 채널간 레벨차이, 채널간 지연차이, 채널간 상호상관 등 공간정보에 의해 산출될 수 있다.

여기서, 콘텐츠 생성부(411)는 혼합음원(혼합된 오디오 신호)에 대해서, 각 음원들의 독립성을 이용하여 디컨벌루션(De-convolution)함으로써 혼합음원을 분리할 수도 있다. 또한, 콘텐츠 생성부(411)는 시간 또는 주파수 영역에서 충분히 적은 공간으로 구분하여 생성된 국소음원을 공간정보에 의해 음원 단위로 재결합함으로써, 혼합음원을 분리할 수도 있다. 이렇게 분리 및 추출된 객체음원은 전술된 객체음원과 동일하게 처리될 수 있다.

혼합음원의 분리 과정을 살펴보면, 혼합음원이 녹음 과정에서 분리가 곤란한 상태로 서로 혼합되어 있을 때는 별도의 분리 과정이 필요할 수 있다. 칵테일 파티장에 있는 여러 사람의 대화소리와 음악 등이 섞여 있는 혼합음원이 이에 해당한다. 이러한 혼합음원은 경우에 따라 하나의 오디오 객체로 간주하기보다는 분리된 후 각각 독립된 오디오 객체들로 간주하여 다룰 필요가 있다. 또한, 피할 수 없는 잡음들에 의해 음질이 심히 저하되는 경우 잡음들로부터 객체음원을 효과적으로 분리해낼 필요가 있다.

이와 같은 혼합음원의 분리 과정은 오디오 객체의 혼합형태에 따라 크게 순시혼합(Instant mix)과 지연혼합(Delayed and convolved mix)된 경우로 구분된다. 예를 들어, 칵테일 파티장에서 각 사람들의 대화 소리와 암기 음과 같은 소리는 파티장의 벽면이나 다른 물체들에 닿은 뒤 반사되어 크기가 변한 다음 혼합되어 귀에 들리게 된다. 이 경우는 지연혼합에 해당한다. 반면에 무향실과 같은 특수한 환경에서의 오디오 혼합은 순시혼합에 해당한다.

또한, 혼합음원의 분리 과정은 통계적 독립성을 활용하는 방안에 따라 고차 통계적(HOS: High Order, Statistics) 방식, 정보량 최대화 방식, 중복 상관도 제거(Multiple decorrelation) 방식 등으로 구분된다. 이들 방식은 모두 순시혼합과 지연혼합에 적용 가능하다.

한편, 부호화부(412)는 콘텐츠 생성부(411)에서 추출된 객체음원을 부호화한다.

송신부(413)는 부호화된 객체음원과 검출된 장면정보를 송신한다.

한편, 수신부(421)는 대화형 오디오 송신 장치(410)로부터, 부호화된 객체음원과 장면정보를 수신받는다.

그리고 복호화부(422)는 수신부(421)에서 수신받은 객체음원을 객체 단위로 복호화하여 원래의 객체음원을 복원한다.

그리고 공간정보 복원부(423)는 수신부(421)에서 수신받은 장면정보를 콘텐츠 합성부(424)로 전달한다.

그리고 콘텐츠 합성부(424)는 복호화부(422)에서 복호화된 객체음원과 공간정보 복원부(423)로부터 전달받은 장면정보를 이용하여 대화형 오디오 콘텐츠를 합성한다. 여기서, 객체음원은 음원 단위, 트랙 단위 또는 혼합음원에서 분리 및 추출된 단위의 음원이 될 수 있다. 사용자 단말인 대화형 오디오 수신 장치(420)는 사용자의 제어에 의해, 대화형 오디오 콘텐츠의 공간정보(예를 들면, 음원의 위치, 음원의 레벨, 음원의 음색 및 공간감 등)를 변화시킬 수 있다. 콘텐츠 합성부(424)는 대화형 오디오 콘텐츠를 합성하는 데 있어 공간영역에서의 렌더링을 위해, 객체음원과 함께 전송된 장면정보를 이용한다.

도 5 는 본 발명에 따른 대화형 오디오 송/수신 장치의 제3 실시예 구성도이다.

도 5에 도시된 바와 같이, 본 발명의 제3 실시예에 따른 대화형 오디오 송신 장치(510)는 부호화부(511) 및 송신부(512)를 포함한다. 한편, 대화형 오디오 수신 장치(520)는 수신부(521), 복호화부(522), 공간정보 복원부(523) 및 콘텐츠 합성부(524)를 포함한다.

본 발명의 제3 실시예에 따른 대화형 오디오 송/수신 장치(510, 520)는 수신 측인 사용자 단말에서 음원 분리 및 추출 과정을 이용하여 대화형 오디오 서비스를 제공하기 위한 것이다.

대화형 오디오 송신 장치(510)는 혼합음원을 부호화하여 그대로 수신 측(사용자 단말) 측의 대화형 오디오 수신 장치(520)로 송신한다.

이후, 대화형 오디오 수신 장치(520)는 음원 분리 및 추출 과정을 수행하고 장면정보 검출에 의해 대화형 오디오 서비스를 제공하기 위한 객체음원을 생성한다. 여기서, 대화형 오디오 수신 장치(520)는 도 3에 도시된 대화형 오디오 수신 장치(320)를 대행하여, 객체음원의 복원 과정을 수행하지 않고 혼합음원의 분리 및 추출 과정을 이용하여 대화형 오디오 서비스를 제공하는 것이 가능하다.

구체적으로 살펴보면, 대화형 오디오 송신 장치(510)에서의 부호화부(511)는 혼합음원을 분리 및 추출하지 않고 부호화한다.

그리고 송신부(512)는 부호화부(511)에서 부호화된 혼합음원을 그대로 대화형 오디오 수신 장치(520)로 송신한다.

한편, 대화형 오디오 수신 장치(520)에서의 수신부(521)는 대화형 오디오 송신 장치(510)로부터, 부호화된 혼합음원을 수신받는다.

복호화부(522)는 수신부(521)에서 수신받은 혼합음원을 복호화하여 원래의 혼합음원을 복원한다.

그리고 공간정보 복원부(523)는 복호화부(522)에서 복원된 혼합음원을 각각 분리하여 객체음원을 추출한다. 그리고 공간정보 복원부(523)는 혼합음원의 공간정보를 추출하여 장면정보를 검출한다. 장면정보는 혼합음원 분리 및 추출과정에서 채널간 레벨차이, 채널간 지연차이, 채널간 상호상관 등 공간정보에 의해 산출될 수 있다.

여기서, 공간정보 복원부(523)는 혼합음원(혼합된 오디오 신호)에 대해서, 각 음원들의 독립성을 이용하여 디컨벌루션함으로써 혼합음원을 분리할 수도 있다. 또한, 공간정보 복원부(523)는 시간 또는 주파수 영역에서 충분히 적은 공간으로 구분하여 생성된 국소음원을 공간정보에 의해 음원 단위로 재결합함으로써, 혼합음원을 분리할 수도 있다. 이렇게 분리 및 추출된 객체음원은 전술된 객체음원과 동일하게 처리될 수 있다.

그리고 콘텐츠 합성부(524)는 공간정보 복원부(523)에서 추출된 객체음원과 검출된 장면정보를 이용하여 대화형 오디오 콘텐츠를 합성한다. 콘텐츠 합성부(524)는 대화형 오디오 콘텐츠를 합성하는 데 있어 공간영역에서의 렌더링을 위해, 장면정보를 이용한다.

이와 같이, 본 발명의 제1 내지 제3 실시예에 따른 대화형 오디오 송/수신 장치(310, 320, 410, 420, 510, 520)는 각각 다수의 대화형 오디오 서비스의 시나리오에 따라 구분된 것이다. 즉, 본 발명은 상기의 [표 1]에 나타낸 유형(예를 들면, 입력되는 음원의 종류, 전송되는 데이터의 종류, 부호화/복호화 종류, 공간정보의 종류)에 따라 다수의 서비스 시나리오에 이용될 수 있다. 도 3 내지 도 5 는 세 가지 유형의 대화형 오디오 서비스 시나리오를 나타내고 있다.

이하, 본 발명에 따른 대화형 오디오 송/수신 방법의 제1 내지 제2 실시예를 도 6 내지 도 9를 통해 살펴보기로 한다.

도 6 은 본 발명에 따른 대화형 오디오 송신 방법의 제1 실시예 흐름도이다.

콘텐츠 생성부(311)는 객체음원을 믹싱음원으로 다운믹싱한다(602). 여기서, 콘텐츠 생성부(311)는 객체음원이 각 음원 간 상호상관 값에 따라 공간적으로 구분되도록 객체음원을 하나의 대역에 다운믹싱한다.

그리고 콘텐츠 생성부(311)는 객체음원의 복원에 필요한 객체음원 복원정보와 장면정보를 생성한다(604). 여기서, 콘텐츠 생성부(311)는 시간 영역, 주파수 영역, 또는 공간 영역 중 어느 하나의 영역에서의 각 객체음원(음원 신호 또는 트랙 신호) 간 믹싱 파라미터를 이용하여 객체음원 복원정보를 생성한다. 객체음원이 트랙 단위 음원이면, 콘텐츠 생성부(311)는 객체음원을 트랙 단위로 복원하기 위한 트랙 복원정보를 생성한다.

부호화부(312)는 콘텐츠 생성부(311)에서 다운믹싱된 믹싱음원을 부호화한다(606).

송신부(313)는 부호화부(312)에서 부호화된 믹싱음원과, 콘텐츠 생성부(311)에서 생성된 객체음원 복원정보 및 장면정보를 믹싱음원과 함께 대화형 오디오 수신 장치(320)로 송신한다(608).

도 7 은 본 발명에 따른 대화형 오디오 수신 방법의 제1 실시예 흐름도이다.

수신부(321)는 대화형 오디오 송신 장치(310)로부터 믹싱음원과 그 믹싱음원과 관련된 객체음원 복원정보 및 장면정보를 수신받는다(702).

그리고 복호화부(322)는 수신부(321)에서 수신받은 믹싱음원을 복호화한다(704).

그리고 공간정보 복원부(323)는 수신부(321)에서 수신받은 믹싱음원과 객체음원 복원정보를 이용하여 객체음원을 복원한다(706). 공간정보 복원부(423)는 수신받은 객체음원 복원정보가 트랙 복원정보이면, 상기 트랙 복원정보를 이용하여 상기 객체음원을 트랙 단위로 복원할 수 있다.

그리고 콘텐츠 합성부(324)는 장면정보와 공간정보 복원부(323)에서 복원된 객체음원을 이용하여 대화형 오디오 콘텐츠를 합성한다(708). 이러한 대화형 오디오 서비스에서 사용자에 의해 사용자 제어가 가능하다. 즉, 콘텐츠 합성부(324)는 사용자의 요청에 따라, 음원의 위치, 음원의 레벨, 음윈의 음색 또는 공간감 중 적어도 하나의 공간정보를 변화시킬 수 있다.

도 8 은 본 발명에 따른 대화형 오디오 송신 방법의 제2 실시예 흐름도이다.

콘텐츠 생성부(411)는 혼합음원을 객체 단위의 객체음원으로 이용하기 위해서, 음원 분리 및 추출 기술을 적용해 혼합음원을 각각 분리하여 객체음원을 추출한다(802). 여기서, 콘텐츠 생성부(411)는 혼합음원(혼합된 오디오 신호)에 대해서, 각 음원들의 독립성을 이용하여 디컨벌루션(De-convolution)함으로써 혼합음원을 분리할 수도 있다. 또한, 콘텐츠 생성부(411)는 시간 또는 주파수 영역에서 충분히 적은 공간으로 구분하여 생성된 국소음원을 공간정보에 의해 음원 단위로 재결합함으로써, 혼합음원을 분리할 수도 있다. 이렇게 분리 및 추출된 객체음원은 전술된 객체음원과 동일하게 처리될 수 있다.

상기와 같은 혼합음원 분리 및 추출 과정이 수행된 후, 콘텐츠 생성부(411)는 객체음원들의 공간정보를 추출하여 객체음원의 장면정보를 검출한다(804).

부호화부(412)는 콘텐츠 생성부(411)에서 추출된 객체음원을 부호화한다(806).

송신부(413)는 부호화된 객체음원과 검출된 장면정보를 송신한다(808).

도 9 는 본 발명에 따른 대화형 오디오 송/수신 장치의 제2 실시예 구성도이다.

수신부(521)는 대화형 오디오 송신 장치(510)로부터, 부호화된 혼합음원을 수신받는다(902).

복호화부(522)는 수신부(521)에서 수신받은 혼합음원을 복호화하여 원래의 혼합음원을 복원한다(904).

그리고 공간정보 복원부(523)는 복호화부(522)에서 복원된 혼합음원을 각각 분리하여 객체음원을 추출한다(906). 여기서, 공간정보 복원부(523)는 혼합음원(혼합된 오디오 신호)에 대해서, 각 음원들의 독립성을 이용하여 디컨벌루션함으로써 혼합음원을 분리할 수도 있다. 또한, 공간정보 복원부(523)는 시간 또는 주파수 영역에서 충분히 적은 공간으로 구분하여 생성된 국소음원을 공간정보에 의해 음원 단위로 재결합함으로써, 혼합음원을 분리할 수도 있다. 이렇게 분리 및 추출된 객체음원은 전술된 객체음원과 동일하게 처리될 수 있다.

그리고 공간정보 복원부(523)는 혼합음원의 공간정보를 추출하여 장면정보를 검출한다(908).

그리고 콘텐츠 합성부(524)는 공간정보 복원부(523)에서 추출된 객체음원과 검출된 장면정보를 이용하여 대화형 오디오 콘텐츠를 합성한다(910).

한편, 전술한 바와 같은 본 발명의 방법은 컴퓨터 프로그램으로 작성이 가능하다. 그리고 상기 프로그램을 구성하는 코드 및 코드 세그먼트는 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다.　또한, 상기 작성된 프로그램은 컴퓨터가 읽을 수 있는 기록매체(정보저장매체)에 저장되고, 컴퓨터에 의하여 판독되고 실행됨으로써 본 발명의 방법을 구현한다. 그리고 상기 기록매체는 컴퓨터가 판독할 수 있는 모든 형태의 기록매체를 포함한다.

이상에서 설명한 본 발명은, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.

도 1 은 본 발명에 따른 대화형 오디오 송/수신 장치의 일실시예 구성도,

도 2 는 종래의 대화형 오디오 송/수신 장치의 구성도,

도 3 은 본 발명에 따른 대화형 오디오 송/수신 장치의 제1 실시예 구성도,

도 4 는 본 발명에 따른 대화형 오디오 송/수신 장치의 제2 실시예 구성도,

도 5 는 본 발명에 따른 대화형 오디오 송/수신 장치의 제3 실시예 구성도,

도 6 은 본 발명에 따른 대화형 오디오 송신 방법의 제1 실시예 흐름도,

도 7 은 본 발명에 따른 대화형 오디오 수신 방법의 제1 실시예 흐름도,

도 8 은 본 발명에 따른 대화형 오디오 송신 방법의 제2 실시예 흐름도,

* 도면의 주요 부분에 대한 부호의 설명

310, 410, 510: 대화형 오디오 송신 장치

311, 411: 콘텐츠 생성부 312, 412, 512: 부호화부

313, 413, 513: 송신부

320, 420, 520: 대화형 오디오 수신 장치

321, 421, 521: 수신부 322, 422, 522: 복호화부

323, 423, 523: 공간정보 복원부 324, 424, 524: 콘텐츠 합성부

Claims

대화형 오디오 송신 장치에 있어서,

객체음원을 믹싱음원으로 다운믹싱하고 상기 객체음원의 복원에 필요한 객체음원 복원정보와 장면정보를 생성하기 위한 콘텐츠 생성 수단;

상기 믹싱음원을 부호화하기 위한 부호화 수단; 및

상기 부호화된 믹싱음원과 상기 생성된 객체음원 복원정보 및 장면정보를 함께 송신하기 위한 송신 수단

을 포함하는 대화형 오디오 송신 장치.
제 1 항에 있어서,

상기 콘텐츠 생성 수단은,

상기 객체음원이 각 음원 간 상호상관 값에 따라 공간적으로 구분되도록 하나의 대역에 상기 객체음원을 다운믹싱하는 것을 특징으로 하는 것을 특징으로 하는 대화형 오디오 송신 장치.
제 1 항 또는 제 2 항에 있어서,

상기 콘텐츠 생성 수단은,

시간 영역, 주파수 영역 또는 공간 영역 중 어느 하나의 영역에서의 각 객체음원 간 믹싱 파라미터를 이용하여 상기 객체음원 복원정보를 생성하는 것을 특징으로 하는 대화형 오디오 송신 장치.
제 3 항에 있어서,

상기 콘텐츠 생성 수단은,

상기 객체음원이 트랙 단위의 객체음원이면, 상기 객체음원을 상기 트랙 단위로 복원하기 위한 트랙 복원정보를 생성하는 것을 특징으로 하는 대화형 오디오 송신 장치.
대화형 오디오 수신 장치에 있어서,

믹싱음원과, 상기 믹싱음원의 복원에 필요한 객체음원 복원정보 및 장면정보를 수신받기 위한 수신 수단;

상기 믹싱음원을 복호화하기 위한 복호화 수단;

상기 복호화된 믹싱음원과 상기 수신받은 객체음원 복원정보를 이용하여 객체음원을 복원하기 위한 공간정보 복원 수단; 및

상기 수신받은 장면정보와 상기 복원된 객체음원을 이용하여 대화형 오디오 콘텐츠를 합성하기 위한 콘텐츠 합성 수단

을 포함하는 대화형 오디오 수신 장치.
제 5 항에 있어서,

상기 공간정보 복원 수단은,

상기 수신받은 객체음원 복원정보가 트랙 복원정보이면, 상기 트랙 복원정보를 이용하여 상기 객체음원을 트랙 단위로 복원하는 것을 특징으로 하는 대화형 오디오 수신 장치.
제 5 항 또는 제 6 항에 있어서,

상기 콘텐츠 합성 수단은,

사용자의 요청에 따라, 음원의 위치, 음원의 레벨, 음윈의 음색 또는 공간감 중 적어도 하나의 공간정보를 변화시키는 것을 특징으로 하는 대화형 오디오 수신 장치.
대화형 오디오 송신 장치에 있어서,

혼합음원을 각각 분리하여 객체음원을 추출하고, 상기 추출된 객체음원의 공간정보를 추출하여 장면정보를 검출하기 위한 콘텐츠 생성 수단;

상기 추출된 객체음원을 부호화하기 위한 부호화 수단; 및

상기 부호화된 객체음원과 상기 생성된 장면정보를 송신하기 위한 송신 수단

을 포함하는 대화형 오디오 송신 장치.
제 8 항에 있어서,

상기 콘텐츠 생성 수단은,

상기 혼합음원에 대해서, 각 음원들의 독립성을 이용해 디컨벌루션하여 상기 혼합음원을 각각 분리하는 것을 특징으로 하는 대화형 오디오 송신 장치.
제 8 항에 있어서,

상기 콘텐츠 생성 수단은,

시간 또는 주파수 영역에서 특정 공간으로 구분하여 생성된 국소음원을 상기 공간정보에 의해 음원 단위로 재결합하여 상기 혼합음원을 분리하는 것을 특징으로 하는 대화형 오디오 송신 장치.
대화형 오디오 수신 장치에 있어서,

부호화된 혼합음원을 수신받기 위한 수신 수단;

상기 수신받은 혼합음원을 각각 분리하여 객체음원을 추출하고, 상기 혼합음원의 공간정보를 추출하여 장면정보를 검출하기 위한 공간정보 복원 수단; 및

상기 검출된 장면정보와 상기 추출된 객체음원을 이용하여 대화형 오디오 콘텐츠를 합성하기 위한 콘텐츠 합성 수단

을 포함하는 대화형 오디오 수신 장치.
제 11 항에 있어서,

상기 공간정보 복원 수단은,

상기 혼합음원에 대해서, 각 음원들의 독립성을 이용해 디컨벌루션하여 상기 혼합음원을 각각 분리하는 것을 특징으로 하는 대화형 오디오 수신 장치.
제 11 항에 있어서,

상기 공간정보 복원 수단은,

시간 또는 주파수 영역에서 특정 공간으로 구분하여 생성된 상기 혼합음원의 국소음원을 상기 공간정보를 이용해 음원 단위로 재결합하여 상기 혼합음원을 분리하는 것을 특징으로 하는 대화형 오디오 수신 장치.
대화형 오디오 송신 방법에 있어서,

객체음원을 믹싱음원으로 다운믹싱하고 상기 객체음원의 복원에 필요한 객체음원 복원정보와 장면정보를 생성하는 콘텐츠 생성 단계;

상기 믹싱음원을 부호화하는 부호화 단계; 및

상기 부호화된 믹싱음원과 상기 생성된 객체음원 복원정보 및 장면정보를 함께 송신하는 송신 단계

를 포함하는 대화형 오디오 송신 방법.
대화형 오디오 수신 방법에 있어서,

믹싱음원과, 상기 믹싱음원의 복원에 필요한 객체음원 복원정보 및 장면정보를 수신받는 수신 단계;

상기 믹싱음원을 복호화하는 복호화 단계;

상기 복호화된 믹싱음원과 상기 수신받은 객체음원 복원정보를 이용하여 객체음원을 복원하는 공간정보 복원 단계; 및

상기 수신받은 장면정보와 상기 복원된 객체음원을 이용하여 대화형 오디오 콘텐츠를 합성하는 콘텐츠 합성 단계

를 포함하는 대화형 오디오 수신 방법.
대화형 오디오 송신 방법에 있어서,

혼합음원을 각각 분리하여 객체음원을 추출하고, 상기 추출된 객체음원의 공간정보를 추출하여 장면정보를 검출하는 콘텐츠 생성 단계;

상기 추출된 객체음원을 부호화하는 부호화 단계; 및

상기 부호화된 객체음원과 상기 생성된 장면정보를 송신하는 송신 단계

를 포함하는 대화형 오디오 송신 방법.
대화형 오디오 수신 방법에 있어서,

부호화된 혼합음원을 수신받는 수신 단계;

상기 수신받은 혼합음원을 각각 분리하여 객체음원을 추출하고, 상기 혼합음원의 공간정보를 추출하여 장면정보를 검출하는 공간정보 복원 단계; 및

상기 검출된 장면정보와 상기 추출된 객체음원을 이용하여 대화형 오디오 콘텐츠를 합성하는 콘텐츠 합성 단계

를 포함하는 대화형 오디오 수신 방법.