KR20140128561A

KR20140128561A - 사용자의 재생 채널 환경에 따른 선택적 객체 복호화 방법

Info

Publication number: KR20140128561A
Application number: KR1020130047051A
Authority: KR
Inventors: 송정욱; 송명석; 오현오; 이태규
Original assignee: 인텔렉추얼디스커버리 주식회사
Priority date: 2013-04-27
Filing date: 2013-04-27
Publication date: 2014-11-06

Abstract

발 발명의 일 양상에 따르면, 오디오 신호처리 방법으로써, 그룹 객체 신호를 포함한 비트열을 수신하는 단계; 사용자 환경 정보를 수신하는 단계; 상기 수신된 비트열과 상기 사용자 환경 정보를 이용하여, 상기 그룹 객체 신호를 복호화 하는 단계; 를 포함하되, 상기 객체 신호를 복호화 하는 단계는, 상기 그룹의 객체를 대표하는 대표 신호와 상기 대표 신호로부터 개별 객체의 신호를 얻을 수 있도록 하는 차 신호를 포함하는 복호화된 신호를 생성하는 것을 특징으로 하는 오디오 신호처리 방법이 제공될 수 있다.

Description

사용자의 재생 채널 환경에 따른 선택적 객체 복호화 방법 {Selective object decoding method depending on user channel configuration}

본 발명은 객체 오디오 신호 처리 방법 및 장치에 관한 것으로, 보다 상세하게는 객체 오디오 신호의 부호화 및 복호화하거나 3차원 공간에 렌더링하기 위한 방법 및 장치에 관한 것이다.

3D 오디오란 기존의 서라운드 오디오에서 제공하는 수평면 상의 사운드 장면(2D)에 높이 방향으로 또 다른 축(dimension)을 제공함으로써, 말그대로 3차원 공간에서의 임장감있는 사운드를 제공하기 위한 일련의 신호처리, 전송, 부호화, 재생 기술 등을 통칭한다. 특히, 3D 오디오를 제공하기 위해서는 종래보다 많은 수의 스피커를 사용하거나 혹은 적은 수의 스피커를 사용하더라도 스피커가 존재하지 않는 가상의 위치에서 음상이 맺히도록 하는 렌더링 기술이 널리 요구된다.

3D 오디오는 향후 출시될 초고해상도 TV (UHDTV)에 대응되는 오디오 솔루션이 될 것으로 예상되며, 고품질 인포테인먼트 공간으로 진화하고 있는 차량에서의 사운드를 비롯하여 그밖에 극장 사운드, 개인용 3DTV, 테블릿, 스마트폰, 클라우드 게임 등 다양하게 응용될 것으로 예상된다.

한편 MPEG-H 3D Audio는 고품질 서비스를 위해 22.2채널의 멀티채널 시스템을 주력 포맷으로 지원하고 있다. 이는 사용자 귀높이의 서라운드 채널 스피커가 존재하는 것만으로는 부족하므로 상/하위 레이어를 추가하여 다채널 오디오 환경을 설정한 NHK의 방식이다. 가장 높은 레이어에 총 9개 채널이 제공될 수 있다. 전면에 3개, 중간 위치에 3개, 서라운드 위치에 3개 총 9개의 스피커가 배치되어 있음을 알 수 있다. 중간 레이어에는 전면에 5개, 중간 위치에 2개, 서라운드 위치에 총 3개의 스피커가 배치될 수 있다. 바닥에는 전면에 총 3개의 채널 및 2개의 LFE 채널이 설치될 수 있다.

일반적으로 다수의 스피커의 출력을 조합함(VBAP, Vector-Based Amplitude Panning)으로써 특정 음원을 3D 공간상에 위치시키게 된다. 도7은 VBAP의 개념을 예시한다. 신호의 크기를 기준으로 두 스피커 사이의 음원의 방향 정보를 결정하는 Amplitude Panning이나 3차원 공간상에서 3개의 스피커를 이용하여 음원의 방향을 결정하는데 널리 사용되는 VBAP을 이용하면 객체별로 전송된 객체 신호에 대해서는 상대적으로 편리하게 렌더링을 구현할 수 있는 것을 알 수 있다. 즉, 도1의 세 개의 스피커(채널 1,2,3)를 이용하여 가상 스피커1을 생성할 수 있다. VBAP는 청취자의 위치(Sweet Spot)을 기준으로 virtual source가 위치하고자 하는 목적 벡터를 생성할 수 있도록 그 주변의 스피커를 선택하고, 스피커 위치 벡터를 제어하는 게인 값을 계산하여 음원을 렌더링하는 방법이다. 따라서 객체에 기반한 컨텐츠의 경우, 타겟 객체(혹은 virtual source)를 둘러싼 최소 3개의 스피커를 결정하고 이들의 상대적 위치를 고려하여 VBAP을 재형성함으로써 객체를 원하는 위치에 재생시킬 수 있다.

3D 오디오는 우선 최대 22.2채널까지 종래보다 많은 채널의 신호를 전송하는 것이 필요한데, 이를 위해서는 이에 적합한 압축 전송 기술이 요구된다. 종래의 MP3, AAC, DTS, AC3 등의 고음질 부호화의 경우, 주로 5.1채널 미만의 채널만을 전송하는데 최적화되어 있었다.

또한 22.2채널 신호를 재생하기 위해서는 24개의 스피커 시스템을 설치한 청취공간에 대한 인프라가 필요한데, 시장에 단기간 확산이 용이하지 않으므로, 22.2채널 신호를 그보다 작은 수의 스피커를 가진 공간에서 효과적으로 재생하기 위한 기술, 반대로 기존 스테레오 혹은 5.1채널 음원을 그보다 많은 수의 스피커인 10.1채널, 22.2채널 환경에서 재생할 수 있도록 하는 기술, 나아가서, 규정된 스피커 위치와 규정된 청취실 환경이 아닌 곳에서도 원래의 음원이 제공하는 사운드 장면을 제공할 수 있도록 하는 기술, 그리고 헤드폰 청취환경에서도 3D 사운드를 즐길 수 있도록 하는 기술 등이 요구된다. 이와 같은 기술들을 본원에서는 통칭 렌더링(rendering)이라고 하고, 세부적으로는 각각 다운믹스, 업믹스, 유연한 렌더링(flexible rendering), 바이노럴 렌더링 (binaural rendering) 등으로 부른다.

한편, 이와 같은 사운드 장면을 효과적으로 전송하기 위한 대안으로 객체 기반의 신호 전송 방안이 필요하다. 음원에 따라서 채널 기반으로 전송하는 것보다 객체 기반으로 전송하는 것이 더 유리한 경우가 있을 뿐 아니라, 객체 기반으로 전송하는 경우, 사용자가 임의로 객체들의 재생 크기와 위치를 제어할 수 있는 등 인터렉티브한 음원 청취를 가능하게 한다. 이에 따라 객체 신호를 높은 전송률로 압축할 수 있는 효과적인 전송 방법이 필요하다.

또한 객체 신호를 효과적으로 전송하기 위하여 각 객체 신호들의 특성에 따라 그룹화 되어 전송될 수 있다. 이 때 각 그룹 내의 각 객체들에 대하여 복호화 하는 방법은 사용자 재생 채널 환경에 따라 다를 수 있다. 사용자 재생 채널이 그룹 내의 각 객체들이 형성하는 공간에 충분히 존재한다면, 모든 객체 신호를 복호화 할 수 있으나, 그렇지 못할 경우 대표 신호와 일부 객체 신호만을 복호화하여 동일한 임장감을 주며 시스템의 복잡도를 줄이는 기술이 필요하다.

또한 사용자 재생 채널의 스피커 위치의 변화에 따른 객체 신호 복호화 방법 또한 달라져야 한다. 표준 규격이 정한 범위를 벗어나 사용자 스피커가 위치해 있을 경우, 변경된 채널이 재생가능한 공간영역의 범위에 객체 신호가 포함되지 않는 경우가 발생한다. 따라서 사용자 스피커 위치 환경에 따라 객체 신호를 복호화 하는 기술이 필요하다.

또한 사용되지 않는 객체에 대한 정보를 전송하지 않을 경우, 수신단에 사용되지 않는 객체가 있음에도 불구하고, 복호화 객체 리스트가 모두 채워질 수 있다. 이 경우, 새로운 객체가 들어왔을 때, 임의의 복호화 객체 리스트의 객체 정보를 제거애햐 하는 문제가 발생한다. 따라서 사용되지 않는 객체 정보를 전송하여 객체 신호를 복호화 하는 기술이 필요하다.

한번 생성된 하나의 컨텐츠(예를 들어 22.2채널을 기준으로 부호화된 신호)를 가지고 다양한 speaker configuration 및 재생 환경 상에서 활용될 수 있도록 하는 방법은 3DAC 표준화 과정에서 주요하게 다루어지는 표준화 이슈이다.

제안된 발명은 사용자 스피커 위치, 해상도, 최대 객체 리스트 공간 등을 고려하여 적절하게 객체 신호를 복호화하는 특징을 갖는다. 추가적으로 복호화기와 렌더러 사이의 전송량과 연산량의 이득을 얻을 수 있다.

도 1은 본 발명에 따른 객체 그룹 비트열의 형태에 대한 실시예
도 2는 제안된 그룹 내 선택적 객체 복호화 시스템을 설명하기 위한 도면
도 3은 사용자 재생 채널의 위치가 표준 규격에서 정한 범위의 위치에 벗어나 있을 경우 객체 신호의 rendering 방법에 대한 실시예
도 4는 사용자 재생 채널의 위치에 따른 객체 신호 복호화 방법
도 5는 END flag를 전송하지 않고 복호화 객체 리스트를 갱신할 때 생기는 문제를 설명하기 위한 도면
도 6은 END flag를 포함한 객체 복호화기 구조
도 7 다수 스피커를 이용한 일반적 렌더링 방법(VBAP)의 개념의 예

본 명세서에 기재된 실시예는 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 본 발명의 사상을 명확히 설명하기 위한 것이므로, 본 발명이 본 명세서에 기재된 실시예에 의해 한정되는 것은 아니며, 본 발명의 범위는 본 발명의 사상을 벗어나지 아니하는 수정예 또는 변형예를 포함하는 것으로 해석되어야 한다.

본 명세서에서 사용되는 용어와 첨부된 도면은 본 발명을 용이하게 설명하기 위한 것이고, 도면에 도시된 형상은 필요에 따라 본 발명의 이해를 돕기 위하여 과장되어 표시된 것이므로, 본 발명이 본 명세서에서 사용되는 용어와 첨부된 도면에 의해 한정되는 것은 아니다.

본 명세서에서 본 발명에 관련된 공지의 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에 이에 관한 자세한 설명은 필요에 따라 생략한다.

본 발명에서 다음 용어는 다음과 같은 기준으로 해석될 수 있고, 기재되지 않은 용어라도 하기 취지에 따라 해석될 수 있다. 코딩은 경우에 따라 인코딩 또는 디코딩으로 해석될 수 있고, 정보(information)는 값(values), 파라미터(parameter), 계수(coefficients), 성분(elements) 등을 모두 아우르는 용어로서, 경우에 따라 의미는 달리 해석될 수 있는 바, 그러나 본 발명은 이에 한정되지 아니한다.

또한, 상기 객체 신호를 복호화 하는 단계는, 상기 사용자 환경 정보에 따라 상기 대표 신호만을 복호화 하거나 적어도 하나의 개별 객체의 차 신호를 더 복호화 하는 오디오 신호 처리 방법을 포함할 수 있다.

또한, 상기 대표 신호는 상기 그룹에 포함된 제 1 객체와 다른 객체간의 거리 정보를 이용하여 선택되는 것을 특징으로 하는 오디오 신호 처리 방법을 포함할 수 있다.

또한, 상기 개별 객체의 신호는 상기 개별 객체의 음원과 재생 채널간의 거리 정보 및 사용자 재생 채널 해상도 정보를 이용하여 복호화되는 것을 특징으로 하는 오디오 신호처리 방법을 포함할 수 있다.

또한, 상기 개별 객체의 신호는 객체 음원과 재생 채널과의 인지적 음압 정보 및 사용자 재생 채널 해상도 정보를 이용하여 복호화되는 것을 특징으로 하는 오디오 신호처리 방법을 포함할 수 있다.

또한, 상기 제 1 객체는 고정된 위치를 갖는 스피커와 객체 음원의 물리적 거리를 이용하여 결정되는 것을 특징으로 하는 오디오 신호처리 방법을 포함할 수 있다.

또한, 상기 제 1 객체는 고정된 위치를 갖는 스피커와 객체 음원의 음압 정보를 이용하여 결정되는 것을 특징으로 하는 오디오 신호처리 방법을 포함할 수 있다.

이하에서는 본 발명의 실시예에 따른 객체 오디오 신호의 처리 방법 및 장치에 관하여 설명한다.

도 1은 본 발명에 따른 객체 비트열의 형태를 나타낸다. 오디오 특성을 기반으로 여러 개의 객체 신호는 하나의 그룹에 포함되어 비트열을 생성한다. 객체 그룹의 비트열은 모든 객체가 포함된 신호 (DA)의 비트열과 각각의 객체 비트열로 구성된다. 각각의 객체 비트열은 DA 신호와 해당 객체의 신호에 대한 차이를 가지고 생성된다. 따라서 객체 신호는 복호화된 DA신호와 각 객체 비트열을 복호화한 신호의 합을 이용하여 얻는다.

도 2는 사용자 환경 정보를 이용하여 객체 그룹 내의 객체 수를 선택적으로 복호화 하는 시스템의 도면이다. 객체 그룹 비트열은 사용자 환경 정보의 입력에 따라 선택적 개수만큼 복호화 된다. 수신한 객체 그룹 비트열의 위치 정보가 형성하는 공간 영역안에 포함된 사용자 재생 채널의 수가 표준 규격에 제안한 것과 같이 충분히 많을 경우에는 (N개의) 모든 객체를 복호화 한다. 하지만, 그렇지 않을 경우 모든 객체를 더한 신호 (DA)와 (K개의) 일부 객체 신호만을 복호화한다.

본 발명은 사용자 환경 정보에서 사용자 재생 채널의 해상도에 따라 복호화 되는 객체의 수를 결정하는 것이 특징이다. 또한 그룹 내 대표 객체가 사용자 재생 채널의 해상도가 낮을 때와 각 객체를 복호화 할 때 사용되는 것이 특징이다. 그룹 내의 모든 객체를 더한 신호를 생성하는 실시 예는 다음과 같다.

Stokes' law에 따라 그룹내의 대표객체와 다른 객체의 거리에 따른 감쇠(attenuation)를 반영하여 더한다. 제 일 객체를 D1, 그 외 객체를, D2, D3,… Dk라 하고, a는 주파수와 공간밀도에 의한 소리감쇠 상수 라고 하면, 그룹 내의 대표 객체를 더한 신호 DA는 다음 수학식1과 같다.

여기서 d1, d2, …dk는 각 객체에서 제 일 객체 사이의 거리를 말한다.

제 일 객체를 결정하는 방법은 사용자 재생 채널의 해상도에 상관없이 항상 존재하는 스피커의 위치를 중심으로 물리적 위치가 가장 가깝거나 loudness가 가장 큰 객체 신호로 선정하는 것이다. 또한 사용자 재생 채널 해상도가 낮을 때, 그룹 내 각 객체를 복호화 할지 말지 결정하는 방법은 가장 가까운 재생 채널의 위치에서 인지적 라우드니스(perceptual loudness)가 일정 크기 이상일 때 복호화 하는 것이다. 또는 간단하게 각 객체에서 재생 채널 위치와의 거리가 일정 크기 이상일 때 복호화 할 수도 있다.

도 3은 사용자 재생 채널의 위치가 표준 규격에서 정한 범위의 위치에 벗어나 있을 경우 일부 객체 신호를 원하는 위치에 rendering 할 수 없음을 나타낸 도면이다. 스피커의 위치가 변경되지 않았다면, 두 객체 신호는 모두 VBAP기술을 이용하여 세 개의 스피커를 이용하여 주어진 위치에서 음장감을 생성할 수 있다. 하지만 재생 채널의 위치 변화로 인하여 VBAP으로 표현할 수 있는 공간 영역 (회색 사선 영역)에 포함되지 않는 객체 신호가 존재한다.

도 4는 도 3과 같이 사용자 재생 채널의 위치가 표준 규격에서 정한 범위의 위치에 벗어날 경우 객체 신호 복호화 방법을 나타내는 도면이다. 사용자 환경 정보에서 재생 채널의 위치가 표준 규격의 범위와 일치하는 지를 확인하고, 범위안에 있을 경우 기존의 방식되로 복호화된 객체 신호를 3DA flexible render로 전송한다. 하지만 재생 채널의 위치가 표준 규격과 크게 상이하면, 복호화된 객체 신호를 복호화된 채널 신호에 mapping한다. 객체 신호가 더해진 채널 신호를 3DA flexible render로 전송하여 각 재생 채널로 rendering하게 된다.

본 발명은 사용자 재생 채널의 위치가 표준 규격에서 정한 범위의 위치에 벗어나 있을 때, 객체 신호의 오디오 신호 처리 방법이다.

수신한 비트열과 사용자 환경 정보를 이용하여 채널 복호화와 객체 복호화를 수행한 이후, 사용자 재생 채널의 위치가 변화가 있을 때, flexible rendering 기술을 통하여 원하는 위치에서 음장감을 생성할 수 없는 객체 신호가 존재하는 지 확인한다. 이러한 객체 신호가 존재한다면 상기 복호화된 객체 신호를 채널 신호에 mapping하여 플렉서블 렌더러단에 전송하며, 존재하지 않는다면 바로 플렉서블 렌더러단에 전송한다.

또한 VBAP 기술을 통하여 3D공간상에 객체 신호를 rendering할 경우 도 3의 실시 예와 같이 변경된 스피커의 위치에서 재생할 수 있는 공간 영역(회색 사선 영역)에 포함된 객세 신호(Obj2)와 포함되지 않는 객체 신호(Obj1)가 존재하는 것을 확인할 수 있다.

또한 상기 객체 신호를 채널 신호에 mapping하는 경우, 객체 신호의 위치 정보를 이용하여 가장 인접한 일부 채널 신호를 찾고, 각 채널에 적절한 게인 값을 곱하여 객체 신호를 더하여 준다. 이 때, 상기 수신한 사용자 재생 채널이 22.2채널인 경우 가장 인접한 3개의 일부 채널 신호를 찾아 VBAP 게인 값을 객체 신호에 곱하여 채널 신호에 더해 주며, 22.2채널이 아닌 경우 가장 인접한 3개이하의 채널 신호를 찾아 주파수와 공간밀도에 의한 소리감쇠 상수와 객체와 채널 위치의 거리에 exponentially 반비례 하는 게인값을 객체 신호에 곱하여 채널 신호에 더해 준다.

도 5는 사용되지 않는 객체에 대한 정보를 전송하지 않고 복호화 객체 리스트를 갱신할 때 생기는 문제를 설명하기 위한 그림이다. 도면 A의 경우, 복호화 객체 리스트에 K번째 이후 빈 공간이 존재한다. 새로운 객체 신호가 들어왔을 때, K번째 공간에 채워서 복호화 객체 리스트를 갱신한다. 하지만 도면 B와 같이 복호화 객체 리스트가 모두 채워져 있을 경우 새로운 객체가 들어왔을 때, 임의의 객체를 대체하는 것을 알 수 있다. 사용 중인 객체를 임의로 대체하였기 때문에, 기존 객체 신호를 사용할 수 없는 문제가 발생한다. 이와 같은 문제는 새로운 객체가 들어올 때 마다, 계속 발생하는 것을 알 수 있다.

도 6은 END flag (사용되지 않는 객체에 대한 정보)를 포함한 객체 복호화기 구조를 설명하기 위한 그림이다. 객체 비트열이 객체 복호화기를 통하여 객체 신호를 복호화 한다. 복호화된 객체 정보에서 END flag를 확인하여 객체 정보 갱신부로 결과 값을 전송한다. 객체 정보 갱신부에서는 과거 객체 정보와 현재 객체 정보를 입력 받아 복호화 객체 리스트의 데이터를 갱신한다.

본 발명은 END flag를 전송하여 비워진 복호화 객체 리스트를 재사용 가능하게 하는 것이 특징이다. 객체 정보 갱신부에서 사용되지 않는 객체를 복호화 객체 리스트에서 제거하여, 사용자 환경 정보에 의해 정해진 수신단의 복호화 가능 객체 수를 늘려준다.

또한 과거 객체들의 사용 빈도수나 사용 시간을 저장하여, 복호화 객체 리스트에 빈공간이 없을 때 과거 사용 빈도가 가장 적거나 과거 사용 시간이 가장 오래된 객체를 새로운 객체로 대체한다.

또한 END flag확인부에서는 END flag에 해당하는 1비트 정보를 확인하여 END flag 값이 유효하게 설정되었는지 확인한다. 또 다른 동작 방법으로 각 객체의 비트열의 길이를 2로 나눈 값에 따라 END flag 값이 유효하게 설정되었는지 확인할 수 있으며, 이와 같은 방법은 END flag를 전송하기 위해 사용하는 정보량을 줄일 수 있다.

110 : 객체 그룹 비트열 구조
210 : 사용자 채널 환경 비교기
220 : 객체 그룹 복호화기
310 : 채널 재생 가능 공간 영역
410 : 3DA 비트열 분배기
420 : 22.2 채널 복호화기
430 : 객체 복호화기
440 : 스피커 위치 비교기
450 : 채널/객체 연결부
460 : 3DA 플렉서블 렌더러
510 : 복호화 객체 리스트
610 : END flag 확인부
630 : 객체 정보 갱신부

Claims

오디오 신호처리 방법으로써,
그룹 객체 신호를 포함한 비트열을 수신하는 단계;
사용자 환경 정보를 수신하는 단계;
상기 수신된 비트열과 상기 사용자 환경 정보를 이용하여, 상기 그룹 객체 신호를 복호화 하는 단계; 를 포함하되,
상기 객체 신호를 복호화 하는 단계는, 상기 그룹의 객체를 대표하는 대표 신호와 상기 대표 신호로부터 개별 객체의 신호를 얻을 수 있도록 하는 차 신호를 포함하는 복호화된 신호를 생성하는 것을 특징으로 하는 오디오 신호처리 방법
제 1 항에 있어서,
상기 객체 신호를 복호화 하는 단계는, 상기 사용자 환경 정보에 따라 상기 대표 신호만을 복호화 하거나 적어도 하나의 개별 객체의 차 신호를 더 복호화 하는 오디오 신호 처리 방법.
제 1 항에 있어서,
상기 대표 신호는 상기 그룹에 포함된 제 1 객체와 다른 객체간의 거리 정보를 이용하여 선택되는 것을 특징으로 하는 오디오 신호 처리 방법.
제 2 항에 있어서,
상기 개별 객체의 신호는 상기 개별 객체의 음원과 재생 채널간의 거리 정보 및 사용자 재생 채널 해상도 정보를 이용하여 복호화되는 것을 특징으로 하는 오디오 신호처리 방법.
제 2 항에 있어서,
상기 개별 객체의 신호는 객체 음원과 재생 채널과의 인지적 음압 정보 및 사용자 재생 채널 해상도 정보를 이용하여 복호화되는 것을 특징으로 하는 오디오 신호처리 방법.
제 3 항에 있어서,
상기 제 1 객체는 고정된 위치를 갖는 스피커와 객체 음원의 물리적 거리를 이용하여 결정되는 것을 특징으로 하는 오디오 신호처리 방법.
제 3 항에 있어서,
상기 제 1 객체는 고정된 위치를 갖는 스피커와 객체 음원의 음압 정보를 이용하여 결정되는 것을 특징으로 하는 오디오 신호처리 방법.