WO2015147435A1

WO2015147435A1 - 오디오 신호 처리 시스템 및 방법

Info

Publication number: WO2015147435A1
Application number: PCT/KR2015/000505
Authority: WO
Inventors: 오현오; 이태규; 곽진삼; 손주형
Original assignee: 인텔렉추얼디스커버리 주식회사
Priority date: 2014-03-25
Filing date: 2015-01-19
Publication date: 2015-10-01
Also published as: US20170086005A1; CN106105270A

Abstract

본 발명인 오디오 신호 처리 방법은 채널 신호를 수신하는 단계, 기 설치된 복수의 스피커의 위치 정보를 입력받는 단계, 부재 스피커 위치 중 타겟 스피커의 위치를 설정하는 단계, 상기 기 설치된 스피커의 위치 정보에 기초하여 상기 타겟 스피커와 동일 레이어 상의 부재 스피커 위치에 가상 스피커를 배치하는 단계, 상기 배치된 가상 스피커에 기초하여 상기 타겟 스피커의 위치에 대응하는 채널 신호를 렌더링하는 단계 및 상기 기 설치된 스피커에 대응하는 채널 신호에 상기 렌더링된 채널 신호를 다운믹스하는 단계를 포함하되, 상기 채널 신호는 부재 스피커에 대응하는 채널 신호를 포함한다.

Description

오디오 신호 처리 시스템 및 방법

본 발명은 오디오 신호 처리 장치 및 방법에 관한 것이다.

3D 오디오란 기존의 서라운드 오디오에서 제공하는 수평면 상의 사운드 장면(2D)에 높이 방향에 해당하는 또 다른 축을 제공함으로써, 3차원 공간 상에서 임장감있는 사운드를 제공하기 위한 일련의 신호 처리, 전송, 부호화 및 재생기술 등을 통칭한다. 특히, 3D 오디오를 제공하기 위해서는 종래보다 많은 수의 스피커를 사용하거나 혹은 적은 수의 스피커를 사용하더라도 스피커가 존재하지 않는 가상의 위치에서 음상이 맺히도록 하는 렌더링 기술이 요구된다.

3D 오디오는 향후 출시될 초고해상도 TV(UHDTV)에 대응되는 오디오 솔루션이 될 것으로 예상되며, 고품질 인포테인먼트 공간으로 진화하고 있는 차량에서의 사운드를 비롯하여 그밖에 극장 사운드, 개인용 3DTV, 태블릿, 스마트폰 및 클라우드 게임 등 다양한 분야에서 응용될 것으로 예상된다.

이와 같은, 3D 오디오는 최대 22.2 채널까지 종래보다 많은 채널 신호를 전송하는 것이 필요한데, 이를 위해 적합한 압축 전송 기술이 요구된다. 종래의 MP3, AAC, DTS, AC3 등의 고음질 부호화의 경우, 주로 5.1 채널 미만의 채널만을 전송하는데 최적화되어 있었다.

또한, 22.2 채널 신호를 재생하기 위해서는 24개의 스피커 시스템을 설치한 청취공간에 대한 인프라가 필요하다. 그러나 24개의 스피커 시스템을 구비한 청취공간의 인프라가 단기간에 갖춰지기는 용이하지 않으므로, 다양한 렌더링 기술이 요구된다. 구체적으로, 22.2 채널 신호를 그보다 작은 수의 스피커를 가진 공간에서 효과적으로 재생하기 위한 기술인 다운믹스 렌더링, 반대로 기존 스테레오 혹은 5.1 채널 음원을 그보다 많은 스피커인 10.1 채널, 22.2 채널 환경에서 재생할 수 있도록 하는 기술인 업믹스 렌더링, 이와 더불어 규정된 스피커 위치와 규정된 청취공간이 아닌 환경이 아닌 곳에서도 원래의 음원을 제공하는 사운드 장면을 제공할 수 있도록 하는 기술인 유연한 렌더링(Frexible Rendering), 헤드폰 청취 환경에서도 3D 사운드를 즐길 수 있도록 하는 기술 등이 요구된다.

한편, 이와 같은 사운드 장면을 효과적으로 전송하기 위한 대안으로 객체 기반 신호 전송 방안이 필요하다. 음원에 따라서 채널 기반으로 전송하는 것보다 객체 기반으로 전송하는 것이 더 유리한 경우가 있을 뿐 아니라, 객체 기반으로 전송하는 경우 사용자가 임의로 객체들의 재생 크기와 위치를 제어할 수 있는 등 인터렉티브한 음원 청취를 가능하게 할 수 있다. 이에 따라, 객체 신호를 높은 전송률로 압축할 수 있는 효과적인 전송 방법이 필요하다.

또한, 채널 기반의 신호와 객체 기반의 신호가 혼합된 형태의 음원도 존재할 수 있으며, 이를 통해 새로운 형태의 청취 경험을 제공할 수도 있다. 따라서, 채널 신호와 객체 신호를 효과적으로 함께 전송하고, 이를 효과적으로 렌더링하기 위한 기술도 필요하다.

이와 더불어, 채널이 갖는 특수성과 재생단에서의 스피커 환경에 따라 기존의 방식만으로는 재생하기 어려운 예외 채널들이 발생할 수 있다. 이 경우, 재생단에서의 스피커 환경에 기초하여 효과적으로 예외 채널을 재현하는 기술이 필요하다.

한편, 오디오 신호를 통해 재생되는 음원에는 채널 기반의 신호와 객체 기반의 신호 각각이 존재하는 음원 뿐만 아니라 이들이 혼합된 형태의 음원도 존재할 수 있으며, 사용자는 이를 통해 새로운 형태의 청취 경험을 제공할 수 있다.

그러나 채널 기반의 신호와 객체 기반의 신호 각각에 대해 독립적인 렌더러를 갖는 현재의 MPEG-H 3D 오디오에서는 채널 렌더러와 객체 렌더러의 성능 차이로 인한 문제를 가지게 된다. 즉, 성능 차이로 인해 사운드 신이 의도한대로 재생되지 않는 등의 왜곡이 발생할 수 있다.

이와 관련하여 한국공개특허 제2011-0082553호(발명의 명칭: 멀티-채널 오디오 신호의 바이노럴 렌더링)에는 각 스테레오 다운믹스 채널을 개별적으로 역상관시키는 것에 비해 역상관 또는 합성 신호 처리의 개수를 줄일 수 있는 기술이 개시되어 있다.

또한, 한국공개특허 제2011-0002504호(발명의 명칭: 멀티채널 다운믹스된 객체 코딩의 개선된 코딩 및 파라미터 표현)에는 복수의 오디오 객체를 적어도 두 개의 다운믹스 채널들로 분배하여 다운믹스 정보를 생성하고, 객체 파라미터들을 생성하여 인코딩된 오디오 객체 신호를 생성하는 기술이 개시되어 있다.

본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 본 발명의 일부 실시예는 예외 위치 또는 예외 기능을 가지는 채널이 부재할 경우, 부재 채널의 위치에 가상 스피커를 배치하고 이에 대응하는 채널 신호를 렌더링함으로써 음원의 특성에 따라 효과적으로 재생할 수 있는 오디오 신호 처리 방법을 제공한다.

또한, 본 발명의 일부 실시예는 예외 위치 또는 예외 기능을 하는 채널이 부재할 경우, 기 설치된 스피커의 재생 가능 범위 정보를 생성하고, 렌더링을 통해 기 설치된 스피커로 하여금 재생할 수 있게 하는 오디오 신호 처리 시스템 및 방법을 제공한다.

한편, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면에 따른 오디오 신호 처리 방법은 채널 신호를 수신하는 단계, 기 설치된 복수의 스피커의 위치 정보를 입력받는 단계, 부재 스피커 위치 중 타겟 스피커의 위치를 설정하는 단계, 상기 기 설치된 스피커의 위치 정보에 기초하여 상기 타겟 스피커와 동일 레이어 상의 부재 스피커 위치에 가상 스피커를 배치하는 단계, 상기 배치된 가상 스피커에 기초하여 상기 타겟 스피커의 위치에 대응하는 채널 신호를 렌더링하는 단계 및 상기 기 설치된 스피커에 대응하는 채널 신호에 상기 렌더링된 채널 신호를 다운믹스하는 단계를 포함한다. 이때, 상기 채널 신호는 부재 스피커에 대응하는 채널 신호를 포함한다.

또한, 본 발명의 제 2 측면에 따른 오디오 신호 처리 장치는 기 설치된 복수의 스피커의 위치 정보를 수신하는 위치 정보 수신부, 채널 신호 및 객체 신호를 포함하는 오디오 비트열을 수신하는 오디오 비트열 수신부, 상기 스피커의 위치 정보에 기초하여 상기 스피커의 재생 가능 범위 정보를 생성하는 재생 가능 범위 정보 생성부, 상기 객체 신호가 상기 재생 가능 범위 내에 포함되지 않은 예외 객체인지 여부를 판별하는 예외 객체 신호 판별부 및 상기 판별 결과에 기초하여 상기 객체 신호를 렌더링하는 렌더링부를 포함한다.

또한, 본 발명의 제 3 측면에 따른 오디오 신호 처리 장치에서의 오디오 신호 처리 방법은 기 설치된 복수의 스피커의 위치 정보에 기초하여 상기 스피커의 재생 가능 범위 정보를 생성하는 단계, 수신한 객체 신호가 상기 재생 가능 범위에 포함되지 않는 예외 객체 신호에 해당하는지 여부를 판별하는 단계 및 상기 판별 결과에 기초하여 상기 객체 신호를 렌더링하는 단계를 포함한다. 이때, 상기 객체 신호를 렌더링 하는 단계는, 상기 객체 신호가 예외 객체 신호로 판별된 경우 상기 복수의 스피커 각각을 기준으로 상기 예외 객체와 동일한 레이어 상에 복수의 가상 스피커를 생성하고, 상기 복수의 가상 스피커를 통해 재생시 누적되는 객체의 개수와 미리 설정된 임계값과의 비교 결과에 기초하여 상기 예외 객체 신호를 렌더링한다.

전술한 본 발명의 과제 해결 수단에 의하면, 예외 채널에 해당하는 스피커가 재생단에서 부재할 경우 효과적으로 다른 스피커들을 이용하여 재생할 수 있다.

또한, 기 설치된 스피커의 재생 범위를 벗어나는 예외 객체가 존재하는 경우, 예외 객체에 해당하는 객체 신호를 렌더링함으로써 예외 객체 신호를 기 설치된 스피커들을 통해 재생할 수 있다.

도 1은 동일한 시청 거리에서 영상 크기에 따른 시청 각도를 설명하기 위한 도면이다.

도 2는 멀티채널 오디오 환경의 일 예시로서 22.2 채널 스피커의 배치 구성도이다.

도 3은 청취 공간상에서 3차원의 사운드 장면을 구성하는 각 사운드 객체들의 위치를 나타내는 개념도이다.

도 4는 채널 또는 객체 렌더러가 포함된 3D 오디오 디코더 및 렌더러의 전체 구조도를 도시한 도면이다.

도 5는 ITU-R 권고안에 따른 위치 및 임의의 위치에 5.1채널을 배치한 도면이다.

도 6은 객체 신호 디코더 및 플렉서블 스피커 렌더링부가 결합된 연결된 구조를 도시한 도면이다.

도 7은 본 발명의 일 실시예에 따른 오디오 신호 처리 장치의 블록도이다.

도 8은 본 발명의 일 실시예에 따른 오디오 신호 처리 방법의 순서도이다.

도 9 및 도 10은 예외 채널 신호를 렌더링하는 방법을 설명하기 위한 도면이다.

도 11은 본 발명의 다른 실시예에 따른 오디오 신호 처리 시스템의 블록도이다.

도 12 및 도 13은 본 발명의 다른 실시예에 따른 예외 객체 렌더링 방법을 설명하기 위한 도면이다.

도 14는 본 발명의 다른 실시예에 따른 오디오 신호 처리 방법의 순서도이다.

도 15는 본 발명에 따른 오디오 신호 처리 방법이 구현된 장치의 일 예시를 도시한 도면이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 본원 명세서 전체에서 사용되는 정도의 용어 "~(하는) 단계" 또는 "~의 단계"는 "~ 를 위한 단계"를 의미하지 않는다.

먼저, 도 1 내지 도 6을 참조하여 본 발명에 따른 오디오 신호 처리 장치 및 오디오 신호 처리 방법이 구현되기 위한 환경에 대하여 설명하도록 한다.

도 1은 동일한 시청 거리에서 영상 크기(예: UHDTV 및 HDTV)에 따른 시청 각도를 설명하기 위한 도면이다.

최근 디스플레이의 제작 기술이 발전됨에 따라, 소비자의 요구에 맞추어 UHDTV와 같이, 디스플레이 영상의 크기는 점점 대형화가 되어가는 추세이다. 도 1에 도시된 바와 같이, UHDTV(7680*4320 픽셀영상, 110)는 HDTV(1920*1080 픽셀영상, 120)보다 약 16배가 커진 영상이다. HDTV(120)가 거실 벽면에 설치되고 시청자가 일정 시청거리를 두고 거실 쇼파에 앉은 경우 시청각도는 약 30도일 수 있다. 이와 동일한 시청거리에서 UHDTV(110)가 설치된 경우 시청각도는 약 100도에 이르게 된다.

이와 같이 고화질 및 고해상도 대형 스크린이 설치된 경우, 대형 컨텐츠에 걸맞게 높은 현장감 및 임장감을 갖는 사운드가 제공되는 것이 바람직하다. 시청자가 마치 현장에 있는 것과 거의 동일한 환경을 제공하기 위해서는 1-2개의 서라운드 채널 스피커가 존재하는 것만으로는 부족할 수 있다. 따라서, 보다 많은 스피커 및 채널 수를 갖는 멀티채널 오디오 환경이 요구된다.

상기 설명한 바와 같이 멀티채널 오디오 환경이 요구되는 환경으로 홈시어터 환경 이외에도 개인 3DTV, 스마트폰 TV, 22.2 채널 오디오 프로그램, 자동차, 3D 비디오, 원격 현장감 룸, 클라우드 기반 게임 등이 있다.

22.2 채널은 음장감을 높이기 위한 멀티채널 오디오 환경의 일 예시일 수 있으며, 본 발명은 특정 채널 수 또는 특정 스피커의 배치에 한정되지 않는다. 도 2를 참조하면, 최상위 레이어(top layer, 210)에 총 9개의 채널이 배치될 수 있다. 전면에 3개, 중간 위치에 3개, 서라운드 위치에 3개가 배치되어 총 9개의 스피커가 배치되어 있다. 중간 레이어(middle layer, 220)에는 전면에 5개, 중간 위치에 2개, 서라운드 위치에 3개가 배치되오 총 10개의 스피커가 배치되어 있다. 최하위 레이어(bottom layer, 230)에는 전면에 3개의 채널이 배치되어 있고, 2개의 LFE 채널(240)이 설치되어 있다.

이와 같이, 최대 수십 개 채널에 이르는 멀티채널 신호를 전송 및 재생하기 위해서는 높은 연산량이 요구된다. 또한, 통신 환경 등을 고려할 때 높은 압축률이 요구될 수 있다. 뿐만 아니라, 일반 가정에서는 22.2채널과 같은 멀티채널 스피커 환경을 구비하는 경우는 극히 드물고 2채널 또는 5.1채널 셋업을 갖는 청취자가 많기 때문에, 모든 유저에게 공통적으로 전송하는 신호가 멀티채널을 각각 인코딩하여 보내는 신호인 경우, 그 멀티채널 신호를 2채널 또는 5.1채널에 대응하도록 다시 변환하여 재생해야 된다. 이에 따라, 통신적인 비효율이 발생할 뿐만 아니라 22.2채널의 PCM 신호를 저장해야 하므로, 메모리 관리에 있어서 비효율적인 문제가 발생할 수 있다.

청자(320)가 3D 오디오를 청취하는 청취 공간상(300)에서, 3차원의 사운드 장면을 구성하는 각 사운드 객체(310)들의 위치는 도 3에 도시된 바와 같이 점 소스(point source, 310) 형태로 다양한 위치에 분포될 수 있다.

한편, 도 3에서는 도식화의 편의상 각 객체들이 점 소스(310)인 것으로 나타냈으나, 점 소스(310) 이외에 평면파(plain wave) 형태의 음원이나, 사운드 장면의 공간을 인식할 수 있는 전 방위에 걸쳐 퍼져있는 여음인 앰비언트(ambient) 음원 등이 있을 수 있다.

도 4에 도시된 디코더 시스템은 크게 3D 오디오 디코더부(400) 및 3D 오디오 렌더링부(450)로 구분될 수 있다.

3D 오디오 디코더부(400)는 개별 객체 디코더(410), 개별 채널 디코더(420), SAOC 트랜스듀서(430) 및 MPS 디코더(440)을 포함할 수 있다.

개별 객체 디코더(410)는 객체 신호를 입력받으며, 개별 채널 디코더(420)는 채널 신호를 입력받는다. 이때, 오디오 비트열은 객체 신호만을 포함하거나, 채널 신호만을 포함할 수 있으며, 이 뿐만 아니라 객체 신호와 채널 신호를 모두 포함할 수 있다.

또한, 3D 오디오 디코더부(400)는 SAOC 트랜스듀서(430) 및 MPS 디코더(440)를 통해 객체 신호 또는 채널 신호가 각각 웨이브폼 부호화되거나 파라메트릭 부호화된 신호를 입력 받을 수 있다.

3D 오디오 렌더링부(450)는 3DA 렌더러(460)을 포함하고 있으며, 3DA 렌더러(460)을 통해 채널 신호 또는 객체 신호, 또는 파라메트릭 부호화된 신호를 각각 렌더링할 수 있다.

그리고 3D 오디오 디코더부(400)를 통해 출력된 객체 신호, 채널 신호 또는 이들이 조합된 신호를 입력 받아 청자가 있는 청취 공간의 스피커의 환경에 맞게 소리를 출력한다. 이때, 청자가 있는 청취 공간에서의 스피커의 개수 및 위치 정보 등에 기초하여 3D 오디오 디코더부(400) 및 3D 오디오 렌더링부(450)의 가중치를 설정할 수 있다.

한편, 3D 오디오를 위해 필요한 기술 중 하나로 유연한 렌더링이 있으며, 유연한 렌더링 기술은 3D 오디오의 품질을 최상으로 끌어올리기 위해 해결해야 할 중요한 과제 중 하나이다. 유연한 렌더링 기술이 필요한 이유는 다음과 같다.

거실의 구조, 가구의 배치에 따라 5.1 채널 스피커의 위치가 매우 비정형적인 것은 주지의 사실이다. 이와 같은 비정형적 위치에 스피커가 존재하더라도, 컨텐츠 제작자가 의도한 사운드 장면을 제공할 수 있어야 한다. 이를 위해서는 사용자마다 각각 상이한 재생 환경에서의 스피커 환경을 알아야 하는 것과 동시에, 규격에 따른 위치 대비 차이를 보정하기 위한 렌더링 기술이 필요하다. 즉, 전송된 비트열을 디코딩 방법에 따라 디코딩하는 것으로 코덱의 역할이 끝나는 것이 아니라, 이를 사용자의 재생 환경에 맞게 최적화 변형하는 과정에 대한 일련의 기술이 요구된다.

실제 거실 환경에 배치된 스피커(520)는 ITU-R 권고안(510) 대비 방향각과 거리가 모두 달라지게 되는 문제가 발생한다. 즉, 스피커의 높이, 방향이 권고안에 따른 스피커(510)와 상이하게 배치됨에 따라 변경된 스피커(520)의 위치에서 원래 신호를 그대로 재생할 경우 이상적인 3D 사운드 장면을 제공하기 어렵게 된다.

이와 같은 상황에서, 신호의 크기를 기준으로 두 스피커 사이의 음원의 방향 정보를 결정하는 진폭 패닝(Amplitude Panning)이나 3차원 공간상에서 3개의 스피커를 이용하여 음원의 방향을 결정하는데 널리 사용되는 VBAP(Vector-Based Amplitude Panning)를 이용하면 객체별로 전송된 객체 신호에 대해서는 상대적으로 편리하게 유연한 렌더링을 구현할 수 있다. 따라서, 채널 신호 대신 객체 신호를 전송하여 스피커가 달라지는 환경에서도 용이하게 3D 사운드 장면을 제공할 수 있게 된다.

도 5에서 설명한 바와 같이, 객체 신호를 이용할 경우 원하는 사운드 장면에 맞춰 객체를 음원으로 위치시키킬 수 있다는 장점이 있다. 이와 같은 장점이 반영된 객체 신호 디코더 및 플렉서블 렌더링부가 결합된 제 1 실시예(600) 및 제 2 실시예(601)를 설명하도록 한다.

객체 신호 디코더 및 플렉서블 스피커 렌더링부가 결합된 제 1 실시예(600)는 믹스부(620)가 객체 디코더부(610)로부터 객체 신호를 전달받고, 믹싱 행렬로 표현된 위치정보를 입력받아 채널 신호 형태로 출력한다. 즉, 사운드 장면에 대한 위치 정보를 출력 채널에 대응되는 스피커로부터의 상대적인 정보로 표현되는 것이다.

출력된 채널 신호는 플렉서블 스피커 렌더링부(630)를 통해 플렉서블 렌더링되어 출력된다. 이때, 실제 스피커의 개수와 위치가 정해진 위치에 존재하지 않는 경우 해당 스피커의 위치정보를 입력받아 플렉서블 렌더링을 수행할 수 있다.

이와 달리, 제 2 실시예(601)에서는 객체 디코더부(640)가 오디오 비트열을 입력받아 객체 신호를 디코딩하면, 플렉서블 스피커 믹싱부(650)가 이를 전달받아 플렉서블 렌더링을 수행한다. 이때, 행렬 업데이트부(660)는 믹싱 행렬 및 스피커의 위치정보를 반영한 행렬을 플렉서블 스피커 믹싱부(650)에 전달함으로써 플렉서블 렌더링 수행시 이를 반영하게 된다.

제 1 실시예(600)와 같이 채널 신호를 다시 다른 형태의 채널 신호로 렌더링하는 것은 제 2 실시예(601)와 같이 객체를 최종 채널에 직접 렌더링하는 경우보다 구현이 어렵다. 이와 관련하여 아래에서 구체적으로 설명하도록 한다.

채널 신호가 입력으로 전송된 경우, 해당 채널에 대응되는 스피커의 위치가 임의의 위치로 변경되면 객체의 경우 같은 패닝 기법을 이용하여 구현되기 어려우므로 별도의 채널 매핑 프로세스가 필요하다. 이와 더불어, 객체 신호와 채널 신호에 대한 렌더링시 필요한 과정과 해결 방법이 다르기 때문에 객체 신호와 채널 신호가 동시에 전송되어 두 신호를 믹스한 형태의 사운드 장면을 연출하고자 하는 경우 공간의 부정합에 의한 왜곡이 발생하기 쉬운 문제가 발생한다.

이와 같은 문제를 해결하기 위하여 객체에 대한 유연한 렌더링을 별도로 수행하지 않고 채널 신호에 믹스를 먼저 수행한 후, 채널 신호에 대한 유연한 렌더링을 수행하도록 한다. 이때, HRTF(Head Related Transfer Function)을 이용한 렌더링 등도 위와 같은 방법과 마찬가지로 구현되는 것이 바람직하다.

이하에서는 도 7 내지 도 10을 참조하여 본 발명에 따른 오디오 신호 처리 방법에 대하여 구체적으로 설명하도록 한다.

도 7은 본 발명의 일 실시예에 따른 오디오 신호 처리 방법이 적용된 오디오 신호 처리 장치(700)의 블록도이다.

본 발명의 일 실시예에 따른 오디오 신호 처리 장치(700)는 오디오 비트열 수신부(710), 스피커 위치 정보 입력부(720), 스피커 위치 설정부(730), 가상 스피커 생성부(740), 렌더링부(750) 및 다운믹스부(760)를 포함한다.

오디오 비트열 수신부(710)는 오디오 비트열을 수신한다. 이때, 오디오 비트열에는 채널 신호를 포함하며, 채널 신호는 부재 스피커에 대응하는 채널 신호를 포함할 수 있다. 이때 채널 신호는 22.2 채널 신호일 수 있다.

스피커 위치 정보 입력부(720)는 기 설치된 스피커의 위치 정보를 입력받고, 스피커 위치 설정부(730)는 부재 스피커의 위치 중 타겟 스피커의 위치를 설정한다.

가상 스피커 생성부(740)는 기 설치된 스피커의 위치 정보에 기초하여 타겟 스피커와 동일 레이어 상의 부재 스피커 위치에 가상 스피커를 생성하여 배치한다.

렌더링부(750)는 배치된 가상 스피커에 기초하여 타겟 스피커의 위치에 대응하는 채널 신호를 렌더링하고, 다운믹스부(760)는 렌더링된 채널 신호를 기 설치된 스피커에 대응하는 채널신호에 다운믹스한다.

이하에서는 도 8을 참조하여 오디오 신호 처리 장치(700)에서의 오디오 신호 처리 방법에 대하여 구체적으로 설명하도록 한다.

본 발명에 따른 오디오 신호 처리 방법은 먼저, 채널 신호가 포함된 오디오 비트열을 수신한다(S110). 이때, 채널 신호는 부재 스피커에 대응하는 채널 신호를 포함하며, 채널 신호는 22.2 채널 신호일 수 있다.

다음으로, 기 설치된 복수의 스피커의 위치 정보를 입력받고(S120), 부재 스피커 중 타겟 스피커의 위치를 설정한다(S130).

다음으로, 기 설치된 스피커의 위치 정보에 기초하여 타겟 스피커와 동일 레이어 상의 부재 스피커 위치에 가상 스피커를 배치한다(S140). 이때, 가상 스피커는 기 설치된 스피커와 동일 수직선 상에 위치한 부재 스피커의 위치에 배치될 수 있다. 예를 들어, 최상위 레이어에 부재 스피커가 존재하는 경우, 중간 레이어에 위치한 스피커와 동일 수직선 상에 위치한 최상위 레이어의 부재 스피커 위치에 가상 스피커가 배치될 수 있다. 이와 같은 가상 스피커는 부재 스피커 각각의 위치에 하나 이상 배치될 수 있다.

다음으로, 배치된 가상 스피커에 기초하여 타겟 스피커의 위치에 대응하는 채널 신호를 렌더링한다(S150). 이때, 타겟 스피커와 동일 레이어 상에 기 설치된 스피커와 가상 스피커에 기초하여, 타겟 스피커의 위치에 대응하는 채널 신호를 렌더링할 수 있다. 예를 들어, 최상위 레이어에 2개의 기 설치된 스피커가 존재하고, 2개의 가상 스피커가 배치된 경우, 타겟 스피커의 위치에 대응하는 채널 신호를 4개의 스피커에 렌더링 할 수 있다.

다음으로 기 설치된 스피커에 대응하는 채널 신호에 렌더링된 채널 신호를 다운믹스한다(S160). 이때, 타겟 스피커와 동일 레이어 상에 기 설치된 스피커에 렌더링된 채널 신호를 합성하는 단계를 더 포함할 수 있다. 이와 같이 타겟 스피커와 동일 레이어 상에 기 설치된 스피커에 할당된 채널 신호와, 렌더링된 채널 신호를 합성함으로써 기 설치된 스피커에서 예외 채널 신호에 해당하는 채널 신호를 출력할 수 있게 된다.

이와 더불어, 렌더링된 채널 신호를 다운믹스할 때, 기 저장된 머리 전달 함수(Head Related Transfer Function, HRTF)에 기초하여 다운믹스할 수 있다. 이때, 머리 전달 함수는 사용자별로 서로 다른 데이터 집합에 따른 개별적인 머리 전달 함수를 사용할 수 있으며, 사용되는 머리 전달 함수에 따라 각각 방위각별로 서로 다른 다운믹스가 수행될 수 있다.

한편, 타겟 스피커의 위치를 설정하는 단계는 기 설치된 스피커의 최상위 레이어 상에 타겟 스피커를 설정할 수 있다. 예를 들어, 입력된 채널 신호가 22.2 채널인 경우이고, 22.2채널에 해당하는 스피커를 모두 갖추고 있지 않은 스피커 환경에 있어서, 최상위 레이어의 정중앙 위치에 스피커가 부재한 경우 이를 타겟 스피커로 설정할 수 있다.

이 경우, 가상 스피커는 중간 레이어 상에 위치한 기 설치된 스피커와 동일 수직선 상에 위치하는 최상위 레이어 상의 부재 스피커 위치에 배치할 수 있다. 이에 따라, 최상위 레이어 상에 기 설치된 스피커 및 가상 스피커에 기초하여, 타겟 스피커의 위치에 대응하는 채널 신호를 렌더링할 수 있다.

그리고 렌더링된 채널 신호는 최상위 레이어 상에 기 설치된 스피커의 채널 신호와 합성하고, 가상 스피커와 동일 수직선 상에 위치한 중간 레이어 상의 기 설치된 스피커에 대응하는 채널 신호에 가상 스피커에 대응되는 렌더링된 채널 신호를 다운믹스할 수 있다.

이하에서는, 도 9 내지 도 10을 참조하여 본 발명의 일 실시예에 따른 예외 채널 신호를 렌더링하는 방법에 대하여 구체적으로 설명하도록 한다.

멀티채널 오디오 시스템에서 청취자의 머리 위의 스피커인 TpC(Top Center) 채널은 흔히 신의 음성(Voice of God)이라 불린다. 이 채널이 신의 음성이라고 불리는 이유는 이 채널을 사용함으로써 얻을 수 있는 가장 극적인 상황이 신의 음성이 하늘에서 들리는 상황이기 때문이다. 예를 들어, 머리 바로 위에서 물체가 떨어지는 상황이나, 머리 바로 위에서 폭죽놀이가 진행되는 상황, 매우 높은 빌딩의 옥상에서 한 사람이 소리치는 상황이나, 혹은 비행기가 전방에서 시청자의 머리 위를 지나 후면으로 사라지는 장면처럼, TpC 채널은 다양한 장면(scene)에서 매우 필수적인 채널이라 할 수 있다. 이와 같이, TpC 채널을 사용함으로써 극적인 상황들에서 기존의 오디오 시스템이 제공하지 못했던 현실감있는 음장을 사용자에게 제공할 수 있다.

TpC 채널과 같은 예외 채널은 해당 위치에 스피커가 존재하지 않을 경우, 기존의 유연한 렌더링과 같은 방식으로 효과적으로 재생할 수 없게 된다. 따라서, 예외 채널이 부재한 경우 적은 수의 출력 채널을 통하여 이를 효과적으로 재생하는 방법이 필요하다.

한편, 멀티채널 컨텐츠를 그보다 적은 수의 출력 채널을 통해 재생하는 경우, 지금까지는 M-N 다운믹스 매트릭스(M: 입력 채널 수, N: 출력 채널 수)로 구현하는 것이 일반적이었다. 즉, 5.1 채널 컨텐츠를 스테레오 형태로 재생할 때, 주어진 수식에 의해 다운믹스를 수행하는 방식으로 구현된다. 이와 같은 다운믹스 구현 방법은 일반적으로 공간적 거리가 가까운 스피커들에 상대적인 다운믹스 가중치를 적용하여 합성하는 방법으로 수행한다.

예를 들어 도 2를 참조하면, 최상위 레이어의 TpFc 채널은 중간 레이어의 Fc(또는 FRc, FLc)로 다운믹스되어 합성될 수 있다. 즉, 이 스피커들(Fc, FRc, FLc)을 이용하여 가상의 TpFc를 생성함으로써 부재 스피커(TpFc)의 위치에 해당하는 소리를 재생할 수 있다.

그러나 TpC 채널 스피커의 경우 청취자를 기준으로 전후좌우의 방향성을 규정하기 모호하여 중간 레이어의 스피커들 중 이와 공간적으로 근접한 스피커 위치를 결정하기 어려운 문제가 있다. 이와 더불어, 비정형적인 스피커 배열 환경에서 TpC 채널 스피커에 할당된 신호를 다운믹스 렌더링하는 경우, 유연한 렌더링 기술과 연관하여 다운믹스 매트릭스의 형태를 유연하게 변화시키는 것이 효과적인 경우도 있다.

이에 따라, TpC 채널 스피커로 재생되는 음원이 VoG에 해당하는 객체로써, TpC 채널 스피커에서만 재생되는 객체이거나 TpC 채널 스피커를 중심으로 재생되는 객체라면 그에 맞게 다운믹스하는 것이 바람직하다. 그러나, 상위 레이어 전체에서 재생되는 객체의 일부이거나, TpFL의 위치에서 TpC를 통과하여 TpBR을 지나는 것처럼 비행기가 하늘을 지나가는 순간인 경우에는 그에 특화된 다운믹스 방법을 적용하는 것이 바람직하다.

이와 더불어, 스피커의 위치에 따라 소수의 제한된 숫자의 스피커를 이용해야만 하는 경우, 다양한 각도에서 음원을 위치시키기 위한 렌더링 방법이 고려되어야 한다.

한편, 사람이 음원의 높이를 인지하는 단서(elevation spectral cue)들이 존재하는, 이를 인위적으로 삽입함으로써 TpC 채널의 사운드 장면을 효과적으로 재현할 수 있다.

도 9를 참조하여 TpC 채널과 같이 예외 채널 신호가 다운믹스되는 과정을 설명하면 다음과 같다.

예외 채널 신호는 전송된 비트열의 특정 값 또는 신호의 특징을 분석하여 다운믹스될 수 있다. 예외 채널 신호의 실시예로써 위에서 설명한 바와 같이 청취자의 머리 위쪽에 존재하는 TpC 채널 신호를 들 수 있다. 이와 같은 TpC 채널 신호는 머리 위쪽에 정지되어 있거나 방향성이 모호한 앰비언트(ambient) 사운드의 경우 다수의 채널에 동일한 다운믹스 가중치를 적용할 수 있다. 이 경우, 기존의 일반적인 매트릭스 기반 다운믹서를 사용하여 TpC 채널 신호를 다운믹스할 수 있다.

이와 더불어, 이동성을 가지는 사운드 장면에서의 TpC 채널 신호는 앞에서 언급한 매트릭스 기반 다운믹서를 사용할 경우, 컨텐츠 제공자가 의도한 동적 사운드 장면은 보다 정적으로 전달될 수 있다. 이를 방지하기 위하여 채널 신호들을 분석하여 가변적 이득값을 가지는 다운믹스를 수행할 수 있다.

또한, 근방의 스피커만으로 원하는 사운드 효과를 충분히 얻을 수 없는 경우, 특정 N개의 스피커 출력 신호에 사람의 높이를 지각하는 스펙트럴 단서들을 사용할 수 있다.

이와 같은 세 가지 다운믹스 방법에 대하여 입력 비트열 정보를 이용하거나 입력 채널 신호들을 분석하여 어떤 방법을 사용할지 결정할 수 있다. 이렇게 선택된 다운믹스 방법에 따라 L, M 또는 N개의 채널 신호로 출력 신호가 결정되게 된다.

한편, 정중면(median plane)에서의 음상 정위는 수평면(horizontal plane)에서의 음상 정위와는 다른 양상을 가진다. 이러한 음상 정위의 부정확도를 측정하는 수치로는 정위 퍼짐(localization blur)이 있으며, 이는 특정 위치에서 음상의 위치가 구분이 가지 않는 범위를 각도로 나타낸 것이다.

일반적으로 정중면에서의 음성신호는 9도에서 17도에 해당하는 부정확도를 가지나, 수평면에서의 음성신호는 0.9도에서 1.5도의 부정확도를 갖는다. 이와 같이 정중면에서의 음상 정위는 매우 부정확하다는 것을 알 수 있다. 즉, 높은 고도를 가지는 음상의 경우 사람이 인지할 수 있는 정확도가 낮기 때문에 정교한 정위 방법보다는 매트릭스를 이용한 다운믹스가 효과적이다. 따라서, 위치가 크게 변하지 않는 음상의 경우 대칭적으로 스피커가 분포 되어있는 Top 채널들에 동등한 이득값을 분배함으로써 효과적으로 부재중인 TpC 채널을 복수 개의 채널로 업믹스 할 수 있다.

재생단의 채널 환경이 도 2의 구성에서 TpC채널을 제외하고 최상위 레이어는 동일하다고 가정하면, 최상위 레이어에 분배되는 채널 이득값은 동일한 값을 갖는다. 그러나 재생단에서 도 2와 같이 정형적인 채널 환경을 갖는 것이 어려운 것은 주지의 사실이다. 이에 따라, 비정형한 채널 환경에 있어서, 모든 채널에 일정 이득값을 배분할 경우 컨텐츠가 의도한 위치와 음상이 이루는 각도가 정위 퍼짐 수치보다 커질 수 있다. 이는 사용자로 하여금 잘못된 음상을 인지하게 할 수 있다. 이를 방지하기 위하여 비정형한 채널 환경에 있어서 이를 보상해주는 과정이 필요하다.

최상위 레이어에 위치하는 채널의 경우, 청자의 위치에서는 평면파로 도달한다고 가정할 수 있기 때문에 일정한 이득값을 설정하는 기존의 다운믹스 방법은 주변 채널을 이용하여 TpC 채널에서 발생하는 평면파를 재현한다 할 수 있다. 즉, 최상위 레이어를 포함하는 평면상에서 스피커들의 위치를 꼭지점으로 하는 다각형의 무게중심이 TpC채널의 위치와 같다. 따라서, 비정형적인 스피커 채널 환경의 경우 각 채널의 이득값은 이득값이 가중치로 부여된 각 채널의 최상위 레이어를 포함하는 평면 상에서의 2차원 위치벡터들의 무게중심 백터가 TpC채널 위치의 위치벡터와 같다는 수식으로 얻어질 수 있다.

그러나 이러한 수식적인 접근은 많은 연산량을 필요로 하며, 이후에 설명될 간략화된 방법에 비하여 성능 차이가 크지 않다. 간략화된 방법은 다음과 같다. 먼저, TpC 채널(820)을 중심으로 N개의 영역을 등각도로 나눈다. 등각도로 나눈 영역에는 동일한 이득값을 부여하고, 만일 영역 내에 2개 이상의 스피커가 위치할 경우 각 가중치의 제곱의 합이 상기 언급된 이득값과 같아지도록 설정한다. 즉, 상위 레이어를 포함하는 평면 상에 위치하는 스피커(810), TpC 채널 스피커(820), 상위 레이어를 포함하는 평면 밖에 위치하는 스피커(830)로 구성되는 스피커 배치를 갖는 다고 가정하고, 4개의 영역을 TpC채널(820)을 중심으로 90도의 등각도로 나누었을 때 각 영역에는 크기가 같으면서 제곱의 합이 1이 되도록 하는 이득값을 부여한다.

이 경우 4개의 영역으로 나뉘게 되므로 각 영역의 이득값은 0.5가 된다. 한 영역 상에 2개 이상의 스피커가 있는 경우 이 또한 제곱의 합이 영역의 이득값과 같아지도록 이득값을 설정한다. 따라서, 오른쪽 하단 영역(840)에 존재하는 2개의 스피커 출력의 이득값은 0.3536이 된다. 마지막으로 상위 레이어를 포함하는 평면 밖에 위치하는 스피커(830)의 경우 먼저 상위 레이어를 포함하는 평면에 투영시켰을 때의 이득값을 먼저 구하고, 평면과 스피커의 거리 차이를 이득값과 딜레이를 이용하여 보상하면 된다.

다음으로, 도 10을 참조하여 VoG와 같은 예외 채널을 렌더링하는 방법을 구체적으로 설명하도록 한다.

도 10은 7.1스피커 레이아웃을 나타내고 있다. 이와 같은 레이아웃을 가질 때, VoG가 포함된 채널 신호가 입력될 경우, 현재의 렌더링 방법에 따르면 최상위 레이어에 기 설치된 스피커(910)가 존재하는 TpFL과 TpFR로 VoG 채널 신호가 패닝된다. 이렇게 될 경우 청취자의 머리 위에서 제공될 소리가 전면 상단부에서 생성되는 불일치 현상이 발생하게 된다.

이에 대한 해결방안으로써, 본 발명은 가상 스피커(920)를 추가적으로 배치할 수 있다. 도 10과 같은 스피커 레이아웃 환경에서, 최상위 레이어에 중간 레이어에 존재하는 스피커의 방위각에 대응되는 스피커가 존재하지 않을 경우, 해당 위치에 가상 스피커(920)를 배치한다. 이에 따라 도 10의 경우 TpFC, TpBL, TpBR 에 가상 스피커(920)를 배치시킨다. 그 다음 가상 스피커(920)와 기 설치된 스피커(910)를 포함하여 5개의 최상위 레이어의 채널 스피커를 이용함으로써 렌더링을 수행할 수 있다.

이때, 렌더링 방법으로 최상위 레이어의 모든 스피커에 동일한 가중치 값을 갖도록 분배하거나, 상기 설명한 바와 같이 최상위 레이어의 영역별 가중치를 고려한 방법으로 구현할 수 있다.

최상위 레이어의 각 스피커로 분배된 신호에 대해, 기 설치된 스피커(910) 가 존재하는 경우, 기 설치된 스피커(910)에 위치한 기존 채널 신호에 렌더링된 채널 신호를 더해 재생을 한다. 이때, 가상 스피커(920)에 대응하는 채널 신호에 대해서는 각 방위각 포지션에 대응되는 중간 레이어의 스피커로 내리는 다운믹스를 수행한다.

이때, 다운믹스(또는, Top-to-Middle downmix)는 시간축에서의 단순 덧셈으로 구현할 수도 있으나, 청각 특성을 이용한 필터링 형태로 구현되는 것이 바람직하다. 또는, 일반화된 머리 전달 함수 혹은 제공된 개인화 된 머리 전달 함수를 이용하여 생성된 파라미터를 이용하여 구현할 수 있다.

일반화된 방법의 경우 파라미터는 결정이 되어 있고, 이때 파라미터는 특정 스펙트럼의 나치나 피크의 주파수 및 크기 정보 또는 특정 주파수의 양 이(inter-aural) 레벨차, 양 이 위상차가 될 수 있다. 따라서, 이와 같은 필터링은 현재 수행되는 신호의 영역이 QMF(Quadrature Mirror Filters) 도메인인 경우 QMF 도메인 필터링으로 구현되는 것이 바람직하다.

이에 대한 일실시예로서, 중간 레이어의 전면 중앙에 위치한 스피커에 최종적으로 재생되는 VoG 신호는

와 같은 값에 비례한 각 주파수 밴드 별 가중치 값으로 계산된다. 이때, C_VoG는 VoG 원신호, K는 중간 레이어의 스피커 개수, cgain은 중간 레이어의 레이아웃 불일치에 따른 보상 가중치,

는 중간 레이어의 Front Center에 대응하는 머리 전달 함수,

는 최상위 레이어의 전면 중앙에 위치한 스피커 채널 신호에 대응하는 머리 전달 함수를 나타낸다.

한편, 본 발명의 다른 실시예에 따른 오디오 신호 처리 장치 및 방법은 스피커의 재생 가능 범위를 벗어난 예외 객체 신호를 렌더링할 수 있는바, 이에 대하여 도 11 내지 도 14를 참조하여 설명하도록 한다.

도 11은 본 발명의 다른 실시예에 따른 오디오 신호 처리 장치(1100)의 블록도이다.

본 발명에 따른 오디오 신호 처리 장치(1100)는 위치 정보 수신부(1110), 오디오 비트열 수신부(1120), 재생 가능 범위 정보 생성부(1130), 예외 객체 신호 판별부(1140) 및 렌더링부(1150)를 포함한다.

위치 정보 수신부(1110)는 복수의 스피커의 위치 정보를 수신한다. 이때, 스피커는 설치 규정에 따라 배치되어 있지 않을 수 있으며, 이 경우 사용자가 스피커의 위치 정보를 UI(User Interface)를 이용하여 직접 입력하거나, 주어진 보기 세트에서 선택하는 방법으로 입력할 수 있다. 또한, 원거리 위치 확인 기술 등 다양한 방법으로 스피커의 위치 정보를 입력할 수 있다.

오디오 비트열 수신부(1120)는 채널 신호 및 객체 신호를 포함하는 오디오 비트열을 수신한다. 이때, 객체 신호는 객체의 위치 정보를 함께 포함할 수 있다. 이와 같은 객체의 위치 정보에 기초하여 예외 객체 신호 판별부(1140)는 아래에서 설명하는 바와 같이 재생 가능 범위 정보와 비교하여 객체가 재생 가능 범위 밖에 위치한 예외 객체인지 여부를 판별하게 된다.

재생 가능 범위 정보 생성부(1130)는 위치 정보 수신부(1110)가 수신한 스피커의 위치 정보에 기초하여 스피커의 재생 가능 범위 정보를 생성한다. 스피커의 재생 가능 범위는 일반적으로 음원을 정위시키고자 하는 위치를 포함하는 가장 작은 크기의 삼각형을 구성할 수 있는 세 개의 스피커를 선택하는 방법인 VBAP(Vector Based Amplitude Panning)에 기초하여, 각각의 스피커를 연결한 선으로 구성될 수 있다.

일반적으로 스피커의 재생 가능 범위는 5.1 스피커 셋업의 경우 사용자의 귀높이에서의 좌우로 360도 평면상의 한정된 위치만을 포함하는 범위일 수 있다. 이와 달리, 빈틈없이 사용자 주변의 모든 위치에 음원을 정위시킬 수 있는 스피커 구성이 있는 경우 최대 재생 가능 범위를 가질 수 있다.

예외 객체 신호 판별부(1140)는 객체 신호가 스피커의 재생 가능 범위 내에 포함되지 않은 예외 객체에 해당하는지 여부를 판별한다.

렌더링부(1150)는 예외 객체 여부 판별 결과에 기초하여 객체 신호를 렌더링한다. 이때, 렌더링부(1150)는 예외 객체가 아닌 것으로 판별된 경우, 재생 가능 범위 내에 포함된 객체에 대응하는 객체 신호들을 일반적인 렌더링 방법에 따라 렌더링 할 수 있다. 즉, 렌더링부(1150)는 객체 신호를 복수의 스피커의 위치 정보에 기초하여 렌더링 할 수 있다.

이와 달리, 렌더링부(1150)는 객체 신호에 대응하는 객체가 스피커의 재생 가능 범위 내에 포함되지 않은 예외 객체로 판별된 경우 기존의 렌더링 방법과는 다른 방법으로 렌더링을 수행한다.

이하에서는, 도 12 및 도 13을 참조하여 본 발명의 다른 실시예에 따른 예외 객체에 대한 렌더링 방법의 제 1 실시예 및 제 2 실시예에 대하여 설명하도록 한다.

도 12는 본 발명의 제 1 실시예에 따른 예외 객체 렌더링 방법을 설명하기 위한 도면이다.

본 발명의 다른 실시예에 따른 렌더링부(1150)는 가상 스피커 생성부(1151), 진폭 패닝부(1153) 및 투영부(1155)를 더 포함할 수 있다.

가상 스피커 생성부(1151)는 복수의 스피커 각각을 기준으로 예외 객체와 동일한 높이를 가지는 복수의 가상 스피커를 생성할 수 있다. 예를 들어, 예외 객체 ‘S1’에 대한 객체 신호를 실제 스피커인 좌(L), 우(R) 스피커에서 재생시키기 위하여, 먼저 예외 객체 ‘S1’과 동일한 높이를 가지는 복수의 가상 스피커를 생성할 수 있다. 이때, 가상 스피커는 실제 스피커인 좌, 우 스피커와 각각 동일 수직선 상에 위치하게 된다. 스피커가 좌, 우 두 개의 경우가 아니라 실제 스피커가 3개인 경우, 실제 스피커 3개가 구성하는 평면과 평행인 평면 상에 가상 스피커를 생성할 수 있다.

진폭 패닝부(1153)는 예외 객체 신호를 복수의 가상 스피커 각각에 진폭 패닝할 수 있다. 도 12와 같이, 예외 객체 ‘S1’을 각각 좌, 우 실제 스피커에 대응하는 좌, 우 가상 스피커에 각각 진폭 패닝할 수 있다.

투영부(1155)는 진폭 패닝된 예외 객체 신호를 복수의 스피커 각각에 투영시킬 수 있다. 즉, 가상 스피커에 진폭 패닝된 예외 객체 신호를 가상 스피커와 동일 수직선 상에 있는 실제 스피커 상에 투영시킨다. 이때, 가상 스피커 ‘VL1’에서 실제 스피커로 투영시키기 위한 경우와, 가상 스피커 ‘VL2’에서 실제 스피커로 투영시키기 위한 경우는 서로 방위각이 다르기 때문에 각각에 적용되는 필터는 서로 다른 필터일 수 있다.

한편, 가상 스피커 생성부(1151)를 통해 재생시 누적되는 객체의 개수를 측정하여 측정된 객체의 개수가 기 설정된 임계값 이상인 경우, 제 1 실시예에 따른 렌더링 방법에 따라 렌더링을 수행할 수 있다. 즉, 가상 스피커에 대응되는 예외 객체의 수가 많은 경우 가상 스피커를 이용하여 렌더링하는 것이 연산량과 주변 객체와의 간섭 정도 측면에서 유리하므로, 임계값 이상의 객체가 측정되는 경우 제 1 실시예에 따른 렌더링 방법에 따라 렌더링을 수행할 수 있다. 다만, 가상 스피커에 대응하는 예외 객체의 수가 임계값 이상의 경우라 하더라도 반드시 제 1실시예로만 실시되어야 하는 것은 아니며, 아래에서 설명하는 제 2 실시예에 따라 렌더링 될 수도 있다.

도 13은 본 발명의 제 2 실시예에 따른 예외 객체 렌더링 방법을 설명하기 위한 도면이다.

도 12와 달리, 본 발명의 다른 실시예에 따른 렌더링부(1150)는 투영부(1155) 및 진폭 패닝부(1153)를 더 포함할 수 있다.

투영부(1155)는 복수의 스피커가 위치한 평면 상으로 예외 객체를 투영시킬 수 있다. 즉, 예외 객체 ‘S1’을 복수의 스피커와 동일 평면 상인 ‘P’의 위치에 투영시켜 스피커의 재생 가능 범위 내에 위치시킨다.

진폭 패닝부(1153)는 예외 객체에 대응하는 예외 객체 신호를 복수의 스피커 각각에 진폭 패닝할 수 있다. 즉, ‘P’에 위치한 예외 객체에 대한 예외 객체 신호를 좌(L), 우(R) 실제 스피커로 각각 진폭 패닝할 수 있다.

한편, 제 2 실시예에 따른 렌더링부(1150)는 가상 스피커 생성부(1151)를 더 포함할 수 있다. 가상 스피커 생성부(1151)는 복수의 스피커 각각을 기준으로 예외 객체와 동일한 높이를 가지는 복수의 가상 스피커를 생성할 수 있다. 이와 같은 가상 스피커 생성부(1151)를 통해 재생시 누적되는 객체의 개수가 기 설정된 임계값 미만인 경우 제 2 실시예에 따른 예외 객체 렌더링 방법으로 렌더링할 수 있다.

다만, 도 12에서 설명한 바와 같이, 가상 스피커에 대응하는 예외 객체의 수가 임계값 미만의 경우라 하더라도 반드시 제 2실시예로만 실시되어야 하는 것은 아니며, 제 1 실시예에 따라서도 렌더링 할 수 있다.

이와 같이, 본 발명에 따른 렌더링부(1150)는 도 12 및 도 13에 도시된 바와 같이 객체가 예외 객체에 해당하는 경우, 예외 객체를 연산량을 고려하여 두 가지 실시예에 따라 렌더링 할 수 있다.

이와 더불어, 도 12 및 도 13에 도시된 바처럼 동일 평면 상에 스피커가 위치하고, 서로 다른 높이에 위치한 예외 객체 ‘S1’, ‘S2’가 존재하는 경우, 기존의 렌더링 방법에 따르면 ‘S1’과 ‘S2’를 구별하지 못하는 문제가 발생한다. 즉, 좌(L), 우(R) 실제 스피커로 재생할 경우 높이 단서는 사라지고 ‘P’의 위치에 있는 객체와 동일한 소리를 제공하게 된다. 본 발명의 일 실시예에 따른 렌더링부(1150)는 이와 같이 예외 객체가 서로 다른 높이를 가지는 경우, 렌더링 과정을 통해 각각의 높이를 구별하여 실제 스피커에 소리를 재생시킬 수 있다.

한편, 본 발명의 다른 실시예에 따른 오디오 신호 처리 장치(1100)에 적용된 렌더링 방법은 객체 대신 예외 스피커가 존재하는 경우, 예외 스피커의 위치를 ‘S1’ 또는 ‘S2’로 가정할 경우에도 동일한 방법에 의해 주어진 실제 스피커를 이용하여 렌더링을 할 수 있다.

이하에서는 도 14를 참조하여, 오디오 신호 처리 장치(1100)에서의 오디오 신호 처리 방법에 대하여 구체적으로 설명하도록 한다.

본 발명의 다른 실시예에 따른 오디오 신호 처리 장치(1100)에서의 오디오 신호 처리 방법은 먼저, 스피커의 위치 정보에 기초하여 스피커의 재생 가능 범위 정보를 생성한다(S210). 재생 가능 범위 정보와 관련하여서는 도 11에서 설명하였으므로 구체적인 설명은 생략하도록 한다.

다음으로, 객체 신호가 재생 가능 범위에 포함되지 않는 예외 객체 신호에 해당하는지 여부를 판별하고(S220), 판별 결과에 기초하여 객체 신호를 렌더링한다(S230). 이때, 객체 신호를 렌더링하는 단계는, 객체 신호가 예외 객체 신호로 판별된 경우 복수의 스피커 각각을 기준으로 예외 객체와 동일한 높이를 가지는 복수의 가상 스피커를 생성한다. 그리고 복수의 가상 스피커를 통해 재생시 누적되는 객체의 개수와 미리 설정된 임계값을 비교하고, 그 결과에 기초하여 예외 객체 신호를 렌더링한다.

이때, 가상 스피커에 누적되는 객체의 개수가 임계값 이상인 경우, 예외 객체 신호를 복수의 가상 스피커 각각에 진폭 패닝하고, 진폭 패닝된 예외 객체 신호를 복수의 스피커 각각에 투영시킬 수 있다.

이와 달리, 가상 스피커에 누적되는 객체의 개수가 임계값 미만인 경우, 복수의 스피커가 위치한 평면 상으로 예외 객체를 투영시키고, 투영된 예외 객체에 대응하는 예외 객체 신호를 복수의 스피커 각각에 진폭 패닝할 수 있다.

즉, 가상 스피커에 누적되는 객체의 개수가 임계값 이상인 경우는 연산량이 많으므로 가상 스피커를 이용하여 예외 객체를 렌더링하고, 임계값 이하인 경우는 예외 객체를 투영시킨 후, 진폭 패닝하여 소리를 재생하게 된다.

다만, 가상 스피커에 대응하는 예외 객체의 수가 임계값 이상의 경우라 하더라도 반드시 가상 스피커에 진폭 패닝한 후 투영하는 단계를 통해 실시되어야만 하는 것은 아니고, 가상 스피커를 이용하지 않고도 실시될 수 있다. 또한, 임계값 미만인 경우라 하더라도 가상 스피커를 이용하여 실시될 수도 있다.

한편, 객체 신호가 예외 객체 신호가 아닌 것으로 판별된 경우, 즉 스피커 재생 가능 범위 내에 포함된 객체의 경우 기존 렌더링 방식에 의하여 렌더링 할 수 있다. 이 경우, 객체 신호를 복수의 스피커의 위치 정보에 기초하여 렌더링 할 수 있다.

이와 더불어, 본 발명의 다른 실시예에 따른 오디오 신호 처리 장치(1100)에서의 오디오 신호 처리 방법은 복수의 스피커에 대한 위치 정보를 취득할 수 있다. 이때, 스피커는 규정된 위치가 아닌 임의의 위치에 배치될 수 있으며, 이 경우 사용자는 스피커의 위치 정보를 UI를 이용하여 입력하거나, 주어진 보기 세트에서 선택함으로써 위치 정보를 입력할 수 있다. 또는, 오디오 신호 처리 장치(1100)에 장착된 스피커 위치 파악 모듈에 의해 위치 정보를 취득할 수 있다. 스피커 위치 파악 모듈은 이를테면 각 스피커별로 장착된 적외선 센서, 초음파 센서 등을 이용한 측위 방법을 이용하거나, 카메라를 이용한 위치 파악 방법 등이 사용될 수 있다.

또한, 채널 신호 및 객체 신호를 포함하는 오디오 비트열을 수신하는 단계를 더 포함할 수 있으며 이때, 수신되는 객체 신호에는 객체의 위치 정보가 포함되어 있을 수 있다. 이와 같은 위치 정보에 기초하여 객체가 스피커의 재생 가능 범위 내에 포함되는지 여부를 판별할 수 있게 된다. 한편, 도 1 내지 도 14에서 설명한 본 발명예에 따른 오디오 신호 처리 장치 및 방법은 도 15에 도시된 오디오 재생 장치(1)에 의해 구현될 수 있는바, 이하에서 설명하도록 한다.

본 발명에 따른 오디오 재생 장치(1)는 유무선 통신부(10), 사용자 인증부(20), 입력부(30), 신호 코딩부(40), 제어부(50) 및 출력부(60)를 포함할 수 있다.

유무선 통신부(10)는 유무선 통신 방식을 통해서 오디오 비트열을 수신한다. 유무선 통신부(10)는 적외선 통신부, 블루투스부, 무선랜 통신부와 같은 구성을 포함할 수 있으며, 기타 여러가지 통신 방법으로 오디오 비트열을 수신할 수 있다.

사용자 인증부(20)는 사용자 정보를 입력 받아 사용자 인증을 수행한다. 이때, 사용자 인증부(20)는 지문 인식부, 홍채 인식부, 안면 인식부, 음성 인식부 중 하나 이상을 포함할 수 있다. 즉, 지문, 홍채 정보, 얼굴 윤곽 정보, 음성 정보를 입력받아 사용자 정보로 변환하고, 기 등록된 사용자 정보와의 매칭 여부를 판단함으로써 사용자 인증을 수행할 수 있다.

입력부(30)는 사용자가 여러 종류의 명령을 입력하기 위한 입력 장치로서, 키패드부, 터치패드부, 리모컨부 중 하나 이상을 포함할 수 있다.

신호 코딩부(40)는 유무선 통신부(10)를 통해 수신된 오디오 신호, 비디오 신호 또는 이들이 조합된 신호에 대하여 인코딩 또는 디코딩을 수행하고, 시간 도메인의 오디오 신호를 출력할 수 있다. 신호 코딩부(40)는 오디오 신호 처리 장치를 포함할 수 있으며, 오디오 신호 처리 장치에는 본 발명에 따른 오디오 신호 처리 방법이 적용될 수 있다.

제어부(50)는 입력 장치들로부터 입력 신호를 수신하고, 신호 코딩부(40)와 출력부(60)의 모든 프로세스를 제어한다. 출력부(60)는 신호 코딩부(40)에 의해 생성된 출력 신호 등이 출력되며, 스피커부, 디스플레이부와 같은 구성요소를 포함할 수 있다. 이때, 출력 신호가 오디오 신호일 경우 출력 신호는 스피커로 출력되고, 비디오 신호일 경우 디스플레이를 통해 출력될 수 있다.

참고로, 본 발명의 실시예에 따른 도 4, 도 6 내지 도 9, 도 11 및 도 15에 도시된 구성 요소들은 소프트웨어 또는 FPGA(Field Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)와 같은 하드웨어 구성 요소를 의미하며, 소정의 역할들을 수행한다.

그렇지만 '구성 요소들'은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, 각 구성 요소는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다.

따라서, 일 예로서 구성 요소는 소프트웨어 구성 요소들, 객체지향 소프트웨어 구성 요소들, 클래스 구성 요소들 및 태스크 구성 요소들과 같은 구성 요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다.

구성 요소들과 해당 구성 요소들 안에서 제공되는 기능은 더 작은 수의 구성 요소들로 결합되거나 추가적인 구성 요소들로 더 분리될 수 있다.

한편, 본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims

오디오 신호 처리 장치에서의 오디오 신호 처리 방법에 있어서,

채널 신호를 수신하는 단계,

기 설치된 복수의 스피커의 위치 정보를 입력받는 단계,

부재 스피커 위치 중 타겟 스피커의 위치를 설정하는 단계,

상기 기 설치된 스피커의 위치 정보에 기초하여 상기 타겟 스피커와 동일 레이어 상의 부재 스피커 위치에 가상 스피커를 배치하는 단계,

상기 배치된 가상 스피커에 기초하여 상기 타겟 스피커의 위치에 대응하는 채널 신호를 렌더링하는 단계 및

상기 기 설치된 스피커에 대응하는 채널 신호에 상기 렌더링된 채널 신호를 다운믹스하는 단계를 포함하되,

상기 채널 신호는 부재 스피커에 대응하는 채널 신호를 포함하는 것인 오디오 신호 처리 방법.
제 1 항에 있어서,

상기 렌더링하는 단계는,

상기 타겟 스피커와 동일 레이어 상에 기 설치된 스피커와 상기 배치된 가상 스피커에 기초하여, 상기 타겟 스피커의 위치에 대응하는 채널 신호를 렌더링하는 것인 오디오 신호 처리 방법.
제 2 항에 있어서,

상기 다운믹스하는 단계는,

상기 타겟 스피커와 동일 레이어 상에 기 설치된 스피커에 상기 렌더링된 채널 신호를 합성하는 단계를 더 포함하는 오디오 신호 처리 방법.
제 1 항에 있어서,

상기 가상 스피커는 상기 기 설치된 스피커와 동일 수직선 상에 위치한 부재 스피커의 위치에 배치되는 것인 오디오 신호 처리 방법.
제 1 항에 있어서,

상기 부재 스피커의 위치 중 타겟 스피커의 위치를 설정하는 단계는,

상기 기 설치된 스피커의 최상위 레이어 상에 상기 타겟 스피커를 설정하되,

상기 채널 신호는 22.2 채널 신호인 것인 오디오 신호 처리 방법.
제 5 항에 있어서,

상기 가상 스피커를 배치하는 단계는,

중간 레이어 상에 위치한 기 설치된 스피커와 동일 수직선 상에 위치한 최상위 레이어 상의 부재 스피커 위치에 가상 스피커를 배치하는 것인 오디오 신호 처리 방법.
제 5 항에 있어서,

상기 렌더링 하는 단계는,

상기 최상위 레이어 상에 기 설치된 스피커와 상기 가상 스피커에 기초하여, 상기 타겟 스피커의 위치에 대응하는 채널 신호를 렌더링하고,

상기 다운믹스하는 단계는,

상기 최상위 레이어 상의 기 설치된 스피커 채널 신호에 상기 렌더링된 채널 신호를 합성하며,

상기 가상 스피커와 동일 수직선 상에 위치한 중간 레이어 상의 기 설치된 스피커에 대응하는 채널 신호에 상기 가상 스피커에 대응되는 렌더링된 채널 신호를 다운믹스하는 것인 오디오 신호 처리 방법.
제 1 항에 있어서,

상기 렌더링된 채널 신호를 다운믹스하는 단계는,

기 저장된 머리 전달 함수에 기초하여 다운믹스하는 것인 오디오 신호 처리 방법.
오디오 신호 처리 장치에서의 오디오 신호 처리 방법에 있어서,

기 설치된 복수의 스피커의 위치 정보에 기초하여 상기 스피커의 재생 가능 범위 정보를 생성하는 단계,

수신한 객체 신호가 상기 재생 가능 범위에 포함되지 않는 예외 객체 신호에 해당하는지 여부를 판별하는 단계 및

상기 판별 결과에 기초하여 상기 객체 신호를 렌더링하는 단계를 포함하되,

상기 객체 신호를 렌더링 하는 단계는,

상기 객체 신호가 예외 객체 신호로 판별된 경우 상기 복수의 스피커 각각을 기준으로 상기 예외 객체와 동일한 레이어 상에 복수의 가상 스피커를 생성하고,

상기 복수의 가상 스피커를 통해 재생시 누적되는 객체의 개수와 미리 설정된 임계값과의 비교 결과에 기초하여 상기 예외 객체 신호를 렌더링하는 것인 오디오 신호 처리 방법.
제 9 항에 있어서,

상기 객체 신호가 예외 객체 신호로 판별된 경우, 상기 객체 신호를 렌더링 하는 단계는,

상기 예외 객체 신호를 상기 복수의 가상 스피커 각각에 진폭 패닝하는 단계 및

상기 진폭 패닝된 예외 객체 신호를 상기 복수의 스피커 각각에 투영시키는 단계를 더 포함하는 오디오 신호 처리 방법.
제 9 항에 있어서,

상기 객체 신호가 예외 객체 신호로 판별된 경우, 상기 객체 신호를 렌더링 하는 단계는,

복수의 스피커가 위치한 평면상으로 상기 예외 객체를 투영시키는 단계 및

상기 투영된 예외 객체에 대응하는 예외 객체 신호를 상기 복수의 스피커 각각에 진폭 패닝하는 단계를 더 포함하는 오디오 신호 처리 방법.
제 9 항에 있어서,

상기 객체 신호가 예외 객체 신호가 아닌 것으로 판별된 경우, 상기 객체 신호를 렌더링 하는 단계는,

상기 객체 신호를 상기 복수의 스피커의 위치 정보에 기초하여 렌더링하는 것인 오디오 신호 처리 방법.
제 9 항에 있어서,

상기 복수의 스피커에 대한 위치 정보를 취득하는 단계를 더 포함하는 오디오 신호 처리 방법.
오디오 신호 처리 장치에 있어서,

기 설치된 복수의 스피커의 위치 정보를 수신하는 위치 정보 수신부,

채널 신호 및 객체 신호를 포함하는 오디오 비트열을 수신하는 오디오 비트열 수신부,

상기 스피커의 위치 정보에 기초하여 상기 스피커의 재생 가능 범위 정보를 생성하는 재생 가능 범위 정보 생성부,

상기 객체 신호가 상기 재생 가능 범위 내에 포함되지 않은 예외 객체인지 여부를 판별하는 예외 객체 신호 판별부 및

상기 판별 결과에 기초하여 상기 객체 신호를 렌더링하는 렌더링부를 포함하는 오디오 신호 처리 장치.
제 14 항에 있어서,

상기 렌더링부는,

상기 복수의 스피커 각각을 기준으로 상기 예외 객체와 동일한 레이어 상에 복수의 가상 스피커를 생성하는 가상 스피커 생성부,

상기 예외 객체 신호를 상기 복수의 가상 스피커 각각에 진폭 패닝하는 진폭 패닝부 및

상기 진폭 패닝된 예외 객체 신호를 상기 복수의 스피커 각각에 투영 시키는 투영부를 더 포함하는 오디오 신호 처리 장치.
제 15 항에 있어서,

상기 렌더링부는,

상기 복수의 가상 스피커를 통해 재생시 누적되는 객체의 개수가 기 설정된 임계값 이상인 경우 상기 객체 신호를 렌더링하는 것인 오디오 신호 처리 장치.
제 14 항에 있어서,

상기 렌더링부는,

복수의 스피커가 위치한 평면상으로 상기 예외 객체를 투영시키는 투영부 및

상기 투영된 예외 객체에 대응하는 예외 객체 신호를 상기 복수의 스피커 각각에 진폭 패닝하는 진폭 패닝부를 더 포함하는 오디오 신호 처리 장치.
제 17 항에 있어서,

상기 렌더링부는,

상기 복수의 스피커 각각을 기준으로 상기 예외 객체와 동일한 레이어 상에 복수의 가상 스피커를 생성하는 가상 스피커 생성부를 더 포함하되,

상기 복수의 가상 스피커를 통해 재생시 누적되는 객체의 개수가 기 설정된 임계값 미만인 경우 상기 예외 객체 신호를 렌더링하는 것인 오디오 신호 처리 장치.
제 14 항에 있어서,

상기 렌더링부는,

상기 객체 신호가 예외 객체 신호가 아닌 것으로 판별된 경우, 상기 객체 신호를 상기 복수의 스피커의 위치 정보에 기초하여 렌더링하는 것인 오디오 신호 처리 장치.