KR102226071B1

KR102226071B1 - 다채널 오디오 신호의 바이노럴 렌더링 방법 및 장치

Info

Publication number: KR102226071B1
Application number: KR1020190093378A
Authority: KR
Inventors: 이용주; 서정일; 유재현; 백승권; 성종모; 이태진; 강경옥; 김진웅; 박태진; 장대영; 최근우
Original assignee: 한국전자통신연구원
Priority date: 2013-07-25
Filing date: 2019-07-31
Publication date: 2021-03-11
Also published as: KR20150013073A; KR102007991B1; KR20190094140A; KR20210027343A; KR102380192B1

Abstract

다채널 오디오 신호의 바이노럴 렌더링 방법 및 장치가 개시된다. 바이노럴 렌더링 방법은 바이노럴 필터로부터 초기 반사음 성분과 잔향 성분을 추출하는 단계; 상기 초기 반사음 성분에 기초하여 다채널 오디오 신호를 바이노럴 렌더링함으로써 스테레오 오디오 신호를 생성하는 단계; 및 상기 잔향 성분을 상기 생성된 스테레오 신호에 적용하는 단계를 포함할 수 있다.

Description

다채널 오디오 신호의 바이노럴 렌더링 방법 및 장치 {BINAURAL RENDERING METHOD AND APPARATUS FOR DECODING MULTI CHANNEL AUDIO}

이하의 실시예들은, 다채널 오디오 신호의 바이노럴 렌더링 방법 및 장치에 관한 것으로, 보다 구체적으로는 다채널 오디오 신호의 품질을 유지할 수 있는 바이노럴 렌더링 방법 및 장치에 관한 것이다.

최근 멀티미디어 컨텐츠의 품질이 향상되면서, 종래의 5.1채널 보다 많은 7.1채널, 10.2채널, 13.2채널, 22.2채널 등의 다채널 오디오 신호를 포함하는 컨텐츠의 사용이 증가하고 있다. 일례로, 영화에서는 13.2 채널의 다채널 오디오 신호가 사용되고, UHDTV(Ultra High Definition TV)와 같은 고품질 방송에서는 10.2 채널, 22.2채널과 같은 다채널 오디오 신호를 사용하려는 시도가 있다.

그렇지만, 여전히 개인들이 가지고 있는 사용자 단말은 스테레오 스피커나 또는 헤드폰과 같이 스테레오 형태의 오디오 신호를 재생할 수 있다. 그렇기 때문에, 고품질의 다채널 오디오 신호는 사용자 단말이 처리할 수 있는 스테레오 형태의 오디오 신호로 변환될 필요가 있다.

이러한 변환 과정에는 다운믹스 기술이 활용될 수 있다. 이 때, 종래의 다운믹스 기술은 5.1 채널 또는 7.1 채널의 오디오 신호를 스테레오 신호로 다운믹스하는 것이 대부분이다. 이를 위해서, 각각의 채널별로 오디오 신호를 HRTF(Head-related Transfer function), BRIR(Binaural Room Impulse Response)과 같은 필터에 통과시킴으로써, 스테레오 형태의 오디오 신호가 추출될 수 있다.

하지만, 채널 수가 증가할수록 필터의 개수가 증가하기 때문에, 이에 비례하여 연산량도 증가하는 문제가 있다. 뿐만 아니라, 다채널 오디오 신호의 채널별 특성을 효과적으로 반영하는 것도 필요하다.

본 발명은 다채널 오디오 신호를 바이노럴 렌더링할 때 바이노럴 필터의 탭 수를 최적화함으로써 바이노럴 렌더링을 위한 연산량을 줄일 수 있는 방법 및 장치를 제공한다.

본 발명은 다채널 오디오 신호의 음질의 열화를 최소화하면서도 바이노럴 렌더링의 연산량을 줄임으로써 사용자 단말이 실시간으로 바이노럴 렌더링을 수행할 수 있으며, 바이노럴 렌더링에 필요한 전력 소모도 줄일 수 있는 방법 및 장치를 제공한다.

본 발명의 일실시예에 따른 바이노럴 렌더링 방법은 바이노럴 필터로부터 초기 반사음 성분과 잔향 성분을 추출하는 단계; 상기 초기 반사음 성분에 기초하여 다채널 오디오 신호를 바이노럴 렌더링함으로써 스테레오 오디오 신호를 생성하는 단계; 및 상기 잔향 성분을 상기 생성된 스테레오 신호에 적용하는 단계를 포함할 수 있다.

상기 스테레오 오디오 신호를 생성하는 단계는, N개 채널의 다채널 오디오 신호에서 다운믹스된 M개 채널의 다채널 오디오 신호를 바이노럴 렌더링하여 스테레오 오디오 신호를 생성할 수 있다.

상기 스테레오 오디오 신호를 생성하는 단계는, 상기 다채널 오디오 신호의 채널별로 초기 반사음 성분을 적용하여 상기 다채널 오디오 신호에 바이노럴 렌더링을 수행할 수 있다.

상기 스테레오 오디오 신호를 생성하는 단계는, 상기 다채널 오디오 신호를 구성하는 복수의 모노 형태의 오디오 신호 각각에 대해 독립적으로 바이노럴 렌더링을 수행할 수 있다.

상기 바이노럴 필터로부터 초기 반사음 성분과 잔향 성분을 추출하는 단계는, 바이노럴 렌더링을 위한 BRIR(Binaural Room Impulse Response)을 분석함으로써 상기 바이노럴 필터로부터 초기 반사음 성분과 잔향 성분을 추출할 수 있다.

상기 바이노럴 필터로부터 초기 반사음 성분과 잔향 성분을 추출하는 단계는, 상기 다채널 오디오 신호로부터 생성된 스테레오 오디오 신호의 BRIR에 기초한 잔향 시간을 분석함으로써 주파수 의존적으로 전이되는 초기 반사음 성분과 잔향 성분을 추출할 수 있다.

본 발명의 다른 실시예에 따른 바이노럴 렌더링 방법은 바이노럴 필터로부터 초기 반사음 성분과 잔향 성분을 추출하는 단계; N개 채널의 다채널 오디오 신호를 M개 채널의 다채널 오디오 신호로 다운믹싱하는 단계; 상기 다운믹싱된 M개 채널의 다채널 오디오 신호의 채널별로 초기 반사음 성분을 적용하여 바이노럴 렌더링함으로써 스테레오 오디오 신호를 생성하는 단계; 및 상기 잔향 성분을 상기 생성된 스테레오 신호에 적용하는 단계를 포함할 수 있다.

상기 스테레오 오디오 신호를 생성하는 단계는, 상기 M개 채널의 다채널 오디오 신호를 구성하는 복수의 모노 형태의 오디오 신호 각각에 대해 독립적으로 바이노럴 렌더링을 수행할 수 있다.

본 발명의 일실시예에 따른 바이노럴 렌더링 장치는 바이노럴 필터로부터 초기 반사음 성분과 잔향 성분을 추출하는 바이노럴 필터 변환부; 상기 초기 반사음 성분에 기초하여 다채널 오디오 신호를 바이노럴 렌더링함으로써 스테레오 오디오 신호를 생성하는 바이노럴 렌더링부; 및 상기 잔향 성분을 상기 생성된 스테레오 신호에 적용하는 잔향 부가부를 포함할 수 있다.

상기 바이노럴 렌더링부는, N개 채널의 다채널 오디오 신호에서 다운믹스된 M개 채널의 다채널 오디오 신호를 바이노럴 렌더링하여 스테레오 오디오 신호를 생성할 수 있다.

상기 바이노럴 렌더링부는, 상기 다채널 오디오 신호의 채널별로 초기 반사음 성분을 적용하여 상기 다채널 오디오 신호에 바이노럴 렌더링을 수행할 수 있다.

상기 바이노럴 렌더링부는, 상기 다채널 오디오 신호를 구성하는 복수의 모노 형태의 오디오 신호 각각에 대해 독립적으로 바이노럴 렌더링을 수행할 수 있다.

상기 바이노럴 필터 변환부는, 바이노럴 렌더링을 위한 BRIR(Binaural Room Impulse Response)을 분석함으로써 상기 바이노럴 필터로부터 초기 반사음 성분과 잔향 성분을 추출할 수 있다.

상기 바이노럴 필터 변환부는, 상기 다채널 오디오 신호로부터 생성된 스테레오 오디오 신호의 BRIR에 기초한 잔향 시간을 분석함으로써 주파수 의존적으로 전이되는 초기 반사음 성분과 잔향 성분을 추출할 수 있다.

상기 바이노럴 렌더링을 위해 바이노럴 필터를 저장하는 바이노럴 필터 저장부를 더 포함할 수 있다.

본 발명의 일실시예에 의하면, 다채널 오디오 신호를 바이노럴 렌더링할 때 바이노럴 필터의 탭 수를 최적화함으로써 바이노럴 렌더링을 위한 연산량을 줄일 수 있다.

본 발명의 일실시예에 의하면, 다채널 오디오 신호의 음질의 열화를 최소화하면서도 바이노럴 렌더링의 연산량을 줄임으로써 사용자 단말이 실시간으로 바이노럴 렌더링을 수행할 수 있으며, 바이노럴 렌더링에 필요한 전력 소모도 줄일 수 있다.

도 1은 일실시예에 따른 다채널 오디오 신호를 스테레오 형태로 렌더링하는 바이노럴 렌더링 장치를 도시한 도면이다.
도 2는 일실시예에 따라 바이노럴 필터를 적용하는 바이노럴 렌더링 장치를 도시한 도면이다.
도 3은 다른 실시예에 따라 바이노럴 필터를 적용하는 바이노럴 렌더링 장치를 도시한 도면이다.
도 4는 일실시예에 따라 다채널 오디오 신호를 다운믹싱한 후 바이노럴 렌더링하는 바이노럴 렌더링 장치를 도시한 도면이다.
도 5는 일실시예에 따라 바이노럴 필터로부터 추출한 잔향 성분을 부가하는 바이노럴 렌더링 장치를 도시한 도면이다.
도 6은 다른 실시예에 따라 바이노럴 필터로부터 추출한 잔향 성분을 부가하는 바이노럴 렌더링 장치를 도시한 도면이다.
도 7은 일실시예에 따른 바이노럴 필터 변환부의 세부 동작을 설명하기 위한 도면이다.
도 8은 일실시예에 따른 주파수 도메인에서 바이노럴 렌더링의 처리 영역을 도시한 도면이다.
도 9는 일실시예에 따른 주파수 도메인에서 바이노럴 렌더링을 수행하는 과정을 도시한 도면이다.
도 10은 일실시예에 따른 시간 도메인에서 바이노럴 렌더링을 수행하는 일례를 도시한 도면이다.
도 11은 일실시예에 따른 시간 도메인에서 바이노럴 렌더링을 수행하는 다른 일례를 도시한 도면이다.
도 12는 일실시예에 따른 바이노럴 필터의 출력 결과를 도시한 도면이다.
도 13은 일실시예에 따른 초기 반사음 성분을 도시한 도면이다.
도 14는 일실시예에 따른 잔향 성분을 도시한 도면이다.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1 내지 도 10에서 설명되는 바이노럴 렌더링 장치는 다채널 오디오 신호를 처리하는 디코더에 포함될 수 있다. 디코더는 다채널 오디오 신호를 재생하는 재생 장치에 대응하거나 또는 재생 장치에 포함될 수 있다. 한편, 바이노럴 렌더링 장치에 의해 다채널 오디오 신호가 바이노럴 렌더링됨으로써 스테레오 오디오 신호가 생성된 경우, 스테레오 오디오 신호는 2채널의 스피커 또는 헤드폰을 통해 재생될 수 있다.

도 1은 일실시예에 따른 다채널 오디오 신호를 스테레오 형태로 렌더링하는 바이노럴 렌더링 장치를 도시한 도면이다.

도 1을 참고하면, N개 채널의 다채널 오디오 신호는 바이노럴 렌더링부(101)에 입력될 수 있다. 그러면, 바이노럴 렌더링부(101)는 다채널 오디오 신호를 바이노럴 렌더링함으로써 스테레오 오디오 신호를 생성할 수 있다. 바이노럴 렌더링부(101)는 N개 채널의 다채널 오디오 신호를 그대로 바이노럴 렌더링하거나 또는 N개 채널의 다채널 오디오 신호가 다운믹스된 M개 채널의 다채널 오디오 신호를 바이노럴 렌더링할 수 있다. 이 때, 다채널 오디오 신호에 바이노럴 필터를 적용하여 스테레오 오디오 신호를 생성할 수 있다.

바이노럴 렌더링부(101)는 시간 도메인, 주파수 도메인 또는 QMF 도메인에서 바이노럴 렌더링을 수행할 수 있다. 바이노럴 렌더링부(101)는 다채널 오디오 신호를 구성하는 복수의 모노 오디오 신호들 각각에 대해 바이노럴 필터를 적용할 수 있다. 여기서, 바이노럴 렌더링부(101)는 각 채널별 오디오 신호의 재생 위치에 해당하는 바이노럴 필터를 이용하여 채널별로 스테레오 신호를 생성할 수 있다.

도 2는 일실시예에 따라 바이노럴 필터를 적용하는 바이노럴 렌더링 장치를 도시한 도면이다.

도 2를 참고하면, 바이노럴 렌더링 장치는 복수의 바이노럴 렌더링부(201)와 바이노럴 필터 저장부(201)를 포함할 수 있다. 이 때, 복수의 바이노럴 렌더링부(201)들 각각은 다채널 오디오 신호의 각 채널별로 바이노럴 필터를 적용하여 각 채널별로 스테레오 오디오 신호를 생성할 수 있다.

여기서, 바이노럴 필터는 바이노럴 필터 저장부(201)로부터 추출될 수 있다. 그런 후, 바이노럴 렌더링 장치는 각 채널별로 생성된 스테레오 오디오 신호를 왼쪽 채널과 오른쪽 채널로 구분하여 믹싱함으로써 최종적인 스테레오 오디오 신호를 생성할 수 있다.

도 3은 다른 실시예에 따라 바이노럴 필터를 적용하는 바이노럴 렌더링 장치를 도시한 도면이다.

도 3을 참고하면, 바이노럴 렌더링 장치는 바이노럴 렌더링부(301)와 바이노럴 필터 저장부(301)를 포함할 수 있다. 바이노럴 렌더링부(301)는 다채널 오디오 신호에 바이노럴 필터를 적용하여 스테레오 오디오 신호를 생성할 수 있다.

즉, 도 2의 바이노럴 렌더링 장치는 다채널 오디오 신호를 각 채널별로 처리하여 채널별 스테레오 오디오 신호를 생성한 후, 왼쪽 채널과 오른쪽 채널로 구분하여 믹싱하는 한편, 도 3의 바이노럴 렌더링 장치는 다채널 오디오 신호를 채널 전체로 처리하여 하나의 스테레오 오디오 신호를 생성할 수 있다.

도 4는 일실시예에 따라 다채널 오디오 신호를 다운믹싱한 후 바이노럴 렌더링하는 바이노럴 렌더링 장치를 도시한 도면이다.

도 4를 참고하면, 바이노럴 렌더링 장치는 채널 다운믹서부(401) 및 바이노럴 렌더링부(402)를 포함할 수 있다. 채널 다운믹서부(401)는 N개 채널의 다채널 오디오 신호를 다운믹싱하여 M개 채널의 다채널 오디오 신호를 생성할 수 있다. 여기서, N은 M보다 큰 값을 가진다. 예를 들어, N이 22.2인 경우, M은 10.2 또는 8.1이 될 수 있다.

바이노럴 렌더링부(402)는 다운믹싱된 M개 채널의 다채널 오디오 신호에 바이노럴 필터를 적용하여 스테레오 오디오 신호를 생성할 수 있다. 이때, 바이노럴 렌더링부(402)는 시간 도메인에서의 컨볼루션, 주파수 도메인에서의 FFT 연산, QMF 도메인에서의 연산 방법을 이용하여 바이노럴 렌더링을 수행할 수 있다.

도 5는 일실시예에 따라 바이노럴 필터로부터 추출한 잔향 성분을 부가하는 바이노럴 렌더링 장치를 도시한 도면이다.

도 5를 참고하면, 바이노럴 렌더링 장치는 복수의 바이노럴 렌더링부(501), 바이노럴 필터 저장부(502), 바이노럴 필터 변환부(503) 및 잔향 부가부(504)를 포함할 수 있다.

복수의 바이노럴 렌더링부(501)는 다채널 오디오 신호를 바이노럴 렌더링을 수행할 수 있다. 이 때, 복수의 바이노럴 렌더링부(501)는 다채널 오디오 신호의 채널별로 바이노럴 렌더링을 수행할 수 있다. 일례로, 복수의 바이노럴 렌더링부(501)는 바이노럴 필터 변환부(503)로부터 전달된 채널별 초기 반사음 성분을 이용하여 바이노럴 렌더링을 수행할 수 있다.

바이노럴 필터 저장부(502)는 다채널 오디오 신호의 바이노럴 렌더링을 위한 바이노럴 필터를 저장할 수 있다. 바이노럴 필터 변환부(503)는 바이노럴 필터 저장부(502)로부터 전달된 바이노럴 필터를 변환함으로써 초기 반사음 성분과 잔향 성분으로 구성된 바이노럴 필터를 생성할 수 있다. 여기서, 초기 반사음 성분과 잔향 성분은 변환된 바이노럴 필터의 필터 계수에 대응할 수 있다.

여기서, 초기 반사음 성분은 바이노럴 렌더링부(501)가 다채널 오디오 신호를 바이노럴 렌더링할 때 활용될 수 있다. 그리고, 잔향 부가부(504)는 바이노럴 필터 변환부(503)에서 생성된 잔향 성분을 최종적으로 생성된 스테레오 오디오 신호에 부가함으로써, 스테레오 오디오 신호에 공간감과 같은 입체 효과를 제공할 수 있다.

이 때, 바이노럴 필터 변환부(503)는 바이노럴 필터 저장부(502)에 저장된 바이노럴 필터를 분석하여 다채널 오디오 신호의 음질에 미치는 영향을 최소화하면서도 바이노럴 필터를 이용한 계산량을 줄일 수 있는 변환된 바이노럴 렌더링 필터를 생성할 수 있다.

일례로, 바이노럴 필터 변환부(503)는 바이노럴 필터를 분석하여 다채널 오디오 신호의 관점에서 유효한 의미를 가지는 데이터와 유효하지 않은 의미를 가지는 데이터를 추출한 후, 유효하지 않은 의미를 가지는 데이터를 삭제함으로써 바이노럴 필터를 변환할 수 있다. 다른 일례로, 바이노럴 필터 변환부(503)는 잔향 시간(reverberation time)을 제어함으로써 바이노럴 필터를 변환할 수 있다.

결론적으로, 도 5에 도시된 바이노럴 렌더링 장치는 다채널 오디오 신호에 대해 바이노럴 렌더링을 위한 BRIR(Binaural Room Impulse Response)을 분석하여 바이노럴 필터를 초기 반사음 성분(Early reflection)과 잔향 성분(Late Reverberation)로 구분할 수 있다. 그러면, 바이노럴 렌더링 장치는 바이노럴 렌더링에서 초기 반사음 성분을 다채널 오디오 신호의 각 채널에 적용할 수 있다. 그리고, 바이노럴 렌더링 장치는 잔향 성분을 바이노럴 렌더링을 통해 생성된 스테레오 오디오 신호에 적용할 수 있다.

따라서, 바이노럴 필터로부터 도출된 초기 반사음 성분만 바이노럴 렌더링을 수행할 때 활용하기 때문에, 바이노럴 렌더링의 계산량이 감소될 수 있다. 그리고, 바이노럴 필터로부터 도출된 잔향 성분은 바이노럴 렌더링에 의해 생성된 스테레오 오디오 신호에 부가되므로, 다채널 오디오 신호의 공간감이 유지될 수 있다.

도 6은 다른 실시예에 따라 바이노럴 필터로부터 추출한 잔향 성분을 부가하는 바이노럴 렌더링 장치를 도시한 도면이다.

도 6을 참고하면, 바이노럴 렌더링 장치는 채널 다운믹서부(601), 복수의 바이노럴 렌더링부(602), 바이노럴 필터 저장부(603), 바이노럴 필터 변환부(604) 및 잔향 부가부(605)를 포함할 수 있다.

도 6은 도 5에 도시된 바이노럴 렌더링 장치와 달리 채널 다운믹서부(601)를 포함하고, 나머지 구성은 동일하다. 채널 다운믹서부(601)는 N개 채널의 다채널 오디오 신호를 다운믹싱함으로써 M개 채널의 다채널 오디오 신호를 생성할 수 있다. 여기서, N은 M보다 큰 값을 가진다. 도 6의 나머지 구성에 대해서는 도 5의 설명을 참고하기로 한다.

도 7은 일실시예에 따른 바이노럴 필터 변환부의 세부 동작을 설명하기 위한 도면이다.

바이노럴 필터 변환부(701)는 바이노럴 필터를 분석하여 초기 반사음 성분과 잔향 성분으로 구분할 수 있다. 그러면, 초기 반사음 성분은 다채널 오디오 신호의 채널들 각각에 적용하여 바이노럴 렌더링할 때 활용될 수 있다. 한편, 잔향 성분은 바이노럴 렌더링을 통해 생성된 스테레오 오디오 신호에 부가됨으로써 스테레오 오디오 신호는 다채널 오디오 신호의 공간감과 같은 입체 효과를 제공할 수 있다.

도 8은 일실시예에 따른 주파수 도메인에서 바이노럴 렌더링의 처리 영역을 도시한 도면이다.

본 발명의 일실시예에 의하면, 주파수 도메인에서 바이노럴 렌더링을 수행함으로써, 2채널의 헤드폰을 통해 서라운드 음향 효과를 제공할 수 있는 스테레오 오디오 신호를 생성할 수 있다. 주파수 도메인에서 동작하는 바이노럴 렌더링에는 QMF 도메인에 해당하는 다채널 오디오 신호가 입력될 수 있다. BRIR(Binaural Room Impulse Response)는 complex QMF 도메인 필터들로 변환될 수 있다.

도 8을 참고하면, 주파수 도메인에서 동작하는 바이노럴 렌더링부는 3개의 세부 구성 요소로 구성될 수 있다. 바이노럴 렌더링부는 VOFF(a variable order filtering in frequency domain), SFR(a sparse frequency reverberator) 및 QTDL(a QMF domain Tapped-Delay Line)를 이용하여 바이노럴 렌더링을 수행할 수 있다.

도 8을 참고하면, 초기에는 Nfilter(k)에 기초하여 VOFF 및 SFR가 수행되며, 나중에는 RT60(k) of Late Reverbration이 동작하여 일부 SFR이 동작한다. 그리고, QTDL은 전체 시간에서 동작하나 일정한 QMF 밴드(k)에서만 수행된다.

도 9는 일실시예에 따른 주파수 도메인에서 바이노럴 렌더링을 수행하는 과정을 도시한 도면이다.

도 9를 참고하면, 바이노럴 렌더링부에는 N개 채널의 다채널 오디오 신호가 입력될 수 있다. 이 때, 다채널 오디오 신호는 QMF 도메인에 해당한다. 또한, 시간 도메인에 해당하는 N개 채널의 BRIR도 입력될 수 있다. BRIR은 BRIR Parameterization(901)에 의해 파라미터화되어 VOFF(902), SFR(903), QTDL(904)을 수행할 때 활용될 수 있다.

도 9에서 VOFF(902)는 QMF 도메인에서의 고속 컨벌루션을 수행할 수 있다. QMF 도메인의 BRIR은 직접음(direct sound)과 초기 반사음(early reflection sound)를 포함할 수 있다. 이 때, bandwise reverberation 시간 분석에 의해 초기 반사음이 late reverberation N_filter로 전이되는 것이 결정될 수 있다. QMF 도메인의 오디오 신호와 QMF 도메인의 직접음 및 초기 반사음은 바이노럴 렌더링을 위해 대역이 분할된 고속 컨벌루션(bandwise partitioned fast convolution)에 따라 처리될 수 있다. QMF 도메인의 BRIR의 필터 차수(order)는 주파수에 의존적이며, VOFF(902)로 표현될 수 있다.

SFR(a sparse frequency reverberator)(903)은 2채널의 QMF 도메인의 잔향 성분(late reverberation)를 생성하기 위해 사용될 수 있다. 잔향 성분의 파형은 다채널 오디오 신호가 다운믹스된 스테레오 오디오 신호에 기초하며, 다채널 오디오 신호의 분석 결과에 따라 잔향 성분의 진폭(amplitude)가 적응적으로 스케일링될 수 있다. SFR은 다채널 오디오 신호의 하나의 프레임이 스테레오 형태로 다운믹싱된 QMF 도메인의 입력 신호와 주파수에 의존적인 잔향 시간 및 BRIR 메타 정보로부터 도출된 에너지값에 기초하여 잔향 성분이 출력될 수 있다.

SFR은 스테레오 오디오 신호의 BRIR의 잔향 시간을 분석함에 따라 주파수 의존적으로 초기 반사음 성분에서 잔향 성분으로 전이되는 것을 결정할 수 있다. 이를 위해 complex-valued QMF 도메인에서 획득되는 BRIR의 에너지가 감쇠되는 것은 초기 반사음 성분에서 잔향 성분으로의 전이를 분석한 잔향 시간으로부터 도출될 수 있다.

VOFF(902)와 SFR(903)은 주파수 대역 중 k_conv에서 동작할 수 있다. QTDL(a QMF domain Tapped-Delay Line)(904)는 고주파수 대역보다 높은 주파수 대역을 처리하기 위해 사용될 수 있다. QTDL(904)이 사용되는 주파수 대역(k_max-k_conv)에서는 VOFF(902)와 QMF domain reverberator이 턴 오프(turn-off)될 수 있다.

VOFF(902), SFR(903), QTDL(904)에 의해 처리된 결과는 믹서 및 결합기(905)에 의해 2개 채널씩 믹싱되고 결합될 수 있다. 이에 따라, 도 9의 바이노럴 렌더링을 거치면, 2채널을 가지는 스테레오 오디오 신호가 생성되며, 생성된 오디오 신호는 64개의 QMF 밴드를 가진다.

도 9에서 설명되는 각각의 구성 요소는 하나의 프로세서에 의해 처리되거나 또는 구성 요소별로 대응하는 복수의 프로세서들에 의해 각각 처리될 수 있다.

도 10은 일실시예에 따른 시간 도메인에서 바이노럴 렌더링을 수행하는 일례를 도시한 도면이다.

시간 도메인에서 바이노럴 렌더링을 수행하는 것은 헤드폰을 위한 3D 오디오 신호를 생성하기 위해 사용될 수 있다. 시간 도메인에서 바이노럴 렌더링이 수행되는 과정은 라우드스피커 신호인 W_speaker를 스테레오 오디오 신호인 W_LR로 변환하는 과정을 의미할 수 있다.

이 때, 시간 도메인에서 바이노럴 렌더링은 각각의 라우드스피커 위치 Ω_speaker에 대해 BRIR로부터 개별적으로 도출된 바이노럴 파라미터에 기초하여 수행될 수 있다. 도 10의 단계(1001)을 참고하면, HOA(High Order Ambisonics) 신호 C는 HOA 렌더링 매트릭스 D에 기초하여 라우드스피커 신호 W_speaker로 변환될 수 있다. 그리고, 라우드스피커 신호 W_speaker는 바이노럴 필터에 따라 스테레오 오디오 신호 W_LR로 변환될 수 있다.

일정한 개수의 QMF 밴드에 기초하여 초기 반사음 성분으로부터 잔향 성분으로 전이될 수 있다. 또한, 시간 도메인에서 초기 반사음 성분으로부터 잔향 성분으로 주파수 의존적인 전이가 발생될 수 있다.

도 11은 일실시예에 따른 시간 도메인에서 바이노럴 렌더링을 수행하는 다른 일례를 도시한 도면이다.

도 11을 참고하면, 시간 도메인에서 바이노럴 렌더링은 바이노럴 파라미터에 기초하여 HOA 신호 C를 스테레오 오디오 신호 W_LR로 변환하는 과정을 의미할 수 있다.

도 12는 일실시예에 따른 바이노럴 필터의 출력 결과를 도시한 도면이다.

도 13은 일실시예에 따른 초기 반사음 성분을 도시한 도면이다.

도 14는 일실시예에 따른 잔향 성분을 도시한 도면이다.

도 13 및 도 14의 결과를 조합하면, 도 12의 결과가 도출될 수 있다.

본 발명의 일실시예에 따르면, PC, 디지털 방송 단말, DVD player, 모바일 단말 등에서 사용될 수 있는 다채널 오디오 신호에 대해 바이노럴 렌더링을 수행할 때, 바이노럴 필터로부터 초기 반사음 성분과 잔향 성분을 구분한 후 초기 반사음 성분으로 바이노럴 렌더링을 수행함으로써, 다채널 오디오 신호의 음질에 영향을 거의 주지 않으면서, 바이노럴 렌더링을 수행할 때 요구되는 연산량을 감소시킬 수 있는 효과가 나타날 수 있다. 그리고, 바이노럴 렌더링에 필요한 연산량이 감소함으로써 사용자 단말이 실시간으로 다채널 오디오 신호에 대해 바이노럴 렌더링을 수행할 수 있다. 뿐만 아니라, 사용자 단말이 바이노럴 렌더링을 수행할 때 사용자 단말의 전력 소모도 감소될 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

501: 바이노럴 렌더링부
502: 바이노럴 필터 저장부
503: 바이노럴 필터 변환부
504: 잔향 부가부

Claims

삭제
바이노럴 필터로부터 초기 반사음 성분과 잔향 성분을 추출하는 단계;
상기 초기 반사음 성분 및 잔향 성분에 기초하여 다채널 오디오 신호를 스테레오 오디오 신호로 변환함으로써 바이노럴 렌더링을 수행하는 단계
를 포함하고,
상기 바이노럴 렌더링은,
주파수 도메인 또는 시간 도메인에서 BRIR(Binaural Room Impulse Response)에 기초하여 수행되고,
상기 바이노럴 렌더링을 수행하는 단계는,
주파수 도메인에서 VOFF(a variable order filtering in frequency domain), SFR(a sparse frequency reverberator) 및 QTDL(a QMF domain Tapped-Delay Line)를 이용하여 바이노럴 렌더링을 수행하는 바이노럴 렌더링 방법.
삭제
제2항에 있어서,
상기 바이노럴 렌더링을 수행하는 단계는,
상기 BRIR의 QMF 도메인의 필터 차수가 VOFF로 표현되고,
상기 QMF 도메인의 직접음과 초기 반사음이 대역이 분할된 고속 컨벌루션(bandwise partitioned fast convolution)에 따라 QMF 도메인의 직접음과 초기 반사음을 처리함으로써 바이노럴 렌더링을 수행하는 바이노럴 렌더링 방법.
제2항에 있어서,
상기 SFR은, 2채널 QMF 도메인의 잔향 성분(late reverberation)을 생성하는 바이노럴 렌더링 방법.
제2항에 있어서,
상기 바이노럴 렌더링을 수행하는 단계는,
시간 도메인에서 각각의 라우드 스피커 위치에서 도출된 바이노럴 파라미터에 기초하여 라우드스피커 신호를 스테레오 오디오 신호로 변환하는 바이노럴 렌더링 방법.