KR20180051411A

KR20180051411A - 오디오 신호 처리 방법 및 오디오 시스템

Info

Publication number: KR20180051411A
Application number: KR1020170147120A
Authority: KR
Inventors: 이동금; 서종열
Original assignee: 엘지전자 주식회사
Priority date: 2016-11-08
Filing date: 2017-11-07
Publication date: 2018-05-16

Abstract

본 발명은 개인화된 HRTF(Head-Related Transfer Function)정보에 기초한 오디오 신호 처리 방법 및 오디오 시스템에 관한 것이다.
상기 또는 다른 목적을 달성하기 위해 본 발명의 일 측면에 따르면, 사용자의 양쪽 귀에 장착된 복수의 마이크를 통해 녹음된 신호를 획득하는 단계;
상기 녹음된 신호로부터 사용자 HRTF(Head Related Transfer Function) 정보를 추출하는 단계로서, 상기 사용자 HRTF 정보는 제 1 방위각 및 제 1 고도각에서 측정된 HRTF에 해당함; 및 상기 사용자 HRTF 정보와 HRTF 데이터베이스에 포함된 적어도 하나의 HRTF 정보의 차이를 계산하는 단계로서, 상기 적어도 하나의 HRTF 정보는 전 방향에 대한 HRTF 중 상기 제 1 방위각 및 상기 제 1 고도각에서 측정된 HRTF에 해당하는, 오디오 신호 처리 방법을 제공한다.

Description

오디오 신호 처리 방법 및 오디오 시스템{AUDIO SIGNAL PROCESSING METHOD AND AUDIO SYSTEM}

본 발명은 개인화된 HRTF(Head-Related Transfer Function)정보에 기초한 오디오 신호 처리 방법 및 오디오 시스템에 관한 것이다.

최근 다양한 멀티미디어 재생 시스템을 통하여 음악, 영화, 게임 등을 청취 및 체험하기 위한 수요가 증가하고 있다. 또한, 멀티미디어 재생 시스템을 보다 자연스럽고 현장감 있게 청취할 수 있도록 하기 위한 오디오 기술에 대한 연구가 활발하게 진행되고 있다. 이를 위해 HRTF(Head-Related Transfer Function) 를 측정하여 입력 신호에 필터링하는 방법을 사용할 수 있다. HRTF는 소리가 발생하는 방향으로부터 사용자의 양쪽 귀까지의 전달함수에 해당한다.

한편, 전달함수에는 사용자의 신체적인 특징이 포함되어 있는데, 사용자마다 서로 다른 몸체, 머리 모양 및 귀 모양을 지니고 있기 때문에, 각 사용자의 HRTF도 서로 다르게 된다. 따라서, 임의의 사용자가 다른 사용자의 HRTF를 이용할 경우, 멀티미디어 재생 시에 음상이 잘못된 위치에 정위(localization)되는 상황이 발생될 수 있다. 대표적으로 난신호 원뿔 구역(cone of confusion) 현상으로서, 이는 사용자의 정면부 임의의 방향에서 측정한 HRTF를 입력 신호에 필터링하여 다른 사용자가 청취할 경우, 음상이 마치 뒤에서 인지되는 것처럼 느껴지는 현상이다. 이러한 문제가 3차원 오디오를 추구하는 가상 현실이나 게임 환경에서 발생할 경우 현실감을 저해할 수 있어, 개인화된 HRTF가 요구될 수 있다.

현재 개인화된 HRTF를 취득하기 위해 카메라를 이용하여 신체 부위를 캡쳐하거아 3차원 모델링 툴(tool)을 이용하여 신체를 직접 모델링하는 방법이 사용되고 있다. 이러한 방법의 경우 촬영 구도 및 해상도에 따라서 HRTF의 특성이 왜곡될 수 있는 문제점이 있다. 따라서, HRTF 특성이 왜곡되지 않는 개인화된 HRTF를 취득하는 방법이 요구된다.

본 발명은 전술한 문제 및 다른 문제를 해결하는 것을 목적으로 한다. 또 다른 목적은 마이크를 이용하여 사용자의 응답을 녹음 및 분석하여 개인화된 HRTF를 취득하는 오디오 신호 처리 방법 및 오디오 시스템을 제공하는 것을 그 목적으로 한다.

또 다른 목적은 개인화된 HRTF를 통해 정확하게 정위되는 오디오 신호를 제공하는 오디오 신호 처리 방법 및 오디오 시스템을 제공하는 것을 그 목적으로 한다.

상기 또는 다른 목적을 달성하기 위해 본 발명의 일 측면에 따르면, 사용자의 양쪽 귀에 장착된 복수의 마이크를 통해 녹음된 신호를 획득하는 단계;

상기 녹음된 신호로부터 사용자 HRTF(Head Related Transfer Function) 정보를 추출하는 단계로서, 상기 사용자 HRTF 정보는 제 1 방위각 및 제 1 고도각에서 측정된 HRTF에 해당함; 및 상기 사용자 HRTF 정보와 HRTF 데이터베이스에 포함된 적어도 하나의 HRTF 정보의 차이를 계산하는 단계로서, 상기 적어도 하나의 HRTF 정보는 전 방향에 대한 HRTF 중 상기 제 1 방위각 및 상기 제 1 고도각에서 측정된 HRTF에 해당하는, 오디오 신호 처리 방법을 제공한다.

또한, 본 발명의 다른 측면에 따르면, 오디오 시스템에 있어서, 녹음된 신호를 획득하는 마이크; 및 HRTF(Head Related Transfer Function) 정보 추출부를 포함하고, 상기 HRTF 정보 추출부는 상기 녹음된 신호로부터 사용자 HRTF정보를 추출하되, 상기 사용자 HRTF 정보는 제 1 방위각 및 제 1 고도각에서 측정된 HRTF에 해당하고, 상기 사용자 HRTF 정보와 HRTF 데이터베이스에 포함된 적어도 하나의 HRTF 정보의 차이를 계산하되, 상기 적어도 하나의 HRTF 정보는 전 방향에 대한 HRTF 중 상기 제 1 방위각 및 상기 제 1 고도각에서 측정된 HRTF에 해당하는, 오디오 시스템을 제공한다.

본 발명에 따른 오디오 신호 처리 방법 및 오디오 시스템 의 효과에 대해 설명하면 다음과 같다.

본 발명의 실시 예들 중 적어도 하나에 의하면, 청취자는 음상이 마치 공간상의 임의의 위치에 정위(localization)되는 효과를 느낄 수 있다는 장점이 있다.

또한, 본 발명의 실시 예들 중 적어도 하나에 의하면, 청취자는 자신의 신체정보 특성과 유사한 HRTF를 이용함으로써 음상이 부정확하게 정위될 가능성을 최소화할 수 있다는 장점이 있다.

본 발명의 적용 가능성의 추가적인 범위는 이하의 상세한 설명으로부터 명백해질 것이다. 그러나 본 발명의 사상 및 범위 내에서 다양한 변경 및 수정은 당업자에게 명확하게 이해될 수 있으므로, 상세한 설명 및 본 발명의 바람직한 실시 예와 같은 특정 실시 예는 단지 예시로 주어진 것으로 이해되어야 한다.

도 1은 본 발명의 일 실시예에 따른 오디오 시스템의 구성 요소를 나타내는 블록도이다.
도 2는 본 발명의 일 실시예에 따른 오디오 시스템에서 녹음된 신호를 획득하는 일 예를 나타내는 도면이다.
도 3은 본 발명의 일 실시예에 따른 오디오 시스템에서 오디오 신호 처리를 통한 HRTF 개인화 과정을 나타내는 도면이다.
도 4는 본 발명의 일 실시예에 따른 오디오 시스템에서 오디오 렌더링을 수행하는 일 예를 나타내는 도면이다.
도 5는 본 발명의 일 실시예에 따른 오디오 신호의 디코딩 및 재생 과정을 나타내는 도면이다.
도 6은 본 발명의 일 실시예에 따른 오디오 시스템에서의 오디오 신호 처리 방법의 순서도를 나타낸다.

이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

본 출원에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

이하에서는 이와 같이 구성된 오디오 시스템에서 구현될 수 있는 제어 방법과 관련된 실시 예들에 대해 첨부된 도면을 참조하여 살펴보겠다. 본 발명은 본 발명의 정신 및 필수적 특징을 벗어나지 않는 범위에서 다른 특정한 형태로 구체화될 수 있음은 당업자에게 자명하다.

도 1은 본 발명의 일 실시예에 따른 오디오 시스템의 구성 요소를 나타내는 블록도이다.

도 1을 참조하면, 본 발명의 오디오 시스템(100)은 마이크(110), HRTF 정보 추출부(120), 오디오 신호 생성부(130) 및 스피커(140)를 포함할 수 있다. 또한, 오디오 시스템(100)은 상술한 구성요소에 한정되지 아니하고, 변경 또는 부가될 수 있음은 자명하다. 또한, 본 발명에서는 오디오 시스템(100)으로 기재되어 있으나, 오디오 장치로 기재되어도 무방할 것이다.

마이크(110)는 사용자의 양쪽 귀에 장착되어 녹음된 신호를 획득할 수 있다. 본 발명에서 마이크(110)는 좌이에 장착된 제 1 마이크 및 우이에 장착된 제 2 마이크를 포함할 수 있으며, 이는 도 2에서 다시 설명하도록 한다.

HRTF 정보 추출부 (120)는 마이크(110)를 통해 획득된 신호를 기초로 하여, 개인화된 HRTF(Head-Related Transfer Function) 정보를 HRTF 데이터 베이스로부터 추출할 수 있다. 이때 청취자에 이용될 개인화된 HRTF 정보를 추출하는 과정과 관련하여 도 3에서 다시 설명하도록 한다.

오디오 신호 생성부(130)는 개인화된 HRTF 정보 및 공간 응답 중 적어도 하나를 기초로 하여, 스피커(140)에 출력된 오디오 신호를 생성할 수 있다. 보다 상세하게는, 오디오 신호 생성부(130)는 디코딩된 비트 스트림을 HRTF 정보 및 공간 응답(임펄스 응답)과 필터링하여, 출력되는 오디오 신호를 생성할 수 있다. 여기에서 출력되는 오디오 신호는 좌이 및 우이에 따라 상이하게 생성될 수 있다. 이와 관련하여, 도 4 및 도 5에서 설명하도록 한다.

스피커(140)는 생성된 오디오 신호를 출력할 수 있다. 본 발명에서의 스피커(140)는 헤드폰 또는 이어폰과 같이 양쪽 귀에 각각 출력되는 출력부에 해당할 수 있으며, 이에 한정되지 아니한다.

상술한 오디오 시스템(100)에 의해, 사용자는 개인화된 방향감과 고도감을 갖는 3차원 오디오 신호를 청취할 수 있게 된다.

이하에서는 도 2 내지 도 6을 참조하면 본 발명의 일 실시예에 따른 개인화된 HRTF 정보에 기초하여 3차원 오디오를 제공하는 방법을 상세하게 설명하기로 한다.

도 2는 본 발명의 일 실시예에 따른 오디오 시스템에서 녹음된 신호를 획득하는 일 예를 나타내는 도면이다.

오디오 시스템은 임의의 공간(210)에서 복수의 마이크(111,112)를 통해 스피커(210)에서 출력되는 오디오 신호를 획득할 수 있다. 여기에서, 임의의 공간(210)은 공간 반사가 일어나고, 잔향이 있는 상태에 해당할 수 있다. 즉, 무향실이 아닌 일반 환경에 해당한다. 또한, 도 2에서의 스피커(210)는 도 1에서 상술한 스피커(140)와는 상이한 것으로, 사용자의 HRTF 정보를 획득하기 위해 녹음된 신호를 획득하는데 이용되는 것에 해당한다.

도 2를 참조하면, 사용자의 좌이에 장착된 제 1 마이크(111) 및 우이에 장착된 제 2 마이크(112)를 통해, 응답 신호가 녹음 또는 획득될 수 있다. 예를 들어, 본 발명에서는 마이크(111, 112)와 스피커(220) 간의 거리는 약 1m이고, 마이크(111,112)로부터 방위각과 고도각은 약 0°인 위치에 스피커가 배치된 것으로 가정하고 설명하도록 한다.

여기에서, 녹음된 응답 신호는 어떤 형태의 소리가 모두 가능하며, 바람직하게는 전 대역(band)이 모두 포함되는 오디오 신호에 해당할 수 있다. 예를 들어, 녹음된 응답 신호는 화이트 노이즈(white noise), 피크 노이즈(peak noise) 등에 해당할 수 있으며, 이에 한정되지 아니한다.

이때, 오디오 시스템에서 획득한 녹음된 신호는 오디오 신호, 스피커의 고유 응답, 공간 응답과 HRTF의 컨볼루션(convolution) 상태로서, 아래의 수학식 1을 통해 정의될 수 있다.

여기에서, n은 타임 인덱스(time index), s_L(n)은 제 1 마이크(111)를 통해 획득된 신호, s_R(n)은 제 2 마이크(112)를 통해 획득된 신호, x(n)은 스피커(210)을 통해 재생된 신호, p_s(n)은 스피커(210)의 고유 응답, p_r(n)은 공간 응답, h_L(n) 및 h_R(n)은 각각 좌이의 HRTF 및 우이의 HRTF를 나타낸다.

도 3은 본 발명의 일 실시예에 따른 오디오 시스템에서 오디오 신호 처리를 통한 HRTF 개인화 과정을 나타내는 도면이다.

먼저, 도 2에서 상술한 바와 같이, 오디오 시스템은 획득된 신호를 수학식 1을 통해 계산할 수 있다. 또한, 오디오 시스템은 FFT(Fast Fourier Transform)을 통해, 획득된 신호를 주파수 축 신호(S_L(ω), S_R(ω))로 변환할 수 있으며, 변환된 신호는 아래의 수학식 2를 통해 정의될 수 있다.

여기에서, ω는 주파수 구간 인덱스(frequency bin index)를 나타낸다.

상술한 수학식에서, S_L(ω) 및 S_R(ω)은 아래의 수학식 3을 통해 계산될 수 있다.

여기에서,

다음으로, 본 발명에서는 획득된 신호 내에 포함된 HRTF 정보를 두 가지 방식으로 계산하는 방법을 설명하도록 한다.

보다 상세하게는, 본 발명에서 오디오 시스템은 획득된 신호 내에 포함된 사용자 HRTF 정보와 차이가 가장 작은 HRTF 데이터베이스 내에서의 HRTF 정보를 실제 사용자 HRTF 정보로서 간주하고 이를 사용하도록 HRTF 데이터베이스로부터 추출할 수 있다.

일 예로서, 도 3에 도시된 바와 같이, HRTF 정보는 사용자의 양쪽 귀의 응답 차이(E(ω))를 통해 추출할 수 있다. 먼저, 획득된 신호의 특성을 분석하기 위하여 R_L(ω) 및 R_R(ω)에 log를 적용한 수학식 4는 다음과 같다.

또한, 상기 수학식에서의 두 신호의 차는 다음 수학식 5와 같다.

여기에서, E(ω)는 사용자의 양쪽 귀의 응답 차이에 해당한다.

한편, 본 발명에서 오디오 시스템은 획득된 신호 내에 포함된 사용자 HRTF 정보와 HRTF 데이터베이스에 포함된 적어도 하나의 HRTF 정보 간의 차이를 비교할 수 있다. 이때, 사용자 HRTF 정보 및 적어도 하나의 HRTF 정보는 동일한 방위각 및 동일한 고도각에서의 정보가 서로 비교될 수 있다.

여기에서, HRTF 데이터 베이스는 사전에 특정 조건 하에서 측정된 정보 또는 온라인 상에서 참조가능한 데이터 베이스 등 다양한 방식으로 획득된 데이터 베이스를 모두 포함할 수 있을 것이다. 또한, HRTF 데이터베이스는 여러 실험자들이 전 방향에 대해서 측정한 HRTF 들을 포함할 수 있다.

만약 HRTF 데이터베이스를 구축할 때 모든 HRTF 들이 방위각과 고도각에 대하여 모두 5° 간격으로 측정되었다고 가정한다면, HRTF 데이버테이스 중 임의의 사용자로부터 측정된 전 방향에 대한 좌이와 우이의 HRTF는 다음의 수학식 6과 같다.

여기에서, h_refL _{_} _azi _{_} _ele _{, k}(n), h_refR _{_} _azi _{_} _ele _{, k}(n)은 k번째 각각 방위각 azi와 고도각 ele에서 측정된 좌측와 우측의 HRTF를 나타낸다. 또한, 첨자 ref는 HRTF 데이터베이스의 HRTF 를 나타내고, 첨자 k는 HRTF 데이터베이스의 k번째 피실험자를 나타낸다.

상술한 바와 같이, HRTF 데이터베이스는 여러 실험자들의 전 방향에서 측정한 HRTF를 포함할 수 있다. 전 방향은 전체 방위각(0° 내지 360°) 및 전체 고도각(약 -230° 내지 230°)에 해당할 수 있다. 다만, 3차원 오디오 청취시에 사용자의 3차원 공간의 전방향에 대한 HRTF를 취득하기 위해서는 많은 시간이 소요되며 과정이 복잡하기 때문에, 본 발명에서는 신호가 획득된 환경의 방위각과 고도각을 모두 약 0°인 조건에서 측정하는 것으로 가정하였는바, HRTF 데이버테이스 중 여러 실험자들의 전 방향의 HRTF 중 방위각과 고도각이 약 0°인 HRTF만 유효할 수 있다. 즉, 예를 들어, HRTF 데이터베이스가 100명의 실험자들의 정보가 포함된 경우, 100 명의 방위각과 고도각이 약 0°인 HRTF를 이용할 수 있다.

따라서, HRTF 데이터베이스 내에서 방위각과 고도각이 모두 0°인 모든 좌측과 우측의 HRTF 응답 차이를 계산하면 다음의 수학식 7로 나타낼 수 있다.

또한, 수학식 7에서 방위각과 고도각의 첨자를 제거하여 나타낸 수학식 8은 다음과 같다.

따라서, 사용자의 HRTF 특성 분석을 위해 방위각 및 고도각이 약 0°인 HRTF 들에 대해서 log를 적용하고 양쪽 귀의 응답차이를 계산하면 다음의 수학식 9에 해당한다.

여기에서, ref는 HRTF 데이터베이스에서의 HRTF를 나타내고, H_refL,k(ω), H_refR,k(ω)는 각각 HRTF 데이터베이스 내에서 k번째 실험자의 왼쪽과 오른쪽 HRTF를 나타낸다. 또한, 본 발명에서 수학식 5와 수학식 9는 각 주파수 성분 단위로 차이 값이 계산되기 때문에, 수학식 5 와 수학식 9의 차이가 작을수록 두 응답의 특성은 비슷한 것으로 추정할 수 있다.

한편, 수학식 5와 수학식 9의 차이를 비교하는 과정에서 측정 환경이 달라짐으로써 볼륨 차이가 있을 수 있으므로, 비교 직전에 각 응답의 크기를 정규화(normalization) 과정이 필요할 수 있다. 이는 E_ref(ω)의 경우, 스피커와 마이크의 거리가 일정한 상태에서 측정되었으나, E(ω)의 경우에는 E_ref(ω)와 측정 환경이 상이할 수 있기 때문이다.

또한, 오디오 시스템은 평균 제곱 오차(mean-square-error) 방법을 이용하여, 값이 최소가 되는 k를 계산하여, HRTF 데이터베이스 내에서 녹음된 신호의 HRTF와 가장 비슷한 최적(optimal)의 실험자의 HRTF 정보를 추출할 수 있고, 이는 수학식 10로 나타낼 수 있다.

여기에서, k_opt는 HRTF 데이터베이스 내에서 사용자의 HRTF 와의 차이를 최소화하는 최적의 실험자의 HRTF 인덱스를 나타낸다. 이를 통해, 오디오 시스템은 사용자의 HRTF와 가장 유사한 k번째 실험자의 HRTF 정보를 HRTF 데이터베이스로부터 추출할 수 있다.

여기에서, 추출된 실험자 k의 HRTF 정보는 k번째 실험자의 전 방향에 대한 HRTF(H _L, H _R)를 포함할 수 있다. 이와 관련하여, HRTF 특성 비교는 고도각과 방위각이 모두 약 0°인 경우에만 수행하였으나, 다른 각도에 대해서도 특성 비교 결과가 동일하다고 가정하여 k번째 실험자의 전방향에 대한 HRTF(H _L, H _R)를 HRTF 데이터베이스로부터 추출할 수 있을 것이다.

다른 일 예로서, 도 3에는 도시되지 않았으나, HRTF 정보는 HRTF 데이터베이스 내의 k번째 실험자의 왼쪽과 오른쪽 HRTF를 나누고 모든 주파수 대역에 대한 합을 통해 계산될 수 있고, 이는 수학식 11로 나타낼 수 있다.

만약 획득된 신호에 포함된 HRTF(H_L(ω), H_R(ω))가 HRTF 데이터베이스 내에서 임의의 실험자 k의 HRTF(H_refL,k(ω), H_refR,k(ω))와 같다고 가정하는 경우, 다음의 수학식 12로 나타낼 수 있다.

상기 수학식 12를 참조하면, H_L(ω), H_R(ω)의 특성이 H_refL,k(ω), H_refR,k(ω)의 특성과 비슷할수록 ∑(P(ω))에 수렴한다. 따라서, D_L,k와 D_R,k의 차이가 작을수록, HRTF 데이터베이스 내에서 HRTF와 획득된 신호 내의 HRTF 특성이 비슷한 것으로 간주할 수 있게 된다.

즉, 오디오 시스템은 HRTF 데이터베이스 내에서 녹음된 신호의 HRTF와 가장 비슷한 최적의 실험자의 HRTF 정보를 추출할 수 있고, 이는 수학식 13으로 나타낼 수 있다.

또한, 오디오 시스템은 최적의 실험자 k_opt를 계산한 후에, HRFT 데이터베이스 내에서 k번째 실험자의 전 방향 HRTF(H _L, H _R)를 추출할 수 있다.

도 3의 실시예에 나타난 HTRF 개인화 과정은 청취자에 대하여 처음 한 번만 수행되며, 이후 재사용시에는 개인화 과정이 다시 수행되지 않을 수 있다.

도 4는 본 발명의 일 실시예에 따른 오디오 시스템에서 오디오 렌더링을 수행하는 일 예를 나타내는 도면이다.

도 4에서 410 블록에 포함된 과정은 도 2 및 도 3에서 설명하였는바, 이에 대하여 생략하도록 한다. 오디오 시스템은 k번째 실험자의 전 방향 HRTF(H _L, H _R)를 전부 추출하여, 이를 실제 사용자의 HRTF 정보인 것으로 간주할 수 있다.

다음으로, 420 블록을 참조하면, 오디오 시스템은 트래킹 정보(θ,φ)를 참조하여, 추출된 양쪽 귀의 HRTF(h_L,k(θ,φ,n), h_R,k(θ,φ,n))과 공간 응답(room response generation)을 통해 생성된 임펄스 응답 ir(n)을 디코딩된 오디오 신호에 필터링하면 (θ,φ) 방향으로 렌더링된 신호 (Output_L(n), Output_R(n))를 계산할 수 있다. 여기에서, 디코딩된 오디오 신호는 비트스트림이 오디오 디코더에 입력되어 출력된 신호에 해당한다. 이때, 공간 응답은 공간 정보(공간 형태, 공간 크기 등) 및 트래킹 정보에 기초하여 생성될 수 있다.

또한, 양쪽 귀의 HRTF는 방위각과 고도각을 포함하는 트래킹 정보를 기초로하여 추출될 수 있다. 도 2 및 3에서 상술한 바와 같이, 양쪽 귀의 HRTF는 렌더링을 수행하기 전에 HRTF 개인화 과정을 수행하여 획득하게 된다.

도 5는 본 발명의 일 실시예에 따른 오디오 신호의 디코딩 및 재생 과정을 나타내는 도면이다.

도 5를 참조하면, 먼저 오디오 시스템에서 오디오 디코더(decoder)(510)로 입력되는 비트스트림은 오디오 압축 파일 형태(예를 들어, .mp3, .aac 등)로 인코더로부터 전송되며, 비트스트림을 해석할 수 있는 오디오 디코더(510)를 이용하여 오디오 신호를 디코딩할 수 있다. 예를 들어, 디코딩된 오디오 신호는 PCM(.pcm) 신호에 해당할 수 있으며, 이에 한정되지 아니한다. 다음으로, 디코딩된 오디오 신호는 렌더러(renderer)(520)로 입력될 수 있다.

도 3 및 도 4에서 상술한 바와 같이, 오디오 시스템은 렌더러(520) 내부에서 HRTF 개인화 과정을 위해 임의의 공간에서 신호를 녹음하고 사용자 HRTF를 분석하여 보유한 HRTF 데이터 베이스 중 특성이 가장 유사한 HRTF 정보를 획득할 수 있다. 즉, 획득된 HRTF 정보는 HRTF 데이터베이스 내에서 사용자의 신체정보 특성에 매칭되는 HRTF에 해당할 수 있다.

다음으로, 오디오 시스템은 트래킹 정보에 기초하여 임의의 방향에 대한 HRTF를 선택하고, 공간 정보를 참조하여 생성된 공간 응답과 함께 디코딩된 오디오 신호에 필터링하여 좌 신호와 우 신호를 출력할 수 있다. 각각의 좌 신호와 우 신호는 D/A 컨버터(530) 및 증폭기(amp)(540)를 통해 헤드폰 또는 이어폰(550)에서 재생될 수 있다.

이를 통해, 좌신호와 우신호를 헤드폰 또는 이어폰을 이용하여 청취하게 되면, 청취자는 음상이 공간상의 임의의 위치에 정위된 것과 같이 느낄 수 있게 된다. 또한, 청취자는 동시에 자신의 신체 정보 특성과 유사한 HRTF 를 이용함으로써 음상이 부정확하게 정위될 가능성이 최소화될 수 있다.

도 6은 본 발명의 일 실시예에 따른 오디오 시스템에서의 오디오 신호 처리 방법의 순서도를 나타낸다.

먼저, 오디오 시스템은 비트 스트림을 디코딩하여 디코딩 신호를 생성할 수 있다(S610). S610 단계의 경우, 먼저 수행되거나 S670 단계 이전에 수행될 수도 있다.

또한, 오디오 시스템은 녹음된 신호를 획득할 수 있다(S620). 이때, 도 2에서 상술한 바와 같이, 사용자의 양쪽 귀에 부착된 복수의 마이크를 통해 녹음된 신호를 획득할 수 있다. 다음으로, 오디오 시스템은 녹음된 신호로부터 사용자HRTF 정보를 추출하고(S630), 사용자 HRTF 정보와 HRTF 데이터베이스의 적어도 하나의 HRTF 정보와 차이를 비교할 수 있다(S640). 이와 관련하여, 도 3에서 상술한 바와 같이, 특정 고도각 및 특정 방위각에서의 HRTF의 차이를 비교할 수 있다.

한편, 오디오 시스템은 HRTF 데이터베이스로부터 사용자 HRTF 정보와 가장 유사한 제 1 HRTF 정보를 추출할 수 있다(S650). 이와 관련하여, 제 1 HRTF 정보는 전 방향의 HRTF 정보를 포함할 수 있다. 또한, 제 1 HRTF 정보는 사용자의 개인화된 HRTF 정보에 해당하는 것으로 추정할 수 있다.

또한, 오디오 시스템은 녹음된 신호의 트래킹 정보에 기초하여 제 2 HRTF 정보 중에서 제 2 방향각, 제 2 고도각에서의 HRTF 정보를 선택할 수 있다(S660). 다음으로, 오디오 시스템은 S610 단계에서 생성된 디코딩 신호에 선택된 HRTF 정보를 필터링하여 출력 오디오 신호를 생성할 수 있다(S670).

나아가, 설명의 편의를 위하여 각 도면을 나누어 설명하였으나, 각 도면에 서술되어 있는 실시예들을 병합하여 새로운 실시예를 구현하도록 설계하는 것도 가능하다.

또한, 오디오 신호 처리 방법 및 오디오 시스템은 상기한 바와 같이 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시 예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.

전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한, 상기 컴퓨터는 단말기의 제어부(180)를 포함할 수도 있다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

100: 오디오 시스템
110: 마이크
120: HRTF 정보 추출부
130: 오디오 신호 생성부
140: 스피커

Claims

사용자의 양쪽 귀에 장착된 복수의 마이크를 통해 녹음된 신호를 획득하는 단계;
상기 녹음된 신호로부터 사용자 HRTF(Head Related Transfer Function) 정보를 추출하는 단계로서, 상기 사용자 HRTF 정보는 제 1 방위각 및 제 1 고도각에서 측정된 HRTF에 해당함; 및
상기 사용자 HRTF 정보와 HRTF 데이터베이스에 포함된 적어도 하나의 HRTF 정보의 차이를 계산하는 단계로서, 상기 적어도 하나의 HRTF 정보는 전 방향에 대한 HRTF 중 상기 제 1 방위각 및 상기 제 1 고도각에서 측정된 HRTF에 해당하는, 오디오 신호 처리 방법.
제 1 항에 있어서
상기 HRTF 데이터베이스로부터 사용자 HRTF 정보와 매칭되는 제 1 HRTF 정보를 추출하는 단계를 더 포함하는, 오디오 신호 처리 방법.
제 2 항에 있어서
상기 제 1 HRTF 정보는 상기 제 1 방위각 및 상기 제 1 고도각에서 상기 사용자 HRTF 정보와의 차이가 최소인 정보로서, 전 방향에 대한 HRTF를 포함하는, 오디오 신호 처리 방법.
제 2 항에 있어서
상기 제 1 HRTF 정보는 상기 사용자의 개인화된 HRTF 정보에 해당하는, 오디오 신호 처리 방법.
제 2 항에 있어서
상기 제 1 HRTF 정보는 상기 HRTF 데이터베이스 내에서 상기 사용자 의 신체정보 특성에 매칭되는 HRTF인, 오디오 신호 처리 방법.
제 3 항에 있어서
상기 제 1 HRTF 정보를 추출하는 단계는 사용자 HRTF 정보 및 상기 HRTF 데이터베이스에 포함된 적어도 하나의 HRTF 정보의 좌이와 우이 간의 응답 차이를 비교하여 계산하는, 오디오 신호 처리 방법.
제 2 항에 있어서
트래킹 정보에 기초하여, 상기 제 1 HRTF 정보 중에서 제 2 방위각 및 제 2 고도각에서의 HRTF 인 제 2 HRTF 정보를 선택하는 단계를 더 포함하는, 오디오 신호 처리 방법.
제 5 항에 있어서
비트 스트림을 디코딩하여 디코딩 오디오 신호를 생성하는 단계; 및
상기 디코딩 오디오 신호에 상기 제 2 HRTF 정보 및 공간 응답을 필터링하여 출력 오디오 신호를 생성하는 단계를 더 포함하는, 오디오 신호 처리 방법.
오디오 시스템에 있어서,
녹음된 신호를 획득하는 마이크; 및
HRTF(Head Related Transfer Function) 정보 추출부를 포함하고,
상기 HRTF 정보 추출부는
상기 녹음된 신호로부터 사용자 HRTF정보를 추출하되, 상기 사용자 HRTF 정보는 제 1 방위각 및 제 1 고도각에서 측정된 HRTF에 해당하고,
상기 사용자 HRTF 정보와 HRTF 데이터베이스에 포함된 적어도 하나의 HRTF 정보의 차이를 계산하되, 상기 적어도 하나의 HRTF 정보는 전 방향에 대한 HRTF 중 상기 제 1 방위각 및 상기 제 1 고도각에서 측정된 HRTF에 해당하는, 오디오 시스템.
제 9 항에 있어서,
상기 HRTF 정보 추출부는
상기 HRTF 데이터베이스로부터 사용자 HRTF 정보와 매칭되는 제 1 HRTF 정보를 추출하는 것을 더 포함하는, 오디오 시스템.