KR20150081541A

KR20150081541A - 사용자의 머리전달함수 기반 음향 조절 방법 및 장치

Info

Publication number: KR20150081541A
Application number: KR1020140001142A
Authority: KR
Inventors: 임우택
Original assignee: 한국전자통신연구원
Priority date: 2014-01-06
Filing date: 2014-01-06
Publication date: 2015-07-15

Abstract

본 명세서는 사용자의 머리전달함수 기반 음향 조절 방법 및 장치에 관한 것이다. 이러한 본 명세서는 사용자의 얼굴을 포함하는 영상으로부터 사용자의 얼굴을 검출하는 얼굴 검출부, 상기 영상으로부터 상기 사용자를 촬영한 카메라와 상기 사용자의 얼굴 사이의 거리를 추정하고, 상기 추정된 거리에 기반하여 상기 사용자의 두상의 특징을 계산하는 얼굴 모델링부, 상기 계산된 두상의 특징을 기반으로 상기 사용자에 적합한 머리전달함수를 데이터베이스로부터 검색하는 데이터베이스 검색부, 상기 머리전달함수를 기반으로 상기 사용자에 적합한 바이노럴(binoral) 음원을 합성하는 입체음향 적용부를 포함하는 음향 조절 장치를 제공한다.

Description

사용자의 머리전달함수 기반 음향 조절 방법 및 장치{Method and Apparatus for Controlling Audio Based on Head Related Transfer Function of User}

본 발명은 음향 조절에 관한 것으로, 보다 구체적으로는 사용자의 머리전달함수에 기반한 음향 조절 방법 및 장치에 관한 것이다.

다채널로 입체음향을 구현하는 5.1채널 오디오와 같은 방식은 보편적으로 적용되는 입체음향 구현 방법이다. 그러나 이러한 방식은 최소 5개의 스피커와 임장감(presence)을 제공하기 위한 서브우퍼 스피커를 설치하여야 하기 때문에 다소 번거롭다. 이러한 이유로 사람이 두 귀로 방향을 인지하는 원리와 같은 방법으로 머리전달함수(HRTF: head related transfer function)를 이용한 2채널 입체음향을 재생하는 방법이 고안되어 영화나 게임 등에 적용되고 있다. 2채널 입체음향은 기존 5.1채널 방식에 비하여 두 개의 스피커 또는 헤드폰으로 음향을 청취하기에 유용하다.

본 발명의 기술적 과제는 사용자의 머리전달함수 기반 음향 조절 방법 및 장치를 제공함에 있다.

본 발명의 다른 기술적 과제는 데이터베이스로부터 사용자에게 적합한 머리전달함수를 선택하여 가상입체음향을 전달하는 사용자의 머리전달함수 기반 음향 조절 방법 및 장치를 제공함에 있다.

본 발명의 일 양태에 따르면, 사용자의 머리전달함수 기반 음향 조절 장치가 제공된다. 상기 음향 조절 장치는 사용자의 얼굴을 포함하는 영상으로부터 사용자의 얼굴을 검출하는 얼굴 검출부, 상기 영상으로부터 상기 사용자를 촬영한 카메라와 상기 사용자의 얼굴 사이의 거리를 추정하고, 상기 추정된 거리에 기반하여 상기 사용자의 두상의 특징을 계산하는 얼굴 모델링부, 상기 계산된 두상의 특징을 기반으로 상기 사용자에 적합한 머리전달함수를 데이터베이스로부터 검색하는 데이터베이스 검색부, 상기 머리전달함수를 기반으로 상기 사용자에 적합한 바이노럴(binoral) 음원을 합성하는 입체음향 적용부를 포함하여 구현될 수 있다.

본 발명의 다른 양태에 따르면, 상기 두상의 특징은 얼굴의 크기, 머리의 길이, 두 귀 사이 거리 중 적어도 하나 이상을 포함하여 구현될 수 있다.

본 발명의 또 다른 양태에 따르면, 상기 두상의 특징에 대한 상기 머리전달함수를 저장하는 데이터베이스를 더 포함하여 구현될 수 있다.

본 발명의 또 다른 양태에 따르면, 상기 얼굴 검출부는 상기 사용자의 얼굴을 촬영하는 카메라 모듈을 포함하여 구현될 수 있다.

본 발명의 또 다른 양태에 따르면, 상기 얼굴 검출부는 상기 사용자의 얼굴을 포함하는 영상을 다른 장치로부터 불러오는 입출력 모듈을 더 포함하여 구현될 수 있다.

본 발명에 따르면, 데이터베이스로부터 사용자에게 적합한 머리전달함수를 선택하여 사용자에게 적합한 바이노럴 가상입체음향을 전달할 수 있다.

도 1은 머리전달함수의 데이터베이스를 수집하는 방법의 일례를 도시한다.
도 2는 본 발명에 따른 얼굴 모델링 기반 음향 조절 장치를 도시하는 블록도이다.
도 3은 본 발명에 따른 얼굴 모델링 기반 음향 조절 방법의 흐름도이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "??quot; 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

이제 첨부한 도면을 참조하여 본 발명의 실시형태에 대하여 설명한다.

머리전달함수(HRTF: head related transfer function)란 어떠한 특정 점에서의 음향 신호가 귀까지 도달하는 전달 경로의 특성을 말한다. 즉, 사람이 음원의 위치를 파악하는 중요한 정보를 포함하는 임펄스 응답이다. 머리전달함수는 가상 입체음향에서 중요한 역할을 한다. 이러한 가상음향을 헤드폰을 이용하여 재생하는 방법은 다음과 같다. 사람이 음을 지각하는 수단이 고막으로 들어오는 음파에만 의존한다고 가정할 때 사람의 귀로 들어오는 음을 직접 녹음하여 들려주어도 같은 효과를 낼 수 있다. 이렇게 녹음된 음을 바탕으로 진폭과 위상 등을 조절하여 재생하는 방법을 바이노럴(binaural) 재생이라고 한다. 바이노럴 오디오는 주로 헤드폰이나 이어폰 등을 이용하여 재생하는데 이를 위해서는 원하는 위치에 대한 귀의 응답, 또는 기준 지점에서부터 귀까지의 머리전달 함수 데이터베이스가 필요하다.

도 1은 머리전달함수의 데이터베이스를 수집하는 방법의 일례를 도시한다. 도 1을 참조하면, 머리전달함수의 데이터베이스를 수집하기 위해서는 두 귀에 들어오는 소리의 크기 차이 및 시간 차이를 이용하여야 한다. 하지만, 사람마다 머리의 너비나 높이, 양쪽 귀 차이의 거리 등 신체적 요소에 따라서 적합한 머리전달 함수 데이터베이스가 다르다. 따라서, 기존에 구축된 데이터베이스 중 본인에게 가장 적합한 데이터베이스를 선택하기 위해서는 각각의 데이터베이스로 재현된 가상의 음원을 청취한 후, 가장 자연스럽게 재생되는 데이터를 선택하는 방법을 이용할 수 있다.

도 2는 본 발명에 따른 얼굴 모델링 기반 음향 조절 장치(200)를 도시하는 블록도이다.

도 2를 참조하면, 본 발명에 따른 음향 조절 장치는 얼굴 검출부(210), 얼굴 모델링부(220), 데이터베이스 검색부(230), 입체음향 적용부(240), HRTF(head related transfer function) 데이터베이스(250)를 포함하여 구성된다.

얼굴 검출부(210)는 사용자의 얼굴을 포함하는 영상으로부터 사용자의 얼굴을 검출한다. 얼굴 검출에는 현재 상용 또는 연구적으로 사용되고 있는 다양한 얼굴 검출 알고리즘을 이용할 수 있다. 얼굴 검출부(210)는 사용자의 얼굴을 촬영하는 카메라 모듈을 포함할 수 있고, 사용자의 얼굴을 포함하는 영상을 다른 장치로부터 입력받을 수 있는 입출력 모듈을 포함할 수도 있다.

얼굴 모델링부(220)는 사용자의 얼굴을 포함하는 영상으로부터 사용자를 촬영한 카메라와 사용자의 얼굴 사이의 거리를 추정하여, 사용자 얼굴의 크기, 머리의 폭, 머리의 길이, 두 귀 사이의 거리 등을 모델링하고 계산한다. 본 발명에서는 상기 사용자 얼굴의 크기, 머리의 폭, 머리의 길이, 두 귀 사이의 거리 등을 두상의 특징으로 정의한다. 만약, 사용자를 촬영한 영상이 스테레오 비전인 경우에는 두 영상간의 차이를 기반으로 카메라와 사용자의 거리를 추정할 수 있다. 또한, 사용자를 촬영한 영상이 깊이맵 영상인 경우에는 촬영된 영상을 기반으로 카메라와 사용자의 거리를 추정할 수 있다.

데이터베이스 검색부(230)는 얼굴 모델링부(220)에서 계산된 두상의 특징을 기반으로 사용자에 가장 적합한 머리전달함수를 HRTF 데이터베이스(250)로부터 검색한다.

입체음향 적용부(240)는 사용자가 가상음향을 설정할 경우, 데이터베이스 검색부(230)에서 검색된 머리전달함수를 기반으로 사용자에 적합한 바이노럴(binoral) 음원을 합성한다.

HRTF 데이터베이스(250)는 두상의 특징에 대한 머리전달함수를 저장한다.

도 3은 본 발명에 따른 얼굴 모델링 기반 음향 조절 방법의 흐름도이다.

먼저, 음향 조절 장치(200)는 사용자의 얼굴을 포함하는 영상을 기반으로 사용자의 얼굴을 검출한다(S310). 얼굴 검출에는 현재 상용 또는 연구적으로 사용되고 있는 다양한 얼굴 검출 알고리즘을 이용할 수 있다. 사용자의 얼굴을 포함하는 영상은 사용자의 얼굴을 직접 촬영함으로써 획득될 수 있고, 사용자의 얼굴을 포함하는 영상을 다른 장치로부터 입력받음으로써 획득될 수도 있다.

다음으로, 음향 조절 장치(200)는 사용자의 얼굴을 포함하는 영상으로부터 사용자를 촬영한 카메라와 사용자의 얼굴 사이의 거리를 추정하여, 사용자 얼굴의 크기, 머리의 폭, 머리의 길이, 두 귀 사이의 거리 등을 모델링하고 계산한다(S320). 만약, 사용자를 촬영한 영상이 스테레오 비전인 경우에는 두 영상간의 차이를 기반으로 카메라와 사용자의 거리를 추정할 수 있다. 또한, 사용자를 촬영한 영상이 깊이맵 영상인 경우에는 촬영된 영상을 기반으로 카메라와 사용자의 거리를 추정할 수 있다.

다음으로, 음향 조절 장치(200)는 단계 S320에서 계산된 두상의 특징을 기반으로 사용자에 가장 적합한 머리전달함수를 데이터베이스로부터 검색한다(S330).

머리전달함수가 검색되면, 검색된 머리전달함수를 기반으로 사용자에 적합한 바이노럴 음원을 합성한다(S340).

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

사용자의 머리전달함수 기반 음향 조절 장치로서,
사용자의 얼굴을 포함하는 영상으로부터 사용자의 얼굴을 검출하는 얼굴 검출부;
상기 영상으로부터 상기 사용자를 촬영한 카메라와 상기 사용자의 얼굴 사이의 거리를 추정하고, 상기 추정된 거리에 기반하여 상기 사용자의 두상의 특징을 계산하는 얼굴 모델링부;
상기 계산된 두상의 특징을 기반으로 상기 사용자에 적합한 머리전달함수를 데이터베이스로부터 검색하는 데이터베이스 검색부;
상기 머리전달함수를 기반으로 상기 사용자에 적합한 바이노럴(binoral) 음원을 합성하는 입체음향 적용부
를 포함하는 것을 특징으로 하는 음향 조절 장치.