KR20150081541A - 사용자의 머리전달함수 기반 음향 조절 방법 및 장치 - Google Patents

사용자의 머리전달함수 기반 음향 조절 방법 및 장치 Download PDF

Info

Publication number
KR20150081541A
KR20150081541A KR1020140001142A KR20140001142A KR20150081541A KR 20150081541 A KR20150081541 A KR 20150081541A KR 1020140001142 A KR1020140001142 A KR 1020140001142A KR 20140001142 A KR20140001142 A KR 20140001142A KR 20150081541 A KR20150081541 A KR 20150081541A
Authority
KR
South Korea
Prior art keywords
user
face
transfer function
head
present
Prior art date
Application number
KR1020140001142A
Other languages
English (en)
Inventor
임우택
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020140001142A priority Critical patent/KR20150081541A/ko
Publication of KR20150081541A publication Critical patent/KR20150081541A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Stereophonic System (AREA)

Abstract

본 명세서는 사용자의 머리전달함수 기반 음향 조절 방법 및 장치에 관한 것이다. 이러한 본 명세서는 사용자의 얼굴을 포함하는 영상으로부터 사용자의 얼굴을 검출하는 얼굴 검출부, 상기 영상으로부터 상기 사용자를 촬영한 카메라와 상기 사용자의 얼굴 사이의 거리를 추정하고, 상기 추정된 거리에 기반하여 상기 사용자의 두상의 특징을 계산하는 얼굴 모델링부, 상기 계산된 두상의 특징을 기반으로 상기 사용자에 적합한 머리전달함수를 데이터베이스로부터 검색하는 데이터베이스 검색부, 상기 머리전달함수를 기반으로 상기 사용자에 적합한 바이노럴(binoral) 음원을 합성하는 입체음향 적용부를 포함하는 음향 조절 장치를 제공한다.

Description

사용자의 머리전달함수 기반 음향 조절 방법 및 장치{Method and Apparatus for Controlling Audio Based on Head Related Transfer Function of User}
본 발명은 음향 조절에 관한 것으로, 보다 구체적으로는 사용자의 머리전달함수에 기반한 음향 조절 방법 및 장치에 관한 것이다.
다채널로 입체음향을 구현하는 5.1채널 오디오와 같은 방식은 보편적으로 적용되는 입체음향 구현 방법이다. 그러나 이러한 방식은 최소 5개의 스피커와 임장감(presence)을 제공하기 위한 서브우퍼 스피커를 설치하여야 하기 때문에 다소 번거롭다. 이러한 이유로 사람이 두 귀로 방향을 인지하는 원리와 같은 방법으로 머리전달함수(HRTF: head related transfer function)를 이용한 2채널 입체음향을 재생하는 방법이 고안되어 영화나 게임 등에 적용되고 있다. 2채널 입체음향은 기존 5.1채널 방식에 비하여 두 개의 스피커 또는 헤드폰으로 음향을 청취하기에 유용하다.
본 발명의 기술적 과제는 사용자의 머리전달함수 기반 음향 조절 방법 및 장치를 제공함에 있다.
본 발명의 다른 기술적 과제는 데이터베이스로부터 사용자에게 적합한 머리전달함수를 선택하여 가상입체음향을 전달하는 사용자의 머리전달함수 기반 음향 조절 방법 및 장치를 제공함에 있다.
본 발명의 일 양태에 따르면, 사용자의 머리전달함수 기반 음향 조절 장치가 제공된다. 상기 음향 조절 장치는 사용자의 얼굴을 포함하는 영상으로부터 사용자의 얼굴을 검출하는 얼굴 검출부, 상기 영상으로부터 상기 사용자를 촬영한 카메라와 상기 사용자의 얼굴 사이의 거리를 추정하고, 상기 추정된 거리에 기반하여 상기 사용자의 두상의 특징을 계산하는 얼굴 모델링부, 상기 계산된 두상의 특징을 기반으로 상기 사용자에 적합한 머리전달함수를 데이터베이스로부터 검색하는 데이터베이스 검색부, 상기 머리전달함수를 기반으로 상기 사용자에 적합한 바이노럴(binoral) 음원을 합성하는 입체음향 적용부를 포함하여 구현될 수 있다.
본 발명의 다른 양태에 따르면, 상기 두상의 특징은 얼굴의 크기, 머리의 길이, 두 귀 사이 거리 중 적어도 하나 이상을 포함하여 구현될 수 있다.
본 발명의 또 다른 양태에 따르면, 상기 두상의 특징에 대한 상기 머리전달함수를 저장하는 데이터베이스를 더 포함하여 구현될 수 있다.
본 발명의 또 다른 양태에 따르면, 상기 얼굴 검출부는 상기 사용자의 얼굴을 촬영하는 카메라 모듈을 포함하여 구현될 수 있다.
본 발명의 또 다른 양태에 따르면, 상기 얼굴 검출부는 상기 사용자의 얼굴을 포함하는 영상을 다른 장치로부터 불러오는 입출력 모듈을 더 포함하여 구현될 수 있다.
본 발명에 따르면, 데이터베이스로부터 사용자에게 적합한 머리전달함수를 선택하여 사용자에게 적합한 바이노럴 가상입체음향을 전달할 수 있다.
도 1은 머리전달함수의 데이터베이스를 수집하는 방법의 일례를 도시한다.
도 2는 본 발명에 따른 얼굴 모델링 기반 음향 조절 장치를 도시하는 블록도이다.
도 3은 본 발명에 따른 얼굴 모델링 기반 음향 조절 방법의 흐름도이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "??quot; 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
이제 첨부한 도면을 참조하여 본 발명의 실시형태에 대하여 설명한다.
머리전달함수(HRTF: head related transfer function)란 어떠한 특정 점에서의 음향 신호가 귀까지 도달하는 전달 경로의 특성을 말한다. 즉, 사람이 음원의 위치를 파악하는 중요한 정보를 포함하는 임펄스 응답이다. 머리전달함수는 가상 입체음향에서 중요한 역할을 한다. 이러한 가상음향을 헤드폰을 이용하여 재생하는 방법은 다음과 같다. 사람이 음을 지각하는 수단이 고막으로 들어오는 음파에만 의존한다고 가정할 때 사람의 귀로 들어오는 음을 직접 녹음하여 들려주어도 같은 효과를 낼 수 있다. 이렇게 녹음된 음을 바탕으로 진폭과 위상 등을 조절하여 재생하는 방법을 바이노럴(binaural) 재생이라고 한다. 바이노럴 오디오는 주로 헤드폰이나 이어폰 등을 이용하여 재생하는데 이를 위해서는 원하는 위치에 대한 귀의 응답, 또는 기준 지점에서부터 귀까지의 머리전달 함수 데이터베이스가 필요하다.
도 1은 머리전달함수의 데이터베이스를 수집하는 방법의 일례를 도시한다. 도 1을 참조하면, 머리전달함수의 데이터베이스를 수집하기 위해서는 두 귀에 들어오는 소리의 크기 차이 및 시간 차이를 이용하여야 한다. 하지만, 사람마다 머리의 너비나 높이, 양쪽 귀 차이의 거리 등 신체적 요소에 따라서 적합한 머리전달 함수 데이터베이스가 다르다. 따라서, 기존에 구축된 데이터베이스 중 본인에게 가장 적합한 데이터베이스를 선택하기 위해서는 각각의 데이터베이스로 재현된 가상의 음원을 청취한 후, 가장 자연스럽게 재생되는 데이터를 선택하는 방법을 이용할 수 있다.
도 2는 본 발명에 따른 얼굴 모델링 기반 음향 조절 장치(200)를 도시하는 블록도이다.
도 2를 참조하면, 본 발명에 따른 음향 조절 장치는 얼굴 검출부(210), 얼굴 모델링부(220), 데이터베이스 검색부(230), 입체음향 적용부(240), HRTF(head related transfer function) 데이터베이스(250)를 포함하여 구성된다.
얼굴 검출부(210)는 사용자의 얼굴을 포함하는 영상으로부터 사용자의 얼굴을 검출한다. 얼굴 검출에는 현재 상용 또는 연구적으로 사용되고 있는 다양한 얼굴 검출 알고리즘을 이용할 수 있다. 얼굴 검출부(210)는 사용자의 얼굴을 촬영하는 카메라 모듈을 포함할 수 있고, 사용자의 얼굴을 포함하는 영상을 다른 장치로부터 입력받을 수 있는 입출력 모듈을 포함할 수도 있다.
얼굴 모델링부(220)는 사용자의 얼굴을 포함하는 영상으로부터 사용자를 촬영한 카메라와 사용자의 얼굴 사이의 거리를 추정하여, 사용자 얼굴의 크기, 머리의 폭, 머리의 길이, 두 귀 사이의 거리 등을 모델링하고 계산한다. 본 발명에서는 상기 사용자 얼굴의 크기, 머리의 폭, 머리의 길이, 두 귀 사이의 거리 등을 두상의 특징으로 정의한다. 만약, 사용자를 촬영한 영상이 스테레오 비전인 경우에는 두 영상간의 차이를 기반으로 카메라와 사용자의 거리를 추정할 수 있다. 또한, 사용자를 촬영한 영상이 깊이맵 영상인 경우에는 촬영된 영상을 기반으로 카메라와 사용자의 거리를 추정할 수 있다.
데이터베이스 검색부(230)는 얼굴 모델링부(220)에서 계산된 두상의 특징을 기반으로 사용자에 가장 적합한 머리전달함수를 HRTF 데이터베이스(250)로부터 검색한다.
입체음향 적용부(240)는 사용자가 가상음향을 설정할 경우, 데이터베이스 검색부(230)에서 검색된 머리전달함수를 기반으로 사용자에 적합한 바이노럴(binoral) 음원을 합성한다.
HRTF 데이터베이스(250)는 두상의 특징에 대한 머리전달함수를 저장한다.
도 3은 본 발명에 따른 얼굴 모델링 기반 음향 조절 방법의 흐름도이다.
먼저, 음향 조절 장치(200)는 사용자의 얼굴을 포함하는 영상을 기반으로 사용자의 얼굴을 검출한다(S310). 얼굴 검출에는 현재 상용 또는 연구적으로 사용되고 있는 다양한 얼굴 검출 알고리즘을 이용할 수 있다. 사용자의 얼굴을 포함하는 영상은 사용자의 얼굴을 직접 촬영함으로써 획득될 수 있고, 사용자의 얼굴을 포함하는 영상을 다른 장치로부터 입력받음으로써 획득될 수도 있다.
다음으로, 음향 조절 장치(200)는 사용자의 얼굴을 포함하는 영상으로부터 사용자를 촬영한 카메라와 사용자의 얼굴 사이의 거리를 추정하여, 사용자 얼굴의 크기, 머리의 폭, 머리의 길이, 두 귀 사이의 거리 등을 모델링하고 계산한다(S320). 만약, 사용자를 촬영한 영상이 스테레오 비전인 경우에는 두 영상간의 차이를 기반으로 카메라와 사용자의 거리를 추정할 수 있다. 또한, 사용자를 촬영한 영상이 깊이맵 영상인 경우에는 촬영된 영상을 기반으로 카메라와 사용자의 거리를 추정할 수 있다.
다음으로, 음향 조절 장치(200)는 단계 S320에서 계산된 두상의 특징을 기반으로 사용자에 가장 적합한 머리전달함수를 데이터베이스로부터 검색한다(S330).
머리전달함수가 검색되면, 검색된 머리전달함수를 기반으로 사용자에 적합한 바이노럴 음원을 합성한다(S340).
본 발명에 따르면, 데이터베이스로부터 사용자에게 적합한 머리전달함수를 선택하여 사용자에게 적합한 바이노럴 가상입체음향을 전달할 수 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (1)

  1. 사용자의 머리전달함수 기반 음향 조절 장치로서,
    사용자의 얼굴을 포함하는 영상으로부터 사용자의 얼굴을 검출하는 얼굴 검출부;
    상기 영상으로부터 상기 사용자를 촬영한 카메라와 상기 사용자의 얼굴 사이의 거리를 추정하고, 상기 추정된 거리에 기반하여 상기 사용자의 두상의 특징을 계산하는 얼굴 모델링부;
    상기 계산된 두상의 특징을 기반으로 상기 사용자에 적합한 머리전달함수를 데이터베이스로부터 검색하는 데이터베이스 검색부;
    상기 머리전달함수를 기반으로 상기 사용자에 적합한 바이노럴(binoral) 음원을 합성하는 입체음향 적용부
    를 포함하는 것을 특징으로 하는 음향 조절 장치.
KR1020140001142A 2014-01-06 2014-01-06 사용자의 머리전달함수 기반 음향 조절 방법 및 장치 KR20150081541A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140001142A KR20150081541A (ko) 2014-01-06 2014-01-06 사용자의 머리전달함수 기반 음향 조절 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140001142A KR20150081541A (ko) 2014-01-06 2014-01-06 사용자의 머리전달함수 기반 음향 조절 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20150081541A true KR20150081541A (ko) 2015-07-15

Family

ID=53793348

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140001142A KR20150081541A (ko) 2014-01-06 2014-01-06 사용자의 머리전달함수 기반 음향 조절 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20150081541A (ko)

Similar Documents

Publication Publication Date Title
US10659908B2 (en) System and method to capture image of pinna and characterize human auditory anatomy using image of pinna
CN106576203B (zh) 确定和使用房间优化传输函数
JP6824155B2 (ja) 音声再生システム及び方法
EP3363212A1 (en) Distributed audio capture and mixing
US11528577B2 (en) Method and system for generating an HRTF for a user
WO2016074734A1 (en) Audio signal processing device and method for reproducing a binaural signal
US10880669B2 (en) Binaural sound source localization
US9392367B2 (en) Sound reproduction apparatus and sound reproduction method
US11546703B2 (en) Methods for obtaining and reproducing a binaural recording
US10652686B2 (en) Method of improving localization of surround sound
JP6596896B2 (ja) 頭部伝達関数選択装置、頭部伝達関数選択方法、頭部伝達関数選択プログラム、音声再生装置
US11221820B2 (en) System and method for processing audio between multiple audio spaces
JP5754595B2 (ja) トランスオーラルシステム
KR102121748B1 (ko) 입체 사운드를 재생하는 방법 및 장치
US11297427B2 (en) Processing device, processing method, and program for processing sound pickup signals
CN108605197B (zh) 滤波器生成装置、滤波器生成方法以及声像定位处理方法
JP2015170926A (ja) 音響再生装置、音響再生方法
US10735885B1 (en) Managing image audio sources in a virtual acoustic environment
KR20150081541A (ko) 사용자의 머리전달함수 기반 음향 조절 방법 및 장치
US11937072B2 (en) Headphones, out-of-head localization filter determination device, out-of-head localization filter determination system, out-of-head localization filter determination method, and program
JP2024056580A (ja) 情報処理装置及びその制御方法及びプログラム
JP2023080769A (ja) 再生制御装置、頭外定位処理システム、及び再生制御方法
TW202249502A (zh) 在兩個音頻通道上之聲源的離散雙耳空間化
CN117837172A (zh) 信号处理装置、信号处理方法和程序
Avendano Virtual spatial sound

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid