KR20090090975A - 음상 외재화를 위한 머리전달함수 생성 방법과, 그를이용한 3차원 오디오 신호 처리 장치 및 그 방법 - Google Patents
음상 외재화를 위한 머리전달함수 생성 방법과, 그를이용한 3차원 오디오 신호 처리 장치 및 그 방법 Download PDFInfo
- Publication number
- KR20090090975A KR20090090975A KR1020080040073A KR20080040073A KR20090090975A KR 20090090975 A KR20090090975 A KR 20090090975A KR 1020080040073 A KR1020080040073 A KR 1020080040073A KR 20080040073 A KR20080040073 A KR 20080040073A KR 20090090975 A KR20090090975 A KR 20090090975A
- Authority
- KR
- South Korea
- Prior art keywords
- audio signal
- microphone
- impulse response
- hrtf
- transfer function
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 66
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012545 processing Methods 0.000 title claims abstract description 21
- 230000004044 response Effects 0.000 claims abstract description 41
- 238000012546 transfer Methods 0.000 claims abstract description 30
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000003672 processing method Methods 0.000 claims description 4
- 210000003128 head Anatomy 0.000 description 30
- 238000005516 engineering process Methods 0.000 description 21
- 230000006870 function Effects 0.000 description 21
- 230000000694 effects Effects 0.000 description 14
- 238000002474 experimental method Methods 0.000 description 14
- 230000008859 change Effects 0.000 description 12
- 238000011156 evaluation Methods 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000012805 post-processing Methods 0.000 description 4
- 230000000052 comparative effect Effects 0.000 description 3
- 230000004807 localization Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000004886 head movement Effects 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 210000001061 forehead Anatomy 0.000 description 1
- 230000001976 improved effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Stereophonic System (AREA)
Abstract
본 발명은 음상 외재화를 위한 머리전달함수 생성 방법과, 그를 이용한 3차원 오디오 신호 처리 장치 및 그 방법에 관한 것으로서, 구체(球體) 마이크로폰으로 측정된 멀티채널 룸 임펄스 응답을 통해 모델링된 머리 전달 함수(HRTF)를 이용하여 3차원 오디오 신호를 생성함으로써, 음상 내재화를 제거하여 3차원 오디오 신호의 현장감(현실감)을 증대시키고자 한다.
이를 위하여, 본 발명은, 멀티채널 임펄스 응답을 이용한 3차원 오디오 신호 처리 장치에 있어서, 오디오 데이터를 디코딩하여 원래의 오디오 신호를 복원하기 위한 오디오 디코딩 수단; 및 구체(球體) 마이크로폰으로 측정된 멀티채널 룸 임펄스 응답을 통하여 모델링된 머리 전달 함수(HRTF)를 이용하여, 상기 복원된 오디오 신호에 대한 3차원 오디오 신호를 생성하기 위한 3차원 오디오 생성 수단을 포함한다.
3차원 오디오, 입체 음향, 고현장감, 머리 전달 함수, HRTF, 멀티채널 임펄스 응답, 구체 마이크로폰, 음상 외재화
Description
본 발명은 고현장감 멀티미디어 재생을 위한 3차원 오디오 신호 처리에 관한 것으로, 더욱 상세하게는 구체(球體) 마이크로폰으로 측정된 멀티채널 룸 임펄스 응답을 통하여 모델링된 머리 전달 함수(HRTF)를 이용하여 3차원 오디오 신호를 생성함으로써, 음상 내재화를 제거하여 3차원 오디오 신호의 현장감(현실감)을 증대시킬 수 있는, 음상 외재화를 위한 머리전달함수 생성 방법과, 그를 이용한 3차원 오디오 신호 처리 장치 및 그 방법에 관한 것이다.
본 발명은 정보통신부 및 정보통신연구진흥원의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2007-S-004-01, 과제명: 무안경 개인형 3D 방송기술개발].
3차원 오디오 기술은 청취자로 하여금 음원을 획득한 곳에 있는 것과 같은 느낌을 주는 기술로서, 이에는 3차원 오디오 재생 기술과 3차원 오디오 획득 기술이 있으며, 두 기술 모두 중요한 요소로 여겨져 왔다.
3차원 오디오 획득 기술에는 더미 헤드(Dummy Head)를 이용한 획득 기술, 멀티채널 마이크로폰을 이용한 획득 기술, 구체(球體) 위에 설치한 멀티채널 마이크로폰(구체 마이크로폰)을 이용한 획득 기술 등이 있다.
이러한 획득 기술들은 청취자에게 풍부한 입체감과 현장감을 제공해준다는 장점은 있으나, 3차원 오디오 효과를 주기 위해 각각의 방식으로 오디오 컨텐츠를 획득한다는 것이 현실적으로 상당히 어려우며, 더 나아가 기존 스테레오 컨텐츠에 3차원 효과를 주기 위한 기술로 이용하기에도 한계가 있다.
한편, 멀티채널 마이크로폰을 이용한 획득 방법들에 있어서, 마이크로폰의 개수가 2개를 초과하게 되면 획득 기술 적용 후에 출력되는 신호의 형태가 3채널 이상이 되는데, 이를 휴대 단말 등의 헤드폰/이어폰을 통해서 재생하기 위해서는 스테레오 신호로의 변환(스테레오 다운믹스), 즉, 후처리(Post-Processing)가 필요하게 된다.
도 1은 종래의 구체 마이크로폰을 이용한 스테레오 오디오 획득 방법에 대한 설명도로서, 5채널 구체 마이크로폰(11)을 이용하여 오디오 신호를 획득하고, 그 5채널 오디오 신호(u1, u2, ..., u5)를 후처리 모듈(12)을 통하여 스테레오 오디오 출력신호로 변환하는 과정을 나타낸다. 여기서, "1" 내지 "5"는 구체 상에서의 마이크로폰의 배치를 나타낸다.
이러한 종래의 획득 기술은 휴대 단말에서 3차원 오디오 재생을 위해서, 복잡한 후처리(스테레오 다운믹스) 과정을 거쳐야 하기 때문에, 현실적으로는 그 적용에 한계가 있다.
따라서 기존 컨텐츠에 3차원 효과(입체 효과)를 주기 위한 '재생 기술'에 무게가 실리고 있다.
최근 MP3 플레이어(Player), PMP(Portable Multimedia Player), 핸드폰, DMB 플레이어(Player) 등과 같은 다양한 휴대 단말을 통하여 멀티미디어 데이터를 시청하는 경우가 급속히 증가하고 있다.
이러한 휴대 단말에서는 헤드폰 또는 이어폰을 통해 오디오 신호를 청취하는 방식이 일반적인데, 이러한 방식으로 오디오 신호를 청취하는 경우에는 오디오의 음상(Sound Image)이 머리 내부에 맺히는 음상 내재화(IHL: Inside-the-Head Localization) 현상이 발생하게 된다.
이러한 음상 내재화(IHL) 현상은 공간감이나 입체감을 떨어지게 하여 음향의 현실감을 저하시키는 요인이 되며, 또한 청취자로 하여금 피로를 쉽게 느끼게 하는 요인이 될 수 있기 때문에, 이를 극복하여 청취자로 하여금 3차원 효과(입체 효과)를 느낄 수 있도록 하는 다양한 기술들이 출현하고 있다.
즉, 상기와 같은 음상 내재화(IHL) 문제를 해결함으로써 헤드폰/이어폰을 통한 청취 시 음상이 머리의 '외부'에 맺히도록(OHL: Out of the Head Localization) 하는 기술을 음상 외재화(Sound Externalization) 기술이라 하는데, 이와 관련해서는 공간의 반사 및 잔향에 의한 공간 음향 특성, 개인의 머리 및 귓바퀴 등 인체에 의한 음향 전달 특성, 머리 움직임에 의한 음향 전달 특성 변화 등을 이용한 접근방법들이 연구되어 오고 있다.
이들 중에서 공간 음향 특성 기반의 외재화 기술은 반사 및 잔향이 사람이 느끼는 현장감에 큰 영향을 미친다는 연구 결과가 있다. 이와 같은 연구 결과에 근거하고, 또한 반사음 및 잔향은 HRTF와 같이 개인화가 필요한 정보가 아니며 그 계산량도 적다는 장점 등으로 인하여, 현재 상용화되고 있는 대부분의 외재화 기술에서는 반사음과 잔향을 이용하고 있다.
종래의 공간 음향 특성 기반의 외재화 기술들은 반사음과 잔향을 적용하기 위해 다양한 방법들을 사용하고 있으며, 이에는 여러 개의 HRTF 및 이득/지연을 이용하여 반사음을 추가하는 방법, 임의의 각도에서 반사음을 가정하고 인공 잔향을 추가하는 방법 등이 있다.
하지만, 이러한 종래의 반사음/잔향을 이용한 방법들은 '인공적으로' 공간감을 증대시키기 때문에, 현장감이 떨어지고 음장(Sound Field) 및 음질이 저하되며, 청취자로 하여금 거부감이 들게 한다는 문제점이 있다.
상기와 같은 종래의 3차원 오디오 기술에서, 3차원 오디오 획득 기술은 현실적으로 그 사용이 제한적이라는 문제점이 있고, 또한 3차원 오디오 재생 기술은 인공적으로 공간감을 증대시키기 때문에 현장감 및 음장/음질을 저하시킨다는 문제점 이 있으며, 이러한 문제점을 해결하고자 하는 것이 본 발명의 과제이다.
따라서 본 발명은 구체(球體) 마이크로폰으로 측정된 멀티채널 룸 임펄스 응답을 통하여 모델링된 머리 전달 함수(HRTF)를 이용하여 3차원 오디오 신호를 생성함으로써, 음상 내재화를 제거하여 3차원 오디오 신호의 현장감(현실감)을 증대시킬 수 있는, 음상 외재화를 위한 머리전달함수 생성 방법과, 그를 이용한 3차원 오디오 신호 처리 장치 및 그 방법을 제공하는데 그 목적이 있다.
본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
본 발명은 상기와 같은 목적을 해결하기 위하여, 구체 마이크로폰을 이용하여 측정한 멀티채널 룸(Room) 임펄스 응답을 통해 모델링된 머리전달함수(HRTF)를 이용하여 음상 내재화를 제거하는 것을 특징으로 한다.
더욱 상세하게, 본 발명은, 음상 외재화를 위한 머리전달함수(HRTF) 생성 방법에 있어서, 멀티채널 오디오신호를 스테레오 신호로 변환할 수 있는 변환 함수를 구하는 단계; 구체(球體) 마이크로폰을 이용하여 멀티채널 룸 임펄스 응답을 구하는 단계; 및 상기 변환 함수 및 상기 멀티채널 룸 임펄스 응답을 이용하여 머리전 달함수(HRTF)를 생성하는 머리전달함수 생성 단계를 포함한다.
또한, 본 발명은, 멀티채널 임펄스 응답을 이용한 3차원 오디오 신호 처리 장치에 있어서, 오디오 데이터를 디코딩하여 원래의 오디오 신호를 복원하기 위한 오디오 디코딩 수단; 및 구체(球體) 마이크로폰으로 측정된 멀티채널 룸 임펄스 응답을 통하여 모델링된 머리 전달 함수(HRTF)를 이용하여, 상기 복원된 오디오 신호에 대한 3차원 오디오 신호를 생성하기 위한 3차원 오디오 생성 수단을 포함한다.
또한, 본 발명은, 멀티채널 임펄스 응답을 이용한 3차원 오디오 신호 처리 방법에 있어서, 오디오 데이터를 디코딩하여 원래의 오디오 신호를 복원하는 단계; 및 구체 마이크로폰으로 측정된 멀티채널 룸 임펄스 응답을 통하여 모델링된 머리 전달 함수(HRTF)를 이용하여, 상기 복원된 오디오 신호에 대한 3차원 오디오 신호를 생성하는 3차원 오디오 생성 단계를 포함한다.
상기와 같은 발명은, 더미헤드(dummy head)를 이용하여 무향실에서 녹음한 HRTF를 사용하는 기존 기술과 달리, 특정 공간에서 5채널의 구체 마이크로폰을 이용하여 녹음한 멀티채널 룸 임펄스 응답을 이용함으로써 우수한 외재화 성능과 자연스러운 잔향을 제공할 수 있는 효과가 있다.
따라서 본 발명은, 인공적인 3차원 효과를 제공하는 것이 아니라, 공간으로부터 구체 마이크로폰을 이용하여 측정한 룸 임펄스 응답을 통해 모델링한 HRTF(enhanced HRTF)를 이용하여 3차원 오디오 신호 처리를 수행함으로써, 3차원 오디오 신호의 현장감을 현저히 높일 수 있는 효과가 있다.
또한, 본 발명은, MP3 플레이어, PMP, DMB 재생장치, 핸드폰 등과 같은 휴대 멀티미디어 장치, 또는 개인용 컴퓨터(PC)에 탑재되어 재생되는 멀티미디어 재생 프로그램 등에 탑재되어 사용됨으로써, 헤드폰 또는 이어폰으로 멀티미디어 데이터를 재생/청취할 때, 각각의 개인에게 더욱 현장감 있는 3차원 오디오를 제공할 수 있는 효과가 있다.
상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명하기로 한다.
도 2a 및 도 2b는 본 발명에 따른 음상 외재화를 위한 머리전달함수(HRTF) 생성 방법에 대한 일실시예 설명도이다.
먼저, 본 발명에 사용되는 구체(球體) 마이크로폰(21)을 설명하기로 한다. 구체 마이크로폰(21)은 인간의 머리형태를 구체(球體)로 단순화한 것으로서, 기존의 HRTF를 측정하는데 사용된 더미 헤드(Dummy Head)에 비해 크기 및 형태뿐만 아 니라 해당 마이크로폰의 개수 및 위치에 대한 제약이 적다. 또한 마이크로폰의 위치에 따라 기존 더미 헤드가 갖는 여러 문제점을 해결할 수 있는 장점이 있다.
본 발명은, 특정 공간에서 5채널의 구체 마이크로폰(즉, 구체의 수평면 위에 5개의 마이크로폰(마이크)이 배치된 구체 마이크로폰)을 이용하여 멀티채널 룸 임펄스 응답을 구하고, 이를 이용하여 HRTF를 모델링한 후, 그 모델링된 HRTF(Enhanced HRTF)을 이용하여 3차원 오디오 신호 처리를 수행하는 것을 특징으로 한다.
본 발명에서 사용되는 구체 마이크로폰에서, 1번 마이크는 구체의 정 중앙에 위치하여 정면의 오디오 신호를 획득하기 위한 것이고, 측면 마이크는 인간이 방향을 판단할 때 머리를 좌/우로 흔드는 것을 보상하기 위해 좌/우측 각각에 전후 15도씩의 각도로 2개씩 배치된다. 즉, 전면의 마이크는 1번 위치, 좌측의 마이크는 2번 및 4번 위치, 우측의 마이크는 3번 및 5번 위치에 배치된다.
도 2에 도시된 바와 같은 마이크로폰 배치에서, 중앙 마이크로폰을 통해서는 전면의 음상을 강조하여 기존의 대표적인 3차원 오디오 처리 기술인 바이노럴(Binaural) 프로세싱 기술이 갖는 전/후방 혼동(Front-Back Confusion) 현상을 해결할 수 있고, 측면 마이크로폰을 이용해서는 머리 움직임을 보상할 수 있다.
따라서 본 발명에서와 같이, 구체 마이크로폰의 룸 임펄스 응답을 통해 모델링된 enhanced HRTF를 이용하여 3차원 오디오 신호 처리를 수행한다면, 고현장감(고현실감)의 멀티미디어 재생 장치를 구현할 수 있게 된다.
먼저, 5채널 구체 마이크로폰(21)을 이용하여 5채널 룸 임펄스 응답 h1, h2 ..., h5를 측정한다.
즉, 0°, ±75°, ±105°의 마이크로폰 배치를 갖는 5채널 구체 마이크로폰(21)을 이용하여, 전방 ±30°에 위치하고 있는 음원으로부터 룸 임펄스 응답 h1, h2, ..., h5를 측정한다. 여기서, 전방 ±30°의 가상 음원 위치를 가정한 이유는 기존 스테레오 콘텐츠 음상의 자연스러운 외재화를 수행하기 위함이다.
다음으로, HRTF 모델링부(HRTF 생성부)(22)는, 상기와 같이 측정된 룸 임펄스 응답을 이용하여, 외재화를 위한 채널/귀 변환 필터(Channel-To-Ear Filter) 함수 을 아래의 [수학식 1]과 같이 모델링할 수 있다. 는 일반적인 더미헤드를 이용하여 무향실에서 녹음한 기존의 HRTF에 달리, 더욱 개선된 효과(외재화 효과)를 가진다는 점에서 "개선된(Enhanced) HRTF"라 할 수 있다.
여기서 는 채널/귀 변환 필터(Channel-To-Ear Filter) 함수를 나타내고, SCF(Sphere Conversion Filter)는 구체 마이크로폰의 멀티채널 출력을 스테레오 신호로 변환하기 위한 필터를 나타내는 것으로서 로 계산된다(도 2b 참조). SIR은 구체 임펄스 응답(Sphere Impulse Response)을 나타내는 것으로서, 구체의 수평면 0˚위치에 마이크를 설치한 후, 수평면에서 스피커의 방향을 5˚씩 변경하면서 임펄스를 발생시켜서 측정한다. 측정한 임펄스 응답(SIR) 중 마이크와 스피커가 평행을 이루는 0˚ 응답의 역함수()를 구한 후, 이를 각각의 임펄스 응답()과 콘볼루션(conv: Convolution)함으로써 를 구한다. 그리고 *는 컨볼루션(Convolution) 연산을 의미한다.
그리고 "LT"는 구체의 왼쪽(Left) 90도(-90˚) 포인트(Point), "RT"는 구체의 오른쪽(Right) 90도(+90˚) 포인트를 나타내며, 예를 들어, SCF1 - LT는 중앙 스피커에서 "LT"까지의 임펄스 응답을 나타낸다(도 2b 참조).
도 3은 본 발명에 따른 고현장감 멀티미디어 재생 시스템의 일실시예 구성도이다.
도 3에 도시된 바와 같이, 고현장감 멀티미디어 재생 시스템(30)은 역다중화부(31), 비디오 디코더(32), 오디오 디코더(33), 및 3차원 오디오 생성부(34)를 포함하여 이루어진다. 이하, 각각의 구성수단을 설명하기로 한다. 여기서, 오디오 디코더(33)와 3차원 오디오 생성부(34)를 묶어서 "3차원 오디오 신호 처리 장치"라 할 수 있다.
역다중화부(31)가 멀티미디어 데이터를 비디오 데이터와 오디오 데이터로 분리(역다중화)하면, 비디오 디코더(32)는 상기 분리된 비디오 데이터를 원래의 비디오 신호로 복원하고, 오디오 디코더(33)는 상기 분리된 오디오 데이터를 디코딩하여 원래의 오디오 신호(3차원 효과가 가미되지 않은 스테레오 신호)로 복원한다.
3차원 오디오 생성부(34)는 HRTF 저장부(341) 및 외재화 필터(342)를 포함하여 이루어지는 것으로서, 구체(球體) 마이크로폰으로 측정된 멀티채널 룸 임펄스 응답을 통하여 모델링된 머리 전달 함수(HRTF)(수학식 1)를 이용하여, 오디오 디코더(33)에서 복원된 오디오 신호에 대하여 외재화 3차원 오디오신호를 생성한다.
즉, HRTF 저장부(341)는 [수학식 1]과 같은 머리 전달 함수(HRTF)를 저장하고 있고, 외재화 필터(342)는 HRTF 저장부(341)에 저장된 머리 전달 함수(HRTF)(수학식 1)를 이용하여 3차원 효과를 부여하면서 외재화를 수행하는데, 이에 대해서는 도 4에서 상세히 설명하기로 한다.
도 4는 본 발명에 따른 도 3의 외재화 필터의 상세 구성도로서, [수학식 1] 과 같이 계산된 채널/귀 변환 필터(Channel-To-Ear Filter) 함수(머리전달함수)를 기반으로 하는 음상 외재화 과정을 나타낸다.
스테레오 오디오 신호가 외재화 필터(342)에 입력되면, 각 채널 신호는 멀티채널 룸 임펄스 응답을 이용하여 모델링한 채널/귀 변환 필터(Channel-To-Ear Filter)(41 내지 44)에서 필터링된 후, 좌측/우측 귀(L/R ear)에 해당하는 신호들의 합을 통하여 외재화 스테레오 신호를 생성한다. 즉, 외재화 필터(342)에서 출력되는 오디오 신호는 "외재화 되고 3차원 효과가 가미된 오디오 신호"이다.
좌채널/좌측귀 변환 필터(Left channel to Left ear Filter)(41)는 , 좌채널/우측귀 변환 필터(Left channel to Right ear Filter)(42)는 , 우채널/좌측귀 변환 필터(Right channel to Left ear Filter)(43)는 , 우채널/우측귀 변환 필터(Right channel to Right ear Filter)(44)는 와 같은 머리전달함수를 이용하여 신호변환을 수행한다.
좌채널/좌측귀 변환 필터(41) 및 우채널/좌측귀 변환 필터(43)의 출력은 가산기(45)에서 결합되고, 좌채널/우측귀 변환 필터(42) 및 우채널/우측귀 변환 필터(44)의 출력은 가산기(46)에서 결합되어 출력된다.
도 4에서는 외재화 필터(342)에 입력되는 오디오 신호가 좌/우 채널로 구분된 스테레오(Stero) 신호인 경우를 예로 들었으나, 만약 외재화 필터(342)에 입력되는 오디오 신호가 모노(Mono) 신호인 경우에는 좌/우 채널 신호가 동일한 것으로 처리하면 된다.
본 발명은, 도 4에 도시된 바와 같이, 구체 마이크로폰을 이용해 녹음한 멀티채널 룸 임펄스 응답을 기반으로 하여 구성된 '외재화 필터'(342)를 사용하여 음상 외재화를 수행함으로써, 전방 음상을 강조하고 또한 사람의 머리에 따른 반사 및 회절 등과 자연스러운 크로스 톡(Cross-talk) 및 잔향이 반영되어 효과적인 외재화 성능을 제공한다.
도 5는 본 발명에 대한 음상 외재화 청취 평가의 결과도, 도 6a 및 도 6b는 본 발명에 대한 음상 정위 청취평가의 결과도이다. 여기서, 도 6a는 각도별 결과를 나타내고, 도 6b는 평균결과를 나타낸다.
이하에서는, 본 발명의 음상 외재화 및 음상 정위 성능에 대한 실험 방법 및 그 결과를 정리분석하고 상용기술인 SRS 헤드폰(Headphone)과의 비교청취 평가 결과를 통해 본 발명의 성능을 검증하기로 한다.
[ 실험 환경 및 방법 ]
본 발명에 따른 음상 외재화 방법의 성능 평가를 위해, 음상 외재화 거리에 대한 평가와 음상 변화를 측정하는 실험을 수행하였다. 일반적으로 오디오 신호에 대하여 다양한 신호처리를 수행하면 음상이 변화하는 문제가 발생할 수 있으므로, 음상의 변화를 측정하는 실험은 외재화 기술의 음상 보존 성능을 검증하기 위해서 필요하다. 음상 외재화 기술(알고리즘)의 성능 평가는 총 15명의 피험자를 대상으로 수행되었다.
음상 외재화 거리를 측정하기 위한 실험은 모노 음원과 스테레오 음원에 대해 각각 수행하였다. 이렇게 한 이유는, 일반적으로 좌/우 신호의 상관성이 높은 스테레오 신호의 경우, 외재화 효과가 모노 신호에 비해 크지 않으므로, 서로 다른 외재화 성능을 나타낼 수 있을 것으로 예상되기 때문이다.
모노 음원의 외재화 거리 측정 실험은 다음과 같은 절차에 따라 이루어졌다. 먼저, 피실험자로부터 30°각도의 1m 전방에 스피커를 위치시킨 후, 모노의 백색잡음 신호를 스피커를 통해 들려주어서, 실제 30° 각도의 1m 전방에서 재생되는 소리를 피실험자로 하여금 인지하도록 한다. 다음으로, 피실험자에게 이어폰을 착용하게 한 후, 원 신호인 모노의 백색잡음 신호를 청취하도록 하여 음상 내재화 현상을 인지하도록 하였다. 충분히 숙지하도록 한 후, 모노의 백색잡음 신호에 외재화 알고리즘을 적용한 신호를 청취하도록 하고, 피실험자가 인지하는 음상 외재화 거리 정도를 손으로 가리키도록 한 후 이 거리를 측정하였다.
스테레오 음원의 외재화 거리 측정 실험도 모노 음원의 외재화 거리 측정 실험과 유사한 방법으로 이루어졌는데, 그 절차는 아래와 같다. 먼저, 피험자의 ±30°, 1m 전방에 스피커들를 위치시키고, 스테레오 백색잡음 신호를 스피커를 통해 들려주어서, 실제 1m 전방에서 재생되는 소리를 인지하도록 한다. 이때, 좌/우 모두 백색 잡음 신호이므로, 음상은 피실험자의 전방에 맺히게 된다. 다음으로, 피실험자에게 이어폰을 착용하게 한 후 원 신호인 스테레오의 백색잡음 신호를 청취하도록 하여 음상 내재화 현상을 인지하도록 하였다. 1m 전방에서 좌/우 스피커에 의해 재생되는 소리와 어어폰 착용 시에 음상이 내재화되는 정도를 충분히 숙지하도 록 한 후, 스테레오의 백색잡음 신호에 외재화 알고리즘을 적용한 신호를 청취하도록 하고, 피실험자가 인지하는 음상 외재화 거리 정도를 손으로 가리키도록 한 후 이 거리를 측정하였다.
한편, 외재화 알고리즘에 따라 음상이 변화하는 정도를 측정하는 실험은 0°∼180° 사이에서 30°간격으로 총 7개의 각도에 대해 이루어졌는데, 이렇게 한 이유는 음상의 각도에 따라 외재화 신호처리 후에 음상이 변화하는 정도가 다르게 나타날 수 있기 때문이다.
음상 변화에 대한 실험은 다음과 같은 구체적인 절차에 따라 이루어졌다. 먼저, 백색 잡음에 대하여 해당 각도의 HRTF를 이용하여 렌더링한 신호(Reference Signal)를 이어폰을 통해 청취하도록 함으로써, 피실험자가 해당 각도에 대해 충분히 인지하도록 한다. 이후, 기준(Reference) 신호에 대해 외재화 알고리즘을 적용한 신호를 피험자에게 들려주고, 피험자가 인지하는 음상 정위 각도를 지시하도록 하여, 그 각도를 측정하였다.
이 외에 기존 상용기술과의 외재화 성능 비교를 위하여 총 8명의 피험자를 대상으로 SRS 헤드폰(Headphone)과의 비교 청취를 실시하였다. 본 비교청취평가에서는 기준이 되는 신호(Reference Signal)는 주어지지 않았으며, 피실험자로 하여금 오직 두 시스템(A: 본 발명, B: SRS Headphone)의 출력 신호에 대한 외재화 정도를 비교하도록 하여 상대적인 외재화 성능을 평가하였다.
본 발명에 따른 외재화 알고리즘의 경우, 실측된 룸 임펄스 응답을 이용하였고 이를 외재화 필터로 모델링하는 과정에서 발생하는 음색 변화에 대해 추가적인 전처리/후처리 작업을 하지 않았기 때문에, 비교 청취 시에 피실험자에게 실험 콘텐츠의 음색은 고려하지 않고, 외재화 정도만을 평가하도록 하였다.
아래의 [표 1]은 비교 평가를 위한 점수표이다. 실험 콘텐츠로는 약 20∼25초 길이의 오디오 클립(44.1kHz 샘플링 율)을 이용하였고, 클래식, 가요 및 음성 3 종류 콘텐츠를 이용하였다.
1 | A is more external B |
0 | There is little difference between A and B |
-1 | B is more external A |
[ 실험 결과 ]
본 발명의 음상 외재화 거리에 대한 청취평가 결과는 도 5와 같다. 도 5에 도시된 바와 같이, 청취자의 이마(Forehead) 전방으로 모노 신호는 평균 16.74 cm, 스테레오 신호는 평균 13.43 cm의 외재화 성능을 제공하는 것으로 나타났다.
즉, 본 발명을 이용하면, 머리 내에 정위되던 음상이 머리 밖 10cm 이상에 정위된다는 것을 알 수 있다. 또한, 모노 신호에 비해 스테레오 신호에 대한 외재화 성능이 떨어지는 것을 볼 수 있는데, 이는 앞에서도 설명한 바와 같이, L/R 신호 간의 유사도(correlation)가 높은 경우에 음상이 피실험자 가까이에 맺히기 때문으로 판단된다.
한편, 본 발명에 따른 외재화 알고리즘에 따라 음상이 변화하는 정도를 측정하는 실험의 결과는 도 6a 및 도 6b에 도시된 바와 같다.
도 6a는 각도에 따른 음상 변화 값의 평균으로서 95% 신뢰구간 내의 값을 나타낸 것이고, 도 6b는 전체 평균값을 나타낸다. 청취평가를 수행하기 전에, 훈련(training)을 통해 충분히 기준(Reference) 신호를 인지하도록 함으로써, 피실험자가 전방과 후방을 혼동(front back confusion)하는 경우가 없도록 하였다.
실험 결과, 전방보다는 후방에 있는 소리의 음상 변화가 크다는 것을 알 수 있었는데, 이는 사람의 음상 인지에 대해 전방 해상도가 후방 해상도에 비해 높다는 기존 사실에 기반하는 것으로 이해할 수 있다. 각도에 따라 차이는 있지만, 음상이 평균적으로 -0.75 °를 중심으로 ±10.65 ° 정도로 변화함을 확인하였으며, 이는 본 발명에 따른 외재화 알고리즘이 원래의 음상에 변화를 초래하지만, 그 변화량이 크지 않다는 것을 나타낸다.
마지막으로, 기존의 SRS 헤드폰(headphone)과의 음상 외재화 정도에 대한 비교 청취 평가 결과는 다음의 [표 2]와 같다. 실험 결과, 클래식, 가요, 음성에 대해 75 %의 피실험자들이, 본 발명이 기존의 SRS 헤드폰(Headphone)보다 더 우수한 음상 외재화 성능이 있다고 인지하는 것이 확인되었다.
Relative Distance | Percentage(%) |
A>B | 75 |
A=B | 8.33 |
A<B | 16.67 |
결론적으로, 본 발명은 기존에 사용되어 온 일반적인 HRTF 대신 특정 공간에서 5채널의 구체 마이크로폰을 이용하여 녹음한 멀티채널 룸 임펄스 응답을 이용해 외재화 필터를 구성함으로써, 전방 음상 강조는 물론이고 사람의 머리에 따른 반사 및 회절 등과 자연스러운 크로스 톡(Cross-talk) 및 잔향이 반영되게 하여 더욱 효과적인 외재화 성능을 제공한다. 그리고 전방 외재화 성능 및 음장 보존 정도를 청취평가를 통하여 실험적으로 확인하였으며, 특히, 상용 외재화 기술인 SRS 헤드폰과의 비교청취를 통하여 본 발명의 외재화 성능이 우수하다는 것을 입증하였다.
한편, 전술한 바와 같은 본 발명의 방법은 컴퓨터 프로그램으로 작성이 가능하다. 그리고 상기 프로그램을 구성하는 코드 및 코드 세그먼트는 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 또한, 상기 작성된 프로그램은 컴퓨터가 읽을 수 있는 기록매체(정보저장매체)에 저장되고, 컴퓨터에 의하여 판독되고 실행됨으로써 본 발명의 방법을 구현한다. 그리고 상기 기록매체는 컴퓨터가 판독할 수 있는 모든 형태의 기록매체를 포함한다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.
도 1은 종래의 구체 마이크로폰을 이용한 스테레오 오디오 획득 방법에 대한 설명도,
도 2a 및 도 2b는 본 발명에 따른 음상 외재화를 위한 머리전달함수(HRTF) 생성 방법에 대한 일실시예 설명도,
도 3은 본 발명에 따른 고현장감 멀티미디어 재생 시스템의 일실시예 구성도,
도 4는 본 발명에 따른 도 3의 외재화 필터의 상세 구성도,
도 5는 본 발명에 대한 음상 외재화 청취 평가의 결과도,
도 6a 및 도 6b는 본 발명에 대한 음상 정위 청취평가의 결과도이다.
* 도면의 주요부분에 대한 부호 설명
11, 21: 구체 마이크로폰 22: HRTF 모델링부
33: 오디오 디코더 34: 3차원 오디오 생성부
341: HRTF 저장부 342: 외재화 필터
Claims (11)
- 음상 외재화를 위한 머리전달함수(HRTF) 생성 방법에 있어서,멀티채널 오디오신호를 스테레오 신호로 변환할 수 있는 변환 함수를 구하는 단계;구체(球體) 마이크로폰을 이용하여 멀티채널 룸 임펄스 응답을 구하는 단계; 및상기 변환 함수 및 상기 멀티채널 룸 임펄스 응답을 이용하여 머리전달함수(HRTF)를 생성하는 머리전달함수 생성 단계를 포함하는 머리전달함수 생성 방법.
- 제 1 항에 있어서,상기 변환 함수는,상기 구체 마이크로폰의 멀티채널 오디오신호를 스테레오 신호로 변환하기 위한 구체 변환 필터(SCF) 함수인 것을 특징으로 하는 머리전달함수 생성 방법.
- 제 1 항 또는 제 2 항에 있어서,상기 머리전달함수 생성 단계는,상기 변환 함수와 상기 멀티채널 룸 임펄스 응답을 컨볼루션(Convolution)하여 상기 머리전달함수(HRTF)를 구하는 것을 특징으로 하는 머리전달함수 생성 방법.
- 제 1 항에 있어서,상기 구체 마이크로폰은,구체 상에 5개의 마이크가 배치되되, 전면의 음상을 강조하기 위한 전면 마이크와 머리의 움직임을 보상하기 위한 좌/우 각 2개씩의 측면 마이크를 구비하는 것을 특징으로 하는 머리전달함수 생성 방법.
- 멀티채널 임펄스 응답을 이용한 3차원 오디오 신호 처리 장치에 있어서,오디오 데이터를 디코딩하여 원래의 오디오 신호를 복원하기 위한 오디오 디코딩 수단; 및구체(球體) 마이크로폰으로 측정된 멀티채널 룸 임펄스 응답을 통하여 모델링된 머리 전달 함수(HRTF)를 이용하여, 상기 복원된 오디오 신호에 대한 3차원 오디오 신호를 생성하기 위한 3차원 오디오 생성 수단을 포함하는 3차원 오디오 신호 처리 장치.
- 제 5 항에 있어서,상기 3차원 오디오 생성 수단은,상기 구체 마이크로폰으로 측정된 멀티채널 룸 임펄스 응답을 통하여 모델링된 머리 전달 함수(HRTF)를 저장하는 저장 수단; 및상기 저장된 머리 전달 함수(HRTF)를 이용하여, 상기 복원된 오디오 신호에 대한 외재화된 3차원 오디오 신호를 생성하기 위한 외재화 필터를 포함하는 3차원 오디오 신호 처리 장치.
- 제 5 항 또는 제 6 항에 있어서,상기 머리 전달 함수(HRTF)는,상기 구체 마이크로폰의 멀티채널 오디오신호를 스테레오 신호로 변환할 수 있는 변환 함수와, 상기 구체 마이크로폰을 이용해 획득한 멀티채널 룸 임펄스 응답의 컨볼류션을 통하여 생성되는 것을 특징으로 하는 3차원 오디오 신호 처리 장치.
- 제 5 항에 있어서,상기 구체 마이크로폰은,구체 상에 5개의 마이크가 배치되되, 전면의 음상을 강조하기 위한 전면 마이크와 머리의 움직임을 보상하기 위한 좌/우 각 2개씩의 측면 마이크를 구비하는 것을 특징으로 하는 3차원 오디오 신호 처리 장치.
- 멀티채널 임펄스 응답을 이용한 3차원 오디오 신호 처리 방법에 있어서,오디오 데이터를 디코딩하여 원래의 오디오 신호를 복원하는 단계; 및구체 마이크로폰으로 측정된 멀티채널 룸 임펄스 응답을 통하여 모델링된 머리 전달 함수(HRTF)를 이용하여, 상기 복원된 오디오 신호에 대한 3차원 오디오 신호를 생성하는 3차원 오디오 생성 단계를 포함하는 3차원 오디오 신호 처리 방법.
- 제 9 항에 있어서,상기 3차원 오디오 생성 단계는,상기 구체 마이크로폰으로 측정된 멀티채널 룸 임펄스 응답을 통하여 모델링된 머리 전달 함수(HRTF)를 이용하여, 상기 복원된 오디오 신호에 대한 외재화된 3차원 오디오 신호를 생성하는 것을 특징으로 하는 3차원 오디오 신호 처리 방법.
- 제 9 항 또는 제 10 항에 있어서,상기 머리 전달 함수(HRTF)는,상기 구체 마이크로폰의 멀티채널 오디오신호를 스테레오 신호로 변환할 수 있는 변환 함수와, 상기 구체 마이크로폰을 이용해 획득한 멀티채널 룸 임펄스 응답의 컨볼류션을 통하여 생성되는 것을 특징으로 하는 3차원 오디오 신호 처리 방법.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20080016012 | 2008-02-21 | ||
KR1020080016012 | 2008-02-21 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20090090975A true KR20090090975A (ko) | 2009-08-26 |
KR100932791B1 KR100932791B1 (ko) | 2009-12-21 |
Family
ID=41208696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020080040073A KR100932791B1 (ko) | 2008-02-21 | 2008-04-29 | 음상 외재화를 위한 머리전달함수 생성 방법과, 그를이용한 3차원 오디오 신호 처리 장치 및 그 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100932791B1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110312198B (zh) * | 2019-07-08 | 2021-04-20 | 雷欧尼斯(北京)信息技术有限公司 | 用于数字影院的虚拟音源重定位方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7085393B1 (en) | 1998-11-13 | 2006-08-01 | Agere Systems Inc. | Method and apparatus for regularizing measured HRTF for smooth 3D digital audio |
JP4921470B2 (ja) | 2005-09-13 | 2012-04-25 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 頭部伝達関数を表すパラメータを生成及び処理する方法及び装置 |
-
2008
- 2008-04-29 KR KR1020080040073A patent/KR100932791B1/ko not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
KR100932791B1 (ko) | 2009-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2736418C1 (ru) | Принцип формирования улучшенного описания звукового поля или модифицированного описания звукового поля с использованием многоточечного описания звукового поля | |
US9769589B2 (en) | Method of improving externalization of virtual surround sound | |
CN102395098B (zh) | 生成3d声音的方法和设备 | |
US7489788B2 (en) | Recording a three dimensional auditory scene and reproducing it for the individual listener | |
TWI651973B (zh) | 以保真立體音響格式所編碼聲訊訊號為l揚聲器在已知位置之解碼方法和裝置以及電腦可讀式儲存媒體 | |
EP2243136B1 (en) | Mediaplayer with 3D audio rendering based on individualised HRTF measured in real time using earpiece microphones. | |
CN113170271B (zh) | 用于处理立体声信号的方法和装置 | |
CN104010264B (zh) | 双声道音频信号处理的方法和装置 | |
Garí et al. | Flexible binaural resynthesis of room impulse responses for augmented reality research | |
Rafaely et al. | Spatial audio signal processing for binaural reproduction of recorded acoustic scenes–review and challenges | |
US11221820B2 (en) | System and method for processing audio between multiple audio spaces | |
Llorach et al. | Towards realistic immersive audiovisual simulations for hearing research: Capture, virtual scenes and reproduction | |
Suzuki et al. | 3D spatial sound systems compatible with human's active listening to realize rich high-level kansei information | |
US10321252B2 (en) | Transaural synthesis method for sound spatialization | |
Cuevas-Rodriguez et al. | An open-source audio renderer for 3D audio with hearing loss and hearing aid simulations | |
KR100932791B1 (ko) | 음상 외재화를 위한 머리전달함수 생성 방법과, 그를이용한 3차원 오디오 신호 처리 장치 및 그 방법 | |
Tonges | An augmented Acoustics Demonstrator with Realtime stereo up-mixing and Binaural Auralization | |
WO2022133128A1 (en) | Binaural signal post-processing | |
Yuan et al. | Externalization improvement in a real-time binaural sound image rendering system | |
CN116261086A (zh) | 声音信号处理方法、装置、设备及存储介质 | |
O’Dwyer | Sound Source Localization and Virtual Testing of Binaural Audio | |
Cuevas Rodriguez | 3D Binaural Spatialisation for Virtual Reality and Psychoacoustics | |
AU2002325063B2 (en) | Recording a three dimensional auditory scene and reproducing it for the individual listener | |
Gamper et al. | Spatialisation in audio augmented reality using finger snaps | |
Gamper et al. | Instant BRIR acquisition for auditory events in audio augmented reality using finger snaps |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |