KR102149214B1 - 위상응답 특성을 이용하는 바이노럴 렌더링을 위한 오디오 신호 처리 방법 및 장치 - Google Patents

위상응답 특성을 이용하는 바이노럴 렌더링을 위한 오디오 신호 처리 방법 및 장치 Download PDF

Info

Publication number
KR102149214B1
KR102149214B1 KR1020180158572A KR20180158572A KR102149214B1 KR 102149214 B1 KR102149214 B1 KR 102149214B1 KR 1020180158572 A KR1020180158572 A KR 1020180158572A KR 20180158572 A KR20180158572 A KR 20180158572A KR 102149214 B1 KR102149214 B1 KR 102149214B1
Authority
KR
South Korea
Prior art keywords
audio signal
hrtf
processing apparatus
signal processing
phase response
Prior art date
Application number
KR1020180158572A
Other languages
English (en)
Other versions
KR20190075807A (ko
Inventor
박규태
서정훈
전상배
전세운
오현오
Original Assignee
가우디오랩 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가우디오랩 주식회사 filed Critical 가우디오랩 주식회사
Publication of KR20190075807A publication Critical patent/KR20190075807A/ko
Application granted granted Critical
Publication of KR102149214B1 publication Critical patent/KR102149214B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S3/004For headphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/01Input selection or mixing for amplifiers or loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

입력 오디오 신호를 렌더링하는 오디오 신호 처리 장치가 개시된다. 오디오 신호 처리 장치는 입력 오디오 신호를 기초로 생성된 출력 오디오 신호를 출력하는 프로세서를 포함한다. 상기 프로세서는, 청취자를 기준으로 하는 특정 위치 각각에 대응하는 머리전달함수(head-related transfer function, HRTF)로 구성된 제1 전달함수 세트로부터, 입력 오디오 신호에 대응하는 가상 음원의 위치를 기초로, 제1 동측 HRTF 및 제1 대측 HRTF를 포함하는 제1 한 쌍의 HRTFs를 획득하고, 상기 제1 한 쌍의 HRTFs를 기초로 상기 입력 오디오 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성한다.

Description

위상응답 특성을 이용하는 바이노럴 렌더링을 위한 오디오 신호 처리 방법 및 장치 {AUDIO SIGNAL PROCESSING METHOD AND APPARATUS FOR BINAURAL RENDERING USING PHASE RESPONSE CHARACTERISTICS}
본 발명은 오디오 신호를 효과적으로 재생하기 위한 신호 처리 방법 및 장치에 관한 것으로서, 더욱 상세하게는 HMD(Head Mounted Display) 기기 등에서 인터랙티브(Interactive)하고, 보다 몰입감이 높은(immersive) 3차원 오디오 신호를 제공하기 위한 오디오 신호 처리 방법 및 장치에 관한 것이다.
HMD(Head Mounted Display) 기기에서 이머시브(immersive) 및 인터렉티브(interactive) 오디오를 제공하기 위해서 바이노럴 렌더링(binaural rendering) 기술이 필수적으로 요구된다. 바이노럴 렌더링은 3차원 공간상에서 임장감 있는 사운드를 제공하는 3D 오디오를 사람의 양귀에 전달되는 신호로 모델링하는 것이다. 청취자는 헤드폰이나 이어폰 등을 통한 바이노럴 렌더링된 2 채널 오디오 출력 신호를 통해서도 입체감을 느낄 수 있다. 바이노럴 렌더링의 구체적인 원리는 다음과 같다. 사람은 언제나 두 귀를 통해 소리를 듣고, 소리를 통해서 음원 위치와 방향을 인식한다. 따라서 3D 오디오를 사람의 두 귀에 전달되는 오디오 신호 형태로 모델링할 수 있다면, 많은 수의 스피커 없이 2 채널 오디오 출력을 통해서도 2D 오디오의 입체감을 재현할 수 있다.
이때, 바이노럴 렌더링의 대상이 되는 오디오 신호가 포함하는 오브젝트(object) 또는 채널 개수가 증가하는 경우, 바이노럴 렌더링에 필요한 연산량 및 전력 소모가 증가할 수 있다. 이에 따라, 연산량 및 전력 소모의 제약이 따르는 모바일 디바이스에서, 입력 오디오 신호에 대한 바이노럴 렌더링을 효율적으로 수행하기 위한 기술이 요구된다.
또한, 제한적인 메모리 용량 및 측정 과정에서의 제약 사항으로 인해 오디오 신호 처리 장치가 획득 가능한 HRTF(Head Related Transfer Function)의 개수는 제한될 수 있다. 이로 인해 오디오 신호 처리 장치의 음상 정위(sound localization) 성능 저하가 발생할 수 있다. 따라서, 3차원 공간 상에서 재현되는 오디오 신호의 공간 해상도를 증가시키기 위해 입력된 HRTF에 대한 오디오 신호 처리 장치의 추가적인 처리가 필요할 수 있다. 또한, 가상현실에서의 바이노럴 렌더링된 오디오 신호는 재현성을 높이기 위해 추가적인 신호와 조합될 수 있다. 이때, 오디오 신호 처리 장치가 바이노럴 렌더링된 오디오 신호와 추가적인 신호를 시간영역에서 합성하는 경우, 콤-필터링 효과(comb-filtering effect)로 인해 출력 오디오 신호의 음질이 저하될 수 있다. 바이노럴 렌더링 및 추가적인 신호의 각기 다른 딜레이로 인해 음색이 변형될 수 있기 때문이다. 또한, 오디오 신호 처리 장치가 주파수 영역에서 바이노럴 렌더링된 오디오 신호와 추가적인 신호를 합성하는 경우, 바이노럴 렌더링만을 사용하는 경우에 비해 추가적인 연산량이 요구된다. 이에 따라, 추가적인 처리 및 합성에 있어 연산량을 감소시키면서 입력 오디오 신호의 음색을 유지하는 기술이 요구된다.
본 개시의 일 실시예는 복수의 필터를 기초로 입력 오디오 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성하는데 있어서, 콤-필터링(Comb-filtering effect) 효과로 인한 음색 왜곡(timbre distortion)을 감소시키는 것을 목적으로 한다.
본 발명의 일 실시예에 따른 오디오 신호 처리 장치는, 입력 오디오 신호를 기초로 생성된 출력 오디오 신호를 출력하는 프로세서를 포함한다. 상기 프로세서는, 청취자를 기준으로 하는 특정 위치 각각에 대응하는 머리전달함수(head-related transfer function, HRTF)로 구성된 제1 전달함수 세트로부터, 입력 오디오 신호에 대응하는 가상 음원의 위치를 기초로, 제1 동측(ipsilateral) HRTF 및 제1 대측 HRTF(contralateral)를 포함하는 제1 한 쌍의 HRTFs를 획득하고, 상기 제1 한 쌍의 HRTFs를 기초로 상기 입력 오디오 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성할 수 있다. 상기 제1 전달함수 세트가 포함하는 복수의 동측 HRTFs 각각의 주파수영역 상의 위상응답은 복수의 동측 HRTFs 각각에 대응하는 위치와 무관하게 서로 동일한 위상응답일 수 있다. 상기 제1 동측 HRTF의 위상응답은 선형 위상응답일 수 있다.
상기 제1 대측 HRTF의 위상응답에 대응하는 시간영역 상의 대측 그룹-딜레이(group-delay)는 상기 제1 동측 HRTF의 위상응답에 대응하는 동측 그룹-딜레이를 기준으로 결정된 값일 수 있다. 상기 제1 대측 HRTF의 위상응답은 선형 위상응답일 수 있다.
상기 대측 그룹-딜레이는 상기 동측 그룹-딜레이를 기준으로 양이간 시간 차이(interaural time difference, ITD) 정보를 이용하여 결정된 값일 수 있다.
상기 ITD 정보는 측정된 한 쌍의 HRTFs를 기초로 획득된 값이고, 상기 측정된 한 쌍의 HRTFs는 상기 청취자를 기준으로 상기 가상 음원의 위치에 대응하는 것일 수 있다.
상기 대측 그룹-딜레이는 상기 동측 그룹-딜레이를 기준으로 상기 청취자의 머리 모델 정보(head modeling information)를 이용하여 결정된 값일 수 있다.
상기 동측 그룹-딜레이 및 대측 그룹-딜레이는 시간 영역에서 샘플링 주파수에 따른 샘플의 정수배 단위일 수 있다.
상기 프로세서는, 시간 영역에서, 상기 대측 그룹-딜레이 및 상기 동측 그룹-딜레이 각각을 기초로 상기 입력 오디오 신호를 지연(delay)시켜 상기 출력 오디오 신호를 생성할 수 있다.
상기 프로세서는, 시간 영역에서, 상기 제1 한 쌍의 HRTFs 및 추가 오디오 신호를 기초로 최종 출력 오디오 신호를 생성하고, 상기 최종 출력 오디오 신호를 출력할 수 있다. 상기 추가 오디오 신호의 동측 그룹-딜레이는 상기 제1 동측 HRTF의 동측 그룹-딜레이와 동일하고, 상기 추가 오디오 신호의 대측 그룹-딜레이는 상기 제1 대측 HRTF의 대측 그룹-딜레이와 동일할 수 있다.
상기 프로세서는, 상기 청취자를 기준으로 하는 상기 가상 음원의 위치에 따른 패닝 게인을 획득하고, 상기 패닝 게인을 기초로 상기 입력 오디오 신호를 필터링하고, 상기 제1 동측 HRTF의 동측 그룹-딜레이 및 상기 제1 대측 HRTF의 대측 그룹-딜레이를 기초로, 상기 필터링된 입력 오디오 신호를 시간 지연시켜 상기 추가 오디오 신호를 생성할 수 있다.
상기 프로세서는, 상기 제1 한 쌍의 HRTFs를 기초로 상기 입력 오디오 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성하고, 동측 추가 필터 및 대측 추가 필터를 포함하는 한 쌍의 추가 필터를 기초로 상기 입력 오디오 신호를 필터링하여 상기 추가 오디오 신호를 생성하고, 시간 영역에서, 상기 출력 오디오 신호와 상기 추가 오디오 신호를 믹싱하여 상기 최종 출력 오디오 신호를 생성할 수 있다. 상기 동측 추가 필터의 위상응답은 상기 제1 동측 HRTF의 위상응답과 동일하고, 상기 대측 추가 필터의 위상응답은 상기 제1 대측 HRTF의 위상응답과 동일할 수 있다.
상기 한 쌍의 추가 필터는 상기 청취자를 기준으로 하는 상기 가상 음원의 위치에 따른 패닝 게인을 기초로 생성된 필터이고, 상기 동측 추가 필터 및 상기 대측 추가 필터 각각의 주파수 응답의 크기 성분(magnitude)은 일정할 수 있다.
상기 한 쌍의 추가 필터는 상기 가상 음원이 모델링하는 물체의 크기 및 상기 청취자로부터 상기 가상 음원까지의 거리를 기초로 생성된 것일 수 있다.
상기 제1 전달함수 세트가 포함하는 복수의 HRTFs 각각의 주파수영역 상의 위상응답은 복수의 HRTFs 각각에 대응하는 위치와 무관하게 서로 동일한 위상응답일 수 있다. 이때, 상기 프로세서는, 상기 가상 음원의 위치가 상기 복수의 HRTFs 각각에 대응하는 위치 이외의 위치인 경우, 적어도 둘 이상의 HRTFs 쌍을 기초로 생성된 상기 제1 한 쌍의 HRTFs를 획득하고, 상기 적어도 둘 이상의 HRTFs 쌍은 상기 가상 음원의 위치를 기초로 상기 제1 전달함수 세트로부터 획득된 것일 수 있다.
상기 프로세서는, 시간영역에서, 상기 적어도 둘 이상의 HRTFs 쌍을 인터폴레이션(interpolation)하여 상기 제1 한 쌍의 HRTFs를 획득할 수 있다.
상기 프로세서는, 상기 제1 전달함수 세트가 아닌 다른 제2 전달함수 세트로부터 상기 가상 음원의 위치를 기초로 제2 동측 HRTF 및 제2 대측 HRTF를 포함하는 제2 한 쌍의 HRTFs를 획득하고, 상기 제1 한 쌍의 HRTFs 및 상기 제2 한 쌍의 HRTFs를 기초로 상기 출력 오디오 신호를 생성할 수 있다. 상기 제2 동측 HRTF의 위상응답은 상기 제1 동측 HRTF의 위상응답과 동일하고, 상기 제2 대측 HRTF의 위상응답은 상기 제1 대측 HRTF의 위상응답과 동일한 것일 수 있다.
본 발명의 일 실시예에 따라 입력 오디오 신호를 기초로 생성된 출력 오디오 신호를 출력하는 오디오 신호 처리 장치의 동작 방법은, 청취자를 기준으로 하는 특정 위치 각각에 대응하는 머리전달함수로 구성된 전달함수 세트로부터, 입력 오디오 신호에 대응하는 가상 음원의 위치를 기초로, 동측 HRTF 및 대측 HRTF를 포함하는 한 쌍의 HRTFs를 획득하는 단계; 및 상기 한 쌍의 HRTFs를 기초로 상기 입력 오디오 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성하는 단계를 포함할 수 있다. 상기 전달함수 세트가 포함하는 복수의 동측 HRTFs 각각의 주파수영역 상의 위상응답은 음원의 위치와 무관하게 서로 동일한 위상응답일 수 있다.
본 발명의 일 실시예에 따른 오디오 신호 처리 장치는, 입력 오디오 신호를 기초로 생성된 출력 오디오 신호를 출력하는 프로세서를 포함한다. 상기 프로세서는, 청취자를 기준으로 하는 특정 위치 각각에 대응하는 머리전달함수로 구성된 제1 전달함수 세트로부터, 입력 오디오 신호에 대응하는 가상 음원의 위치를 기초로, 제1 동측 HRTF 및 제1 대측 HRTF를 포함하는 제1 한 쌍의 HRTFs를 획득하고, 상기 제1 동측 HRTF의 주파수영역 상의 위상응답을 상기 가상 음원의 위치와 무관하게 동일한 특정 위상응답이 되도록 변경하고, 상기 제1 동측 HRTF의 위상응답이 변경된 제1 한 쌍의 HRTFs를 기초로 상기 입력 오디오 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성할 수 있다. 상기 특정 위상응답은 선형 위상응답일 수 있다.
상기 프로세서는, 상기 변경된 제1 동측 HRTF의 위상응답에 대응하는 시간영역 상의 동측 그룹-딜레이(group-delay)를 기준으로 대측 그룹-딜레이를 결정하고, 상기 대측 그룹-딜레이를 기초로 상기 제1 대측 HRTF의 위상응답을 변경하고, 상기 위상응답이 변경된 제1 한 쌍의 HRTF를 기초로 상기 입력 오디오 신호를 바이노럴 렌더링하여 상기 출력 오디오 신호를 생성할 수 있다. 이때, 상기 변경된 제1 대측 HRTF의 위상응답은 선형 위상응답일 수 있다.
상기 프로세서는, 상기 청취자의 머리 모델 정보(head modeling information)를 기초로 상기 대측 그룹-딜레이를 결정할 수 있다.
상기 프로세서는, 상기 제1 전달함수 세트로부터 획득된 상기 제1 한 쌍의 HRTF를 기초로 양이간 시간 차이(interaural time difference, ITD) 정보를 획득하고, 상기 양이간 시간 차이 정보를 기초로 상기 대측 그룹-딜레이를 결정할 수 있다.
상기 동측 그룹-딜레이 및 대측 그룹-딜레이는 시간 영역에서 샘플링 주파수에 따른 샘플의 정수배 단위일 수 있다.
상기 프로세서는, 시간 영역에서, 상기 대측 그룹-딜레이 및 상기 동측 그룹-딜레이 각각을 기초로 상기 입력 오디오 신호를 지연시켜 상기 출력 오디오 신호를 생성할 수 있다.
상기 프로세서는, 시간 영역에서, 상기 위상응답이 변경된 제1 한 쌍의 HRTF 및 추가 오디오 신호를 기초로 최종 출력 오디오 신호를 생성하고, 상기 최종 출력 오디오 신호를 출력할 수 있다. 이때, 상기 추가 오디오 신호의 동측 및 대측 각각의 그룹-딜레이는 상기 동측 그룹-딜레이 및 상기 대측 그룹-딜레이 각각과 동일할 수 있다.
상기 프로세서는, 상기 청취자를 기준으로 하는 상기 가상 음원의 위치를 기초로 패닝 게인을 결정하고, 상기 패닝 게인을 기초로 상기 입력 오디오 신호를 필터링하고, 상기 동측 그룹-딜레이 및 상기 대측 그룹-딜레이를 기초로 상기 필터링된 입력 오디오 신호를 시간 지연시켜 상기 추가 오디오 신호를 생성할 수 있다.
상기 프로세서는, 상기 위상응답이 변경된 제1 한 쌍의 HRTF를 기초로 상기 입력 오디오 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성하고, 동측 추가 필터 및 대측 추가 필터를 포함하는 한 쌍의 추가 필터를 기초로 상기 입력 오디오 신호를 필터링하여 상기 추가 오디오 신호를 생성하고, 시간 영역에서, 상기 출력 오디오 신호와 상기 추가 오디오 신호를 믹싱하여 상기 최종 출력 오디오 신호를 생성할 수 있다. 이때, 상기 동측 추가 필터의 위상응답은 상기 변경된 제1 동측 HRTF의 위상응답과 동일하고, 상기 대측 추가 필터의 위상응답은 상기 변경된 제1 대측 HRTF의 위상응답과 동일할 수 있다.
상기 동측 추가 필터 및 상기 대측 추가 필터 각각의 주파수 응답의 크기 성분은 일정할 수 있다. 또한, 상기 프로세서는 상기 청취자를 기준으로 하는 상기 가상 음원의 위치를 기초로 패닝 게인을 결정하고, 상기 패닝 게인을 상기 일정한 크기 성분으로 설정하여 상기 한 쌍의 추가 필터를 생성하고, 상기 한 쌍의 추가 필터를 기초로 상기 입력 오디오 신호를 필터링하여 상기 추가 오디오 신호를 생성할 수 있다.
상기 프로세서는, 상기 가상 음원이 모델링하는 물체의 크기 및 상기 청취자로부터 상기 가상 음원까지의 거리를 기초로 상기 한 쌍의 추가 필터를 생성하고, 상기 한 쌍의 추가 필터를 기초로 상기 입력 오디오 신호를 필터링하여 상기 추가 오디오 신호를 생성할 수 있다.
상기 제1 전달함수 세트가 포함하는 복수의 HRTFs 각각의 위상응답은 상기 복수의 HRTFs 와 무관하게 서로 동일할 수 있다. 이때, 상기 프로세서는, 상기 가상 음원의 위치가 상기 복수의 HRTFs 각각에 대응하는 위치 이외의 위치인 경우, 상기 가상 음원의 위치를 기초로 상기 변경된 제1 전달함수 세트 중에서 적어도 둘 이상의 HRTFs 쌍을 획득하고, 시간영역에서 상기 적어도 둘 이상의 HRTFs 쌍을 인터폴레이션하여 상기 제1 한 쌍의 HRTF를 획득할 수 있다.
상기 프로세서는, 상기 제1 전달함수 세트가 아닌 다른 제2 전달함수 세트로부터 상기 가상 음원의 위치를 기초로 제2 동측 HRTF 및 제2 대측 HRTF를 포함하는 제2 한 쌍의 HRTFs를 획득하고, 상기 제2 동측 HRTF 의 위상응답을 상기 변경된 제1 동측 HRTF의 위상응답이 되도록 변경하고, 상기 제2 대측 HRTF 의 위상응답을 상기 변경된 제1 대측 HRTF의 위상응답이 되도록 변경하고, 상기 위상응답이 변경된 제1 한 쌍의 HRTFs 및 상기 위상응답이 변경된 제2 한 쌍의 HRTFs를 기초로 상기 출력 오디오 신호를 생성할 수 있다.
본 개시의 일 실시예에 따른 장치 및 방법은 바이노럴 렌더링 과정에서 발생하는 콤-필터링 효과로 인한 음질 열화를 감소시킬 수 있다. 구체적으로, 본 개시의 일 실시예에 따른 장치 및 방법은 복수의 필터를 기초로 입력 오디오 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성하는 과정에서 발생하는 음색 왜곡을 감소시킬 수 있다.
도 1은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치의 구성을 나타내는 블록도이다.
도 2는 본 개시의 일 실시예에 따른 오디오 신호 처리 장치의 동작을 나타내는 블록도이다.
도 3은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 원형(original) HRTF 쌍의 위상응답을 변경하는 방법을 구체적으로 나타내는 도면이다.
도 4는 HRTF의 원형 위상응답 및 해당 원형 위상응답이 선형화된 위상응답을 나타내는 도면이다.
도 5는 한 쌍의 HRTF가 포함하는 좌측 및 우측 HRTF 각각의 선형화된 위상응답을 나타낸다.
도 6 및 도 7은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 양이간 극좌표계(Interaural Polar Coordinate, IPC)의 방위각 별 ITD를 획득하는 방법을 나타내는 도면이다.
도 8은 오디오 신호 처리 장치가 본 개시의 일 실시예에 따라 청취자의 머리 모델링 정보를 이용하여 ITD를 획득하는 방법을 나타내는 도면이다.
도 9는 오디오 신호 처리 장치가 본 개시의 다른 일 실시예에 따라 청취자의 머리 모델링 정보를 이용하여 ITD를 획득하는 방법을 나타내는 도면이다.
도 10은 본 발명의 일 실시예에 따른 오디오 신호 처리 장치가 오디오 신호의 공간 해상도를 높이는 방법을 나타내는 도면이다.
도 11은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 원형 HRIR 세트로부터 확장된 HRIR 세트를 생성하는 방법을 나타내는 도면이다.
도 12는 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 복수의 HRTF 세트를 기초로 바이노럴 렌더링된 출력 오디오 신호를 선형 결합하여 최종 출력 오디오 신호를 생성하는 방법을 나타내는 도면이다.
도 13은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 복수의 HRTF 세트를 선형 결합하여 생성된 HRTF를 기초로 최종 출력 오디오 신호를 생성하는 방법을 나타내는 도면이다.
도 14는 본 개시의 다른 일 실시예에 따른 오디오 신호 처리 장치가 HRTF 쌍에 대한 측정 오류를 보정하는 방법을 나타내는 도면이다.
도 15는 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 시간 영역에서 복수의 필터를 기초로 출력 오디오 신호를 생성하는 블록도이다.
도 16은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 패닝 게인을 이용하여 바이노럴 효과 강도를 조절하는 방법을 나타내는 도면이다.
도 17은 청취자를 기준으로 방위각에 따른 좌측 및 우측 각각의 패닝 게인을 나타내는 도면이다.
도 18은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 주파수 영역에서 제1 필터 및 제2 필터를 기초로 출력 오디오 신호를 생성하는 블록도이다.
도 19는 도 17 및 도 18을 통해 획득된 출력 오디오 신호를 시간영역에서 도시한 그래프이다.
도 20은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 동측, 대측 별로 일치된 위상응답을 기초로 출력 오디오 신호를 생성하는 방법을 나타내는 블록도이다.
도 21은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 HRTF 및 추가 필터를 기초로 출력 오디오 신호를 생성하는 방법을 나타내는 블록도이다.
도 22는 공간 필터에 의한 음향 효과의 예를 도시한다.
도 23은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 복수의 필터를 기초로 출력 오디오 신호를 생성하는 방법을 나타내는 도면이다.
도 24는 콤-필터링 효과로 인한 음질 열화를 나타내는 도면이다.
도 25는 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 복수의 필터를 결합하여 결합 필터를 생성하는 방법을 나타내는 도면이다.
도 26은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 복수의 필터를 주파수 영역에서 인터폴레이션하여 생성한 결합 필터를 나타내는 도면이다.
도 27은 본 개시의 일 실시예에 따른 공간 필터의 주파수 응답의 예시이다.
도 28은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 전술한 HRTF, 패닝 필터 및 공간 필터를 기초로 최종 출력 오디오 신호를 생성하는 방법을 나타내는 도면이다.
도 29 및 도 30은 복수의 가상 음원에 대응하는 복수의 HRTFs 각각의 위상응답이 서로 간에 매칭되지 않은 경우 또는 매칭된 경우 각각에 대해, 출력 오디오 신호의 주파수 응답의 크기 성분의 예시를 나타내는 도면이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 개시는 오디오 신호 처리 장치가 입력 오디오 신호를 바이노럴 렌더링(Binaural Rendering)하여 출력 오디오 신호를 생성하는 방법에 관한 것이다. 본 개시의 일 실시예에 따른 오디오 신호 처리 장치는, 입력 오디오 신호에 대응하는 위상응답(phase response)이 변경된 바이노럴 전달함수 쌍(binaural transfer function pair)을 기초로 출력 오디오 신호를 생성할 수 있다. 위상응답은 주파수 응답의 위상 성분을 나타낸다. 또한, 오디오 신호 처리 장치는 초기의 바이노럴 전달함수 쌍의 위상응답을 변경할 수도 있다. 본 개시의 일 실시예에 따른 오디오 신호 처리 장치는 조정된 위상응답을 가지는 전달함수를 통해 바이노럴 렌더링 과정에서 발생하는 콤-필터링 효과(Comb-filtering effect)를 완화할 수 있다. 또한, 오디오 신호 처리 장치는 입력 오디오 신호의 음상 정위 성능을 유지하면서 동시에 음색 왜곡(timbre distortion)을 완화할 수 있다. 본 개시에서, 전달함수는 머리전달함수(head-related transfer function, HRTF)를 포함할 수 있다.
이하 첨부된 도면을 참조하여 본 발명을 상세히 설명한다.
도 1은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치(100)의 구성을 나타내는 블록도 이다. 일 실시예에 따라, 오디오 신호 처리 장치(100)는 수신부(110), 프로세서(120) 및 출력부(130)를 포함할 수 있다. 그러나 도 1에 도시된 구성 요소 모두가 오디오 신호 처리 장치의 필수 구성 요소인 것은 아니다. 오디오 신호 처리 장치(100)는 도 1에 도시되지 않을 구성 요소를 추가로 포함할 수 있다. 뿐만 아니라 도 1에 도시된 오디오 신호 처리 장치(100)의 구성 요소 중 적어도 일부가 생략될 수도 있다.
수신부(110)는 오디오 신호를 수신할 수 있다. 수신부(110)는 오디오 신호 처리 장치(100)로 입력되는 입력 오디오 신호를 수신할 수 있다. 수신부(110)는 프로세서(120)에 의한 바이노럴 렌더링의 대상이 되는 입력 오디오 신호를 수신할 수 있다. 여기에서, 입력 오디오 신호는 앰비소닉 신호, 오브젝트 신호 또는 채널 신호 중 적어도 하나를 포함할 수 있다. 이때, 입력 오디오 신호는 1개의 오브젝트 신호 또는 모노 신호일 수 있다. 입력 오디오 신호는 멀티 오브젝트 또는 멀티 채널 신호일 수도 있다. 일 실시예에 따라, 오디오 신호 처리 장치(100)가 별도의 디코더를 포함하는 경우, 오디오 신호 처리 장치(100)는 입력 오디오 신호의 부호화된 비트 스트림을 수신할 수도 있다.
일 실시예에 따라, 수신부(110)는 입력 오디오 신호를 수신하기 위한 수신 수단을 구비할 수 있다. 예를 들어, 수신부(110)는 유선으로 전송되는 입력 오디오 신호를 수신하는 오디오 신호 입력 단자를 포함할 수 있다. 수신부(110)는 무선으로 전송되는 오디오 신호를 수신하는 무선 오디오 수신 모듈을 포함할 수 있다. 이 경우, 수신부(110)는 블루투스(bluetooth) 또는 와이파이(Wi-Fi) 통신 방법을 이용하여 무선으로 전송되는 오디오 신호를 수신할 수 있다.
프로세서(120)는 오디오 신호 처리 장치(100)의 전반적인 동작을 제어할 수 있다. 프로세서(120)는 오디오 신호 처리 장치(100)의 각 구성 요소를 제어할 수 있다. 프로세서(120)는 각종 데이터와 신호의 연산 및 처리를 수행할 수 있다. 프로세서(120)는 반도체 칩 또는 전자 회로 형태의 하드웨어로 구현되거나 하드웨어를 제어하는 소프트웨어로 구현될 수 있다. 프로세서(120)는 하드웨어와 상기 소프트웨어가 결합된 형태로 구현될 수도 있다. 예를 들어, 프로세서(120)는 적어도 하나의 프로그램을 실행함으로써, 수신부(110) 및 출력부(130)의 동작을 제어할 수 있다. 또한, 프로세서(120)는 적어도 하나의 프로그램을 실행하여 후술할 도 2 내지 도 30을 통해 설명되는 오디오 신호 처리 장치의 동작을 수행할 수 있다.
예를 들어, 프로세서(120)는 출력 오디오 신호를 생성할 수 있다. 프로세서(120)는 수신부(110)를 통해 수신된 입력 오디오 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성할 수 있다. 프로세서(120)는 후술할 출력부(130)를 통해 출력 오디오 신호를 출력할 수 있다. 일 실시예에 따라, 출력 오디오 신호는 바이노럴 오디오 신호일 수 있다. 예를 들어, 출력 오디오 신호는 입력 오디오 신호가 3차원 공간에 위치하는 가상 음원으로 표현되는 2채널 오디오 신호일 수 있다. 프로세서(120)는 후술할 전달함수 쌍(transfer function pair)을 기초로 입력 오디오 신호를 바이노럴 렌더링할 수 있다. 이때, 프로세서(120)는 시간 도메인 또는 주파수 도메인 상에서 바이노럴 렌더링을 수행할 수 있다.
일 실시예에 따라, 프로세서(120)는 입력 오디오 신호를 바이노럴 렌더링하여 2 채널 출력 오디오 신호를 생성할 수 있다. 예를 들어, 프로세서(120)는 청취자의 양이에 각각 대응하는 2 채널 출력 오디오 신호를 생성할 수 있다. 이때, 2 채널 출력 오디오 신호는 바이노럴 2 채널 출력 오디오 신호일 수 있다. 프로세서(120)는 전술한 입력 오디오 신호에 대해 바이노럴 렌더링을 수행하여 3차원 상에 표현되는 오디오 헤드폰 신호를 생성할 수 있다.
일 실시예에 따라, 프로세서(120)는 전달함수 쌍(transfer function pair)을 기초로 입력 오디오 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성할 수 있다. 전달함수 쌍은 적어도 하나의 전달함수를 포함할 수 있다. 예를 들어, 전달함수 쌍은 청취자의 양이 각각에 대응하는 한 쌍의 전달함수를 포함할 수 있다. 전달함수 쌍은 동측(ipsilateral) 전달함수 및 대측(contralateral) 전달함수를 포함할 수 있다. 구체적으로, 전달함수 쌍은 동측 귀를 위한 출력 채널에 대응하는 동측 HRTF 및 대측 귀를 위한 출력 채널에 대응하는 대측 HRTF를 포함할 수 있다. 이하에서는 설명의 편의를 위해 특별한 기재가 없는 경우, 전달함수(또는 HRTF) 쌍이 포함하는 적어도 하나의 전달함수 중에서 어느 하나를 나타내는 용어로 전달함수(또는 HRTF)를 이용한다.
일 실시예에 따라, 프로세서(120)는 입력 오디오 신호에 대응하는 가상 음원의 위치를 기초로 전달함수 쌍을 결정할 수 있다. 이때, 프로세서(120)는 오디오 신호 처리 장치(100)가 아닌 다른 장치(미도시)로부터 전달함수 쌍을 획득할 수 있다. 예를 들어, 프로세서(120)는 복수의 전달함수를 포함하는 데이터 베이스(data base)로부터 적어도 하나의 전달함수를 수신할 수 있다. 데이터 베이스는 복수의 전달함수 쌍을 포함하는 전달함수 세트를 저장하는 외부의 장치일 수 있다. 이때, 오디오 신호 처리 장치(100)는 데이터 베이스로 전달함수를 요청하고, 데이터 베이스로부터 전달함수에 대한 정보를 수신하는 별도의 통신부(미도시)를 포함할 수도 있다. 프로세서(120)는 오디오 신호 처리 장치(100)에 저장된 전달함수 세트를 기초로 입력 오디오 신호에 대응하는 전달함수 쌍을 획득할 수도 있다. 프로세서(120)는 획득한 전달함수 쌍을 기초로 입력 오디오 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성할 수 있다.
일 실시예에 따라, 프로세서(120)의 출력 오디오 신호에 대한 포스트 프로세싱이 추가로 수행될 수 있다. 포스트 프로세싱에는 크로스톡 제거, DRC(Dynamic Range Control), 음량 정규화, 피크 제한 등이 포함될 수 있다. 또한, 포스트 프로세싱은 프로세서(120)의 출력 오디오 신호에 대한 주파수/시간 도메인 변환을 포함할 수 있다. 오디오 신호 처리 장치(100)는 포스트 프로세싱을 수행하는 별도의 포스트 프로세싱부를 포함할 수 있으며, 다른 실시예에 따라 포스트 프로세싱부는 프로세서(120)에 포함될 수도 있다.
출력부(130)는 출력 오디오 신호를 출력할 수 있다. 출력부(130)는 프로세서(120)에 의해 생성된 출력 오디오 신호를 출력할 수 있다. 출력부(130)는 적어도 하나의 출력 채널을 포함할 수 있다. 여기에서, 출력 오디오 신호는 청취자의 양이에 각각 대응하는 2 채널 출력 오디오 신호일 수 있다. 출력 오디오 신호는 바이노럴 2 채널 출력 오디오 신호일 수 있다. 출력부(130)는 프로세서(120)에 의해 생성된 3D 오디오 헤드폰 신호를 출력할 수 있다.
일 실시예에 따라, 출력부(130)는 출력 오디오 신호를 출력하는 출력 수단을 구비할 수 있다. 예를 들어, 출력부(130)는 출력 오디오 신호를 외부로 출력하는 출력 단자를 포함할 수 있다. 이때, 오디오 신호 처리 장치(100)는 출력 단자에 연결된 외부 장치로 출력 오디오 신호를 출력할 수 있다. 출력부(130)는 출력 오디오 신호를 외부로 출력하는 무선 오디오 송신 모듈을 포함할 수 있다. 이 경우, 출력부(130)는 블루투스 또는 와이파이와 같은 무선 통신 방법을 이용하여 외부 장치로 출력 오디오 신호를 출력할 수 있다. 출력부(130)는 스피커를 포함할 수 있다. 이때, 오디오 신호 처리 장치(100)는 스피커를 통해 출력 오디오 신호를 출력할 수 있다. 또한, 출력부(130)는 디지털 오디오 신호를 아날로그 오디오 신호로 변환하는 컨버터(예를 들어, digital-to-analog converter, DAC)를 추가적으로 포함할 수 있다.
가상현실에서의 바이노럴 렌더링된 오디오 신호는 재현성을 높이기 위해 추가적인 신호와 조합될 수 있다. 이에 따라, 오디오 신호 처리 장치는 복수의 필터를 기초로 입력 오디오 신호를 바이노럴 렌더링하는 바이노럴 필터를 생성할 수 있다. 또한, 오디오 신호 처리 장치는 복수의 필터를 기초로 필터링된 오디오 신호들을 합성할 수 있다. 이때, 복수의 필터의 주파수 응답 간의 위상 특성의 차이(즉, 시간영역에서 시간 지연 차이)로 인해 최종 생성된 출력 오디오 신호의 품질이 저하될 수 있다. 콤-필터링(comb-filtering) 효과로 인해 출력 오디오 신호의 음색이 왜곡될 수 있기 때문이다.
이에 따라, 오디오 신호 처리 장치는 청취자를 기준으로 하는 특정 위치 각각에 대응하는 위치 별(position-specific) HRTF의 위상응답을 변경(modify)할 수 있다. 예를 들어, 위치 별 HRTF는 청취자를 기준으로 하는 단위구면 상의 위치 각각에 대응하는 HRTF를 포함할 수 있다. 본 개시의 일 실시예에 따르면, 오디오 신호 처리 장치는 동측 HRTF의 위상을 서로 일치하도록 변경한 전달함수 세트를 이용하여 입력 오디오 신호를 바이노럴 렌더링할 수 있다. 오디오 신호 처리 장치는 위치 별 동측 HRTF의 위상응답 각각을 서로 동일한 선형 위상응답(linear phase response)이 되도록 동기화할 수 있다. 또한, 오디오 신호 처리 장치는 위치 별 대측 HRTF의 위상응답 각각을 선형화할 수 있다.
이하에서는, 본 개시의 일 실시예에 따른 오디오 신호 처리 장치의 동작 방법에 관하여 도 2를 참조하여 설명한다. 도 2는 본 개시의 일 실시예에 따른 오디오 신호 처리 장치의 동작을 나타내는 블록도이다. 일 실시예에 따라, 오디오 신호 처리 장치는 입력 오디오 신호를 바이노럴 렌더링(S101)하여 출력 오디오 신호를 생성할 수 있다. 오디오 신호 처리 장치는 전달함수 세트로부터 획득된 HRTF 쌍을 기초로 입력 오디오 신호를 바이노럴 렌더링할 수 있다. 구체적으로, 오디오 신호 처리 장치는 청취자를 기준으로 하는 위치 별 복수의 HRTF를 포함하는 HRTF 세트를 획득할 수 있다. 오디오 신호 처리 장치는 오디오 신호 처리 장치 또는 외부의 장치를 통해 측정된 HRTF 세트를 획득할 수 있다. 본 개시에서 “머리전달함수(head-related transfer function, HRTF)”는, 입력 오디오 신호의 바이노럴 렌더링에 이용되는 바이노럴 전달함수를 지칭하는 용어로 사용될 수 있다. 또한, 바이노럴 전달함수는 ITF(Interaural Transfer Function), MITF(Modified ITF), BRTF(Binaural Room Transfer Function), RIR(Room Impulse Response), BRIR(Binaural Room Impulse Response), HRIR(Head Related Impulse Response) 및 이의 변형 및 편집 된 데이터 중 적어도 하나를 포함할 수 있으며, 본 개시가 이에 한정되는 것은 아니다. 예를 들어, 바이노럴 전달함수는 복수의 바이노럴 전달함수를 선형 결합하여 획득한 2차적 바이노럴 전달함수를 포함할 수 있다. HRTF는 HRIR을 고속 푸리에 변환(Fast Fourier Transform, FFT)한 것일 수 있으나, 변환 방법은 이에 한정되지 않는다.
HRTF는 무향실에서 측정된 것일 수 있다. 또한, HRTF는 시뮬레이션(simulation)으로 추정된 HRTF에 관한 정보를 포함할 수도 있다. HRTF를 추정하는데 사용되는 시뮬레이션 기법은 구형 헤드 모델(Spherical Head Model, SHM), 스노우맨 모델(snowman model), 유한 차이 시간 영역 기법(Finite-Difference Time-Domain Method, FDTDM) 및 경계 요소법(Boundary Element Method, BEM) 중 적어도 하나일 수 있다. 이때, 구형 헤드 모델은 사람의 머리가 구라고 가정하여 시뮬레이션하는 시뮬레이션 기법을 나타낸다. 또한, 스노우맨 모델은 머리와 몸통을 구로 가정하여 시뮬레이션하는 시뮬레이션 기법을 나타낸다.
또한, HRTF 세트는 기 설정된 각도 간격마다 해당 각도에 대응하는 HRTF 쌍을 포함할 수 있다. 예를 들어, 기 설정된 각도 간격은 1도 또는 10도 간격일 수 있으며, 본 개시가 이에 제한되는 것은 아니다. 본 개시에서 각도는 방위각, 고도각 및 그 조합을 포함할 수 있다. 예를 들어, HRTF 세트는 기 설정된 값을 반지름으로 하는 구의 중심을 기준으로 방위각 및 고도각의 조합 각각에 대응하는 머리전달함수를 포함할 수 있다. 또한, 본 개시에서 방위각 및 고도각을 정의하는 좌표계는 수직 극좌표계(Vertical Polar Coordinate, VPC) 또는 양이간 극좌표계(Interaural Polar Coordinate, IPC) 중 어느 하나가 사용될 수 있다. 또한, 오디오 신호 처리 장치는 기 설정된 각도 간격 마다 정의된 HRTF 쌍을 이용하여, 기 설정된 각도 간격 사이의 각도에 대응하는 HRTF 쌍을 획득할 수도 있다. 이에 대해서는, 도 10 내지 도11을 통해 후술한다.
일 실시예에 따라, 오디오 신호 처리 장치는 위상응답이 변경된 전달함수 세트(HRTF’ 세트)를 획득할 수 있다. 예를 들어, 오디오 신호 처리 장치는 획득된 전달함수 세트(HRTF 세트)로부터 위상응답이 변경된 전달함수 세트(HRTF’ 세트)를 생성할 수 있다. 오디오 신호 처리 장치는 외부 장치로부터 위상응답이 변경된 전달함수 세트(HRTF’ 세트) 또는 한 쌍의 HRTF를 획득할 수도 있다. 또한, 오디오 신호 처리 장치는 위상응답이 변경된 전달함수 세트(HRTF’세트)를 기초로 입력 오디오 신호를 바이노럴 렌더링할 수 있다.
예를 들어, 오디오 신호 처리 장치는 위상응답이 변경된 HRTF’를 획득(S102)할 수 있다. 구체적으로, 오디오 신호 처리 장치는 전달함수 세트로부터 입력 오디오 신호에 대응하는 HRTF 쌍을 획득할 수 있다. 예를 들어, 오디오 신호 처리 장치는 청취자를 기준으로 입력 오디오 신호에 대응하는 가상 음원의 위치에 기초하여, 입력 오디오 신호를 시뮬레이션(simulation)하는 적어도 한 쌍의 HRTF를 획득할 수 있다. 입력 오디오 신호에 대응하는 가상 음원이 복수인 경우, 입력 오디오 신호에 대응하는 HRTF 쌍은 복수일 수 있다. 또한, 오디오 신호 처리 장치는 하나의 가상 음원의 위치를 기초로 복수의 HRTF 쌍을 획득할 수도 있다. 예를 들어, 가상 음원이 시뮬레이션하는 물체의 크기가 기 설정된 크기 이상인 경우, 오디오 신호 처리 장치는 복수의 HRTF 쌍을 기초로 출력 오디오 신호를 획득할 수 있다. 또한, 한 쌍의 HRTF는 서로 다른 위치에 대응하는 동측 HRTF 및 대측 HRTF로 구성된 쌍일 수도 있다. 예를 들어, 오디오 신호 처리 장치는 입력 오디오 신호에 대응하는 가상 음원의 위치를 기초로 서로 다른 위치에 대응하는 동측 HRTF 및 대측 HRTF를 획득할 수도 있다.
다음으로, 오디오 신호 처리 장치는 HRTF 쌍의 위상응답을 변경할 수 있다. 또한, 오디오 신호 처리 장치는 위상응답이 변경된 HRTF’ 세트를 오디오 신호 처리 장치 외부의 장치로부터 수신할 수도 있다. 이 경우, 오디오 신호 처리 장치는 변경된 HRTF’ 세트로부터 위상응답이 변경된 HRTF’ 쌍을 획득할 수도 있다. 다음으로, 오디오 신호 처리 장치는 위상응답이 변경된 HRTF’ 쌍에 기초하여 입력 오디오 신호를 바이노럴 렌더링할 수 있다. 이하 도 3 내지 도 30을 통해 설명되는 오디오 신호 처리 장치의 동작 중 적어도 일부는 다른 장치에 의해 수행될 수도 있다. 예를 들어, 후술할 전달함수 각각에 대한 위상응답 변경은 오디오 신호 처리 장치 외부의 장치를 통해 수행될 수도 있다. 이 경우, 오디오 신호 처리 장치는 변경된 위상 특성을 가지는 전달함수를 외부의 장치로부터 수신할 수 있다. 또한, 오디오 신호 처리 장치는 변경된 위상 특성을 가지는 전달함수를 기초로 출력 오디오 신호를 생성할 수 있다.
이하에서는, 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 획득된 HRTF 세트가 포함하는 복수의 HRTFs 각각의 위상응답을 변경하는 방법에 대해 도 3 내지 도 9를 참조하여 설명한다. 설명의 편의를 위해, 획득된 HRTF 세트가 포함하는 복수의 HRTF 쌍 중에서 어느 한 쌍에 대한 처리 방법을 예로 들어 설명한다. 이하에서 설명되는 오디오 신호 처리 장치의 동작 방법은 HRTF 세트가 포함하는 HRTF 쌍 전체에 대해 적용될 수 있다.
도 3은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 원형(original) HRTF 쌍의 위상응답을 변경하는 방법을 구체적으로 나타내는 도면이다. 이때, 원형(original) HRTF 쌍은 측정된 HRTF를 나타낼 수 있다. 일 실시예에 따라, 오디오 신호 처리 장치는 획득된 원형 HRTF 쌍을 분석할 수 있다. 오디오 신호 처리 장치는 전술한 HRTF 세트로부터 입력 오디오 신호에 대응하는 가상 음원의 위치를 기초로 원형 HRTF 쌍을 획득할 수 있다. 이때, HRTF 세트는 청취자를 기준으로 하는 특정 위치 각각에 대응하는 HRTF 쌍을 포함할 수 있다. 또한, HRTF 쌍은 동측 HRTF 및 대측 HRTF를 포함할 수 있다. 이하에서는 설명의 편의를 위해 동측 또는 대측에 대한 한정이 없는 HRTF의 경우, 동측 HRTF 및 대측 HRTF 중에서 어느 하나를 나타낼 수 있다. 도 3을 참조하면, 오디오 신호 처리 장치는 동측 및 대측 HRTF 각각의 크기응답(magnitude response)(A) 및 위상응답(phase response)(phi)을 구분하여 처리할 수 있다. 크기응답은 주파수 응답의 크기 성분을 나타낸다. 또한, 위상응답은 주파수 응답의 위상 성분을 나타낸다
다음으로, 오디오 신호 처리 장치는 원형 HRTF의 위상응답을 변경(modify)하여 최종 HRTF 쌍을 획득할 수 있다. 본 개시에서 위상응답의 변경은 위상응답의 치환, 대체 또는 일부 주파수 빈(bin)에 대응하는 위상 값의 수정을 포함할 수 있다. 또는 HRTF 세트가 포함하는 복수의 HRTFs 중 일부에 대해서는 위상응답이 유지될 수도 있다. 구체적으로, 오디오 신호 처리 장치는 동측 원형 HRTF의 위상응답을 공통의 동측 위상응답으로 설정하여 최종 동측 HRTF를 획득할 수 있다. 여기에서, 공통의 동측 위상응답은 하나의 HRTF 세트가 포함하는 복수의 동측 HRTFs를 위한 단일의 위상응답일 수 있다.
예를 들어, 오디오 신호 처리 장치는 청취자를 기준으로 하는 위치 별 동측 HRTF 각각의 위상응답 각각을 동측 HRTF 각각에 대응하는 위치와 무관하게 동일한 특정 위상응답이 되도록 설정할 수 있다. 오디오 신호 처리 장치는 최종 동측 HRTF의 위상응답을 입력 오디오 신호에 대응하는 가상 음원의 위치와 무관하게 동일한 공통의 동측 위상응답으로 일치시킬 수 있다. 인간의 청각의 경우, 인간의 양이간의 소리 크기의 차이 및 도달 시간의 차이를 기초로 음원의 위치가 인지되기 때문이다. 이에 따라, 오디오 신호 처리 장치는 동측 및 대측 중 어느 한편의 위상응답을 위치와 무관한 응답으로 고정할 수 있다. 이를 통해, 오디오 신호 처리 장치는 저장되어야 하는 데이터 양을 감소시킬 수 있다. 예를 들어, 오디오 신호 처리 장치는 동측 HRTF의 위상응답을 고정할 수 있다. 오디오 신호의 에너지가 대측에 비해 동측에서 더 크기 때문이다. 또한, 오디오 신호 처리 장치는 위치 별 HRTF 쌍이 포함하는 동측 HRTF 및 대측 HRTF의 위상응답 간의 차이를 기초로 고정되지 않은 편의 위상응답을 설정할 수 있다. 일 실시예에 따라, 공통의 동측 위상응답은 선형적인 특성을 가지는 선형(linear) 응답일 수 있다. 이와 관련하여서는 도 4 및 도 5를 통해 후술하도록 한다.
또한, 오디오 신호 처리 장치는 대측 원형 HRTF의 위상응답을 변경하여 최종 대측 HRTF를 획득할 수 있다. 오디오 신호 처리 장치는 동측과 대측 사이의 위상 차이를 나타내는 양이간 위상 차이(interaural phase difference, IPD)를 기초로 최종 대측 HRTF를 위한 대측 위상응답을 획득할 수 있다. 예를 들어, 오디오 신호 처리 장치는 최종 동측 HRTF의 위상응답을 기준으로 하는 대측 위상응답을 결정할 수 있다.
구체적으로, 오디오 신호 처리 장치는 청취자를 기준으로 하는 위치 별 IPD를 기초로 입력 오디오 신호에 대응하는 IPD를 획득할 수 있다. 오디오 신호 처리 장치는 동측 원형 HRTF와 대측 원형 HRTF 사이의 위상 차이를 연산하여 입력 오디오 신호에 대응하는 IPD를 획득할 수도 있다. 오디오 신호 처리 장치는 주파수 빈 별 동측 HRTF와 대측 HRTF의 위상응답 간의 차이를 기초로 대측 위상응답을 획득할 수 있다. 한편, HRTF의 위상응답 변형은 시간영역에서 수행될 수도 있다. 예를 들어, 오디오 신호 처리 장치는 HRTF로부터 변환된 HRIR에 그룹-딜레이를 적용할 수도 있다. 이에 대해서는, 도 6 내지 도 9를 통해 후술하도록 한다. 다음으로, 오디오 신호 처리 장치는 서로 구분하여 처리된 크기응답(A) 및 변경된 위상응답(phi’)을 기초로 최종 HRTF 쌍(HRTF’ pair)을 생성할 수 있다. 이때, 최종 HRTF 쌍은 복소수 형태(A*exp(j*phi_I), A*exp(j*phi_c))의 응답으로 표현될 수 있다.
한편, 원형 HRTF 세트가 포함하는 동측 원형 HRTF의 위상응답은 주파수 별 위상응답의 기울기가 일정하지 않을 수 있다. 측정 오차 또는 피측정자에 대한 과도한 맞춤(over fitting) 때문에, 원형 HRTF의 위상응답이 이상적인 선형 위상응답이 되기 어렵기 때문이다. 이 경우, 주파수 빈 별 위상 값의 차이로 인해 시간영역에서 HRTF 주파수 빈 별 시간 지연(time delay)이 달라져 추가적인 음색 왜곡이 발생할 수 있다. 일 실시예에 따라, 오디오 신호 처리 장치는 주파수 영역에서 위상 특성이 선형화된 동측 HRTF를 기초로 출력 오디오 신호를 생성할 수 있다. 도 3을 통해 전술한 실시예에서, 오디오 신호 처리 장치는 복수의 동측 HRTFs를 위한 공통의 동측 위상응답을 선형화할 수 있다. 즉, 오디오 신호 처리 장치는 HRTF의 주파수 빈 별 시간 지연을 일치시킬 수 있다. 이를 통해, 오디오 신호 처리 장치는 주파수 성분 별로 시간 지연이 달라져 발생하는 음색 왜곡을 감소시킬 수 있다. 이하에서는, 도 4 내지 도 5를 참조하여, 오디오 신호 처리 장치가 HRTF의 위상응답을 선형화(linearization)하는 방법에 대해 설명한다.
도 4는 HRTF의 원형 위상응답 및 해당 원형 위상응답으로부터 선형화된 위상응답을 나타내는 도면이다. 도 4에서, HRTF의 원형 위상응답은 언랩핑 위상응답(unwrapping phase response) 형태로 도시되었다. 오디오 신호 처리 장치는 언랩핑 위상응답을 이용하여 HRTF의 위상응답을 선형화할 수 있다. 도 4를 참조하면, 오디오 신호 처리 장치는 DC(direct current) 주파수 빈에 대응하는 HRTF의 위상 값과 나이키스트(Nyquist) 주파수 빈에 대응하는 HRTF의 위상 값을 연결하여 HRTF의 위상응답을 선형 위상응답으로 근사화할 수 있다. 구체적으로, 오디오 신호 처리 장치는 [수학식 1]과 같은 방법으로 HRTF의 위상응답을 선형화할 수 있다.
[수학식 1]
phi_unwrap,lin[k] = (phi_unwrap[HN] - phi_unwrap[0])/HN*k + phi_unwrap[0], 여기서, k는 정수이고 0≤k≤HN
[수학식 1]에서, k는 주파수 빈의 인덱스를 나타낸다. 또한, HN은 나이키스트 주파수 빈을 나타내고, phi_unwrap[HN] 은 나이키스트 주파수 빈에서의 언랩핑 위상 값을 나타낸다. phi_unwrap[0]은 주파수 빈 DC에 대응하는 언랩핑 위상 값을 나타내고, phi_unwrap,lin[k] 는 주파수 빈 k에 대응하는 선형화된 언랩핑 위상 값을 나타낸다. [수학식 1]에서와 같이, 오디오 신호 처리 장치는 위상응답의 선형 근사화된 기울기를 이용하여 주파수 빈 별 위상 값을 획득할 수 있다. 오디오 신호 처리 장치는 언랩핑된 위상응답을 위상 축에서 (-π, π) 사이의 값이 되도록 랩핑(wrapping)하여 랩핑 위상응답을 획득할 수도 있다. 또한, 오디오 신호 처리 장치는 도 3에서와 같이 별도로 처리된 크기응답과 랩핑 위상응답을 기초로 최종 HRTF를 획득할 수 있다.
도 5는 한 쌍의 HRTF가 포함하는 좌측 및 우측 HRTF 각각의 선형화된 위상응답을 나타낸다. 도 5에서 좌측 HRTF는 동측 HRTF이고, 우측 HRTF는 대측 HRTF일 수 있다. 동측 오디오 신호의 그룹-딜레이가 더 짧고, 이에 따라 동측 HRTF의 위상응답의 기울기의 절대값이 대측 HRTF에 비해 작을 수 있기 때문이다. 도 5에서, 좌측 및 우측 HRTF 사이의 주파수 빈(k) 별 위상 값의 차이(IPD[k])는 [수학식 2]와 같이 나타낼 수 있다. [수학식 2]는 좌측 및 우측 HRTF의 위상응답이 선형화된 경우, IPD를 나타낸다. [수학식 2] 에서 phi_unwrap,lin,left[k] 및 phi_unwrap,lin,right[k]는 각각 주파수 빈 k에서 좌측 및 우측 HRTF의 언랩핑 위상 값을 나타낸다.
[수학식 2]
IPD[k] = phi_unwrap,lin,left[k] - phi_unwrap,lin,right[k]
도 5에서, 좌측 HRTF와 우측 HRTF 각각의 위상응답 간의 기울기 차이는 시간영역에서 그룹-딜레이 차이로 나타날 수 있다. 예를 들어, 동측 및 대측 HRTF의 위상응답 간의 기울기 차이가 클수록, 동측 및 대측 그룹-딜레이 간의 차이가 클 수 있다. 또한, 오디오 신호 처리 장치가 HRIR에 그룹-딜레이를 적용하는 경우, 해당 HRTF의 위상응답은 선형 위상응답이 될 수 있다. 여기에서, 그룹-딜레이는 시간영역에서 HRIR이 포함하는 필터 계수들을 공통적으로 지연시키는 지연 시간을 나타낼 수 있다. 또한, HRTF의 위상응답이 영위상 응답(zero phase response)인 경우, 오디오 신호 처리 장치는 결정된 그룹-딜레이에 대해 별도의 수정 없이 HRIR에 적용할 수 있다. 이하에서는, 오디오 신호 처리 장치가 선형화된 대측 위상응답에 대응하는 대측 그룹-딜레이를 획득하는 방법에 대해 설명한다.
전술한 바와 같이, 본 개시의 일 실시예에 따른 오디오 신호 처리 장치는 HRTF의 위상응답을 변경하는 과정 중 적어도 일부분을 시간영역에서 수행할 수 있다. 예를 들어, 오디오 신호 처리 장치는 HRTF를 시간 영역에서의 응답인 HRIR로 변환할 수 있다. 이때, HRTF의 위상응답은 영위상 응답일 수 있다. 영위상 응답인 경우 후술할 내용과 같이 오디오 신호 처리에 필요한 연산량을 감소시킬 수 있기 때문이다. 오디오 신호 처리 장치는 HRTF에 대해 IFFT(inverse fast Fourier transform)를 수행하여 HRIR을 획득할 수 있다. 다음으로, 오디오 신호 처리 장치는 그룹-딜레이(group-delay)를 기초로 동측 및 대측 HRIR 각각을 시간 지연시켜 HRTF의 위상응답을 변경할 수도 있다. 또한, 그룹-딜레이가 적용된 HRIR을 다시 주파수 영역 응답인 HRTF로 변환하는 경우, HRTF의 위상응답은 전술한 선형 위상응답일 수 있다.
구체적으로, 오디오 신호 처리 장치는 동측 그룹-딜레이를 기초로 시간영역에서 동측 HRIR를 지연시켜 최종 동측 HRIR을 생성할 수 있다. 이때, 동측 그룹-딜레이는 HRTF가 시뮬레이션하는 가상 음원의 위치와 무관한 값일 수 있다. 예를 들어, 동측 그룹-딜레이는 입력 오디오 신호의 프레임 사이즈(frame size)를 기반으로 설정된 값일 수 있다. 또한, 프레임 사이즈는 하나의 프레임이 포함하는 샘플의 개수를 나타낼 수 있다. 이를 통해, 오디오 신호 처리 장치는 시간 ‘0’을 기준으로 프레임 사이즈를 벗어나는 HRIR의 필터 계수를 방지할 수 있다. 오디오 신호 처리 장치는 하나의 HRIR 세트가 포함하는 복수의 동측 HRIRs에 대해 동일한 동측 그룹-딜레이를 적용할 수 있다. 오디오 신호 처리 장치는 동측 그룹-딜레이를 기초로 동측 HRIR을 시간 지연시켜 최종 동측 HRIR을 획득할 수 있다. 또한, 오디오 신호 처리 장치는 동측 그룹-딜레이가 적용된 HRIR 주파수 영역으로 변환하여 최종 동측 HRTF를 획득할 수도 있다.
또한, 오디오 신호 처리 장치는 대측 그룹-딜레이를 기초로 시간영역에서 대측 HRIR를 지연시켜 최종 대측 HRIR을 생성할 수 있다. 이때, 대측 그룹-딜레이는 동측 그룹-딜레이와 달리 대측 HRTF가 시뮬레이션하는 가상 음원의 위치를 기초로 설정된 값일 수 있다. 청취자를 기준으로 입력 오디오 신호에 대응하는 가상 음원의 위치에 따라, 동측과 대측간의 오디오 신호의 도달 시간 차이를 나타내는 양이간 시간 차이(interaural time difference, ITD)가 달라질 수 있기 때문이다. 오디오 신호 처리 장치는 청취자를 기준으로 하는 위치 별로, 해당 위치의 양이간 시간 차이를 기초로 대측 HRIR에 적용하기 위한 대측 그룹-딜레이를 결정할 수 있다. 이때, 대측 그룹-딜레이는 동측 그룹-딜레이 시간에 청취자를 기준으로 입력 오디오 신호에 대응하는 가상 음원의 위치에 따른 ITD 시간이 추가된 것일 수 있다.
또한, 오디오 신호 처리 장치는 대측 그룹-딜레이가 적용된 HRIR 주파수 영역으로 변환하여 최종 대측 HRTF를 획득할 수 있다. 이때, 대측 HRTF의 위상응답의 기울기가 증가할수록 대측 그룹-딜레이 값이 증가될 수 있다. 또한, 오디오 신호 처리 장치는 동측 HRIR의 그룹-딜레이 및 ITD를 기초로 청취자를 기준으로 하는 위치 별로 서로 다른 대측 그룹-딜레이를 결정할 수 있다. 이하에서는, 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 ITD를 획득하는 방법에 관해 도 6 내지 도 9를 참조하여 상세하게 설명하도록 한다.
일 실시예에 따라, 오디오 신호 처리 장치는 동측 및 대측 HRIR(또는 HRTF) 간의 상관도를 기초로 ITD(또는 IPD)를 획득할 수 있다. 이때, HRIR은 개인화된 HRIR일 수 있다. 동측 및 대측 HRIR(또는 HRTF) 간의 상호상관도(cross-correlation)청취자의 머리 모델에 따라 달라질 수 있기 때문이다. 또한, 오디오 신호 처리 장치는 청취자의 머리 모델을 기초로 측정된 응답인 개인화된 HRIR을 사용하여 ITD를 획득할 수도 있다. 오디오 신호 처리 장치는 아래 [수학식 3]와 같이 동측 및 대측 HRIR 간의 상호상관도(cross-correlation)를 기초로 ITD를 연산할 수 있다.
[수학식 3]
maxDelay = xcorr(HRIR_cont, HRIR_ipsil),
ITD = abs(maxDelay-HRIR_length)
[수학식 3]에서, xcorr(x, y)는 x와 y 사이의 지연시간 별 상호상관도 중에서 가장 높은 상호상관도에 대응하는 지연시간의 인덱스(maxDelay)를 출력하는 함수이다. 또한, [수학식 3]에서 HRIR_cont 및 HRIR_ipsil 은 각각 대측 HRIR 및 동측 HRIR이고, HRIR_length는 HRIR의 필터 시간영역에서의 길이를 나타낸다.
도 6 및 도 7은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 양이간 극좌표계(Interaural Polar Coordinate, IPC)의 방위각 별 ITD를 획득하는 방법을 나타내는 도면이다. 일 실시예에 따라, 오디오 신호 처리 장치는 IPC에서 방위각에 따른 새지털 평면(sagittal plane 또는 constant azimuth plane)(610)에 대응하는 ITD를 획득할 수 있다. 이때, 새지털 평면은 중앙 평면(median plane)과 평행한 평면일 수 있다. 또한, 중앙 평면은 수평 평면(620)과 직각이면서 수평 평면과 동일한 중심을 가지는 평면일 수 있다.
구체적으로, 오디오 신호 처리 장치는 제1 방위각(630)에 대응하는 새지털 평면과 청취자를 중심으로 하는 단위 구가 만나는 복수의 지점(601, 602, 603, 604) 각각에 대응하는 고도각 별 ITD를 획득할 수 있다. 이때, 복수의 지점(601, 602, 603, 604)은 IPC에서 동일한 방위각 및 서로 다른 고도각을 가질 수 있다. 또한, 오디오 신호 처리 장치는 고도각 별 ITD를 기초로 제1 방위각에 대응하는 공통의 ITD를 획득할 수 있다. 예를 들어, 오디오 신호 처리 장치는 고도각 별 ITD의 평균값, 중앙값 또는 최빈값 중 어느 하나를 제1 방위각(630)에 대응하는 그룹 ITD로 사용할 수 있다. 이 경우, 오디오 신호 처리 장치는 그룹 ITD를 기초로 제1 방위각에 대응하고 서로 다른 고도각을 가지는 복수의 대측 HRTFs에 동일하게 적용되는 대측 그룹-딜레이를 결정할 수 있다.
[수학식 4]는 오디오 신호 처리 장치가 고도각 별 ITD의 중앙값을 그룹 ITD로 사용하는 경우 오디오 신호 처리 장치의 연산 과정을 나타낸다.
[수학식 4]
t_cont=median{argmax_t(xcorr(HRIR_cont(n,a,e),HRIR_ipsil(n,a,e)))-HRIR_length}+t_pers+t_ipsil
[수학식 4]에서, xcorr(x, y)는 x와 y 사이의 지연시간 별 상호상관도 중에서 가장 높은 상호상관도에 대응하는 지연시간의 인덱스(maxDelay)를 출력하는 함수이다. 또한, [수학식 4]에서 HRIR_cont 및 HRIR_ipsil 은 각각 대측 HRIR 및 동측 HRIR이고, HRIR_length는 HRIR의 필터 시간영역에서의 길이를 나타낸다. 또한, t_pers는 청취자 별 개인화를 위한 추가 딜레이, a는 방위각 인덱스, e는 고도각 인덱스, t_ipsil는 동측 그룹-딜레이를 나타낸다. 도 7은 [수학식 4]에 의해 좌측 및 우측 HRTF 각각에 적용되는 그룹-딜레이를 방위각에 따라 나타낸 예시이다. 도 7에서, 가상 음원의 위치가 방위각 0도에서 180도까지인 경우, 청취자의 좌측은 대측에 해당하고, 청취자의 우측은 동측에 해당한다. 또한, 가상 음원의 위치가 방위각 180도에서 360도까지인 경우, 청취자의 좌측은 동측에 해당하고, 청취자의 우측은 대측에 해당한다.
일 실시예에 따라, 오디오 신호 처리 장치는 청취자의 머리 모델링 정보(head modeling information)를 기초로 대측 위상응답을 획득할 수도 있다. 양이간 시간 차이는 청취자의 머리 형상에 따라 달라질 수 있기 때문이다. 오디오 신호 처리 장치는 청취자의 머리 모델링 정보를 사용하여 개인화된 대측 그룹-딜레이를 결정할 수 있다. 예를 들어, 오디오 신호 처리 장치는 청취자의 머리 모델링 정보 및 청취자를 기준으로 입력 오디오 신호에 대응하는 가상 음원의 위치에 기초하여 대측 그룹-딜레이를 결정할 수 있다.
도 8은 오디오 신호 처리 장치가 본 개시의 일 실시예에 따라 청취자의 머리 모델링 정보를 이용하여 ITD를 획득하는 방법을 나타내는 도면이다. 머리 모델링 정보는 청취자 머리를 기초로 근사화된 구(approximated sphere)의 반지름(즉, 머리 사이즈 정보) 및 청취자의 양쪽 귀의 위치 중 적어도 하나가 포함될 수 있으나, 본 개시가 이에 제한되는 것은 아니다. 오디오 신호 처리 장치는 청취자의 머리 사이즈 정보, 청취자의 머리 방향을 기준으로 하는 가상 음원의 위치 및 청취자와 가상 음원 사이의 거리 중 적어도 하나를 기초로 ITD를 획득할 수 있다. 여기에서, 청취자와 가상 음원 사이의 거리는 청취자 중심으로부터 음원까지의 거리 또는 청취자의 동측/대측 귀로부터 음원까지의 거리일 수 있다. 구체적으로, 가상 음원으로부터 청취자의 동측 및 대측 귀까지 음향이 도달하는 시간(tau_ipsil, tau_cont)은 [수학식 5]와 같이 나타낼 수 있다.
[수학식 5]
d_cont = sqrt((1m)^2+r^2-2*r*cos(90+abs(theta)))
tau_cont = d_cont/c
d_ipsil = sqrt((1m)^2+r^2-2*r*cos(90-abs(theta)))
tau_ipsil = d_ipsil/c
여기서, c는 소리 속도(343m/s), -90<theta<90
[수학식 5]에서, r은 청취자의 머리를 근사화한 구의 반지름일 수 있다. 또는 r은 청취자의 머리 중심으로부터 양쪽 귀까지의 거리를 나타낼 수도 있다. 이 경우, 청취자의 머리 중심으로부터 동측 및 대측 귀까지의 거리는 서로 다른 값일 수도 있다(예를 들어, r1 및 r2). 또한, 1m은 청취자의 머리 중심으로부터 입력 오디오 신호에 대응하는 가상 음원까지의 거리를 나타낸다. d_cont는 청취자의 대측 귀로부터 가상 음원까지의 거리를 나타내고, d_ipsil은 청취자의 동측 귀로부터 가상 음원까지의 거리를 나타낸다. 오디오 신호 처리 장치는 청취자를 기준으로 하는 위치 별로 실제 측정된 개인화된 ITD를 기초로 대측 그룹-딜레이를 결정할 수도 있다.
도 9는 오디오 신호 처리 장치가 본 개시의 다른 일 실시예에 따라 청취자의 머리 모델링 정보를 이용하여 ITD를 획득하는 방법을 나타내는 도면이다. 도 9의 실시예에서, 대측에 대응하는 청취자의 좌측에 소리가 도달하는 시간(T_L)과 좌측 HRTF의 위상응답(phi_L) 사이의 관계 및 동측에 대응하는 청취자의 우측에 소리가 도달하는 시간(T_R)과 우측 HRTF의 위상응답(phi_R) 사이의 관계는 [수학식 6]과 같다.
[수학식 6]
phi_L = -w*T_L
phi_R = -w*T_R
[수학식 6]에서 w는 각주파수를 의미한다. phi_L과 phi_R 은 각각 w에 대한 미분(differentiation) 값이 -T_L과 -T_R 로 일정하다. 이에 따라, 좌측 및 우측 각각의 그룹-딜레이는 주파수 영역 전체에서 각각 동일할 수 있다. 오디오 신호 처리 장치는 가상 음원의 위치 및 머리 사이즈 정보를 기초로 T_L 및 T_R을 획득할 수 있다. 예를 들어, 오디오 신호 처리 장치는 가상 음원과 우측 귀까지의 거리(d), 청취자의 머리를 근사화한 구의 반지름(r)을 기초로 [수학식 7]과 같이 연산하여 T_L 및 T_R을 획득할 수 있다.
[수학식 7]
T_R = d/c
T_L = T_R + (r+pi*r/2)/c , pi는 원주율
또한, 일 실시예에 따라, 오디오 신호 처리 장치는 획득된 ITD외에 추가적인 딜레이를 가산하여 수정된 ITD’를 산출할 수도 있다. 예를 들어, 오디오 신호 처리 장치는 청취자와 음원 사이의 각도에 따라 서로 다른 추가 딜레이(Delay_add)를 가산하여 수정된 ITD’를 산출할 수 있다. [수학식 8]은 청취자와 음원의 위치에 의해 결정되는 방위각(azimuth)에 대한 구간을 분리하여 추가 딜레이(Delay_add)를 가산하는 방법을 나타낸다. [수학식 8]에서, slope는 방위각의 구간 별로 사용자 입력에 기초하여 설정된 위상응답의 기울기를 나타낼 수 있다. 또한, round(x)는 x값을 반올림 연산한 결과 값을 출력하는 함수를 나타내고, d1 및 d2는 각각의 방위각 구간에서 위상응답의 기울기를 결정하는 파라미터를 나타낸다. 예를 들어, 오디오 신호 처리 장치는 사용자 입력에 기초하여 d1과 d2 각각의 값을 설정할 수 있다.
[수학식 8]
ITDs’ = ITDs + Delay_add
Delay_add = round(slope * azimuth)
0<= azimuth <=45 일 때, Slope = 1/d1, (0<d1이고, d1은 정수)
45<azimuth <=90 일 때, Slope = 1/d2, (0<d2이고, d2는 정수)
또한, 일 실시예에 따라, 그룹-딜레이는 샘플링 주파수(sampling frequency)를 기준으로 정수 개의 샘플에 대응하는 딜레이 시간일 수 있다. 이 경우, 특성이 변경된 오디오 신호의 추가적인 활용도를 높일 수 있기 때문이다. 오디오 신호 처리 장치는 샘플의 정수배 단위의 동측 및 대측 그룹-딜레이를 설정할 수 있다. 또한, 프레임 사이즈를 벗어나는 샘플이 발생하는 경우, 오디오 신호 처리 장치는 HRIR 샘플의 앞쪽부터 피크 지점을 기준으로 프레임 사이즈를 벗어나는 샘플에 대칭인 영역을 자를(truncation) 수 있다. 이를 통해, 오디오 신호 처리 장치는 프레임 사이즈를 벗어나는 샘플로 인해 발생하는 음질 열화를 감소시킬 수 있다.
한편, 청취자를 중심으로 하는 가상의 3차원 공간 상의 모든 지점을 커버(cover)하는 바이노럴 렌더링을 수행하기 위해 오디오 신호 처리 장치는 모든 지점에 대응하는 HRTF를 획득할 필요가 있다. 그러나 측정 과정에서의 제약적인 사항 및 저장 가능한 데이터의 용량이 제한되기 때문에, 가상의 3차원 공간 상의 모든 지점에 대응하는 HRTF를 획득하기 위해서는 추가적인 처리과정이 필요하다. 또한, 측정 기반의 HRTF의 경우, 측정 과정에서 크기응답 및 위상응답의 오차가 발생할 수 있어 추가적인 처리 과정이 필요하다.
이에 따라, 오디오 신호 처리 장치는 기 획득된 HRTF를 이용하여 기 획득된 복수의 HRTFs 각각의 위치 이외의 위치에 대응하는 HRTF를 생성할 수 있다. 이를 통해, 오디오 신호 처리 장치는 가상의 3차원 공간에서 재현되는 오디오 신호의 공간 해상도를 높이고, 크기응답 및 위상응답의 오류를 보정할 수 있다. 이하에서는, 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 HRTF 세트가 포함하는 복수의 HRTF 각각에 대응하는 위치 이외의 위치에 대응하는 HRTF를 획득하는 방법에 대해, 도 10 내지 도 14를 참조하여 설명한다.
도 10은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 오디오 신호의 공간 해상도를 높이는 방법을 나타내는 도면이다. 일 실시예에 따라, 오디오 신호 처리 장치는 M개의 위치 각각에 대응하는 원형 HRTF 쌍을 포함하는 원형 HRTF 세트를 획득할 수 있다. 오디오 신호 처리 장치는 원형 HRTF 세트를 기초로 N개의 위치 각각에 대응하는 HRTF 쌍을 포함하는 확장된 HRTF 세트를 획득할 수 있다. 이때, N은 M보다 큰 정수일 수 있다. 또한, 확장된 HRTF 세트는 원형 HRTF 세트 이외에 (N-M)개의 추가된 HRTF 쌍을 포함할 수 있다. 이때, 오디오 신호 처리 장치는 원형 HRTF 세트에 포함된 M개의 HRTF 각각의 위상응답을 변경하여 확장된 HRTF 세트를 구성할 수 있다. 이때, 오디오 신호 처리 장치는 전술한 도 2 내지 도 9에서 설명된 방법으로 원형 HRTF 세트에 포함된 HRTF 각각의 위상응답을 변경할 수 있다.
또한, 오디오 신호 처리 장치는 원형 HRTF 쌍을 처리하는 과정에서, 추가하고자 하는 HRTF의 개수(N-M), 추가하고자 하는 HRTF의 위치 또는 그룹-딜레이 중 적어도 하나에 대한 입력을 수신할 수 있다. 구체적으로, 원형 HRTF 세트는 기 설정된 각도 간격의 각도 별 HRTF을 포함할 수 있다. 이때, 각도는 청취자를 중심으로 하는 단위 구면 상의 방위각 또는 고도각 중 적어도 하나일 수 있다. 또한 기 설정된 각도 간격은 고도각 방향의 각도 간격 및 방위각 방향의 각도 간격을 포함할 수 있다. 이때, 고도각 방향과 방위각 방향에 대한 각도 간격을 서로 다르게 설정될 수도 있다.
예를 들어, 오디오 신호 처리 장치는 기 설정된 각도 간격에 따른 제1 각도와 제2 각도 사이의 위치에 대응하는 HRTF를 획득할 수 있다. 구체적으로, 제1 각도와 제2 각도는 방위각이 서로 동일하고, 기 설정된 각도 간격만큼 떨어진 서로 다른 고도각을 가질 수 있다. 이때, 오디오 신호 처리 장치는 제1 각도에 대응하는 제1 HRTF와 제2 각도에 대응하는 제2 HRTF를 인터폴레이션 (interpolation)하여 제1 각도와 제2 각도 사이의 다른 고도각에 대응하는 제3 HRTF를 생성할 수 있다. 전술한 방법으로, 오디오 신호 처리 장치는 제1 각도와 제2 각도 사이에 위치하는 복수의 지점 각각에 대응하는 복수의 HRTFs를 생성할 수 있다. 여기에서, 인터폴레이션의 대상이 되는 HRTF의 개수를 두 개로 설명하고 있으나, 이는 예시일 뿐 본 개시가 이에 제한되는 것은 아니다. 특정 위치에 인접한 복수의 HRTFs를 인터폴레이션하여 특정 위치에 대응하는 HRTF를 획득할 수 있다.
이때, 전술한 바와 같이, 오디오 신호 처리 장치가 복수의 HRTFs를 주파수 영역에서 인터폴레이션하는 경우, 오디오 신호 처리 장치에서 처리되는 푸리에 변환 및 역푸리에 변환을 위한 연산량이 증가할 수 있다. 이에 따라, 본 개시의 일 실시예에 따른 오디오 신호 처리 장치는 원형 HRTF 세트가 포함하는 복수의 원형 HRTFs 각각의 위상응답을 변경할 수 있다. 또한, 오디오 신호 처리 장치는 위상응답이 변경된 복수의 HRTFs를 시간영역에서 인터폴레이션하여 확장된 HRIR 세트를 생성할 수 있다. 이를 통해, 오디오 신호 처리 장치는 불필요한 연산량을 감소시킬 수 있다. 이하에서는, 오디오 신호 처리 장치가 오디오 신호의 공간 해상도를 높이는 방법에 대해 도 11을 참조하여 상세하게 설명한다.
도 11은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 원형 HRIR 세트로부터 확장된 HRIR 세트를 생성하는 방법을 나타내는 도면이다. 단계 S1102에서, 오디오 신호 처리 장치는 원형 HRTF 세트가 포함하는 복수의 원형 HRTFs 각각의 위상응답을 초기화(initialization)할 수 있다. 오디오 신호 처리 장치는 복수의 원형 HRTFs 각각의 위상응답을 서로 동일한 위상응답이 되도록 변경할 수 있다. 오디오 신호 처리 장치는 청취자를 기준으로 하는 음원의 위치 각각에 대응하는 원형 HRTF 각각의 위상응답을 음원의 위치와 무관하게 동일한 위상응답이 되도록 일치시킬 수 있다. 이 경우, 시간 영역에서 복수의 HRIRs은 동일한 샘플 시간에 피크(peak) 값을 가지게 된다. 이에 따라, 오디오 신호 처리 장치가 시간 영역에서 복수의 서로 다른 음원의 위치에 대응하는 HRTF를 선형 조합하는 경우, 오디오 신호 처리 장치는 동일한 샘플 시간에서 하나의 피크 값을 가지는 바이노럴 필터를 생성할 수 있다. 또한, 오디오 신호 처리 장치는 주파수 영역에서 서로 동일한 위상 특성을 가지는 HRTF와 다른 전달함수를 선형 조합하는 경우에도 동일한 샘플 시간에서 하나의 피크 값을 가지는 바이노럴 필터를 생성할 수 있다.
예를 들어, 동일한 위상응답은 영위상(zero phase) 응답일 수 있다. 영위상 응답의 경우, HRTF를 기초로 바이노럴 렌더링하기 위해 필요한 연산 과정이 용이해질 수 있기 때문이다. HRTF가 영위상 응답인 경우, 시간 영역에서의 HRIR은 시간 ‘0’에서 피크 값을 가지게 된다. 이를 통해, 본 개시의 일 실시예에 따른 오디오 신호 처리 장치는 시간 영역에서 복수의 HRIRs에 대한 인터폴레이션을 수행하여 출력 오디오 신호를 생성하기 위한 연산량을 감소시킬 수 있다. 동시에, 오디오 신호 처리 장치는 전술한 콤-필터링으로 인한 음색 왜곡을 감소시킬 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치는 시간 영역에서의 응답인 HRIR 형태의 HRTF 세트를 획득할 수 있다. 이 경우, 단계 S1101에서, 오디오 신호 처리 장치는 획득된 HRTF 세트가 포함하는 원형 HRIR을 주파수 영역에서의 응답으로 변환할 수 있다. 예를 들어, 오디오 신호 처리 장치는 원형 HRIR에 대해 FFT를 수행하여 주파수 영역의 원형 HRTF를 획득할 수 있다. 또한, 오디오 신호 처리 장치는 주파수 영역 응답으로 변환된 원형 HRTF에 대해 전술한 위상응답 초기화를 수행하여 위상응답이 초기화된 HRTF를 획득할 수 있다.
단계 S1104에서, 오디오 신호 처리 장치는 위상응답이 초기화된 HRTFs를 시간영역 응답으로 변환하여 위상응답이 초기화된 HRIRs을 획득할 수 있다. 오디오 신호 처리 장치는 위상응답이 초기화된 HRTFs에 대해 IFFT를 수행하여 위상응답이 초기화된 HRIRs을 획득할 수 있다. 단계 S1106에서, 오디오 신호 처리 장치는 적어도 둘 이상의 위상응답이 초기화된 HRIRs을 시간영역에서 인터폴레이션하여 원형 HRTFs가 대응하는 위치 이외의 위치에 대응하는 HRIR’s을 생성할 수 있다. 전술한 바와 같이, 위상응답이 초기화된 복수의 HRTFs 각각에 대응하는 복수의 HRIRs 각각의 피크 값의 시간적 위치가 서로 일치하기 때문이다. 이때, 오디오 신호 처리 장치는 추가하고자 하는 HRTF의 위치를 기초로, 추가하고자 하는 개수(N-M)의 HRIR’s을 생성할 수 있다. 이하에서는, 위상응답이 초기화된 HRIRs 및 추가적으로 생성된 HRIR’s를 포함하는 HRIR 세트를 제1 HRIR 세트로 지칭한다.
단계 S1108에서, 오디오 신호 처리 장치는 제1 HRIR 세트가 포함하는 복수의 제1 HRIRs 각각에 그룹-딜레이를 적용하여 확장된 HRIR 세트를 생성할 수 있다. HRIR의 피크 값이 시간 ‘0’에 위치하는 경우(즉, HRTF의 위상응답이 영위상 응답인 경우), 오디오 신호 처리 장치는 설정된 그룹-딜레이를, 단계 S1106에서 획득된, 복수의 제1 HRIRs 각각에 별도의 수정 없이 적용할 수 있다. 오디오 신호 처리 장치는 도 3 내지 도 9를 통해 설명된 동측 및 대측 별 그룹-딜레이 획득 방법에 기초하여 복수의 제1 HRIRs 각각에 적용되는 그룹-딜레이를 획득할 수 있다.
예를 들어, 오디오 신호 처리는 음원의 위치와 무관하게 동일한 값인 동측 그룹-딜레이를 기초로 제1 HRIR 세트가 포함하는 복수의 동측 HRIRs 각각을 시간 지연시킬 수 있다. 이때, 동측 그룹-딜레이는 프레임 사이즈를 기반으로 설정된 값일 수 있다. 또한, 오디오 신호 처리 장치는 전술한 ITD를 기초로 제1 HRIR 세트가 포함하는 복수의 대측 HRIRs에 대해 적용되는 대측 그룹-딜레이를 결정할 수 있다. 이때, 대측 그룹-딜레이는 동측 그룹-딜레이에 청취자를 기준으로 입력 오디오 신호에 대응하는 가상 음원의 위치에 따른 ITD 시간이 추가된 것일 수 있다. 이를 통해, 오디오 신호 처리 장치는 원형 HRTF 세트를 기초로 원형 HRTF 세트보다 더 많은 개수의 HRTF를 포함하는 확장된 HRTF 세트를 생성할 수 있다. 또한, 오디오 신호 처리 장치는 청취자를 중심으로 하는 가상의 3차원 공간 상에서 오디오 신호의 공간 해상도를 연산량 및 음색 왜곡측면에서 효율적으로 증가시킬 수 있다. 오디오 신호 처리 장치는 오디오 신호의 공간 해상도를 증가시켜 음상 정위(sound image localization) 성능을 높일 수 있다.
한편, 도 11에서 위상응답 초기화 과정은 생략될 수 있다. 예를 들어, 오디오 신호 처리 장치는 복수의 HRTFs 각각의 위상응답이 초기화된 HRTF 세트를 획득할 수 있다. 오디오 신호 처리 장치는 청취자를 기준으로 하는 음원의 위치 각각에 대응하는 복수의 HRTFs 각각의 위상응답이 서로 동일한 HRTF 세트를 획득할 수 있다. 오디오 신호 처리 장치는 도 1을 통해 전술한, HRTF 세트를 저장하는 데이터 베이스로부터 위상응답이 초기화된 HRTF 세트를 획득할 수 있다. 또한, 오디오 신호 처리 장치는 오디오 신호 처리 장치에 기 저장되고 위상응답이 초기화된 HRTF 세트를 사용할 수도 있다.
이하에서는, 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 복수의 HRTF 세트를 기초로 최종 출력 오디오 신호를 생성하는 방법에 대해 설명한다. 이를 통해, 오디오 신호 처리 장치는 측정을 통해 획득한 HRTF의 크기응답 및 위상응답의 오류를 보정할 수 있다. 도 12는 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 복수의 HRTF 세트를 기초로 바이노럴 렌더링된 출력 오디오 신호를 선형 결합하여 최종 출력 오디오 신호를 생성하는 방법을 나타내는 도면이다.
일 실시예에 따라, 오디오 신호 처리 장치는 제1 HRTF 세트와 다른 제2 HRTF 세트를 획득할 수 있다. 이때, 제1 HRTF 세트는 도 11의 과정을 통해 각각의 위상응답이 변경된 복수의 HRTFs을 포함할 수 있다. 또한, 제1 HRTF 세트와 제2 HRTF 세트는 서로 다른 방식으로 획득된 HRTF 세트일 수 있다. 예를 들어, 제1 HRTF 세트와 제2 HRTF 세트는 서로 다른 형태의 머리 모델을 사용하여 측정된 HRIR 세트일 수 있다. 도 12와 같이, 오디오 신호 처리 장치가 제1 HRIR 세트 및 제2 HRIR 세트를 획득하는 경우, 오디오 신호 처리 장치는 제1 HRIR 세트 및 제2 HRIR 세트 각각이 포함하는 복수의 HRIRs 각각에 대해 FFT를 수행하여, 제1 HRTF 세트 및 제2 HRTF 세트를 획득할 수 있다.
다음으로, 오디오 신호 처리 장치는 위상 정보를 기초로 제2 HRTF 세트가 포함하는 복수의 제2 HRTF 쌍 각각의 위상응답을 제1 HRTF 세트가 포함하는 복수의 제1 HRTF 쌍 각각의 위상응답으로 설정할 수 있다. 예를 들어, 오디오 신호 처리 장치는 위치 별로 제2 HRTF 쌍 각각의 위상응답을 제1 HRTF 쌍의 위상응답과 일치시킬 수 있다. 오디오 신호 처리 장치는 제1 및 제2 HRTF 쌍 각각에 대응하는 위치를 기초로, 복수의 제1 HRTF 쌍과 복수의 제2 HRTF 쌍을 매칭시킬 수 있다. 예를 들어, 복수의 제1 HRTF 쌍 중에서 제1 위치에 대응하는 제1 HRTF 쌍과 복수의 제2 HRTF 쌍 중에서 제1 위치에 대응하는 제2 HRTF 쌍은 서로 매칭될 수 있다. 오디오 신호 처리 장치는 위상정보를 기초로 복수의 제2 HRTF 쌍 각각의 위상응답을 매칭되는 복수의 제1 HRTF 쌍 각각의 위상응답으로 설정할 수 있다. 여기에서, 위상정보는 오디오 신호 처리 장치 또는 외부의 장치에 저장된 위치 별 제1 HRTF 쌍 각각의 위상응답 정보일 수 있다. 위상정보는 룩업-테이블(look-up table) 형태로 저장될 수도 있다.
제1 HRTF 쌍은 제1 동측 HRTF 및 제1 대측 HRTF을 포함할 수 있다. 또한, 제2 HRTF 쌍은 제2 동측 HRTF 및 제2 대측 HRTF을 포함할 수 있다. 제1 HRTF 쌍과 제2 HRTF 쌍은 각각 제1 위치에 대응하는 HRTF 쌍일 수 있다. 예를 들어, 오디오 신호 처리 장치는 제1 동측 HRTF과 제2 동측 HRTF의 위상응답을 일치시킬 수 있다. 또한, 오디오 신호 처리 장치는 제1 대측 HRTF과 제2 대측 HRTF의 위상응답을 일치시킬 수 있다. 오디오 신호 처리 장치는 제2 HRTF 쌍 각각의 위상응답을 제1 HRTF 쌍 각각의 위상응답으로 설정하여 위상응답이 매칭된 제2 HRTF’ 쌍을 생성할 수 있다.
다음으로, 오디오 신호 처리 장치는 복수의 제1 HRTF 쌍 중 어느 하나를 기초로 입력 오디오 신호를 바이노럴 렌더링하여 제1 출력 오디오 신호를 생성할 수 있다(도 12의 렌더링 1). 또한, 오디오 신호 처리 장치는 복수의 제2 HRTF’ 쌍 중 어느 하나를 기초로 입력 오디오 신호를 바이노럴 렌더링하여 제2 출력 오디오 신호를 생성할 수 있다(도 12의 렌더링 2). 이때, 입력 오디오 신호가 시간영역의 샘플인 경우, 오디오 신호 처리 장치는 입력 오디오 신호를 주파수 영역 신호로 변환하는 FFT 과정을 추가적으로 수행할 수 있다. 다음으로, 오디오 신호 처리 장치는 제1 출력 오디오 신호 및 제2 출력 오디오 신호를 합성하여 최종 출력 오디오 신호를 생성할 수 있다. 또한, 오디오 신호 처리 장치는 주파수 영역의 최종 출력 오디오 신호에 대해 IFFT를 수행하여, 시간 영역의 최종 출력 오디오 신호로 변환할 수 있다.
한편, 개별적인 렌더링을 통해 생성된 오디오 신호를 합성하는 방법 외에 복수의 HRTFs을 선형 결합(combine)하여 하나의 결합된 HRTF를 생성할 수도 있다. 이 경우, 오디오 신호를 합성하는 방법에 비해 렌더링에 필요한 연산량을 감소시킬 수 있다. 도 13은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 복수의 HRTF를 선형 결합하여 생성된 HRTF를 기초로 최종 출력 오디오 신호를 생성하는 방법을 나타내는 도면이다.
일 실시예에 따라, 오디오 신호 처리 장치는 전술한 위상응답이 매칭된 제2 HRTF’ 쌍과 제1 HRTF 쌍을 선형 결합하여 결합된 HRTF를 생성할 수 있다. 여기에서, 선형 결합은 중앙값(median) 또는 평균(mean) 중 어느 하나를 의미할 수 있다. 예를 들어, 오디오 신호 처리 장치는 동측(대측) 제1 HRTF와 동측(대측) 제2 HRTF’ 각각의 크기응답을 기초로 주파수 빈 별로 연산하여 동측(대측) 결합된 HRTF를 획득할 수 있다. 제1 HRTF 쌍과 제2 HRTF’ 쌍은 위상응답이 매칭되어 있기 때문에 별도의 선형 결합 연산이 요구되지 않는다. 다음으로, 오디오 신호 처리 장치는 결합된 HRTF를 기초로 입력 오디오 신호를 바이노럴 렌더링하여 주파수 영역의 최종 출력 오디오 신호를 생성할 수 있다. 또한, 오디오 신호 처리 장치는 주파수 영역의 최종 출력 오디오 신호에 대해 IFFT를 수행하여 시간 영역의 최종 출력 오디오 신호를 생성할 수 있다.
도 14는 본 개시의 다른 일 실시예에 따른 오디오 신호 처리 장치가 HRTF 쌍에 대한 측정 오류를 보정하는 방법을 나타내는 도면이다. 도 14의 (a)를 참조하면, 동측 HRTF의 주파수 응답의 크기 보다 대측 HRTF의 주파수 응답의 크기가 더 큰 역전 구간(1401)이 발생할 수 있다. 입력 오디오 신호에 대응하는 가상 음원으로부터 청취자의 대측은 청취자의 동측 보다 상대적으로 거리가 멀기 때문에 역전 구간(1401)은 측정 오차에 해당할 수 있다. 이에 따라, 본 개시의 일 실시예에 따른 오디오 신호 처리 장치는 역전 구간(1401)에 포함된 주파수 빈에 대응하는 대측 HRTF의 크기 값을 기 설정된 값으로 변경할 수 있다. 예를 들어, 기 설정된 값은 크기응답의 역전이 발생하지 않기 시작하는 주파수 빈에 대응하는 크기 값일 수 있다. 도 14의 (b)를 참조하면, 오디오 신호 처리 장치는 역전 구간(1401)에 포함된 주파수 빈에 대응하는 동측 HRTF의 크기 값을 대측 HRTF의 크기 값 보다 크거나 동일한 값으로 변경할 수 있다. 이를 통해, 오디오 신호 처리 장치는 일부 주파수에 대응하는 소리가 청취자의 동측보다 대측에서 더 크게 들리는 현상을 방지하여, 청취자에게 보다 정확한 방향감을 제공할 수 있다.
한편, 오디오 신호 처리 장치는 바이노럴 렌더링된 오디오 신호의 표현력을 높이기 위해 추가적인 신호와 합성할 수 있다. 또한, 오디오 신호 처리 장치는 출력 오디오 신호를 표현력을 높이는 추가 필터와 HRTF를 합성한 필터를 기초로 오디오 신호를 바이노럴 렌더링할 수 있다. 본 개시에서, 추가적인 신호는 추가 필터를 기초로 생성된 오디오 신호일 수 있다. 예를 들어, 오디오 신호 처리 장치는 객체 오디오 신호에 대응하는 가상 음원의 위치에 따른 머리전달함수 이외에 하나 이상의 필터를 추가적으로 사용하여 출력 오디오 신호를 생성할 수 있다. 이때, 추가 필터와 HRTF의 위상응답이 일치하지 않는 경우, 콤-필터 효과로 인한 음질 열화가 발생할 수 있다.
도 15는 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 시간 영역에서 복수의 필터를 기초로 출력 오디오 신호를 생성하는 블록도이다. 이하, 도 15 내지 도 28과 관련된 실시예에서, 제1 필터는 전술한 HRTF 또는 HRIR일 수 있다. 또한, 제2 필터 내지 제N 필터는 추가 필터를 지칭할 수 있다. 일 실시예에 따라, 오디오 신호 처리 장치는 입력 오디오 신호를 위한 동측 및 대측을 포함하는 한 쌍의 게인 및 위상응답으로 구성된 추가 필터를 획득할 수 있다. 또한, 오디오 신호 처리 장치는 복수의 추가 필터를 이용하여 출력 오디오 신호를 생성할 수 있다.
이때, 오디오 신호 처리 장치는 도 3 내지 도 9에서 전술한 방법으로 위상응답이 변경된 제1 필터를 획득할 수 있다. 예를 들어, 오디오 신호 처리 장치는 획득된 동측 및 대측 HRTF 각각의 위상응답을 선형화하여 동측 제1 필터 및 대측 제1 필터를 생성할 수 있다. 또한, 오디오 신호 처리 장치는 복수의 추가 필터 각각의 위상응답을 제1 필터의 위상응답과 매칭시킬 수 있다. 이를 통해, 오디오 신호 처리 장치는 시간영역에서, 복수의 필터를 기초로 필터링된 오디오 신호를 음색의 왜곡 없이 믹싱할 수 있다. 도 15를 참조하면, 오디오 신호 처리 장치는 제1 내지 제N 필터를 이용하여 복수의 바이노럴 출력 오디오 신호를 생성할 수 있다. 다음으로, 오디오 신호 처리 장치는 복수의 바이노럴 출력 오디오 신호를 믹싱하여 최종 출력 오디오 신호를 생성할 수 있다. 이때, 오디오 신호 처리 장치는 복수의 바이노럴 출력 오디오 신호 각각이 믹싱되는 비율을 나타내는 믹싱 게인을 기초로 복수의 바이노럴 출력 오디오 신호를 믹싱할 수 있다. 한편, 믹싱 게인은 후술할 필터 결합 과정에서, 복수의 필터 각각이 결합 필터에 반영되는 비율로 사용될 수도 있다.
또한, 복수의 추가 필터 각각은 서로 다른 효과를 위한 필터일 수 있다. 예를 들어, 복수의 추가 필터는 도 12 및 도 13을 통해 전술한 서로 다른 방식으로 획득된 복수의 HRTFs(HRIRs)을 포함할 수 있다. 복수의 추가 필터는 HRTF 이외의 다른 필터를 포함할 수도 있다. 예를 들어, 복수의 추가 필터는 바이노럴 효과 강도(binaural effect strength, 이하 ‘BES’)를 조절하는 패닝 필터를 포함할 수 있다. 복수의 추가 필터는 입력 오디오 신호에 대응하는 가상 음원의 크기 및 청취자로부터 가상 음원까지의 거리를 재현하는 필터를 포함할 수 있다. 이하에서는, 오디오 신호 처리 장치가 HRTF와 패닝 필터를 이용하여 출력 오디오 신호를 생성하는 방법에 대해 도 16 내지 도 21을 참조하여 설명하도록 한다.
도 16은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 패닝 게인을 이용하여 바이노럴 효과 강도를 조절하는 방법을 나타내는 도면이다. 일 실시예에 따라, 오디오 신호 처리 장치는 추가 필터를 사용하여 HRTF를 기초로 바이노럴 렌더링된 오디오 신호의 바이노럴 효과 강도를 조절할 수 있다. 이때, 추가 필터는 동측 및 대측 각각에 대응하는 플랫응답일 수 있다. 여기에서, 플랫응답은 주파수 도메인에서 일정한 크기 값(magnitude)을 가지는 필터 응답일 수 있다. 예를 들어, 오디오 신호 처리 장치는 패닝 게인(panning gain)을 이용하여 동측 및 대측 각각에 대응하는 플랫응답을 획득할 수 있다.
도 16에서, 오디오 신호 처리 장치는 제1 필터(HRIR)를 기초로 입력 오디오 신호를 바이노럴 렌더링하여 제1 출력 오디오 신호(HRIR_L, HRIR_R)를 생성할 수 있다. 또한, 오디오 신호 처리 장치는 패닝 게인(Interactive panning gain(θ,φ))을 기초로 입력 오디오 신호를 바이노럴 렌더링하여 제2 출력 오디오 신호(p_L, p_r)를 생성할 수 있다. 다음으로, 오디오 신호 처리 장치는 제1 출력 오디오 신호와 제2 출력 오디오 신호를 믹싱(mixing)하여 최종 출력 오디오 신호를 생성할 수 있다. 오디오 신호 처리 장치는 각각의 오디오 신호가 믹싱되는 비율을 나타내는 믹싱 게인(g_H, g_I)에 따라 제1 출력 오디오 신호와 제2 출력 오디오 신호를 믹싱할 수 있다. 오디오 신호 처리 장치가 최종 출력 오디오 신호(output_L,R)를 생성하는 방법은 [수학식 9]과 같이 나타낼 수 있다.
[수학식 9]
Figure 112018123759246-pat00001
[수학식 9]에서, g_H는 제1 출력 오디오 신호(HRIR_L, HRIR_R)의 믹싱 게인일 수 있다. 또한, g_I는 제2 출력 오디오 신호(p_L, p_r)의 믹싱 게인일 수 있다. p_L,R은 좌측 또는 우측 채널 패닝 게인을 나타내고, h_L,R은 좌측 또는 우측 HRIR을 나타낸다. n은 0보다 크고 전체 샘플개수보다 작은 정수이고, s(n)은 n번째 샘플에서의 입력 오디오 신호를 나타낸다. 또한, *는 컨벌루션(convolution)을 나타낸다. 이때, 오디오 신호 처리 장치는 푸리에 변환(Fourier transform) 및 인버스 푸리에 변환(Inverse Fourier transform)을 통해서 고속 컨벌루션(Fast convolution) 방법으로 입력 오디오 신호를 필터링할 수도 있다. 도 17은 청취자를 기준으로 방위각에 따른 좌측 및 우측 각각의 패닝 게인을 나타내는 도면이다.
일 실시예에 따라, 오디오 신호 처리 장치는 동측 및 대측 게인에 대해 에너지 보상 처리된 플랫 응답을 생성할 수 있다. 플랫 응답의 에너지 레벨 변화에 따라, 출력 오디오 신호의 에너지 레벨이 입력 오디오 신호의 에너지 레벨에 비해 과도하게 변형될 수 있기 때문이다. 예를 들어, 오디오 신호 처리 장치는 입력 오디오 신호의 가상 음원에 대응하는 동측 및 대측 HRTF의 크기응답을 기초로 패닝 게인을 생성할 수 있다. 오디오 신호 처리 장치는 [수학식 10]과 같이 연산하여 좌측 및 우측 각각에 대응하는 패닝 게인(p_L, p_R)을 획득할 수 있다. 예를 들어, 오디오 신호 처리 장치는 선형 패닝(linear panning) 방법 또는 일정 파워 패닝(constant power panning) 방법을 이용하여 패닝 게인 g1 및 g2를 결정할 수 있다. [수학식 10]에서, 오디오 신호 처리 장치는 입력 오디오 신호의 청각적 에너지를 유지하기 위해 양쪽 귀 각각에 대응하는 패닝 게인의 합이 1이 되도록 설정할 수 있다. 또한, [수학식 10]에서, H_meanL은 주파수 빈 별 좌측 HRTF의 크기 응답의 평균을 나타내고, H_meanR은 주파수 빈 별 우측 HRTF의 크기 응답의 평균을 나타낸다. 이때, a는 IPC (Interaural Polar Coordinate)에서의 방위각 인덱스를 나타내고, k는 주파수 빈(bin)의 인덱스를 나타낸다.
[수학식 10]
p_L+p_R=1,
p_L=H_meanL(a)/(H_meanL(a)+H_meanR(a)),
p_R=H_meanR(a)/(H_meanL(a)+H_meanR(a)),
여기에서, H_meanL(a)=mean(abs(H_L(k))) 이고, H_meanR(a)=mean(abs(H_R(k)))
도 18은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 주파수 영역에서 제1 필터 및 제2 필터를 기초로 출력 오디오 신호를 생성하는 블록도이다. 오디오 신호 처리 장치는 입력 오디오 신호를 주파수 영역 신호로 변환할 수 있다. 또한, 오디오 신호 처리 장치는 전술한 제1 필터를 기초로 변환된 신호를 필터링하여 제1 출력 오디오 신호를 생성할 수 있다. 또한, 오디오 신호 처리 장치는 전술한 패닝 게인이 적용된 입력 오디오 신호를 주파수 영역 신호로 변환하여 제2 출력 오디오 신호를 생성할 수 있다. 다음으로, 오디오 신호 처리 장치는 제1 출력 오디오 신호 및 제2 출력 오디오 신호를 g_H 및 g_I를 기초로 믹싱하여 주파수 영역에서의 최종 출력 오디오 신호를 생성할 수 있다. 오디오 신호 처리 장치는 믹싱된 최종 출력 오디오 신호를 시간 영역 신호로 변환할 수 있다. 도 18에서, 오디오 신호 처리 장치가 최종 출력 오디오 신호(OUT_hat)를 생성하는 방법은 [수학식 11]과 같이 나타낼 수 있다.
[수학식 11]
Figure 112018123759246-pat00002
[수학식 11]에서 H_L,R(k), P_L,R(k), 및 S(k)는 각각 시간 영역의 h_L,R(n), p_L,R(n), s(n)의 주파수 응답을 나타낸다. 또한, k는 주파수 빈의 인덱스를 나타내고, mag{x} 및 pha{x}는 각각 주파수 응답 ’x’의 크기 성분 및 위상 성분을 나타낸다.
도 19는 도 17 및 도 18을 통해 획득된 출력 오디오 신호를 시간영역에서 도시한 그래프이다. 도 19의 실선을 참조하면, 오디오 신호 처리 장치가 시간 영역에서 제1 출력 오디오 신호와 제2 출력 오디오 신호를 믹싱한 경우, 콤-필터링 효과가 발생한다. 반면, 도 19의 파쇄선을 참조하면, 오디오 신호 처리 장치가 주파수 영역에서 제1 출력 오디오 신호와 제2 출력 오디오 신호를 믹싱한 경우, 콤-필터링 효과가 발생하지 않는다. 이는, 오디오 신호 처리 장치는 주파수 영역에서 복수의 오디오 신호의 크기 성분과 위상 성분을 분리하여 별도로 인터폴레이션할 수 있기 때문이다. 그러나 도 18에서와 같이, 오디오 신호 처리 장치가 주파수 영역에서 오디오 신호의 크기 성분과 위상 성분을 분리하여 처리하는 경우, 연산량이 증가할 수 있다. 이러한 연산량 증가로 인해 모바일 장치와 같이, 연산량에 대한 제한이 있는 장치의 경우 오디오 신호를 선형 결합하기 어려울 수 있다. 이에 따라, 본 개시의 일 실시예에 따른 오디오 신호 처리 장치는 복수의 필터 각각의 위상응답을 동측 및 대측(또는 좌측 및 우측) 별로 일치시킬 수 있다. 이를 통해, 오디오 신호 처리 장치는 인터폴레이션에 필요한 연산량을 감소시킬 수 있다.
도 20은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 동측, 대측 별로 일치된 위상응답을 기초로 출력 오디오 신호를 생성하는 방법을 나타내는 블록도이다. 일 실시예에 따라, 오디오 신호 처리 장치는 입력 오디오 신호에 대응하는 가상 음원의 위치 기초로 HRTF 쌍을 획득할 수 있다. 또한, 오디오 신호 처리 장치는 도 3 내지 도 9를 통해 전술한 방법으로 HRTF 쌍이 포함하는 동측 HRTF 및 대측 HRTF 각각의 위상응답을 변경할 수 있다. 이때, 오디오 신호 처리 장치는 동측 HRTF의 위상응답을 HRTF 세트가 포함하는 복수의 동측 HRTFs 각각에 대해 음원의 위치와 무관하게 동일한 공통의 위상응답으로 변경할 수 있다. 또한, 변경된 동측 및 대측 HRTF 각각의 위상응답은 선형 위상응답일 수 있다. 다음으로, 오디오 신호 처리 장치는 패닝 게인을 기초로 생성된 동측 및 대측 패닝 필터의 위상응답을 동측 및 대측 HRTF 각각의 위상응답과 일치시킬 수 있다. 오디오 신호 처리 장치는 전술한 방법과 마찬가지로 믹싱 게인(g_H, g_I)에 기초하여 HRTF가 적용된 제1 출력 오디오 신호와 패닝필터가 적용된 제2 출력 오디오 신호를 믹싱할 수 있다. 일치된 위상 H_Lin(k)를 기초로 생성된 최종 출력 오디오 신호(OUT_hat_lin)는 [수학식 12]와 같이 나타낼 수 있다.
[수학식 12]
Figure 112018123759246-pat00003
또한, 오디오 신호 처리 장치는 푸리에 변환 연산 중 적어도 일부분을 생략하여 최종 출력 오디오 신호를 생성하기 위해 필요한 연산량을 감소시킬 수 있다. 도 21은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 HRTF 및 추가 필터를 기초로 출력 오디오 신호를 생성하는 방법을 나타내는 블록도이다. 일 실시예에 따라, 오디오 신호 처리 장치는 시간영역에서 입력 오디오 신호의 크기 응답에 패닝 게인을 적용할 수 있다. 또한, 오디오 신호 처리 장치는 그룹-딜레이를 기초로, 패닝 게인이 적용된 입력 오디오 신호를 시간 지연시켜 제2 출력 오디오 신호를 생성할 수 있다. 이때, 동측 및 대측 그룹-딜레이 각각은 동측 및 대측 HRTF 각각의 위상응답에 대응하는 그룹-딜레이일 수 있다. 또한, 동측 및 대측 HRTF 각각의 위상응답은 선형 위상응답일 수 있다. 오디오 신호 처리 장치는 [수학식 13]의 연산을 통해 [수학식 12]에서의 최종 출력 오디오 신호(OUT_hat_lin)를 생성할 수 있다. [수학식 13]에서, t_cont,ipsil는 개인화된 대측 또는 동측 그룹-딜레이를 나타낸다.
[수학식 13]
Figure 112018123759246-pat00004
한편, 전술한 바와 같이, 추가 필터는 입력 오디오 신호에 대응하는 가상 음원의 공간적 특성을 시뮬레이션하는 공간 필터를 포함할 수 있다. 이때, 공간적 특성은 스프레드(spread), 부피화(volumization), 블러(blur) 또는 너비 제어(width control) 효과 중 적어도 하나를 포함할 수도 있다. HRTF를 이용하여 음상 정위되는 음원은 점에 가까운(point-like) 특성을 갖는다. 이를 통해, 사용자는 입력 오디오 신호가 3차원 공간 상의 가상 음원에 대응하는 위치로부터 청취되는 것과 같은 사운드 효과를 경험할 수 있다.
그러나, 현실의 3차원 공간 음향은 음향에 대응하는 음원의 청취자로부터의 거리 및 음원의 크기에 따라 음향의 기하학적 특성이 달라질 수 있다. 예를 들어, 파도 소리나 천둥 소리는 특정 지점으로부터 들려오는 소리보다는, 면적의 특성을 가지는 소리일 수 있다. 한편, 점이 아닌 음원에 대한 효과를 재현하기 위한 바이노럴 필터는 측정을 통해 생성하기 어려울 수 있다. 또한, 점이 아닌 음원에 대한 효과를 재현하기 위해 다양한 음원 환경 각각에 대응하는 데이터를 저장하는 시스템 용량을 구축하기 어려울 수 있다.
이에 따라, 오디오 신호 처리 장치는 기 획득된 HRTF를 기초로 공간 필터를 생성할 수 있다. 또한, 오디오 신호 처리 장치는 기 획득된 HRTF와 공간 필터를 기초로 출력 오디오 신호를 생성할 수 있다. 이하에서는, 오디오 신호 처리 장치가 또 다른 추가 필터를 이용하여 출력 오디오 신호를 생성하는 방법에 대해 도 22 내지 도 28을 참조하여 설명하도록 한다. 도 22는 공간 필터에 의한 음향 효과의 예를 도시한다. 도 22에서, 청취자(2210)는 점 특성을 가지는 가상 음원(2201), 서로 다른 면적을 가지는 제1 스프레드 음원(2202) 및 제2 스프레드 음원(2203) 각각을 구별할 수 있다. 이는, 음향학적으로 ASW(apparent source width) 인지 효과에 기반한다.
도 23은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 복수의 필터를 기초로 출력 오디오 신호를 생성하는 방법을 나타내는 도면이다. 일 실시예에 따라, 오디오 신호 처리 장치는 입력 오디오 신호에 대응하는 가상 음원이 모델링하는 물체의 크기 및 청취자로부터 가상 음원까지의 거리를 기초로 공간 필터를 생성할 수 있다. 오디오 신호 처리 장치는 공간 필터를 기초로 제2 출력 오디오 신호를 생성할 수 있다. 또한, 오디오 신호 처리 장치는 전술한 제1 출력 오디오 신호와 공간 필터를 기초로 생성된 제2 출력 오디오 신호를 믹싱하여 최종 출력 오디오 신호를 생성할 수 있다. 도 23에서, 오디오 신호 처리 장치는 [수학식 14]와 같이 좌측 및 우측 출력 오디오 신호(y_L, y_R)를 생성할 수 있다.
[수학식 14]
Figure 112018123759246-pat00005
[수학식 14]에서, s는 입력 오디오 신호를 나타내고, h_L과 h_R은 각각 좌측 및 우측 HRTF 필터(제1 필터)를 나타낸다. 또한, d_L 및 d_R은 각각 좌측 및 우측 공간 필터(제2 필터)를 나타낸다. g_H와 g_D는 각각 제1 필터 및 제2 필터에 적용되는 믹싱 게인을 나타낸다. 또한, *는 컨벌루션(convolution)을 나타낸다. 이때, 오디오 신호 처리 장치는 푸리에 변환 및 인버스 푸리에 변환을 통해서 고속 컨벌루션 방법으로 입력 오디오 신호를 필터링할 수도 있다. 한편, 도 23의 방법은 기존의 HRTF를 사용하는 바이노럴 렌더링에 더하여 추가적으로 동일한 입력 오디오 신호에 대한 필터링 연산이 필요하므로 연산량이 늘어날 수 있다.
또한, 믹싱 과정에서 제1 필터와 제2 필터의 위상응답의 차이로 인한 음질 열화가 발생할 수 있다. 도 24는 콤-필터링 효과로 인한 음질 열화를 나타내는 도면이다. 오디오 신호 처리 장치가 위상응답이 매칭되지 않은 복수의 필터를 기초로 필터링된 오디오 신호를 믹싱할 수 있다. 이 경우, 믹싱된 신호의 주파수 응답이 HRTF를 기초로 렌더링된 오디오 신호와 달라져 음색 왜곡이 발생할 수 있다.
도 25는 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 복수의 필터를 결합하여 결합 필터를 생성하는 방법을 나타내는 도면이다. 일 실시예에 따라, 오디오 신호 처리 장치는 전술한 제1 필터 및 복수의 추가 필터를 결합하여 단일의 결합된 필터를 생성할 수 있다. 이를 통해, 오디오 신호 처리 장치는 추가 필터를 사용하는 별도의 바이노럴 렌더링에 의해 추가되는 연산량을 감소시킬 수 있다. 도 25를 참조하면, 오디오 신호 처리 장치는 복수의 HRTFs를 저장하는 HRTF 데이터 베이스로부터 제1 필터(HRTF)를 획득할 수 있다. 또한, 오디오 신호 처리 장치는 입력 오디오 신호에 대응하는 가상 음원이 모델링하는 물체의 크기 및 청취자로부터 가상 음원까지의 거리를 기초로 제2 필터를 생성할 수 있다. 이때, 오디오 신호 처리 장치는 HRTF 데이터 베이스로부터 제1 필터 또는 제1 필터와 다른 위치에 대응하는 HRTF 중 적어도 하나를 획득할 수 있다. 또한, 오디오 신호 처리 장치는1 필터 또는 제1 필터와 다른 위치에 대응하는 HRTF 중 적어도 하나를 사용하여 제2 필터를 생성할 수 있다.
다음으로, 오디오 신호 처리 장치는 제1 필터와 제2 필터를 인터폴레이션하여 H_L_new 및 H_R_new를 포함하는 결합된 필터를 생성할 수 있다. 이때, 오디오 신호 처리 장치는 전술한 믹싱 게인을 제1 필터 및 제2 필터 각각의 크기 응답에 적용하여 H_L_new 및 H_R_new를 생성할 수 있다. 오디오 신호 처리 장치는 믹싱 게인을 사용하여 각 필터에 의한 효과의 강도를 조절할 수 있다.
또한, 오디오 신호 처리 장치는 제1 필터 및 제2 필터 각각의 좌측 및 우측 필터 별로 인터폴레이션을 수행할 수 있다. 인터폴레이션은 시간 영역에서 수행될 수도 있고, 푸리에 변환을 거쳐서 주파수 영역에서 수행될 수도 있다. [수학식 15]는 오디오 신호 처리 장치가 주파수 영역에서 좌측 제1 필터 및 좌측 제2 필터를 기초로 좌측 결합 필터를 생성하는 방법을 나타낸다. [수학식 15]에서 mag{X(k)}는 필터 X의 k번째 주파수 빈의 크기 성분을 나타내고, pha{X(k)}는필터 X의 k번째 주파수 빈의 위상 성분을 나타낸다. 또한, g_H와 g_D는 각각 좌측 제1 필터 및 좌측 제2 필터에 적용되는 믹싱 게인을 나타낸다.
[수학식 15]
Figure 112018123759246-pat00006
한편, 본 개시의 일 실시예에 따른 오디오 신호 처리 장치는 복수의 필 터 각각의 크기응답만을 인터폴레이션하여 결합 필터를 생성할 수 있다. 오디오 신호 처리 장치는 제1 필터인 HRTF의 위상응답을 결합 필터의 위상응답으로 사용할 수 있다. 이를 통해, 오디오 신호 처리 장치는 실시간으로 설정되는 믹싱 게인을 기초로 결합 필터를 생성할 수 있다. 오디오 신호 처리 장치는 위상응답을 인터폴레이션하는데 요구되는 연산을 생략하여, 실시간으로 요구되는 전체 연산량을 감소시킬 수 있다. [수학식 16]은 오디오 신호 처리 장치가 복수의 필터의 크기 응답만 인터폴레이션하여 결합 필터를 생성하는 방법을 나타낸다.
[수학식 16]
Figure 112018123759246-pat00007
[수학식 16]에서 mag{X(k)}는 필터 X의 k번째 주파수 빈의 크기 성분을 나타내고, pha{X(k)}는필터 X의 k번째 주파수 빈의 위상 성분을 나타낸다. 또한, g_H와 g_D는 각각 좌측 제1 필터 및 좌측 제2 필터에 적용되는 믹싱 게인을 나타낸다. [수학식 17] 및 [수학식 18]은, 오디오 신호 처리 장치가 [수학식 16]을 통해 생성된 결합 필터를 이용하여, 좌측 및 우측 출력 오디오 신호(Y_L'(k), Y_R'(k))를 생성하는 방법을 나타낸다. [수학식 17] 및 [수학식 18]에서, mag{X(k)}는 필터 X의 k번째 주파수 빈의 크기 성분을 나타내고, pha{X(k)}는필터 X의 k번째 주파수 빈의 위상 성분을 나타낸다. 또한, g_H와 g_D는 각각 제1 필터 및 제2 필터에 적용되는 믹싱 게인을 나타낸다.
[수학식 17]
Figure 112018123759246-pat00008
[수학식 18]
Figure 112018123759246-pat00009
[수학식 17] 및 [수학식 18]에서, 오디오 신호 처리 장치는 믹싱 게인(g_H, g_D), 제2 필터의 크기 응답(mag{D_R(k)}) 및 제1 필터의 인버스(inverse) 크기 응답(mag{H_R_inv(k)})을 기초로, 좌측 및 우측 결합 필터(g_new_L(k), g_new_R(k))를 생성할 수 있다. 이때, 제1 필터의 인버스 크기 응답(mag{H_R_inv(k)})은 HRTF 데이터 베이스를 통해 미리 계산된 값일 수 있다. 오디오 신호 처리 장치는 [수학식 17] 및 [수학식 18]의 중간식(intermediate results)과 같이 제1 필터의 인버스 크기 응답이 아닌 제1 필터의 크기 응답을 사용하여 결합 필터(g_new_L(k), g_new_R(k))를 생성할 수도 있다.
도 26은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 복수의 필터를 주파수 영역에서 인터폴레이션하여 생성한 결합 필터를 나타내는 도면이다. 도 26에서, 실선은 제1 필터, 파쇄선은 제2 필터를 나타낸다. 또한, 점으로 이루어진 점선은 결합 필터의 주파수 응답의 크기 성분을 나타낸다.
도 27은 본 개시의 일 실시예에 따른 공간 필터의 주파수 응답의 예시이다. 일 실시예에 따라, 오디오 신호 처리 장치는 음원의 크기를 기초로 바이노럴 렌더링된 2-채널 오디오 신호 사이의 상호 상관도 (Inter-aural cross-correlation, IACC)를 조정할 수 있다. 청취자가 IACC가 낮은 2채널 오디오 신호를 듣는 경우, 청취자는 두 개의 오디오 신호가 서로 멀리 떨어진 곳에서 들려오는 것으로 느끼기 때문이다. 도 27에 도시된, 공간 필터는 좌측 및 우측 바이노럴 신호 사이의 IACC를 감소시키는 필터일 수 있다. 오디오 신호 처리 장치는 주파수의 서브밴드(sub-band) 별로 레벨 차이를 교차하여 좌측 및 우측 바이노럴 신호 사이의 IACC를 감소시킬 수 있다. 여기에서, 서브밴드는 신호의 주파수 영역 전체 중에서 연속된 일부 영역일 수 있다. 각각의 서브밴드는 적어도 하나의 주파수 빈을 포함할 수 있다. 주파수 영역이 복수의 서브밴드로 분할된 경우, 복수의 서브밴드 각각의 대역 크기는 동일할 수 있다. 또는 서브밴드 별로 대역의 크기가 서로 다를 수 있다. 예를 들어, 오디오 신호 처리 장치는 바크 단위(Bark scale) 또는 옥타브(Octave) 밴드와 같은 청각 척도에 따라 서브밴드 별 대역의 크기는 서로 다른 값으로 설정할 수 있다. 도 27은 고주파수에 비해 저주파수에 대응하는 서브밴드의 대역 크기가 더 작은 경우를 나타낸다.
도 28은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 전술한 HRTF, 패닝 필터 및 공간 필터를 기초로 최종 출력 오디오 신호를 생성하는 방법을 나타내는 도면이다. 일 실시예에 따라, 오디오 신호 처리 장치는 선형 위상응답을 가지는 변경된 HRTF를 획득할 수 있다. 또한, 오디오 신호 처리 장치는 획득된 HRTF의 위상응답을 패닝 필터 및 공간 필터 각각의 위상응답으로 사용할 수 있다. [수학식 19]를 참조하면, 오디오 신호 처리 장치는 HRTF와 패닝 필터를 기초로 출력 오디오 신호(Y_BES(k))를 생성할 수 있다. 또한, [수학식 20]을 참조하면, 오디오 신호 처리 장치는 HRTF와 공간 필터를 기초로 출력 오디오 신호(Y_sprd(k))를 생성할 수 있다.
[수학식 19]
Figure 112018123759246-pat00010
[수학식 20]
Figure 112018123759246-pat00011
[수학식 19] 및 [수학식 20]에서, mag{X(k)}는 필터 X의 k번째 주파수 빈의 크기 성분을 나타내고, pha{X(k)}는 필터 X의 k번째 주파수 빈의 위상 성분을 나타낸다. 또한, H_lin은 선형화된 위상응답을 기초로 생성된 HRTF를 나타내고, p_L,R은 좌측 또는 우측의 패닝 게인을 나타내고, D_lin은 HRTF의 선형화된 위상응답을 기초로 생성된 공간 필터를 나타낸다. 또한, g_H, g_I 및 g_D는 각각 HRTF, 패닝 필터 및 공간 필터 각각에 대응하는 믹싱 게인을 나타낸다. IP(k)는 H_lin과 동일한 위상을 갖는 임펄스 응답을 나타낸다.
[수학식 21]은 최종 출력 오디오 신호(Y_BES+Sprd(k))를 나타낸다. 오디오 신호 처리 장치는 BES가 적용된 출력 오디오 신호(Y_BES(k))와 음원의 거리 및 크기에 따른 특성이 적용된 출력 오디오 신호(Sprd(k))를 합성하여 최종 출력 오디오 신호를 생성할 수 있다. [수학식 21]에서, g_B는 BES가 적용된 출력 오디오 신호에 대응하는 믹싱 게인이다.
[수학식 21]
Figure 112018123759246-pat00012
도 28을 참조하면, 오디오 신호 처리 장치는 HRTF를 기초로 입력 오디오 신호를 바이노럴 렌더링하여 제1 오디오 신호를 생성할 수 있다. 오디오 신호 처리 장치는 패닝 필터를 기초로 입력 오디오 신호를 바이노럴 렌더링하여 제2 오디오 신호를 생성할 수 있다. 오디오 신호 처리 장치는 공간 필터를 기초로 입력 오디오 신호를 바이노럴 렌더링하여 제3 오디오 신호를 생성할 수 있다. 다음으로, 오디오 신호 처리 장치는 제1 오디오 신호와 제2 오디오 신호를 합성하여 BES 효과가 적용된 제4 오디오 신호를 생성할 수 있다. 또한, 오디오 신호 처리 장치는 제3 오디오 신호와 제4 오디오 신호를 합성하고, 합성된 신호에 대해 IFFT를 수행하여 출력 오디오 신호를 생성할 수 있다. 한편, 도 28 및 [수학식 21]에서는 오디오 신호 처리 장치가 제1 오디오 신호와 제2 오디오 신호를 먼저 합성하고, 제3 오디오 신호를 합성하여 출력 오디오 신호를 생성하는 것으로 설명하고 있으나, 본개시가 이에 제한되는 것은 아니다. 예를 들어, 오디오 신호 처리 장치는 각각의 필터를 기초로 생성된 출력 오디오 신호를 단일의 합성 과정을 통해 합성할 수도 있다. 이 경우, 전술한 믹싱 게인 g_H, g_I는 g_B 및 g_D를 기초로 수정될 수 있다.
한편, 본 개시의 일 실시예에 따라, 입력 오디오 신호는 복수의 가상 음원을 통해 시뮬레이션 될 수 있다. 예를 들어, 입력 오디오 신호는 복수의 채널 신호 또는 앰비소닉 신호 중 적어도 하나를 포함할 수 있다. 이 경우, 오디오 신호 처리 장치는 복수의 가상 음원을 통해 입력 오디오 신호를 시뮬레이션할 수 있다. 예를 들어, 오디오 신호 처리 장치는 복수의 가상 음원 각각에 대응하는 복수의 HRTFs를 기초로 가상 음원 각각에 할당된 오디오 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성할 수 있다. 이때, 가상 음원 각각에 할당된 오디오 신호들은 상관도가 높을 수 있다. 또한, 가상 음원 각각에 대응하는 복수의 HRTFs의 위상응답이 서로 다를 수 있다. 이에 따라, 출력 오디오 신호에서 전술한 콤-필터링 효과로 인한 음질 저하가 발생할 수 있다. 본 개시의 일 실시예에 따른 오디오 신호 처리 장치는 가상 음원 각각에 대응하는 복수의 HRTFs 각각의 위상응답을 일치시킬 수 있다. 이를 통해, 오디오 신호 처리 장치는 상관도가 높은 복수의 채널 신호 또는 앰비소닉 신호를 바이노럴 렌더링하는 경우 발생하는 음질 열화를 완화시킬 수 있다.
구체적으로, 오디오 신호 처리 장치는 복수의 가상 음원 각각에 대응하는 서로 다른 복수의 HRTF 쌍을 이용하여 출력 오디오 신호를 생성할 수 있다. 본 실시예에서, 가상 음원은 채널 신호에 대응하는 채널 또는 앰비소닉 신호를 렌더링하기 위한 가상의 채널일 수 있다. 또한, 오디오 신호 처리 장치는 앰비소닉 신호를 청취자의 머리 방향을 기준으로 배열된 복수의 가상 음원 각각에 대응하는 가상 채널 신호로 변환할 수 있다. 이때, 복수의 가상 음원은 음원 레이아웃에 따라 배열될 수 있다. 예를 들어, 음원 레이아웃은 꼭지점 전체가 청취자를 중심으로 하는 단위구면 상에 위치하는 가상의 정육면체일 수 있다. 이때, 복수의 가상 음원은 각각 가상의 정육면체의 꼭지점에 위치될 수 있다.
이하에서, 설명의 편의를 위해, 복수의 가상 음원 각각의 위치는 FLU (Front-Left-Up), FRU (Front-Right-Up), FLD (Front-Left-Down), FRD (Front-Right-Down), RLU (Rear-Left-Up), RRU (Rear-Right-Up), RLD (Rear-Left-Down), RRD (Rear-Right-Down)으로 지칭될 수 있다. 또한, 본 개시의 관련 설명 부분에서는 음원 레이아웃이 정육면체의 꼭지점인 경우를 예로 들어 설명하고 있으나, 본 개시가 이에 한정되는 것은 아니다. 예를 들어, 음원 레이아웃은 정팔면체 꼭지점 형태일 수도 있다.
오디오 신호 처리 장치는 복수의 가상 음원 각각에 대응하는 서로 다른 복수의 HRTF 쌍을 획득할 수 있다. 또한, 오디오 신호 처리 장치는 복수의 HRTFs 각각을 크기응답과 위상응답으로 분석할 수 있다. 다음으로, 오디오 신호 처리 장치는 도 3 내지 도 9를 통해 전술한 방법으로 복수의 HRTFs 각각의 위상응답을 변경하여 위상응답이 변경된 복수의 HRTF’s을 생성할 수 있다. 예를 들어, 오디오 신호 처리 장치는 복수의 동측 HRTFs 각각의 위상응답을 동일한 선형 위상응답이 되도록 설정하여 복수의 동측 HRTF’s를 생성할 수 있다.
또한, 오디오 신호 처리 장치는 복수의 대측 HRTFs 각각의 위상응답을 변경할 수 있다. 예를 들어, 복수의 가상 음원이 포함하는 제1 가상 음원에 대응하는 제1 HRTF 쌍은 제1 동측 HRTF와 제1 대측 HRTF을 포함할 수 있다. 이 경우, 오디오 신호 처리 장치는 제1 동측 HRTF’의 위상응답을 기준으로 제1 동측 HRTF와 제1 대측 HRTF 간의 위상응답 차이가 유지되는 제1 대측 HRTF’의 위상응답을 획득할 수 있다. 다음으로, 오디오 신호 처리 장치는 복수의 가상 음원 각각의 위치에 대응하는 복수의 HRTF’ 쌍을 기초로 복수의 가상 음원 각각에 대응하는 가상 채널 신호 렌더링하여 2-채널 출력 오디오 신호를 생성할 수 있다.
본 개시의 일 실시예에 따라, 오디오 신호 처리 장치는 음원 레이아웃을 기초로 좌측 위상응답 및 우측 위상응답을 생성할 수 있다. 전술한 바와 같이, 음원 레이아웃이 가상의 정육면체의 꼭지점인 경우 청취자를 기준으로 좌측 4개의 꼭지점 각각으로부터 청취자의 좌측 귀까지의 거리는 동일하다. 또한, 좌측 꼭지점 중 어느 하나로부터 청취자 좌측 귀까지 거리는 우측의 4개의 꼭지점 중 어느 하나로부터 청취자의 우측 귀까지 거리와 동일하다. 음원으로부터 청취자의 좌측 또는 우측 귀까지의 거리가 동일한 경우, 오디오 신호에 적용되는 그룹-딜레이가 동일할 수 있다. 즉, 음원 레이아웃이 청취자를 기준으로 좌, 우 대칭인 경우, 오디오 신호 처리 장치는 청취자를 기준으로 좌측 및 우측 별로 공통된 위상응답을 가지는 HRTF를 생성할 수 있다.
이하에서는 설명의 편의를 위해, 청취자를 기준으로 좌측에 위치된 꼭지점에 대응하는 4개의 HRTF 쌍을 좌측 그룹으로 나타낸다. 또한, 청취자를 기준으로 우측에 위치된 꼭지점에 대응하는 4개의 HRTF 쌍을 우측 그룹으로 나타낸다. 좌측 그룹은 FLU, FLD, RLU, RLD 위치 각각에 대응하는 HRTF 쌍을 포함할 수 있다. 또한, 우측 그룹은 FRU, FRD, RRU, RRD 위치 각각에 대응하는 HRTF 쌍을 포함할 수 있다.
오디오 신호 처리 장치는 우측 및 좌측 그룹 각각의 그룹에 포함된 복수의 동측 HRTFs 각각의 위상응답을 기초로 우측 및 좌측 그룹 위상응답을 결정할 수 있다. 이때, 좌측 그룹의 동측은 청취자의 좌측 귀를 나타내고, 우측 그룹의 동측은 청취자의 우측 귀를 나타낼 수 있다. 오디오 신호 처리 장치는 좌측 그룹에 포함된 복수의 좌측 HRTF의 위상응답의 평균 값, 중앙값 또는 최빈 값 중 어느 하나를 좌측 그룹 위상응답으로 사용할 수 있다. 또한, 오디오 신호 처리 장치는 우측 그룹에 포함된 복수의 우측 HRTF의 위상응답의 평균 값, 중앙값 또는 최빈 값을 우측 그룹 위상응답으로 사용할 수 있다. 또한, 오디오 신호 처리 장치는 결정된 그룹 위상응답을 선형화할 수 있다.
또한, 오디오 신호 처리 장치는 그룹 별로 획득된 그룹 위상응답을 기초로 각각의 그룹에 포함된 동측 HRTFs 각각의 위상응답을 변경하여 동측 HRTF’s를 생성할 수 있다. 오디오 신호 처리 장치는 각각의 그룹이 포함하는 대측 HRTF에 대해서도 동일 또는 유사한 방법으로 위상응답을 변경하여 대측 HRTF’s를 생성할 수 있다. 또 다른 일 실시예에 따라, 오디오 신호 처리 장치는 좌측 그룹이 포함하는 4개의 HRTF 각각의 위상응답 중 어느 하나를 좌측 그룹 위상응답으로 선택할 수도 있다. 또한, 오디오 신호 처리 장치는 우측 그룹이 포함하는 4개의 HRTF 각각의 위상응답 중 어느 하나를 우측 그룹 위상응답으로 선택할 수도 있다. 이를 통해, 오디오 신호 처리 장치는 앰비소닉 신호 및 채널 신호의 바이노럴 렌더링에 있어서 음상 정위 성능을 유지하면서 음색 왜곡을 감소시킬 수 있다
본 실시예에서는, 1차 앰비소닉 신호 (First Order Ambisonics, FoA)를 예로 들어 오디오 신호 처리 장치의 동작을 설명하고 있으나, 본 개시가 이에 제한되는 것은 아니다. 예를 들어, 전술한 방법은 복수의 음원을 포함하는 HoA(high order ambisonics) 신호에도 동일 또는 상응하는 방법으로 적용될 수 있다. 앰비소닉 신호가 고차수인 경우에도 각각의 차수에 대응하는 구면조화함수(spherical harmonics)의 선형합으로 앰비소닉 신호를 시뮬레이션할 수 있기 때문이다. 또한, 채널 신호의 경우에도 전술한 방법이 동일 또는 상응하는 방법으로 적용될 수 있다.
도 29 및 도 30은 복수의 가상 음원에 대응하는 복수의 HRTFs 각각의 위상응답이 서로 간에 매칭되지 않은 경우 또는 매칭된 경우 각각에 대해, 출력 오디오 신호의 주파수 응답의 크기 성분의 예시를 나타내는 도면이다. 도 29는 음원 레이아웃이 가상의 정육면체의 꼭지점인 경우의 주파수 응답 예시이다. 도 29에서 오디오 신호 처리 장치가 복수의 가상 음원에 대응하는 복수의 HRTFs 각각의 위상응답을 매칭하지 않은 경우(실선), 콤-필터링 효과로 인한 음질 저하가 발생한다. 반면, 오디오 신호 처리 장치가 복수의 가상 음원에 대응하는 복수의 HRTFs 각각의 위상응답을 선형 매칭한 경우(파쇄선), 콤-필터링 효과로 인한 음질 저하가 발생하지 않는다.
도 30은 음원 레이아웃이 가상의 정팔면체의 꼭지점인 경우의 주파수 응답 예시이다. 도 29에서와 같이 음원 레이아웃이 포함하는 8개의 가상 음원 대비 가상 음원의 개수가 증가하는 경우, 콤-필터링으로 인한 음질 저하가 증가할 수 있다. 또한, 도 29와 마찬가지로 도 30에서 오디오 신호 처리 장치가 복수의 가상 음원에 대응하는 복수의 HRTFs 각각의 위상응답을 매칭하지 않은 경우(실선), 콤-필터링 효과로 인한 음질 저하가 발생한다. 반면, 오디오 신호 처리 장치가 복수의 가상 음원에 대응하는 복수의 HRTFs 각각의 위상응답을 선형 매칭한 경우(파쇄선), 콤-필터링 효과로 인한 음질 저하가 발생하지 않는다.
일부 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함할 수 있다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함할 수 있다.
이상에서는 본 개시를 구체적인 실시예를 통하여 설명하였으나, 본 개시가 속하는 기술분야의 통상의 지식을 가진 당업자라면 본 개시의 취지 및 범위를 벗어나지 않고 수정, 변경을 할 수 있다. 즉, 본 개시는 오디오 신호에 대한 바이노럴 렌더링의 실시예에 대하여 설명하였지만, 본 개시는 오디오 신호뿐만 아니라 비디오 신호를 포함하는 다양한 멀티미디어 신호에도 동일하게 적용 및 확장 가능하다. 따라서 본 개시의 상세한 설명 및 실시예로부터 본 개시가 속하는 기술분야에 속한 사람이 용이하게 유추할 수 있는 것은 본 개시의 권리범위에 속하는 것으로 해석된다.

Claims (20)

  1. 오디오 신호 처리 장치에 있어서,
    입력 오디오 신호를 기초로 생성된 출력 오디오 신호를 출력하는 프로세서를 포함하고,
    상기 프로세서는,
    청취자를 기준으로 하는 위치 각각에 대응하는 머리전달함수(head-related transfer function, HRTF)로 구성된 제1 전달함수 세트로부터, 입력 오디오 신호에 대응하는 가상 음원의 위치를 기초로, 제1 동측(ipsilateral) HRTF 및 제1 대측(contralateral) HRTF를 포함하는 제1 한 쌍의 HRTFs를 획득하고,
    상기 제1 한 쌍의 HRTFs를 기초로 상기 입력 오디오 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성하고,
    상기 제1 전달함수 세트가 포함하는 복수의 동측 HRTFs 각각의 주파수영역 상의 위상응답은 상기 복수의 동측 HRTFs 각각에 대응하는 위치와 무관하게 서로 동일한 위상응답이고,
    상기 제1 전달함수 세트가 포함하는 복수의 대측 HRTFs 중 적어도 두 개의 주파수영역 상의 위상응답은 서로 같지 않고,
    상기 복수의 대측 HRTFs 중 적어도 두 개 각각은 서로 다른 위치에 해당하는
    오디오 신호 처리 장치.
  2. 제1 항에 있어서,
    상기 제1 동측 HRTF의 위상응답은 선형 위상응답인, 오디오 신호 처리 장치.
  3. 제2 항에 있어서,
    상기 제1 대측 HRTF의 위상응답에 대응하는 시간영역 상의 대측 그룹-딜레이(group-delay)는 상기 제1 동측 HRTF의 위상응답에 대응하는 동측 그룹-딜레이를 기준으로 결정된 값이고,
    상기 제1 대측 HRTF의 위상응답은 선형 위상응답인, 오디오 신호 처리 장치.
  4. 제3 항에 있어서,
    상기 대측 그룹-딜레이는 상기 동측 그룹-딜레이를 기준으로 양이간 시간 차이(interaural time difference, ITD) 정보를 이용하여 결정된 값인, 오디오 신호 처리 장치.
  5. 제4 항에 있어서,
    상기 ITD 정보는 측정된 한 쌍의 HRTFs를 기초로 획득된 값이고,
    상기 측정된 한 쌍의 HRTFs는 상기 청취자를 기준으로 상기 가상 음원의 위치에 대응하는 것인, 오디오 신호 처리 장치.
  6. 제3 항에 있어서,
    상기 대측 그룹-딜레이는 상기 동측 그룹-딜레이를 기준으로 상기 청취자의 머리 모델 정보(head modeling information)를 이용하여 결정된 값인, 오디오 신호 처리 장치.
  7. 제3 항에 있어서,
    상기 동측 그룹-딜레이 및 대측 그룹-딜레이는 시간 영역에서 샘플링 주파수에 따른 샘플의 정수배 단위인, 오디오 신호 처리 장치.
  8. 제7 항에 있어서,
    상기 프로세서는,
    시간 영역에서, 상기 대측 그룹-딜레이 및 상기 동측 그룹-딜레이 각각을 기초로 상기 입력 오디오 신호를 지연(delay)시켜 상기 출력 오디오 신호를 생성하는, 오디오 신호 처리 장치.
  9. 제3 항에 있어서,
    상기 프로세서는,
    시간 영역에서, 상기 제1 한 쌍의 HRTFs 및 추가 오디오 신호를 기초로 최종 출력 오디오 신호를 생성하고, 상기 최종 출력 오디오 신호를 출력하고,
    상기 추가 오디오 신호의 동측 그룹-딜레이는 상기 제1 동측 HRTF의 동측 그룹-딜레이와 동일하고, 상기 추가 오디오 신호의 대측 그룹-딜레이는 상기 제1 대측 HRTF의 대측 그룹-딜레이와 동일한, 오디오 신호 처리 장치.
  10. 제9 항에 있어서,
    상기 프로세서는,
    상기 청취자를 기준으로 하는 상기 가상 음원의 위치에 따른 패닝 게인을 획득하고,
    상기 패닝 게인을 기초로 상기 입력 오디오 신호를 필터링하고,
    상기 제1 동측 HRTF의 동측 그룹-딜레이 및 상기 제1 대측 HRTF의 대측 그룹-딜레이를 기초로, 상기 필터링된 입력 오디오 신호를 시간 지연시켜 상기 추가 오디오 신호를 생성하는, 오디오 신호 처리 장치.
  11. 제9 항에 있어서,
    상기 프로세서는,
    상기 제1 한 쌍의 HRTFs를 기초로 상기 입력 오디오 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성하고,
    동측 추가 필터 및 대측 추가 필터를 포함하는 한 쌍의 추가 필터를 기초로 상기 입력 오디오 신호를 필터링하여 상기 추가 오디오 신호를 생성하고,
    시간 영역에서, 상기 출력 오디오 신호와 상기 추가 오디오 신호를 믹싱하여 상기 최종 출력 오디오 신호를 생성하고,
    상기 동측 추가 필터의 위상응답은 상기 제1 동측 HRTF의 위상응답과 동일하고, 상기 대측 추가 필터의 위상응답은 상기 제1 대측 HRTF의 위상응답과 동일한, 오디오 신호 처리 장치.
  12. 제11 항에 있어서,
    상기 한 쌍의 추가 필터는 상기 청취자를 기준으로 하는 상기 가상 음원의 위치에 따른 패닝 게인을 기초로 생성된 필터이고,
    상기 동측 추가 필터 및 상기 대측 추가 필터 각각의 주파수 응답의 크기 성분(magnitude)은 일정한, 오디오 신호 처리 장치.
  13. 제11 항에 있어서,
    상기 한 쌍의 추가 필터는 상기 가상 음원이 모델링하는 물체의 크기 및 상기 청취자로부터 상기 가상 음원까지의 거리를 기초로 생성된 것인, 오디오 신호 처리 장치.
  14. 제1 항에 있어서,
    상기 제1 전달함수 세트가 포함하는 복수의 HRTFs 각각의 주파수영역 상의 위상응답은 복수의 HRTFs 각각에 대응하는 위치와 무관하게 서로 동일한 위상응답이고,
    상기 프로세서는,
    상기 가상 음원의 위치가 상기 복수의 HRTFs 각각에 대응하는 위치 이외의 위치인 경우, 적어도 둘 이상의 HRTFs 쌍을 기초로 생성된 상기 제1 한 쌍의 HRTFs를 획득하고,
    상기 적어도 둘 이상의 HRTFs 쌍은 상기 가상 음원의 위치를 기초로 상기 제1 전달함수 세트로부터 획득된 것인, 오디오 신호 처리 장치.
  15. 제14 항에 있어서,
    상기 프로세서는,
    시간영역에서, 상기 적어도 둘 이상의 HRTFs 쌍을 인터폴레이션(interpolation)하여 상기 제1 한 쌍의 HRTFs를 획득하는, 오디오 신호 처리 장치.
  16. 제3 항에 있어서,
    상기 프로세서는,
    상기 제1 전달함수 세트가 아닌 다른 제2 전달함수 세트로부터 상기 청취자를 기준으로 하는 상기 가상 음원의 위치를 기초로 제2 동측 HRTF 및 제2 대측 HRTF를 포함하는 제2 한 쌍의 HRTFs를 획득하고,
    상기 제1 한 쌍의 HRTFs 및 상기 제2 한 쌍의 HRTFs를 기초로 상기 출력 오디오 신호를 생성하고,
    상기 제2 동측 HRTF의 위상응답은 상기 제1 동측 HRTF의 위상응답과 동일하고, 상기 제2 대측 HRTF의 위상응답은 상기 제1 대측 HRTF의 위상응답과 동일한, 오디오 신호 처리 장치.
  17. 입력 오디오 신호를 기초로 생성된 출력 오디오 신호를 출력하는 오디오 신호 처리 장치의 동작 방법에 있어서,
    청취자를 기준으로 하는 특정 위치 각각에 대응하는 머리전달함수로 구성된 전달함수 세트로부터, 입력 오디오 신호에 대응하는 가상 음원의 위치를 기초로, 동측 HRTF 및 대측 HRTF를 포함하는 한 쌍의 HRTFs를 획득하는 단계; 및
    상기 한 쌍의 HRTFs를 기초로 상기 입력 오디오 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성하는 단계를 포함하고,
    상기 전달함수 세트가 포함하는 복수의 동측 HRTFs 각각의 주파수영역 상의 위상응답은 음원의 위치와 무관하게 서로 동일한 위상응답이고,
    상기 전달함수 세트가 포함하는 복수의 대측 HRTFs 중 적어도 두 개의 주파수 영역 상의 위상응답은 서로 다르고,
    상기 복수의 대측 HRTFs 중 적어도 두 개 각각은 서로 다른 위치에 해당하는, 오디오 신호 처리 방법.
  18. 제17 항에 있어서,
    상기 동측 HRTF의 위상응답은 선형 위상응답인, 오디오 신호 처리 방법.
  19. 오디오 신호 처리 장치에 있어서,
    입력 오디오 신호를 기초로 생성된 출력 오디오 신호를 출력하는 프로세서를 포함하고,
    상기 프로세서는,
    청취자를 기준으로 하는 특정 위치 각각에 대응하는 머리전달함수로 구성된 전달함수 세트로부터, 입력 오디오 신호에 대응하는 가상 음원의 위치를 기초로, 동측 HRTF 및 대측 HRTF를 포함하는 한 쌍의 HRTFs를 획득하고,
    상기 동측 HRTF의 주파수영역 상의 위상응답을 상기 가상 음원의 위치와 무관하게 일정한 특정 위상응답이 되도록 변경하고,
    상기 동측 HRTF의 위상응답이 변경된 한 쌍의 HRTFs를 기초로 상기 입력 오디오 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성하고,
    상기 전달함수 세트가 포함하는 제1 대측 HRTF의 주파수 영역 상의 위상응답은 상기 전달함수 세트가 포함하는 제2 위치에 해당하는 제2 대측 HRTF의 주파수 영역 상의 위상응답과 다르고,
    상기 제1 대측 HRTF와 상기 제2 대측 HRTF 각각은 서로 다른 위치에 해당하는, 오디오 신호 처리 장치.
  20. 제19 항에 있어서,
    상기 특정 위상응답은 선형 위상응답인, 오디오 신호 처리 장치.
KR1020180158572A 2017-12-21 2018-12-10 위상응답 특성을 이용하는 바이노럴 렌더링을 위한 오디오 신호 처리 방법 및 장치 KR102149214B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR1020170176720 2017-12-21
KR20170176720 2017-12-21
KR1020180050407 2018-05-02
KR20180050407 2018-05-02

Publications (2)

Publication Number Publication Date
KR20190075807A KR20190075807A (ko) 2019-07-01
KR102149214B1 true KR102149214B1 (ko) 2020-08-28

Family

ID=66951659

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180158572A KR102149214B1 (ko) 2017-12-21 2018-12-10 위상응답 특성을 이용하는 바이노럴 렌더링을 위한 오디오 신호 처리 방법 및 장치

Country Status (4)

Country Link
US (1) US10609504B2 (ko)
JP (1) JP6790052B2 (ko)
KR (1) KR102149214B1 (ko)
CN (1) CN110035376B (ko)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10334360B2 (en) * 2017-06-12 2019-06-25 Revolabs, Inc Method for accurately calculating the direction of arrival of sound at a microphone array
US10798515B2 (en) * 2019-01-30 2020-10-06 Facebook Technologies, Llc Compensating for effects of headset on head related transfer functions
US11113092B2 (en) 2019-02-08 2021-09-07 Sony Corporation Global HRTF repository
US11451907B2 (en) 2019-05-29 2022-09-20 Sony Corporation Techniques combining plural head-related transfer function (HRTF) spheres to place audio objects
US10645522B1 (en) * 2019-05-31 2020-05-05 Verizon Patent And Licensing Inc. Methods and systems for generating frequency-accurate acoustics for an extended reality world
US11347832B2 (en) 2019-06-13 2022-05-31 Sony Corporation Head related transfer function (HRTF) as biometric authentication
US11076257B1 (en) * 2019-06-14 2021-07-27 EmbodyVR, Inc. Converting ambisonic audio to binaural audio
US20220295213A1 (en) * 2019-08-02 2022-09-15 Sony Group Corporation Signal processing device, signal processing method, and program
US11212631B2 (en) * 2019-09-16 2021-12-28 Gaudio Lab, Inc. Method for generating binaural signals from stereo signals using upmixing binauralization, and apparatus therefor
CN112653985B (zh) * 2019-10-10 2022-09-27 高迪奥实验室公司 使用2声道立体声扬声器处理音频信号的方法和设备
GB2588171A (en) * 2019-10-11 2021-04-21 Nokia Technologies Oy Spatial audio representation and rendering
US11146908B2 (en) 2019-10-24 2021-10-12 Sony Corporation Generating personalized end user head-related transfer function (HRTF) from generic HRTF
US11070930B2 (en) * 2019-11-12 2021-07-20 Sony Corporation Generating personalized end user room-related transfer function (RRTF)
US11246001B2 (en) 2020-04-23 2022-02-08 Thx Ltd. Acoustic crosstalk cancellation and virtual speakers techniques
US20230370804A1 (en) * 2020-10-06 2023-11-16 Dirac Research Ab Hrtf pre-processing for audio applications
CN113079452B (zh) * 2021-03-30 2022-11-15 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法、音频方位信息生成方法、电子设备及介质
CN117837173A (zh) * 2021-08-27 2024-04-05 北京字跳网络技术有限公司 用于音频渲染的信号处理方法、装置和电子设备
US20230370800A1 (en) * 2022-05-10 2023-11-16 Bacch Laboratories, Inc. Method and device for processing hrtf filters
CN117177165B (zh) * 2023-11-02 2024-03-12 歌尔股份有限公司 音频设备的空间音频功能测试方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160044430A1 (en) * 2012-03-23 2016-02-11 Dolby Laboratories Licensing Corporation Method and system for head-related transfer function generation by linear mixing of head-related transfer functions
US20170325045A1 (en) * 2016-05-04 2017-11-09 Gaudio Lab, Inc. Apparatus and method for processing audio signal to perform binaural rendering

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10136497A (ja) 1996-10-24 1998-05-22 Roland Corp 音像定位装置
US7231054B1 (en) * 1999-09-24 2007-06-12 Creative Technology Ltd Method and apparatus for three-dimensional audio display
JP2005005949A (ja) 2003-06-11 2005-01-06 Matsushita Electric Ind Co Ltd 伝達関数補間方法
US20060277034A1 (en) * 2005-06-01 2006-12-07 Ben Sferrazza Method and system for processing HRTF data for 3-D sound positioning
CN101401455A (zh) * 2006-03-15 2009-04-01 杜比实验室特许公司 使用子带滤波器的立体声呈现技术
JP2008283600A (ja) * 2007-05-14 2008-11-20 Pioneer Electronic Corp 自動音場補正装置
US8428269B1 (en) 2009-05-20 2013-04-23 The United States Of America As Represented By The Secretary Of The Air Force Head related transfer function (HRTF) enhancement for improved vertical-polar localization in spatial audio systems
WO2012094335A1 (en) * 2011-01-04 2012-07-12 Srs Labs, Inc. Immersive audio rendering system
CN104581610B (zh) * 2013-10-24 2018-04-27 华为技术有限公司 一种虚拟立体声合成方法及装置
WO2016089180A1 (ko) * 2014-12-04 2016-06-09 가우디오디오랩 주식회사 바이노럴 렌더링을 위한 오디오 신호 처리 장치 및 방법
DE102017103134B4 (de) * 2016-02-18 2022-05-05 Google LLC (n.d.Ges.d. Staates Delaware) Signalverarbeitungsverfahren und -systeme zur Wiedergabe von Audiodaten auf virtuellen Lautsprecher-Arrays
CN105933835A (zh) * 2016-04-21 2016-09-07 音曼(北京)科技有限公司 基于线性扬声器阵列的自适应3d声场重现方法及系统
CN105933818B (zh) * 2016-07-07 2018-10-16 音曼(北京)科技有限公司 耳机三维声场重建的幻象中置声道的实现方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160044430A1 (en) * 2012-03-23 2016-02-11 Dolby Laboratories Licensing Corporation Method and system for head-related transfer function generation by linear mixing of head-related transfer functions
US20170325045A1 (en) * 2016-05-04 2017-11-09 Gaudio Lab, Inc. Apparatus and method for processing audio signal to perform binaural rendering

Also Published As

Publication number Publication date
US20190200159A1 (en) 2019-06-27
CN110035376A (zh) 2019-07-19
JP2019115042A (ja) 2019-07-11
KR20190075807A (ko) 2019-07-01
JP6790052B2 (ja) 2020-11-25
CN110035376B (zh) 2021-04-20
US10609504B2 (en) 2020-03-31

Similar Documents

Publication Publication Date Title
KR102149214B1 (ko) 위상응답 특성을 이용하는 바이노럴 렌더링을 위한 오디오 신호 처리 방법 및 장치
JP7038725B2 (ja) オーディオ信号処理方法及び装置
JP7119060B2 (ja) マルチポイント音場記述を使用して拡張音場記述または修正音場記述を生成するためのコンセプト
EP3311593B1 (en) Binaural audio reproduction
US9918179B2 (en) Methods and devices for reproducing surround audio signals
JP5285626B2 (ja) 音声空間化及び環境シミュレーション
JP4921470B2 (ja) 頭部伝達関数を表すパラメータを生成及び処理する方法及び装置
RU2591179C2 (ru) Способ и система для генерирования передаточной функции головы путем линейного микширования передаточных функций головы
EP3229498B1 (en) Audio signal processing apparatus and method for binaural rendering
US10531217B2 (en) Binaural synthesis
KR20180135973A (ko) 바이노럴 렌더링을 위한 오디오 신호 처리 방법 및 장치
US20180324541A1 (en) Audio Signal Processing Apparatus and Method
GB2471089A (en) Audio processing device using a library of virtual environment effects
Oldfield The analysis and improvement of focused source reproduction with wave field synthesis
Yuan et al. Externalization improvement in a real-time binaural sound image rendering system
US20230403528A1 (en) A method and system for real-time implementation of time-varying head-related transfer functions
Geronazzo Sound Spatialization.
Wilkinson AD-3D: HRTF based 3D Audio Designer

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant