KR102502383B1 - 오디오 신호 처리 방법 및 장치 - Google Patents

오디오 신호 처리 방법 및 장치 Download PDF

Info

Publication number
KR102502383B1
KR102502383B1 KR1020197028372A KR20197028372A KR102502383B1 KR 102502383 B1 KR102502383 B1 KR 102502383B1 KR 1020197028372 A KR1020197028372 A KR 1020197028372A KR 20197028372 A KR20197028372 A KR 20197028372A KR 102502383 B1 KR102502383 B1 KR 102502383B1
Authority
KR
South Korea
Prior art keywords
audio signal
virtual
sound
signal processing
processing apparatus
Prior art date
Application number
KR1020197028372A
Other languages
English (en)
Other versions
KR20190125371A (ko
Inventor
전세운
전상배
서정훈
Original Assignee
가우디오랩 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가우디오랩 주식회사 filed Critical 가우디오랩 주식회사
Publication of KR20190125371A publication Critical patent/KR20190125371A/ko
Application granted granted Critical
Publication of KR102502383B1 publication Critical patent/KR102502383B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/806Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • H04S7/306For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Abstract

입력 오디오 신호를 수신하는 수신부, 상기 입력 오디오 신호에 대응하는 가상 음원을 가상의 공간에 재현하는 출력 오디오 신호를 생성하는 프로세서 및 상기 프로세서에 의해 생성된 출력 오디오 신호를 출력하는 출력부를 포함하는 오디오 신호 처리 장치가 개시된다. 프로세서는, 상기 입력 오디오 신호에 대응하는 가상 음원(virtual source) 및 청취자를 포함하는 상기 가상의 공간에 관련된 공간 정보를 획득하고, 상기 가상 음원의 위치 및 상기 공간 정보를 기초로, 상기 입력 오디오 신호를 필터링하여, 상기 가상의 공간이 포함하는 적어도 하나의 반사면(mirror plane) 각각에 대응하는 적어도 하나의 반사음을 생성하고, 상기 적어도 하나의 반사음 각각에 대응하는 가상의 반사 음원의 위치 및 상기 청취자의 시선 방향(view-point) 정보를 기초로, 상기 청취자의 위치 및 시선 방향을 기준으로 하는 상기 가상의 반사 음원의 상대적인 위치를 획득하고, 상기 적어도 하나의 반사음 각각에 대응하는 상기 가상의 반사 음원의 상대적인 위치를 기초로, 상기 적어도 하나의 반사음을 바이노럴 렌더링하여 상기 출력 오디오 신호를 생성할 수 있다.

Description

오디오 신호 처리 방법 및 장치
본 개시는 오디오 신호를 효과적으로 재생하기 위한 신호 처리 방법 및 장치에 관한 것으로서, 더욱 상세하게는 HMD(Head Mounted Display) 기기를 비롯한 휴대 기기를 위한 몰입형(immersive) 바이노럴 렌더링을 구현하기 위한 오디오 신호 처리 방법 및 장치에 관한 것이다.
HMD(Head Mounted Display) 기기에서 이머시브(immersive) 및 인터렉티브(interactive) 오디오를 제공하기 위해서 바이노럴 렌더링(binaural rendering) 기술이 필수적으로 요구된다. 바이노럴 렌더링은 3차원 공간상에서 임장감 있는 사운드를 제공하는 3D 오디오를 사람의 양귀에 전달되는 신호로 모델링하는 것이다. 청취자는 헤드폰이나 이어폰 등을 통한 바이노럴 렌더링된 2 채널 오디오 출력 신호를 통해서도 입체감을 느낄 수 있다. 바이노럴 렌더링의 구체적인 원리는 다음과 같다. 사람은 언제나 두 귀를 통해 소리를 듣고, 소리를 통해서 음원 위치와 방향을 인식한다. 따라서 3D 오디오를 사람의 두 귀에 전달되는 오디오 신호 형태로 모델링할 수 있다면, 많은 수의 스피커 없이 2 채널 오디오 출력을 통해서도 2D 오디오의 입체감을 재현할 수 있다.
이때, 연산량 및 전력 소모의 제약이 따르는 모바일 디바이스에서, 바이노럴 렌더링의 대상 객체 혹은 채널의 증가로 인한 연산량 및 전력 소모의 부담이 발생할 수 있다. 또한 가상 현실(virtual reality, VR)에서 잔향(Room Reverberation) 효과와 같은 가상의 공간의 특성이 반영된 공간 음향(spatial audio)를 재현하는 기술은 현실감을 높이고 VR 기기 사용자가 완전한 몰입감을 느끼기 위해서 중요한 요소이다. 이때, 특정 공간에 대한 잔향(Room Impulse Response, RIR)은 일반적으로 시간 축에서 수십 msec에서 수 sec에 이르는 긴 필터(filter) 형태를 가지게 되고 이를 실시간으로 신호에 컨벌루션(convolution) 형태로 적용하기 위해서는 많은 연산량 및 메모리 사용이 불가피하다. 일반적으로 필터의 길이가 길 수록 보다 넓고 반향이 큰 공간의 음향을 재현할 수 있으므로 최대한 필터의 모든 데이터를 사용하는 것이 현실 공간의 사운드 재현 측면에서 중요하다.
또한, 가상 현실 기기 및 VR 컨텐츠의 특성에 따라, 공간의 구조가 바뀌거나, 청취자와 음원의 실시간 위치 또는 청취자의 시선 방향(view-point)이 바뀔 수 있으므로, 이러한 정보를 반영하여 공간 잔향에 대한 필터가 실시간으로 갱신되어야 한다. 임의의 공간에서 측정된 잔향(measured RIR) 필터는 고정된 위치와 고정된 공간에 대한 음향 정보를 담고 있기 때문에 이처럼 실시간 변화하는 특성을 반영하기 어렵다. 또한, 청취자의 시선 방향 정보를 추적하는 헤드 트래킹(head tracking)이 가능한 HMD(head mount display)를 이용할 경우, 헤드폰 또는 이어폰을 통해 사용자의 시선이 반영된 바이노럴(binaural) 신호가 재생(playback)되어야 한다. 또한 청취자가 이동하면, 가상의 공간에서 청취자가 청취하게 되는 바이노럴 공간 음향이 달라질 수 있다. 일반적으로 전자를 3DOF(degree of freedom) 환경, 후자를 6DOF 환경이라고 부를 수 있다. 그리고 이와 같이 사용자의 시선 또는 위치에 대응할 수 있는 기능을 인터랙티브(interactive) 라고 부른다.
한편, 인공 잔향기(artificial reverberator)는 실측하기 어려운 공간 음향을 생성하는 방법으로 임의의 룸 공간의 정보 및 오디오 객체와 사용자의 위치 정보 등을 고려하여 공간 음향 신호를 생성할 수 있다. 공간 음향은 직접음(direct), 초기 반사음(early reflection), 후기 잔향(late reverberation) 성분으로 이루어진다. 직접음과 초기 반사음의 경우 사용자의 시선 방향에 따라 두 귀에서 들리는 신호가 바뀌는 인터랙티브(interactive) 특성을 갖는 반면, 후기 잔향의 경우 공간의 특성이 반영된 신호로 청취자의 시선 또는 위치에 따라 크게 바뀌지 않는 특징을 갖는다. 이러한 잔향 성분들의 특성을 이용하여 인공 잔향기는 가상 현실에서 가상의 공간의 공간 음향을 생성하는 기술로서 사용될 수 있다. 이에 따라, 연산량 및 메모리 소모의 제약이 따르는 모바일 디바이스에서, 입력 오디오 신호에 대한 공간 음향을 효율적으로 재현하기 위한 기술이 요구된다.
본 개시는 입력 오디오 신호에 대응하는 공간 음향을 실시간으로 생성하고, 이를 가상 현실 기기를 위한 바이노럴 신호로 구현하려는 문제를 해결하고자 하는 목적을 가지고 있다. 또한, 본 개시는 입력 오디오 신호에 대응하는 공간 음향을 재현하는 데 필요한 시스템 연산량을 감소시키기 위한 목적을 가지고 있다. 구체적으로, 본 개시는 상대적으로 적은 연산량을 이용하여 사용자의 인터랙티브가 반영된 공간 음향을 재현하기 위한 목적을 가지고 있다.
본 발명의 일 실시예에 따라 입력 오디오 신호를 렌더링하는 오디오 신호 처리 장치는, 상기 입력 오디오 신호를 수신하는 수신부, 상기 입력 오디오 신호에 대응하는 가상 음원을 가상의 공간에 재현하는 출력 오디오 신호를 생성하는 프로세서 및 상기 프로세서에 의해 생성된 출력 오디오 신호를 출력하는 출력부를 포함한다. 상기 프로세서는, 상기 입력 오디오 신호에 대응하는 가상 음원(virtual source) 및 청취자를 포함하는 상기 가상의 공간에 관련된 공간 정보를 획득하고, 상기 가상 음원의 위치 및 상기 공간 정보를 기초로, 상기 입력 오디오 신호를 필터링하여, 상기 가상의 공간이 포함하는 적어도 하나의 반사면(mirror plane) 각각에 대응하는 적어도 하나의 반사음을 생성하고, 상기 적어도 하나의 반사음 각각에 대응하는 가상의 반사 음원의 위치 및 상기 청취자의 시선 방향(view-point) 정보를 기초로, 상기 청취자의 위치 및 시선 방향을 기준으로 하는 상기 가상의 반사 음원의 상대적인 위치를 획득하고, 상기 적어도 하나의 반사음 각각에 대응하는 상기 가상의 반사 음원의 상대적인 위치를 기초로, 상기 적어도 하나의 반사음을 바이노럴 렌더링하여 상기 출력 오디오 신호를 생성할 수 있다.
상기 프로세서는, 상기 가상의 반사 음원의 상대적인 위치를 기초로, 상기 적어도 하나의 반사음 각각에 대응하는 스펙트럼 변경 필터를 획득하고, 상기 생성된 스펙트럼 변경 필터를 기초로 필터링된 상기 적어도 하나의 반사음을 바이노럴 렌더링하여 상기 출력 오디오 신호를 생성할 수 있다.
상기 스펙트럼 변경 필터는, 상기 청취자의 시선 방향을 기준으로 상기 청취자에게 입사되는 음향의 입사 각도에 따라, 입사되는 음향의 기 설정된 주파수 특성을 모델링한 필터일 수 있다.
상기 프로세서는, 상기 청취자의 시선 방향을 기준으로 전면에 포함된 입사 각도 중 어느 하나에 대응하는 제1 스펙트럼 변경 필터 및 상기 청취자의 시선 방향을 기준으로 후면에 포함된 입사 각도 중 어느 하나에 대응하는 제2 스펙트럼 변경 필터를 획득하고, 상기 가상의 반사 음원의 상대적인 위치를 기초로 상기 제1 스펙트럼 변경 필터 및 상기 제2 스펙트럼 변경 필터를 가중합(weighted sum)하여 상기 적어도 하나의 반사음 각각에 대응하는 상기 스펙트럼 변경 필터를 생성하고, 상기 스펙트럼 변경 필터를 기초로 필터링된 상기 적어도 하나의 반사음을 바이노럴 렌더링하여 상기 출력 오디오 신호를 생성할 수 있다.
상기 제2 스펙트럼 변경 필터는 상기 제1 스펙트럼 변경 필터에 비해 고주파수 대역의 출력을 감쇠시키는 필터일 수 있다.
상기 프로세서는, 상기 가상의 반사 음원의 상대적인 위치를 기초로 상기 적어도 하나의 반사음 각각에 대응하는 전달함수를 획득하고, 상기 전달함수의 적어도 일부분을 기초로 상기 적어도 하나의 반사음 각각에 대응하는 바이노럴 파라미터 쌍(pair)을 획득하고, 상기 바이노럴 파라미터 쌍을 기초로 상기 적어도 하나의 반사음을 바이노럴 렌더링하여 상기 출력 오디오 신호를 생성할 수 있다.
상기 바이노럴 파라미터 쌍은 동측 감쇠 게인 및 대측 감쇠 게인을 포함할 수 있다. 이때, 상기 프로세서는 상기 전달함수를 기초로 동측과 대측 사이의 소리의 크기 차이를 나타내는 양이간 레벨 차이(interaural level difference)를 획득하고, 상기 전달함수의 적어도 일부분 및 양이간 레벨 차이를 기초로 상기 적어도 하나의 반사음 각각에 대응하는 상기 동측 감쇠 게인 및 상기 대측 감쇠 게인을 획득하고, 상기 동측 감쇠 게인 및 상기 대측 감쇠 게인을 기초로 상기 적어도 하나의 반사음을 바이노럴 렌더링하여 상기 출력 오디오 신호를 생성할 수 있다.
상기 바이노럴 파라미터 쌍은 동측 딜레이 및 대측 딜레이를 포함할 수 있다. 이때, 상기 프로세서는, 상기 전달함수를 기초로 동측과 대측 사이의 시간 지연 차이를 나타내는 양이간 시간 차이(interaural time difference)를 획득하고, 상기 양이간 시간 차이를 기초로 상기 적어도 하나의 반사음 각각에 대응하는 상기 동측 딜레이 및 대측 딜레이를 획득하고, 상기 동측 딜레이 및 상기 대측 딜레이를 기초로 상기 적어도 하나의 반사음을 바이노럴 렌더링하여 상기 출력 오디오 신호를 생성할 수 있다.
상기 프로세서는, 상기 가상 음원과 상기 청취자 사이의 위치 관계의 변화를 기초로, 적어도 하나의 갱신된 반사음 및 상기 적어도 하나의 갱신된 반사음 각각에 대응하는 갱신된 바이노럴 파라미터 쌍을 획득하고, 상기 바이노럴 파라미터 쌍을 기초로 상기 적어도 하나의 반사음을 바이노럴 렌더링하여 생성된 제1 반사음 세트에 기 설정된 시간동안 페이드-아웃 윈도우(fade-out window)를 적용하고, 상기 갱신된 바이노럴 파라미터 쌍을 기초로 상기 적어도 하나의 갱신된 반사음을 바이노럴 렌더링하여 생성된 제2 반사음 세트에 상기 기 설정된 시간동안 페이드 인 윈도우(fade-in window)를 적용하여, 상기 출력 오디오 신호를 생성할 수 있다.
상기 프로세서는, 상기 적어도 하나의 반사음 각각에 대응하는 상기 가상의 반사 음원의 상대적인 위치를 나타내는 위치 정보 및 m차 구면 조화 함수(m-th spherical harmonics)의 기저(basis)를 기초로, 상기 적어도 하나의 반사음을 제1 m차 앰비소닉(ambisonic) 신호로 변환하고, 상기 제1 m차 앰비소닉 신호를 바이노럴 렌더링하여 상기 출력 오디오 신호를 생성할 수 있다.
상기 프로세서는, 상기 제1 m차 앰비소닉 신호를 상기 청취자의 시선 방향을 기준으로 배열된 복수의 가상 채널 각각에 대응하는 가상 채널 신호로 변환하고, 상기 복수의 가상 채널 각각에 대응하는 전달함수를 기초로 상기 가상 채널 신호를 바이노럴 렌더링하여 상기 출력 오디오 신호를 생성할 수 있다. 이때, 상기 프로세서는, 상기 청취자의 시선 방향을 기준으로 상기 복수의 가상 채널 각각에 대응하는 가상 음원의 위치에 기초하여, 상기 복수의 가상 채널 각각에 대응하는 전달 함수를 획득할 수 있다.
상기 프로세서는, 상기 청취자의 머리 움직임 정보를 기초로 상기 청취자의 시선 방향을 갱신하고, 상기 갱신된 청취자의 시선 방향 및 로테이션 매트릭스를 기초로 상기 제1 m차 앰비소닉 신호를 로테이션하여, 제2 m차 앰비소닉 신호를 생성하고, 상기 제2 m차 앰비소닉 신호를 기초로 상기 출력 오디오 신호를 생성할 수 있다.
상기 프로세서는, 상기 공간 정보를 기초로 기준 반사 차수를 결정하고, 상기 공간 정보를 기초로 상기 입력 오디오 신호를 필터링하여 상기 기준 반사 차수를 초과하는 반사 차수를 가지는 후기 잔향을 생성하고, 상기 생성된 후기 잔향 및 상기 바이노럴 렌더링된 적어도 하나의 반사음을 포함하는 출력 오디오 신호를 생성할 수 있다.
상기 공간 정보는 상기 적어도 하나의 반사면의 개수를 나타내는 반사면 개수 정보를 포함할 수 있다. 이때, 상기 프로세서는, 상기 반사면 개수 정보 및 상기 프로세서의 프로세싱 성능을 기초로 상기 기준 반사 차수를 결정할 수 있다.
상기 공간 정보는 상기 적어도 하나의 반사면 각각에 대응하는 반사율을 포함할 수 있다. 이때, 상기 프로세서는, 상기 반사율을 기초로 상기 입력 오디오 신호를 필터링하여 상기 적어도 하나의 반사음을 생성할 수 있다.
상기 프로세서는, 상기 가상의 반사 음원 각각과 상기 청취자 사이의 거리를 기초로, 상기 적어도 하나의 반사면 각각에 대응하는 감쇠 게인 및 딜레이를 결정하고, 상기 감쇠 게인 및 상기 딜레이를 기초로 상기 입력 오디오 신호를 필터링하여 상기 적어도 하나의 반사음을 생성할 수 있다.
본 발명의 일 실시예에 따른 오디오 신호 처리 방법은, 입력 오디오 신호를 수신하는 단계, 상기 입력 오디오 신호에 대응하는 가상 음원(virtual source) 및 청취자를 포함하는 상기 가상의 공간에 관련된 공간 정보를 획득하는 단계, 상기 가상 음원의 위치 및 상기 공간 정보를 기초로, 상기 입력 오디오 신호를 필터링하여, 상기 가상의 공간이 포함하는 적어도 하나의 반사면(mirror plane) 각각에 대응하는 적어도 하나의 반사음을 생성하는 단계, 상기 적어도 하나의 반사음 각각에 대응하는 가상의 반사 음원의 위치 및 상기 청취자의 시선 방향(view-point) 정보를 기초로, 상기 청취자의 위치 및 시선 방향을 기준으로 하는 상기 가상의 반사 음원의 상대적인 위치를 획득하는 단계 및 상기 적어도 하나의 반사음 각각에 대응하는 상기 가상의 반사 음원의 상대적인 위치를 기초로, 상기 적어도 하나의 반사음을 바이노럴 렌더링하여 상기 출력 오디오 신호를 출력하는 단계를 포함할 수 있다.
또 다른 측면에 따른 컴퓨터로 읽을 수 있는 기록매체는 상술한 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 기록매체를 포함할 수 있다.
본 개시의 일 실시예에 따르면, 가상의 공간의 기하학적 또는 물리적 공간의 특징을 반영하는 공간 음향을 생성하여 가상의 공간에 대한 사용자의 몰입도를 높일 수 있다. 또한, 본 개시의 일 실시예에 따르면, 인터랙티브 기능을 지원하는 바이노럴 공간 음향을 효과적으로 구현할 수 있다.
본 개시의 일 실시예에 따르면, 상대적으로 적은 연산량을 이용하여 사용자의 인터랙티브가 반영된 공간 음향을 재현할 수 있다. 또한, 본 개시의 다른 일 실시예에 따르면, 많은 수의 반사음 성분을 상대적으로 적은 데이터량으로 전송할 수 있다.
도 1은 본 개시의 일 실시예에 따라, 공간 음향이 포함하는 음향 성분을 도시한다.
도 2는 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 입력 오디오 신호를 기초로 입력 오디오 신호에 대응하는 공간 음향을 재현하는 출력 오디오 신호를 생성하는 방법을 도시한다.
도 3은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치의 구성을 나타내는 블록도이다.
도 4는 본 개시의 일 실시예에 따라, 가상 음원, 청취자, 가상의 반사 음원 및 반사면을 포함하는 가상의 공간을 나타내는 도면이다.
도 5는 본 개시의 일 실시예에 따라, 청취자의 시선 방향을 기준으로 후면으로 입사되는 반사음에 적용되는 필터를 나타내는 도면이다.
도 6은 본 개시의 일 실시예에 따라, 청취자의 위치 및 시선 방향을 기준으로 가상의 반사 음원의 상대적인 위치를 나타내는 도면이다.
도 7은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 바이노럴 파라미터 쌍을 이용하여 출력 오디오 신호를 생성하는 방법을 나타내는 블록도이다.
도 8은 본 개시의 일 실시예에 따라, 입력 오디오 신호에 대응하는 가상 음원이 가상의 공간에서 이동하는 경우를 나타내는 도면이다.
도 9는 본 개시의 일 실시예에 따른 오디오 신호 처리 장치의 버퍼의 동작을 나타내는 도면이다.
도 10은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 페이딩을 적용하는 방법을 나타내는 도면이다.
도 11은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 가상 채널을 이용하여 출력 오디오 신호 생성 과정을 나타내는 블록도이다.
도 12는 본 개시의 일 실시예에 따라 가상의 공간에서 청취자의 시선 방향을 기준으로 배열된 복수의 가상 채널을 나타내는 도면이다.
도 13은 본 개시의 일 실시예에 따라 가상 채널 신호로 변환된 하나의 반사음을 나타내는 도면이다.
도 14는 본 개시의 일 실시예에 따라 가상 채널 신호로 변환된 복수의 반사음을 나타내는 도면이다.
도 15은 본 개시의 일 실시예에 따라 가상 채널 신호 별로 전달함수를 적용하는 과정을 나타내는 도면이다.
도 16은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 오브젝트 신호를 앰비소닉 신호로 변환하는 과정을 도시한다.
도 17은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 앰비소닉 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성하는 과정을 도시하는 도면이다.
도 18은 본 개시의 다른 일 실시예에 따른 오디오 신호 처리 장치가 컨트롤 값에 기초하여 공간 음향의 특성을 변경하는 방법을 나타내는 도면이다.
도 19 및 도 20은 본 개시의 다른 일 실시예에 따라 입력 오디오 신호에 대응하는 공간 음향 신호를 생성하는 과정과 공간 음향 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성하는 과정을 포함하는 오디오 신호 처리 시스템을 나타내는 도면이다.
본 명세서에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도, 관례 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한 특정 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 그 의미를 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는, 단순한 용어의 명칭이 아닌 그 용어가 가진 실질적인 의미와 본 명세서의 전반에 걸친 내용을 토대로 해석되어야 함을 밝혀두고자 한다.
본 개시는 오디오 신호 처리 장치가 입력 오디오 신호를 바이노럴 렌더링(binaural rendering)하여 출력 오디오 신호를 생성하는 방법에 관한 것이다. 본 개시의 일 실시예에 따른 오디오 신호 처리 장치 및 방법은 가상의 공간에 위치하고, 입력 오디오 신호에 대응하는 가상 음원(virtual source)을 재현(reproduce)하는 출력 오디오 신호를 생성할 수 있다. 이때, 오디오 신호 처리 장치는 가상 음원을 재현하기 위해 입력 오디오 신호에 대응하는 공간 음향을 생성할 수 있다. 본 개시는 공간 음향을 재현하는 오디오 신호 처리 장치 및 방법에 있어서, 반사음 생성에 요구되는 연산량을 줄이면서 청취자에게 가상의 공간에서의 인터랙티브 기능을 포함하는 바이노럴 렌더링 공간 음향(spatial audio)을 제공할 수 있다.
이하 첨부된 도면을 참조하여 본 발명을 상세히 설명한다.
도 1은 본 개시의 일 실시예에 따라, 공간 음향이 포함하는 음향 성분을 도시한다. 도 1을 참조하면, 공간 음향은 직접음(direct sound)(11) 및 반사음 성분을 포함할 수 있다. 이때, 반사음 성분은 초기 반사음(early reflection)(12) 및 후기 잔향(late reverberation)(13) 성분을 포함할 수 있다. 이때, 반사음은 반사음의 감쇠(attenuation) 정도, 딜레이(delay) 및 반사 차수(reflection order) 중 적어도 하나를 기초로 초기 반사음(12)과 후기 잔향(13)으로 구별될 수 있다. 여기에서, 반사 차수는 특정 반사음이 청취자(30)의 양이에 도달하지 전까지 가상의 공간(10) 내의 반사면(mirror plane)에 반사된 횟수일 수 있다.
도 1에 도시된 바와 같이, 후기 잔향(13)은 초기 반사음(12)에 비해 감쇠 정도가 클 수 있다. 오디오 신호 처리 장치는 기 설정된 감쇠 정도를 기초로 기 설정된 감쇠 정도 이하의 초기 반사음(12)과 기 설정된 감쇠 정도를 초과하는 후기 잔향(13)을 분류할 수 있다. 기 설정된 감쇠 정도는 -15dB 또는 -30dB와 같은 특정 데시벨로 정의될 수도 있다. 또한, 도 1에 도시된 바와 같이 후기 잔향(13)은 초기 반사음(12)에 비해 딜레이가 길 수 있다. 오디오 신호 처리 장치는 기 설정된 딜레이 값을 기초로 기 설정된 딜레이 값 이하의 초기 반사음(12)과 기 설정된 딜레이 값을 초과하는 후기 잔향(13)을 분류할 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치는 기준 반사 차수를 기초로 초기 반사음(12)과 후기 잔향(13)을 분리할 수 있다. 오디오 신호 처리 장치는 기준 반사 차수를 초과하는 반사 차수를 가지는 반사음을 후기 잔향(13)으로 분류하고, 기준 반사 차수 이하의 반사 차수를 가지는 반사음을 초기 반사음(12)으로 분류할 수 있다. 오디오 신호 처리 장치는 가상의 공간(10)에 관련된 공간 정보 및 청취자의 시선 방향을 기초로 기준 반사 차수 이하의 반사 차수를 가지는 초기 반사음(12)을 생성할 수 있다. 또한, 오디오 신호 처리 장치는 공간 정보를 기초로 입력 오디오 신호를 필터링하여 기준 반사 차수를 초과하는 반사 차수를 가지는 후기 잔향(13)을 생성할 수 있다. 또는, 오디오 신호 처리 장치는 가상의 공간(10)에서 기준 반사 차수 이하의 반사 차수를 가지는 반사음 만을 생성할 수도 있다.
이때, 기준 반사 차수는 사용자에 의해 지정된 값 또는 오디오 신호 처리 장치에 저장된 디폴트 값일 수 있다. 또는 오디오 신호 처리 장치는 가상의 공간(10)에 관련된 공간 정보를 기초로 기준 반사 차수를 결정할 수도 있다. 예를 들어, 오디오 신호 처리 장치는 가상의 공간의 크기 정보를 기초로 기준 반사 차수를 결정할 수 있다. 가상의 공간의 크기에 따라 반사 차수에 따른 초기 반사음의 딜레이가 달라질 수 있기 때문이다. 또한, 오디오 신호 처리 장치는 가상의 공간이 포함하는 반사면 개수 정보를 기초로 기준 반사 차수를 결정할 수 있다. 가상의 공간이 포함하는 반사면 개수에 따라 반사 차수에 따른 초기 반사음의 개수가 달라질 수 있기 때문이다. 또한, 오디오 신호 처리 장치는 반사면 각각의 반사율을 기초로 기준 반사 차수를 결정할 수 있다. 반사면 각각의 반사율에 따라 초기 반사음의 감쇠 게인이 달라질 수 있기 때문이다.
또한, 오디오 신호 처리 장치는 프로세서의 프로세싱 성능을 기초로 반사 차수를 결정할 수도 있다. 반사 차수가 증가할수록 반사음 생성을 위한 오디오 신호 처리 장치의 연산량이 증가할 수 있기 때문이다. 여기에서, 오디오 신호 처리 장치의 프로세싱 성능은 오디오 신호 처리 장치가 포함하는 프로세서의 처리 속도를 포함할 수 있다. 반사음 생성을 위한 연산에 할당 가능한 자원은 프로세서의 처리 속도에 따라 제한될 수 있기 때문이다. 또한, 오디오 신호 처리 장치의 프로세싱 성능은 오디오 신호 처리 장치가 포함하는 메모리 또는 GPU의 연산 능력을 포함할 수도 있다. 일 실시예에 따라, 오디오 신호 처리 장치는 가상의 공간(10)이 포함하는 반사면의 개수를 나타내는 반사면 개수 정보 및 프로세서의 프로세싱 성능을 기초로 반사 차수를 결정할 수 있다. 반사 차수가 동일한 경우에도, 가상의 공간(10)이 포함하는 반사면의 개수에 따라 발생하는 반사음의 개수가 달라질 수 있기 때문이다.
청취자(30)는 직접음(11)을 감지하여 가상의 공간(10) 내에서 가상 음원(20)의 위치를 파악할 수 있다. 또한, 청취자(30)는 가상의 공간(10)의 특성에 의해 생성되는 초기 반사음(12) 및 후기 잔향(13)을 감지하여, 가상의 공간(10) 상에서 청취자(30)의 위치와 가상의 공간(10)의 크기 및 특성을 식별할 수 있다. 구체적으로, 청취자(30)는 각각의 초기 반사음(12)이 도달하는 방향과 크기를 통해 가상의 공간의 특성을 인지할 수 있다. 또한, 청취자(30)는 후기 잔향(13)의 에너지(energy) 및 청취자(30) 두 귀에 각각 도달하는 후기 잔향(13)의 레벨 차이(level difference)를 기초로 가상의 공간의 특성을 인지할 수 있다. 후기 잔향(13)은 분산(diffuse)되어 있는 신호일 수 있다. 예를 들어, 후기 잔향(13)은 논디제틱 사운드(non-diegetic sound) 또는 앰비언스 효과(ambience effect)를 나타낼 수 있다.
도 1을 참조하면, 시간 도메인(time domain)에서 초기 반사음(12) 및 후기 잔향(13) 성분은 직접음(11) 성분에 비해 지연되어 있다. 이에 따라, 오디오 신호 처리 장치는 시간 도메인에서 수십 밀리초(milli-seconds)에서 수 초(seconds)의 길이를 가지는 반사음 필터를 이용하여 입력 오디오 신호에 대응하는 반사음을 생성할 수 있다. 이때, 오디오 신호 처리 장치는 반사음을 생성하기 위해 많은 연산 자원 및 메모리(memory)를 소모할 수 있다. 오디오 신호 처리 장치(100)는 반사음 필터를 입력 오디오 신호에 컨벌루션(convolution) 형태로 적용하여 반사음을 생성하기 때문이다.
또한, 직접음(11) 및 초기 반사음(12)은 청취자(30)의 시선 방향 또는 위치에 따라 청취자(30)의 두 귀에서 들리는 오디오 신호가 변화하는 인터랙티비티(interactivity) 특성을 가질 수 있다. 반면, 후기 잔향(13)의 경우에는, 청취자(30)의 시선 방향 또는 위치에 따른 변화량이 직접음(11) 또는 초기 반사음(12)의 변화량에 비해 적을 수 있다. 이에 따라, 청취자(30)의 시선 방향의 변화가 있는 공간 음향 환경에서, 오디오 신호 처리 장치는 청취자의 헤드 트래킹(head tracking)에 따른 인터랙티브를 반영하는 초기 반사음(12)을 생성할 수 있다. 이 경우, 청취자(30)에게 몰입감있는 출력 오디오 신호를 제공하기 위해, 오디오 신호 처리 장치는 청취자(30)의 시선 방향 각각에 대한 반사음 필터를 생성하거나 저장해야 할 수 있다. 본 개시의 일 실시예에 따른, 오디오 신호 처리 장치 및 방법은 반사음 생성에 있어서 요구되는 연산량 및 메모리 소모량을 감소 시킬 수 있다. 오디오 신호 처리 장치가 연산량 측면에 있어서 효율적으로 반사음을 생성하고 바이노럴 렌더링하는 방법에 관하여서는 도 6 내지 도 20을 통해 구체적으로 설명한다.
이하에서는, 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 입력 오디오 신호에 대응하는 가상 음원을 가상의 공간 상에서 재현하는 출력 오디오 신호를 생성하는 방법에 대해 도 2를 참조하여 설명한다. 도 2는 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 입력 오디오 신호를 기초로 입력 오디오 신호에 대응하는 공간 음향을 재현하는 출력 오디오 신호를 생성하는 방법을 도시한다.
본 개시의 일 실시예에 따라, 오디오 신호 처리 장치는 가상의 공간(10)에 관련된 공간 정보를 이용하여 입력 오디오 신호에 대응하는 공간 음향을 생성할 수 있다. 여기에서, 공간 정보는 가상의 공간(10)의 구조적 특성 및 물리적 특성을 나타내는 정보일 수 있다. 예를 들어, 공간 정보는 가상의 공간(10)의 크기(size), 가상의 공간(10)을 정의하는 스케일(scale), 가상의 공간(10)이 포함하는 반사면의 개수, 적어도 하나의 반사면의 위치 및 적어도 하나의 반사면 각각에 대응하는 반사율 중에서 적어도 하나를 포함할 수 있다. 여기에서, 반사율은 음향을 반사하는 반사면이 가지는 구조적 및/또는 물리적 특성을 기초로 결정된 값일 수 있다. 예를 들어, 반사율은 반사면에 수직으로 입사된 평면파가 반사면에 흡수되는 정도를 나타내는 벽면 흡음 계수(wall absorption coefficient)를 포함할 수 있다. 이때, 흡음 계수는 반사면에 대해 기 측정된 결과일 수 있다. 반사율은 반사면을 구성하는 물질에 따라 달라질 수 있다. 또는 반사율은 반사면의 구조에 따라 달라질 수 있다. 입력 오디오 신호에 대응하는 적어도 하나의 반사음은 전술한 초기 반사음 및 후기 잔향 성분을 포함할 수 있다.
도 2를 참조하면, 오디오 신호 처리 장치는 입력 오디오 신호에 대응하는 가상 음원(20) 및 청취자(30)를 포함하는 가상의 공간(10)에 관련된 공간 정보를 획득할 수 있다. 오디오 신호 처리 장치는 후술할 수신부(110)를 통해, 입력 오디오 신호와 함께 공간 정보를 획득할 수 있다. 또는 오디오 신호 처리 장치는 별도의 입력 장치를 통해 가상의 공간(10)과 관련된 공간 정보를 획득할 수도 있다. 또한, 오디오 신호 처리 장치는 각 성분 별로 서로 다른 프로세싱을 통해 공간 음향을 생성할 수 있다. 도 2에 도시된 바와 같이 오디오 신호 처리 장치는 입력 오디오 신호 및 공간 정보를 기초로 초기 반사음(12) 및 후기 잔향(13) 각각을 생성할 수 있다. 또한, 오디오 신호 처리 장치는 생성된 음원을 합성 및/또는 렌더링하여 출력 오디오 신호를 생성할 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치는 청취자(30)를 기준으로 직접음(11)에 대응하는 가상 음원(20)의 상대적인 위치를 기초로 직접음(11)을 바이노럴 렌더링할 수 있다. 오디오 신호 처리 장치는 직접음(11)에 대응하는 가상 음원의 상대적인 위치를 기초로 전달함수 쌍(transfer function pair)을 획득할 수 있다. 이때, 전달함수 쌍은 적어도 하나의 전달함수를 포함할 수 있다. 예를 들어, 전달함수 쌍은 청취자의 양이에 대응하는 한 쌍의 전달함수를 포함할 수 있다. 전달함수 쌍은 동측(ipsilateral) 전달함수 및 대측(contralateral) 전달함수를 포함할 수 있다. 구체적으로, 전달함수 쌍은 동측 귀를 위한 채널에 대응하는 동측 HRTF(Head Related Transfer Function) 및 대측 귀를 위한 채널에 대응하는 대측 HRTF를 포함할 수 있다.
전달함수는 무향실에서 측정된 것일 수 있다. 또한, 전달함수는 시뮬레이션으로 추정된 HRTF에 관한 정보를 포함할 수 있다. HRTF를 추정하는데 사용되는 시뮬레이션 기법은 구형 헤드 모델(Spherical Head Model, SHM), 스노우맨 모델(snowman model), 유한 차이 시간 영역 기법(Finite-Difference Time-Domain Method, FDTDM) 및 경계 요소법(Boundary Element Method, BEM) 중 적어도 하나일 수 있다. 이때, 구형 헤드 모델은 사람의 머리가 구(ball)라고 가정하여 시뮬레이션하는 시뮬레이션 기법을 나타낸다. 또한, 스노우맨 모델은 머리와 몸통을 구로 가정하여 시뮬레이션하는 시뮬레이션 기법을 나타낸다. 전달함수는 IR(Impulse Response)을 고속 푸리에 변환(Fast Fourier Transform)한 것일 수 있으나, 변환 방법은 이에 한정되지 않는다. 본 개시에서, 전달함수는 음원의 바이노럴 렌더링에 이용되는 바이노럴 전달함수를 포함할 수 있다. 전달함수는 HRTF, ITF(Interaural Transfer Function), MITF(Modified ITF), BRTF(Binaural Room Transfer Function), RIR(Room Impulse Response), BRIR(Binaural Room Impulse Response), HRIR(Head Related Impulse Response) 및 이의 변형 및 편집 된 데이터 중 적어도 하나를 포함할 수 있으며, 본 개시는 이에 한정되지 않는다. 예를 들어, 바이노럴 전달함수는 복수의 바이노럴 전달함수를 선형 결합하여 획득한 2차적 바이노럴 전달함수를 포함할 수 있다.
또한, 오디오 신호 처리 장치는 청취자(30)를 기준으로 가상 음원(20)의 상대적인 위치가 변경되는 경우, 전달함수를 갱신하여 직접음(11)을 바이노럴 렌더링할 수 있다. 직접음(11)은 전술한 바와 같이 가상의 공간(10) 상에서 청취자(30)의 시선 방향에 따라 직접음(11)을 나타내는 가상 음원(20)의 상대적인 위치가 이동해야 하기 때문이다. 예를 들어, 직접음(11)을 나타내는 가상 음원(20)의 상대적인 위치는 청취자(30)의 시선 방향과 반대 방향으로 이동할 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치는 입력 오디오 신호 및 공간 정보를 기초로 초기 반사음(12)을 생성할 수 있다. 예를 들어, 오디오 신호 처리 장치는 가상의 반사 음원의 위치를 기초로 초기 반사음(12)을 생성할 수 있다. 본 개시에서, 가상의 반사 음원은 가상의 공간(10)이 포함하는 반사면에 반사된 하나의 반사음에 대응하는 가상의 음원일 수 있다. 오디오 신호 처리 장치는 가상의 반사 음원의 상대적인 위치를 기초로 전달함수 쌍을 획득할 수 있다. 또한, 오디오 신호 처리 장치는 획득한 전달함수 쌍을 기초로 초기 반사음(12)을 바이노럴 렌더링할 수 있다. 여기에서, 가상의 반사 음원의 상대적인 위치는 청취자(30)의 시선 방향 및 위치를 기준으로 하는 가상의 반사 음원의 위치를 나타낼 수 있다. 이때, 오디오 신호 처리 장치는 직접음(11)을 바이노럴 렌더링하는 방법과 관련하여 전술한 실시예에 따라 가상의 반사 음원을 처리할 수도 있다. 이를 통해, 오디오 신호 처리 장치는 청취자에게 현실감 및 몰입도 있는 공간 음향을 제공할 수 있다. 오디오 신호 처리 장치가 반사음을 생성하는 방법과 관련하여서는 후술할 도 4 내지 도 20을 통해 상세하게 설명한다.
본 개시의 일 실시예에 따라, 오디오 신호 처리 장치(100)는 전술한 초기 반사음(12)과 후기 잔향(13)으로 반사음을 구별하여 별도의 프로세스를 통해 생성할 수 있다. 예를 들어, 후술할 도 4 내지 도 18을 통해 설명할 실시예들로 초기 반사음(12)을 생성하고, 별도의 프로세스를 통해 후기 잔향(13)을 생성할 수도 있다. 이하에서는, 후기 잔향(13)을 생성하는 방법에 대해 설명한다.
일 실시예에 따라, 오디오 신호 처리 장치는 가상의 공간(10)과 관련된 공간 정보를 기초로 후기 잔향(13)을 생성할 수 있다. 후기 잔향(13)은 가상의 공간 내에서 청취자(30)의 위치나 시선 방향에 상관없이 들리는 분산된 성분이므로 청취자(30)는 후기 잔향(13)을 통해 가상의 공간(10)의 크기를 식별할 수 있다. 또한, 오디오 신호 처리 장치는 초기 반사음(12)에 비해 딜레이가 큰 필터 형태를 이용하여 후기 잔향(13)을 생성할 수 있다. 후기 잔향(13)은 초기 반사음(12)에 비해 반사 차수가 크기 때문이다. 예를 들어, 오디오 신호 처리 장치는 공간 정보를 기초로 입력 오디오 신호를 필터링하여 후기 잔향(13)을 생성할 수 있다. 구체적으로, 오디오 신호 처리 장치(100)는 반사 차수 및 공간 정보를 기초로 반사 차수에 대응하는 감쇠 게인 및 딜레이를 결정할 수 있다. 또한, 오디오 신호 처리 장치(100)는 반사 차수에 대응하는 감쇠 게인 및 딜레이를 기초로 후기 잔향(13)을 생성할 수 있다. 후기 잔향(13)은 초기 반사음(12)과 달리, 청취자(30)의 헤드 트래킹에 따른 인터랙티브를 반영하지 않을 수 있다. 후기 잔향의 경우, 청취자(30)의 시선 방향에 따른 영향이 초기 반사음에 비해 상대적으로 낮기 때문이다.
도 3은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치(100)의 구성을 나타내는 블록도이다. 일 실시예에 따라, 오디오 신호 처리 장치(100)는 수신부(110), 프로세서(120) 및 출력부(130)를 포함할 수 있다. 그러나 도 1에 도시된 구성 요소 모두가 오디오 신호 처리 장치의 필수 구성 요소인 것은 아니다. 오디오 신호 처리 장치(100)는 도 1에 도시되지 않은 구성 요소를 추가로 포함할 수 있다. 뿐만 아니라 도 1에 도시된 오디오 신호 처리 장치(100)의 구성 요소 중 적어도 일부가 생략될 수도 있다.
수신부(110)는 오디오 신호를 수신할 수 있다. 수신부(110)는 오디오 신호 처리 장치(100)로 입력되는 입력 오디오 신호를 수신할 수 있다. 수신부(110)는 프로세서(120)에 의한 바이노럴 렌더링의 대상이 되는 입력 오디오 신호를 수신할 수 있다. 여기에서, 입력 오디오 신호는 오브젝트 신호 또는 채널 신호 중 적어도 하나를 포함할 수 있다. 이때, 입력 오디오 신호는 1개의 오브젝트 신호 또는 모노 신호일 수 있다. 또는 입력 오디오 신호는 멀티 오브젝트 또는 멀티 채널 신호일 수도 있다. 일 실시예에 따라, 오디오 신호 처리 장치(100)가 별도의 디코더를 포함하는 경우, 오디오 신호 처리 장치(100)는 입력 오디오 신호의 부호화된 비트 스트림을 수신할 수도 있다.
일 실시예에 따라, 수신부(110)는 입력 오디오 신호를 수신하기 위한 수신 수단을 구비할 수 있다. 예를 들어, 수신부(110)는 유선으로 전송되는 입력 오디오 신호를 수신하는 오디오 신호 입력 단자를 포함할 수 있다. 또는 수신부(110)는 무선으로 전송되는 오디오 신호를 수신하는 무선 오디오 수신 모듈을 포함할 수 있다. 이 경우, 수신부(110)는 블루투스(bluetooth) 또는 와이파이(Wi-Fi) 통신 방법을 이용하여 무선으로 전송되는 오디오 신호를 수신할 수 있다.
프로세서(120)는 하나 이상의 프로세서를 구비하여, 오디오 신호 처리 장치(100)의 전반적인 동작을 제어할 수 있다. 예를 들어, 프로세서(120)는 적어도 하나의 프로그램을 실행함으로써, 수신부(110) 및 출력부(130)의 동작을 제어할 수 있다. 또한, 프로세서(120)는 적어도 하나의 프로그램을 실행하여 후술할 도 4 내지 도 20에서 설명되는 오디오 신호 처리 장치(100)의 동작을 수행할 수 있다. 예를 들어, 프로세서(120)는 출력 오디오 신호를 생성할 수 있다. 프로세서(120)는 수신부(110)를 통해 수신된 입력 오디오 신호에 대응하는 반사음을 바이노럴 렌더링하여 출력 오디오 신호를 생성할 수 있다. 프로세서(120)는 후술할 출력부(130)를 통해 생성된 출력 오디오 신호를 출력할 수 있다.
일 실시예에 따라, 출력 오디오 신호는 바이노럴 오디오 신호일 수 있다. 예를 들어, 출력 오디오 신호는 입력 오디오 신호가 3차원 공간에 위치하는 가상의 음원으로 표현되는 2채널 오디오 신호일 수 있다. 프로세서(120)는 후술할 전달함수 쌍을 기초로 바이노럴 렌더링을 수행할 수 있다. 프로세서(120)는 시간 도메인 또는 주파수 도메인 상에서 바이노럴 렌더링을 수행할 수 있다.
일 실시예에 따라, 프로세서(120)는 입력 오디오 신호를 바이노럴 렌더링하여 2 채널 출력 오디오 신호를 생성할 수 있다. 예를 들어, 프로세서(120)는 청취자의 양이에 각각 대응하는 2 채널 출력 오디오 신호를 생성할 수 있다. 이때, 2 채널 출력 오디오 신호는 바이노럴 2 채널 출력 오디오 신호일 수 있다. 프로세서(120)는 전술한 입력 오디오 신호에 대해 바이노럴 렌더링을 수행하여 3차원 상에 표현되는 오디오 헤드폰 신호를 생성할 수 있다.
일 실시예에 따라, 프로세서(120)의 출력 오디오 신호에 대한 포스트 프로세싱이 추가로 수행될 수 있다. 포스트 프로세싱에는 크로스톡 제거, DRC(Dynamic Range Control), 음량 정규화, 피크 제한 등이 포함될 수 있다. 또한, 포스트 프로세싱은 프로세서(120)의 출력 오디오 신호에 대한 주파수/시간 도메인 변환을 포함할 수 있다. 오디오 신호 처리 장치(100)는 포스트 프로세싱을 수행하는 별도의 포스트 프로세싱부를 포함할 수 있으며, 다른 실시예에 따라 포스트 프로세싱부는 프로세서(120)에 포함될 수도 있다.
출력부(130)는 출력 오디오 신호를 출력할 수 있다. 출력부(130)는 프로세서(120)에 의해 생성된 출력 오디오 신호를 출력할 수 있다. 출력부(130)는 적어도 하나의 출력 채널을 포함할 수 있다. 여기에서, 출력 오디오 신호는 청취자의 양이에 각각 대응하는 2 채널 출력 오디오 신호일 수 있다. 출력 오디오 신호는 바이노럴 2 채널 출력 오디오 신호일 수 있다. 출력부(130)는 프로세서(120)에 의해 생성된 3D 오디오 헤드폰 신호를 출력할 수 있다.
일 실시예에 따라, 출력부(130)는 출력 오디오 신호를 출력하는 출력 수단을 구비할 수 있다. 예를 들어, 출력부(130)는 출력 오디오 신호를 외부로 출력하는 출력 단자를 포함할 수 있다. 이때, 오디오 신호 처리 장치(100)는 출력 단자에 연결된 외부 장치로 출력 오디오 신호를 출력할 수 있다. 또는 출력부(130)는 출력 오디오 신호를 외부로 출력하는 무선 오디오 송신 모듈을 포함할 수 있다. 이 경우, 출력부(130)는 블루투스 또는 와이파이와 같은 무선 통신 방법을 이용하여 외부 장치로 출력 오디오 신호를 출력할 수 있다. 또는 출력부(130)는 스피커를 포함할 수 있다. 이때, 오디오 신호 처리 장치(100)는 스피커를 통해 출력 오디오 신호를 출력할 수 있다. 또한, 출력부(130)는 디지털 오디오 신호를 아날로그 오디오 신호로 변환하는 컨버터(예를 들어, digital-to-analog converter, DAC)를 추가적으로 포함할 수 있다.
이하에서는, 본 개시의 일 실시예에 따른 오디오 신호 처리 장치(100)가 반사음을 생성하는 방법에 대해 도 4를 참조하여 설명한다. 도 4는 본 개시의 일 실시예에 따라, 가상 음원(20), 청취자(30), 가상의 반사 음원(40) 및 반사면(50)을 포함하는 가상의 공간(10)을 나타내는 도면이다.
도 4를 참조하면, 가상의 공간(10)은 적어도 하나의 반사면(50)을 포함할 수 있다. 또한, 가상의 공간(10)은 입력 오디오 신호에 대응하는 가상 음원(20) 및 청취자(30)를 포함할 수 있다. 이때, 오디오 신호 처리 장치(100)는 입력 오디오 신호를 기초로 적어도 하나의 반사면(50) 각각에 대응하는 적어도 하나의 반사음을 생성할 수 있다. 오디오 신호 처리 장치(100)는 입력 오디오 신호에 대응하는 가상 음원(20)의 위치 및 가상의 공간(10)에 관련된 공간 정보를 기초로 적어도 하나의 반사면(50) 각각에 대응하는 적어도 하나의 반사음을 생성할 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치(100)는 가상 음원(20)의 위치 및 공간 정보를 기초로 입력 오디오 신호를 필터링하여 적어도 하나의 반사면(50) 각각에 대응하는 적어도 하나의 반사음을 생성할 수 있다. 도 2를 통해 설명한 바와 같이, 공간 정보는 적어도 하나의 반사면(50) 각각에 대응하는 반사율을 포함할 수 있다. 이때, 오디오 신호 처리 장치(100)는 반사율을 기초로 입력 오디오 신호를 필터링하여 적어도 하나의 반사음을 생성할 수 있다. 구체적으로, 오디오 신호 처리 장치(100)는 제1 반사면(51)에 대응하는 제1 반사율을 기초로 입력 오디오 신호의 레벨(level)을 감쇠시켜 제1 반사음을 생성할 수 있다. 음향이 반사면에 반사되는 경우, 반사면이 음향을 흡수하여 반사음의 레벨이 감쇠되기 때문이다.
또한, 일 실시예에 따라, 오디오 신호 처리 장치(100)는 적어도 하나의 반사음 각각에 대응하는 적어도 하나의 가상의 반사 음원(40)을 가상의 공간(10)에 배치할 수 있다. 오디오 신호 처리 장치(100)는 가상 음원(20)의 위치 및 공간 정보를 기초로 적어도 하나의 가상의 반사 음원(40) 각각이 배치되는 위치 정보를 획득할 수 있다. 가상의 반사 음원(40)의 위치는 가상의 공간(10)에서의 위치를 나타낼 수 있다. 이때, 오디오 신호 처리 장치(100)는 반사음 모델링 방법을 이용할 수 있다. 예를 들어, 반사음 모델링 방법은 이미지 소스 방법(image source method) 또는 광선 추적법(ray tracing)을 포함할 수 있다. 예를 들어, 제1 가상의 반사 음원(41)의 위치는 대응하는 제1 반사면(51)을 기준으로 가상 음원(20)의 위치와 대칭일 수 있다. 도 1을 참조하면, 제1 가상의 반사 음원(41)과 가상 음원(20)은 제1 반사면(51)에 수직인 직선에서 제1 반사면(51)으로부터 동일한 거리에 위치될 수 있다. 그러나, 이에 제한되는 것은 아니다. 예를 들어, 입력 오디오 신호가 복수의 반사면(50)에 반사되어 생성된 반사음은 하나의 반사면(50)을 기준으로 가상 음원(20)의 위치와 대칭이 아닐 수도 있다.
일 실시예에 따라, 적어도 하나의 가상의 반사 음원(40) 각각은 반사면(50)에 따라 서로 다른 감쇠 게인(attenuation gain) 및 딜레이(delay)를 가지는 가상의 음원일 수 있다. 이때, 오디오 신호 처리 장치(100)는 적어도 하나의 가상의 반사 음원(40) 각각이 가지는 감쇠 게인 및 딜레이를 기초로 입력 오디오 신호를 필터링하여 적어도 하나의 반사음을 생성할 수 있다. 감쇠 게인 및 딜레이는 사용자 정의(user-defined)에 따라 설정된 값일 수도 있다. 또는 감쇠 게인은 가상 음원과 반사면 사이의 거리 및 반사면의 물리적인 특성에 따라 지정될 수 있다. 오디오 신호 처리 장치(100)는 전술한 반사율을 기초로 가상의 반사 음원(40) 각각에 대응하는 감쇠 게인을 결정할 수 있다. 또한, 오디오 신호 처리 장치(100)는 가상의 반사 음원(40)의 위치 및 청취자(30)의 위치를 기초로 거리에 따른 감쇠 게인 및 딜레이를 획득할 수 있다. 오디오 신호 처리 장치(100)는 가상의 반사 음원(40) 각각과 청취자(30) 사이의 거리를 기초로, 적어도 하나의 반사면(50) 각각에 대응하는 감쇠 게인 및 딜레이를 결정할 수 있다. 또한, 오디오 신호 처리 장치(100)는 전술한 방법으로 결정된 감쇠 게인 및 딜레이를 기초로 입력 오디오 신호를 필터링하여 반사음을 생성할 수 있다.
본 개시의 일 실시예에 따라, 오디오 신호 처리 장치(100)는 적어도 하나의 반사음 각각에 대응하는 가상의 반사 음원(40)의 상대적인 위치를 기초로 출력 오디오 신호를 생성할 수 있다. 여기에서, 가상의 반사 음원(40)의 상대적인 위치는 청취자(30)의 시선 방향 및 위치를 기준으로 하는 가상의 반사 음원의 위치를 나타낼 수 있다. 오디오 신호 처리 장치(100)는 적어도 하나의 반사음 각각에 대응하는 가상의 반사 음원(40)의 위치 및 청취자(30)의 시선 방향 정보를 기초로, 청취자의 위치 및 시선 방향을 기준으로 하는 가상의 반사 음원(40)의 상대적인 위치를 획득할 수 있다. 또한, 오디오 신호 처리 장치(100)는 가상의 반사 음원(40)의 상대적인 위치를 기초로 적어도 하나의 반사음을 바이노럴 렌더링하여 출력 오디오 신호를 생성할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 가상의 반사 음원(40)의 상대적인 위치를 기초로 획득한 전달함수 쌍을 이용하여 출력 오디오 신호를 생성할 수도 있다.
오디오 신호 처리 장치(100)는 오브젝트 바이노럴 렌더링, 채널 바이노럴 렌더링 및 앰비소닉 바이노럴 렌더링 중 적어도 하나를 포함하는 방법으로 적어도 하나의 반사음을 바이노럴 렌더링하여 출력 오디오 신호를 생성할 수 있다. 오디오 신호 처리 장치(100)가 오브젝트 바이노럴 렌더링을 이용하여 출력 오디오 신호를 생성하는 방법에 대해서는 후술할 도 6 내지 도 10을 통해 상세하게 설명한다. 또한, 오디오 신호 처리 장치(100)가 채널 바이노럴 렌더링을 이용하여 출력 오디오 신호를 생성하는 방법에 대해서는 후술할 도 11 내지 도 15을 통해 상세하게 설명한다. 또한, 오디오 신호 처리 장치(100)가 채널 바이노럴 렌더링을 이용하여 출력 오디오 신호를 생성하는 방법에 대해서는 후술할 도 16 내지 도 20을 통해 상세하게 설명한다.
한편, 바이노럴 렌더링된 오디오 신호의 경우, 청취자를 기준으로 전면 또는 후면으로 입사되는 음향에 대한 위치를 정의하는 음상 정위 성능이 감소할 수 있다. 예를 들어, 청취자는 청취자 시선 방향에서 정면으로 입사되는 제1 오디오 신호에 대응하는 제1 가상 음원의 위치와 후면으로 입사되는 제2 오디오 신호에 대응하는 제2 가상 음원의 위치를 구별하지 못할 수 있다. 제1 오디오 신호의 양이간 레벨 차이(interaural level difference, ILD) 및 양이간 시간 차이(interaural time difference, ITD)가 제2 오디오 신호의 양이간 레벨 차이 및 양이간 시간 차이와 동일하기 때문이다. 반사음의 경우에도, 바이노럴 렌더링 시 동일한 문제가 발생할 수 있다. 본 개시의 일 실시예에 따른 오디오 신호 처리 장치(100)는 적어도 하나의 반사음 각각에 대응하는 전달함수의 주파수 특성을 모델링하여 출력 오디오 신호를 생성할 수 있다. 이를 통해, 오디오 신호 처리 장치(100)는 앞뒤 방향의 음상 정위 성능을 연산량 측면에서 효율적으로 증가시킬 수 있다.
본 개시의 일 실시예에 따른 오디오 신호 처리 장치(100)는 반사음이 청취자에게 입사되는 입사 각도를 이용하여 반사음을 생성할 수 있다. 청취자에게 입사되는 음향의 주파수 특성은 입사 각도에 따라 다를 수 있기 때문이다. 예를 들어, 오디오 신호 처리 장치(100)는 적어도 하나의 반사음 각각에 대응하는 가상의 반사 음원의 상대적인 위치를 기초로 스펙트럼 변경 필터를 획득할 수 있다. 여기에서, 스펙트럼 변경 필터는 청취자에게 반사음이 입사되는 입사 각도에 따라 반사음의 주파수 도메인에서의 특성을 변경시키는 필터일 수 있다. 스펙트럼 변경 필터는 청취자에게 입사되는 음향의 입사 각도에 따라, 입사되는 음향의 기 설정된 주파수 특성을 모델링한 필터일 수 있다. 이때, 기 설정된 주파수 특성은 오디오 신호 처리 장치(100) 또는 외부의 장치에 의해 측정된 특성일 수 있다. 예를 들어, 스펙트럼 변경 필터는 특정 입사 각도로 입사되는 반사음에 대응하는 전달함수의 주파수 특성을 모델링한 필터일 수 있다. 오디오 신호 처리 장치(100)는 오디오 신호 처리 장치(100)와 연결된 외부 장치로부터 기 생성된 스펙트럼 변경 필터를 획득할 수도 있다. 이때, 오디오 신호 처리 장치(100)는 가상의 반사 음원의 상대적인 위치를 기초로 스펙트럼 변경 필터를 요청할 수 있다. 또한, 오디오 신호 처리 장치(100)는 획득된 스펙트럼 변경 필터를 기초로 필터링된 적어도 하나의 반사음을 바이노럴 렌더링하여 출력 오디오 신호를 생성할 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치(100)는 청취자의 시선 방향을 기준으로 전면(front)으로 입사되는 반사음 그룹 및 후면(back)으로 입사되는 반사음 그룹 각각에 대응하는 특정 스펙트럼 변경 필터를 획득할 수 있다. 오디오 신호 처리 장치(100)는 청취자의 시선 방향을 기준으로 전면에 포함된 입사 각도 중 어느 하나에 대응하는 제1 스펙트럼 변경 필터 및 청취자의 시선 방향을 기준으로 후면에 포함된 입사 각도 중 어느 하나에 대응하는 제2 스펙트럼 변경 필터를 획득할 수 있다. 이 경우, 오디오 신호 처리 장치(100)는 가상의 반사 음원의 상대적인 위치, 제1 스펙트럼 변경 필터 및 제2 스펙트럼 변경 필터를 기초로 적어도 하나의 반사음 각각에 대응하는 스펙트럼 변경 필터를 생성할 수 있다. 예를 들어, 제2 스펙트럼 변경 필터는 제1 스펙트럼 변경 필터에 비해 고주파수 대역의 출력을 감쇠시키는 필터일 수 있다. 구체적으로, 제1 스펙트럼 변경 필터는 오디오 신호 처리 장치(100)는 청취자의 시선 방향의 정면으로 입사되는 반사음에 대응하는 필터일 수 있다. 또한, 제2 스펙트럼 변경 필터는 정면을 기준으로 180도 방향으로 입사되는 반사음에 대응하는 필터일 수 있다.
예를 들어, 제2 스펙트럼 변경 필터는 고역 쉘빙 필터(high shelving filter)일 수 있다. 고역 쉘빙 필터는 기 설정된 주파수를 기준으로 기 설정된 주파수보다 높은 주파수 영역에 있는 신호 성분의 크기를 감쇠시키는 필터일 수 있다. 입력 오디오 신호에 고역 쉘빙 필터를 적용하는 경우, 기 설정된 주파수를 기준으로 기 설정된 주파수보다 낮은 주파수 영역에 있는 신호 성분의 크기를 입력 오디오 신호와 동일하게 유지될 수 있다. 청취자의 시선 방향을 기준으로 후면으로 입사되는 오디오 신호는 청취자의 귓볼과 귓바퀴(pinna)의 영향으로 고주파 대역이 감쇠되는 특성이 있기 때문이다. 또한, 제1 스펙트럼 변경 필터는 주파수 도메인에서 크기 성분이 플랫한 형태의 필터일 수 있다. 청취자의 시선 방향을 기준으로 후면으로 입사되는 오디오 신호에 비해 일부 주파수 대역이 감쇠되는 요인이 상대적으로 적기 때문이다.
또한, 오디오 신호 처리 장치(100)는 제1 스펙트럼 변경 필터 및 제2 스펙트럼 변경 필터에 대응하는 입사 각도가 아닌 다른 방향으로 입사되는 적어도 하나의 반사음 각각에 대응하는 스펙트럼 변경 필터를 생성할 수도 있다. 예를 들어, 오디오 신호 처리 장치(100)는 제2 스펙트럼 변경 필터가 고주파 대역을 감쇠시키는 정도를 변경하여 제3 스펙트럼 변경 필터를 생성할 수 있다. 또한, 오디오 신호 처리 장치(100)는 제3 스펙트럼 변경 필터를 기초로 반사음을 필터링하여 출력 오디오 신호를 생성할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 가상의 반사 음원의 상대적인 위치를 기초로, 제1 스펙트럼 변경 필터 및 제2 스펙트럼 변경 필터를 가중합(weighted sum)하여 적어도 하나의 반사음 각각에 대응하는 스펙트럼 변경 필터를 생성할 수 있다.
구체적으로, 오디오 신호 처리 장치(100)는 가상의 반사 음원의 상대적인 위치를 기초로 반사음이 청취자의 전면으로 입사되는 경우, 제2 스펙트럼 변경 필터보다 제1 스펙트럼 변경 필터에 상대적으로 높은 가중치를 적용하여 제3 스펙트럼 변경 필터를 생성할 수 있다. 반대로 오디오 신호 처리 장치(100)는 가상의 반사 음원의 상대적인 위치를 기초로 반사음이 청취자의 후면으로 입사되는 경우, 제1 스펙트럼 변경 필터보다 제2 스펙트럼 변경 필터에 상대적으로 높은 가중치를 적용하여 제4 스펙트럼 변경 필터를 생성할 수 있다. 또한, 오디오 신호 처리 장치(100)는 적어도 하나의 반사음 각각에 대응하는 스펙트럼 변경 필터를 기초로 필터링된 반사음을 바이노럴 렌더링하여 출력 오디오 신호를 생성할 수 있다. 이때, 스펙트럼 변경 필터의 가중합으로 인한 에너지 레벨 증가를 고려하여 에너지 보상 처리가 함께 수행될 수 있다. 본 개시에서, 제1 스펙트럼 변경 필터와 제2 스펙트럼 변경 필터를 각각 전면 및 후면 방향으로 입사되는 반사음에 대응하는 필터로 설명하였으나, 본 개시가 이에 제한되는 것은 아니다.
일 실시예에 따라, 오디오 신호 처리 장치(100)는 기 설정된 변경 필터의 개수를 기초로 기 설정된 범위 내의 입사 각도 각각에 대응하는 복수의 스펙트럼 변경 필터를 획득할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 주파수 특성에 따라 적어도 하나의 반사음을 기 설정된 변경 필터의 개수로 그룹화 할 수 있다. 또한, 오디오 신호 처리 장치(100)는 그룹별로 서로 다른 스펙트럼 변경 필터를 기초로 각각의 그룹에 포함된 적어도 하나의 반사음을 필터링하여 출력 오디오 신호를 생성할 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치(100)는 가상의 반사 음원의 상대적인 위치를 기초로 적어도 하나의 반사음 각각에 대한 스펙트럼 변경 필터의 적용 여부를 결정할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 스펙트럼 변경 필터를 적용하는 제1 그룹과 스펙트럼 변경 필터를 적용하지 않는 제2 그룹으로 분류할 수 있다. 또한, 오디오 신호 처리 장치(100)는 제2 그룹에 포함된 적어도 하나의 반사음에 대해 스펙트럼 변경 필터를 적용할 수 있다. 이때, 스펙트럼 변경 필터는 전술한 고역 쉘빙 필터일 수 있다.
또한, 오디오 신호 처리 장치(100)는 제2 그룹에 포함된 적어도 하나의 반사음 각각을 세 분류 그룹으로 분류할 수 있다. 오디오 신호 처리 장치(100)는 하나의 반사음에 대응하는 가상의 반사 음원의 상대적인 위치를 기준으로 하나의 반사음의 세 분류 그룹을 결정할 수 있다. 또한, 오디오 신호 처리 장치(100)는 반사음의 세 분류 그룹을 기초로 고역 쉘빙 필터의 감쇠 정도 및 기준 주파수 중 적어도 하나를 결정할 수 있다. 오디오 신호 처리 장치(100)는 결정된 감쇠 정도 및 기준 주파수를 기초로 필터링된 반사음을 바이노럴 렌더링하여 출력 오디오 신호를 생성할 수 있다.
또한, 오디오 신호 처리 장치(100)는 적어도 하나의 반사음 각각을 청취자를 기준으로 전면으로 입사되는 반사음을 포함하는 제3 그룹과 청취자를 기준으로 후면으로 입사되는 반사음을 포함하는 제4 그룹으로 분리할 수 있다. 오디오 신호 처리 장치(100)는 가상의 반사 음원의 상대적인 위치를 기초로, 적어도 하나의 반사음 각각을 제3 그룹과 제4 그룹으로 분리할 수 있다. 또한, 오디오 신호 처리 장치(100)는 제3 그룹이 포함하는 반사음과 상기 제4 그룹이 포함하는 반사음을 각각 서로 다른 필터를 기초로 필터링하여 출력 오디오 신호를 생성할 수 있다. 이때, 제3 그룹에 대응하는 스펙트럼 변경 필터는 전술한 제1 스펙트럼 변경 필터일 수 있다. 또한, 제4 그룹에 대응하는 스펙트럼 변경 필터는 전술한 제2 스펙트럼 변경 필터일 수 있다.
도 5는 본 개시의 일 실시예에 따라, 청취자의 시선 방향을 기준으로 후면으로 입사되는 반사음에 적용되는 필터를 나타내는 도면이다. 도 5에서 501은 청취자의 시선 방향인 정면을 기준으로 180도 방향으로 입사되는 반사음에 대응하는 스펙트럼 변경 필터(501)를 나타낸다. 또한, 502는 스펙트럼 변경 필터(501)를 적용하기 전 반사음의 스펙트럼(502)을 나타내고, 503은 스펙트럼 변경 필터(501)를 적용한 후 반사음의 스펙트럼(503)을 나타낸다. 도 5를 참조하면, 고주파수 영역에서 스펙트럼 변경 필터(501)를 적용하기 전 반사음의 스펙트럼(502)에 비해 적용한 후 반사음의 스펙트럼(503)의 크기 성분이 낮게 나타난다. 도 5에서 이용된 스펙트럼 변경 필터(501)는 전술한 고역 쉘빙 필터를 나타내기 때문이다.
일 실시예에 따라, 오디오 신호 처리 장치(100)는 좌우 채널 신호에 동일한 스펙트럼 변경 필터를 적용할 수 있다. 이 경우, 오디오 신호 처리 장치(100)는 바이노럴 렌더링 과정의 입력 신호 또는 출력 신호에 스펙트럼 변경 필터를 적용하여 출력 오디오 신호를 생성할 수 있다. 가상의 반사 음원의 방향에 따라 정밀하게 바이노럴 특징을 적용시키는 경우, 오디오 신호 처리 장치(100)는 좌우 채널 각각에 대응하는 서로 다른 스펙트럼 변경 필터를 기초로 출력 오디오 신호를 생성할 수 있다. 일 실시예에 따라, 오디오 신호 처리 장치(100)는 스펙트럼 변경 필터를 바이노럴 렌더링된 반사음에 적용할 수도 있다. 예를 들어, 바이노럴 렌더링된 반사음은 청취자의 양이 각각에 대응하는 좌측 반사음 신호 및 우측 반사음 신호로 분리될 수 있다. 이때, 오디오 신호 처리 장치(100)는 좌측 반사음 신호 및 우측 반사음 신호 각각에 서로 다른 스펙트럼 변경 필터를 적용할 수 있다. 청취자의 시선 방향을 기준으로 측면에서 입사되는 반사음의 경우, 좌측 반사음 신호와 우측 반사음 신호의 주파수 특성이 서로 다를 수 있기 때문이다.
도 6은 본 개시의 일 실시예에 따라, 청취자(30)의 위치 및 시선 방향을 기준으로 가상의 반사 음원(40)의 상대적인 위치를 나타내는 도면이다. 도 6을 참조하면, 가상의 반사 음원(40)으로부터 청취자(30)의 좌우 귀까지 도달하는 응답 경로(acoustic path)는 반사음의 방향 및 거리 그리고 청취자의 머리에 의한 머리 가려짐(head shadowing) 효과가 더해져 결정된다. 이와 같은 응답 경로는 기 측정된 전달함수를 통해 구현될 수 있다. 반사면 각각에 대응하는 각각의 반사음을 직접음과 같은 방법으로 전달함수 쌍을 이용하여 바이노럴 렌더링하는 경우 반사음의 개수에 따라 연산량이 크게 늘어나게 된다. 전달함수 쌍을 이용하는 경우, 시간 도메인에서 컨볼루션(convolution) 형태로 적용되거나 주파수 도메인에서 구현되는 경우에도 FFT/IFFT(fast fourier transform/ inverse fast fourier transform)의 연산이 필요하기 때문이다. 이에 따라, 오디오 신호 처리 장치(100)는 과도한 연산량으로 인해 청취자(30)에게 몰입감있는 출력 오디오 신호를 제공하지 못할 수 있다. 또한, 오디오 신호 처리 장치(100)는 청취자(30)와 가상 음원(20) 사이의 위치 관계의 변화 또는 가상의 공간(10)의 변화로 인한 공간 음향의 변화를 제공하지 못할 수 있다.
본 개시의 일 실시예에 따른 오디오 신호 처리 장치(100)는 전달함수를 기초로 획득된 바이노럴 파라미터 쌍(binaural parameter pair)을 이용하여 출력 오디오 신호를 생성할 수 있다. 여기에서, 바이노럴 파라미터 쌍은 전달함수에 기초하여 근사화된 감쇠 게인 및 딜레이를 포함할 수 있다. 예를 들어, 바이노럴 파라미터 쌍은 동측 바이노럴 파라미터 및 대측 바이노럴 파라미터를 포함할 수 있다. 또한, 동측 및 대측 바이노럴 파라미터 각각은 감쇠 게인 및 딜레이를 각각 포함할 수 있다. 즉, 동측 바이노럴 파라미터는 동측 감쇠 게인 및 동측 딜레이를 포함하고, 대측 바이노럴 파라미터는 대측 감쇠 게인 및 대측 딜레이를 포함할 수 있다.
이를 통해, 오디오 신호 처리 장치(100)는 전달함수를 그대로 이용하는 경우에 비해 적은 연산량으로 반사음을 바이노럴 렌더링하여 출력 오디오 신호를 생성할 수 있다. 또한, 오디오 신호 처리 장치(100)는 전달함수를 그대로 이용하는 경우에 비해 적은 메모리 소모량으로 출력 오디오 신호를 생성할 수 있다. 이하에서는, 본 개시의 일 실시예에 따른 오디오 신호 처리 장치(100)가 바이노럴 파라미터 쌍을 이용하여 출력 오디오 신호를 생성하는 방법에 관해, 도 7을 참조하여 설명한다.
도 7은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치(100)가 바이노럴 파라미터 쌍을 이용하여 출력 오디오 신호를 생성하는 방법을 나타내는 블록도이다. 블록 701에서, 본 개시의 일 실시예에 따른 오디오 신호 처리 장치(100)는 전달함수를 기초로 적어도 하나의 반사음 각각에 대응하는 바이노럴 파라미터 쌍을 획득할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 가상의 반사 음원(40)의 상대적인 위치를 기초로 적어도 하나의 반사음 각각에 대응하는 전달함수를 획득할 수 있다. 이때, 오디오 신호 처리 장치(100)는 도 4를 통해 전술한 실시예들에 따라 가상의 반사 음원(40)의 상대적인 위치를 획득할 수 있다. 또한, 하나의 반사음에 대응하는 전달함수는 하나의 반사음에 대응하는 전달함수 쌍을 포함할 수 있다. 또는 하나의 반사음에 대응하는 전달함수는 전달함수 쌍 중에서 하나의 전달함수 및 다른 하나의 전달함수를 도출하기 위한 추가적인 파라미터를 포함할 수도 있다.
구체적으로, 오디오 신호 처리 장치(100)는 청취자(30)의 시선 방향을 기준으로 가상의 반사 음원(40)의 상대적인 위치를 나타내는 앙각(elevation, θ) 및 방위각(azimuth, φ)을 획득할 수 있다. 또한, 오디오 신호 처리 장치(100)는 앙각 및 방위각을 기초로 적어도 하나의 반사음 각각에 대응하는 전달함수를 획득할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 복수의 전달함수를 포함하는 데이터 베이스(data base)로부터 적어도 하나의 반사음 각각에 대응하는 전달함수를 수신할 수 있다. 이때, 오디오 신호 처리 장치(100)는 데이터 베이스로 전달함수를 요청하고, 데이터 베이스로부터 전달함수에 대한 정보를 수신하는 별도의 통신부(미도시)를 포함할 수도 있다. 또는 오디오 신호 처리 장치(100)는 오디오 신호 처리 장치(100)에 저장된 전달함수 세트를 기초로 적어도 하나의 반사음 각각에 대응하는 전달함수를 획득할 수도 있다.
또한, 오디오 신호 처리 장치(100)는 획득한 전달함수의 적어도 일부분을 기초로 적어도 하나의 반사음 각각에 대응하는 바이노럴 파라미터 쌍을 획득할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 전달함수의 크기 성분의 평균(mean)을 기초로 바이노럴 파라미터 쌍을 획득할 수 있으나, 이에 제한되는 것은 아니다. 예를 들어, 오디오 신호 처리 장치(100)는 전달함수의 크기 성분의 중앙값(median)을 기초로 바이노럴 파라미터 쌍을 획득할 수도 있다. 또한, 오디오 신호 처리 장치(100)는 주파수 도메인에서 일부 주파수 빈에 대응하는 전달함수의 크기 성분을 이용할 수 있다. 또는 오디오 신호 처리 장치(100)는 전달함수를 시간 도메인(time domain)에서 나타내는 임펄스 응답(HRIR)의 적어도 일부분을 기초로 바이노럴 파라미터 쌍을 획득할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 임펄스 응답의 적어도 일부 시간 구간에서의 평균값, 중앙값, 최대값 또는 최소값 중 어느 하나를 이용할 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치(100)는 전달함수의 적어도 일부분 및 양이간 레벨 차이를 기초로 적어도 하나의 반사음 각각에 대응하는 동측 감쇠 게인 및 대측 감쇠 게인을 획득할 수 있다. 구체적으로, 오디오 신호 처리 장치(100)는 전달함수의 크기 성분의 평균을 동측 및 대측 중 어느 하나에 대한 감쇠 게인으로 사용하고, 양이간 레벨 차이를 기초로 나머지 측의 감쇠 게인을 결정할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 전달함수를 기초로, 동측과 대측 사이의 소리 크기의 차이를 나타내는 양이간 레벨 차이(ILD)를 획득할 수 있다. 구체적으로, 양이간 레벨 차이(ILD)는 청취자(30)의 좌측 및 우측 귀 사이에서 머리 가려짐(head shadowing)에 의한 음향 레벨 차이를 나타낼 수 있다. 양이간 레벨 차이(ILD)는 [수학식 1]와 같이, 우측 전달함수를 나타내는 임펄스 응답(HRIR_R) 및 좌측 전달함수를 나타내는 임펄스 응답(HRIR_L) 간의 평균 에너지의 비(ratio)를 기초로 결정될 수 있다. [수학식 1]에서 E{X^2}는 X의 평균 에너지를 나타낸다. 양이간 레벨 차이는 [수학식 1]과 달리, 전술한 전달함수의 적어도 일부분에 대한 크기 성분의 평균, 중앙값을 기초로 결정될 수도 있다.
[수학식 1]
ILD = E{HRIR_R[n]^2} / E{HRIR_L[n]^2}
일 실시예에 따라, 제1 반사음에 대응하는 제1 가상의 반사 음원의 상대적인 위치가 청취자(30)의 좌측에 있는 경우, 오디오 신호 처리 장치(100)는 좌측 전달함수를 기초로 동측에 해당하는 좌측 감쇠 게인을 결정할 수 있다. 또한, 오디오 신호 처리 장치(100)는 좌측 전달함수 및 양이간 레벨 차이를 기초로 대측에 해당하는 우측 감쇠 게인을 결정할 수 있다. 반대로, 제2 반사음에 대응하는 제2 가상의 반사 음원의 상대적인 위치가 청취자(30)의 우측에 있는 경우, 오디오 신호 처리 장치(100)는 우측 전달함수를 기초로 동측에 해당하는 우측 감쇠 게인을 결정할 수 있다. 또한, 오디오 신호 처리 장치(100)는 우측 전달함수 및 양이간 레벨 차이를 기초로 대측에 해당하는 좌측 감쇠 게인을 결정할 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치(100)는 양이간 시간 차이를 기초로 적어도 하나의 반사음 각각에 대응하는 동측 딜레이 및 대측 딜레이를 획득할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 전달함수를 기초로 양이간 시간 차이(ITD)를 획득할 수 있다. 이때, 양이간 시간 차이(ITD)는 동일한 음원으로부터 청취자의 동측과 대측 각각에 대해 음향이 도달하는 시간의 차이를 나타낼 수 있다. 구체적으로, 오디오 신호 처리 장치(100)는 동측 전달함수 및 대측 전달함수를 기초로 양이간 시간 차이를 결정할 수 있다. 또한, 오디오 신호 처리 장치(100)는 [수학식 2]와 같이 좌측과 우측의 상호 상관도를 기초로 양이간 시간 차이(ITD)를 결정할 수 있다.
[수학식 2]
ITD = argmax_d{Psi(n,d)}
[수학식 2]에서 argmax_d(f(n,d))는 f(n,d)가 최대일 때 'd' 값을 나타낼 수 있다. 또한, Psi(n,d)는 좌측 전달함수(HRIR_L)와 우측 전달함수(HRIR_R) 사이의 상호 상관도(cross-correlation coefficient)를 나타낼 수 있다. Psi(n,d)은 [수학식 3]과 같이 계산될 수 있다. [수학식 3]에서 sqrt[x]는 'x'의 제곱근을 나타낸다.
[수학식 3]
Psi(n,d) = E{HRIR_L(n)*HRIR_R(n-d)} / sqrt[E{HRIR_L(n)^2}* E{HRIR_R(n)^2}]
[수학식 3]에서 E{x} 은 좌측 전달함수를 나타내는 임펄스 응답(HRIR_L) 및 우측 전달함수를 나타내는 임펄스 응답(HRIR_R) 각각의 샘플(n)에 대한 평균을 나타낸다. 예를 들어, 가상의 반사 음원이 청취자(30)를 기준으로 정면에 위치하는 경우, 청취자의 양이에 도달하는 지연 시간의 차이가 상대적으로 작을 수 있다. 이 경우, 상호 상관도 Psi(n,d)는 d가 0일 때, 최대값 1에 가까운 값이 될 수 있다. 또한, 가상의 반사 음원이 청취자(30)의 측면에 위치하는 경우, d값이 0보다 커지거나 작아지고 Psi(n,d)가 최대가 될 때의 d값이 양이간 시간 차이가 된다.
블록 702에서, 본 개시의 일 실시예에 따른 오디오 신호 처리 장치(100)는 블록 701에서 획득한 바이노럴 파라미터 쌍 및 공간 정보를 기초로 근사화된 임펄스 모델 쌍(simplified impulse model pair)을 획득할 수도 있다. 이 경우, 오디오 신호 처리 장치(100)는 근사화된 임펄스 모델 쌍을 기초로 입력 오디오 신호를 바이노럴 렌더링하여 적어도 하나의 반사음을 포함하는 출력 오디오 신호를 생성할 수 있다. 근사화된 임펄스 모델 쌍은 [수학식 4]와 같이 감쇠 게인 및 딜레이를 포함할 수 있다.
[수학식 4]
h1L(n) = a_L(r,theta,phi) * delta(n - d_L(r,theta,phi))
h1R(n) = a_R(r,theta,phi) * delta(n - d_R(r,theta,phi))
[수학식 4]에서 a_L 및 a_R은 가상의 반사 음원(40)의 상대적인 위치를 나타내는 앙각(theta), 방위각(phi) 및 청취자(30)와 가상의 반사 음원(40) 사이의 거리(r)에 의한 감쇠 게인을 나타낸다. 또한, d_L과 d_R은 샘플 딜레이(sample delay)를 나타낸다. [수학식 4]에서 샘플 딜레이 d_L과 d_R은 가상의 반사 음원과 청취자 사이의 거리(r) 및 소리의 전파 속도를 기초로 결정될 수 있다. 또한, 대측 딜레이의 경우, 전술한 양이간 시간 차이로 인한 딜레이가 추가될 수 있다. [수학식 4]에서 delta(n) 는 델타(delta) 함수를 나타낼 수 있다. 구체적으로, 델타 함수는 크로네커 델타(Kronecker delta) 함수일 수 있다. 크로네커 델타 함수는 n=0에서 크기가 '1'인 단위 임펄스 함수를 포함할 수 있다. [수학식 4]의 a_L과 a_R은 [수학식 5]와 같이 계산될 수 있다. [수학식 5]에서 sqrt(x)는 x의 제곱근을 나타낼 수 있다.
[수학식 5]
a_L = g*sqrt(E{HRIR_L^2}) / r
a_R = sqrt(ILD) * a_L
또는,
a_L = sqrt(1 / ILD) * a_R
a_R = g*sqrt(E{HRIR_R^2}) / r
[수학식 5]에서 g는 반사면의 반사율에 의한 감쇠 게인을 나타낼 수 있다. 예를 들어, 반사율에 의한 감쇠 게인(g)은 기 설정된 범위를 가지는 정수 또는 소수를 통해 표현될 수 있다. 예를 들어, 반사율에 의한 감쇠 게인(g)은 0에서 1 사이의 값을 가질 수 있다. 이때, 반사율에 의한 감쇠 게인(g)이 0에 가까울수록 반사면의 소리 흡수율이 높은 것을 나타낼 수 있다. 또한, 반사율에 의한 감쇠 게인(g)이 1인 경우 반사면에 대한 완전 반사를 나타낼 수 있다. 반사 차수가 2차 이상인 경우, 오디오 신호 처리 장치(100)는 반사율을 곱의 형태로 누적하여 반사율에 의한 감쇠 게인(g)을 결정할 수 있다. 예를 들어, 반사 차수가 n차 이고 반사율이 h인 경우, 감쇠 게인(g)은 h^n일 수 있다.
또한, 오디오 신호 처리 장치(100)는 가상의 반사 음원(40)과 청취자(30) 사이의 거리(r)를 기초로 감쇠 게인을 결정할 수 있다. 예를 들어, 거리에 의한 감쇠 게인은 1/r일 수 있다. [수학식 5]에서 1/r은 다른 거리 감쇠 모델로 대체될 수도 있다. 또한, 대측 감쇠 게인의 경우, 전술한 양이간 레벨 차이로 인한 감쇠가 추가될 수 있다.
또한, [수학식 5]에서 E{x} 은 x의 평균(expectation)을 나타낸다. 오디오신호 처리 장치(100)는 전술한 바와 같이 전달함수(HRIR_L 또는 HRIR_R)의 크기의 평균을 기초로 바이노럴 파라미터 쌍을 생성할 수 있다. 또한, 오디오 신호 처리 장치(100)는 바이노럴 파라미터를 기초로 근사화된 임펄스 모델이 포함하는 감쇠 게인을 결정할 수 잇다.
일 실시예에 따라, 오디오 신호 처리 장치(100)는 생성된 바이노럴 파라미터 세트를 데이터 베이스에 저장할 수도 있다. 이때, 데이터 베이스는 오디오 신호 처리 장치(100)와 연결된 외부의 다른 장치 또는 오디오 신호 처리 장치(100) 내부의 저장소를 포함할 수 있다. 이 경우, 오디오 신호 처리 장치(100)는 추후 가상의 반사 음원(40)의 위치 및 공간 정보를 기초로 데이터 베이스를 통해 바이노럴 파라미터 세트를 획득할 수 있다.
블록 703에서, 오디오 신호 처리 장치(100)는 바이노럴 파라미터 쌍을 기초로 적어도 하나의 반사음을 바이노럴 렌더링하여 제1 출력 오디오 신호를 생성할 수 있다. 이때, 제1 출력 오디오 신호는 복수의 반사음 중에서 하나의 반사음을 바이노럴 렌더링한 출력 오디오 신호를 포함할 수 있다. 다음으로, 블록 704에서, 오디오 신호 처리 장치(100)는 블록 703에서 생성된 복수의 제1 출력 오디오 신호를 합성하여 제2 출력 오디오 신호를 생성할 수 있다. 이때, 오디오 신호 처리 장치(100)는 복수의 제1 출력 오디오 신호를 채널별로 합성하여 제2 출력 오디오 신호를 생성할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 복수의 제1 출력 오디오 신호를 청취자의 양이에 대응하는 좌/우 출력 채널 별로 합성하여 제2 출력 오디오 신호를 생성할 수 있다. 또한, 제2 출력 오디오 신호는 직접음, 초기 반사음 및 후기 잔향을 포함할 수 있다.
한편, 본 개시의 일 실시예에 따라, 청취자가 음원을 청취하는 가상의 공간이 변경되는 경우 공간 음향의 특성이 변경될 수 있다. 입력 오디오 신호에 대응하는 가상 음원과 청취자 사이의 위치 관계가 변경되는 경우 공간 음향의 특성이 변경될 수 있다. 이하에서는, 본 개시의 일 실시예에 따른, 오디오 신호 처리 장치(100)가 가상 음원과 청취자 사이의 위치 관계의 변화를 기초로 갱신된 바이노럴 파라미터 쌍을 적용하는 방법에 대해 도 8 내지 도 10을 참조하여 설명한다.
도 8은 본 개시의 일 실시예에 따라, 입력 오디오 신호에 대응하는 가상 음원이 가상의 공간에서 이동하는 경우를 나타내는 도면이다. 도 8을 참조하면, 입력 오디오 신호에 대응하는 가상 음원을 나타내는 직접음(D)이 가상의 공간에서 이동하는 경우, 반사면(left wall)에 대응하는 가상의 반사 음원을 나타내는 반사음(R)의 위치가 이동된다. 이에 따라, 오디오 신호 처리 장치(100)는 반사음(R)에 적용되는 바이노럴 파라미터 쌍을 갱신할 수 있다. 또한, 오디오 신호 처리 장치(100)는 [수학식 2]에서 계산된 제1 근사화된 임펄스 모델 쌍(h1L(n), h1R(n))을 제2 근사화된 임펄스 모델 쌍(h2L(n), h2R(n))으로 갱신할 수 있다.
도 9는 본 개시의 일 실시예에 따른 오디오 신호 처리 장치(100)의 버퍼의 동작을 나타내는 도면이다. 오디오 신호 처리 장치(100)는 입력 오디오 신호를 저장하는 입력 버퍼(buffer)를 이용하여 입력 오디오 신호에 대응하는 반사음을 생성할 수 있다. 청취자와 입력 오디오 신호에 대응하는 가상 음원 사이의 위치 관계가 변화하는 경우, 반사음이 가상의 반사 음원으로부터 청취자에게 도달하는 응답 경로가 변화할 수 있다. 이 경우, 오디오 신호 처리 장치(100)는 도 8에서 전술한 바와 같이 바이노럴 파라미터 쌍을 갱신할 수 있다. 또한, 오디오 신호 처리 장치(100)는 반사음을 갱신할 수 있다. 또한, 바이노럴 파라미터 쌍 및 반사음의 갱신에 따라, 반사음에 대응하는 버퍼 인덱스가 변경될 수 있다. 여기에서, 버퍼 인덱스는 입력 버퍼 내에서 입력 오디오 신호가 포함하는 샘플 각각의 위치를 나타내는 인덱스일 수 있다.
도 9는, 이전 버퍼(previous buffer)와 현재 버퍼(current buffer)에서 응답 경로가 h1에서 h2로 바뀔 때 청취자(30)의 좌측(L) 귀에 도달하는 오디오 신호의 딜레이의 차이를 나타낸다. 도 9는 입력 오디오 신호가 프레임(frame) 단위로 렌더링 및 버퍼 쉬프트(buffer shift)되는 실시예를 나타낸다. 오디오 신호 처리 장치(100)는 딜레이를 기초로, 적어도 하나의 반사음에 대응하는 입력 버퍼 내의 버퍼 인덱스를 획득할 수 있다. 여기에서, 딜레이는 바이노럴 파라미터 쌍이 포함하는 동측 딜레이 및 대측 딜레이, 그리고 가상의 반사 음원의 위치에 따른 딜레이를 포함할 수 있다. 도 9에서, 오디오 신호 처리 장치(100)는 이전 버퍼에서 이전 딜레이(d1) 및 현재 버퍼에서의 현재 딜레이(d2) 각각을 기초로 각각의 시간에서의 입력 오디오 신호 프레임에 대응하는 반사음을 생성할 수 있다. 이때, 입력 버퍼내에서 바이노럴 파라미터 쌍이 적용되는 버퍼 인덱스는 도 9에 도시된 바와 같이 프레임의 시작점과 일치하지 않을 수 있다. 오디오 신호 처리 장치(100)는 입력 버퍼 내에서 샘플 단위로 바이노럴 파라미터 쌍을 적용할 수 있다. 입력 버퍼 내에서 하나의 반사음에 대응하는 감쇠 게인이 적용되는 입력 오디오 신호 샘플의 개수는, 하나의 프레임이 포함하는 입력 오디오 신호 샘플의 개수와 서로 다를 수 있다. 또한, 오디오 신호 처리 장치(100)는 공간 정보, 기준 반사 차수, 프로세서의 성능, 공간 음향의 재현 정도와 관련된 사용자의 입력 중 적어도 하나를 기초로 입력 버퍼의 길이를 결정할 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치(100)는 청취자와 가상 음원 사이의 위치 관계가 변경되기 이전의 반사음 및 바이노럴 파라미터 쌍을 기초로 청취자와 가상 음원 사이의 위치 관계가 변경된 이후의 반사음을 생성할 수 있다. 도 9를 참조하면, 오디오 신호 처리 장치(100)는 이전 버퍼에서 이전 딜레이(d1) 및 현재 버퍼에서의 현재 딜레이(d2)를 기초로 현재 입력 오디오 신호 프레임에 대응하는 반사음을 생성할 수 있다. 이때,
오디오 신호 처리 장치(100)는 이전 버퍼에서 계산된 바이노럴 파라미터 쌍이 적용된 제1 반사음 세트와 갱신된 바이노럴 파라미터 쌍이 적용된 제2 반사음 세트 각각에 페이딩(fade-in-out)을 적용할 수 있다. 오디오 신호 처리 장치(100)는 현재 버퍼에서 갱신 전 딜레이를 기초로 결정된 버퍼 인덱스에 대응하는 입력 오디오 신호의 샘플을 이용하여 현재 프레임에 대응하는 반사음을 생성할 수 있다. 또한, 오디오 신호 처리 장치(100)는 이전 버퍼에서 갱신된 딜레이를 기초로 결정된 버퍼 인덱스에 대응하는 입력 오디오 신호의 샘플을 이용하여 현재 프레임에 대응하는 반사음을 생성할 수 있다. 이를 통해, 오디오 신호 처리 장치(100)는 제1 반사음 세트와 제2 반사음 세트 사이의 불연속(discontinuity)을 방지할 수 있다. 이는 버퍼 단위로 동작하는 오디오 신호 처리 시스템에서 효과적으로 적용될 수 있다.
도 10은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치(100)가 페이딩을 적용하는 방법을 나타내는 도면이다. 오디오 신호 처리 장치(100)는 가상 음원과 청취자 사이의 위치 관계의 변화를 기초로, 적어도 하나의 갱신된 반사음 및 적어도 하나의 갱신된 반사음 각각에 대응하는 갱신된 바이노럴 파라미터 쌍을 획득할 수 있다. 이때, 가상 음원과 청취자 사이의 위치 관계의 변화는 가상 음원의 이동, 청취자의 이동 및 청쥐자의 시선 방향의 이동 중 적어도 하나를 포함할 수 있다. 또한, 오디오 신호 처리 장치(100)는 제1 반사음 세트에 페이드 아웃 윈도우(fade-out window)를 적용하고, 제2 반사음 세트에 페이드 인 윈도우(fade-in window)를 적용하여 출력 오디오 신호를 생성할 수 있다. 여기에서, 페이드 아웃 윈도우는 윈도우에 포함된 반사음의 레벨을 시간에 따라 기 설정된 최대값으로부터 기 설정된 최소값까지 변경시켜 출력하는 필터를 나타낼 수 있다. 이때, 윈도우는 기 설정된 시간 구간을 포함할 수 있다. 예를 들어, 페이드 아웃 윈도우는 기 설정된 시간 동안 반사음의 출력 게인을 기 설정된 최대값에서 기 설정된 최소값으로 감쇄시키는 필터를 포함할 수 있다. 또한, 페이드 인 윈도우는 윈도우에 포함된 반사음의 레벨을 시간에 따라 기 설정된 최소값으로부터 기 설정된 최대값까지 변경시켜 출력하는 필터를 나타낼 수 있다. 예를 들어, 페이드 아웃 윈도우는 기 설정된 시간 동안 반사음의 출력 게인을 기 설정된 최소값에서 기 설정된 최대값으로 증가시키는 필터를 포함할 수 있다. 이때, 페이드 아웃 윈도우 및 페이드 인 윈도우의 커브(curve) 형태는 도 10에 도시된 형태로 제한되는 것은 아니다. 예를 들어, 페이드 아웃 윈도우 및 페이드 인 윈도우의 커브 형태는 윈도우의 도함수에 따라 롤-오프(roll-off) 커브 형태가 될 수도 있다. 또한, 기 설정된 최대값은 기 설정된 최소값 보다 클 수 있다.
한편, 오디오 신호 처리 장치(100)는 가상의 반사 음원의 개수만큼 각각 서로 다른 전달함수 쌍을 이용하여 바이노럴 렌더링 연산을 수행할 수 있다. 이 경우, 가상의 반사 음원의 개수가 증가할수록 오디오 신호 처리 장치(100)의 연산량이 증가될 수 있다. 또한, 청취자(30)와 가상 음원(20) 사이의 위치 관계가 변경되거나 가상의 공간이 변경되는 경우, 오디오 신호 처리 장치(100)는 새로운 전달함수 쌍을 획득해야 할 수 있다. 본 개시의 다른 일 실시예에 따른 오디오 신호 처리 장치(100)는 청취자(30)의 시선 방향을 기준으로 고정된 가상의 채널을 이용하여 반사음을 바이노럴 렌더링할 수 있다. 이를 통해, 오디오 신호 처리 장치(100)는 기 설정된 개수의 전달함수를 이용하여 다양한 개수의 반사음을 생성할 수 있다. 이하에서는, 오디오 신호 처리 장치(100)가 채널 바이노럴 렌더링을 이용하여 출력 오디오 신호를 생성하는 방법에 관해 도 11 내지 도 15를 통해 설명한다.
도 11은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치(100)가 가상 채널을 이용하여 출력 오디오 신호 생성 과정을 나타내는 블록도이다. 도 11의 블록 1101에서, 오디오 신호 처리 장치(100)는 가상 음원(20)의 위치 및 가상의 공간에 관련된 공간 정보를 기초로 적어도 하나의 반사음을 생성할 수 있다. 또한, 오디오 신호 처리 장치(100)는 가상 음원(20)의 위치 및 공간 정보를 기초로 적어도 하나의 반사음 각각에 대응하는 가상의 반사 음원의 위치를 결정할 수 있다. 블록 1101에서, 오디오 신호 처리 장치(100)가 반사음을 생성하는 방법은 도 4에서 설명된 실시예들이 적용될 수 있다.
도 11의 블록 1102에서, 오디오 신호 처리 장치(100)는 적어도 하나의 반사음 각각에 대응하는 가상의 반사 음원의 상대적인 위치를 기초로 적어도 하나의 반사음 각각을 포함하는 복수의 가상 채널 신호를 생성할 수 있다. 여기에서, 복수의 가상 채널 신호는 복수의 가상 채널 각각에 대응하는 오디오 신호일 수 있다. 또한, 복수의 가상 채널은 청취자의 시선 방향을 기준으로 특정 위치에 고정된 가상의 스피커를 나타낼 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 청취자의 시선 방향을 기준으로 복수의 가상 채널을 배치할 수 있다. 오디오 신호 처리 장치(100)가 가상 채널을 배치하는 방법에 대해서는 후술할 도 12를 통해 구체적으로 설명한다. 또한, 오디오 신호 처리 장치(100)는 하나의 반사음을 복수의 가상 채널 각각에 대응하는 복수의 가상 채널 신호로 변환할 수 있다. 한편, 전술한 바와 같이, 가상의 반사 음원의 상대적인 위치는 청취자의 위치 및 시선 방향을 기준으로 하는 가상의 반사 음원의 상대적인 위치일 수 있다. 오디오 신호 처리 장치(100)는 청취자의 시선 방향 및 가상의 반사 음원의 위치를 기초로 가상의 반사 음원의 상대적인 위치를 획득할 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치(100)는 복수의 가상 채널 각각에 대응하는 채널 게인을 기초로, 복수의 가상 채널 각각에 대응하는 가상 채널 신호를 생성할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 가상의 반사 음원의 상대적인 위치 및 복수의 가상 채널의 위치를 기초로, 복수의 가상 채널 각각에 대응하는 복수의 채널 게인을 결정할 수 있다. 구체적으로, 오디오 신호 처리 장치(100)는 반사음 별로 복수의 가상 채널 각각에 대응하는 채널 게인을 결정할 수 있다. 오디오 신호 처리 장치(100)는 벡터 기반 크기 패닝(Vector base amplitude panning, VBAP) 방법을 이용하여 반사음 별로 복수의 가상 채널 각각에 대응하는 채널 게인을 결정할 수 있다. 벡터 기반 크기 패닝 방법은 가상의 반사 음원의 상대적인 위치 정보를 이용하여 음원의 방향감 및 거리감을 생성하는 방법일 수 있다. 또한, 오디오 신호 처리 장치(100)는 각각의 반사음에 대해 반사음 별로 결정된 채널 게인을 적용하여 복수의 가상 채널 각각에 대응하는 가상 채널 신호를 생성할 수 있다. 전술한 방법을 통해, 오디오 신호 처리 장치(100)는 채널 게인을 기초로 적어도 하나의 반사음을 복수의 가상 채널 각각에 대응하는 가상 채널 신호로 변환할 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치(100)는 반사음 별로 복수의 가상 채널 중에서 반사음을 나타내기 위해 이용되는 적어도 하나의 가상 채널을 결정할 수도 있다. 예를 들어, 오디오 신호 처리 장치(100)는 제1 가상 채널 및 제2 가상 채널을 이용하여 제1 반사음을 나타낼 수 있다. 이 경우, 오디오 신호 처리 장치(100)는 제1 반사음에 대응하는 가상의 반사 음원의 상대적인 위치를 기초로, 제1 가상 채널 및 제2 가상 채널 각각에 대응하는 제1 채널 게인 및 제2 채널 게인을 획득할 수 있다. 오디오 신호 처리 장치(100)는 제1 반사음에 제1 채널 게인을 적용하여 제1 가상 채널을 생성할 수 있다. 또한, 오디오 신호 처리 장치(100)는 제1 반사음에 제2 채널 게인을 적용하여 제2 가상 채널을 생성할 수 있다.
이후 오디오 신호 처리 장치(100)는 청취자를 기준으로 하는 복수의 가상 채널 각각의 위치를 기초로 복수의 가상 채널 각각에 대응하는 전달함수를 획득할 수 있다. 이때, 복수의 가상 채널 중 어느 하나에 대응하는 전달함수는 하나의 가상 채널에 대응하는 전달함수 쌍을 포함할 수 있다. 또는 복수의 가상 채널 중 어느 하나에 대응하는 전달함수는 전달함수 쌍 중에서 하나의 전달함수 및 다른 하나의 전달함수를 도출하기 위한 추가적인 파라미터를 포함할 수도 있다. 오디오 신호 처리 장치(100)는 복수의 가상 채널 각각에 대응하는 전달함수를 기초로 가상 채널 신호를 바이노럴 렌더링하여 상기 반사음을 포함하는 상기 출력 오디오 신호를 생성할 수 있다.
도 12는 본 개시의 일 실시예에 따라 가상의 공간(10)에서 청취자(30)의 시선 방향을 기준으로 배열된 복수의 가상 채널(61-68)을 나타내는 도면이다. 도 12는 가상 채널의 일 실시예일 뿐 가상 채널의 개수와 배치가 도 12에 제한되는 것은 아니다. 가상 채널은 가상의 스피커를 나타낼 수 있다. 오디오 신호 처리 장치(100)는 복수의 가상 채널(61-68) 중 적어도 하나의 가상 채널을 이용하여 청취자에게 반사음을 제공할 수 있다. 구체적으로, 오디오 신호 처리 장치(100)는 반사음 별로 복수의 가상 채널(61-68) 각각에 대응하는 채널 게인을 획득할 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치(100)는 가상 음원(20)의 위치, 가상의 공간(10)에 관련된 공간 정보를 기초로 복수의 가상 채널 각각의 위치를 결정할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 가상 음원(20)의 위치, 가상의 공간(10)에 관련된 공간 정보를 기초로 복수의 반사음의 분포를 획득할 수 있다. 또한, 오디오 신호 처리 장치(100)는 복수의 반사음의 분포를 기초로 복수의 가상 채널 각각의 위치를 결정할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 반사음의 개수가 많은 영역에 근접한 가상의 공간(10)에 상대적으로 많은 개수의 가상 채널을 배치할 수 있다. 구체적으로, 오디오 신호 처리 장치(100)는 가상의 공간(10)을 기 설정된 영역의 개수로 분할할 수 있다. 또한, 오디오 신호 처리 장치(100)는 기 설정된 영역의 개수 및 기 설정된 가상 채널의 개수를 기초로 분할된 각각의 영역에게 할당되는 가상 채널의 개수를 결정할 수 있다. 이때, 오디오 신호 처리 장치(100)는 분할된 영역 각각에 대응하는 반사면을 기초로 반사음의 개수를 결정할 수 있다. 또한, 오디오 신호 처리 장치(100)는 분할된 영역 각각에 대응하는 반사음의 개수, 기 설정된 영역의 개수 및 기 설정된 가상 채널의 개수 중 적어도 하나를 기초로 분할된 각각의 영역에게 할당되는 가상 채널의 개수를 결정할 수 있다.
도 13은 본 개시의 일 실시예에 따라 가상 채널 신호로 변환된 하나의 반사음을 나타내는 도면이다. 도 13을 참조하면, 오디오 신호 처리 장치(100)는 복수의 가상 채널 각각에 대응하는 채널 게인을 기초로 하나의 반사음을 가상 채널 신호로 변환할 수 있다. 도 13에서, v_spk(1)- v_spk(i)은 i개의 가상 채널을 나타내고, 파선 화살표는 서로 다른 채널 게인이 적용된 시간 도메인에서의 반사음을 나타낸다. 도 14는 본 개시의 일 실시예에 따라 가상 채널 신호로 변환된 복수의 반사음을 나타내는 도면이다. 도 14에서 실선 화살표는 각각의 가상 채널로 변환된 직접음을 나타낸다. 또한, 파선 화살표는 반사음 별로 서로 다른 채널 게인이 적용된 시간 도메인에서의 반사음을 나타낸다.
도 15은 본 개시의 일 실시예에 따라 가상 채널 신호 별로 전달함수를 적용하는 과정을 나타내는 도면이다. 도 15에서, v_spk(1)- v_spk(i)은 i개의 가상 채널을 나타낸다. 또한, HRTF_L(1)- HRTF_L(i)은 i개의 가상 채널 각각의 위치를 기초로 획득된 좌측 전달함수를 나타낸다. 또한, HRTF_R(1)- HRTF_R(i)은 i개의 가상 채널 각각의 위치를 기초로 획득된 우측 전달함수를 나타낸다. 오디오 신호 처리 장치(100)는 복수의 가상 채널 각각에 대응하는 전달함수를 기초로 가상 채널 신호를 바이노럴 렌더링하여 출력 오디오 신호(bi_sig_L, bi_sig_R)를 생성할 수 있다. 전술한 바와 같이, 복수의 가상 채널 각각의 위치는 시스템 초기에 설정되므로 복수의 가상 채널 각각에 대응하는 전달함수는 청취자의 시선 방향 또는 가상 음원과 청취자 사이의 위치 관계가 변경되는 경우에도 동일한 값이 사용된다. 이에 따라, 가상 채널의 개수가 늘어나는 경우에는, 오디오 신호 처리 장치(100)의 연산량이 증가될 수 있다. 그러나 오디오 신호 처리 장치(100)는 가상 채널의 개수를 초과하는 개수의 전달함수를 저장할 필요가 없어, 메모리 사용량을 감소시킬 수 있다. 또한, 반사음의 개수가 증가하는 경우에도, 오디오 신호 처리 장치(100)가 기 생성된 반사음에 전달함수를 적용하는데 이용되는 시스템 연산량은 증가하지 않을 수 있다.
한편, 청취자의 시선 방향 또는 청취자와 가상 음원 사이의 위치 관계가 변경되는 경우, 복수의 가상 채널 각각에 대응하는 채널 게인은 달라질 수 있다. 오디오 신호 처리 장치(100)는 청취자의 시선 방향 또는 청취자와 가상 음원 사이의 위치 관계가 변경될 때마다 복수의 가상 채널 각각에 대응하는 채널 게인을 갱신할 수 있다.
일 실시예에 따라, 오디오 신호처리 장치(100)는 청취자의 머리 움직임정보를 기초로 청취자의 시선 방향을 갱신할 수 있다. 청취자의 머리 움직임 정보는 회전축 방향에 따라 요(yaw), 피치(pitch), 롤(roll) 방향의 회전 각도 값을 포함할 수 있다. 이때, 오디오 신호 처리 장치(100)는 센서로부터 요, 피치, 롤 방향의 회전 각도 값을 획득할 수 있다. 또한, 오디오 신호 처리 장치(100)는 요, 피치, 롤 방향의 회전 각도 값을 기초로 적어도 하나의 반사음 각각에 대응하는 가상의 반사 음원을 회전시킬 수 있다. 오디오 신호 처리 장치(100)는 [수학식 6]에 따라 가상의 반사 음원의 상대적인 위치를 갱신할 수 있다. 또한, 오디오 신호 처리 장치(100)는 갱신된 가상의 반사 음원의 상대적인 위치를 기초로 복수의 가상 채널 각각에 대응하는 채널 게인을 갱신할 수 있다.
[수학식 6]
[x_new, y_new, z_new]T = [x_old, y_old, z_old]TR_matrix
여기서, R_matrix = R_yawR_pitchR_roll
이때, R_yaw = [cos(yaw*pi/180) -sin(yaw*pi/180) 0;
sin(yaw*pi/180) cos(yaw*pi/180) 0;
0 0 1],
R_pitch = [cos(pitch*pi/180) 0 -sin(pitch*pi/180);
0 1 0;
sin(pitch*pi/180) 0 cos(pitch*pi/180)],
R_roll = [1 0 0;
0 cos(roll*pi/180) -sin(roll*pi/180);
0 sin(roll*pi/180) cos(roll*pi/180)].
[수학식 6]에서 [x]T는 행렬(matrix) [x]의 전치 행렬을 나타내고, pi는 원주율을 나타낸다. 또한, R_matrix는 R_yaw, R_pitch 및 R_roll 을 행렬곱한 3x3 행렬을 나타낸다. 오디오 신호 처리 장치(100)는 청취자의 머리 움직임 정보(yaw, pitch, roll)을 기초로 R_matrix를 획득할 수 있다. 또한, 오디오 신호 처리 장치(100)는 R_matrix를 기초로 청취자의 시선 방향을 기존 시선 방향(x_old, y_old, z_old)에서 갱신된 시선 방향(x_new, y_new, z_new)으로 갱신할 수 있다.
한편, 가상의 공간(10)을 직육면체 공간으로 가정하고 반사 차수가 1차인 반사음을 바이노럴 렌더링하는 경우, 오디오 신호 처리 장치(100)의 연산량은 입력 오디오 신호를 바이노럴 렌더링하는 경우에 비해 7배 증가할 수 있다. 오디오 신호 처리 장치(100)가 직접음과 6개의 반사면에 의한 반사음 각각에 대해 바이노럴 렌더링을 수행하기 때문이다. 이에 따라, 오디오 신호 처리 장치(100)의 연산량은 바이노럴 렌더링의 대상이 되는 가상의 반사 음원의 개수에 비례하여 증가될 수 있다. 본 개시의 다른 일 실시예에 따른 오디오 신호 처리 장치(100)는 적어도 하나의 반사음을 앰비소닉 신호로 변환하여 출력 오디오 신호를 생성할 수 있다. 이를 통해, 오디오 신호 처리 장치(100)는 가상의 반사 음원의 개수가 증가하는 경우에도, 기 설정된 개수의 앰비소닉 신호를 이용하여 청취자의 시선 방향 또는 위치 변화가 반영된 출력 오디오 신호를 생성할 수 있다. 또한, 오디오 신호 처리 장치(100)는 복수의 반사음을 압축 전송하여 오디오 신호 처리 장치(100) 외부 또는 내부의 출력부에서 출력 오디오 신호를 효율적으로 출력하게 할 수 있다.
일 실시예에 따라, 직육면체 형상의 공간에서 1개의 오디오 신호에 의해 생성되는 1차 반사음은 [수학식 7]과 같이 표현할 수 있다.
[수학식 7]
reflections = sum(n=1 to 6) {alpha_n * s[n-t_dn, theta_n, phi_n]}
[수학식 7]에서, reflections는 6개의 반사면을 포함하는 가상의 공간에서 반사 차수가 1인 복수의 반사음이 합성된 반사음을 나타낸다. 또한, sum(n=1 to 6){x}은 n=1부터 n=6 까지의 x의 총합을 나타낸다. 이때, n은 1부터 6사이의 정수일 수 있다. alpha_n 은 n번째 반사음의 감쇠 게인을 나타내고, t_dn은 n번째 반사음의 딜레이를 나타낸다. theta_n과 phi_n 은 청취자를 기준으로 n번째 반사음에 대응하는 가상의 반사 음원의 상대적이 위치를 나타내는 앙각 및 방위각을 나타낸다.
도 16은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치(100)가 오브젝트 신호를 앰비소닉 신호로 변환하는 과정을 도시한다. 도 16을 참조하면, 오디오 신호 처리 장치(100)는 [수학식 7]의 합성된 반사음을 앰비소닉 신호로 변환할 수 있다. 여기에서, 앰비소닉 신호(ambisonics format)는 B-포맷을 통해 360도 공간 신호를 취득, 변환, 재생할 수 있는 오디오 신호이다. B-포맷 신호는 앰비소닉 신호를 나타낸다. 예를 들어, 오디오 신호 처리 장치(100)는 O2B 변환을 이용하여 360도 모든 방향의 신호를 기 설정된 개수의 신호 성분을 포함하는 앰비소닉 신호를 획득할 수 있다. 여기에서, O2B 변환은 오브젝트 신호에서 B-포맷 신호로의 변환을 의미한다. 도 16에서, 반사음 1~k는 도 4에서 설명된 실시예들을 통해 생성된 적어도 하나의 반사음일 수 있다. 또한, B00+, B11-, B10+,……, Bmm은 각각 m차 앰비소닉 포맷 신호를 나타낼 수 있다. 이때, m차 앰비소닉 포맷 신호는 (m+1)^2개의 신호 성분을 포함할 수 있다. 또한, (r1, a1, e1), ……, (rk, ak, ek)는 각각 k개의 반사음 각각에 대응하는 가상의 반사 음원의 상대적인 위치를 나타낼 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치(100)는 적어도 하나의 반사음 각각에 대응하는 가상의 반사 음원의 상대적인 위치를 나타내는 위치 정보 및 m차 구면 조화 함수(m-th spheracal harmonics)의 기저(basis)를 기초로, 적어도 하나의 반사음을 m차 앰비소닉 신호로 변환할 수 있다. 예를 들어, 도 16에 도시된 바와 같이, 오디오 신호 처리 장치(100)는 가상의 반사 음원의 상대적인 위치를 나타내는 위치 정보 및 m차 구면 조화 함의 기저를 기초로, 앰비소닉 계수(ambisonic coefficient)를 획득할 수 있다. 또한, 오디오 신호 처리 장치(100)는 획득된 앰비소닉 계수를 기초로 적어도 하나의 반사음을 m차 앰비소닉 신호로 변환할 수 있다. 구체적으로, 적어도 하나의 반사음 각각은 [수학식 7]과 같이 합성되기 이전에 [수학식 8]을 통해 앰비소닉 신호로 변환될 수 있다. 오디오 신호 처리 장치(100)는 복수의 반사음 각각에 대응하는 가상의 반사 음원의 위치 및 m차 구면 조화 함수의 기저를 기초로 복수의 반사음을 m차 앰비소닉 신호로 변환할 수 있다.
[수학식 8]
reflection_amb = sum(n=1 to 6) {alpha_n *s[n-t_dn] *Y(m, theta_n, phi_n)}
[수학식 8]에서 Y(m, theta_n, phi_n) 은 n번째 반사음의 앙각(theta_n) 및 방위각(phi_n)을 기초로하는 m차 구면 조화 함수의 기저를 나타낸다. 이때, 반사음 각각의 에너지를 유지하기 위해 m차 구면 조화 함수의 기저는 부가적인 계수를 더 포함할 수 있다. [수학식 7] 및 [수학식 8]은 직육면체 공간에 대한 1차 반사음 및 그에 대응하는 앰비소닉 신호에 대한 예로서 각각의 수식은 이에 한정되지 않으며 가상의 공간 및 앰비소닉 차수에 따라 달라질 수 있다.
또한, 오디오 신호 처리 장치(100)는 m차 앰비소닉 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 m차 앰비소닉 신호의 변환 정보를 기초로 m차 앰비소닉 신호를 바이노럴 렌더링할 수 있다. 또는 오디오 신호 처리 장치(100)는 m차 앰비 소닉 신호를 가상 채널 신호로 변환하여 변환된 가상 채널 신호를 바이노럴 렌더링할 수도 있다. 구체적으로, 오디오 신호 처리 장치(100)는 m차 앰비소닉 신호를 청취자의 시선 방향을 기준으로 배열된 복수의 가상 채널 각각에 대응하는 가상 채널 신호로 변환할 수 있다. 이때, 복수의 가상 채널은 전술한 도 11 및 도 12에서 설명된 가상 채널을 의미할 수 있다. 또한, 오디오 신호 처리 장치(100)는 복수의 가상 채널 각각에 대응하는 전달함수를 기초로 가상 채널 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성할 수 있다. 이 경우, 오디오 신호 처리 장치(100)가 출력 오디오 신호를 생성하는 방법에는 전술한 도 11 내지 15에서 설명된 실시예들이 적용될 수 있다.
도 17은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치(100)가 앰비소닉 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성하는 과정을 도시하는 도면이다. 도 17을 참조하면, 일 실시예에 따라, 오디오 신호 처리 장치(100)는 도 16에서 변환된 제1 m차 앰비소닉 신호(B00+, B11-, B10+,……, Bmm)를 제2 m차 앰비소닉 신호(B00+', B11-', B10+',……, Bmm')로 변환할 수 있다. 예를 들어, 제1 m차 앰비소닉 신호가 생성된 이후, 오디오 신호 처리 장치(100)는 청취자의 머리 움직임 정보를 획득할 수 있다. 오디오 신호 처리 장치(100)는 청취자의 머리 움직임 정보를 기초로 청취자의 시선 방향을 갱신할 수 있다. 이 경우, 오디오 신호 처리 장치(100)는 갱신된 청취자의 시선 방향 및 로테이션 매트릭스를 기초로 제1 m차 앰비소닉 신호를 로테이션하여, 제2 m차 앰비소닉 신호를 생성할 수 있다. 이를 통해, 오디오 신호 처리 장치(100)는 갱신된 청취자의 시선 방향을 기준으로 복수의 반사음 각각의 상대적인 위치를 갱신하기 위해 필요한 연산량을 감소시킬 수 있다.
또한, 오디오 신호 처리 장치(100)는 제2 m차 앰비소닉 신호를 청취자의 시선 방향을 기준으로 배열된 복수의 가상 채널 각각에 대응하는 가상 채널 신호로 변환할 수 있다. 이때, 복수의 가상 채널은 전술한 도 11 및 도 12에서 설명된 가상 채널을 의미할 수 있다. 오디오 신호 처리 장치(100)는 청취자를 기준으로 배열된 복수의 가상 채널 각각의 위치 정보를 기초로, 앰비소닉 신호를 채널 신호로 변환하기 위한 B-to-C 앰비소닉 계수를 획득할 수 있다. 또한, 오디오 신호 처리 장치(100)는 B-to-C 앰비소닉 계수를 기초로 제2 m차 앰비소닉 신호를 복수의 가상 채널 각각에 대응하는 가상 채널 신호(C1-CN)로 변환할 수 있다. 또한, 오디오 신호 처리 장치(100)는 복수의 가상 채널 각각에 대응하는 전달함수를 기초로 가상 채널 신호(C1-CN)를 바이노럴 렌더링하여 출력 오디오 신호를 생성할 수 있다. 이 경우, 오디오 신호 처리 장치(100)가 출력 오디오 신호(L, R)를 생성하는 방법에는 전술한 도 11 내지 15에서 설명된 실시예들이 적용될 수 있다.
도 18은 본 개시의 다른 일 실시예에 따른 오디오 신호 처리 장치(100)가 컨트롤 값에 기초하여 공간 음향의 특성을 변경하는 방법을 나타내는 도면이다. 일 실시예에 따라, 오디오 신호 처리 장치(100)는 컨트롤 값에 기초하여 가상의 공간에 관련된 공간 정보를 변경할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 사용자 입력에 기초하여 컨트롤 값을 획득할 수 있다. 오디오 신호 처리 장치(100)는 오디오 신호 처리 장치(100) 내부에 탑재되거나 오디오 신호 처리 장치(100)와 연결된 외부의 입력 장치를 통해 컨트롤 값을 수신할 수 있다. 또한, 오디오 신호 처리 장치(100)는 컨트롤 값을 기초로 전술한 방법으로 생성된 직접음, 초기 반사음 및 후기 잔향 각각의 레벨을 결정할 수 있다. 예를 들어, 컨트롤 값은 직접음, 초기 반사음, 후기 잔향 성분의 상대적인 레벨, 딜레이를 조절하는 값이 될 수 있다. 컨트롤 값은 입력 오디오 신호에 대응하는 가상 음원을 포함하는 가상의 공간에 관련된 공간 정보를 변경하는 값일 수 있다. 또는 컨트롤 값은 음색 및 신호 레벨 자체를 조절하는 값일 수도 있다. 또한, 오디오 신호 처리 장치(100)는 컨트롤 값을 기초로 변경된 공간 정보를 이용하여 출력 오디오 신호를 생성할 수 있다.
도 19 및 도 20은 본 개시의 다른 일 실시예에 따라 입력 오디오 신호에 대응하는 공간 음향 신호를 생성하는 과정(도 19)과 공간 음향 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성하는 과정(도 20)을 포함하는 오디오 신호 처리 시스템을 나타내는 도면이다. 일 실시예에 따라, 오디오 신호 처리 장치(100)는 입력 오디오 신호를 기초로 직접음, 초기 반사음 및 후기 잔향 성분을 포함하는 공간 음향을 생성할 수 있다. 또한, 오디오 신호 처리 장치(100)는 생성된 공간 음향을 각각의 성분 별로 프로세싱하여 출력 오디오 신호를 생성할 수 있다.
도 19를 참조하면, 오디오 신호 처리 장치(100)는 제1 입력부를 통해 입력 오디오 신호를 획득할 수 있다. 또한, 오디오 신호 처리 장치(100)는 제2 입력부를 통해 공간 정보를 획득할 수 있다. 이때, 제1 입력부와 제2 입력부는 하나의 입력부일 수도 있다. 오디오 신호 처리 장치(100)는 입력 오디오 신호를 기초로 반사음을 생성할 수 있다. 이때, 전술한 도 4 내지 도 17의 실시예들이 적용될 수 있다. 또한, 오디오 신호 처리 장치(100)는 도 2에서 전술한 바와 같이 반사음을 초기 반사음과 후기 잔향으로 구별할 수 있다. 이때, 오디오 신호 처리 장치(100)는 초기 반사음과 후기 잔향을 별도 트랙으로 생성할 수 있다. 이때, 오디오 신호 처리 장치(100)는 초기 반사음과 후기 잔향을 병렬적으로 생성할 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치(100)는 입력 오디오 신호, 공간 정보, 가상 음원의 위치, 청취자의 위치를 기초로 오브젝트 포맷의 초기 반사음을 생성할 수 있다. 또한, 오디오 신호 처리 장치(100)는 오브젝트 포맷의 초기 반사음을 앰비소닉 포맷(B-포맷)의 앰비소닉 신호로 변환할 수 있다. 다음으로, 오디오 신호 처리 장치(100)는 직접음, 앰비소닉 포맷의 초기 반사음, 입력 오디오 신호 및 공간 정보를 기초로 생성된 후기 잔향을 포함하는 공간 음향을 생성할 수 있다. 또는 오디오 신호 처리 장치(100)는 직접음, 앰비소닉 포맷의 초기 반사음, 후기 잔향을 포함하는 비트 스트림을 생성할 수도 있다. 또한, 비트 스트림은 입력 오디오 신호에 대응하는 가상 음원 및 청취자를 포함하는 가상의 공간에 관련된 공간 정보 및 가상 음원의 위치, 청취자의 위치 정보를 포함할 수 있다. 오디오 신호 처리 장치(100)는 생성된 비트 스트림을 오디오 신호 처리 장치(100)와 연결된 다른 장치로 전송할 수 있다.
도 20을 참조하면, 일 실시예에 따라, 오디오 신호 처리 장치(100)는 생성된 공간 음향을 바이노럴 렌더링하여 출력 오디오 신호를 생성할 수 있다. 또는 오디오 신호 처리 장치(100)는 제1 입력부를 통해 오디오 신호 처리 장치(100)와 연결된 다른 장치에서 생성된 비트 스트림을 획득할 수도 있다. 이때, 비트 스트림은 다른 장치에서 입력 오디오 신호를 기초로 생성된 직접음, 앰비소닉 포맷의 초기 반사음, 후기 잔향을 포함할 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치(100)는 비트 스트림과 함께 수신된 메타 데이터를 기초로 비트 스트림에 포함된 직접음, 초기 반사음, 및 후기 잔향 성분을 분리할 수 있다. 또한, 오디오 신호 처리 장치(100)는 제2 입력부를 통해 청취자의 머리 움직임 정보를 수신할 수 있다. 이때, 제1 입력부 및 제2 입력부는 하나의 입력부일 수 있다. 오디오 신호 처리 장치(100)는 청취자 위치 및 머리 움직임 정보를 기초로 분리된 직접음을 바이노럴 렌더링하여 바이노럴 직접음을 생성할 수 있다. 이때, 오디오 신호 처리 장치(100)는 오브젝트 바이노럴 렌더링을 이용할 수 있다. 또한, 오디오 신호 처리 장치(100)는 청취자의 머리 움직임 정보를 기초로 분리된 초기 반사음을 바이노럴 렌더링하여 바이노럴 초기 반사음을 생성할 수 있다. 이때, 오디오 신호 처리 장치(100)는 앰비소닉 바이노럴 렌더링을 이용할 수 있다. 다음으로, 오디오 신호 처리 장치(100)는 생성된 바이노럴 직접음, 바이노럴 초기 반사음 및 후기 잔향을 합성하여 출력 오디오 신호를 생성할 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치(100)는 공간 정보를 기초로생성된 바이노럴 직접음, 바이노럴 초기 반사음 및 후기 잔향 각각의 신호 레벨을 조절하여 출력 오디오 신호를 생성할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 제3 입력부를 통해 수신된 컨트롤 값을 기초로 출력 오디오 신호를 생성할 수 있다. 이 경우, 도 18을 통해 설명한 실시예들이 적용될 수 있다.
일부 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함할 수 있다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함할 수 있다.
또한, 본 명세서에서, “부”는 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.
전술한 본 개시의 설명은 예시를 위한 것이며, 본 개시가 속하는 기술분야의 통상의 지식을 가진 자는 본 개시의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
이상에서는 본 개시를 구체적인 실시예를 통하여 설명하였으나, 당업자라면 본 개시의 취지 및 범위를 벗어나지 않고 수정, 변경을 할 수 있다. 즉, 본 개시는 오디오 신호에 대한 바이노럴 렌더링의 실시예에 대하여 설명하였지만, 본 개시는 오디오 신호뿐만 아니라 비디오 신호를 포함하는 다양한 멀티미디어 신호에도 동일하게 적용 및 확장 가능하다. 따라서 본 개시의 상세한 설명 및 실시예로부터 본 개시가 속하는 기술분야에 속한 사람이 용이하게 유추할 수 있는 것은 본 개시의 권리범위에 속하는 것으로 해석된다.

Claims (20)

  1. 입력 오디오 신호를 렌더링하는 오디오 신호 처리 장치로서,
    상기 입력 오디오 신호를 수신하는 수신부;
    상기 입력 오디오 신호에 대응하는 가상 음원을 가상의 공간에 재현하는 출력 오디오 신호를 생성하는 프로세서; 및
    상기 프로세서에 의해 생성된 출력 오디오 신호를 출력하는 출력부를 포함하고,
    상기 프로세서는,
    상기 입력 오디오 신호에 대응하는 가상 음원(virtual source) 및 청취자를 포함하는 상기 가상의 공간에 관련된 공간 정보를 획득하고,
    상기 가상 음원의 위치 및 상기 공간 정보를 기초로, 상기 입력 오디오 신호를 필터링하여, 상기 가상의 공간이 포함하는 적어도 하나의 반사면(mirror plane) 각각에 대응하는 적어도 하나의 반사음을 생성하고,
    상기 청취자의 시선 방향(view-point)을 기준으로 전면에 포함된 입사 각도 중 어느 하나에 대응하는 제1 스펙트럼 변경 필터 및 상기 청취자의 시선 방향을 기준으로 후면에 포함된 입사 각도 중 어느 하나에 대응하는 제2 스펙트럼 변경 필터를 획득하고,
    상기 적어도 하나의 반사음 각각에 대응하는 가상의 반사 음원의 위치 및 상기 청취자의 시선 방향 정보를 기초로, 상기 청취자의 위치 및 시선 방향을 기준으로 하는 상기 가상의 반사 음원의 상대적인 위치를 획득하고,
    동측 전달함수 및 대측 전달함수에 기초하여 상기 적어도 하나의 반사음 각각에 대응하는 임펄스 모델 쌍을 획득하고,
    상기 임펄스 모델 쌍은 동측 감쇠 게인, 대측 감쇠 게인, 동측 딜레이 및 대측 딜레이를 포함하고,
    상기 동측 감쇠 게인은 상기 동측 전달함수의 크기에 기초하여 결정되고,
    상기 대측 감쇠 게인은 상기 동측 감쇠 게인 및 양이간 레벨 차이의 크기에 기초하여 결정되고,
    상기 동측 딜레이 및 상기 대측 딜레이는 양이간 시간 차이의 크기에 기초하여 결정되고,
    상기 양이간 레벨 차이는 동측과 대측 사이의 소리의 크기 차이를 나타내고,
    상기 양이간 시간 차이는 동측과 대측 사이의 시간 지연 차이를 나타내고,
    상기 가상의 반사 음원의 상대적인 위치, 상기 제1 스펙트럼 변경 필터, 상기 제2 스펙트럼 변경 필터 및 상기 임펄스 모델 쌍을 기초로 필터링된 상기 적어도 하나의 반사음을 바이노럴 렌더링하여 상기 출력 오디오 신호를 생성하는, 오디오 신호 처리 장치.
  2. 삭제
  3. 제 1 항에 있어서,
    상기 제1 스펙트럼 변경 필터는, 상기 청취자의 시선 방향을 기준으로 전면으로 입사되는 음향의 기 설정된 주파수 특성을 모델링한 필터이고,
    상기 제2 스펙트럼 변경 필터는 상기 청취자의 시선 방향을 기준으로 후면으로 입사되는 음향의 기 설정된 주파수 특성을 모델링한 필터인, 오디오 신호 처리 장치.
  4. 제 3 항에 있어서,
    상기 프로세서는,
    상기 가상의 반사 음원의 상대적인 위치에 기초하여, 상기 제1 스펙트럼 변경 필터 및 상기 제2 스펙트럼 변경 필터를 가중합(weighted sum)하여 상기 적어도 하나의 반사음 각각에 대응하는 제3 스펙트럼 변경 필터를 생성하고,
    상기 제3 스펙트럼 변경 필터를 기초로 필터링된 상기 적어도 하나의 반사음을 바이노럴 렌더링하여 상기 출력 오디오 신호를 생성하는,
    오디오 신호 처리 장치.
  5. 제 3 항에 있어서,
    상기 제2 스펙트럼 변경 필터는 상기 제1 스펙트럼 변경 필터에 비해 고주파수 대역의 출력을 감쇠시키는 필터인, 오디오 영상 처리 장치.
  6. 삭제
  7. 삭제
  8. 삭제
  9. 제 1 항에 있어서,
    상기 프로세서는,
    상기 가상 음원과 상기 청취자 사이의 위치 관계의 변화를 기초로, 적어도 하나의 갱신된 반사음 및 상기 적어도 하나의 갱신된 반사음 각각에 대응하는 갱신된 바이노럴 파라미터 쌍을 획득하고,
    상기 바이노럴 파라미터 쌍을 기초로 상기 적어도 하나의 반사음을 바이노럴 렌더링하여 생성된 제1 반사음 세트에 기 설정된 시간동안 페이드-아웃 윈도우(fade-out window)를 적용하고, 상기 갱신된 바이노럴 파라미터 쌍을 기초로 상기 적어도 하나의 갱신된 반사음을 바이노럴 렌더링하여 생성된 제2 반사음 세트에 상기 기 설정된 시간동안 페이드 인 윈도우(fade-in window)를 적용하여, 상기 출력 오디오 신호를 생성하는, 오디오 신호 처리 장치.
  10. 제 1 항에 있어서,
    상기 프로세서는,
    상기 적어도 하나의 반사음 각각에 대응하는 상기 가상의 반사 음원의 상대적인 위치를 나타내는 위치 정보 및 m차 구면 조화 함수(m-th spherical harmonics)의 기저(basis)를 기초로, 상기 적어도 하나의 반사음을 제1 m차 앰비소닉(ambisonic) 신호로 변환하고,
    상기 제1 m차 앰비소닉 신호를 바이노럴 렌더링하여 상기 출력 오디오 신호를 생성하는, 오디오 신호 처리 장치.
  11. 제 10 항에 있어서,
    상기 프로세서는,
    상기 청취자의 머리 움직임 정보를 기초로 상기 청취자의 시선 방향을 갱신하고,
    상기 갱신된 청취자의 시선 방향 및 로테이션 매트릭스를 기초로 상기 제1 m차 앰비소닉 신호를 로테이션하여, 제2 m차 앰비소닉 신호를 생성하고,
    상기 제2 m차 앰비소닉 신호를 기초로 상기 출력 오디오 신호를 생성하는, 오디오 신호 처리 장치.
  12. 제 10 항에 있어서,
    상기 프로세서는,
    상기 공간 정보를 기초로 기준 반사 차수를 결정하고,
    상기 공간 정보를 기초로 상기 입력 오디오 신호를 필터링하여 상기 기준 반사 차수를 초과하는 반사 차수를 가지는 후기 잔향을 생성하고,
    상기 생성된 후기 잔향 및 상기 바이노럴 렌더링된 적어도 하나의 반사음을 포함하는 출력 오디오 신호를 생성하는, 오디오 신호 처리 장치.
  13. 제 12 항에 있어서,
    상기 공간 정보는 상기 적어도 하나의 반사면의 개수를 나타내는 반사면 개수 정보를 포함하고,
    상기 프로세서는,
    상기 반사면 개수 정보 및 상기 프로세서의 프로세싱 성능을 기초로 상기 기준 반사 차수를 결정하는, 오디오 신호 처리 장치.
  14. 제 1 항에 있어서,
    상기 공간 정보는 상기 적어도 하나의 반사면 각각에 대응하는 반사율을 포함하고,
    상기 프로세서는,
    상기 반사율을 기초로 상기 입력 오디오 신호를 필터링하여 상기 적어도 하나의 반사음을 생성하는, 오디오 신호 처리 장치.
  15. 삭제
  16. 입력 오디오 신호에 대응하는 가상 음원을 가상의 공간에 재현하는 출력 오디오 신호를 생성하는 오디오 신호 처리 장치의 동작 방법에 있어서,
    상기 입력 오디오 신호를 수신하는 단계;
    상기 입력 오디오 신호에 대응하는 가상 음원 및 청취자를 포함하는 상기 가상의 공간에 관련된 공간 정보를 획득하는 단계;
    상기 가상 음원의 위치 및 상기 공간 정보를 기초로, 상기 입력 오디오 신호를 필터링하여, 상기 가상의 공간이 포함하는 적어도 하나의 반사면 각각에 대응하는 적어도 하나의 반사음을 생성하는 단계;
    상기 청취자의 시선 방향(view-point)을 기준으로 전면에 포함된 입사 각도 중 어느 하나에 대응하는 제1 스펙트럼 변경 필터 및 상기 청취자의 시선 방향을 기준으로 후면에 포함된 입사 각도 중 어느 하나에 대응하는 제2 스펙트럼 변경 필터를 획득하는 단계;
    상기 적어도 하나의 반사음 각각에 대응하는 가상의 반사 음원의 위치 및 상기 청취자의 시선 방향 정보를 기초로, 상기 청취자의 위치 및 시선 방향을 기준으로 하는 상기 가상의 반사 음원의 상대적인 위치를 획득하는 단계;
    동측 전달함수 및 대측 전달함수에 기초하여 상기 적어도 하나의 반사음 각각에 대응하는 임펄스 모델 쌍을 획득하는 단계;
    상기 임펄스 모델 쌍은 동측 감쇠 게인, 대측 감쇠 게인, 동측 딜레이 및 대측 딜레이를 포함하고,
    상기 동측 감쇠 게인은 상기 동측 전달함수의 크기에 기초하여 결정되고,
    상기 대측 감쇠 게인은 상기 동측 감쇠 게인 및 양이간 레벨 차이의 크기에 기초하여 결정되고,
    상기 동측 딜레이 및 상기 대측 딜레이는 양이간 시간 차이의 크기에 기초하여 결정되고,
    상기 양이간 레벨 차이는 동측과 대측 사이의 소리의 크기 차이를 나타내고,
    상기 양이간 시간 차이는 동측과 대측 사이의 시간 지연 차이를 나타내고,및
    상기 가상의 반사 음원의 상대적인 위치, 상기 제1 스펙트럼 변경 필터, 상기 제2 스펙트럼 변경 필터 및 상기 임펄스 모델 쌍을 기초로 필터링된 상기 적어도 하나의 반사음을 바이노럴 렌더링하여 상기 출력 오디오 신호를 출력하는,
    단계를 포함하는, 오디오 신호 처리 방법.
  17. 제 16항에 있어서,
    상기 방법은,
    상기 가상의 반사 음원의 상대적인 위치를 기초로, 상기 제1 스펙트럼 변경 필터 및 상기 제2 스펙트럼 변경 필터를 가중합(weighted sum)하여 상기 적어도 하나의 반사음 각각에 대응하는 제3 스펙트럼 변경 필터를 생성하는 단계를 더 포함하고,
    상기 출력 오디오 신호를 출력하는 단계는,
    상기 제3 스펙트럼 변경 필터를 기초로 필터링된 상기 적어도 하나의 반사음을 바이노럴 렌더링하여 상기 출력 오디오 신호를 출력하는 단계인, 오디오 신호 처리 방법.
  18. 삭제
  19. 제 16 항에 있어서,
    상기 출력 오디오 신호를 출력하는 단계는,
    상기 적어도 하나의 반사음 각각에 대응하는 상기 가상의 반사 음원의 상대적인 위치를 나타내는 위치 정보 및 m차 구면 조화 함수의 기저를 기초로, 상기 적어도 하나의 반사음을 m차 앰비소닉 신호로 변환하는 단계; 및
    상기 m차 앰비소닉 신호를 바이노럴 렌더링하여 상기 출력 오디오 신호를 출력하는 단계를 포함하는, 오디오 신호 처리 방법.
  20. 제 16 항 내지 제 17 항 및 제 19 항 중 어느 한 항의 방법을 컴퓨터에서 실행시키는 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.
KR1020197028372A 2017-03-27 2018-03-27 오디오 신호 처리 방법 및 장치 KR102502383B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
KR1020170038761 2017-03-27
KR20170038761 2017-03-27
KR20170089711 2017-07-14
KR1020170089711 2017-07-14
PCT/KR2018/003580 WO2018182274A1 (ko) 2017-03-27 2018-03-27 오디오 신호 처리 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20190125371A KR20190125371A (ko) 2019-11-06
KR102502383B1 true KR102502383B1 (ko) 2023-02-23

Family

ID=63677883

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197028372A KR102502383B1 (ko) 2017-03-27 2018-03-27 오디오 신호 처리 방법 및 장치

Country Status (3)

Country Link
US (1) US11184727B2 (ko)
KR (1) KR102502383B1 (ko)
WO (1) WO2018182274A1 (ko)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102502383B1 (ko) 2017-03-27 2023-02-23 가우디오랩 주식회사 오디오 신호 처리 방법 및 장치
AU2018244316B2 (en) * 2017-03-28 2022-09-29 Magic Leap, Inc. Augmented reality system with spatialized audio tied to user manipulated virtual object
GB2563635A (en) * 2017-06-21 2018-12-26 Nokia Technologies Oy Recording and rendering audio signals
IL307592A (en) 2017-10-17 2023-12-01 Magic Leap Inc Spatial audio for mixed reality
JP2021514081A (ja) 2018-02-15 2021-06-03 マジック リープ, インコーポレイテッドMagic Leap,Inc. 複合現実仮想反響音
KR102345492B1 (ko) 2018-03-07 2021-12-29 매직 립, 인코포레이티드 주변 디바이스들의 시각적 추적
US11019449B2 (en) * 2018-10-06 2021-05-25 Qualcomm Incorporated Six degrees of freedom and three degrees of freedom backward compatibility
US10897570B1 (en) 2019-01-28 2021-01-19 Facebook Technologies, Llc Room acoustic matching using sensors on headset
US10674307B1 (en) * 2019-03-27 2020-06-02 Facebook Technologies, Llc Determination of acoustic parameters for a headset using a mapping server
US11853472B2 (en) 2019-04-05 2023-12-26 Hewlett-Packard Development Company, L.P. Modify audio based on physiological observations
US10735885B1 (en) * 2019-10-11 2020-08-04 Bose Corporation Managing image audio sources in a virtual acoustic environment
EP4049466A4 (en) * 2019-10-25 2022-12-28 Magic Leap, Inc. REVERBER FOOTPRINT ESTIMATION
US11102602B1 (en) 2019-12-26 2021-08-24 Facebook Technologies, Llc Systems and methods for spatial update latency compensation for head-tracked audio
CN111859241B (zh) * 2020-06-01 2022-05-03 北京大学 一种基于声传递函数学习的非监督声源定向方法
US10979672B1 (en) 2020-10-20 2021-04-13 Katmai Tech Holdings LLC Web-based videoconference virtual environment with navigable avatars, and applications thereof
US11095857B1 (en) 2020-10-20 2021-08-17 Katmai Tech Holdings LLC Presenter mode in a three-dimensional virtual conference space, and applications thereof
US10952006B1 (en) 2020-10-20 2021-03-16 Katmai Tech Holdings LLC Adjusting relative left-right sound to provide sense of an avatar's position in a virtual space, and applications thereof
US11457178B2 (en) 2020-10-20 2022-09-27 Katmai Tech Inc. Three-dimensional modeling inside a virtual video conferencing environment with a navigable avatar, and applications thereof
US11076128B1 (en) 2020-10-20 2021-07-27 Katmai Tech Holdings LLC Determining video stream quality based on relative position in a virtual space, and applications thereof
US11070768B1 (en) 2020-10-20 2021-07-20 Katmai Tech Holdings LLC Volume areas in a three-dimensional virtual conference space, and applications thereof
CN112770227B (zh) * 2020-12-30 2022-04-29 中国电影科学技术研究所 音频处理方法、装置、耳机和存储介质
EP4325888A1 (en) * 2021-04-12 2024-02-21 Panasonic Intellectual Property Corporation of America Information processing method, program, and information processing system
US11184362B1 (en) 2021-05-06 2021-11-23 Katmai Tech Holdings LLC Securing private audio in a virtual conference, and applications thereof
US11743430B2 (en) 2021-05-06 2023-08-29 Katmai Tech Inc. Providing awareness of who can hear audio in a virtual conference, and applications thereof
EP4132012A1 (en) * 2021-08-05 2023-02-08 Koninklijke Philips N.V. Determining virtual audio source positions
US20230081104A1 (en) * 2021-09-14 2023-03-16 Sound Particles S.A. System and method for interpolating a head-related transfer function
WO2023051703A1 (zh) * 2021-09-29 2023-04-06 北京字跳网络技术有限公司 一种音频渲染系统和方法
CN114176623B (zh) * 2021-12-21 2023-09-12 深圳大学 声音降噪方法、系统、降噪设备及计算机可读存储介质
WO2023202551A1 (zh) * 2022-04-19 2023-10-26 北京字跳网络技术有限公司 声透射方法、装置和非易失性计算机可读存储介质
US20230379645A1 (en) * 2022-05-19 2023-11-23 Google Llc Spatial Audio Recording from Home Assistant Devices
US11928774B2 (en) 2022-07-20 2024-03-12 Katmai Tech Inc. Multi-screen presentation in a virtual videoconferencing environment
US11876630B1 (en) 2022-07-20 2024-01-16 Katmai Tech Inc. Architecture to control zones
US11651108B1 (en) 2022-07-20 2023-05-16 Katmai Tech Inc. Time access control in virtual environment application
US11741664B1 (en) 2022-07-21 2023-08-29 Katmai Tech Inc. Resituating virtual cameras and avatars in a virtual environment
US11700354B1 (en) 2022-07-21 2023-07-11 Katmai Tech Inc. Resituating avatars in a virtual environment
US11682164B1 (en) 2022-07-28 2023-06-20 Katmai Tech Inc. Sampling shadow maps at an offset
US11562531B1 (en) 2022-07-28 2023-01-24 Katmai Tech Inc. Cascading shadow maps in areas of a three-dimensional environment
US11593989B1 (en) 2022-07-28 2023-02-28 Katmai Tech Inc. Efficient shadows for alpha-mapped models
US11956571B2 (en) 2022-07-28 2024-04-09 Katmai Tech Inc. Scene freezing and unfreezing
US11711494B1 (en) 2022-07-28 2023-07-25 Katmai Tech Inc. Automatic instancing for efficient rendering of three-dimensional virtual environment
US11704864B1 (en) 2022-07-28 2023-07-18 Katmai Tech Inc. Static rendering for a combination of background and foreground objects
US11776203B1 (en) 2022-07-28 2023-10-03 Katmai Tech Inc. Volumetric scattering effect in a three-dimensional virtual environment with navigable video avatars
CN115334366A (zh) * 2022-08-16 2022-11-11 中国传媒大学 一种交互沉浸式声场漫游的建模方法
US11748939B1 (en) 2022-09-13 2023-09-05 Katmai Tech Inc. Selecting a point to navigate video avatars in a three-dimensional environment
CN116760499B (zh) * 2023-07-07 2023-12-01 恩平市天悦音响科技有限公司 一种基于大数据的调音台调音管理系统及方法
CN117037844A (zh) * 2023-10-10 2023-11-10 中国传媒大学 基于全景视频的全景音频生成方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080031462A1 (en) * 2006-08-07 2008-02-07 Creative Technology Ltd Spatial audio enhancement processing method and apparatus
JP2009105565A (ja) * 2007-10-22 2009-05-14 Onkyo Corp 仮想音像定位処理装置および仮想音像定位処理方法
CN102572676A (zh) * 2012-01-16 2012-07-11 华南理工大学 一种虚拟听觉环境实时绘制方法

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2373154B (en) * 2001-01-29 2005-04-20 Hewlett Packard Co Audio user interface with mutable synthesised sound sources
US20030007648A1 (en) * 2001-04-27 2003-01-09 Christopher Currell Virtual audio system and techniques
US20080056517A1 (en) * 2002-10-18 2008-03-06 The Regents Of The University Of California Dynamic binaural sound capture and reproduction in focued or frontal applications
WO2006050353A2 (en) * 2004-10-28 2006-05-11 Verax Technologies Inc. A system and method for generating sound events
US7787631B2 (en) * 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
JP4674505B2 (ja) * 2005-08-01 2011-04-20 ソニー株式会社 音声信号処理方法、音場再現システム
US8379868B2 (en) * 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
US8139780B2 (en) * 2007-03-20 2012-03-20 International Business Machines Corporation Using ray tracing for real time audio synthesis
US8705748B2 (en) * 2007-05-04 2014-04-22 Creative Technology Ltd Method for spatially processing multichannel signals, processing module, and virtual surround-sound systems
US8396226B2 (en) * 2008-06-30 2013-03-12 Costellation Productions, Inc. Methods and systems for improved acoustic environment characterization
PL2384029T3 (pl) * 2008-07-31 2015-04-30 Fraunhofer Ges Forschung Generowanie sygnału dla sygnałów dwuusznych
EP2489206A1 (fr) * 2009-10-12 2012-08-22 France Telecom Traitement de donnees sonores encodees dans un domaine de sous-bandes
US8767968B2 (en) * 2010-10-13 2014-07-01 Microsoft Corporation System and method for high-precision 3-dimensional audio for augmented reality
US9122053B2 (en) * 2010-10-15 2015-09-01 Microsoft Technology Licensing, Llc Realistic occlusion for a head mounted augmented reality display
US9268406B2 (en) * 2011-09-30 2016-02-23 Microsoft Technology Licensing, Llc Virtual spectator experience with a personal audio/visual apparatus
JP6085029B2 (ja) * 2012-08-31 2017-02-22 ドルビー ラボラトリーズ ライセンシング コーポレイション 種々の聴取環境におけるオブジェクトに基づくオーディオのレンダリング及び再生のためのシステム
JP6202003B2 (ja) * 2012-11-02 2017-09-27 ソニー株式会社 信号処理装置、信号処理方法
US10142761B2 (en) * 2014-03-06 2018-11-27 Dolby Laboratories Licensing Corporation Structural modeling of the head related impulse response
US9779538B2 (en) * 2014-05-28 2017-10-03 Lucasfilm Entertainment Company Ltd. Real-time content immersion system
KR101627652B1 (ko) * 2015-01-30 2016-06-07 가우디오디오랩 주식회사 바이노럴 렌더링을 위한 오디오 신호 처리 장치 및 방법
HUE056176T2 (hu) * 2015-02-12 2022-02-28 Dolby Laboratories Licensing Corp Fejhallgató virtualizálás
US9918177B2 (en) * 2015-12-29 2018-03-13 Harman International Industries, Incorporated Binaural headphone rendering with head tracking
US9986363B2 (en) * 2016-03-03 2018-05-29 Mach 1, Corp. Applications and format for immersive spatial sound
WO2017197156A1 (en) * 2016-05-11 2017-11-16 Ossic Corporation Systems and methods of calibrating earphones
WO2018041359A1 (en) * 2016-09-01 2018-03-08 Universiteit Antwerpen Method of determining a personalized head-related transfer function and interaural time difference function, and computer program product for performing same
US9998847B2 (en) * 2016-11-17 2018-06-12 Glen A. Norris Localizing binaural sound to objects
EP3346726A1 (en) * 2017-01-04 2018-07-11 Harman Becker Automotive Systems GmbH Arrangements and methods for active noise cancelling
US10433094B2 (en) * 2017-02-27 2019-10-01 Philip Scott Lyren Computer performance of executing binaural sound
KR102502383B1 (ko) 2017-03-27 2023-02-23 가우디오랩 주식회사 오디오 신호 처리 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080031462A1 (en) * 2006-08-07 2008-02-07 Creative Technology Ltd Spatial audio enhancement processing method and apparatus
JP2009105565A (ja) * 2007-10-22 2009-05-14 Onkyo Corp 仮想音像定位処理装置および仮想音像定位処理方法
CN102572676A (zh) * 2012-01-16 2012-07-11 华南理工大学 一种虚拟听觉环境实时绘制方法

Also Published As

Publication number Publication date
WO2018182274A1 (ko) 2018-10-04
US20200037091A1 (en) 2020-01-30
KR20190125371A (ko) 2019-11-06
US11184727B2 (en) 2021-11-23

Similar Documents

Publication Publication Date Title
KR102502383B1 (ko) 오디오 신호 처리 방법 및 장치
US9197977B2 (en) Audio spatialization and environment simulation
US9769589B2 (en) Method of improving externalization of virtual surround sound
KR100964353B1 (ko) 오디오 데이터를 처리하기 위한 방법 및 이에 따른 사운드수집 장치
JP7038725B2 (ja) オーディオ信号処理方法及び装置
US10327090B2 (en) Distance rendering method for audio signal and apparatus for outputting audio signal using same
US20170094440A1 (en) Structural Modeling of the Head Related Impulse Response
KR20170106063A (ko) 오디오 신호 처리 방법 및 장치
WO1999014983A1 (en) Utilisation of filtering effects in stereo headphone devices to enhance spatialization of source around a listener
JP6246922B2 (ja) 音響信号処理方法
JP5611970B2 (ja) オーディオ信号を変換するためのコンバータ及び方法
Novo Auditory virtual environments
Pulkki et al. Spatial effects
US11417347B2 (en) Binaural room impulse response for spatial audio reproduction
Oldfield The analysis and improvement of focused source reproduction with wave field synthesis
US11388540B2 (en) Method for acoustically rendering the size of a sound source
WO2024084998A1 (ja) 音響処理装置及び音響処理方法
US20240135953A1 (en) Audio rendering method and electronic device performing the same
WO2024084999A1 (ja) 音響処理装置及び音響処理方法
KR20190060464A (ko) 오디오 신호 처리 방법 및 장치
US11924623B2 (en) Object-based audio spatializer
WO2024084997A1 (ja) 音響処理装置及び音響処理方法
Geronazzo Sound Spatialization.
KR20240054885A (ko) 오디오 렌더링 방법 및 이를 수행하는 전자 장치
JP2023066418A (ja) オブジェクトベースのオーディオ空間化器

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right