KR20180135973A - 바이노럴 렌더링을 위한 오디오 신호 처리 방법 및 장치 - Google Patents
바이노럴 렌더링을 위한 오디오 신호 처리 방법 및 장치 Download PDFInfo
- Publication number
- KR20180135973A KR20180135973A KR1020187034958A KR20187034958A KR20180135973A KR 20180135973 A KR20180135973 A KR 20180135973A KR 1020187034958 A KR1020187034958 A KR 1020187034958A KR 20187034958 A KR20187034958 A KR 20187034958A KR 20180135973 A KR20180135973 A KR 20180135973A
- Authority
- KR
- South Korea
- Prior art keywords
- audio signal
- sound source
- listener
- signal processing
- hrtf
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
- H04S1/002—Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/002—Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
- H04S3/004—For headphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Stereophonic System (AREA)
Abstract
입력 오디오 신호를 바이노럴 렌더링하는 오디오 신호 처리 장치가 개시된다. 오디오 신호 처리 장치는 상기 입력 오디오 신호를 수신하는 수신부; 상기 입력 오디오 신호를 바이노럴 렌더링하여 2채널 오디오를 생성하는 바이노럴 렌더러; 및 상기 2채널 오디오를 출력하는 출력부를 포함한다. 상기 바이노럴 렌더러는 청취자로부터 상기 입력 오디오 신호에 대응하는 음원까지의 거리와 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 상기 입력 오디오 신호를 바이노럴 렌더링한다.
Description
본 발명은 오디오 신호 처리 방법 및 장치에 관한 것이다. 구체적으로 본 발명은 오디오 신호를 바이노럴 렌더링하기 위한 오디오 신호 처리 방법 및 장치에 관한 것이다.
3D 오디오란 기존의 서라운드 오디오에서 제공하는 수평면(2D) 상의 사운드 장면에 높이 방향에 해당하는 또 다른 축을 제공함으로써, 3차원 공간상에서 임장감 있는 사운드를 제공하기 위한 일련의 신호 처리, 전송, 부호화 및 재생기술 등을 통칭한다. 특히, 3D 오디오를 제공하기 위해서는 종래보다 많은 수의 스피커를 사용하거나 혹은 적은 수의 스피커를 사용하더라도 스피커가 존재하지 않는 가상의 위치에서 음상이 맺히도록 하는 렌더링 기술이 요구된다.
3D 오디오는 초고해상도 TV(UHDTV)에 대응되는 오디오 솔루션이 될 것으로 예상되며, 고품질 인포테인먼트 공간으로 진화하고 있는 차량에서의 사운드를 비롯하여 그밖에 극장 사운드, 개인용 3DTV, 태블릿, 무선 통신 단말 및 클라우드 게임 등 다양한 분야에서 응용될 것으로 예상된다.
한편, 3D 오디오에 제공되는 음원의 형태로는 채널 기반의 신호와 오브젝트 기반의 신호가 존재할 수 있다. 이 뿐만 아니라, 채널 기반의 신호와 오브젝트 기반의 신호가 혼합된 형태의 음원이 존재할 수 있으며, 이를 통해 유저로 하여금 새로운 형태의 청취 경험을 제공할 수 있다.
바이노럴 렌더링은 이러한 3D 오디오를 사람의 양귀에 전달되는 신호로 모델링하는 것이다. 사용자는 헤드폰이나 이어폰 등을 통한 바이노럴 렌더링된 2 채널 오디오 출력 신호를 통해서도 입체감을 느낄 수 있다. 바이노럴 렌더링의 구체적인 원리는 다음과 같다. 사람은 언제나 두 귀를 통해 소리를 듣고, 소리를 통해서 음원 위치와 방향을 인식한다. 따라서 3D 오디오를 사람의 두 귀에 전달되는 오디오 신호 형태로 모델링할 수 있다면, 많은 수의 스피커 없이 2 채널 오디오 출력을 통해서도 3D 오디오의 입체감을 재현할 수 있다.
오디오 신호 처리 장치는 3D 오디오에서 음원을 하나의 점으로 시뮬레이션할 수 있다. 오디오 신호 처리 장치가 음원을 하나의 점으로 시뮬레이션하는 경우, 오디오 신호 처리 장치는 시뮬레이션하는 물체의 크기가 서로 다른 음원으로부터 출력되는 오디오 신호를 동일하게 시뮬레이션한다. 이때, 오디오 신호 처리 장치는 청취자와 음원의 거리가 가까운 경우 오디오 신호를 출력하는 물체의 크기에 따라 전달되는 오디오 신호의 차이를 재현하지 못할 수 있다.
본 발명의 일 실시 예는 바이노럴 렌더링을 위한 오디오 신호 처리 방법 및 장치를 제공하는 것을 목적으로 한다.
본 발명의 실시 예에 따른 입력 오디오 신호를 바이노럴 렌더링하는 오디오 신호 처리 장치는 상기 입력 오디오 신호를 수신하는 수신부; 상기 입력 오디오 신호를 바이노럴 렌더링하여 2채널 오디오를 생성하는 바이노럴 렌더러; 및 상기 2채널 오디오를 출력하는 출력부를 포함한다. 이때, 상기 바이노럴 렌더러는 청취자로부터 상기 입력 오디오 신호에 대응하는 음원까지의 거리와 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 상기 입력 오디오 신호를 바이노럴 렌더링할 수 있다.
상기 바이노럴 렌더러는 상기 청취자로부터 상기 음원까지의 거리와 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 머리 전달 함수(Head Related Transfer Function, HRTF)의 특성을 결정하고, 상기 HRTF를 사용하여 상기 입력 오디오 신호를 바이노럴 렌더링할 수 있다.
상기 HRTF는 상기 청취자로부터 상기 음원까지의 거리와 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 상기 청취자로부터 상기 음원까지의 경로에 대응하는 HRTF의 초기 시간 지연을 조정하여 생성된 의사 HRTF일 수 있다.
구체적으로 상기 청취자로부터 상기 음원까지의 거리 대비 상기 음원이 시뮬레이션하는 물체의 크기가 커지는 경우, 상기 의사 HRTF를 생성하기 위해 사용되는 상기 초기 지연 시간도 커질 수 있다.
또한, 상기 바이노럴 렌더러는 상기 입력 오디오 신호를 상기 청취자로부터 상기 음원까지의 경로에 대응하는 HRTF와 상기 의사 HRTF를 사용해 필터링하할 수 있다. 이때, 상기 바이노럴 렌더러는 상기 청취자로부터 상기 음원까지의 거리 대비 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 상기 청취자로부터 상기 음원까지의 경로에 대응하는 HRTF에 의해 필터링된 오디오 신호와 상기 의사 HRTF에 의해 필터링된 오디오 신호의 비율을 결정할 수 있다.
구체적으로 상기 바이노럴 렌더러는 상기 청취자로부터 상기 음원까지의 거리 대비 상기 음원이 시뮬레이션하는 물체의 크기가 커지는 경우, 상기 청취자로부터 상기 음원까지의 거리 대비 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 상기 청취자로부터 상기 음원까지의 경로에 대응하는 HRTF에 의해 필터링된 오디오 신호 대비 상기 의사 HRTF에 의해 필터링된 오디오 신호의 비율을 높일 수 있다.
또한, 상기 의사 HRTF는 상기 청취자로부터 상기 음원까지의 거리와 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 상기 HRTF의 2채널 간의 위상 및 상기 HRTF의 2채널간의 레벨차 중 적어도 어느 하나를 조정하여 생성된 것일 수 있다.
또한, 상기 바이노럴 렌더러는 상기 청취자로부터 상기 음원까지의 거리와 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 상기 의사 HRTF의 개수를 결정하고, 상기 HRTF와 상기 결정된 개수의 상기 의사 HRTF를 사용할 수 있다.
또한, 상기 바이노럴 렌더러는 상기 의사 HRTF에 의해 필터링된 오디오 신호 중 미리 설정된 최대 시간 지연보다 짧은 파장을 가지는 주파수 대역 오디오 신호만을 처리할 수 있다.
또한, 상기 바이노럴 렌더러는 상기 음원 위의 복수의 지점 각각과 청취자까지의 경로에 대응하는 복수의 HRTF를 사용해 상기 입력 오디오 신호를 바이노럴 렌더링할 수 있다.
이때, 상기 바이노럴 렌더러는 상기 청취자로부터 상기 음원까지의 거리와 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 상기 음원 위의 복수의 지점의 개수를 결정할 수 있다.
또한, 상기 바이노럴 렌더러는 상기 청취자로부터 상기 음원까지의 거리와 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 상기 음원 위의 복수의 지점의 위치를 결정할 수 있다.
상기 바이노럴 렌더러는 상기 청취자로부터 상기 음원까지의 거리와 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 상기 2채널 오디오 신호 사이의 IACC(Interaural Cross Correlation)를 조정할 수 있다.
구체적으로 상기 바이노럴 렌더러는 상기 청취자로부터 상기 음원까지의 거리 대비 상기 음원이 시뮬레이션하는 물체의 크기가 커지는 경우, 상기 2채널 오디오 신호 사이의 IACC를 낮출 수 있다.
또한, 상기 바이노럴 렌더러는 상기 2채널 오디오 신호에 대응하는 머리 전달 함수(Head Related Transfer Function, HRTF)의 위상을 랜덤화하여 상기 2채널 오디오 신호 사이의 IACC를 조정하는
또한, 상기 바이노럴 렌더러는 상기 입력 오디오 신호의 위상을 랜럼화한 신호와 상기 입력 오디오 신호를 상기 청취자로부터 상기 음원의 경로에 대응하는 머리 전달 함수(Head Related Transfer Function, HRTF)로 필터링한 신호를 더하여 상기 2채널 오디오 신호 사이의 IACC를 조정할 수 있다.
상기 바이노럴 렌더러는 상기 입력 오디오 신호의 지향성 패턴(directivity pattern)을 기초로 상기 음원이 시뮬레이션하는 물체의 크기를 연산할 수 있다.
상기 바이노럴 렌더러는 상기 입력 오디오 신호의 주파수 대역별로 상기 음원이 시뮬레이션하는 물체의 크기를 다르게 연산할 수 있다.
상기 바이노럴 렌더러는 상기 입력 오디오 신호 중 상대적으로 낮은 주파수 대역의 성분을 바이노럴 렌더링할 때 상기 음원이 시뮬레이션하는 물체의 크기를 상대적으로 높은 주파수 대역의 성분을 바이노럴 렌더링할 때 상기 음원이 시뮬레이션하는 물체의 크기보다 더 큰 것으로 연산할 수 있다.
상기 바이노럴 렌더러는 상기 청취자의 머리 방향을 기초로 상기 음원이 시뮬레이션하는 물체의 크기를 연산할 수 있다.
본 발명의 일 실시 예는 바이노럴 렌더링을 위한 오디오 신호 처리 방법 및 장치를 제공한다.
특히, 본 발명의 일 실시 예는 음원이 시뮬레이션하는 물체의 크기에 따라 달라지는 입체감을 표현하기 위한 바이노럴 렌더링 오디오 신호 처리 방법 및 장치를 제공한다.
도 1은 음원이 시뮬레이션하는 물체의 크기 및 청취자로부터 물체까지의거리에 따라 청취자의 양귀에 도달하는 오디오 신호의 특성이 달라지는 것을 보여준다.
도 2는 본 발명의 일 실시 예에 따른 바이노럴 오디오 신호 처리 장치를 보여주는 블록도이다.
도 3은 본 발명의 실시 예에 따른 오디오 신호 처리 장치가 음원으로부터 청취자까지의 경로에 해당하는 HRTF를 선택하는 방법을 보여준다.
도 4는 본 발명의 실시 예에 따른 오디오 신호 처리 장치가 청취자로부터 음원까지의 거리에 따라 바이노럴 렌더링된 2채널 오디오 신호 사이의 IACC를 조정할 때, 청취자로부터 음원까지의 거리에 따른 바이노럴 렌더링된 2채널 오디오 신호 사이의 IACC를 보여준다.
도 5는 본 발명의 실시 예에 따른 오디오 신호 처리 장치가 오디오 신호를 바이노럴 렌더링할 때 사용하는 의사(psuedo) HRTF의 임펄스 응답을 보여준다.
도 6은 본 발명의 실시 예에 따른 오디오 신호 처리 장치가 어느 하나의 음원을 대체하는 복수의 음원을 설정하여 오디오 신호를 바이노럴 렌더링하는 것을 보여준다.
도 7은 본 발명의 실시 예에 따른 오디오 신호 처리 장치가 복수의 음원을 하나의 음원같이 처리 하는 방법을 보여준다.
도 8은 본 발명의 실시 예에 따른 오디오 신호 처리 장치의 동작을 보여준다.
도 2는 본 발명의 일 실시 예에 따른 바이노럴 오디오 신호 처리 장치를 보여주는 블록도이다.
도 3은 본 발명의 실시 예에 따른 오디오 신호 처리 장치가 음원으로부터 청취자까지의 경로에 해당하는 HRTF를 선택하는 방법을 보여준다.
도 4는 본 발명의 실시 예에 따른 오디오 신호 처리 장치가 청취자로부터 음원까지의 거리에 따라 바이노럴 렌더링된 2채널 오디오 신호 사이의 IACC를 조정할 때, 청취자로부터 음원까지의 거리에 따른 바이노럴 렌더링된 2채널 오디오 신호 사이의 IACC를 보여준다.
도 5는 본 발명의 실시 예에 따른 오디오 신호 처리 장치가 오디오 신호를 바이노럴 렌더링할 때 사용하는 의사(psuedo) HRTF의 임펄스 응답을 보여준다.
도 6은 본 발명의 실시 예에 따른 오디오 신호 처리 장치가 어느 하나의 음원을 대체하는 복수의 음원을 설정하여 오디오 신호를 바이노럴 렌더링하는 것을 보여준다.
도 7은 본 발명의 실시 예에 따른 오디오 신호 처리 장치가 복수의 음원을 하나의 음원같이 처리 하는 방법을 보여준다.
도 8은 본 발명의 실시 예에 따른 오디오 신호 처리 장치의 동작을 보여준다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 출원은 대한민국 특허 출원 제10-2016-0055791호(2016.05.04)를 기초로 한 우선권을 주장하며, 우선권의 기초가 되는 상기 각 출원들에 서술된 실시 예 및 기재 사항은 본 출원의 상세한 설명에 포함되는 것으로 한다.
도 1은 음원이 시뮬레이션하는 물체의 크기 및 청취자로부터 음원까지의거리에 따라 청취자의 양귀에 도달하는 오디오 신호의 특성이 달라지는 것을 보여준다.
도 1에서 제1 음원(S) 출력 방향과 제2 음원(S') 출력 방향은 청취자의 중심으로부터 동일한 각도(c)에 위치한다. 이때, 제1 음원(S)과 제2 음원(S')은 모두 3차원상의 가상의 음원으로, 본 명세서에서 별도의 언급이 없는 경우 음원은 3차원상의 가상의 음원을 나타낸다. 이때, 제1 음원(S)과 제2 음원(S')은 오브젝트 신호에 대응하는 오디오 오브젝트 또는 채널 신호에 대응하는 라우드 스피커를 나타낼 수 있다. 제1 음원(S)은 청취자로부터 제1 거리(r1)만큼 떨어져 있다. 제2 음원(S')은 청취자로부터 제2 거리(r2)만큼 떨어져 있다. 이때, 제1 거리(r1)에 비해 제1 음원(S)의 면적은 상대적으로 작다. 제1 음원(S)의 왼쪽 끝 지점으로부터 출력된 오디오 신호의 청취자의 두 귀에 대한 입사각과 제1 음원(S)의 오른쪽 끝 지점으로부터 출력된 오디오 신호의 청취자에 대한 입사각은 차이를 보인다. 그러나 제1 음원(S)은 청취자로부터 제1 거리(r1)만큼 떨어져 있으므로, 제1 음원(S)의 왼쪽 끝 지점으로부터 출력되어 청취자에 전달되는 오디오 신호와 제1 음원(S)의 오른쪽 끝 지점으로부터 출력되어 청취자에 전달되는 오디오 신호의 차이는 상대적으로 작을 수 있다. 상대적으로 긴 경로를 따라 오디오 신호가 전달되면서 오디오 신호의 입사각 차이로 발생되는 청취자에게 전달된 오디오 신호간의 차이가 작아질 수 있기 때문이다. 따라서 오디오 신호 처리 장치는 제1 음원(S)을 점과 같이 취급할 수 있다. 구체적으로 오디오 신호 처리 장치는 제1 음원(S)의 중심에서 청취자까지 경로에 대응하는 HRTF(Head Related Transfer Function)를 이용하여 바이노럴 렌더링을 위한 오디오 신호를 처리할 수 있다. HRTF는 동측 귀를 위한 채널 오디오 신호에 대응하는 동측 HRTF와 대측 귀를 위한 채널 오디오 신호에 대응하는 대측 HRTF가 하나의 세트일 수 있다. 이때, 제1 음원(S)의 중심에서 청취자까지 경로는 제1 음원(S)의 중심과 청취자의 중심을 연결하는 경로일 수 있다. 또 다른 구체적인 실시 예에서 제1 음원(S)의 중심에서 청취자까지 경로는 제1 음원(S)의 중심과 청취자의 두 귀를 연결하는 경로일 수 있다. 구체적으로 오디오 신호 처리 장치는 제1 음원(S)의 중심에서 동측 귀의 입사각에 대응하는 동측 HRTF와 대측 귀의 입사각에 대응하는 대측 HRTF를 이용하여 바이노럴 렌더링을 위한 오디오 신호를 처리할 수 있다.
그러나 제2 거리(r2)에 비해 제2 음원(S')에서 오디오 신호를 출력하는 면적은 작지 않다. 따라서 제2 음원(S')의 왼쪽 끝 지점(p1)에서 출력된 오디오 신호의 청취자에 대한 입사각과 제2 음원(S')의 오른쪽 끝 지점(pN)에서 출력된 오디오 신호의 청취자에 대한 입사각은 차이를 보이고, 이러한 입사각의 차이에 따라 청취자에게 전달되는 오디오 신호는 의미있는 차이를 가질 수 있다. 오디오 신호 처리 장치는 이러한 차이를 고려하여 오디오 신호를 바이노럴 렌더링할 수 있다.
오디오 신호 처리 장치는 음원을 점이 아닌 넓이를 갖는 음원으로 취급할 수 있다. 구체적으로 오디오 신호 처리 장치는 음원이 시뮬레이션하는 물체의 크기(size)를 기초로 오디오 신호를 바이노럴 렌더링할 수 있다. 구체적인 실시 예에서, 오디오 신호 처리 장치는 청취자와 음원의 거리와 음원이 시뮬레이션하는 물체의 크기를 기초로 오디오 신호를 바이노럴 렌더링할 수 있다. 예컨대, 오디오 신호 처리 장치가 청취자로부터 기준 거리(R_thr)보다 가까운 음원의 오디오 신호를 바이노럴 렌더링하는 경우, 오디오 신호 처리 장치는 음원이 시뮬레이션하는 물체의 크기를 기초로 오디오 신호를 바이노럴 렌더링할 수 있다. 음원이 시뮬레이션하는 물체의 크기는 음원이 시뮬레이션하는 물체의 면적일 수 있다. 구체적으로 음원이 시뮬레이션하는 물체의 면적은 음원이 시뮬레이션하는 물체에서 오디오 신호가 출력되는 면적을 나타낼 수 있다. 또한, 음원이 시뮬레이션하는 물체의 크기는 음원의 부피일 수 있다. 설명의 편의를 위해, 음원이 시뮬레이션하는 물체의 크기를 음원의 크기(size)로 지칭한다.
오디오 신호 처리 장치는 음원의 크기를 기초로 HRTF의 특성을 조정하여 오디신호를 바이노럴 렌더링할 수 있다. 오디오 신호 처리 장치는 음원의 크기를 기초로 복수의 HRTF를 사용하여 오디오 신호를 바이노럴 렌더링할 수 있다. 이때, 오디오 신호 처리 장치는 음원의 크기와 청취자로부터 음원까지의 거리를 함께 고려할 수 있다. 구체적으로 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리 및 음원의 크기를 기초로 음원 위의 복수의 지점 각각으로부터 청취자까지의 경로에 대응하는 복수의 HRTF를 사용하여 오디오 신호를 바이노럴 렌더링할 수 있다. 구체적인 실시 예에서, 오디오 신호 처리 장치는 음원으로부터 청취자까지의 거리 및 음원의 크기를 기초로 음원 위의 복수의 지점 각각으로부터 청취자까지의 경로에 대응하는 복수의 HRTF를 사용하여 오디오 신호를 바이노럴 렌더링할 수 있다. 이때, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리와 음원의 크기를 기초로 음원 위의 복수 지점의 개수를 선택할 수 있다. 또한, 오디오 신호 처리 장치는 오디오 신호를 바이노럴 렌더링하기 위한 연산량을 기초로 복수 지점의 개수를 선택할 수 있다. 또한, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리와 음원의 크기를 기초로 음원 위의 복수의 지점의 위치를 선택할 수 있다. 음원 위의 복수의 지점 각각으로부터 청취자까지의 경로는 복수의 지점 각각으로부터 청취자의 머리 중심까지의 경로를 나타낼 수 있다. 또한, 음원 위의 복수의 지점 각각으로부터 청취자까지의 경로는 복수의 지점 각각으로부터 청취자의 두 귀까지의 경로를 나타낼 수 있다. 이때, 오디오 신호 처리 장치는 음원 위의 복수의 지점 각각으로부터 두 귀간의 거리 차이에따라 발생하는 시차(parallax)를 고려하여 오디오 신호를 바이노럴 렌더링할 수 있다. 구체적으로 오디오 신호 처리 장치는 음원 위의 복수의 지점 각각과 두 귀를 연결하는 복수의 경로 각각에 대응하는 HRTF를 사용하여 오디오 신호를 바이노럴 렌더링할 수 있다. 이에 대해서 도 3에 대한 설명을 통해 구체적으로 설명한다.
도 1의 실시 예에서, 오디오 신호 처리 장치는 제2 음원(S')의 오디오 신호 출력 면적(b)에 위치하는 복수의 지점 각각으로부터 두 귀까지의 경로에 대응하는 복수의 HRTF(p1~pN)를 사용하여 제2 음원(s')이 출력하는 오디오 신호를 바이노럴 렌더링할 수 있다. 이때, 복수의 HRTF(p1~pN) 각각은 청취자로부터 제2 음원(S')의 오디오 신호 출력 면적(b)에 위치하는 복수의 지점 각각을 연결하는 직선의 입사각에 해당하는 HRTF일 수 있다. 입사각은 고도각 또는 방위각일 수 있다.
또 다른 구체적인 실시 예에서, 오디오 신호 처리 장치는 음원의 크기를 기초로 바이노럴 렌더링되는 2채널 오디오 신호 사이의 IACC(Interaural Cross Correlation)를 조정할 수 있다. 청취자가 IACC가 낮은 2채널 오디오 신호를 듣는 경우, 청취자는 두 개의 오디오 신호가 서로 멀리 떨어진 곳에서 들려오는 것으로 느끼기 때문이다. 청취자는 IACC가 높은 2채널의 오디오를 들을 때보다 상대적으로 음원이 넓게 퍼져있는 것으로 느끼기 때문이다. 구체적으로 오디오 신호 처리 장치는 음원으로부터 청취자까지의 거리와 음원의 크기를 기초로 바이노럴 렌더링되는 2채널 오디오 신호간의 IACC를 조정할 수 있다. 구체적인 실시 예에서, 오디오 신호 처리 장치는 음원으로부터 청취자까지의 거리와 음원의 크기를 기초로 바이노럴 렌더링되는 2채널 오디오 신호간의 IACC를 조정할 수 있다. 예컨대, 오디오 신호 처리 장치는 음원으로부터 청취자까지의 거리와 음원의 크기를 비교해, 음원의 크기가 상대적으로 큰 경우 바이노럴 렌더링되는 2채널 오디오 신호의 IACC를 낮출 수 있다. 오디오 신호 처리 장치는 바이노럴 렌더링되는 2채널 오디오 신호 각각에 대응하는 HRTF의 위상(phase)을 랜덤화(randomization)하여 바이노럴 렌더링되는 2채널 오디오 신호의 IACC를 낮출 수 있다. 구체적으로 오디오 신호 처리 장치는 음원으로부터 청취자까지의 거리를 기준으로 음원의 상대적 면적이 커질수록 HRTF의 위상(phase)에 랜덤 성분을 추가하여 바이노럴 렌더링되는 2채널 오디오 신호의 IACC를 낮출 수 있다. 또한, 오디오 신호 처리 장치는 음원으로부터 청취자까지의 거리를 기준으로 음원의 상대적 면적이 작아질수록 HRTF의 위상(phase)을 복원하여 바이노럴 렌더링되는 2채널 오디오 신호의 IACC를 높일 수 있다. 오디오 신호 처리 장치가 IACC를 조정하여 음원의 크기를 시뮬레이션하는 경우, 오디오 신호 처리 장치가 음원 위의 복수의 지점 각각과 청취자를 연결하는 복수의 경로에 대응하는 복수의 HRTF를 사용하는 경우보다 더 적은 연산량으로 음원의 크기를 시뮬레이션할 수 있다. 또한, 오디오 신호 처리 장치는 복수의 지점 각각과 청취자를 연결하는 복수의 경로에 대응하는 복수의 HRTF를 사용하면서, 바이노럴 렌더링되는 2채널 오디오 신호의 IACC를 조정할 수 있다. 오디오 신호 처리 장치는 이러한 실시 예들을 통해 음원이 시뮬레이션하는 물체의 크기를 표현할 수 있다. 오디오 신호 처리 장치의 구체적인 동작은 도 2 내지 도 8을 통해 설명한다.
도 2는 본 발명의 일 실시 예에 따른 바이노럴 오디오 신호 처리 장치를 보여주는 블록도이다.
오디오 신호 처리 장치(100)는 입력부(110), 바이노럴 렌더러(130) 및 출력부(150)를 포함한다. 입력부(110)는 입력 오디오 신호를 수신한다. 바이노럴 렌더러(130)는 입력된 오디오 신호를 바이노럴 렌더링한다. 출력부(150)는 바이노럴 렌더링된 오디오 신호를 출력한다.
구체적으로 바이노럴 렌더러(130)는 입력 오디오 신호를 바이노럴 렌더링하여, 입력 오디오 신호가 3차원상의 가상의 음원에 의해 표현되는 2채널 오디오 신호를 출력한다. 이를 위해 바이노럴 렌더러(130)는 크기 연산부(131), HRTF 데이터베이스(135), 방향 렌더러(139) 및 거리 렌더러(141)를 포함할 수 있다.
크기 연산부(131)는 음원이 시뮬레이션하는 물체의 크기를 연산한다. 음원은 오브젝트 신호에 대응하는 오디오 오브젝트 또는 채널 신호에 대응하는 라우드 스피커를 나타낼 수 있다. 구체적으로 크기 연산부(131)는 음원으로부터 청취자까지의 거리에 대한 음원의 상대적인 크기를 연산할 수 있다. 이때, 음원의 크기는 음원의 면적일 수 있다. 구체적으로 음원의 크기는 오디오 신호가 출력되는 면적을 나타낼 수 있다. 또한, 음원의 크기는 음원의 부피를 나타낼 수 있다. 오디오 신호가 이미지와 매칭되는 경우, 크기 연산부(131)는 음원에 대응하는 이미지를 기초로 음원 크기를 연산할 수 있다. 구체적으로 크기 연산부(131)는 음원에 대응하는 이미지의 픽셀 수를 기초로 음원 크기를 연산할 수 있다. 또한, 크기 연산부(131)는 음원에 대한 메타데이터(Metadata)를 수신하여 음원의 크기를 연산할 수 있다. 이때, 음원에 대한 메타데이터는 위치 정보(localization information)을 포함할 수 있다. 구체적으로 오브젝트 음원의 방위각(azimuth, ), 고도각(elevation, ), 거리(distance, ) 및 크기(volume, ) 중 적어도 어느 하나에 대한 정보를 포함할 수 있다.
바이노럴 렌더러(130)는 HRTF 데이터베이스(135)로부터 음원에 해당하는 HRTF를 선택하고, 음원에 해당하는 오디오 신호에 선택한 HRTF를 적용한다. 이때, HRTF는 동측(ipsilateral) 귀를 위한 채널 오디오 신호에 대응하는 동측 HRTF와 대측(contralateral) 귀를 위한 채널 오디오 신호에 대응하는 대측 HRTF가 하나의 세트일 수 있다. 바이노럴 렌더러(130)는 앞서 설명한 바와 같이 음원으로부터 청취자까지의 경로 에 해당하는 HRTF를 선택할 수 있다. 이때, 음원으로부터 청취자까지의 경로는 음원으로부터 청취자의 중심까지의 경로를 나타낼 수 있다. 또한, 음원으로부터 청취까지의 경로는 음원으로부터 청취자의 두 귀까지의 경로를 나타낼 수 있다. 이때, 바이노럴 렌더러는 음원으로부터 청취자까지 경로 및 음원의 크기를 기초로 HRTF의 특성을 결정할 수 있다. 구체적으로 바이노럴 렌더러(130)는 음원으로부터 청취자까지 경로 및 음원의 크기를 기초로 복수의 HRTF를 사용하여 오디오 신호를 바이노럴 렌더링할 수 있다. 구체적인 실시 예에서, 바이노럴 렌더러(130)는 음원으로부터 청취자까지의 거리 및 음원의 크기를 기초로 복수의 지점 각각으로부터 청취자까지의 경로에 대응하는 복수의 HRTF를 사용하여 오디오 신호를 바이노럴 렌더링할 수 있다. 이때, 바이노럴 렌더러(130)는 청취자로부터 음원까지의 거리와 음원의 크기를 기초로 복수 지점의 개수를 선택할 수 있다. 구체적으로 바이노럴 렌더러(130)는 오디오 신호를 바이노럴 렌더링하기 위한 연산량을 기초로 복수 지점의 개수를 선택할 수 있다. 또한, 바이노럴 렌더러(130)는 청취자로부터 음원까지의 거리와 음원의 크기를 기초로 음원 위의 복수의 지점의 위치를 선택할 수 있다. 또한, 바이노럴 렌더러(130)는 앞서 설명한 메타데이터를 기초로 HRTF 데이터베이스(105)로부터 음원에 해당하는 HRTF를 선택할 수 있다. 이때, 바이노럴 렌더러(130)는 HRTF 선택의 기준이되는 음원 위의 지점으로부터 두 귀간의 거리 차이에따라 발생하는 시차(parallax)를 고려하여 오디오 신호를 바이노럴 렌더링할 수 있다. 구체적으로 바이노럴 렌더러(130)는 앞서 설명한 메타데이터를 기초로 HRTF 선택의 기준이되는 음원 위의 지점으로부터 두 귀간의 거리 차이에따라 발생하는 시차(parallax)를 고려하여 오디오 신호를 바이노럴 렌더링할 수 있다. 구체적인 실시 예에서, 바이노럴 렌더러(130)는 음원 고도 및 방향을 기초로 입력 오디오 신호에 시차 효과를 적용할 수 있다. 시차 효과 적용 및 HRTF 선택에 대해서는 도 3에 대한 설명을 통해 구체적으로 설명한다.
또한, 바이노럴 렌더러(130)는 앞서 설명한 바와 같이 바이노럴 렌더링되는 2채널 오디오 신호의 IACC를 조정할 수 있다. 구체적으로 바이노럴 렌더러(130)는 음원으로부터 청취자까지의 거리와 음원의 크기를 기초로 바이노럴 렌더링되는 2채널 오디오 신호 사이의 IACC를 조정할 수 있다. 구체적인 실시 예에서, 바이노럴 렌더러(130)는 음원으로부터 청취자까지의 거리와 음원의 크기를 기초로 바이노럴 렌더링되는 2채널 오디오 신호 사이의 IACC를 조정할 수 있다. 구체적인 실시 예에서 바이노럴 렌더러(130)는 IACC 조정을 위해 HRTF를 조정할 수 있다. 또 다른 구체적인 실시 예에서 바이노럴 렌더러(130)는 방향 렌더링된 오디오 신호의 IACC를 조정할 수 있다. 이에 대해서는 도 4에 대한 설명을 통해 구체적으로 설명한다.
방향 렌더러(139)는 입력 오디오 신호의 음원 방향을 정위(localizing)한다. 방향 렌더러(139)는 청취자를 기준으로 한 음원의 방향을 식별하도록 하는 바이노럴 큐(binaural cue) 즉, 디렉션 큐(direction cue)를 입력 오디오 신호에 적용할 수 있다. 이때, 디렉션 큐는 두 귀의 레벨차, 두 귀의 위상차, 스펙트럴 인벨로프(spectral envelope), 스펙트럴 노치(spectral notch), 피크 중 적어도 어느 하나를 포함할 수 있다. 방향 렌더러(139)는 동측 귀에 해당하는 HRTF인 동측 전달 함수 및 대측 귀에 해당하는 HRTF인 대측 전달 함수의 바이노럴 파라메터를 이용하여 바이노럴 렌더링을 수행할 수 있다. D^l(k)는 방향 렌더링 후 대측 전달 함수에서 출력된 신호를 나타내고, D^C(k)는 방향 렌더링 후 동측 전달 함수에서 출력된 신호를 나타낸다. 또한, 방향 렌더러(109)는 앞서 설명한 메타데이터를 기초로 입력 오디오 신호의 음원 방향을 정위할 수 있다.
거리 렌더러(141)는 음원로부터 청취까지의 거리에 따른 효과를 입력 오디오 신호에 적용한다. 거리 렌더러(141)는 청취자를 기준으로 한 음원의 거리를 식별하도록 하는 디스턴스 큐(distance cue)를 입력 오디오 신호에 적용할 수 있다. 거리 렌더러(141)는 음원의 거리 변화에 따른 음향 강도(sound intensity) 및 스펙트럴 형태(spectral shaping)의 변화를 입력 오디오 신호에 적용할 수 있다. 거리 렌더러(141)는 청취자로부터 음원까지의 거리가 미리 설정된 임계값 이하인지에 따라 입력 오디오 신호를 다르게 프로세싱할 수 있다. 청취자로부터 음원까지의 거리가 미리 설정된 임계값을 초과할 경우, 거리 렌더러(141)는 입력 오디오 신호에 청취자의 머리를 중심으로 하여 청취자로부터 음원까지의 거리에 반비례하는 음향 강도를 적용할 수 있다. 청취자로부터 음원까지의 거리가 미리 설정된 임계값 이하일 경우, 거리 렌더러(141)는 청취자의 두 귀 각각을 기준으로 측정된 음원의 거리를 기초로 입력 오디오 신호를 렌더링할 수 있다. 거리 렌더러(141)는 앞서 설명한 메타데이터를 기초로 음원으로부터 청취자까지의 거리에 따른 효과를 입력 오디오 신호에 적용할 수 있다. B^l(k)는 방향 렌더링 후 대측 전달 함수에서 출력된 신호를 나타내고, B^C(k)는 방향 렌더링 후 동측 전달 함수에서 출력된 신호를 나타낸다.
도 3은 본 발명의 실시 예에 따른 오디오 신호 처리 장치가 음원으로부터 청취자까지의 경로에 해당하는 HRTF를 선택하는 방법을 보여준다.
앞서 설명한 바와 같이 오디오 신호 처리 장치는 음원으로부터 청취자까지 거리 및 음원의 크기를 기초로 바이노럴 렌더링에 사용할 HRTF의 특성을 결정할 수 있다. 구체적으로 오디오 신호 처리 장치는 음원으로부터 청취자까지 거리 및 음원의 크기를 기초로 복수의 HRTF를 사용하여 오디오 신호를 바이노럴 렌더링할 수 있다. 이때, 바이노럴 렌더러는 음원으로부터 청취자까지 거리 및 음원의 크기를 기초로 복수 HRTF의 특성을 결정할 수 있다. 구체적인 실시 예에서 오디오 신호 처리 장치는 음원의 복수의 지점과 청취자를 연결하는 경로에 대응하는 복수의 HRTF를 사용할 수 있다. 따라서 오디오 신호 처리 장치는 음원의 크기를 기초로 음원 위의 복수의 지점으로부터 청취자까지의 경로에 대응하는 HRTF를 사용하여 오디오 신호를 바이노럴 렌더링할 수 있다. 오디오 신호 처리 장치가 사용하는 HRTF는 동측(ipsilateral) 귀를 위한 채널 오디오 신호에 대응하는 동측 HRTF와 대측(contralateral) 귀를 위한 채널 오디오 신호에 대응하는 대측 HRTF가 하나의 세트일 수 있다. 구체적으로 오디오 신호 처리 장치는 음원의 너비 및 높이를 기초로 음원 위의 복수의 지점으로부터 청취자까지의 경로에 대응하는 HRTF를 선택할 수 있다. 구체적인 실시 예에서, 오디오 신호 처리 장치는 음원의 크기를 기초로 음원 위의 복수의 지점 각각으로부터 청취자까지의 경로에 대응하는 복수의 HRTF를 선택할 수 있다. 예컨대, 오디오 신호 처리 장치는 음원의 크기를 기초로 음원 위의 복수의 지점을 선택하고, 복수의 지점 각각과 청취자 사이의 거리 및 청취자의 머리 반지름을 기초로 HRTF에 대응하는 입사각을 연산할 수 있다. 오디오 신호 처리 장치는 연산한 입사각을 기초로 음원 위의 복수의 지점에 대응하는 HRTF를 선택할 수 있다.
구체적인 실시 예에서 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리와 음원의 크기를 기초로 음원 위의 복수 지점의 개수를 선택할 수 있다. 또한, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리와 음원의 크기를 기초로 음원 위의 복수의 지점의 위치를 선택할 수 있다. 예컨대, 청취자로부터 음원까지의 거리가 미리 설정된 임계값을 초과하는 경우, 오디오 신호 처리 장치는 음원을 크기를 갖지 않는 점(point soure)으로 취급할 수 있다. 또한, 청취자로부터 음원까지의 거리가 미리 설정된 임계값보다 작은 경우, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리가 가까워질수록 음원 위의 더 많은 지점을 선택할 수 있다.
또 다른 구체적인 실시 예에서, 오디오 신호 처리 장치는 음원의 양 끝을 기준으로 음원의 양 끝과 음원의 중심 3개의 지점에 각각 대응하는 3개의 HRTF를 선택할 수 있다. 이때, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리가 가까워질수록 음원의 양 끝에 대응하는 HRTF로 더 큰 입사각에 대응하는 HRTF를 선택할 수 있다. 예컨대, 미리 지정된 임계값이 1m일 수 있다. 청취자로부터 음원까지의 거리가 1m인 경우, 음원과 청취자를 연결하는 경로의 입사각이 45도일 수 있다. 청취자로부터 음원까지의 거리가 0.5m인 경우, 오디오 신호 처리 장치는 거리 0.5m 입사각 35도에 대응하는 HRTF, 거리 0.5m 입사각 45도에 대응하는 HRTF 및 거리 0.5m 입사각 60도에 대응하는 HRTF를 선택할 수 있다. 청취자로부터 음원까지의 거리가 0.2m인 경우, 오디오 신호 처리 장치는 거리 0.2m 입사각 20도에 대응하는 HRTF, 거리 0.2m 입사각 45도에 대응하는 HRTF 및 거리 0.2m 입사각 70도에 대응하는 HRTF를 선택할 수 있다. 음원의 양 끝에 대응하는 각도는 청취자로부터 음원까지의 거리에 따라 미리 지정된 값일 수 있다. 또 다른 구체적인 실시 예에서 오디오 신호 처리 장치는 음원의 양 끝에 대응하는 각도를 청취자로부터 음원까지의 거리 및 음원의 크기에 따라 실시간으로 연산할 수 있다. 또한, 오디오 신호 처리 장치는 음원 위의 복수의 지점 각각과 두 귀를 연결하는 복수의 경로 각각에 대응하는 HRTF를 사용하여 오디오 신호를 바이노럴 렌더링할 수 있다. 또한, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리와 임계 값을 비교하지 않을 수 있다. 이때, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리에 관계 없이 동일한 개수의 HRTF를 사용할 수 있다. 또한, 청취자로부터 음원을 연결하는 경로의 입사각은 방위각과 고도각을 포함할 수 있다. 구체적으로 오디오 신호 처리 장치는 다음과 같은 수학식에 따라 오디오 신호를 바이노럴 렌더링할 수 있다.
[수학식 1]
D_I(k) = X(k)p1_I(k) + X(k)p2_I(k) + … + X(k)pN_I(k)
= X(k){ p1_I(k)+p2_I + … + pN_I(k) }
D_C(k) = X(k){ p1_C(k)+p2_C + … + pN_C(k) }
k는 주파수의 인덱스를 나타낸다. D_I(k), D_C(k) 각각은 주파수 인덱스가 k일 때 음원의 크기 및 청취자로부터 음원까지의 거리를 기초로 처리된 동측 귀에 대응하는 채널 신호와 대측 귀에 대응하는 채널 신호를 나타낸다. X(k)는 주파수 인덱스가 k일 때 음원에 대응하는 입력 오디오 신호를 나타낸다. pn_I(k), pn_C(k) 각각은 주파수 인덱스가 k일 때 음원의 pn 지점과 청취자를 연결하는 경로에 해당하는 동측 HRTF와 대측 HRTF를 나타낸다.
수학식 1에서, 오디오 신호 처리 장치는 선택한 복수의 HRTF를 다운 믹스한 후, 입력 오디오 신호를 다운믹스된 HRTF로 필터링한다. 이때, 수학식 1의 결과 값은 오디오 신호 처리 장치가 입력 오디오 신호를 복수의 HRTF 각각으로 필터링하는 것과 동일하다. 따라서 오디오 신호 처리 장치는 선택한 복수의 HRTF를 다운 믹스한 후, 오디오 신호를 다운믹스된 HRTF로 필터링할 수 있다. 오디오 신호 처리 장치는 이러한 동작을 통해 바이노럴 렌더링을 위한 연산량을 줄일 수 있다.
또한, 오디오 신호 처리 장치는 음원의 각 지점과 청취자의 두 귀 사이의 경로 길이 차를 기초로 대측 HRTF의 가중치와 동측 HRTF의 가중치를 조정하여 오디오 신호를 바이노럴 렌더링할 수 있다. 구체적으로 음원의 각 지점과 청취자의 동측 귀의 경로의 길이가 음원의 각 지점과 청취자의 대측 귀의 경로의 길이가 미리 지정된 임계 값 이상 차이나는 경우, 오디오 신호 처리 장치는 길이가 긴 경로에 해당하는 오디오 신호의 성분을 제외하고 오디오 신호를 바이노럴 렌더링할 수 있다. 도3의 실시 예에서, 오디오 신호 처리 장치는 음원 위의 복수의 지점(p1~pN) 각각과 청취자의 두 귀를 연결하는 경로에 해당하는 복수의 HRTF를 사용하여 오디오 신호를 바이노럴 렌더링한다. 이때, pm에서 대측 귀까지의 거리(r_pm_contral)는 동측 귀까지의 거리(r_pm_ipsi) 보다 크다. 구체적으로 pm에서 대측 귀까지의 거리(r_pm_contral)와 동측 귀까지의 거리(r_pm_ipsi) 차이는 미리 지정된 임계 값인 Rd_thr보다 크다. 오디오 신호 처리 장치는 pm으로부터 대측 귀까지의 경로에 해당하는 HRTF 성분을 제외하고 오디오 신호를 바이노럴 렌더링할 수 있다. 오디오 신호 처리 장치는 이러한 실시 예들을 통해 음원과 청취자의 거리가 가까워짐에 따라 물리적, 심리음향적으로 발생할 수 있는 그림자 효과(shadowing)를 반영할 수 있다.
또한, 오디오 신호 처리 장치가 음원 위의 복수의 지점 각각으로부터 청취자까지의 경로에 대응하는 복수의 HRTF를 사용하여 입력 오디오 신호를 바이노럴 렌더링하는 경우, 오디오 신호 처리 장치는 입사각(방위각 또는 고도각) 및 주파수에 따라 피크, 노치(notch) 등이 다른 주파수 응답을 갖는 복수의 HRTF를 합성할 수 있다. 따라서 바이노럴 렌더링된 오디오 신호의 방향 큐가 희석(blur)되거나, 바이노럴 렌더링된 오디오 신호의 음색이 입력 오디오 신호의 음색과 달라질 수 있다. 오디오 신호 처리 장치는 음원 위의 복수의 지점 각각으로부터 청취자까지의 경로에 대응하는 복수의 HRTF에 가중치를 주어 입력 오디오 신호를 바이노럴 렌더링할 수 있다. 구체적으로 오디오 신호 처리 장치는 음원 위의 복수의 지점 각각으로부터 청취자까지의 경로에 대응하는 복수의 HRTF에 음원의 중심을 기준으로 윈도우 형태의 가중치를 주어 입력 오디오 신호를 바이노럴 렌더링할 수 있다. 예컨대, 오디오 신호 처리 장치는 음원의 중심에 해당하는 지점으로부터 청취자까지의 경로에 대응하는 HRTF에 가장 큰 가중치를 적용할 수 있다. 또한, 오디오 신호 처리 장치는 음원의 중심으로부터 멀리 떨어진 지점일 수록, 해당 지점과 청취자까지의 경로에 대응하는 HRTF에 더 작은 가중치를 적용할 수 있다. 구체적으로 오디오 신호 처리 장치는 다음과 같은 수학식에 따라 오디오 신호를 바이노럴 렌더링할 수 있다.
[수학식 2]
D_I(k) = X(k) { w(1)p1_I(k) + … + w(c)pc_l(k) + … + w(N)pN_I(k) }
D_C(k) = X(k) { w(1)p1_C(k) + … + w(c)pc_C(k) + … + w(N)pN_C(k) }
k는 주파수의 인덱스를 나타낸다. D_I(k), D_C(k) 각각은 음원의 크기 및 청취자로부터 음원까지의 거리를 기초로 처리된 주파수 인덱스가 k일 때 동측 귀에 대응하는 채널 신호와 주파수 인덱스가 k일 때 대측 귀에 대응하는 채널 신호를 나타낸다. X(k)는 주파수 인덱스가 k일 때 음원에 대응하는 입력 오디오 신호를 나타낸다. pn_I(k), pn_C(k) 각각은 주파수 인덱스가 k일 때 음원의 pn 지점과 청취자를 연결하는 경로에 해당하는 동측 HRTF와 대측 HRTF를 나타낸다. w(x)는 음원 위의 지점과 청취자까지의 경로에 대응하는 HRTF에 적용되는 가중치를 나타낸다. 이때, w(c)는 음원의 중심과 청취자까지의 경로에 대응하는 HRTF에 적용되는 가중치로, 모든 가중치 값 중 제일 크다. 구체적인 실시 예에서, w(x)는 다음 수학식을 만족할 수 있다.
[수학식 3]
sum(w^2(k)) = 1
오디오 신호 처리 장치는 수학식 3을 사용해 바이노럴 렌더링된 오디오 신호의 에너지를 일정하게 유지할 수 있다. 오디오 신호 처리 장치는 이러한 실시 예들을 통해 음원 방향성을 유지하고, 바이노럴 렌더링 시 발생할 수 있는 음색 왜곡을 방지할 수 있다.
도 4는 본 발명의 실시 예에 따른 오디오 신호 처리 장치가 청취자로부터 음원까지의 거리에 따라 바이노럴 렌더링된 2채널 오디오 신호 사이의 IACC를 조정할 때, 청취자로부터 음원까지의 거리에 따른 바이노럴 렌더링된 2채널 오디오 신호 사이의 IACC를 보여준다.
앞서 설명한 바와 같이, 오디오 신호 처리 장치는 음원의 크기를 기초로 바이노럴 렌더링되는 2채널 사이의 IACC를 조정할 수 있다. 구체적으로 오디오 신호 처리 장치는 음원으로부터 청취자까지의 거리와 음원의 크기를 기초로 바이노럴 렌더링되는 2채널 오디오 신호간의 IACC를 조정할 수 있다. 구체적인 실시 예에서, 오디오 신호 처리 장치는 음원으로부터 청취자까지의 거리와 음원의 크기를 기초로 바이노럴 렌더링되는 2채널 오디오 신호의 IACC를 조정할 수 있다. 예컨대, 음원으로부터 청취자까지의 거리가 가까워져 음원 크기가 상대적으로 커지는 경우, 오디오 신호 처리 장치는 바이노럴 렌더링되는 2채널 오디오 신호의 IACC를 낮출 수 있다. 또한, 음원으로부터 청취자까지의 거리가 멀어져 음원 크기가 상대적으로 작아지는 경우, 오디오 신호 처리 장치는 바이노럴 렌더링되는 2채널 오디오 신호의 IACC를 높일 수 있다. 이때, 바이노럴 렌더링되는 2채널 오디오 신호의 IACC와 청취자로부터 음원까지의 상대적 거리는 도 4의 그래프와 같은 관계를 가질 수 있다
이때, 오디오 신호 처리 장치는 바이노럴 렌더링되는 2채널 신호의 위상을 램덤화하여 IACC를 조정할 수 있다. 구체적으로 오디오 신호 처리 장치는 바이노럴 렌더링되는 2채널 오디오 신호 각각에 대응하는 HRTF의 위상을 랜덤화하여 바이노럴 렌더링되는 2채널 오디오 신호의 IACC를 낮출 수 있다. 구체적인 실시 예에서 오디오 신호 처리 장치는 다음의 수학식을 사용해 바이노럴 렌더링되는 2채널 오디오 신호간의 IACC를 조정하기 위한 HRTF를 획득할 수 있다.
[수학식 4]
thr = max(min(r^a, thr_max), thr_min)
<pH_i_hat(k) = (1-thr) * <pH_i(k) + thr * <pRand(k)
pH_i_hat(k) = |pH_i(k)|exp(j * <pH_i_hat(k))
thr은 랜덤화 파라미터를 나타낸다. 이때, a는 청취자로부터 음원까지의 거리에 따른 위상을 랜덤화하는 정도를 나타내는 파라미터이고, r^a는 청취자로부터 음원까지의 거리에 따라 조정된 랜덤화 파라미터 값을 나타낸다. thr_max는 최대 랜덤화 파라미터를 나타내고, thr_min은 최소 랜덤화 파라미터를 나타낸다. min(a, b)는 a, b 중 최솟값을 나타내고, max(a, b)는 a, b 중 최댓값을 나타낸다. 따라서 랜덤화 파라미터는 최대 랜덤화 파라미터 값 이하이면서, 최소 랜덤화 파라미터 값 이상인 값을 갖는다. k는 주파수의 인덱스를 나타낸다. pRand(k)는 해당 주파수 인덱스에 적용되는 - ~ 사이의 난수를 나타낸다. pH_i는 바이노럴 렌더링되는 2채널 오디오 신호 각각에 대응되는 HRTF를 나타낸다. <pH_i(k)는 주파수 인덱스 k에 대응하는 각 HRTF의 위상을 나타내고, |pH_i(k)|는 주파수 인덱스 k에 대응하는 각 HRTF의 크기(magnitude)를 나타낸다. <pH_i_hat(k)는 주파수 인덱스 k에 대응하는 랜덤화된 HRTF의 위상을 나타내고, pH_i_hat은 주파수 인덱스 k에 대응하는 랜덤화된 HRTF를 나타낸다.
구체적으로 청취자로부터 음원까지의 거리가 멀어져 음원의 크기가 상대적으로 작아지는 경우, 오디오 신호 처리 장치는 thr을 0에 가까운 값으로 설정할 수 있다. 구체적인 실시 예에서 청취자로부터 음원까지의 거리가 미리 설정된 임계값보다 큰 경우, 오디오 신호 처리 장치는 thr을 0으로 설정할 수 있다. 이때, 오디오 신호 처리 장치는 위상이 조정되지 않은 pH_i(k)를 그대로 사용할 수 있다. 또한, 청취자로부터 음원까지의 거리가 가까워져 음원의 크기가 상대적으로 커지는 경우, 오디오 신호 처리 장치는 thr을 1에 가까운 값으로 설정할 수 있다. 이때, 오디오 신호 처리 장치는 랜덤하게 획득한 값을 위상으로 갖는 HRTF를 바이노럴 렌더링에 적용할 수 있다.
오디오 신호 처리 장치는 위의 실시 예들을 통해 각 주파수 인덱스 별로 위상을 랜덤화한 HRTF를 획득할 수 있다. 이때, 오디오 신호 처리 장치는 획득한 HRTF를 기초로 다음 수학식과 같은 방향 렌더링된 오디오 신호를 획득할 수 있다.
[수학식 5]
D_I(k) = X(k){|pH1_I_hat(k)|exp(-j*<pH1_I_hat(k))+…+ |pHN_I_hat(k)|exp(-j*<pHN_I_hat(k))}
D_C(k) = X(k){|pH1_C_hat(k)|exp(-j*<pH1_C_hat(k))+…+ |pHN_C_hat(k)|exp(-j*<pHN_C_hat(k))}
k는 주파수의 인덱스를 나타낸다. D_I(k), D_C(k) 각각은 음원의 크기 및 청취자로부터 음원까지의 거리를 기초로 처리된 동측 귀에 대응하는 채널 신호와 대측 귀에 대응하는 채널 신호를 나타낸다. X(k)는 음원에 대응하는 입력 오디오 신호를 나타낸다.
앞서 설명한 실시 예들에서, 오디오 신호 처리 장치는 주파수 밴드 별로 바이노럴 렌더링되는 2채널 오디오 신호간의 IACC를 조정할 수 있다. 구체적으로 오디오 신호 처리 장치는 음원의 크기를 기초로 바이노럴 렌더링되는 2채널 간의 IACC를 주파수 밴드 별로 조정할 수 있다. 구체적인 실시 예에서 오디오 신호 처리 장치는 음원의 크기 및 청취자로부터 음원까지의 거리를 기초로 바이노럴 렌더링되는 2채널 사이의 IACC를 주파수 밴드 별로 조정할 수 있다. 구체적으로 오디오 신호 처리 장치는 음원에 대응하는 입력 오디오 신호의 특성에 따라 음색에 영향이 적은 주파수 밴드에서 바이노럴 렌더링되는 2채널 오디오 신호사이의 IACC를 조정할 수 있다. 예컨대, 벌소리, 모기 소리와 같이 일반적으로 음원 시뮬레이션하는 물체의 크기가 작아 크게 음원의 크기를 넓힐 필요성이 적은 경우 오디오 신호 처리 장치는 오브젝트에 해당하는 오디오 신호의 고주차 밴드 성분을 랜덤화할 수 있다. 또한, 음원이 시뮬레이션하는 물체의 크기가 크거나 가능한 음원의 크기를 넓힐 필요가 있는 경우, 오디오 신호 처리 장치는 음원에 해당하는 오디오 신호의 저주파 밴드 성분을 랜덤화할 수 있다. 또한, 오디오 신호 처리 장치는 바이노럴 렌더링 되는 2채널 오디오 신호 중 w/c>>r 에 해당하는 주파수 밴드 k 성분의 IACC를 조정할 수 있다. 이때, w는 각주파수, c는 음속, r은 청취자로부터 음원까지의 거리를 나타낸다. 오디오 신호 처리 장치는 이러한 실시 예들을 통해 IACC 조정으로 인해 발생할 수 있는 음색 변화를 최소화할 수 있다.
또 다른 구체적인 실시 예에서, 입력 오디오 신호를 청취자로부터 음원까지의 경로에 해당하는 HRTF로 필터링한 신호와 입력 오디오 신호 자체를 랜덤화한 신호를 더하여 음원의 크기를 조절 할 수도 있다. 설명의 편의를 위해 오디오 신호를 청취자로부터 음원까지의 경로에 해당하는 HRTF로 필터링한 신호를 필터링된 오디오 신호라 지칭하고, 오디오 신호의 위상을 랜덤화한 오디오 신호를 랜덤 위상 오디오 신호라 지칭한다. 이때, 오디오 신호 처리 장치는 랜덤 위상 오디오 신호와 필터링된 오디오 신호의 비율을 청취자로부터 음원까지의 거리 및 음원의 크기를 기초로 조정할 수 있다. 구체적인 실시 예에서, 청취자로부터 음원까지의 거리가 가까워져 음원의 크기가 상대적으로 커지는 경우, 오디오 신호 처리 장치는 랜덤 위상 입력 오디오 신호에 대한 필터링된 오디오 신호의 비율을 낮출 수 있다. 청취자로부터 음원까지의 거리가 멀어져 음원의 크기가 상대적으로 작아지는 경우, 오디오 신호 처리 장치는 랜덤 위상 오디오 신호에 대한 필터링된 오디오 신호의 비율을 높일 수 있다. 오디오 신호 처리 장치는 이러한 실시 예들을 통해 연산량을 줄이면서, 바이노럴 렌더링된 2채널 오디오 신호간의 IACC를 조절할 수 있다. 구체적으로 오디오 신호 처리 장치는 다음의 수식을 통해 음원에 해당하는 오디오 신호를 바이노럴 렌더링할 수 있다.
[수학식 6]
D_I(k) = X(k)p1_I(k) + X(k)v(k) exp(j*pRand1(k))
D_C(k) = X(k)p1_C(k) + X(k)v(k) exp(j*pRand2(k))
D_I(k), D_C(k) 각각은 음원의 크기 및 청취자로부터 음원까지의 거리를 기초로 처리된 동측 귀에 대응하는 채널 신호와 대측 귀에 대응하는 채널 신호를 나타낸다. X(k)는 입력 오디오 신호를 나타낸다. pn_I(k), pn_C(k) 각각은 음원의 pn 지점과 청취자를 연결하는 경로에 해당하는 동측 HRTF와 대측 HRTF를 나타낸다. pRandn1(k)과 pRandn2(k)는 상호관련성이 없는(uncorrelated) 랜덤화 변수이다. v(k)는 위상이 랜덤화된 입력 오디오 신호에 대한 입력 오디오 신호를 음원에 해당하는 HRTF로 필터링한 신호의 비율을 나타낸다. 이때, v(k)는 청취자로부터 음원까지의 거리 및 음원의 크기를 기초로 시변(time varying)하는 값일 수 있다. 오디오 신호 처리 장치는 아래의 수학식을 사용해 v(k)를 획득할 수 있다.
[수학식 7]
v(k) = (1+r_hat)/(1-r_hat)
r_hat = max(min(r^a, thr_max), thr_min)
a는 청취자로부터 음원까지의 거리 및 음원의 크기에 따른 위상을 무작위로 조정하는 정도를 나타내는 파라미터이고, r_hat는 청취자로부터 음원까지의 거리 및 음원의 크기를 기초로 조정된 무작위 조정 파라미터 값을 나타낸다. thr_max는 최대 무작위 조정 파라미터를 나타내고, thr_min은 최소 무작위 조정 파라미터를 나타낸다. min(a, b)는 a, b 중 최솟값을 나타내고, max(a, b)는 a, b 중 최댓값을 나타낸다. 따라서 무작위 조정 파라미터는 최대 무작위 조정 파라미터 값 이하이면서, 최소 무작위 조정 파라미터 값 이상인 값을 갖는다.
앞서 설명한 바와 같이 오디오 신호 처리 장치는 음원으로부터 청취자까지 거리 및 음원의 크기를 기초로 복수의 HRTF를 사용하여 오디오 신호를 바이노럴 렌더링할 수 있다. 이때, 바이노럴 렌더러는 음원으로부터 청취자까지 거리 및 음원의 크기를 기초로 HRTF의 특성을 결정할 수 있다. 도 3을 통해 오디오 신호 처리 장치가 음원 위의 복수의 지점 각각으로부터 청취자까지를 연결하는 경로에 해당하는 복수의 HRTF를 사용하여 음원이 시뮬레이션하는 물체의 입체감을 재현하는 방법을 설명하였다. 이때, 복수의 HRTF는 미리 측정된 HRTF일 수 있다. 또한, 도 4를 통해 오디오 신호 처리 장치가 HRTF의 위상을 조절하여 음원이 시뮬레이션하는 물체의 입체감을 재현하는 방법을 설명했다. 본 발명의 또 다른 실시 예에서 오디오 신호 처리 장치는 음원의 한 지점과 청취자를 연결하는 경로에 대응하는 HRTF에서 초기 시간 지연, 채널간의 위상 및 채널간의 레벨 중 적어도 어느 하나를 조정하여 의사(pseudo) HRTF를 생성할 수 있다. 이때, 오디오 신호 처리 장치는 의사 HRTF를 사용하여 오디오 신호를 바이노럴 렌더링할 수 있다. 구체적인 실시 예에서 오디오 신호 처리 장치는 복수 의사 HRTF를 사용할 수 있다. 또한, 오디오 신호 처리 장치는 의사 HRTF와 음원의 한 지점과 청취자를 연결하는 경로에 대응하는 HRTF를 함께 사용하여 오디오 신호를 바이노럴 렌더링할 수 있다. 이에 대해서는 도 5를 통해 구체적으로 설명한다.
도 5는 본 발명의 실시 예에 따른 오디오 신호 처리 장치가 오디오 신호를 바이노럴 렌더링할 때 사용하는 의사(psuedo) HRTF의 임펄스 응답을 보여준다.
오디오 신호 처리 장치는 장치는 음원의 한 지점과 청취자를 연결하는 경로에 대응하는 HRTF와 해당 HRTF를 기초로 생성된 의사 HRTF를 사용하여 음원에 대응하는 입력 오디오 신호를 바이노럴 렌더링할 수 있다. 구체적으로 오디오 신호 처리 장치는 음원의 한 지점과 청취자를 연결하는 경로에 대응하는 HRTF에 의해 필터링된 오디오 신호와 해당 HRTF를 기초로 생성된 의사 HRTF에 의해 필터링된 오디오 신호를 더하여 오디오 신호를 바이노럴 렌더링할 수 있다.
오디오 신호 처리 장치는 음원의 한 지점과 청취자를 연결하는 경로에 대응하는 HRTF에서 초기 시간 지연, 채널간의 위상 및 채널간의 레벨 중 적어도 어느 하나를 조정하여 의사(pseudo) HRTF를 생성할 수 있다. 구체적으로 오디오 신호 처리 장치는 음원의 한 지점과 청취자를 연결하는 경로에 대응하는 HRTF에서 초기 시간 지연, 채널간의 위상 및 채널간의 레벨을 조정하여 의사 HRTF를 생성할 수 있다. 또한, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리 및 음원의 크기를 기초로 의사 HRTF의 초기 시간 지연을 조정할 수 있다. 구체적으로 청취자로부터 음원까지 거리가 멀어져 음원의 크기가 상대적으로 작아지는 경우, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리 및 음원의 크기를 기초로 의사 HRTF의 초기 시간 지연을 감소시킬 수 있다. 예컨대, 청취자로부터 음원까지 거리가 미리 설정된 임계값보다 큰 경우, 오디오 신호 처리 장치는 의사 HRTF의 초기 시간 지연을 0으로 설정할 수 있다. 또한, 청취자로부터 음원까지 거리가 가까워져 음원의 크기가 상대적으로 커지는 경우, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리 및 음원의 크기를 기초로 의사 HRTF의 초기 시간 지연을 증가시킬 수 있다. 예컨대, 청취자로부터 음원까지 거리가 미리 설정된 임계값보다 작은 경우, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리 및 음원의 크기를 기초로 의사 HRTF의 초기 시간 지연을 증가시킬 수 있다.
오디오 신호 처리 장치가 음원의 한 지점과 청취자를 연결하는 경로에 대응하는 HRTF와 해당 HRTF를 기초로 생성된 의사 HRTF를 함께 사용하는 경우 , 오디오 신호 처리 장치는 음원까지의 거리 및 음원의 크기를 기초로 음원과 청취자를 연결하는 경로에 대응하는 HRTF에 의해 필터링된 오디오 신호와 의사 HRTF에 의해 필터링된 오디오 신호의 비율을 조정할 수 있다. 구체적으로 청취자로부터 음원까지 거리가 멀어져 음원의 크기가 상대적으로 작아지는 경우, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리 및 음원의 크기를 기초로 음원의과 청취자를 연결하는 경로에 대응하는 HRTF에 의해 필터링된 오디오 신호에 대한 의사 HRTF에 의해 필터링된 오디오 신호의 비율을 낮출 수 있다. 예컨대, 청취자로부터 음원까지 거리가 미리 설정된 임계값보다 큰 경우, 오디오 신호 처리 장치는 음원과 청취자를 연결하는 경로에 대응하는 HRTF에 의해 필터링된 오디오 신호에 대한 의사 HRTF에 의해 필터링된 오디오 신호의 비율을 0으로 설정할 수 있다. 또한, 청취자로부터 음원까지 거리가 가까워져 음원의 크기가 상대적으로 커지는 경우, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리 및 음원의 크기를 기초로 음원과 청취자를 연결하는 경로에 대응하는 HRTF에 의해 필터링된 오디오 신호에 대한 의사 HRTF에 의해 필터링된 오디오 신호의 비율을 높일 수 있다. 예컨대, 청취자로부터 음원까지 거리가 미리 설정된 임계값보다 작은 경우, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리 및 음원의 크기를 기초로 음원의 한 지점과 청취자를 연결하는 경로에 대응하는 HRTF에 의해 필터링된 오디오 신호에 대한 의사 HRTF에 의해 필터링된 오디오 신호의 비율을 높일 수 있다.
또한, 오디오 신호 처리 장치는 복수의 의사 HRTF를 생성하고, 복수의 의사 HRTF를 이용하여 오디오 신호를 바이노럴 렌더링할 수 있다. 이때, 오디오 신호 처리 장치는 음원까지의 거리 및 음원의 크기를 기초로 생성할 의사 HRTF의 개수를 선택할 수 있다. 또한, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리 및 음원의 크기를 기초로 청취자와 음원을 연결하는 경로의 기준이되는 음원의 지점의 위치를 선택할 수 있다. 구체적인 실시 예에서 오디오 신호 처리 장치는 다음의 수학식을 사용해 오디오 신호를 바이노럴 렌더링할 수 있다.
[수학식 8]
H_n_hat_I(k) = w_n*H_I_n(k)exp(j*2π *d_n/N)
H_n_hat_C(k) = -w_n*H_C_n(k)exp(j*2 π *d_n/N)
k는 주파수의 인덱스를 나타낸다. N은 주파수 도메인에서 한프레임의 크기를 나타낸다. H_IC_n(k)는 음원과 청취자를 연결하는 경로에 대응하는 HRTF를 나타낸다. 구체적으로 H_IC_n(k)는 음원 중심과 청취자를 연결하는 경로에 대응하는 HRTF를 나타낼 수 있다. 또한, 오디오 신호 처리 장치는 앞서 설명한 크기 연산부를 통해 HRTF를 선택할 수 있다. 또한, 오디오 신호 처리 장치는 H_n_hat_IC(k)를 하나에서 복수개까지 다양하게 생성할 수 있다. H_n_hat_IC(k)는 H_IC_n(k)에서 초기 시간 지연을 조정하여 생성한 의사 HRTF를 나타낸다. d_n은 의사 HRTF에 적용되는 시간 지연을 나타낸다. 오디오 신호 처리 장치는 앞서 설명한 바와 같이 청취자로부터 음원까지의 거리와 음원의 크기를 기초로 d_n의 값을 결정할 수 있다. 또한, w_n은 음원의 한 지점과 청취자를 연결하는 경로에 대응하는 HRTF에 의해 필터링 오디오 신호에 대한 의사 HRTF에 의해 필터링된 오디오 신호의 비율을 나타낸다. 오디오 신호 처리 장치는 앞서 설명한 바와 같이 청취자로부터 음원까지의 거리와 음원의 크기를 기초로 w_n의 값을 결정할 수 있다.
도 5는 음원의 한 지점으로부터 청취자까지 연결하는 경로에 대응하는 HRTF와 의사 HRTF의 임펄스 응답을 보여준다. 크기가 1인 임펄스 응답은 음원으로부터 청취자를 연결하는 경로에 대응하는 HRTF의 임펄스 응답을 보여준다. 또한, 제1 시간(d1)만큼 지연된 위치에 제1 가중치(w1)가 적용된 의사 HRTF의 임펄스 응답과 제2 시간(d2)만큼 지연된 위치에 제2 가중치(w2)가 적용된 의사 HRTF의 임펄스 응답을 보여준다.
이와 같은 실시 예들에서 청취자는 의사 HRTF가 아닌 HRTF에 의해 필터링된 오디오 신호를 먼저 듣게 된다. 선행 효과(precedence effect)로 인해 청취자는 의사 HRTF에 의해 필터링된 오디오 신호를 듣더라도 음원의 원래 방향을 혼동하지 않을 수 있다. 또한, 의사 HRTF에 의해 필터링되는 2채널 오디오 신호간의 위상이 모든 주파수에서 동일한 위상차(out-of-phase)를 가진다. 따라서 음원으로부터 청취까지의 거리 및 음원의 크기를 기초로 바이노럴 렌더링되어 발생하는 음색의 왜곡이 적을 수 있다.
또한, 오디오 신호 처리 장치는 음원과 청취자를 연결하는 경로에 대응하는 HRTF에 의해 필터링 오디오 신호에 대한 의사 HRTF에 의해 필터링된 오디오 신호의 가중치를 정규화하여 오디오 신호를 바이노럴 렌더링할 수 있다. 오디오 신호 처리 장치는 이를 통해 음원에 대응하는 오디오 신호가 가지는 레벨을 일정하게 유지할 수 있다. 구체적으로 오디오 신호 처리 장치는 다음 수학식과 같이 오디오 신호를 바이노럴 렌더링할 수 있다.
[수학식 9]
D_I(k) = X(k){H_I(k) + H1_hat_I(k) + H2_hat_I(k) + … + Hn_hat_I(k)} / sqrt(1+w_1^2 + … + w_n^2)
D_C(k) = X(k){H_C(k) + H1_hat_C(k) + H2_hat_C(k) + … + Hn_hat_C(k)} / sqrt(1+w_1^2 + … + w_n^2)
k는 주파수의 인덱스를 나타낸다. H_IC_n(k)는 음원과 청취자를 연결하는 경로에 대응하는 HRTF를 나타낸다. H_n_hat_IC(k)는 H_IC_n(k)에서 초기 시간 지연을 조정하여 생성한 의사 HRTF를 나타낸다. w_n은 음원과 청취자를 연결하는 경로에 대응하는 HRTF에 의해 필터링 오디오 신호에 대한 의사 HRTF에 의해 필터링된 오디오 신호의 비율을 나타낸다. 또한, 확장된 너비를 가지는 음원의 렌더링을 위해 오디오 처리 장치는 H_IC_n(k)는 사용하지 않고 H_n_hat_IC(k)의 조합을 사용해 오디오 신호를 바이노럴 렌더링할 수 있다. 이때, 오디오 신호 처리 장치는 수학식 9에서 H_I(k) 및 H_C(k)를 사용하지 않을 수 있고, 에너지 보존을 위해 사용하는 정규화값의 연산에서 상수항 1을 생략할 수 있다,
오디오 신호 처리 장치는 의사 HRTF에 의해 필터링된 오디오 신호 중 미리 설정된 최대 시간 지연 보다 짧은 파장을 가지는 주파수 대역의 오디오 신호만을 처리할 수 있다. 구체적으로 오디오 신호 처리 장치는 미리 설정된 최대 시간 지연 보다 긴 파장을 가지는 주파수 대역의 오디오 신호를 처리 하지 않을 수 있다. 구체적인 실시 예에서 오디오 신호 처리 장치는 다음의 수학식에서 k_c > k에 해당하는 주파수 대역은 처리하지 않을 수 있다.
[수학식 10]
k_c = 1/(d_n/fs)
이러한 실시 예를 통해 저주파수 대역에서 발생하는 음질 왜곡을 방지할의사 수 있다. 구체적으로 HRTF에 의해 필터링된 2채널 오디오 신호는 좌우측이 일정한 위상차(out-of-phase)를 갖고, 부호가 반대일 수 있다. 이때, 음원의 한 지점과 청취자를 연결하는 경로에 해당하는 HRTF에 필터링된 오디오 신호와 의사 HRTF에 의해 필터링된 오디오 신호는 완전히 연관성이 없는(decorrlated) 신호이다. 따라서 저주파 대역의 신호가 반대쪽 귀에 해당하는 신호로 전달될 수 있고, 음질의 왜곡이 발생할 수 있다. 오디오 신호 처리 장치는 앞서 설명한 실시 예들을 통해 이러한 음질 왜곡을 방지할 수 있다.
도 6은 본 발명의 실시 예에 따른 오디오 신호 처리 장치가 어느 하나의 음원을 대체하는 복수의 음원을 설정하여 오디오 신호를 바이노럴 렌더링하는 것을 보여준다.
오디오 신호 처리 장치는 하나의 음원을 복수의 음원으로 대체하여 오디오 신호를 바이노럴 렌더링할 수 있다. 이때, 복수의 음원에 해당하는 오디오 신호는 복수의 음원이 대체하는 하나의 음원의 위치에 정위(localizing)된다. 스테레오 스피커 환경에서 점과 같은 음원을 시뮬레이션하기 위해 패닝(panning)이 사용될 수 있다. 스테레오 스피커가 하나의 중심 지점으로 패닝되는 경우 음상이 흐트러진다. 이때, 청취자는 음원이 시뮬레이션하는 물체의 입체감을 느낄 수 있다. 따라서 오디오 신호 처리 장치가 하나의 음원을 복수의 음원으로 대체하는 경우에도 청취자는 음원이 시뮬레이션하는 물체의 입체감을 느낄 수 있다.
구체적으로 오디오 신호 처리 장치는 복수의 HRTF를 사용하고, 복수의 HRTF는 하나의 음원을 대체하는 복수의 음원 각각과 청취자를 연결하는 복수의 경로 각각에 대응할 수 있다. 또한, 복수의 음원의 개수는 두 개일 수 있다. 또한, 복수의 음원은 해당 음원의 위치에 정위되는 오디오 신호를 출력한다.
오디오 신호 처리 장치는 청취자로부터 음원까지의 거리 및 음원의 크기를 기초로 하나의 음원을 대체하는 복수의 음원 사이의 간격을 조정할 수 있다. 구체적으로 청취자로부터 음원까지의 거리가 가까워져 상대적인 음원의 크기가 커지는 경우, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리 및 음원의 크기를 기초로 복수의 음원 사이의 간격을 넓힐 수 있다. 예컨대, 청취자로부터 음원까지의 거리가 미리 설정된 임계값 이하이어서 상대적인 음원의 크기가 큰 경우, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리 및 음원의 크기를 기초로 복수의 음원 사이의 간격을 넓힐 수 있다. 또한, 청취자로부터 음원까지의 거리가 멀어져 상대적인 음원의 크기가 작아지는 경우, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리 및 음원의 크기를 기초로 복수의 음원 사이의 간격을 좁힐 수 있다. 또한, 청취자로부터 음원까지의 거리가 미리 설정된 임계값 이상이어서 상대적인 음원의 크기가 작은 경우, 오디오 신호 처리 장치는 해당 음원을 복수의 음원으로 대체하지 않을 수 있다.
오디오 신호 처리 장치의 동작은 도 6의 실시 예를 통해 구체적으로 설명한다. 음원이 청취자로부터 제1 거리(r1)만큼 떨어진 경우, 오디오 신호 처리 장치는 음원 위의 한 지점인 P1을 P1의 위치에 정위되는 오디오 신호를 출력하는 두 개의 음원인 제1 음원 세트(Pair1)로 대체한다. 또한, 음원이 청취자로부터 제2 거리(r2)만큼 떨어진 경우, 오디오 신호 처리 장치는 음원 위의 한 지점인 P2를 P2의 위치에 정위되는 오디오 신호를 출력하는 두 개의 음원인 제2 음원 세트(Pair2)로 대체한다. 이때, 제2 거리(r2)가 제1 거리(r1)보다 작으므로 오디오 신호 처리 장치는 제2 음원 세트(Pair2)에 포함된 음원 간의 간격을 제1 음원 세트(Pair2)에 포함된 음원 간의 간격보다 넓게 조정한다.
앞서 설명한 실시 예들을 통해, 오디오 신호 처리 장치가 음원이 시뮬레이션하는 물체의 입체감을 표현하는 방법을 설명하였다. 음원이 시뮬레이션하는 물체의 입체감을 표현하기 위해서는 음원의 거리 및 음원 크기뿐만 아니라 다른 요소들을 고려할 필요가 있다. 아래 설명을 통해 이에 대해 설명한다.
오디오 신호 처리 장치는 청취자의 머리 방향과 음원의 방향을 기초로 음원의 크기를 연산하고, 연산한 음원의 크기를 기초로 오디오 신호를 바이노럴 렌더링할 수 있다. 구체적으로 오디오 신호 처리 장치는 시차(parallax)를 적용할 때, 수평적 시각차뿐만 아니라 수직적 시차를 적용할 수 있다. 청취자와 음원의 상대적 위치 및 청취자의 머리 회전에 따라 청취자의 두 귀의 고도차 등이 바뀔 수 있기때문이다. 예컨대, 청취자의 두 귀가 음원과 대각선 상에 위치하는 경우, 오디오 신호 처리 장치는 수직적 시차를 적용할 수 있다. 구체적으로 음원으로부터 멀리 떨어진 귀와 음원 사이의 경로에 대응하는 HRTF를 적용하지 않고 음원으로부터 가까운 귀와 음원 사이의 경로에 대응하는 HRTF만을 적용하여 오디오 신호를 바이노럴 렌더링할 수 있다.
또한, 오디오 신호 처리 장치는 음원에 해당하는 오디오 신호의 지향성 패턴(directivity pattern)을 기초로 음원의 크기를 연산할 수 있다. 주파수 대역에 따라 오디오 신호의 방사폭이 달라지기 때문이다. 구체적으로 오디오 신호 처리 장치는 주파수 대역 별로 음원의 크기를 다르게 연산할 수 있다. 구체적인 실시 예에서, 오디오 신호 처리 장치는 주파수 대역별로 음원의 크기를 다르게 연산할 수 있다. 예컨대, 오디오 신호 처리 장치는 음원에 대응하는 오디오 신호 중 높은 주파수 대역 성분을 바이노럴 렌더링할 때 음원의 크기가 낮은 주파수 대역 성분을 바이노럴 렌더링할 때 음원의 크기보다 더 큰 것으로 연산할 수 있다. 고주파수 대역의 오디오 신호일수록 오디오 신호의 방사 폭이 좁아질 수 있기 때문이다.
앞서 설명한 오디오 신호 처리 장치가 IACC를 조정하는 실시 예에서, 오디오 신호 처리 장치는 주파수 대역별로 바이노럴 렌더링되는 2채널 오디오 신호의 IACC를 조정할 수 있다. 구체적으로 오디오 신호 처리 장치는 주파수 대역별로 2채널 오디오 신호에 적용되는 HRTF의 랜덤화 정도를 다르게 조정할 수 있다. 구체적인 실시 예에서 오디오 신호 처리 장치는 HRTF의 저주파수 대역에서의 위상 랜덤화 정도를 HRTF의 고주파 대역에서의 위상 랜덤화 정도보다 높게 설정할 수 있다.
또한, 오디오 신호 처리 장치는 주파수 대역을 ERB(Equivalent Rectangular Bandwidth), 임계 대역 (critical bands), 및 octave band 중 적어도 어느 하나를 기초로 구별할 수 있다. 또한, 오디오 신호 처리 장치는 주파수 대역을 구분하기 위해 이러한 방법 이외의 다양한 방법을 사용할 수 있다.
오디오 신호 처리 장치가 복수의 음원에 해당하는 오디오 신호를 바이노럴 렌더링하는 경우, 오디오 신호 처리 장치는 복수의 음원에 각각에 해당하는 복수의 HRTF를 개별적으로 적용해야 할 수 있다. 따라서 오디오 신호 처리 장치의 연산량이 과도하게 커질 수 있다. 이때, 오디오 신호 처리 장치는 복수의 음원을 일정한 크기 이상의 하나의 음원으로 대체하여 바이노럴 렌더링을 위한 연산량을 줄일 수 있다. 이에 대해서는 도 7을 통해 설명한다.
도 7은 본 발명의 실시 예에 따른 오디오 신호 처리 장치가 복수의 음원을 하나의 음원같이 처리 하는 방법을 보여준다.
오디오 신호 처리 장치는 복수의 음원을 하나의 대체 음원으로 대체하고, 청취자로부터 대체 음원까지의 거리 및 대체 음원의 크기를 기초로 오디오 신호를 바이노럴 렌더링할 수 있다. 이때, 오디오 신호 처리 장치는 대체 복수의 음원의 위치를 기초로 대체 음원의 크기를 연산할 수 있다. 구체적으로 오디오 신호 처리 장치는 대체 음원의 크기를 복수의 음원이 존재하는 공간의 크기로 연산할 수 있다. 오디오 신호 처리 장치가 청취자로부터 대체 음원까지의 거리 및 대체 음원의 크기를 기초로 오디오 신호를 바이노럴 렌더링할 때, 오디오 신호 처리 장치는 도 1 내지 도 6을 통해 설명한 실시 예들을 통해 오디오 신호를 바이노럴 렌더링할 수 있다. 구체적으로 오디오 신호 처리 장치는 대체 음원의 양 끝점에 해당하는 HRTF를 사용해 오디오 신호를 바이노럴 렌더링할 수 있다. 또 다른 구체적인 실시 예에서 구체적으로 오디오 신호 처리 장치는 대체 음원 위의 복수의 지점을 선택하고, 복수의 지점 각각에 해당하는 복수의 HRTF를 사용해 오디오 신호를 바이노럴 렌더링할 수 있다.
또한, 오디오 신호 처리 장치는 대체 음원을 이용해 오디오 신호를 바이노럴 렌더링할 때, 복수의 음원을 복수의 그룹으로 나누고, 복수의 그룹 별로 딜레이를 적용할 수 있다. 복수의 음원 각각으로부터 오디오 신호가 발생하는 시점이 다를 수 있기 때문이다. 예를 들어 많은 수의 좀비가 등장하는 영상에서, 각 좀비가 괴성을 내는 시점이 조금씩 다를 수 있다. 이때, 오디오 신호 처리 장치는 좀비를 세 그룹으로 나누고 세 그룹 별로 딜레이를 줄 수 있다.
또한, 오디오 신호 처리 장치는 청취자로부터 대체 음원까지의 거리가 미리 설정된 임계값 이상인지와 관계 없이 크기를 갖지 않는 점으로 취급하지 않을 수 있다. 대체 음원의 경우 서로 떨어진 복수의 음원을 대체한 것으로 청취자로부터 거리가 멀어도 하나의 점으로 취급하기 힘들 수 있기 때문이다.
도 7의 실시 예에서, 오디오 신호 처리장치는 상대적으로 멀리 떨어진 복수의 음원을 제2 오브젝트(objs 2)로 대체한다. 구체적으로 오디오 신호 처리 장치는 제2 오브젝트의 너비(b2) 및 청취자로부터 제2 오브젝트(objs 2)까지의 거리(r2)를 기초로 복수의 음원에 대응하는 오디오 신호를 바이노럴 렌더링한다.
또한, 오디오 신호 처리 장치는 상대적으로 가까운 복수의 음원을 제1 오브젝트(objs 1)로 대체한다. 구체적으로 오디오 신호 처리 장치는 제1 오브젝트(objs 1)의 너비(b1) 및 청취자로부터 제1 오브젝트(objs 2)까지의 거리(r1)를 기초로 복수의 음원에 대응하는 오디오 신호를 바이노럴 렌더링한다. 청취자로부터 제1 오브젝트(objs 1)까지의 거리(r1)가 청취자로부터 제2 오브젝트(objs 2)까지의 거리(r2)보다 가깝다. 또한, 제1 오브젝트(objs 1)의 너비(b1)가 제2 오브젝트(objs 2)의 너비보다 크다. 따라서 오디오 신호 처리 장치는 제1 오브젝트(objs 1)에 해당하는 오디오 신호를 바이노럴 렌더링할 때, 제2 오브젝트(objs 2)에 해당하는 오디오 신호를 바이노럴 렌더링할 때보다 더 큰 크기의 물체를 표현할 수 있다.
또한, 오디오 신호 처리 장치는 복수의 음원을 세 그룹(Sub group1, Sub group2, Sub group3)으로 나누고, 세 그룹(Sub group1, Sub group2, Sub group3) 각각에 대응하는 오디오 신호를 서로 다른 시작 시점에 바이노럴 렌더링할 수 있다. 오디오 신호 처리 장치는 이러한 실시 예들을 통해 복수의 음원에 바이노럴 연산 부담을 줄이면서, 복수의 음원이 가지는 입체감을 표현할 수 있다.
도 8은 본 발명의 실시 예에 따른 오디오 신호 처리 장치의 동작을 보여준다.
오디오 신호 처리 장치는 입력 오디오 신호를 수신한다(S801). 구체적으로 오디오 신호 처리 장치는 입력부를 통해 입력 오디오 신호를 수신할 수 있다.
오디오 신호 처리 장치는 청취자로부터 입력 오디오 신호에 대응하는 음원까지의 거리와 음원이 시뮬레이션하는 물체의 크기를 기초로 입력 오디오 신호를 바이노럴 렌더링하여 2채널 오디오 신호를 생성한다(S803). 구체적으로 오디오 신호 처리 장치는 바이노럴 렌더러를 통해 음원까지의 거리와 음원이 시뮬레이션하는 물체의 크기를 기초로 입력 오디오 신호를 바이노럴 렌더링하여 2채널 오디오 신호를 생성한다.
청취자로부터 음원까지의 경로는 청취자의 머리 중심으로부터 음원까지의 경로를 나타낼 수 있다. 또한, 청취자로부터 음원까지의 경로는 청취자의 두 귀로부터 음원까지의 경로를 나타낼 수 있다.
오디오 신호 처리 장치는 음원으로부터 청취자까지 거리 및 음원의 크기를 기초로 HRTF의 특성을 결정하고, 해당 HRTF를 사용해 오디오 신호를 바이노럴 렌더링할 수 있다. 구체적으로 오디오 신호 처리 장치는 음원으로부터 청취자까지 거리 및 음원의 크기를 기초로 복수의 HRTF를 사용하여 오디오 신호를 바이노럴 렌더링할 수 있다. 이때, 바이노럴 렌더러는 음원으로부터 청취자까지 거리 및 음원의 크기를 기초로 복수 HRTF의 특성을 결정할 수 있다. 구체적으로 오디오 신호 처리 장치는 의사 HRTF를 기초로 입력 오디오 신호를 바이노럴 렌더링할 수 있다. 이때, 의사 HRTF는 청취자로부터 음원까지의 경로에 대응하는 HRTF를 기초로 생성된다. 구체적으로 의사 HRTF는 청취자로부터 음원까지의 거리와 음원이 시뮬레이션하는 물체의 크기를 기초로 상기 HRTF의 초기 시간 지연을 조정하여 생성될 수 있다. 청취자로부터 음원까지의 거리 대비 음원이 시뮬레이션하는 물체의 크기가 커지는 경우, 의사 HRTF를 생성하기 위해 사용되는 초기 지연 시간도 커질 수 있다. 또한, 의사 HRTF는 청취자로부터 음원까지의 거리와 음원이 시뮬레이션하는 물체의 크기를 기초로 HRTF의 2채널 간의 위상을 조정하여 생성될 수 있다. 또한, 의사 HRTF는 청취자로부터 음원까지의 거리와 음원이 시뮬레이션하는 물체의 크기를 기초로 HRTF의 2채널 간의 레벨차를 조정하여 생성될 수 있다.
오디오 신호 처리 장치는 입력 오디오 신호를 취자로부터 음원까지의 경로에 대응하는 HRTF와 의사 HRTF를 사용해 필터링할 수 있다. 이때, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리 대비 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 HRTF에 의해 필터링된 오디오 신호와 의사 HRTF에 의해 필터링된 오디오 신호의 비율을 결정할 수 있다. 구체적으로 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리 대비 음원이 시뮬레이션하는 물체의 크기가 커지는 경우, 청취자로부터 음원까지의 거리 대비 음원이 시뮬레이션하는 물체의 크기를 기초로 HRTF에 의해 필터링된 오디오 신호 대비 의사 HRTF에 의해 필터링된 오디오 신호의 비율을 높일 수 있다.
오디오 신호 처리 장치는 복수의 의사 HRTF를 사용하여 입력 신호를 바이노럴 렌더링할 수 있다. 이때, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리와 음원이 시뮬레이션하는 물체의 크기를 기초로 의사 HRTF의 개수를 결정하고, HRTF와 결정된 개수의 의사 HRTF를 사용하여 입력 오디오 신호를 바이노럴 렌더링할 수 있다.
오디오 신호 처리 장치는 의사 HRTF에 의해 필터링된 오디오 신호 중 미리 설정된 최대 시간 지연보다 짧은 파장을 가지는 주파수 대역 오디오 신호만을 처리할 수 있다. 구체적으로 오디오 신호 처리 장치는 도 5를 통해 설명한 실시 예들과 같이 의사 HRTF를 사용하여 입력 오디오 신호를 바이노럴 렌더링할 수 있다.
오디오 신호 처리 장치는 청취자로부터 음원까지의 거리와 음원이 시뮬레이션하는 물체의 크기를 기초로 바이노럴 렌더링을 통해 생성되는 2채널 오디오 신호 사이의 IACC를 조정할 수 있다. 구체적으로 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리 대비 음원이 시뮬레이션하는 물체의 크기가 커지는 경우, 바이노럴 렌더링을 통해 생성되는 2채널 오디오 신호 사이의 IACC를 낮출 수 있다.
또한, 오디오 신호 처리 장치는 바이노럴 렌더링되는 2채널 오디오 신호 각각에 대응하는 HRTF의 위상을 랜덤화하여 바이노럴 렌더링되는 2채널 오디오 신호 사이의 IACC를 조정할 수 있다. 또한, 오디오 신호 처리 장치는 입력 신호의 위상을 랜럼화한 신호와 입력 신호를 청취자로부터 음원의 경로에 대응하는 HRTF로 필터링한 신호를 더하여 2채널 오디오 신호 사이의 IACC를 조정할 수 있다.
오디오 신호 처리 장치는 주파수 밴드 별로 바이노럴 렌더링되는 2채널 오디오 신호간의 IACC를 조정할 수 있다. 구체적으로 오디오 신호 처리 장치는 음원의 크기를 기초로 바이노럴 렌더링되는 2채널 간의 IACC를 주파수 밴드 별로 조정할 수 있다. 구체적인 실시 예에서 오디오 신호 처리 장치는 음원의 크기 및 청취자로부터 음원까지의 거리를 기초로 바이노럴 렌더링되는 2채널 사이의 IACC를 주파수 밴드 별로 조정할 수 있다. 구체적으로 오디오 신호 처리 장치는 음원에 대응하는 입력 오디오 신호의 특성에 따라 음색에 영향이 적은 주파수 밴드에서 바이노럴 렌더링되는 2채널 오디오 신호간의 IACC를 조정할 수 있다. 구체적으로 오디오 신호 처리 장치는 도 4를 통해 설명된 실시 예들을 통해 바이노럴 렌더링되는 2채널 오디오 신호간의 IACC를 조정할 수 있다.
또한, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리 및 음원이 시뮬레이션하는 물체의 크기를 기초로 음원 위의 복수 지점 각각과 청취자를 연결하는 경로에 해당하는 복수의 HRTF를 사용해 입력 오디오 신호를 바이노럴 렌더링할 수 있다. 이때, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리 및 음원이 시뮬레이션하는 물체의 크기를 기초로 음원 위의 복수의 지점 각각으로부터 청취자까지의 경로에 대응하는 복수의 HRTF를 선택할 수 있다. 예컨대, 오디오 신호 처리 장치는 음원의 크기를 기초로 음원 위의 복수의 지점을 선택하고, 복수의 지점 각각과 청취자 사이의 거리 및 청취자의 머리 반지름을 기초로 HRTF에 대응하는 입사각을 연산할 수 있다. 오디오 신호 처리 장치는 연산한 입사각을 기초로 음원 위의 복수의 지점에 대응하는 HRTF를 선택할 수 있다.
구체적인 실시 예에서, 오디오 신호 처리 장치는 음원으로부터 청취자까지의 거리 및 음원의 크기를 기초로 음원 위의 복수의 지점 각각으로부터 청취자까지의 경로에 대응하는 복수의 HRTF를 사용하여 바이노럴 렌더링을 위한 오디오 신호를 처리할 수 있다. 이때, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리와 음원의 크기를 기초로 음원 위의 복수 지점의 개수를 선택할 수 있다. 또한, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리와 음원의 크기를 기초로 음원 위의 복수의 지점의 위치를 선택할 수 있다. 예컨대, 청취자로부터 음원까지의 거리가 미리 설정된 임계값을 초과하는 경우, 오디오 신호 처리 장치는 음원을 크기를 갖지 않는 점(point soure)으로 취급할 수 있다. 또한, 청취자로부터 음원까지의 거리가 미리 설정된 임계값보다 작은 경우, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리가 가까워질수록 음원 위의 복수 지점의 개수를 증가시킬 수 있다.
또 다른 구체적인 실시 예에서, 오디오 신호 처리 장치는 음원의 양 끝을 기준으로 음원의 양 끝과 음원의 중심 3개의 지점에 각각 대응하는 3개의 HRTF를 선택할 수 있다. 이때, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리가 가까워질수록 음원의 양 끝에 대응하는 HRTF로 더 큰 입사각에 대응하는 HRTF를 선택할 수 있다. 구체적으로 오디오 신호 처리 장치는 도 3을 통해 설명한 실시 예들과 같이 음원 위의 복수 지점 각각과 청취자를 연결하는 경로에 해당하는 복수의 HRTF를 사용해 입력 오디오 신호를 바이노럴 렌더링할 수 있다.
또한, 오디오 신호 처리 장치는 하나의 음원을 복수의 음원으로 대체하여 오디오 신호를 바이노럴 렌더링할 수 있다. 이때, 복수의 음원에 해당하는 오디오 신호는 복수의 음원이 대체하는 하나의 음원의 위치에 정위(localizing)된다. 오디오 신호 처리 장치는 복수의 HRTF를 사용하고, 복수의 HRTF는 하나의 음원을 대체하는 복수의 음원 각각과 청취자를 연결하는 복수의 경로 각각에 대응할 수 있다. 또한, 복수의 음원의 개수는 두 개일 수 있다. 오디오 신호 처리 장치는 하나의 음원을 복수의 음원에 대응하는 복수의 HRTF에 의해 필터링된 오디오 신호로 대체할 수 있다. 이때, 복수의 음원은 해당 음원의 위치에 정위되는 오디오 신호를 출력한다. 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리 및 음원의 크기를 기초로 하나의 음원을 대체하는 복수의 음원 사이의 간격을 조정할 수 있다. 구체적으로 청취자로부터 음원까지의 거리가 가까워져 상대적인 음원의 크기가 커지는 경우, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리 및 음원의 크기를 기초로 복수의 음원 사이의 간격을 넓힐 수 있다. 구체적으로 오디오 신호 처리 장치는 도 6을 통해 설명한 실시 예들과 같이 입력 오디오 신호를 바이노럴 렌더링할 수 있다.
또한, 오디오 신호 처리 장치는 음원이 시뮬레이션하는 물체의 크기를 연산할 때, 다음과 같은 동작을 수행할 수 있다. 오디오 신호 처리 장치는 입력 오디오 신호의 주파수 대역별로 음원이 시뮬레이션하는 물체의 크기를 다르게 연산할 수 있다. 오디오 신호 처리 장치는 입력 오디오 신호 중 상대적으로 낮은 주파수 대역의 성분을 바이노럴 렌더링할 때 음원이 시뮬레이션하는 물체의 크기를 상대적으로 높은 주파수 대역의 성분을 바이노럴 렌더링할 때 음원이 시뮬레이션하는 물체의 크기보다 더 큰 것으로 연산할 수 있다. 또한, 오디오 신호 처리 장치는 청취자의 머리 방향을 기초로 음원이 시뮬레이션하는 물체의 크기를 연산할 수 있다. 구체적으로 오디오 신호 처리 장치는 청취자의 머리 방향과 음원이 오디오 신호를 출력하는 방향을 기초로 음원이 시뮬레이션하는 물체의 크기를 연산할 수 있다.
또한, 오디오 신호 처리 장치는 복수의 음원을 하나의 대체 음원으로 대체하고, 청취자로부터 대체 음원까지의 거리 및 대체 음원의 크기를 기초로 오디오 신호를 바이노럴 렌더링할 수 있다. 이때, 오디오 신호 처리 장치는 대체 복수의 음원의 위치를 기초로 대체 음원의 크기를 연산할 수 있다. 구체적으로 오디오 신호 처리 장치는 대체 음원의 크기를 복수의 음원이 존재하는 공간의 크기로 연산할 수 있다. 구체적으로 오디오 신호 처리 장치는 도 7의 실시 예와 같이 동작할 수 있다.
오디오 신호 처리 장치는 2채널 오디오 신호를 출력한다(S805).
이상에서는 본 발명을 구체적인 실시 예를 통하여 설명하였으나, 당업자라면 본 발명의 취지 및 범위를 벗어나지 않고 수정, 변경을 할 수 있다. 즉, 본 발명은 멀티 오디오 신호에 대한 바이노럴 렌더링의 실시 예에 대하여 설명하였지만, 본 발명은 오디오 신호뿐만 아니라 비디오 신호를 포함하는 다양한 멀티미디어 신호에도 동일하게 적용 및 확장 가능하다. 따라서 본 발명의 상세한 설명 및 실시 예로부터 본 발명이 속하는 기술분야에 속한 사람이 용이하게 유추할 수 있는 것은 본 발명의 권리범위에 속하는 것으로 해석된다.
Claims (20)
- 입력 오디오 신호를 바이노럴 렌더링하는 오디오 신호 처리 장치에서,
상기 입력 오디오 신호를 수신하는 수신부;
상기 입력 오디오 신호를 바이노럴 렌더링하여 2채널 오디오를 생성하는 바이노럴 렌더러; 및
상기 2채널 오디오를 출력하는 출력부를 포함하고,
상기 바이노럴 렌더러는
청취자로부터 상기 입력 오디오 신호에 대응하는 음원까지의 거리와 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 상기 입력 오디오 신호를 바이노럴 렌더링하는
오디오 신호 처리 장치. - 제1항에서,
상기 바이노럴 렌더러는
상기 청취자로부터 상기 음원까지의 거리와 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 머리 전달 함수(Head Related Transfer Function, HRTF)의 특성을 결정하고,
상기 HRTF를 사용하여 상기 입력 오디오 신호를 바이노럴 렌더링하는
오디오 신호 처리 장치. - 제2항에서,
상기 HRTF는 상기 청취자로부터 상기 음원까지의 거리와 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 상기 청취자로부터 상기 음원까지의 경로에 대응하는 HRTF의 초기 시간 지연을 조정하여 생성된 의사 HRTF인
오디오 신호 처리 장치. - 제3항에서,
상기 청취자로부터 상기 음원까지의 거리 대비 상기 음원이 시뮬레이션하는 물체의 크기가 커지는 경우, 상기 의사 HRTF를 생성하기 위해 사용되는 상기 초기 지연 시간도 커지는
오디오 신호 처리 장치. - 제3항에서
상기 바이노럴 렌더러는
상기 입력 오디오 신호를 상기 청취자로부터 상기 음원까지의 경로에 대응하는 HRTF와 상기 의사 HRTF를 사용해 필터링하고, 상기 청취자로부터 상기 음원까지의 거리 대비 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 상기 청취자로부터 상기 음원까지의 경로에 대응하는 HRTF에 의해 필터링된 오디오 신호와 상기 의사 HRTF에 의해 필터링된 오디오 신호의 비율을 결정하는
오디오 신호 처리 장치. - 제5항에서
상기 바이노럴 렌더러는
상기 청취자로부터 상기 음원까지의 거리 대비 상기 음원이 시뮬레이션하는 물체의 크기가 커지는 경우, 상기 청취자로부터 상기 음원까지의 거리 대비 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 상기 청취자로부터 상기 음원까지의 경로에 대응하는 HRTF에 의해 필터링된 오디오 신호 대비 상기 의사 HRTF에 의해 필터링된 오디오 신호의 비율을 높이는
오디오 신호 처리 장치. - 제3항에서,
상기 의사 HRTF는 상기 청취자로부터 상기 음원까지의 거리와 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 상기 HRTF의 2채널 간의 위상 및 상기 HRTF의 2채널간의 레벨차 중 적어도 어느 하나를 조정하여 생성된
오디오 신호 처리 장치. - 제3항에서,
상기 바이노럴 렌더러는
상기 청취자로부터 상기 음원까지의 거리와 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 상기 의사 HRTF의 개수를 결정하고,
상기 HRTF와 상기 결정된 개수의 상기 의사 HRTF를 사용하는
오디오 신호 처리 장치. - 제3항에서,
상기 바이노럴 렌더러는
상기 의사 HRTF에 의해 필터링된 오디오 신호 중 미리 설정된 최대 시간 지연보다 짧은 파장을 가지는 주파수 대역 오디오 신호만을 처리하는
오디오 신호 처리 장치. - 제2항에서,
상기 바이노럴 렌더러는
상기 음원 위의 복수의 지점 각각과 청취자까지의 경로에 대응하는 복수의 HRTF를 사용해 상기 입력 오디오 신호를 바이노럴 렌더링하는
오디오 신호 처리 장치. - 제10항에서,
상기 바이노럴 렌더러는
상기 청취자로부터 상기 음원까지의 거리와 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 상기 음원 위의 복수의 지점의 개수를 결정하는
오디오 신호 처리 장치. - 제10항에서,
상기 바이노럴 렌더러는
상기 청취자로부터 상기 음원까지의 거리와 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 상기 음원 위의 복수의 지점의 위치를 결정하는
오디오 신호 처리 장치. - 제1항에서,
상기 바이노럴 렌더러는
상기 청취자로부터 상기 음원까지의 거리와 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 상기 2채널 오디오 신호 사이의 IACC(Interaural Cross Correlation)를 조정하는
오디오 신호 처리 장치. - 제13항에서,
상기 바이노럴 렌더러는
상기 청취자로부터 상기 음원까지의 거리 대비 상기 음원이 시뮬레이션하는 물체의 크기가 커지는 경우, 상기 2채널 오디오 신호 사이의 IACC를 낮추는
오디오 신호 처리 장치. - 제13항에서,
상기 바이노럴 렌더러는
상기 2채널 오디오 신호에 대응하는 머리 전달 함수(Head Related Transfer Function, HRTF)의 위상을 랜덤화하여 상기 2채널 오디오 신호 사이의 IACC를 조정하는
오디오 신호 처리 장치. - 제13항에서,
상기 바이노럴 렌더러는
상기 입력 오디오 신호의 위상을 랜럼화한 신호와 상기 입력 오디오 신호를 상기 청취자로부터 상기 음원의 경로에 대응하는 머리 전달 함수(Head Related Transfer Function, HRTF)로 필터링한 신호를 더하여 상기 2채널 오디오 신호 사이의 IACC를 조정하는
오디오 신호 처리 장치. - 제1항에서,
상기 바이노럴 렌더러는
상기 입력 오디오 신호의 지향성 패턴(directivity pattern)을 기초로 상기 음원이 시뮬레이션하는 물체의 크기를 연산하는
오디오 신호 처리 장치. - 제17항에서,
상기 바이노럴 렌더러는
상기 입력 오디오 신호의 주파수 대역별로 상기 음원이 시뮬레이션하는 물체의 크기를 다르게 연산하는
오디오 신호 처리 장치. - 제18항에서,
상기 바이노럴 렌더러는
상기 입력 오디오 신호 중 상대적으로 낮은 주파수 대역의 성분을 바이노럴 렌더링할 때 상기 음원이 시뮬레이션하는 물체의 크기를 상대적으로 높은 주파수 대역의 성분을 바이노럴 렌더링할 때 상기 음원이 시뮬레이션하는 물체의 크기보다 더 큰 것으로 연산하는
오디오 신호 처리 장치. - 제1항에서,
상기 바이노럴 렌더러는
상기 청취자의 머리 방향을 기초로 상기 음원이 시뮬레이션하는 물체의 크기를 연산하는
오디오 신호 처리 장치.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160055791 | 2016-05-04 | ||
KR1020160055791A KR20170125660A (ko) | 2016-05-04 | 2016-05-04 | 오디오 신호 처리 방법 및 장치 |
PCT/KR2017/004641 WO2017191970A2 (ko) | 2016-05-04 | 2017-05-02 | 바이노럴 렌더링을 위한 오디오 신호 처리 방법 및 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20180135973A true KR20180135973A (ko) | 2018-12-21 |
Family
ID=60202951
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020160055791A KR20170125660A (ko) | 2016-05-04 | 2016-05-04 | 오디오 신호 처리 방법 및 장치 |
KR1020187034958A KR20180135973A (ko) | 2016-05-04 | 2017-05-02 | 바이노럴 렌더링을 위한 오디오 신호 처리 방법 및 장치 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020160055791A KR20170125660A (ko) | 2016-05-04 | 2016-05-04 | 오디오 신호 처리 방법 및 장치 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10349201B2 (ko) |
KR (2) | KR20170125660A (ko) |
WO (1) | WO2017191970A2 (ko) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017197156A1 (en) | 2016-05-11 | 2017-11-16 | Ossic Corporation | Systems and methods of calibrating earphones |
US10327090B2 (en) * | 2016-09-13 | 2019-06-18 | Lg Electronics Inc. | Distance rendering method for audio signal and apparatus for outputting audio signal using same |
US10299060B2 (en) * | 2016-12-30 | 2019-05-21 | Caavo Inc | Determining distances and angles between speakers and other home theater components |
WO2019116890A1 (ja) | 2017-12-12 | 2019-06-20 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
US10609504B2 (en) * | 2017-12-21 | 2020-03-31 | Gaudi Audio Lab, Inc. | Audio signal processing method and apparatus for binaural rendering using phase response characteristics |
EP3550860B1 (en) * | 2018-04-05 | 2021-08-18 | Nokia Technologies Oy | Rendering of spatial audio content |
EP3588926B1 (en) * | 2018-06-26 | 2021-07-21 | Nokia Technologies Oy | Apparatuses and associated methods for spatial presentation of audio |
CN110856095B (zh) | 2018-08-20 | 2021-11-19 | 华为技术有限公司 | 音频处理方法和装置 |
KR102659722B1 (ko) * | 2018-12-19 | 2024-04-23 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 공간 확장 음원을 재생하는 장치 및 방법 또는 공간 확장 음원으로부터 비트 스트림을 생성하는 장치 및 방법 |
WO2021034983A2 (en) * | 2019-08-19 | 2021-02-25 | Dolby Laboratories Licensing Corporation | Steering of binauralization of audio |
US12009877B1 (en) * | 2019-09-05 | 2024-06-11 | Apple Inc. | Modification of signal attenuation relative to distance based on signal characteristics |
US20230019535A1 (en) * | 2019-12-19 | 2023-01-19 | Telefonaktiebolaget Lm Ericsson (Publ) | Audio rendering of audio sources |
EP4091344A1 (en) * | 2020-01-14 | 2022-11-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for reproducing a spatially extended sound source or apparatus and method for generating a description for a spatially extended sound source using anchoring information |
EP3879856A1 (en) * | 2020-03-13 | 2021-09-15 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | Apparatus and method for synthesizing a spatially extended sound source using cue information items |
TWI797577B (zh) | 2020-03-13 | 2023-04-01 | 弗勞恩霍夫爾協會 | 用於渲染包括離散曲面的一聲音場景的設備及方法 |
CN113747335A (zh) * | 2020-05-29 | 2021-12-03 | 华为技术有限公司 | 音频渲染方法及装置 |
KR20220011401A (ko) * | 2020-07-21 | 2022-01-28 | 삼성전자주식회사 | 음상 정위에 따른 음성 출력 방법 및 이를 이용한 장치 |
US20230353968A1 (en) * | 2020-07-22 | 2023-11-02 | Telefonaktiebolaget Lm Ericsson (Publ) | Spatial extent modeling for volumetric audio sources |
WO2022031418A1 (en) * | 2020-07-31 | 2022-02-10 | Sterling Labs Llc. | Sound rendering for a shared point of view |
US20240236603A9 (en) * | 2021-03-05 | 2024-07-11 | Sony Group Corporation | Information processing apparatus, information processing method, and program |
US20230370800A1 (en) * | 2022-05-10 | 2023-11-16 | Bacch Laboratories, Inc. | Method and device for processing hrtf filters |
BE1030969B1 (nl) | 2023-04-17 | 2024-05-15 | Areal | Verwerkingsmethode voor ruimtelijke aanpassing van een audiosignaal |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2343347B (en) * | 1998-06-20 | 2002-12-31 | Central Research Lab Ltd | A method of synthesising an audio signal |
KR100340043B1 (ko) * | 1999-12-23 | 2002-06-12 | 오길록 | 보정된 표준 머리전달함수를 이용한 입체 음향 재생방법 |
EP2175670A1 (en) * | 2008-10-07 | 2010-04-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Binaural rendering of a multi-channel audio signal |
KR102007991B1 (ko) * | 2013-07-25 | 2019-08-06 | 한국전자통신연구원 | 다채널 오디오 신호의 바이노럴 렌더링 방법 및 장치 |
WO2015102920A1 (en) * | 2014-01-03 | 2015-07-09 | Dolby Laboratories Licensing Corporation | Generating binaural audio in response to multi-channel audio using at least one feedback delay network |
CN104869524B (zh) * | 2014-02-26 | 2018-02-16 | 腾讯科技(深圳)有限公司 | 三维虚拟场景中的声音处理方法及装置 |
-
2016
- 2016-05-04 KR KR1020160055791A patent/KR20170125660A/ko unknown
-
2017
- 2017-05-02 WO PCT/KR2017/004641 patent/WO2017191970A2/ko active Application Filing
- 2017-05-02 KR KR1020187034958A patent/KR20180135973A/ko unknown
- 2017-05-04 US US15/586,297 patent/US10349201B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
WO2017191970A3 (ko) | 2018-08-09 |
KR20170125660A (ko) | 2017-11-15 |
US10349201B2 (en) | 2019-07-09 |
WO2017191970A2 (ko) | 2017-11-09 |
US20170325045A1 (en) | 2017-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20180135973A (ko) | 바이노럴 렌더링을 위한 오디오 신호 처리 방법 및 장치 | |
CN107852563B (zh) | 双耳音频再现 | |
EP3443762B1 (en) | Spatial audio processing emphasizing sound sources close to a focal distance | |
KR102149214B1 (ko) | 위상응답 특성을 이용하는 바이노럴 렌더링을 위한 오디오 신호 처리 방법 및 장치 | |
CN107113524B (zh) | 反映个人特性的双耳音频信号处理方法和设备 | |
US9961466B2 (en) | Audio signal processing apparatus and method for binaural rendering | |
WO2012042905A1 (ja) | 音響再生装置および音響再生方法 | |
US10492017B2 (en) | Audio signal processing apparatus and method | |
WO2018064296A1 (en) | Method, systems and apparatus for determining audio representation(s) of one or more audio sources | |
JP2018509864A (ja) | ヘッドフォン仮想化のための残響生成 | |
Sunder | Binaural audio engineering | |
US20200059750A1 (en) | Sound spatialization method | |
US10440495B2 (en) | Virtual localization of sound | |
CN109923877B (zh) | 对立体声音频信号进行加权的装置和方法 | |
US9794717B2 (en) | Audio signal processing apparatus and audio signal processing method | |
Xu et al. | An improved free-field cross-talk cancellation method based on the spherical head model | |
US11470435B2 (en) | Method and device for processing audio signals using 2-channel stereo speaker | |
US20240334130A1 (en) | Method and System for Rendering 3D Audio | |
Sunder | 7.1 BINAURAL AUDIO TECHNOLOGIES-AN | |
WO2024186771A1 (en) | Systems and methods for hybrid spatial audio | |
CN115706895A (zh) | 使用多个换能器的沉浸式声音再现 | |
Renhe | DESC9115: Digital Audio Systems-Final Project |