KR20190083863A - 오디오 신호 처리 방법 및 장치 - Google Patents

오디오 신호 처리 방법 및 장치 Download PDF

Info

Publication number
KR20190083863A
KR20190083863A KR1020180001819A KR20180001819A KR20190083863A KR 20190083863 A KR20190083863 A KR 20190083863A KR 1020180001819 A KR1020180001819 A KR 1020180001819A KR 20180001819 A KR20180001819 A KR 20180001819A KR 20190083863 A KR20190083863 A KR 20190083863A
Authority
KR
South Korea
Prior art keywords
rendering
audio signal
rendering method
object audio
audio
Prior art date
Application number
KR1020180001819A
Other languages
English (en)
Inventor
정현주
오현오
전상배
Original Assignee
가우디오랩 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가우디오랩 주식회사 filed Critical 가우디오랩 주식회사
Priority to KR1020180001819A priority Critical patent/KR20190083863A/ko
Priority to US16/240,781 priority patent/US10848890B2/en
Publication of KR20190083863A publication Critical patent/KR20190083863A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

본 발명은 오디오 신호를 효과적으로 재생하기 위한 신호 처리 방법 및 장치에 관한 것으로써, 더욱 상세하게는 HMD(Head Mounted Display)기기를 비롯한 휴대 기기나 PC, 게임 콘솔 등에서 재현되는 가상 현실(Virtual Reality) 공간에서 하나 이상의 객체와 사용자 사이의 상대적인 위치 관계가 인터렉티브(Interactive)하게 변할 때 몰입감 높은(Immersive) 3차원(3D) 오디오 신호를 보다 적은 연산량과 적은 음색 왜곡으로 제공하기 위한 오디오 신호 처리 방법 및 장치에 관한 것이다. 전방의 음상에 대해서 보다 세밀하게 음상 정위 성능을 가지고, 음색 변화에 민감하게 반응하는 사람의 청각 특성에 기반하여 안출된 본 발명의 실시 예에 따르면, 오디오 신호 처리를 수행하는 과정에서 청취자로부터 객체 오디오의 상대적인 방향을 분석하여 하나 이상의 렌더링 방식 중 해당되는 렌더링 방식을 결정하고 이를 통해 방향에 따라 다른 렌더링 방식을 적용, 합성하여 객체 오디오의 음상 정위 성능은 최대한 유지하면서 음색 왜곡, 연산량 등의 문제를 최소화할 수 있다.

Description

오디오 신호 처리 방법 및 장치{A METHOD AND AN APPARATUS FOR PROCESSING AN AUDIO SIGNAL}
본 발명은 오디오 신호를 효과적으로 재생하기 위한 신호 처리 방법 및 장치에 관한 것으로써, 더욱 상세하게는 HMD(Head Mounted Display)기기를 비롯한 휴대 기기나 PC, 게임 콘솔 등에서 재현되는 가상 현실(Virtual Reality) 공간에서 하나 이상의 객체와 사용자 사이의 상대적인 위치 관계가 인터렉티브(Interactive)하게 변할 때 몰입감 높은(Immersive) 3차원(3D) 오디오 신호를 보다 적은 연산량과 적은 음색 왜곡으로 제공하기 위한 오디오 신호 처리 방법 및 장치에 관한 것이다.
HMD과 게임 콘솔 등과 같은 기기에서 사용자에게 가상의 공간(Virtual Reality)을 체험할 수 있게 하기 위해서는 비디오 뿐만 아니라 Immersive & Interactive 오디오를 제공해 주어야 한다. 이를 위해서는 HRTF(Head Related Transfer Function) 혹은 HRIR(Head Related Impulse Response)을 활용한 바이노럴 렌더링(Binaural Rendering) 기술이 필수적으로 요구된다. 이 때, HRTF를 활용하여 생성된 바이노럴 렌더링 신호는 청취자를 기준으로 특정 방향에서 음원의 실제 소리가 들리는 것과 같이 음상 정위(Localization)를 가능하게 하지만, 입력 원음과 특정 Impulse Response와의 Convolution 형태로 생성되기 때문에 원음에 비해 출력 음색이 달라지는 문제가 수반된다. 또한 바이노럴 렌더링 신호는 청취자를 기준으로 수평각(Azimuth)과 고도각(Elevation)으로 표현되는 특정 방향으로부터의 음원 위치를 정의하고 합성되기 때문에 가상 공간에 다수의 음향 객체가 존재하는 경우에는 각각의 음향 객체 위치에 따라 개별적으로 신호 처리를 수행해야 하기에 많은 연산량이 요구될 수 있다.
본 발명은 앞서 설명한 바와 같이 바이노럴 렌더링을 수행할 경우 발생할 수 있는 음색 왜곡 문제, 음향 객체가 매우 많을 경우 그에 따라 연산량이 함께 증가하는 문제점을 해결하기 위해 안출된 것으로, 다수의 음향 객체로부터 3차원 오디오 신호를 출력하기 위해 바이노럴 렌더링을 수행하는 과정에서 음향 객체의 음상 정위 성능은 최대한 유지하면서 음색 왜곡, 연산량 등의 문제를 최소화하고자 하는 목적을 가지고 있다.
본 발명에서는 HRTF를 이용한 바이노럴 렌더링 신호와 다른 추가적인 렌더링 방법을 활용하여 생성된 신호 두 가지를 합성하여 보다 효율적으로 3D 오디오 신호를 청취자에게 제공하기위한 방법을 설명한다.
사람의 청각 기관이 소리를 인지하고 소리의 방향을 판별하는 과정에서, 동일한 소리가 서로 다른 방향에서 들릴 때 두 소리가 다르다고 판단할 수 있는 가장 작은 각도 단위를 최소 인지 각도(Minimum Audible Angle, MAA)라고 한다. 심리음향학 연구 결과에 따르면 사람은 전방에 대한 음원 위치를 가장 잘 인지할 수 있다고 한다. 도 1을 참고하면 사람의 음향 인지 특성은 주파수 대역 별로 다소 차이는 있지만 전방의 경우 MAA 1내지 2도 정도로 비교적 정확하게 음원의 위치를 판별할 수 있으나 음원의 위치가 측면으로 갈수록 MAA가 커지는 특성을 가진다. 즉 음원의 위치가 청취자의 후방 쪽에 위치할 수록 상대적으로 청취자가 음원의 위치를 파악하는데 큰 오차가 생길 수 있다.
또한 사람이 청취하는 대부분의 음원 및 음악은 청취자의 전방에 위치하는 것을 가정으로 녹음, 생성되는 경우가 대부분이다. 이는 앞서 설명한 전방 음상에 대한 청감 특성이 상대적으로 높기 때문인 점에서도 기인하지만 보다 중요한 특징은 사람이 가장 민감하게 반응하는 시각 정보(Visual Cue)는 두 눈을 통해서만 인지할 수 있기에 전방에서만 존재하기 때문이다. 이렇게 청취자의 시야 및 방향에 따라 시각, 청각적으로 반응하는 정도가 다르게 나타나며 음색의 경우에도 마찬가지로 후방에 비해 전방에 존재하는 음원에 대해서 청취자가 음색 변화에 더 민감하게 반응할 수 있다.
본 발명의 실시 예에 따르면, 위와 같은 사람의 청각 특성에 기반하여, 청취자의 시야(Field of View) 혹은 머리 방향(Head Orientation)을 기준으로 음향 객체의 상대적인 위치를 분석한 후, 음원의 위치에 민감하게 반응하는 전방 영역에 대해서는 바이노럴 렌더링을 수행하고 그 밖의 다른 영역에 존재하는 음향 객체들에 대해서는 보조 렌더링 방식을 수행하여 연산량을 낮출 수 있는 신호처리 방법 및 장치가 제공될 수 있다. 혹은, 청취자가 음향 객체의 음색에 민감하게 반응하는 전방 영역에 대해서는 음색 왜곡을 최소로 하는 제1 렌더링 방식으로 처리하고 그 밖의 기타 영역에 대해서는 음상 정위 성능을 높일 수 있는 제2렌더링 방식을 사용하여 음색 왜곡을 최소화하면서도 음상 정위 성능을 보장하는 렌더링 방법 및 장치 또한 제공할 수 있다.
<< Key Ideas >>
하나 이상의 객체 오디오 신호를 공간상에 재현하기 위한 렌더링에 있어서, 서로 다른 음상 정위 혹은 음질 특성을 갖는 두 개 이상의 렌더링 기법을 이용하고, 음원의 공간상의 위치에 따라 상기 렌더링 기법 가운데 서로 다른 렌더링을 적용하는 신호처리 방법 및 장치
- 상기에서 하나 이상의 객체 오디오 신호와 사용자의 위치 및 시야에 기반한 상대적인 위치 정보로부터 렌더링 방식을 결정할 수 있음
- 상기에서 전방 영역은 바이노럴 렌더링을, 후방 영역은 바이노럴 렌더링보다 간단한 연산량을 갖는 방법으로 선택됨
- 상기에서 전방 중심 영역은 Interactive Panning 기반의 렌더링을, 그 외 영역은 바이노럴 렌더링 기반의 렌더링으로 선택됨
- 동일한 렌더링 방식으로 결정된 객체 오디오를 그룹핑할 수 있음
- 상대적인 위치 정보를 특정 대표 값으로 변경하는 클러스터링할 수 있음
- 상기 렌더링 방식은 두 개 이상의 독립적인 렌더링 방식을 Interpolation을 통하여 조절하는 방식을 포함함.
하나 이상의 객체 오디오 신호; 및
각 객체 오디오의 방향, 위치, 거리 등 정보를 포함하는 객체 메타데이터; 및
사용자의 시야, 혹은 머리 방향, 위치 등의 정보를 포함하는 사용자 메타데이터를 입력 받아;
객체 메타데이터와 사용자 메타데이터로부터 객체 오디오의 렌더링 방식을 결정하는 렌더링 방식 결정 부; 및
상기 객체 오디오 신호와 상기 객체 메타데이터를 입력 받아 상기 렌더링 방식 결정 부에서 결정된 렌더링 방식을 수행하는 렌더링 부;
상기 렌더링 부는 두 개 이상의 서로 다른 렌더링 방식으로 구성되고 해당되는 두 개 이상의 출력이 렌더링 방식 결정 부에서 정의된 비율로 믹싱되는 것을 특징으로 함.
본 발명의 실시 예에 따르면, 바이노럴 렌더링을 수행하는 과정에서 청취자로부터 객체 오디오의 상대적인 방향을 분석하여 하나 이상의 렌더링 방식 중 해당되는 렌더링 방식을 결정하고 이를 통해 방향에 따라 다른 렌더링 방식을 적용, 합성하여 객체 오디오의 음상 정위 성능은 최대한 유지하면서 음색 왜곡, 연산량 등의 문제를 최소화할 수 있다.
도 1은 Minimum Audible Angle의 특성을 나타내는 청취 평가 결과 그래프이다.
도 2는 Interactive Panning Gain의 예를 나타낸 그래프이다.
도 3은 본 발명의 실시 예에 따른 렌더링을 수행하기위한 오디오 신호처리 장치의 대표 블록도이다.
도 4는 본 발명의 실시 예에 따른 다수의 객체 오디오가 존재할 때 제1 렌더링 방식을 수행하기 위한 전방 영역과 기타 영역을 나누는 방법을 나타낸 그림이다.
도 5는 본 발명의 실시 예에 따른 바이노럴 렌더러와 보조 렌더러를 적용한 오디오 신호처리 장치의 블록도이다
도 6은 본 발명의 실시 예에 따른, 각 객체 오디오의 해당되는 상대 방향에 따라 바이노럴 렌더러와 가상 스피커 렌더러를 적용하기 위한 방법을 나타낸 그림이다.
도 7은 본 발명의 실시 예에 따른, 각 객체 오디오의 해당되는 상대 방향에 따라 클러스터링 후 바이노럴 렌더러를 적용하기 위한 방법을 나타낸 그림이다.
도 8은 본 발명의 실시 예에 따른, 각 객체 오디오의 해당되는 상대 방향에 따라 Interactive Panning과 바이노럴 렌더러 및 두 가지 방법을 Interpolation하여 처리하기 위한 방법을 나타낸 그림이다.
본 명세서에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도, 관례 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한 특정 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 그 의미를 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는, 단순한 용어의 명칭이 아닌 그 용어가 가진 실질적인 의미와 본 명세서의 전반에 걸친 내용을 토대로 해석되어야 함을 밝혀두고자 한다.
객체 오디오를 신호처리하여 3D 오디오 효과가 적용된 바이노럴 신호를 출력할 때, 하나 이상의 렌더링 방식을 사용하여 바이노럴 신호를 생성할 수 있다. 가장 대표적인 렌더링 방식은 HRTF혹은 HRIR등을 사용하여 컨볼루션을 통해 출력 신호를 생성하는 바이노럴 렌더링 방식이다. 이러한 HRTF 기반 바이노럴 렌더링 방식은 객체 오디오의 상대적인 위치에 따라 해당되는 위치(Azimuth, Elevation)로 정의되는 특정 HRTF로 컨볼루션되기 때문에 객체 오디오가 복수일 경우 각각에 해당되는 HRTF가 모두 필요하며, 객체가 하나만 존재하더라도 청취자의 주변으로 자유롭게 이동하는 경우 상대 위치가 계속해서 바뀔 수 있기 때문에 해당 경로에 해당하는 모든 HRTF 정보가 필요하다. 이러한 바이노럴 렌더링 방식은 음원의 위치에 따라 해당되는 정확한 HRTF 특성을 적용시킬 수 있기 때문에 가장 정확한 음상정위 성능을 나타낸다.
두 번째 렌더링 방식으로는, 가상의 스피커 레이아웃을 정의하고 객체 오디오를 모두 스피커 레이아웃에 패닝시킨 후 각각의 스피커 신호를 다시 바이노럴 렌더링하는 가상 스피커 렌더링 방식을 사용할 수 있다. 이는 5.1, 10.2채널 등과 같이 멀티채널 서라운드 스피커가 설치된 환경에서 청취를 하는 경우와 유사하며, 이러한 스피커 레이아웃에서 재생되는 각각의 스피커 신호를 하나의 또 다른 객체로 가정하여 HRTF로 바이노럴 렌더링하여 헤드폰 신호를 생성하는 방식이다. 객체 오디오가 아무리 많더라도 모두 가상의 스피커 레이아웃으로 패닝되기 때문에 실제 바이노럴 신호를 생성하는데 필요한 컨볼루션은 스피커의 갯수로 제한되고, 각각의 가상 스피커에 해당되는 위치의 HRTF만 필요로 하는 장점이 있다.
또 다른 가능한 렌더링 방식으로는 인터렉티브 패닝(Interactive Panning)이 있다. 청취자의 시야나 머리 방향이 빈번하게 바뀔 수 있는 가상현실 환경을 고려하여, 청취자의 현재 방향을 기준으로 객체 오디오를 좌/우 패닝만으로 패닝 게인을 곱하여 재생해 주는 방식이다. 청취자의 머리 방향이 바뀜에 따라 자연스럽게 객체 오디오의 음상도 그에 맞는 좌/우 방향으로 패닝되어 재생되기 때문에 적절한 상호작용(Interaction)을 제공해줄 수 있으나, 앞/뒤 위치감이나 외재화(Externalization)와 같은 정확한 음상 정위 성능은 보장하기 힘들다. 하지만 HRTF 컨볼루션을 수행하지 않고 원음 그대로의 신호 성분을 최대한 유지할 수 있기 때문에 음색 면에서는 거의 왜곡이 나타나지 않는다.
앞서 설명한 3D 오디오 효과를 제공하기위한 렌더링 방법들은 각각 개별적으로 선택되어 활용될 수도 있지만 두 가지의 렌더링 방식의 조합 및 합성된 형태로도 구현이 가능하다. 예를 들면, 객체 오디오 입력 신호에 HRTF 기반의 바이노럴 렌더링을 처리하거나 Interactive Panning 방식으로 좌, 우 패닝 게인을 곱하여 처리된 두 종류의 신호를 시간영역 혹은 주파수 영역에서 합성할 수 있다. 이렇게 처리할 경우 음상 정위 성능과 원음의 음색 유지라는 두 가지 축에서 적당한 정도로 균형을 제어하여 Binaural Effect Strength(BES)가 조절된 출력 신호를 얻을 수 있다. 두 가지 렌더링 방식에 의하여 처리된 신호를 합성함에 있어서, 위상을 고려하지 않고 처리할 경우 서로 일치하지 않은 딜레이로 인해 위상이 틀어지고 음색 왜곡을 보이는 Comb-Filtering현상이 발생하는데, 이를 보완하기 위해서 바이노럴 렌더링 부와 Interactive Panning 부의 주파수 크기와 위상을 Interpolation할 수 있다. 이 때, Interactive Panning 부의 좌, 우측 채널 Panning Gain Ratio는 HRTF의 에너지를 기반으로 생성한다. [수학식 1]은 Interactive Panning Gain Ratio를 구하는 방법이며 도 2는 Interactive Panning Gain Ratio의 결과이다.
[수학식 1]
p_L+p_R=1,
p_L=H_meanL(a)/(H_meanL(a)+H_meanR(a)),
p_R=H_meanR(a)/(H_meanL(a)+H_meanR(a)),
where H_meanL(a)=mean(abs(H_L(k))),
and H_meanR(a)=mean(abs(H_R(k))).
이때, a는 IPC(Interaural Polar Coordinate) domain에서의 azimuth 인덱스이며, k는 주파수 빈(bin)의 인덱스이다.
바이노럴 렌더링 부와 Interactive Panning 부의 주파수 크기와 위상을 Interpolation하는 과정을 수학식으로 표현하면 다음과 같다.
[수학식 2]
BES_hat=
IFFT[g_H*mag{S(k)}*mag{H_L,R(k)}*pha{S(k)+H_L,R(k)}
+g_I*mag{S(k)}*mag{P_L,R(k)}*pha{S(k)+P_L,R(k)}]
[수학식 2]에서H_L,R(k), P_L,R(k), S(k)는 각각 h_L,R(n), p_L,R(n), s(n)의 주파수 영역 표현이다.
이상에서는 본 발명의 구체적인 실시 예를 설명하기에 앞서 본 발명에서 활용하고자 하는 다양한 방법의 객체 오디오 렌더링 방식에 대하여 설명하였다. 도 3은 본 발명의 실시 예에 따른 오디오 신호 처리 장치를 나타낸 블록도이다. 도 3을 참고하면 본 발명의 오디오 신호처리 장치는 렌더링 방식 결정 부와 렌더링 부를 포함할 수 있다.
먼저, 렌더링 방식 결정 부는 하나 이상의 객체 오디오 신호와 그에 해당되는 객체 메타데이터 및 사용자(청취자) 메타데이터를 입력받아 청취자의 시야/머리 방향을 기준으로 객체 오디오의 상대적인 방향을 분석하여 렌더링 방식을 결정/분류하는 역할을 수행한다. 각각의 객체 오디오 신호에 해당되는 위치 좌표, 혹은 방향(Azimuth, Elevation), 거리 등의 정보는 객체 메타데이터에 포함되어있으며 이러한 방향 정보는 사용자 메타데이터에 포함된 사용자의 시야 방향 혹은 머리 방향, 위치를 기준으로 상대적인 위치 좌표로 변환된다. 사용자의 머리 방향(Head Orientation) 및 위치는 실시간으로 Interactive 하게 변할 수 있기 때문에 실시간으로 전달받는 사용자 메타데이터에 따라 객체 위치 분석 또한 실시간으로 수행되어야 한다. 도 4는 다수의 객체 오디오(12개)가 존재하는 경우 특정 시간에 해당하는 객체 오디오의 분포도를 나타낸 예이다. 이 경우는 바이노럴 렌더링을 수행하기 위한 전방 영역은 좌,우 theta_d의 각도로 설정되었다. 이렇게 구분된 전방 영역과 측/후방 영역을 기준으로 {O_1, O_2, O_3, O_4, O_12}의 객체 오디오는 제 1 렌더링 방식(바이노럴 렌더링)으로 처리되고 그 이외의 나머지 객체 오디오는 제 2 렌더링 방식으로 처리될 수 있다.
도 4에 해당되는 실시 예에 따르면, 도 5와 같이 본 발명의 구성 요소 중 제1렌더링 방식은 음상 정위 성능이 보다 중요한 바이노럴 렌더링으로 처리될 수 있으며 제 2 렌더링 방식은 상대적으로 객체 오디오의 처리 연산량을 저감시킬 수 있는 보조 렌더링으로 처리될 수 있다.
일 실시 예에 따르면 본 발명의 구성 요소 중 렌더링 부의 제2렌더링 방식(보조 렌더링)에 적용 가능한 방법으로는 앞서 설명한 가상 스피커 렌더링 방식이 활용될 수 있다. 예를 들면 전방 좌, 우 theta_d 각도 이내의 영역에 존재하는 객체 오디오들은 HRTF 기반 바이노럴 렌더링 방식으로 처리하고 제2 렌더링 방식(보조 렌더링)에서 처리하고자 하는 객체 오디오는 도 6과 같이 4개의 가상 스피커 채널로 구성된 레이아웃을 기반으로 처리될 수 있다. 즉, {O_5, O_6, O_7, O_8, O_9, O_10, O_11}의 객체 오디오는 각 해당 영역에 인접한 {S_L, S_R, B_L, B_R} 로 이루어진 스피커 Pair로 패닝되어 처리된다. 설명의 편의 상 2차원 평면에 배치된 가상의 스피커 채널로 표현되었지만 3차원 공간으로 레이아웃을 확장하면 3개의 스피커 쌍으로 이루어지는 VBAP(Vector Based Amplitude Panning) 등의 패닝 방식으로도 동일하게 처리할 수 있다. HRTF 컨볼루션을 수행하는 데 필요한 연산량에 비해서 객체 오디오의 패닝 게인을 구하는 연산량을 상대적으로 0에 가깝다고 근사하면, 이 경우 연산량 저감 효과는 75%에 가깝다고 예상할 수 있다. ( (전방 객체 오디오 5개 + 가상 스피커 4 채널) 전체 객체 오디오 12 개 )
제 2 렌더링 방식(보조 렌더링)의 또 다른 실시 예로, 객체 오디오의 상대적인 위치를 분석하여 비슷한 위치에 존재하는 객체들을 군집화(Clustering)하여 처리하는 방식을 적용할 수 있다. 이는 측면 혹은 후방에 존재하는 음원에 대하여 전방에 비해 상대적으로 개별 음원의 정확한 위치를 구분하기 힘든 사람의 청각 특성을 활용한 방식으로, 측/후방의 오디오들을 음원 입력 단에서 믹스 후 하나의 개별 음원으로 처리하여 바이노럴 렌더링을 수행하는 방식이다. 도 7은 제2 렌더링 방식을 수행하기 위한 후방 영역에 대해서 네 개의 집합으로 Clustering을 수행하여 바이노럴 렌더링을 적용하는 방법을 나타내었다. ( {O_5}, {O_6, O_7, O_8}, {O_9, O_10}, {O_11} ) 클러스터링을 수행하는 방법에는 청각 특성에 기반한 MAA범위 내, 혹은 별도로 정해진 각도 혹은 클러스터 개수Threshold를 기준으로 허용 범위 내에 모여있는 객체를 클러스터링 할 수 있으며, 널리 알려진 k-means Clustering 등과 같은 기법도 활용 가능하다. 예를 든 도 7의 경우도 도 6과 마찬가지로 렌더링 시 약 75%의 연산량 저감 효과를 가진다.
본 발명의 또 다른 실시 예로, 렌더링 방식 결정 부에서 객체 오디오의 렌더링 방식을 결정하기 위해서 전방 영역과 이외의 영역으로 나누는 이분법 적인 방식에서 보다 확장된 분류 방식을 활용할 수 있다. 제 1렌더링 방식으로 렌더링을 처리하기 위한 객체 오디오가 존재하는 전방(|theta|<theta_d) 영역과 제2렌더링 방식으로 처리하기 위한 후방 영역(|theta|>theta_a)을 설정하고 중간 영역(theta_a|theta|theta_d)에 대해서는 별도의 렌더링 방식을 사용하거나 혹은 제1과 제2 렌더링을 동시에 처리한 후 두 신호를 합성하는 것이 가능하다. 이러한 복합적인 렌더링 방식을 적용하기 위한 중간 영역은 불연속적인 분류에 의해 개별 처리되는 것도 가능하지만 영역을 구분하기위한 theta값의 연속적인 변화에 따라 Interpolation 형태로 믹싱하는 것도 가능하다. 도 8은 이와 같은 복합 렌더링 방식을 구현한 일 실시예를 나타낸다. 전방 A_p 영역은 제1 렌더링 방식을, 후방 A_b는 제 2렌더링 방식을 이용하고, 그 중간 영역인 A_m은 그 위치에 따라 제 1 렌더링과 제 2 렌더링이 믹싱되어 적용되는 특성으로 구현된다. 이는 BES가 조절된 신호로 합성하여 연속적으로 제어하는 방법으로 구현될 수도 있다. 한편, 도 8은 설명의 편의를 위해 평면상의 Azimuth 제어를 기준으로 나타내고 있으나, 동일한 사상은 Elevation에 대해서도 구현가능하다. 즉, 특정 elevation에서는 제 1렌더링 방식을 사용하고, 이로부터 벗어난 다른 elevation에서는 제 2렌더링 방식을 사용하는 형태이다. 마찬가지로 중간 영역에서는 믹싱된 렌더링이 이용될 수 있다.
한편, 도 8을 참고하면, 앞서 설명한 바와 같이 전방 영역(A_p)에 상대적으로 음색 변화에 민감하게 반응하는 청각 특성을 감안할 때, 음색 왜곡이 가장 적은 Interactive Panning 렌더링 방식을 제 1 렌더링 방식으로 처리하고 후방 영역(A_b)에 대해서는 HRTF 기반 바이노럴 렌더링 방식을 제 2 렌더링 방식으로 사용, 중간 영역(A_m)에 해당되는 객체 오디오 신호는 BES가 조절된 신호로 합성하여 연속적으로 제어하는 방법으로 구현할 수 있다. 이렇게 처리할 경우 전방 영역에서 Interactive Panning을 사용함으로써 연산량 저감 효과와 함께 원음의 음색을 최대한 유지시키며 Interactive Feedback을 제공해 주면서, 머리 회전에도 부작용 없이 부드러운 음상 전환이 가능하다. 또한 후방 영역에서 들리는 객체 오디오의 세밀한 음상 정위 성능을 제공할 수 있다.
상기의 설명처럼 제1렌더링을 Interactive Panning으로, 제 2렌더링을 Binaural로 다르게 구현하는 것은 도 8의 경우 뿐 아니라, 전술한 여러가지 예시에 있어서 모두 적용가능하다. 즉, 본 발명의 사상은 공간상으로 구별된 영역에 따라 성질이 다른 서로 다른 렌더링 기법을 적용하여 연산량, 음색, 음질, 공간감 등 여러가지 관점의 성능을 최적화하는데 있다고 할 수 있다.
중간 영역(A_m)에 존재하는 객체 오디오의 렌더링을 수행함에 있어서 제 1 렌더링 방식의 출력과 제 2 렌더링 방식의 출력을 적절한 비율로 믹스(합성)하는 과정은 도 3 및 도 5에서 표현된 렌더링 부의 믹싱에서 처리될 수 있다. 믹싱이 될 때 제 1렌더링 방식의 출력과 제 2렌더링 방식의 출력을 적당한 비율로 합성하기 위해서 렌더링 방식 결정 부에서는 각 렌더링 방식에 해당되는 믹싱 게인을 출력하여 렌더링 부로 전달한다. 이를 기반으로 각 객체 오디오의 상대 방향에 따라 다른 비율로 합성된 오디오 신호를 출력한다.
또한 또 다른 발명의 실시 예로, 상기 Interpolation 형태의 믹싱 방법과 유사한 방법으로 시간 영역에서의 Smoothing 효과를 위한 Interpolation 방식이 적용될 수 있다. 예를 들어 사용자의 머리 방향이 급격하게 바뀌거나 객체 오디오 신호의 상대 위치가 급격하게 변화하여 객체 오디오 신호의 렌더링 방식이 단시간 내에 순간적으로 바뀌어 불연속 현상과 같은 부작용이 예상될 경우, 신호처리 Frame 상에서 이전 frame 과 현재 frame 사이, 혹은 정해진 시간 범위 안에서 Fade-In / Fade-Out Windowing과 같은 방법을 통하여 이를 해결하는 방법을 포함할 수 있다.
이상에서는 본 발명을 구체적인 실시 예를 통하여 설명하였으나, 당업자라면 본 발명의 취지 및 범위를 벗어나지 않고 수정, 변경을 할 수 있다. 즉, 본 발명은 오디오 신호에 대한 바이노럴 렌더링의 실시예에 대하여 설명하였지만, 본 발명은 오디오 신호뿐만 아니라 비디오 신호를 포함하는 다양한 멀티미디어 신호에도 동일하게 적용 및 확장 가능하다. 따라서 본 발명의 상세한 설명 및 실시예로부터 본 발명이 속하는 기술분야에 속한 사람이 용이하게 유추할 수 있는 것은 본 발명의 권리범위에 속하는 것으로 해석된다.

Claims (2)

  1. 하나 이상의 객체 오디오 신호; 및
    각 객체 오디오의 방향, 위치, 거리 등 정보를 포함하는 객체 메타데이터; 및
    사용자의 시야 혹은 머리 방향, 위치 등의 정보를 포함하는 사용자 메타데이터를 입력 받아;
    객체 메타데이터와 사용자 메타데이터로부터 객체 오디오의 렌더링 방식을 결정하는 렌더링 방식 결정 부; 및
    상기 객체 오디오 신호와 상기 객체 메타데이터를 입력 받아 상기 렌더링 방식 결정 부에서 결정된 렌더링 방식을 수행하는 렌더링 부로 구성된 신호처리 방법 및 장치.
  2. 상기 1항의 렌더링 부에 있어서;
    두 개 이상의 서로 다른 렌더링 방식을 포함하고 해당되는 두 개 이상의 출력이 렌더링 방식 결정 부에서 정의된 비율로 믹싱되는 것을 특징으로 하는 신호처리 방법 및 장치.
KR1020180001819A 2018-01-05 2018-01-05 오디오 신호 처리 방법 및 장치 KR20190083863A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020180001819A KR20190083863A (ko) 2018-01-05 2018-01-05 오디오 신호 처리 방법 및 장치
US16/240,781 US10848890B2 (en) 2018-01-05 2019-01-06 Binaural audio signal processing method and apparatus for determining rendering method according to position of listener and object

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180001819A KR20190083863A (ko) 2018-01-05 2018-01-05 오디오 신호 처리 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20190083863A true KR20190083863A (ko) 2019-07-15

Family

ID=67140033

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180001819A KR20190083863A (ko) 2018-01-05 2018-01-05 오디오 신호 처리 방법 및 장치

Country Status (2)

Country Link
US (1) US10848890B2 (ko)
KR (1) KR20190083863A (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10972853B2 (en) * 2018-12-21 2021-04-06 Qualcomm Incorporated Signalling beam pattern with objects
EP4236378A3 (en) * 2019-05-03 2023-09-13 Dolby Laboratories Licensing Corporation Rendering audio objects with multiple types of renderers
CN110753238B (zh) * 2019-10-29 2022-05-06 北京字节跳动网络技术有限公司 视频处理方法、装置、终端及存储介质
CN111343554A (zh) * 2020-03-02 2020-06-26 开放智能机器(上海)有限公司 一种视觉与语音结合的助听方法及系统
US11595775B2 (en) 2021-04-06 2023-02-28 Meta Platforms Technologies, Llc Discrete binaural spatialization of sound sources on two audio channels

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5404406A (en) * 1992-11-30 1995-04-04 Victor Company Of Japan, Ltd. Method for controlling localization of sound image
EP2194527A3 (en) * 2008-12-02 2013-09-25 Electronics and Telecommunications Research Institute Apparatus for generating and playing object based audio contents
CN103329571B (zh) * 2011-01-04 2016-08-10 Dts有限责任公司 沉浸式音频呈现系统
JP5740531B2 (ja) * 2011-07-01 2015-06-24 ドルビー ラボラトリーズ ライセンシング コーポレイション オブジェクトベースオーディオのアップミキシング
WO2013181272A2 (en) * 2012-05-31 2013-12-05 Dts Llc Object-based audio system using vector base amplitude panning
CN105144751A (zh) * 2013-04-15 2015-12-09 英迪股份有限公司 用于产生虚拟对象的音频信号处理方法
JP6515087B2 (ja) * 2013-05-16 2019-05-15 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. オーディオ処理装置及び方法
WO2015152663A2 (ko) * 2014-04-02 2015-10-08 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법 및 장치
EP3197182B1 (en) * 2014-08-13 2020-09-30 Samsung Electronics Co., Ltd. Method and device for generating and playing back audio signal
WO2017209477A1 (ko) * 2016-05-31 2017-12-07 지오디오랩 인코포레이티드 오디오 신호 처리 방법 및 장치
US10659904B2 (en) * 2016-09-23 2020-05-19 Gaudio Lab, Inc. Method and device for processing binaural audio signal
WO2018147701A1 (ko) * 2017-02-10 2018-08-16 가우디오디오랩 주식회사 오디오 신호 처리 방법 및 장치
EP3379842B1 (en) * 2017-03-21 2021-09-08 Nokia Technologies Oy Media rendering

Also Published As

Publication number Publication date
US20190215632A1 (en) 2019-07-11
US10848890B2 (en) 2020-11-24

Similar Documents

Publication Publication Date Title
US11950085B2 (en) Concept for generating an enhanced sound field description or a modified sound field description using a multi-point sound field description
EP3443762B1 (en) Spatial audio processing emphasizing sound sources close to a focal distance
EP3311593B1 (en) Binaural audio reproduction
US10034113B2 (en) Immersive audio rendering system
US9622011B2 (en) Virtual rendering of object-based audio
EP2589231B1 (en) Facilitating communications using a portable communication device and directed sound output
Kyriakakis Fundamental and technological limitations of immersive audio systems
KR20190083863A (ko) 오디오 신호 처리 방법 및 장치
KR20180135973A (ko) 바이노럴 렌더링을 위한 오디오 신호 처리 방법 및 장치
JP2019506058A (ja) 没入型オーディオ再生のための信号合成
CN111492342A (zh) 音频场景处理
Pulkki et al. Multichannel audio rendering using amplitude panning [dsp applications]
WO2018190880A1 (en) Crosstalk cancellation for stereo speakers of mobile devices
KR20210151792A (ko) 정보 처리 장치 및 방법, 재생 장치 및 방법, 그리고 프로그램
Tarzan et al. Assessment of sound spatialisation algorithms for sonic rendering with headphones
Lee et al. Virtual reproduction of spherical multichannel sound over 5.1 speaker system
Härmä et al. Spatial track transition effects for headphone listening