KR20240005112A - 공간 확장 음원을 재생하는 장치 및 방법 또는 공간 확장 음원으로부터 비트 스트림을 생성하는 장치 및 방법 - Google Patents

공간 확장 음원을 재생하는 장치 및 방법 또는 공간 확장 음원으로부터 비트 스트림을 생성하는 장치 및 방법 Download PDF

Info

Publication number
KR20240005112A
KR20240005112A KR1020237043727A KR20237043727A KR20240005112A KR 20240005112 A KR20240005112 A KR 20240005112A KR 1020237043727 A KR1020237043727 A KR 1020237043727A KR 20237043727 A KR20237043727 A KR 20237043727A KR 20240005112 A KR20240005112 A KR 20240005112A
Authority
KR
South Korea
Prior art keywords
sound source
bitstream
information
sound
geometry
Prior art date
Application number
KR1020237043727A
Other languages
English (en)
Inventor
위르겐 헤레
엠마누엘 하베츠
세바스찬 슐레흐트
알렉산더 아다미
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20240005112A publication Critical patent/KR20240005112A/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

공간 내에 규정된 위치와 지오메트리를 갖는 공간 확장 음원을 재생하는 장치로, 이 장치는 청취자 위치를 수신하는 인터페이스(100)와; 청취자 위치와 공간 확장 음원의 지오메트리에 대한 정보와 및 공간 확장 음원의 위치에 대한 정보를 사용하여 공간 확장 음원에 연계된 2차원 또는 3차원 포(hull)의 투영 평면으로의 투영을 연산하는 투영기와; 투영 평면을 사용하여 공간 확장 음원에 대한 적어도 2개의 음원들의 위치들을 연산하는 음원 위치 연산기와; 및 둘 이상의 출력 신호들을 갖는 공간 확장 음원의 재생을 얻을 위치들에 적어도 2개의 음원들을 묘사하는 묘사기로, 이 묘사기가 다른 위치들에 대해 다른 음향 신호들을 사용하도록 구성되고, 다른 음향 신호들이 공간 확장 음원에 연계되는 묘사기를 구비한다.

Description

공간 확장 음원을 재생하는 장치 및 방법 또는 공간 확장 음원으로부터 비트 스트림을 생성하는 장치 및 방법 {APPARATUS AND METHOD FOR REPRODUCING A SPATIALLY EXTENDED SOUND SOURCE OR APPARATUS AND METHOD FOR GENERATING A BITSTREAM FROM A SPATIALLY EXTENDED SOUND SOURCE}
본 발명은 음향 신호 처리에 관한 것으로, 특히 공간 확장된 음원의 인코딩, 또는 디코딩 또는 재생에 관한 것이다.
몇 개의 스피커(loudspeaker) 또는 헤드폰들 상에서의 음원(sound source)들의 재생(reproduction)이 오랫동안 연구되어 왔다. 이러한 구성(setup)들 상에서 음원들을 재생하는 가장 단순한 방식은 점원(point source)을, 즉 매우(이상적으로는: 무한하게) 작은 음원들로 묘사(render)하는 것이다. 그러나 이 이론적 개념은 기존의 물리적 음원들을 실제적인 방식으로 모델링할(model) 수 없다. 예를 들어, 그랜드 피아노는 내부에 공간적으로 분포된 많은 현(string)들을 갖는 큰 진동하는 목제 포(hull)를 가지므로 청각(auditory perception)에 점 음원보다 훨씬 더 크게 느껴진다(특히 청취자(및 마이크)가 그랜드 피아노에 가까울 때). 악기, 기계, 오케스트라 또는 합창 또는 (폭포 소리 등의) 주변 소리(ambient sound) 등 많은 실세계의(real-world) 음원들은 상당한 크기("공간 범위(spatial extent)")를 갖는다.
이러한 음원들의 정확한/사실적인 재생은 많은 음향 재생 방법들의 목표가 되어 왔는데, 헤드폰을 사용하거나 2 스피커("스테레오(stereo)")로부터 수평 평면에 배치된 많은 스피커들("서라운드 사운드(Surround Sound)")과 청취자를 모든 2차원에서 둘러싸는 많은 스피커들("3D 오디오(3D Audio)")까지의 전통적으로 스피커 구성을 사용하는 양귀(binaural)(즉 소위 머리 관련 전달 함수(Head-Related Transfer Function; HRTF) 또는 양귀 실내 임펄스 응답(Binaural Room Impulse Response; BRIR)들을 사용하는)(방법)들이다.
본 발명의 목적은 공간 확장 음원(Spatially Extended Sound Source)들을 가능하기로 복잡한 지오메트리 형태(complex geometric shape)로 인코딩 또는 재생하는 개념을 제공하는 것이다.
2D 음원 폭(2D Source Width)
이 부분은 확장 음원을 청취자의 관점에 대향하는 2D표면 상, 즉 (통상적인 스테레오/서라운드 사운드의 경우와 같이) 0의 고도(elevation)의 어떤 방위각(azimuth) 범위 또는 (3D 오디오 또는 사용자 운동의 3 자유도(degrees of freedom)["3DoF"], 즉 피치/요우/롤(pitch/yaw/roll) 축들의 머리 회전의 경우와 같이) 어떤 범위의 방위각과 고도 상에 묘사(rendering)하는 것에 관련된다.
둘 이상의 스피커들 간에 패닝된(panned) 오디오 객체(audio object)의 외견 폭(apparent width)의 확장(소위 팬텀 이미지(phantom image) 또는 팬텀 소스(phantom source)의 생성)은 참여 채널 신호들의 상관성(correlation)을 감소시킴으로써 이뤄질 수 있다(Blauert, 2001, S. 241-257). 상관성을 감소시키면, 팬텀 소스의 스프레드(spread)는 0에 가까운 상관성(및 너무 넓지 않은 개구각(opening angle) 대해)에 대해 스피커들 간의 전체 범위를 커버(cover)하기까지 확장된다.
음원 신호(source signal)의 비상관화된 신호(decorrelated version)는 적절한 비상관화 필터의 도출 및 인가에 의해 얻어진다. Lauridsen은 신호의 2개의 비상관화 신호들을 얻기 위해 음원 신호의 시간 지연 및 크기 조정된(scaled) 신호를 그 자체에 가감(add/subtract)하는 것을 제안하였다(Lauridsen, 1954). 더 복잡한 접근 방법은 예를 들어 Kendall에 의해 제안되었다(Kendall, 1995). 그는 난수 시퀀스들의 조합에 기반하여 한 쌍의(paired) 전대역 통과 필터(all-pass filter)들을 반복법으로(iteratively) 도출하였다. Faller 등(et al.)은 (Baumgarte & Faller, 2003)에서 적절한 비상관화 필터("디퓨저(diffusers)")를 제안하였다(Faller & Baumgarte, 2003). 또한 Zotter 등은 주파수 의존 위상 또는 진폭 차이가 팬텀 소스의 확장(widening)의 달성에 사용된 필터 쌍들을 도출하였다(Zotter & Frank, 2013). 또한 (Alary, Politis, & Vlimki, 2017)는 (Schlecht, Alary, Vlimki, & Habets, 2018)로 더 최적화된(optimized) 벨벳 소음(velvet noise)에 기반한 비상관화 필터를 제안하였다.
팬텀 소스의 채널 신호들의 상관성을 감소시키는 것 이외에, 음원 폭(source width)은 오디오 객체에 기인하는 팬텀 소스들의 수의 증가로도 확장될 수 있다. (Pulkki, 1999)에서, 음원 폭은 동일한 음원 신호를 (약간) 다른 방향으로 패닝(panning)함으로써 제어된다. 이 방법은 원래 음원 신호들이 음향 배경(sound scene) 내에서 이동할 때 VBAP-패닝된(Pulkki, 1997) 음원 신호들의 인식된(perceived) 팬텀 소스의 스프레드(spread)를 안정화시키기 위해 제안되었다. 이는 소스의 방향에 의존하므로 바람직한데, 묘사된(rendered) 소스가 인식된 음원 폭의 바람직하지 못한 변경으로 결과될 수 있는 둘 이상의 스피커들로 재생된다.
가상 세계(virtual world) DirAC(Pulkki, Laitinen, & Erkut, 2009)은 가상 세계에서의 음향 합성에 대한 전통적인 지향성 오디오 코딩(Directional Audio Coding; DirAC) (Pulkki, 2007) 접근법에 대한 확장이다. 공간 범위의 묘사를 위해, 음원의 지향성 오디오 성분(directional audio component)들이 음원의 원래 방향 주위의 어떤 범위 내에서 랜덤하게(randomly) 패닝되는데, 여기서 패닝 방향은 시간과 주파수에 따라 변화된다.
유사한 접근법이 (Pihlajamki, Santala, & Pulkki, 2014)에서 추구되었는데, 음원 신호의 주파수 대역들을 다른 공간 방향들로 랜덤하게 분포시킴으로써 공간 범위가 달성되었다. 이는 공간적으로 분포되고 범위의 정확한 각도를 제어하기보다 모든 방향들로부터 동일하게 유입되는 엔벌로프된 사운드(enveloping sound)를 목표로 한 것이다.
Verron 등은 패닝된 상관성(correlated) 신호들을 사용하지 않고 음원 신호의 복수의 비동기(incoherent) 신호들을 합성하여 이를 청취자 주위의 원 상에 균일하게 분포시키고 이들 사이에서 믹싱(mixing)함으로써 음원의 공간 범위를 달성하였다(Verron, Aramaki, Kronland-Martinet, & Pallone, 2010). 동시에 활성인(active) 음원들의 수와 게인(gain)이 확장 효과(widening effect)의 강도를 결정한다. 이 방법은 환경음(environmental sound)용 신디사이저(synthesizer)에 대한 공간 확장으로 구현되었다.
3D 음원 폭(3D Source Width)
이 부분은 3D공간 내에, 즉 6자유도("6DoF")를 갖는 가상현실에 필요한 것과 같은 용적형 방식(volumetric way) 내에 확장된 음원들의 묘사하는 것에 관련된다. 이는 사용자 운동의 6자유도, 즉 피치/요우/롤 축의 머리 회전에 더하여 x/y/z의 세 병진 운동(translational movement) 방향들을 의미한다.
Potard 등은 음원 형태의 인식을 연구함으로써 음원 범위의 개념(notion)을 음원의 1차원 매개변수(즉 2개의 스피커들 사이의 그 폭)로 확장했다(Potard, 2003). 이들은 원래의 음원 신호에 (시가변적; time varying) 비상관화 기법을 적용한 다음 비동기 음원들을 다른 공간 위치들에 위치시키고 이들에게 3차원 범위를 부여함으로써 복수의 비동기 점원들을 생성하였다(Potard & Burnett, 2004).
MPEG-4 Advanced AudioBIFS(Schmidt & Schrder, 2004)에서, 용적형 객체/형태(포(shuck), 박스, 타원체, 및 원통)들은 몇 개의 균일하게 분포되고 비상관화된 음원들로 채워져 3차원 음원 범위를 설정(evoke)할 수 있다.
Ambisonics를 사용하여 음원 범위를 증가 및 제어하기 위해, Schmele 등은 입력 신호의 Ambisonics 차수(order)를 감소시킨 혼합(mixture)을 제안했는데(Schmele & Sayin, 2018), 이는 본질적으로 외견 음원 폭을 증가시키고, 음원 신호의 비상관화 사본을 청취 공간(listening space) 주위에 분포시킨다.
다른 접근법이 Zotter 등에 의해 도입되었는데, 이들은 Ambisonics를 위해 (Zotter & Frank, 2013)에 제안된 원리(스테레오 재생 구성(setup)의 음원 범위를 달성하기 위해 주파수 의존 위상 및 진폭(magnitude)를 도입하는 필터 쌍의 도출)를 채택하였다(Zotter F. , Frank, Kronlachner, & Choi, 2014).
(예를 들어 (Pulkki, 1997), (Pulkki, 1999), (Pulkki, 2007), (Pulkki, Laitinen, & Erkut, 2009) 등의) 패닝 기반 접근법들의 공통적인 단점은 청취자의 위치에 대한 의존성이다. 최적 위치(sweet spot)로부터의 작은 이탈조차 공간 이미지(spatial image)의 청취자에게 가장 가까운 스피커로의 붕괴를 유발한다. 이는 청취자가 자유로이 돌아다닌다고 가정되는 6 자유도의 가상현실 또는 증강현실의 맥락에서의 이 접근법들의 적용을 극적으로 제한한다. 또한 (예를 들어 (Pulkki, 2007), (Pulkki, Laitinen, & Erkut, 2009) 등) DirAC 기반 접근법에 시간-주파수 빈(bin)들을 분포시키는 것이 항상 팬텀 소스의 공간 범위의 적절한 묘사를 보장하는 것은 아니다. 더구나 이는 전형적으로 음원 신호의 음색(timbre)을 현저히 열화시킨다.
음원 신호들의 비상관화는 일반적으로 다음 방법들 중 하나로 이뤄지는데: i) 상보 진폭(complementary magnitude)을 갖는 필터 쌍들의 도출(예를 들어 (Lauridsen, 1954)), ii) 일정한 진폭을 갖지만 (랜덤하게) 스크램블된(scrambled) 위상을 갖는 전대역 통과 필터의 사용(예를 들어 (Kendall, 1995), (Potard & Burnett, 2004)), 또는 iii) 음원 신호의 시간-주파수 빈(bin)들을 공간적으로 랜덤하게 분포시킴(예를 들어 (Pihlajamㅴki, Santala, & Pulkki, 2014)).
모든 접근법들은 그 자체의 영향이 있는데: i)에 따른 음원 신호의 상보적 필터링은 전형적으로 비상관화 신호들의 변화된 인식 음색을 유발한다. ii)에서와 같은 전대역 통과 필터링은 음원 신호의 음색을 보존하는 반면, 스크램블된 위상은 원래의 위상 관계들을 파괴하여, 특히 일시적(transient) 신호들에 대해 심한 시간 분산(temporal dispersion)과 스미어링 아티팩트(smearing artifact)들을 유발한다. 공간적으로 분포된 시간-주파수 빈들은 일부 신호들에 유효한 것으로 입증되었지만, 역시 신호의 인식된 음색을 변화시킨다. 뿐만 아니라, 이는 매우 신호 의존적임을 보여 임펄스 신호(impulsive signal)에 대해서는 심한 아티팩트들을 유입시킨다.
Advanced AudioBIFS((Schmidt & Schrder, 2004), (Potard, 2003), (Potard & Burnett, 2004))에 제안된 바와 같이 용적형 형태(volumetric shape)에의 음원 신호의 복수의 비상관화 신호들의 이식(populating)은 상호 비상관된 출력 신호들을 산출하는 다수의 필터들의 사용 가능성(availability)을 가정한다(전형적으로 용적형 형태 당 10개보다 많은 점원들이 사용된다). 그러나 이러한 필터들의 탐색(finding)은 사소한 과업이 아니어서 이러한 필터들이 요구될수록 더 어려워진다. 뿐만 아니라, 음원 신호가 완전히 비상관화되지 않고 예를 들어 (가상현실) 시나리오에서 청취자가 돌아다니면, 청취자에 대한 개별적 음원 거리들이 음원 신호들의 다른 지연들에 해당하여 청취자의 귀에서의 그 중첩은 위치 의존의 빗형 필터링(comb-filtering)으로 결과되어 가능하기로 음원 신호의 짜증스럽고 불안정한 변질(coloration)을 도입할 것이다.
(Schmele & Sayin, 2018)에서의 Ambisonics 기반 기법으로 음원 폭을 제어하는 기법은 Ambisonics 차수를 낮춤으로써 2차로부터 1차 또는 0차 차수로 천이만에 의한 청각 효과(audible effect)를 가짐을 보인다. 또한 이러한 천이는 음원 확장(source widening)으로만 인식될 뿐 아니라 종종 팬텀 소스의 이동으로도 인식된다. 음원 신호의 비상관화 신호들의 가산은 외견 음원 폭의 인식을 안정화시키는 데 도움이 될 수 있지만, 이는 팬텀 소스의 음색을 변화시키는 빗형 필터 효과 역시 도입시킨다.
본 발명의 목적은 공간 확장 음원의 재생 또는 공간 확장 음원으로부터 비트스트림(bitstream)을 생성하는 개선된 개념을 제공하는 것이다.
이 목적은 청구항 1의 공간 확장 음원의 재생 장치, 청구항 27의 비트스트림 생성 장치, 청구항 35의 공간 확장 음원의 재생 방법, 청구항 36의 비트스트림 생성 방법, 청구항 41의 비트스트림, 또는 청구항 47의 컴퓨터 프로그램에 의해 달성된다.
본 발명은 공간 확장 음원의 재생이 공간 확장 음원에 연계된 2차원 또는 3차원 포(hull)의 청취자 위치를 사용하는 투영 평면 상의 투영(projection)을 연산함으로써 이뤄질 수 있고, 특히 심지어 묘사하도록 할 수 있다는 발견에 기반한다. 이 투영은 적어도 2개의 공간 확장 음원들의 위치들을 연산하는 데 사용될 수 있고, 적어도 2개의 공간 확장 음원들은 공간 확장 음원들의 재생을 얻을 위치들에 묘사되는데, 묘사는 둘 이상의 출력 신호들로 결과되고, 다른 위치들에 대한 다른 음향 신호들이 사용되지만 다른 음향 신호들은 모두 동일한 공간 확장 음원에 연계된다.
한편으로 공간 확장 음원들과 (가상) 청취자 위치 간의 시가변적time-varying) 상대 위치가 해명되므로 고품질 2차원 또는 3차원 음향 재생이 얻어진다. 다른 편으로 공간 확장 음원이 인식되는 음원 범위 상의 기하학적 정보(geometry information)에 의해 그리고 당업계에 잘 알려진 묘사기(renderer)로 용이하게 처리될 수 있는 주변 점원(peripheral point source)들 등의 적어도 2개의 음원들의 수에 의해 효율적으로 묘사된다(represented). 특히 당업계의 단순한(straightforward) 묘사기들이 항상 어떤 출력 포맷 또는 스피커 구성에 대한 어떤 위치들에 음원들을 묘사할 수 있는 위치에 있다. 예를 들어, 음원 위치 연산기에 의해 어떤 위치들에 연산된 2개의 음원들이 예를 들어 진폭 패닝(amplitude panning)에 의해 이 위치들에 묘사될 수 있다.
예를 들어 음향 위치들이 5.1 출력 포맷의 좌 및 우 서라운드 사이에 있고, 다른 음원들이 출력 포맷의 좌 및 우 서라운드 사이에 있으면, 묘사기로 수행되는 진폭 패닝 절차는 하나의 음원에 대한 좌 및 서라운드 채널에 대한 아주 유사한 신호들과 이에 따라 다른 음원들에 대한 좌 및 우 서라운드에 대한 아주 유사한 신호들로 결과되어 사용자는 음원들이 음원 위치 연산기로 연산된 위치들로부터 유입되는 것으로 인식하게 된다. 그러나 모든 4개의 신호들이 결국 공간 확장 음원에 연계되기 때문에 사용자가 단순히 음원 위치 연산기로 연산된 위치들과 연계된 2개의 팬텀 음원들을 인식하는 것이 아니라 청취자는 단일한 공간 확장 음원을 인식한다.
공간 내의 지오메트리(geometry) 내에서 규정된 위치를 갖는 공간 확장 음원의 재생 장치는 인터페이스와, 투영기와, 음원 위치 연산기와, 및 묘사기를 구비한다. 본 발명은 예를 들어 피아노 내에서 발생되는 강화된 음향 환경(sound situation)을 처리할 수 있게 해준다. 피아노는 큰 장치지만 오늘날까지 피아노 음향은 단일한 점원으로부터 유입되는 것으로 묘사되었다. 그러나 이는 피아노의 진정한 음향 특성을 완전히 묘사하지 못한다. 본 발명에 따르면, 공간 확장 음원의 예로서의 피아노가 적어도 2개의 음향 신호들로 반영되는데, 한 음향 신호는 피아노의 좌측부에 근접하여, 즉 저음 현(bass string)들에 인접하여 위치하는 마이크로 녹음될 수 있는 한편, 피아노의 우측부에 위치하여, 즉 고음(high tone)을 생성하는 고음 현(treble string)들에 근접하여 위치하는 다른 제2의 마이크에 의해 다른 음원이 녹음될 수 있다. 자연히 양 마이크들은 피아노 내부의 반향 환경(reflection situation)에 기인하여 또한 저음 현들이 우측 마이크보다 좌측 마이크에 더 가깝고 역도 마찬가지인 사실에 기인하여 서로 다른 음향들을 녹음할 것이다. 그러나 반면 양 마이크 신호들은 결국 피아노의 고유한 음향을 구성하는 상당한 양의 유사한 음향 성분들을 가질 것이다.
본 발명에 따르면, 피아노 등의 공간 확장 음원을 묘사하는 비트스트림이, 신호들을 녹음함으로써 또한 공간 확장 음원의 가하학적 정보를 기록함으로써, 그리고 선택적으로 다른 마이크 위치들에 대한(또는 일반적으로 2개의 다른 음원들에 연계된 2개의 다른 위치들에 대한) 위치 정보를 기록하거나 (피아노의) 음향의 인식된 지오메트리 형태의 서술(description)을 제공함으로써 생성된다. 음원에 대한 청취자 위치를 반영하기 위해, 즉 청취자가 가상현실 또는 증강현실, 또는 어떤 다른 음향 배경 내를 "돌아다닐(walk around)" 수 있도록 하기 위해, 피아노 등의 공간 확장 음원에 연계된 포(hull)의 투영이 청취자 위치를 사용하여 연산되고 적어도 2개의 음원들의 위치들이 투영 평면을 사용하여 연산되는데, 여기서 특히 바람직한 실시예들은 투영 평면의 주변 점들로의 음원들의 위치설정(positioning)에 관련된다.
예시적 피아노 음향을 2 차원 또는 3차원 환경(situation)에 실제 묘사하여 예를 들어 청취자가 피아노 등의 음원의 좌측부에 더 가까이 있을 때 청취자가 인식하는 음향이 청취자가 피아노 등의 음원의 우측부에 더 가까이 위치하거나 심지어 피아노 등의 음원의 뒤에 있을 때의 음향과 다르도록 하는 것이 저감된 연산 부담(overhead)과 저감된 묘사 부담으로 가능하게 되었다.
이상을 고려하면, 본 발명 개념은 인코더 측에서 공간 확장 음원을 특성화하는 방식이 진정한 2차원 또는 3차원 구성에 대한 음향 재생 환경 내에서 공간 확장 음원의 사용을 가능하게 한다는 점에서 독특하다. 또한 공간 확장 음원의 매우 유연한 서술 내에서의 청취자 위치의 사용이 2차원 또는 3차원 포(hull)의 청취자 위치를 사용한 투명 평면 상의 투영을 연산함으로써 매우 효율적인 방식으로 가능해졌다. 공간 확장 음원에 대한 적어도 2개의 음원들의 음향 위치들이 투영 평면을 사용하여 연산되고, 음원 위치 연산기로 연산된 위치들에서 적어도 2개의 음원들이 묘사되어 헤드폰에 대한 둘 이상의 출력 신호들 또는 스테레오 재생 구성의 둘 이상의 채널을 위한 다중 채널 출력 신호들을 갖는 공간 확장 음원의 재생, 또는 5개, 7개, 또는 그보다 많은 채널들 등의 둘 이상의 채널을 갖는 재생 구성을 얻을 수 있다.
많은 다른 점원들을 용적(volume)의 모든 부분들이 채워지도록 위치시킴으로써 3D 용적을 음향으로 채우는(filling) 종래 방법에 비해, 투영은 많은 음원들을 모델링하지 않고 포의 투영, 즉 2D 공간에만 채울 것을 요구함으로써 채택되는 점원들의 수를 극적으로 감소시킨다. 뿐만 아니라, - 극단적인 경우 - 공간 확장 음원의 좌측 경계(border)에서 단순히 하나의 음원과 공간 확장 음원의 우측 경계에서 하나의 음원이 될 수 있는 투영의 포 상의 음원들만을 바람직하게 모델링함으로써 요구되는 점원의 수가 심지어 더욱 감소된다. 양 감소 단계들은 모두 2가지 음향심리학적(psychoacoustic) 관찰들에 기반하는데:
1. 음원의 방위각(및 고도)과 대조적으로 그 거리는 매우 신뢰성 높게 인식될 수 없다. 이에 따라, 원래의 용적을 청취자에 직교하는 평면 상에 투영해도 인식이 현저히 변화되지 않는다(그러나 렌더링에 필요한 점원들의 수를 감소시키는 데 도움이 된다).
2. 각각 좌에서 우의 점원들로 분포된 2개의 비상관화된 음향들은 인식상(perceptually) 그 사이의 공간들을 음향으로 채우는 경향이 있다.
또한, 인코더 측이 단일한 공간 확장 음원의 특성화를 가능하게 할 뿐 아니라 그 표현으로 생성된 비트스트림이 바람직하게 관련된 둘 이상의 공간 확장 음원들의 그 지오메트리 정보와 단일한 좌표계에 대한 위치에 관한 모든 정보를 포함할 수 있다. 디코더 측에서는, 재생이 단일한 공간 확장 음원에 대해서만 이뤄질 수 없고, 몇 개의 공간 확장 음원들에 대해 이뤄질 수 있는데, 여기서 투영기는 (가상) 청취자 위치를 사용하여 각 음원의 투영을 연산한다. 또한 음원 위치 연산기는 각 공간 확장 음원에 대해 적어도 2개의 음원들의 위치들을 연산하고, 묘사기가 각 공간 확장 음원에 대해 연산된 모든 음원들을 예를 들어 각 공간 확장 음원으로부터의 둘 이상의 출력 신호들을 신호별(signal-by-signal) 방식 또는 채널별(channel-by-channel) 방식으로 가산하여 가산된 채널들을 양귀(binaural) 재생을 위한 해당 헤드폰 또는 스피커 관련 재생 구성의 해당 스피커들에 공급하거나, 또는 이와 달리 (조합된) 둘 이상의 출력 신호들을 추후 사용 또는 전송을 위한 저장을 위해 스토리지(storage)에 제공한다.
생성기(generator) 또는 인코더 측에서, 공간 확장 음원에 대한 압축된 서술을 표현하는 비트스트림을 생성하는 장치를 사용하여 비트스트림이 생성되는데, 이 장치는 공간 확장 음원에 대한 하나 이상의 다른 음향 신호들을 제공하는 음향 신호 제공기(sound provider)와, 및 압축된 음향 배경(sound scene)을 표현하는 비트스트림을 생성하는 출력 데이터 형성기(output data former)를 구비하고, 이 비트스트림은 예를 들어 MP3, AAC, USAC 또는 MPEG-H 인코더 등의 비트전송률(bitrate) 압축 인코더에 압축되는 등 바람직하기로 압축 방식으로 하나 이상의 다른 음향 신호들을 구비한다. 출력 데이터 형성기는 둘 이상의 다른 음향 신호들의 경우, 둘 이상의 다른 음향 신호들의 각 음향 신호에 바람직하기로 공간 확장 음원 지오메트리(geometry)에 관한 해당 음향 신호의 위치, 즉 위 예에서 제1 신호가 피아노의 좌측부에서 녹음된 신호이고 (제2 신호가) 피아노의 우측부에서 녹음된 신호라는 것을 나타내는 선택적인(optional) 개별 위치 정보를 비트스트림에 도입하도록 더 구성된다.
그러나 이와 달리, 위치 정보가 반드시 공간 확장 음원 지오메트리에 관련되어야 하는 것은 아니고, 공간 확장 음원 지오메트리에 대한 관계가 선호되기는 하지만 일반적 좌표 원점에 관련될 수도 있다.
또한 압축 비트스트림을 생성하는 장치는 공간 확장 음원 지오메트리에 대한 정보를 연산하는 지오메트리 제공기(geometry provider) 역시 구비하고, 출력 데이터 형성기는 마이크들로 녹음된 음향 신호들 등의 적어도 2개의 음향 신호들에 추가하여 지오메트리에 대한 정보와, 각 음향 신호에 대한 개별적 위치 정보를 비트스트림에 도입시키도록 구성된다. 그러나 음향 신호 제공기가 반드시 마이크 신호들을 실제 픽업(pick up)해야 하는 것은 아니고, 음향 신호들은 경우에 따라 비상관화 처리를 사용하여 인코더 측에서도 생성될 수 있다. 이와 동시에, 적은 수의 음향 신호들만 또는 심지어 단일한 음향 신호가 공간 확장 음향 신호에 대해 전송되고 나머지 음향 신호들은 비상관화 처리를 사용하여 재생 측 상에 생성될 수 있다. 이는 바람직하기로 비트스트림 내의 비트스트림 요소(element)에 의해 신호되고, 음향 재생기(sound reproducer)는 항상 얼마나 많은 음향 신호들이 공간 확장 음원 당 포함되는지를 알고 있어 재생기는 특히 음원 위치 연산기 내에서 얼마나 많은 음향 신호들이 이용 가능한(available)지와 신호 합성 또는 상관 처리 등에 의해 얼마나 많은 음향 신호들이 디코더 측에서 도출되어야 하는지 결정할 수 있다.
이 실시예에서, 재생기(regenerator)는 공간 확장 음원에 대해 포함된 음향 신호들의 수를 나타내는 비트스트림 요소를 비트스트림에 기입(write)하고, 음향 재생기 측에서 비트스트림으로부터 비트스트림 요소를 도출하여 비트스트림 요소를 독출(read)하며 이 비트스트림 요소에 기반하여 바람직하기로 주변 점원들 또는 주변 음원들 간에 위치한 보조 음원들에 대해 비트스트림 내의 수신된 적어도 하나의 음향 신호에 기반하여 얼마나 많은 신호들이 연산되어야 하는지 결정한다.
이어서, 본 발명의 바람직한 실시예들이 첨부된 도면을 참조하여 논의될 것인데, 도면에서:
도 1은 재생 측의 바람직한 실시예의 개략 블록도;
도 2는 다른 수의 주변 점원들을 갖는 구형 공간 확장 음원을 보이는 도면;
도 3은 몇 개의 주변 점원들을 갖는 타원체형 공간 확장 음원을 보이는 도면;
도 4는 주변 점원들의 위치를 분포시키는 다른 방법들을 갖는 선형 공간 확장 음원을 보이는 도면;
도 5는 주변 점원들을 분포시키는 다른 절차들을 갖는 입방체형 공간 확장 음원을 보이는 도면;
도 6은 다른 거리들에서의 구형 공간 확장 음원을 보이는 도면;
도 7은 대략 매개변수적 타원체 형태 내의 피아노형 공간 확장 음원을 보이는 도면;
도 8은 투영 볼록포 상의 극점들 상에 분포한 세 주변 점원들을 갖는 피아노형 공간 확장 음원을 보이는 도면;
도 9는 공간 확장 음원을 재생하는 장치 또는 방법의 바람직한 구현예를 보이는 도면;
도 10은 공간 확장 음원에 대한 압축된 서술을 표현하는 비트스트림을 생성하는 장치 또는 방법의 바람직한 구현예를 보이는 도면; 및
도 11은 도 10에 도시된 장치 또는 방법에 의해 생성된 비트스트림의 바람직한 구현예를 보이는 도면.
도 9는 공간(space) 내에 규정된 위치와 지오메트리(geometry)를 갖는 공간 확장(spatially extended) 음원을 재생(reproducing)하는 장치의 바람직한 구현예를 도시한다. 이 장치는 인터페이스(interface; 100)와, 투영기(projector; 120)와, 음원 위치 연산기(sound position calculator; 140)와, 및 묘사기(renderer; 160)를 구비한다. 인터페이스는 청취자 위치를 수신하도록 구성된다. 또한 투영기(120)는 인터페이스(16)로 수신된 청취자 위치를 사용하고 추가적으로 공간 내의 공간 확장 음원 지오메트리에 대한 정보를 사용하여 공간 확장 음원에 연계된 2차원 또는 3차원 포(hull)의 투영 평면(projection plane) 상의 투영을 연산하도록 구성된다. 바람직하기로 공간 내의 공간 확장 음원의 규정된 위치와 추가적으로 공간 내의 공간 확장 음원 지오메트리는 비트스트림 디멀티플렉서(bitstream demultiplexer) 또는 배경 분석기(scene parser)(180)에 도달한 비트스트림을 통해 공간 확장 음원의 재생을 위해 수신된다. 비트스트림 디멀티플렉서(180)는 비트스트림으로부터 공간 확장 음원 지오메트리 정보를 추출하여 이 정보를 투영기에 제공한다. 또한 비트스트림 디멀티플렉서는 비트스트림으로부터 공간 확장 음원의 위치 역시 추출하여 이 정보를 투영기에 전송한다(forward), 바람직하기로, 비트스트림은 또한 적어도 2개의 다른 음원에 대한 위치 정보를 포함하고, 바람직하기로 비트스트림 디멀티플렉서가 비트스트림으로부터 이 적어도 2개의 음원들의 압축된 표현(compressed representation)을 추출하며, 적어도 2개의 음원들은 오디오 디코더(190)인 디코더에 의해 해제/디코딩(decompressed/decoded)된다. 디코딩된 적어도 2개의 음원들은 최종적으로 묘사기(160)에 전송되고, 묘사기(160)는 적어도 2개의 음원들을 음원 위치 연산기(140)가 묘사기(160)에 제공한 위치들에 묘사한다(render).
도 9가 비트스트림 디멀티플렉서(180)와 오디오 디코더(190)를 갖는 비트스트림 관련 재생 장치를 도시하고 있지만, 재생은 인코더/디코더 시나리오와 다른 환경에서도 이뤄질 수 있다. 예를 들어, 공간 내의 규정된 위치와 지오메트리가 가상현실 또는 증강현실 배경(scene) 등 재생 장치에 이미 존재할 수 있는데, 여기서 데이터가 현장에서(on site) 생성되어 동일한 현장에서 소비될 수 있다. 비트스트림 디멀티플렉서(180)와 오디오 디코더(190)가 실제 필요하지 않고, 공간 확장 음원 지오메트리와 공간 확장 음원의 위치의 정보가 비트스트림에서 추출되지 않고도 사용 가능하다. 또한, 적어도 2개의 음원들의 공간 확장 음원 지오메트리 정보에 대한 위치에 관련된 정보 역시 미리 고정적으로 절충되고(negotiated), 이에 따라 인코더로부터 디코더로 전송될 필요가 없거나, 이와는 달리 이 데이터가 다시 현장에서 생성될 필요가 없다.
이에 따라, 위치 정보는 (일부) 실시예들에만 제공되고 둘 이상의 음원 신호들의 경우라도 이 정보를 전송할 필요가 없다는 것에 유의해야 한다. 예를 들어 디코더 또는 재생기는 비트스트림 내의 언제나 제1 음향 신호를 더 좌측에 위치한 투영 상의 음원으로 받아들일 수 있다. 마찬가지로 비트스트림 내의 제2 음향 신호를 더 우측에 위치한 투영 상의 음원으로 받아들일 수 있다.
또한, 음원 위치 연산기가 투영 평면을 사용하여 공간 확장 음원에 대한 적어도 2개의 음원들의 위치를 연산하지만, 이 적어도 2개의 음원들을 반드시 비트스트림을 통해 수신해야 하는 것은 아니다. 그 대신, 2개의 음원들 중 단지 하나의 음원만이 비트스트림을 통해 수신되고, 이에 따라 다른 음원 및 다른 위치(position or location) 정보는 이러한 정보를 비트스트림 생성기로부터 재생기로 전송할 필요 없이 실제 재생 측에서 생성할 수 있다. 그러나 다른 실시예들에서는 이 모든 정보들이 전송될 수 있고, 비트전송률 요건들이 여유가 있는(not tight) 경우는 하나 또는 둘보다 더 많은 수의 음향 신호들보다 비트스트림에 전송될 수 있고, 오디오 디코더(190)는 그 위치들이 음원 위치 연산기(140)로 연산된 적어도 2개의 음원들을 묘사하는(representing) 2개, 3개, 또는 더 많은 음향 신호들을 디코딩할 것이다.
도 10은 재생이 인코더/디코더 응용 내에서 이뤄지는 경우, 이 시나리오의 인코더 측을 도시한다. 도 10은 공간 확장 음원의 압축된 서술을 나타내는 비트스트림을 생성하는 장치를 도시한다. 특히 음향 신호 제공기(sound provider; 200)와 출력 데이터 형성기(output data former; 240)가 구비된다. 이 구현예에서, 공간 확장 음원은 하나 이상의 다른 음향 신호들을 갖는 압축된 서술로 표현되고, 출력 데이터 형성기는 압축된 음향 배경을 묘사하는 비트스트림을 생성하는데, 여기서 비트스트림은 공간 확장 음원에 관련된 적어도 하나 이상의 다른 음향 신호들과 지오메트리 정보를 포함한다. 이는 도 9에 관련해 도시된 환경을 나타내는데, 여기서 공간 확장 음원의 위치 등의 모든 다른 정보(도 9의 블록 120의 점선 화살표 참조)는 재생 측에서 사용자에 의해 자유로이 선택 가능하다. 공간 확장 음원에 대한 적어도 하나 이상의 다른 음향 신호들을 갖는 공간 확장 음원의 고유한 서술(unique description)이 제공되는데, 이들 음향 신호들은 단순히 점원 신호들이다
생성 장치는 추가적으로 공간 확장 음원 지오메트리에 대한 연산 정보 등을 제공하는 지오메트리 제공기(220)를 더 구비한다. 연산으로부터 이외에 지오메트리 정보를 제공하는 다른 방법은 사용자가 손으로 작성(manually draft)하는 등의 사용자 입력 또는 예를 들어 담화(speech), 어조(tone), 제스처(gesture), 또는 다른 어떤 사용자 동작(action) 등 사용자가 제공하는 어떤 다른 정보의 수신을 포함한다. 하나 이상의 다른 음향 신호들에 추가하여 지오메트리에 대한 정보 역시 비트스트림에 도입될 수 있다.
선택적으로, 하나 이상의 다른 음향 신호들의 각 음향 신호에 대한 개별적 위치 정보 역시 비트스트림에 도입되거나, 및/또는 공간 확장 음원에 대한 위치 정보 역시 비트스트림에 도입된다. 음원에 대한 위치 정보는 지오메트리 정보로부터 분리될 수 있거나 지오메트리 정보에 포함될 수 있다. 첫 번째 경우, 지오메트리 정보는 위치 정보에 대해 주어질 수 있다. 두 번째 경우, 지오메트리 정보는 예를 들어 구에 대해 좌표들과 반경 또는 직경의 중심점을 포함할 수 있다. 박스형(box-like) 공간 확장 음원에 대해, 8개 또는 적어도 중심점들 중의 적어도 하나가 절대좌표 내에 주어질 수 있다.
하나 이상의 다른 음성 정보들의 각각에 대한 위치 정보는 바람직하기로 공간 확장 음원 지오메트리 정보에 관련된다. 그러나 이와는 달리, 공간 확장 음원의 위치 또는 지오메트리 정보가 주어진 동일한 좌표계에 관련된 절대 위치 정보 역시 유용하고, 이와는 달리 지오메트리 정보 역시 상대적 방식이 아닌 절대 좌표를 갖는 절대 좌표계 내에 주어질 수 있다. 그러나 이 데이터를 일반적 좌표계에 관련도지 않은 상대적인 방식으로 제공하면 도 9에 투영기(120)를 향하는 점선으로 표시한 바와 같이 사용자가 공간 확장 음원을 그 자신의 재생 구성(reproduction setup) 내에 위치설정(position)할 수 있게 된다.
또 다른 실시예에서, 도 10의 음향 신호 제공기(200)는 공간 확장 음원에 대한 적어도 2개의 다른 음향 신호들을 제공하도록 구성되고, 출력 데이터 형성기는 비트스트림이 바람직하기로 인코딩된 포맷의 적어도 2개의 다른 음성 신호들과 선택적으로 적어도 2개의 음성 신호들의 각각의 개별적 위치 정보를 절대 좌표계 또는 공간 확장 음원 지오메트리에 대해 포함하도록 비트스트림을 생성하게 구성된다.
한 실시예에서, 음향 신호 제공기는 개별적인 복수의 마이크 위치 또는 방향들에서 자연 음원(natural sound source)의 녹음을 수행하거나 또는 예를 들어 도 1의 항목 164 및 166에 관해 논의되는 바와 같이 하나 이상의 비상관화 필터(decorrelation filter)에 의해 단일한 기저 신호(basis signal) 또는 몇 개의 기저 신호들로부터 음향 신호의 도출을 수행하도록 구성된다. 생성기에 사용되는 기저 신호들은 재생 현장에서 제공되거나 생성기로부터 재생기로 전송되는 기저 신호들과 같거나 다를 수 있다.
또 다른 실시예에서, 지오메트리 제공기(220)는 공간 확장 음원 지오메트리로부터 매개변수적 서술(parametric description) 또는 다각형적 서술(polygonal description)을 도출하도록 구성되고, 출력 데이터 형성기는 비트스트림 내에 이 매개변수적 서술 또는 다각형적 서술을 도입시킨다.
뿐만 아니라, 출력 데이터 형성기는 한 바람직한 실시예에서 비트스트림 내에 비트스트림 요소를 도입시키도록 구성되는데, 이 비트스트림 요소는 비트스트림 내에 포함되거나 비트스트림에 연계된 인코딩된 오디오 신호 내에 포함된 공간 확장 음원에 대한 적어도 하나의 다른 음향 신호의 수를 나타내며, 이 수는 1 또는 1보가 크다. 출력 데이터 형성기로 생성된 비트스트림은 반드시 한편으로 오디오 파형 데이터를 갖고 다른 편으로 메타데이터(metadata)를 갖는 완전한 비트스트림일 필요는 없다. 그 대신, 비트스트림은 예를 들어 각 공간 확장 음원에 대한 음향 신호들의 수에 대한 비트스트림 필드(field)와, 공간 확장 음원에 대한 지오메트리 정보와, 및 한 실시예에서 공간 확장 음원에 대한 위치 정보와, 선택적으로 각 음향 신호에 대한 그리고 각 공간 확장 음원에 대한 위치 정보와, 공간 확장 음원에 대한 지오메트리 정보와, 한 실시예에서 공간 확장 음원에 대한 위치 정보 역시 포함하는 별도의 메타데이터 비트스트림만이 될 수도 있다. 전형적으로 압축 형태로 입수 가능한(available) 파형 오디오 정보들은 별도의 데이터 스트림 또는 별도의 전송 채널을 통해 재생기로 전송되어. 재생기는 한 소스(source)로부터 인코딩된 메타데이터를 수신하고 다른 소스로부터 (인코딩된) 파형 신호들을 수신한다.
또한, 비트스트림 생성기의 한 실시예는 컨트롤러(250)를 구비한다. 이 컨트롤러(250)는 음향 신호 제공기로 제공될 음향 신호들의 수에 관해 음향 신호 제공기(200)를 제어하도록 구성된다. 이 절차에 맞춰, 선택적 특징을 의미하는 점선으로 지시한 바와 같이 컨트롤러(250)는 또한 비트스트림 요소 정보를 출력 데이터 형성기(240)에 제공한다. 출력 데이터 형성기는 컨트롤러(250)로 제어되고 음향 신호 제공기(200)로 제어되면서 비트스트림 요소 내에 음향 신호들의 수에 대한 구체적 정보를 도입시킨다. 바람직하기로, 음향 신호들의 수는 인코딩된 오디오 음향 신호들을 포함하는 출력 비트스트림이 외부(external) 비트전송률 요건들을 충족시키도록 제어된다. 허용된 비트전송률이 높으면, 음향 신호 제공기는 허용된 비트전송률이 낮은 환경에 비해 더 많은 음향 신호들을 제공할 것이다. 극단적인 경우, 음향 신호 제공기는 비트전송률 요건이 좁을 때 공간 확장 음원에 대해 단지 단일한 음향 신호만을 제공할 것이다.
이에 따라 재생기는 설정된(set) 비트스트림 요소를 독출하고, 묘사기(160) 내에서 디코더 측 상에서, 전송된 음성 신호들과 추가적 음향 신호들의 해당 수를 사용하여 최종적으로 주변 점원(peripheral point source)들의 요구되는 수를 합성하도록 이행할 것이며, 선택적으로 보조 음원(auxiliary source)들이 생성되었다.
그러나 비트전송률 요건들에 너무 좁지 않은 경우, 컨트롤러(250)는 음향 신호 제공기가 예를 들아 해당 수의 마이크 또는 마이크 방향들로 녹음된 많은 수의 다른 음향 신호들을 제공하도록 제어할 것이다. 이어서 재생 측에서, 어떤 비상관화 처리(decorrelation processing)가 전혀 필요하지 않거나 작은 정도에만 필요해 결국 재생 측에서 감소되거나 요구되지 않는 비상관화 처리에 기인하여 재생기에 의한 더 양호한 재생 품질이 얻어진다. 한편의 비트전송률과 다른 편의 품질 간의 균형(trade-off)은 바람직하기로 공간 확장 음원 당 음향 신호들의 수를 나타내는 비트스트림 요소의 기능을 통해 이뤄진다.
도 11은 도 10에 도시된 비트스트림 생성 장치에 의해 생성된 비트스트림의 한 바람직한 실시예를 도시한다. 이 비트스트림은 예를 들아 해당 데이터와 함께 SESS2로 표시된 제2 공간 확장 음원(401)을 구비한다.
뿐만 아니라, 도 11은 공간 확장 음원 번호 1에 관련한 각 공간 확장 음원에 대한 상세 데이터를 도시한다. 도 11의 예에서, 예를 들어 공간 확장 음원의 2개의 다른 장소들에 위치한 마이크들로부터 픽업된 마이크 출력 데이터로부터 비트스트림 생성기에서 생성된 공간 확장 음원에 대한 2개의 음향 신호들이 존재한다. 제2 음향 신호는 301에 표시된 음향 신호 1이고 제2 음향 신호는 302에 표시된 음향 신호 2이며, 양 음향 신호들은 바람직하기로 비트전송률 압축을 위한 오디오 인코더를 통해 인코딩된다. 또한 항목 311은 예를 들어 도 10의 컨트롤러(250)로 제어된 공간 확장 음원에 대한 음향 신호들의 수를 표시하는 비트스트림 요소를 나타낸다.
공간 확장 음원에 대한 지오메트리 정보가 블록 331에 도시된 바와 같이 도입된다. 항목 321은 바람직하기로, 피아노 예에 있어서, 301에 표시된 음향 신호 1에 대해 "저음 현들에 근접(close to the bass strings)" 및 302에 표시된 음향 신호 2에 대하여 "고음 현들에 근접(close to the treble strings)" 등의 지오메트리 정보에 관련된 선택적인 위치 정보를 표시한다. 이 지오메트리 정보는 예를 들어 피아노 모델의 매개변수적 표현 또는 다각형적 표현이 될 수 있고, 이 피아노 모델은 예를 들어 그랜드 피아노 또는 (소형) 피아노에 대해 다를 수 있다. 항목 341은 공간 내의 공간 확장 음원에 대한 위치 정보에 대한 선택적 데이터를 추가적으로 도시한다. 전술한 바와 같이, 도 9에 점선으로 표시한 것처럼 사용자가 위치 정보를 투영기에 제공하는 경우는 이 위치 정보(341)가 필요하지 않다. 그러나 위치 정보(341)가 비트스트림에 포함되어 있더라도, 사용자가 사용자 상호작용에 의해 위치 정보를 대체 또는 수정할 수 있다.
이어서, 본 발명의 바람직한 실시예들이 논의된다. 실시예들은 6 자유도 가상현실/증강현실(6DoF VR/AR)에서의 공간 확장 음원(Spatially Extended Sound Sources)의 묘사에 관련된다.
본 발명의 바람직한 실시예들은 공간 확장 음원(Spatially Extended Sound Sources; SESS)의 재생(reproduction)을 강화하도록 설계된 방법, 장치, 또는 컴퓨터 프로그램을 지향한다. 특히 본 발명 방법, 장치의 실시예들은 공간 확장 음원과 가상 청취자 위치 간의 시가변적(time-varying) 상대 위치를 고려한다. 달리 말해, 본 발명 반법 또는 장치의 실시예들은 청취자에 대한 어느 상대 위치에서도 음원 폭(auditory source width)을 묘사되는 음향 객체(sound object)의 공간적 범위에 맞출 수 있게 해준다. 그럼으로써 본 발명 방법 또는 장치의 실시예들은 공간 확장 음원이 전통적으로 채택되는 점원들을 보완하는 6 자유도(6-degrees-of-freedom; 6DoF) 가상, 혼합, 및 증강현실 응용들에 적용된다.
본 발명 방법 또는 장치의 실시예들은 (바람직하기로 현저히) 비상관화된 신호들이 공급되는 몇 개의 주변 점원들을 사용하여 공간 확장 음원을 묘사한다. 다른 방법들과 대조적으로, 이 점원들의 위치는 공간 확장 음원에 대한 청취자의 위치에 좌우된다. 도 1은 본 발명 방법 및 장치의 실시예에 따른 공간 확장 음원 묘사기의 개략 블록도를 도시한다.
이 블록도의 핵심 요소들은:
1. 청취자 위치(Listener position): 이 블록은 예를 들어 가상현실 추적 시스템(virtual reality tracking system)으로 측정된 청취자의 순간적 위치(momentary position)를 제공한다. 이 블록은 청취자 위치를 검출하는 검출기(detector; 100) 또는 수신하는 인터페이스(100)로 구현될 수 있다.
2. 공간 확장 음원의 위치와 지오메트리(Position and geometry of the spatially extended sound source): 이 블록은 가상현실 배경 묘사(virtual reality scene representation)의 일부로 묘사될(rendered) 공간 확장 음원의 위치와 지오메트리 정보를 제공한다.
3. 투영 및 볼록포 연산(Projection and convex hull computation): 이 블록(120)은 공간 확장 음원 지오메트리의 볼록포(convex hull)를 연산한 다음, 이를 청취자 위치를 향하는 방향(예를 들어 "이미지 평면(image plane), 아래 참조)으로 투영한다. 이와는 달리, 동일한 기능이 먼저 지오메트리를 청취자 위치를 향해 투영한 다음 그 볼록포를 연산함으로써 이뤄질 수 있다.
4. 주변 점원들의 위치(Location of peripheral point sources): 이 블록(140)은 이전 블록이 연산한 볼록포 투영 데이터로부터 사용된 점원들의 위치들을 연산한다. 이 연산에서, 이는 청취자 위치 및 이에 따른 청취자의 근접/거리(proximity/distance) 역시 고려할 수 있다(아래 참조). 그 출력은 n 개의 주변 점원 위치들이다.
5. 묘사기 코어(Renderer core): 묘사기(162)는 n 개의 주변 점원들을 규정된 목표 위치들에 위치설정(positioning)함으로써 이들을 청각화한다(auralize). 이는 예를 들어, 묘사기의 머리 관련 전달 함수를 사용하는 양귀(binaural) 묘사기 또는 (예를 들어 벡터 기반 진폭 패닝 등) 스피커 재생을 위한 묘사기가 될 수 있다. 묘사기 코어는 k 개의 입력 기저 신호들(예를 들어 악기 녹음의 비상관화된 신호들)과 m≥(n-k) 개의 추가적인 비상관화 오디오 신호들로부터 1 개의 스피커 또는 헤드폰 출력 신호들을 산출한다.
6. 음원 기저 신호들(Source Basis Signals): 이 블록(164)은 서로 (충분히) 비상관화되고 묘사될 음원을 표현하는 k 개의 기저 오디오 신호들(예를 들어 모노(mono): k=1 또는 스테레오: k=2 개의 악기의 녹음)에 대한 입력이다. k 개의 기저 오디오 신호들은 예를 들어 디코더 측 생성기로부터 수신된 비트스트림으로부터 취출(예를 들어 도 11의 요소 301, 302 참조)되거나 외부 소스로부터 재생 측에 제공될 수 있다.
7. 비상관화기(Decorrelators): 이 선택적인(optional) 블록(166)은 n 개의 주변 점원들을 묘사하는 데 있어서의 필요에 따라 추가적인 비상관 오디오 신호들을 생성한다.
8. 신호 출력(Signal output): 묘사기는 스피커(예를 들어 n=5.1) 또는 양귀(전형적으로 n=2) 묘사를 위한 l 개의 출력 신호들을 제공한다.
도 1은 본 발명 방법 또는 장치의 하나의 실시예의 개략 블록도를 도시한다. 점선들은 지오메트리 또는 위치들 등의 메타데이터의 전송을 표시한다. 실선들은 오디오의 전송을 표시하는데, k, l, 및 m은 복수의 오디오 채널들을 표시한다. 묘사기 코어(162)는 가능하기로 k + m 개의 오디오 신호들과 n (<= k + m) 개의 위치 데이터를 수신한다. 블록 162, 164, 166들은 함께 전반적인 묘사기(160)를 형성한다.
주변 점원들의 위치들은 특정한 공간 범위에서 공간 확장 음원 지오메트리와 이 공간 확장 음원에 대한 청취자의 상대 위치에 좌우된다. 특히 주변 점원들은 공간 확장 음원의 볼록포의 투영 평면에 대한 투영 상에 위치할 수 있다. 이 투영 평면은 화면(picture plane), 즉 청취자로부터 공간 확장 음원으로의 시선(sightline)에 직교하는 평면이거나 청취자의 머리 둘레의 구면(spherical surface)일 수 있다. 투영 평면은 청취자의 머리의 중심으로부터 임의의 작은 거리에 위치한다. 이외는 달리, 공간 확장 음원의 투영 볼록포가 청취자의 머리의 관점(perspective)으로부터 상대적인 구면좌표(spherical coordinate)들의 부분집합(subset)인 방위각(azimuth)과 고도각(elevation angle; 앙각)으로부터 연산될 수도 있다. 이하의 예시적인 예에서는, 더 직관적인 특성 때문에 투영 평면이 선호된다. 투영되는 볼록포의 연산의 구현에 있어서, 수식화(formalization)가 더 용이하고 연산 복잡성이 낮아 각 표현(angular representation)이 선호된다. 공간 확장 음원의 볼록포와 투영된 공간 확장 음원 지오메트리의 볼록포는 서로 동일하여, 즉 볼록포의 연산과 화면으로의 투영은 어떤 순서로도 사용될 수 있음에 유의해야 한다.
주변 점원 위치들은 공간 확장 음원의 볼록포의 투영 상에 다음을 포함하는 다양한 방법으로 분포될 수 있는데:
- 포 투영 둘레에 균일하게 분포될 수 있다
*- 포 투영의 극점(extremal point)들에 분포될 수 있다
- 포 투영의 수평 및/또는 수직 극점들에 분포할 수 있다(실제 예들 항목(Section Practical Examples)의 도면들 참조).
주변 점원들에 추가하여 다른 보조 점원들 역시 추가적인 연산 복잡성을 감내하고 청각 채움(acoustic filling)의 향상된 감각을 산출하는 데 사용될 수 있다. 또한 투영 볼록포는 주변 점원들을 위치설정하기 전에 수정될 수 있다. 예를 들어 투영 볼록포는 투영 볼록포의 무게중심(center of gravity)을 향해 수축될 수 있다. 이렇게 수축된 투영 볼록포는 묘사 방법으로 도입된 개별적 주변 점원들의 추가적인 공간적 스프레드(spatial spread)를 처리할 수 있다. 볼록포의 수정은 수평 및 수직 방향들의 크기 조정(scaling)을 더욱 차별화할 수 있다.
공간 확산 음원에 대한 청취자 위치가 변화되면, 공간 확산 음원의 투영 평면으로의 투영 역시 이에 따라 변화된다. 이어서, 주변 점원들의 위치들도 이에 따라 변화된다. 주변 점원 위치들은 바람직하기로, 공간 확장 음원과 청취자의 계속적인 운동에 대해 부드럽게 변화되도록 선택되어야 한다. 또한, 투영 볼록포는 공간 확장 음원 지오메트리가 변화될 때 변화된다. 이는 투영 볼록포를 변경시키는 3D 공간 내에서의 공간 확장 음원 지오메트리의 회전을 포함한다. 지오메트리의 회전은 공간 확장 음원에 대한 청취자 위치의 각 변위(angular displacement)와 동일하고 청취자와 공간 확장 음원의 상대 위치에 내포되는 방식으로 지칭되는 것과 같다. 예를 들어, 구형의 공간 확장 음원 둘레의 사용자의 원 운동은 주변 점원들을 무게중심 둘레로 회전시킴으로써 묘사된다. 마찬가지로, 전지한 청취자를 갖는 공간 확장 음원의 회전은 주변 점원 위치들에 동일한 변화로 결과된다.
본 발명 방법 또는 장치의 실시예로 생성되는 공간 범위(spatial extent)는 공간 확장 음원과 청취자 간의 어떤 거리에 대해서도 본질적으로 정확히 재생된다. 자연히, 사용자가 공간 확장 음원에 근접하면 물리적 현실의 모델링에 적절한 바와 같이 주변 점원들 간의 개구각(opening angle)이 증가된다.
주변 점원들의 각도 배치는 투영 평면 상에 투영 볼록포 상의 위치에 의해 고유하게 결정되는 반면, 주변 점원들의 거리들은 다음을 포함하는 다양한 방법으로 더 선택되는데
- 모든 주변 점원들이 예를 들어 청취자의 머리에 대해 공간 확장 음원의 무게 중심을 통해 규정된, 전체 공간 확장 음원으로의 동일한 거리를 갖는다.
- 각 주변 점원의 거리가 동일한 점으로 결과되는 투영 평면으로의 주변 점원 투영 등 투영 볼록포의 공간 확장 음원 지오메트리로의 역투영(back projection)에 의해 결정된다. 투영 볼록포로부터 공간 확장 음원으로의 주변 점원들의 역투영은 추가적인 투영 규칙들이 적용되어야 하도록 항상 고유하게 결정되지는 않을 수 있다(실제 예들 항목(Section Practical Examples) 참조).
- 주변 점원들의 묘사가 거리 특성을 요구하지 않고 대신 방위각과 고도의 상대적 각 배치(relative angular placement)만을 요구하면 주변 점원들의 거리가 전혀 결정되지 않을 수 있다.
공간 확장 음원 지오메트리 형태/볼록포를 규정하기 위해 예를 들어 직선, 곡선 등의 간략화된 1D; 예를 들어 타원, 사각형, 다각형 등의 2D; 예를 들어 타원체, 직육면체(cuboid), 다면체(polyhedra) 등의 3D 형태를 포함하는 근사(approximation)(및 가능하기로 묘사기 또는 묘사기 코어로의 전송)가 사용된다. 공간 확장 음원 지오메트리 또는 대응 근사 형태는 각각 다음을 포함하는 다양한 방식으로 서술될 수 있는데:
- 매개변수적 서술(Parametric description), 즉 추가적 매개변수들을 수용하는(accept) 수학적 표현을 통한 지오메트리의 공식화. 예를 들어, 3D의 타원체 형태는 직교좌표계(Cartesian coordinate system) 상의 음함수(implicit function)로 서술될 수 있고 추가적 매개변수들은 3개의 모든 방향들로의 주축(principal axis)들의 연장(extension)이다. 다른 매개변수들은 3D 회전, 타원체 표면의 변형함수(deformation function)들을 포함할 수 있다.
- 다각형적 서술(Polygonal description), 즉 선, 삼각형, 정사각형, 사면체(tetrahedron), 및 직육면체 등의 원시적(primitive) 지오메트리 형태들의 집합. 원시적 다각형 및 다면체는 더 크고 더 복잡한 지오메트리들의 묘사(the concatenated)가 될 수 있다.
주변 점원 신호들은 공간 확장 음원의 기저 신호들로부터 도출된다. 이 기저 신호들은 다음과 같은 다양한 방식으로 취득될 수 있는데: 1) 단일 또는 복수의 마이크 위치 및 방향들에서 자연 음원을 녹음(예: 실제 예들에 보이듯 피아노 음향을 녹음); 2) 인공 음원의 합성(예: 변화하는 파라미터들로 음향 합성); 어떤 오디오 신호들의 조합(엔진, 타이어, 도어 등 자동차의 다양한 기계적 음향들). 또한 추가적인 점원 신호들이 복수의 비상관화 필터들에 의해 기저 신호들로부터 인공으로 생성될 수 있다(이전 항목들 참조).
어떤 응용 시나리오에서는, 6DoF VR/AR 콘텐츠(content)의 콤팩트(compact)하고 상호운용 가능한(interoperable) 저장/전송에 초점이 맞춰질 수 있다. 이 경우 전체 체인(chain)은 다음 세 단계들로 구성되는데:
1. 원하는 공간 확장 음원들을 비트스트림으로 저작/인코딩(authoring/encoding)
2. 생성된 비트스트림의 전송/저장. 본 발명에 따르면, 비트스트림은 다른 요소들 외에, 공간 확장 음원 지오메트리의 (매개변수적 또는 다각형적) 서술과 모노(monophonic) 또는 스테레오(stereophonic) 피아노 녹음 등의 관련 기저 신호(들)를 포함한다. 파형은 mp3 또는 MPEG-2/4 Advanced Audio Coding(AAC) 등의 인식 오디오 코딩 알고리즘(perceptual audio coding algorithm)들을 사용하여 압축될 수 있다(도 10의 항목 260 참조).
3. 전술한 바와 같이 전송된 비트스트림에 기반하여 공간 확장 음원의 디코딩/묘사(decoding/rendering).
전술한 기본 방법(core method)에 추가하여 추가적 처리의 몇 가지 옵션들이 존재하는데:
옵션 1 - 주변 점원 수 및 위치의 동적 선택(Dynamic Choice of peripheral point source Number and Location)
공간 확장 음원에 대한 청취자의 거리에 따라 주변 점원들의 수가 변경될 수 있다. 예를 들어, 공간 확장 점원과 점원들이 서로 멀어지면 투영 볼록포의 개구각(구경; aperture)이 작아져 바람직하기로 더 적은 주변 점원들이 선택됨으로써 연산과 메모리 복잡성을 절감하게 된다. 극단적인 경우, 모든 주변 점원들이 단일한 잔여 점원으로 축소될 수도 있다. 기저 및 도출 신호들 간의 간섭이 결과적인 주변 점원 신호들의 오디오 품질을 열화시키지 않게 보장하도록 적절한 다운믹싱(downmixing) 기법들이 적용될 수 있다. 공간 확장 음원 지오메트리가 청취자의 상대적인 관점에 따라 매우 불규칙하다면 청취자 위치에 대한 공간 확장 음원의 근접한 거리에도 유사한 기법들이 적용될 수 있다. 예를 들어, 유한한 길이의 선인 공간 확장 음원 지오메트리는 투영 평면 상에서 단일한 점으로 퇴보될(degenerate) 수 있다. 일반적으로 투영 볼록포 상의 주변 점원들의 각 범위가 좁으면, 공간 확장 음원은 더 적은 주변 점원들로 묘사될 수 있다. 극단적인 경우, 모든 주변 점원들이 단일한 잔여 점원으로 축소될 수도 있다.
옵션 2 - 스프레드 보상(Spreading Compensation)
각 주변 점원은 또한 볼록포 투영의 외부를 향해 공간적 스프레드(spread)를 나타내므로, 묘사된 공간 확장 음원의 인식된 청각 이미지(auditory image) 폭은 묘사에 사용된 볼록포보다 약간 더 크다. 이를 원하는 목표 지오메트리에 정렬시키는 데 두 가지 가능성들이 있는데:
1. 저작 동안 보상(Compensation during authoring): 묘사 과정의 추가적인 스프레드가 콘텐츠 저작 동안 고려된다. 구체적으로, 실제 묘사된 크기가 원하는 크기가 되도록 콘텐츠 저작 동안 약간 더 작은 공간 확장 음원 지오메트리가 선택된다. 이는 예를 들어(제작 스튜디오 등의) 저작 환경(authoring environment)에서 묘사기 또는 묘사기 코어의 효과를 감시함으로써 점검될 수 있다. 이 경우 전송된 비트스트림과 묘사기 또는 묘사기 코어는 목표 크기에 비해 축소된 목표 지오메트리를 사용한다.
2. 묘사 동안 보상(Compensation during rendering): 공간 확장 음원 묘사기 또는 묘사기 코어가 묘사 절차에 의해 추가적인 인식 스프레드를 의식하도록 할 수 있고 이에 따라 이 효과를 보상할 수 있게 될 수 있다. 간단한 예로, 묘사에 사용된 지오메트리가 다음이 될 수 있는데
주변 점원들의 배치에 적용되기 전에
- a<1.0 (예를 들어 a=0.9)인 일정한 비율(factor)로 축소되거나, 또는
- 일정한 개구각 알파(alpha) = 5도로 축소될 수 있다. 이 경우, 전송된 비트스트림은 공간 확장 음원 지오메트리의 최종적 목표 크기를 포함한다.
또한 이 접근법들의 조합도 실행 가능하다(feasible).
옵션 3 - 주변 점원 파형들의 생성(Generation of peripheral point source Waveforms)
뿐만 아니라, 주변 점원들을 공급하는 실제 신호들은 좌측에 저음(low note)들의 음향을 가지고 역도 마찬가지인 피아노 등 지오메트리 의존 음향 기여도(sound contribution)들을 갖는 공간 확장 음원들을 모델링하기 위해 공간 확장 음원에 대한 사용자 위치를 고려함으로써 녹음된 오디오 신호들로부터 생성될 수 있다.
예: 업라이트 피아노의 음향은 그 음향 거동(acoustic behavior)으로 특징지어진다. 이는 (적어도) 2개의 오디오 기저 신호들과, 하나의 피아노 건반의 하단("저음(low note)들")에 근접한 신와 하나의 건반의 상단("고음(high note)들")로 모델링된다. 이 기저 신호들은 피아노 음향의 녹음시 적절한 마이크 사용으로 얻어질 수 있고, 그 사이에 충분한 비상관화가 있다고 보장하면서 6DoF 묘사기 또는 묘사기 코어로 전송된다.
그러면 공간 확장 음원에 대한 사용자의 위치를 고려함으로써 주변 점원들이 이 기저 신호들로부터 도출되는데:
- 사용자가 피아노를 전방(건반) 측으로부터 대향하면, 2개의 주변 점원들은 각각 피아노 건반의 좌단 및 우단에 근접하도록 서로 넓게 이격된다. 이 경우, 저음 건반들에 대한 기저 신호가 직접 좌측 점원에 공급될 수 있고, 고음 건반들에 대한 건반이 우측 주변 점원을 구동하는 데 직접 사용될 수 있다.
- 청취자가 피아노 주위를 우측으로 약 90도 걸어가면 측면에서 보면 피아노 용적 모델의 투영(예를 들어 타원체)이 작으므로 2개의 점원들이 서로 매우 근접하도록 패닝된다(panned). 기저 신호들이 주변 점원 신호들을 직접 구동하도록 계속 사용된다면, 주변 점원들 중의 하나는 주로 고음을 포함하는 반면, 다른 하나는 주로 저음들을 포함할 것이다. 물리적 관점에서 보면 이는 바람직하지 못하므로, 2개의 기저 신호들을 회전시켜, 예를 들어 주변 점원 신호들을 사용자가 피아노의 무게 중심에 대해 이동한 것과 동일한 각도만큼 기븐스(Givens) 회전시킴으로써 묘사가 향상될 수 있다. 이러한 방법으로, 양 신호들은 유사하면서도 여전히 비상관화된 스펙트럼 콘텐츠의 신호들을 포함한다(기저 신호들이 비상관화되었다고 가정).
옵션 4 - 묘사된 공간 확장 음원의 후처리(Postprocessing of Rendered spatially extended sound source)
실제 신호들은 예를 들어 공간 확장 음원의 지향성 패턴(directivity pattern) 등의 위치 및 방향 종속 효과를 처리하기 위해 전 또는 후처리될 수 있다. 달리 말해, 전술한 바와 같이 공간 확장 음원으로부터 방출된 전체 음향은 예를 들어 방향 종속 음향 방사 패턴 등을 나타내도록 수정될 수 있다. 피아노 신호의 경우, 이는 피아노의 후방을 향한 방사는 전방을 향한 방사보다 더 적은 고주파 콘텐츠를 갖는 것을 의미할 수 있다, 또한 주변 점원 신호들의 전 및 후처리는 주변 점원들의 각각에 대해 개별적으로 조정될 수 있다. 예를 들어 지향성 패턴은 각 주변 점원들에 대해 달리 선택될 수 있다. 피아노를 묘사하는 공간 확장 음원의 주어진 예에서, 낮은 및 높은 건반 범위의 지향성 패턴들은 전술한 바와 유사할 수 있지만, 페달을 밟는 소음(pedaling noise) 등의 추가적 신호들의 더 무지향성(omnidirectional)의 지향성 패턴들을 갖는다.
이어서 바람직한 실시예들의 몇 가지 이점들을 요약하면
(예를 들어 Advanced AudioBIFSd에서 사용되는 바와 같이) 공간 확장 음원의 내부를 점원들로 완전히 채우는 데 비해 더 낮은 연산 복잡성
- 점원 신호들 간의 파괴적 간섭에 대한 더 낮은 가능성
- (지오메트리 형태 근사, 하나 이상의 파형들 등) 비트스트림 정보의 콤팩트한 크기
- VR/AR 묘사의 목적의 음악 소비(music consumption)를 위해 제작된 (예를 들어 피아노의 스테레오 녹음 등의) 레거시 녹음(legacy recordings)들의 사용이 가능해짐.
이어서 다양한 실제적 구현예들을 보이면:
- 구현(spherical) 공간 확장 음원
- 타원체(Ellipsoid) 공간 확장 음원
- 선형(Line) 공간 확장 음원
- 직육면체(Cuboid) 공간 확장 음원
- 거리 종속(Distance-dependent) 공간 확장 음원
- 피아노형(Piano-shaped) 공간 확장 음원.
본 발명 방법 또는 장치의 실시예들에서 전술한 바와 같이, 주변 점원들의 위치를 결정하는 다양한 방법들이 적용될 수 있다. 이하의 실제적 예들은 특정한 경우에 다소 제한되는(isolated) 방법들이다. 본 발명 방법 또는 장치의 실시예의 완전한 구현에서는 연산 복잡성, 적용 목적, 오디오 품질, 및 구현의 용이성을 적절히 고려하여 다양한 방법들이 조합될 수 있다.
공간 확장 음원 지오메트리가 녹색의 표면 망(mesh)로 표시되었다. 실제 공간 확장 음원 지오메트리는 매개변수적 사양으로부터 생성될 수도 있으므로 망 표현(visualization)이 공간 확장 음원 지오메트리가 다각형적 방법으로 서술되었음을 암시하는 것은 아님에 유의해야 한다. 이하의 예에서 화면(picture plane)은 투영 평면으로 선택되고 투영 평면의 유한한 부분집합을 표시하는 투명한 회색 평면으로 묘사되었다. 공간 확장 음원의 투영 평면에 투영된 지오메트리는 녹색의 동일한 표면 망으로 묘사되었다. 투영 볼록포 상의 주변 점원들은 투영 평면 상에 붉은 십자로 묘사되었다. 공간 확장 음원 지오메트리로의 역투영된(back projected) 주변 점원들은 붉은 점(dot)들로 묘사되었다. 투영 볼록포 상의 해당 주변 점원들과 공간 환장 음원 지오메트리 상의 역투영된 주변 점원들은 시각적 관련성의 식별을 돕도록 붉은 선들로 연결되어 있다. 관련된 모든 객체들의 위치는 미터 단위를 갖는 직교좌표계에 묘사되어 있다. 묘사된 좌표계의 선택이 관련 연산이 직교좌표로 수행되었음을 암시하는 것은 아니다.
도 2의 제1 예는 구형 공간 확장 음원을 고려한다. 구형 공간 확장 음원은 고정된 크기와 청취자에 대한 고정된 위치를 갖는다. 3개, 5개 및 8개의 주변 점원들의 3개의 다른 집합들이 투영 볼록포 상에 선택된다. 주변 점원들의 3개의 집합들은 모두 볼록포 곡선 상에서 균일한 거리를 갖도록 선택된다. 공간 확장 음원 지오메트리의 수평 범위가 잘 묘사되도록, 볼록포 곡선 상의 주변 점원들의 편심된(offset) 위치들이 의도적으로 선택된다.
도 2는 볼록포 상에 균일하게 분포된 다른 수의(즉 3(위), 5(중간), 및 8(아래)의) 주변 점원들을 갖는 구형 공간 확장 음원을 도시한다.
도 3의 다음 예는 타원체 공간 확장 음원을 고려한다. 타원체 공간 확장 음원은 3D 공간 내에 고정된 형태, 위치 및 회전을 갖는다. 이 예에서는 4개의 주변 점원들이 선택된다. 주변 점원들을 결정하는 3개의 다른 방법들이 예시될 수 있는데:
a) 2개의 주변 점원들이 2개의 수평 극점(extremal point)들에 배치되고 2개의 주변 점원들이 2개의 수직 극점들에 배치된다. 이 예는 이 방법이 서로 비교적 근접한 주변 점원 위치들을 산출할 수 있음을 보인다.
b) 4개의 모든 주변 점원들이 볼록포 상에 균일하게 분포된다. 주변 점원 위치들의 편심은 최상의(topmost) 주변 점원 위치가 a)의 최상의 주변 점원 위치와 일치하도록 선택된다. 주변 점원 위치 편심의 선택이 주변 점원들을 통한 지오메트리 형태의 묘사에 상당한 영향을 가짐을 알 수 있다.
c) 4개의 모든 주변 점원들이 축소된(shrunk) 투영 볼록포 상에 균일하게 분포된다. 주변 점원 위치들의 편심 위치는 b)에서 선택된 편심 위치와 동일하다. 투영 볼록포의 수축 작동은 방향 독립의 신장 계수(stretch factor)를 갖는 투영 볼록포의 무게 중심을 향해 수행된다.
도 3은 주변 점원들의 위치를 결정하는 3개의 다른 방법에 의한 4개의 주변 점원들을 갖는 타원체 공간 확장 음원을 도시하는데: a/위) 수평 및 수직 극점들, b/중간) 볼록포 상에 균일하게 분포된 점들, c/아래) 축소된 볼록포 상에 균일하게 분포된 점들.
도 4의 다음 예는 선형(line) 공간 확장 음원을 고려한다. 용적형(volumetric) 공간 확장 음원 지오메트리를 고려하는 이전 예들과 비교하여, 이 예는 공각 확장 음원 지오메트리가 3D 공간 내의 단일한 차원의 객체로도 잘 선택될 수 있음을 보인다. 부분도면 a)는 유한한 선형 공간 확장 음원 지오메트리의 극점들 상에 위치된 2개의 주변 점원들을 묘사한다. b) 2개의 주변 점원들이 유한한 선형 공간 확장 음원 지오메트리의 극점들 상에 배치되고 하나의 추가적 점원이 선의 중간에 배치된다. 본 발명 방법 또는 장치의 실시예들에서 전술한 바와 같이, 공간 확장 음원 지오메트리들 내에 추가적 점원들을 배치하는 것은 큰 공간 확장 음원 지오메트리들의 큰 갭(gap)들을 채우는 데 도움이 될 수 있다. c) a) 및 b)에서 고려된 것과 동일한 선형 공간 확장 음원 지오메트리들이 고려되지만, 청취자를 향한 상대 각도(relative angle)가 선형 지오메트리의 투영 길이가 더 작아지도록 변경된다. 본 발명 방법 또는 장치의 실시예들에서 전술한 바와 같이, 투영 볼록포의 축소된 크기는 점원들의 축소된 수, 이 특정한 예에서 선형 지오메트리의 중심에 위치한 단일한 주변 점원에 의해 묘사될 수 있다.
도 4는 주변 점원들의 위치를 결정하는 3개의 다른 방법에 의한 4개의 주변 점원들을 갖는 선형 공간 확장 음원을 도시하는데: a/위) 투영 볼록포 상의 2개의 극점들, b/중간) 투영 볼록포 상의 2개의 극점들과 직선의 중심의 하나의 추가적 점원, c/아래) 회전된 직선의 투영 볼록포가 하나보다 많은 주변 점원들을 허용하기에는 너무 작아 볼록부의 중심의 하나의 주변 점원.
도 5의 다음 예는 직육면체 공간 확장 음원을 고려한다. 직육면체 공간 확장 음원은 고정된 크기와 고정된 위치를 갖지만 청취자의 상대 위치는 변화된다. 부분도면 a) 및 b)는 4개의 주변 점원들을 투영 볼록포 상에 배치하는 다른 방법들을 도시한다. 역투영된 주변 점원 위치들은 투영 볼록포 상의 선택에 의해 고유하게 결정된다. c)는 잘 분리되지 않은 역투영 위치들을 갖지 않는 4개의 주변 점원들을 도시한다. 대신 주변 점원 위치들이 공간 확장 음원 지오메트리의 무게중심의 거리와 동일하게 선택된다.
도 5는 주변 점원들을 분포시키는 다음 3가지 다른 방법들을 갖는 직육면체 공간 확장 음원을 도시하는데: a/위) 수평축 상의 2개의 주변 점원들과 수직축 상의 2개의 주변 점원들; b/중간) 투영 볼록포의 수평 극점들 상의 2개의 주변 점원들과 투영 볼록포의 수직 극점들 상의 2개의 주변 점원들; c/아래) 역투영 주변 점원 거리들이 공간 확장 음원 지오메트리의 무게중심의 거리와 동일하게 선택된다.
도 6의 다음 예는 고정된 크기와 형태지만 청취자 위치에 대해 3개의 다른 거리들을 갖는 구형 공간 확장 음원을 고려한다. 주변 점원들은 볼록포 곡선 상에 균일하게 분포된다. 주변 점원들의 수는 볼록포의 길이와 가능한 주변 점원 위치들 간의 최소 거리로부터 동적으로 결정된다. a) 구형 공간 확장 음원이, 4개의 주변 점원들이 투영 볼록포 상에 선택되도록 근거리에 있다. b) 구형 공간 확장 음원이, 3개의 주변 점원들이 투영 볼록포 상에 선택되도록 중거리에 있다. c) 구형 공간 확장 음원이, 2개의 주변 점원들만이 투영 볼록포 상에 선택되도록 원거리에 있다. 본 발명 방법 또는 장치의 실시예들에서 전술한 바와 같이, 주변 점원들의 수는 또한 구형 각 좌표로 표현된 범위로부터도 결정될 수 있다.
도 6은 고정된 크기지만 다른 거리를 갖는 구형 공간 확장 음원들을 도시하는데: a/위) 4개의 주변 점원들이 투영 볼록포 상에 균일하게 분포된 근거리; b/중간) 3개의 주변 점원들이 투영 볼록포 상에 균일하게 분포된 중거리; c/아래 2개의 주변 점원들이 투영 볼록포 상에 균일하게 분포된 원거리.
도 7 및 8의 마지막 예는 가상 세계 내에 배치된 피아노형 공간 확장 음원들을 고려한다. 사용자는 헤드 마운트형 디스플레이(head-mounted display; HMD)와 헤드폰을 착용한다. 개방 세계 캔버스(open word canvas)와 자유 운동 영역 내의 바닥 상에 서있는 3D 업라이트 피아노 모델로 구성되는 가상현실 배경이 사용자에게 묘사된다(도 7 참조). 개방 세계 캔버스는 사용자의 구형 주변(sphere surrounding) 상에 투영된 구형의 정적(static) 이미지이다. 이 특정한 경우, 개방 세계 캔버스는 흰 구름들을 갖는 푸른 하늘을 묘사한다. 사용자는 걸어 다니면서 피아노를 다양한 각들로부터 시청(watch and listen)할 수 있다. 이 배경에, 피아노는 무게중심에 위치한 단일한 점원 또는 투영 볼록포 상의 3개의 주변 점원들을 갖는 공간 확장 음원 중의 하나로 묘사될 수 있다(도 8 참조). 묘사 실험들은 주변 점원 묘사 방법이 단일 점원으로의 묘사에 비해 훨씬 우월한 사실성을 가짐을 보였다.
주변 점원 위치들의 연산을 간단화하기 위해, 피아노 지오메트리는 유사한 크기(dimensions)의 타원체로 추상화된다(abstracted). 도 7 참조. 또한 두 대체(substitute) 점원들이 적도자오선(equatorial line) 상의 좌측 및 우측 극점들에 배치되는 한편, 제3의 대체 점이 북극에 남는다, 도 8 참조. 이 배열은 매우 저감된 연산 원가로 모든 각들로부터의 적절한 수평 소스 폭을 보장한다.
도 7은 (붉은 망으로 지시된) 근사 매개변수형 타원체 형태를 갖는 (녹색으로 묘사된) 피아노형 공간 확장 음원을 도시한다.
도 8은 3개의 주변 점원들이 투영 볼록포의 수직 극점들과 투영 볼록포의 수직 정점(vertical top) 위치에 분포된 피아노형 공간 확장 음원을 도시한다. 더 잘 보이도록(for better visualization), 주변 점원들은 신장된 투영 볼록포 상에 배치되었다.
이어서, 본 발명의 실시예들의 구체적인 특징들이 제공된다. 제시된 실시예들의 특성은 다음과 같은데:
- 공간 확장 음원의 인식되는 청각 공간을 채우기 위해, 바람직하기로 그 전체 내부가 비상관화된 점원(주변 점원)들로 채워지는 것이 아니라, 청취자에 대향하는 그 주변만이 채워진다(예를 들어 "공간 확장 음원의 볼록포의 청취자를 향한 투영(the projection of the spatially extended sound source's convex hull towards the listener)"). 구체적으로, 이는 주변 점원 위치들이 공간 확장 음원 지오메트리에 부착되지 않고 청취자 위치에 대한 공간 확장 음원의 상대 위치를 계산에 넣어 동적으로 연산된다는 것을 의미한다.
- 주변 점원들의 동적 연산(수와 위치).
- 공간 확장 음원 형태의 근사가 사용된다(압축된 표현을 사용하는 시나리오에 대해: 비트스트림의 일부로 전송된다).
전술한 기법의 적용은 Audio 6DoF VR/AR 표준의 일부가 될 수 있다. 이 맥학에서 전통적인 인코딩/비트스트림/디코더(+묘사기) 시나리오를 갖는데:
- 인코더에서, 공간 확장 음원의 형태가 다음 중 하나가 될 수 있는 공간 확장 음원의 "기저(basis)' 파형과 함께 부가 정보(side information)로서 인코딩될 것이다. 공간 확장 음원들로 특징지어지는
- 모노 신호, 또는
- (바람직하기로 충분히 비상관화된) 스테레오 신호, 또는
- (역시 바람직하기로 충분히 비상관화된) 더 녹음된 신호들. 이 파형들은 낮은 비트전송률로 인코딩될(coded) 수 있다.
- 디코더/묘사기에서, 공간 확장 음원의 형태와 대응 파형은 비트스트림으로부터 검색되어 전술한 바와 같이 공간 확장 음원을 묘사하는 데 사용된다.
사용된 실시예들에 따르고 기재된 실시예들의 대안(alternative)로서, 인터페이스는 청취자 위치를 검출하는 실제 추적기 또는 검출기로 구현될 수 있다. 그러나 청취자 위치는 전형적으로 외부 추적기 장치로부터 수신되어 인터페이스를 통해 재생 장치로 공급될 것이다. 그러나 인터페이스는 출력 데이터를 위한 외부 추적기로부터의 단순한 데이터 입력에 해당할 수 있거나 또는 추적기 자체에 해당할 수 있다.
또한, 개괄한 바와 같이, 주변 점원들 사이의 추가적인 보조 오디오 소스들이 요구될 수도 있다.
또한, 좌/우 주변 소스들과 선택적으로 (청취자에 대해) 수평으로 이격된 보조 소스들이 수직으로 이격된 소스들, 즉 공간 확장 음원의 정점(top)과 저점(bottom) 상의 주변 점원들보다 인식적 인상(perceptual impression)에 더욱 중요하다. 예를 들어, 리소스(resource)들이 부족(scarce)하면, 적어도 수평으로 이격된 주변(및 선택적으로 보조) 점원들을 사용하는 것이 바람직한 한편, 처리 리소스들을 절감하기 위해 수직으로 이격된 주변 점원들은 생략될 수 있다.
또한, 개괄한 바와 같이, 비트스트림 생성기는 공간 확장 음원을 위한 단지 하나의 비트스트림을 생성하고 나머지 음향 신호들은 디코더 측 또는 재생 측에서 비상관화에 의해 생성되도록 구현될 수 있다. 단일한 신호만이 존재하면, 그리고 전체 공간이 이 단일한 신호로 동일하게 채워져야 한다면, 어떤 위치 정보는 필요하지 않다. 그러나 이러한 상황에서 도 10의 220에 도시된 것 같은 지오메트리 정보 연산기로 연산된 공간 확장 음원의 지오메트리에 대한 적어도 하나의 추가적인 정보를 갖는 것이 유용할 것이다.
이전에 논의된 모든 대안 또는 국면(aspect)들과 이하의 청구항들의 독립항들에 규정되는 모든 국면들은 독립적으로, 즉 고려되는 대안, 객체, 또는 독립항들 이외의 어떤 다른 대안 또는 객체 없이 사용될 수 있음에 유의해야 할 것이다. 그러나 다른 실시예들에서는 둘 이상의 대안 또는 국면 또는 독립항들이 서로 조합될 수 있고, 다른 실시예들에서는 모든 국면 또는 대안들, 및 모든 독립항들이 서로 조합될 수 있다.
본 발명에 따라(inventively) 인코딩된 음장 서술(sound field description)이 디지털 저장매체 또는 비휘발성(non-transitory) 저장매체에 저장되거나 무선 전송 매체 또는 인터넷 등의 유선 전송 매체 등의 전송 매체 상에서 전송될 수 있다.
(이상에서) 일부 국면들이 장치의 맥락으로 기재되었지만, 이 국면들은 또한 블록 또는 장치가 방법 단계 또는 방법 단계의 특징에 대응하는 대응 방법의 기재로도 표현될 수 있음이 명확하다. 마찬가지로 방법 단계의 맥락으로 기재된 국면들은 대응 장치의 대응 블록 또는 항목 또는 특징의 기재로도 표현될 수 있다.
어떤 구현 요건들에 따라, 본 발명의 실시예들은 하드웨어 또는 소프트웨어로 구현될 수 있다. 이 구현은 전자적으로 판독 가능한(electronically readable) 제어 신호들이 거기에 저장되며, 해당 방법이 수행되도록 프로그램 가능한(programmable) 컴퓨터 시스템과 협조하는(또는 협조할 수 있는) 예를 들어 플로피디스크(floppy disk), DVD, CD, ROM, PROM, EPROM, EEPROM 또는 FLASH 메모리 등의 디지털 저장매체를 사용하여 수행될 수 있다.
본 발명에 따른 일부 실시예들은 전자적으로 판독 가능한 제어 신호들을 갖는 데이터 캐리어(data carrier)를 구비하는데, 이는 이 명세서에 기재된 방법들 중의 하나가 수행되도록 프로그램 기능한 컴퓨터 시스템과 협조할 수 있다.
일반적으로, 본 발명의 실시예들은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로 구현될 수 있는데, 이 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때 (본 발명) 방법들 중의 하나를 수행하도록 작동 가능하다.
다른 실시예들은 기계 판독 가능한 캐리어 또는 비휘발성 저장매체 상에 저장되어 이 명세서에 기재된 방법들 중의 하나를 수행하는 컴퓨터 프로그램을 구비한다.
달리 말해, 본 발명 방법의 하나의 실시예는 이에 따라, 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때, 이 명세서에 기재된 방법들 중의 하나를 수행하는 프로그램 코드를 갖는 컴퓨터 프로그램이다.
이에 따라, 본 발명의 다른 실시예는 전술한 방법들 중의 하나를 수행하는 컴퓨터 프로그램이 거기에 기록된 데이터 캐리어(또는 디지털 저장매체, 또는 컴퓨터 판독 가능한 매체)이다.
이에 따라, 본 발명의 또 다른 실시예는 이 명세서에 기재된 방법들 중의 하나를 수행하는 컴퓨터 프로그램을 표현하는 데이터 스트림(data stream) 또는 신호들의 시퀀스(sequence)이다. 이 데이터 스트림 또는 신호들의 시퀀스는 예를 들어, 예를 들어 인터넷 등의 데이터 통신 연결을 통해 전송되도록 구성될 수 있다.
또 다른 실시예는 이 명세서에 기재된 방법들 중의 하나를 수행하도록 구성 또는 맞춰질 수 있는 예를 들어 컴퓨터 또는 프로그래밍 가능한 논리 소자(programmable logic device) 등의 처리 수단을 구비한다.
또 다른 실시예는 이 명세서에 기재된 방법들 중의 하나를 수행하는, 거기에 설치된 컴퓨터 프로그램을 갖는 컴퓨터를 구비한다.
일부 실시예들에서는, (예를 들어 현장 프로그래밍 가능한 게이트 어레이(field programmable gate array) 등의) 프로그래밍 가능한 논리 소자가 이 명세서에 기재된 방법들의 기능들의 일부 또는 전부를 수행하는 데 사용될 수 있다. 일부 실시예들에서, 이 명세서에 기재된 방법들 중의 하나를 수행하기 위해 현장 프로그래밍 가능한 게이트 어레이가 마이크로프로세서와 협조할 수 있다. 일반적으로, (본 발명) 방법들은 바람직하기로 어떤 하드웨어 장치로도 수행된다.
전술한 실시예들은 단지 본 발명의 원리들의 예시이다. 이 명세서에 기재된 구성 및 상세들의 변경과 변형들이 당업계에 통상의 기술을 가진 자에게 자명할 것임을 이해해야 할 것이다. 이에 따라, (본 발명은) 이 명세서의 실시예들의 서술과 설명으로 제공된 구체적 상세가 아니라 이하의 특허 청구항들의 범위로만 한정될 것으로 의도된 것이다.
참고문헌(Bibliography)
Alary, B., Politis, A., & Vlimki, V. (2017). 벨벳 소음 비상관화기(Velvet Noise Decorrelator).
Baumgarte, F., & Faller, C. (2003). 양귀 단서 신호화-1부: 음향 심리학 개론 및 설계 원리(Binaural Cue Coding-Part I: Psychoacoustic Fundamentals and Design Principles). 대사 및 음성 처리에 대한 IEEE 논문집(Speech and Audio Processing, IEEE Transactions on,) 11(6), S. 509-519.
Blauert, J. (2001). 공간 청각(Spatial hearing) (3 Ausg.). Cambridge; Mass: MIT Press.
Faller, C., & Baumgarte, F. (2003). 양귀 단서 신호화-2부: 계획 및 적용(Binaural Cue Coding-Part II: Schemes and Applications). 대사 및 음성 처리에 대한 IEEE 논문집(Speech and Audio Processing, IEEE Transactions on,) 11(6), S. 520-531.
Kendall, G. S. (1995). 오디오 신호의 비상관화와 공간 영상에 대한 그 영향(The Decorrelation of Audio Signals and Its Impact on Spatial Imagery). 컴퓨터 음악 학술지(Computer Music Journal), 19(4), S. p 71-87.
Lauridsen, H. (1954). 다른 종류들의 실내 음향 녹음에 관한 실험(Experiments Concerning Different Kinds of Room-Acoustics Recording). 덴마크 동학회지(Ingenioren), 47.
Pihlajamki, T., Santala, O., & Pulkki, V. (2014). 모노 신호들의 시간-주파수 분해를 갖는 공간 확장 가상 음원의 합성(Synthesis of Spatially Extended Virtual Source with Time-Frequency Decomposition of Mono Signals). 음향공학 협회지(Journal of the Audio Engineering Society), 62(7/8), S. 467-484.
Potard, G. (2003). 음원의 외경 형태 및 폭에 대한 연구(A study on sound source apparent shape and wideness).
Potard, G., & Burnett, I. (2004). 3D 오디오 디스플레이에서의 외견 음원 폭의 묘사를 위한 비상관화 기법들(Decorrelation Techniques for the Rendering of Apparent Sound Source Width in 3D Audio Displays).
Pulkki, V. (1997). 벡터 기반 진폭 패닝을 사용하는 가상 음원 위치설정(Virtual Sound Source Positioning Using Vector Base Amplitude Panning). 음향공학 협회지(Journal of the Audio Engineering Society), 45(6), S. 456-466.
Pulkki, V. (1999). 진폭 패닝된 가상 음원의 균일한 스프레딩(Uniform spreading of amplitude panned virtual sources).
Pulkki, V. (2007). 지향성 오디오 코딩을 갖는 공간 음향 재생(Spatial Sound Reproduction with Directional Audio Coding). 음향공학 협회지(J. Audio Eng. Soc,) 55(6), S. 503-516.
Pulkki, V., Laitinen, M.-V., & Erkut, C. (2009). 가상 세계를 위한 효율적 공간 음성 합성(Efficient Spatial Sound Synthesis for Virtual Worlds).
Schlecht, S. J., Alary, B., Vㅴlimㅴki, V., & Habets, E. A. (2018). 최적화된 벨벳 소음 비상관화기(Optimized Velvet-Noise Decorrelator).
Schmele, T., & Sayin, U. (2018). 비상관화 필터들을 사용하는 Ambisonics에서의 외견 음원 크기의 제어(Controlling the Apparent Source Size in Ambisonics Unisng Decorrelation Filters).
Schmidt, J., & Schrder, E. F. (2004). MPEG-4 표준에서의 오디오 표현을 위한 신규하고 진보된 특징들(New and Advanced Features for Audio Presentation in the MPEG-4 Standard).
Verron, C., Aramaki, M., Kronland-Martinet, R., & Pallone, G. (2010). 배경음들의 3-D 몰입형 합성기(A 3-D Immersive Synthesizer for Environmental Sounds). 오디오, 대사, 및 언어 처리에 대한 IEEE 학술지(Audio, Speech, and Language Processing, IEEE Transactions on,) 명칭 = 구판 호환성 다중채널 오디오 코덱(title=A Backward-Compatible Multichannel Audio Codec), 18(6), S. 1550-1561.
Zotter, F., & Frank, M. (2013). 효율적인 팬텀 음원 확장(Efficient Phantom Source Widening). 폴란드 음향학 아카이브(Archives of Acoustics), 38(1), S. 27-37.
Zotter, F., Frank, M., Kronlachner, M., & Choi, J.-W. (2014). Ambisonics에서의 효율적인 팬텀 음원 확장과 확산(Efficient Phantom Source Widening and Diffuseness in Ambisonics).

Claims (21)

  1. 공간 내에 규정된 위치와 지오메트리를 갖는 공간 확장 음원을 재생하는 장치로:
    청취자 위치를 수신하는 인터페이스(100)와;
    상기 청취자 위치와, 상기 공간 확장 음원의 상기 지오메트리에 대한 정보(331)와, 및 상기 공간 확장 음원의 상기 위치에 대한 정보(341)를 사용하여 상기 공간 확장 음원에 연계된 2차원 또는 3차원 포(hull)의 투영 평면으로의 투영을 연산하는 투영기(120);
    상기 투영 평면을 사용하여 상기 공간 확장 음원에 대한 적어도 2개의 음원들의 위치들을 연산하는 음원 위치 연산기(140); 및
    둘 이상의 출력 신호들을 갖는 상기 공간 확장 음원의 재생을 얻기 위해 상기 적어도 2개의 음원들의 위치들에 상기 적어도 2개의 음원들을 묘사하는 묘사기(160)를 포함하고,
    상기 묘사기(160)는 상기 적어도 2개의 음원들의 다른 상기 위치들에 대해 다른 음향 신호들을 사용하도록 구성되고, 상기 다른 음향 신호들이 상기 공간 확장 음원에 연계되는,
    공간 확장 음원 재생 장치.
  2. 제1항에 있어서,
    상기 투영기(120)가 상기 공간 확장 음원의 상기 지오메트리에 관한 상기 정보(331)를 사용하여 상기 공간 확장 음원의 포(hull)를 연산하여 상기 포를 상기 청취자 위치를 향한 방향으로 투영하여 상기 투영 평면으로의 상기 2차원 또는 3차원 포의 투영을 얻도록 구성되거나, 또는
    상기 투영기(120)가 상기 공간 확장 음원의 상기 지오메트리에 관한 상기 정보(331)에 규정된 대로 상기 공간 확장 음원의 지오메트리를 상기 청취자 위치를 향한 방향으로 투영하고 상기 투영된 지오메트리의 포를 연산하여 상기 투영 평면에 대한 상기 2차원 또는 3차원 포의 투영을 얻도록 구성되는 공간 확장 음원 재생 장치.
  3. 제1항에 있어서,
    상기 음원 위치 연산기(140)가 상기 포 투영 데이터 및 상기 청취자 위치로부터 상기 적어도 2개의 음원들의 상기 위치를 연산하도록 구성되는 공간 확장 음원 재생 장치.
  4. 제1항에 있어서,
    상기 음원 위치 연산기(140)가 적어도 2개의 음원들이 주변 음원들이고 상기 투영 평면 상에 위치하게 상기 위치를 연산하도록 구성되거나, 또는
    상기 음원 위치 연산기(140)가, 상기 주변 음원들의 위치가 상기 청취자 위치에 대해 상기 투영 평면의 우측, 및/또는 상기 청취자 위치에 대해 상기 투영 평면의 좌측, 및/또는 상기 청취자 위치에 대해 상기 투영 평면의 정점, 및/또는 상기 청취자 위치에 대해 상기 투영 평면의 저점에 위치하게 연산하도록 구성되는 공간 확장 음원 재생 장치.
  5. 제1항에 있어서,
    상기 묘사기(160)가
    소정의 스피커 구성에 대한 스피커 신호들을 얻기 위한 상기 적어도 2개의 음원들의 위치들에 따른 패닝 작동, 또는
    상기 적어도 2개의 음원들의 상기 위치들에 따른 머리 관련 전송 함수들을 사용하여 헤드폰 신호들을 얻기 위한 양귀 묘사 작동들을
    사용하여, 상기 적어도 2개의 음원들을 묘사하도록 구성되는 공간 확장 음원 재생 장치.
  6. 제1항에 있어서,
    상기 지오메트리에 대한 상기 정보(331)가 1차원의 직선 또는 1차원의 곡선, 2차원 영역, 3차원 몸체로 규정되거나, 또는
    상기 지오메트리에 대한 상기 정보(331)가 매개변수적 서술 또는 다각형적 서술 또는 상기 다각형적 서술의 매개변수 표현으로 규정되는 공간 확장 음원 재생 장치.
  7. 제1항에 있어서,
    상기 공간 확장 음원이 상기 지오메트리에 관한 상기 정보(331)로, 상기 공간 확장 음원이 구형, 및 타원체, 직선, 직육면체 또는 피아노형 공간 확장 음원이라는 정보를 갖는 공간 확장 음원 재생 장치.
  8. 공간 확장 음원에 대한 압축 서술을 표현하는 비트스트림을 생성하는 장치로서, 상기 장치는:
    상기 공간 확장 음원에 대한 적어도 2개의 다른 음향 신호(301, 302)들을 제공하는 음향 신호 제공기(200);
    상기 공간 확장 음원에 대한 지오메트리에 관한 정보(331)를 연산하는 지오메트리 제공기(220)와; 및
    압축된 서술을 표현하는 비트스트림을 생성하는 출력 데이터 형성기(240)를 포함하고,
    상기 비트 스트림은 상기 적어도 2개의 다른 음향 신호(301, 302), 상기 지오메트리에 관한 상기 정보(331), 및 상기 적어도 2개의 다른 음향 신호들 각각에 대한 개별 위치에 관한 정보(321)를 포함하고,
    상기 개별 위치에 관한 정보(321)는 상기 공간 확장 음원의 상기 지오메트리에 대한 상기 정보(331)에 대한 해당음향 신호의 위치를 나타내는,
    비트스트림 생성 장치.
  9. 제8항에 있어서,
    상기 장치는 공간 내의 상기 공간 확장 음원의 위치에 대한 정보(341)를 상기 비트 스트림 내로 포함시키도록 구성되는,
    비트스트림 생성 장치.
  10. 제8항에 있어서,
    상기 음향 신호 제공기(200)가
    단일 마이크 위치 또는 방향 또는 복수의 마이크 위치들 및 방향들에서 자연 음원의 녹음을 수행하거나, 또는
    하나 이상의 비상관화 필터들에 의해 하나의 기저 신호 또는 복수의 기저 신호들에서 부터 음향 산호를 도출하도록 구성되는
    비트스트림 생성 장치.
  11. 제8항에 있어서,
    상기 음향 신호 제공기(200)가 오디오 신호 인코더(260)를 사용하여 적어도 2개의 음향 신호들을 비트전송률 압축하도록 구성되고, 그리고
    상기 출력 데이터 형성기(240)가 상기 공간 확장 음원에 대한 상기 비트전송률 압축된 하나 이상의 음향 신호들을 사용하도록 구성되는 비트스트림 생성 장치.
  12. 제8항에 있어서,
    상기 지오메트리 제공기(220)가 상기 공간 확장 음원의 지오메트리로부터 매개변수적 서술, 또는 다각형적 서술을 도출하도록 구성되고, 그리고 상기 출력 데이터 형성기(240)가 상기 지오메트리에 관한 정보(331)로서 상기 매개변수적 서술, 또는 상기 다각형적 서술, 또는 상기 다각형적 서술의 상기 매개변수적 표현을 상기 비트스트림에 도입시키도록 구성되는 비트스트림 생성 장치.
  13. 제8항에 있어서,
    상기 출력 데이터 형성기(240)가, 상기 비트스트림에 포함되거나 상기 비트스트림에 연계된 인코딩된 오디오 신호에 포함된 상기 공간 확장 음원에 대한 적어도 2개의 다른 음향 신호들(301, 302)의 수를 표시하는 비트스트림 요소(311)를 상기 비트스트림에 도입시키도록 구성되고, 상기 수는 2 또는 2보다 큰 비트스트림 생성 장치.
  14. 공간 내에 규정된 위치와 지오메트리를 갖는 공간 확장 음원을 재생하는 방법으로:
    청취자 위치를 수신하는 단계와;
    상기 청취자 위치와, 상기 공간 확장 음원의 지오메트리에 관한 정보(331)와, 및 상기 공간 확장 음원의 위치에 관한 정보(341)를 사용하여 상기 공간 확장 음원에 연계된 2차원 또는 3차원 포의 투영 평면에 대한 투영을 연산하는 단계와;
    상기 투영 평면을 사용하여 상기 공간 확장 음원에 대한 적어도 2개의 음원들의 위치들을 연산하는 단계와; 및
    2개 이상의 출력 신호들을 갖는 상기 공간 확장 음원의 재생을 얻기 위해 상기 적어도 2개의 음원들을 상기 적어도 2개의 음원들의 상기 위치들에 묘사하는 단계를 포함하고,
    상기 묘사하는 단계는 상기 적어도 2개의 음원들의 다른 위치들에 대해 다른 음향 신호를 사용하는 단계를 포함하며, 상기 다른 음향 신호들이 상기 공간 확장 음원에 연계되는,
    공간 확장 음원 재생 방법.
  15. 공간 확장 음원의 압축된 서술을 표현하는 비트스트림을 생성하는 방법으로:
    상기 공간 확장 음원에 대한 적어도 2개의 다른 음향 신호들(301, 302)을 제공하는 단계와;
    상기 공간 확장 음원의 지오메트리에 관한 정보(331)를 제공하는 단계; 및
    압축된 서술을 표현하는 비트스트림을 생성하는 단계를 포함하고,
    상기 비트스트림은 상기 적어도 2개의 다른 음원들(301, 302), 상기 공간 확장 음원에 대한 상기 지오메트리에 대한 상기 정보(331), 및 상기 적어도 2개의 다른 음향 신호의 음향 신호 각각에 대한 개별 위치에 관한 정보(321)를 포함하고,
    상기 개별 위치에 과한 정보(321)는 상기 공간 확장 음원의 상기 지오메트리에 대한 상기 정보(331)에 대한 해당 음향 신호의 위치를 나타내는
    비트스트림 생성 방법.
  16. 제15항에 있어서,
    상기 방법은 공간 내의 상기 공간 확장 음원의 위치에 대한 정보(341)를 상기 비트 스트림 내로 포함시키는 단계를 포함하는,
    비트스트림 생성 방법.
  17. 제15항에 있어서,
    상기 비트스트림의 생성 단계가, 상기 비트스트림에 포함되거나 상기 비트스트림에 연계된 인코딩된 오디오 신호에 포함된 상기 공간 확장 음원에 대한 적어도 2개의 다른 음향 신호(301, 302)들의 수를 표시하는 비트스트림 요소(311)를 상기 비트스트림에 도입시키는 단계를 포함하고, 상기 수는 2 또는 2보다 큰 비트스트림 생성 방법.
  18. 공간 확장 음원에 대한 압축 서술을 표현하는 비트스트림으로:
    상기 공간 확장 음원에 대한 적어도 2개의 다른 음향 신호(301, 302)들;
    상기 공간 확장 음원에 대한 지오메트리에 관한 정보(331)를 포함하고,
    상기 적어도 2개의 다른 음향 신호들(301, 302)의 제1 음향 신호(301)에 대한 제1 위치 정보(321)는 상기 제1 음향 신호(301)의 상기 공간 확장 음원에 대한 상기 정보(331)에 대한 제1 위치를 나타내며,
    상기 적어도 2개의 다른 음향 신호들(301, 302)의 제2 음향 신호(302)에 대한 제2 위치 정보(321)는 상기 공간 확장 음원에 대한 상기 지오메트리(331)에 대한 상기 제2 음향 신호(302)의 제2 위치를 나타내며,
    상기 제2 위치 정보는 상기 제1 위치 정보와는 상이한,
    비트스트림.
  19. 제18항에 있어서,
    상기 비트스림은 공간 내의 상기 공간 확장 음원의 위치 상에서 정보(341)을 더 포함하는, 비트스트림.
  20. 제18항에 있어서,
    상기 비트스트림에 포함되거나 또는 상기 비트스트림에 연계된 인코딩된 오디오 신호 내에 포함된 상기 공간 확장 음원에 대한 적어도 하나의 다른 음향 신호들(301, 302)의 수를 표시하는 비트스트림 요소(311)를 더 포함하고, 상기 수가 1 또는 1보다 큰 비트스트림.
  21. 컴퓨터 또는 프로세서 상에서 실행시에, 제14항 또는 제17항의 방법을 수행하는 컴퓨터 프로그램이 저장되는 저장매체.
KR1020237043727A 2018-12-19 2019-12-17 공간 확장 음원을 재생하는 장치 및 방법 또는 공간 확장 음원으로부터 비트 스트림을 생성하는 장치 및 방법 KR20240005112A (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP18214182 2018-12-19
EP18214182.0 2018-12-19
PCT/EP2019/085733 WO2020127329A1 (en) 2018-12-19 2019-12-17 Apparatus and method for reproducing a spatially extended sound source or apparatus and method for generating a bitstream from a spatially extended sound source
KR1020217022719A KR102659722B1 (ko) 2018-12-19 2019-12-17 공간 확장 음원을 재생하는 장치 및 방법 또는 공간 확장 음원으로부터 비트 스트림을 생성하는 장치 및 방법

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020217022719A Division KR102659722B1 (ko) 2018-12-19 2019-12-17 공간 확장 음원을 재생하는 장치 및 방법 또는 공간 확장 음원으로부터 비트 스트림을 생성하는 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20240005112A true KR20240005112A (ko) 2024-01-11

Family

ID=65010413

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020237043727A KR20240005112A (ko) 2018-12-19 2019-12-17 공간 확장 음원을 재생하는 장치 및 방법 또는 공간 확장 음원으로부터 비트 스트림을 생성하는 장치 및 방법
KR1020217022719A KR102659722B1 (ko) 2018-12-19 2019-12-17 공간 확장 음원을 재생하는 장치 및 방법 또는 공간 확장 음원으로부터 비트 스트림을 생성하는 장치 및 방법

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020217022719A KR102659722B1 (ko) 2018-12-19 2019-12-17 공간 확장 음원을 재생하는 장치 및 방법 또는 공간 확장 음원으로부터 비트 스트림을 생성하는 장치 및 방법

Country Status (13)

Country Link
US (2) US11937068B2 (ko)
EP (1) EP3900401A1 (ko)
JP (2) JP2022515998A (ko)
KR (2) KR20240005112A (ko)
CN (1) CN113316943B (ko)
AU (1) AU2019409705B2 (ko)
BR (1) BR112021011170A2 (ko)
CA (2) CA3123982C (ko)
MX (1) MX2021007337A (ko)
SG (1) SG11202106482QA (ko)
TW (1) TWI786356B (ko)
WO (1) WO2020127329A1 (ko)
ZA (1) ZA202105016B (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023511862A (ja) * 2020-01-14 2023-03-23 フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 空間的に拡張された音源(Spatially Extended Sound Source)を再生する装置及び方法、又は固定化情報を用いて空間的に拡張された音源に対する記述を生成する装置及び方法
US11627428B2 (en) * 2020-03-02 2023-04-11 Magic Leap, Inc. Immersive audio platform
CN114067810A (zh) * 2020-07-31 2022-02-18 华为技术有限公司 音频信号渲染方法和装置
KR102658471B1 (ko) * 2020-12-29 2024-04-18 한국전자통신연구원 익스텐트 음원에 기초한 오디오 신호의 처리 방법 및 장치
KR20230153470A (ko) * 2021-04-14 2023-11-06 텔레폰악티에볼라겟엘엠에릭슨(펍) 도출된 내부 표현을 갖는 공간적으로-바운드된 오디오 엘리먼트
BR112023022238A2 (pt) * 2021-04-29 2024-02-06 Dolby Int Ab Métodos, aparelho e sistemas para modelar objetos de áudio com extensão
WO2023061965A2 (en) * 2021-10-11 2023-04-20 Telefonaktiebolaget Lm Ericsson (Publ) Configuring virtual loudspeakers
WO2023083753A1 (en) * 2021-11-09 2023-05-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method or computer program for synthesizing a spatially extended sound source using modification data on a potentially modifying object
WO2023083876A2 (en) * 2021-11-09 2023-05-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Renderers, decoders, encoders, methods and bitstreams using spatially extended sound sources
TW202406368A (zh) * 2022-06-15 2024-02-01 瑞典商都比國際公司 用於基於體素之幾何表示之聲學三維範圍模型化之方法、系統和設備
CN115408442B (zh) * 2022-08-15 2023-03-10 云南大学 基于扩展空间同位模式的土地覆盖分布关系挖掘方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3528284B2 (ja) * 1994-11-18 2004-05-17 ヤマハ株式会社 3次元サウンドシステム
EP1297691A2 (en) * 2000-03-07 2003-04-02 Sarnoff Corporation Camera pose estimation
ES2283815T3 (es) * 2002-10-14 2007-11-01 Thomson Licensing Metodo para codificar y decodificar la anchura de una fuente de sonido en una escena de audio.
WO2004036955A1 (en) * 2002-10-15 2004-04-29 Electronics And Telecommunications Research Institute Method for generating and consuming 3d audio scene with extended spatiality of sound source
JP2007003989A (ja) * 2005-06-27 2007-01-11 Asahi Kasei Homes Kk 音環境解析シミュレーションシステム
CA2732079C (en) 2008-07-31 2016-09-27 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Signal generation for binaural signals
WO2011135283A2 (en) 2010-04-26 2011-11-03 Cambridge Mechatronics Limited Loudspeakers with position tracking
RU2014133903A (ru) * 2012-01-19 2016-03-20 Конинклейке Филипс Н.В. Пространственные рендеризация и кодирование аудиосигнала
WO2014036085A1 (en) * 2012-08-31 2014-03-06 Dolby Laboratories Licensing Corporation Reflected sound rendering for object-based audio
EP2733964A1 (en) * 2012-11-15 2014-05-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Segment-wise adjustment of spatial audio signal to different playback loudspeaker setup
US9883312B2 (en) * 2013-05-29 2018-01-30 Qualcomm Incorporated Transformed higher order ambisonics audio data
US10262462B2 (en) * 2014-04-18 2019-04-16 Magic Leap, Inc. Systems and methods for augmented and virtual reality
WO2016180493A1 (en) * 2015-05-13 2016-11-17 Huawei Technologies Co., Ltd. Method and apparatus for driving an array of loudspeakers with drive signals
JP6786834B2 (ja) * 2016-03-23 2020-11-18 ヤマハ株式会社 音響処理装置、プログラムおよび音響処理方法
KR20170125660A (ko) * 2016-05-04 2017-11-15 가우디오디오랩 주식회사 오디오 신호 처리 방법 및 장치
US10231073B2 (en) 2016-06-17 2019-03-12 Dts, Inc. Ambisonic audio rendering with depth decoding
US11096004B2 (en) * 2017-01-23 2021-08-17 Nokia Technologies Oy Spatial audio rendering point extension

Also Published As

Publication number Publication date
CA3199318A1 (en) 2020-06-25
EP3900401A1 (en) 2021-10-27
WO2020127329A1 (en) 2020-06-25
AU2019409705B2 (en) 2023-04-06
MX2021007337A (es) 2021-07-15
US20210289309A1 (en) 2021-09-16
SG11202106482QA (en) 2021-07-29
US11937068B2 (en) 2024-03-19
JP2024020307A (ja) 2024-02-14
BR112021011170A2 (pt) 2021-08-24
KR20210101316A (ko) 2021-08-18
AU2019409705A1 (en) 2021-08-12
CN113316943A (zh) 2021-08-27
TW202027065A (zh) 2020-07-16
ZA202105016B (en) 2022-04-28
CA3123982A1 (en) 2020-06-25
US20240179486A1 (en) 2024-05-30
TWI786356B (zh) 2022-12-11
CA3123982C (en) 2024-03-12
CN113316943B (zh) 2023-06-06
KR102659722B1 (ko) 2024-04-23
JP2022515998A (ja) 2022-02-24

Similar Documents

Publication Publication Date Title
KR102659722B1 (ko) 공간 확장 음원을 재생하는 장치 및 방법 또는 공간 확장 음원으로부터 비트 스트림을 생성하는 장치 및 방법
AU2021225242B2 (en) Concept for generating an enhanced sound-field description or a modified sound field description using a multi-layer description
TWI818244B (zh) 使用提示資訊項目來合成空間擴展聲源的設備及方法
US20220377489A1 (en) Apparatus and Method for Reproducing a Spatially Extended Sound Source or Apparatus and Method for Generating a Description for a Spatially Extended Sound Source Using Anchoring Information
CA3237593A1 (en) Renderers, decoders, encoders, methods and bitstreams using spatially extended sound sources
RU2780536C1 (ru) Оборудование и способ для воспроизведения пространственно протяженного источника звука или оборудование и способ для формирования потока битов из пространственно протяженного источника звука
RU2808102C1 (ru) Оборудование и способ для синтезирования пространственно протяженного источника звука с использованием информационных элементов сигнальных меток
KR20240096835A (ko) 공간 확장 음원을 사용하는 렌더러, 디코더, 인코더, 방법 및 비트스트림
TW202337236A (zh) 用以使用基本空間扇區合成空間擴展音源之裝置、方法及電腦程式

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination