KR20230147674A - 오디오 객체들을 렌더링하기 위한 장치 및 방법 - Google Patents

오디오 객체들을 렌더링하기 위한 장치 및 방법 Download PDF

Info

Publication number
KR20230147674A
KR20230147674A KR1020237031875A KR20237031875A KR20230147674A KR 20230147674 A KR20230147674 A KR 20230147674A KR 1020237031875 A KR1020237031875 A KR 1020237031875A KR 20237031875 A KR20237031875 A KR 20237031875A KR 20230147674 A KR20230147674 A KR 20230147674A
Authority
KR
South Korea
Prior art keywords
loudspeakers
virtual position
loudspeaker signals
loudspeaker
panning
Prior art date
Application number
KR1020237031875A
Other languages
English (en)
Inventor
안드레아스 윌터
크리스토프 팔러
유르겐 헤레
마커스 슈미트
크리스천 보르스
줄리안 클랍
필립 고츠
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20230147674A publication Critical patent/KR20230147674A/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Stereophonic System (AREA)

Abstract

3D 패닝을 가능하게 하는 오디오 객체들의 보다 효율적인 렌더링은 2개의 스테이지들, 즉 수직으로 오프셋되는 제1 가상(스피커) 포지션 및 제2 가상 또는 실제(스피커) 포지션으로 이어지는 적어도 하나의 수평 레이어 내 패닝, 및 2개의 포지션들 사이의 다른 수직 패닝을 수행함으로써 달성된다. 이러한 방식으로 동작하는 것은 계산 복잡성을 증가시키는 것으로 보이지만, 사실상 이러한 스테이지화된 프로세싱은 렌더링의 안정성 및 의도된 가상 포지션의 로케이션을 높인다. 더욱이, 스테이지화된 프로세싱은 실시예에 따라, 진폭 패닝 이득들만을 사용하여 패닝을 수행하는 것을 가능하게 하는데, 즉 위상 프로세싱이 필요하지 않으며, 이로써 계산 복잡도를 낮아지게 한다. 더 추가로, 렌더링은 다양한 라우드스피커 셋업들에 대한 적용 가능성과 관련하여 유연하다.

Description

오디오 객체들을 렌더링하기 위한 장치 및 방법
본 발명은 오디오 재생의 기술 분야에 관한 것이다. 구체적으로, 상승된 또는 낮춰진 높이의 사운드들의 재생을 갖는 다채널 오디오의 재생이 본 명세서에서 설명된다.
사운드 재생을 위해, 시스템들의 복잡성 및 재생 품질과 관련하여 서로 다른 상이한 종류들의 시스템들이 존재한다. 영화 사운드에 대한 기준은 시네마이다. 시네마들은 청취자의 전방(일반적으로 스크린 뒤)뿐만 아니라 추가로 측면들 및 후방에, 그리고 최근에는 천장에도 또한 라우드스피커(loudspeaker)들이 설치되는 다채널 서라운드 사운드를 제공한다. 측면 및 후방 라우드스피커들은, 높이 및 천장 라우드스피커들을 사용하여 사운드를 수직으로 완전히 에워쌈으로써 더 향상될 수 있는 수평으로 둘러싸는 사운드 재생을 가능하게 한다.
최신 코딩 기법들을 이용하여, 몰입형, 대화형 및 객체 기반 오디오 콘텐츠가 전문 환경들에서 사용될 수 있을 뿐만 아니라, 소비자의 가정으로 편리하게 송신되어, 예컨대, 높이 재생과 같은 추가 특징들 및 치수들이 추가될 수 있다.
현실적인 사운드 재생을 위한 향상된 재생 셋업들은 수평면에(일반적으로 청취자의 귀 높이 또는 그 근처에) 장착된 라우드스피커들뿐만 아니라 추가로 수직 방향으로 확산된 라우드스피커들도 사용한다. 그러한 라우드스피커들은 예컨대, 상승(천장에 또는 머리 높이 위에 어떤 각도로 장착)되거나 청취자의 귀 높이 아래에(예컨대, 바닥에 또는 어떤 중간 또는 특정 각도로) 배치된다.
종종, 라우드스피커들을 최상부 또는 최하부 방향들로 설치하는 것은 불편하거나 불가능하다.
가정 환경에서는, 열성팬들만이 전문 환경들, 연구 실험실들 또는 시네마들에서 사용되는 라우드스피커 셋업들을 복제하는 데 필요한 수의 라우드스피커들을 설치할 것이다. 여기서, 라우드스피커 셋업이라는 용어는 또한, 사운드바(soundbar)들, 내장형 라우드스피커들을 갖는 TV들, 붐박스(boombox)들, 사운드 플레이트들, 라우드스피커 어레이들, 스마트 스피커들 등과 같은 디바이스들 및 토폴로지들을 포함한다.
그럼에도, 몰입형 사운드 경험 또는 가상 현실을 위해 사운드를 렌더링(render)할 때, 높이(최상부 및 최하부) 방향들(이하, "최상부 및 최하부 방향들"로 표기됨. 물론, 항상 양방향들이 프로세싱되어야 하는 것은 아니며, 따라서 이는 "최상부 또는 최하부 방향들(중 어느 하나)" 또는 "최상부/최하부 방향들"과 동등함)에서도 또한 사운드를 렌더링하는 것이 종종 바람직하다.
따라서 높이 라우드스피커들, 예컨대 최상부 라우드스피커들 및/또는 최하부 라우드스피커들을 갖지 않으면서 최상부 및 최하부 방향들로 사운드를 렌더링할 필요성이 생긴다.
그러한 다소 복잡한 셋업들에 대한 편리한 대안은 향상된 라우드스피커 셋업들에 필적하는 또는 그와 유사한 공간 청각 지각을 생성하기 위해 신호 프로세싱 수단을 사용하는 콤팩트한 재생 시스템들이다. 여기서, 재생 시스템들이라는 용어는 다수의 개별적인 라우드스피커들, 사운드바들, 내장형 라우드스피커들을 갖는 TV들, 붐박스들, 사운드 플레이트들, 라우드스피커 어레이들, 스마트 스피커들 등을 포함하는 셋업들과 같은 오디오 재생을 위한 모든 디바이스들 및 토폴로지들을 포함한다.
이를 달성하기 위한 실제 방법 및 장치가 다음에 제시된다.
본 발명의 목적은 3D 패닝(panning)을 가능하게 하는 오디오 객체들의 보다 효율적인 렌더링을 제공하는 것이며, 효율의 향상은 예컨대, 렌더링 안정성, 개선된 패닝 정확도, 더 많은 수의 라우드스피커 셋업들에 대한 계산 효율 및/또는 적합성, 라우드스피커들의 수의 변화, 라우드스피커 포지션들의 변화, 청취자들의 포지션들의 변화, 객체 포지션들의 변화에 관련된다.
이러한 과제는 독립 청구항들의 요지에 의해 달성된다.
3D 패닝을 가능하게 하는 오디오 객체들의 보다 효율적인 렌더링은 2개의 스테이지들, 즉 수직으로 오프셋되는 제1 가상(스피커) 포지션 및 제2 가상 또는 실제(스피커) 포지션으로 이어지는 적어도 하나의 수평 레이어 내(in-layer) 패닝, 및 2개의 포지션들 사이의 다른 수직 패닝을 수행함으로써 달성된다. 이러한 방식으로 동작하는 것은 계산 복잡성을 증가시키는 것으로 보이지만, 사실상 이러한 스테이지화된 프로세싱은 렌더링의 안정성 및 의도된 가상 포지션의 로컬화의 정밀도를 높인다. 더욱이, 스테이지화된 프로세싱은 실시예에 따라, 진폭 패닝 이득들만을 사용하여 패닝을 수행하는 것을 가능하게 하는데, 즉 위상 프로세싱이 필요하지 않으며, 이로써 계산 복잡도를 낮아지게 한다. 더 추가로, 렌더링은 다양한 라우드스피커 셋업들에 대한 적용 가능성과 관련하여 유연하다.
본 출원의 실시예들은, 복수의 라우드스피커들에서의 라우드스피커 신호들의 인가가 의도된 가상 포지션에서 적어도 하나의 오디오 객체를 렌더링하도록, 복수의 라우드스피커들에 대한 라우드스피커 신호들을 생성하기 위한 장치에 관한 것이다. 이 장치는 적어도 하나의 오디오 객체를 나타내는 오디오 입력 신호를 수신하도록 구성된 인터페이스를 포함한다. 이는 채널 기반 오디오 신호, 객체 기반 오디오 신호 및/또는 장면 기반 오디오 신호 중 하나일 수 있다. 제1 패닝 이득 결정기는 의도된 가상 포지션에 따라, 복수의 라우드스피커들 중 하나 이상의 제1 수평 레이어들의 제1 레이어 세트 내에 배열되는 제1 세트의 라우드스피커들에 대한 제1 패닝 이득들을 결정하도록 구성되며, 제1 패닝 이득들은, 제1 가상 포지션에서의 적어도 하나의 오디오 객체의 렌더링과 연관되는 제1 부분 라우드스피커 신호들을 제1 세트의 라우드스피커들에 인가할 때, 적어도 하나의 오디오 입력 신호로부터의 제1 부분 라우드스피커 신호들의 도출을 정의한다. 이것이 앞서 언급된 레이어 내 패닝이다. 수직 패닝 이득 결정기는 제1 가상 포지션과 제1 포지션에 대해 수직으로 오프셋되는 제2 포지션 사이에서 패닝하기 위해, 의도된 가상 포지션에 따라, 제1 부분 라우드스피커 신호들과 제2 세트의 하나 이상의 라우드스피커들에 인가될 그리고 제2 포지션에서의 적어도 하나의 오디오 객체의 렌더링과 연관되는 하나 이상의 제2 부분 라우드스피커 신호들 사이의 패닝(또는 페이딩)에 대한 추가 패닝 이득들을 결정하도록 구성된다. 이것이 수직 패닝이다. 하나 이상의 제2 부분 라우드스피커 신호들은 다른 레이어 내 패닝의 결과일 수 있으며, 이 경우 제2 포지션은 제2 가상 포지션이거나, 제2 포지션은 라우드스피커들 중 제1 세트의 라우드스피커들에 대해 수직으로 오프셋되어 포지셔닝되는 다른 라우드스피커의 실제 포지션일 수 있다. 이 장치는 제1 패닝 이득들 및 추가 패닝 이득들을 사용하여 제1 부분 라우드스피커 신호들 및 하나 이상의 제2 부분 라우드스피커 신호들로부터 라우드스피커 신호들을 구성하도록 구성된다. 즉, 이 구성에서, 제1 및 추가 패닝 이득들이 실제로 오디오 입력 신호에 적용됨으로써, 라우드스피커 신호들로 이어진다. 가능하게는 이를테면, 실제 라우드스피커 포지션에 포지셔닝되고 제2 부분 라우드스피커 신호가 공급되는 방금 언급된 제2 라우드스피커에 대해, 패닝 이득들 중 단지 하나가 생성에 사용될 하나 이상의 라우드스피커 신호들이 존재할 수 있다.
일부 실시예들에 따르면, 언급한 것처럼, 제2 세트의 하나 이상의 라우드스피커들은 하나보다 많은 라우드스피커를 포함하고, 하나 이상의 제2 부분 라우드스피커 신호들은 하나보다 많은 제2 부분 라우드스피커 신호들을 포함하며, 이 장치는 의도된 가상 포지션에 따라, 제2 세트의 라우드스피커들에 대한 제2 패닝 이득들을 결정하도록 구성된 제2 패닝 이득 결정기를 더 포함하고, 제2 패닝 이득들은 적어도 하나의 오디오 입력 신호로부터의 제2 부분 라우드스피커 신호들의 도출을 정의하며, 이 장치는 제1 패닝 이득들 및 제2 패닝 이득들과 추가 패닝 이득들을 사용하여 제1 부분 라우드스피커 신호들 및 제2 부분 라우드스피커 신호들로부터 라우드스피커 신호들을 구성하도록 구성된다. 여기서, 일 실시예에 따르면, 제2 포지션이 제2 레이어 세트 위 또는 아래의, 이를테면 제2 세트의 라우드스피커들이 배열되는 하나 이상의 제1 수평 레이어들과 하나 이상의 제2 수평 레이어들 중 임의의 수평 레이어 내 또는 하나 이상의 제1 수평 레이어들과 하나 이상의 제2 수평 레이어들 사이가 아니라, 이러한 수평 레이어들에 대해 수직으로 한 측면의 가상 포지션이 되도록, 제2 부분 라우드스피커 신호들이 스펙트럼 성형에 의해 적어도 하나의 오디오 신호로부터 도출될 수 있다. 대응하는 실시예들에 따르면, 복수의 라우드스피커들에서의 라우드스피커 신호들의 인가가 의도된 가상 포지션에서 적어도 하나의 오디오 객체를 렌더링하도록, 복수의 라우드스피커들에 대한 라우드스피커 신호들을 생성하기 위한 장치가 발생하며, 복수의 라우드스피커들은 하나 이상의 수평 레이어들에 분포되고, 이 장치는 적어도 하나의 오디오 객체를 나타내는 오디오 입력 신호를 수신하도록 구성된 인터페이스, 의도된 가상 포지션에 따라, 복수의 라우드스피커들 중 제1 세트의 라우드스피커들에 대해, 제1 가상 포지션이 제1 세트의 라우드스피커들의 포지션들 사이에 있도록 제1 패닝 이득들, 예컨대 언급한 것처럼 순수 진폭 패닝 이득들을 결정하고, 그리고 제1 가상 포지션에서의 적어도 하나의 오디오 객체의 렌더링과 연관되는 제1 부분 라우드스피커 신호들을 제1 세트의 라우드스피커들에 인가할 때, 제1 패닝 이득들을 사용하여 적어도 하나의 오디오 입력 신호로부터 제1 부분 라우드스피커 신호들을 도출하도록 구성된 제1 라우드스피커 신호 세트 결정기, 스펙트럼 성형에 의해, 적어도 하나의 오디오 신호로부터 제2 부분 라우드스피커 신호들을 도출하도록 구성된 제2 라우드스피커 신호 세트 결정기 ― 제2 부분 라우드스피커 신호들은 제2 부분 라우드스피커 신호들을 제2 세트의 라우드스피커들에 인가할 때 제2 가상 포지션에서의 적어도 하나의 오디오 객체의 렌더링과 연관되고, 제2 가상 포지션은 하나 이상의 수평 레이어들 위 또는 아래, 예컨대 하나 이상의 수평 레이어들 사이 또는 하나 이상의 수평 레이어들 중 임의의 수평 레이어 내에 있는 것이 아니라 하나 이상의 수평 레이어들에 대해 수직으로 한 측면에 있음 ―, 제1 가상 포지션과 제2 가상 포지션 사이에서 패닝하기 위해, 의도된 가상 포지션에 따라 제1 부분 라우드스피커 신호들 및 제2 부분 라우드스피커 신호들에 대한 제2 패닝 이득들을 결정하도록 구성된 수직 패닝 이득 결정기, 및 제2 패닝 이득들을 사용하여 제1 부분 라우드스피커 신호들 및 제2 부분 라우드스피커 신호들로부터 라우드스피커 신호들을 구성하도록 구성된 컴포저(composer)를 포함한다.
이와 같이, 본 명세서에서 설명되는 실시예들은 적어도 하나의 오디오 입력 신호로부터 적어도 하나의 오디오 객체를 한 세트의 라우드스피커들로 렌더링하기 위한 개념을 나타낸다. 요약하면, 오디오 입력 신호들은 라우드스피커들에 의해 출력될 오디오 객체들에 관한 정보를 포함할 수 있다. 예를 들어, 이러한 오디오 객체는 영화에서 비행하는 헬리콥터의 사운드, 오케스트라에서 연주되는 악기의 사운드, 또는 음성의 사운드일 수 있다. 오디오 객체는 라우드스피커들을 사용하여 렌더링된다. 오디오 입력 신호는 오디오 객체가 개별적인 라우드스피커들에서 어떻게 출력될지를 결정하도록 프로세싱된다. 이를 위해, 각각의 오디오 입력 신호는 적어도 하나의 오디오 객체의 포지션 정보와 연관된다. 이러한 포지션 정보는 정적일 수 있는데, 예컨대 바이올린이 오케스트라의 좌측에 위치되거나, 스피커가 청취자의 전방에 있거나, 동력, 예컨대 헬리콥터가 우측에서 좌측으로 비행할 수 있다. 오디오 객체를 렌더링하는 데 사용되는 한 세트의 라우드스피커들은 라우드스피커들의 하나 이상의 그룹들을 포함할 수 있고, 각각의 그룹은 하나의 수평 레이어에 위치된다. 추가 라우드스피커는 하나 이상의 그룹들 위에 또는 아래에 위치된 물리적 또는 가상 라우드스피커일 수 있다.
이는, 한 세트의 라우드스피커들에 대해, 레이어들과의 연관 및 레이어들 위 또는 아래의 레이어들에 대해 오프셋된 포지션들이 정의될 수 있음을 의미한다. 예를 들어, 셋업은 하나의 레이어 내의, 예컨대 모두 동일한 높이의 4개의 라우드스피커들, 및 4개의 다른 라우드스피커들 위의 더 높은, 예컨대 상승된 하나의 물리적 또는 가상 라우드스피커를 포함할 수 있다. 그런 다음, 이 셋업은 하나의 레이어를 가질 것이다. 추가적인 하나 이상의 레이어들이 또한 가능하다.
유리한 실시예들이 종속 청구항들의 대상이다. 특히, 본 출원의 바람직한 실시예들은 다음 중의 도면들에 관해 아래에 설명된다:
도 1은 일 실시예에 따른 오디오 렌더링을 위한 장치의 블록도를 도시한다.
도 2는 여기서는 두 부분 라우드스피커 신호 세트들에 대한 수평 패닝뿐만 아니라 이러한 신호 세트들 중 하나에 대한 등화의 가능성을 포함하는 것으로 설명되는, 오디오 렌더링을 위한 장치에 대한 다른 실시예를 도시한다.
도 3은 예시적인 라우드스피커 셋업 및 라우드스피커들 사이에 포지셔닝된 청취자를 개략적으로 도시하며, 오디오 렌더링을 위한 가상 최상부 라우드스피커의 고려를 추가로 예시한다.
도 4는 제1 (수평) 패닝을 예시하는, 도 3의 시나리오의 개략도를 도시한다.
도 5a는 가상 최상부 라우드스피커를 달성하기 위해 모노럴 큐(monaural cue)를 제공하기 위해 등화 또는 스펙트럼 성형의 사용을 예시하는 도 3의 시나리오를 도시한다.
도 5b는 가상 최상부 라우드스피커를 렌더링하는 데 참여하도록 모집된 라우드스피커들 사이의 패닝 및 가상 최상부 라우드스피커를 위치시키는 데 사용되는 이득들을 예시하는, 도 5a의 상황을 도시한다.
도 6은 최상부/최하부 가상 라우드스피커의 렌더링을 위한 수평 패닝과 등화 사이의 상이한 순서에 의해 도 2의 실시예와 비교하여 변화되는 오디오 렌더링을 위한 장치의 블록도를 도시한다.
도 7은 오디오 렌더링을 위한 장치에 대한 다른 실시예의 블록도를 도시하거나, 2개의 이용 가능한 라우드스피커 레이어들 사이의 의도된 가상 포지션에 대한 오디오 객체를 렌더링하는 데 참여하는 도 1의 장치의 엘리먼트들의 블록도를 상이하게 도시한다.
도 8은 도 7의 엘리먼트들에 추가하여, 청취자의 포지션을 고려할 가능성을 예시하는 블록도를 도시한다.
도 9는 가능한 라우드스피커 셋업, 여기서는 5.0 라우드스피커 셋업의 개략적인 평면도를 도시한다.
도 10은 라우드스피커 셋업, 여기서는 5.0+2H 라우드스피커 셋업에 대한 다른 예의 다른 개략적인 3차원 도면을 도시한다.
도 11 및 도 12는 2개의 이용 가능한 레이어들 사이의 의도된 가상 포지션에서 객체의 오디오 렌더링을 수행할 때 2-스테이지 프로세스를 예시하기 위해, 여기서는 5.0+4H 라우드스피커 셋업을 사용하는 예에 대한 개략도들을 도시한다.
도 13 및 도 14는 이용 가능한 레이어들에 대해, 여기서는 예시적으로 모든 레이어들의 최상부에 대해 수직으로 오프셋된 의도된 가상 포지션에서의 객체의 2-스테이지 렌더링을 예시한다.
도 15는 가상 최상부/최하부 라우드스피커 신호를 렌더링하기 위한 모노럴 큐를 형성하기 위해 등화 또는 스펙트럼 성형에 사용되는 성형 함수들에 대한 예들을 도시한다.
다음의 설명은 복수의 라우드스피커들에 대한 라우드스피커 신호들을 생성하기 위한 장치의 일 실시예의 설명으로 시작한다. 도 1의 장치에 개별적으로 또는 그룹들로 적용될 수 있는 세부사항들의 설명과 함께 본 명세서에서 아래에 보다 구체적인 실시예들의 개요가 서술된다.
도 1의 장치는 일반적으로 참조 부호(10)를 사용하여 표시되며, 복수의 라우드스피커들(14)에서의 또는 복수의 라우드스피커들(14)에 대한 라우드스피커 신호들(12)의 인가가 의도된 가상 포지션에서 적어도 하나의 오디오 객체를 렌더링하는 방식으로 복수의 라우드스피커들(14)에 대한 라우드스피커 신호들(12)을 생성하기 위한 것이다.
장치(10)는 라우드스피커들(14)의 특정 배열을 위해, 즉 복수의 라우드스피커들(14)이 포지셔닝되는 또는 포지셔닝되고 배향되는 특정 포지션들을 위해 구성될 수도 있다. 그러나 장치는 대안으로, 라우드스피커들(14)의 상이한 라우드스피커 배열들에 대해 구성 가능할 수 있다. 마찬가지로, 라우드스피커들(14)의 수는 2개 이상일 수 있고, 장치는 설정된 수의 라우드스피커들(14)을 위해 설계될 수 있거나, 임의의 수의 라우드스피커들(14)을 다루도록 구성 가능할 수 있다.
장치(10)는 적어도 하나의 오디오 객체를 나타내는 오디오 신호(18)를 장치(10)가 수신하는 인터페이스(16)를 포함한다. 일단, 오디오 입력 신호(18)가 헬리콥터의 사운드 등과 같은 오디오 객체를 표현하는 모노 오디오 신호라고 가정하자. 추가 예들 및 추가 세부사항들이 아래에 제공된다. 어떤 경우든, 오디오 신호(18)는 시간 도메인에서, 주파수 도메인에서 또는 임의의 다른 도메인에서 오디오 객체를 표현할 수 있고, 오디오 신호(18)는 압축 방식으로 또는 압축 없이 오디오 객체를 표현할 수 있다.
도 1에 도시된 바와 같이, 장치(10)는 의도된 가상 포지션을 수신하기 위한 포지션 입력을 더 포함한다. 즉, 포지션 입력(20)에서, 장치(10)는 라우드스피커들(14)에서의 라우드스피커 신호들(12)의 인가에 의해 오디오 객체가 가상으로 렌더링될 의도된 가상 포지션에 관해 통지를 받는다. 즉, 장치(10)는 입력(20)에서 의도된 가상 포지션의 정보를 수신하고, 이러한 정보는 라우드스피커들(14)의 배열/포지션에 대해, 청취자의 포지션 및/또는 머리 배향에 대해, 그리고/또는 실세계 좌표들에 대해 제공될 수 있다. 이러한 정보는 예컨대, 데카르트 좌표계들 또는 극좌표계들에 기반할 수 있다. 이는 예컨대, 데카르트 좌표계 또는 극좌표계로서 룸 중심 좌표계 또는 청취자 중심 좌표계에 기반할 수 있다.
도 1에 도시된 바와 같이, 장치(10)는 입력(20)에서 수신된 의도된 가상 포지션(21)에 따라, 복수의 라우드스피커들(14) 중 제1 세트(26)의 라우드스피커들에 대한 제1 패닝 이득들(24)을 결정하도록 구성된 제1 패닝 이득 결정기(22)를 포함한다. 이러한 세트(26)의 라우드스피커들은 하나 이상의 제1 수평 레이어들의 제1 레이어 세트 내에 배열된다. 즉, 유사한 이러한 세트(26)의 라우드스피커들은 유사한 높이들로 배열된다. 제1 패닝 이득들(24)은 적어도 하나의 오디오 입력 신호(18)로부터의 제1 부분 라우드스피커 신호들(28)의 도출을 정의하거나, 제1 부분 라우드스피커 신호들(28)의 생성에 참여하며, 제1 부분 라우드스피커 신호들(28)은 제1 부분 라우드스피커 신호들을 제1 세트(26)의 라우드스피커들에 인가할 때 제1 가상 포지션에서의 적어도 하나의 오디오 객체의 렌더링과 연관된다. 아래에서 보다 상세히 개요가 서술되는 바와 같이, 제1 패닝 이득 결정기(22)는 일 실시예에 따라, 때때로, 제1 가상 포지션이 라우드스피커 포지션들 중 하나와 일치하는 가능한 경우― 이 경우 그 포지션의 라우드스피커만이 0이 아닌 패닝 이득을 수신할 수도 있음 ―를 포함하여, 세트(26)의 라우드스피커들 사이에서 제1 가상 포지션이 패닝되도록 제1 부분 라우드스피커 신호들(28)의 각각의 부분 라우드스피커 신호에 대해 하나씩 진폭 이득들을 계산할 수 있다. 다른 말로 하자면, 제1 패닝 이득 결정기(22)는 세트(26) 내의 수평 패닝에 대한 진폭 이득들을 컴퓨팅하기 위한 것이며, 따라서 이러한 수평 패닝은 한 세트(26)의 라우드스피커들의 제1 레이어 세트 내의 가상 렌더링 포지션을 야기한다.
도 1의 장치(10)는 의도된 가상 포지션(21)에 따라, 한편으로는 제1 부분 라우드스피커 신호들(28)과 다른 한편으로는 하나 이상의 제2 부분 라우드스피커 신호들(34) 사이의 패닝을 위한 추가 패닝 이득들을 결정하도록 구성되는 수직 패닝 이득 결정기(30)를 더 포함한다. 하나 이상의 제2 부분 라우드스피커 신호들(34)은 라우드스피커들(14) 중 단지 하나의 라우드스피커 또는 하나보다 많은 라우드스피커를 포함하는 제2 세트(36)의 하나 이상의 라우드스피커들에 인가될 것이다.
도 1은 세트(36) 내의 라우드스피커들 및 제2 부분 라우드스피커 신호들(34)의 수가 하나보다 많은 경우를 예시하지만, 세트(36) 내의 단 하나의 라우드스피커, 그리고 그에 따라 단지 하나의 제2 부분 라우드스피커 신호(34)가 있는 것이 또한 사실일 수 있다. 후자의 경우, 세트(36)의 단일 라우드스피커는 제1 부분 라우드스피커 신호들(28)이 전용되는 라우드스피커들의 세트(26) 외부에 있을 것이다. 하나보다 많은 라우드스피커를 포함하는 세트(36)의 경우, 세트들(26, 36)은 서로 분리되거나, 부분적으로 중첩되거나, 일치하거나 완전히 중첩될 수 있는데, 즉 한 세트가 다른 세트의 적절한 서브세트일 수 있다. 예들은 아래에서 보다 상세히 제시된다. 어느 경우든, 제2 포지션은 제1 포지션에 대해 수직으로 오프셋된다. 제1 세트(26)와 제2 세트(36)가 일치하는 경우에도 제1 포지션과 제2 포지션 사이의 수직 오프셋을 달성할 방법의 상이한 예들이 본 명세서에서 아래에 제시된다. 도면들에 대해 개요가 서술되는 실시예들에서, 각각의 세트(26, 36)는 하나의 레이어의 라우드스피커들 중에서 만들어지거나 심지어 하나의 레이어에 대응하여, 세트들(26, 36)의 일치의 경우, 레이어들의 세트들, 즉 세트들(26, 36)의 레이어들도 역시 일치한다는 점에 주목한다. 그러나 세트들과 레이어들 사이의 이러한 대응은, 세트들(26, 36) 중 임의의 세트가 하나보다 많은 레이어의 라우드스피커들로 구성될 수 있도록 변화될 수 있다.
수직 패닝 이득 결정기(30)에 의해 결정된 추가 패닝 이득들(32)은 최종적으로, 제1 가상 포지션과 제2 포지션 사이의 패닝을 야기한다.
도 1에 도시된 바와 같이, 장치(10)는 제1 패닝 이득들(24) 및 추가 패닝 이득들(32)을 사용하여 입력 오디오 신호(18)로부터 라우드스피커 신호들(12)을 구성하도록 추가로 구성되는 컴포저(40)를 더 포함한다. 언급된 바와 같이, 제1 패닝 이득들은 단순한 진폭 이득들일 수 있으며, 그에 따라, 컴포저(40)는 입력 오디오 신호(18)와 대응하는 패닝 이득(24)의 곱셈을 위해 각각의 부분 라우드스피커 신호(28)에 대한 곱셈기(42)를 포함할 수 있다. 이에 따라, 패닝 이득들(24)은 부분 라우드스피커 신호들(28)에 대해 개별적이다. 즉, 부분 입력 신호(28)당 하나의 패닝 이득(24)이 존재한다. 유사하게, 그리고 아래에서 추가로 개요가 서술되는 바와 같이, 수직 패닝 이득 결정기(30)에 의해 출력되는 패닝 이득들(32)은 역시 단순한 진폭 이득들일 수 있다. 여기서, 세트(28, 34)마다 각각 하나의 패닝 이득(32)이 존재한다. 이에 따라, 컴포저(40)는 세트들(28, 34) 각각에 대해 하나의 곱셈기(44a, 44b)를 각각 포함할 수 있으며, 곱셈기(44a)는 세트(28)의 각각의 라우드스피커 신호를 그 세트(28)와 연관된 패닝 이득(32)과 곱하고, 곱셈기(44b)는 세트(34)로부터의 각각의 부분 라우드스피커 신호를 그 세트(34)와 연관된 패닝 이득(32)과 곱한다.
컴포저(40)의 추가 작업은 다음과 같은데: 위에서 언급된 바와 같이, 라우드스피커 세트들(26, 36)은 중첩될 수 있거나 중첩되지 않을 수 있다. 컴포저(40)의 작업으로서, 컴포저(40)는 패닝 이득들(24, 32)을 사용하여 패닝함으로써 획득된 부분 라우드스피커 신호들(28, 34)을 라우드스피커들(14)로 정확하게 분배한다. 단지 세트들(28, 34) 중 하나에 속하는 세트들(28, 34)의 그러한 부분 라우드스피커 신호들의 경우, 대응하는 부분 라우드스피커 신호는 라우드스피커 신호들(12) 중 하나가 된다. 그러나 라우드스피커들(14) 중 동일한 라우드스피커와 연관되는 그러한 하나 이상의 부분 라우드스피커 신호들에 대해, 컴포저(40)는 가산기(46)를 사용하여 이러한 신호들을 합산하여, 각각 세트(28, 34)로부터의 상호 대응하는 부분 라우드스피커 신호들의 합이 라우드스피커 신호들(12) 중 하나가 된다.
곱셈의 결합 및 가환 특성들로 인해, 컴포저(40)는 도 1에 도시된 순서로 각각의 부분 라우드스피커 신호에 대한 곱셈들을 수행하는 것으로 제한되지 않는다는 것이 주목되어야 한다. 즉, 도 1의 컴포저(40)가 세트-전역 패닝 이득(32)과의 곱셈 이전에 제1 패닝 이득들(24)과의 부분 라우드스피커 신호 개별 곱셈을 수행하는 것으로 도시되지만, 곱셈들은 상이한 순서로 수행될 수 있다.
도 1은 또한, 본 명세서의 아래에서 추가로 설명되는 실시예들에 따라 사용되는 세부사항들을 예시한다. 특히, 이러한 세부사항들은 입력 오디오 신호(18)로부터의 부분 라우드스피커 신호들(34)의 도출 또는 생성에 관한 것이다. 2개의 추가 프로세싱 단계들은 오디오 입력 신호(18)로부터의 부분 라우드스피커 신호들(34)의 도출/생성과 연관될 수 있다. 도 1의 이러한 2개의 프로세싱 단계들 및 대응하는 엘리먼트들은 선택적이며, 이에 따라 입력 오디오 신호는 하나의 부분 라우드스피커 신호(34)를 직접적으로 표현할 수 있으며, 이 부분 라우드스피커 신호(34)는 대응하는 패닝 이득(32)에 의한 수직 패닝을 겪는다. 존재한다면, 단지 하나의 또는 둘 모두의 프로세싱 단계들이 적용되고 장치(10) 내에서 구현될 수 있다.
첫 번째 프로세싱 단계는 부분 라우드스피커 신호들(28)에 대해 엘리먼트들(22, 24, 42)에 의해 실현되는 수평 패닝에 실질적으로 대응하는 방식으로 부분 라우드스피커 신호들(34)에 대한 수평 패닝에 대응한다. 즉, 도 1에 도시된 바와 같이, 장치(10)는 의도된 가상 포지션(21)에 따라, 제2 세트(36)의 라우드스피커들에 대한 제2 패닝 이득들(54)을 결정하도록 구성된 제2 패닝 이득 결정기(52)를 포함할 수 있으며, 제2 패닝 이득들(54)은 적어도 하나의 오디오 입력 신호(18)로부터의 제2 부분 라우드스피커 신호들(34)의 도출을 정의한다. 컴포저(40)는 대응하는 패닝 이득(54)과 오디오 입력 신호를 곱하는 대응하는 곱셈기들(56)을, 즉 부분 라우드스피커 신호(34)당 하나씩 포함할 것이다. 다시 말해서, 컴포저(40)는 세트(36) 내의 각각의 라우드스피커에 대한 부분 라우드스피커 신호(34)가 세트(36) 내의 대응하는 라우드스피커와 연관된 패닝 이득(54)과의 곱셈을 겪게 할 것이다. 이는 수평 패딩 및 부분 라우드스피커 신호들(34)과 연관된 가상 라우드스피커 포지션을 야기할 것이다.
엘리먼트들(52-56)에 대해 추가로 또는 대안으로, 장치(10)는 곱셈기들(56)에서의 수평 패닝 및 곱셈기(44b)에서의 수직 패닝의 결과로서, 입력 오디오 신호 또는 중간 또는 최종 곱들에 대한 스펙트럼 성형을 수행하는 스펙트럼 셰이퍼(spectral shaper)(58)를 포함할 수 있어, 제2 부분 라우드스피커 신호들(34)은 이러한 스펙트럼 성형에 의해 적어도 하나의 오디오 입력 신호로부터 도출된다. 스펙트럼 성형은 예컨대, 부분 라우드스피커 신호들(34) 각각에 대해 동일한데, 즉 동일한 스펙트럼 성형 함수가 사용될 수 있다. 아래에서 보다 상세히 개요가 서술되는 바와 같이, 스펙트럼 셰이퍼(58)에 의해 사용되는 스펙트럼 성형 함수(60)는 제2 부분 라우드스피커 신호들(34)과 연관된 제2 가상 포지션이 제2 세트(36)의 라우드스피커들 위 또는 아래에 포지셔닝되는 청취자에 대한 심리-음향 큐를 형성하도록 선택된다.
스펙트럼 셰이퍼(58)에 의해 수행되는 스펙트럼 성형은 성형 함수(60)와 부분 라우드스피커 신호들의 스펙트럼의 곱셈에 의해 스펙트럼 도메인에서 수행될 수 있거나, 이를테면 IIR 또는 FIR 필터와 같은 시간 도메인 필터에 의해 시간 도메인에서 수행될 수 있으며, 그러면, 이 시간 도메인 필터는 스펙트럼 성형 함수(60)에 대응하는 주파수 응답을 가질 것이다. 세트들(26, 36)에 대해 추가 언급들이 이루어질 것이다. 장치는 현재 스피커 셋업에 따라 동일한 것을 선택할 수 있다. 다시 말해서, 장치는 상이한 셋업들에 적응적일 수 있다. 장치는 의도된 가상 포지션의 수평 컴포넌트에 따라, 이를테면 (하나의 레이어로의 그 라우드스피커의 수직 투사가 관련된 한) 의도된 가상 포지션에 가장 가까운 그러한 스피커들의 하나의 레이어로부터 또는 의도된 가상 포지션의 수평 컴포넌트 및 의도된 가상 포지션의 수직 컴포넌트에 따라, 이를테면 최외측 레이어를 선택한 다음, 그 하나의 레이어 내에서 스피커들을 선택함으로써 복수의 라우드스피커들 중에서 제1 세트(26)의 라우드스피커들을 선택할 수 있다. 추가로 또는 대안으로, 제2 세트(36)의 라우드스피커들은 의도된 가상 포지션의 수직 컴포넌트에 따라, 이를테면 의도된 가상 포지션에 가장 가까운 최외측 레이어를 선택하고 세트(36)에 대해 그 레이어에 속하는 모든 스피커들을 사용함으로써, 또는 의도된 가상 포지션의 수평 컴포넌트 및 의도된 가상 포지션의 수직 컴포넌트에 따라, 이를테면 의도된 가상 포지션에 가장 가까운 최외측 레이어를 선택하고 라우드스피커가 (하나의 레이어로의 그 라우드스피커의 수직 투사가 관련된 한) 의도된 가상 포지션에 가장 근접하도록 레이어의 스피커들 중에서 세트(36)를 선택함으로써 복수의 라우드스피커들 중에서 선택될 수 있다.
제1 부분 라우드스피커 신호들(28)과 관련하여 이전에 언급된 바와 같이, 컴포저(40)는 임의의 순서로 곱셈(56, 44b)뿐만 아니라 스펙트럼 성형(58)을 수행하도록 구성될 수 있는데, 즉 대응하는 부분 라우드스피커 신호들(34)을 발생시키기 위해 오디오 입력 신호(18)에 임의의 순서로 3개의 작업들을 적용할 수 있다.
마지막으로, 일례에 따르면, 스펙트럼 셰이퍼(58)를 사용하는 경우에도, 세트(36) 내의 라우드스피커들의 수 및 그에 따라 부분 라우드스피커 신호들(34)의 수는 각각 하나일 수 있다는 것이 주목되어야 한다.
위에서 제시한 설명 및 참조 부호들을 재사용함으로써 하기에서 설명되는, 본 출원의 특정 세부사항들 및 실시예들의 설명을 진행하기 전에, 컴포저(40)에 대해 다음의 언급이 이루어질 것이며: 도 1의 경우, 패닝 이득 결정기들(22, 30, 52)은 패닝 이득들의 실제 적용이 컴포저(40)에 의해 수행된 동안 의도된 가상 포지션(21)에 기반하여 패닝 이득들을 컴퓨팅하기 위한 일종의 중간 모듈들을 형성한다. 추가로, 스펙트럼 셰이퍼(58)는 컴포저(40)의 서브모듈로서 컴포저(40) 내에 포함되는 것으로 도시되었다. 그러나 위에서 언급된 바와 같이, 도 1의 예시와 비교하여 수정들이 실현 가능하다. 예컨대, 스펙트럼 셰이퍼(58)는 최종적으로, 컴포저(40) 외부의, 그리고 특히 컴포저(40)의 업스트림의 모듈이 되도록 엘리먼트들(52, 54, 56)의 업스트림에 배치될 수 있다. 그런 다음, 컴포저(40)는 제1 라우드스피커 세트(36)에 관한 한, 오디오 입력 신호(18)의 사전 성형된 버전에 기반하여 라우드스피커 신호들(12)의 구성을 수행할 것이다. 추가로 또는 대안으로, 후속하여 설명되는 실시예들의 대부분은 수평 패닝 후에 수직 패닝이 적용되는 구성을 이용하는데, 이는 결국, 곱셈기들(42 및/또는 56) 그리고 적용 가능하다면, 스펙트럼 성형(58)에 의해 실현되고, 그 경우에, 컴포저(40) 및 그의 구성은 엘리먼트들(44a, 44b) 및 적용 가능하다면 가산기(46)만을 수반할 수 있는 반면, 엘리먼트들(22, 24, 42)은 제1 라우드스피커 신호 세트 결정기(70)를 형성하고, 엘리먼트들(52, 54, 56, 58, 60)(또는 수평 패닝 또는 스펙트럼 성형이 누락된 경우, 이들의 부분들)은 제2 라우드스피커 신호 결정기(72)를 형성한다.
발표된 추가 세부사항들 및 추가 상세한 실시예들로 설명을 재개하기 전에, 도 1에 도시된 바와 같은 오디오 렌더링의 개념으로부터 기인하는 달성되는 이점들에 관해 간략한 언급이 이루어질 것이다. 특히, 위에서 개요가 서술된 바와 같이, 도 1의 개념의 오디오 렌더링은, 의도된 가상 포지션(21)의 정확한 각도 변동에 기초하여 또는 그에 따라 정밀하게 적응 또는 선택되는 상이한 HRTF들을 적용하는 사용 및 연관된 계산상 복잡한 작업들 없이 오디오 재생이 진행될 수 있게 한다. 모든 수평 및 수직 패닝은 진폭 패닝에 의해서만 수행되며, 스펙트럼 성형(58)은 세트(36) 내의 모든 라우드스피커들에 대한 모든 부분 라우드스피커 신호들(34)에 대해 하나의 스펙트럼 성형 또는 동일한 스펙트럼 성형 함수(60)를 사용할 수 있다. 아래에서 추가로 설명되는 실시예들에서, 장치(10)는 의도된 가상 포지션(21)에 관계없이(이를테면, 의도된 가상 포지션(21)의 높이가 청취자 포지션 또는 라우드스피커들(14)의 레이어들 내에, 사이에 또는 위에 있는 포지션들로 제한되는 경우, 그 반대로 높이가 청취자 포지션 또는 라우드스피커들(14)의 레이어들 내에, 사이에 또는 아래에 있는 포지션들로 제한되는 경우) 동일한 스펙트럼 성형 함수(60)를 계속 사용하거나, 또는 의도된 가상 포지션(21)이 청취자의 포지션 또는 가장 높은 라우드스피커 레이어보다 각각 더 높은 경우에 사용되는 스펙트럼 성형 함수(60)와 청취자의 포지션 또는 가장 낮은 라우드스피커 레이어보다 각각 더 낮은 경우의 스펙트럼 성형 함수(60)인 2개의 스펙트럼 성형 함수들(60) 간에 구별할 수 있다. 따라서 도 1의 렌더링의 계산 복잡도가 낮다. 이는 또한, 선택적인 스펙트럼 성형(58)을 사용할 때에도 사실이다.
더욱이, 한편으로는 수평 패닝 그리고 다른 한편으로는 수직 패닝으로의 3D 패닝의 분해가 더 복잡한 렌더링 프로시저를 야기하는 것처럼 보일 수도 있지만, 결과적인 계산 복잡도는 여전히 낮은 한편, 의도된 가상 포지션을 포지셔닝하는 것에 관한 렌더링 정확도는 이러한 계산상 적당한 복잡도에서도 여전히 높다.
즉, 본 명세서에서 설명되는 실시예들은 본 명세서의 소개 부분에 제시된 다소 복잡한 셋업들에 대한 대안을 제공하며, 더 복잡한 라우드스피커 셋업들에 필적하는 또는 그와 유사한 공간 청각 지각을 생성하기 위해 신호 프로세싱 수단을 사용하는 콤팩트한 재생을 형성한다. 위에서 그리고 하기에서 제시되는 개념들은 다음이 가능하다:
(1) 하나 이상의 가상 라우드스피커들을 고려하여 누락된 라우드스피커들/라우드스피커 어레이들을 지각적으로 대체할 수 있다. 그러한 가상 라우드스피커들의 생성이 본 명세서에서 설명된다.
(2) 3D 라우드스피커 셋업들에서 사운드를 효율적으로 렌더링할 수 있으며, 렌더링은 가상 라우드스피커(1)가 사용되는 경우뿐만 아니라 필요한 라우드스피커들이 물리적으로 이용 가능한 시나리오들에서도 사용될 수 있다. (2)의 이점은 유연성 및 효율성이며, 이는 청취자 포지션이 실시간으로 추적되고 렌더링이 청취자의 현재 포지션에 실시간으로 적응되는 시나리오들에 또한 적용 가능하게 한다.
본 명세서에서 설명되는 실시예들은 재생 환경과는 독립적이며, 예컨대 또한, 예컨대 자동차 환경에서 사용될 수 있음을 주목한다. 게다가, 실시예들은 재생을 위해 사용되는 특정 타입의 트랜스듀서 또는 토폴로지와는 독립적이다. 즉, 실시예들은 예컨대, 헤드폰 재생에 적용될 뿐만 아니라, 특정 라우드스피커들, 이를테면 라우드스피커 어레이들, 사운드바들, 스마트 스피커들 등을 사용하는 재생에 적용될 수 있다.
즉, 방금 이루어진 언급들은, 라우드스피커들(14)이 헤드폰 라우드스피커들 또는 스테레오 라우드스피커들일 수 있지만, 또한 서라운드 사운드 셋업으로부터 라우드스피커 어레이, 사운드바 또는 한 세트의 라우드스피커들, 스마트 스피커들 또는 한 세트의 스마트 스피커들을 형성할 수 있거나 개별 라우드스피커들일 수 있으며, 조합들이 또한 실현 가능할 수 있다는 것을 명확하게 한다. 더욱이, 설명은 장치(10)가 라우드스피커 신호들(12)의 구성을 시간에 따라 변할 수 있는 의도된 가상 포지션(21)에 실시간으로 적응시키기 위해 적응식으로 동작한다는 것을 명확하게 하였다.
이와 관련하여, 렌더링 장치들의 실시예들이 특정 라우드스피커 셋업들에 대해 사전 구성될 수 있지만, 즉 이들은 라우드스피커들(14)의 미리 정의된 세트가 미리 정의된 포지션들에 포지셔닝될 것으로 예상하지만, 본 명세서에서 설명되는 장치들은, 장치의 초기화의 관점에서 그리고/또는 이동하는 라우드스피커 포지션들에 대한 적응의 관점에서, 라우드스피커들의 수 및/또는 스피커 포지션들이 다른 상이한 라우드스피커 셋업들에 또한 적응적일 수도 있다는 점이 간략히 주목될 것이다. 전자의 경우에, 장치는 초기화 후에, 라우드스피커 셋업을 일정한 것으로 가정할 수 있다. 후자의 경우, 장치는 심지어 런타임 동안 스피커 셋업 변동들에 적응될 수 있다. 심지어 스피커들의 수는 런타임에서 변할 수 있다. 이에 따라, 장치는 이러한 선택적인 상황에서 라우드스피커 포지션들에 관한 정보를 수신할 수 있지만, 도면들에 명시적으로 도시되지는 않는다. 따라서 청취자 포지션 정보의 선택적인 수신과 유사하게, 도 1의 장치(및 후속하여 도시되는 실시예들)는 스피커들(14)의 수 및 스피커들(14)의 포지션들을 나타내는 라우드스피커 셋업 정보를 수신하기 위한 추가 포지션 입력을 포함할 수 있다. 이 정보는 청취자의 포지션 및/또는 머리 배향에 대해, 그리고/또는 실세계 좌표들에 대해 제공될 수 있다. 이러한 정보는 예컨대, 데카르트 좌표계들 또는 극좌표계들에 기반할 수 있다. 이는 예컨대, 데카르트 좌표계 또는 극좌표계로서 룸 중심 좌표계 또는 청취자 중심 좌표계에 기반할 수 있다.
렌더링을 위해 일반적으로 사용되는 방법들은 진폭 패닝 기법들이다. 라우드스피커들에 의해 커버되지 않는(예컨대, 2개 이상의 라우드스피커들 사이에 있지 않은) 포지션들에서 청각 객체의 지각을 생성하기 위해, 크로스토크 제거와 같은 렌더링 기법들이 이용될 수 있다. 크로스토크 제거(XTC: crosstalk cancellation)[1-7]는 라우드스피커들에 의해 청취자의 좌측 및 우측 귀 신호들을 제어하는 것을 목표로 한다. 이는, 라우드스피커의 신호가 청취자에 도달할 때 발생하는 "귀들 사이의 크로스토크를 제거"함으로써 달성된다. 일단 귀 신호들이 직접적으로 제어될 수 있으면, 최상부 및 최하부 방향들에서 사운드를 렌더링하기 위해 입체 음향(binaural) 기법들[8, 9]이 적용될 수 있다. 앞서 언급된 기법의 2개의 주요 제한들이 있다. 첫째로, XTC는 사운드 착색, 극도로 작은 스위트 스팟(sweet spot), 및 청취자에 대한 라우드스피커 포지션들에 대한 높은 의존성과 관련된 제한들을 갖는다. 둘째로, 머리 추적/청취자 추적 및/또는 개별화된 HRTF(head related transfer function)들 또는 BRIR(binaural room impulse response)들 없이, 입체 음향 기법들은 달성 가능한 품질/성능이 제한된다. 이들 모두는 시스템에 높은 복잡성, 비용 및 사용자 불편을 추가할 것이다.
라우드스피커 셋업에 의해 커버되지 않는 치수들의 가상 라우드스피커들을 사용하는, 종래의 진폭 패닝에 대한 향상들이 제안되었으며, 예컨대 [14, 15]를 참조한다. 이러한 기법들을 사용한 높이 패닝은, 높이에서 진정으로 렌더링된 소스들로부터 음색이 벗어나기 때문에 완전히 현실적이지는 않다.
VHAP(Vertical Hemispherical Amplitude Panning)[10, 11]는 2개의 측면 라우드스피커들을 사용하여 청취자의 최상부에 높이를 갖는 객체들을 렌더링한다. 라우드스피커들이 ±90도 측방향들에 있어야 하기 때문에, VHAP는 청취자 포지션의 관점에서 유연하지 않다.
본 명세서에서, 가상 라우드스피커 라는 용어는 객체를 패닝하는 프로세스 동안 고려되는 존재하지 않는 라우드스피커에 대해 사용된다.
도 1의 개념은 방금 언급된 최첨단 기술들에 비해 다음의 이점들을 갖는 최상부 및/또는 최하부 렌더링에 대한 개념들을 사용한다.
● 더 충실한 최상부/최하부/높이 지각을 위해 최상부/최하부 가상 라우드스피커 신호들에 등화(스펙트럼 성형(58))가 적용된다.
● 임의의 라우드스피커 셋업이 스피커들(14)에 대해 사용될 수 있으며, 그럼에도 (가상) 최상부 및 최하부 렌더링에 대한 향상이 달성 가능하다. 예를 들어, 스테레오 셋업 또는 5.1 셋업이 스피커들(14)에 대한 기반으로서 사용될 수 있다. 높이 라우드스피커들, 예컨대 5.1+4H를 갖는 라우드스피커 셋업들도 이를테면, 최상위 렌더링(예컨대, "신의 음성(voice of god)" 라우드스피커) 또는 하위 레이어 렌더링과 관련하여 도 1의 개념을 사용하여 향상될 수 있다. 이에 반해, VHAP는 예컨대, 청취자의 양측에(±90도) 라우드스피커들을 갖는 정밀하고 특정한 라우드스피커 셋업을 요구한다.
● 더욱이, 도 1의 최상부 및 최하부 렌더링은 청취자에 대한 특정 라우드스피커 포지션들에 의존하지 않는다. 다시 말해서, 도 1의 방식은 또한, 청취자가 이동하는 시나리오, 예컨대 추적된 렌더링에 적용될 수 있다.
본 명세서에서 설명되는 실시예들은 가상 높이 렌더링의 매우 간단한 구현들을 가능하게 한다.
즉, 도 1에 따른 객체 패닝은 한편으로는 부분 라우드스피커 신호들(34)을 그리고 다른 한편으로는 부분 라우드스피커 신호들(28)을 컴포저(40)에 제공하는 2개의 경로들, 즉 오디오 입력 신호(18) 및 의도된 가상 포지션(21)을 수신하여 부분 라우드스피커 신호들(28)을 출력하는 부분 라우드스피커 세트 결정기(70)를 포함하는 하나의 경로, 및 2개의 입력들(18, 21)에 기반하여 부분 라우드스피커 신호들(34)을 생성하고 장치 등이 임의의 라우드스피커 셋업을 통해 3D 공간에서 객체를 렌더링하는 모듈(72)을 포함하는 다른 경로로 컴포저(40)의 출력에서 라우드스피커 신호들(12)을 생성하는, 도 2에 따른 렌더링 장치 또는 객체 패닝 프로세서로 이어지는 방식으로 다음에 의해 구현될 수 있다:
● 수직(최상부 또는 최하부) 방향에서 적어도 하나의 가상 라우드스피커(최상부 또는 최하부)를 고려한다. 이는, 아래에서 보다 상세히 개요가 서술되는 바와 같이, 제1 부분 라우드스피커 신호들(34)에 의해 재생된 사운드가 최상부 또는 최하부로부터 각각 도달한다는 청취자에 대한 심리-음향 큐로 이어지는 스펙트럼 성형(58)에 의해 수행 또는 달성된다.
● 라우드스피커 셋업과 하나 이상의 가상 라우드스피커들을 고려하여 객체를 진폭 패닝한다. 진폭 패닝은 컴포저(40) 내에서의 수직 패닝, 및 모듈(70) 내에서의 그리고 모듈(72) 내에서의 수평 패닝에 의해 수행된다.
● 가상 및/또는 실제 라우드스피커 신호들에 등화를 적용한다. 등화는 스펙트럼 셰이퍼(58) 내에서 이러한 스펙트럼 성형에 의해 수행된다.
● 도 1과 관련하여 설명된 바와 같이 셋업의 서브세트 또는 모든 라우드스피커들을 통해 각각의 가상 라우드스피커 신호를 재생하며, 제2 라우드스피커 세트(36)는 세트(26)와 일치할 수 있고, 따라서 모든 라우드스피커들(14)을 수반할 수 있거나, 라우드스피커들(14)의 서브세트에만 관련될 수 있다.
이하에서, 본 출원의 실시예들의 개념이 3차원으로 시각화된다. 도 3을 참조한다. 도 3에서, 청취자는 참조 부호(100)로 표시된다. 개별적인 라우드스피커들(14)은 작은 글자들에 의해 서로 구별된다. 도 3에서, 라우드스피커 셋업은 예시적인 4개의 라우드스피커들을 포함한다. 도 3은 청취자(100)의 최상부 또는 위에 있는 하나의 가상 라우드스피커(102)를 도시한다. 도 3은 당연히 단지 일례일 뿐이다. 대안으로, 청취자(100)의 최하부 또는 아래의 가상 라우드스피커(102)가 고려될 수 있다. 더욱이, 가상 라우드스피커(102)는 청취자(100)가 수평으로 이동할 수 있게 하는 것으로도, 즉 청취자 포지션을 추적하는 것에 의해 청취자(100) 바로 위에 포지셔닝될 수 있거나, 청취자(100)가 실제로 가상 라우드스피커(102) 바로 아래/위에 있는 것과 관계없이 청취자(100)의 포지션이 디폴트로 고정될 수 있다.
달리 말하면, 도 3은 라우드스피커들(14), 여기서는 예시적인 4개의 라우드스피커들(14a 내지 14d)의 포지셔닝에 대한 예를 도시하며, 도 1 및 도 2에 도시된 실시예들은 제1 부분 라우드스피커 신호들(34)과 연관된 렌더링의 앞서 언급한 가상 포지션인 가상 포지션에 포지셔닝된 가상 라우드스피커를 수반할 수 있음을 설명한다. 즉, 도 3은 도 2의 실시예뿐만 아니라 도 1의 실시예가 스펙트럼 셰이퍼(58)를 이용하는 한, 이용 가능한 라우드스피커들(14) 외에도 가상 라우드스피커(102)를 추가로 고려한다는 것을 예시한다.
도 4, 도 5a 및 도 5b는 이용 가능한 라우드스피커들(14a 내지 14d) 및 가상 라우드스피커(102)를 사용하여 의도된 가상 포지션(104)에서의 렌더링이 어떻게 수행되는지에 관해, 개별적인 하위 개념들 또는 단계들로 분해되어 도시한다.
도 4는 의도된 가상 포지션(104)을 예시하였다. 이 포지션(104)은 라우드스피커들(14a 내지 14d)이 내부에 있는 레이어 또는 평면의 수직 위에 있는 것으로 표시된다. 도 4는 또한, 라우드스피커들(14a 내지 14d)의 레이어 또는 평면으로의 의도된 가상 포지션(104)의 투사, 즉 라우드스피커들(14a 내지 14d)의 레이어 또는 평면으로의 수직 방향을 따르는 투사(104)를 도시한다. 결과적인 투사된 포지션(106), 즉 라우드스피커들(14a 내지 14d)의 레이어로의 의도된 가상 포지션(104)의 투사는 참조 부호(106)를 사용하여 표시된다. 모듈(70)은 이 투사된 가상 포지션(106)에서의 오디오 객체의 렌더링과 연관되는 부분 라우드스피커 신호들을 발생시키기 위해 진폭 패닝을 사용할 수 있다. 따라서 도 4는 도 1 및 도 2에 대해 지금까지 아직 설명되지 않은 다른 상황을 예시한다. 특히, 도 1 및 도 2의 장치는 각각, 모든 이용 가능한 라우드스피커들(14) 중에서 또는 특정 레이어에 속하는 라우드스피커들의 그룹, 이를테면 여기서는 도 4의 라우드스피커들(14a 내지 14d)과 같은 라우드스피커들의 그룹으로부터 26을 선택하도록 구성될 수 있다. 특히, 해칭(hatching)의 사용으로 예시된 바와 같이, 2개의 라우드스피커들(14c, 14d)만이 선택될 수 있는데, 즉 청취자(100)의 수평면에 속하는 라우드스피커들의 그룹의 라우드스피커들이 보호된 가상 포지션(106)에 가장 가까운 대응하는 부분 라우드스피커 신호들(28)을 수신하도록 선택된다. 상이한 뷰에 따르면, 수평 패닝은, 대응하는 라우드스피커 레이어 세트의 서브세트에 대해서만 0이 아닌 가중치들을 야기하면서, 대응하는 레이어 세트의 모든 라우드스피커들에 연속적으로 관련된다. 여기서, 라우드스피커들(14c, 14d)만이 수평 패닝을 위해 0이 아닌 가중치들과 연관될 것이며, 다른 2개의 스피커들(14a, 14b)은 0 가중치들과 연관될 것이고, 이로써 수평 패닝에 참여하지 않을 것이다. 따라서 라우드스피커 셋업의 2개의 라우드스피커들(14c, 14d)이 가상 라우드스피커(102)에 추가하여 사용된다. 도 4는 모듈(70)에 의해 또는 결정기(22)에 의해 달성되는 수평 패닝에 각각 집중된 반면, 다음의 도면들은 모듈(72) 및 최종 렌더링에 대한 모듈(72)의 기여에 집중한다. 즉, 다음의 도면들은 가상 최상부 라우드스피커(102)와 함께 라우드스피커 셋업의 2개의 라우드스피커들(14c, 14d)이 의도된 가상 포지션(104)의 객체를 진폭 패닝하기 위해 어떻게 사용되는지에 관해 나타낼 것이다.
의도된 가상 포지션(104)의 거리는 본 출원의 맥락에서 주요한 역할을 하지 않으며, 이에 따라 포지션(104)은 더 쉬운 원근 표현을 위해서만 청취자로부터 멀리 떨어진 것으로 묘사된다는 점에 주목한다. 해석(rendition)은 선택적으로, 포지션(104)을 향하는 방향에만 의존하여 동작할 수 있다.
도 5a는 가상 라우드스피커(102)에 대한 라우드스피커 신호(들)에 대해 등화 또는 스펙트럼 성형(58)이 사용되는 또는 적용되는 하위 개념 또는 단계를 도시한다. 또한, 도 3 - 도 5b는 이 가상 라우드스피커(102)가 가상 최상부 라우드스피커인 예에 집중하지만, 이는 단지 일례일 뿐이다. 가상 최하부 라우드스피커를 형성하기 위해, 등화 또는 스펙트럼 성형(58)이 마찬가지로 사용될 수 있다.
도 5b는 가상 라우드스피커(102)의 포지션에서의 오디오 객체의 재생에 집중한다. 가상 라우드스피커(102)에 직접적으로 인가될 라우드스피커 신호, 즉 오디오 입력 신호는 등화 또는 스펙트럼 성형(58), 그리고 여기서 대응하는 곱셈기들(56a-56d)에 의해 예시된 수평 패닝을 겪는다. 후자의 곱셈기들은 선택적이다. 이들은 단지, 가상 라우드스피커 포지션(102)이 정적이 아니라, 청취자(100)의 청취자 포지션에 대해 수직으로 조정되도록 포지셔닝된다면, 즉 라우드스피커들(14a 내지 14d)의 평면으로의 가상 라우드스피커의 수직 투사가 라우드스피커들(14a 내지 14d)의 이 평면 또는 레이어 내의 청취자(100)의 포지션과 일치하도록 수평으로 위치되게 포지셔닝되는 경우에만 필요하다. 도 5b는 예시적으로, 세트(36)가 하나의 수평 레이어 내의 대응하는 그룹의 적어도 모든 라우드스피커들 또는 모든 라우드스피커들(14a 내지 14d)을 포함할 수 있음을 예시한다. 즉, 도 5b는 서브세트, 또는 도 5b에 예시된 바와 같이 셋업의 모든 라우드스피커들(14a 내지 14d)에 걸친 각각의 제2 부분 라우드스피커 신호(34)의 재생을 예시한다. 가상 라우드스피커(들)(102)가 물리적으로 이용 가능하지 않기 때문에, 대응하는 등화된 신호들(34)은 라우드스피커들의 언급된 서브세트를 통해 재생된다. 이득들은 전체적으로 또는 각각의 라우드스피커에 대해 개별적으로 적용되어, 가상 방향에 대한 레벨 및 결과적인 방향 벡터를 조정한다. 감소된 계산 비용들로 인해 유리한 대안적인 구현이 위에서 이미 언급되었으며, 도 6에 도시된다. 즉, 도 6은 렌더링을 위한 장치 또는 객체 패닝 프로세서에 대한 대안적인 실시예에 대한 다른 예, 즉 도 2와 비교하여, 등화 또는 스펙트럼 성형(58)이 모듈(72) 내의 엘리먼트들(52, 54, 56)에 의해 수평 패닝의 업스트림에서 수행되는 예를 도시한다. 즉, 청취자에 대한 심리 음향 큐들을 야기하여, 최상부 또는 최하부 라우드스피커들(102)을 야기하기 위한 등화 또는 스펙트럼 성형은 각각의 부분 라우드스피커 신호(34)에 개별적으로 적용되기보다는, 오디오 입력 신호(18)에 직접적으로 적용된다. 즉, 오디오 입력 신호(18)는 등화 또는 스펙트럼 성형을 겪는데, 패닝 시에, 선택적으로, 가상 포지션(102)의 포지션을 수평으로 제어하기 위한 수평 패닝, 및 수직 패닝 이득 결정기에 의해 제공되는 수직 패닝 팩터들 또는 이득들을 사용하여 달성되는 수직 패닝과 같은 패닝이 적용될 수 있다. 부분 라우드스피커 신호들(34)에 대한 수직 패닝 이득이 라우드스피커 세트(36) 사이의 선택적인 수평 패닝 전에 적용된다면, 훨씬 더 낮은 계산 복잡도가 달성된다. 후자의 경우, 등화 또는 주파수 성형되고 레벨 정렬된 신호는 복사되어, 가상 높이 라우드스피커(102)의 재생을 위해 선택된 라우드스피커들에 분배될 수 있다.
위에 제시된 개념들에 따르면, 가상 높이 재생의 효율적인 생성은 임의의 라우드스피커 셋업들에서 대응하는 가상 높이 스피커를 사용하는 것을 가능하게 하는 패닝 알고리즘의 일부이다. 추가 세부사항들이 아래에서 설명된다.
도 1, 도 2 및 도 6 중 어느 하나에 따른 (객체) 패닝 알고리즘/패닝 프로세서 또는 장치는 정적 사운드 소스들뿐만 아니라 이동하는 사운드 소스들 모두에 대해 3D 재생 공간 내에서 청각 객체들의 지각된 위치를 포지셔닝하기 위해 사용될 수 있다.
근본적인 개념의 효율성으로 인해, 이는 또한 정적인 청취자 포지션들뿐만 아니라 이동하는 청취자 포지션들에 대해서로, 즉 예컨대, 청취자(100)의 포지션이 추적되고 장치에 의한 렌더링이 청취자 포지션에 적응되는 애플리케이션들에도 또한 사용될 수 있다. 적응 예들이 아래에 제시된다. 게다가, 본 명세서에서 설명되는 바와 같은 장치는 심지어 정적 라우드스피커들(14)뿐만 아니라 이동하는 라우드스피커들(14)을 갖는 시나리오들에도 적용될 수 있다.
통상적인 재생 시나리오들에서, 라우드스피커 포지션들은 고정되지만, 청취자(100)의 포지션은 계속해서 변할 수 있다. 이러한 경우, 청취자(100)가 라우드스피커들(14)을 보는 각도들뿐만 아니라 라우드스피커들 사이의 개개의 각도들은 청취자의(100) 포지션의 함수로써 변한다.
VBAP와 같은 종래의 패닝 알고리즘들은 통상적으로, 이들의 고려되는 불변 스위트 스팟 및 라우드스피커 포지션들에 대한 초기화를 필요로 한다. 초기화 단계 동안, 일부 복잡한 동작들, 이를테면 라우드스피커들을 쌍, 트리플릿(triplet) 또는 쿼드러플릿(quadrulet) 패닝 그룹들에 매핑하는 것이 사용된다.
추적 시나리오에서는, 라우드스피커들(14)과 청취자(100)의 상대적인 포지셔닝이 빈번하게 변하기 때문에, 복잡한 초기화 단계 및 고정된 매핑을 갖는 것은 바람직하지 않다. 도 1, 도 2 및 도 6에 따른 설명된 패닝은 이러한 문제들을 해결하고, 특히, 라우드스피커들에 의해 커버되는/둘러싸인 영역 내부에 있지 않은 포지션들에서의 패닝과 관련된 몇몇 다른 신규성들을 포함한다.
특히, 다음의 단계들은 효율적인 렌더링을 달성하고 그리고 도 3 - 도 5b에 예시적으로 도시된 바와 같이 스피커들(14a-14d)의 하나보다 많은 레이어를 이용하여 스피커 셋업들을 다루는 것을 보조하며, 본 명세서에서 설명되는 2개의 장치들에 기능들로서 추가될 수 있다:
● 이를테면, 70 및 72에서의 수평 패닝 스테이지들 중 임의의 스테이지에서 수평 라우드스피커 레이어에 대한 진폭 패닝 이득들이 컴퓨팅된다. 장치는 스피커들의 레이어들의 수가 하나인지 여부에 응답할 수도 있다. 단지 하나의 레이어만이 존재한다면, 엘리먼트들(52, 54, 56)은 사용되지 않거나 단지 청취자(100)의 바로 위/아래에 최상부/최하부 가상 스피커 포지션(102)을 포지셔닝하기 위한 것일 뿐이다. 하나보다 많은 레이어가 존재한다면, 다음이 성립한다.
● 스피커들(14)의 하나보다 많은 레이어가 존재한다면,
○ 하나보다 많은 라우드스피커 레이어에 대한 진폭 패닝 이득들이 이를테면, 높이 레이어 및 최하부 레이어에 대해 모듈(70, 72)을 각각 사용하여 컴퓨팅될 수 있다. 이는 예컨대, 의도된 가상 포지션이 두 레이어들 사이에서 수직으로 포지션을 가리키는 경우에 수행될 수 있다. 심지어 2개보다 많은 레이어들이 그 방식으로 처리될 수 있음을 주목한다.
○ 패닝에서, 객체의 임의의 렌더링된 수평/방위각 가상 포지션, 이를테면 도 4에서, 즉 수평 패닝이 수행되는 각각의 레이어에서 106이 렌더링에서, 즉 수직 패닝에서 고려된다. 2개의 레이어들, 즉 상이한 높이들에서 다른 수평 레이어와 각각 연관되는 스피커들(14)의 2개의 그룹들, 예컨대 세트(26)를 형성하는 또는 그 중에서 세트(26)를 선택하기 위해 사용되는 그룹, 세트(36)를 형성하는 또는 그 중에서 세트(36)를 선택하는 데 사용되는 다른 그룹이 선택될 수 있다. 여러(2개보다 많은) 이용 가능한 레이어들로부터의 선택은 아래에서 설명되는 바와 같이, 즉 의도된 가상 포지션들에 가장 가까운 레이어들을 취함으로써 수행될 수 있다. 이어서, 레이어들 중 각각의 레이어 상의, 도 4에 도시된 하나의 예시적인 레이어에 대한 106과 같은 "렌더링된 객체 포지션"은 레이어들 사이에서 객체를 수직으로 패닝하기 위한 가상 라우드스피커로서 사용될 수 있다. 세부사항들이 아래에 예시된다.
○ 객체 포지션이 가장 높은 레이어 위에 있거나 가장 낮은 레이어 아래에 있다면, 객체는 단지 하나의 레이어 상에서만(즉, 각각 가장 높은 레이어 상에서 또는 가장 낮은 레이어 상에서) 수평으로 패닝된다. 그 경우, 모듈(72)은 가상 최상부/최하부 스피커(102)에 대해 동작하고, 수평 패닝은 이 옵션이 적어도 사용되는 경우에만, 최상부/최하부 스피커(102)의 수평 포지션을 청취자 포지션(100)으로 조정하기 위한 것이고(아래에서는 이러한 청취자 포지션 적응성이 사용되지 않는 대안들이 설명됨), 모듈(70)은 사용된 수직으로 최외측 스피커 레이어 또는 수평 레이어를 형성하는 스피커들(14)의 최외측 그룹(14)에서의 수평 패닝을 위해 동작한다. 두 모듈들(70, 72) 모두 스피커들(14)의 자신들의 세트들(26, 36)이, 언급된 수직 최외측 스피커 레이어 또는 스피커들(14)의 최외측 그룹에 대응하거나 그 일부가 되도록 선택되게 할 것이다.
● 따라서 객체 포지션(104, 21)이 가장 높은(가장 낮은) 라우드스피커 레이어 위에(아래에) 놓여 있다면(또는 (또는 (예컨대, 대략 귀 높이의) 단 하나의 라우드스피커 레이어만이 이용 가능한 경우), 가상 수직 최상부(수직 최하부) 라우드스피커(102)가 라우드스피커 레이어(들) 위에(아래에) 청각 객체를 지각적으로 렌더링하는 것으로 간주된다.
● 최상부 또는 최하부 등화기, 즉 대응하는 함수(60)를 사용하는 스펙트럼 성형(58)이 객체 오디오 신호에 적용되고, 최상부 또는 최하부 방향 재생을 위해 선택된 라우드스피커들, 즉 세트(36)에 분배된다.
2개의 레이어들 또는 2개의 레이어들의 스피커들 사이의 렌더링에 참여하는 단계들/기능들/블록들이 도 7에 도시된다. 더 정확하게 말하자면, 도 7은 스피커들의 2개의 레이어들 사이에서 렌더링될 오디오 객체를 3차원적으로 패닝할 수 있는 추가 실시예에 따른 장치를 예시하거나, 도 7은 도 1의 장치의 이러한 부분들의 협력을 예시하는데, 그러한 부분들은 의도된 가상 포지션(21)이 2개의 이러한 스피커 레이어들 사이에 있는 경우에 렌더링에 참여하는 한편, 스펙트럼 셰이퍼/등화기(58)와 같이 도 1에 도시된 다른 엘리먼트는 이러한 경우에 렌더링에 참여하지 않는다(오히려 의도된 가상 포지션이 스피커들(14)의 모든 스피커 레이어들 위에 또는 이러한 이용 가능한 스피커 레이어들 아래에 놓이는 경우에 렌더링에 참여함). 도시된 바와 같이, 입력은 오디오 입력 신호(18)이다. 하나의 레이어에 대해 모듈(70)에 의해 수평 패닝이 수행되며, 엘리먼트들(52, 54, 56)은 다른 레이어에 대한 모듈(72)의 일부이다. 대응하는 부분 라우드스피커 신호들(28, 34)은 각각, 결정기(30)에 의해 제공되는 패닝 이득들을 사용하여 수직 패닝을 추가로 수행하여, 컴포저(40)에 의해 라우드스피커 신호들(12)이 되도록 구성된다. 부분 라우드스피커 신호들(34, 28)이 각각 있는 스피커 세트들(36, 26)은, 이들이 상이한 레이어들에 속하기 때문에, 도 7에 예시된 바와 같이 서로 분리될 수 있다. 그러나 "레이어들"에 대한 스피커들(14)의 연관은 하나의 스피커(14)가 상이한 레이어들과 연관될 수 있도록 이루어질 수 있다는 것이 주목되어야 한다. 다시 말해서, 스피커들(14)을 스피커들의 레이어 그룹들로 그룹화하는 것은 이들이 중첩되도록 이루어질 수 있다. 지금까지, 도 7의 예시는 단지 일례이며, 수정될 수 있다.
도 7의 개별 엘리먼트들의 협력은 아래에서 보다 상세히 설명된다. 도시된 바와 같이 그리고 위에서 설명된 바와 같이, 패닝, 즉 수평 및 수직 패닝 모두가 포지션 정보(21)를 통해 제어된다. 이는 추가 정보로서 이를테면, 별개의 데이터 스트림에서, 즉 오디오 입력 신호(18)에 대해 별개인 추가 정보의 형태로, 예컨대 오디오 정보의 적어도 하나의 채널 및 의도된 포지션을 정의하는 연관된 메타데이터를 포함하는 오디오 객체로서 전달될 수 있다. 오디오 입력 신호(18)가 메타데이터가 없는 다채널 파일이라면, 신호가 생성된 알려진 타깃 라우드스피커 레이아웃이 주어지면 신호 분석에 기반하여, 오디오 신호에 포함된 상이한 엘리먼트들의 의도된 포지션(21)이 추정 및 추출될 수 있다. 예컨대, 오디오 입력 신호(18)는 최상부의 그리고/또는 최하부의 라우드스피커 포지션과 연관된 채널을 포함할 수 있지만, 이용 가능한 스피커들(14)은 이러한 스피커들을 갖지 않는다. 그 경우, 의도된 가상 포지션(21)은 그 채널의 스피커의 포지션의 포지션이다. 당연히, 다른 예들이 또한 이용 가능하다. 이는 전달되는 모든 채널들에 대해 수행될 수 있다. 채널들이 관련되는 상호 스피커 포지션들은 렌더링 장치에 의해 유지될 수 있다.
일 실시예에 따르면, 수평 패닝들, 즉 부분 라우드스피커 신호들(28)에 대한 하나 이상의 모듈(70) 및 엘리먼트들(52-56)에 의한 다른 부분 라우드스피커 신호들(34)에 관한 것이 패닝을 위해 동일한 방위각을 사용한다. 즉, 두 레이어들 모두에 대해 동일한 방위각이 사용된다. 다시 말해서, 수평 패닝은, 도 4에 도시된 투사된 가상 포지션들(106)이 서로에 대한 수직 투사에서 일치하도록 하는 방식으로 행해진다. 당연히, 이는 상이하게 구현될 수 있다. 제약은 필요하지 않으며, 상이한 레이어들에 대해 상이한 방위각들이 사용될 수 있다.
본 명세서에서 논의되는 실시예들의 유리한 특징은, 이들이 광범위한 초기화를 필요로 하지 않는다는 사실이다. 대신에, 주어진 또는 변화하는 청취자 및 라우드스피커 좌표들 또는 포지션들로부터 직접 패닝 파라미터들이 컴퓨팅된다. 렌더링의 초기화는 라우드스피커들의 미리 정의된 쌍들, 트리플릿들 또는 쿼드러플릿들에 의존하지 않는다.
도 8은, 수평 및 수직 패닝 모두가 청취자 포지션에 대한 정보, 즉 정보(110)에 의해 제어될 수 있다는 사실을 예시한다. 더 정확하게 하자면, 의도된 가상 포지션(21)은, 청취자(100)가 렌더링될 오디오 객체를 지각할 특정 방향을 나타내는 입체각들로 표현된다고 상상한다. (존재한다면) 청취 포지션에 대한 가상 최상부/최하부 스피커의 포지션의 임의의 적응 외에도, 청취자 포지션(110)에 따라, 청취자 포지션에 의존하는 수평 패닝이 청취자에 대한 이러한 지각 방향을 이루기 위해 적용될 수도 있다. 이는 청취자 포지션 정보(110)가 수평 포지션의 관점에서 뿐만 아니라 청취자의 귀들의 포지션의 높이와 같은 높이의 관점에서 청취자(100)의 포지션을 나타내는 경우에도 마찬가지이다.
위의 설명으로부터 명백한 바와 같이, 본 출원의 실시예들에 따른 장치들은, 이용 가능한 라우드스피커들(14)이 하나의 레이어에만 배열되는 라우드스피커 셋업들을 다루는 것으로 제한되지 않는다. 후자의 예는 도 3 내지 도 5b에 도시되었다. 오히려, 장치에 대해 이용 가능한 라우드스피커들(14)은 상이한 레이어들과 연관될 수 있다. 위에서 논의된, 한편으로는 부분 라우드스피커 신호들(34) 및 다른 한편으로는 부분 라우드스피커 신호들(28), 또는 상이하게 말해서, 모듈(70, 72)이 각각 직렬로 접속되는 2개의 경로들은 이러한 스피커 레이어들 중 하나 이상과 연관될 수 있다. 다음의 설명을 위해, 이들 각각은 하나의 스피커 레이어와 연관된다고 가정한다. 즉, 각각은 하나의 레이어를 형성하는 하나의 그룹의 라우드스피커들과 연관된다. 일부 라우드스피커들은, 다음의 설명으로부터 명백해질 것이고 위에서 이미 언급된 바와 같이 하나보다 많은 레이어와 연관될 수 있다. 개별적인 경로들, 즉 모듈(70)의 경로 및 모듈(72)의 경로에 대한 레이어들의 속성 또는 연관은 고정될 수 있거나, 의도된 가상 포지션(21) 및/또는 청취자 포지션(110)에 적응될 수 있다. 이는 위에서 이미 논의되었다: 이용 가능한 2개보다 많은 레이어들이 존재한다면, 의도된 가상 포지션이 한 쌍의 이러한 레이어들 사이에 있는 경우, 2개의 레이어들이 선택될 수 있고, 이러한 레이어들은 2개의 경로들과 연관된다. 의도된 가상 포지션(21)이 이용 가능한 모든 레이어들을 초과하고, 이용 가능한 실제 최상부 또는 최하부 스피커가 없는 경우, 의도된 가상 포지션에 가장 가까운 최외측 레이어가 두 경로들 모두가 사용되는 라우드스피커 레이어로서 선택된다.
임의의 라우드스피커 셋업이 주어지면, 초기화는 각각의 라우드스피커(14)가 다음의 카테고리들 중 하나 이상에 속하는 것으로 분류되는 것만을 수반할 수 있다:
레이어 1:
통상적으로, 이 라우드스피커 레이어는 객체들을 (대략 착석된 청취자의 귀 높이에서) 수평으로 패닝하는 데 사용된다.
레이어 2 내지 N:
선택적으로, 제2 레이어의 라우드스피커들, 이를테면 높이(최상부 또는 최하부) 레이어의 라우드스피커들이 정의될 수 있다. 이들은 레이어 1의 수직 위 또는 아래의 레이어들이다. 따라서 라우드스피커 레이어들은 2개보다 더 많을 수 있다. 귀 높이에 있는 레이어 1과 임의의 다른 레이어 또는 다른 레이어들 사이의 구별은 선택적이다.
최상부:
수직 최상부 방향이 재생되는 라우드스피커(들). 이는 전용 라우드스피커, 또는 다른 레이어들의 라우드스피커들의 서브세트일 수 있다.
최하부:
수직 최하부 방향이 재생되는 라우드스피커(들). 이는 전용 라우드스피커 또는 다른 레이어들의 서브세트일 수 있다.
위의 설명은 규칙적인 셋업들로 제한되지 않으며, 여기서 규칙적인 것은 예컨대, 동일한 수의 라우드스피커들이 모든 각각의 레이어에 존재하고, 그들 사이에 동일한 각도들/거리들을 갖는 것, 또는 모든 레이어들이 청취자를 완전히 둘러싸는 것, 또는 모든 레이어들이 청취자로부터 본 것과 정확히 동일한 수직 각도로 배열된 라우드스피커들을 갖는다는 것을 의미할 것이다.
실제로, 이전에 언급된 바와 같이, 어떠한 임의의 셋업도 사용될 수 있다. 상이한 라우드스피커들은 상이한/임의의 방위각들로 그리고 상이한/임의적 고도각들(즉, 상이한 높이들)로 포지셔닝될 수 있다. 하나의 레이어의 일부로 간주되는 라우드스피커들은 반드시 평면 내에 놓일 필요는 없다. 이들의 수직 포지셔닝의 변형들이 허용된다.
도 9 및 도 10은 예시적인 실현들/예시적인 분류들을 도시한다. 이러한 도면들은 상이한 이용 가능한 라우드스피커들을 상이한 레이어들에 할당하는 프로시저를 예시할 것이다. 이들은 단지 예들일 뿐이며, 동일한 상황(들)에서의 상이한 매핑들이 가능할 것이며, 사용자의 선호도들을 따른다.
도 9는 5.0 라우드스피커 셋업을 사용한 분류를 도시한다. 여기서뿐만 아니라 다음의 도면들에서, 다음의 식별자들이 간략화를 위해 이용 가능한 스피커들(14)을 표시하는 데 사용된다. 청취자의 대략 귀 높이에 설치되는 셋업을 일반적으로 형성할, 수평으로 배열된 라우드스피커들은 "M_X"의 형태로 표기되며, 여기서 M은 MIDDLE에 대한 표시자로, 이러한 레이어가 일반적으로 상부 라우드스피커 레이어와 하부 라우드스피커 레이어 사이에 있음을 암시한다. 따라서 이는 위의 명명법에서 레이어 1일 것이다. X는 이 레이어의 특정 라우드스피커를 식별하는데, 예컨대 M_L은 "중간 레이어의 전방 좌측 라우드스피커"가 될 것이다. 유사하게, 상위 레이어 라우드스피커를 "U_X"로서 식별하여, "U_Rs"는 "상위 레이어의 우측 서라운드 라우드스피커"가 될 것이다. 하위 레이어의 스피커들은 "L_X"로 식별될 것이다. 따라서 U 및 L 스피커들은 위의 명명법에서 레이어 2…레이어 N의 스피커들이다. 천장(즉, 청취자 바로 위 또는 라우드스피커 어레이의 중심 바로 위)에 장착된 라우드스피커는 최상부로 표시된다. 각각, 최하부라는 용어는 청취자 바로 아래 또는 라우드스피커 어레이의 중심 바로 아래의 라우드스피커들에 대해 사용된다. 도 9에서, 스피커들의 분류는 다음과 같을 것이다:
라우드스피커들 카테고리들
M_L, M_R 레이어 1, 최상부, 최하부
C 레이어 1
M_Ls, M_Rs 레이어 1, 최상부, 최하부
모듈(70)에 의한 수평 패닝은 모든 이용 가능한 라우드스피커들(레이어 1)을 사용하여 이루어질 것이다. 최상부 및 최하부 방향들은 중심(C)을 제외한 모든 라우드스피커들에 걸쳐 모듈(72)을 사용하여 렌더링된다. 즉, 세트(36)는 중심을 제외한 모든 라우드스피커들을 포함할 것이지만, 세트(28)는 모든 스피커들을 포함할 것이다.
이는 이 예에 대한 명시적인 결정이라는 점을 주목한다. 물론, 중앙 라우드스피커가 또한 높이 렌더링에 사용될 수 있다.
5.0+2H 라우드스피커 셋업을 사용하는 추가 분류가 도 10에 도시된다. 여기서, 이용 가능한 셋업에는 2개의 레이어들이 존재하며, 분류 또는 연관은 다음과 같을 것이다:
라우드스피커들 카테고리들
M_L, M_R 레이어 1, 최하부
C 레이어 1
M_Ls, M_Rs 레이어 1, 레이어 2, 최상부, 최하부
U_L, U_R 레이어 2, 최상부
이 예에서, 중간 레이어 서라운드 라우드스피커들(M_Ls 및 M_Rs)은 두 레이어들(레이어 1 및 레이어 2) 모두에 사용되는데, 그렇지 않으면 레이어 2가 청취자를 둘러싸지 않을 것이기 때문이다. 즉, 레이어 1 및 레이어 2 스피커들이 도 7 및 도 8에 예시된 바와 같이 레이어 간 패닝을 위해, 예컨대 세트(26)에 대한 레이어 1의 스피커들 및 세트(36)에 대한 레이어 2의 스피커들, 또는 그 반대가 사용될 것이고, 의도된 가상 포지션이 두 레이어들 모두의 최상부 또는 최하부 외부에 있는 즉시, 최상부 클래스에 속하는 스피커들은 활성 등화(58)와 함께 세트(36)에 대해 사용되고 세트(26)에 대해서는 레이어 2 스피커들을 사용하거나, 최하부 클래스 스피커들은 활성 등화(58)와 함께 세트(36)에 대해 사용되고 세트(26)에 대해서는 레이어 1 스피커들을 사용한다.
이러한 셋업에서의 대안적인 분류들은 레이어 2가 없는 렌더링을 결정하는 것일 수 있다. 최상부는 상승된 라우드스피커들(U_L 및 U_R)만을 사용하여 렌더링될 수 있거나, 대안으로, 최상부는 또한 이전에 설명된 바와 같이 U_L, U_R, M_Ls 및 M_Rs들의 조합에 의해 렌더링될 수 있다.
예컨대, 최하부 레이어 라우드스피커들을 이용한, 더 많은 또는 더 적은 상승된 라우드스피커들을 이용한, 또는 중간 레이어의 더 많은 또는 더 적은 라우드스피커들을 이용한, 또는 더 임의적인 또는 불규칙적인 라우드스피커 셋업들을 이용한 추가 예들이 용이하게 도출 가능하다.
다음에, (상이한 높이에 있는) 2개의 물리적으로 존재하는 라우드스피커 레이어들 사이에 놓인 (청취자로부터 볼 때의) 방향으로 객체가 패닝되는 예시적인 경우에 대해 3D로 객체를 렌더링하는 경우가 설명된다. 이는 도 7 및 도 8과 관련하여 위에서 이미 논의되었지만, 도 11 및 도 12에서 더 명확하게 예시된다. 5.0+4H 라우드스피커 셋업이 여기서 예시적으로 예시된다. 청취자(100)의 포지션 및 오디오 객체(104)의 포지션에 대한 예들이 표시된다. 스피커들은 제2 레이어에 대해 파선으로 그리고 제1 레이어에 대해 연속적으로, 상이한 라인 타입들을 사용하여 구별되는 2개의 별개의 레이어들로 분류된다.
객체는, 상이한 이득들(24)을 갖는 이 레이어의 라우드스피커들에 객체 신호를 제공함으로써, 예컨대 객체가 도 11의 최하부 레이어 그레이 도트 포지션(1061)으로 진폭 패닝되도록 M_L 및 M_Ls에 객체 신호를 제공함으로써, 제1 레이어에서 진폭 패닝된다. 유사하게, 객체는 제2 레이어에서 도 11의 높이 레이어 그레이 도트 포지션(1062)으로 진폭 패닝된다. 알 수 있는 바와 같이, 포지션들(1061, 1062)은 이들이 서로 수직으로 오버레이되도록 그리고/또는 의도된 포지션(104)의 수직 투사와 포지션들(1061, 1062)이 또한 일치하도록 선택될 수 있다.
도 12는 레이어들 사이에 진폭 패닝을 적용함으로써 최종 객체 방향을 렌더링하는 것을 예시하는데, 즉 수직 패닝을 예시한다. 포지션들(1061, 1062)의 가상 객체들을 가상 라우드스피커들로서 고려하면, 객체의 방향으로 나타나는 2개의 레이어들 사이에서 의도된 포지션(104)의 가상 객체를 렌더링하기 위해 엘리먼트들(30, 40)에 의한 진폭 패닝이 적용된다. 레이어들 사이의 이러한 진폭 패닝의 결과는, 2개의 레이어들의 신호들(34, 28)이 가중되는 2개의 이득 팩터들(32)이다.
(실제) 라우드스피커 레이어들 사이의 수평 패닝에 대한 이러한 가중은 추가로, 수직 패닝에서 상이한 주파수 범위들이 상이한 고도에서 지각될 수 있는 효과를 보상하도록 주파수 의존적일 수 있다[13].
위에서 제시된 설명에 대한 추가 정보로서, 레이어 또는 최외측 레이어 위 또는 아래에 객체들을 렌더링하는 것이 이제 추가로 검사된다.
객체는 도 11 및 도 12에 대해 논의된 바와 같이 2개의 레이어들 사이의 방향들의 범위 내에 있지 않은 방향 또는 포지션(104)을 가질 수 있다. 이 경우는 도 13 및 도 14와 관련하여 논의된다. 객체의 의도된 포지션(104)은 (물리적으로 존재하는) 레이어 위 또는 아래, 여기서는 임의의 이용 가능한 레이어 위에, 그리고 특히, 파선들로 표시된 상위 레이어 위에 있다. 일례로, 객체는 도 11 및 도 12에서도 예시적인 셋업으로서 사용된 5.0+4H 셋업의 최상부 라우드스피커 레이어 위에 방향/포지션(104)을 갖는다.
이 경우, 수평 진폭 패닝이 모듈(70)에 의해 높이 레이어에 적용되어, 그 레이어에 객체를 렌더링한다. 렌더링된 객체의 결과적인 포지션(1061)은 도 13에서 높이 레이어 그레이 도트 포지션(1061)으로 표시된다.
그런 다음, 높이 레이어의 포지션(1061)과 도 14에서 그레이 도트 포지션(1062)으로 표시된 수직 방향/포지션(1062) 사이에 패닝이 적용된다. 결과적인 3D 패닝된 가상 객체는 그레이 도트 포지션(104')으로 표시된다.
수직 최상부 또는 최하부 방향에 실제 라우드스피커가 없기 때문에, 1062에서의 수직 신호는 각각 최상부 또는 최하부 사운드의 착색을 모방하도록 모듈(58)에 의해 등화된다(등화에 대한 더 많은 세부사항들에 대해서는 후속 설명 참조). 이어서, 수직 신호는 최상부/최하부 방향에 대해 지정된 라우드스피커들, 즉 세트(36)에 주어진다.
가상 최상부 또는 최하부 라우드스피커들(102)의 렌더링에 관해서는, 다음이 언급될 수 있다.
일반적으로, 가상 수직 최상부 또는 최하부 라우드스피커들을 렌더링하기 위해 상이한 접근 방식들이 선택될 수 있다.
일반적으로, 2개의 상이한 접근 방식들이 선택될 수 있다:
(1) 가상 최상부/최하부는 110으로 표시된 바와 같이 항상 실제 청취 포지션 위에 렌더링된다.
(2) 가상 최상부/최하부 스피커는 항상 (메인) 라우드스피커 어레이의 "스위트 스폿" 또는 중심 위에 렌더링된다.
적용 예들로서, 청취자 포지션이 추적될 수 있다면 (1)이 유리하게 선택될 수 있는 한편, (2) 청취자 추적에 대한 가능성이 이용 가능하지 않다면 (2)가 선택될 수 있다.
간단한 구현은 최상부 또는 최하부 렌더링을 위해 선택된 각각의 라우드스피커에 대해 동일한 이득을 사용하는데, 즉 이득들(54)이 동일하게 선택될 것이다. 이 방식은 잘 작동한다. (이는 예컨대, 가장 간단한 구현으로서 사용될 수 있고, 청취자 포지션이 추적되지 않고 그렇게 알려지지 않을 때 특히 유용하다.)
특히, 청취자가 라우드스피커 셋업 내에서 중앙에 위치되지 않으면, 다음의 고려사항들이 최상부 및 최하부 렌더링을 개선할 수 있다:
● 높이 레이어가 존재하고 그 높이 레이어 위로 패닝하기를 원한다면, (높이 레이어) 라우드스피커들(36)에 적용된 이득 팩터들(54)이 최상부 방향에 대해 사용될 수 있어, 결과적인 패닝 방향 벡터가 수직으로 상방을(또는 대안으로, 가상 최상부 라우드스피커 포지션(102)을 향해), 즉 102가 청취자(100) 바로 위에 있도록 가리킨다.
● 최하부 라우드스피커 레이어가 있는 경우, 최하부 방향에 대해 동일하다.
● 높이 레이어가 없고 수평 레이어 위로 패닝하기를 원한다면, 진폭 패닝 벡터가 사라지도록(수평 방향 편향이 없도록) 이득들이 라우드스피커들에 적용된다. 더 간단하게는, 청취자에서의 신호 진폭 또는 전력이 각각의 최상부/최하부 렌더링 라우드스피커에 대해 동일하도록, 이득들(54)을 라우드스피커들에 적용할 수 있다.
● 최하부 라우드스피커 레이어가 없는 경우, 최하부 방향에 대해 동일하다.
다음에, 추가 세부사항들을 사용하여 등화기(또는 스펙트럼 셰이퍼)(58)가 추가로 예시된다. 청취자(100)가 수평면에서 사운드 소스를 로컬화할 수 있게 하는 주요 큐들은 좌측과 우측 귀 입력 신호들 사이의 차이들(ITD(interaural time difference)들 및 ILD(interaural level difference)들)이다. 사운드 소스의 수직 포지션을 추정하기 위한 1차 큐들은 청취자의 머리, 몸통 및 귓바퀴에 의해 생성된 반사들로 인한 스펙트럼 변동들이다. 이러한 큐들은 종종, 위의 설명에서 심리-음향 큐로 지칭되는 MC(monaural cue)들로 지칭된다.
각각의 개인의 고유한 신체 특징들 및 고려되는 입사 방향으로 인해 발생하는 특정 ILD들, ITD들 및 MC들은 일반적으로 HRTF(Head Related Transfer Function)들이라는 용어로 하위 합산된다. 특히, MC들은 매우 개별적이다. 여전히, 일반적으로 높이 지각에 영향을 미치는 일부 공통 특징들이 있다.
하나의 방향으로부터 수신되는 특정 소스 신호의 주파수 콘텐츠를 성형함으로써, 이 사운드가 실제로 동일한 혼동 원뿔 상의 상이한 고도 및/또는 전후방 배향으로부터 나온다는 환상이 지원될 수 있다. 이는 변화하는 MC들에 대응하며, 등화기(EQ)(58)의 목적이다.
가상 최상부/최하부 라우드스피커들을 사용하는 개념의 간단하지만 잘 작동하는 구현, 및 이러한 신호들의 등화는 최상부 및 최하부 방향에 대해 각각 특정 정적 EQ를 사용한다.
도 15는 2개의 이러한 발견적으로 결정된 등화기들을 예들로서 도시하거나, 달리 말하면, 가상 최상부 스피커 렌더링을 위한 성형 함수(60a) 및 가상 최하부 스피커 렌더링을 위한 성형 함수(60b)를 도시한다. 이들은, 청취자 위 또는 아래의 소스를 암시하는 큐들에 대응하는, 측정된 HRTF 데이터의 분석에 의해 결정되었다. 많은 대상들의 HRTF들이 고려되었고, 대상들 사이에서 너무 많이 변하는 스펙트럼 변화들을 무시함으로써 EQ들이 결정되었다.
최상부 방향에 대한 등화기(60a)는 통상적으로 하나 이상의 노치들 및/또는 피크들을 갖는다. 통상적으로, 1㎑ 미만의 노치가 있고, 더 높은 주파수들에 하나 이상의 피크들이 있다. 최하부 방향에 대한 등화기(60b)는 "바디 섀도잉(body shadowing)"의 효과를 포함하는데, 즉 전체 고주파들이 감쇠된다. 함수(60a)에 의해, 제2 부분 라우드스피커 신호들(34)은 오디오 입력 신호(18)에 대해, 200 내지 1000㎐의 노치 스펙트럼 범위(120)에서 감쇠되고, 1000 내지 10㎑ 사이에 놓인 피크 스펙트럼 범위들(1221, 1222) ― 여기서는 예시적으로 2개의 존재함 ― 중 하나 이상 내에서 증폭된다. 함수(60b)에 의해, 제2 부분 라우드스피커 신호들(34)은 적어도 하나의 오디오 신호에 대해, 스펙트럼 범위(124) 내의 스펙트럼 하위 범위(126) 내에서의 감쇠의 감소로 1000㎐를 넘는 스펙트럼 범위(124)에서 감쇠되며, 그 하위 범위는 5 내지 10㎑ 사이에 위치된다. 추가로, 함수(60b)는 도 15에 도시된 바와 같이, 500㎐ 내지 1㎑의 스펙트럼 범위(128) 내에서 신호들(34)의 증폭으로 이어질 수 있다. 당연히, 범위들 및 예들은 변화될 수 있다.
청취자에 도달하는 음향 신호의 유효 전체 스펙트럼은 부분적으로는 비-EQ화된 신호(레이어 내의 진폭 패닝)(28)에 의해 그리고 부분적으로는 EQ화된 신호(가상 최상부/최하부로부터의 신호)(34)에 의해 결정된다. 따라서 효과적인 전체 EQ는 1(unity)과 최상부/최하부 EQ들(60a/60b)의 선형 조합이다. 그런 식으로, 청취자에서의 EQ화는 소스(104)가 최상부 포지션을 향해(또는 대응하게 최하부 포지션을 향해) 이동할 때 페이드 인이다.
EQ화의 양의 이러한 연속적인 페이드/변화는 특히 유리한데, 이는 인간의 청각 시스템이 자신의 위치를 판단하기 위해 수신된 신호의 스펙트럼에서의 이러한 변화들을 사용할 수 있기 때문이다. 특히, 추적되는 시나리오들에서, 이러한 변화들은 특정 스펙트럼 특징이 실제 신호의 특성인지, 또는 청취자가 이동하고 있는 동안의 변화들을 구별하는 데 사용될 수 있으며, 이는 이러한 소스 위치와 관련된 특징으로서 해석될 수 있다.
요약하면, 상승된 또는 하강된 높이의 사운드들(최상부 및 최하부)의 재생과 함께 객체 기반 오디오 또는 다채널 오디오의 재생이 가능해진다. 임의의 라우드스피커 셋업들을 통한 (상승된 또는 더 낮은 라우드스피커 레이어들에 걸친 재생을 위해 의도된 사운드를 특징으로 하는) 입력 오디오 신호들의 플레이백(playback)이 가능하다. 여기서, "라우드스피커 셋업들"은 또한, 사운드바들, 내장형 라우드스피커들을 갖는 TV들, 붐박스들, 사운드 플레이트들, 라우드스피커 어레이들, 스마트 스피커들 등과 같은 디바이스들 및 토폴로지들을 포함한다. 상승된 또는 하강된 라우드스피커 레이어들을 가질 필요가 없다. 따라서 (상승된 또는 하강된 라우드스피커들이 없더라도) 거의 어떠한 임의적인 라우드스피커 셋업에서 최상부 또는 최하부 사운드들의 지각 효과가 가능해진다.
실시예들은 계산상 효율적이어서, 이는 (변화하는) 청취자 포지션이 알려져 있고 그리고/또는 플레이백 시스템에 의해 (지속적으로) 추적되는 시나리오들에서 또한 유리하게 사용될 수 있다.
실시예들은 채널 기반 오디오, 객체 기반 오디오 및 장면 기반 오디오(예컨대, 앰비소닉(Ambisonics)) 입력 포맷 신호들에 대해 사용될 수 있다.
HRTF 기반인 렌더링 방법들과 비교하여, 실시예들은 (광범위한 범위에 걸쳐 달성하기 어려울 수도 있는) 모든 가능한 방향들에서 특정 객체 포지션들에 대한 상세한 특정 입체 음향 큐들을 시뮬레이팅하는 것을 목표로 하지 않는다는 것이 강조되어야 한다. 대신에, 하나의 특정 포지션/방향에서 청취자 위 또는 아래의 사운드 소스의 지각을 유발하는(즉, 위 또는 아래에 가상 소스를 생성하는) 큐들의 양호한 시뮬레이션이 생성된다. 따라서 이는 매우 양호한/확실한 방식으로 이러한 2개의 방향들(최상부/최하부(102))에 대한 지각을 모방하는 것이 시도된다. 선택된 이러한 2개의 특정 방향들의 이점은, 스펙트럼 큐들 외에도, 2개의 다른 지배적인 공간 오디오 큐들(즉, ITD들 및 ILD들)이 최소라는 것이고; 이론상, 청취자의 완벽하게 위 또는 아래의 사운드 소스들에 대해 어떠한 ITD도 그리고 ILD도 발생하지 않는데, 즉 사운드 소스로부터의 직접 사운드에 대해 수평 방향의 입자 속도는 0에 가깝다는 점이다. 따라서 수평으로 그리고 수직으로 패닝하는, 잠재적으로는 최상부/최하부 스피커(102)를 가상으로 렌더링하는 2 스테이지 접근 방식이 안정적이고 높은 정확도로 이어진다.
이하에서, 복수의 라우드스피커들의 라우드스피커들이 가상 라우드스피커의 재생을 위해 라우드스피커들의 세트 또는 레이어에 어떻게 자동으로 할당될 수 있는지의 일부 추가 예시적인 선택 기준들을 설명한다.
○ 세트들/레이어들에 대한 라우드스피커들을 선택하기 위한 기준들:
■ 바람직하게는 청취자 주위에서 360도 패닝이 가능하도록 모든 각각의 레이어를 선택한다.
○ 가상 높이 채널의 재생을 위한 라우드스피커들의 선택:
■ 다음과 같이 다수의 라우드스피커들을 사용한다:
1) 바람직하게는, 이미 상승된 포지션들에 있는 라우드스피커들을 선택한다.
2) 1)을 고려하여, 청취자를 둘러싸는 어레이를 달성할 (추가) 라우드스피커들을 선택한다.
■ 선택된 라우드스피커들은: 청취자 포지션에서 생성된 사운드필드가 수평 방향으로 0 또는 작은 입자 속도를 갖도록, 가상 높이 채널에 대한 신호를 재생할 수 있는 것을 가능한 한 양호하게 할 수 있어야 한다.
■ 다수의 적합한 라우드스피커들이 이용 가능하다면, 이들 모두가 사용될 수 있거나, 선택 프로시저는 다음과 같을 수 있다:
■ 가능하다면, 청취자 주위에 대칭적으로(이상적으로는 가능한 한 (회전) 대칭으로서) 라우드스피커들을 선택한다.
■ 의도된 가상 높이 소스의 원하는 고도 포지션을 향해 상승된 포지션들(위 또는 아래)에 이미 배열된 라우드스피커가 이용 가능하다면,
■ 라우드스피커들의 고도각이 가능한 한 커야 하는데, 즉 항상 (가능한 한 수직으로) 가장 큰 고도각들을 갖는 라우드스피커들을 선택한다.
○ 이상적으로는, 위의 기준들을 충족시키도록 가능한 한 적은 수의 라우드스피커들을 선택한다.
○ 물론, 라우드스피커들은 또한 사용자에 의해 "손으로" 선택/할당될 수 있다.
(가능하게는 적응형) 렌더링을 위한 가능한 입력 파라미터들은 다음과 같다:
○ 청취자 포지션으로부터 라우드스피커들까지의 각도들(방위각 및 고도).
■ 이는, 모든 라우드스피커들이 동일하게 멀리 떨어져 있고 청취 포지션에서 유사한 레벨을 생성한다는 가정 하에 있다.
■ 라우드스피커들이 동일하게 멀리 떨어져 있지 않다면, 청취자 포지션에서 동일한 레벨/도달 시간을 달성하도록 레벨 및/또는 지연이 밸런싱될 수 있다.
○ 청취자가 추적되는 시나리오에서는, 각도들 외에도, 각각의 라우드스피커까지의 거리가 또한 필요하므로, 레벨 및/또는 지연이 적응될 수 있다.
■ 추적되는 시나리오에서의 이러한 레벨 및 지연 적응은 또한, 가상 높이 신호들의 재생을 위한 위에서 언급된 "수평 방향의 작은 입자 속도" 기준을 달성하는 데 유리할 수 있다.
결론적으로, 본 명세서에서 설명된 실시예들은 본 명세서에서 설명된 중요한 포인트들 또는 양상들 중 임의의 것에 의해 선택적으로 보완될 수 있다. 그러나 본 명세서에서 설명된 중요한 포인트들 및 양상들은 개별적으로 또는 조합하여 사용될 수 있고, 본 명세서에서 설명된 실시예들 중 임의의 실시예에 모두 개별적으로 그리고 조합하여 도입될 수 있다는 것이 주목된다. 후자의 결과로서, 위의 설명은 특히, 복수의 라우드스피커들(14)에서의 라우드스피커 신호들(12)의 인가가 의도된 가상 포지션(104)에서 적어도 하나의 오디오 객체를 렌더링하도록, 복수의 라우드스피커들(14)에 대한 라우드스피커 신호들(12)을 생성하기 위한 장치를 포함하며, 이 장치는 적어도 하나의 오디오 객체를 나타내는 오디오 입력 신호(18)를 수신하도록 구성된 인터페이스(16), 의도된 가상 포지션에 따라, 복수의 라우드스피커들 중 제1 수평 레이어 내에 배열되거나 제1 수평 레이어를 형성하는 제1 세트(26)의 라우드스피커들에 대한 제1 패닝 이득들(24)을 결정하도록 구성된 제1 패닝 이득 결정기(22) ― 제1 패닝 이득들(24)은, 제1 가상 포지션(106)에서의 적어도 하나의 오디오 객체의 렌더링과 연관되는 제1 부분 라우드스피커 신호들(28)을 제1 세트(26)의 라우드스피커들에 인가할 때, 적어도 하나의 오디오 입력 신호(18)로부터의 제1 부분 라우드스피커 신호들(28)의 도출을 정의함 ―, 의도된 가상 포지션에 따라, 제2 수평 레이어에 배열되도록 또는 제2 수평 레이어를 형성하도록, 제1 레이어 세트에 대해 수직으로 오프셋되며, 제1 가상 포지션(106)과 제2 포지션(102) 사이에서 패닝하도록 제2 포지션(102)에서 적어도 하나의 오디오 객체의 렌더링과 연관되는, 제2 세트(36)의 라우드스피커들에 인가될 제1 부분 라우드스피커 신호들(28)과 제2 부분 라우드스피커 신호들(34) 사이의 패닝을 위한 추가 패닝 이득들(32)을 결정하도록 구성된 수직 패닝 이득 결정기(30)를 포함하고, 이 장치는 제1 패닝 이득들(24) 및 추가 패닝 이득들(32)을 사용하여 오디오 입력 신호(18)로부터 라우드스피커 신호들(12)을 구성하도록 구성된다. 의도된 가상 포지션에 따라, 제2 세트의 라우드스피커들에 대한 제2 패닝 이득들(54)을 결정하도록 구성되는 제2 패닝 이득 결정기(52)가 또한 포함되며, 제2 패닝 이득들(54)은 적어도 하나의 오디오 입력 신호로부터의 제2 부분 라우드스피커 신호들(34)의 도출을 정의하고, 이 장치는 제1 패닝 이득들 및 제2 패닝 이득들과 추가 패닝 이득들을 사용하여 오디오 입력 신호(18)로부터 라우드스피커 신호들(12)을 구성하도록 구성된다. 제1 패닝 이득 결정기(22) 및 제2 패닝 이득 결정기(52)는 복수의 라우드스피커들이 분배되는 수평 레이어들 중에서, 제1 레이어 세트 및 제2 레이어 세트가 그 사이에 수직으로 있는 의도된 가상 포지션(104)을 갖도록 복수의 라우드스피커들 중 제1 세트(26) 및 제2 세트(36)의 라우드스피커들을 선택하도록 구성된다. 제1 세트(26)의 라우드스피커들과 제2 세트(36)의 라우드스피커들은 부분적으로 중첩할 수 있는데, 즉 하나의 라우드스피커가 두 세트들(26, 36) 모두에 포함될 수 있음을 주목한다. 더 정확하게 말하면, 복수의 라우드스피커들은 각각의 수평 레이어들에 대해, 해당 수평 레이어에 속하는 라우드스피커들이 청취자 포지션을 수평으로(즉, 수평 투사에서) 둘러싸는, 또는 달리 말하면, 청취자 포지션 주위의 수평으로 360도 패닝을 가능하게 하는 방식으로 수평 레이어들 상에 분포될 수 있으며, 이러한 상황을 달성하기 위해, 예컨대 수평 레이어들의 적어도 한 쌍이 이들의 라우드스피커들 중 하나 이상을 공유할 수 있다. 즉, 수평 레이어들의 수평성 및 수직 오프셋은 때때로, 이를테면 적어도 한 쌍의 수평 레이어들의 경우, 하나 이상의 라우드스피커들이 수평 레이어들 중 하나 초과에 각각 속하는 정도로 추상화될 수 있다. 다른 말로 하자면, 위의 설명은 특히, 복수의 라우드스피커들(14)에서의 라우드스피커 신호들(12)의 인가가 의도된 가상 포지션(104)에서 적어도 하나의 오디오 객체를 렌더링하도록, 복수의 라우드스피커들(14)에 대한 라우드스피커 신호들(12)을 생성하기 위한 장치를 포함하며, 복수의 라우드스피커들은 하나 이상의 수평 레이어들에 분포되고, 이 장치는 적어도 하나의 오디오 객체를 나타내는 오디오 입력 신호(18)를 수신하도록 구성된 인터페이스(16), 의도된 가상 포지션에 따라, 복수의 라우드스피커들 중 제1 세트의 라우드스피커들(26)에 대해 제1 패닝 이득들(24)을 결정하고, 그리고 제1 가상 포지션(106)에서의 적어도 하나의 오디오 객체의 렌더링과 연관되는 제1 부분 라우드스피커 신호들(28)을 제1 세트(26)의 라우드스피커들에 인가할 때, 제1 패닝 이득들(24)을 사용하여 적어도 하나의 오디오 입력 신호(18)로부터 제1 부분 라우드스피커 신호들을 도출하도록 구성된 제1 라우드스피커 신호 세트 결정기(70), 스펙트럼 성형에 의해, 적어도 하나의 오디오 입력 신호(18)로부터 제2 부분 라우드스피커 신호들(34)을 도출하도록 구성된 제2 라우드스피커 신호 세트 결정기(72) ― 제2 부분 라우드스피커 신호들(34)은 제2 부분 라우드스피커 신호들(34)을 제2 세트의 라우드스피커들(36)에 인가할 때 제2 가상 포지션(102)에서의 적어도 하나의 오디오 객체의 렌더링과 연관되고, 제2 가상 포지션은 하나 이상의 수평 레이어들 위 또는 아래에 있음 ―, 및 제1 가상 포지션과 제2 가상 포지션 사이에서 패닝하기 위해, 의도된 가상 포지션에 따라 제1 부분 라우드스피커 신호들 및 제2 부분 라우드스피커 신호들에 대한 추가 패닝 이득들(32)을 결정하도록 구성된 수직 패닝 이득 결정기(30), 및 추가 패닝 이득들(32)을 사용하여 제1 부분 라우드스피커 신호들 및 제2 부분 라우드스피커 신호들로부터 라우드스피커 신호들을 구성하도록 구성된 컴포저(40)를 포함한다. 또한, 제1 세트(26)의 라우드스피커들과 제2 세트(36)의 라우드스피커들은 부분적으로 중첩할 수 있는데, 즉 하나의 라우드스피커가 두 세트들(26, 36) 모두에 포함될 수 있음을 주목한다. 더 정확하게 말하면, 복수의 라우드스피커들은 각각의 수평 레이어에 대해, 해당 수평 레이어에 속하는 라우드스피커들이 청취자 포지션을 수평으로(즉, 수평 투사에서) 둘러싸는, 또는 달리 말하면, 청취자 포지션 주위의 수평으로 360도 패닝을 가능하게 하는 방식으로 수평 레이어들 상에 분포될 수 있으며, 이러한 상황을 달성하기 위해, 예컨대 수평 레이어들의 적어도 한 쌍이 이들의 라우드스피커들 중 하나 이상을 공유할 수 있다. 즉, 수평 레이어들의 수평성 및 수직 오프셋은 때때로, 이를테면 적어도 한 쌍의 수평 레이어들의 경우, 하나 이상의 라우드스피커들이 수평 레이어들 중 하나 초과에 각각 속하는 정도로 추상화될 수 있다. 위에서 설명되고 후속 청구항들에서 언급되는 모든 다른 수정들, 이를테면 제2 포지션이 수평 레이어들 중 가장 높은 레이어 위의 또는 가장 낮은 레이어 아래의 가상 포지션(102)이 되도록 적어도 하나의 오디오 신호(18)로부터 제2 부분 라우드스피커 신호들(34)을 도출하기 위한 스펙트럼 성형(58)의 사용이 역시 실현 가능하다.
일부 양상들은 장치와 관련하여 설명되었지만, 이러한 양상들은 또한 대응하기 위한 방법의 설명을 나타내며, 여기서 디바이스 또는 디바이스의 일부는 단계 또는 방법 단계의 특징에 대응한다는 점이 명백하다. 비슷하게, 방법 단계와 관련하여 설명한 양상들은 또한 대응하는 장치 또는 장치의 일부 또는 대응하는 장치의 항목 또는 특징의 설명을 나타낸다. 방법 단계들의 일부 또는 전부가 예를 들어, 마이크로프로세서, 프로그래밍 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 사용하여) 실행될 수 있다. 일부 실시예들에서, 가장 중요한 방법 단계들 중 하나 이상의 단계들이 이러한 장치에 의해 실행될 수 있다.
특정 구현 요건들에 따라, 본 발명의 실시예들은 하드웨어로 또는 소프트웨어로 구현될 수 있다. 구현은 각각의 방법이 수행되도록 프로그래밍 가능 컴퓨터 시스템과 협력하는(또는 협력할 수 있는) 전자적으로 판독 가능 제어 신호들이 저장된 디지털 저장 매체, 예를 들어 플로피 디스크, DVD, 블루레이, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 수행될 수 있다. 따라서 디지털 저장 매체는 컴퓨터 판독 가능할 수 있다.
본 발명에 따른 일부 실시예들은 본 명세서에서 설명한 방법들 중 하나가 수행되도록, 프로그래밍 가능 컴퓨터 시스템과 협력할 수 있는 전자적으로 판독 가능 제어 신호들을 갖는 데이터 반송파를 포함한다.
일반적으로, 본 발명의 실시예들은 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때, 방법들 중 하나를 수행하기 위해 작동하는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있다. 프로그램 코드는 예를 들어, 기계 판독 가능 반송파 상에 저장될 수 있다.
다른 실시예들은 기계 판독 가능 반송파 상에 저장된, 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
즉, 본 발명의 방법의 한 실시예는 이에 따라, 컴퓨터 상에서 컴퓨터 프로그램이 실행될 때 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
따라서 본 발명의 방법들의 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하여 그 위에 기록된 데이터 반송파(또는 디지털 저장 매체, 또는 컴퓨터 판독 가능 매체)이다. 데이터 반송파, 디지털 저장 매체 또는 레코딩된 매체는 통상적으로 유형적이고 그리고/또는 비-일시적이다.
따라서 본 발명의 방법의 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 신호들의 데이터 스트림 또는 시퀀스이다. 신호들의 데이터 스트림 또는 시퀀스는 예를 들어, 데이터 통신 접속을 통해, 예를 들어 인터넷을 통해 전송되도록 구성될 수 있다.
추가 실시예는 프로세싱 수단, 예를 들어 본 명세서에서 설명한 방법들 중 하나를 수행하도록 구성 또는 적응된 컴퓨터 또는 프로그래밍 가능 로직 디바이스를 포함한다.
추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
본 발명에 따른 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 수신기에(예를 들어, 전자적으로 또는 광학적으로) 전송하도록 구성된 장치 또는 시스템을 포함한다. 수신기는 예를 들어, 컴퓨터, 모바일 디바이스, 메모리 디바이스 등일 수 있다. 장치 또는 시스템은 예를 들어, 컴퓨터 프로그램을 수신기에 전송하기 위한 파일 서버를 포함할 수 있다.
일부 실시예들에서, 프로그래밍 가능 로직 디바이스(예를 들어, 필드 프로그래밍 가능 게이트 어레이)는 본 명세서에서 설명한 방법들의 기능들 중 일부 또는 전부를 수행하는 데 사용될 수 있다. 일부 실시예들에서, 필드 프로그래밍 가능 게이트 어레이는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게 임의의 하드웨어 장치에 의해 수행된다.
본 명세서에 설명된 장치는 하드웨어 장치를 사용하거나, 컴퓨터를 사용하거나, 하드웨어 장치와 컴퓨터의 조합을 사용하여 구현될 수 있다.
본 명세서에서 설명된 장치 또는 본 명세서에서 설명된 장치의 임의의 컴포넌트들은 적어도 부분적으로는 하드웨어로 그리고/또는 소프트웨어로 구현될 수 있다.
본 명세서에서 설명한 방법들은 하드웨어 장치를 사용하여, 또는 컴퓨터를 사용하여, 또는 하드웨어 장치와 컴퓨터의 결합을 사용하여 수행될 수 있다.
본 명세서에서 설명된 방법들 또는 본 명세서에서 설명된 방법들의 임의의 부분들은 적어도 부분적으로는 하드웨어에 의해 그리고/또는 소프트웨어에 의해 수행될 수 있다.
앞서 설명한 실시예들은 단지 본 발명의 원리들에 대한 예시일 뿐이다. 본 명세서에서 설명한 배열들 및 세부사항들의 수정들 및 변형들이 다른 당업자들에게 명백할 것이라고 이해된다. 따라서 이는 본 명세서의 실시예들의 묘사 및 설명에 의해 제시된 특정 세부사항들로가 아닌, 첨부된 특허청구범위로만 한정되는 것을 취지로 한다.
참조들
[1] A.B. S and S.M. R. Apparent sound source translator. February 1966. US Patent 3,236,949.
[2] Philip A Nelson, Hareo Hamada, and Stephen J Elliott. Adaptive inverse filters for stereophonic sound reproduction. IEEE Transactions on Signal Processing, 40(7):1621-1632, 1992.
[3] P. A. Nelson and J. F. W. Rose. Errors in two-point sound reproduction. The Journal of the Acoustical Society of America, 118(1):193, 2005.
[4] Takashi Takeuchi and Philip A. Nelson. Optimal source distribution for binaural synthesis over loudspeakers. The Journal of the Acoustical Society of America, 112(6):2786, 2002.
[5] Hironori Tokuno, Ole Kirkeby, Philip A Nelson, and Hareo Hamada. Inverse filter of sound reproduction systems using regularization. IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences, 80(5):809-820, 1997.
[6] Ole Kirkeby, Philip A. Nelson, Hareo Hamada, and Felipe Orduna-Bustamante. Fast deconvolution of multichannel systems using regularization. IEEE Transactions on Speech and Audio Processing, 6(2):189-194, 1998.
[7] Edgar Y Choueiri. Optimal crosstalk cancellation for binaural audio with two loud-speakers. Princeton University, page 28, 2008.
[8] B. B. Bauer. Stereophonic earphones and binaural loudspeakers. J. Audio Eng. Soc., 9:148-151, 1961.
[9] J. Huopaniemi. Virtual Acoustics and 3D Sound in Multimedia Signal Processing. PhD thesis, Laboratory of Acoustics and Audio Signal Processing, Helsinki University of Technology, Finland, 1999. Rep. 53.
[10] Hyunkook Lee. Sound source and loudspeaker base angle dependency of phantom image elevation effect. J. Audio Eng. Soc, 65(9):733-748, 2017.
[11] Hyunkook Lee, Dale Johnson, and Maksims Mironovs. Virtual hemispherical amplitude panning (vhap): A method for 3d panning without elevated loudspeakers. In Audio Engineering Society Convention 144, May 2018.
[12] Young Woo Lee et al., "Virtual Height Speaker Rendering for Samsung 10.2-channel Vertical Surround System". In Audio Engineering Society Convention 131, October 2011.
[13] Reinhard Gretzki and Andreas Silzle, "A new method for elevation panning reducing the size of the resulting auditory events", TecniAcustica, Bilbao, 2003.
[14] Christian Borß, "A Polygon-Based Panning Method for 3D Loudspeaker Setups," Audio Engineering Society Convention 137, Oct, 2014.
[15 ] MPEG-H Standard, ISO/IEC 23008-3:2015(E).

Claims (46)

  1. 복수의 라우드스피커(loudspeaker)들(14)에서의 라우드스피커 신호들(12)의 인가가 의도된 가상 포지션(104)에서 적어도 하나의 오디오 객체를 렌더링(render)하도록, 상기 복수의 라우드스피커들(14)에 대한 상기 라우드스피커 신호들(12)을 생성하기 위한 장치로서,
    상기 적어도 하나의 오디오 객체를 나타내는 오디오 입력 신호(18)를 수신하도록 구성된 인터페이스(16),
    상기 의도된 가상 포지션에 따라, 상기 복수의 라우드스피커들 중 하나 이상의 제1 수평 레이어들의 제1 레이어 세트 내에 배열되는 제1 세트(26)의 라우드스피커들에 대한 제1 패닝(panning) 이득들(24)을 결정하도록 구성된 제1 패닝 이득 결정기(22) ― 상기 제1 패닝 이득들(24)은, 제1 가상 포지션(106)에서의 상기 적어도 하나의 오디오 객체의 렌더링과 연관되는 제1 부분 라우드스피커 신호들(28)을 상기 제1 세트(26)의 라우드스피커들에 인가할 때, 상기 적어도 하나의 오디오 입력 신호(18)로부터의 상기 제1 부분 라우드스피커 신호들(28)의 도출을 정의함 ―,
    상기 제1 가상 포지션(106)과 제2 포지션(102) 사이에서 패닝하기 위해, 상기 의도된 가상 포지션에 따라, 상기 제1 부분 라우드스피커 신호들(28)과 상기 제1 레이어 세트에 대해 수직으로 오프셋되는 제2 세트(36)의 하나 이상의 라우드스피커들에 인가될 그리고 상기 제2 포지션(102)에서의 적어도 하나의 오디오 객체의 렌더링과 연관되는 하나 이상의 제2 부분 라우드스피커 신호들(34) 사이의 패닝에 대한 추가 패닝 이득들(32)을 결정하도록 구성된 수직 패닝 이득 결정기(30)를 포함하며,
    상기 장치는 상기 제1 패닝 이득들(24) 및 상기 추가 패닝 이득들(32)을 사용하여 상기 오디오 입력 신호(18)로부터 상기 라우드스피커 신호들(12)을 구성하도록 구성되는,
    라우드스피커 신호들을 생성하기 위한 장치.
  2. 제1 항에 있어서,
    상기 제2 세트(36)의 하나 이상의 라우드스피커들은 하나보다 많은 라우드스피커를 포함하고, 상기 하나 이상의 제2 부분 라우드스피커 신호들(34)은 하나보다 많은 제2 부분 라우드스피커 신호들을 포함하며, 상기 장치는,
    상기 의도된 가상 포지션에 따라, 상기 제2 세트의 라우드스피커들에 대한 제2 패닝 이득들(54)을 결정하도록 구성된 제2 패닝 이득 결정기(52)를 더 포함하고, 상기 제2 패닝 이득들(54)은 상기 적어도 하나의 오디오 입력 신호로부터의 상기 제2 부분 라우드스피커 신호들(34)의 도출을 정의하며,
    상기 장치는 상기 제1 패닝 이득들 및 상기 제2 패닝 이득들과 상기 추가 패닝 이득들을 사용하여 상기 오디오 입력 신호(18)로부터 상기 라우드스피커 신호들(12)을 구성하도록 구성되는,
    라우드스피커 신호들을 생성하기 위한 장치.
  3. 제2 항에 있어서,
    상기 제2 세트(36)의 라우드스피커들은 하나 이상의 수평 레이어들의 제2 레이어 세트 내에 있고, 상기 제1 레이어 세트와 상기 제2 레이어 세트는 서로에 대해 수직으로 오프셋되는,
    라우드스피커 신호들을 생성하기 위한 장치.
  4. 제2 항 또는 제3 항에 있어서,
    상기 제2 세트(36)의 라우드스피커들은 하나 이상의 수평 레이어들의 제2 레이어 세트 내에 있고, 상기 제1 레이어 세트와 상기 제2 레이어 세트는 상기 의도된 가상 포지션(104)이 상기 제1 레이어 세트와 상기 제2 레이어 세트 사이에 수직인 상태로 서로에 대해 수직으로 오프셋되는,
    라우드스피커 신호들을 생성하기 위한 장치.
  5. 제2 항 내지 제4 항 중 어느 한 항에 있어서,
    상기 제2 세트(36)의 라우드스피커들은 하나 이상의 수평 레이어들의 제2 레이어 세트 내에 있고,
    상기 제1 패닝 이득 결정기(22) 및 상기 제2 패닝 이득 결정기(52)는, 상기 복수의 라우드스피커들이 분배되는 수평 레이어들 중에서, 상기 의도된 가상 포지션(104)에 수직으로 가장 가깝고 상기 의도된 가상 포지션(104)이 상기 제1 레이어 세트와 상기 제2 레이어 세트 사이에 수직인 상태로 서로에 대해 수직으로 오프셋되도록, 상기 복수의 라우드스피커들 중 상기 제1 세트(26) 및 상기 제2 세트(36)의 라우드스피커들을 선택하도록 구성되는,
    라우드스피커 신호들을 생성하기 위한 장치.
  6. 제2 항 내지 제5 항 중 어느 한 항에 있어서,
    상기 제1 패닝 이득 결정기(22) 및 상기 제2 패닝 이득 결정기(52)는, 상기 제1 가상 포지션(1061)과 상기 제2 포지션(1062)이 수직 투사에서 일치하게 상기 제1 패닝 이득들(24) 및 상기 제2 패닝 이득들(54)을 도출하도록 구성되는,
    라우드스피커 신호들을 생성하기 위한 장치.
  7. 제2 항 또는 제3 항에 있어서,
    상기 장치는,
    상기 제2 포지션이 상기 제2 레이어 세트 위 또는 아래의 가상 포지션(102)이 되도록, 스펙트럼 성형(58)에 의해 상기 적어도 하나의 오디오 신호(18)로부터 상기 제2 부분 라우드스피커 신호들(34)을 도출하도록 구성되는,
    라우드스피커 신호들을 생성하기 위한 장치.
  8. 제7 항에 있어서,
    상기 스펙트럼 성형(58)은 상기 제2 포지션(102)으로부터의 지각 방향을 따라 HRTF(Head Related Transfer Function)의 특성들을 모방하는,
    라우드스피커 신호들을 생성하기 위한 장치.
  9. 제7 항 또는 제8 항에 있어서,
    상기 제2 포지션이 상기 제2 레이어 세트의 수직 위에 있도록, 그리고 상기 제2 부분 라우드스피커 신호들(34)이 상기 적어도 하나의 오디오 입력 신호에 대해, 200 내지 1000㎐의 노치 스펙트럼 범위(120)에서 감쇠되고, 1000 내지 10㎑의 피크 스펙트럼 범위들(1221, 1222) 중 하나 이상 내에서 증폭되게 상기 스펙트럼 성형(58)을 수행하도록, 또는
    상기 제2 포지션이 상기 제2 레이어 세트의 수직 아래에 있도록, 그리고 상기 제2 부분 라우드스피커 신호들(34)이 상기 적어도 하나의 오디오 신호에 대해, 1000㎐를 초과하는 스펙트럼 범위에서 감쇠되게 상기 스펙트럼 성형을 수행하도록 구성되는,
    라우드스피커 신호들을 생성하기 위한 장치.
  10. 제7 항 내지 제9 항 중 어느 한 항에 있어서,
    상기 제2 포지션이 상기 제2 레이어 세트의 수직 위에 있도록, 그리고 상기 제2 부분 라우드스피커 신호들(34)이 상기 적어도 하나의 오디오 입력 신호에 대해, 200 내지 1000㎐의 노치 스펙트럼 범위(120)에서 감쇠되고, 1000 내지 10㎑의 피크 스펙트럼 범위들(1221, 1222) 중 하나 이상 내에서 증폭되게 상기 스펙트럼 성형(58)을 수행하도록, 또는
    상기 제2 포지션이 상기 제2 레이어 세트의 수직 아래에 있도록, 그리고 상기 제2 부분 라우드스피커 신호들(34)이 상기 적어도 하나의 오디오 신호에 대해, 1000㎐를 초과하는 스펙트럼 범위(124) 내에서 5 내지 10㎑에 위치되는 스펙트럼 하위 범위(126) 내에서의 감쇠의 중간 감소로 상기 스펙트럼 범위에서 감쇠되고, 500㎐ 내지 1㎑로 증폭(128)되게 상기 스펙트럼 성형을 수행하도록 구성되는,
    라우드스피커 신호들을 생성하기 위한 장치.
  11. 제7 항 내지 제10 항 중 어느 한 항에 있어서,
    상기 의도된 가상 포지션(104)이 상기 제2 레이어 세트의 수직 위에 있다면, 상기 제2 포지션을 상기 제2 레이어 세트의 수직 위에 있도록 포지셔닝하고, 상기 제2 부분 라우드스피커 신호들이 상기 적어도 하나의 오디오 신호에 대해, 200 내지 1000㎐의 노치 스펙트럼 범위에서 감쇠되고, 1000 내지 10㎑의 피크 스펙트럼 범위들 중 하나 이상 내에서 증폭되게 상기 스펙트럼 성형을 수행하도록, 그리고
    상기 의도된 가상 포지션이 상기 제2 레이어 세트의 수직 아래에 있다면, 상기 제2 포지션을 상기 제2 레이어 세트의 수직 아래에 있도록 포지셔닝하고, 상기 제2 부분 라우드스피커 신호들이 상기 적어도 하나의 오디오 신호에 대해, 1000㎐를 초과하는 스펙트럼 범위에서 감쇠되게 상기 스펙트럼 성형을 수행하도록 구성되는,
    라우드스피커 신호들을 생성하기 위한 장치.
  12. 제7 항 내지 제11 항 중 어느 한 항에 있어서,
    상기 복수의 라우드스피커들(14)은 상기 라우드스피커들이 수평 레이어들과 연관되는 셋업을 형성하고, 상기 장치는 상기 의도된 가상 포지션의 변화에 대한 응답으로,
    상기 의도된 가상 포지션이 2개의 수평 레이어들 사이에 있다면,
    상기 2개의 수평 레이어들 중 첫 번째 수평 레이어가 되도록 상기 제1 레이어 세트를 그리고 상기 2개의 수평 레이어들 중 두 번째 수평 레이어가 되도록 상기 제2 레이어 세트를, 그리고 상기 제1 수평 레이어와 연관된 라우드스피커들 중 상기 제1 세트(26)를 그리고 상기 제2 수평 레이어와 연관된 라우드스피커들 중 상기 제2 세트(36)를 선택하도록 ― 상기 제1 패닝 이득 결정기(22) 및 상기 제2 패닝 이득 결정기(52)는 상기 의도된 가상 포지션에 따라, 상기 제1 패닝 이득들 및 상기 제2 패닝 이득들을 결정하도록 구성되고, 상기 스펙트럼 성형(58)은 상기 제1 가상 포지션이 상기 제1 수평 레이어 내에 있고 상기 제2 가상 포지션이 상기 제2 수평 레이어 내에 있도록 스위칭 오프됨 ―, 그리고
    상기 의도된 가상 포지션이 모든 수평 레이어들에 대해 상기 수평 레이어들의 위 또는 아래를 향해 수직으로 오프셋된다면,
    상기 의도된 가상 포지션에 가장 가까운 상기 수평 레이어들의 최외측 레이어가 되도록 상기 제1 레이어 세트 및 상기 제2 레이어 세트를, 그리고 상기 최외측 레이어와 연관된 라우드스피커들 중 상기 제1 세트(26) 및 상기 제2 세트(36)를 선택하도록 구성되며, 상기 제1 패닝 이득 결정기(22)는 상기 의도된 가상 포지션(104)이 놓이는 방향을 향해 상기 제2 포지션이 상기 최외측 레이어에 대해 수직으로 오프셋된 가상 포지션(102)이 되게, 상기 의도된 가상 포지션에 따라, 사용되는 제1 패닝 이득들 및 스펙트럼 성형(58)을 결정하도록 구성되는,
    라우드스피커 신호들을 생성하기 위한 장치.
  13. 제12 항에 있어서,
    상기 장치는 상기 의도된 가상 포지션의 변화에 대한 응답하도록 구성되어,
    상기 의도된 가상 포지션이 2개의 수평 레이어들 사이에 있다면,
    상기 제1 패닝 이득 결정기(22) 및 상기 제2 패닝 이득 결정기(52)는 상기 의도된 가상 포지션에 따라, 상기 제1 가상 포지션(1061)과 상기 제2 포지션(1062)이 수직 투사에서 일치하고, 상기 스펙트럼 성형(58)이 스위칭 오프되게 상기 제1 패닝 이득들 및 상기 제2 패닝 이득들 결정하도록 구성되고, 그리고/또는
    상기 의도된 가상 포지션이 모든 수평 레이어들에 대해 상기 수평 레이어들의 위 또는 아래를 향해 수직으로 오프셋된다면,
    상기 제1 패닝 이득 결정기(22)는 상기 의도된 가상 포지션에 따라, 상기 제1 가상 포지션(106)이 상기 의도된 가상 포지션과 수직 투사에서 일치하게 상기 제1 패닝 이득들을 결정하도록 구성되는,
    라우드스피커 신호들을 생성하기 위한 장치.
  14. 제7 항 내지 제13 항 중 어느 한 항에 있어서,
    상기 복수의 라우드스피커들(14)는 상기 라우드스피커들이 하나 이상의 수평 레이어들과 연관되는 셋업을 형성하고, 상기 장치는 상기 하나 이상의 수평 레이어들의 수 및 상기 의도된 가상 포지션의 변화에 대한 응답으로,
    상기 하나 이상의 수평 레이어들의 수가 1보다 큰 경우,
    상기 의도된 가상 포지션이 2개의 수평 레이어들 사이에 있다면,
    상기 2개의 수평 레이어들 중 첫 번째 수평 레이어가 되도록 상기 제1 레이어 세트를 그리고 상기 2개의 수평 레이어들 중 두 번째 수평 레이어가 되도록 상기 제2 레이어 세트를, 그리고 상기 제1 수평 레이어와 연관된 라우드스피커들 중 상기 제1 세트(26)를 그리고 상기 제2 수평 레이어와 연관된 라우드스피커들 중 상기 제2 세트(36)를 선택하도록 ― 상기 제1 패닝 이득 결정기(22) 및 상기 제2 패닝 이득 결정기(52)는 상기 의도된 가상 포지션에 따라, 상기 제1 패닝 이득들 및 상기 제2 패닝 이득들을 결정하도록 구성되고, 상기 스펙트럼 성형(58)은 상기 제1 가상 포지션이 상기 제1 수평 레이어 내에 있고 상기 제2 가상 포지션이 상기 제2 수평 레이어 내에 있도록 스위칭 오프됨 ―, 그리고
    상기 의도된 가상 포지션이 모든 수평 레이어들에 대해 상기 수평 레이어들의 위 또는 아래를 향해 수직으로 오프셋된다면,
    상기 의도된 가상 포지션에 가장 가까운 상기 수평 레이어들의 최외측 레이어가 되도록 상기 제1 레이어 세트 및 상기 제2 레이어 세트를, 그리고 상기 최외측 레이어와 연관된 라우드스피커들 중 상기 제1 세트(26) 및 상기 제2 세트(36)를 선택하도록 ― 상기 제1 패닝 이득 결정기(22)는 상기 의도된 가상 포지션(104)이 놓이는 방향을 향해 상기 제2 포지션이 상기 최외측 레이어에 대해 수직으로 오프셋된 가상 포지션(102)이 되게, 상기 의도된 가상 포지션에 따라, 사용되는 제1 패닝 이득들 및 스펙트럼 성형(58)을 결정하도록 구성됨 ―, 그리고
    상기 하나 이상의 수평 레이어들의 수가 1인 경우,
    상기 의도된 가상 포지션이 상기 하나의 수평 레이어 내에 있다면,
    순수하게 상기 제1 부분 라우드스피커 신호들로부터 상기 라우드스피커 신호들(12)을 구성하고, 그리고
    상기 의도된 가상 포지션이 상기 하나의 수평 레이어에 대해 수직으로 오프셋된다면,
    상기 하나의 수평 레이어가 되도록 상기 제1 레이어 세트 및 상기 제2 레이어 세트를, 그리고 상기 하나의 수평 레이어와 연관된 라우드스피커들 중 상기 제1 세트(26) 및 상기 제2 세트(36)를 선택하도록 구성되며, 제1 패닝 이득 결정기(22)는 상기 의도된 가상 포지션(104)이 놓이는 방향을 향해 상기 제2 포지션이 상기 하나의 수평 레이어에 대해 수직으로 오프셋된 가상 포지션(102)이 되게, 상기 의도된 가상 포지션에 따라, 사용되는 제1 패닝 이득들 및 스펙트럼 성형(58)을 결정하도록 구성되는,
    라우드스피커 신호들을 생성하기 위한 장치.
  15. 제14 항에 있어서,
    상기 장치는 상기 하나 이상의 수평 레이어들의 수 및 상기 의도된 가상 포지션의 변화에 응답하도록 구성되어,
    상기 하나 이상의 수평 레이어들의 수가 1보다 큰 경우,
    상기 의도된 가상 포지션이 2개의 수평 레이어들 사이에 있다면,
    상기 제1 패닝 이득 결정기(22) 및 상기 제2 패닝 이득 결정기(52)는 상기 의도된 가상 포지션에 따라, 상기 제1 가상 포지션(1061)과 상기 제2 포지션(1062)이 수직 투사에서 일치하게 상기 제1 패닝 이득들 및 상기 제2 패닝 이득들 결정하도록 구성되고, 그리고/또는
    상기 의도된 가상 포지션이 모든 수평 레이어들에 대해 상기 수평 레이어들의 위 또는 아래를 향해 수직으로 오프셋된다면,
    상기 제1 패닝 이득 결정기(22)는 상기 의도된 가상 포지션에 따라, 상기 제1 가상 포지션(106)이 상기 의도된 가상 포지션과 수직 투사에서 일치하게 상기 제1 패닝 이득들을 결정하도록 구성되고, 그리고/또는
    상기 하나 이상의 수평 레이어들의 수가 1인 경우,
    상기 의도된 가상 포지션이 상기 하나의 수평 레이어에 대해 수직으로 오프셋된다면,
    상기 제1 패닝 이득 결정기(22)는 상기 의도된 가상 포지션에 따라, 상기 제1 가상 포지션(106)이 상기 의도된 가상 포지션과 수직 투사에서 일치하게 상기 제1 패닝 이득들을 결정하도록 구성되는,
    라우드스피커 신호들을 생성하기 위한 장치.
  16. 제1 항 내지 제15 항 중 어느 한 항에 있어서,
    상기 제1 세트(26)의 라우드스피커들은 상기 제2 세트(36)의 하나 이상의 라우드스피커들에 포함되고, 그리고/또는
    상기 제2 세트(36)의 하나 이상의 라우드스피커들은 상기 제1 세트(26)의 라우드스피커들에 포함되고, 그리고/또는
    상기 제1 세트(26)의 라우드스피커들과 상기 제2 세트(36)의 하나 이상의 라우드스피커들은 일치하며, 그리고/또는
    상기 제1 세트(26)의 라우드스피커들과 상기 제2 세트(36)의 하나 이상의 라우드스피커들은 부분적으로 중첩되고, 그리고/또는
    상기 제1 세트(26)의 라우드스피커들과 상기 제2 세트(36)의 하나 이상의 라우드스피커들은 분리된 세트들인,
    라우드스피커 신호들을 생성하기 위한 장치.
  17. 제1 항 내지 제16 항 중 어느 한 항에 있어서,
    상기 의도된 가상 포지션의 수평 컴포넌트에 따라 또는 상기 의도된 가상 포지션의 수평 컴포넌트 및 상기 의도된 가상 포지션의 수직 컴포넌트에 따라 상기 복수의 라우드스피커들 중에서 상기 제1 세트(26)의 라우드스피커들을 선택하도록 구성되고, 그리고/또는
    상기 의도된 가상 포지션의 수직 컴포넌트에 따라 또는 상기 의도된 가상 포지션의 수평 컴포넌트 및 상기 의도된 가상 포지션의 수직 컴포넌트에 따라 상기 복수의 라우드스피커들 중에서 상기 제2 세트(36)의 하나 이상의 라우드스피커들을 선택하도록 구성되는,
    라우드스피커 신호들을 생성하기 위한 장치.
  18. 제1 항 내지 제17 항 중 어느 한 항에 있어서,
    상기 제2 세트의 하나 이상의 라우드스피커들은, 상기 제2 포지션에 있는 또는 상기 제2 포지션을 수평으로 둘러싸고 상기 제1 세트의 라우드스피커들 사이에 수평으로 배열된 하나 이상의 라우드스피커들을 포함하는,
    라우드스피커 신호들을 생성하기 위한 장치.
  19. 제1 항 내지 제18 항 중 어느 한 항에 있어서,
    상기 제1 패닝 이득 결정기(22) 및/또는 상기 제2 패닝 이득 결정기(52)는 청취자 포지션에 추가로 의존하여 상기 제1 패닝 이득들(24) 및/또는 상기 제2 패닝 이득들(54)을 결정하도록 구성되는,
    라우드스피커 신호들을 생성하기 위한 장치.
  20. 제1 항 내지 제19 항 중 어느 한 항에 있어서,
    상기 복수의 라우드스피커들은 하나 이상의 라우드스피커 어레이들, 하나 이상의 사운드바(soundbar)들, 하나 이상의 스마트 스피커들, 하나 이상의 스테레오 스피커들, 하나 이상의 서라운드 사운드 셋업들, 또는 개별적인 라우드스피커들의 하나 이상의 세트들 중 임의의 하나 또는 이들의 조합을 의미하는,
    라우드스피커 신호들을 생성하기 위한 장치.
  21. 제1 항 내지 제20 항 중 어느 한 항에 있어서,
    상기 오디오 입력 신호는 채널 기반 오디오 신호, 객체 기반 오디오 신호 및/또는 장면 기반 오디오 신호 중 하나인,
    라우드스피커 신호들을 생성하기 위한 장치.
  22. 제1 항 내지 제21 항 중 어느 한 항에 있어서,
    상기 오디오 입력 신호로부터 상기 의도된 가상 포지션을 도출하도록 구성되는,
    라우드스피커 신호들을 생성하기 위한 장치.
  23. 제1 항 내지 제22 항 중 어느 한 항에 있어서,
    상기 패닝 이득들은 진폭 패닝 이득들인,
    라우드스피커 신호들을 생성하기 위한 장치.
  24. 제1 항 내지 제23 항 중 어느 한 항에 있어서,
    상기 오디오 입력 신호는 신호 특정 라우드스피커 포지션들 각각에 대한 오디오 신호를 정의하는 채널 기반 오디오 신호이고,
    상기 장치는 상기 신호 특정 라우드스피커 포지션들에 대한 오디오 신호들 중 하나 이상(또는 전부)의 선택 각각을 상기 적어도 하나의 오디오 객체 중 하나로서 처리하도록 구성되는,
    라우드스피커 신호들을 생성하기 위한 장치.
  25. 제24 항에 있어서,
    개개의 오디오 신호의 라우드스피커 포지션으로부터 상기 하나의 오디오 객체의 의도된 가상 포지션을 도출하도록 구성되는,
    라우드스피커 신호들을 생성하기 위한 장치.
  26. 제25 항에 있어서,
    상기 하나의 오디오 객체의 의도된 가상 포지션은, 상기 신호 특정 라우드스피커 포지션 간의 상호 포지션 관계가 유지되는 방식으로, 상기 개개의 오디오 신호의 라우드스피커 포지션으로부터 도출되는,
    라우드스피커 신호들을 생성하기 위한 장치.
  27. 제1 항 내지 제26 항 중 어느 한 항에 있어서,
    상기 오디오 입력 신호는 하나 이상의 렌더링 가능한 오디오 객체들을 정의하는 객체 기반 오디오 신호이고,
    상기 장치는 상기 하나 이상의 렌더링 가능한 오디오 객체들 중 하나 이상(또는 전부)의 선택을 상기 적어도 하나의 오디오 객체 중 하나로서 사용하도록 구성되는,
    라우드스피커 신호들을 생성하기 위한 장치.
  28. 제1 항 내지 제27 항 중 어느 한 항에 있어서,
    라우드스피커 포지션의 관점에서 상기 복수의 라우드스피커들의 변화에 관한 정보를 수신하도록 그리고 상기 라우드스피커 신호들의 후속 발생에서 상기 변화를 고려하도록 구성되고, 그리고/또는
    라우드스피커들의 수의 관점에서 상기 복수의 라우드스피커들의 변화에 관한 정보를 수신하도록 그리고 상기 라우드스피커 신호들의 후속 발생에서 상기 변화를 고려하도록 구성되는,
    라우드스피커 신호들을 생성하기 위한 장치.
  29. 복수의 라우드스피커들(14)에서의 라우드스피커 신호들(12)의 인가가 의도된 가상 포지션(104)에서 적어도 하나의 오디오 객체를 렌더링하도록, 상기 복수의 라우드스피커들(14)에 대한 상기 라우드스피커 신호들(12)을 생성하기 위한 장치로서,
    상기 복수의 라우드스피커들은 하나 이상의 수평 레이어들 상에 분포되고,
    상기 장치는,
    상기 적어도 하나의 오디오 객체를 나타내는 오디오 입력 신호(18)를 수신하도록 구성된 인터페이스(16),
    상기 의도된 가상 포지션에 따라, 상기 복수의 라우드스피커들 중 제1 세트(26)의 라우드스피커들에 대한 제1 패닝 이득들(24)을 결정하도록, 그리고 제1 가상 포지션(106)에서의 상기 적어도 하나의 오디오 객체의 렌더링과 연관되는 제1 부분 라우드스피커 신호들(28)을 상기 제1 세트(26)의 라우드스피커들에 인가할 때, 상기 제1 패닝 이득들(24)을 사용하여 상기 적어도 하나의 오디오 입력 신호(18)로부터 상기 제1 부분 라우드스피커 신호들을 도출하도록 구성된 제1 라우드스피커 신호 세트 결정기(70),
    스펙트럼 성형에 의해, 상기 적어도 하나의 오디오 입력 신호(18)로부터 제2 부분 라우드스피커 신호들(34)을 도출하도록 구성된 제2 라우드스피커 신호 세트 결정기(72) ― 상기 제2 부분 라우드스피커 신호들(34)은 상기 제2 부분 라우드스피커 신호들(34)을 제2 세트의 라우드스피커들(36)에 인가할 때 제2 가상 포지션(102)에서의 상기 적어도 하나의 오디오 객체의 렌더링과 연관되고, 상기 제2 가상 포지션은 상기 하나 이상의 수평 레이어들 위 또는 아래에 있음 ―, 및
    상기 제1 가상 포지션과 상기 제2 가상 포지션 사이에서 패닝하기 위해, 상기 의도된 가상 포지션에 따라 상기 제1 부분 라우드스피커 신호들 및 상기 제2 부분 라우드스피커 신호들에 대한 추가 패닝 이득들(32)을 결정하도록 구성된 수직 패닝 이득 결정기(30), 및
    상기 추가 패닝 이득들(32)을 사용하여 상기 제1 부분 라우드스피커 신호들 및 상기 제2 부분 라우드스피커 신호들로부터 상기 라우드스피커 신호들을 구성하도록 구성된 컴포저(composer)(40)를 포함하는,
    라우드스피커 신호들을 생성하기 위한 장치.
  30. 제29 항에 있어서,
    상기 제1 세트의 라우드스피커들은 상기 하나 이상의 수평 레이어들 중에서, 상기 의도된 가상 포지션에 수직으로 가장 가까운 하나 이상의 수평 레이어들 내에 있는,
    라우드스피커 신호들을 생성하기 위한 장치.
  31. 제29 항 또는 제30 항에 있어서,
    상기 제1 라우드스피커 신호 세트 결정기(70)는, 상기 제1 세트(26)의 라우드스피커들이 상기 하나 이상의 수평 레이어들 중에서, 상기 의도된 가상 포지션에 수직으로 가장 가까운 하나 이상의 수평 레이어들 내에 있게, 상기 복수의 라우드스피커들 중 상기 제1 세트(26)의 라우드스피커들을 선택하도록 구성되는,
    라우드스피커 신호들을 생성하기 위한 장치.
  32. 제29 항 또는 제30 항에 있어서,
    상기 제1 라우드스피커 신호 세트 결정기(70)는, 상기 제1 세트의 라우드스피커들이 하나의 수평 레이어 내에 있도록 그리고 상기 하나의 수평 레이어 내에서 상기 제1 세트의 라우드스피커들의 포지션들에 추가로 의존하여 상기 제1 패닝 이득들을 결정하도록 구성되는,
    라우드스피커 신호들을 생성하기 위한 장치.
  33. 제29 항 내지 제32 항 중 어느 한 항에 있어서,
    상기 제1 라우드스피커 신호 세트 결정기(70)는, 상기 제1 가상 포지션이 상기 한 세트의 제1 라우드스피커들의 포지션들 사이에 있게 상기 제1 패닝 이득들이 순수 진폭 패닝을 구현하도록 구성되는,
    라우드스피커 신호들을 생성하기 위한 장치.
  34. 제29 항 내지 제33 항 중 어느 한 항에 있어서,
    상기 제1 라우드스피커 신호 세트 결정기(70)는 청취자 포지션에 추가로 의존하여 상기 제1 패닝 이득들을 결정하도록 구성되는,
    라우드스피커 신호들을 생성하기 위한 장치.
  35. 제29 항 내지 제34 항 중 어느 한 항에 있어서,
    상기 제2 라우드스피커 신호 세트 결정기(72)는, 상기 스펙트럼 성형이 상기 제2 가상 포지션으로부터의 지각 방향을 따라 HRTF(Head Related Transfer Function)의 특성들을 모방하도록 구성되는,
    라우드스피커 신호들을 생성하기 위한 장치.
  36. 제29 항 내지 제35 항 중 어느 한 항에 있어서,
    상기 제2 라우드스피커 신호 세트 결정기(72)는,
    상기 제2 부분 라우드스피커 신호들 모두에 대해 동일한 진폭 이득 팩터를 사용하여 상기 적어도 하나의 오디오 신호로부터 상기 제2 부분 라우드스피커 신호들이 생성되게, 또는
    상기 제2 세트의 라우드스피커들 사이의 수평 중앙 포지션 또는 스위트 스폿(sweet spot) 포지션에 대응하는 패닝 이득들을 사용하여 패닝함으로써, 또는
    수직 투사를 따라 청취자 포지션과 일치하는 수평 포지션에 대응하는 패닝 이득들에 의해,
    상기 적어도 하나의 오디오 신호로부터 상기 제2 부분 라우드스피커 신호들을 도출하도록 구성되는,
    라우드스피커 신호들을 생성하기 위한 장치.
  37. 제29 항 내지 제36 항 중 어느 한 항에 있어서,
    상기 제1 세트의 라우드스피커들은 상기 제2 세트의 라우드스피커들에 포함되고, 그리고/또는
    상기 제2 세트(36)의 라우드스피커들은 상기 제1 세트(26)의 라우드스피커들에 포함되고, 그리고/또는
    상기 제1 세트의 라우드스피커들과 상기 제2 세트의 라우드스피커들은 일치하며, 그리고/또는
    상기 제1 세트(26)의 라우드스피커들과 상기 제2 세트(36)의 라우드스피커들은 부분적으로 중첩되고, 그리고/또는
    상기 제1 세트의 라우드스피커들과 상기 제2 세트의 라우드스피커들은 상호 배타적인,
    라우드스피커 신호들을 생성하기 위한 장치.
  38. 제29 항 내지 제37 항 중 어느 한 항에 있어서,
    상기 의도된 가상 포지션의 수평 컴포넌트에 따라 또는 상기 의도된 가상 포지션의 수평 컴포넌트 및 상기 의도된 가상 포지션의 수직 컴포넌트에 따라 상기 복수의 라우드스피커들 중에서 상기 제1 세트(26)의 라우드스피커들을 선택하도록 구성되고, 그리고/또는
    상기 의도된 가상 포지션의 수직 컴포넌트에 따라 또는 상기 의도된 가상 포지션의 수평 컴포넌트 및 상기 의도된 가상 포지션의 수직 컴포넌트에 따라 상기 복수의 라우드스피커들 중에서 상기 제2 세트(36)의 라우드스피커들을 선택하도록 구성되는,
    라우드스피커 신호들을 생성하기 위한 장치.
  39. 제29 항 내지 제38 항 중 어느 한 항에 있어서,
    상기 제2 라우드스피커 신호 세트 결정기(72)는, 상기 제2 가상 포지션이 상기 하나 이상의 수평 레이어들의 수직 위에 있도록, 그리고 상기 제2 부분 라우드스피커 신호들이 상기 적어도 하나의 오디오 신호에 대해, 200 내지 1000㎐의 노치 스펙트럼 범위에서 감쇠되고, 1000 내지 10㎑의 피크 스펙트럼 범위들 중 하나 이상 내에서 증폭되게 상기 스펙트럼 성형을 수행하도록 구성되거나, 또는
    상기 제2 라우드스피커 신호 세트 결정기(72)는, 상기 제2 가상 포지션이 상기 하나 이상의 수평 레이어들의 수직 아래에 있도록, 그리고 상기 제2 부분 라우드스피커 신호들이 상기 적어도 하나의 오디오 신호에 대해, 1000㎐를 초과하는 스펙트럼 범위에서 감쇠되게 상기 스펙트럼 성형을 수행하도록 구성되는,
    라우드스피커 신호들을 생성하기 위한 장치.
  40. 제29 항 내지 제39 항 중 어느 한 항에 있어서,
    상기 제2 라우드스피커 신호 세트 결정기(72)는, 상기 제2 가상 포지션이 상기 하나 이상의 수평 레이어들의 수직 위에 있도록, 그리고 상기 제2 부분 라우드스피커 신호들이 상기 적어도 하나의 오디오 신호에 대해, 200 내지 1000㎐의 노치 스펙트럼 범위에서 감쇠되고, 1000 내지 10㎑의 피크 스펙트럼 범위들 중 하나 이상 내에서 증폭되게 상기 스펙트럼 성형을 수행하도록 구성되거나, 또는
    상기 제2 라우드스피커 신호 세트 결정기(72)는, 상기 제2 가상 포지션이 상기 하나 이상의 수평 레이어들의 수직 아래에 있도록, 그리고 상기 제2 부분 라우드스피커 신호들이 상기 적어도 하나의 오디오 신호에 대해, 1000㎐를 초과하는 스펙트럼 범위 내에서 5 내지 10㎑에 위치되는 스펙트럼 하위 범위 내에서의 감쇠의 중간 감소로 상기 스펙트럼 범위에서 감쇠되고, 500㎐ 내지 1㎑로 증폭되게 상기 스펙트럼 성형을 수행하도록 구성되는,
    라우드스피커 신호들을 생성하기 위한 장치.
  41. 제29 항 내지 제40 항 중 어느 한 항에 있어서,
    상기 제2 라우드스피커 신호 세트 결정기(72)는,
    상기 의도된 가상 포지션이 상기 하나 이상의 수평 레이어들의 수직 위에 있다면, 상기 제2 가상 포지션을 상기 하나 이상의 수평 레이어들의 수직 위에 있도록 포지셔닝하고, 상기 제2 부분 라우드스피커 신호들이 상기 적어도 하나의 오디오 신호에 대해, 200 내지 1000㎐의 노치 스펙트럼 범위에서 감쇠되고, 1000 내지 10㎑의 피크 스펙트럼 범위들 중 하나 이상 내에서 증폭되게 상기 스펙트럼 성형을 수행하도록, 그리고
    상기 의도된 가상 포지션이 상기 하나 이상의 수평 레이어들의 수직 아래에 있다면, 상기 제2 가상 포지션을 상기 하나 이상의 수평 레이어들의 수직 아래에 있도록 포지셔닝하고, 상기 제2 부분 라우드스피커 신호들이 상기 적어도 하나의 오디오 신호에 대해, 1000㎐를 초과하는 스펙트럼 범위에서 감쇠되게 상기 스펙트럼 성형을 수행하도록 구성되는,
    라우드스피커 신호들을 생성하기 위한 장치.
  42. 제29 항 내지 제41 항 중 어느 한 항에 있어서,
    상기 컴포저는,
    상기 추가 패닝 이득들이 상기 제1 가상 포지션으로부터 상기 제2 가상 포지션을 향해 패닝하도록, 순수하게 상기 제1 부분 라우드스피커 신호들로부터 상기 라우드스피커 신호들을 구성하는 것에서 상기 제1 부분 라우드스피커 신호들 및 상기 제2 부분 라우드스피커 신호들로부터 상기 라우드스피커 신호들을 구성하는 것으로 페이드(fade)하도록 상기 추가 패닝 이득들을 제어함으로써,
    상기 하나 이상의 레이어들 내에 또는 상기 하나 이상의 레이어들 사이에 수직으로 있는 레이어 내 포지션으로부터 상기 하나 이상의 수평 레이어들로부터 수직으로 오프셋된 포지션으로의 상기 의도된 가상 포지션의 변화에 응답하도록 구성되는,
    라우드스피커 신호들을 생성하기 위한 장치.
  43. 시스템으로서,
    복수의 라우드스피커들, 및
    제1 항 내지 제42 항 중 어느 한 항에 따른 장치를 포함하는,
    시스템.
  44. 복수의 라우드스피커들(14)에서의 라우드스피커 신호들(12)의 인가가 의도된 가상 포지션(104)에서 적어도 하나의 오디오 객체를 렌더링하도록, 상기 복수의 라우드스피커들(14)에 대한 상기 라우드스피커 신호들(12)을 생성하기 위한 방법으로서,
    상기 적어도 하나의 오디오 객체를 나타내는 오디오 입력 신호(18)를 수신하는 단계,
    상기 의도된 가상 포지션에 따라, 상기 복수의 라우드스피커들 중 하나 이상의 제1 수평 레이어들의 제1 레이어 세트 내에 배열되는 제1 세트(26)의 라우드스피커들에 대한 제1 패닝 이득들(24)을 결정하는 단계 ― 상기 제1 패닝 이득들(24)은, 제1 가상 포지션(106)에서의 상기 적어도 하나의 오디오 객체의 렌더링과 연관되는 제1 부분 라우드스피커 신호들(28)을 상기 제1 세트(26)의 라우드스피커들에 인가할 때, 상기 적어도 하나의 오디오 입력 신호(18)로부터의 상기 제1 부분 라우드스피커 신호들(28)의 도출을 정의함 ―,
    상기 제1 가상 포지션(106)과 제2 포지션(102) 사이에서 패닝하기 위해, 상기 의도된 가상 포지션에 따라, 상기 제1 부분 라우드스피커 신호들(28)과 상기 제1 레이어 세트에 대해 수직으로 오프셋되는 제2 세트(36)의 하나 이상의 라우드스피커들에 인가될 그리고 상기 제2 포지션(102)에서의 적어도 하나의 오디오 객체의 렌더링과 연관되는 하나 이상의 제2 부분 라우드스피커 신호들(34) 사이의 패닝에 대한 추가 패닝 이득들(32)을 결정하는 단계,
    상기 제1 패닝 이득들(24) 및 상기 추가 패닝 이득들(32)을 사용하여 상기 오디오 입력 신호(18)로부터 상기 라우드스피커 신호들(12)을 구성하는 단계를 포함하는,
    라우드스피커 신호들을 생성하기 위한 방법.
  45. 복수의 라우드스피커들(14)에서의 라우드스피커 신호들(12)의 인가가 의도된 가상 포지션(104)에서 적어도 하나의 오디오 객체를 렌더링하도록, 상기 복수의 라우드스피커들(14)에 대한 상기 라우드스피커 신호들(12)을 생성하기 위한 방법으로서,
    상기 복수의 라우드스피커들은 하나 이상의 수평 레이어들 상에 분포되고,
    상기 방법은,
    상기 적어도 하나의 오디오 객체를 나타내는 오디오 입력 신호(18)를 수신하는 단계,
    상기 의도된 가상 포지션에 따라, 상기 복수의 라우드스피커들 중 제1 세트(26)의 라우드스피커들에 대한 제1 패닝 이득들(24)을 결정하고, 그리고 제1 가상 포지션(106)에서의 상기 적어도 하나의 오디오 객체의 렌더링과 연관되는 제1 부분 라우드스피커 신호들(28)을 상기 제1 세트(26)의 라우드스피커들에 인가할 때, 상기 제1 패닝 이득들(24)을 사용하여 상기 적어도 하나의 오디오 입력 신호(18)로부터 상기 제1 부분 라우드스피커 신호들을 도출하는 단계,
    스펙트럼 성형에 의해, 상기 적어도 하나의 오디오 입력 신호(18)로부터 제2 부분 라우드스피커 신호들(34)을 도출하는 단계 ― 상기 제2 부분 라우드스피커 신호들(34)은 상기 제2 부분 라우드스피커 신호들(34)을 제2 세트의 라우드스피커들(36)에 인가할 때 제2 가상 포지션(102)에서의 상기 적어도 하나의 오디오 객체의 렌더링과 연관되고, 상기 제2 가상 포지션은 상기 하나 이상의 수평 레이어들 위 또는 아래에 있음 ―,
    상기 의도된 가상 포지션에 따라 상기 제1 부분 라우드스피커 신호들 및 상기 제2 부분 라우드스피커 신호들에 대한 추가 패닝 이득들(32)을 결정하는 단계, 및
    상기 추가 패닝 이득들(32)을 사용하여 상기 제1 부분 라우드스피커 신호들 및 상기 제2 부분 라우드스피커 신호들로부터 상기 라우드스피커 신호들을 구성하는 단계를 포함하는,
    라우드스피커 신호들을 생성하기 위한 방법.
  46. 컴퓨터 상에서 실행될 때, 제44 항 또는 제45 항에 따른 방법을 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이 저장된,
    컴퓨터 판독 가능 디지털 저장 매체.
KR1020237031875A 2021-02-26 2022-02-25 오디오 객체들을 렌더링하기 위한 장치 및 방법 KR20230147674A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EPPCT/EP2021/054853 2021-02-26
PCT/EP2021/054853 WO2022179701A1 (en) 2021-02-26 2021-02-26 Apparatus and method for rendering audio objects
PCT/EP2022/054880 WO2022180248A2 (en) 2021-02-26 2022-02-25 Apparatus and method for rendering audio objects

Publications (1)

Publication Number Publication Date
KR20230147674A true KR20230147674A (ko) 2023-10-23

Family

ID=74797940

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237031875A KR20230147674A (ko) 2021-02-26 2022-02-25 오디오 객체들을 렌더링하기 위한 장치 및 방법

Country Status (12)

Country Link
US (1) US20230396950A1 (ko)
EP (1) EP4298799A2 (ko)
JP (1) JP2024507945A (ko)
KR (1) KR20230147674A (ko)
CN (1) CN117397256A (ko)
AU (1) AU2022225084A1 (ko)
BR (1) BR112023017225A2 (ko)
CA (1) CA3209747A1 (ko)
MX (1) MX2023009914A (ko)
TW (1) TWI821922B (ko)
WO (2) WO2022179701A1 (ko)
ZA (1) ZA202308151B (ko)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3236949A (en) 1962-11-19 1966-02-22 Bell Telephone Labor Inc Apparent sound source translator
EP2727381B1 (en) * 2011-07-01 2022-01-26 Dolby Laboratories Licensing Corporation Apparatus and method for rendering audio objects
EP2979467B1 (en) * 2013-03-28 2019-12-18 Dolby Laboratories Licensing Corporation Rendering audio using speakers organized as a mesh of arbitrary n-gons
EP3024253A1 (en) * 2014-11-21 2016-05-25 Harman Becker Automotive Systems GmbH Audio system and method
US20170188170A1 (en) * 2015-12-29 2017-06-29 Koninklijke Kpn N.V. Automated Audio Roaming
CN116709161A (zh) * 2016-06-01 2023-09-05 杜比国际公司 将多声道音频内容转换成基于对象的音频内容的方法及用于处理具有空间位置的音频内容的方法
SG11202009081PA (en) * 2018-04-09 2020-10-29 Sony Corp Information processing device and method, and program
EP3949446A1 (en) * 2019-03-29 2022-02-09 Sony Group Corporation Apparatus, method, sound system

Also Published As

Publication number Publication date
TW202234385A (zh) 2022-09-01
AU2022225084A1 (en) 2023-09-14
CN117397256A (zh) 2024-01-12
TWI821922B (zh) 2023-11-11
EP4298799A2 (en) 2024-01-03
WO2022180248A3 (en) 2022-10-13
BR112023017225A2 (pt) 2023-09-26
MX2023009914A (es) 2023-10-23
US20230396950A1 (en) 2023-12-07
WO2022179701A1 (en) 2022-09-01
ZA202308151B (en) 2024-04-24
JP2024507945A (ja) 2024-02-21
WO2022180248A2 (en) 2022-09-01
CA3209747A1 (en) 2022-09-01

Similar Documents

Publication Publication Date Title
US11178503B2 (en) System for rendering and playback of object based audio in various listening environments
Hacihabiboglu et al. Perceptual spatial audio recording, simulation, and rendering: An overview of spatial-audio techniques based on psychoacoustics
CN112930688B (zh) 考虑声学障碍物与提供扬声器信号的音频处理器及方法
US9860666B2 (en) Binaural audio reproduction
US9532158B2 (en) Reflected and direct rendering of upmixed content to individually addressable drivers
US9154896B2 (en) Audio spatialization and environment simulation
CN113170271B (zh) 用于处理立体声信号的方法和装置
US10419871B2 (en) Method and device for generating an elevated sound impression
EP3579584A1 (en) Controlling rendering of a spatial audio scene
US20190394596A1 (en) Transaural synthesis method for sound spatialization
JP6663490B2 (ja) スピーカシステム、音声信号レンダリング装置およびプログラム
TWI821922B (zh) 用以呈現音訊物件之設備與方法
US20230276186A1 (en) Loudspeaker control
US20220038838A1 (en) Lower layer reproduction
WO2024081957A1 (en) Binaural externalization processing

Legal Events

Date Code Title Description
A201 Request for examination