KR20220153079A - 큐 정보 항목을 이용한 공간 확장 음원을 합성하기 위한 장치 및 방법 - Google Patents

큐 정보 항목을 이용한 공간 확장 음원을 합성하기 위한 장치 및 방법 Download PDF

Info

Publication number
KR20220153079A
KR20220153079A KR1020227035529A KR20227035529A KR20220153079A KR 20220153079 A KR20220153079 A KR 20220153079A KR 1020227035529 A KR1020227035529 A KR 1020227035529A KR 20227035529 A KR20227035529 A KR 20227035529A KR 20220153079 A KR20220153079 A KR 20220153079A
Authority
KR
South Korea
Prior art keywords
channel
audio
sound source
spatially extended
extended sound
Prior art date
Application number
KR1020227035529A
Other languages
English (en)
Inventor
위르겐 헤레
알렌산더 아다미
칼로타 아네뮐러
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20220153079A publication Critical patent/KR20220153079A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Circuits Of Receivers In General (AREA)

Abstract

공간적으로 확장된 음원을 합성하기 위한 장치는: 최대 공간 범위(600) 내에서 상기 공간적으로 확장된 음원에 대해 제한된 공간 범위를 나타내는 공간 범위 표시를 수신하기 위한 공간 정보 인터페이스(100); 상기 제한된 공간 범위에 응답하여 하나 이상의 큐 정보 항목을 제공하는 큐 정보 제공자(200); 및 상기 하나 이상의 큐 정보 항목을 사용하여 상기 공간적으로 확장된 음원을 나타내는 오디오 신호를 처리하기 위한 오디오 프로세서(300)를 포함한다.

Description

큐 정보 항목을 이용한 공간 확장 음원을 합성하기 위한 장치 및 방법
본 발명은 오디오 신호 처리에 관한 것으로, 특히 하나 이상의 공간적으로 확장된 음원의 재생에 관한 것이다.
다양한 애플리케이션을 위해, 여러 확성기 또는 헤드폰을 통한 음원 재생이 필요하다. 이러한 애플리케이션은 6 자유도(6DoF) 가상, 혼합 또는 증강 현실 애플리케이션을 포함한다. 이러한 설정하에서 음원을 재생하는 가장 간단한 방법은 음원을 포인트 음원으로 렌더링하는 것이다. 그러나 무시할 수 없는 청각적 공간 범위로 물리적 음원을 재생하려고 할 때, 이 모델은 충분치가 않다. 이러한 음원의 예로는 그랜드 피아노, 합창단 또는 폭포가 있으며, 이들 모두는 특정 "규모"를 가지고 있다.
공간 범위를 가진 음원의 실제적인 재생은 많은 사운드 재생 방법의 대상이 되었다. 이것은 헤드폰을 사용한 바이노럴 재생 뿐만 아니라 2개의 스피커("스테레오")에서 수평면에 배열된 많은 스피커("서라운드 사운드") 및 3차원 모두에서 청취자를 둘러싸고 있는 많은 스피커("3D 오디오")에 이르기까지 확성기 설정을 사용하여 통상적인 재생을 포함한다. 이하, 기존 방법에 대한 설명이 제공된다. 따라서 서로 다른 방법은 2D 및 3D 공간 각각에서 음원 너비를 고려한 방법으로 그룹화한다.
청취자의 관점에서 바라보는 2D 표면에서 SESS를 렌더링하는 것과 관련된 방법이 설명된다. 이것은 예를 들어, (기존의 스테레오/서라운드 사운드의 경우처럼) 고도가 0도인 특정 방위각 범위 또는 (사용자 움직임의 3자유도(3DoF)가 있는 3D 오디오 또는 가상 현실(VR)의 경우, 즉 피치/요/롤 축에서 헤드 회전) 방위각과 고도의 특정 범위에 있을 수 있다.
(소위 팬텀 이미지 또는 팬텀 음원을 생성하는) 둘 이상의 확성기 사이에서 패닝되는 오디오 개체의 겉보기 너비를 늘리는 것은 참여 채널 신호의 상관 관계를 줄임으로써 달성할 수 있다[1, p.241-257].
상관관계가 감소할수록, 팬텀 음원의 확산은 0에 가까운 상관 값에 대해, 확성기 간의 전체 범위를 포함할 때 까지 증가한다. 음원 신호의 역상관 버전은 적절한 역상관 필터를 유도하고 적용하여 얻는다. Lauridsen [2]은 신호의 두 가지 역상관 버전을 얻기 위해 음원 신호의 시간 지연 및 크기 조정 버전을 자체에 더하거나 빼는 것을 제안했다. 더 복잡한 접근 방식은 예를 들어 Kendall[3]에 의해 제안되었다. 그는 난수 시퀀스의 조합을 기반으로 쌍을 이루는 역상관 전대역 통과 필터를 반복적으로 유도했다. Faller 외는 [4, 5]에서 적절한 역상관 필터("확산기")를 제안한다. 또한 Zotter 외 [6]은 주파수 종속 위상 또는 진폭 차이가 팬텀 음원의 확대를 달성하는 데 사용되는 필터 쌍을 유도했다. Alary 외[7]는 Schlecht 외[8]에 의해 추가로 최적화된 벨벳 노이즈에 기반하는 역상관 필터를 제안했다.
팬텀 음원의 해당 채널 신호의 상관 관계를 줄이는 것 외에도, 오디오 개체에 기인하는 팬텀 음원의 수를 늘려 음원 너비를 늘릴 수도 있다. [9]에서, 음원 폭은 동일한 음원 신호를 (약간) 다른 방향으로 패닝하여 제어된다. 이 방법은 원래 사운드 장면에서 이동할 때 VBAP 팬 [10] 음원 신호의 인지된 팬텀 음원 확산을 안정화하기 위해 제안되었다. 이것은 음원의 방향에 따라 렌더링된 음원은 두 개 이상의 스피커에서 재생되며, 이는 결과적으로 감지된 음원 너비가 원치 않게 변경될 수 있기 때문에 바람직하다.
가상 세계 DirAC[11]은 가상 세계의 사운드 합성을 위한 전통적인 방향성 오디오 코딩(DirAC)[12] 접근 방식의 확장이다. 공간적 범위를 렌더링하기 위해, 음원의 방향성 사운드 구성 요소는 음원의 원래 방향을 중심으로 특정 범위 내에서 무작위로 패닝되고, 이 때 패닝 방향은 시간과 빈도에 따라 다르다.
유사한 방법이 [13]에서 추구되고, 여기서 공간적 범위는 음원 신호의 주파수 대역을 다른 공간 방향으로 무작위로 분배하여 달성된다. 이것은 정확한 범위의 정도를 조절하기 보다는 모든 방향으로부터 동일하게 들리는 공간적으로 분산되는 포위음을 생성하는 데에 주안점을 둔 방법이다.
Verron 외는 패닝된 상관 신호를 사용하지 않고, 음원 신호의 여러 가지 일관성 없는 버전을 합성하고 청취자 주위에서 원에 균일하게 분산시키고 이들 사이를 혼합하여 음원의 공간적 범위를 성취했다[14]. 동시에 활성화된 음원의 수와 이득은 확장 효과의 강도를 결정한다. 이 방법은 환경 소리를 위한 신디사이저로의 공간 확장으로 구현되었다.
확장된 음원을 3D 공간에서, 즉, 사용자 움직임의 6DoF가 있는 VR에 필요한 체적 방식으로 렌더링하는 것과 관련된 방법이 설명되어 있다. 이들 6-자유도는 피치/요/롤 축의 헤드 회전에 3개의 병진 이동 방향 x/y/z를 더하여 포함한다.
Potard 외는 음원 모양의 인식을 연구함으로써 음원 범위의 개념을 음원의 1차원 매개변수(즉, 두 확성기 사이의 너비)로 확장했다[15]. 이들은 (시간에 따라 변하는) 역상관 기술을 원래 음원 신호에 적용한 다음 일관성 없는 음원을 다른 공간 위치에 배치하고 이들에 3차원 범위를 제공함으로써 여러 일관성 없는 포인트 음원을 생성했다[16].
MPEG-4 Advanced AudioBIFS[17]에서, 입체적 개체/모양(껍질, 상자, 타원체 및 실린더)은 3차원 음원 범위를 불러일으키기 위해 균등하게 분포되고 상관 관계가 없는 여러 음원으로 채워질 수 있다.
최근에, Schlecht 외[18]는 SESS 기하학의 볼록 껍질(convex hull)을 청취자 위치로 투영하는 접근 방식을 제안했으며, 이렇게 하면 수신기에 대한 상대적 위치에서 SESS를 렌더링할 수 있다. MPEG-4 개선된 AudioBIFS와 유사하게, 이 투영 내에 여러 역상관된 포인트 음원이 배치된다.
앰비소닉을 사용하여 음원 범위를 늘리고 제어하기 위해, Schmele 외[19]는 입력 신호의 앰비소닉 차수를 줄이는 혼합을 제안했으며, 이는 본질적으로 명백한 음원 폭을 증가시키고, 청취 공간 주변에 음원 신호의 역상관된 복사본을 배포한다.
다른 접근법은 Zotter 등에 의해 도입되며, 여기서 이들은 [6]에서 앰비소닉[20]에 대해 제안된 원칙을 채택했다(즉, 스테레오 재생 설정에서 음원 확장을 달성하기 위해 주파수 종속 위상 및 크기 차이를 도입하는 필터 쌍을 유도함).
패닝 기반 접근 방식(예: [10, 9, 12, 11])의 일반적인 단점은 청취자의 위치에 의존한다는 것이다. 가장 좋은 지점에서 조금만 벗어나도 공간 이미지는 청취자에게 가장 가까운 확성기로 빠지게 된다. 이는 청취자가 자유롭게 움직일 수 있는 VR 및 증강 현실(AR)의 맥락에서 이들의 적용을 크게 제한한다. 추가적으로, DirAC 기반 접근법(예: [12, 11])에서 시간-주파수 빈을 분포하는 것이 팬텀 음원의 공간 범위에 대한 적절한 렌더링을 항상 보장하는 것은 아니다. 또한, 일반적으로 음원 신호의 음색을 크게 저하시킨다.
음원 신호의 역상관은 일반적으로 다음 방법 중 하나로 수행된다: i) 상보적 크기를 갖는 필터 쌍의 유도(예: [2]), 또는 ii) 크기는 일정하지만 (무작위로) 스크램블된 위상을 갖는 전대역 통과 필터를 사용한다(예: [3, 16]). 뿐만 아니라, 음원 신호의 확장은 음원 신호의 시간-주파수 빈을 공간적으로 무작위로 분배하여 얻는다(예: [13]).
모든 접근 방식은 고유한 의미가 있다. i)에 따른 음원 신호의 상보적 필터링은 일반적으로 역상관된 신호의 지각된 음색이 변경된다. ii)에서와 같이 전대역 통과 필터링이 음원 신호의 음색을 보존하는 동안, 스크램블된 위상은 원래의 위상 관계를 방해하고 특히 과도 신호의 경우 심각한 분산 및 번짐 아티팩트를 유발한다. 시간-주파수 빈을 공간적으로 분배하는 것은 일부 신호에 효과적인 것으로 판명되었지만 신호의 인지된 음색도 변경한다. 이는 신호 의존도가 높은 것으로 나타났으며 충동 신호에 대해 심각한 아티팩트를 도입했다.
개선된 AudioBIFS([17, 15, 16])에서 제안된 것처럼 음원 신호의 여러 역상관 버전으로 체적 모양을 채우는 것은 상호 역상관된 출력 신호를 생성하는 많은 수의 필터를 사용할 수 있다고 가정한다(일반적으로 체적 형상당 10개 이상의 포인트 음원이 사용된다). 하지만, 이러한 필터를 찾는 것은 사소한 작업이 아니며 그러한 필터가 더 많이 필요할수록 더 어려워진다. 음원 신호가 완전히 역상관되지 않고 예를 들어 VR 시나리오에서 청취자가 그러한 모양 주위에서 이동하는 경우, 청취자까지의 개별 음원 거리는 음원 신호의 서로 다른 지연에 해당한다. 따라서 청취자의 귀에 중첩되면 위치 종속적인 콤-필터링이 발생하여, 잠재적으로 음원 신호의 성가신 불안정한 음색을 유발할 수 있다. 뿐만 아니라, 많은 역상관 필터의 적용은 많은 계산 복잡성을 의미한다.
유사한 고려 사항이 [18]에 설명된 접근 방식에 적용되고, 여기서 다수의 역상관된 포인트 음원이 SESS 기하학의 볼록 껍질 투영에 배치된다. 저자는 필요한 개수의 역상관된 보조 음원에 대해서는 언급하지 않지만, 설득력 있는 음원 범위를 달성하려면 잠재적으로 많은 수가 필요하다. 이것은 이전 단락에서 이미 논의된 단점으로 이어진다.
앰비소닉 차수를 낮추어 [19]에 설명된 앰비소닉 기반 기술을 사용하여 음원 너비를 제어하게 되면 2차에서 1차 또는 0차로의 전환에만 가청 효과가 있는 것으로 나타났다. 이러한 전환은 음원 확장으로 인식될 뿐만 아니라 팬텀 음원의 움직임으로 자주 인식된다. 음원 신호의 역상관 버전을 추가하면 명백한 음원 폭의 인식을 안정화하는 데 도움이 될 수 있지만, 이것은 또한 팬텀 음원의 음색을 변경하는 콤-필터 효과를 도입하게 된다.
본 발명의 목적은 공간적으로 확장된 음원을 합성하는 개선된 개념을 제공하는 것이다.
이러한 목적은 제1항의 공간적으로 확장된 음원을 합성하기 위한 장치, 제23항의 공간적으로 확장된 음원을 합성하는 방법, 또는 제24항의 컴퓨터 프로그램에 의해 달성된다.
본 발명은 최대 공간 범위 내에서 공간적으로 확장된 음원에 대한 제한된 공간 목표 범위를 나타내는 공간적 범위 표시를 사용함으로써 공간적으로 확장된 음원의 재생이 효율적으로 달성될 수 있다는 발견에 기초한다. 공간 범위 표시를 기반으로, 특히 제한된 공간 범위를 기반으로 하여, 하나 이상의 큐 정보 항목이 제공되고, 프로세서는 하나 이상의 큐 항목을 사용하여 공간적으로 확장된 음원을 나타내는 오디오 신호를 처리한다.
이 과정은 공간적으로 확장된 음원을 매우 효율적으로 처리한다. 예를 들어, 헤드폰 재생을 위해서는 2개의 바이노럴 채널, 즉 좌측 바이노럴 채널 또는 우측 바이노럴 채널만이 필요하다. 스테레오 재생의 경우에도, 두 개의 채널만 필요하다. 따라서, 공간적으로 확장된 음원의 실제 볼륨이나 면적을 채우는 상당한 수의 주변 음원을 이용하여 공간적으로 확장된 음원을 합성하거나, 일반적으로 개별 배치로 인해 제한된 공간 범위를 채우는 것과는 달리, 본 발명에 따르면 이것이 요구되지 않는데, 왜냐하면 공간적으로 확장된 음원은 볼륨 내에 배치된 상당한 수의 개별 음원을 사용하여 렌더링되지 않고, 공간적으로 확장된 음원은 2개 또는 3개의 위치에서 많은 수의 주변 개별 음원이 수신될 때 획득될 수 있는 서로에 대해 특정 큐를 갖는 2개 또는 아마도 3개의 채널을 사용하여 렌더링되기 때문이다.
따라서 공간적으로 확장된 음원(SESS)을 현실성 있게 재생하는 것을 목표로 하는 기존의 다양한 방법과 달리 - 이 때 이들 기존 방법에서는 일반적으로 많은 수의 역상관된 입력 신호를 필요로 함 -, 본 발명은 다른 방향으로 간다. 이러한 역상관된 입력 신호를 생성하는 것은 계산 복잡도 측면에서 상대적으로 비용이 많이 들 수 있다. 기존의 기존 방법은 음색 차이 또는 음색 번짐을 통해 사운드의 인지된 품질을 손상시킬 수도 있다. 그리고 다수의 상호 직교 역상관자를 구하는 것은 일반적으로 문제를 해결하는 쉬운 방법이 아니다. 따라서, 이런 초기 절차는 필요로 하는 높은 계산 자원과는 별도로 상호 역상관의 정도와 도입된 신호 열화 사이의 절충을 항상 초래한다.
그에 반해, 본 발명은 2개의 역상관된 입력 신호만을 사용하여 공간적으로 확장된 음원에 대한 최종 좌측 채널 및 최종 우측 채널과 같은 최종 적은 수의 채널을 합성한다. 바람직하게는, 합성 결과는 헤드폰 재생을 위한 왼쪽 및 오른쪽 귀 신호이다. 그러나 확성기 렌더링 또는 능동 크로스토크 감소 확성기 렌더링과 같은 다른 종류의 재생 시나리오의 경우, 본 발명도 적용될 수 있다. 공간적으로 확장된 음원을 위해 볼륨 내의 서로 다른 위치에 많은 서로 다른 상관 관계가 없는 사운드 신호를 배치하는 대신에, 하나 이상의 채널로 구성된 공간적으로 확장된 음원에 대한 오디오 신호는 공간 정보 인터페이스로부터 수신된 제한된 공간 범위 표시에 응답하여 큐 정보 제공자로부터 파생된 하나 이상의 큐 정보 항목을 사용하여 처리된다.
바람직한 실시예는 헤드폰 재생을 위한 SESS를 효율적으로 합성하는 것을 목표로 한다. 따라서 합성은 전체 음원 범위 범위에 걸쳐 분포된 (이상적으로는) 무한한 수의 조밀하게 배치된 역상관된 포인트 음원에 의해 SESS를 설명하는 기본 모델을 기반으로 한다. 원하는 음원 범위는 방위각 및 앙각의 함수로 표현될 수 있으며, 이는 본 발명의 방법을 3DoF 애플리케이션에 적용 가능하게 할 수 있다. 그러나 [18]에서 설명된 대로 현재 청취자 위치 방향으로 SESS 기하학을 지속적으로 투영함으로써, 6DoF 애플리케이션으로의 확장이 가능하다. 구체적인 예로서, 원하는 음원 범위는 방위각 및 앙각 범위의 측면에서 이하와 같이 설명된다.
추가의 바람직한 실시예는 큐 정보로서 채널간 상관 값의 사용에 의존하거나, 추가적으로 채널간 위상차, 채널간 시간차, 레벨간 차이 및 이득 인자 또는 제1 및 제2 이득 인자 정보 항목의 쌍을 사용한다. 따라서, 채널의 절대 레벨은 두 가지 이득 요인 또는 단일 이득 요인 및 채널 간 레벨 차에 의해 설정될 수 있다. 실제 큐 항목 대신, 또는 실제 큐 항목에 추가하여, 오디오 필터 함수는 큐 정보 제공자로부터 오디오 프로세서로 큐 정보 항목으로 제공될 수도 있으므로, 오디오 프로세서는 실제 큐 항목의 애플리케이션을 사용하여 예를 들어 두 개의 바이노럴 출력 채널 또는 한 쌍의 왼쪽 및 오른쪽 출력 채널과 같은 두 개의 출력 채널을 합성하고, 선택적으로 각 채널에 대한 헤드 관련 전달 함수를 큐 정보 항목으로 사용하거나, 헤드 관련 임펄스 응답 함수를 큐 정보 항목으로 사용하거나, 큐 정보 항목으로 바이노럴 또는 (비 바이노럴) 룸 임펄스 응답 함수를 사용하여 필터링하는 것으로 동작한다. 일반적으로, 단일 큐 항목만 설정하는 것으로 충분할 수 있지만, 보다 정교한 실시예에서 필터가 있거나 없는 둘 이상의 큐 항목이 오디오 프로세서에 의해 오디오 신호에 부과될 수 있다.
따라서, 일 실시예에서 채널간 상관 값이 큐 정보 항목으로 제공되는 경우, 및 오디오 신호가 공간적으로 확장된 음원에 대한 제1 오디오 채널 및 제2 오디오 채널을 포함하는 경우, 또는 오디오 신호가 제1 오디오 채널 및 예를 들어, 역상관된 신호로 간주될 수 있는 신호를 유도하기 위한 역상관 처리 또는 신경망 처리 또는 임의의 다른 처리를 구현하는 제2 채널 프로세서에 의해 제1 오디오 채널로부터 파생되는 제2 오디오 채널을 포함하는 경우, 오디오 프로세서는 채널간 상관 값을 사용하여 제1 오디오 채널과 제2 오디오 채널 사이에 상관을 부과하도록 구성되며, 이 처리에 추가로 또는 이 처리 전 또는 후에, 채널간 상관 값에 의해 표시되는 타겟 채널간 상관을 가지며 추가적으로 개별 필터 함수 또는 다른 실제 큐 항목에 의해 표시되는 다른 관계를 갖는 두 개의 출력 채널을 최종적으로 얻기 위해 오디오 필터 함수가 또한 적용될 수 있다.
큐 정보 제공자는 메모리를 포함하는 룩업 테이블 또는 가우시안 혼합 모델 또는 서포트 벡터 머신 또는 벡터 코드북, 다차원 함수 fit또는 공간 범위 표시에 대한 응답으로 필요한 신호를 효율적으로 제공하는 일부 다른 장치로 구현될 수 있다.
예를 들어, 룩업 테이블 예에서, 또는 벡터 코드북 또는 다차원 함수 핏 예에서 또는 GMM 또는 SVM 예에서도, 이미 사전 지식을 제공하는 것이 가능하므로, 공간 정보 인터페이스의 주된 임무는 모든 가용한 후보 공간 범위 중에서 입력된 공간 범위 지시 정보와 최대한 일치하는 매칭 후보 공간 범위를 실제로 찾는 것이다. 이 정보는 사용자를 통해 직접 제공되거나 공간적으로 확장된 음원에 대한 정보를 사용하여 계산될 수 있으며 일종의 투영 계산에 의해 청취자 위치 또는 청취자 방향(예: 헤드 트래커 또는 그러한 장치에 의해 결정됨)을 사용하여 계산될 수 있다. 물체의 기하학이나 크기 및 청취자와 물체 사이의 거리는 개방각 및 이에 따라 음원의 렌더링을 위한 제한된 공간 범위를 유도하기에 충분할 수 있다. 다른 실시예에서, 공간 정보 인터페이스는 인터페이스에 의해 수신된 데이터가 이미 큐 정보 제공자가 사용할 수 있는 형식일 때, 제한된 공간 범위를 수신하고 이 데이터를 큐 정보 제공자에게 전달하기 위한 입력일 뿐이다.
이하, 본 발명의 바람직한 실시예가 첨부된 도면과 관련하여 설명한다:
도 1a는 공간적으로 확장된 음원을 합성하기 위한 장치의 바람직한 구현을 도시한다;
도 1b는 오디오 프로세서 및 큐 정보 제공자의 다른 실시예를 도시한다;
도 2는 도 1a의 오디오 프로세서 내에 포함된 제2 채널 프로세서의 바람직한 실시예를 도시한다;
도 3은 ICC 조정을 수행하기 위한 장치의 바람직한 구현을 도시한다;
도 4는 큐 정보 항목이 실제 큐 항목 및 필터에 의존하는 본 발명의 바람직한 실시예를 도시한다;
도 5는 필터 및 채널간 상관 항목에 추가적으로 의존하는 다른 실시예를 도시한다;
도 6은 2차원 또는 3차원 상황에서 최대 공간 범위 및 예를 들어 후보 섹터로서 사용될 수 있는 개별 섹터 또는 제한된 공간 범위를 예시하는 개략적인 섹터 맵을 도시한다;
도 7은 공간 정보 인터페이스의 구현을 도시한다;
도 8은 투영 계산 절차에 의존하는 공간 정보 인터페이스의 다른 구현을 도시한다;
도 9a 및 도 9b는 투영 계산 및 공간 범위 결정을 수행하기 위한 실시예를 도시한다;
도 10은 공간 정보 인터페이스의 다른 바람직한 구현을 도시한다;
도 11은 디코더 구현과 관련된 공간 정보 인터페이스의 또 다른 구현을 예시한다;
도 12는 구형의 공간적으로 확장된 음원에 대한 제한된 공간 범위의 계산을 도시한다;
도 13은 타원체의 공간적으로 확장된 음원에 대한 제한된 공간 범위의 추가 계산을 예시한다;
도 14는 선형상의 공간적으로 확장된 음원에 대한 제한된 공간 범위의 추가 계산을 예시한다;
도 15는 직육면체의 공간적으로 확장된 음원에 대한 제한된 공간 범위의 계산을 위한 추가 예시를 도시한다;
도 16은 구형의 공간적으로 확장된 음원에 대한 제한된 공간 범위를 계산하기 위한 추가 예를 도시한다;
도 17은 대략적인 매개변수의 타원체 형상을 갖는 피아노 형상의 공간적으로 확장된 음원을 도시한다; 및
도 18은 피아노 형태의 공간적으로 확장된 음원의 렌더링을 위한 제한된 공간 범위를 정의하기 위한 지점을 도시한다.
도 1a는 공간적으로 확장된 음원을 합성하기 위한 장치의 바람직한 구현을 도시한다. 장치는 최대 공간 범위 내에서 공간적으로 확장된 음원에 대한 제한된 공간 범위를 나타내는 공간 범위 표시 정보 입력을 수신하는 공간 정보 인터페이스(10)를 포함한다. 제한된 공간 범위는 공간 정보 인터페이스(10)에 의해 주어진 제한된 공간 범위에 응답하여 하나 이상의 큐 정보 항목을 제공하도록 구성된 큐 정보 제공자(200)에 입력된다. 큐 정보 항목 또는 여러 개의 큐 정보 항목은 큐 정보 제공자(200)에 의해 제공되는 하나 이상의 큐 정보 항목을 사용하여 공간적으로 확장된 음원을 나타내는 오디오 신호를 처리하도록 구성된 오디오 프로세서(300)에 제공된다. 공간적으로 확장된 음원(SESS)을 위한 오디오 신호는 단일 채널일 수 있거나 제1 오디오 채널 및 제2 오디오 채널일 수 있거나 두 개 이상의 오디오 채널일 수 있다. 그러나 낮은 처리 부하를 가지기 위해서는, 공간적으로 확장된 음원을 위해 또는 공간적으로 확장된 음원을 나타내는 오디오 신호에 대해 적은 수의 채널이 선호된다. 오디오 신호는 오디오 프로세서(300)의 오디오 신호 인터페이스(305)로 입력되고 오디오 프로세서(300)는 오디오 신호 인터페이스에 의해 수신된 입력 오디오 신호를 처리하거나, 입력 오디오 채널의 수가 요구되는 것보다 1개보다 작은 경우, 오디오 프로세서는 예를 들어, 도 2에서 S1로 도시된 제1 오디오 채널 S로부터 역상관된 제2 오디오 채널 S2를 생성하기 위한 역상관기를 포함하는, 도 2에 도시된 제2 채널 프로세서(310)를 포함한다. 큐 정보 항목은 예를 들어, 채널 간 레벨 차이 및/또는 절대 진폭 또는 전력 또는 에너지 레벨을 함께 나타내는, 채널 간 상관 항목, 채널 간 위상 차이 항목, 채널 간 레벨 차이 및 게인 항목, 게인 요소 항목 G1, G2와 같은 실제 큐 항목일 수 있고, 또는 큐 정보 항목은 합성 신호에서 합성될 출력 채널의 실제 수에 의해 요구되는 수를 갖는 헤드 관련 전달 함수와 같은 실제 필터 함수일 수도 있다. 따라서, 합성 신호가 2개의 바이노럴 채널 또는 2개의 확성기 채널과 같이 2개의 채널을 가질 때, 각 채널에 대해 하나의 헤드 관련 전달 함수가 필요하다. 헤드 관련 전달 함수 대신에, 헤드 관련 임펄스 응답 함수(HRIR) 또는 바이노럴 또는 비 바이노럴 실내 임펄스 응답 함수((B)RIR)가 필요하다. 도 1a에 도시된 바와 같이, 이러한 전송 함수는 각 채널에 필요하고 도 1a는 인덱스가 "1" 및 "2"를 나타내도록 2개의 채널을 갖는 구현을 예시한다.
일 실시예에서, 큐 정보 제공자(200)는 큐 정보 항목으로서 채널간 상관 값을 제공하도록 구성된다. 오디오 프로세서(300)는 오디오 신호 인터페이스(305)를 통해 제1 오디오 채널 및 제2 오디오 채널을 실제로 수신하도록 구성된다. 그러나, 오디오 신호 인터페이스(305)가 단일 채널만을 수신할 때, 선택적으로 제공된 제2 채널 프로세서는 예를 들어, 도 2의 절차에 의해 제2 오디오 채널을 생성한다. 오디오 프로세서는 채널간 상관 값을 사용하여 제1 오디오 채널과 제2 오디오 채널 사이에 상관을 부과하기 위해 상관 처리를 수행한다.
추가적으로, 또는 대안적으로, 채널간 위상차 항목, 채널간 시간차 항목, 채널간 레벨 차이 및 이득 항목, 또는 제1 이득 인자 및 제2 이득 인자 정보 항목과 같은 추가 큐 정보 항목이 제공될 수 있다. 이 항목은 또한 양귀간(IACC) 상관 값, 즉 보다 구체적인 채널간 상관 값, 또는 양귀간 위상차 항목(IAPD), 즉 보다 구체적인 채널간 위상차 값일 수 있다.
바람직한 실시예에서, ICPD, ICTD 또는 ICLD 조정이 수행되기 전에, 또는 HRTF 또는 기타 전달 필터 함수 처리가 수행되기 전에, 상관 큐 정보 항목에 응답하여 오디오 프로세서(300)에 의해 상관이 부과되다. 다만, 경우에 따라 순서를 달리할 수 있다.
바람직한 실시예에서, 오디오 프로세서는 상이한 공간 범위 표시와 관련하여 상이한 큐 정보 항목에 대한 정보를 저장하기 위한 메모리를 포함한다. 이러한 상황에서, 큐 정보 제공자는 메모리로부터 대응하는 메모리에 입력된 공간 범위 표시와 연관된 하나 이상의 큐 정보 항목을 검색하기 위한 출력 인터페이스를 추가로 포함한다. 이러한 룩업 테이블(210)은, 예를 들어, 도 1b, 4 또는 5에 도시되어 있으며, 여기서 룩업 테이블은 메모리 및 대응하는 큐 정보 항목을 출력하기 위한 출력 인터페이스를 포함한다. 특히, 메모리는 도 1b와 같이 IACC, IAPD 또는 Gl 및 Gr 값을 저장할 뿐만 아니라, 룩업 테이블 내의 메모리는 또한 "HRTF 선택"으로 표시된 도 4 및 도 5의 블록(220)에 예시된 바와 같이 필터 함수를 저장할 수 있다. 본 실시예에서는, 도 4 및 도 5에 별도로 도시하였지만, 블록(210, 220)은 동일한 메모리를 포함할 수 있으며, 여기서 방위각 및 앙각으로 표시된 해당 공간 범위 표시와 관련하여, IACC 및 선택적으로 IAPD와 같은 해당 큐 정보 항목 및 왼쪽 출력 채널에 대한 HRTF1 및 오른쪽 출력 채널에 대한 HRTFr과 같은 필터에 대한 전달 함수가 저장되고, 여기서 왼쪽 및 오른쪽 출력 채널은 도 4 또는 도 5 또는 도 1b에서 S1 및 Sr로 표시된다.
룩업 테이블(210) 또는 선택 함수 블록(220)이 사용하는 메모리는 또한 저장 장치를 사용할 수 있으며, 여기서 특정 섹터 코드 또는 섹터 각도 또는 섹터 각도 범위를 기반으로 해당 매개변수는 사용 가능하다. 또는, 메모리는 경우에 따라 벡터 코드북, 다차원 함수 fit 루틴, 가우시안 혼합 모델(GMMl) 또는 서포트 벡터 머신(SVM)을 저장할 수 있다.
원하는 음원 범위 범위가 주어지면, SESS는 2개의 역상관된 입력 신호를 사용하여 합성된다. 이러한 입력 신호는 지각적으로 중요한 청각 신호가 올바르게 재생되는 방식으로 처리된다. 이것은 다음과 같은 바이노럴 큐를 포함한다: 양귀간 교차 상관(IACC), 양귀간 위상차(IAPD) 및 양귀간 레벨 차이(IALD). 그 외에도, 모노럴 스펙트럼 큐가 재현된다. 이들은 주로 수직면에서 음원 위치 파악에 중요하다. IAPD 및 IALD는 로컬라이제이션 목적으로도 주로 중요하지만, IACC는 수평면에서 음원 너비 인식에 중요한 큐로 알려져 있다. 런타임 동안, 이 큐의 목표 값은 미리 계산된 저장소에서 검색된다. 다음에서는 이러한 목적을 위해 룩업 테이블이 사용된다. 하지만, 다차원 데이터를 저장하는 다른 모든 수단, 예를 들어, 벡터 코드북 또는 다차원 함수 fit이 사용될 수 있다. 고려된 음원 범위 범위를 제외하고, 모든 큐는 사용된 헤드 관련 전달 함수(HRTF) 데이터 세트에만 의존한다. 나중에, 다른 청각 신호의 파생이 주어진다.
도 1b에서, 제안하는 방법의 일반적인 블록도를 나타낸다. [Φ12]는 방위각 범위 측면에서 원하는 음원 범위를 설명한다. [θ12]는 앙각 범위 측면에서 원하는 음원 범위이다. S1(ω) 및 S2(ω)는 2개의 역상관된 입력 신호를 나타내며, ω는 빈도 지수를 설명한다. 따라서 S1(ω) 및 S2(ω)에 대해 다음 방정식이 성립한다.
Figure pct00001
추가하여, 두 입력 신호 모두 동일한 전력 스펙트럼 밀도를 가질 필요가 있다. 대안적으로, 하나의 입력 신호 S(ω)만 제공하는 것이 가능한다. 제2 입력 신호는 도 2에서 도시한 바와 같이 역상관기를 사용하여 내부적으로 생성된다. Sl(ω) 및 Sr(ω)이 주여지면, 확장된 음원은 인터채널 코히어런스(ICC), 채널간 위상차(ICPD) 및 채널간 레벨 차(ICLD)를 해당하는 양귀간 큐와 일치하도록 연속적으로 조정하여 합성된다. 이러한 처리 단계에 필요한 수량은 미리 계산된 룩업 테이블에서 읽는다. 결과적으로 발생하는 왼쪽 및 오른쪽 채널 신호인 Sl(ω) 및 Sr(ω)은 헤드폰을 통해 재생할 수 있으며 SESS와 유사한다. ICC 조정이 먼저 수행되어야 하지만, ICPD 및 ICLD 조정 블록은 상호 교환될 수 있다. IAPD 대신에, 해당하는 양귀간 시간차(IATD)도 또한 재생될 수 있다. 그러나, 이하에서는 IAPD만이 더욱 고려된다.
ICC 조정 블록에서, 두 입력 신호 간의 상호 상관은 다음 공식을 사용하여 원하는 값 |IACC(ω)|으로 조정될 수 있다[21]:
Figure pct00002
Figure pct00003
Figure pct00004
Figure pct00005
입력 신호 S1(ω) 및 S2(ω)가 완전히 역상관되는 한, 이 공식을 적용하면 원하는 상호 상관 관계가 생성된다. 또한 전력 스펙트럼 밀도가 동일해야 한다. 해당 블록도는 도 3에 도시된다.
ICPD 조정 블록은 다음 공식으로 설명된다:
Figure pct00006
Figure pct00007
마지막으로. ICLD 조정은 다음과 같이 수행된다:
Figure pct00008
Figure pct00009
여기서 Gl(ω)은 왼쪽 귀 이득을 설명하고 Gr(ω)은 오른쪽 귀 이득을 설명한다. 이로써
Figure pct00010
Figure pct00011
가 동일한 전력 스펙트럼 밀도를 갖는 한, 원하는 ICLD가 결과된다. 좌우 귀 게인이 직접 사용되므로, 모노럴 스펙트럼 큐는 IALD에 추가로 재생된다.
이전에 논의된 방법을 더 단순화하기 위해 단순화를 위한 두 가지 옵션이 설명된다. 상술된 바와 같이, (수평면에서) 지각된 공간 범위에 영향을 미치는 주요 양귀간 신호는 IACC이다. 따라서 미리 계산된 IAPD 및/또는 IALD 값을 사용하지 않고, HRTF를 통해 직접 조정하는 것을 생각할 수 있다. 이 목적을 위해, 원하는 음원 범위 범위를 나타내는 위치에 해당하는 HRTF가 사용된다. 이 입장으로서, 원하는 방위각/고도 범위의 평균은 일반성을 잃지 않고 여기에서 선택된다. 이하, 두 옵션에 대한 설명이 제공된다.
제1 옵션은 미리 계산된 IACC 및 IAPD 값을 사용하는 것이다. 그러나 ICLD는 음원 범위 범위의 중심에 해당하는 HRTF를 사용하여 조정된다.
제1 옵션의 블록 다이어그램이 도 4에 도시된다. Sl(ω) 및 Sr(ω)은 이하 다음 공식을 사용하여 계산된다:
Figure pct00012
Figure pct00013
여기서
Figure pct00014
Figure pct00015
는 원하는 방위각/고도 범위의 평균을 나타내는 HRTF의 위치를 나타낸다. 제1 옵션의 주요 이점은 다음과 같다:
* 음원 범위 범위의 중앙에 있는 포인트 음원와 비교하여 음원 범위가 증가할 때 스펙트럼 형성/음색은 없다.
* Gl(ω) 및 Gr(ω)을 룩업 테이블에 저장할 필요가 없기 때문에, 본격적인 방식에 비해 메모리 요구 사항이 낮다.
ICLD가 아닌, 최종 ICC 및 ICPD만 사전 계산 중에 사용된 HRTF 데이터 세트에 의존하므로, 본격적인 방법에 비해 런타임 중 HRTF 데이터 세트의 변경에 더 유연하다.
이 단순화된 버전의 주요 단점은 확장되지 않은 음원에 비해, IALD에 급격한 변화가 발생할 때마다 실패한다는 것이다. 이 경우, IALD는 충분한 정확도로 재생되지 않는다. 이것은 예를 들어 음원이 방위각 0°주위에 중심에 있지 않고 동시에 수평 방향의 음원 범위가 너무 커지는 경우이다.
제2 옵션은 미리 계산된 IACC 값만 사용하는 것이다. ICPD 및 ICLD는 음원 익스텐트 범위의 중심에 해당하는 HRTF를 사용하여 조정된다.
제2 옵션의 블록 다이어그램이 도 5에 도시된다. Sl(ω) 및 Sr(ω)은 이하 다음 공식을 사용하여 계산된다:
Figure pct00016
Figure pct00017
제1 옵션과 달리, HRTF의 위상과 크기는 이제 크기만 대신 사용된다. 이를 통해 ICLD 뿐만 아니라 ICPD도 조정할 수 있다. 제2 옵션의 주요 이점은 다음과 같다:
* 제1 옵션의 경우, 음원 범위가 음원 범위 중앙에 있는 포인트 음원에 비해 증가할 때 스펙트럼 형상/색조가 발생하지 않는다.
* Gl(ω) 및 Gr(ω) 또는 IAPD가 룩업 테이블에 저장될 필요가 없기 때문에, 제1 옵션에 대한 것 보다 메모리 요구 사항이 훨씬 더 낮다.
* 제1 옵션과 비교하여, 런타임 중 HRTF 데이터 세트의 변경에 훨씬 더 유연한다. 최종 ICC만이 사전 계산 중에 사용된 HRTF 데이터 세트에 따라 다르다.
* 단순히 두 개의 다른 입력
Figure pct00018
Figure pct00019
가 왼쪽 및 오른쪽 귀 신호 생성에 사용되어야 하므로, 기존의 양귀간 렌더링 시스템과의 효율적인 통합이 가능하다.
제1 옵션의 경우, 이 단순화된 버전은 확장되지 않은 음원와 비교하여 IALD에 급격한 변화가 발생할 때마다 실패한다. 또한 IAPD의 변경 사항은 확장되지 않은 음원에 비해 너무 크지 않아야 한다. 그러나 확장 음원의 IAPD는 음원 익스텐트 범위의 중앙에 있는 포인트 음원의 IAPD에 다소 가깝기 때문에, 후자는 큰 문제가 되지 않을 것으로 예상된다.
도 6은 예시적인 개략적인 섹터 맵을 도시한다. 특히, 도식적 섹터 맵은 600으로 도시되어 있고, 도식적 섹터 맵(600)은 최대 공간 범위를 나타낸다. 도식적 섹터 맵이 방위각 및 앙각 범위는 방위각에 대해 0°에서 360°까지, 앙각의 경우 -90°에서 +90°까지를 표시하여 의도되는, 구의 3차원 표면 중 2차원 도시인 것으로 간주되는 경우, 도식적인 섹터 맵을 구체로 감싸고 구체의 중심 내에 청취자 위치를 배치할 때, 일부 예에 의해 예시적으로 예시된 모든 개별 섹터, 즉 S1 내지 S24는 전체 구형 표면을 섹터로 세분할 수 있다는 것이 명백해진다. 따라서 예를 들어 섹터 S3은 도 1b, 도 4, 도 5의 표기가 적용될 때, Φ1 = 60°에서 Φ2가 90°가 될 때까지의 방위각 범위와 관련하여 확장된다. 섹터 S3은 예시적으로 -30°와 0° 사이의 앙각 범위 내에서 확장된다.
그러나, 도식적인 섹터 맵(600)은 청취자가 구의 중심 내에 배치되지 않고 구에 대해 특정 위치에 배치될 때 사용될 수 있다. 이 경우, 구체의 특정 부분만 볼 수 있지만, 구의 모든 섹터에 대해 특정 큐 정보 항목을 사용할 수 있어야 하는 것은 아니다. 일부 (필수) 섹터의 경우 나중에 논의되는 바와 같이 바람직하게 사전 계산되거나 대안적으로 측정에 의해 획득되는 특정 큐 정보 항목에 대해 사용 가능하면 된다.
다르게, 도식적인 섹터 맵은 공간적으로 확장된 음원이 위치할 수 있는 2차원 최대 범위로 볼 수 있다. 이러한 상황에서, 수평 거리는 0%에서 100% 사이로 확장되고 수직 거리는 0%에서 100% 사이에서 확장된다. 실제 수직 거리 또는 확장 및 실제 수평 거리 또는 확장은 특정 절대 스케일링 계수를 통해 절대 거리 또는 확장에 매핑될 수 있다. 예를 들어, 배율이 10미터인 경우, 25%는 수평 방향으로 2.5미터에 해당한다. 수직 방향에서, 스케일링 계수는 수평 방향의 스케일링 계수와 같거나 다를 수 있다. 따라서 수평/수직 거리/확장 예의 경우, 섹터 S5는 수평 차원과 관련하여 (최대) 스케일링 계수의 33%와 42% 사이에서 확장되고, 섹터 S5는 수직 범위 내에서 수직 스케일링 계수의 33%와 50% 사이로 확장된다. 따라서, 구형 또는 비구형 최대 공간 범위는 예를 들어 제한된 공간 범위 또는 섹터 S1 내지 S24로 세분될 수 있다.
인간의 청취 인식에 효율적인 방식으로 래스터링을 적용하기 위해, 수직 또는 고도 방향 내에서 낮은 해상도를 갖고 수평 또는 방위각 방향 내에서 더 높은 해상도를 갖는 것이 바람직한다. 예를 들어, 예를 들어 S1에서 S12까지 확장되는 섹터의 단일 선만이 다른 섹터 또는 제한된 공간 범위로 사용할 수 있음을 의미하는, 전체 고도 범위를 포함하는 구의 섹터만 사용할 수 있으며, 여기서 수평 치수는 특정 각도 값으로 지정되고 수직 치수는 각 섹터에 대해 -90°에서 +90°까지 확장된다. 당연히, 예를 들어 도 6의 예에서 24개의 섹터를 갖는 다른 섹터화 기술이 또한 사용 가능하며, 여기서 섹터 S1 내지 S12는 각 섹터에 대해, -90°와 0° 사이 또는 0%와 50% 사이의 전체 고도 또는 수직 범위를 포함하고, 이 때 다른 섹터 S13 내지 S24는 0°에서 90°사이의 앙각 사이에서 상반구를 덮거나 50%에서 100% 사이로 확장되는 "수평선"의 상반부를 덮는다.
도 7은 도 1a의 공간 정보 인터페이스(10)의 바람직한 구현을 도시한다. 특히, 공간 정보 인터페이스는 공간 범위 표시를 수신하기 위한 실제 (사용자) 수신 인터페이스를 포함한다. 공간 범위 표시는 사용자가 직접 입력하거나 가상 현실의 경우 헤드 트래커 정보에서 파생될 수 있거나, 증강 매칭기(30)는 실제로 입력된 제한된 공간 범위에 가장 가까운 매칭된 후보 공간 범위를 찾기 위해 큐 정보 제공자(200)로부터 알려진 이용 가능한 후보 공간 범위와 실제로 수신된 제한된 공간 범위를 매칭한다. 이 매칭된 후보 공간 범위에 기초하여, 도 1a의 큐 정보 제공자(200)는 채널간 데이터 또는 필터 함수과 같은 하나 이상의 큐 정보 항목을 전달한다. 일치된 후보 공간 범위 또는 제한된 공간 범위는 예를 들어 섹터에 대한 방위각 범위 및 고도 범위를 보여주는 도 1b에 도시된 바와 같이, 한 쌍의 방위각 또는 한 쌍의 앙각 또는 둘 다를 포함할 수 있다.
또는, 도 6에 도시된 바와 같이, 제한된 공간 범위는 수평 거리 정보, 수직 거리 정보 또는 수직 거리 정보 및 수평 거리 정보에 의해 제한될 수 있다. 최대 공간 범위를 2차원으로 래스터화하면, 단일 수직 또는 수평 거리가 충분할 뿐만 아니라 섹터 S5와 관련하여 예시된 바와 같이 수직 거리 및 수평 거리의 쌍이 필요하다. 다시 대안으로, 제한된 공간 범위 정보는 제한된 공간 범위를 최대 공간 범위의 특정 섹터로 식별하는 코드를 포함할 수 있으며, 여기서 최대 공간 범위는 복수의 상이한 섹터를 포함한다. 이러한 코드는 예를 들어, 각 코드가 개략적인 섹터 맵(600)에서 특정 기하학적 2차원 또는 3차원 섹터와 고유하게 연관되기 때문에 표시 S1 내지 S24에 의해 제공된다.
도 8은 다시 사용자 수신 인터페이스(100)로 구성되지만 이제 추가로 투영 계산기(120) 및 후속적으로 연결된 공간 범위 결정기(140)로 구성된 공간 정보 인터페이스의 추가 구현을 도시한다. 사용자 수신 인터페이스(100)는 예시적으로 청취자 위치가 특정 환경에서의 사용자의 실제 위치 및/또는 특정 위치에서의 사용자의 방향을 포함하는 청취자 위치를 수신한다. 따라서, 청취자 위치는 실제 위치 또는 실제 방향 또는 둘 다, 실제 청취자의 위치 및 실제 청취자의 방향과 관련될 수 있다. 이 데이터에 기초하여, 투영 계산기(120)는 공간적으로 확장된 음원에 대한 정보를 사용하여 소위 껍질 투영 데이터를 계산한다. SESS 정보는 공간적으로 확장된 음원의 기하학적 구조 및/또는 공간적으로 확장된 음원의 위치 및/또는 공간적으로 확장된 음원의 방향 등을 포함할 수 있다. 껍질 투영 데이터를 기반으로, 공간 범위 결정기(140)는 도 6에 예시된 대안들 중 하나에서 또는 도 10, 11 또는 도 12 내지 도 18와 관련하여 설명한 바와 같이, 제한된 공간 범위를 결정하고, 여기서 제한된 공간 범위는 도 12와 도 18 사이의 예에서 예시된 둘 이상의 특징 지점에 의해 주어지며, 여기서 특징 지점 세트는 항상 전체 공간 범위에서 특정 제한된 공간 범위를 정의한다.
도 9a 및 도 9b는 도 8의 블록(120)에 의해 출력된 껍질 투영 데이터를 계산하는 상이한 방식을 예시한다. 도 9a의 실시예에서, 공간 정보 인터페이스는 공간적으로 확장된 음원에 대한 정보로서 블록 121에 의해 지시된 바와 같이 공간적으로 확장된 음원의 기하학적 구조를 사용하여 공간적으로 확장된 음원의 껍질을 계산하도록 구성된다. 공간적으로 확장된 음원의 껍질은 2차원 또는 3차원 껍질의 투영 평면 상으로의 투영을 얻기 위해 청취자 위치를 사용하여 청취자를 향해 투영(122)된다. 또는 도 9b에 도시된 바와 같이, 공간적으로 확장된 음원, 특히 공간적으로 확장된 음원의 기하학에 대한 정보에 의해 정의된 공간적으로 확장된 음원의 기하학은 블록 123에 예시된 청취자 위치를 향한 방향으로 투영되고, 투영된 기하학적 구조의 껍질은 블록(124)에 표시된 대로 계산되어 투영 평면에 대한 2차원 또는 3차원 껍질의 투영을 얻는다. 제한된 공간 범위는 도 9a 실시예에서 투영된 껍질의 수직/수평 또는 방위각/고도 확장 또는 도 9b 구현에 의해 획득된 투영된 기하구조의 껍질을 나타낸다.
도 10은 공간 정보 인터페이스(10)의 바람직한 구현을 도시한다. 그것은 또한 사용자 수신 인터페이스로서 도 8에 도시된 청취자 위치 인터페이스(100)를 포함한다. 또한, 공간적으로 확장된 음원의 위치와 기하학은 도 8에서와 같이 입력된다. 프로젝터(120) 및 제한된 공간 범위를 계산하기 위한 계산기(140)가 제공된다.
도 11은 인터페이스(100), 투영기(120), 및 제한된 공간 범위 위치 계산기(140)를 포함하는 공간 정보 인터페이스의 바람직한 구현을 도시한다. 인터페이스(100)는 청취자 위치를 수신하도록 구성된다. 프로젝터(120)는 인터페이스(100)에 의해 수신된 청취자 위치를 사용하여 공간적으로 확장된 음원과 연관된 2차원 또는 3차원 껍질의 투영 평면을 계산하고 추가로 지오메트리에 대한 정보를 사용하도록 구성된다. 공간적으로 확장된 음원과 추가적으로 공간에서 공간적으로 확장된 음원의 위치에 대한 정보를 이용한다. 바람직하게는, 공간에서 공간적으로 확장된 음원의 정의된 위치 및 추가로 공간에서 공간적으로 확장된 음원의 기하학은 비트스트림 역다중화기 또는 장면 파서(180)에 도달하는 비트스트림을 통해 공간적으로 확장된 음원을 재생하기 위해 수신된다. 비트스트림 역다중화기(180)는 비트스트림으로부터 공간적으로 확장된 음원의 기하학적 정보를 추출하고 이 정보를 프로젝터에 제공한다. 비트스트림 역다중화기는 또한 비트스트림에서 공간적으로 확장된 음원의 위치를 추출하고 이 정보를 프로젝터로 전달한다.
바람직하게는, 비트스트림은 또한 하나 또는 두 개의 상이한 오디오 신호를 갖는 SESS에 대한 오디오 신호를 포함하고, 바람직하게는, 비트스트림 역다중화기는 또한 비트스트림으로부터 하나 이상의 오디오 신호의 압축된 표현을 추출하고, 신호(들)는 오디오 디코더(190)로서의 디코더에 의해 압축해제/디코딩된다. 디코딩된 하나 이상의 신호는 최종적으로 도 1a의 오디오 프로세서(300)로 전달되며, 프로세서는 도 1a의 큐 정보 제공자(200)에 의해 제공되는 큐 항목에 따라 적어도 2개의 음원을 렌더링한다.
도 11은 비트스트림 디멀티플렉서(180) 및 오디오 디코더(190)를 갖는 비트스트림 관련 재생 장치를 도시하고 있지만, 재생은 인코더/디코더 시나리오와 다른 상황에서도 발생할 수 있다. 예를 들어, 데이터가 현장에서 생성되고 동일한 사이트에서 소비되는 가상 현실 또는 증강 현실 장면에서는, 공간에 정의된 위치 또는 방향 및 기하학이 재생 장치에 이미 존재할 수 있다. 비트스트림 디멀티플렉서(180) 및 오디오 디코더(190)는 실제로 필요하지 않으며, 공간적으로 확장된 음원의 기하학 정보와 공간적으로 확장된 음원의 위치는 비트스트림에서 추출하지 않고도 이용 가능하다.
이후에 본 발명의 바람직한 실시예가 논의된다. 실시예는 6DoF VR/AR(가상 현실/증강 현실)에서 공간적으로 확장된 음원의 렌더링에 관한 것이다.
본 발명의 바람직한 실시예는 공간 확장된 음원(SESS)의 재생을 향상시키도록 설계된 방법, 장치 또는 컴퓨터 프로그램에 관한 것이다. 특히, 본 발명의 방법 또는 장치의 실시예는 공간적으로 확장된 음원과 가상 청취자 위치 사이의 시변 상대적 위치를 고려한다. 다시 말해서, 본 발명의 방법 또는 장치의 실시예는 청취자에 대한 임의의 상대적 위치에서 청각적 음원 폭이 표현된 사운드 객체의 공간적 범위와 일치하도록 한다. 이와 같이, 본 발명의 방법 또는 장치의 실시예는 특히 공간적으로 확장된 음원이 전통적으로 사용된 포인트 음원을 보완하는 6자유도(6DoF) 가상, 혼합 및 증강 현실 애플리케이션에 적용된다.
본 발명의 방법 또는 장치의 실시예는 제한된 공간 범위를 이용하여 공간적으로 확장된 음원을 렌더링한다. 제한된 공간 범위는 공간적으로 확장된 음원에 대한 청취자의 위치에 따라 달라진다.
도 1a는 본 발명의 방법 또는 장치의 실시예에 따른 공간적으로 확장된 음원 렌더러의 개요 블록도를 도시한다. 블록도의 주요 구성요소는 다음과 같다:
1. 청취자 위치: 이 블록은 예를 들어 가상 현실 추적 시스템에 의해 측정된 청취자의 순간 위치를 제공한다. 블록은 청취자 위치를 감지하기 위한 감지기(100) 또는 청취자 위치를 수신하기 위한 인터페이스(100)로 구현될 수 있다.
2. 공간적으로 확장된 음원의 위치와 기하학: 이 블록은 예를 들어 가상 현실 장면 표현의 일부로 렌더링될 공간적으로 확장된 음원의 위치 및 기하학 데이터를 제공한다.
3. 투영 및 볼록 껍질 계산: 블록(120)은 공간적으로 확장된 음원 기하학의 볼록 껍질을 계산한 다음에 청취자 위치 방향으로 투영한다(예: "이미지 면", 아래 참조). 또는, 먼저 기하학을 청취자 위치로 투영한 다음 볼록 껍질을 계산하여 동일한 함수를 달성할 수 있다.
4. 제한된 공간 범위 결정의 위치: 이 블록(140)은 이전 블록에 의해 계산된 볼록 껍질 투영 데이터로부터 제한된 공간 범위의 위치를 계산한다. 이 계산에서, 청취자의 위치 및 이에 따라 청취자의 근접도/거리를 고려할 수도 있다(아래 참조). 출력은 예를 들어, 제한된 공간 범위를 집합적으로 정의하는 지점 위치이다.
도 10은 본 발명의 방법 또는 장치의 실시예의 블록도의 개요를 도시한다. 점선은 기하학 및 위치와 같은 메타데이터의 전송을 나타낸다.
제한된 공간 범위를 집합적으로 정의하는 지점의 위치는 공간적으로 확장된 음원의 특히 공간적 범위의 기하학적 구조와 공간적으로 확장된 음원에 대한 청취자의 상대적 위치에 따라 달라진다. 특히, 제한된 공간 범위를 정의하는 지점은 공간적으로 확장된 음원의 볼록 껍질이 투영면으로 투영된 부분에 위치할 수 있다. 투영면은 그림 평면, 즉 청취자로부터 공간적으로 확장된 음원까지의 시선에 수직인 평면 또는 청취자의 헤드 주위의 구형 표면일 수 있다. 투영면은 청취자의 헤드 중심에서 임의의 작은 거리에 있다. 대안적으로, 공간적으로 확장된 음원의 투영 볼록 껍질은 청취자 헤드의 관점에서 상대적인 구 좌표의 부분집합인 방위각 및 앙각으로부터 계산될 수 있다. 아래의 예시적인 예에서 투영면은 보다 직관적인 특성으로 인해 선호된다. 투영된 볼록 껍질의 계산 구현에서 각도 표현이 더 간단한 공식화와 더 낮은 계산 복잡성으로 인해 선호된다. 공간적으로 확장된 음원의 볼록 껍질의 투영은 공간적으로 확장된 음원 기하학의 볼록 껍질과 동일하며, 즉, 볼록 껍질 계산 및 그림 평면에 대한 투영을 어느 순서로든 사용할 수 있다.
공간적으로 확장된 음원에 대한 청취자의 위치가 변경되면, 공간적으로 확장된 음원의 투영면에 대한 투영이 그에 따라 변경된다. 다음에, 제한된 공감 범위를 정의하는 지점이 그에 따라 변경된다. 이 지점은 공간적으로 확장된 음원과 청취자의 지속적인 움직임을 위해 매끄럽게 변경되도록 선택하는 것이 바람직한다. 공간적으로 확장된 음원의 기하학적 구조가 변경되면 투영된 볼록 껍질이 변경된다. 여기에는 투영된 볼록 껍질을 변경하는 3D 공간에서 공간적으로 확장된 음원 형상의 회전이 포함된다. 기하학의 회전은 공간적으로 확장된 음원에 대한 청취자 위치의 각도 변위와 동일하고 포괄적인 방식으로 청취자와 공간적으로 확장된 음원의 상대 위치로 지칭되는 것과 같다. 예를 들어, 구형의 공간적으로 확장된 음원 둘레에서 청취자의 원형 운동은 무게 중심을 중심으로 제한된 공간 범위 변경을 정의하는 지점을 회전시키는 것으로 표현된다. 마찬가지로, 정지된 청취자와 함께 공간적으로 확장된 음원의 회전은 제한된 공간 범위를 정의하는 지점의 동일한 변경을 초래한다.
본 발명의 방법 또는 장치의 실시예에 의해 생성된 공간적 범위는 본질적으로 공간적으로 확장된 음원과 청취자 사이의 임의의 거리에 대해 정확하게 재생된다. 자연스럽게 사용자가 공간적으로 확장된 음원에 접근하면, 제한된 공간 범위 변경을 정의하는 지점들 간의 개방 각도는 물리적 현실을 모델링하는 데 적합하므로 증가한다.
따라서, 제한된 공간 범위를 정의하는 지점의 각도 배치는 투영면 상에 투영된 볼록 껍질의 위치에 따라 고유하게 결정된다.
공간적으로 확장된 음원의 기하학적 모양/볼록 껍질을 지정하기 위해서, 단순화된 1D(예: 선, 곡선 포함); 2D(예: 타원, 직사각형, 다각형); 또는 3D 모양(예: 타원체, 직육면체 및 다면체)를 포함하여, 근사값이 사용된다 (또한 아마도, 렌더러 또는 렌더러 코어로 전송된다). 공간적으로 확장된 음원의 기하학 또는 해당 근사 형상은 각각 다음을 포함하여 다양한 방식으로 설명될 수 있다:
* 매개변수 디스크립션, 즉 추가 매개변수를 허용하는 수학적 표현을 통한 기하학의 형식화. 예를 들어, 3D의 타원체 모양은 데카르트 좌표계에 대한 암시적 함수로 설명될 수 있으며 추가 매개변수는 세 방향 모두에서 주축의 확장이다. 추가 매개변수는 3D 회전, 타원체 표면의 변형 함수를 포함할 수 있다.
* 다각형의 디스크립션, 즉 선, 삼각형, 정사각형, 사면체 및 직육면체와 같은 기본 기하학적 모양의 모음. 기본 다각형과 다면체는 더 크고 복잡한 기하학으로 연결될 수 있다.
특정 애플리케이션 시나리오에서는, 6DoF VR/AR 콘텐츠의 컴팩트한 상호 운용 저장/전송에 중점을 둔다. 이 경우, 전체 체인은 세 단계로 구성된다.
1. 원하는 공간적으로 확장된 음원을 비트스트림으로 작성/인코딩한다.
2. 생성된 비트스트림의 전송/저장. 본 발명에 따르면, 비트스트림은 다른 요소 외에, 모노 또는 스테레오 피아노 녹음과 같은, 공간적으로 확장된 음원 기하학(매개변수 또는 다각형) 및 연관된 음원 기본 신호에 대한 디스크립션을 포함한다. 파형은 mp3 또는 MPEG-2/4 AAC(Advanced Audio Coding)와 같은 지각 오디오 코딩 알고리즘을 사용하여 압축될 수 있다.
3. 살술된 바와 같이 전송된 비트스트림을 기반으로 공간적으로 확장된 음원의 디코딩/렌더링.
이어서, 다양한 실제 구현 사례를 제시한다. 이들은 구형의 공간적으로 확장된 음원, 타원체 공간 확장 음원, 선 공간 확장 음원, 직육면체 공간 확장 음원, 거리에 따른 제한된 공간 범위 및/또는 피아노 모양의 공간 확장 음원 또는 다른 악기와 같은 공간 확장 음원 형상을 포함한다.
본 발명의 방법 또는 장치의 실시예에서 설명한 바와 같이, 제한된 공간 범위를 정의하는 지점의 위치를 결정하기 위한 다양한 방법이 적용될 수 있다. 다음 실제 예는 특정 경우에 몇 가지 분리된 방법을 보여준다. 본 발명의 방법 또는 장치의 실시예의 완전한 구현에서, 계산 복잡성, 응용 목적, 오디오 품질 및 구현 용이성을 고려하여 다양한 방법을 적절하게 결합할 수 있다.
공간적으로 확장된 음원 기하학은 표면 메쉬로 표시된다. 메시 시각화는 공간적으로 확장된 음원 기하학이 실제로 매개변수 사양에서 생성될 수 있기 때문에 다각형 방법으로 설명된다는 것을 의미하지 않는다. 청취자 위치는 파란색 삼각형으로 표시된다. 다음 예에서 그림 평면은 투영면으로 선택되고 투영면의 유한 부분 집합을 나타내는 투명한 회색 평면으로 표시된다. 공간적으로 확장된 음원의 투영면에 투영된 형상은 동일한 표면 메쉬로 표시된다. 투영된 볼록 껍질 상의 제한된 공간 범위를 정의하는 지점은 투영면에서 빨간색 십자로 표시된다. 공간적으로 확장된 음원 기하학에 후방 투영된 제한된 공간 범위를 정의하는 지점은 도트로 표시된다. 투영된 볼록 껍질 상의 해당 제한된 공간 범위를 정의하는 지점과 공간적으로 확장된 음원 기하학 상의 후면 투영된 제한된 공간 범위를 정의하는 지점은 시각적 일치를 식별하는 데 도움이 되도록 선으로 연결된다. 관련된 모든 객체의 위치는 미터 단위의 데카르트 좌표계로 표시된다. 도시된 좌표계의 선택은 관련된 계산이 데카르트 좌표로 수행된다는 것을 의미하지 않는다.
도 12의 제1 예는 공간적으로 확장된 구형 음원을 고려한다. 공간적으로 확장된 구형 음원은 청취자에 대해 고정된 크기와 고정된 위치를 가지고 있다. 3개, 5개 및 8개의 제한된 공간 범위를 정의하는 지점의 3가지 상이한 세트가 투영된 볼록 껍질에서 선택된다. 세 세트의 제한된 공간 범위를 정의하는 지점은 모두 볼록 껍질 곡선에서 균일한 거리로 선택된다. 볼록한 껍질 곡선에서 제한된 공간 범위를 정의하는 지점의 오프셋 위치는 공간적으로 확장된 음원 기하학의 수평 범위가 잘 표현되도록 의도적으로 선택된다. 도 12는 볼록 껍질에 균일하게 분포된 제한된 공간 범위를 정의하는 지점의 상이한 개수(즉, 3(상단), 5(중앙), 8(하단))를 갖는 공간적으로 확장된 음원을 도시한다.
도 13의 다음 예는 공간적으로 확장된 타원체 음원을 고려한다. 공간적으로 확장된 타원체 음원은 3차원 공간에서 모양, 위치 및 회전이 고정되어 있다. 이 예에서는 4개의 제한된 공간 범위를 정의하는 지점이 선택된다. 제한된 공간 범위를 정의하는 지점의 위치를 결정하는 세 가지 다른 방법이 예시된다:
a) 두 개의 제한된 공간 범위를 정의하는 지점은 두 개의 수평 극단 지점에 배치되고 제한된 공간 범위를 정의하는 두 지점은 두 개의 수직 극단 지점에 배치된다. 반면, 극단 지점 위치 지정은 간단하고 종종 적절하다. 이 예는 이 방법이 서로 상대적으로 가까운 지점 위치를 생성할 수 있음을 보여준다.
b) 4개의 모든 제한된 공간 범위를 정의하는 지점은 투영된 볼록 껍질에 균일하게 분포된다. 제한된 공간 범위를 정의하는 지점의 오프셋은 최상위 지점 위치가 a)의 최상위 지점 위치와 일치하도록 선택된다.
c) 4개의 제한된 공간 범위를 정의하는 지점은 축소된 투영 볼록 껍질에 균일하게 분포된다. 지점 위치의 오프셋 위치는 b)에서 선택한 오프셋 위치와 동일한다. 투영된 볼록 껍질의 수축 작업은 방향 독립적인 신축 계수를 사용하여 투영된 볼록 껍질의 무게 중심 쪽으로 수행된다.
따라서, 도 13은 제한된 공간 범위를 정의하는 지점의 위치를 결정하기 위해 세 가지 다른 방법에 따라 4개의 제한된 공간 범위를 정의하는 지점이 있는 공간적으로 확장된 타원체 음원을 보여준다: a/상단) 수평 및 수직 극단 지점, b/중간) 볼록 껍질에 균일하게 분포된 지점, c/하단) 축소된 볼록 껍질의 균일하게 분포된 지점.
도 14의 다음 예는 선 형상의 공간적으로 확장된 음원을 고려한다. 이전 예가 공간적으로 확장된 음원 기하학을 고려한 반면, 이 예는 공간적으로 확장된 음원 기하학이 3D 공간 내에서 단일 차원 객체로 잘 선택될 수 있음을 보여준다. a)에서는 유한한 선형상의 공간적으로 확장된 음원 기하학의 극단 지점에 배치된 두 개의 제한된 공간 범위를 지정하는 지점이 도시된다. b)에서는 두 개의 제한된 공간 범위를 정의하는 지점은 유한한 선 형상의 공간적으로 확장된 음원 기하학의 극단 지점에 위치되고 하나의 추가 지점은 선의 중간에 배치된다. 본 발명의 방법 또는 장치의 실시예에서 설명된 바와 같이, 공간적으로 확장된 음원 기하학 내에 추가의 지점을 배치하는 것은 큰 공간적으로 확장된 음원 기하학에서 큰 갭을 채우는 것을 도울 수 있다. c)에서는, a) 및 b)에서와 같이 공간적으로 확장된 음원 기하학과 동일한 선이 고려되지만, 선 기하학의 투영된 길이가 상당히 더 작도록 청취자를 향한 상대 각도가 변경된다. 상기 본 발명의 방법 또는 장치의 실시예에서 설명된 바와 같이, 투영된 볼록 껍질의 감소된 크기는 제한된 공간 범위를 정의하는 지점의 감소된 수로, 이 특정 예에서는 선 기하학의 중심에 위치한 단일의 지점으로 나타낼 수 있다.
도 14는 제한된 공간 범위를 정의하는 지점의 위치를 분배하기 위해 세 가지 다른 방법을 사용하여 선형상의 공간적으로 확장된 음원을 보여준다: a/상단) 투영된 볼록 껍질의 두 극단 지점; b/중간) 선 중앙에 추가의 지점이 있는 투영된 볼록 껍질 상의 두 극단 지점; c/하단) 하나 이상 또는 두개의 지점을 가능하게 하기에는 회전된 선의 투영된 볼록 껍질이 너무 작으므로 볼록 껍질의 중심에 하나 또는 두 개의 제한된 공간 범위를 정의하는 지점이 있다.
도 15의 다음 예는 공간적으로 확장된 직육면체 음원을 고려한다. 공간적으로 확장된 직육면체 음원은 크기와 위치가 고정되어 있지만 듣는 사람의 상대적인 위치는 변한다. a)와 b)는 투영된 볼록 껍질에 제한된 공간 범위를 지정하는 4개의 지점을 배치하는 다양한 방법을 보여준다. 후면 투영 지점 위치는 투영된 볼록 껍질의 선택에 따라 고유하게 결정된다. c)는 분리된 후면 투영 위치를 갖는 않는 제한된 공간 범위를 지정하는 4개의 지점을 보여준다. 대신, 지점 위치의 거리는 공간적으로 확장된 음원 기하학의 무게 중심 거리와 동일하게 선택된다.
따라서, 도 15는 제한된 공간 범위를 지정하는 지점을 배포하는 세 가지 다른 방법을 사용하여 공간적으로 확장된 입방체 음원을 도시한다: a/상단) 수평축에 2개의 제한된 공간 범위를 지정하는 지점과 수직축에 2개의 제한된 공간 범위를 지정하는 지점; b/중간) 투영된 볼록 껍질의 수평 극단 지점에 있는 두 개의 제한된 공간 범위를 지정하는 지점과 투영된 볼록 껍질의 수직 극단 지점에 있는 두 개의 제한된 공간 범위를 지정하는 지점; c/하단) 후방 투영된 지점 거리는 공간적으로 확장된 음원 기하학의 무게 중심 거리와 같도록 선택된다.
도 16의 다음 예는 고정된 크기와 모양의 공간적으로 확장된 구형 음원을 고려하지만 청취자 위치를 기준으로 세 가지 다른 거리에 있다. 제한된 공간 범위를 지정하는 지점은 볼록 껍질 곡선에 균일하게 분포된다. 제한된 공간 범위를 지정하는 지점의 수는 볼록 껍질 곡선의 길이와 가능한 지점 위치 간의 최소 거리로부터 동적으로 결정된다. a) 구형의 공간적으로 확장된 음원은 투영된 볼록 껍질에서 4개의 제한된 공간 범위를 지정하는 지점이 선택되도록 가까운 거리에 있다. b) 공간적으로 확장된 구형 음원은 투영된 볼록 껍질에서 3개의 제한된 공간 범위를 지정하는 지점이 선택되도록 중간 거리에 있다. c) 구형의 공간적으로 확장된 음원은 투영된 볼록 껍질에서 두 개의 제한된 공간 범위를 지정하는 지점만이 선택되도록 멀리 떨어져 있다. 상기 본 발명의 방법 또는 장치의 실시예에서 설명된 바와 같이, 제한된 공간 범위를 지정하는 지점의 수는 구면 각도 좌표로 표현되는 범위로부터 결정될 수도 있다.
따라서, 도 16은 크기는 같지만 거리가 다른 구형 공간 확장 음원을 보여준다: a/상단) 투영된 볼록 껍질에 균일하게 분포된 4개의 제한된 공간 범위를 지정하는 지점이 있는 근접 거리; b/중간) 투영된 볼록 껍질에 균일하게 분포된 3개의 제한된 공간 범위를 지정하는 지점이 있는 중간 거리; c/하단) 투영된 볼록 껍질에 균일하게 분포된 두 개의 제한된 공간 범위를 지정하는 지점이 있는 먼 거리.
도 17 및 18의 마지막 예는 가상 세계에 배치된 공간적으로 확장된 피아노 모양의 음원을 고려한다. 사용자는 헤드 마운트 디스플레이(HMD)와 헤드폰을 착용한다. 자유 이동 영역 내에서 바닥에 서 있는 3D 업라이트 피아노 모델과 오픈 월드 캔버스로 구성된 가상 현실 장면이 사용자에게 제공된다(도 17 참조). 오픈 월드 캔버스는 사용자를 둘러싸고 있는 구체에 투영된 구형의 정적 이미지이다. 이 특별한 경우, 오픈 월드 캔버스는 푸른 하늘과 흰 구름을 묘사한다. 사용자는 다양한 각도에서 피아노를 보고 들을 수 있다. 이 장면에서 피아노는 무게 중심에 배치된 단일 포인트 음원을 나타내거나 투영된 볼록 껍질에 세 개의 제한된 공간 범위를 지정하는 지점이 있는 공간적으로 확장된 음원으로 나타내는 큐를 사용하여 렌더링된다(도 18 참조).
지점 위치의 계산을 단순화하기 위해서, 피아노 기하학은 유사한 차원의 타원체 모양으로 추상화된다(도 17 참조). 적도선 상의 좌우 극단 지점에 2개의 대체 지점이 배치되고, 북극에 제3 대체 지점이 있다(도 18 참조). 이 배열은 매우 감소된 계산 비용으로 모든 각도에서 적절한 수평 음원 너비를 보장한다.
도 17은 대략적 매개변수의 타원체 형상을 갖는 피아노 모양의 공간 확장 음원을 도시하고, 도 18은 투영 볼록 껍질의 수직 극단 지점과 투영 볼록 껍질의 수직 상단 위치에 분포된 3개의 제한된 공간 범위를 지정하는 지점을 갖는 공간적으로 확장된 피아노 모양의 음원을 도시한다. 더 나은 시각화를 위해, 제한된 공간 범위를 지정하는 지점은 신축 투영된 볼록 껍질에 배치된다.
설명된 기술의 적용은 오디오 6DoF VR/AR 표준의 일부일 수 있다. 이런 맥락에서, 전형적인 인코딩/비트스트림/디코더(+렌더러) 시나리오가 있다.
* 인코더에서, 공간적으로 확장된 음원의 모양은 공간적으로 확장된 음원의 특징을 갖는,
o 모노 신호, 또는
o 스테레오 신호(바람직하게는 충분히 역상관됨), 또는
o 훨씬 더 많은 기록 신호(또한 바람직하게는 충분히 역상관됨)
중 하나일 수 있는 공간적으로 확장된 음원의 '기본' 파형과 함께 부가 정보로 인코딩된다. 이들 파형은 낮은 비트 전송률로 코딩될 수 있다.
* 디코더/렌더러에서 공간적으로 확장된 음원 모양과 해당 파형은 비트스트림에서 검색되어 상술된 바와 같이 공간적으로 확장된 음원을 렌더링하는 데 사용된다.
사용된 실시예에 따라 및 설명된 실시예에 대한 대안으로서, 인터페이스는 청취자 위치를 감지하기 위한 실제 추적기 또는 감지기로 구현될 수 있다. 그러나 청취 위치는 일반적으로 외부 추적기 장치에서 수신되어 인터페이스를 통해 재생 장치로 공급된다. 그러나 인터페이스는 외부 추적기의 출력 데이터에 대한 데이터 입력만을 나타내거나 추적기 자체를 나타낼 수도 있다.
약술한 바와 같이, 비트스트림 생성기는 공간적으로 확장된 음원에 대해 단 하나의 사운드 신호로 비트스트림을 생성하도록 구현될 수 있으며, 나머지 사운드 신호는 역상관에 의해 디코더 측 또는 재생 측에서 생성된다. 하나의 신호만 존재하고, 이 하나의 신호로 전체 공간을 동일하게 채우는 경우, 위치 정보는 필수적인 것은 아니다. 그러나, 그러한 상황에서도, 공간적으로 확장된 음원의 기하학에 대한 적어도 추가 정보를 갖는 것이 유용할 수 있다.
구현에 따라, 특정 환경에 대한 올바른 큐 정보 항목을 갖기 위해 도 1a, 1b, 4, 5의 큐 정보 제공자(200) 내에서, 어떤 종류의 사전 계산된 데이터를 사용하는 것이 바람직하다. 이 미리 계산된 데이터, 즉 도 6의 섹터 맵(600)과 같은 각 섹터에 대한 값 세트는 예를 들어, 룩업 테이블(210) 및 선택 HRTF 블록(220) 내의 데이터가 경험적으로 결정되도록 측정 및 저장될 수 있다. 다른 실시예에서, 이 데이터는 미리 계산되거나 혼합된 경험적 및 사전 계산 절차에서 파생될 수 있다. 이어서, 이 데이터를 계산하기 위한 바람직한 실시예가 제공된다.
룩업 테이블을 생성하는 동안, SESS 합성에 필요한 IACC, IAPD 및 IALD 값은 상술한 바와 같이, 여러 음원 범위의 수에 대해 미리 계산된다.
상술된 바와 같이, 기본 모델로서 SESS는 전체 음원 범위 범위에 걸쳐 분포된 무한한 수의 역상관된 포인트 음원으로 설명된다. 이 모델은 원하는 음원 범위 범위 내의 각 HRTF 데이터 세트 위치에 하나의 역상관된 포인트 음원을 배치하여 근사된다. 이러한 신호를 해당 HRTF와 컨볼루션함으로써, 최종 왼쪽 및 오른쪽 귀 신호 Yl(ω) 및 Yr(ω)을 각각 결정할 수 있다. 이들로부터, IACC, IAPD 및 IALD 값을 도출할 수 있다. 이하, 해당 표현의 파생어가 제공된다.
동일한 전력 스펙트럼 밀도를 갖는 N 개의 역상관된 신호 Sn(ω)는 다음과 같다:
Figure pct00020
이 때,
Figure pct00021
여기서 N은 원하는 음원 범위 범위 내의 HRTF 데이터 세트 지점의 수와 같다. 따라서 이러한 N개의 입력 신호는 각각 다른 HRTF 데이터 세트 위치에 배치된다.
Figure pct00022
,
Figure pct00023
.
Al,n, Ar,n, Φl,n 및 Al,n은 일반적으로 ω에 의존한다. 그러나 이 종속성은 표기의 단순성을 위해 본 명세서에서 생략된다. 수학식 16, 및 17을 참조하면, 왼쪽 및 오른쪽 귀 신호 Yl(ω) 및 Yr(ω)은 긱긱 다음과 같이 표현될 수 있다:
Figure pct00024
,
Figure pct00025
.
IACC, IALD 및 IAPD를 결정하기 위해서,
Figure pct00026
,
Figure pct00027
Figure pct00028
에 대한 제1 표현식이 파생된다:
Figure pct00029
Figure pct00030
Figure pct00031
수학식 20 내지 22를 사용하여, IACC(ω), IALD(ω) 및 IAPD(ω)에 대한 다음 표현식을 결정할 수 있다.
Figure pct00032
Figure pct00033
Figure pct00034
왼쪽 및 오른쪽 귀 이득 Gl(ω) 및 Gr(ω)은 각각
Figure pct00035
Figure pct00036
을 음원의 수와 음원 전력으로 정규화하여 결정된다:
Figure pct00037
Figure pct00038
알 수 있는 바와 같이, 모든 최종 표현식은 선택한 HRTF 데이터 세트에만 의존하고 더 이상 입력 신호에 의존하지 않는다.
룩업 테이블 생성 동안 계산 복잡도를 줄이기 위해, 한 가지 가능성은 사용 가능한 모든 HRTF 데이터 세트 위치를 고려하지 않는다. 이 경우, 원하는 간격이 정의된다. 이 절차는 사전 계산 동안 계산 복잡성을 줄이는 반면, 어느 정도 이것은 솔루션의 저하로 이어질 것이다.
본 발명의 바람직한 실시예는 최신 기술에 비해 상당한 이점을 제공한다.
제안하는 방법이 2개의 역상관된 입력 신호만을 필요로 한다는 사실로부터, 더 많은 수의 역상관된 입력 신호를 필요로 하는 최신 기술 기술에 비해 많은 이점이 발생한다.
* 제안하는 방법은 하나의 역상관자만 적용하면 되므로 계산 복잡도가 낮다. 또한, 두 개의 입력 신호만 필터링되어야 한다.
* 쌍별 역상관은 일반적으로 더 적은 역상관 신호를 생성할 때 더 높기 때문에(동시에 동일한 양의 신호 저하를 허용함), 청각 신호의 보다 정확한 재생이 기대될 수 있다.
* 유사하게, 동일한 양의 쌍별 역상관 및 이에 따라 재생된 청각 신호의 동일한 정밀도에 도달하기 위해 더 많은 신호 저하가 예상된다.
이어서, 본 발명의 실시예의 몇 가지 흥미로운 특징을 요약한다.
1. 두 개의 역상관된 입력 신호(또는 하나의 입력 신호와 역상관기)만 요구된다.
2. 공간적으로 확장된 음원에 대한 양귀간 출력 신호를 효율적으로 달성하기 위해 이들 입력 신호의 [주파수 선택적] 양귀간 큐의 조정
(a) 입력 ICC는 항상 조정된다.
(b) ICPD/ICTD 및 ICLD는 전용 처리 단계에서 조정되거나 이러한 특성과 함께 HRIR/HRTF 처리를 사용하여 신호에 도입될 수 있다.
3. [주파수 선택적] 타겟 양귀간 큐는 채워질 공간 범위의 함수(구체적인 예: 방위각 범위, 고도 범위)로 미리 계산된 스토리지(룩업 테이블 또는 벡터 코드북 또는 다차원 함수 fit, GMM, SVM과 같은 다차원 데이터를 저장하는 다른 수단)로부터 결정된다.
(a) 타겟 IACC는 항상 저장되고 합성을 위해 호출/사용된다.
(b) 타겟 IAPD/IATD 및 IALD는 합성에 저장 및 호출/사용하거나 HRIR/HRTF 처리를 사용하여 교체할 수 있다.
본 발명의 바람직한 구현은 MPEG-I 오디오 6 DoF VR/AR(가상 현실/증강 현실 표준)의 일부일 수 있다. 이러한 맥락에서, 인코딩/비트스트림/디코더(렌더러 포함) 애플리케이션 시나리오를 갖게 된다. 인코더에서, 공간적으로 확장된 음원 또는 여러 공간적으로 확장된 음원의 모양은 공간적으로 확장된 음원의 (하나 이상의) "공간" 파형과 함께 부가 정보로 인코딩된다. 블록(300)에 입력된 신호, 즉 공간적으로 확장된 음원에 대한 오디오 신호를 나타내는 이들 파형은 AAC, EVS 또는 임의의 다른 인코더에 의해 코딩된 낮은 비트레이트일 수 있다. 애플리케이션이 예를 들어, 비트스트림 디멀티플렉서(파서(180) 및 오디오 디코더(190))를 포함하는 것으로 도 11에 도시되어 있는, 디코더/렌더러에서, SESS 모양 및 해당 파형은 비트스트림에서 검색되어 SESS를 렌더링하는 데 사용된다. 본 발명과 관련하여 예시된 절차는 고품질이지만 복잡성이 낮은 디코더/렌더러를 제공한다.
일부 측면은 장치의 맥락에서 설명되었지만, 이러한 측면은 또한 해당 방법에 대한 디스크립션을 나타내며, 여기서 블록 또는 장치는 방법 단계 또는 방법 단계의 기능에 해당한다. 유사하게, 방법 단계의 맥락에서 설명된 측면은 또한 대응하는 장치의 대응 블록 또는 항목 또는 특징의 설명을 나타낸다.
특정 구현 요구 사항에 따라, 본 발명의 실시예는 하드웨어 또는 소프트웨어로 구현될 수 있다. 구현은 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 FLASH 메모리와 같은 디지털 저장 매체를 사용하여 수행할 수 있다. 각각의 방법이 수행되도록 프로그램 가능한 컴퓨터 시스템과 협력하는 (또는 협력할 수 있는) 전자적으로 판독 가능한 제어 신호가 저장되어 있다.
본 발명에 따른 일부 실시예는 프로그램 가능한 컴퓨터 시스템과 협력할 수 있는 전자적으로 판독 가능한 제어 신호를 갖는 데이터 캐리어를 포함하므로, 본 명세서에서 설명된 방법 중 하나가 수행되도록 한다.
일반적으로, 본 발명의 실시예는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터에서 실행될 때 방법 중 하나를 수행하기 위해 작동한다. 프로그램 코드는 예를 들어 기계 판독 가능한 캐리어에 저장될 수 있다.
다른 실시예는 기계 판독 가능 캐리어 또는 비일시적 저장 매체에 저장된, 본 명세서에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
다시 말해서, 본 발명의 방법의 실시예는 컴퓨터 프로그램이 컴퓨터에서 실행될 때, 본 명세서에서 설명된 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
따라서, 본 발명의 방법의 추가 실시예는 본 명세서에서 기술된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하고 거기에 기록되어 있는 데이터 캐리어 (또는 디지털 저장 매체, 또는 컴퓨터 판독 가능 매체)이다.
따라서, 본 발명의 방법의 추가 실시예는 본 명세서에서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호의 시퀀스이다. 데이터 스트림 또는 신호 시퀀스는 예를 들어 데이터 통신 연결을 통해, 예를 들어 인터넷을 통해 전송되도록 구성될 수 있다.
추가 실시예는 여기에 설명된 방법들 중 하나를 수행하도록 구성되거나 적응된 처리 수단, 예를 들어 컴퓨터, 또는 프로그램 가능한 논리 장치를 포함한다.
추가 실시예는 본 명세서에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
일부 실시 예에서, 프로그램 가능 논리 장치(예: 필드 프로그램 가능 게이트 어레이)는 본 명세서에서 설명하는 방법의 일부 또는 모든 기능을 수행하는 데 사용할 수 있다. 일부 실시 예에서, 필드 프로그램 가능 게이트 어레이는 본 명세서에서 설명된 방법 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법은 바람직하게는 임의의 하드웨어 장치에 의해 수행된다.
상술한 실시예는 본 발명의 원리를 설명하기 위한 것일 뿐이다. 본 명세서에 설명된 배열 및 세부 사항의 수정 및 변형이 당업자에게 명백할 것임을 이해해야 한다. 따라서, 본 명세서의 실시예의 설명 및 설명을 통해 제시된 특정 세부사항이 아니라 계류중인 특허 청구범위의 범위에 의해서만 제한되는 것이다.
참고문헌
[1] J. Blauert, 공간 청력: 인간의 소리 위치 파악의 정신 물리학, 3판. 매사추세츠주 캠브리지: MIT 프레스, 2001.
[2] H. Lauridsen, "다양한 종류의 실내 음향 재녹음에 관한 실험", Ingenioren, 1954년.
[3] G. Kendall, "오디오 신호의 역상관 및 공간 이미지에 미치는 영향", Computer Music Journal, vol. 19, no. 4, 1995년 71~87페이지.
[4] C. Faller 및 F. Baumgarte, "바이노럴 큐 코딩-파트 II: 계획 및 응용 프로그램," 음성 및 오디오 처리에 대한 IEEE 거래, vol. 11, no. 6, pp. 520?531, 2003년 11월.
[5] F. Baumgarte 및 C. Faller, "바이노럴 큐 코딩-파트 I: 심리음향 기초 및 디자인 원칙," 음성 및 오디오 처리에 대한 IEEE 거래, vol. 11, 아니. 6, pp. 509?519, 2003년 11월.
[6] F. Zotter 및 M. Frank, "효율적인 팬텀 음원 확대", 음향학 기록 보관소, vol. 38, pp. 27?37, 2013년 3월.
[7] B. Alary, A. Politis 및 V. V¨alima¨ki, "벨벳 잡음 역상관기", Proc. DAFx-17, 영국 에든버러, pp. 405-411, 2017.
[8] S. Schlecht, B. Alary, V. V¨alima¨ki 및 E. Habets, "최적화된 벨벳 노이즈 역상관기", 2018년 9월.
[9] V. Pulkki, "진폭 패닝된 가상 음원의 균일한 확산", 오디오 및 음향에 대한 신호 처리 응용 프로그램에 대한 1999 IEEE 워크샵의 절차. WASPAA'99(카탈로그 번호 99TH8452), pp. 187-190, 1999.
[10] -- "벡터 베이스 진폭 패닝을 이용한 가상 음원 위치 지정," 오디오 공학 학회지, vol. 45, no. 6, pp. 456?466, 1997년 6월.
[11] V. 풀키, M.-V. Laitinen, 및 C. Erkut, "가상 세계를 위한 효율적인 공간 사운드 합성." 오디오 엔지니어링 학회, 2009년 2월.
[12] V. Pulkki, "지향성 오디오 코딩을 통한 공간 사운드 재생," 오디오 엔지니어링 학회지, vol. 55, no. 6, pp. 503?516, 2007년 6월.
[13] T. Pihlajamaki, O. Santala 및 V. Pulkki, "모노 신호의 시간-주파수 분해를 통한 공간적으로 확장된 가상 음원의 합성," 오디오 공학 학회지, vol. 62, no. 7/8, pp. 467-484, 2014년 8월.
[14] C. Verron, M. Aramaki, R. Kronland-Martinet 및 G. Palone, "환경 소리를 위한 3차원 몰입형 신디사이저", 오디오, 음성 및 언어 처리, IEEE 트랜잭션, vol. 18, pp. 1550-1561, 2010년 9월.
[15] G. Potard 및 I. Burnett, "음원의 겉보기 모양과 넓이에 관한 연구", pp. 6-9, 2003년 8월.
[16] --, "3D 오디오 디스플레이에서 겉보기 음원 너비의 렌더링을 위한 상관관계 기법", 2004년 1월, pp. 280-208.
[17] J. Schmidt 및 E. F. Schroeder, "MPEG-4 표준의 오디오 프레젠테이션을 위한 새로운 고급 기능". 오디오 엔지니어링 학회, 2004년 5월.
[18] S. Schlecht, A. Adami, E. Habets 및 J. Herre, "공간적으로 확장된 음원을 재생하는 장치 및 방법 또는 공간적으로 확장된 음원에서 비트스트림을 생성하는 장치 및 방법", 특허 출원 PCT/EP2019/085 733.
[19] T. Schmele 및 U. Sayin, "역상관 필터를 사용하여 앰비소닉에서 겉보기 음원 크기 제어." 오디오 엔지니어링 학회, 2018년 7월.
[20] F. Zotter, M. Frank, M. Kronlachner 및 J.-W. 최, "앰비소닉에서의 효율적인 팬텀 음원 확장 및 확산", 2014년 1월.
[21] C. Borß, "가상 음향 및 응용 프로그램 설계를 위한 개선된 매개변수 모델", Ph.D. 논문, Ruhr-Universitat Bochum, 2011년 1월.

Claims (24)

  1. 공간적으로 확장된 음원을 합성하기 위한 장치로서:
    최대 공간 범위(600) 내에서 상기 공간적으로 확장된 음원에 대해 제한된 공간 범위를 나타내는 공간 범위 표시를 수신하기 위한 공간 정보 인터페이스(100);
    상기 제한된 공간 범위에 응답하여 하나 이상의 큐 정보 항목을 제공하는 큐 정보 제공자(200); 및
    상기 하나 이상의 큐 정보 항목을 사용하여 상기 공간적으로 확장된 음원을 나타내는 오디오 신호를 처리하기 위한 오디오 프로세서(300)
    를 포함하는, 장치.
  2. 제1항에 있어서,
    상기 큐 정보 제공자(200)는 큐 정보 항목으로서 채널간 상관 값을 제공하도록 구성되며,
    상기 오디오 신호는 상기 공간적으로 확장된 음원에 대한 제1 오디오 채널 및 제2 오디오 채널을 포함하거나, 상기 오디오 신호는 상기 제1 오디오 채널을 포함하고, 상기 제2 오디오 채널은 제2 채널 프로세서(310)에 의해 상기 제1 오디오 채널로부터 유도되며,
    상기 오디오 프로세서(300)는 상기 채널간 상관 값을 사용하여 상기 제1 오디오 채널과 상기 제2 오디오 채널 간의 상관을 부여(320)하도록 구성되는, 장치.
  3. 제1항에 있어서,
    상기 큐 정보 제공자(200)는 추가 큐 정보 항목으로서, 채널간 위상차 항목, 채널간 시차 항목, 채널 간 레벨 차이 및 게인 항목, 및 제1 이득 및 제2 이득 정보 항목 중 적어도 하나를 제공하도록 구성되고,
    상기 오디오 신호는 상기 공간적으로 확장된 음원에 대한 제1 오디오 채널 및 제2 오디오 채널을 포함하거나, 상기 오디오 신호는 상기 제1 오디오 채널을 포함하고 상기 제2 오디오 채널은 제2 채널 프로세서(310)에 의해 상기 제1 오디오 채널로부터 유도되고,
    상기 오디오 프로세서(300)는 상기 채널간 위상차 항목, 상기 채널간 시간차 항목, 상기 채널간 레벨 차이 및 이득 항목, 상기 제1 및 상기 제2 이득 항목 중 적어도 하나를 사용하여 채널간 위상차, 채널간 시간차, 또는 채널간 레벨차 또는 상기 제1 오디오 채널과 상기 제2 오디오 채널의 절대 레벨을 부과하도록 구성되는, 장치.
  4. 제1항 또는 제2항에 있어서,
    상기 오디오 프로세서(300)는 상기 제1 채널과 상기 제2 채널 간의 상관관계를 부여(320)하고, 상기 상관관계의 상기 결정(320)에 이어, 상기 채널간 위상차(330), 상기 채널간 시간차 또는 상기 채널간 레벨 차이(340) 또는 상기 제1 채널과 상기 제2 채널의 상기 절대 레벨을 부여하도록 구성되고,
    상기 제2 채널 프로세서(310)는 제 상기 2 오디오 채널이 상기 제 1 오디오 채널로부터 역상관되도록 상기 제1 오디오 채널로부터 상기 제2 오디오 채널을 유도하기 위한 역상관 필터 또는 신경망 프로세서를 포함하는, 장치.
  5. 제1항 또는 제2항에 있어서,
    상기 큐 정보 제공자(200)는 상기 제한된 공간 범위에 응답하여 상기 하나 이상의 큐 정보 항목으로서 오디오 필터 함수를 제공하기 위한 필터 함수 제공자(220)를 포함하고,
    상기 오디오 신호는 상기 공간적으로 확장된 음원에 대한 제1 오디오 채널 및 제2 오디오 채널을 포함하거나, 상기 오디오 신호는 상기 제1 오디오 채널을 포함하고, 제2 오디오 채널은 제2 채널 프로세서(310)에 의해 상기 제1 오디오 채널로부터 유도되고,
    상기 오디오 프로세서(300)는 상기 오디오 필터 함수를 상기 제1 오디오 채널 및 상기 제2 오디오 채널에 적용하기 위한 필터 적용기(350)를 포함하는, 장치.
  6. 제5항에 있어서,
    상기 오디오 필터 함수는 상기 제1 및 상기 제2 오디오 채널 각각에 대해, 헤드 관련 전달 기능, 헤드 관련 임펄스 응답, 바이노럴 룸 임펄스 응답 또는 룸 임펄스 응답을 포함하거나,
    상기 제2 채널 프로세서(310)는 상기 제 2 오디오 채널이 상기 제 1 오디오 채널로부터 역상관되도록 상기 제1 오디오 채널로부터 상기 제2 오디오 채널을 유도하기 위해 역상관 필터 또는 신경망 프로세서를 포함하는, 장치.
  7. 제5항 또는 제6항에 있어서,
    상기 큐 정보 제공자(200)는 큐 정보 항목으로서 채널간 상관 값을 제공하도록 구성되며,
    상기 오디오 신호는 상기 공간적으로 확장된 음원에 대한 제1 오디오 채널 및 제2 오디오 채널을 포함하거나, 상기 오디오 신호는 제1 오디오 채널을 포함하고, 제2 오디오 채널은 제2 채널 프로세서(310)에 의해 상기 제1 오디오 채널로부터 유도되며,
    상기 오디오 프로세서(300)는 상기 채널간 상관 값을 사용하여 상기 제1 오디오 채널과 상기 제2 오디오 채널 사이에 상관관계를 부여(320)하도록 구성되고,
    상기 필터 적용기(350)는 상기 채널간 상관 값에 응답하여 상기 오디오 프로세서(300)에 의해 수행된 상기 상관 결정(320)의 결과에 상기 오디오 필터 함수를 적용하도록 구성되는, 장치.
  8. 선행 항들 중 어느 한 항에 있어서,
    상기 큐 정보 제공자(200)는 서로 다른 제한된 공간 범위와 관련하여 서로 다른 큐 정보 항목에 대한 정보를 저장하기 위한 메모리(210), 및
    상기 메모리(210)를 사용하여, 상기 제한된 공간 범위와 연관된 상기 하나 이상의 큐 정보 항목을 검색하기 위한 출력 인터페이스
    중 적어도 하나를 포함하는, 장치.
  9. 제8항에 있어서, 상기 메모리(210)는 룩업 테이블, 벡터 코드북, 다차원 함수 fit, 가우스 혼합 모델(GMM) 및 서포트 벡터 머신(SVM) 중 적어도 하나를 포함하고,
    상기 출력 인터페이스는 상기 룩업 테이블을 조회하거나 상기 벡터 코드북을 사용하거나, 상기 다차원 함수 fit을 적용하거나, 상기 GMM 또는 상기 SVM을 사용하여, 상기 하나 이상의 큐 정보 항목을 검색하도록 구성되는, 장치.
  10. 선행 항들 중 어느 한 항에 있어서,
    상기 큐 정보 제공자(200)는 이격된 후보 공간 범위의 세트와 연관된 상기 하나 이상의 큐 정보 항목에 대한 정보를 저장하도록 구성되며, 상기 이격된 제한된 공간 범위의 세트는 상기 최대 공간 범위(600)를 커버하고, 상기 큐 정보 제공자(200)는 상기 제한된 공간 범위를 상기 제한된 공간 범위에 의해 정의된 특정 제한된 공간 범위에 가장 가까운 후보 공간 범위를 정의하는 후보 제한된 공간 범위에 일치(30)시키고 상기 일치된 후보 제한된 공간 범위와 관련된 상기 하나 이상의 큐 정보 항목을 제공하도록 구성되고,
    상기 제한된 공간 범위는 한 쌍의 방위각, 한 쌍의 앙각, 수평 거리 정보, 수직 거리 정보, 전체 거리 정보 및 한 쌍의 방위각 및 한 쌍의 앙각 중 적어도 하나를 포함하거나,
    상기 공간 범위 표시는 상기 제한된 공간 범위를 상기 최대 공간 범위(600)의 특정 섹터로 식별하는 코드(S3, S5)를 포함하고, 상기 최대 공간 범위(600)는 복수의 상이한 섹터를 포함하는, 장치.
  11. 제10항에 있어서,
    상기 복수의 상이한 섹터의 섹터는 방위각 또는 수평 방향의 제1 확장 및 고도 또는 수직 방향의 제2 확장을 갖고, 섹터의 높이 또는 수직 방향의 상기 제2 확장은 상기 제1 확장보다 더 크거나, 상기 제2 확장은 최대 고도 또는 수직 방향 범위를 커버하는, 장치.
  12. 제10항 또는 제11항에 있어서, 상기 복수의 상이한 섹터는 상기 방위각 또는 수평 방향으로 인접한 섹터의 중심 간의 거리가 5도보다 크거나 심지어 10도보다 크거나 같은 방식으로 정의되는, 장치.
  13. 선행 항들 중 어느 한 항에 있어서, 상기 오디오 프로세서(300)는 상기 오디오 신호로부터 바이노럴 렌더링 또는 확성기 렌더링 또는 능동 크로스토크 감소 확성기 렌더링을 위해 처리된 제1 채널 및 처리된 제2 채널을 생성하도록 구성되는, 장치.
  14. 선행 항들 중 어느 한 항에 있어서,
    상기 큐 정보 제공자(200)는 상기 하나 이상의 큐 정보 항목으로서 하나 이상의 채널간 큐 값을 제공하도록 구성되고,
    상기 오디오 프로세서(300)는 상기 처리된 제1 채널 및 상기 처리된 제2 채널이 상기 하나 이상의 채널간 큐 값에 의해 제어되는 바와 같이 하나 이상의 채널간 큐를 갖는 방식으로 상기 오디오 신호로부터 상기 처리된 제1 채널 및 상기 처리된 제2 채널을 생성(320, 330, 340, 350)하도록 구성되는, 장치.
  15. 제14항에 있어서, 상기 큐 정보 제공자(200)는 상기 하나 이상의 큐 정보 항목으로서 하나 이상의 채널간 상관 큐 값을 제공하도록 구성되고,
    상기 오디오 프로세서(300)는 상기 처리된 제1 채널 및 상기 처리된 제2 채널이 상기 하나 이상의 채널간 상관 큐 값에 의해 제어되는 바와 같이 채널간 상관 값을 갖는 방식으로 상기 오디오 신호로부터 상기 처리된 제1 채널 및 상기 처리된 제2 채널을 생성(320)하도록 구성되는, 장치.
  16. 선행 항들 중 어느 한 항에 있어서, 상기 큐 정보 제공자(200)는 상기 복수의 주파수 대역에 대해 동일한 상기 제한된 공간 범위에 응답하여 복수의 주파수 대역에 대해 상기 하나 이상의 큐 정보 항목을 제공하도록 구성되고, 상기 상이한 대역에 대한 상기 큐 정보 항목은 서로 상이한, 장치.
  17. 선행 항들 중 어느 한 항에 있어서,
    상기 큐 정보 제공자(200)는 복수의 상이한 주파수 대역에 대해 하나 이상의 큐 정보 항목을 제공하도록 구성되고,
    상기 오디오 프로세서(300)는 스펙트럼 도메인에서 상기 오디오 신호를 처리하도록 구성되고, 대역에 대한 큐 정보 항목은 상기 대역에서 상기 오디오 신호의 복수의 스펙트럼 값에 적용되는, 장치.
  18. 선행 항들 중 어느 한 항에 있어서,
    상기 오디오 프로세서(300)는 상기 공간적으로 확장된 음원을 나타내는 상기 오디오 신호로서 제1 오디오 채널 및 제2 오디오 채널을 수신하거나, 상기 오디오 프로세서(300)는 상기 공간적으로 확장된 음원을 나타내는 상기 오디오 신호로서 제1 오디오 채널을 수신하고 제2 채널 프로세서(310)에 의해 상기 제2 오디오 채널을 유도하도록 구성되고,
    상기 제1 오디오 채널 및 상기 제2 오디오 채널은 특정 정도의 역상관에 의해 서로 역상관되고,
    상기 큐 정보 제공자(200)는 상기 하나 이상의 큐 정보 항목으로서 채널간 상관 값을 제공하도록 구성되고,
    상기 오디오 프로세서(300)는 상기 제1 채널과 상기 제2 채널 사이의 상관 정도를 상기 큐 정보 제공자(200)에 의해 제공되는 하나 이상의 채널간 상관 큐에 의해 표시된 상기 값으로 감소(320)하도록 구성되는, 장치.
  19. 선행 항들 중 어느 한 항에 있어서, 상기 공간적으로 확장된 음원을 나타내는 value오디오 신호를 수신하기 위한 오디오 신호 인터페이스(305)
    를 더 포함하고, 상기 오디오 신호는 제1 오디오 채널만을 포함하거나, 제1 오디오 채널 및 제2 오디오 채널만을 포함하거나, 또는 상기 오디오 신호는 2개 이상의 오디오 채널을 포함하지 않는, 장치.
  20. 선행 항들 중 어느 한 항에 있어서, 상기 공간 정보 인터페이스(100)는:
    상기 공간 범위 표시로서 청취자 위치를 수신하고(100),
    상기 공간적 범위 표시로서 상기 청취자 위치 및 기하학과 같은 상기 공간적으로 확장된 음원에 대한 정보 또는 상기 공간적으로 확장된 음원의 위치를 사용하여 상기 공간적으로 확장된 음원과 관련된 2차원 또는 3차원 껍질의 투영 평면상으로의 투영을 계산(120)하거나, 상기 공간적 범위 표시로서 상기 청취자 위치 및 기하학과 같은 상기 공간적으로 확장된 음원에 대한 정보 또는 상기 공간적으로 확장된 음원의 위치를 사용하여 상기 공간적으로 확장된 음원의 기하학의 투영 평면상으로의 투영의 2차원 또는 3차원 껍질을 계산하고(120),
    상기 제한된 공간 범위를 껍질 투영 데이터로부터 결정하도록(140)
    구성되는, 장치.
  21. 제20항에 있어서, 상기 공간 정보 인터페이스(100)는 상기 공간적으로 확장된 음원에 대한 상기 정보로서, 상기 공간적으로 확장된 음원의 상기 기하학을 사용하여 상기 공간적으로 확장된 음원의 상기 껍질을 계산하고(121) 상기 청취자 위치를 사용하여 상기 청취자를 향한 방향으로 상기 껍질을 투영하여(122) 상기 2차원 또는 3차원 껍질의 상기 투영 평면 상으로의 상기 투영을 획득하거나, 상기 청취자 위치를 향한 방향으로 상기 공간적으로 확장된 음원의 상기 기하학에 대한 상기 정보에 의해 정의된 상기 공간적으로 확장된 음원의 상기 기하학을 투영하고(123) 투영된 기하학의 상기 껍질을 계산하여(124) 상기 2차원 또는 3차원 껍질의 상기 투영 평면 상으로의 상기 투영을 획득하도록 구성되는, 장치.
  22. 제20항 또는 제21항에 있어서, 상기 공간 정보 인터페이스(100)는 상기 제한된 공간 범위에 의해 정의된 섹터의 경계가 상기 청취자를 기준으로 상기 투영 평면의 오른쪽 및/또는 상기 청취자에 대한 상기 투영 평면의 왼쪽에 및/또는 상기 청취자에 대한 상기 투영 평면의 상단 및/또는 상기 청취자에 대한 상기 투영 평면의 하단에 위치하거나 상기 청취자에 대한 상기 투영 평면의 오른쪽 경계, 왼쪽 경계, 위쪽 경계 및 아래쪽 경계 중 하나를 사용하여 +/- 10%의 허용 오차 내에서 일치하도록 상기 제한된 공간 범위를 결정하도록 구성되는, 장치.
  23. 공간적으로 확장된 음원을 합성하는 방법에 있어서, 상기 방법은:
    최대 공간 범위(600) 내에서 상기 공간적으로 확장된 음원에 대해 제한된 공간 범위를 나타내는 공간 범위 표시를 수신하는 단계;
    상기 제한된 공간 범위에 응답하여 하나 이상의 큐 정보 항목을 제공하는 단계; 및
    상기 하나 이상의 큐 정보 항목을 사용하여 상기 공간적으로 확장된 음원을 나타내는 오디오 신호를 처리하는 단계
    를 포함하는, 방법.
  24. 컴퓨터 또는 프로세서에서 실행될 때, 제23항의 방법을 수행하기 위한 컴퓨터 프로그램.
KR1020227035529A 2020-03-13 2021-03-12 큐 정보 항목을 이용한 공간 확장 음원을 합성하기 위한 장치 및 방법 KR20220153079A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20163159.5 2020-03-13
EP20163159.5A EP3879856A1 (en) 2020-03-13 2020-03-13 Apparatus and method for synthesizing a spatially extended sound source using cue information items
PCT/EP2021/056358 WO2021180935A1 (en) 2020-03-13 2021-03-12 Apparatus and method for synthesizing a spatially extended sound source using cue information items

Publications (1)

Publication Number Publication Date
KR20220153079A true KR20220153079A (ko) 2022-11-17

Family

ID=69844590

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227035529A KR20220153079A (ko) 2020-03-13 2021-03-12 큐 정보 항목을 이용한 공간 확장 음원을 합성하기 위한 장치 및 방법

Country Status (12)

Country Link
US (1) US20220417694A1 (ko)
EP (2) EP3879856A1 (ko)
JP (1) JP2023518360A (ko)
KR (1) KR20220153079A (ko)
CN (1) CN115668985A (ko)
AU (1) AU2021236362B2 (ko)
BR (1) BR112022018339A2 (ko)
CA (1) CA3171368A1 (ko)
MX (1) MX2022011150A (ko)
TW (1) TWI818244B (ko)
WO (1) WO2021180935A1 (ko)
ZA (1) ZA202210728B (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102658471B1 (ko) * 2020-12-29 2024-04-18 한국전자통신연구원 익스텐트 음원에 기초한 오디오 신호의 처리 방법 및 장치
WO2023061965A2 (en) * 2021-10-11 2023-04-20 Telefonaktiebolaget Lm Ericsson (Publ) Configuring virtual loudspeakers
AU2022388677A1 (en) 2021-11-09 2024-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method or computer program for synthesizing a spatially extended sound source using modification data on a potentially modifying object
CA3237593A1 (en) 2021-11-09 2023-05-19 Simon Schwaer Renderers, decoders, encoders, methods and bitstreams using spatially extended sound sources
CA3236469A1 (en) 2021-11-09 2023-05-19 Yun-Han Wu Apparatus, method and computer program for synthesizing a spatially extended sound source using elementary spatial sectors
WO2023083754A1 (en) 2021-11-09 2023-05-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method or computer program for synthesizing a spatially extended sound source using variance or covariance data
WO2024023108A1 (en) * 2022-07-28 2024-02-01 Dolby International Ab Acoustic image enhancement for stereo audio

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE357043T1 (de) * 2002-10-14 2007-04-15 Thomson Licensing Verfahren zum kodieren und dekodieren von der breite einer schallquelle in einer audioszene
EP3114859B1 (en) * 2014-03-06 2018-05-09 Dolby Laboratories Licensing Corporation Structural modeling of the head related impulse response
JP6786834B2 (ja) * 2016-03-23 2020-11-18 ヤマハ株式会社 音響処理装置、プログラムおよび音響処理方法

Also Published As

Publication number Publication date
CN115668985A (zh) 2023-01-31
AU2021236362A1 (en) 2022-10-06
WO2021180935A1 (en) 2021-09-16
JP2023518360A (ja) 2023-05-01
TWI818244B (zh) 2023-10-11
EP4118844A1 (en) 2023-01-18
EP3879856A1 (en) 2021-09-15
TW202143749A (zh) 2021-11-16
MX2022011150A (es) 2022-11-30
AU2021236362B2 (en) 2024-05-02
ZA202210728B (en) 2024-03-27
US20220417694A1 (en) 2022-12-29
BR112022018339A2 (pt) 2022-12-27
CA3171368A1 (en) 2021-09-16

Similar Documents

Publication Publication Date Title
KR102659722B1 (ko) 공간 확장 음원을 재생하는 장치 및 방법 또는 공간 확장 음원으로부터 비트 스트림을 생성하는 장치 및 방법
KR20220153079A (ko) 큐 정보 항목을 이용한 공간 확장 음원을 합성하기 위한 장치 및 방법
AU2021225242B2 (en) Concept for generating an enhanced sound-field description or a modified sound field description using a multi-layer description
US20220377489A1 (en) Apparatus and Method for Reproducing a Spatially Extended Sound Source or Apparatus and Method for Generating a Description for a Spatially Extended Sound Source Using Anchoring Information
RU2808102C1 (ru) Оборудование и способ для синтезирования пространственно протяженного источника звука с использованием информационных элементов сигнальных меток
RU2780536C1 (ru) Оборудование и способ для воспроизведения пространственно протяженного источника звука или оборудование и способ для формирования потока битов из пространственно протяженного источника звука
KR20240096683A (ko) 잠재적 수정 객체에 대한 수정 데이터를 사용하여 공간 확장형 음원을 합성하는 장치, 방법 또는 컴퓨터 프로그램
TW202327379A (zh) 用以使用關於潛在修改物件之修改資料來合成空間擴展聲源之設備、方法及電腦程式
TW202325047A (zh) 用以使用變異數或共變異數資料合成空間擴展音源之裝置、方法或電腦程式
TW202337236A (zh) 用以使用基本空間扇區合成空間擴展音源之裝置、方法及電腦程式
KR20240091274A (ko) 기본 공간 섹터를 사용하여 공간 확장형 음원을 합성하는 장치, 방법 및 컴퓨터 프로그램
KR20240096705A (ko) 분산 또는 공분산 데이터를 사용하여 공간 확장형 음원을 합성하는 장치, 방법 또는 컴퓨터 프로그램
CN118251907A (zh) 用于使用基本空间扇区合成空间扩展声源的装置、方法或计算机程序
CN118235434A (zh) 用于使用关于潜在修改对象的修改数据合成空间扩展声源的装置、方法或计算机程序
CN118235433A (zh) 用于使用方差或协方差数据合成空间扩展声源的装置、方法或计算机程序

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal