KR101346026B1 - 오디오 포맷 트랜스코더 - Google Patents

오디오 포맷 트랜스코더 Download PDF

Info

Publication number
KR101346026B1
KR101346026B1 KR1020117027001A KR20117027001A KR101346026B1 KR 101346026 B1 KR101346026 B1 KR 101346026B1 KR 1020117027001 A KR1020117027001 A KR 1020117027001A KR 20117027001 A KR20117027001 A KR 20117027001A KR 101346026 B1 KR101346026 B1 KR 101346026B1
Authority
KR
South Korea
Prior art keywords
audio
signal
spatial
saoc
processor
Prior art date
Application number
KR1020117027001A
Other languages
English (en)
Other versions
KR20120013986A (ko
Inventor
올리버 티에르가르트
코르넬리아 팔크
파비안 퀴흐
갈도 지오바니 델
위르겐 헤어레
마르쿠스 캘링거
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20120013986A publication Critical patent/KR20120013986A/ko
Application granted granted Critical
Publication of KR101346026B1 publication Critical patent/KR101346026B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

2 이상의 지향성 오디오 성분을 가진 입력 오디오 신호를 트랜스코딩하는 오디오 포맷 트랜스코더(100)가 제공된다. 오디오 포맷 트랜스코더(100)는 입력 오디오 신호를 변환 신호로 변환하는 변환기(110)를 포함하고, 변환 신호는 변환 신호 표현 및 변환 신호 도달 방향을 갖는다. 오디오 포맷 트랜스코더(100)는 2 이상의 공간 오디오 소스의 2 이상의 공간 위치를 제공하는 위치 제공기(120), 및 2 이상의 분리된 오디오 소스 측정을 획득하도록 2 이상의 공간 위치에 기초하여 변환 신호 표현을 처리하는 프로세서(130)를 더 포함한다.

Description

오디오 포맷 트랜스코더{AUDIO FORMAT TRANSCODER}
본 발명은 오디오 포맷 트랜스코딩 분야에 관한 것으로서, 특히, 파라메트릭 인코딩 포맷의 트랜스코딩에 관한 것이다.
최근에, 다중 채널/다중 객체 오디오 신호의 인코딩을 위한 수개의 파라메트릭 기술이 제안되었다. 각 시스템은 특정 스피커 설정 등으로부터의 파라메트릭 특성화, 의존/독립의 타입과 같은 고유의 장점과 단점 w.r.t. 의 특성을 갖는다. 서로 다른 파라메트릭 기술은 서로 다른 인코딩 전략을 위해 최적화된다.
일례로서, 다중 채널 사운드의 표현(representation)을 위한 DirAC(Directional Audio Coding) 포맷은 많은 주파수 부대역에 대한 방향 및 확산 매개 변수를 포함하는 다운믹스 신호 및 보조 정보에 기초한다. 이러한 매개 변수화로 인해, DirAC 시스템은 예컨대 방향성 필터링을 쉽게 구현하여, 이렇게 하여 사운드를 픽업하는데 이용되는 마이크로폰 어레이에 대한 특정 방향에서 발신하는 사운드를 분리하기 위해 이용될 수 있다. 이렇게 하여, DirAC는 또한 어떤 공간 처리를 할 수 있는 음향 프론트 엔드(acoustic front-end)로 간주될 수 있다.
다른 예로서, Spatial Audio Object Coding (SAOC) ISO/IEC, "MPEG audio technologies - Part. 2: Spatial Audio Object Coding (SAOC)", ISO/IEC JTC1/SC29/WG11 (MPEG) FCD 23003-2, J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC to SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007, J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Holzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: "Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008, Preprint 7377은 비트 레이트 효율적인 방식(bitrate-efficient way)으로 다중 오디오 객체를 포함하는 오디오 장면을 나타내는 파라메트릭 코딩 시스템이다.
여기서, 표현은 다운믹스 신호 및 파라메트릭 보조 정보에 기초한다. 마이크로폰 어레이에 의해 픽업될 시에 원래의 공간 사운드 장면을 나타내는 것을 목표로 하는 DirAC와는 대조적으로, SAOC는 자연 사운드 장면을 재구성하는 것을 목표로 하지 않는다. 대신에, 많은 오디오 객체(사운드 소스)는 송신되어, SAOC 디코더에서 디코더 단말에서의 사용자의 선호에 따라 타겟 사운드 장면으로 조합된다. 즉 사용자는 각 사운드 객체를 자유롭고 대화식으로 위치시키고 조작할 수 있다.
일반적으로, 대중 채널 재생 및 청취 시에, 청취자는 다수의 스피커에 의해 서라운드된다. 특정 설정을 위한 오디오 신호를 포착하기 위한 여러 방법이 존재한다. 재생 시의 하나의 일반적인 목표는 오케스트라 내의 트럼펫의 위치와 같은 원래 녹음된 신호의 공간적 구성, 즉, 개별 오디오 소스의 기원(origin)을 재생하기 위한 것이다. 수개의 스피커 설정은 매우 일반적이고, 서로 다른 공간 임프레션(spatial impressions)을 생성시킬 수 있다. 특별 사후 제작 기술(special post-production techniques)을 이용하지 않고, 일반적으로 알려진 2 채널 스테레오 설정은 2개의 스피커 간의 선에 청각 이벤트(auditory events)만을 다시 생성시킬 수 있다. 이것은 주로 하나의 오디오 소스와 관련되는 신호의 진폭이 스피커에 대한 오디오 소스의 위치에 따라 2개의 스피커 사이로 분산되는 소위 "진폭 패닝(amplitude-panning)"에 의해 달성된다. 이것은 보통 녹음 또는 후속 믹싱(mixing) 중에 행해진다. 즉, 청취 위치에 대해 맨 왼쪽에서 오는 오디오 소스는 주로 좌측 스피커에 의해 재생되는 반면에, 청취 위치 앞의 오디오 소스는 양방의 스피커에 의해 동일한 진폭(레벨)로 재생될 것이다. 그러나, 다른 방향에서 나오는 사운드는 재생될 수 없다.
결과적으로, 청취자 주변에 위치되는 더욱 많은 스피커를 이용함으로써, 더욱 많은 방향이 커버될 수 있고, 더욱 많은 자연 공간 임프레션이 생성될 수 있다. 아마도 가장 잘 알려진 다중 채널 스피커 배치는, 5개의 스피커로 구성되고, 청취 위치에 대한 방위각가 0°, ± 30°및 ± 110°로 미리 정해지는 5.1 표준(ITU-R775-1)이다. 그것은 녹음 또는 믹싱 중에, 특정 스피커 구성 및 표준에서의 재생 설정의 편차가 재생 품질을 저하시키는 신호를 맞춘다는 것을 의미한다.
서로 다른 방향에 위치된 다양한 수의 스피커를 가진 많은 다른 시스템이 또한 제안되었다. 특히 극장 사운드 설치에서의 전문 시스템(professional system)은 또한 서로 다른 높이에서의 스피커를 포함한다.
서로 다른 재생 설정에 따르면, 수개의 서로 다른 녹음 방법이 녹음 환경에서 감지된 바와 같이 청취 상황에서 공간 임프레션을 녹음하여 재생하기 위해 상술한 스피커 시스템에 대해 설계되고 제안되었다. 선택된 다중 채널 스피커 시스템에 대한 공간 사운드를 녹음하는 이론적으로 이상적인 방식은 스피커가 존재하는 것과 동일한 수의 마이크로폰을 사용하는 것이다. 이와 같은 경우에, 마이크로폰의 지향성 패턴은 또한 스피커 배치에 대응함으로써, 어떤 단일 방향으로부터의 사운드가 소수의 마이크로폰(1, 2 이상)에만 녹음된다. 각 마이크로폰은 특정 스피커에 결합된다. 재생 시에 이용되는 스피커가 많을수록, 마이크로폰의 지향성 패턴을 더 좁아져야 한다. 그러나, 좁은 지향성 마이크로폰은 오히려 값비싸고, 전형적으로 비플랫(non-flat) 주파수 응답을 가져, 바람직하지 않은 방식으로 녹음된 사운드의 품질을 저하시킨다. 더욱이, 다중 채널 재생에 대한 입력으로서 너무 광범위한 지향성 패턴을 가진 수개의 마이크로폰을 이용함으로써, 단일 방향으로부터 나오는 사운드가 서로 다른 스피커에 결합된 마이크로폰에 녹음될 시에 항상 필요한 것보다 더 많은 스피커로 재생된다는 사실로 인해 편향되고 흐릿한 청각 지각이 생성된다. 일반적으로, 현재 이용 가능한 마이크로폰은 2개의 채널 녹음 및 재생에 가장 적절하며, 즉, 이들은 서라운드 공간 임프레션의 재생 목표 없이 설계된다.
마이크로폰 디자인 관점에서, 마이크로폰의 지향성 패턴을 공간 오디오 재생 시의 요구에 적응시키기 위한 수개의 접근법이 논의되었다. 일반적으로, 모든 마이크로폰은 마이크로폰으로의 사운드의 도달 방향에 따라 사운드를 서로 다르게 캡처(capture)한다. 즉, 마이크로폰은 녹음된 사운드의 도달 방향에 따라 서로 다른 감도를 갖는다. 일부 마이크로폰에서, 이러한 효과는 마이크로폰이 거의 방향과 무관하게 사운드를 캡처할 시에 작다. 이들 마이크로폰은 일반적으로 무지향성 마이크로폰이라 한다. 전형적인 마이크로폰 디자인에서, 보통 진동판(secular diaphragm)은 작은 밀폐된 인클로저(airtight enclosure)에 부착된다. 진동판이 인클로저에 부착되지 않고, 그것을 각 측면으로부터 균등하게 도달시키면, 그의 지향성 패턴은 2개의 로브(lobe)를 갖는다. 즉, 이와 같은 마이크로폰은 진동판의 앞뒤 양방으로부터 균등한 감도를 가진 사운드를 캡처하지만, 역 극성을 갖는다. 이와 같은 마이크로폰은 진동판의 평면에 일치하는, 즉 최대 감도의 방향에 직각인 방향으로부터 나오는 사운드를 캡처하지 않는다. 이와 같은 지향성 패턴은 다이폴(dipole) 또는 8자 모양으로 불리워진다.
무지향성 마이크로폰은 또한 마이크로폰에 대한 밀폐되지 않은 인클로저를 이용하여 지향성 마이크로폰으로 수정될 수 있다. 인클로저는 특히 음파가 인클로저를 통해 전파하여, 진동판에 도달하도록 구성되며, 일부 전파 방향은 바람직하여, 이와 같은 마이크로폰의 지향성 패턴이 무지향성 및 다이폴 간의 패턴이 된다. 이들 패턴은, 예컨대, 2개의 로브를 갖는다. 그러나, 로브는 서로 다른 세기를 가질 수 있다. 일반적으로 알려진 일부 마이크로폰은 하나만의 단일 로브를 가진 패턴을 갖는다. 가장 중요한 예는 지향성 함수 D가 D = 1 + cos (θ)로서 표현될 수 있는 카디오이드(cardioid) 패턴이며, θ는 사운드의 도달 방향이다. 지향성 함수는 서로 다른 방향에 따라 들어오는 소리 진폭의 어떤 분율(fraction)이 캡처되는 수량이다.
이전에 논의된 무지향성 패턴은 또한 영차(zeroeth-order) 패턴이라 하며, 상술한 다른 패턴(다이폴 및 카디오이드)는 1차(first-order) 패턴이라 한다. 이전에 논의된 모든 마이크로폰 디자인은 이들의 지향성 패턴이 전적으로 기계적 구성에 의해 결정되므로 지향성 패턴의 임의 형상을 허용하지 않는다.
이런 문제를 부분적으로 극복하기 위해, 1차 마이크로폰의 지향성 패턴보다 좁은 지향성 패턴을 생성하기 위해 이용될 수 있는 일부 전문 음향 구조가 설계되었다. 예컨대, 그것 내의 구멍을 가진 관이 무지향성 마이크로폰에 부착될 때, 좁은 지향성 패턴을 가진 마이크로폰이 생성될 수 있다. 이들 마이크로폰은 샷건 또는 라이플(shotgun or rifle) 마이크로폰이라 한다. 그러나, 이들은 전형적으로 플랫 주파수 응답을 가지지 않는다. 즉, 지향성 패턴이 녹음된 사운드의 품질을 희생하여 좁아진다. 더욱이, 지향성 패턴은 기하학적 구조에 의해 미리 정해져, 이와 같은 마이크로폰으로 수행되는 녹음의 지향성 패턴이 녹음 후에 제어될 수 없다.
그래서, 실제 녹음 후에 지향성 패턴을 변경하는 것을 부분적으로 허용하는 다른 방법이 제안되었다. 일반적으로, 이것은 이후 신호 처리를 적용하기 위해 무지향성 또는 지향성 마이크로폰의 어레이로 사운드를 녹음하는 기본적 사상에 의존한다. 이와 같은 여러 기술이 최근에 제안되었다. 매우 간단한 예로서, 서로 근접하여 위치되는 2개의 무지향성 마이크로폰으로 사운드를 녹음하고, 서로에서 두 신호를 감산하는 것이 있다. 이것은 다이폴과 균등한 지향성 패턴을 가진 가상 마이크로폰 신호를 생성한다.
다른 더욱 많은 정교한 기법에서, 마이크로폰 신호는 또한 이들 신호를 합산하기 전에 지연되거나 필터링될 수 있다. 형성(forming)을 이용하여, 좁은 빔에 대응하는 신호는 특별히 설계된 필터로 각 마이크로폰 신호를 필터링하여, 필터링한 후에 이들 신호를 합산함으로써 형성된다(필터 합 빔 형성(filter-sum beam forming)). 그러나, 이들 기술은 신호 자체를 깨닫지 못하며, 즉, 이들은 사운드의 도달 방향을 알지 못한다. 따라서, 미리 정해진 방향의 사운드 소스의 실제 존재와 무관한 미리 정해진 지향성 패턴이 정해질 수 있다. 일반적으로, 사운드의 "도달 방향"의 추정은 그 자신의 태스크(task)이다.
일반적으로, 수많은 서로 다른 공간 지향성 특성은 상기 기술로 형성될 수 있다. 그러나, 임의 공간적 선택 감도 패턴을 형성하는 것(즉, 좁은 지향성 패턴을 형성하는 것)은 다수의 마이크로폰을 필요로 한다.
다중 채널 녹음을 할 수 있는 대안적 방식은 녹음될 사운드 소스(예컨대, 기구)에 근접하여 마이크로폰을 위치시켜, 최종 믹스에서 클로즈업(close-up) 마이크로폰 신호의 레벨을 제어함으로써 공간 임프레션을 재생하는 것이다. 그러나, 이와 같은 시스템은 최종 다운믹스(down-mix)를 생성할 시에 다수의 마이크로폰 및 많은 사용자 상호 작용을 요구한다.
상기 문제를 극복하기 위한 방법은 DirAC이며, 이는 서로 다른 마이크로폰 시스템과 함께 사용될 수 있고, 임의 스피커 설정으로 재생하기 위한 사운드를 녹음할 수 있다. DirAC의 목적은 임의 기하학적 설정을 가진 다중 채널 스피커 시스템을 이용하여 가능한 정확하게 기존의 음향 환경의 공간 임프레션을 재생하는 것이다. 녹음 환경 내에서,(연속 녹음된 사운드 또는 임펄스 응답일 수 있는) 환경의 응답은 무지향성 마이크로폰(W) 및, 사운드의 도달 방향 및 사운드의 확산(diffuseness)을 측정하도록 허용하는 한 세트의 마이크로폰으로 측정된다.
다음의 단락 및 응용 내에서, 용어 "확산"은 사운드의 비지향성(non-directivity)에 대한 측정으로 이해될 수 있다. 즉, 모든 방향에서 동등한 세기를 가진 청취 또는 녹음 위치에 도달하는 사운드는 최대로 확산된다. 확산을 수량화하는 일반적인 방식은 구간[0,...,1]에서의 확산값을 이용하는 것이며, 1의 값은 최대로 확산된 사운드를 나타내고, 0의 값은 완전 지향성 사운드, 즉, 하나의 명백히 구별 가능한 방향만으로부터 도달한 사운드를 나타낸다. 사운드의 도달 방향을 측정하는 하나의 일반적으로 공지된 방법은 데카르트 좌표(Cartesian coordinate) 축으로 정렬되는 3개의 8자 모양 마이크로폰(X, Y, Z)을 적용하는 것이다. 직접적으로 모든 원하는 응답을 산출하는 특정 마이크로폰, 소위 "B-Format 마이크로폰"이 설계되었다. 그러나, 상술한 바와 같이, W, X, Y 및 Z 신호는 또한 이산 무지향성 마이크로폰의 세트로부터 계산될 수 있다.
DirAC 분석 시에, 녹음된 사운드 신호는 인간 청각 지각의 주파수 감도에 대응하는 주파수 채널로 분할된다. 즉, 신호는, 예컨대, 신호를 수많은 주파수 채널로 분할하기 위해 필터 뱅크 또는 퓨리에 변환에 의해 처리되고, 인간 청각의 주파수 감도에 적응되는 대역폭을 갖는다. 그리고 나서, 주파수 대역 신호는 미리 정해진 시간 분해능을 가진 각 주파수 채널에 대한 확산 값 및 사운드의 근원의 방향을 결정하기 위해 분석된다. 이러한 시간 분해능은 고정될 필요가 없고, 물론, 녹음 환경에 적응될 수 있다. DirAC에서, 하나 이상의 오디오 채널은 분석된 방향 및 확산 데이터와 함께 녹음되거나 전송된다.
합성 또는 디코딩에서, 스피커에 최종으로 적용되는 오디오 채널은 (이용되는 마이크로폰의 무지향성 지향성 패턴으로 인해 고 품질로 녹음되는) 무지향성 채널(W)에 기초할 수 있거나, 각 스피커에 대한 사운드는 W, X, Y 및 Z의 가중 합으로 계산될 수 있어, 각 스피커에 대한 어떤 지향성 특성을 가진 신호를 형성할 수 있다. 인코딩에 대응하여, 각 오디오 채널은 분석된 확산에 따라 선택적으로 확산 및 비확산 스트림으로 더 분할되는 주파수 채널로 분할된다. 확산이 높은 것으로 측정되었으면, 확산 스트림은 또한 바이노럴 큐 코딩(Binaural Cue Coding)에 이용되는 역상관(decorrelation) 기술과 같이 사운드의 확산 지각을 생성하는 기술을 이용하여 재생될 수 있다.
비확산 사운드는 분석, 즉 DirAC 신호의 생성 시에 찾아지는 방향 데이터에 의해 나타내는 방향에 위치되는 포인트형 가상 오디오 소스를 생성하는 것을 목표로 하는 기술을 이용하여 재생된다. 즉, 종래 기술에서와 같이(예컨대, 5.1), 공간 재생이 하나의 특정한 "이상적" 스피커 설정에 맞추어지지 않는다. 이것은 특히 사운드의 근원이 녹음 시에 이용되는 마이크로폰의 지향성 패턴에 관한 지식을 이용하여 방향 매개 변수로 결정되는(즉, 벡터로 나타내는) 경우이다. 이미 논의된 바와 같이, 3차원 공간의 사운드의 근원은 주파수 선택 방식으로 매개 변수화된다. 이와 같이, 스피커 설정의 기하학적 형상이 알려지는 한 지향성 임프레션은 임의 스피커 설정에 대한 고 품질로 재생될 수 있다. 그래서, DirAC는 특수 스피커의 기하학적 형상으로 제한되지 않으며, 일반적으로 사운드의 더욱 유연한 공간 재생을 허용한다.
DirAC, cf. Pulkki, V., Directional audio coding in spatial sound reproduction and stereo upmixing,” In Proceedings of The AES 28th International Conference, pp. 251-258, Pitea , Sweden, June 30-July 2, 2006 는 하나 이상의 다운믹스 신호 플러스 부가적인 보조 정보에 기초하여 공간 오디오 신호를 나타내는 시스템을 제공한다. 보조 정보는, 다른 가능한 양태 중에서, 도 5에 도시된 바와 같이 많은 주파수 대역에서 확산의 정도의 음장(sound field)의 도달 방향을 나타낸다.
도 5는 예컨대 8자 모양 마이크로폰 신호 X, Y, Z와 같은 3개의 지향성 성분 플러스 무지향성 신호 W로 구성되는 DirAC 신호를 예시한다. 각 신호는 도 5에서 각 신호에 대한 다수의 스택면(multiple stacked planes)으로 예시되는 주파수 도메인 내에서 이용 가능하다. 4개의 신호에 기초하여, 방향 및 확산의 추정은 주파수 채널의 각각에 대한 방향 및 확산의 상기 추정을 예시하는 블록(510 및 520)에서 실행될 수 있다. 이들 추정의 결과는 방위각, 앙각 (elevation angle) 및 주파수 층의 각각에 대한 확산을 나타내는 매개 변수 θ(t,f), φ(t,f) 및 ψ(t,f)에 의해 주어진다.
DirAC 매개 변수화는 예컨대 특정 토커(talker)의 방향으로부터 사운드만을 전달하는 원하는 공간 특성을 가진 공간 필터를 쉽게 구현하는데 이용될 수 있다. 이것은 도 6 및 7에 예시된 바와 같이 방향/확산 및 선택적으로 주파수 의존 가중치를 다운믹스 신호에 적용함으로써 달성될 수 있다.
도 6은 오디오 신호의 재구성을 위한 디코더(620)를 도시한 것이다. 디코더(620)는 방향 선택기(622) 및 오디오 프로세서(624)를 포함한다. 도 6의 예에 따르면, 수개의 마이크로폰에 의해 녹음되는 다중 채널 오디오 입력(626)은 오디오 채널의 부분의 근원의 방향, 즉 분석되는 신호 부분의 근원의 방향을 나타내는 방향 매개 변수를 유도하는 방향 분석기(628)에 의해 분석된다. 에너지의 대부분이 마이크로폰으로 입사하는 방향이 선택되고, 녹음 위치는 각 특정 신호 부분에 대해 결정된다. 이것은, 예컨대, 또한 상술한 DirAC-마이크로폰-기술을 이용하여 행해질 수 있다. 녹음된 오디오 정보에 기초하는 다른 지향성 분석 방법은 분석을 구현하기 위해 이용될 수 있다. 결과로서, 방향 분석기(628)는 오디오 채널 또는 다중 채널 신호(626)의 부분의 근원의 방향을 나타내는 방향 매개 변수(630)를 유도한다. 더욱이, 방향 분석기(628)는 각 신호 부분, 예컨대, 신호의 각 주파수 구간 또는 각 시간 프레임에 대한 확산 매개 변수(632)를 유도하도록 동작할 수 있다.
방향 매개 변수(630) 및 선택적으로 확산 매개 변수(632)는 재구성된 오디오 신호의 재구성된 부분 또는 녹음 위치에 대한 근원에 대한 원하는 방향을 선택하도록 구현되는 방향 선택기(620)로 전송된다. 원하는 방향의 정보는 오디오 프로세서(624)로 전송된다. 오디오 프로세서(624)는 방향 매개 변수를 유도하는 부분을 가진 적어도 하나의 오디오 채널(634)을 수신한다. 오디오 프로세서에 의해 수정되는 적어도 하나의 채널은, 예컨대, 통상의 다중 채널 다운믹스 알고리즘에 의해 생성되는 다중 채널 신호(626)의 다운믹스일 수 있다.
하나의 매우 간단한 경우는 다중 채널 오디오 입력(626)의 신호를 직접 합산하는 것이다. 그러나, 개념이 입력 채널의 수로 제한되지 않음에 따라, 모든 오디오 입력 채널(626)은 동시에 오디오 디코더(620)에 의해 처리될 수 있다.
오디오 프로세서(624)는 재구성된 오디오 신호의 재구성된 부분을 유도하기 위한 오디오 부분을 수정하며, 이런 수정은 근원의 원하는 방향에서 더 떨어진 근원의 방향을 나타내는 방향 매개 변수를 가진 오디오 채널의 다른 부분에 대하여 근원의 원하는 방향에 근접한 근원의 방향을 나타내는 방향 매개 변수를 가진 오디오 채널의 부분의 세기를 증가시키는 것을 포함한다. 도 6의 예에서, 수정은 수정될 오디오 채널의 부분과 스케일링 계수(636(q))를 곱하여 수행된다. 즉, 오디오 채널의 부분이 선택되는 원하는 방향에 근접한 방향에서 발신하도록 분석되면, 큰 스케일링 계수(636)는 오디오 부분과 곱해진다. 따라서, 출력(638)에서, 오디오 프로세서는 그의 입력에 제공된 오디오 채널의 부분에 대응하는 재구성된 오디오 신호의 재구성된 부분을 출력한다. 더욱이, 오디오 프로세서(624)의 출력(638)에서 점선으로 나타낸 바와 같이, 이것은 모노 출력 신호에 대해 수행될 수 있을 뿐만 아니라, 다중 채널 출력 신호에 대해서도 수행될 수 있으며, 출력 채널의 수는 고정되거나 미리 정해지지 않는다.
환언하면, 오디오 디코더(620)는, 예컨대, DirAC에 이용되는 바와 같은 지향성 분석으로부터 그의 입력을 취한다. 마이크로폰 어레이로부터의 오디오 신호(626)는 인간 청각 시스템의 주파수 분해능에 따라 주파수 대역으로 분할될 수 있다. 사운드의 방향 및 선택적으로 사운드의 확산은 각 주파수 채널에서의 시간에 따라 분석된다. 이들 속성(attributes)은, 예컨대, 방향 각도 방위각(azi) 및 앙각(ele), 및 0과 1 사이에서 변화하는 확산 지수(ψ)로서 더 전달된다.
그리고 나서, 의도된 또는 선택된 지향성 특성은 획득된 신호의 가중치 동작을 이용하여 획득된 신호에 부과되고, 방향각(azi 및 ele) 및 선택적으로 확산(ψ)에 의존한다. 궁극적으로, 이러한 가중치는 서로 다른 주파수 대역에 대해 상이하게 특정될 수 있고, 일반적으로 시간에 걸쳐 변화할 것이다.
도 7은 DirAC 합성에 기초한 추가적 예를 도시한다. 그런 의미에서, 도 7의 예는 분석된 방향에 따라 사운드의 레벨을 제어하도록 허용하는 DirAC 재생을 향상시키는 것으로 해석될 수 있다. 이것은 하나 이상의 방향에서 나오는 사운드를 강조하거나 하나 이상의 방향으로부터의 사운드를 억제할 수 있게 한다. 다중 채널 재생에 적용될 때, 재생된 사운드 이미지의 후 처리(post-processing)가 달성된다. 하나의 채널만이 출력으로서 이용되면, 그 효과는 신호의 녹음 중에 임의 지향성 패턴을 가진 지향성 마이크로폰의 사용과 동등하다. 도 7에 도시된 바와 같이, 방향 매개 변수의 유도 뿐만 아니라, 하나의 전송된 오디오 채널의 유도가 보여진다. 예컨대, 음장 마이크로폰에 의해 녹음되는 바와 같이, 분석은 B-포맷 마이크로폰 채널 W, X, Y 및 Z에 기초하여 수행된다.
처리는 프레임 방향으로 수행된다. 그래서, 연속적 오디오 신호는 프레임 경계에서 불연속성을 회피하도록 윈도우 함수에 의해 스케일링되는 프레임으로 분할된다. 윈도우된(windowed) 신호 프레임은 퓨리에 변환 블록(740) 내에서 퓨리에 변환되어, 마이크로폰 신호를 N 주파수 대역으로 분할한다. 간략화를 위해, 하나의 임의 주파수 대역의 처리는 나머지 주파수 대역이 균등하게 처리되는 것으로 다음의 단락에서 기술된다. 퓨리에 변환 블록(740)은 분석된 윈도우된 프레임 내에서 B-포맷 마이크로폰 채널 W, X, Y 및 Z의 각각에 제공된 주파수 성분의 세기를 나타내는 계수를 유도한다. 이들 주파수 매개 변수(742)는 오디오 채널 및 관련된 방향 매개 변수를 유도하기 위해 오디오 인코더(744) 내에 입력된다. 도 7에 도시된 예에서, 전송된 오디오 채널은 모든 방향으로부터의 신호에 관한 정보를 가진 무지향성 채널(746)이도록 선택된다. B-포맷 마이크로폰 채널의 무지향성 및 지향성 부분에 대한 계수(742)에 기초하여, 지향성 및 확산 분석은 방향 분석 블록(748)에 의해 수행된다.
오디오 채널의 분석된 부분에 대한 사운드의 근원의 방향은 무지향성 채널(746)과 함께 오디오 신호를 재구성하기 위해 오디오 디코더(750)로 전송된다. 확산 매개 변수(752)가 제공될 때, 신호 경로는 비확산 경로(754a) 및 확산 경로(754b)로 분할된다. 비확산 경로(754a)는 확산 매개 변수에 따라 스케일링됨으로써, 확산 Ψ이 낮을 때, 에너지 또는 진폭의 대부분은 비확산 경로에 남을 것이다. 역으로, 확산이 높을 때, 에너지의 대부분은 확산 경로(754b)로 시프트될 것이다. 확산 경로(754b)에서, 신호는 역상관기(756a 또는 756b)를 이용하여 역상관되거나 확산된다. 역상관은 백색 잡음 신호와 콘벌브(convolve)하는 것과 같은 통상의 공지된 기술을 이용하여 수행될 수 있으며, 백색 잡음 신호는 주파수 채널 간에 상이할 수 있다. 역상관이 에너지를 보존하는 한, 최종 출력은 출력에서 비확산 신호 경로(754a) 및 확산 신호 경로(754b)의 신호를 간단히 부가함으로써 재생될 수 있는데, 그 이유는 확산 매개 변수Ψ로 나타낸 바와 같이 신호 경로에서의 신호가 이미 스케일링되었기 때문이다. 다중 채널 설정에 대한 재구성이 수행될 때, 직접 신호 경로(754a) 뿐만 아니라 확산 신호 경로(754b)는 분할 위치(758a 및 758b)에서의 개별 스피커 신호에 대응하는 많은 부 경로로 분할된다. 이를 위해, 분할 위치(758a 및 758b)에서의 분할은 다수의 스피커를 가진 스피커 시스템을 통해 재생하기 위해 다중 채널과 적어도 하나의 오디오 채널의 업믹싱과 균등한 것으로 해석될 수 있다.
그래서, 다중 채널의 각각은 오디오 채널(746)의 채널 부분을 갖는다. 개별 오디오 부분의 근원의 방향은 재생을 위해 이용되는 스피커에 대응하는 채널 부분의 세기 또는 진폭을 부가적으로 증가시키거나 감소시키는 리디렉션(redirection) 블록(760)에 의해 재구성된다. 이를 위해, 리디렉션 블록(760)은 일반적으로 재생을 위해 이용되는 스피커 설정에 관한 지식을 필요로 한다. 관련된 가중치의 실제 재분배(redistribution)(리디렉션) 및 유도는, 예컨대, 벡터 기반 진폭 패닝으로 이용되는 기술을 이용하여 구현될 수 있다. 서로 다른 기하학적 스피커 설정을 재분배 블록(760)에 공급함으로써, 재생 스피커의 임의 구성은 재생 품질의 손실 없이 실시예에 이용될 수 있다. 처리 후에, 다수의 역 퓨리에 변환은 개별 스피커에 의해 재생될 수 있는 시간 도메인 신호를 유도하도록 역 퓨리에 변환 블록(762)에 의해 주파수 도메인 신호에서 수행된다. 재생 전에, 중복 및 부가 기술은 스피커에 의해 재생될 준비가 되어 있는 연속 시간 도메인 신호를 유도하도록 개별 오디오 프레임을 연쇄시키기 위해 합 유닛(summation units)(764)에 의해 수행된다.
도 7에 도시된 예에 따르면, 오디오 프로세서(766)가 실제 처리되는 오디오 채널의 부분을 수정하기 위해 도입되어, 원하는 방향에 근접한 근원의 방향을 나타내는 방향 매개 변수를 가진 오디오 채널의 부분의 세기를 증가시킨다는 점에서 DirAC의 신호 처리는 수정된다. 이것은 부가적인 가중치를 직접 신호 경로에 적용함으로써 달성된다. 즉, 처리되는 주파수 부분이 원하는 방향에서 발신하면, 신호는 부가적인 이득을 그 특정 신호 부분에 적용함으로써 강조된다. 이득의 적용은 효과가 모든 채널 부분에 동등하게 기여할 시에 분할 포인트(758a) 전에 수행될 수 있다.
부가적인 가중치의 적용은 재분배 블록(760) 내에서 구현될 수 있으며, 이 경우에, 재분배 블록(760)은 부가적인 가중치에 의해 증가되는 재분배 이득 계수를 적용한다.
다중 채널 신호의 재구성 시의 지향성 개선을 이용할 때, 도 7에 도시된 바와 같이, 재생은, 예컨대, DirAC 렌더링(rendering)의 스타일에서 수행될 수 있다. 재생될 오디오 채널은 지향성 분석을 위해 이용되는 것과 동등한 주파수 대역으로 분할된다. 그리고 나서, 이들 주파수 대역은 스트림, 확산 및 비확산 스트림으로 분할된다. 확산 스트림은, 예컨대, 30ms 백색 잡음 버스트를 가진 콘벌루션(convolution) 후에 사운드을 각 스피커에 적용함으로써 재생된다. 잡음 버스트는 각 스피커에 대해 상이하다. 비확산 스트림은 물론 시간에 의존적인 지향성 분석으로부터 제공되는 방향에 적용된다. 다중 채널 스피커 시스템에서 지향성 지각을 달성하기 위해, 간단한 pair-wise 또는 triplet-wise 진폭 패닝이 이용될 수 있다. 더욱이, 각 주파수 채널은 분석된 방향에 의존하는 이득 계수 또는 스케일링 계수와 곱해진다. 일반적 용어에서, 함수는 특정되어 재생을 위한 원하는 지향성 패턴을 규정할 수 있다. 이것은, 예컨대, 강조되어야 하는 단지 하나의 단일 방향일 수 있다. 그러나, 임의 지향성 패턴은 도 7에 따라 쉽게 구현될 수 있다.
다음의 접근법에서는, 처리 단계의 리스트로서 추가적인 예가 기술된다. 이 리스트는 사운드가 B-포맷 마이크로폰에 녹음되어, 지향성 매개 변수를 공급하는 DirAC 스타일 렌더링을 이용하여 다중 채널 또는 모노포닉(monophonic) 스피커 설정으로 청취하고, 오디오 채널의 부분의 근원의 방향을 나타내기 위해 처리된다는 가정에 기초한다.
첫째로, 마이크로폰 신호는 주파수 대역으로 분할되고, 주파수에 의존하는 각 대역에서 방향 및 선택적으로 확산에서 분석될 수 있다. 일례로서, 방향은 방위각 및 앙각(azi, ele)에 의해 매개 변수화될 수 있다. 둘째로, 원하는 지향성 패턴을 나타내는 함수 F가 특정될 수 있다. 이 함수는 임의 형상을 가질 수 있다. 그것은 전형적으로 방향에 의존한다. 더욱이, 그것은 또한 확산 정보가 이용 가능할 경우에 확산에 의존할 수 있다. 이 함수는 서로 다른 주파수에 대해 상이할 수 있으며, 그것은 또한 시간에 따라 변화될 수 있다. 각 주파수 대역에서, 함수 F로부터의 지향성 계수 q는 오디오 신호의 후속 가중(스케일링)을 위해 이용되는 각 시간 인스턴스(time instance)에 대해 유도될 수 있다.
셋째로, 오디오 샘플 값은 출력 신호를 형성하도록 각 시간 및 주파수 부분에 대응하는 지향성 계수의 q 값과 곱해질 수 있다. 이것은 시간 및/또는 주파수 도메인 표현에서 행해질 수 있다. 더욱이,이러한 처리는, 예컨대, 어떤 수의 원하는 출력 채널로 DirAC 렌더링의 부분으로서 구현될 수 있다.
상술한 바와 같이, 그 결과는 다중 채널 또는 모노포닉 스피커 시스템을 이용하여 청취될 수 있다. 최근에, 다수의 오디오 객체를 포함하는 오디오 장면의 비트레이트 효율 전송/저장을 위한 파라메트릭 기술, 예컨대, Binaural Cue Coding (Type 1)이 제안되었다. C. Faller and F. Baumgarte, “Binaural Cue Coding - Part II: Schemes and applications”, IEEF Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003, or Joint Source Coding, cf. C. Faller, “Parametric Joint-Coding of Audio Sources”, 120th AES Convention, Paris, 2006, Preprint 6752, and MPEG Spatial Audio Object Coding (SAOC) 참조, J. Herre, S. Disch, J. Hilpert, O. Hellmuth: “From SAC to SAOC - Recent Developments in Parametric Coding of Spatial Audio”, 22nd Regional UK AES Conference, Cambridge, UK, April 2007, J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Holzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: “Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding”, 124th AES Convention, Amsterdam 2008, Preprint 7377) 참조.
이들 기술은 파형 일치에 의해서보다는 원하는 출력 오디오 장면을 지각적으로 재구성하는 것을 목표로 한다. 도 8은 이와 같은 시스템(여기서는: MPEG SAOC)의 시스템 개요를 도시한 것이다. 도 8은 MPEG SAOC 시스템 개요를 도시한 것이다. 이 시스템은 SAOC 인코더(810), SAOC 디코더(820) 및 렌더러(renderer)(830)를 포함한다. 일반적인 처리는 주파수 선택 방식으로 실행될 수 있으며, 다음에 정의되는 처리는 개별 주파수 대역의 각각에서 실행될 수 있다. SAOC 인코더에는 SAOC 인코더 처리의 부분으로서 다운믹스되는 많은 (N) 입력 오디오 객체 신호가 입력된다. SAOC 인코더(810)는 다운믹스 신호 및 보조 정보를 출력한다. SAOC 인코더(810)에 의해 추출되는 보조 정보는 입력 오디오 객체의 특성을 나타낸다. MPEG SAOC에 대해, 모든 오디오 객체에 대해 가동되는 객체는 보조 정보의 가장 중요한 구성 요소이다. 실제로, 절대 객체 전력 대신에, 객체 레벨차(OLD)라 부르는 상대 전력이 전송된다. 객체의 쌍 간의 코히어런스(coherence)/상관 관계는 객체간 코히어런스(IOC)라 부르고, 입력 오디오 객체의 특성을 추가적으로 나타내는데 이용될 수 있다.
다운믹스 신호 및 보조 정보는 전송되거나 저장될 수 있다. 이를 위해, 다운믹스 오디오 신호는 또한 MP3, MPEG AAC(Advance Audio Coding) 등으로 알려져 있는 MPEG-1 계층 2 또는 3과 같은 잘 알려진 지각적 오디오 코더를 이용하여 압축될 수 있다.
수신단에서, SAOC 디코더(820)는 개념적으로 또한 객체 분리로 지칭되는 원래의 객체 신호를 전송된 보조 정보를 이용하여 복원하려고 한다. 이들 근사 객체 신호는 이때 렌더러(830)에 의해 적용되는 렌더링 매트릭스를 이용하여 M 오디오 출력 채널로 나타내는 타겟 장면으로 혼합된다. 사실상, 객체 신호의 분리는 결코 실행되지 않는데, 그 이유는 분리 단계 및 혼합 단계의 양방이 계산 복잡도의 엄청난 감소를 초래하는 단일 트랜스코딩 단계로 조합되기 때문이다.
이와 같은 기법은 양자 모두 전송 비트레이트의 관점에서 매우 효율적일 수 있으며, 그것은 N 객체 오디오 신호 플러스 렌더링 정보 또는 이산 시스템 대신에 몇몇 다운믹스 채널 플러스 일부 보조 정보, 및 계산 복잡도만을 전송하는데 필요하며, 처리 복잡도는 주로 오디오 객체의 수보다는 출력 채널의 수에 관계한다. 수신단에서의 사용자에 대한 추가적 이점은 자신의 선택의 렌더링 설정을 선택하는 자유, 예컨대, 모노, 스테레오, 서라운드, 가상 헤드폰 재생 등을 포함하고, 사용자 상호 작용 특징: 렌더링 매트릭스, 및 따라서 출력 장면은 사용자에 의해 상호 작용하게 설정되고 변화될 수 있으며, 뜻에 따라, 개인 선호 또는 다른 기준이, 예컨대 다른 잔여 토커와의 구별을 최대화하기 위해 한 공간 영역에서 함께 한 그룹으로부터 토커를 위치시킨다. 이러한 상호 작용은 디코더 사용자 인터페이스를 제공함으로써 달성된다.
다중 채널 렌더링을 위해 SAOC를 MPEG 서라운드(MPS)로 트랜스코딩하기 위한 통상의 트랜스코딩 개념은 다음에서 고려된다. 일반적으로, SAOC의 디코딩은 트랜스코딩 프로세스를 이용하여 행해질 수 있다. MPEG SAOC는 모든 단일 오디오 객체로 구성되는 타겟 오디오 장면을 관계된 MPEG 서라운드 포맷으로 트랜스코딩하여 다중 채널 사운드 재생 설정으로 렌더링한다. J. Herre, K. Kjorling, J. Breebaart, C. Faller, S. Disch, H. Purnhagen, J. Koppens, J. Hilpert, J. Roden, W. Oomen, K. Linzmeier, K.S. Chong: “MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding”, 122nd AES Convention, Vienna, Austria, 2007, Preprint 7084 참조.
도 9에 따르면, SAOC 보조 정보는 구문 분석(parse)되어(910), 매개 변수를 렌더링하는 재생 구성 및 객체에 관해 사용자 공급된 데이터와 함께 트랜스코딩된다(920). 부가적으로, SAOC 다운믹스 매개 변수는 다운믹스 프리프로세서(930)에 의해 조건화된다. 처리된 다운믹스 및 MPS 보조 정보의 양방은 이때 최종 렌더링을 위해 MPS 디코더(940)로 전달될 수 있다.
통상의 개념은, 예컨대, DirAC의 경우에, 구현하기 쉽지만, 사용자 정보 또는 사용자 개별 렌더링이 적용될 수 없는 결점을 갖고, 또는 구현하기 더욱 복잡하지만, 사용자 정보가, 예컨대, SAOC에 대해서는 고려될 수 있는 이점을 제공한다.
본 발명의 목적은 쉽게 구현될 수 있고, 사용자 개별 조작을 허용하는 오디오 코딩 개념을 제공하기 위한 것이다.
이 목적은 청구항 1에 따른 오디오 포맷 트랜스코더 및 청구항 14에 따른 오디오 포맷 트랜스코딩 방법에 의해 달성된다.
그것은 지향성 오디오 및 공간 오디오 객체 코딩의 기능을 조합할 수 있는 본 발명의 발견이다. 그것은 또한 지향성 오디오 성분이 분리된 오디오 소스 측정 또는 신호로 변환될 수 있다는 본 발명의 발견이다. 실시예들은 DirAC 및 SAOC 시스템의 기능을 효율적으로 조합하는 수단을 제공하고, 공간 필터링 기능을 내장한 음향 프론트 엔드로서 DirAC를 이용하고, 이러한 시스템을 이용하여 들어오는 오디오를 오디오 객체로 분리하는 방법을 생성하며, 상기 오디오 객체는 이때 SAOC를 이용하여 나타내고 렌더링된다.
더욱이, 실시예들은 DirAC 표현에서 SAOC 표현으로의 변환이 2개의 타입의 보조 정보를 변환시키고, 바람직하게는 일부 실시예에서, 터치되지 않은 다운믹스 신호를 남겨두어 매우 효율적인 방식으로 수행될 수 있는 이점을 제공할 수 있다.
본 발명의 실시예들은 첨부한 도면을 이용하여 상세히 기술될 것이다.
도 1은 오디오 포맷 트랜스코더의 실시예를 도시한 것이다.
도 2는 오디오 포맷 트랜스코더의 다른 실시예를 도시한 것이다.
도 3은 오디오 포맷 트랜스코더의 또 다른 실시예를 도시한 것이다.
도 4a는 지향성 오디오 성분의 중첩(superposition)을 도시한 것이다.
도 4b는 실시예에 이용되는 예시적인 가중 함수를 예시한 것이다.
도 4c는 실시예에 이용되는 예시적인 윈도우 함수를 예시한 것이다.
도 5는 현재의 기술적 수준의 DirAC를 예시한 것이다.
도 6은 현재의 기술적 수준의 지향성 분석을 예시한 것이다.
도 7은 현재의 기술적 수준의 DirAC 렌더링과 조합된 지향성 가중치를 예시한 것이다.
도 8은 MPEG SAOC 시스템 개요를 도시한 것이다.
도 9는 현재의 기술적 수준의 MPS로의 SAOC의 트랜스코딩을 예시한 것이다.
도 1은 2 이상의 지향성 오디오 성분을 가진 입력 오디오 신호를 트랜스코딩하는 오디오 포맷 트랜스코더(100)를 도시한 것이다. 오디오 포맷 트랜스코더(100)는 입력 신호를 변환 신호로 변환하는 변환기(110)를 포함하며, 변환 신혼은 변환 신호 표현 및 변환 신호 도달 방향을 갖는다. 더욱이, 오디오 포맷 트랜스코더(100)는 2 이상의 공간 오디오 소스의 2 이상의 공간 위치를 제공하는 위치 제공기(120)를 포함한다. 2 이상의 공간 위치는 사전 알려져 있을 수 있으며, 즉, 예컨대 사용자에 의해 주어지거나 입력될 수 있으며, 또는 변환 신호에 기초하여 결정되거나 검출될 수 있다. 더욱이, 오디오 포맷 트랜스코더(100)는 2 이상의 분리된 오디오 소스 측정을 획득하도록 2 이상의 공간 위치에 기초하여 변환 신호 표현을 처리하는 프로세서(130)를 포함한다.
실시예들은 DirAC 및 SAOC 시스템의 기능을 효율적으로 조합하는 수단을 제공할 수 있다. 본 발명의 다른 실시예는 도 2에 도시된다. 도 2는 다른 오디오 포맷 트랜스코더(100)를 도시하며, 여기서 변환기(110)는 DirAC 분석 단계(301)로서 구현된다. 실시예들에서, 오디오 포맷 트랜스코더(100)는 DirAC 신호, B-포맷 신호 또는 마이크로폰 어레이로부터의 신호에 따라 입력 신호를 트랜스코딩하기 위해 적응될 수 있다. 도 2에 도시된 실시예에 따르면, DirAC은 DirAC 분석 단계 또는 블록(301)에 의해 도시된 바와 같이 B-포맷 마이크로폰 또는 대안적으로 마이크로폰 어레이를 이용하여 공간 오디오 장면을 획득하도록 음향 프론트-엔드로서 이용될 수 있다.
이미 상술한 바와 같이, 실시예들에서, 오디오 포맷 트랜스코더(100), 변환기(110), 위치 제공기(120) 및/또는 프로세서(130)는 많은 주파수 부대역 및/또는 시간 세그먼트 또는 시간 프레임을 고려하여 입력 신호를 변환하기 위해 적응될 수 있다.
실시예들에서, 변환기(110)는 입력 신호를 변환 신호로 변환하기 위해 적응될 수 있으며, 변환 신호는 주파수 부대역마다 확산 및/또는 신뢰성 측정(reliability measure)을 더 포함한다.
도 2에서, 변환 신호 표현은 또한 "Downmix Signals"로 라벨된다. 도 2에 도시된 실시예에서, 방향 및 선택적으로 각 주파수 부대역 내의 확산 및 신뢰성 측정으로의 음향 신호의 기본 DirAC 매개 변수화는 위치 제공기(120), 즉 "소스 수 및 위치 계산" 블록(304)에 의해 오디오 소스가 활성적인 공간 위치를 검출하는데 이용될 수 있다. 도 2에서 "Downmix Power"로 라벨된 점선에 따르면, 다운믹스 전력은 위치 제공기(120)에 제공될 수 있다.
도 2에 도시된 실시예에서, 프로세서(130)는 공간 위치, 선택적으로 다른 사전 지식을 이용하여, 가중치가 각 오디오 소스를 분리하거나 구분하기 위해 블록(303)에서 계산되는 한 세트의 공간 필터(311, 312, 31N)를 구현할 수 있다.
환언하면, 실시예들에서, 프로세서(130)는 2 이상의 분리된 오디오 소스의 각각에 대한 가중치를 결정하기 위해 적응될 수 있다. 더욱이, 실시예들에서, 프로세서(130)는 2 이상의 분리된 오디오 소스 측정으로서 2 이상의 분리된 오디오 소스 신호와 2 이상의 격리된 오디오 소스를 근사화하는 2 이상의 공간 필터를 고려하여 변환 신호 표현을 처리하기 위해 적응될 수 있다. 오디오 소스 측정은 예컨대 각각의 신호 또는 신호 전력에 대응할 수 있다.
도 2에 도시된 실시예에서, 2 이상의 오디오 소스는 더욱 일반적으로 N 오디오 소스 및 대응하는 신호로 나타낸다. 따라서, 도 2에서, N 필터 또는 합성 단계, 즉 (311, 312, ..., 31N)이 도시된다. 이들 N 공간 필터에서, DirAC 다운믹스, 즉 무지향성 성분, 신호는 SAOC 인코더에 대한 입력으로서 이용될 수 있는 근사화 분리된 오디오 소스의 세트를 생성시킨다. 환언하면, 실시예들에서, 분리된 오디오 소스는 별개의 오디오 객체로서 해석되어, SAOC 인코더에 인코딩될 수 있다. 따라서, 오디오 포맷 트랜스코더(100)의 실시예들은 SAOC 다운믹스 성분 및 SAOC 보조 정보 성분을 포함하는 SAOC 인코딩된 신호를 획득하도록 2 이상의 분리된 오디오 소스 신호를 인코딩하는 SAOC 인코더를 포함할 수 있다.
상술한 실시예들은, 다음에, 계산 복잡도를 감소시키는 구조적 개선이 도입되는 DirAC 지향성 필터링 및 후속 SAOC 인코딩의 이산 시퀀스를 실행할 수 있다. 상술한 바와 같이, 일반적으로, N-분리된 오디오 소스 신호는 N-DirAC 합성 필터뱅크(311 내지 31N)을 이용하여 실시예들에서 재구성될 수 있고, 후속하여 SAOC 인코더 내의 SAOC 분석 필터뱅크를 이용하여 분석될 수 있다. 그 후, SAOC 인코더는 분리된 객체 신호로부터 다시 합/다운믹스 신호를 계산할 수 있다. 더욱이, 실제 신호 샘플의 처리는 계산상 매개 변수 도메인내에서 계산을 실행하는 것보다 더 복잡할 수 있으며, 이는 매우 낮은 샘플링율로 일어나고, 다른 실시예에서 확립될 것이다.
실시예들은 이와 함께 매우 효율적인 처리의 이점을 제공할 수 있다. 실시예들은 다음의 2개의 단순화(simplification)를 포함할 수 있다. 첫째로, DirAC 및 SAOC은 양자 모두 본질적으로 일부 실시예에서 두 기법에 대해 동일한 주파수 부대역을 허용하는 필터뱅크를 이용하여 실행할 수 있다. 바람직하게는, 일부 실시예에서, 동일한 필터뱅크는 두 기법에 이용된다. 이 경우에, DirAC 합성 및 SAOC 분석 필터뱅크는 회피되어, 결과적으로 계산 복잡도 및 알고리즘 지연을 감소시킬 수 있다. 대안적으로, 실시예들은 유사한 주파수 부대역 그리드에 매개 변수를 전달하는 2개의 서로 다른 필터뱅크를 이용할 수 있다. 이와 같은 실시예의 필터뱅크 계산의 절감이 높지 않을 수 있다.
둘째로, 실시예들에서, 분리된 소스 신호를 명시적으로 계산하기보다는, 분리의 효과가 매개 변수 도메인 계산만에 의해 달성될 수 있다. 환언하면, 실시예들에서, 프로세서(130)는 2 이상의 분리된 오디오 소스 측정으로서 2 이상의 분리된 오디오 소스의 각각에 대해 전력 정보, 예컨대, 전력 또는 정규화된 전력을 추정하기 위해 적응될 수 있다. 실시예들에서는, DirAC 다운믹스 전력이 계산될 수 있다.
실시예들에서, 각각의 원하는/검출된 오디오 소스 위치에 대해, 지향성 가중치/필터링 가중치는 방향 및 아마도 확산과 의도된 분리 특성에 따라 결정될 수 있다. 실시예들에서, 분리된 신호의 각 오디오 소스에 대한 전력은 다운믹스 전력 및 전력 가중치의 곱으로부터 추정될 수 있다. 실시예들에서, 프로세서(130)는 2 이상의 분리된 오디오 소스의 전력을 SAOC OLDs로 변환하기 위해 적응될 수 있다.
실시예들은 이제는 실제 다운믹스 신호의 어떤 처리를 포함하지 않고 상술한 간소화된 처리 방법을 실행할 수 있다. 부가적으로, 일부 실시예들에서, 객체간 코히어런스(IOC)는 또한 계산될 수 있다. 이것은 변환된 도메인 내에서 지향성 가중치 및 다운믹스 신호를 여전히 고려함으로써 달성될 수 있다.
실시예들에서, 프로세서(130)는 2 이상의 분리된 오디오 소스에 대한 IOC를 계산하기 위해 적응될 수 있다. 일반적으로, 프로세서(130)는 2 이상의 분리된 오디오 소스의 각각의 둘에 대한 IOC를 계산하기 위해 적응될 수 있다. 실시예들에서, 위치 제공기(120)는 변환 신호에 기초하여 2 이상의 공간 오디오 소스의 2 이상의 공간 위치를 검출하기 위해 적응되는 검출기를 포함할 수 있다. 더욱이, 위치 제공기/검출기(120)는 다수의 후속 입력 신호 시간 세그먼트의 조합에 의해 2 이상의 공간 위치를 검출하기 위해 적응될 수 있다. 위치 제공기/검출기(120)는 또한 전력 공간 밀도에 대한 최대 확률 추정에 기초하여 2 이상의 공간 위치를 검출하기 위해 적응될 수 있다. 위치 제공기/검출기(120)는 변환 신호에 기초하여 공간 오디오 소스의 다수의 위치를 검출하기 위해 적응될 수 있다.
도 3은 오디오 포맷 트랜스코더(100)의 다른 실시예를 예시한 것이다. 도 2에 도시된 실시예와 유사하게, 변환기(110)는 "DirAC 분석" 단계(401)로서 구현된다. 더욱이, 위치 제공기/검출기(120)는 "소스 수 및 위치 계산" 단계(404)로서 구현된다. 프로세서(130)는 "가중치 계산" 단계(403), 분리된 소스 전력을 계산하는 단계(402) 및 SAOC OLDs 및 비트스트림을 계산하는 단계(405)를 포함한다.
다시, 도 3에 도시된 실시예에서, 신호는 마이크로폰 또는 대안적으로 B-포맷 마이크로폰의 어레이를 이용하여 획득되어, "DirAC 분석" 단계(401)로 공급된다. 이러한 분석은 순시 다운믹스 전력 및 방향의 추정을 포함하는 각 처리 시간 프레임에 대한 하나 이상의 다운믹스 신호 및 주파수 부대역 정보를 전달한다. 부가적으로, "DirAC 분석" 단계(401)는 확산 측정 및/또는 방향 추정의 신뢰성 측정을 제공할 수 있다. 이러한 정보 및 아마도 순시 다운믹스 전력과 같은 다른 데이터로부터, 오디오 소스의 수의 추정 및 이들의 위치는 예컨대 시간에 후속되는 수개의 처리 시간 프레임에서의 측정을 조합함으로써 제각기 위치 제공기/검출기(120), 단계(404)에 의해 계산될 수 있다.
프로세서(130)는 추정된 소스 위치 및 방향 및, 선택적으로 처리된 시간 프레임의 확산 및/또는 신뢰성 값으로부터 단계(403)에서 각 오디오 소스 및 이의 위치에 대한 지향성 가중치를 유도하도록 적응될 수 있다. 먼저 (402)에서 다운믹스 전력 추정치와 가중치를 조합함으로써, SAOC OLDs는 (405)에서 유도될 수 있다. 또한, 완전한 SAOC 비트스트림은 실시예들에서 생성될 수 있다. 부가적으로, 프로세서(130)는 도 3에 도시된 실시예에서 다운믹스 신호를 고려하여 처리 블록(405)을 이용함으로써 SAOC OLDs를 계산하기 위해 적응될 수 있다. 실시예들에서, 다운믹스 신호 및 SAOC 보조 정보는 이때 함께 SAOC 디코딩 또는 렌더링을 위해 저장되거나 전송될 수 있다.
"확산 측정"은 음장이 어떻게 "확산"하는지를 각 시간-주파수 빈(bin)에 대해 나타내는 매개 변수이다. 일반성의 손실(loss of generality) 없이, 그것은 범위[0, 1]내에 정해지며, 여기서, 확산=0은 완전 코히어런트 음장, 예컨대, 이상적인 평면파를 나타내는 반면에, 확산=1은 완전 확산 음장, 예컨대, 서로 상관되지 않은 잡음을 방출하는 다수의 공간 확산 오디오 소스로 획득되는 완전 확산 음장을 나타낸다. 수개의 수학적 표현이 확산 측정으로 이용될 수 있다. 예컨대, Pulkki, V., “Directional audio coding in spatial sound reproduction and stereo upmixing,” in Proceedings of the AES 28th International Conference, pp. 251-258, Pitea, Sweden, June 30 - July 2, 2006에서, 확산은 입력 신호에 대한 에너지 분석에 의해 계산되어, 활성 세기를 음장 에너지와 비교한다.
다음에는, 신뢰성 측정에 대해 설명될 것이다. 이용되는 도달 방향 추정기에 따라, 각 시간-주파수 빈 내에서 각 방향 추정이 얼마나 신뢰 가능한지를 표현하는 메트릭(metric)을 유도할 수 있다. 이런 정보는 제각기 단계(403 및 404)에서 소스의 수 및 위치의 결정 뿐만 아니라 가중치의 계산에 이용될 수 있다.
다음에는, 프로세서(130)의 실시예들, 즉 또한 "소스 수 및 위치 계산" 단계(404)에 대해 상세히 설명된다. 각 시간 프레임에 대한 오디오 소스의 수 및 위치는 사전 지식, 즉, 외부 입력일 수 있거나 자동으로 추정될 수 있다. 후자의 경우에는 수개의 접근법이 가능하다. 예컨대, 전력 공간 밀도에 대한 최대 확률 추정기는 실시예들에 이용될 수 있다. 후자는 방향에 대한 입력 신호의 전력 밀도를 계산할 수 있다. 사운드 소스가 von Mises 분포를 나타내는 것으로 가정하여, 얼마나 많은 소스가 존재하고 이들 소스가 최고 가능성을 가진 솔루션을 선택함으로써 위치되는 곳을 추정할 수 있다. 예시적인 전력 공간 분포는 도 4a에 도시된다.
도 4a는 2개의 오디오 소스에 의해 예시되는 전력 공간 밀도의 보기(view) 그래프를 도시한 것이다. 도 4a는 세로 좌표 상의 상대 전력(dB) 및 가로 좌표 상의 방위각을 도시한다. 더욱이, 도 4a는 3개의 서로 다른 신호를 도시하며, 하나는 얇은 라인을 특징으로 하고, 잡음에 의한 실제 전력 공간 밀도를 나타낸다. 게다가, 두꺼운 라인은 제 1 소스의 이론적 전력 공간 밀도를 예시하고, 점선은 제 2 소스에 대한 이론적 전력 공간 밀도를 예시한다. 최고로 관측(observation)에 맞는 모델은 제각기 +45°및 -135°에 위치되는 2개의 오디오 소스로 구성된다. 다른 모델에서, 앙각이 또한 이용 가능할 수 있다. 이와 같은 실시예에서, 전력 공간 밀도는 3차원 함수가 된다.
다음에는, 프로세서(130)의 추가적 실시예의 구현에 대한 더욱 상세 사항이 특히, 가중치 계산 단계(403)에 제공된다. 이러한 처리 블록은 추출되는 각 객체에 대한 가중치를 계산한다. 가중치는 (404)로부터 소스의 수 및 이들의 위치에 대한 정보와 함께 (401)에서 DirAC 분석에 의해 제공되는 데이터에 기초하여 계산된다. 정보는 각 객체에 대한 가중치가 다른 것과 무관하게 계산되도록 모든 소스에 대해 공동으로 또는 분리하여 처리될 수 있다.
제 i 객체에 대한 가중치가 각 시간 및 주파수 빈에 대해 정해짐으로써, γi(k,n)가 주파수 인덱스 k 및 시간 인덱스 n에 대한 가중치를 나타낼 경우, 제 i 객체에 대한 다운믹스 신호의 복소 스펙트럼은 다음에 의해 간단히 계산될 수 있다:
Wi(k,n)=W(k,n)×γi(k,n)
상술한 바와 같이, 이와 같은 방식으로 획득되는 신호는 SAOC 인코더로 송신될 수 있다. 그러나, 실시예들은 가중치 γi(k,n)의 SAOC 매개 변수를 직접 계산함으로써 전체적으로 이런 단계를 회피시킬 수 있다.
다음에는, 가중치 γi(k,n)가 실시예들에서 어떻게 계산될 수 있는지가 간단히 설명될 것이다. 달리 특정되지 않으면, 다음에서 모든 수량은 (k,n), 즉 주파수 및 시간 인덱스에 의존한다.
확산 Ψ 또는 신뢰성 측정이 범위[0, 1]내에 정해지는 것으로 추정될 수 있는데, 여기서, Ψ=1은 전체적으로 확산 신호에 대응한다. 더욱이, θ은 도달 방향을 나타내며, 다음의 예에서, 그것은 방위각을 나타낸다. 3D 공간에 대한 확장은 간단하다.
더욱이, γi은 다운믹스 신호가 제 i 객체의 오디오 신호를 추출하도록 스케일링되는 가중치를 나타내고, W(k,n)은 다운믹스 신호의 복소 스펙트럼을 나타내며, Wi(k,n)은 제 i 추출된 객체의 복소 스펙트럼을 나타낸다.
제 1 실시예에서, (θ,Ψ) 도메인 내의 2차원 함수가 정해진다. 간단한 실시예는 다음 식에 따라 2D 가우스 함수 g(θ,Ψ)를 이용한다.
Figure 112011089384480-pct00001
여기서,
Figure 112011089384480-pct00002
는 객체가 위치되는 방향이고,
Figure 112011089384480-pct00003
Figure 112011089384480-pct00004
은 가우스 함수의 폭을 결정하는 매개 변수, 즉 두 치수에 대한 차이(variances)이다. A는 다음에는 1과 같은 것으로 추정되는 진폭 계수이다.
가중치 γi(k,n)는 DirAC 처리로부터 획득되는 θ(k,n) 및 Ψ(k,n)의 값에 대한 상기 식을 계산하여 결정될 수 있다. 즉,
Figure 112011089384480-pct00005
예시적인 함수는 도 4b에 도시된다. 도 4b에서, 상당한 가중치가 낮은 확산값에 대해 생성하는 것을 알 수 있다. 도 4b에 대해,
Figure 112011089384480-pct00006
(또는 -45deg),
Figure 112011089384480-pct00007
Figure 112011089384480-pct00008
이 추정되었다.
가중치는 Ψ(k,n)=0 및
Figure 112011089384480-pct00009
에 대해서 최대이다.
Figure 112011089384480-pct00010
로 더 멀리 떨어진 방향뿐만 아니라 더욱 높은 확산에 대해, 가중치는 감소한다.
Figure 112011089384480-pct00011
의 매개 변수를 변경함으로써, 서로 다른 방향에서 객체를 추출하는 수개의 함수
Figure 112011089384480-pct00012
가 설계될 수 있다.
서로 다른 객체로부터 획득되는 가중치가 다운믹스 신호 내에 제공되는 것보다 큰 전체 에너지에 이르면, 즉,
Figure 112011089384480-pct00013
제곱의 합이 1과 동일하거나 1보다 작게 하도록 함수
Figure 112011089384480-pct00014
에서 계수 A에 따라 작용할 수 있다.
제 2 실시예에서, 오디오 신호의 확산 및 비확산 부분에 대한 가중치는 서로 다른 가중치 윈도우로 실행될 수 있다. 더욱더 상세 사항은 Markus Kallinger, Giovanni Del Galdo, Fabian Kuech, Dirk Mahne, Richard Schultz-Amling, SPATIAL FILTERING USING DIRECTIONAL AUDIO CODING PARAMETERS", ICASSP 09에서 찾을 수 있다.
제 i 객체의 스펙트럼은 다음에 의해 획득될 수 있으며,
Figure 112011089384480-pct00015
여기서,
Figure 112011089384480-pct00016
Figure 112011089384480-pct00017
은 제각기 확산 및 비확산(코히어런트) 부분에 대한 가중치이다. 비확산 부분에 대한 이득은 다음과 같은 1차원 윈도우로부터 획득될 수 있다.
Figure 112011089384480-pct00018
여기서, B는 윈도우의 폭이다.
Figure 112011089384480-pct00019
에 대한 예시적인 윈도우는 도 4c에 도시되어 있다.
확산 부분에 대한 이득
Figure 112011089384480-pct00020
은 유사한 형식으로 획득될 수 있다. 적절한 윈도우는, 예컨대, 카디오이드,
Figure 112011089384480-pct00021
로 지향되는 서브카디오이드(subcardioids), 또는 간단히 무지향성 패턴이다. 이득
Figure 112011089384480-pct00022
Figure 112011089384480-pct00023
이 계산되면, 가중치
Figure 112011089384480-pct00024
는 간단히 다음과 가티 획득될 수 있음으로써,
Figure 112011089384480-pct00025
Figure 112011089384480-pct00026
서로 다른 객체로부터 획득되는 가중치가 다운믹스 신호 내에 제공되는 것보다 큰 전체 에너지에 이르면, 즉,
Figure 112011089384480-pct00027
이에 따라 이득
Figure 112011089384480-pct00028
를 리스케이링할 수 있다. 이러한 처리 블록은 또한 블록(402)에서 전력이 계산되는 부가적인 배경 (잔여) 객체에 가중치를 제공할 수 있다. 배경 객체는 어떤 다른 객체에 할당되지 않은 잔여 에너지를 포함한다. 에너지는 또한 방향 추정의 불확실성을 반영하도록 배경 객체에 할당될 수 있다. 예컨대, 어떤 시간 주파수 빈에 대한 도달 방향은 어떤 객체로 정확히 지향되도록 추정된다. 그러나, 이러한 추정이 오류가 없지 않음에 따라, 에너지의 적은 부분이 배경 객체에 할당될 수 있다.
다음에는, 프로세서(130)의 추가적 실시예, 특히 "별도의 소스 전력 계산(calculate separate sources power)" 단계(402)에 관한 상세 사항이 제공된다. 이러한 처리 블록은 (403)에 의해 계산되는 가중치를 취해, 이들 가중치를 이용하여 각 객체의 에너지를 계산한다.
Figure 112011089384480-pct00029
이 (k,n)으로 규정되는 시간-주파수 빈에 대한 제 i 객체의 가중치를 나타내면, 에너지 Ei(k,n)는 간단히 다음과 같다.
Figure 112011089384480-pct00030
여기서, W(k,n)은 다운믹스 신호의 복잡한 시간 주파수 표현이다.
이상적으로, 모든 객체의 에너지의 합은 다운믹스 신호에 제공되는 에너지와 동일하며, 즉, 다음과 같다.
Figure 112011089384480-pct00031
여기서, N은 객체의 수이다.
이것은 여러 방식으로 달성될 수 있다. 일 실시예는 가중치 계산과 관련하여 이미 언급된 바와 같이 잔여 객체를 이용하는 것을 포함할 수 있다. 잔여 객체의 함수는 전체 전력이 각 시간/주파수 타일(tile)에서 다운믹스 전력과 동일하도록 출력 객체의 전체 전력 균형에서 어떤 상실(missing) 전력을 나타낼 수 있다.
환언하면, 실시예들에서, 프로세서(130)는 부가적인 배경 객체에 대한 가중치를 더 결정하기 위해 적응될 수 있으며, 가중치는 2 이상의 분리된 오디오 소스 및 부가적인 배경 객체와 관련된 에너지의 합이 변환 신호 표현의 에너지와 동일하도록 한다.
관련된 메카니즘은 어떤 상실 전력을 할당하는 방법에 관해 SAOC standard ISO/IEC, “MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC),” ISO/IECJTC1/SC29/WG11 (MPEG) FCD 23003-2)에 정의되어 있다. 다른 예시적인 전략은 원하는 전체 전력 균형을 달성하도록 가중치를 적절히 리스케일링하는 것을 포함할 수 있다.
일반적으로, 단계(403)가 배경 객체에 대한 가중치를 제공하면, 이러한 에너지는 잔여 객체로 매핑될 수 있다. 다음에는, SAOC OLDs 및, 선택적으로, IOCs의 계산 및 비트스트림 단계(405)의 계산에 대한 더욱더 상세 사항이 실시예들에서 실행될 수 있는 바와 같이 제공된다.
이러한 처리 블록은 오디오 객체의 전력을 더 처리하여, 이들 객체를 SAOC 호환 매개 변수, 즉, OLDs로 변환시킨다. 이를 위해, 객체 전력은 각 시간/주파수 타일에 대한 상대 전력값을 생성하는 최고 전력을 가진 객체의 전력에 대해 정상화된다. 이들 매개 변수는 직접 후속 SAOC 디코더 처리를 위해 이용될 수 있거나, SAOC 비트스트림의 부분으로서 양자화 및 전송 및 저장될 수 있다. 마찬가지로, IOC 매개 변수는 SAOC 비트스트림의 부분으로서 출력 또는 전송/저장될 수 있다.
본 발명의 방법의 어떤 구현 요건에 따라, 본 발명의 방법은 하드웨어 또는 소프트웨어에서 구현될 수 있다. 이런 구현은 디지털 저장 매체, 특히, 디스크, 전자식 판독 가능한 제어 신호를 저장한 DVD 또는 CD를 이용하여 수행될 수 있으며, 이들은 본 발명의 방법이 수행되도록 하는 프로그램 가능한 컴퓨터 시스템과 협력한다. 그래서, 일반적으로, 본 발명은 기계 판독 가능한 캐리어 상에 저장된 프로그램 코드를 가진 컴퓨터 프로그램 제품이며, 프로그램 코드는 컴퓨터 프로그램이 컴퓨터 상에서 실행할 시에 본 발명의 방법을 수행하기 위해 동작 가능하다. 환언하면, 그래서, 본 발명의 방법은, 컴퓨터 프로그램이 컴퓨터 상에서 실행할 시에, 본 발명의 방법 중 하나 이상을 수행하기 위한 프로그램 코드를 가진 컴퓨터 프로그램이다.
상술한 것이 특히 본 발명의 특정 실시예와 관련하여 도시되고 설명되었지만, 당업자는 본 발명의 정신 및 범주로부터 벗어나지 않고 형식 및 상세 사항의 여러 다른 변경이 행해질 수 있음을 이해하게 될 것이다. 본 명세서에 개시되고, 다음의 청구범위에 의해 이해되는 광범위한 개념으로부터 벗어나지 않고 서로 다른 실시예에 적응할 시에 여러 변경이 행해질 수 있는 것으로 이해될 수 있다.

Claims (15)

  1. 2 이상의 지향성 오디오 성분을 가진 입력 오디오 신호를 트랜스코딩하는 오디오 포맷 트랜스코더(100)에 있어서,
    상기 입력 오디오 신호를 변환 신호로 변환하는 변환기(110)로서, 상기 변환 신호는 변환 신호 표현 및 변환 신호 도달 방향을 갖는 변환기(110);
    2 이상의 공간 오디오 소스의 2 이상의 공간 위치를 제공하는 위치 제공기(120); 및
    2 이상의 분리된 오디오 소스 측정을 획득하도록 상기 2 이상의 공간 위치에 기초하는 상기 변환 신호 표현 및 상기 변환 신호 도달 방향을 처리하는 프로세서(130)를 포함하고,
    상기 프로세서(130)는 상기 2 이상의 분리된 오디오 소스의 각각에 대한 가중치를 결정(303)하기 위해 적응되며,
    상기 프로세서(130)는 상기 2 이상의 분리된 오디오 소스 측정으로서 2 이상의 분리된 오디오 소스 신호와 2 이상의 격리된 오디오 소스를 근사화하기 위해 상기 가중치에 따라 2 이상의 공간 필터(311, 312, 31N)를 고려하여 상기 변환 신호 표현을 처리하기 위해 적응되거나, 또는 상기 프로세서(130)는 상기 2 이상의 분리된 오디오 소스 측정으로서 상기 가중치에 따라 상기 2 이상의 분리된 오디오 소스의 각각에 대한 전력 정보를 추정(402)하기 위해 적응되는 것을 특징으로 하는 오디오 포맷 트랜스코더.
  2. 청구항 1에 있어서,
    지향성 오디오 코딩 신호(DirAC), B-포맷 신호 또는 마이크로폰 어레이로부터의 신호에 따라 입력 신호를 트랜스코딩하는 것을 특징으로 하는 오디오 포맷 트랜스코더.
  3. 청구항 1에 있어서,
    상기 변환기(110)는 다수의 주파수 대역/부대역 및/또는 시간 세그먼트/프레임을 고려하여 상기 입력 신호를 변환하기 위해 적응되는 것을 특징으로 하는 오디오 포맷 트랜스코더.
  4. 청구항 3에 있어서,
    상기 변환기(110)는 상기 입력 오디오 신호를 주파수 대역마다 확산 및/또는 신뢰성 측정을 더 포함하는 상기 변환 신호로 변환하기 위해 적응되는 것을 특징으로 하는 오디오 포맷 트랜스코더.
  5. 청구항 1에 있어서,
    SAOC(Spatial Audio Object Coding) 다운믹스 성분 및 SAOC 보조 정보 성분을 포함하는 SAOC 인코딩된 신호를 획득하도록 상기 2 이상의 분리된 오디오 소스 신호를 인코딩하는 SAOC 인코더를 더 포함하는 것을 특징으로 하는 오디오 포맷 트랜스코더.
  6. 청구항 1에 있어서,
    상기 프로세서(130)는 상기 2 이상의 분리된 오디오 소스의 전력을 SAOC OLDs(Object-Level Differences)로 변환하기 위해 적응되는 것을 특징으로 하는 오디오 포맷 트랜스코더.
  7. 청구항 6에 있어서,
    상기 프로세서(130)는 상기 2 이상의 분리된 오디오 소스에 대한 객체간 코히어런스(IOC)를 계산하기 위해 적응되는 것을 특징으로 하는 오디오 포맷 트랜스코더.
  8. 청구항 3에 있어서,
    상기 위치 제공기(120)는 상기 변환 신호에 기초하여 상기 2 이상의 공간 오디오 소스의 상기 2 이상의 공간 위치를 검출하는 검출기를 포함하고, 상기 검출기는 다수의 후속 입력 신호 시간 세그먼트/프레임의 조합에 의해 상기 2 이상의 공간 위치를 검출하기 위해 적응되는 것을 특징으로 하는 오디오 포맷 트랜스코더.
  9. 청구항 8에 있어서,
    상기 검출기는 상기 변환 신호의 전력 공간 밀도에 대한 최대 확률 추정에 기초하여 상기 2 이상의 공간 위치를 검출하기 위해 적응되는 것을 특징으로 하는 오디오 포맷 트랜스코더.
  10. 청구항 1에 있어서,
    상기 프로세서(130)는 부가적인 배경 객체에 대한 가중치를 더 결정하기 위해 적응되고, 상기 가중치는 상기 2 이상의 분리된 오디오 소스 및 상기 부가적인 배경 객체와 관련된 에너지의 합이 상기 변환 신호 표현의 에너지와 동일하도록 하는 것을 특징으로 하는 오디오 포맷 트랜스코더.
  11. 2 이상의 지향성 오디오 성분을 가진 입력 오디오 신호를 트랜스코딩하는 방법에 있어서,
    상기 입력 오디오 신호를 변환 신호로 변환하는 단계로서, 상기 변환 신호는 변환 신호 표현 및 변환 신호 도달 방향을 갖는 변환하는 단계;
    2 이상의 공간 오디오 소스의 2 이상의 공간 위치를 제공하는 단계; 및
    2 이상의 분리된 오디오 소스 측정을 획득하도록 상기 2 이상의 공간 위치에 기초하는 상기 변환 신호 표현을 처리하는 단계를 포함하고,
    상기 처리하는 단계는, 상기 2 이상의 분리된 오디오 소스의 각각에 대한 가중치를 결정하는 단계(303) 및,
    상기 2 이상의 분리된 오디오 소스 측정으로서 2 이상의 분리된 오디오 소스 신호와 2 이상의 격리된 오디오 소스를 근사화하기 위해 상기 가중치에 따라 2 이상의 공간 필터(311, 312, 31N)를 이용하여 상기 변환 신호 표현을 처리하거나, 또는 상기 2 이상의 분리된 오디오 소스 측정으로서 상기 가중치에 따라 상기 2 이상의 분리된 오디오 소스의 각각에 대한 전력 정보를 추정하는 단계(402)를 포함하는 것을 특징으로 하는 입력 오디오 신호를 트랜스코딩하는 방법.
  12. 컴퓨터 프로그램이 컴퓨터 또는 프로세서 상에서 실행될 때 청구항 11의 방법을 수행하는 컴퓨터 프로그램이 저장된 컴퓨터로 읽을 수 있는 저장 매체.
  13. 삭제
  14. 삭제
  15. 삭제
KR1020117027001A 2009-05-08 2010-05-07 오디오 포맷 트랜스코더 KR101346026B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP09006291A EP2249334A1 (en) 2009-05-08 2009-05-08 Audio format transcoder
EP09006291.0 2009-05-08
PCT/EP2010/056252 WO2010128136A1 (en) 2009-05-08 2010-05-07 Audio format transcoder

Publications (2)

Publication Number Publication Date
KR20120013986A KR20120013986A (ko) 2012-02-15
KR101346026B1 true KR101346026B1 (ko) 2013-12-31

Family

ID=41170090

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020117027001A KR101346026B1 (ko) 2009-05-08 2010-05-07 오디오 포맷 트랜스코더

Country Status (13)

Country Link
US (1) US8891797B2 (ko)
EP (2) EP2249334A1 (ko)
JP (1) JP5400954B2 (ko)
KR (1) KR101346026B1 (ko)
CN (1) CN102422348B (ko)
AU (1) AU2010244393B2 (ko)
BR (1) BRPI1007730A2 (ko)
CA (1) CA2761439C (ko)
ES (1) ES2426136T3 (ko)
MX (1) MX2011011788A (ko)
PL (1) PL2427880T3 (ko)
RU (1) RU2519295C2 (ko)
WO (1) WO2010128136A1 (ko)

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2644520T3 (es) 2009-09-29 2017-11-29 Dolby International Ab Decodificador de señal de audio MPEG-SAOC, método para proporcionar una representación de señal de mezcla ascendente usando decodificación MPEG-SAOC y programa informático usando un valor de parámetro de correlación inter-objeto común dependiente del tiempo/frecuencia
CA2790956C (en) * 2010-02-24 2017-01-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus for generating an enhanced downmix signal, method for generating an enhanced downmix signal and computer program
ES2643163T3 (es) * 2010-12-03 2017-11-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para codificación de audio espacial basada en geometría
US20140226842A1 (en) * 2011-05-23 2014-08-14 Nokia Corporation Spatial audio processing apparatus
EP2600637A1 (en) 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for microphone positioning based on a spatial power density
RU2014133903A (ru) * 2012-01-19 2016-03-20 Конинклейке Филипс Н.В. Пространственные рендеризация и кодирование аудиосигнала
US9268522B2 (en) 2012-06-27 2016-02-23 Volkswagen Ag Devices and methods for conveying audio information in vehicles
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
RU2635884C2 (ru) * 2012-09-12 2017-11-16 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для предоставления улучшенных характеристик направленного понижающего микширования для трехмерного аудио
US20160210957A1 (en) 2015-01-16 2016-07-21 Foundation For Research And Technology - Hellas (Forth) Foreground Signal Suppression Apparatuses, Methods, and Systems
US10136239B1 (en) 2012-09-26 2018-11-20 Foundation For Research And Technology—Hellas (F.O.R.T.H.) Capturing and reproducing spatial sound apparatuses, methods, and systems
US9549253B2 (en) 2012-09-26 2017-01-17 Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) Sound source localization and isolation apparatuses, methods and systems
US10149048B1 (en) 2012-09-26 2018-12-04 Foundation for Research and Technology—Hellas (F.O.R.T.H.) Institute of Computer Science (I.C.S.) Direction of arrival estimation and sound source enhancement in the presence of a reflective surface apparatuses, methods, and systems
US10175335B1 (en) 2012-09-26 2019-01-08 Foundation For Research And Technology-Hellas (Forth) Direction of arrival (DOA) estimation apparatuses, methods, and systems
US9955277B1 (en) * 2012-09-26 2018-04-24 Foundation For Research And Technology-Hellas (F.O.R.T.H.) Institute Of Computer Science (I.C.S.) Spatial sound characterization apparatuses, methods and systems
US9554203B1 (en) 2012-09-26 2017-01-24 Foundation for Research and Technolgy—Hellas (FORTH) Institute of Computer Science (ICS) Sound source characterization apparatuses, methods and systems
EP2717265A1 (en) 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for backward compatible dynamic adaption of time/frequency resolution in spatial-audio-object-coding
EP2733965A1 (en) * 2012-11-15 2014-05-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a plurality of parametric audio streams and apparatus and method for generating a plurality of loudspeaker signals
CN108806706B (zh) * 2013-01-15 2022-11-15 韩国电子通信研究院 处理信道信号的编码/解码装置及方法
CN105393304B (zh) * 2013-05-24 2019-05-28 杜比国际公司 音频编码和解码方法、介质以及音频编码器和解码器
GB2515089A (en) * 2013-06-14 2014-12-17 Nokia Corp Audio Processing
CN104244164A (zh) 2013-06-18 2014-12-24 杜比实验室特许公司 生成环绕立体声声场
GB2521649B (en) * 2013-12-27 2018-12-12 Nokia Technologies Oy Method, apparatus, computer program code and storage medium for processing audio signals
KR101468357B1 (ko) * 2014-02-17 2014-12-03 인하대학교 산학협력단 트랜스 코딩 서버의 cpu 전력 관리 방법
CN105225671B (zh) 2014-06-26 2016-10-26 华为技术有限公司 编解码方法、装置及系统
CN105657633A (zh) 2014-09-04 2016-06-08 杜比实验室特许公司 生成针对音频对象的元数据
RU2696952C2 (ru) * 2014-10-01 2019-08-07 Долби Интернешнл Аб Аудиокодировщик и декодер
JP6640849B2 (ja) * 2014-10-31 2020-02-05 ドルビー・インターナショナル・アーベー マルチチャネル・オーディオ信号のパラメトリック・エンコードおよびデコード
TWI587286B (zh) * 2014-10-31 2017-06-11 杜比國際公司 音頻訊號之解碼和編碼的方法及系統、電腦程式產品、與電腦可讀取媒體
US9794721B2 (en) 2015-01-30 2017-10-17 Dts, Inc. System and method for capturing, encoding, distributing, and decoding immersive audio
CN105989852A (zh) 2015-02-16 2016-10-05 杜比实验室特许公司 分离音频源
WO2016168408A1 (en) 2015-04-17 2016-10-20 Dolby Laboratories Licensing Corporation Audio encoding and rendering with discontinuity compensation
HK1255002A1 (zh) 2015-07-02 2019-08-02 杜比實驗室特許公司 根據立體聲記錄確定方位角和俯仰角
EP3318070B1 (en) 2015-07-02 2024-05-22 Dolby Laboratories Licensing Corporation Determining azimuth and elevation angles from stereo recordings
KR102614577B1 (ko) 2016-09-23 2023-12-18 삼성전자주식회사 전자 장치 및 그 제어 방법
EP3324406A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
EP3324407A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
GB2559765A (en) 2017-02-17 2018-08-22 Nokia Technologies Oy Two stage audio focus for spatial audio processing
EP3392882A1 (en) * 2017-04-20 2018-10-24 Thomson Licensing Method for processing an input audio signal and corresponding electronic device, non-transitory computer readable program product and computer readable storage medium
US10893373B2 (en) * 2017-05-09 2021-01-12 Dolby Laboratories Licensing Corporation Processing of a multi-channel spatial audio format input signal
WO2018208560A1 (en) * 2017-05-09 2018-11-15 Dolby Laboratories Licensing Corporation Processing of a multi-channel spatial audio format input signal
PT3692523T (pt) * 2017-10-04 2022-03-02 Fraunhofer Ges Forschung Aparelho, método e programa de computador para codificação, descodificação, processamento de cena e outros procedimentos relacionados com codificação de áudio espacial com base em dirac
WO2019091575A1 (en) * 2017-11-10 2019-05-16 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
SG11202004389VA (en) * 2017-11-17 2020-06-29 Fraunhofer Ges Forschung Apparatus and method for encoding or decoding directional audio coding parameters using quantization and entropy coding
JP6888172B2 (ja) * 2018-01-18 2021-06-16 ドルビー ラボラトリーズ ライセンシング コーポレイション 音場表現信号を符号化する方法及びデバイス
WO2019170955A1 (en) * 2018-03-08 2019-09-12 Nokia Technologies Oy Audio coding
JP7321170B2 (ja) 2018-04-16 2023-08-04 ドルビー ラボラトリーズ ライセンシング コーポレイション 方向性音源のエンコードおよびデコードのための方法、装置およびシステム
CA3091150A1 (en) * 2018-07-02 2020-01-09 Dolby Laboratories Licensing Corporation Methods and devices for encoding and/or decoding immersive audio signals
SG11202007627RA (en) 2018-10-08 2020-09-29 Dolby Laboratories Licensing Corp Transforming audio signals captured in different formats into a reduced number of formats for simplifying encoding and decoding operations
WO2020084170A1 (en) * 2018-10-26 2020-04-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Directional loudness map based audio processing
JP7311602B2 (ja) * 2018-12-07 2023-07-19 フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 低次、中次、高次成分生成器を用いたDirACベースの空間音声符号化に関する符号化、復号化、シーン処理および他の手順を行う装置、方法およびコンピュータプログラム
BR112021014135A2 (pt) * 2019-01-21 2021-09-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sinal de áudio codificado, aparelho e método para codificação de uma representação de áudio espacial ou aparelho e método para decodificação de um sinal de áudio codificado
EP3912365A1 (en) * 2019-04-30 2021-11-24 Huawei Technologies Co., Ltd. Device and method for rendering a binaural audio signal
BR112021024735A2 (pt) * 2019-06-12 2022-01-18 Fraunhofer Ges Forschung Ocultação de perda de pacote para codificação de áudio espacial com base em dirac
CN110660401B (zh) * 2019-09-02 2021-09-24 武汉大学 一种基于高低频域分辨率切换的音频对象编解码方法
CN113450823B (zh) * 2020-03-24 2022-10-28 海信视像科技股份有限公司 基于音频的场景识别方法、装置、设备及存储介质

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2354858A1 (en) * 2001-08-08 2003-02-08 Dspfactory Ltd. Subband directional audio signal processing using an oversampled filterbank
JP2005520206A (ja) * 2002-03-12 2005-07-07 ディリチウム ネットワークス ピーティーワイ リミテッド オーディオ・トランスコーダにおける適応コードブック・ピッチ・ラグ計算方法
BRPI0412889B1 (pt) * 2003-07-21 2019-09-10 Fraunhofer Ges Forschung métodos para a conversão, combinação e decodificação, aparelhos para conversão e para a decodificação, e meio legível por computador
US20080260048A1 (en) * 2004-02-16 2008-10-23 Koninklijke Philips Electronics, N.V. Transcoder and Method of Transcoding Therefore
US7415117B2 (en) * 2004-03-02 2008-08-19 Microsoft Corporation System and method for beamforming using a microphone array
US20070250308A1 (en) * 2004-08-31 2007-10-25 Koninklijke Philips Electronics, N.V. Method and device for transcoding
FI20055260A0 (fi) * 2005-05-27 2005-05-27 Midas Studios Avoin Yhtioe Laite, järjestelmä ja menetelmä akustisten signaalien vastaanottamista tai toistamista varten
FI20055261A0 (fi) * 2005-05-27 2005-05-27 Midas Studios Avoin Yhtioe Akustisten muuttajien kokoonpano, järjestelmä ja menetelmä akustisten signaalien vastaanottamista tai toistamista varten
US8112272B2 (en) * 2005-08-11 2012-02-07 Asashi Kasei Kabushiki Kaisha Sound source separation device, speech recognition device, mobile telephone, sound source separation method, and program
US20080004729A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format
EP1890456B1 (en) * 2006-08-15 2014-11-12 Nero Ag Apparatus for transcoding encoded content
RU2551797C2 (ru) * 2006-09-29 2015-05-27 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов
US9015051B2 (en) * 2007-03-21 2015-04-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Reconstruction of audio channels with direction parameters indicating direction of origin
US20080298610A1 (en) * 2007-05-30 2008-12-04 Nokia Corporation Parameter Space Re-Panning for Spatial Audio
US8509454B2 (en) * 2007-11-01 2013-08-13 Nokia Corporation Focusing on a portion of an audio scene for an audio signal
KR101415026B1 (ko) * 2007-11-19 2014-07-04 삼성전자주식회사 마이크로폰 어레이를 이용한 다채널 사운드 획득 방법 및장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Markus kallinger et al., "spatial filtering using directional audio coding parameters", IEEE international conf., 2009 *

Also Published As

Publication number Publication date
BRPI1007730A2 (pt) 2018-03-06
EP2249334A1 (en) 2010-11-10
RU2519295C2 (ru) 2014-06-10
CA2761439A1 (en) 2010-11-11
JP2012526296A (ja) 2012-10-25
EP2427880A1 (en) 2012-03-14
PL2427880T3 (pl) 2014-01-31
CN102422348B (zh) 2013-09-25
AU2010244393B2 (en) 2013-02-14
EP2427880B1 (en) 2013-07-31
RU2011145865A (ru) 2013-05-27
MX2011011788A (es) 2011-11-29
US8891797B2 (en) 2014-11-18
CN102422348A (zh) 2012-04-18
CA2761439C (en) 2015-04-21
AU2010244393A1 (en) 2011-11-24
US20120114126A1 (en) 2012-05-10
WO2010128136A1 (en) 2010-11-11
KR20120013986A (ko) 2012-02-15
ES2426136T3 (es) 2013-10-21
JP5400954B2 (ja) 2014-01-29

Similar Documents

Publication Publication Date Title
KR101346026B1 (ko) 오디오 포맷 트랜스코더
US8023660B2 (en) Apparatus, method and computer program for providing a set of spatial cues on the basis of a microphone signal and apparatus for providing a two-channel audio signal and a set of spatial cues
KR102468780B1 (ko) DirAC 기반 공간 오디오 코딩과 관련된 인코딩, 디코딩, 장면 처리, 및 다른 절차를 위한 장치, 방법, 및 컴퓨터 프로그램
TWI555412B (zh) 整合幾何空間音源編碼串流之設備及方法
KR101296757B1 (ko) 마이크로폰 신호를 기반으로 공간 큐의 세트를 제공하는 장치, 방법 및 컴퓨터 프로그램과, 2채널 오디오 신호 및 공간 큐의 세트를 제공하는 장치
RU2556390C2 (ru) Устройство и способ основанного на геометрии кодирования пространственного звука
US20210343300A1 (en) Apparatus and Method for Encoding a Spatial Audio Representation or Apparatus and Method for Decoding an Encoded Audio Signal Using Transport Metadata and Related Computer Programs
AU2021357364B2 (en) Apparatus, method, or computer program for processing an encoded audio scene using a parameter smoothing
RU2792050C2 (ru) Устройство и способ для кодирования пространственного звукового представления или устройство и способ для декодирования закодированного аудиосигнала с использованием транспортных метаданных и соответствующие компьютерные программы

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20161130

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20171214

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20181217

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20191217

Year of fee payment: 7