KR20230084246A - 파라미터 평활화를 사용하여, 인코딩된 오디오 장면을 프로세싱하기 위한 장치, 방법, 또는 컴퓨터 프로그램 - Google Patents

파라미터 평활화를 사용하여, 인코딩된 오디오 장면을 프로세싱하기 위한 장치, 방법, 또는 컴퓨터 프로그램 Download PDF

Info

Publication number
KR20230084246A
KR20230084246A KR1020237015446A KR20237015446A KR20230084246A KR 20230084246 A KR20230084246 A KR 20230084246A KR 1020237015446 A KR1020237015446 A KR 1020237015446A KR 20237015446 A KR20237015446 A KR 20237015446A KR 20230084246 A KR20230084246 A KR 20230084246A
Authority
KR
South Korea
Prior art keywords
parameter
parameters
signal
audio scene
processing
Prior art date
Application number
KR1020237015446A
Other languages
English (en)
Inventor
프란츠 로이텔후버
기욤 푹스
마르쿠스 멀트러스
엘레니 포토풀루
스테판 바이어
얀 뷔테
스테판 돌라
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20230084246A publication Critical patent/KR20230084246A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/162Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Abstract

음장을 표현하는 오디오 장면(130)을 프로세싱하기 위한 장치로서, 오디오 장면은 전송 신호(122)에 대한 정보 및 파라미터들의 세트(112; 114)를 포함한다. 장치는, 파라미터들의 제2 세트(114)를 획득하기 위해 파라미터들의 제1 세트(112)를 프로세싱하기 위한 파라미터 프로세서(110)를 포함하고, 상기 파라미터 프로세서(110)는, 입력 시간 프레임(210)에 대한 상기 파라미터들의 제1 세트(112) 중 적어도 하나의 파라미터를 사용하여 각각의 출력 시간 프레임(220)에 대한 적어도 하나의 원시(raw) 파라미터(252)를 계산하고, 평활화 규칙에 따라 각각의 원시 파라미터(252)에 대한 인자와 같은 평활화 정보(512; 522)를 계산하고, 상기 출력 시간 프레임(220)에 대한 상기 파라미터들의 제2 세트(114) 중 일 파라미터를 도출하기 위해 대응하는 평활화 정보(512; 522)를 대응하는 원시 파라미터(252)에 적용하도록 구성된다. 상기 장치는 상기 파라미터들의 제2 세트(114) 및 상기 전송 신호(122)에 대한 정보를 사용하여, 프로세싱된 오디오 장면(124)을 생성하기 위한 출력 인터페이스(120)를 더 포함한다.

Description

파라미터 평활화를 사용하여, 인코딩된 오디오 장면을 프로세싱하기 위한 장치, 방법, 또는 컴퓨터 프로그램
본 발명은 오디오 프로세싱에 관한 것으로, 특히 렌더링, 저장의 송신을 위해, 프로세싱된 오디오 장면을 생성하려는 목적을 위한 인코딩된 오디오 장면의 프로세싱에 관한 것이다.
전통적으로, 전화통신(telephony) 또는 원격회의(teleconferencing)와 같은 사용자 통신을 위한 수단을 제공하는 오디오 애플리케이션들은 주로 모노 레코딩 및 재생으로 제한되었다. 그러나, 최근 몇 년 동안, 새로운 몰입형 VR/AR 기술의 출현은 또한 통신 시나리오들의 공간 렌더링의 관심을 상승시키는 것으로 이어졌다. 이러한 관심을 충족시키기 위해, 몰입형 음성 및 오디오 서비스들(Immersive Voice and Audio Services; IVAS)로 불리는 새로운 3GPP 오디오 표준이 현재 개발 중이다. 최근 출시된 향상된 음성 서비스들(Enhanced Voice Services; EVS) 표준에 기초하여, IVAS는, 예를 들어 공간적 원격회의를 위해 몰입형 오디오 장면들을 렌더링하면서, 매끄러운 오디오 통신의 낮은-지연 요건들을 여전히 충족시킬 수 있는 멀티-채널 및 VR 확장들을 제공한다. 재생 품질을 희생하지 않으면서 코덱의 전체 지연을 최소로 유지하기 위한 이러한 진행 중인 필요성은 다음에 설명된 작업에 대한 동기를 제공한다.
낮은 비트레이트들(예를 들어, 32 kbps 이하)에서 지향성 오디오 코딩(Directional Audio Coding; DirAC)[1][2]와 같은 파라메트릭(parametric) 오디오 코딩을 사용하는 시스템을 이용하여 3차 앰비소닉(Ambisonics) 콘텐츠와 같은 장면-기반 오디오(SBA) 재료를 코딩하는 것은 필터 뱅크 도메인의 디코더에서 사이드(side) 파라미터들을 통해 공간 정보를 복원하면서 단일(전송) 채널만이 직접 코딩되게 허용한다. 디코더의 스피커 셋업이 스테레오 재생만을 가능하게 하는 경우들에서, 3D 오디오 장면의 전체 복원이 필요하지 않다. 더 높은 비트레이트들의 경우, 2개의 전송 채널들 이상의 코딩이 가능하므로, 이들 경우들에서, 임의의 파라메트릭 공간 업믹싱(공간 렌더러를 완전히 스킵함), 및 (예를 들어, 복소-값 낮은-지연 필터-뱅크(Complex-valued Low-Delay Filter-Bank; CLDFB)와 같은 부가적인 필터-뱅크 분석/합성으로 인해) 이를 따라 진행하는 여분의 지연 없이 장면의 스테레오포닉(stereophonic) 재생이 직접 추출되고 재생될 수 있다. 그러나, 하나의 전송 채널만을 갖는 낮은-레이트 경우들에서, 이는 가능하지 않다. 따라서, DirAC의 경우, 지금까지 스테레오 출력을 위해 후속 L/R 변환과의 FOA(1차 앰비소닉) 업믹스가 필수적이었다. 이는, 이러한 경우가 이제 시스템에서 다른 가능한 스테레오 출력 구성들보다 더 높은 전체 지연에 있기 때문에 문제가 되며, 모든 스테레오 출력 구성의 정렬이 바람직할 것이다.
높은 지연을 갖는 DirAC 스테레오 렌더링의 예
도 12는 높은 지연을 갖는 DirAC 스테레오 업믹스에 대한 종래의 디코더 프로세싱의 블록도의 일 예를 도시한다.
예를 들어, 도시되지 않은 인코더에서, 단일 다운믹스 채널은 DirAC 인코더 프로세싱에서의 공간 다운믹싱을 통해 도출되고, 후속하여 향상된 음성 서비스들(EVS)[3]과 같은 코어 코더를 이용하여 코딩된다.
디코더에서, 예를 들어, 도 12에 도시된 종래의 DirAC 업믹스 프로세스를 사용하여, 하나의 이용가능한 전송 채널은 먼저, 비트스트림(1212)으로부터의 모노 또는 IVAS 모노 디코더(1210)를 사용함으로써 디코딩될 것이어서, 오리지널(original) 오디오 장면의 디코딩된 모노 다운믹스(1214)로서 보여질 수 있는 시간-도메인 신호를 초래한다.
디코딩된 모노 신호(1214)는 신호(1214)를 분석(신호를 주파수 도메인으로 변환)하기 위해 CLDFB(1220)에 입력되며, 이는 지연을 야기한다. 상당히 지연된 출력 신호(1222)가 DirAC 렌더러(1230)로 들어간다. DirAC 렌더러(1230)는 지연된 출력 신호(1222)를 프로세싱하고, 송신된 사이드 정보, 즉 DirAC 사이드 파라미터들(1213)은 신호(1222)를 FOA 표현, 즉 DirAC 사이드 파라미터들(1213)로부터의 복원된 공간 정보와의 오리지널 장면의 FOA 업믹스(1232)로 변환하는 데 사용된다.
송신된 파라미터들(1213)은 지향성 각도들, 예를 들어 수평 평면에 대한 하나의 방위각 값 및 수직 평면에 대한 하나의 고도 각도, 및 전체 3D 오디오 장면을 지각적으로 설명하기 위한 주파수 대역당 하나의 확산 값을 포함할 수 있다. DirAC 스테레오 업믹스의 대역별 프로세싱으로 인해, 파라미터들(1213)은 프레임당 다수회, 즉 각각의 주파수 대역에 대해 하나의 세트씩 전송된다. 부가적으로, 각각의 세트는 시간 분해능(resolution)을 증가시키기 위해 전체 프레임(예를 들어, 20 ms 길이) 내의 개별 서브프레임들에 대한 다수의 지향성 파라미터들을 포함한다.
DirAC 렌더러(1230)의 결과는, 예를 들어 FOA 포맷의 전체 3D 장면, 즉 FOA 업믹스(1232)일 수 있으며, 이는 이제 매트릭스 변환들(1240)을 사용하여, 스테레오 스피커 셋업 상에서의 재생에 적합한 L/R 신호(1242)로 전환될 수 있다. 다시 말하면, L/R 신호(1242)는 스테레오 스피커로 입력될 수도 있거나 또는 CLDFB 합성(1250)으로 입력될 수 있으며, 이는 미리 정의된 채널 가중치들을 사용하고 있다. CLDFB 합성(1250)은 주파수 도메인의 2개의 출력 채널들(L/R 신호(1242))의 입력을 시간 도메인으로 변환하여, 스테레오 재생을 위해 준비된 출력 신호(1252)를 초래한다.
대안적으로, 스테레오 출력 구성에 대한 렌더링을 직접 생성하기 위해 동일한 DirAC 스테레오 업믹스를 사용하는 것이 가능하며, 이는 FOA 신호를 생성하는 중간 단계를 회피한다. 이는 프레임워크의 잠재적인 복잡화에 대한 알고리즘 복잡성이 감소시킬 것이다. 그럼에도 불구하고, 둘 모두의 접근법들은 코어 코딩 이후 부가적인 필터 뱅크의 사용을 요구하며, 이는 5 ms의 부가적인 지연을 초래한다. DirAC 렌더링의 추가적인 예는 [2]에서 발견될 수 있다.
DirAC 스테레오 업믹스 접근법은 지연의 관점들 및 복잡성의 관점들 둘 모두에서 다소 차선이다. CLDFB 필터 뱅크의 사용으로 인해, 출력은 (DirAC 예에서 부가적인 5 ms만큼) 상당히 지연되며, 따라서 (렌더링의 부가적인 단계가 요구되지 않는 스테레오 출력 구성의 지연과 비교하여) 전체 SBA 업믹스와 동일한 전체 지연을 갖는다. 또한, 스테레오 신호를 생성하기 위해 전체 SBA 업믹스를 행하는 것이 시스템 복잡성에 관해 이상적이지 않다는 것은 합리적인 가정이다.
인코딩된 오디오 장면을 프로세싱하기 위한 개선된 개념을 제공하는 것이 본 발명의 목적이다.
이러한 목적은 청구항 제1항의 인코딩된 오디오 장면을 프로세싱하기 위한 장치, 청구항 제32항의 인코딩된 오디오 장면을 프로세싱하는 방법, 또는 청구항 제33항의 컴퓨터 프로그램에 의해 달성된다.
본 발명은, 파라미터 변환에 관련된 제1 양상에 따르면, 인코딩된 오디오 장면을 프로세싱하기 위한 개선된 개념이 가상 청취자 위치에 관련된 인코딩된 오디오 장면 내의 주어진 파라미터들을 주어진 출력 포맷의 채널 표현에 관련된 변환된 파라미터들로 변환함으로써 획득된다는 발견에 기초한다. 이러한 절차는 채널-기반 환경에서 프로세싱된 오디오 장면을 프로세싱하고 최종적으로 렌더링할 시에 높은 유연성을 제공한다.
본 발명의 제1 양상에 따른 실시예는 가상 청취자 위치에 관련된 음장을 표현하는 인코딩된 오디오 장면을 프로세싱하기 위한 장치를 포함하며, 인코딩된 오디오 장면은 전송 신호, 예를 들어 코어 인코딩된 오디오 신호에 대한 정보, 및 가상 청취자 위치에 관련된 파라미터들의 제1 세트를 포함한다. 장치는, 파라미터들의 제1 세트, 예를 들어 B-포맷 또는 1차 앰비소닉(FOA) 포맷의 지향성 오디오 코딩(DirAC) 사이드 파라미터들을 파라미터들의 제2 세트, 예를 들어 2개 이상의 채널들에 대한 미리 정의된 공간 위치들에서의 재생을 위해 2개 이상의 채널들을 포함하는 채널 표현에 관련된 스테레오 파라미터들로 변환하기 위한 파라미터 변환기, 및 파라미터들의 제2 세트 및 전송 신호에 대한 정보를 사용하여, 프로세싱된 오디오 장면을 생성하기 위한 출력 인터페이스를 포함한다.
일 실시예에서, 지향성 오디오 코딩(DirAC) 렌더러보다는 짧은-시간 푸리에 변환(Short-Time Fourier Transform; STFT) 필터뱅크가 업믹싱을 위해 사용된다. 따라서, 임의의 부가적인 전체 지연 없이 하나의 다운믹스 채널(비트스트림에 포함됨)을 스테레오 출력으로 업믹싱하는 것이 가능하게 된다. 디코더에서의 분석을 위해 매우 짧은 중첩들을 갖는 윈도우들을 사용함으로써, 업믹싱은 통신 코덱들 또는 다가올 몰입형 음성 및 오디오 서비스들(IVAS)에 대해 필요한 전체 지연 내에 머무르게 허용한다. 이러한 값은, 예를 들어 32 밀리초일 수 있다. 그러한 실시예들에서, 대역폭 확장의 목적을 위한 임의의 포스트(post) 프로세싱은, 그러한 프로세싱이 파라미터 변환 또는 파라미터 맵핑과 병렬로 행해질 수 있기 때문에 회피될 수 있다.
저대역(LB) 신호들에 대한 청취자-특정 파라미터들을 저대역에 대한 채널-특정 스테레오 파라미터들의 세트로 맵핑함으로써, DFT 도메인 내에서의 저대역에 대한 낮은-지연 업믹싱이 달성될 수 있다. 고대역의 경우, 스테레오 파라미터들의 단일 세트는, 바람직하게는 저대역에 대한 스펙트럼 분석, 스펙트럼 업믹싱 및 스펙트럼 합성과 병렬로 시간 도메인에서의 고대역에서 업믹스를 수행하도록 허용된다.
예시적으로, 파라미터 변환기는 패닝(panning)을 위한 단일 사이드 이득 파라미터, 및 스테레오 폭에 밀접하게 관련되고 지향성 오디오 코딩(DirAC)에서 사용되는 확산 파라미터에 또한 밀접하게 관련된 레지듀얼(residual) 예측 파라미터를 사용하도록 구성된다.
일 실시예에서, 이러한 "DFT-스테레오" 접근법은, 스테레오 출력을 획득하기 위해, 인코딩된 오디오 장면(장면 기반 오디오)을 프로세싱하는 경우, IVAS 코덱이 EVS에서와 동일한 전체 지연, 특히 32 밀리초 내에 유지되는 것을 허용한다. 공간 DirAC 렌더링 대신 DFT-스테레오를 통해 간단한 프로세싱을 구현함으로써, 파라메트릭 스테레오 업믹스의 더 낮은 복잡성이 달성된다.
본 발명은 대역폭 확장에 관련된 제2 양상에 따르면, 인코딩된 오디오 장면을 프로세싱하기 위한 개선된 개념이 획득된다는 발견에 기초한다.
본 발명의 제2 양상에 따른 실시예는 음장을 표현하는 오디오 장면을 프로세싱하기 위한 장치를 포함하며, 오디오 장면은 전송 신호에 대한 정보 및 파라미터들의 세트를 포함한다. 장치는, 파라미터들의 세트 및 전송 신호에 대한 정보를 사용하여, 프로세싱된 오디오 장면을 생성하기 위한 출력 인터페이스 - 출력 인터페이스는 파라미터들의 세트 및 전송 신호를 사용하여 2개 이상의 채널들의 원시(raw) 표현을 생성하도록 구성됨 -, 전송 신호를 사용하여 2개 이상의 채널들의 향상 표현을 생성하기 위한 멀티채널 향상기, 및 프로세싱된 오디오 장면을 획득하기 위해 2개 이상의 채널들의 원시 표현과 2개 이상의 채널들의 향상 표현을 결합하기 위한 신호 결합기를 더 포함한다.
한편으로는 2개 이상의 채널들의 원시 표현의 생성 및 다른 한편으로는 2개 이상의 채널들의 향상 표현의 별개의 생성은 원시 표현 및 향상 표현에 대한 알고리즘들을 선택할 시에 큰 유연성을 허용한다. 최종 결합은 이미, 하나 이상의 출력 채널들 각각에 대해, 즉 하위 채널 입력 또는 인코딩된 장면 도메인에서 보다는 멀티채널 출력 도메인에서 발생한다. 따라서, 결합에 후속하여, 2개 이상의 채널들이 합성되고, 렌더링, 송신 또는 저장과 같은 추가적인 절차들에 대해 사용될 수 있다.
일 실시예에서, 향상 표현에 대한 대수 코드-종료 선형 예측(Algebraic Code-Exited Linear Prediction; ACELP) 스피치 코더의 대역폭 확장(BWE)과 같은 코어 프로세싱의 일부는 원시 표현에 대한 DFT-스테레오 프로세싱과 병렬로 수행될 수 있다. 따라서, 알고리즘들 둘 모두에 의해 발생된 임의의 지연들은 누적되지 않지만, 하나의 알고리즘에 의해 발생된 주어진 지연만이 최종 지연이 될 것이다. 일 실시예에서, 전송 신호, 예를 들어 저대역(LB) 신호(채널)만이 출력 인터페이스, 예를 들어 DFT-스테레오 프로세싱으로 입력되는 반면, 고대역(HB)은, 예를 들어 멀티채널 향상기를 사용함으로써 시간 도메인에서 별개로 업믹싱되어, 스테레오 디코딩은 32 밀리초의 타깃 시간 윈도우 내에서 프로세싱될 수 있다. 예를 들어, 파라미터 변환기로부터의, 예를 들어 맵핑된 사이드 이득들에 기초하여 브로드 밴드 패닝을 사용함으로써, 전체 고대역에 대한 확실한 시간 도메인 업믹스가 임의의 상당한 지연 없이 획득된다.
일 실시예에서, DFT-스테레오에서의 감소된 지연은 2개의 변환들의 중첩의 차이들, 예를 들어 CLDFB에 의해 야기된 5 ms의 변환 지연 및 STFT에 의해 야기된 3,125 ms의 변환 지연으로부터 전적으로 기인하지는 않을 수 있다. 대신, DFT-스테레오는 32 ms EVS 코더 타깃 지연으로부터의 마지막 3,25 ms가 본질적으로 ACELP BWE로부터 나온다는 사실을 이용한다. 다른 모든 것(EVS 코더 타깃 지연에 도달될 때까지의 나머지 밀리초)은 간단히, 마지막에 다시 2개의 변환된 신호들(HB 스테레오 업믹스 신호 및 HB 충전 신호와 LB 스테레오 코어 신호)의 정렬을 달성하기 위해 인위적으로 지연된다. 따라서, DFT-스테레오에서 부가적인 지연을 회피하기 위해, 인코더의 다른 모든 컴포넌트들만이, 예를 들어 매우 짧은 DFT 윈도우 중첩 내에서 변환되는 반면, ACELP BWE는, 예를 들어 멀티채널 향상기를 사용하여 시간 도메인에서 거의 지연 없이 믹싱 업된다.
본 발명은 파라미터 평활화에 관련된 제3 양상에 따르면, 인코딩된 오디오 장면을 프로세싱하기 위한 개선된 개념이 평활화 규칙에 따라 시간에 관해 파라미터 평활화를 수행함으로써 획득된다는 발견에 기초한다. 따라서, 원시 파라미터들보다는 평활화된 파라미터들을 전송 채널(들)에 적용함으로써 획득된 프로세싱된 오디오 장면은 개선된 오디오 품질을 가질 것이다. 이는 특히, 평활화된 파라미터들이 업믹스 파라미터들일 때 참이지만, 엔벨로프(envelope) 파라미터들 또는 LPC 파라미터들 또는 노이즈 파라미터들 또는 스케일 인자 파라미터들과 같은 임의의 다른 파라미터들의 경우, 평활화 규칙에 의해 획득된 바와 같은 사용 또는 평활화된 파라미터들은 획득된 프로세싱된 오디오 장면의 개선된 주관적인 오디오 품질을 초래할 것이다.
본 발명의 제3 양상에 따른 실시예는 음장을 표현하는 오디오 장면을 프로세싱하기 위한 장치를 포함하며, 오디오 장면은 전송 신호에 대한 정보 및 파라미터들의 제1 세트를 포함한다. 장치는, 파라미터들의 제2 세트를 획득하기 위해 파라미터들의 제1 세트를 프로세싱하기 위한 파라미터 프로세서 - 파라미터 프로세서는, 입력 시간 프레임에 대한 파라미터들의 제1 세트 중 적어도 하나의 파라미터를 사용하여 각각의 출력 시간 프레임에 대한 적어도 하나의 원시 파라미터를 계산하고, 평활화 규칙에 따라 각각의 원시 파라미터에 대한 인자와 같은 평활화 정보를 계산하고, 그리고 대응하는 평활화 정보를 대응하는 원시 파라미터에 적용하여, 출력 시간 프레임에 대한 파라미터들의 제2 세트 중 일 파라미터를 도출하도록 구성됨 -, 및 파라미터들의 제2 세트 및 전송 신호에 대한 정보를 사용하여, 프로세싱된 오디오 장면을 생성하기 위한 출력 인터페이스를 더 포함한다.
시간에 걸쳐 원시 파라미터들을 평활화함으로써, 하나의 프레임으로부터 다음 프레임까지의 이득들 또는 파라미터들에서의 강한 변동들이 회피된다. 평활화 인자는, 실시예들에서, 청취자 위치 관련 파라미터들을 채널 관련 파라미터들로 변환하기 위해 파라미터 변환기의 기능을 또한 갖는 파라미터 프로세서에 의해, 바람직한 실시예들에서 적응적으로 계산되는 평활화의 강도를 결정한다. 적응형 계산은 오디오 장면이 급작스럽게 변경될 때마다 더 신속한 응답을 획득하도록 허용한다. 적응형 평활화 인자는 현재 대역의 에너지들의 변화로부터 대역별로 계산된다. 대역별 에너지들은 프레임에 포함된 모든 서브프레임들에서 컴퓨팅(compute)된다. 부가적으로, 시간에 걸친 에너지들의 변화는 2개의 평균들, 즉 단기 평균 및 장기 평균에 의해 특징지어져서, 극단적인 경우들은 평활화에 어떠한 영향도 갖지 않는 반면, 에너지의 덜 급격한 증가는 평활화를 그렇게 강하게 감소시키지 않는다. 따라서, 평활화 인자는 평균들의 몫으로부터 현재 프레임에서 DTF-스테레오 서브프레임 각각에 계산된다.
이전에 논의된 바와 같은 그리고 후속하여 논의되는 바와 같은 모든 대안들 또는 양상들이 개별적으로, 즉 임의의 양상 없이 사용될 수 있다는 것이 본 명세서에서 언급될 것이다. 그러나, 다른 실시예들에서, 양상들 중 2개 이상이 서로 결합되고, 다른 실시예들에서, 모든 양상들이 서로 결합되어, 전체 지연, 달성가능한 오디오 품질, 및 요구되는 구현 노력 사이의 개선된 절충안을 획득한다.
본 발명의 바람직한 실시예들은 첨부된 도면들에 관해 후속하여 논의된다.
도 1은 일 실시예에 따른, 파라미터 변환기를 사용하여, 인코딩된 오디오 장면을 프로세싱하기 위한 장치의 블록도이다.
도 2a는 일 실시예에 따른, 파라미터들의 제1 세트에 대한 그리고 파라미터들의 제2 세트에 대한 개략도를 예시한다.
도 2b는 원시 파라미터를 계산하기 위한 파라미터 변환기 또는 파라미터 프로세서의 일 실시예이다.
도 2c는 원시 파라미터들을 결합하기 위한 파라미터 변환기 또는 파라미터 프로세서의 일 실시예이다.
도 3은 원시 파라미터들의 가중된 결합을 수행하기 위한 파라미터 변환기 또는 파라미터 프로세서의 일 실시예이다.
도 4는 사이드 이득 파라미터들 및 레지듀얼 예측 파라미터들을 생성하기 위한 파라미터 변환기의 일 실시예이다.
도 5a는 원시 파라미터에 대한 평활화 인자를 계산하기 위한 파라미터 변환기 또는 파라미터 프로세서의 일 실시예이다.
도 5b는 주파수 대역에 대한 평활화 인자를 계산하기 위한 파라미터 변환기 또는 파라미터 프로세서의 일 실시예이다.
도 6은 일 실시예에 따른, 평활화 인자에 대해 전송 신호를 평균하는 개략도를 예시한다.
도 7은 재귀적 평활화를 계산하기 위한 파라미터 변환기 또는 파라미터 프로세서의 일 실시예이다.
도 8은 전송 신호를 디코딩하기 위한 장치의 일 실시예이다.
도 9는 대역폭 확장을 사용하여, 인코딩된 오디오 장면을 프로세싱하기 위한 장치의 일 실시예이다.
도 10은 프로세싱된 오디오 장면을 획득하기 위한 장치의 일 실시예이다.
도 11은 멀티채널 향상기의 일 실시예의 블록도이다.
도 12는 종래의 DirAC 스테레오 업믹스 프로세스의 블록도이다.
도 13은 파라미터 맵핑을 사용하여, 프로세싱된 오디오 장면을 획득하기 위한 장치의 일 실시예이다.
도 14는 대역폭 확장을 사용하여, 프로세싱된 오디오 장면을 획득하기 위한 장치의 일 실시예이다.
도 1은, 예를 들어 가상 청취자 위치에 관련된 음장을 표현하는 인코딩된 오디오 장면(130)을 프로세싱하기 위한 장치를 예시한다. 인코딩된 오디오 장면(130)은 전송 신호(122)에 대한 정보, 예를 들어 비트스트림, 및 파라미터들의 제1 세트(112), 예를 들어 비트스트림에 또한 포함된 복수의 DirAC 파라미터들을 포함하며, 이들은 가상 청취자 위치에 관련된다. 파라미터들의 제1 세트(112)는, 적어도 2개 이상의 채널들을 포함하는 채널 표현에 관련된 파라미터들의 제2 세트(114)로 파라미터들의 제1 세트(112)를 변환하는 파라미터 변환기(110) 또는 파라미터 프로세서에 입력된다. 장치는 상이한 오디오 포맷들을 지원할 수 있다. 오디오 신호들은 본질적으로 음향적일 수 있고, 마이크로폰들에 의해 픽업(pick up)되거나, 또는 본질적으로 전기적일 수 있고, 이는 라우드스피커들로 송신되어야 한다. 지원되는 오디오 포맷들은 모노 신호, 저대역 신호, 고대역 신호, 멀티-채널 신호, 1차 및 고차 앰비소닉 컴포넌트들, 및 오디오 오브젝트들일 수 있다. 오디오 장면은 또한 상이한 입력 포맷들을 결합함으로써 설명될 수 있다.
파라미터 변환기(110)는 파라미터들의 제2 세트(114)를 파라메트릭 스테레오 또는 멀티채널 파라미터들, 예를 들어 2개 이상의 채널들로서 계산하도록 구성되며, 이들은 출력 인터페이스(120)에 입력된다. 출력 인터페이스(120)는 트랜스코딩된 오디오 장면을 프로세싱된 오디오 장면(124)으로서 획득하기 위해 전송 신호(122) 또는 전송 신호에 대한 정보와 파라미터들의 제2 세트(114)를 결합함으로써, 프로세싱된 오디오 장면(124)을 생성하도록 구성된다. 다른 실시예는 파라미터들의 제2 세트(114)를 사용하여 전송 신호(122)를, 2개 이상의 채널들을 포함하는 업믹스 신호로 업믹싱하는 것을 포함한다. 다시 말하면, 파라미터 변환기(120)는, 예를 들어 DirAC 렌더링을 위해 사용되는 파라미터들의 제1 세트(112)를 파라미터들의 제2 세트(114)에 맵핑한다. 파라미터들의 제2 세트는 패닝을 위해 사용되는 사이드 이득 파라미터, 및 업믹싱에서 적용될 때 오디오 장면의 개선된 공간 이미지를 초래하는 레지듀얼 예측 파라미터를 포함할 수 있다. 예를 들어, 파라미터들의 제1 세트(112)의 파라미터들은 도달 방향 파라미터, 확산 파라미터, 구의 원점으로서 가상 청취 위치를 갖는 구에 관련된 방향 정보 파라미터, 및 거리 파라미터 중 적어도 하나를 포함할 수 있다. 예를 들어, 파라미터들의 제2 세트(114)의 파라미터들은 사이드 이득 파라미터, 레지듀얼 예측 이득 파라미터, 채널-간 레벨 차이 파라미터, 채널-간 시간 차이 파라미터, 채널-간 위상 차이 파라미터 및 채널-간 코히어런스(coherence) 파라미터 중 적어도 하나를 포함할 수 있다.
도 2a는 일 실시예에 따른, 파라미터들의 제1 세트(112)에 대한 그리고 파라미터들의 제2 세트(114)에 대한 개략도를 예시한다. 특히, 둘 모두의 파라미터들(제1 및 제2)에 대한 파라미터 분해능이 도시되어 있다. 도 2a의 각각의 횡좌표는 시간을 표현하고, 도 2a의 각각의 종좌표는 주파수를 표현한다. 도 2a에 도시된 바와 같이, 파라미터들의 제1 세트(112)가 관련된 입력 시간프레임(210)은 2개 이상의 입력 시간 서브프레임들(212 및 213)을 포함한다. 바로 아래에, 파라미터들의 제2 세트(114)가 관련된 출력 시간 프레임(220)이 상단 도면에 관련된 대응하는 도면에 도시되어 있다. 이는 출력 시간 프레임(220)이 입력 시간 프레임(210)에 비해 더 작고 출력 시간 프레임(220)이 입력 시간 서브프레임(212 또는 213)에 비해 더 길다는 것을 표시한다. 입력 시간 서브 프레임(212 또는 213) 및 출력 시간 프레임(220)이 주파수 대역으로서 복수의 주파수들을 포함할 수 있다는 것을 유의한다. 입력 주파수 대역(230)은 출력 주파수 대역(240)과 동일한 주파수들을 포함할 수 있다. 실시예들에 따르면, 입력 주파수 대역(230) 및 출력 주파수 대역들(240)의 주파수 대역들은 서로 연결되지 않거나 상관되지 않을 수 있다.
도 4에 설명되는 사이드 이득 및 레지듀얼 이득이 통상적으로 프레임들에 대해 계산되어, 각각의 입력 프레임(210)에 대해, 단일 사이드 이득 및 단일 레지듀얼 이득이 계산된다는 것을 유의해야 한다. 그러나, 다른 실시예들에서, 단일 사이드 이득 및 단일 레지듀얼 이득이 각각의 프레임에 대해 계산될 뿐만 아니라, 사이드 이득들의 그룹 및 레지듀얼 이득들의 그룹이 입력 시간 프레임(210)에 대해 계산되며, 여기서 각각의 사이드 이득 및 각각의 레지듀얼 이득은, 예를 들어 주파수 대역의 특정한 입력 시간 서브프레임(212 또는 213)에 관련된다. 따라서, 실시예들에서, 파라미터 변환기(110)는 파라미터들의 제1 세트(112) 및 파라미터들의 제2 세트(114)의 각각의 프레임에 대해 사이드 이득들의 그룹 및 레지듀얼 이득들의 그룹을 계산하며, 여기서 입력 시간 프레임(210)에 대한 사이드 및 레지듀얼 이득들의 수는 통상적으로, 입력 주파수 대역들(230)의 수와 동일하다.
도 2b는 파라미터들의 제2 세트(114) 중 원시 파라미터(252)를 계산(250)하기 위한 파라미터 변환기(110)의 일 실시예를 도시한다. 파라미터 변환기(110)는 시간-후속 방식으로 2개 이상의 입력 시간 서브프레임들(212 및 213)의 각각의 입력 시간 서브프레임에 대한 원시 파라미터(252)를 계산한다. 예를 들어, 계산(250)은 각각의 입력 주파수 대역(230) 및 시간 인스턴트(입력 시간 서브프레임(212, 213))에 대해 방위각 θ의 주된(predominant) 도달 방향(DOA) 및 고도 φ의 주된 도달 방향 및 확산성 파라미터 ψ를 도출한다.
X, Y 및 Z와 같은 지향성 컴포넌트들의 경우, 중앙 위치에서의 1차 구형 고조파는 다음의 수학식을 사용하여 무지향성 컴포넌트 w(b,n) 및 DirAC 파라미터들에 의해 도출될 수 있다고 주어진다:
Figure pct00001
W 채널은 무지향성 마이크로폰의 출력에 대응하는 신호의 비-지향성 모노 컴포넌트를 표현한다. X, Y 및 Z 채널들은 3개의 차원들의 지향성 컴포넌트들이다. 이들 4개의 FOA 채널들로부터, 그것은 파라미터 변환기(110)를 사용하여 W 채널 및 Y 채널을 수반하는 디코딩에 의해 스테레오 신호(스테레오 버전, 스테레오 출력)를 획득할 수 있으며, 이는 방위각 각도들 +90도 및 -90도를 가리키는 2개의 카디오이드(cardioid)들을 유발한다. 그 사실로 인해, 다음의 수학식은 좌측 및 우측 스테레오 신호의 관계를 보여주며, 여기서 Y 채널을 W 채널에 추가함으로써, 좌측 채널 L이 표현되고, W 채널로부터 Y 채널을 감산함으로써, 우측 채널 R이 표현된다:
Figure pct00002
다시 말하면, 이러한 디코딩은 2개의 방향들을 가리키는 1차 빔포밍에 대응하며, 이는 다음의 수학식을 사용하여 표현될 수 있다:
Figure pct00003
결과적으로, 스테레오 출력(좌측 채널 및 우측 채널)과 파라미터들의 제1 세트(112), 즉 DirAC 파라미터들 사이에 직접적인 링크가 존재한다.
그러나, 다른 한편으로, 파라미터들의 제2 세트(114), 즉 DFT 파라미터들은 중간-신호 M 및 사이드 신호 S에 기초하는 좌측 L 채널 및 우측 R 채널의 모델에 의존하며, 이는 다음의 수학식을 사용하여 표현될 수 있다:
Figure pct00004
여기서, M은 장면 기반 오디오(SBA) 모드의 경우 무지향성 채널 W에 대응하는 모노 신호(채널)로서 송신된다. 더욱이, DFT 스테레오에서, S는 사이드 이득 파라미터를 사용하여 M으로부터 예측되며, 이는 다음에서 설명된다.
도 4는, 예를 들어 계산 프로세스(450)를 사용하여, 사이드 이득 파라미터들(455) 및 레지듀얼 예측 파라미터들(456)을 생성하기 위한 파라미터 변환기(110)의 일 실시예를 도시한다. 파라미터 변환기(110)는 바람직하게, 다음의 수학식을 사용하여 원시 파라미터(252), 예를 들어 출력 주파수 대역(241)에 대한 사이드 파라미터(455)를 계산하기 위해 계산(250 및 450)을 프로세싱한다:
Figure pct00005
수학식에 따르면, b는 출력 주파수 대역이고, sidegain은 사이드 이득 파라미터(455)이고, azimuth는 도달 방향 파라미터의 방위각 컴포넌트이고, elevation은 도달 방향 파라미터의 고도 컴포넌트이다. 도 4에 도시된 바와 같이, 파라미터들의 제1 세트(112)는 앞서 설명된 바와 같이 입력 주파수 대역(231)에 대한 도달 방향(DOA) 파라미터들(456)을 포함하고, 파라미터들의 제2 세트(114)는 입력 주파수 대역(230)당 사이드 이득 파라미터(455)를 포함한다. 그러나, 파라미터들의 제1 세트(112)가 입력 주파수 대역(231)에 대한 확산 파라미터 ψ(453)를 부가적으로 포함하면, 파라미터 변환기(110)는 다음의 수학식을 사용하여 출력 주파수 대역(241)에 대한 사이드 이득 파라미터(455)를 계산(250)하도록 구성된다:
Figure pct00006
수학식에 따르면, diff(b)는 입력 주파수 대역 b(230)에 대한 확산 파라미터 ψ(453)이다. 파라미터들의 제1 세트(112) 중 지향성 파라미터들(456)은 상이한 값 범위들을 포함할 수 있다는 것을 유의해야 하며, 예를 들어, 방위각 파라미터(451)는 [0;360]이고, 고도 파라미터(452)는 [0;180]이고, 결과적인 사이드 이득 파라미터(455)는 [-1;1]이다. 도 2c에 도시된 바와 같이, 파라미터 변환기(110)는 결합기(260)를 사용하여 적어도 2개의 원시 파라미터들(252)을 결합하여, 출력 시간 프레임(220)에 관련된 파라미터들의 제2 세트(114) 중 일 파라미터가 도출된다.
일 실시예에 따르면, 파라미터들의 제2 세트(114)는 출력 주파수 대역들(240) 중 일 출력 주파수 대역(241)에 대한 레지듀얼 예측 파라미터(456)를 더 포함하며, 이는 도 4에 도시되어 있다. 파라미터 변환기(110)는 출력 주파수 대역(241)에 대한 레지듀얼 예측 파라미터(456)로서, 레지듀얼 선택기(410)에 예시된 바와 같이 입력 주파수 대역(231)으로부터의 확산 파라미터 ψ(453)를 사용할 수 있다. 입력 주파수 대역(231) 및 출력 주파수 대역(241)이 서로 동일하면, 파라미터 변환기(110)는 입력 주파수 대역(231)으로부터의 확산 파라미터 ψ(453)를 사용한다. 입력 주파수 대역(231)에 대한 확산 파라미터 ψ(453)로부터, 출력 주파수 대역(241)에 대한 확산 파라미터 ψ(453)가 도출되고, 확산 파라미터 ψ(453)는 출력 주파수 대역(241)에 대한 레지듀얼 예측 파라미터(456)로서 출력 주파수 대역(241)에 대해 사용된다. 이어서, 파라미터 변환기(110)는 입력 주파수 대역(231)으로부터의 확산 파라미터 ψ(453)를 사용할 수 있다.
DFT 스테레오 프로세싱에서, 예측의 레지듀얼은 레지듀얼 선택기(410)를 사용하여 가정되고, 비코히어런트(incoherent)인 것으로 예상되며, 그의 에너지 및 좌측 L 및 우측 R로 진행하는 레지듀얼 신호들의 역상관에 의해 모델링된다. 모노 신호(채널)로서 중간-신호 M을 갖는 사이드 신호 S의 예측의 레지듀얼은 다음과 같이 표현될 수 있다:
Figure pct00007
그의 에너지는 다음의 수학식을 사용하여 레지듀얼 예측 이득을 사용해서 DFT 스테레오 프로세싱에서 모델링된다:
Figure pct00008
레지듀얼 이득이 스테레오 신호의 채널-간 비코히어런스 컴포넌트 및 공간 폭을 표현하므로, 그것은 DirAC에 의해 모델링된 확산 부분에 직접 링크된다. 따라서, 레지듀얼 에너지는 DirAC 확산 파라미터의 함수로서 개기입될 수 있다:
Figure pct00009
도 3은 일 실시예에 따른, 원시 파라미터들(252)의 가중된 결합(310)을 수행하기 위한 파라미터 변환기(110)를 도시한다. 적어도 2개의 원시 파라미터들(252)이 가중된 결합(310)에 입력되며, 여기서 가중된 결합(310)에 대한 가중 인자들(324)은 대응하는 입력 시간 서브프레임(212)에서의 전송 신호(122)의 진폭-관련 측정(320)에 기초하여 도출된다. 더욱이, 파라미터 변환기(110)는 대응하는 입력 시간 서브 프레임(212 또는 213)에서 전송 신호(112)의 에너지 또는 전력 값을 진폭-관련 측정(320)으로서 사용하도록 구성된다. 진폭-관련 측정(320)은, 예를 들어 대응하는 입력 시간 서브프레임(212)에서 전송 신호(122)의 에너지 또는 전력을 측정하여, 그 입력 서브프레임(212)에 대한 가중 인자(324)는, 대응하는 입력 시간 서브프레임(212)에서의 전송 신호(122)의 더 낮은 에너지 또는 전력을 갖는 입력 서브프레임(212)에 대한 가중 인자(324)에 비해 대응하는 입력 시간 서브프레임(212)에서의 전송 신호(122)의 더 높은 에너지 또는 전력의 경우 더 크다.
앞에서 설명된 바와 같이, 지향성 파라미터들, 방위각 파라미터들 및 고도 파라미터들은 대응하는 값 범위들을 갖는다. 그러나, 파라미터들의 제1 세트(112) 중 지향성 파라미터들은 일반적으로, 파라미터들의 제2 세트(114)보다 더 높은 시간 분해능을 가지며, 이는 하나의 사이드 이득 값의 계산을 위해 2개 이상의 방위각 및 고도 값들이 사용되어야 한다는 것을 의미한다. 일 실시예에 따르면, 계산은 진폭 관련 측정(320)의 출력으로서 획득될 수 있는 에너지-의존 가중치들에 기초한다. 예를 들어, 모든 K개의 입력 시간 서브프레임들(212 및 213)에 대해, 서브프레임의 에너지 nrg는 다음의 수학식을 사용하여 계산되며:
Figure pct00010
여기서, x는 시간 도메인 입력 신호이고, N은 각각의 서브프레임 내의 샘플들의 수이고, i는 샘플 인덱스이다. 더욱이, 각각의 출력 시간 프레임 l(230)에 대해, 가중치들(324)은 이어서, 각각의 출력 시간 프레임 l 내부의 각각의 입력 시간 서브프레임 k(212, 213)의 기여도에 대해 다음과 같이 컴퓨팅될 수 있다:
Figure pct00011
이어서, 사이드 이득 파라미터들(455)은 다음의 수학식을 사용하여 최종적으로 컴퓨팅된다:
Figure pct00012
파라미터들 사이의 유사성으로 인해, 대역당 확산 파라미터(453)는 동일한 대역 내의 모든 서브프레임들의 레지듀얼 예측 파라미터(456)에 직접 맵핑된다. 유사성은 다음의 수학식을 이용하여 표현될 수 있다:
Figure pct00013
도 5a는 평활화 규칙(514)에 따라 각각의 원시 파라미터(252)에 대한 평활화 인자(512)를 계산하기 위한 파라미터 변환기(110) 또는 파라미터 프로세서의 일 실시예를 도시한다. 더욱이, 파라미터 변환기(110)는 출력 시간 프레임(220)에 대한 파라미터들의 제2 세트(114) 중 일 파라미터, 즉 출력 시간 프레임의 파라미터를 도출하기 위해 평활화 인자(512)(하나의 원시 파라미터에 대한 대응하는 평활화 인자)를 원시 파라미터(252)(평활화 인자에 대응하는 하나의 원시 파라미터)에 적용하도록 구성된다.
도 5b는 압축 함수(540)를 사용하여 주파수 대역에 대한 평활화 인자(522)를 계산하기 위한 파라미터 변환기(110) 또는 파라미터 프로세서의 일 실시예를 도시한다. 압축 함수(540)는 상이한 주파수 대역들에 대해 상이할 수 있어서, 압축 함수(540)의 압축 강도는 더 높은 주파수 대역에 대한 것보다 더 낮은 주파수 대역에 대해 더 강하다. 파라미터 변환기(110)는 최대 한계(bound) 선택(550)을 사용하여 평활화 인자(512, 522)를 계산하도록 추가로 구성된다. 다시 말하면, 파라미터 변환기(110)는 상이한 주파수 대역들에 대해 상이한 최대 한계들을 사용함으로써 평활화 인자(512, 522)를 획득할 수 있어서, 더 낮은 주파수 대역에 대한 최대 한계는 더 높은 주파수 대역에 대한 최대 한계보다 더 높다.
압축 함수(540) 및 최대 한계 선택(550) 둘 모두는 주파수 대역(522)에 대한 평활화 인자(522)를 획득하는 계산(520)에 입력된다. 예를 들어, 파라미터 변환기(110)는 평활화 인자들(512 및 522)을 계산하기 위해 2개의 계산들(510 및 520)을 사용하는 것으로 제한되지 않아서, 파라미터 변환기(110)는 하나의 계산 블록만을 사용하여 평활화 인자들(512, 522)을 계산하도록 구성되며, 이는 평활화 인자들(512 및 522)을 출력할 수 있다. 다시 말하면, 평활화 인자는 현재 주파수 대역의 에너지들의 변화로부터 대역별로(각각의 원시 파라미터(252)에 대해) 계산된다. 예를 들어, 파라미터 평활화 프로세스를 사용함으로써, 사이드 이득 파라미터(455) 및 레지듀얼 예측 파라미터(456)는 이득들의 강한 변동들을 회피하기 위해 시간에 걸쳐 평활화된다. 이것이 대부분의 시간에서 비교적 강한 평활화를 요구하지만, 오디오 장면(130)이 급작스럽게 변화될 때마다 더 신속한 응답을 요구하므로, 평활화의 강도를 결정하는 평활화 인자(512, 522)는 적응적으로 계산된다.
따라서, 대역별 에너지들 nrg는 다음의 수학식을 사용하여 모든 서브프레임들 k에서 컴퓨팅되며:
Figure pct00014
여기서, x는 DFT-변환된 신호(실수 및 허수)의 주파수 빈(bin)들이고, i는 현재 주파수 대역 b 내의 모든 빈들에 걸친 빈 인덱스이다.
시간에 걸친 에너지들의 변화를 포착하기 위해, 2개의 평균들, 즉 하나의 단기 평균(331) 및 하나의 장기 평균(332)이 도 3에 도시된 바와 같이 전송 신호(122)의 진폭-관련 측정(320)을 사용하여 계산된다.
도 6은 일 실시예에 따른, 평활화 인자(512)에 대한 전송 신호(122)를 평균하는 진폭-관련 측정(320)의 개략도를 예시한다. x-축은 시간을 표현하고, y-축은 (전송 신호(122)의) 에너지를 표현한다. 전송 신호(122)는 사이너스(sinus) 함수(122)의 개략적인 부분을 예시한다. 도 6에 도시된 바와 같이, 제2 시간 부분(631)은 제1 시간 부분(632)보다 짧다. 평균들(331 및 332)에 걸친 에너지들 변화는 다음의 수학식에 따라 각각의 대역 b에 대해 계산된다:
Figure pct00015
Figure pct00016
여기서, Nshort 및 Nlong은 개별 평균들이 계산되는 이전의 시간 서브프레임들 k의 수이다. 예를 들어, 이러한 특정 실시예에서, Nshort는 3의 값으로 세팅되고, Nlong은 10의 값으로 세팅된다.
더욱이, 파라미터 변환기 또는 파라미터 프로세서(110)는 장기 평균(332)과 단기 평균(331) 사이의 비율에 기초하여 계산(510)을 사용하여 평활화 인자(512, 522)를 계산하도록 구성된다. 다시 말하면, 2개의 평균들(331 및 332)의 몫이 계산되어, 에너지의 최근 증가를 표시하는 더 높은 단기 평균이 평활화의 감소를 유발한다. 다음의 수학식은 평활화 인자(512)와 2개의 평균들(331 및 312)의 상관을 보여준다.
Figure pct00017
감소하는 에너지를 표시하는 더 높은 장기 평균들(332)이 감소된 평활화를 유발하지 않는다는 사실로 인해, 평활화 인자(512)는 (현재로서는) 1의 최대치로 세팅된다. 그 결과, 위의 공식은
Figure pct00018
의 최소치를
Figure pct00019
(이러한 실시예에서는 0.3)으로 제한한다. 그러나, 극단적인 경우들에서는 인자가 0에 가까울 필요가 있는데, 이는 값이 다음의 수학식을 사용하여 범위
Figure pct00020
로부터 범위 [0;1]로 변환되기 때문이다:
Figure pct00021
일 실시예에서, 평활화는 이전에 예시된 평활화에 비해 과도하게 감소되어, 인자는 1의 값을 향해 루트(root) 함수로 압축된다. 안정성이 가장 낮은 대역들에서 특히 중요하므로, 제4 루트가 주파수 대역들 b=0 및 b=1에서 사용된다. 가장 낮은 대역들에 대한 수학식은 다음과 같다:
Figure pct00022
다른 모든 대역들 b>1에 대한 수학식은 다음의 수학식을 사용하여 제곱근 함수에 의해 압축을 수행한다.
Figure pct00023
다른 모든 대역들 b>1에 대해 제곱근 함수를 적용함으로써, 에너지가 기하급수적으로 증가할 수 있는 극단적인 경우들은 더 작아지는 반면, 에너지의 덜 급격한 증가는 그렇게 강하게 평활화를 감소시키지 않는다.
더욱이, 최대 평활화는 다음의 수학식에 대해 주파수 대역에 의존하여 세팅된다. 1의 인자는 현재 이득의 기여 없이 이전의 값을 단순히 반복할 것이라는 것을 유의한다.
Figure pct00024
여기서, bounds[b]는 다음의 표에 따라 세팅된 5개의 대역들에 대한 주어진 구현을 표현한다.
Figure pct00025
평활화 인자는 현재 프레임 내의 DFT 스테레오 서브프레임 k 각각에 대해 계산된다.
도 7은 재귀적 평활화(710)를 사용하는 일 실시예에 따른 파라미터 변환기(110)를 도시하며, 여기서 사이드 이득 파라미터 gside[k][b](455) 및 레지듀얼 예측 이득 파라미터 gpred[k][b](456) 둘 모두는 다음의 수학식들에 따라 재귀적으로 평활화된다:
Figure pct00026
Figure pct00027
제1 가중 값에 의해 가중된 선행 출력 시간 프레임(532)에 대한 파라미터와 제2 가중 값에 의해 가중된 현재 출력 시간 프레임(220)에 대한 원시 파라미터(252)를 결합함으로써, 현재 출력 시간 프레임에 대한 시간-후속 출력 시간 프레임들에 걸친 재귀적 평활화(710)가 계산된다. 다시 말하면, 현재 출력 시간 프레임에 대한 평활화된 파라미터는 제1 가중 값 및 제2 가중 값이 현재 시간 프레임에 대한 평활화 인자로부터 도출되도록 계산된다.
이들 맵핑되고 평활화된 파라미터들(gside, gpred)은 DFT 스테레오 프로세싱, 즉 출력 인터페이스(120)에 입력되며, 여기서 스테레오 신호(L/R)는 다운믹스 DMX, 레지듀얼 예측 신호 PRED 및 맵핑된 파라미터들 gside 및 gpred로부터 생성된다. 예를 들어, 다운믹스 DMX는 올패스-필터(allpass-filter)들을 사용하여 향상된 스테레오 충전에 의해 또는 지연을 사용하여 스테레오 충전에 의해 다운믹스로부터 획득된다.
업믹스는 다음의 수학식들에 의해 설명된다:
Figure pct00028
Figure pct00029
업믹스는 주파수 대역들 b 내의 모든 빈들 i에서의 각각의 서브프레임 k에 대해 프로세싱되며, 이는 이전에 나타낸 표에 설명된다. 부가적으로, 각각의 사이드 이득 gside는 다운믹스 DMX의 에너지들 및 위에서 명명된 바와 같은 레지듀얼 예측 이득 파라미터 PRED 또는 gpred[k][b]로부터 컴퓨팅된 에너지 정규화 인자 gnorm에 의해 가중된다.
맵핑되고 평활화된 사이드 이득(755) 및 맵핑되고 평활화된 레지듀얼 이득(756)은 평활화된 오디오 장면을 획득하기 위해 출력 인터페이스(120)에 입력된다. 따라서, 이전의 설명에 기초하여 평활화 파라미터를 사용하여, 인코딩된 오디오 장면을 프로세싱하는 것은 달성가능한 오디오 품질과 구현 노력 사이의 개선된 절충안을 초래한다.
도 8은 일 실시예에 따른, 전송 신호(122)를 디코딩하기 위한 장치를 도시한다. (인코딩된) 오디오 신호(816)는 출력 인터페이스(120)에 입력되는 (디코딩된 원시) 전송 신호(812)를 획득하기 위해 (코어 인코딩된) 오디오 신호(816)를 코어 디코딩하기 위해 전송 신호 코어 디코더(810)에 입력된다. 예를 들어, 전송 신호(122)는 전송 신호 코어 인코더(810)로부터 출력되는 인코딩된 전송 신호(812)일 수 있다. (디코딩된) 전송 신호(812)는 파라미터들의 제2 세트(114)를 포함하는 파라미터들의 세트(814)를 사용하여 2개 이상의 채널들의, 예를 들어 좌측 채널 및 우측 채널의 원시 표현(818)을 생성하도록 구성되는 출력 인터페이스(120)에 입력된다. 예를 들어, 전송 신호(122)를 획득하기 위해 코어 인코딩된 오디오 신호를 디코딩하기 위한 전송 신호 코어 디코더(810)는 ACELP 디코더이다. 더욱이, 코어 디코더(810)는 2개의 병렬 브랜치들, 즉 출력 인터페이스(120)를 포함하는 2개의 병렬 브랜치들 중 제1 브랜치 및 전송 신호 향상기(820) 또는 멀티채널 향상기(990) 또는 둘 모두를 포함하는 2개의 병렬 브랜치들 중 제2 브랜치에서, 디코딩된 원시 전송 신호(812)를 공급하도록 구성된다. 신호 결합기(940)는 제1 브랜치로부터 결합될 제1 입력 및 제2 브랜치로부터 결합될 제2 입력을 수신하도록 구성된다.
도 9에 도시된 바와 같이, 인코딩된 오디오 장면(130)을 프로세싱하기 위한 장치는 대역폭 확장 프로세서(910)를 사용할 수 있다. 저대역 전송 신호(901)는 전송 신호(972)의 2-채널 저대역 표현을 획득하기 위해 출력 인터페이스(120)에 입력된다. 출력 인터페이스(120)는, 예를 들어 업믹싱 프로세스(960) 동안 주파수 도메인(955)에서 전송 신호(901)를 프로세싱하고, 시간 도메인(966)에서 2-채널 전송 신호(901)를 변환한다는 것을 유의해야 한다. 이는, 주파수 도메인(955)을 표현하는 업믹싱된 스펙트럼 표현(962)을 시간 도메인으로 변환하여, 전송 신호(972)의 2-채널 저대역 표현을 획득하는 변환기(970)에 의해 행해진다.
도 8에 도시된 바와 같이, 단일 채널 저대역 전송 신호(901)는, 예를 들어 출력 시간 프레임(220)에 대응하는 전송 신호(901)의 시간 부분을 전송 신호(901)의 스펙트럼 표현(952)으로, 즉 시간-도메인(966)으로부터 주파수 도메인(955)으로 변환하는 것을 수행하는 변환기(950)에 입력된다. 예를 들어, 도 2에 설명된 바와 같이, (출력 시간 프레임의) 일부는 파라미터들의 제1 세트(112)의 파라미터들(252)이 조직화되는 입력 시간 프레임(210)보다 짧다.
스펙트럼 표현(952)은 주파수 도메인(955)에서 (여전히) 프로세싱되는 업믹싱된 스펙트럼 표현(962)을 획득하기 위해, 예를 들어 파라미터들의 제2 세트(114)를 사용하여 스펙트럼 표현(952)을 업믹싱하기 위해 업믹서(960)에 입력된다. 이전에 표시된 바와 같이, 업믹싱된 스펙트럼 표현(962)은 저대역 표현(972)을 획득하기 위해, 업믹싱된 스펙트럼 표현(962), 즉 2개 이상의 채널들의 각각의 채널을 주파수 도메인(955)으로부터 시간 도메인(966)(시간 표현)으로 변환하기 위해 변환기(970)에 입력된다. 따라서, 업믹싱된 스펙트럼 표현(962) 내의 2개 이상의 채널들이 계산된다. 바람직하게, 출력 인터페이스(120)는 복소 이산 푸리에 변환 도메인에서 동작하도록 구성되며, 여기서 업믹싱 동작은 복소 이산 푸리에 변환 도메인에서 수행된다. 복소 이산 푸리에 변환 도메인으로부터 다시 실수값(real-valued) 시간 도메인 표현으로의 변환은 변환기(970)를 사용하여 행해진다. 다시 말하면, 출력 인터페이스(120)는 제2 도메인, 즉 주파수 도메인(955)에서 업믹서(960)를 사용하여 2개 이상의 채널들의 원시 표현을 생성하도록 구성되며, 여기서 제1 도메인은 시간 도메인(966)을 표현한다.
일 실시예에서, 업믹서(960)의 업믹싱 동작은 다음의 수학식에 기초하며:
Figure pct00030
Figure pct00031
여기서,
Figure pct00032
는 프레임 t 및 주파수 빈 k에 대한 전송 신호(901)이고,
Figure pct00033
는 프레임 t 및 서브대역 b에 대한 사이드 이득 파라미터(455)이고,
Figure pct00034
는 프레임 t 및 서브대역 b에 대한 레지듀얼 예측 이득 파라미터(456)이고, gnorm은 존재할 수 있거나 존재하지 않을 수 있는 에너지 조정 인자이며,
Figure pct00035
는 프레임 t 및 주파수 빈 k에 대한 원시 레지듀얼 신호이다.
전송 신호(902, 122)는 저대역 전송 신호(901)와 대조적으로 시간 도메인(966)에서 프로세싱된다. 전송 신호(902)는 고대역 신호(912)를 생성하기 위해 대역폭 확장 프로세서(BWE 프로세서)(910)에 입력되고, 멀티채널 충전 동작을 적용하기 위해 멀티채널 필터(930)에 입력된다. 고대역 신호(912)는 파라미터들의 제2 세트(144), 즉 출력 시간 프레임(262, 532)의 파라미터를 사용하여 고대역 신호(912)를 업믹싱된 고대역 신호(922)로 업믹싱하기 위해 업믹서(920)에 입력된다. 예를 들어, 업믹서(920)는 파라미터들의 제2 세트(114)로부터의 적어도 하나의 파라미터를 사용하여 시간 도메인(966)에서의 브로드 밴드 패닝 프로세스를 고대역 신호(912)에 적용할 수 있다.
저대역 표현(972), 업믹싱된 고대역 신호(922) 및 멀티채널 충전된 전송 신호(932)는 시간 도메인(966)에서 브로드 밴드 패닝(922)의 결과, 스테레오 충전(932)의 결과 및 2개 이상의 채널들(972)의 저대역 표현을 결합하기 위해 신호 결합기(940)에 입력된다. 이러한 결합은 채널 표현으로서 시간 도메인(966)에서의 전체-대역 멀티채널 신호(942)를 초래한다. 이전에 서술된 바와 같이, 변환기(970)는 2개 이상의 채널들(972)의 원시 시간 표현을 획득하기 위해 스펙트럼 표현(962)의 2개 이상의 채널들의 각각의 채널을 시간 표현으로 변환한다. 따라서, 신호 결합기(940)는 2개 이상의 채널들의 원시 시간 표현과 2개 이상의 채널들의 향상 시간 표현을 결합한다.
일 실시예에서, 저대역(LB) 전송 신호(901)만이 출력 인터페이스(120)(DFT 스테레오) 프로세싱에서 입력되는 반면, 고대역(HB) 전송 신호(912)는 시간 도메인에서 별개로 (업믹서(920)를 사용하여) 업믹싱된다. 그러한 프로세스는 BWE 프로세서(910) 더하기 시간 도메인 스테레오 충전을 사용하는 패닝 동작에 대해, 앰비언스(ambience) 기여도를 생성하기 위하여 멀티채널 필러(filler)(930)를 사용하는 것을 통해 구현된다. 패닝 프로세스는 맵핑된 사이드 이득들, 예를 들어 프레임당 맵핑되고 평활화된 사이드 이득(755)에 기초하는 브로드-밴드 패닝을 포함한다. 여기서, 완전한 고대역 주파수 구역을 커버하는 프레임당 단일 이득만이 존재하며, 이는 각각의 서브프레임 k 내의 모든 샘플 i에 대한 다음의 수학식들에 기초하는 다운믹스 채널로부터의 좌측 및 우측 고대역 채널들의 계산을 단순화한다:
Figure pct00036
Figure pct00037
고대역 스테레오 충전 신호 PREDhb, 즉 멀티채널 충전된 전송 신호(932)는, 현재 시간 프레임 내의 모든 샘플 i에 대한(시간 서브프레임들(213 및 213)이 아니라 전체 시간 프레임(210)에 대해 행해짐) 다음의 수학식들에서 설명된 바와 같이, HBdmx를 지연시키고, 이를 gside,hb에 의해 가중하며, 부가적으로 에너지 정규화 인자 gnorm을 사용함으로써 획득된다:
Figure pct00038
Figure pct00039
d는, 멀티채널 필러(930)에 의해 획득된 충전 신호(932)를 생성하기 위해 고대역 다운믹스가 지연되게 하는 샘플들의 수이다. 지연하는 것과는 별개로 충전 신호를 생성하기 위한 다른 방식들, 예컨대 더 진보된 역상관 프로세싱 또는 전송 신호로부터 도출된 잡음 신호 또는 임의의 다른 신호의 사용이 지연과 비교하여 상이한 방식으로 수행될 수 있다.
패닝된 스테레오 신호(972 및 922) 및 생성된 스테레오 충전 신호(932) 둘 모두는 신호 결합기(940)를 사용하여 DFT 합성 이후 코어 신호에 결합(다시 믹싱)된다.
ACELP 고대역의 이러한 설명된 프로세스는 또한, ACELP 코어 및 TCX 프레임들이 ACELP 고대역과 정렬되기 위해 인위적으로 지연되는 더 높은-지연 DirAC 프로세싱과 대조적이다. 여기서, CLDFB(분석)는 전체 신호에 대해 수행되며, 이는 ACELP 고대역의 업믹스가 CLDFB 도메인(주파수 도메인)에서 또한 행해진다는 것을 의미한다.
도 10은 프로세싱된 오디오 장면(124)을 획득하기 위한 장치의 일 실시예를 도시한다. 전송 신호(122)는 2개 이상의 채널들의 향상 표현(992)을 생성하기 위해 파라미터들의 제2 세트(114) 및 멀티채널 향상기(990)를 사용하여 2개 이상의 채널들(972)의 원시 표현을 생성하기 위해 출력 인터페이스(120)에 입력된다. 예를 들어, 멀티채널 향상기(990)는 대역폭 확장 동작, 갭 충전 동작, 품질 향상 동작, 또는 보간 동작을 포함하는 동작들의 그룹 중 적어도 하나의 동작을 수행하도록 구성된다. 2개 이상의 채널들의 원시 표현(972) 및 2개 이상의 채널들의 향상 표현(992) 둘 모두는 프로세싱된 오디오 장면(124)을 획득하기 위해 신호 결합기(940)에 입력된다.
도 11은 전송 신호 향상기(820), 업믹서(830) 및 멀티채널 필러(930)를 포함하는, 2개 이상의 채널들의 향상 표현(992)을 생성하기 위한 멀티채널 향상기(990)의 일 실시예의 블록도를 도시한다. 전송 신호(122) 및/또는 디코딩된 원시 전송 신호(812)는 향상 전송 신호(822)를 생성하는 전송 신호 향상기(820)에 입력되며, 향상 전송 신호(822)는 업믹서(830) 및 멀티채널 필러(930)에 입력된다. 예를 들어, 전송 신호 향상기(820)는 대역폭 확장 동작, 갭 충전 동작, 품질 향상 동작, 또는 보간 동작을 포함하는 동작들의 그룹 중 적어도 하나의 동작을 수행하도록 구성된다.
도 9에서 보여지는 바와 같이, 멀티채널 필러(930)는 전송 신호(902) 및 적어도 하나의 파라미터(532)를 사용하여 멀티채널 충전된 전송 신호(932)를 생성한다. 다시 말하면, 멀티채널 향상기(990)는 향상 전송 신호(822) 및 파라미터들의 제2 세트(114)를 사용하여 또는 향상 전송 신호(822) 및 업믹싱된 향상 전송 신호(832)를 사용하여 2개 이상의 채널들(992)의 향상 표현을 생성하도록 구성된다. 예를 들어, 멀티채널 향상기(990)는 전송 신호(122) 또는 향상 전송 신호(933) 및 파라미터들의 제2 세트(532) 중 적어도 하나의 파라미터를 사용하여 2개 이상의 채널들의 향상 표현(992)을 생성하기 위해 업믹서(830) 또는 멀티채널 필러(930) 중 어느 하나 또는 업믹서(830) 또는 멀티채널 필러(930) 둘 모두를 포함한다. 일 실시예에서, 전송 신호 향상기(820) 또는 멀티채널 향상기(990)는 원시 표현(972)을 생성할 때 출력 인터페이스(120)와 병렬로 동작하도록 구성되거나 또는 파라미터 변환기(110)는 전송 신호 향상기(820)와 병렬로 동작하도록 구성된다.
도 13에서, 인코더로부터 디코더로 송신되는 비트스트림(1312)은 도 12에 도시된 DirAC-기반 업믹싱 방식에서와 동일할 수 있다. DirAC-기반 공간 다운믹싱 프로세스로부터 도출된 단일 전송 채널(1312)은 코어 디코더(1310)에 입력되고, 코어 디코더, 예를 들어 EVS 또는 IVAS 모노 디코더로 디코딩되며, 대응하는 DirAC 사이드 파라미터들(1313)과 함께 송신된다.
어떠한 여분의 지연 없이 오디오 장면을 프로세싱하기 위한 이러한 DFT 스테레오 접근법에서, 전송 채널의 모노 코어 디코더(IVAS 모노 디코더)에서의 초기 디코딩이 또한 변화되지 않게 유지된다. 도 12로부터의 CLDFB 필터뱅크(1220)를 통과하는 대신에, 디코딩된 다운믹스 신호(1314)는, 예컨대 매우 짧은 중첩을 갖는 윈도우들을 사용함으로써, 디코딩된 모노 신호(1314)를 STFT 도메인(주파수 도메인)으로 변환하기 위해 DFT 분석(1320)에 입력된다. 따라서, DFT 분석(1320)은 전체 지연과 코어 디코더의 MDCT 분석/합성에 의해 이미 야기된 것 사이의 나머지 헤드룸만을 사용하여 32 ms의 타깃팅된 시스템 지연에 대해 어떠한 부가적인 지연도 야기하지 않는다.
DirAC 사이드 파라미터들(1313) 또는 파라미터들의 제1 세트(112)는 파라미터 맵핑(1360)에 입력되며, 이는, 예를 들어 DFT 스테레오 사이드 파라미터들, 즉 파라미터들의 제2 세트(114)를 획득하기 위한 파라미터 변환기(110) 또는 파라미터 프로세서를 포함할 수 있다. 주파수 도메인 신호(1322) 및 DFT 사이드 파라미터들(1362)은, 예를 들어 도 9에 설명된 업믹서(960)를 사용함으로써 스테레오 업믹스 신호(1332)를 생성하기 위해 DFT 스테레오 디코더(1330)에 입력된다. 스테레오 업믹스(1332)의 2개 채널들은, 예를 들어 도 9에 설명된 변환기(970)를 사용하여 스테레오 업믹스(1332)를 주파수 도메인으로부터 시간 도메인으로 변환하기 위해 DFT 합성에 입력되어, 출력 신호(1342)를 초래하며, 이는 프로세싱된 오디오 장면(124)을 표현할 수 있다.
도 14는 대역폭 확장(1470)을 사용하여, 인코딩된 오디오 장면을 프로세싱하기 위한 일 실시예를 도시한다. 비트스트림(1412)은 디코딩된 저대역 신호(1414)를 생성하기 위해 도 13에 설명된 바와 같이 IVAS 모노 디코더 대신에 ACELP 코어 또는 저대역 디코더(1410)에 입력된다. 디코딩된 저대역 신호(1414)는 신호(1414)를 주파수 도메인 신호(1422), 예를 들어 도 9로부터의 전송 신호(901)의 스펙트럼 표현(952)으로 변환하기 위해 DFT 분석(1420)에 입력된다. DFT 스테레오 디코더(1430)는, 주파수 도메인의 디코딩된 저대역 신호(1442) 및 파라미터 맵핑(1460)으로부터의 DFT 스테레오 사이드 파라미터들(1462)을 사용하여 LB 스테레오 업믹스(1432)를 생성하는 업믹서(960)를 표현할 수 있다. 생성된 LB 스테레오 업믹스(1432)는, 예를 들어 도 9의 변환기(970)를 사용하여 시간 도메인으로의 변환을 수행하기 위해 DFT 합성 블록(1440)에 입력된다. 전송 신호(122)의 저대역 표현(972), 즉 DFT 합성 스테이지(1440)의 출력 신호(1442)는 업믹싱된 고대역 스테레오 신호(922) 및 멀티채널 충전된 고대역 전송 신호(932) 및 전송 신호(972)의 저대역 표현을 결합하는 신호 결합기(940)에 입력되어, 전체대역 멀티채널 신호(942)를 초래한다.
BWE(1470)에 대한 디코딩된 LB 신호(1414) 및 파라미터들(1415)은 디코딩된 고대역 신호(912)를 생성하기 위해 ACELP BWE 디코더(910)에 입력된다. 맵핑된 사이드 이득들(1462), 예를 들어 저대역 스펙트럼 구역에 대한 맵핑되고 평활화된 사이드 이득들(755)은 DFT 스테레오 블록(1430)에 입력되고, 전체 고대역에 대한 맵핑되고 평활화된 단일 사이드 이득은 고대역 업믹스 블록(920) 및 스테레오 충전 블록(930)에 포워딩된다. 파라미터들의 제2 세트(114)로부터의 출력 시간 프레임(262)의 파라미터들(532)과 같은 고대역 사이드 이득(1472)을 사용하여, 디코딩된 HB 신호(912)를 업믹싱하기 위한 HB 업믹스 블록(920)은 업믹싱된 고대역 신호(922)를 생성한다. 디코딩된 고대역 전송 신호(912, 902)를 충전하기 위한 스테레오 충전 블록(930)은 파라미터들의 제2 세트(114)로부터의 출력 시간 프레임(262)의 파라미터들(532, 456)을 사용하고, 고대역 충전된 전송 신호(932)를 생성한다.
결론적으로, 본 발명에 따른 실시예들은 파라미터 변환을 사용하여 그리고/또는 대역폭 확장을 사용하여 그리고/또는 파라미터 평활화를 사용하여, 인코딩된 오디오 장면을 프로세싱하기 위한 개념을 생성하며, 이는 전체 지연, 달성가능한 오디오 품질, 및 구현 노력 사이의 개선된 절충을 초래한다.
후속하여, 본 발명의 양상들 및 특히 본 발명의 양상들의 조합의 추가적인 실시예들이 예시된다. 낮은-지연 업믹스를 달성하기 위한 제안된 솔루션은 파라메트릭 스테레오 접근법, 예를 들어 DirAC 렌더러보다는 짧은-시간 푸리에 변환(STFT) 필터뱅크들을 사용하는 [4]에 설명된 접근법을 사용함으로써 이루어진다. 이러한 "DFT-스테레오" 접근법에서, 하나의 다운믹스 채널을 스테레오 출력으로 업믹싱하는 것이 설명된다. 이러한 방법의 장점은 EVS[3] 또는 다가올 IVAS 코덱(32 ms)과 같은 통신 코덱에 대해 필요한 훨씬 더 낮은 전체 지연 내에 머무르게 허용하는 디코더에서의 DFT 분석을 위해, 매우 짧은 중첩들을 갖는 윈도우들이 사용되는 것이다. 또한, DirAC CLDFB와 달리, DFT 스테레오 프로세싱은 코어 코더에 대한 포스트-프로세싱 단계가 아니라, 코어 프로세싱의 일부, 즉 대수 코드-종료 선형 예측(ACELP) 스피치 코더의 대역폭 확장(BWE)과 병렬로, 이러한 이미 주어진 지연을 초과하지 않으면서 구동된다. 따라서, EVS의 32 ms 지연과 관련하여, DFT 스테레오 프로세싱은 그것이 동일한 전체 코더 지연에서 동작하므로 지연이 없는 것으로 불릴 수 있다. 반면에, DirAC는 CLDFB가 전체 지연을 37 ms로 연장시키는 것으로 인해 부가적인 5 ms의 지연을 야기하는 포스트-프로세서로서 보여질 수 있다.
일반적으로, 지연 이득이 달성된다. 낮은-지연은 코어 프로세싱과 병렬로 발생하는 프로세싱 단계로부터 발생하는 반면, 예시적인 CLDFB 버전은 코어 코딩 이후 발생하는 필요한 렌더링을 행하기 위한 포스트 프로세싱 단계이다.
DirAC와 달리, DFT 스테레오는, 더 많은 지연을 야기하지 않으면서, 이용가능한 헤드룸에 맞춰지는 3.125 ms의 매우 짧은 중첩을 갖는 윈도우들을 사용하여 이들 컴포넌트들을 DFT 도메인으로 단지 변환함으로써, ACELP BWE를 제외한 모든 컴포넌트들에 대해 3.25 ms의 인공적인 지연을 이용한다. 따라서, BWE가 없는 TCX 및 ACELP만이 주파수 도메인에서 업믹싱되는 반면, ACELP BWE는 채널-간 대역폭 확장(Inter-Channel Bandwidth Extension; ICBWE)[5]으로 불리는 별개의 지연-없는 프로세싱 단계에 의해 시간 도메인에서 업믹싱된다. 주어진 실시예의 특별한 스테레오 출력의 경우, 이러한 시간-도메인 BWE 프로세싱은 약간 변경되며, 이는 실시예의 말미에서 설명될 것이다.
송신된 DirAC 파라미터들은 DFT 스테레오 업믹스에 대해 직접 사용될 수 없다. 따라서, 주어진 DirAC 파라미터들을 대응하는 DFT 스테레오 파라미터들에 맵핑하는 것이 필요하게 된다. DirAC가 확산 파라미터와 함께 공간 배치를 위해 방위각 및 고도 각도들을 사용하지만, DFT 스테레오는 패닝을 위해 사용되는 단일 사이드 이득 파라미터, 및 스테레오 폭에 그리고 그에 따라 DirAC의 확산 파라미터에 밀접하게 관련된 레지듀얼 예측 파라미터를 갖는다. 파라미터 분해능의 관점들에서, 각각의 프레임은 2개의 서브프레임들 및 서브프레임당 여러 개의 주파수 대역들로 분할된다. DFT 스테레오에서 사용되는 바와 같은 사이드 및 레지듀얼 이득은 [6]에 설명되어 있다.
DirAC 파라미터들은 원래 B-포맷 또는 FOA의 오디오 장면에 대한 대역별 분석으로부터 도출된다. 이어서, 그것은 각각의 대역 k 및 시간 인스턴트 n에 대해, 방위각 θ(b.n) 및 고도 φ(b,n)의 주된 도달 방향 및 확산 인자 ψ(b,n)를 도출한다. 지향성 컴포넌트들의 경우, 중앙 위치에서의 1차 구형 고조파는 무지향성 컴포넌트 w(b,n) 및 DirAC 파라미터들에 의해 도출될 수 있다고 주어진다:
Figure pct00040
게다가, FOA 채널들로부터, W 및 Y를 수반하는 디코딩에 의해 스테레오 버전을 얻는 것이 가능하며, 이는 방위각 각도들 +90도 및 -90도를 가리키는 2개의 카디오이드들을 유발한다.
Figure pct00041
이러한 디코딩은 2개의 방향들을 가리키는 1차 빔포밍에 대응한다.
Figure pct00042
결과적으로, 스테레오 출력과 DirAC 파라미터들 사이에 직접적인 링크가 존재한다. 반면에, DFT 파라미터들은 중간-신호 M 및 사이드 신호 S에 기초하는 L 및 R 채널들의 모델에 의존한다.
Figure pct00043
M은 SBA 모드의 경우 모노 신호로서 송신되고, 무지향성 채널 W에 대응한다. DFT 스테레오에서, S는 사이드 이득을 사용하여 M으로부터 예측되며, 이는 이어서, 다음과 같이 DirAC 파라미터들을 사용하여 표현될 수 있다:
Figure pct00044
DFT 스테레오에서, 예측의 레지듀얼이 가정되고, 비코히어런트인 것으로 예상되며, 그의 에너지 및 좌측 및 우측으로 진행하는 레지듀얼 신호들의 역상관에 의해 모델링된다. M을 이용한 S의 예측의 레지듀얼은 다음과 같이 표현될 수 있다:
Figure pct00045
그리고, 그의 에너지는 다음과 같이 예측 이득들을 사용하여 DFT 스테레오에서 모델링된다:
Figure pct00046
레지듀얼 이득이 스테레오 신호의 채널-간 비코히어런스 컴포넌트 및 공간 폭을 표현하므로, 그것은 DirAC에 의해 모델링된 확산 부분에 직접 링크된다. 따라서, 레지듀얼 에너지는 DirAC 확산 파라미터의 함수로서 개기입될 수 있다:
Figure pct00047
일반적으로 사용되는 DFT 스테레오의 대역 구성이 DirAC에 대한 것과 동일하지 않으므로, 그것은 DirAC 대역들과 동일한 주파수 범위들을 커버하도록 적응되어야 한다. 이어서, 이들 대역들의 경우, DirAC의 지향성 각도들은 다음을 통해 DFT 스테레오의 사이드 이득 파라미터에 맵핑될 수 있으며:
Figure pct00048
여기서, b는 현재 대역이고, 파라미터 범위들은 방위각의 경우 [0;360], 고도의 경우 [0;180], 및 결과적인 사이드 이득 값의 경우 [-1;1]이다. 그러나, DirAC의 지향성 파라미터들은 일반적으로, DFT 스테레오보다 더 높은 시간 분해능을 가지며, 이는 하나의 사이드 이득 값의 계산을 위해 2개 이상의 방위각 및 고도 값들이 사용되어야 한다는 것을 의미한다. 하나의 방식은 서브프레임들 사이에서 평균을 행하는 것일 것이지만, 이러한 구현에서, 계산은 에너지-의존 가중치들에 기초한다. 모든 K개의 DirAC 서브프레임들에 대해, 서브프레임의 에너지는 다음과 같이 계산되며:
Figure pct00049
여기서, x는 시간 도메인 입력 신호이고, N은 각각의 서브프레임 내의 샘플들의 수이고, i는 샘플 인덱스이다. 이어서, 각각의 DFT 스테레오 서브프레임 l에 대해, 가중치들은 l 내부의 각각의 DirAC 서브프레임 k의 기여도에 대해 다음과 같이 컴퓨팅될 수 있다:
Figure pct00050
이어서, 사이드 이득들은 궁극적으로 다음과 같이 컴퓨팅된다:
Figure pct00051
파라미터들 사이의 유사성으로 인해, 대역당 하나의 확산 값은 동일한 대역 내의 모든 서브프레임들의 레지듀얼 예측 파라미터에 직접 맵핑된다.
Figure pct00052
부가적으로, 이득들의 강한 변동들을 회피하기 위해 파라미터들이 시간에 걸쳐 평활화된다. 이것이 대부분의 시간에서 비교적 강한 평활화를 요구하지만, 장면이 급작스럽게 변화될 때마다 더 신속한 응답을 요구하므로, 평활화의 강도를 결정하는 평활화 인자는 적응적으로 계산된다. 이러한 적응형 평활화 인자는 현재 대역의 에너지들의 변화로부터 대역별로 계산된다. 따라서, 대역별 에너지들은 먼저 모든 서브프레임들 k에서 컴퓨팅되어야 하며:
Figure pct00053
여기서, x는 DFT-변환된 신호(실수 및 허수)의 주파수 빈들이고, i는 현재 대역 b 내의 모든 빈들에 걸친 빈 인덱스이다.
시간에 걸친 에너지들의 변화를 포착하기 위해,2개의 평균들, 즉 하나의 단기 및 하나의 장기 평균이 다음에 따라 각각의 대역 b에 대해 컴퓨팅된다:
Figure pct00054
Figure pct00055
여기서, Nshort 및 Nlong은 개별 평균들이 계산되는 이전의 서브프레임들 k의 수이다. 이러한 특정 구현에서, Nshort는 3으로 세팅되고, Nlong은 10으로 세팅된다. 이어서, 평활화 인자는 평균들의 몫으로부터 계산되어, 에너지의 최근 증가를 표시하는 더 높은 단기 평균이 평활화의 감소를 유발한다.
Figure pct00056
감소하는 에너지를 표시하는 더 높은 장기 평균들은 감소된 평활화를 유발하지 않아서, 평활화 인자는 현재 1의 최대치로 세팅된다.
위의 공식은
Figure pct00057
의 최소치를
Figure pct00058
(이러한 구현에서는 0.3)으로 제한한다. 그러나, 극단적인 경우들에서는 인자가 0에 가까울 필요가 있는데, 이는 값이 다음을 통해 범위
Figure pct00059
로부터 범위 [0;1]로 변환되기 때문이다:
Figure pct00060
덜 극단적인 경우들에 대해, 평활화는 이제 과도하게 감소되어, 인자는 루트 함수를 이용하여 값 1을 향해 압축된다. 안정성이 가장 낮은 대역들에서 특히 중요하므로, 제4 루트가 대역들 b=0 및 b=1에서 사용되는 반면:
Figure pct00061
다른 모든 대역들 b>1은 다음과 같은 제곱근에 의해 압축된다:
Figure pct00062
이런 방식으로, 극단적인 경우들은 0에 가깝게 유지되는 반면, 에너지의 덜 급격한 증가는 평활화를 그렇게 강하게 감소시키지 않는다.
마지막으로, 최대 평활화는 대역에 의존하여 세팅되며(1의 인자는 현재 이득의 기여 없이 이전의 값을 단순히 반복할 것임):
Figure pct00063
여기서, bounds[b]는 5개의 대역들에 대한 주어진 구현에서 다음 표에 따라 세팅된다:
Figure pct00064
평활화 인자는 현재 프레임 내의 각각의 DFT 스테레오 서브프레임 k에 대해 계산된다.
마지막 단계에서, 사이드 이득 및 레지듀얼 예측 이득 둘 모두는 다음에 따라 재귀적으로 평활화된다:
Figure pct00065
Figure pct00066
이들 맵핑되고 평활화된 파라미터들은 이제 DFT 스테레오 프로세싱으로 공급되며, 여기서 스테레오 신호 L/R은 다운믹스 DMX, 레지듀얼 예측 신호 PRED(올패스-필터들[7]을 사용하여 "향상된 스테레오 충전"에 의해 또는 지연을 사용하여 일반적인 스테레오 충전에 의해 다운믹스로부터 획득됨), 및 맵핑된 파라미터들 gside 및 gpred로부터 생성된다. 업믹스는 일반적으로, 대역 b 내의 모든 빈들 i에서의 각각의 서브프레임 k에 대해 다음 공식[6]에 의해 설명된다:
Figure pct00067
Figure pct00068
부가적으로, 각각의 사이드 이득 gside는 DMX 및 PRED의 에너지들로부터 컴퓨팅된 에너지 정규화 인자 gnorm에 의해 가중된다.
마지막으로, 업믹싱된 신호는 주어진 스테레오 셋업 상에서 재생되도록 IDFT를 통해 다시 시간 도메인으로 변환된다.
ACELP에서 사용되는 "시간 도메인 대역폭 확장"(TBE)[8]이 자체의 지연을 생성하므로(구현에서, 이러한 실시예는 정확히 2.3125 ms에 기초함), 그것은 32 ms의 전체 지연 내에 머무르는 동안 DFT 도메인으로 변환할 수 없다(여기서, STFT가 이미 3.125 ms를 사용하는 스테레오 디코더에 대해 3.25 ms가 남아음). 따라서, 저대역(LB)만이 도 14의 1450에 의해 표시된 DFT 스테레오 프로세싱에 투입되는 반면, 고대역(HB)은 도 14의 블록 920에 도시된 바와 같이 시간 도메인에서 별개로 업믹싱되어야 한다. 일반 DFT 스테레오에서, 이는 패닝을 위한 채널-간 대역폭 확장(ICBWE)[5] 더하기 앰비언스를 위한 시간 도메인 스테레오 충전을 통해 행해진다. 주어진 경우, 블록(930)의 스테레오 충전은 일반적인 DFT 스테레오에서와 동일한 방식으로 컴퓨팅된다. 그러나, ICBWE 프로세싱은 누락된 파라미터들로 인해 완전히 스킵되며, 맵핑된 사이드 이득들(1472)에 기초하여 블록(920)에서 브로드-밴드 패닝을 요구하는 낮은 리소스들로 대체된다. 주어진 실시예에서, 완전한 HB 구역을 커버하는 단일 이득만이 존재하며, 이는 각각의 서브프레임 k 내의 모든 샘플 i에 대해, 다운믹스 채널로부터의 좌측 및 우측 HB 채널들의 블록(920)에서의 계산을 다음으로 단순화한다:
Figure pct00069
Figure pct00070
HB 스테레오 충전 신호 PREDhb는 다음과 같이, (서브프레임들이 아니라 전체 프레임에 대해 행해지는) 현재 프레임 내의 모든 샘플 i에 대해, HBdmx를 지연시키고 gside,hb 및 에너지 정규화 인자 gnorm을 가중함으로써 블록(930)에서 획득되며:
Figure pct00071
Figure pct00072
여기서, d는, HB 다운믹스가 충전 신호에 대해 지연되게 하는 샘플들의 수이다.
패닝된 스테레오 신호 및 생성된 스테레오 충전 신호 둘 모두는 결국 결합기(940)에서 DFT 합성 이후 코어 신호에 다시 믹싱된다.
ACELP HB의 이러한 특별한 처리는 또한, ACELP 코어 및 TCX 프레임들이 ACELP HB와 정렬되기 위해 인위적으로 지연되는 더 높은-지연 DirAC 프로세싱과 대조적이다. 여기서, CLDFB는 전체 신호에 대해 수행되며, 즉 ACELP HB의 업믹스는 CLDFB 도메인에서 또한 행해진다.
제안된 방법의 장점들
어떠한 부가적인 지연도 IVAS 코덱이 스테레오 출력에 대한 SBA 입력의 특정 경우에 대해, EVS(32 ms)에서와 동일한 전체 지연 내에 머무르게 허용하지 않는다.
전반적으로 더 간단하고 더 직접적인 프로세싱으로 인해 공간 DirAC 렌더링보다 DFT를 통한 파라메트릭 스테레오 업믹스의 복잡성이 훨씬 더 낮아진다.
추가적인 바람직한 실시예들
1. 앞서 설명된 바와 같이 인코딩 또는 디코딩을 위한 장치, 방법 또는 컴퓨터 프로그램.
2. 인코딩 또는 디코딩을 위한 장치 또는 방법 또는 관련 컴퓨터 프로그램은 다음을 포함한다:
● 입력이 파라미터들의 제1 세트를 갖는 사운드 장면의 공간 오디오 표현에 기초한 모델로 인코딩되고, 2개의 출력 채널들에 대한 스테레오 모델 또는 파라미터들의 제2 세트를 갖는 2개 초과의 출력 채널들에 대한 멀티채널 모델로 출력에서 디코딩되는 시스템; 및/또는
● 스테레오 파라미터들에 대한 공간 파라미터들의 맵핑; 및/또는
● 하나의 주파수 도메인에 기초한 입력 표현/파라미터들로부터 다른 주파수 도메인에 기초한 출력 표현/파라미터들로의 변환; 및/또는
● 더 높은 시간 분해능을 갖는 파라미터들의 더 낮은 시간 분해능으로의 변환; 및/또는
● 제2 주파수 변환의 더 짧은 윈도우 중첩으로 인한 더 낮은 출력 지연; 및/또는
● SBA DirAC 인코딩된 콘텐츠를 스테레오로서 출력하기 위한 DFT 스테레오 파라미터들(사이드 이득, 레지듀얼 예측 이득)에 대한 DirAC 파라미터들(지향성 각도들, 확산)의 맵핑; 및/또는
● CLDFB 기반 입력 표현/파라미터들로부터 DFT 기반 출력 표현/파라미터들로의 변환; 및/또는
● 5 ms 분해능을 갖는 파라미터들의 10 ms를 갖는 파라미터들로의 변환; 및/또는
● 이점: CLDFB에 비해 DFT의 더 짧은 윈도우 중첩으로 인한 더 낮은 출력 지연.
이전에 논의된 바와 같은 모든 대안들 또는 양상들 및 다음의 청구항들 내의 독립 청구항들에 의해 정의된 바와 같은 모든 양상들이 개별적으로, 즉 고려된 대안, 오브젝트 또는 독립 청구항 이외의 임의의 다른 대안 또는 오브젝트 없이 사용될 수 있다는 것이 본 명세서에서 언급되어야 한다. 그러나, 다른 실시예들에서, 대안들 또는 양상들 또는 독립 청구항들 중 2개 이상은 서로 조합될 수 있고, 다른 실시예들에서, 모든 양상들, 또는 대안들 및 모든 독립 청구항들이 서로 조합될 수 있다.
본 발명의 상이한 양상들이 파라미터 변환 양상, 평활화 양상, 및 대역폭 확장 양상에 관한 것이라는 것이 서술될 것이다. 이들 양상들은 서로 별개로 또는 독립적으로 구현될 수 있거나, 또는 적어도 3개의 양상들 중 임의의 2개의 양상들이 조합될 수 있거나, 또는 모든 3개의 양상들이 위에서 설명된 바와 같이 일 실시예에서 조합될 수 있다.
본 발명의 인코딩된 신호는, 디지털 저장 매체 또는 비-일시적인 저장 매체 상에 저장될 수 있거나, 무선 송신 매체와 같은 송신 매체 또는 인터넷과 같은 유선 송신 매체 상에서 송신될 수 있다.
일부 양상들이 장치의 맥락에서 설명되었지만, 이들 양상들이 또한 대응하는 방법의 설명을 표현한다는 것은 명확하며, 여기서, 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다. 유사하게, 방법 단계의 맥락에서 설명된 양상들은 또한, 대응하는 장치의 대응하는 블록 또는 항목 또는 특징부의 설명을 표현한다.
특정한 구현 요건들에 의존하여, 본 발명의 실시예들은 하드웨어 또는 소프트웨어로 구현될 수 있다. 구현은, 각각의 방법이 수행되도록 프로그래밍가능한 컴퓨터 시스템과 협력하는(또는 협력할 수 있는), 전자적으로 판독가능한 제어 신호들이 저장된 디지털 저장 매체, 예를 들어, 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 FLASH 메모리를 사용하여 수행될 수 있다.
본 발명에 따른 일부 실시예들은, 본 명세서에 설명된 방법들 중 하나가 수행되도록, 프로그래밍가능한 컴퓨터 시스템과 협력할 수 있는, 전자적으로 판독가능한 제어 신호들을 갖는 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시예들은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 프로그램 코드는, 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때 방법들 중 하나를 수행하기 위해 동작된다. 프로그램 코드는, 예를 들어, 머신 판독가능 캐리어 상에 저장될 수 있다.
다른 실시예들은, 머신 판독가능 캐리어 또는 비-일시적인 저장 매체 상에 저장되는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
따라서, 다시 말하면, 본 발명의 방법의 일 실시예는, 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
따라서, 본 발명의 방법들의 추가적인 실시예는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램(데이터 캐리어 상에 레코딩되어 있음)을 포함하는 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터-판독가능 매체)이다.
따라서, 본 발명의 방법의 추가적인 실시예는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 표현하는 데이터 스트림 또는 신호들의 시퀀스이다. 데이터 스트림 또는 신호들의 시퀀스는, 예를 들어, 데이터 통신 연결을 통해, 예를 들어, 인터넷을 통해 전달되도록 구성될 수 있다.
추가적인 실시예는, 본 명세서에 설명된 방법들 중 하나를 수행하도록 구성 또는 적응되는 프로세싱 수단, 예를 들어, 컴퓨터, 또는 프로그래밍가능 로직 디바이스를 포함한다.
추가적인 실시예는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
일부 실시예들에서, 프로그래밍가능 로직 디바이스(예를 들어, 필드 프로그래밍가능 게이트 어레이)는, 본 명세서에 설명된 방법들의 기능들 중 일부 또는 모두를 수행하기 위해 사용될 수 있다. 일부 실시예들에서, 필드 프로그래밍가능 게이트 어레이는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게 임의의 하드웨어 장치에 의해 수행된다.
위에서 설명된 실시예들은 단지, 본 발명의 원리들에 대해 예시적일 뿐이다. 본 명세서에 설명된 배열들 및 세부사항들의 수정들 및 변경들이 당업자들에게는 명백할 것이라는 것이 이해된다. 따라서, 본 명세서의 실시예들의 설명 및 해설에 의해 제시된 특정 세부사항들이 아니라 임박한 특허 청구항들의 범위에 의해서만 제한되는 것이 의도된다.
참고문헌 또는 참조문헌
[1] V. Pulkki, M.-V. V. J. Laitinen, J. Ahonen, T. Lokki and T. Pihlajamaki, "Directional audio coding-perception - based reproduction of spatial sound," in INTERNATIONAL WORKSHOP ON THE PRINCIPLES AND APPLICATION ON SPATIAL HEARING, 2009.
[2] G. Fuchs, O. Thiergart, S. Korse, S. Dohla, M. Multrus, F. Kuch, Boutheon, A. Eichenseer and S. Bayer, "Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding using low-order, mid-order and high-order components generators". WO Patent 2020115311A1, 11 06 2020.
[3] 3GPP TS 26.445, Codec for Enhanced Voice Services (EVS); Detailed algorithmic description.
[4] S. Bayer, M. Dietz, S. Dohla, E. Fotopoulou, G. Fuchs, W. Jaegers, G. Markovic, M. Multrus, E. Ravelli and M. Schnell, "APPARATUS AND METHOD FOR ESTIMATING AN INTER-CHANNEL TIME DIFFERENCE". Patent WO17125563, 27 07 2017.
[5] V. S. C. S. Chebiyyam and V. Atti, "Inter-channel bandwidth extension". WO Patent 2018187082A1, 11 10 2018.
[6] J. Buthe, G. Fuchs, W. Jagers, F. Reutelhuber, J. Herre, E. Fotopoulou, M. Multrus and S. Korse, "Apparatus and method for encoding or decoding a multichannel signal using a side gain and a residual gain". WO Patent WO2018086947A1, 17 05 2018.
[7] J. Buthe, F. Reutelhuber, S. Disch, G. Fuchs, M. Multrus and R. Geiger, "Apparatus for Encoding or Decoding an Encoded Multichannel Signal Using a Filling Signal Generated by a Broad Band Filter". WO Patent WO2019020757A2, 31 01 2019.
[8] V. A. e. al., "Super-wideband bandwidth extension for speech in the 3GPP EVS codec," in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brisbane, 2015.

Claims (33)

  1. 음장을 표현하는 오디오 장면(130)을 프로세싱하기 위한 장치로서,
    상기 오디오 장면(130)은 전송 신호(122)에 대한 정보 및 파라미터들의 제1 세트(112)를 포함하며,
    상기 장치는,
    파라미터들의 제2 세트(114)를 획득하기 위해 파라미터들의 제1 세트(112)를 프로세싱하기 위한 파라미터 프로세서(110) - 상기 파라미터 프로세서(110)는,
    입력 시간 프레임(210)에 대한 상기 파라미터들의 제1 세트(112) 중 적어도 하나의 파라미터를 사용하여 각각의 출력 시간 프레임(220)에 대한 적어도 하나의 원시(raw) 파라미터(252)를 계산하고,
    평활화 규칙에 따라 각각의 원시 파라미터(252)에 대한 인자와 같은 평활화 정보(512; 522)를 계산하고,
    상기 출력 시간 프레임(220)에 대한 상기 파라미터들의 제2 세트(114) 중 일 파라미터를 도출하기 위해 대응하는 평활화 정보(512; 522)를 대응하는 원시 파라미터(252)에 적용하도록 구성됨 -; 및
    상기 파라미터들의 제2 세트(114) 및 상기 전송 신호(122)에 대한 정보를 사용하여, 프로세싱된 오디오 장면(124)을 생성하기 위한 출력 인터페이스(120)를 포함하는, 음장을 표현하는 오디오 장면을 프로세싱하기 위한 장치.
  2. 제1항에 있어서,
    상기 파라미터 프로세서(110)는,
    상기 전송 신호(122)의 제1 시간 부분의 진폭-관련 측정(320)에 걸쳐 장기 평균(332)을 계산하고,
    상기 전송 신호(122)의 제2 시간 부분의 진폭-관련 측정(320)에 걸쳐 단기 평균(331)을 계산하고 - 상기 제2 시간 부분은 상기 제1 시간 부분보다 짧음 -,
    상기 장기 평균(332)과 상기 단기 평균(331) 사이의 비율에 기초하여 상기 평활화 인자(512, 522)를 계산하도록
    구성되는, 음장을 표현하는 오디오 장면을 프로세싱하기 위한 장치.
  3. 제1항 또는 제2항에 있어서,
    상기 파라미터 프로세서(110)는 압축 함수(540)를 사용하여 대역에 대해 상기 평활화 인자(512; 522)를 계산하도록 구성되고, 상기 압축 함수는 상이한 주파수 대역들에 대해 상이하며, 상기 압축 함수의 압축 강도는 더 높은 주파수 대역보다 더 낮은 주파수 대역에 대해 더 강한, 음장을 표현하는 오디오 장면을 프로세싱하기 위한 장치.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 파라미터 프로세서(110)는 상이한 대역들에 대해 상이한 최대 한계(bound)들을 사용하여 상기 평활화 인자(512; 522)를 계산하도록 구성되며, 상기 상이한 대역들의 더 낮은 대역에 대한 최대 한계는 상기 상이한 대역들의 더 높은 대역에 대한 최대 한계보다 높은, 음장을 표현하는 오디오 장면을 프로세싱하기 위한 장치.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 파라미터 프로세서(110)는, 시간-후속 출력 시간 프레임들에 걸쳐 재귀적 평활화 규칙(710)을 상기 평활화 규칙으로서 적용하여, 현재 출력 시간 프레임(220)에 대한 평활화된 파라미터가 제1 가중 값에 의해 가중된 선행 출력 시간 프레임(220)에 대한 파라미터와 제2 가중 값에 의해 가중된 상기 현재 출력 시간 프레임(220)에 대한 원시 파라미터(252)를 결합함으로써 계산되도록 구성되며, 상기 제1 가중 값 및 상기 제2 가중 값은 현재 시간 프레임에 대한 평활화 인자(512, 522)로부터 도출되는, 음장을 표현하는 오디오 장면을 프로세싱하기 위한 장치.
  6. 제1항에 있어서,
    상기 출력 인터페이스(120)는 상기 파라미터들의 제2 세트(114)를 사용하여 상기 전송 신호(122)를 2개 이상의 채널들을 포함하는 업믹스 신호로 업믹싱하도록 구성되는, 음장을 표현하는 오디오 장면을 프로세싱하기 위한 장치.
  7. 제1항에 있어서,
    상기 출력 인터페이스(120)는 트랜스코딩된 오디오 장면을 상기 프로세싱된 오디오 장면(124)으로서 획득하기 위해 상기 전송 신호(122) 또는 상기 전송 신호(122)에 대한 정보와 상기 파라미터들의 제2 세트(114)를 결합함으로써 상기 프로세싱된 오디오 장면(124)을 생성하도록 구성되는, 음장을 표현하는 오디오 장면을 프로세싱하기 위한 장치.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 파라미터들의 제1 세트(112)는 복수의 입력 시간 프레임들의 각각의 입력 시간 프레임(210)에 대해 그리고 복수의 입력 주파수 대역들(230)의 각각의 입력 주파수 대역(231)에 대해, 가상 청취자 위치에 관련된 파라미터, 예컨대 적어도 하나의 DirAC 파라미터를 포함하고,
    상기 파라미터 프로세서(110)는 2개 이상의 채널들에 대한 미리 정의된 공간 위치들에서의 재생을 위해 상기 2개 이상의 채널들을 포함하는 채널 표현에 관련된 파라미터들, 예컨대 파라메트릭 스테레오 또는 멀티채널 파라미터들로서 상기 파라미터들의 제2 세트(114)를 계산하도록 구성되는, 음장을 표현하는 오디오 장면을 프로세싱하기 위한 장치.
  9. 제8항에 있어서,
    상기 적어도 하나의 파라미터는 도달 방향 파라미터, 확산 파라미터, 구의 원점으로서 가상 청취 위치를 갖는 상기 구에 관련된 방향 정보 파라미터, 및 거리 파라미터 중 적어도 하나를 포함하며,
    상기 파라메트릭 스테레오 또는 멀티채널 파라미터들은 사이드(side) 이득 파라미터(455), 레지듀얼(residual) 예측 이득 파라미터(456), 채널-간 레벨 차이 파라미터, 채널-간 시간 차이 파라미터, 채널-간 위상 차이 파라미터 및 채널-간 코히어런스(coherence) 파라미터 중 적어도 하나를 포함하는, 음장을 표현하는 오디오 장면을 프로세싱하기 위한 장치.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서,
    상기 파라미터들의 제1 세트(112)가 관련된 입력 시간 프레임(210)은 2개 이상의 입력 시간 서브프레임들을 포함하고, 상기 파라미터들의 제2 세트(114)가 관련된 출력 시간 프레임(220)은 상기 입력 시간 프레임(210)보다 작고, 상기 2개 이상의 입력 시간 서브프레임들 중 일 입력 시간 서브프레임보다 길며,
    상기 파라미터 프로세서(110)는, 시간-후속하는 상기 2개 이상의 입력 시간 서브프레임들의 각각의 입력 시간 서브프레임에 대해 상기 파라미터들의 제2 세트(114) 중 원시 파라미터(252)를 계산하고, 출력 서브프레임에 관련된 상기 파라미터들의 제2 세트(114) 중 일 파라미터를 도출하기 위해 적어도 2개의 원시 파라미터들(252)을 결합하도록 구성되는, 음장을 표현하는 오디오 장면을 프로세싱하기 위한 장치.
  11. 제10항에 있어서,
    상기 파라미터 프로세서(110)는 상기 적어도 2개의 원시 파라미터들의 가중된 결합을 수행하도록 구성되며, 상기 가중된 결합에 대한 가중 인자들은 대응하는 입력 시간 서브프레임에서 상기 전송 신호(122)의 진폭-관련 측정(320)에 기초하여 도출되는, 음장을 표현하는 오디오 장면을 프로세싱하기 위한 장치.
  12. 제11항에 있어서,
    상기 파라미터 프로세서(110)는 상기 진폭-관련 측정(320)으로서 에너지 또는 전력을 사용하도록 구성되며,
    입력 서브프레임에 대한 가중 인자는, 상기 대응하는 입력 시간 서브프레임에서의 상기 전송 신호(122)의 더 낮은 에너지 또는 전력을 갖는 입력 서브프레임에 대한 가중 인자에 비해 상기 대응하는 입력 시간 서브프레임에서의 상기 전송 신호(122)의 더 높은 에너지 또는 전력의 경우 더 큰, 음장을 표현하는 오디오 장면을 프로세싱하기 위한 장치.
  13. 제1항 내지 제12항 중 어느 한 항에 있어서, 상기 파라미터 프로세서(110)는 시간에 걸쳐 원시 파라미터들(252)을 평활화하여, 비교적 강한 평활화가 상기 오디오 장면(130)의 제1 시간 부분에서 획득되고, 비교적 약한 평활화가 상기 오디오 장면(130)의 제2 시간 부분에서 획득되도록 구성되고, 상기 오디오 장면(130)은 상기 오디오 장면(130)의 제1 시간 부분에서보다 상기 오디오 장면(130)의 제2 시간 부분에서 더 급속하게 변화되고, 상기 평활화 계수(512; 522)는 개개의 대역에서의 에너지들의 변화에 의존하여 대역별로 계산되는, 음장을 표현하는 오디오 장면을 프로세싱하기 위한 장치.
  14. 제1항 내지 제13항 중 어느 한 항에 있어서,
    상기 출력 인터페이스(120)는,
    출력 시간 프레임(220)에 대응하는 상기 전송 신호(122)의 시간 부분의 스펙트럼 표현으로의 변환을 수행하고 - 상기 부분은 입력 시간 프레임(210)보다 짧고, 상기 파라미터들의 제1 세트(112)의 파라미터들은 조직화됨 -,
    상기 스펙트럼 표현에서 상기 2개 이상의 채널들을 획득하기 위해 상기 파라미터들의 제2 세트(114)를 사용하여 상기 스펙트럼 표현의 업믹싱 동작을 수행하고;
    상기 스펙트럼 표현에서의 상기 2개 이상의 채널들의 각각의 채널을 시간 표현으로 변환하도록
    구성되는, 음장을 표현하는 오디오 장면을 프로세싱하기 위한 장치.
  15. 제14항에 있어서,
    상기 출력 인터페이스(120)는,
    복소 이산 푸리에 변환 도메인으로 변환하고,
    상기 복소 이산 푸리에 변환 도메인에서 상기 업믹싱 동작을 수행하고,
    상기 복소 이산 푸리에 변환 도메인으로부터 실수값(real-valued) 시간 도메인 표현으로의 변환을 수행하도록
    구성되는, 음장을 표현하는 오디오 장면을 프로세싱하기 위한 장치.
  16. 제14항 또는 제15항에 있어서,
    상기 출력 인터페이스(120)는 다음의 수학식에 기초하여 상기 업믹싱 동작을 수행하도록 구성되며,
    Figure pct00073


    Figure pct00074

    Figure pct00075
    는 프레임 t 및 주파수 빈 k에 대한 전송 신호(122)이고,
    Figure pct00076
    는 상기 프레임 t 및 서브대역 b에 대한 사이드 이득이고,
    Figure pct00077
    는 상기 프레임 t 및 상기 서브대역 b에 대한 레지듀얼 예측 이득이고, gnorm은 존재할 수 있거나 존재하지 않을 수 있는 에너지 조정 인자이고,
    Figure pct00078
    는 상기 프레임 t 및 상기 주파수 빈 k에 대한 원시 레지듀얼 신호인, 음장을 표현하는 오디오 장면을 프로세싱하기 위한 장치.
  17. 제1항 내지 제16항 중 어느 한 항에 있어서,
    상기 파라미터들의 제1 세트(122)는 입력 주파수 대역(231)에 대한 도달 방향 파라미터이고, 상기 파라미터들의 제2 세트(114)는 입력 주파수 대역(231)당 사이드 이득 파라미터(455)를 포함하고,
    상기 파라미터 프로세서(110)는 다음의 수학식을 사용하여 출력 주파수 대역(241)에 대한 사이드 파라미터를 계산하도록 구성되며,
    Figure pct00079

    b는 상기 출력 주파수 대역(241)이고, sidegain은 상기 사이드 이득 파라미터(455)이고, azimuth는 상기 도달 방향 파라미터의 방위각 컴포넌트이고, elevation은 상기 도달 방향 파라미터의 고도 컴포넌트인, 음장을 표현하는 오디오 장면을 프로세싱하기 위한 장치.
  18. 제17항에 있어서,
    상기 파라미터들의 제1 세트(112)는 상기 입력 주파수 대역(231)에 대한 확산 파라미터를 부가적으로 포함하고, 상기 파라미터 프로세서(110)는 다음의 수학식을 사용하여 상기 출력 주파수 대역(241)에 대한 상기 사이드 파라미터를 계산하도록 구성되며,
    Figure pct00080

    diff(b)는 상기 입력 주파수 대역(230)b에 대한 확산 파라미터인, 음장을 표현하는 오디오 장면을 프로세싱하기 위한 장치.
  19. 제1항 내지 제18항 중 어느 한 항에 있어서,
    상기 파라미터들의 제1 세트(112)는 입력 주파수 대역(231)당 확산 파라미터를 포함하고,
    상기 파라미터들의 제2 세트(114)는 출력 주파수 대역(241)에 대한 레지듀얼 예측 파라미터(456)를 포함하며,
    상기 파라미터 프로세서(110)는, 입력 파라미터 대역 및 출력 파라미터 대역이 서로 동일할 때, 상기 입력 파라미터 대역으로부터의 확산 파라미터를 상기 출력 파라미터 대역에 대한 레지듀얼 예측 파라미터(456)로서 사용하거나, 또는 상기 입력 파라미터 대역에 대한 확산 파라미터로부터 상기 출력 파라미터 대역에 대한 확산 파라미터를 도출하고, 이어서, 상기 출력 파라미터 대역에 대한 확산 파라미터를 상기 출력 파라미터 대역에 대한 레지듀얼 예측 파라미터(456)로서 사용하는, 음장을 표현하는 오디오 장면을 프로세싱하기 위한 장치.
  20. 제14항 내지 제19항 중 어느 한 항에 있어서,
    상기 전송 신호(122)에 대한 정보는 코어 인코딩된 오디오 신호를 포함하며,
    상기 장치는, 상기 전송 신호(122)를 획득하기 위해 상기 코어 인코딩된 오디오 신호를 코어 디코딩하기 위한 코어 디코더를 더 포함하는, 음장을 표현하는 오디오 장면을 프로세싱하기 위한 장치.
  21. 제20항에 있어서,
    상기 코어 디코더는 ACELP 디코더에 있거나, 또는
    상기 출력 인터페이스(120)는 저대역 신호인 상기 전송 신호(122)를 스펙트럼 표현으로 변환하고, 상기 스펙트럼 표현을 업믹싱하고, 시간 도메인에서 업믹싱된 스펙트럼 표현을 변환하여, 상기 2개 이상의 채널들의 저대역 표현을 획득하도록 구성되고,
    상기 장치는 상기 시간 도메인에서 상기 전송 신호(122)로부터 고대역 신호를 생성하기 위한 대역폭 확장 프로세서(910)를 포함하고,
    상기 장치는 상기 시간 도메인에서 상기 전송 신호(122)에 멀티채널 충전 동작을 적용하기 위한 멀티채널 필러(filler)(930)를 포함하고,
    상기 장치는 상기 파라미터들의 제2 세트(114)로부터의 적어도 하나의 파라미터를 사용하여 상기 시간 도메인에서의 브로드 밴드 패닝(broad band panning)을 상기 고대역 신호에 적용하기 위한 업믹서(920)를 포함하고, 그리고,
    상기 장치는 상기 시간 도메인에서의 전체 대역 멀티채널 신호를 상기 채널 표현으로서 획득하기 위해, 상기 시간 도메인에서, 상기 브로드 밴드 패닝의 결과, 스테레오 충전의 결과, 및 상기 2개 이상의 채널들의 저대역 표현을 결합하기 위한 신호 결합기(940)를 포함하는, 음장을 표현하는 오디오 장면을 프로세싱하기 위한 장치.
  22. 제1항 내지 제21항 중 어느 한 항에 있어서,
    상기 출력 인터페이스(120)는 상기 파라미터들의 제2 세트(114) 및 상기 전송 신호(122)를 사용하여 상기 2개 이상의 채널들의 원시 표현을 생성하도록 구성되고,
    상기 장치는 상기 전송 신호(122)를 사용하여 상기 2개 이상의 채널들의 향상 표현을 생성하기 위한 멀티채널 향상기(990)를 더 포함하며,
    상기 장치는, 상기 프로세싱된 오디오 장면(124)을 획득하기 위해 상기 2개 이상의 채널들의 상기 원시 표현과 상기 2개 이상의 채널들의 상기 향상 표현을 결합하기 위한 신호 결합기(940)를 더 포함하는, 음장을 표현하는 오디오 장면을 프로세싱하기 위한 장치.
  23. 제22항에 있어서,
    상기 멀티채널 향상기(990)는 향상 전송 신호(822) 및 상기 파라미터들의 제2 세트(114)를 사용하여 상기 2개 이상의 채널들의 향상 표현(992)을 생성하도록 구성되거나, 또는
    상기 멀티채널 향상기(990)는 상기 향상 전송 신호(822)를 생성하기 위한 전송 신호 향상기(820) 및 상기 향상 전송 신호(822)를 업믹싱하기 위한 업믹서를 포함하는, 음장을 표현하는 오디오 장면을 프로세싱하기 위한 장치.
  24. 제23항에 있어서,
    상기 전송 신호(122)는 인코딩된 전송 신호이며,
    상기 장치는, 디코딩된 원시 전송 신호를 생성하기 위한 전송 신호 코어 디코더(810)를 더 포함하고,
    상기 전송 신호 향상기(820)는 상기 디코딩된 원시 전송 신호를 사용하여 상기 향상 전송 신호를 생성하도록 구성되고,
    상기 출력 인터페이스(120)는 상기 파라미터들의 제2 세트(114) 및 상기 디코딩된 원시 전송 신호를 사용하여 상기 2개 이상의 채널들의 상기 원시 표현을 생성하도록 구성되는, 음장을 표현하는 오디오 장면을 프로세싱하기 위한 장치.
  25. 제22항 또는 제23항 또는 제24항에 있어서,
    상기 멀티채널 향상기(990)는 상기 전송 신호(122) 또는 상기 향상 전송 신호(822) 및 상기 파라미터들의 제2 세트(114) 중 적어도 하나의 파라미터를 사용하여 상기 2개 이상의 채널들의 향상 표현을 생성하기 위해 상기 업믹서 또는 상기 멀티채널 필러(930) 중 어느 하나 또는 상기 업믹서 또는 상기 멀티채널 필러(930) 둘 모두를 포함하는, 음장을 표현하는 오디오 장면을 프로세싱하기 위한 장치.
  26. 제22항, 제23항, 제24항, 또는 제25항 중 어느 한 항에 있어서,
    상기 출력 인터페이스(120)는 제2 도메인에서 업믹스를 사용하여 상기 2개 이상의 채널들의 상기 원시 표현을 생성하도록 구성되고,
    상기 전송 신호 향상기(820)는 상기 제2 도메인과 상이한 제1 도메인에서 상기 향상 전송 신호(822)를 생성하도록 구성되거나, 또는 상기 멀티채널 향상기(990)는 상기 제1 도메인에서 상기 향상 전송 신호(822)를 사용하여 상기 2개 이상의 채널들의 상기 향상 표현을 생성하도록 구성되며,
    상기 신호 결합기(940)는 상기 제1 도메인에서 상기 2개 이상의 채널들의 상기 원시 표현과 상기 2개 이상의 채널들의 상기 향상 표현을 결합하도록 구성되는, 음장을 표현하는 오디오 장면을 프로세싱하기 위한 장치.
  27. 제26항에 있어서,
    상기 제1 도메인은 시간 도메인이고, 상기 제2 도메인은 스펙트럼 도메인인, 음장을 표현하는 오디오 장면을 프로세싱하기 위한 장치.
  28. 제22항 내지 제27항 중 어느 한 항에 있어서,
    상기 전송 신호 향상기(820) 또는 상기 멀티채널 향상기(990)는 대역폭 확장 동작, 갭 충전 동작, 품질 향상 동작, 또는 보간 동작을 포함하는 동작들의 그룹 중 적어도 하나의 동작을 수행하도록 구성되는, 음장을 표현하는 오디오 장면을 프로세싱하기 위한 장치.
  29. 제22항 내지 제28항 중 어느 한 항에 있어서,
    상기 전송 신호 향상기(820) 또는 상기 멀티채널 향상기(990)는 상기 원시 표현을 생성할 때 상기 출력 인터페이스(120)와 병렬로 동작하도록 구성되거나, 또는
    상기 파라미터 프로세서(110)는 상기 전송 신호 향상기(820)와 병렬로 동작하도록 구성되는, 음장을 표현하는 오디오 장면을 프로세싱하기 위한 장치.
  30. 제24항 내지 제29항 중 어느 한 항에 있어서,
    상기 코어 디코더는 2개의 병렬 브랜치들에서 상기 디코딩된 원시 전송 신호를 공급하도록 구성되고, 상기 2개의 병렬 브랜치들 중 제1 브랜치는 상기 출력 인터페이스(120)를 포함하고, 상기 2개의 병렬 브랜치들 중 제2 브랜치는 상기 전송 신호 향상기(820) 또는 상기 멀티채널 향상기(990) 또는 둘 모두를 포함하며, 상기 신호 결합기(940)는 상기 제1 브랜치로부터 결합될 제1 입력 및 상기 제2 브랜치로부터 결합될 제2 입력을 수신하도록 구성되는, 음장을 표현하는 오디오 장면을 프로세싱하기 위한 장치.
  31. 제1항 내지 제30항 중 어느 한 항에 있어서,
    상기 출력 인터페이스(120)는,
    출력 시간 프레임(220)에 대응하는 상기 전송 신호(122)의 시간 부분의 스펙트럼 표현으로의 변환을 수행하고,
    상기 스펙트럼 표현에서 상기 2개 이상의 채널들을 획득하기 위해 상기 파라미터들의 제2 세트(114)를 사용하여 상기 스펙트럼 표현의 업믹싱 동작을 수행하고;
    상기 2개 이상의 채널들의 원시 시간 표현을 획득하기 위해 상기 스펙트럼 표현의 상기 2개 이상의 채널들의 각각의 채널을 시간 표현으로 변환하도록
    구성되며,
    상기 신호 결합기(940)는 상기 2개 이상의 채널들의 상기 원시 시간 표현과 상기 2개 이상의 채널들의 향상 시간 표현을 결합하도록 구성되는, 음장을 표현하는 오디오 장면을 프로세싱하기 위한 장치.
  32. 음장을 표현하는 오디오 장면을 프로세싱하는 방법으로서,
    상기 오디오 장면은 전송 신호에 대한 정보 및 파라미터들의 제1 세트를 포함하며,
    상기 방법은,
    파라미터들의 제2 세트를 획득하기 위해 상기 파라미터들의 제1 세트를 프로세싱하는 단계 - 상기 프로세싱하는 단계는,
    입력 시간 프레임에 대한 상기 파라미터들의 제1 세트 중 적어도 하나의 파라미터를 사용하여 각각의 출력 시간 프레임에 대한 적어도 하나의 원시 파라미터를 계산하는 단계,
    평활화 규칙에 따라 각각의 원시 파라미터에 대한 인자와 같은 평활화 정보를 계산하는 단계, 및
    상기 출력 시간 프레임에 대한 상기 파라미터들의 제2 세트 중 일 파라미터를 도출하기 위해 대응하는 평활화 정보를 대응하는 원시 파라미터에 적용하는 단계를 포함함 -; 및
    상기 파라미터들의 제2 세트 및 상기 전송 신호에 대한 정보를 사용하여, 프로세싱된 오디오 장면을 생성하는 단계를 포함하는, 음장을 표현하는 오디오 장면을 프로세싱하는 방법.
  33. 컴퓨터 또는 프로세서 상에서 실행될 때, 제32항의 방법을 수행하기 위한, 컴퓨터 프로그램.
KR1020237015446A 2020-10-09 2021-10-08 파라미터 평활화를 사용하여, 인코딩된 오디오 장면을 프로세싱하기 위한 장치, 방법, 또는 컴퓨터 프로그램 KR20230084246A (ko)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
EP20201093.0 2020-10-09
EP20201093 2020-10-09
EP20207520.6 2020-11-13
EP20207520 2020-11-13
EP21180873 2021-06-22
EP21180873.8 2021-06-22
PCT/EP2021/077874 WO2022074202A2 (en) 2020-10-09 2021-10-08 Apparatus, method, or computer program for processing an encoded audio scene using a parameter smoothing

Publications (1)

Publication Number Publication Date
KR20230084246A true KR20230084246A (ko) 2023-06-12

Family

ID=78085946

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237015446A KR20230084246A (ko) 2020-10-09 2021-10-08 파라미터 평활화를 사용하여, 인코딩된 오디오 장면을 프로세싱하기 위한 장치, 방법, 또는 컴퓨터 프로그램

Country Status (12)

Country Link
US (1) US20230238005A1 (ko)
EP (1) EP4226367A2 (ko)
JP (1) JP2023549033A (ko)
KR (1) KR20230084246A (ko)
CN (1) CN116438598A (ko)
AU (1) AU2021357364A1 (ko)
BR (1) BR112023006087A2 (ko)
CA (1) CA3194878A1 (ko)
MX (1) MX2023003963A (ko)
TW (1) TWI805019B (ko)
WO (1) WO2022074202A2 (ko)
ZA (1) ZA202304045B (ko)

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1192358C (zh) * 1997-12-08 2005-03-09 三菱电机株式会社 声音信号加工方法和声音信号加工装置
ATE521143T1 (de) * 2005-02-23 2011-09-15 Ericsson Telefon Ab L M Adaptive bitzuweisung für die mehrkanal- audiokodierung
US7983922B2 (en) * 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
WO2006116024A2 (en) * 2005-04-22 2006-11-02 Qualcomm Incorporated Systems, methods, and apparatus for gain factor attenuation
ES2511390T3 (es) * 2009-04-08 2014-10-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato, procedimiento y programa de computación para mezclar en forma ascendente una señal de audio con mezcla descendente utilizando una suavización de valor de fase
CN101958121A (zh) * 2009-12-15 2011-01-26 铜陵市维新投资咨询有限公司 一种语音数据压缩方法
EP2346028A1 (en) * 2009-12-17 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
MY196436A (en) 2016-01-22 2023-04-11 Fraunhofer Ges Forschung Apparatus and Method for Encoding or Decoding a Multi-Channel Signal Using Frame Control Synchronization
CN105931649A (zh) * 2016-03-31 2016-09-07 欧仕达听力科技(厦门)有限公司 基于频谱分析的超低时延音频处理方法与系统
US10433076B2 (en) * 2016-05-30 2019-10-01 Oticon A/S Audio processing device and a method for estimating a signal-to-noise-ratio of a sound signal
PT3539125T (pt) 2016-11-08 2023-01-27 Fraunhofer Ges Forschung Aparelho e método para codificar ou descodificar um sinal multicanal utilizando um ganho side e um ganho residual
CN117612542A (zh) 2017-07-28 2024-02-27 弗劳恩霍夫应用研究促进协会 用于使用宽频带滤波器生成的填充信号对已编码的多声道信号进行编码或解码的装置
GB2571949A (en) * 2018-03-13 2019-09-18 Nokia Technologies Oy Temporal spatial audio parameter smoothing
CA3122168C (en) 2018-12-07 2023-10-03 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding using direct component compensation

Also Published As

Publication number Publication date
MX2023003963A (es) 2023-05-25
WO2022074202A3 (en) 2022-05-19
EP4226367A2 (en) 2023-08-16
TWI805019B (zh) 2023-06-11
US20230238005A1 (en) 2023-07-27
AU2021357364A1 (en) 2023-05-18
CA3194878A1 (en) 2022-04-14
JP2023549033A (ja) 2023-11-22
WO2022074202A2 (en) 2022-04-14
BR112023006087A2 (pt) 2023-05-09
TW202230335A (zh) 2022-08-01
ZA202304045B (en) 2023-11-29
CN116438598A (zh) 2023-07-14

Similar Documents

Publication Publication Date Title
US10861468B2 (en) Apparatus and method for encoding or decoding a multi-channel signal using a broadband alignment parameter and a plurality of narrowband alignment parameters
US9129593B2 (en) Multi channel audio processing
JP7401625B2 (ja) 広帯域フィルタによって生成される補充信号を使用して、エンコードされたマルチチャネル信号をエンコードまたはデコードするための装置
CN112074902B (zh) 使用混合编码器/解码器空间分析的音频场景编码器、音频场景解码器及相关方法
US11937075B2 (en) Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to DirAC based spatial audio coding using low-order, mid-order and high-order components generators
AU2018256414A1 (en) Non-harmonic speech detection and bandwidth extension in a multi-source environment
KR20180125475A (ko) 멀티 채널 코딩
CN113646836A (zh) 声场相关渲染
US20230238006A1 (en) Apparatus, Method, or Computer Program for Processing an Encoded Audio Scene using a Parameter Conversion
US20230239644A1 (en) Apparatus, Method, or Computer Program for Processing an Encoded Audio Scene using a Bandwidth Extension
US20230238005A1 (en) Apparatus, Method, or Computer Program for Processing an Encoded Audio Scene using a Parameter Smoothing
RU2818033C1 (ru) Устройство, способ или компьютерная программа для обработки кодированной аудиосцены с использованием сглаживания параметров
CN116457878A (zh) 使用带宽扩展来处理编码音频场景的装置、方法或计算机程序
CN116529813A (zh) 使用参数转换来处理编码音频场景的装置、方法或计算机程序
WO2023172865A1 (en) Methods, apparatus and systems for directional audio coding-spatial reconstruction audio processing

Legal Events

Date Code Title Description
A201 Request for examination