KR20230023725A - 다중-채널 입력 신호 내의 공간 배경 잡음을 인코딩 및/또는 디코딩하기 위한 방법 및 디바이스 - Google Patents

다중-채널 입력 신호 내의 공간 배경 잡음을 인코딩 및/또는 디코딩하기 위한 방법 및 디바이스 Download PDF

Info

Publication number
KR20230023725A
KR20230023725A KR1020237000829A KR20237000829A KR20230023725A KR 20230023725 A KR20230023725 A KR 20230023725A KR 1020237000829 A KR1020237000829 A KR 1020237000829A KR 20237000829 A KR20237000829 A KR 20237000829A KR 20230023725 A KR20230023725 A KR 20230023725A
Authority
KR
South Korea
Prior art keywords
frame
current frame
channel
metadata
inactive
Prior art date
Application number
KR1020237000829A
Other languages
English (en)
Inventor
마이클 에케르트
리샤브 티야기
Original Assignee
돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 레버러토리즈 라이쎈싱 코오포레이션 filed Critical 돌비 레버러토리즈 라이쎈싱 코오포레이션
Publication of KR20230023725A publication Critical patent/KR20230023725A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

본 문서는 N개의 상이한 채널을 포함하는 다중-채널 입력 신호(101)를 인코딩하기 위한 방법(600)을 설명한다. 방법(600)은 프레임의 시퀀스의 현재 프레임에 대해, 신호 및/또는 음성 활동 검출기를 사용하여 현재 프레임이 활성 프레임인지 또는 비활성 프레임인지를 결정하는 단계, 및 다중-채널 입력 신호(101)를 기초로 다운믹스 신호(103)를 결정하는 단계(602)를 포함하고, 다운믹스 신호(103)는 N개 이하의 채널을 포함한다. 추가로, 방법(600)은 다운믹스 신호(103)를 기초로, N개의 채널을 포함하는 재구성된 다중-채널 신호(111)를 생성하기 위한 파라미터의 세트를 포함하는 업믹싱 메타데이터(105)를 결정하는 단계(603)를 포함하고, 업믹싱 메타데이터(105)는 현재 프레임이 활성 프레임인지 또는 비활성 프레임인지에 의존하여 결정된다. 방법은 업믹싱 메타데이터(105)를 비트스트림으로 인코딩하는 단계(604)를 더 포함한다.

Description

다중-채널 입력 신호 내의 공간 배경 잡음을 인코딩 및/또는 디코딩하기 위한 방법 및 디바이스
연관된 출원에 대한 상호 참조
본 출원은 2021년 5월 27일에 출원된 미국 가특허 출원 제63/193,946호 및 2020년 6월 11일에 출원된 미국 가특허 출원 제63/037,650호로부터의 우선권의 이익을 주장하며, 각각의 출원은 그의 전체가 참조로 통합된다.
청취 포지션에 배치된 청취자의 청취 환경 내의 사운드 또는 음장은 앰비소닉 신호(ambisonics signal)를 사용하여 설명될 수 있다. 앰비소닉 신호는 다중-채널 오디오 신호로 볼 수 있으며, 각각의 채널은 청취자의 청취 포지션에서 음장의 특정 지향성 패턴에 대응한다. 앰비소닉 신호는 3차원(3D) 데카르트 좌표 시스템을 사용하여 설명될 수 있으며, 좌표 시스템의 원점은 청취 포지션에 대응하고, x축은 전면을 가리키고, y축은 좌측을 가리키며, z축은 위를 가리킨다.
다중-채널 오디오 신호는 활성 스피치(speech) 또는 오디오의 활성 섹션 및 스피치 또는 오디오가 없는 다른 비활성 섹션 - 이는 일반적으로 배경 잡음(background noise)만을 포함함 - 을 포함할 수 있다. 배경 잡음은 특정 방향으로부터 오는 에어컨 잡음과 같은 공간 특성을 가질 수 있다.
본 문서는 특히 다중-채널 오디오 신호의 활성 섹션과 비활성 섹션 사이에서 지각적으로 만족스러운 전환을 제공하기 위해 공간 배경 잡음을 효율적인 방식으로 모델링하는 기술적인 문제를 해결한다. 기술적인 문제는 독립항에 의해 해결된다. 바람직한 예는 종속항에서 설명된다.
일 양상에 따라, N>1, 특히 N>2인 N개의 상이한 채널을 포함하는 다중-채널 입력(오디오) 신호를 인코딩하기 위한 방법이 설명된다. 방법은 신호 및/또는 음성 활동 검출기를 사용하여 다중-채널 입력 신호의 현재 프레임이 활성 프레임인지 또는 비활성 프레임인지를 결정하는 단계를 포함한다. 나아가, 방법은 다중-채널 입력 신호를 기초로 및/또는 다중-채널 입력 신호를 인코딩하기 위한 타겟 비트레이트를 기초로 다운믹스 신호를 결정하는 단계를 포함하며, 다운믹스 신호는 N개 이하의 채널을 포함한다. 방법은 다운믹스 신호를 기초로 N개의 채널을 포함하는 재구성된 다중-채널 신호를 생성하기 위한 (공간) 파라미터의 세트를 포함하는 업믹싱 메타데이터를 결정하는 단계를 더 포함한다. 업믹싱 메타데이터는 현재 프레임이 활성 프레임인지 또는 비활성 프레임인지에 의존하여 결정될 수 있다. 추가로, 방법은 업믹싱 메타데이터를 비트스트림으로 인코딩하는 단계를 포함한다.
추가적인 양상에 따라, N개의 채널을 포함하는 재구성된 다중-채널 신호를 나타내는 비트스트림을 디코딩하기 위한 방법이 설명된다(여기서 N은 1보다 큰 양의 정수이고, 바람직하게는 N>2임). 방법은 비트스트림을 기초로, 현재 프레임이 활성 프레임인지 또는 비활성 프레임인지를 결정하는 단계를 포함한다. 추가로, 방법은 재구성된 다운믹스 신호를 결정하는 단계를 포함하고, 재구성된 다운믹스 신호는 N개 이하의 채널을 포함한다. 방법은 재구성된 다운믹스 신호를 기초로, 및 비트스트림 내에 포함된 업믹싱 메타데이터를 기초로, 재구성된 다중-채널 신호를 생성하는 단계를 더 포함한다. 재구성된 다중-채널 신호는 현재 프레임이 활성 프레임인지 또는 비활성 프레임인지에 의존하여 생성될 수 있다.
추가적인 양상에 따라, 소프트웨어 프로그램이 설명된다. 소프트웨어 프로그램은 프로세서 상에서의 실행을 위해 적응될 수 있고, 프로세서 상에서 수행될 때 본 문서에 약술된(outlined) 방법 단계를 수행하도록 적응될 수 있다.
다른 양상에 따라, 저장 매체가 설명된다. 저장 매체는 프로세서 상에서의 실행을 위해 적응되고, 프로세서 상에서 수행될 때 본 문서에 약술된 방법 단계를 수행하기 위한 소프트웨어 프로그램을 포함할 수 있다.
추가적인 양상에 따라, 컴퓨터 프로그램 제품이 설명된다. 컴퓨터 프로그램은 컴퓨터 상에서 실행될 때 본 문서에서 약술된 방법 단계를 수행하기 위한 실행 가능한 명령어를 포함할 수 있다.
다른 양상에 따라, N개의 상이한 채널을 포함하는 다중-채널 입력 신호를 인코딩하기 위한 인코딩 유닛이 설명되며, 여기서 N은 1보다 큰 양의 정수, 바람직하게는 N>2이다. 인코딩 유닛은 신호 및/또는 음성 활동 검출기(voice activity detector)를 사용하여 입력 신호의 현재 프레임이 활성 프레임인지 또는 비활성 프레임인지를 결정하도록 구성된다. 나아가, 인코딩 유닛은 다중-채널 입력 신호를 기초로 및/또는 비트레이트를 기초로 다운믹스 신호를 결정하도록 구성되며, 다운믹스 신호는 N개 이하의 채널을 포함한다. 추가로, 인코딩 유닛은 다운믹스 신호를 기초로 N개의 채널을 포함하는 재구성된 다중-채널 신호를 생성하기 위한 파라미터의 세트를 포함하는 업믹싱 메타데이터를 결정하도록 구성된다. 업믹싱 메타데이터는 현재 프레임이 활성 프레임인지 또는 비활성 프레임인지에 의존하여 결정될 수 있다. 인코딩 유닛은 업믹싱 메타데이터를 비트스트림으로 인코딩하도록 더 구성된다.
다른 양상에 따라, N개의 채널을 포함하는 재구성된 다중-채널 신호를 나타내는 비트스트림을 디코딩하기 위한 디코딩 유닛이 설명된다. 재구성된 신호는 프레임의 시퀀스를 포함한다. 디코딩 유닛은 재구성된 다운믹스 신호를 결정하도록 구성되며, 재구성된 다운믹스 신호는 N개 이하의 채널을 포함한다. 디코딩 유닛은 비트스트림을 기초로, 신호의 현재 프레임이 활성 프레임인지 또는 비활성 프레임인지를 결정하도록 추가로 구성된다. 추가로, 디코딩 유닛은 재구성된 다운믹스 신호를 기초로, 그리고 비트스트림 내에 포함된 업믹싱 메타데이터를 기초로, 재구성된 다중-채널 신호를 생성하도록 구성된다. 재구성된 다중-채널 신호는 현재 프레임이 활성 프레임인지 또는 비활성 프레임인지에 의존하여 생성될 수 있다.
본 특허 출원에서 약술된 바와 같이 그의 바람직한 실시예를 포함하는 방법, 디바이스 및 시스템은 독립형으로 또는 본 문서에 개시된 다른 방법, 디바이스 및 시스템과 조합하여 사용될 수 있다는 점에 유의해야 한다. 나아가, 본 특허 출원에서 약술된 방법, 디바이스 및 시스템의 모든 양상은 임의로 결합될 수 있다. 특히, 청구범위의 특징은 임의의 방식으로 서로 결합될 수 있다.
본 발명은 첨부 도면을 참조하여 예시적인 방식으로 아래에서 설명된다.
도 1은 다중-채널 신호를 인코딩 및 디코딩하기 위한 예시적인 인코딩 유닛 및 디코딩 유닛을 도시하고;
도 2는 예시적인 공간 합성(또는 재구성) 모듈을 도시하고;
도 3은 다중-채널 신호를 SPAR 인코딩 및 SPAR 디코딩하기 위한 예시적인 인코딩 유닛 및 디코딩 유닛을 도시하고;
도 4a 내지 4c는 상이한 다운믹스 상황에 대한 상이한 다운믹스 상황에 대한 앰비소닉 신호의 비활성 프레임의 인코딩을 도시하고;
도 5는 예시적인 디바이스 아키텍처를 도시하고;
도 6a는 다중-채널 신호를 인코딩하기 위한 예시적인 방법의 흐름도를 도시하고; 및
도 6b는 다중-채널 신호를 디코딩하기 위한 예시적인 방법의 흐름도를 도시한다.
위에서 약술된 바와 같이, 본 문서는 1차 앰비소닉(First Order Ambisonics, FOA) 또는 고차 앰비소닉(Higher Order Ambisonics, HOA) 신호와 같은, 몰입형 오디오 신호에 대한 공간 통신 잡음(spatial comfort noise)의 효율적인 코딩에 관한 것이다. 특히 FOA 또는 HOA 신호는 본원에서 더 일반적으로 음장 표현(soundfield representation, SR) 신호로 지칭된다. SR 신호는 상대적으로 많은 수의 채널 또는 파형을 포함할 수 있으며, 여기서 상이한 채널은 상이한 패닝 기능 및/또는 상이한 지향성 패턴에 관련된다. 예로서, L차 3D FOA 또는 HOA 신호는 (L+1)2개의 채널을 포함한다.
도 1은 SR 신호를 포함할 수 있는 다중-채널 입력 신호(101)를 인코딩 및 디코딩하기 위한 인코딩 유닛(100) 및 디코딩 유닛(150)을 예시한다. 특히, 다중-채널 입력 신호(101)는 하나 이상의 모노 신호, 하나 이상의 스테레오 신호, 하나 이상의 바이노럴 신호(binaural signal), (5.1 또는 7.1 신호와 같은) 하나 이상의 (종래의) 다중-채널 신호, 하나 이상의 오디오 객체 및/또는 하나 이상의 SR 신호를 포함할 수 있다(가능하게는 이의 조합을 포함할 수 있다). 상이한 신호 성분은 다중-채널 입력 신호(101)의 개별적인 채널로 간주될 수 있다.
인코딩 유닛(100)은 다중-채널 입력 신호(101)를 하나 이상의 채널을 포함하는 다운믹스 신호(103)로 다운믹스하도록 구성된 공간 분석 및 다운믹스 모듈(120)을 포함한다. 다운믹스 신호(103)는 입력 신호(101)가 HOA 신호를 포함하는 경우, 그 자체로 SR 신호일 수 있고, 특히 1차 앰비소닉(FOA) 신호일 수 있다. 다운믹싱은 부대역 도메인 또는 QMF 도메인에서 (예를 들어, 10개 이상의 부대역을 사용하여) 수행될 수 있다.
공간 분석 및 다운믹스 모듈(120)은 다운믹스 신호(103)로부터 다중-채널 입력 신호(101)를 재구성하도록 구성된 SPAR(Spatial Audio Resolution Reconstruction 또는 Spatial Reconstruction) 메타데이터(105)를 결정하도록 추가로 구성된다. 공간 분석 및 다운믹스 모듈(120)은 부대역 도메인에서 SPAR 메타데이터(105)를 결정하도록 구성될 수 있다. SPAR 메타데이터(105)는 또한 본원에서 업믹싱 메타데이터로도 지칭된다.
추가로, 인코딩 유닛(100)은 다운믹스 신호(103)의 파형 인코딩(예를 들어, EVS 인코딩)을 수행하고, 그로 인해 코딩된 오디오 데이터(106)를 제공하도록 구성된 코딩 모듈(140)을 포함할 수 있다. 다운믹스 신호(103)의 각각의 채널은 모노 파형 인코더를 사용하여 인코딩될 수 있고, 그로 인해 효율적인 인코딩을 가능하게 한다. 나아가, 인코딩 유닛(100)은 SPAR 메타데이터(105)를 양자화하고 (양자화된) SPAR 메타데이터(105)의 엔트로피 인코딩(entropy encoding)을 수행하여 코딩된 메타데이터(107)를 제공하도록 구성된 양자화 모듈(141)을 포함한다. 코딩된 오디오 데이터(106) 및 코딩된 메타데이터(107)는 비트스트림에 삽입될 수 있다. 다운믹스 신호(103) 및/또는 SPAR 메타데이터(105)의 코딩은 일반적으로 모드 및/또는 비트레이트 제어 모듈(142)을 사용하여 제어된다.
일반적으로, 공간 분석 및/또는 다운믹스 모듈(120)의 동작은 타겟 비트레이트에 의존한다. 특히, 다운믹스 신호(103)의 채널의 수는 타겟 비트레이트에 의존할 수 있다. 더 많은 수의 다운믹스 채널은 일반적으로 그것이 파라메트릭 재구성(parametric reconstruction)보다 더 많은 파형 재구성을 허용하므로, 증가된 성능을 허용한다. 다른 한편으로, 더 많은 수의 다운믹스 채널은 증가된 수의 채널이 오디오 코딩 모듈(140)에 의해 코딩되어야 하기 때문에, 일반적으로 증가된 비트레이트로 이어진다.
낮은 비트레이트에서, 단일 채널 다운믹스만을 사용하는 것이 바람직할 수 있다. 다른 한편으로, 다운믹스 채널의 수는 증가하는 비트레이트에 따라 증가될 수 있다. 이는 또한, 본 문서에서 설명되는 DTX 동작에 적용된다.
도 1의 디코딩 유닛(150)은 코딩된 오디오 데이터(106)로부터 재구성된 다운믹스 신호(114)를 도출하도록 구성된 디코딩 모듈(160)을 포함한다. 나아가, 디코딩 유닛(150)은 코딩된 메타데이터(107)로부터 SPAR 메타데이터(105)를 도출하도록 구성된 메타데이터 디코딩 모듈(161)을 포함한다.
추가로, 디코딩 유닛(150)은 SPAR 메타데이터(105)로부터, 그리고 재구성된 다운믹스 신호(114)로부터 재구성된 다중-채널 신호(111)를 도출하도록 구성된 재구성 모듈(170)을 포함한다. 재구성된 다중-채널 신호(111)는 재구성된 SR 신호를 포함할 수 있다. 특히, 재구성된 다중-채널 신호(111)는 다중-채널 입력 신호(101)와 동일한 타입의 채널을 포함할 수 있다. 재구성된 다중-채널 신호(111)는 스피커 렌더링에, 헤드폰 렌더링에 및/또는 SR 렌더링에 사용될 수 있다.
도 2는 예시적인 재구성 모듈(170)을 예시한다. 재구성 모듈(170)은 입력으로, 재구성된 다운믹스 신호(114)의 하나 이상의 채널을 취한다. 제1 믹서(211)는 재구성된 다운믹스 신호(114)의 하나 이상의 채널을 증가된 수의 신호로 업믹싱하도록 구성될 수 있다. 제1 믹서(211)는 SPAR 메타데이터(105)에 의존한다.
재구성 모듈(170)은 증가된 수의 채널을 생성하기 위해 제2 믹서(212)에서 처리되는 재구성된 다운믹스 신호(114)의 W 채널의 표현으로부터 신호를 생성하도록 구성된 하나 이상의 역상관기(201)를 포함할 수 있다. 제2 믹서(212)는 SPAR 메타데이터(105)에 의존한다. 제1 믹서(211)의 출력 및 제2 믹서(212)의 출력은 재구성된 다중-채널 신호(111)를 제공하기 위해 합산된다. 재구성된 다중-채널 신호(111)는 다중-채널 입력 신호(101)와 동일한 타입일 수 있다(특히, 동일한 수의 채널을 포함할 수 있다).
SPAR 메타데이터(105)는 제1 믹서(211)에 의해 및/또는 제2 믹서(212)에 의해 사용되는 업믹싱 행렬의 계수를 나타내는 데이터로 구성될 수 있다. 믹서(211, 212)는 부대역 도메인에서(특히 QMF 도메인에서) 동작할 수 있다. 이 경우, SPAR 메타데이터(105)는 복수의 상이한 부대역(예를 들어, 10개 이상의 부대역)에 대해 제1 믹서(211)에 의해 및 제2 믹서(212)에 의해 사용되는 업믹싱 행렬의 계수를 나타내는 데이터를 포함한다.
도 2는 (W'로 지칭되는) W 채널의 표현을 포함하는 1채널 다운믹스 신호(114)의 예를 예시한다. 제1 믹서(211)는 (SPAR 메타데이터(105)로부터의 예측 계수를 사용하여) W'를 기초로 X, Y 및/또는 Z 채널의 예측 가능한 부분의 재구성을 생성한다. 제2 믹서(212)는 상관되지 않은 잔차 신호 X', Y' 및/또는 Z'의 표현을 생성한다. 다시 말해, 제2 믹서(212)는 SPAR 메타데이터(105)를 사용하여, 원래의 잔차 신호 X', Y' 및/또는 Z' 각각에 따라, W'에 대해 상관되지 않은 신호를 스펙트럼적으로 성형하고, 그로 인해 잔차 신호 X', Y' 및/또는 Z'의 표현 또는 재구성을 제공한다.
인코딩 유닛(100)은 FOA 입력 신호(101)를 디코딩 유닛(150)에서 입력 신호(101)를 재생성하는 데 사용되는 다운믹스 신호(103) 및 파라미터, 즉 SPAR 메타데이터(105)로 변환하도록 구성될 수 있다. 다운믹스 신호(103)의 채널의 수는 1개 내지 4개의 채널로 다양할 수 있다. 파라미터는 예측 파라미터 Pr, 교차-예측 파라미터 C 및/또는 역상관 파라미터 P를 포함할 수 있다. 이들 파라미터는 윈도우된 입력 신호(101)의 공분산 행렬로부터 계산될 수 있다. 나아가, 파라미터는 지정된 수의 부대역에서 계산될 수 있다. 통신 잡음의 경우, (또한, 주파수 대역으로도 지칭되는) 감소된 수의 부대역, 예를 들어 12개의 부대역 대신에 6개의 부대역이 사용될 수 있다.
SPAR 파라미터 추출의 예시적인 표현은 (도 3을 참조하여 설명되는 바와 같이) 다음과 같을 수 있다.
1. 입력 신호(101)의 메인 W 신호로부터 입력 신호(101)의 모든 측면 신호(Y, Z, X)를 예측하고,
Figure pct00001
여기서 예로서, 예측된 채널 Y'에 대한 예측 계수는 다음과 같이 계산될 수 있고:
Figure pct00002
R AB =cov(A,B)는 신호 A 및 B에 대응하는 입력 공분산 행렬의 요소이다. 마찬가지로 Z' 및 X' 잔차 채널은 대응하는 파라미터 prz 및 prx를 갖는다. 이는 위의 수식에서 문자 "Y"를 문자 "Z" 또는 "X"로 대체함으로써 계산될 수 있다. 예측 파라미터 Pr(또한 PR로도 지칭됨)은 예측 계수 [pr Y ,pr Z ,pr X ]T의 벡터일 수 있다.
예측 파라미터는 잔차 채널 Y', Z' 및 X'(301)을 제공하도록 도 3에 도시된 예측 모듈(311) 내에서 결정될 수 있다.
예시적인 구현에서, W는 활성 채널(또는 다시 말해, 활성 예측을 갖고, 아래에서 W'로 지칭됨)일 수 있다. 예로서(그러나 제한되지 않음), X, Y, Z 채널의 W 채널로의 일종의 믹싱을 허용하는 활성 W' 채널은 다음과 같이 정의될 수 있다:
Figure pct00003
여기서, f는 믹싱 인자이며, 시간 및/또는 주파수에 걸쳐 정적이거나 또는 동적일 수 있다. 구현에서, f는 활성 프레임과 비활성 프레임 간에 변할 수 있다. 다시 말해, 믹싱 인자는 현재 프레임이 활성 프레임인지 또는 비활성 프레임인지에 의존할 수 있다. 다시 말해, X, Y 및/또는 Z 채널의 W 채널로의 믹싱은 활성 프레임 및 비활성 프레임에 대해 상이할 수 있다. 따라서, W 채널, 즉 W' 채널의 표현은 초기 W 채널을 다른 채널의 하나 이상과 믹싱함으로써 결정될 수 있다. 이렇게 함으로써, 지각 품질이 추가로 증가될 수 있다.
2. W 및 예측된 (Y', Z', X') 채널을 가장 음향적으로 관련성이 높은 것으로부터 음향적으로 관련성이 가장 적은 것으로 리믹스(remix)한다. 리믹싱은 정의된 방법을 기초로 신호를 재정렬하거나 재결합하는 것에 대응할 수 있다. 리믹싱을 위한 예시적인 방법은 좌측 및 우측으로부터의 오디오 큐가 앞-뒤 - 이들은 위-아래 큐보다 더욱 중요함 - 보다 더욱 중요 하다는 가정을 고려한 입력 신호 W, Y', X', Z'의 재정렬일 수 있다. 리믹스 방법은 어떠한 파라미터도 비트스트림 내에서 송신될 필요가 없도록, 대응하는 디코딩 유닛(150)에서 알려질 수 있다. 리믹싱은 리믹스된 채널(302)을 제공하도록 도 3의 리믹싱 모듈(312) 내에서 수행될 수 있다.
Figure pct00004
3. 4채널 포스트-예측 및 리믹싱 다운믹스(302)의 공분산을 계산한다.
Figure pct00005
여기서 dd는 W를 넘는 하나 이상의 추가의 다운믹스 채널(즉, 2번째 내지 n번째 채널)을 나타내고, u는 완전히 재생성되어야 하는 하나 이상의 채널(즉, n+1번째 내지 4번째 채널)을 나타내는데, 이는 이들 채널이 다운믹스 신호(103) 내에 포함되지 않기 때문이다(여기서 n은 다운믹스 신호(103) 내의 채널의 수이다).
1-4개의 채널을 갖는 WABC 리믹스(302)의 예에 대해, d 및 u는 다음의 채널을 나타낸다.
Figure pct00006
Figure pct00007
여기서 n은 다운믹스 신호(103) 내의 채널의 수이다. SPAR 메타데이터(105)의 계산에 대한 주요 관심사는 R dd , R ud R uu 공분산이다. SPAR 메타데이터는 도 3의 계산 모듈(313) 내에서 결정될 수 있다.
4. 이로부터, 전송되는 잔차 채널로부터(즉, d 채널로부터) 전체 파라메트릭 채널(즉, u 채널)의 임의의 나머지 부분을 교차 예측하는 것이 가능한지의 여부를 결정한다.
교차-예측 계수 C는 다음과 같이 계산될 수 있다:
Figure pct00008
그러므로, C는 3채널 다운믹스에 대해 형태 (1×2), 2채널 다운믹스에 대해 형태 (2×1)을 가질 수 있다.
5. 역상관기(201)에 의해 채워져야 하는 파라미터화된 채널에서의 나머지 에너지를 계산한다. 업믹스 채널 Res uu 에서의 잔차 에너지는 실제 에너지 R uu (포스트-예측)와 재생성된 교차-예측 에너지 Reg uu 사이의 차이이다.
Figure pct00009
Figure pct00010
scale 파라미터는 0≤scale≤1인 상수이다. scale 파라미터는 주파수 의존적일 수 있다. 특히, 상이한 주파수 대역에 대해 scale 파라미터의 상이한 값이 사용될 수 있다. 역상관 파라미터 행렬 P는 에르미트 대칭(Hermitian symmetric)인 공분산 행렬일 수 있고, 따라서 역상관 행렬의 상부 또는 하부 삼각형으로부터의 역상관 파라미터만이 SPAR 메타데이터(105)에 포함되어야 할 수 있다. 대각선 항목은 실수 값인 한편, 비대각선 요소는 복소수 값일 수 있다. P 계수는 비-예측(un-prediction) 및 비-믹싱(un-mixing)이 수행되기 전에, A, B 및 C 채널을 재생성하는 데 W 채널의 역상관 성분이 얼마나 많이 사용되는 지를 나타낸다.
일부 구현에서, P의 대각선 값만이 계산되고, 디코딩 유닛(150)으로 전송된다. 이들 대각선 값은 다음과 같이 계산될 수 있다
Figure pct00011
도 3은 디코딩 유닛(150)의 재구성 모듈(170)의 추가적인 구성요소를 예시한다. 특히, 재구성 모듈(170)은 위에서 언급된 리믹싱 방법에 따라 채널을 리믹스하도록 구성된 리믹싱 모듈(322)을 포함할 수 있다. 나아가, 예측 파라미터는 재구성된 잔차 채널로부터 재구성된 다중-채널 신호(111)의 채널을 생성하기 위해, 비-예측 모듈(321) 내에서 사용될 수 있다.
본 문서는 디코딩 유닛(150)이 이들 공간 파라미터 및 다중-채널 여기 신호를 사용하여 고품질 공간 통신 잡음을 생성할 수 있도록, 음성 통신 시스템에서 배경 잡음의 공간 파라미터를 모델링하는 기술적 문제를 다룬다. 다중-채널 여기 신호는 모든 채널이 상이한 시드(seed)로 생성되고 서로 상관되지 않은 다중-채널 백색 잡음 신호일 수 있다.
이 목적을 위해, 인코딩 유닛(100)은 주변 잡음을 샘플링하고, 주변 잡음을 설명하는 하나 이상의 파라미터를 인코딩하도록 구성될 수 있다. 잡음의 공간 양상에 대한 하나 이상의 파라미터는 "음성 활동 없음 " 기간 동안, 추정되고, 인코딩되고, 디코딩 유닛(150)으로 전송될 수 있다. 디코딩 유닛(150)은 하나 이상의 파라미터를 기초로 재생될 잡음을 재생성하도록 구성될 수 있다.
다시 말해, 하나 이상의 파라미터의 디코딩 유닛(150)으로의 송신을 허용하기 위해, 상대적으로 작은 파라미터의 세트로 공간 배경 잡음을 인코딩하는 방법이 설명된다. 하나 이상의 파라미터는 송신 시스템의 수신단에서 공간 통신 잡음을 생성하는 데 사용될 수 있다. 공간이라는 용어는 잡음이 좌측/우측, 위/아래 및/또는 앞/뒤와 연관된 환경(ambiance)을 갖는다는 것을 의미한다. 잡음은 이방성이어서, 다른 방향보다 하나의 방향에서 더 강한 주변 잡음이 있을 수 있다. 공간 잡음은 확성기를 통해 재생될 때, 디코딩 유닛(150)에서 헤드트래킹과 함께 재생되도록 구성될 수 있다.
디코더에서 공간 통신 잡음을 생성하는 일반적인 방법은, 그 전체가 참조로 통합되는 US10,224,046에서 다루어진다. 본 문서는 인코딩 유닛(100)에서 공간 통신 잡음을 모델링하는 방법에 대한 기술적 문제를 다룬다. 본 문서는 구체적으로, 디코딩 유닛(150)에서 공간 통신 잡음이 생성될 수 있도록, 인코딩 유닛(100)에서 공간 통신 잡음에 대한 하나 이상의 공간 파라미터를 모델링하거나 및/또는 양자화하는 절차를 다룬다.
본 문서에서 설명된 방법은 주변 잡음의 주파수 스펙트럼을 특징으로 하는 메커니즘과 구별되는 것으로서 주변 잡음의 공간 특성을 특성화한다. 구체적으로, 본 문서는 모노 코덱 통신 잡음 인코더를 활용할 때, 하나 이상의 공간 통신 잡음 파라미터의 생성을 설명하며, 여기서 공간 통신 잡음 파라미터는 잡음의 공간 성분을 특성화다. 공간 통신 잡음을 생성하기 위해 디코딩 유닛(150)에서 공간 및 스펙트럼 성분이 사용될 수 있다.
입력 오디오 신호(101)는 인코딩 유닛(100)에 제공될 수 있으며, 입력 오디오 신호(101)는 일련의 프레임을 포함한다. 프레임은 예를 들어 20ms의 시간 길이를 가질 수 있다. 일련의 프레임은 오디오 또는 음성 프레임의 서브세트, 및 배경 잡음만으로 구성된 프레임의 서브세트를 포함할 수 있다. 오디오 프레임의 예시적인 시퀀스가 다음과 같이 고려될 수 있고
A---A--S---S----S---S---S----S---S---S----S---S----S---S---S---S----S---S---S----S---S---S----S---A---A--A--A
여기서 "A"는 활성 스피치 및/또는 오디오 프레임을 나타내고, "S"는 침묵 프레임(silence frame)(또한, 본원에서 비활성 프레임으로도 지칭됨)을 나타낸다.
불연속 송신(discontinuous transmission, DTX) 시스템의 경우, 코덱의 실제 비트레이트가 잡음 성형 파라미터만을 전송하고, 배경 잡음 특성이 활성 스피치 또는 오디오 프레임만큼 자주 변경되지 않는다고 가정함으로써 비활성 프레임 동안 상당히 감소될 수 있으며, 위의 시퀀스는 인코딩 유닛(100)에 의해 다음의 프레임의 시퀀스로 번역될 수 있고:
AB-AB-SID-ND-ND-ND-ND-ND-ND-ND-SID-ND-ND-ND-ND-ND-ND-ND-SID-ND-ND-ND-ND-AB-AB-AB-AB
여기서 "AB"는 활성 프레임에 대한 인코더 비트스트림을 나타내고, "SID"는 통신 잡음 생성을 위한 일련의 비트를 포함하는 침묵 표시자 프레임을 나타내고, "ND"는 노 데이터(no data) 프레임 즉, 이들 프레임 동안 디코딩 유닛(150)으로 어느 것도 송신되지 않는다는 것을 나타낸다.
따라서, 인코딩 유닛(100)은 입력 신호(101)의 상이한 프레임을 활성(A) 또는 침묵(S) 프레임(또한, 비활성 프레임으로도 지칭됨)으로 분류하도록 구성될 수 있다. 나아가, 인코딩 유닛(100)은 (예를 들어, 일련의 S 프레임 중 현재 S 프레임에 대응하는) "SID" 프레임 내에서 통신 잡음 생성을 위한 데이터를 결정하고 인코딩하도록 구성될 수 있다. SID 프레임은 일련의 S 프레임에 대해 반복적으로, 특히 주기적으로 전송될 수 있다. 예로서, SID 프레임은 매 8번째 프레임마다(이는 20ms 프레임을 사용할 때 후속 SID 프레임 사이의 160ms의 시간 간격에 대응함) 전송될 수 있다. 일련의 S 프레임 중 하나 이상의 뒤따르는 S 프레임 동안 어떠한 데이터도 송신되지 않을 수 있다. 따라서, 인코딩 유닛(100)은 DTX(불연속 송신)을 수행하거나, 또는 DTX 모드로 스위칭하도록 구성될 수 있다.
다시 말해, 인코딩 유닛(100)은 매 활성 프레임에 대해 오디오 데이터(106) 및 인코딩된 메타데이터(107)를 디코딩 유닛(150)에 전송하도록 구성될 수 있다. 다른 한편으로, 인코딩 유닛(100)은 비활성 프레임의 단편(fraction)에 대해(즉, SID 프레임에 대해), 인코딩된 메타데이터(107)만을 (및 어떠한 오디오 데이터(106)도 없이) 전송하도록 구성될 수 있다. 나머지 비활성 프레임에 대해(즉, ND 프레임에 대해), 어떠한 데이터도 전혀 전송되지 않을 수 있다(심지어 인코딩된 메타데이터(107)도 전송되지 않을 수 있다). SID 프레임에 대해 전송되는 인코딩된 메타데이터(107)는 활성 프레임에 대해 전송되는 인코딩된 메타데이터(107)에 대해 감소되거나 및/또는 압축될 수 있다.
인코딩 유닛(100)은 인코더를 DTX 모드로 스위칭하도록 구성된 음성 활동 검출기를 포함할 수 있다. DTX 플래그(예를 들어, 아래에 언급되는 CombinedVAD 플래그)가 설정되면, 패킷은 입력 프레임을 기초로 불연속 모드로 생성될 수 있고, 그렇지 않으면 프레임은 스피치 및/또는 오디오 활성 프레임으로 코딩될 수 있다.
인코딩 유닛(100)은 모노 다운믹스 신호(103)를 결정하도록 구성될 수 있고, 모노 다운믹스 신호(103)는 모노 다운믹스 신호(103)에 대해 SAD/VAD(신호 활동 검출기(Signal Activity Detector) 또는 음성 활동 검출기(Voice Activity Detector))를 동작시킴으로써 비활성 프레임을 검출하는 데 사용될 수 있다. 음장 B-포맷 입력 신호(101)의 예에 대해, SAD/VAD는 W 채널 신호의 표현에 대해 동작될 수 있다. 대안적인 예에서, SAD/VAD는 입력 신호(101)의 다수의 (특히 모든) 채널 신호에 대해 동작될 수 있다. 개별적인 채널 신호에 대한 개별적인 결과는, 그 후 단일 CombinedVAD 플래그로 결합될 수 있다. CombinedVAD 플래그가 설정되는 경우, 프레임은 비활성인 것으로 간주될 수 있다. 다른 한편으로, CombinedVAD 플래그가 설정되지 않은 경우, 프레임은 활성인 것으로 간주될 수 있다.
따라서, VAD 및/또는 SAD는 프레임의 시퀀스의 프레임을 활성 프레임 또는 비활성 프레임으로 분류하는 데 사용될 수 있다. 통신 잡음을 인코딩 및/또는 생성하는 것은 비활성 프레임에 적용될 수 있다. 인코딩 유닛(100) 내의 통신 잡음의 인코딩(특히, 잡음 성형 파라미터의 인코딩)은 디코딩 유닛(150)이 음장에 대한 고품질 통신 잡음을 생성하는 것이 가능해지도록 수행될 수 있다. 디코딩 유닛(150)에 의해 생성된 통신 잡음은 바람직하게는, 입력 신호(101) 내의 배경 잡음의 스펙트럼 및/또는 공간 특성과 일치한다. 이는 반드시, 입력 배경 잡음의 파형 재구성을 암시하는 것은 아니다. 일련의 비활성 프레임에 대해 음장 디코딩 유닛(150)에 의해 생성된 통신 잡음은 통신 잡음이 바로 선행하는 활성 프레임 내의 잡음과 관련하여 연속적으로 들리도록 하는 것이 바람직하다. 따라서, 디코딩 유닛(150)에서 활성 프레임과 비활성 프레임 사이의 전환은, 바람직하게 매끄럽고 갑작스럽지 않는다.
디코딩 유닛(150)은 랜덤 백색 잡음을 여기 신호로 생성하도록 구성될 수 있다. 여기 신호는 백색 잡음의 다수의 채널을 포함할 수 있으며, 상이한 채널에서의 백색 잡음은 일반적으로 서로 상관되지 않는다. 인코딩 유닛(100)으로부터의 비트스트림은 (인코딩된 메타데이터(107)로서) 잡음 성형 파라미터만을 포함할 수 있고, 디코딩 유닛(150)은 비트스트림 내에 제공된 잡음 성형 파라미터를 사용하여 상이한 채널 내에서 (스펙트럼적으로 및 공간적으로) 랜덤 백색 잡음을 성형하도록 구성될 수 있다. 이렇게 함으로써, 공간 통신 잡음은 효율적인 방식으로 생성될 수 있다.
이하에서, 인코딩 유닛(150)에서 공간 및/또는 스펙트럼 통신 잡음 파라미터를 결정하기 위한 방법이 설명된다. 위에서 나타난 바와 같이, "활성 프레임"은, 음성 및/또는 오디오 신호가 검출된 프레임일 수 있다. "활성이 아닌 프레임 또는 비활성 프레임"은 어떠한 음성도 그리고 어떠한 스피치도 검출되지 않고, 배경 잡음만이 존재하는 프레임일 수 있다. 프레임은 음성 및/또는 스피치 검출(VAD 및/또는 SAD) 알고리즘을 사용하여 활성 및 비활성 프레임으로 분류될 수 있다.
WYZX는 B-포맷 음장 신호의 네 개의 채널일 수 있다. 약어 CNG는 통신 잡음 생성(Comfort Noise Generation)을 지칭할 수 있다. 약어 SPAR은 공간 재구성기(SPAtial Reconstructor)를 지칭할 수 있다. 도 3의 맥락에서 약술된 바와 같이, SPAR 방식은 N개의 채널을 갖는 입력(101) (바람직하게는 N = 4인 FOA 입력)을 취하고, 다운믹스 채널(dmx_ch)의 수 n이 1≤n≤N이 되도록 다운믹스(103) 뿐만 아니라, 공간 메타데이터(105)(소위 SPAR 파라미터)를 생성하는 알고리즘일 수 있다. 나아가, SPAR 방식은 SPAR 파라미터(105)의 세트를 사용하여 N개의 채널(103)을 갖는 (재구성된) 다운믹스(103, 114)로부터 N개의 채널을 갖는 다중-채널 신호(111)를 재구성한다.
FOA 입력 신호(101)에 대한 SPAR 파라미터(105)는 PR(예측 계수), C(교차항) 계수 및 P(역상관기) 계수를 포함할 수 있다. Ypred 또는 Y'는 하나 이상의 다른 채널 신호로부터의(특히 W 채널 신호로부터의) 선형 예측 이후에 Y 채널 신호의 잔차일 수 있다. Xpred 또는 X'는 하나 이상의 다른 채널 신호로부터의(특히 W 채널 신호로부터의) 선형 예측 이후에 X 채널 신호의 잔차일 수 있다. Zpred 또는 Z'는 하나 이상의 다른 채널 신호로부터의(특히 W 채널 신호로부터의) 선형 예측 이후에 Z 채널 신호의 잔차일 수 있다.
본 문서가 주로 음장 신호에서 공간 잡음의 모델링을 참조하지만, 본원에서 설명되는 방법은 음장 신호에 제한되지 않고, 임의의 다수의 차원 잡음 필드에 및/또는 임의의 종류의 다중-채널 신호에 적용될 수 있음을 유의해야 한다. 특히, 본원에서 설명된 방법은 1보다 크고 바람직하게는 2보다 큰(즉, 스테레오보다 큰) 차원 N을 갖는 입력 신호(101)에 대한 채널 및 음장 기반 인코더에 적용될 수 있다.
공간 통신 잡음을 인코딩하기 위한 방법은 모노 다운믹스 신호(103)(예를 들어, 음장 신호에 대한 W 채널 신호)의 프레임에 대한 VAD 및/또는 SAD를 포함할 수 있다. 프레임이 비활성 프레임인 것으로 검출되는 경우, 공간 통신 잡음 파라미터의 인코딩이 수행될 수 있다.
프레임의 상이한 채널 신호의 공분산은 복수의 상이한 주파수 대역 또는 부대역에 대해 결정될 수 있다. 공분산 행렬은 위에서 약술된 바와 같이, 하지만 감소된 수의 주파수 대역에 대해 결정될 수 있다. 공분산의 평활화, 즉 공분산 행렬의 평활화는 복수의 후속 프레임에 걸쳐 수행될 수 있다. 따라서, 공분산은 필터를 사용하여 다수의 프레임에 걸쳐 (저역 통과) 필터링될 수 있다. 상이한 주파수 대역에 대해 상이한 필터가 사용될 수 있다. 다시 말해, 상이한 평활화 함수 및/또는 상이한 망각 인자가 상이한 주파수 대역에서 사용될 수 있다. 따라서, 공분산의 시간 평활화(temporal smoothing)가 수행될 수 있다. 이의 결과로서, 배경 잡음에 대한 인코딩 파라미터에 대한 데이터 레이트가 감소될 수 있다. 나아가, 공간 통신 잡음의 가청 불연속성이 회피될 수 있다. 시간적 공분산 평활화의 예는 그 전체가 참조로 통합된 US63.057.533에서 설명된다.
통신 잡음 생성을 위한 공분산 추정 Rdtx는 바람직하게, 상대적으로 광범위한 공분산 평활화를 사용한다. 통신 잡음 모델링을 위한 망각 인자를 증가시킴으로써, 잡음의 공간 특성의 인식이 안정화될 수 있으며, 그로 인해 지각적으로 거슬릴 수 있는 고정되지 않은 것으로 들리는 잡음을 회피할 수 있다. 따라서, 프레임에 대한 평활화된 공분산 Rdtx가 결정될 수 있고, SPAR 메타데이터(105)는 평활화된 공분산 Rdtx를 기초로 결정될 수 있다.
활성 프레임과 서브시퀀스 비활성 프레임 사이의 매끄러운 전환을 허용하기 위하여, SAD 및/또는 VAD가 비활성 프레임을 검출하자마자, 공분산 계산 방식은 (활성 프레임에 대해 사용되는) 정규 공분산 추정으로부터 잡음 공분산 추정으로 스위칭될 수 있다.
프레임은 비교적 짧은 버스트(burst) 또는 과도 상태(transient)(예를 들어, 음성 버스트 또는 노크(knock))를 포함할 수 있다. 이러한 과도 상태는 예를 들어 200ms로 상대적으로 짧을 수 있다. 이러한 버스트는 비활성 프레임의 시퀀스를 중단시킬 수 있다. (활성 프레임의 짧은 버스트가 평활화를 사용하지 않거나 수정된 평활화 방식을 사용하여 계산될 것이기 때문에) 중단은 보통 공분산의 계산의 재설정으로 이어질 것이다. 인코딩 유닛(100)은 공분산 추정을 결정하기 위한 평활화 방식으로부터 과도 상태 또는 짧은 버스트를 전달하는 프레임을 제거하도록 구성될 수 있다. 과도 상태 또는 음성 버스트가 검출되면, 버스트 또는 과도 상태가 종료될 때까지 공분산 추정이 일정하게 유지될 수 있다. 버스트 또는 과도 상태가 예를 들어 200ms 이하로 상대적으로 짧은 경우에 대해, 공분산 평활화는 (버스트 또는 과도 상태 이전에 저장된 공분산을 기초로) 과도 상태에 후속하여 계속될 수 있다. 따라서, 공분산 평활화는 버스트 또는 과도 상태에 바로 선행하는 프레임에 대해 저장된 공분산을 사용하여 계속될 수 있다. 다시 말해, 과도 상태 또는 버스트에 대응하는 하나 이상의 활성 프레임을 제외함으로써 공분산의 가중 평균화가 계속될 수 있다.
다른 한편으로, 버스트가 상대적으로 긴 시간 동안 지속되는 경우, 공분산 추정이 재설정될 수 있고, 재설정 이전의 공분산 추정은 평균화를 위해 사용되지 않을 수 있다.
이렇게 함으로써, 배경 잡음의 공간 양상이 시간에 따라 상대적으로 안정적이라는 것이 고려될 수 있다. 평활화된 공분산 계산으로부터 과도 상태, 노크, 범프, 틱 등을 제거함으로써, 배경 잡음의 공간 양상의 인지할 수 있는 중단이 신뢰할 수 있는 방식으로 회피될 수 있다. 특히, 눈에 띄는 아티팩트로 이어질 수 있는 활성 프레임의 상대적으로 짧은 시퀀스의 검출에 기인한 공분산의 재설정이 회피될 수 있다.
SPAR 메타데이터(105) 계산은 예측 계수(Pr)의 계산, 1 < n < 4인 경우 교차 항 계수 C의 계산, 및/또는 (위에서 약술된 바와 같이) 역상관기 계수(P)의 계산을 포함할 수 있으며, 여기서 n은 다운믹스 신호(103) 내의 채널의 수이다.
위에서 나타낸 바와 같이, 비활성 프레임에 대해, 활성 프레임의 경우에 비해 감소된 수의 대역(예를 들어, 12개의 대역 대신에 6개의 대역)에 대해 공분산이 계산될 수 있다. 비활성 프레임에 대한 대역의 수를 감소시키는 것 뒤의 가정은 일반적으로 배경 잡음의 광대역 성질에 기인하여, 잡음 파라미터를 캡처하는 데 더 적은 주파수 분해능이 요구된다는 것이다. 대역의 수를 감소시킴으로써, 데이터 레이트, 즉 비트레이트가 감소될 수 있다. 나아가, 인코딩 유닛(100)으로부터 디코딩 유닛(150)으로 실수 계수만이 전송될 수 있다. 따라서, 감소된 수의 주파수 대역을 포함하는 감소된 모델이 배경 잡음을 모델링하기 위해 사용될 수 있다. 이 모델은 광대역 잡음의 공간 특성을 효율적인 방식으로 모델링하는 것을 허용한다.
(예를 들어, W 채널 신호 및 Ypred 또는 Y' 채널 신호의 표현을 포함하는) 2채널 다운믹스(103)의 경우에 대해, 인코딩 유닛(100)으로부터 디코딩 유닛(150)으로의 비트스트림 내에 포함된 데이터는 (입력 신호(101)의 프레임에 대해):
ㆍ 코딩 모듈(140)에 의해 인코딩된 W 채널 신호의 표현;
ㆍ 코딩 모듈(140)에 의해 인코딩된 Ypred 채널 신호. 위에서 약술된 바와 같이, Y pred 채널 신호는 하나 이상의 예측 계수를 사용하여 W 채널 신호로부터 예측될 수 없는, Y 채널 신호의 상관되지 않은 부분일 수 있다;
ㆍ Y, Z 및 X 채널 신호에 대한 (실수) 예측 계수 [pr Y ,pr Z ,pr X ] T ;
ㆍDTX 동안 비활성 프레임에 대해 디코딩 유닛(150)으로 전송되지 않을 수 있는, (교차 예측 계수 또는 C 계수와 같은) 직접 계수;
ㆍ X 및 Z 채널 신호를 생성하기 위해 사용되어야 하는 역상관된 W 채널 신호의 레벨을 나타내는 (실수) 역상관기 계수 P를 포함할 수 있다.
2채널 다운믹스 신호(103)의 경우 인코딩 유닛(100)에 의해 수행될 수 있는 처리가 도 4b에 예시된다.
(다운믹스 신호(103)로서 W 채널 신호만을 포함하는) 전체 파라메트릭(full parametric) W 다운믹스(103)의 경우에 대해, 인코딩 유닛(100)으로부터 디코딩 유닛(150)으로의 비트스트림 내에 포함된 데이터는 (입력 신호(101)의 프레임에 대해):
ㆍ 코딩 모듈(140)에 의해 인코딩된 W 채널 신호의 표현;
ㆍ Y, Z 및 X 채널 신호에 대한 (실수) 예측 계수 [pr Y ,pr Z ,pr X ] T ; 및
ㆍ Y, X 및 Z 채널 신호를 생성하는 데 사용되어야 하는 역상관된 W 채널 신호의 레벨을 나타내는 (실수) 역상관기 계수 P를 포함할 수 있다.
1채널 다운믹스 신호(103)의 경우 인코딩 유닛(100)에 의해 수행될 수 있는 처리가 도 4a에 예시된다. 도 4c는 3채널 다운믹스 신호(103)의 경우를 예시한다.
단일 모노 채널로의 다운믹스(예를 들어, 3 또는 4채널을 갖는 다중-채널 입력 신호(101)가 1채널로 다운믹스되고, 3 또는 4채널로 업믹스되는 것을 나타내는 3-1-3 또는 4-1-4 다운믹스)의 경우에 대해, (W 채널의 표현일 수 있는) 모노(W') 채널 다운믹스 신호(103)에 대한 오디오 데이터(106)만이 비트스트림에 포함된다. SPAR 메타데이터(105)는 재구성된 다운믹스 신호(114)를 기초로 FOA 공간 통신 잡음을 생성하는 데 사용될 수 있다. 인코딩 유닛(100)이 비활성 프레임을 검출할 때, SPAR 메타데이터(105)의 계산은 본 문서에 약술된 바와 같이 적응된다. 특히, 활성 프레임에 뒤따르는 제1 비활성 프레임은 SID 프레임을 제공하기 위해 인코딩될 수 있다. 이 목적을 위해, 인코딩된 SPAR 메타데이터(107)는 제1 비활성 프레임에 대한 비트스트림 내에 제공될 수 있다. 나아가, 일련의 비활성 프레임 동안, 추가적인 SID 프레임이 반복적으로, 특히 주기적으로 제공될 수 있다.
1채널 다운믹스 예에 대해, 디코딩 유닛(150)은 오디오 데이터(106)를 기초로, 재구성된 다운믹스 신호(114)를 생성하도록 구성될 수 있다. 이 재구성된 다운믹스 신호(114)는 WCNG로 지칭될 수 있으며, 이는 비활성 프레임 동안, 여기 신호로서 백색 잡음을 사용하고 모노 오디오 코덱(예를 들어, EVS)에 의해 코딩된 스펙트럼 성형 파라미터를 사용하여 다운믹스에서 W 채널의 코딩되지 않은 표현에 존재하는 배경 잡음의 파라메트릭 재구성을 포함할 수 있다. Y, X 및 Z 채널 신호를 재구성하기 위한 3개의 역상관된 채널은, 역상관기(201)(예를 들어, 시간 도메인 또는 필터뱅크 도메인 역상관기)를 사용하여 WCNG로부터 생성될 수 있다. 대안적으로, Y, X 및 Z 채널 신호를 재구성하기 위한 3개의 역상관된 채널은 상이한 시드로 상관되지 않은 통신 잡음을 생성하고, WCNG에 따라 보정되지 않은 통신 잡음을 스펙트럼적으로 성형함으로써 생성될 수 있다. SPAR 메타데이터(105)는 원래 배경 잡음의 스펙트럼 및 공간 특성을 갖는 음장 포맷의 통신 잡음을 생성하기 위해, WCNG 및 역상관된 채널에 적용될 수 있다.
2채널 다운믹스 예(1차 음장에 대해, 4-2-4)에 대해, 모노 다운믹스(W') 채널 및 하나의 예측 채널에 대한 통신 잡음 파라미터가 디코딩 유닛(150)에 제공될 수 있다. 디코딩 유닛(150)은 2채널 다운믹스(103)로부터 및 SPAR 메타데이터(105)로부터 FOA 공간 통신 잡음을 생성하기 위한 방법을 적용할 수 있다. 2개의 다운믹스 채널은 상관되지 않은 통신 잡음 신호일 수 있으며, 하나는 원래 W 채널 표현에 따라 성형된 스펙트럼을 갖고, 다른 하나는 원래 잔차 채널에 따라 형성된 스펙트럼을 갖는다.
SID 프레임에 대해, 2개의 독립적인 인코더 모듈(140) 인스턴스는 각각 모노(W') 채널에 관한 스펙트럼 정보 및 잔차 채널에 관한 스펙트럼 정보를 인코딩한다. 나아가, 디코딩 유닛(150)의 2개의 독립적인 인스턴스는 상이한 시드로 상관되지 않은 통신 잡음 신호를 생성할 수 있다. 상관되지 않은 통신 잡음 신호는 각각 코딩되지 않은 다운믹스에서의 W 채널 및 잔차 채널의 표현을 기초로 스펙트럼적으로 성형될 수 있다. 재구성된 W 채널은 WCNG로 지칭될 수 있고, 재구성된 잔차 채널은 PCNG로 지칭될 수 있다.
PCNG는 일반적으로, (단일 다운믹스 채널만을 사용하는, 전체 파라메트릭 접근법에서 행해지는 바와 같이) WCNG를 역상관시키고 역상관 계수를 적용하는 것과 비교하여, 원래의 상관되지 않은 잔차 채널의 더 나은 근사치이다. 이의 결과로서, 배경 잡음의 지각 품질은 다중-채널 다운믹스 신호(103)를 사용할 때, 일반적으로 더 높다.
2개의 역상관된 채널은 시간 도메인 또는 필터뱅크 도메인 역상관기를 통해 WCNG를 실행함으로써, 또는 상이한 시드로 상관되지 않은 통신 잡음을 생성함으로써, 그리고 WCNG 에 따라 상관되지 않은 통신 잡음 채널을 스펙트럼적으로 성형함으로써 생성될 수 있다. WCNG, PCNG 통신 잡음 신호 및 2개의 역상관된 신호는 그 후, SPAR 메타데이터(105)를 사용하여 FOA 출력으로 업믹스될 수 있다.
다운믹스 신호(103)가 활성 및 비활성 프레임에서 동일한 다운믹스 구성으로 계속 실행되기 때문에, 배경 잡음은 일반적으로 전환 프레임 중에도 매끄럽게 들린다. 나아가, 디코딩 유닛(150)이 SPAR 인코더(120)에 의해 계산된 예측 계수 및 역상관 계수를 사용하므로, SPAR 디코더(150)에 의해 생성된 통신 잡음에서 공간 특성이 복제된다.
C 계수 또는 교차 예측 계수는 0으로 설정될 수 있으며, 그로 인해 DTX 동안 비활성 프레임에 대한 데이터 레이트를 추가로 감소시킬 수 있다. 통신 잡음 모델링의 대안적인 구현은 C 파라미터를 포함할 수 있다.
통신 잡음 모델링의 예시적인 구현에서, P 행렬의 상부 또는 하부 삼각형 파라미터는 사용되지 않는다. P 행렬의 실수 대각선 요소만이 통신 잡음을 모델링하는 데 사용될 수 있다. 통신 잡음 모델링의 대안적인 구현에서, P 행렬의 상부 또는 하부 삼각형 파라미터가 고려될 수 있다.
4-3-4 다운믹스의 경우에 대해, 2개의 예측 채널에 대해 그리고 W 다운믹스 채널의 모노 표현에 대해 모노 코덱 CNG 파라미터가 생성 및 전송될 수 있다. FOA 공간 통신 잡음은 3채널 다운믹스(103) 및 SPAR 메타데이터(105)로부터 생성될 수 있다. 3개의 다운믹스 채널은 상관되지 않은 통신 잡음 신호일 수 있으며, 하나는 다운믹스에서 코딩되지 않은 W 채널 표현으로 성형된 스펙트럼을 갖고, 다른 두 개는 다운믹스에서 코딩되지 않은 Y 잔차 채널 및 X 잔차 채널로 성형된 스펙트럼을 갖는다.
도 4a, 4b 및 4c는 각각 1, 2 또는 3 채널 다운믹스(103)로 FOA 입력 신호(101)를 인코딩할 때의, 공간 통신 잡음 파라미터의 프레임별 계산을 예시한다. Y'는 W 채널로부터 Y 채널을 예측한 이후의 잔차를 나타낸다. X'는 W 채널로부터 X 채널의 예측을 나타낸다.
바람직한 예에서, 파라미터 Pr(예측 계수) 및/또는 P(역상관기 계수)의 균일한 양자화가 수행될 수 있다. 양자화 방식은 잡음의 방향에 의존할 수 있다. 특히, 상이한 채널에 할당되는 양자화 지점의 수는 잡음의 방향에 의존할 수 있다.
예측 계수(Pr)의 양자화는 다음과 같이 수행될 수 있다:
ㆍ 4-1-4 경우에 대해, 예측 계수가 균일한 양자화로 양자화될 수 있다. 계수는 9개의 균일하게 분포된 양자화 지점으로 -1.2와 1.2 사이에서 양자화될 수 있다.
ㆍ 4-2-4의 경우에 대해, Y' 및 X'에 대응하는 예측 계수는 9개의 균일하게 분포된 양자화 지점으로 -1과 1 사이에서 양자화될 수 있다. Z' 채널에 대응하는 예측 계수는 7개의 균일하게 분포된 양자화 지점으로 -1과 1 사이에서 양자화될 수 있다. Z'에 비해 Y' 및 X'에 대한 양자화 지점의 증가된 수는, Z' 채널에 비해 Y' 및 X' 채널의 증가된 지각적 중요성에 기인할 수 있다.
ㆍ 4-3-4 경우에 대해, Y'에 대응하는 예측 계수는 9개의 균일하게 분포된 양자화 지점으로 -1과 1 사이에서 양자화될 수 있다. X' 채널에 대응하는 예측 계수는 7개의 균일하게 분포된 양자화 지점으로 -1과 1 사이에서 양자화될 수 있다. Z' 채널에 대응하는 예측 계수는 5개의 균일하게 분포된 양자화 지점으로 -1과 1 사이에서 양자화될 수 있다.
역상관 계수(P)의 양자화는 다음과 같을 수 있다:
ㆍ 역상관 계수는 0과 1.6 사이에서 양자화될 수 있다.
ㆍ 4-1-4 경우에 대해, 역상관 계수를 부스팅함으로써 추가적인 확산이 추가될 수 있다(이는 역상관 계수가 상대적으로 낮을 때에만, 예를 들어 0.4 미만일 때만 수행될 수 있다). (부스팅된) 역상관 계수는 그 후, 7개의 균일하게 분포된 양자화 지점을 사용하여 양자화될 수 있다. 역상관 계수를 부스팅함으로써, 불균일한 양자화가 달성될 수 있다.
ㆍ 4-2-4 경우에 대해, 어떠한 부스팅도 추가되지 않을 수 있고, 7개의 균일하게 분포된 양자화 지점를 사용하여 역상관 계수가 양자화될 수 있다.
ㆍ 4-3-4 경우에 대해, 어떠한 부스팅도 추가되지 않을 수 있고, 3개의 균일하게 분포된 양자화 지점를 사용하여 역상관 계수가 양자화될 수 있다.
표기 N-n-N은 입력 신호(101)의 채널의 수 N, 다운믹스 신호(103)의 채널의 수 n 및 재구성된 신호(111)의 채널의 수 N을 나타낸다는 것을 유의해야 한다.
도 6a는 N개의 상이한 채널을 포함하는 다중-채널 입력 신호(101)를 인코딩하기 위한 예시적인 방법(600)의 흐름도를 도시하며, 여기서 N은 1보다 큰 양의 정수, 바람직하게는 N>2이다. 다중-채널 입력 신호(101)는 SR 신호, 특히 FOA 신호와 같은 앰비소닉 신호일 수 있다. 입력 신호(101)는 프레임의 시퀀스를 포함하고, 각각의 프레임은 예를 들어 10ms와 30ms 사이의 입력 신호(101)의 특정 시간 길이를 커버할 수 있다. 다중-채널 입력 신호(101)의 프레임은 일반적으로 다중-채널 PCM 데이터의 블록을 포함한다. 특히, 프레임은 다중-채널 입력 신호(101)의 각각의 채널에 대한 특정 시간 세그먼트(예를 들어, 20ms)에 대한 오디오 샘플(예를 들어, 20kHz 이상 또는 40kHz 이상, 특히 48kHz의 특정 샘플링 레이트에서)을 포함할 수 있다.
방법(600)은 프레임의 시퀀스의 각각의 프레임에 대해 반복될 수 있다. 방법(600)은 프레임의 시퀀스의 현재 프레임에 대해, 신호 및/또는 음성 활동 검출기를 사용하여 현재 프레임이 활성 프레임인지 또는 비활성 프레임인지를 결정하는 단계(601)를 포함할 수 있다. 다시 말해, 현재 프레임은 (신호, 특히 스피치를 포함하는) 활성 프레임, 또는 (배경 잡음(만)을 포함하는) 비활성 프레임으로 분류될 수 있다. 이 목적을 위해, 예를 들어, 현재 프레임 내의 오디오 신호의 에너지와 관련하여 및/또는 현재 프레임 내의 오디오 신호의 스펙트럼 구성과 관련하여, 현재 프레임의 샘플이 분석될 수 있다. SAD 및/또는 VAD는 다중-채널 입력 신호(101)의 단일 채널(예를 들어, W 채널)을 기초로, 또는 다중-채널 입력 신호(101)의 다수의, 특히 모든 채널을 기초로 수행될 수 있다.
나아가, 방법(600)은 다중-채널 입력 신호(101)를 기초로 및/또는 동작 및/또는 타겟 비트레이트를 기초로 다운믹스 신호(103)를 결정하는 단계(602)를 포함할 수 있으며, 여기서 다운믹스 신호(103)는 일반적으로 N개 이하의 채널을 포함한다. 특히, 다운믹스 신호(103)는 일반적으로 n≤N, 바람직하게는 n<N인 n개의 채널을 포함한다. 다운믹스 신호(103)의 채널의 수 n은 특히 상대적으로 높은 비트레이트에 대해 다중-채널 입력 신호(101)의 채널의 수 N과 동일할 수 있다. 다운믹스 신호(103)는 다중-채널 입력 신호(101)로부터 하나 이상의 채널을 선택함으로써 생성될 수 있다. 다운믹스 신호(103)는 예를 들어, FOA 신호의 W 채널을 포함할 수 있다. 나아가, 다운믹스 신호(103)는 (본원에서 설명된 예측 동작을 사용하여 도출될 수 있는) FOA 신호의 하나 이상의 잔차 채널을 포함할 수 있다.
다운믹스 신호(103), 특히 다운믹스 신호(103)의 채널의 수 n은 일반적으로 비트스트림에 대한 타겟 데이터 레이트에 의존하여 결정된다.
방법(600)은 파라미터의 세트를 포함하는 업믹싱 메타데이터(105), 특히 SPAR 메타데이터를 결정하는 단계(603)를 더 포함할 수 있다. 업믹싱 메타데이터(105)는 업믹싱 메타데이터(105)가 다운믹스 신호(103)를 기초로(또는 대응하는 재구성된 다운믹스 신호(114)를 기초로) N개의 채널을 포함하는 재구성된 다중-채널 신호(111)를 생성하는 것을 허용하도록 결정될 수 있다. 업믹싱 메타데이터(105)의 파라미터의 세트는 다중-채널 입력 신호(101)의 현재 프레임 내에 포함된 오디오 콘텐츠, 특히 잡음의 하나 이상의 공간 특성을 설명하거나 및/또는 이를 모델링할 수 있다.
위에서 나타낸 바와 같이, 다중-채널 입력 신호(101)는 W 채널, Y 채널, Z 채널 및 X 채널을 갖는 앰비소닉 신호, 특히 FOA 신호를 포함할 수 있다. 업믹싱 메타데이터(105)의 파라미터의 세트는 각각 Y' 채널, Z' 채널 및 X' 채널로 지칭되는 잔차 채널을 제공하도록 W 채널을 기초로 Y 채널, Z 채널 및 X 채널을 예측하기 위한 예측 계수를 포함할 수 있다. 예측 계수는 본원에서 Pr 또는 PR로 지칭된다. 다운믹스 신호(103)는 W 채널의 표현 및 하나 이상의 잔차 신호(특히, 가장 높은 에너지를 갖는 하나 이상의 잔차 신호)를 포함할 수 있다.
다운믹스 신호가 W 채널 표현에 추가하여 제1 잔차 채널을 포함하는 경우, 교차-예측 파라미터가 (가능하면 업믹싱 메타데이터(105)의 일부로서) 결정될 수 있고, 여기서 교차-예측 파라미터는 다운믹스 신호에 포함된 하나 이상의 잔차 채널과, (다운믹스 신호(103)에 포함되지 않은) 하나 이상의 나머지 잔차 채널 사이의 공분산에 의존한다. 하나 이상의 교차-예측 계수는 본원에서 C로 지칭된다.
나아가, 다운믹스 신호(103)에 포함되지 않은 잔차 채널을 재구성할 때 역상관된 채널을 생성하기 위한 역상관 파라미터는 잔차 채널의 공분산을 기초로 결정될 수 있다. 역상관 파라미터는 본원에서 P로 지칭될 수 있고, 업믹싱 메타데이터의 일부일 수 있다.
업믹싱 메타데이터(105)는 현재 프레임이 활성 프레임인지 또는 비활성 프레임인지에 의존하여 결정될 수 있다. 특히, 업믹싱 메타데이터(105) 내에 포함되는 파라미터의 세트는 현재 프레임이 활성 프레임인지 또는 비활성 프레임인지에 의존할 수 있다. 현재 프레임이 활성 프레임인 경우, 업믹싱 파라미터(105)의 파라미터의 세트는 현재 프레임이 비활성 프레임인 경우보다 더 클 수 있고 및/또는 더 많은 수의 상이한 파라미터를 포함할 수 있다.
특히, 교차-예측 파라미터는 현재 프레임이 비활성 프레임인 경우, 현재 프레임에 대한 업믹싱 메타데이터(105)의 일부가 아닐 수 있다. 다른 한편으로, 교차-예측 파라미터는 현재 프레임이 활성 프레임인 경우, 현재 프레임에 대한 업믹싱 메타데이터(105)의 일부일 수 있다.
대안적으로, 또는 추가로, 다운믹스 신호(103)에 하나보다 많은 잔차 채널이 포함되는 경우, 현재 프레임에 대한 업믹싱 메타데이터(105)의 파라미터의 세트는, 현재 프레임이 활성 프레임인 경우 비-포함된 잔차 채널과 그 자체 또는 비-포함된 잔차 채널 중 다른 하나와의 각각의 가능한 조합에 대한 역상관 파라미터를 포함할 수 있다. 다른 한편으로, 현재 프레임에 대한 업믹싱 메타데이터(105)의 파라미터의 세트는 현재 프레임이 비활성 프레임인 경우 비-포함된 잔차 채널과 그 자체와의 조합에 대해서만 역상관 파라미터를 포함할 수 있다.
따라서, 업믹싱 메타데이터(105)에 포함되는 파라미터의 타입은 활성 프레임 및 비활성 프레임에 대해 상이할 수 있다. 특히, 비활성 프레임에 대해서는 배경 잡음의 공간 특성을 재구성하는 데 관련성이 적은 하나 이상의 파라미터가 생략될 수 있다. 이의 결과로서, 지각 품질에 영향을 미치지 않고, 배경 잡음을 인코딩하기 위한 데이터 레이트가 감소될 수 있다.
파라미터의 세트는 다수의 상이한 주파수 대역에 대한 대응하는 파라미터를 포함할 수 있다. 다시 말해, 주어진 타입의 파라미터(예를 들어, Pr, C 및/또는 P 파라미터)는 (본원에서 부대역으로 또한 지칭되는) 복수의 상이한 주파수 대역에 대해 결정될 수 있다. 파라미터가 결정되는 상이한 주파수 대역의 수는 현재 프레임이 활성 프레임인지 또는 비활성 프레임인지에 의존할 수 있다. 특히, 현재 프레임이 활성 프레임인 경우, 상이한 주파수 대역의 수는 현재 프레임이 비활성 프레임인 경우보다 더 많을 수 있다.
따라서, 다중-채널 입력 신호의 공간 특성을 설명하는 파라미터의 세트의 주파수 분해능은, 현재 프레임이 활성 프레임인지 또는 비활성 프레임인지에 의존하여 적응될 수 있다. 특히, 비활성 프레임에 대한 것 보다 활성 프레임에 대해 높은 주파수 분해능이 사용될 수 있다. 이렇게 함으로써, 지각 품질에 영향을 미치지 않고, 배경 잡음을 인코딩하기 위한 데이터 레이트가 감소될 수 있다.
방법(600)은 업믹싱 메타데이터(105)를 비트스트림으로 인코딩하는 단계(604)를 더 포함할 수 있다(여기서 비트스트림은 대응하는 디코딩 유닛(150)에 송신되거나 또는 제공될 수 있다). 업믹싱 메타데이터(105)의 파라미터의 세트는 비트스트림에 삽입될 코딩된 메타데이터(107)를 제공하기 위해 엔트로피 인코딩될 수 있다. 이의 결과로서, 공간 배경 잡음의 효율적인 인코딩이 제공된다.
방법(600)은 현재 프레임이 활성 프레임인 경우에, 특히 활성 프레임인 경우에만 다운믹스 신호(103)를 비트스트림으로 인코딩하는 단계를 더 포함할 수 있다. 다운믹스 신호(103)의 하나 이상의 채널은 비트스트림에 삽입될 오디오 데이터(106)를 제공하기 위해, (EVS(향상된 음성 서비스(enhanced voice services)) 인코더와 같은) 단일 채널 오디오 인코더(의 하나 이상의 인스턴스)를 사용하여 개별적으로 인코딩될 수 있다.
방법(600)은 양자화기를 사용하여, 현재 프레임에 대한 업믹싱 메타데이터(105)를 비트스트림으로 인코딩하기 위한(604) 파라미터의 세트로부터 파라미터를 양자화하는 단계를 포함할 수 있다. 다시 말해, 양자화기는 비트스트림으로 인코딩될 파라미터의 세트를 양자화하는 데 사용될 수 있다. 양자화기, 특히 양자화기의 양자화 스텝 크기(quantization step size) 및/또는 양자화 스텝의 수는, 현재 프레임이 활성 프레임인지 또는 비활성 프레임인지에 의존할 수 있다. 특히, 양자화 스텝 크기는 비활성 프레임보다 활성 프레임에 대해 더 낮을 수 있거나 및/또는 양자화 스텝의 수는 비활성 프레임보다 활성 프레임에 대해 더 높을 수 있다. 대안적으로 또는 추가로, 양자화기, 특히 양자화기의 양자화 스텝 크기 및/또는 양자화 스텝의 수는 다운믹스 신호의 채널 수에 의존할 수 있다. 이렇게 함으로써, 높은 지각 품질에서 공간 배경 잡음을 인코딩하는 효율이 추가로 증가될 수 있다.
대안적으로 또는 추가로, 양자화기, 특히 양자화기의 양자화 스텝 크기 및/또는 양자화 스텝의 수는 업믹싱 메타데이터(105)가 인코딩되는 채널 및/또는 채널의 타입에 의존할 수 있다. 상이한 채널 및/또는 상이한 타입의 채널은 상이한 방향과 관련될 수 있다. 예로서, 양자화 스텝 크기는 X 채널 및/또는 Z 채널에 비해 Y 채널에 대해 더 작을 수 있거나 및/또는 양자화 스텝의 수는 X 채널 및/또는 Z 채널에 비해 Y 채널에 대해 더 많을 수 있는데, 그 이유는 좌측/우측 큐가 앞/뒤 또는 위/아래 큐보다 지각적으로 더 중요할 수 있기 때문이다.
방법은 프레임의 시퀀스로부터의 다수의 프레임에 걸쳐 시간 평활화를 수행함으로써, 다중-채널 입력 신호의 현재 프레임에 대한 공분산, 특히 공분산 행렬 및/또는 공분산 값의 세트를 결정하는 단계를 포함할 수 있다. 시간 평활화는 현재 프레임이 활성 프레임인지 또는 비활성 프레임인지에 의존하여 수행될 수 있다. 예로서, 시간 평활화를 위한 망각 인자는 현재 프레임이 활성 프레임인지 또는 비활성 프레임인지에 의존할 수 있다. 특히, 현재 프레임이 활성 프레임인 경우, 망각 인자는 현재 프레임이 비활성 프레임인 경우보다 더 짧을 수 있다. 다시 말해, 비활성 프레임에 비해 활성 프레임에 대해 더 적은 시간 평활화가 수행될 수 있다. 예에서, 현재 프레임이 활성 프레임인 경우, 현재 프레임에 대한 공분산은 시간 평활화 없이 결정될 수 있다. 다른 한편으로, 현재 프레임이 비활성 프레임인 경우, 현재 프레임에 대한 공분산은 시간 평활화를 통해 결정될 수 있다.
망각 인자는 주파수에 의존할 수 있다. 특히, 복수의 상이한 주파수 대역 중 적어도 일부에 대해 상이한 망각 인자, 즉 망각 인자의 상이한 값이 사용될 수 있다. 따라서, 공분산의 시간 평활화는 상이한 주파수 및/또는 주파수 대역에 대해 상이할 수 있다. 이렇게 함으로써, 공간 배경 잡음의 지각 품질이 추가로 증가될 수 있다.
배경 잡음의 공간 특성이 일반적으로 활성 스피치 또는 일반적인 오디오에 비해 더 안정적인 것으로 가정되기 때문에, (활성 프레임에 비해) 비활성 프레임 동안 더 많은 평활화가 수행될 수 있다. 이는 또한, 디코더 출력에서 더욱 안정적인 공간 통신 잡음 경험을 제공할 수 있다.
망각 인자는 상이한 주파수 대역의 대역폭에 의존할 수 있다. 특히, 주파수 대역에 대한 망각 인자는 주파수 대역의 대역폭에 의존할 수 있다. 망각 인자는 주파수 대역의 주파수 분해능에 따라 증가할 수 있다(그리고 그 역으로도 그러하다).
업믹싱 메타데이터의 하나 이상의 파라미터(특히 하나 이상의 예측 파라미터, 하나 이상의 교차-예측 계수 및/또는 하나 이상의 역상관 파라미터)는 현재 프레임에 대한 공분산을 기초로 정밀한 방식으로 결정될 수 있다.
따라서, 배경 잡음을 포함하는 비활성 프레임에 대해 (공간 특성을 설명하기 위한 기초가 되는) 공분산의 시간 평활화가 수행될 수 있다. 이렇게 함으로써, 디코딩 유닛(150)에서 재구성된 배경 잡음의 지각 품질이 개선될 수 있다. 나아가, (엔트로피 인코딩의 개선된 성능에 기인하여) 데이터 레이트 효율이 개선될 수 있다.
방법(600)은 프레임의 시퀀스로부터 과도 상태 잡음 또는 토크 버스트(talk burst)에 대응하는 하나 이상의 프레임을 식별하는 단계를 포함할 수 있다. 과도 상태 잡음 및/또는 토크 버스트는 최대(at the most) 미리 결정된 버스트 지속 시간 임계치 동안 지속되는 음향 이벤트일 수 있다. 버스트 지속 시간 임계치는 예를 들어 100ms와 300ms 사이, 예를 들어 200ms에서 설정될 수 있다. 디코딩 유닛(150)이 그의 정확한 공간 위치에서 과도 상태 잡음 및/또는 토크 버스트를 재구성할 수 있도록, 시간 평활화 없이 과도 상태 잡음 및/또는 토크 버스트에 대한 공간 파라미터를 캡처하는 것이 지각적으로 중요할 수 있다. 하지만, 배경 잡음의 공분산에서의 급격한 변화가 가청 불연속성 및/또는 아티팩트를 유발할 수 있기 때문에, (과도 상태 잡음 및/또는 토크 버스트의 영향 없이) 공간 배경 잡음을 모델링하기 위해 공분산 평활화 필터 상태를 유지하는 것이 또한, 지각적으로 중요할 수 있다.
방법(600)은 시간 평활화를 수행할 때 (과도 상태 잡음 및/또는 토크 버스트를 포함하는) 하나 이상의 식별된 프레임을 무시하는 단계, 및/또는 현재 프레임에 대한 공분산을 결정하기 위한 시간 평활화 계산으로부터 하나 이상의 식별된 프레임을 제거하는 단계를 포함할 수 있다. 다시 말해, 상대적으로 짧은 과도 상태 잡음 및/또는 토크 버스트를 포함하는 하나 이상의 중간 활성 프레임이 공분산의 시간 평활화 동작으로부터 제거될 수 있다. 이의 결과로서, 공간 배경 잡음의 지각 품질이 개선될 수 있다. 결과로서, 디코딩 유닛(150)에서 재구성된 공간 배경 잡음의 공간 특성의 급격한 변화가 회피될 수 있으며, 이는 개선된 지각 품질을 달성한다.
방법(600)은 현재 프레임이 미리 결정된 버스트 지속 시간 임계치보다 적게 프레임의 시퀀스로부터의 하나 이상의 선행하는 비활성 프레임의 세트에 (바로) 뒤따르는 활성 프레임인 것으로 결정하는 단계를 포함할 수 있다. 그 후, 현재 프레임에 대한 공분산은 현재 프레임을 고려하지 않고 결정될 수 있다. 그 후, 현재 프레임에 대한 공분산은 하나 이상의 선행하는 비활성 프레임의 세트를 기초로 결정된 참조 공분산을 기초로 결정될 수 있다. 따라서, 비활성 프레임의 시퀀스에 뒤따르는 활성 프레임은 공분산의 시간 평활화 동안 무시될 수 있고, 그에 의해 디코딩 유닛(150)에서 공간 배경 잡음의 지각 품질을 증가시킨다.
대안적으로, 방법(600)은 현재 프레임이 미리 결정된 버스트 지속 시간 임계치보다 많게, 프레임의 시퀀스로부터의 하나 이상의 선행하는 비활성 프레임의 세트에 (바로) 뒤따르는 활성 프레임인 것으로 결정하는 단계를 포함할 수 있다. 다시 말해서, 현재 프레임이 상대적으로 짧은 과도 상태 및/또는 버스트의 일부가 아니라, 스피치 및/또는 신호를 포함한다는 것이 결정될 수 있다. 그 후, 현재 프레임에 대한 공분산은 현재 프레임으로부터의 샘플을 기초로, 특히 샘플만을 기초로 결정될 수 있다. 따라서, 다중-채널 입력 신호(101) 내의 스피치 및/또는 신호의 시작을 검출하는 것 이후에, 공분산 계산의 재설정이 수행될 수 있다. 이의 결과로서, 재구성된 다중-채널 신호(111)의 지각 품질이 개선될 수 있다.
방법(600)은 현재 프레임이 비활성 프레임인 것으로 결정하는 단계를 포함할 수 있다. 이 경우, 현재 프레임에 대한 공분산은 현재 프레임에 (바로) 뒤따르는 프레임의 시퀀스로부터 하나 이상의 후속 프레임에 대한 공분산을 결정하기 위한 시간 평활화를 수행하기 위한 참조 공분산으로 저장될 수 있다. 비활성 프레임의 공분산을 하나 이상의 후속(비활성) 프레임의 공분산의 계산을 위한 참조 공분산으로 저장함으로써, 시간 평활화는 효율적인 방식으로 수행될 수 있다.
나아가, 방법(600)은 현재 프레임에 (바로) 뒤따르는 프레임의 시퀀스로부터의 후속 프레임에 대해, 그리고 현재 프레임이 비활성 프레임인 경우, 신호 및/또는 음성 활동 검출기를 사용하여, 후속 프레임이 활성 프레임인지 또는 비활성 프레임인지를 결정하는 단계를 포함할 수 있다. 후속 프레임이 비활성 프레임인 경우, 후속 프레임에 대한 공분산은 (망각 인자를 고려하면서) 현재 프레임의 샘플을 기초로, 특히 현재 프레임에 대한 공분산을 기초로, 및 후속 프레임의 샘플을 기초로 결정될 수 있다. 이렇게 함으로써, 신뢰성 있고 효율적인 방식으로 시간 평활화가 수행될 수 있다.
방법(600)은 다수의 상이한 주파수 대역 내에서 다중-채널 입력 신호(101)의 현재 프레임에 대한 공분산, 특히 공분산 행렬을 결정하는 단계를 포함할 수 있다. 위에서 나타낸 바와 같이, 주파수 대역의 수는 현재 프레임이 활성 프레임인지 또는 비활성 프레임인지에 의존할 수 있다. 특히, 현재 프레임이 활성 프레임인 경우, 주파수 대역의 수는 현재 프레임이 비활성 프레임인 경우보다 더 많을 수 있다. 그 후, 업믹싱 메타데이터(105)의 하나 이상의 파라미터는 현재 프레임에 대한 공분산을 기초로 결정될 수 있다. 특히, 복수의 주파수 대역에 대한 대응하는 복수의 공분산을 기초로 복수의 주파수 대역에 대해 복수의 파라미터가 결정될 수 있다. 이의 결과로서, 주파수-의존 파라미터는 신뢰할 수 있고 정밀한 방식으로 결정될 수 있다.
현재 프레임이 비활성 프레임인 것으로 결정되는 경우, 이는 현재 프레임에 바로 선행하는 프레임의 시퀀스로부터의 선행하는 프레임이 비활성 프레임인지가 결정될 수 있다. 다시 말해, 현재 프레임이 SID(침묵 표시자(silence indicator)) 프레임인지, 또는 ND(노 데이터(no data)) 프레임인지가 결정될 수 있다. 선행하는 프레임이 비활성 프레임이고, 마지막 SID 프레임 이후의 연속적인 비활성 프레임의 수가 미리-계산된 SID 프레임 간격보다 작은 경우(즉, 현재 프레임이 ND 프레임인 경우), 이는 현재 프레임에 대한 다운믹스 신호(103) 및/또는 업믹싱 메타데이터(105)를 비트스트림으로 인코딩하는 것(604)이 억제될 수 있으며, 그로 인해 공간 배경 잡음을 시그널링하기 위한 데이터 레이트를 추가로 감소시킬 수 있다. 다른 한편으로, 선행하는 프레임이 활성 프레임이거나, 또는 마지막 SID 프레임 이후 연속적인 비활성 프레임의 수가 미리-계산된 SID 프레임 간격과 동일한 경우(즉, 현재 프레임이 SID 프레임인 경우), 현재 프레임에 대한 다운믹스 신호(103) 및 업믹싱 메타데이터(105)는 비트스트림으로 인코딩될 수 있으며, 그로 인해 공간 배경 잡음의 정밀한 시그널링을 제공할 수 있다.
현재 프레임이 활성 프레임인 경우, 다운믹스 신호(103)의 각각의 채널은 (EVS와 같은) 모노 오디오 인코더의 인스턴스를 사용하여 개별적으로 인코딩될 수 있으며, 여기서 모노 오디오 인코더는 다운믹스 신호(103)의 채널 내의 오디오 신호를 (인코딩된) 여기 신호로 및 (인코딩된) 스펙트럼 데이터로 인코딩하도록 구성될 수 있다.
현재 프레임이 비활성 (SID) 프레임인 경우, 다운믹스 신호(103)의 각각의 채널은 (EVS와 같은) 모노 오디오 인코더의 인스턴스를 사용하여 개별적으로 인코딩될 수 있다. 하지만, 이 경우, (인코딩된) 여기 신호는 비트스트림에 삽입되지 않을 수 있다. 다른 한편으로, (인코딩된) 스펙트럼 데이터는 비트스트림에 삽입될 수 있다. 이의 결과로서, 배경 잡음의 스펙트럼 특성에 관한 스펙트럼 데이터가 효율적인 방식으로 비트스트림에 삽입될 수 있다.
대응하는 디코딩 유닛(150)에서, 다운믹스 신호(103)의 하나 이상의 채널의 여기 신호는 백색 잡음으로 대체될 수 있다(여기서 상이한 채널에 대한 백색 잡음은 일반적으로 서로 독립적이다). 나아가, (인코딩된) 스펙트럼 데이터는 재구성된 다운믹스 신호(114)를 제공하기 위해 다운믹스 신호(103)의 하나 이상의 채널에 스펙트럼 특성을 추가하는 데 사용될 수 있다.
방법(600)은 SID 프레임의 송신의 주파수가 가변적인 가변 레이트 DTX를 포함할 수 있다. SID 프레임의 송신의 주파수는 입력 신호(101)의 배경 잡음 또는 신호 대 잡음비의 공간 및/또는 스펙트럼 특성의 변화에 의존하여 변할 수 있다. 위에서 약술된 바와 같이, 입력 신호(101)의 프레임은 활성 프레임 또는 비활성 프레임으로 분류될 수 있다. 입력 신호(101)의 프레임의 시퀀스는 비활성 프레임의 서브 시퀀스를 포함할 수 있다. 비활성 프레임의 서브시퀀스 내에 포함된 잡음의 공간 및/또는 스펙트럼 특성에 관한 정보를 제공하기 위해, 인코딩 유닛(100)은 SID 프레임을 반복적으로, 특히 주기적으로 비트스트림에 삽입하도록 구성될 수 있다. 각각의 SID 프레임은 본 문서에서 설명된 업믹싱 메타데이터(105)를 포함할 수 있다. SID 프레임에 대한 빈도 또는 반복 레이트는 입력 신호(101)에 의존하여 적응될 수 있다.
특히, 현재 비활성 프레임 내의 잡음의 공간 및/또는 스펙트럼 특성의 기회(chance)가 이전의 비활성 프레임에 대해 발생했는지를 결정하기 위해, 현재 비활성 프레임이 분석될 수 있다. 예로서, 현재 비활성 프레임에 대한 업믹싱 메타데이터(105)와 이전의 비활성 프레임의 업믹싱 메타데이터(105) 사이의 거리 측정 값이 미리 결정된 거리 임계치보다 큰지가 결정될 수 있다. 이 경우, 변한 업믹싱 메타데이터(105)를 디코딩 유닛(150)으로 시그널링하기 위해, 현재 비활성화된 프레임에 SID 프레임이 삽입될 수 있다. 다른 한편으로, 거리 측정 값이 거리 임계치보다 작은 경우, 현재 비활성 프레임은 ND 프레임으로 취급될 수 있다.
위에서 약술된 바와 같이, 입력 오디오 신호(101)는 인코딩 유닛(100)에 제공될 수 있으며, 여기서 입력 오디오 신호(101)는 일련의 프레임을 포함한다. 프레임은 예를 들어, 20ms의 시간 길이를 가질 수 있다. 일련의 프레임은 오디오 또는 음성 프레임의 서브세트, 및 배경 잡음만으로 구성된 프레임의 서브세트를 포함할 수 있다. 오디오 프레임의 예시적인 시퀀스가 고려될 수 있고
A---A--ST---S----S---S---S----S---S---S----S---S----S---S---S---ST----S---S---S----S---S---S----S---A---A--A--A
여기서 "A"는 활성 스피치 및/또는 오디오 프레임을 나타내고, "S"는 (본원에서는 비활성 프레임으로 또한 지칭되는) 침묵 프레임을 나타내고, "ST"는 침묵 송신된 프레임을 나타내며, 이에 대해 배경 잡음의 스펙트럼 및/또는 공간 특성에서의 변화가 검출되고, 따라서 공간 및/또는 스펙트럼 파라미터가 코딩되고, 디코딩 유닛(150)으로 전송될 것이다.
잡음 성형 파라미터만을 전송하고 배경 잡음 특성이 활성 스피치 또는 오디오 프레임만큼 빈번하게 변하지 않는다고 가정함으로써, 비활성 프레임 동안 코덱의 실제 비트레이트가 크게 감소되는 불연속 송신(DTX) 시스템의 경우, 위의 시퀀스는 인코딩 유닛(100)에 의해 다음의 프레임의 시퀀스로 번역될 수 있고:
AB-AB-SID-ND-ND-ND-ND-ND-ND-ND-ND-ND-ND-ND-ND-SID-ND-ND-ND-ND-ND-ND-ND-AB-AB-AB-AB
여기서 "AB"는 활성 프레임에 대한 인코더 비트스트림을 나타내고, "SID"는 통신 잡음 생성을 위한 일련의 비트를 포함하는 침묵 표시자 프레임을 나타내고, "ND"는 노 데이터프레임 즉, 이들 프레임 동안 디코딩 유닛(150)으로 어느 것도 송신되지 않는다는 것을 나타낸다. 위의 시퀀스에서 SID 프레임의 송신의 주파수는 미리 결정되지 않으며, 입력 배경 잡음의 스펙트럼 및/또는 공간 특성의 변화에 의존한다.
따라서, 방법(600)은 현재 프레임이 비활성 프레임인 경우, 현재 프레임에 대한 공분산 행렬에서의 변화를 기초로 배경 잡음의 공간 및/또는 스펙트럼 특성에서의 변화를 검출하는 단계를 포함할 수 있다. 변화가 미리 결정된 임계치보다 큰 경우에, 단지 SID 프레임이 전송될 수 있다.
다시 말해, 방법(600)은 현재 프레임이 (현재 프레임에 바로 선행하는) 하나 이상의 이전의 비활성 프레임의 서브시퀀스에 뒤따르는 비활성 프레임인 것으로 결정하는 단계를 포함할 수 있다. 나아가, 방법(600)은 현재 프레임 내에 포함된 배경 잡음의 공간 및/또는 스펙트럼 특성, 및/또는 현재 프레임의 신호 대 잡음비가 하나 이상의 이전의 비활성 프레임의 서브시퀀스에서의 배경 잡음의 대응하는 공간 및/또는 스펙트럼 특성에 관련하여, 및/또는 하나 이상의 이전의 비활성 프레임의 서브시퀀스의 신호 대 잡음비에 관련하여 변하는지를 결정하는 단계를 포함할 수 있다.
방법(600)은, 현재 프레임 내에 포함된 배경 잡음의 공간 및/또는 스펙트럼 특성 및/또는 현재 프레임의 신호 대 잡음비가 하나 이상의 이전의 비활성 프레임의 서브시퀀스에 관련하여 변한 것으로 결정되는 경우에, 특히 변한 것으로 결정되는 경우에만, 현재 프레임에 대한 업믹싱 메타데이터(105)를 비트스트림으로 인코딩하는 단계(604)를 더 포함할 수 있다. 따라서, 현재 프레임은, 현재 프레임 내에 포함된 배경 잡음의 공간 및/또는 스펙트럼 특성 및/또는 현재 프레임의 신호 대 잡음비가 변한 경우에, 특히 변한 경우에만, SID 프레임으로서 인코딩될 수 있다.
대안적으로 또는 추가로, 방법(600)은 현재 프레임이 하나 이상의 이전의 비활성 프레임에 뒤따르는 비활성 프레임인 것으로 결정하는 단계를 포함할 수 있다. 추가로, 방법(600)은 현재 프레임에 대한 공분산 및/또는 업믹싱 메타데이터(105)와 하나 이상의 이전의 비활성 프레임에 대한 이전의 공분산 및/또는 이전의 업믹싱 메타데이터(105) 사이의 거리 측정 값(예를 들어, 평균 제곱 오차)을 결정하는 단계를 포함할 수 있다. 다시 말해, 이는 현재 프레임에 대한 공분산이 하나 이상의 이전의 비활성 프레임에 대한 대응하는 이전의 공분산으로부터 얼마나 벗어나는지에 의해, 및/또는 현재 프레임에 대한 업믹싱 메타데이터(105)가 하나 이상의 이전의 비활성 프레임에 대한 이전의 업믹싱 메타데이터(105)로부터 얼마나 벗어나는지에 의해 결정될 수 있다. 이전의 업믹싱 메타데이터(105)는 마지막 SID 프레임에서 전송된 업믹싱 메타데이터일 수 있다. 이전의 공분산은 이전의 업믹싱 메타데이터(105)를 생성하기 위해 사용된 공분산일 수 있다.
방법(600)은 거리 측정 값이 미리 결정된 거리 임계치보다 큰지를 결정하는 단계를 더 포함할 수 있다. 현재 프레임에 대한 업믹싱 메타데이터(105)를 비트스트림으로 인코딩하는 단계(604)은, 거리 측정 값이 미리 결정된 거리 임계치보다 큰 경우에, 특히 미리 결정된 거리 임계치보다 큰 경우에만 수행될 수 있다. 대안적으로, 이는 거리 측정 값이 미리 결정된 거리 임계치보다 작은 경우에, 특히 미리 결정된 거리 임계치보다 작은 경우에만, 현재 프레임에 대한 업믹싱 메타데이터(105)를 비트스트림으로 인코딩하는 단계(604)가 억제될 수 있다.
따라서, 배경 잡음 파라미터의 (즉, 업믹싱 메타데이터(105)의) 송신은 비주기적일 수 있고, 신호 대 잡음비의 및/또는 입력 배경 잡음의 공간 및/또는 스펙트럼 특성에서의 변화에 의존할 수 있다. 특히, 공간 및/또는 스펙트럼 특성에서의 및/또는 신호 대 잡음비에서의 변화가 미리 결정된 임계치보다 높은 경우에만, 배경 잡음 파라미터가 업데이트될 수 있고, 디코딩 유닛(150)으로 전송될 수 있다.
SID 프레임의 적응적 송신을 가능하게 함으로써, 통신 잡음의 지각 품질에 영향을 미치지 않고 데이터 레이트가 추가로 감소될 수 있다.
대응하는 디코딩 방법은 현재 프레임이 비활성 프레임인 경우, 디코딩 유닛(150)에서 현재 프레임이 SID 프레임인지 NO_DATA 프레임인지를 결정하는 단계를 포함할 수 있다. 현재 SID 프레임에서의 공간 배경 잡음 파라미터를 다수의 NO_DATA 프레임에 걸쳐 하나 이상의 이전의 SID 프레임(들)에서의 공간 배경 잡음 파라미터와 크로스페이딩한다(crossfading). 예를 들어, Pcurr_sid가 현재 SID 프레임에 대한 파라미터이고 Pprev_sid가 이전의 SID 프레임에 대한 파라미터이면, 배경 잡음 파라미터에서의 변화 Pcurr_sid - Pprev_sid가 다수(x개)의 프레임(x>1)에 걸쳐 적용될 수 있으며, 여기서 모든 후속 프레임에서의 공간 파라미터는 (Pcurr_sid - Pprev_sid)/x만큼 변한다. 이는 하나의 공간 위치로부터 다른 공간 위치로의 공간 통신 잡음의 원활한 전환을 보장한다.
방법(600)은 현재 프레임의 (바로) 선행하는 프레임이 활성 프레임인 경우, 선행하는 클레임(claim)에 대한 다운믹스 신호(103)의 채널의 수를 결정하는 단계, 및 선행하는 클레임(claim)에 대한 다운믹스 신호(103)와 동일한 수로, 현재 프레임에 대한 다운믹스 신호(103)의 채널의 수를 유지하는 단계를 포함할 수 있다. 다시 말해, 다운믹스 신호(103) 내의 채널의 수는 활성 프레임과 비활성 프레임 사이의 전환 동안 유지될 수 있다. 이의 결과로서, 공간 배경 잡음의 지각 품질이 추가로 증가될 수 있다.
위에서 약술된 바와 같이, 다중-채널 입력 신호(101)는 W 채널, Y 채널, Z 채널 및 X 채널을 갖는 앰비소닉 신호를 포함할 수 있다. 특히, 다중-채널 입력 신호(101)는 FOA 신호일 수 있다. 방법(600)은 다운믹스 신호(103)의 채널을 생성하기 위해, 믹싱 인자 f를 사용하여 W 채널을 Y 채널, Z 채널 및/또는 X 채널과 믹싱하는 단계를 포함할 수 있다. 믹싱 프로세스의 결과로서, 여기서는 W' 채널로 지칭되는 W 채널의 표현이 획득될 수 있다. Y, Z 및/또는 X 채널로부터의 정보를 W 채널로 믹싱함으로써, 원래 W 채널보다 더 많은 공간 정보를 포함하는 수정된 W' 채널이 획득된다. 이의 결과로서, 인코딩 방식의 지각 품질이 개선될 수 있거나, 및/또는 다운믹스 신호(103) 내의 다운믹스 채널의 수가 감소될 수 있다.
(Y, Z 및/또는 X 채널이 W 채널에 믹스되는 정도를 정의하는) 믹싱 인자는 현재 프레임이 활성 프레임인지 또는 비활성 프레임인지에 의존할 수 있다. 특히, 현재 프레임이 활성 프레임인 경우, 믹싱 인자는 현재 프레임이 비활성 프레임인 경우보다 더 높을 수 있다. 다시 말해, Y, Z 및/또는 X 채널은 비활성 프레임보다 활성 프레임에 대해 더 높은 정도로 W 채널에 믹스될 수 있다. 이렇게 함으로써, 인코딩 방식의 지각 품질이 추가로 개선될 수 있다.
도 6b는 N개의 채널을 포함하는 재구성된 다중-채널 신호(111)를 나타내는 비트스트림을 디코딩하기 위한 예시적인 방법(610)의 흐름도를 도시한다. 비트스트림은 오디오 데이터(106) 및/또는 인코딩된 업믹싱 메타데이터(107)를 포함할 수 있다. 재구성된 신호(111)는 프레임의 시퀀스를 포함한다.
방법(610)은 프레임의 시퀀스의 현재 프레임에 대해, 비트스트림을 기초로 현재 프레임이 활성 프레임인지 또는 비활성 프레임인지를 결정하는 단계(611)를 포함한다. 이는 예를 들어, 비트스트림 내에 포함된 인코딩된 업믹싱 메타데이터(107)를 기초로 결정될 수 있다. 나아가, 방법(610)은 재구성된 다운믹스 신호(114)를 결정하는 단계(612)를 포함할 수 있다. 재구성된 다운믹스 신호(114)는 일반적으로 N개 미만의 채널을 포함한다(그러나 N개의 채널을 포함할 수 있다). 재구성된 다운믹스 신호(114)는, 현재 프레임이 활성 프레임인 경우, 비트스트림 내에 포함된 오디오 데이터(106)를 기초로 생성될 수 있다. 다른 한편으로, 비트스트림은 일반적으로 비활성 프레임에 대한 오디오 데이터(106)를 포함하지 않는다. 재구성된 다운믹스 신호(114)는, 현재 프레임이 비활성 프레임인 경우, 랜덤 잡음 생성기를 사용하여 생성될 수 있다. 재구성된 다운믹스 신호(114)의 하나 이상의 상이한 채널에 대해 통계적으로 독립적인 잡음 생성기가 사용될 수 있다.
방법(610)은 재구성된 다운믹스 신호(114)에 기초로 그리고 파라미터의 세트를 포함하는 업믹싱 메타데이터(105)를 기초로, 재구성된 다중-채널 신호(111)를 생성하는 단계(613)를 더 포함한다. 재구성된 다중-채널 신호(111)는 현재 프레임이 활성 프레임인지 또는 비활성 프레임인지에 의존하여 생성될 수 있다.
특히, 방법(610)은 재구성된 다운믹스 신호(114)에 포함되지 않은 재구성된 다중-채널 신호(111)의 채널에 대해 역상관된 채널을 생성하는 단계를 포함할 수 있다. 역상관된 채널은 재구성된 다운믹스 신호(103)를 기초로(특히 재구성된 W 채널을 기초로) 생성될 수 있다. 나아가, 방법(610)은 재구성된 다운믹스 신호(114) 내에 포함된 하나 이상의 재구성된 채널이 아닌, 재구성된 다중-채널 신호(111)의 재구성된 채널을 생성하기 위해 업믹싱 메타데이터(105)를 기초로 역상관된 채널에 공간 속성을 추가하는 단계를 포함할 수 있다.
신호(111)의 프레임이 활성 프레임인지 또는 비활성 프레임인지에 의존하여, 재구성된 다중-채널 신호(111)의, 특히 다중-채널 신호(111)의 하나 이상의 재구성된 채널의 재구성을 적응시킴으로써, 고품질의 공간 배경 잡음이 제공될 수 있다.
대응하는 인코딩 방법(600)의 맥락에서 약술된 바와 같이, 업믹싱 메타데이터(105)는 일반적으로 비활성 프레임의 단편에 대해서만 송신된다. 디코딩 유닛(150)은 SID 프레임에 뒤따르는 복수의 비활성 프레임에 대해 SID 프레임 내에서 송신된 업믹싱 메타데이터(105)를 사용하도록 구성될 수 있다. 특히, 업믹싱 메타데이터(105)는 새로운 SID 프레임이 수신될 때까지 사용될 수 있다. 이렇게 함으로써, 고품질의 통신 잡음이 데이터 레이트 효율적인 방식으로 생성될 수 있다.
방법(610)은 현재 프레임이 하나 이상의 이전의 비활성 프레임에 뒤따르는 비활성 프레임이라는 것을 결정하는 단계를 포함할 수 있으며, 여기서 하나 이상의 이전의 비활성 프레임에 대한 재구성된 다중-채널 신호(111)를 생성하는 데 이전의 업믹싱 메타데이터(105)가 사용되었다. 나아가, 방법(610)은 비트스트림이 현재 프레임에 대한 업데이트된 업믹싱 메타데이터(105)를 포함하는 것으로 결정하는 단계를 포함할 수 있다. 다시 말해, 현재 프레임이 (배경 잡음의 업데이트된 공간 및/또는 스펙트럼 특성을 시그널링하기 위한, 업데이트된 업믹싱 메타데이터(105)를 포함하는) SID 프레임인 것으로 결정될 수 있다.
그 후, 현재 프레임에 대한 재구성된 다중-채널 신호(111)(즉, 공간 배경 잡음)는 업데이트된 업믹싱 메타데이터(105)를 기초로 생성될 수 있다. 업데이트된 업믹싱 메타데이터(105)를 갖는 SID 프레임을 수신함으로써, 인코딩 유닛(100)에서 배경 잡음에서의 변화가 효율적인 방식으로 추적될 수 있다.
방법(610)은 평활화된 업믹싱 메타데이터(105)를 결정하기 위해, 업데이트된 업믹싱 메타데이터(105) 및 이전의 업믹싱 메타데이터(105)를 기초로 메타데이터 평활화를 수행하는 단계를 포함할 수 있다. 메타데이터 평활화는 현재 프레임에서 시작하는 하나 이상의 비활성 프레임 내에서 이전의 업믹싱 메타데이터(105)로부터, 업데이트된 업믹싱 메타데이터(105)로의 크로스페이딩을 포함할 수 있다. 그 후, 현재 프레임에 대한 재구성된 다중-채널 신호(111)는 평활화된 업믹싱 메타데이터(105)를 기초로 결정될 수 있다.
다시 말해, 공간 메타데이터 평활화는 디코딩 유닛(150)에 의해 수행될 수 있고, 현재 SID 프레임에서 전송된 공간 파라미터는 다수의 NO_DATA(ND) 프레임에 걸쳐 하나 이상의 이전의 SID 프레임에서 전송된 공간 파라미터와 크로스페이드될 수 있다.
따라서, 이전의 공간 및/또는 스펙트럼 특성과 배경 잡음의 업데이트된 공간 및/또는 스펙트럼 특성 사이의 원활한 전환이 하나 이상의 프레임 내에서 수행될 수 있다. 이렇게 함으로써, 통신 잡음의 지각 품질이 더욱 증가될 수 있다.
나아가, 본 문서에서는 인코딩 방법(600)에 대응하는 인코딩 유닛(100) 및/또는 디코딩 방법(610)에 대응하는 디코딩 유닛(150)이 설명된다.
따라서, 잡음의 공간 특성을 모델링하기 위해 활성 프레임에 사용되는 동일하거나 상이한 다운믹스(103) 및 공간 파라미터(105)를 사용하는 방법(600)이 설명되며, 그로 인해 활성 프레임과 비활성 프레임 사이에서 공간적으로 일정한 디코더(150)에서의 통신 잡음 생성을 허용한다. 방법(600)은 오디오 입력(101)의 하나 이상의 프레임에 음성 신호가 존재하는지를 결정하는 단계를 포함할 수 있다. 어떠한 음성 신호도 존재하지 않는다는 결정에 응답하여, 프레임 간 평균화를 사용하여 공분산이 추정될 수 있다. 나아가, 공간 잡음 파라미터(105)가 계산될 수 있고, 공간 잡음 파라미터(105)의 엔트로피 코딩이 수행될 수 있다. 공간 잡음 파라미터(107)의 엔트로피 코딩이 하나 이상의 프레임에 대한 비트스트림으로 패킹될 수 있다.
방법(600)은, 하나 이상의 프레임의 프레임에서 과도 상태를 검출하는 것에 응답하여, 공분산 평균화로부터 프레임을 제거하는 단계를 포함할 수 있다. 공간 잡음 파라미터(105)를 계산하는 단계는 잡음에서의 공간 가변성을 회피하기 위해 다수의 프레임에 걸쳐 평활화되는 평활화된 공분산 추정으로 수행될 수 있다. 방법(600)은 과도 상태 및 짧은 토크 버스트에 걸친 공분산을 평활화하는 단계 및 계산으로부터 이들을 제거하는 단계를 포함할 수 있다. 대안적으로 또는 추가로, 방법(600)은 잡음에 대한 파라미터 비트레이트를 감소시키기 위해 제한된 대역의 세트 및/또는 제한된 파라미터의 세트를 사용하는 단계 및 오디오가 존재할 때 전체 세트로 스위칭 백(switching back)하는 단계를 포함할 수 있다. 대안적으로 또는 추가로, 방법(600)은 기존의 통신 잡음 생성기의 재사용을 허용하기 위해, 잡음의 스펙트럼 요소와 별도로 공간 요소를 계산하는 단계를 포함할 수 있다.
도 5는 도 1 내지 4c를 참조하여 설명된 특성 및 프로세스를 구현하기 위한 모바일 디바이스 아키텍처이다. 모바일 디바이스는 예를 들어, 디코딩 유닛(150)을 포함할 수 있다. 아키텍처(800)는 데스크톱 컴퓨터, 소비자 시청각(AV) 장비, 무선 방송 장비, 모바일 디바이스(예를 들어, 스마트폰, 태블릿 컴퓨터, 랩톱 컴퓨터, 웨어러블 디바이스)를 포함하지만 이에 제한되지 않는 임의의 전자 디바이스에서 구현될 수 있다. 도시된 예시적인 실시예에서, 아키텍처(800)는 스마트폰용이고, 프로세서(들)(801), 주변 장치 인터페이스(802), 오디오 서브시스템(803), 라우드스피커(804), 마이크로폰(805), 센서(806)(예를 들어, 가속도계, 자이로, 기압계, 자력계, 카메라), 위치 프로세서(807)(예를 들어, GNSS 수신기), 무선 통신 서브시스템(808)(예를 들어, Wi-Fi, 블루투스, 셀룰러) 및 터치 제어기(810) 및 다른 입력 제어기(811)를 포함하는 I/O 서브시스템(들)(809), 터치 표면(812) 및 다른 입력/제어 디바이스(813)를 포함한다. 개시된 실시예를 구현하기 위해 더 많거나 더 적은 구성요소를 갖는 다른 아키텍처가 또한 사용될 수 있다.
메모리 인터페이스(814)는 프로세서(801), 주변 장치 인터페이스(802) 및 메모리(815)(예를 들어, 플래시, RAM, ROM)에 결합된다. 메모리(815)는 운영 체제 명령어(816), 통신 명령어(817), GUI 명령어(818), 센서 처리 명령어(819), 전화 명령어(820), 전자 메시징 명령어(821), 웹 브라우징 명령어(822), 오디오 처리 명령어(823), GNSS/내비게이션 명령어(824) 및 애플리케이션/데이터(825)를 포함하지만 이에 제한되지 않는 컴퓨터 프로그램 명령어 및 데이터를 저장한다. 오디오 처리 명령어(823)는 도 1 내지 4c를 참조로 설명된 오디오 처리를 수행하기 위한 명령어를 포함한다.
본원에서 설명된 시스템의 양상은 디지털 또는 디지털화된 오디오 파일을 처리하기 위한 적절한 컴퓨터-기반 사운드 처리 네트워크 환경에서 구현될 수 있다. 적응적 오디오 시스템의 일부는 컴퓨터 사이에서 송신된 데이터를 버퍼링하고 라우팅하는 역할을 하는 하나 이상의 라우터(미도시)를 포함하여, 임의의 원하는 수의 개별적인 기계를 포함하는 하나 이상의 네트워크를 포함할 수 있다. 이러한 네트워크는 다양한 상이한 네트워크 프로토콜 상에서 구축될 수 있고, 인터넷, 광역 통신망(Wide Area Network, WAN), 근거리 통신망(Local Area Network, LAN) 또는 이의 조합일 수 있다.
구성요소, 블록, 프로세스 또는 다른 기능 구성요소 중 하나 이상은 시스템의 프로세서 기반 컴퓨팅 디바이스의 실행을 제어하는 컴퓨터 프로그램을 통해 구현될 수 있다. 본원에 개시된 다양한 기능은 하드웨어, 펌웨어의 임의의 수의 조합을 사용하여, 및/또는 다양한 기계-판독가능 또는 컴퓨터-판독가능 매체에 구현된 데이터 및/또는 명령으로서, 그의 거동, 레지스터 전송, 로직 구성요소 및/또는 다른 특성에 대해 설명될 수 있다는 것을 또한 유의해야 한다. 이러한 포맷된 데이터 및/또는 명령어가 구현될 수 있는 컴퓨터 판독 가능 매체는 광학, 자기 또는 반도체 저장 매체와 같은 다양한 형태의 물리적(비일시적) 비휘발성 저장 매체를 포함하지만 이에 제한되지 않는다.
하나 이상의 구현이 예로서 그리고 특정 실시예에 대하여 설명되었지만, 하나 이상의 구현이 개시된 실시예에 제한되지 않는다는 것을 이해해야 한다. 반대로, 이는 이 기술분야의 기술자에게 명백한 바와 같이, 다양한 수정 및 유사한 배열을 포함하도록 의도된다. 그러므로, 첨부된 청구범위의 범주는 이러한 모든 수정 및 유사한 배열을 포괄하도록 가장 넓은 해석에 따라야 한다.

Claims (42)

  1. N개의 상이한 채널을 포함하는 다중-채널 입력 신호(101)를 인코딩하기 위한 방법(600)으로서, 상기 입력 신호(101)는 프레임의 시퀀스를 포함하고; 상기 방법(600)은 상기 프레임의 시퀀스의 현재 프레임에 대해,
    - 신호 및/또는 음성 활동 검출기(voice activity detector)를 사용하여 상기 현재 프레임이 활성 프레임인지 또는 비활성 프레임인지를 결정하는 단계(601);
    - 상기 다중-채널 입력 신호(101)를 기초로 다운믹스 신호(103)를 결정하는 단계(602) - 상기 다운믹스 신호(103)는 N개 이하의 채널을 포함함 - ;
    - 상기 다운믹스 신호(103)를 기초로, N개의 채널을 포함하는 재구성된 다중-채널 신호(111)를 생성하기 위한 파라미터의 세트를 포함하는 업믹싱 메타데이터(105)를 결정하는 단계(603) - 상기 업믹싱 메타데이터(105)는 상기 현재 프레임이 활성 프레임인지 또는 비활성 프레임인지에 의존하여 결정됨 - ; 및
    - 상기 업믹싱 메타데이터(105)를 비트스트림으로 인코딩하는 단계(604)를 포함하는, 방법(600).
  2. 제1항에 있어서, 상기 방법(600)은,
    - 상기 현재 프레임이 활성 프레임인지 또는 비활성 프레임인지에 의존하여, 상기 프레임의 시퀀스로부터의 다수의 프레임에 걸쳐 시간 평활화를 수행함으로써, 상기 다중-채널 입력 신호(101)의 상기 현재 프레임에 대한 공분산, 특히 공분산 행렬을 결정하는 단계; 및
    - 상기 현재 프레임에 대한 상기 공분산을 기초로, 상기 업믹싱 메타데이터(105)의 하나 이상의 파라미터를 결정하는 단계를 포함하는, 방법(600).
  3. 제2항에 있어서,
    - 상기 시간 평활화를 대한 망각 인자는 상기 현재 프레임이 활성 프레임인지 또는 비활성 프레임인지에 의존하거나; 및/또는
    - 상기 현재 프레임이 비활성 프레임인 경우, 상기 망각 인자는 상기 현재 프레임이 비활성 프레임인 경우보다 짧거나; 및/또는
    - 상기 현재 프레임이 활성 프레임인 경우, 시간 평활화의 양은 상기 현재 프레임이 비활성 프레임인 경우보다 낮은, 방법(600).
  4. 제3항에 있어서, 상기 공분산의 시간 평활화를 위한 상기 망각 인자는 주파수에 의존하는, 방법(600).
  5. 제2항 내지 제4항 중 어느 한 항에 있어서, 상기 방법(600)은,
    - 상기 프레임의 시퀀스로부터 과도 상태 잡음 또는 토크 버스트(talk burst)에 대응하는 하나 이상의 프레임을 식별하는 단계; 및
    - 시간 평활화를 수행할 때 상기 하나 이상의 식별된 프레임을 무시하는 단계, 및/또는 상기 현재 프레임에 대한 상기 공분산을 결정하기 위한 시간 평활화 계산으로부터 상기 하나 이상의 식별된 프레임을 제거하는 단계를 포함하는, 방법(600).
  6. 제2항 내지 제5항 중 어느 한 항에 있어서, 상기 방법(600)은,
    - 상기 현재 프레임이 미리 결정된 버스트 지속 시간 임계치보다 적게, 상기 프레임의 시퀀스로부터의 하나 이상의 선행하는 비활성 프레임의 세트에 뒤따르는 활성 프레임인 것으로 결정하는 단계; 및
    - 상기 현재 프레임을 고려하지 않고 상기 현재 프레임에 대한 상기 공분산을 결정하는 단계를 포함하는, 방법(600).
  7. 제6항에 있어서, 상기 현재 프레임에 대한 상기 공분산은 하나 이상의 선행하는 비활성 프레임의 세트를 기초로 결정되는 참조 공분산을 기초로 결정되는, 방법(600).
  8. 제2항 내지 제5항 중 어느 한 항에 있어서, 상기 방법(600)은,
    - 상기 현재 프레임이 미리 결정된 버스트 지속 시간 임계치보다 많게, 상기 프레임의 시퀀스로부터의 하나 이상의 선행하는 비활성 프레임의 세트에 뒤따르는 활성 프레임인 것으로 결정하는 단계; 및
    - 상기 현재 프레임으로부터의 샘플을 기초로, 특히 샘플 만을 기초로 상기 현재 프레임에 대한 상기 공분산을 결정하는 단계를 포함하는, 방법(600).
  9. 제2항 내지 제5항 중 어느 한 항에 있어서, 상기 방법(600)은,
    - 상기 현재 프레임이 비활성 프레임인 것으로 결정하는 단계; 및
    - 상기 현재 프레임에 대한 상기 공분산을, 상기 현재 프레임에 뒤따르는 상기 프레임의 시퀀스로부터의 후속 프레임에 대한 공분산을 결정하기 위한 시간 평활화를 수행하기 위한 참조 공분산으로 저장하는 단계를 포함하는, 방법(600).
  10. 제2항 내지 제9항 중 어느 한 항에 있어서, 상기 방법(600)은 상기 현재 프레임에 뒤따르는 상기 프레임의 시퀀스로부터의 후속 프레임에 대해, 상기 현재 프레임이 비활성 프레임인 경우,
    - 상기 신호 및/또는 상기 음성 활동 검출기를 사용하여 상기 후속 프레임이 활성 프레임인지 또는 비활성 프레임인지를 결정하는 단계;
    - 상기 후속 프레임이 비활성 프레임인 경우, 상기 현재 프레임의 샘플을 기초로, 특히 상기 현재 프레임에 대한 상기 공분산을 기초로 및 상기 후속 프레임의 샘플을 기초로, 상기 후속 프레임에 대한 상기 공분산을 결정하는 단계를 포함하는, 방법(600).
  11. 제1항 내지 제10항 중 어느 한 항에 있어서, 상기 방법(600)은,
    - 다수의 상이한 주파수 대역 내에서 상기 다중-채널 입력 신호(101)의 상기 현재 프레임에 대한 공분산, 특히 공분산 행렬을 결정하는 단계 - 상기 다수의 주파수 대역은 상기 현재 프레임이 활성 프레임인지 또는 비활성 프레임인지에 의존함 - ; 및
    - 상기 현재 프레임에 대한 상기 공분산을 기초로, 상기 업믹싱 메타데이터(105)의 하나 이상의 파라미터를 결정하는 단계를 포함하는, 방법(600).
  12. 제11항에 있어서, 상기 현재 프레임이 활성 프레임인 경우, 상기 다수의 주파수 대역은 상기 현재 프레임이 비활성 프레임인 경우보다 더 높은, 방법(600).
  13. 제1항 내지 제12항 중 어느 한 항에 있어서, 상기 현재 프레임이 활성 프레임인 경우, 상기 업믹싱 파라미터(105)의 파라미터의 세트는 상기 현재 프레임이 비활성 프레임인 경우보다 더 크거나, 및/또는 더 많은 수의 상이한 파라미터를 포함하는, 방법(600).
  14. 제1항 내지 제13항 중 어느 한 항에 있어서, 상기 방법(600)은,
    - 상기 현재 프레임이 비활성 프레임인 것으로 결정되는 경우, 상기 현재 프레임에 바로 선행하는 상기 프레임의 시퀀스로부터의 선행하는 프레임이 비활성 프레임인지를 결정하는 단계; 및
    - 상기 선행하는 프레임이 비활성 프레임인 경우, 그리고 업믹싱 메타데이터(105)의 마지막 송신 이후의 연속적인 비활성 프레임의 수가 미리 계산된 수 미만인 경우, 상기 현재 프레임에 대한 상기 업믹싱 데이터(105)를 상기 비트스트림으로 인코딩하는 단계(604)를 억제하는 단계; 및/또는
    - 상기 선행하는 프레임이 활성 프레임인 경우, 또는 상기 업믹싱 메타데이터(105)의 마지막 송신 이후의 연속적인 비활성 프레임의 수가 상기 미리 계산된 수와 동일한 경우, 상기 현재 프레임에 대한 상기 업믹싱 메타데이터(105)를 상기 비트스트림으로 인코딩하는 단계(604)를 포함하는, 방법(600).
  15. 제1항 내지 제14항 중 어느 한 항에 있어서, 상기 방법(600)은, 상기 현재 프레임에 바로 선행하는 상기 프레임의 시퀀스로부터의 선행하는 프레임이 활성 프레임인 경우,
    - 상기 선행하는 클레임(claim)에 대한 상기 다운믹스 신호(103)의 채널의 수를 결정하는 단계; 및
    - 상기 선행하는 클레임(claim)에 대한 상기 다운믹스 신호(103)와 동일한 수로, 비활성 현재 프레임에 대한 상기 다운믹스 신호(103)의 채널의 수를 유지하는 단계를 포함하는, 방법(600).
  16. 제1항 내지 제15항 중 어느 한 항에 있어서, 상기 업믹싱 메타데이터(105)의 상기 파라미터의 세트는 상기 다중-채널 입력 신호(101)의 상기 현재 프레임 내에 포함된 오디오 콘텐츠, 특히 잡음의 공간 특성을 설명하거나 및/또는 모델링하는, 방법(600).
  17. 제1항 내지 제16항 중 어느 한 항에 있어서,
    - 상기 다중-채널 입력 신호(101)는 SR로 지칭되는 음장 표현(soundfield representation) 신호를 포함하거나; 및/또는
    - 상기 업믹싱 메타데이터(105)는 SPAR로 지칭되는 공간 재구성기(Spatial Reconstructor) 메타데이터를 포함하는, 방법(600).
  18. 제1항 내지 제17항 중 어느 한 항에 있어서,
    - 상기 다중-채널 입력 신호(101)는 W 채널, Y 채널, Z 채널 및 X 채널을 갖는 앰비소닉 신호(ambisonics signal)를 포함하고; 및
    - 상기 업믹싱 메타데이터(105)의 상기 파라미터의 세트는 각각 Y' 채널, Z' 채널 및 X' 채널로 지칭되는 잔차 채널을 제공하도록 상기 W 채널의 표현을 기초로, 상기 Y채널, 상기 Z 채널 및 상기 X 채널을 예측하기 위한 예측 계수를 포함하는, 방법(600).
  19. 제18항에 있어서,
    - 상기 방법(600)은, 상기 다운믹스 신호(103)가 상기 W 채널의 표현에 추가로 제1 잔차 채널을 포함하는 경우, 상기 제1 잔차 채널과 상기 하나 이상의 나머지 잔차 채널 사이의 공분산에 의존하는 교차-예측 파라미터를 상기 업믹싱 메타데이터(150)의 일부로서 결정하는 단계를 포함하고;
    - 상기 교차-예측 파라미터는, 상기 현재 프레임이 비활성 프레임인 경우, 상기 현재 프레임에 대해 상기 비트스트림으로 인코딩되는 상기 업믹싱 메타데이터(105)의 일부가 아니고; 및
    - 상기 교차-예측 파라미터는, 상기 현재 프레임이 활성 프레임인 경우, 상기 현재 프레임에 대해 상기 비트스트림으로 인코딩되는 상기 업믹싱 메타데이터(105)의 일부인, 방법(600).
  20. 제18항 내지 제19항 중 어느 한 항에 있어서, 상기 방법(600)은 상기 잔차 채널의 공분산을 기초로, 상기 다운믹스 신호(103)에 포함되지 않은 잔차 채널을 재구성할 때, 역상관된 채널을 생성하기 위한 역상관 파라미터를 결정하는 단계를 포함하는, 방법(600).
  21. 제20항에 있어서, 상기 하나보다 많은 잔차 채널이 상기 다운믹스 신호(103)에 포함되지 않는 경우,
    - 상기 현재 프레임에 대한 상기 업믹싱 메타데이터(105)의 상기 파라미터의 세트는, 상기 현재 프레임이 활성 프레임인 경우 비-포함된 잔차 채널과 그 자체 또는 비-포함된 잔차 채널 중 다른 하나와의 각각의 가능한 조합에 대한 역상관 파라미터를 포함하고; 및
    - 상기 현재 프레임에 대한 상기 업믹싱 메타데이터(105)의 상기 파라미터의 세트는, 상기 현재 프레임이 비활성 프레임인 경우, 비-포함된 잔차 채널과 그 자체의 조합에 대해서만 역상관 파라미터를 포함하는, 방법(600).
  22. 제1항 내지 제21항 중 어느 한 항에 있어서,
    - 상기 파라미터의 세트는 다수의 상이한 주파수 대역에 대한 대응하는 파라미터를 포함하고; 및
    - 상기 현재 프레임이 활성 프레임인 경우, 상기 다수의 상이한 주파수 대역은, 상기 현재 프레임이 비활성 프레임인 경우보다 더 많은, 방법(600).
  23. 제1항 내지 제22항 중 어느 한 항에 있어서, 상기 방법(600)은,
    - 상기 현재 프레임이 하나 이상의 이전의 비활성 프레임의 서브시퀀스에 뒤따르는 비활성 프레임이라는 것을 결정하는 단계;
    - 상기 현재 프레임 내에 포함된 배경 잡음의 공간 및/또는 스펙트럼 특성 및/또는 상기 현재 프레임의 신호 대 잡음비가 상기 하나 이상의 이전의 비활성 프레임의 서브시퀀스에 관련하여 변했는지를 결정하는 단계; 및
    - 상기 현재 프레임 내에 포함된 상기 배경 잡음의 공간 및/또는 스펙트럼 특성 및/또는 상기 현재 프레임의 상기 신호 대 잡음비가 상기 하나 이상의 이전의 비활성 프레임의 서브시퀀스에 관련하여 변한 것으로 결정되는 경우에, 특히 변한 것으로 결정되는 경우에만, 상기 현재 프레임에 대한 상기 업믹싱 메타데이터(105)를 상기 비트스트림으로 인코딩하는 단계(604)를 포함하는, 방법(600).
  24. 제1항 내지 제23항 중 어느 한 항에 있어서, 상기 방법(600)은,
    - 상기 현재 프레임이 하나 이상의 이전의 비활성 프레임에 뒤따르는 비활성 프레임이라는 것을 결정하는 단계;
    - 상기 현재 프레임에 대한 상기 공분산 및/또는 상기 업믹싱 메타데이터(105)와 상기 하나 이상의 이전의 비활성 프레임에 대한 이전의 공분산 및/또는 이전의 업믹싱 메타데이터(105) 사이의 거리 측정 값을 결정하는 단계;
    - 상기 거리 측정 값이 미리 결정된 거리 임계치보다 큰지를 결정하는 단계; 및
    - 상기 거리 측정 값이 상기 미리 결정된 거리 임계치보다 큰 경우에, 특히 상기 미리 결정된 거리 임계치보다 큰 경우에만, 상기 현재 프레임에 대한 상기 업믹싱 메타데이터(105)를 상기 비트스트림으로 인코딩하는 단계(604); 및/또는
    - 상기 거리 측정 값이 상기 미리 결정된 거리 임계치보다 작은 경우에, 특히 상기 미리 결정된 거리 임계치보다 작은 경우에만, 상기 현재 프레임에 대한 상기 업믹싱 메타데이터(105)를 상기 비트스트림으로 인코딩하는 단계(604)를 억제하는 단계를 포함하는, 방법(600).
  25. 제1항 내지 제24항 중 어느 한 항에 있어서,
    - 상기 방법(600)은, 양자화기를 사용하여 상기 현재 프레임에 대한 상기 업믹싱 메타데이터(105)를 비트스트림으로 인코딩하기(604) 위한 상기 파라미터의 세트로부터의 파라미터를 양자화하는 단계를 포함하고;
    - 상기 양자화기, 특히 상기 양자화기의 양자화 스텝 크기(quantization step size) 및/또는 양자화 스텝의 수는,
    - 상기 현재 프레임이 활성 프레임인지 또는 비활성 프레임인지; 및/또는
    - 상기 다운믹스 신호(103)의 채널의 수; 및/또는
    - 상기 파라미터가 양자화되는 채널의 타입에 의존하는, 방법(600).
  26. 제1항 내지 제25항 중 어느 한 항에 있어서, 상기 방법(600)은,
    - 상기 비트스트림에 삽입될 오디오 데이터(106)를 제공하기 위해, 단일 채널 오디오 인코더의 하나 이상의 인스턴스를 사용하여 상기 다운믹스 신호(103)의 상기 하나 이상의 채널을 개별적으로 인코딩하는 단계(604); 및/또는
    - 상기 비트스트림에 삽입될 코딩된 메타데이터(107)를 제공하기 위해, 상기 업믹싱 메타데이터(105)의 상기 파라미터의 세트를 엔트로피 인코딩(entropy encoding)하는 단계를 포함하는, 방법(600).
  27. 제1항 내지 제26항 중 어느 한 항에 있어서, 상기 방법(600)은, 상기 현재 프레임이 활성 프레임인 경우에, 특히 활성 프레임인 경우에만, 상기 현재 프레임에 대한 상기 다운믹스 신호(103)를 상기 비트스트림으로 인코딩하는 단계를 포함하는, 방법(600).
  28. 제1항 내지 제27항 중 어느 한 항에 있어서, 상기 방법(600)은 상기 현재 프레임이 비활성 프레임인 경우,
    - 단일 채널 오디오 인코더의 하나 이상의 인스턴스를 사용하여, 상기 다운믹스 신호(103)의 상기 하나 이상의 채널의 각각의 채널에 대한 스펙트럼 데이터를 개별적으로 결정하는 단계; 및
    - 상기 스펙트럼 데이터를 상기 비트스트림에 삽입하는 단계를 포함하는, 방법(600).
  29. 제1항 내지 제28항 중 어느 한 항에 있어서, 상기 방법(600)은 상기 프레임의 시퀀스로부터의 각각의 프레임에 대해 반복되는, 방법(600).
  30. 제1항 내지 제29항 중 어느 한 항에 있어서, N>2인, 방법(600).
  31. 제1항 내지 제30항 중 어느 한 항에 있어서,
    - 상기 다중-채널 입력 신호(101)는 W 채널, Y 채널, Z 채널 및 X 채널을 갖는 앰비소닉 신호를 포함하고; 및
    - 상기 방법(600)은, 상기 다운믹스 신호(103)의 채널을 생성하기 위해, 믹싱 인자를 사용하여 상기 W 채널을 상기 Y 채널, 상기 Z 채널 및/또는 상기 X 채널과 믹싱하는 단계를 포함하고, 상기 믹싱 인자는 상기 현재 프레임이 활성 프레임인지 또는 비활성 프레임인지에 의존하는, 방법(600).
  32. 제31항에 있어서, 상기 현재 프레임이 활성 프레임인 경우, 상기 믹싱 인자는 상기 현재 프레임이 비활성 프레임인 경우보다 더 높은, 방법(600).
  33. N개의 채널을 포함하는 재구성된 다중-채널 신호(111)를 나타내는 비트스트림을 디코딩하기 위한 방법(610)으로서, 상기 재구성된 신호(111)는 프레임의 시퀀스를 포함하고; 상기 방법(610)은, 상기 프레임의 시퀀스의 현재 프레임에 대해,
    - 상기 비트스트림을 기초로, 상기 현재 프레임이 활성 프레임인지 또는 비활성 프레임인지를 결정하는 단계(611);
    - 재구성된 다운믹스 신호(114)를 결정하는 단계(612) - 상기 재구성된 다운믹스 신호(114)는 N개 이하의 채널을 포함함 - ; 및
    - 상기 재구성된 다운믹스 신호(114)를 기초로, 및 상기 비트스트림 내에 포함된 업믹싱 메타데이터(105)를 기초로 상기 재구성된 다중-채널 신호(111)를 생성하는 단계(613)를 포함하고; 상기 재구성된 다중-채널 신호(111)는 상기 현재 프레임이 활성 프레임인지 또는 비활성 프레임인지에 의존하여 생성되는, 방법(610).
  34. 제33항에 있어서, 상기 방법(610)은,
    - 상기 재구성된 다운믹스 신호(114)에 포함되지 않은 상기 재구성된 다중-채널 신호(111)의 채널에 대해 역상관된 채널을 생성하는 단계; 및
    - 상기 재구성된 다운믹스 신호(114) 내에 포함된 상기 하나 이상의 재구성된 채널이 아닌, 상기 재구성된 다중-채널 신호(111)의 재구성된 채널을 생성하기 위해, 상기 업믹싱 메타데이터(105)를 기초로 상기 역상관된 채널에 공간 속성을 추가하는 단계를 포함하는, 방법(610).
  35. 제34항에 있어서, 상기 역상관된 채널은 상기 재구성된 다운믹스 신호(114)를 기초로 생성되는, 방법(610).
  36. 제33항 내지 제35항 중 어느 한 항에 있어서,
    - 상기 재구성된 다운믹스 신호(114)는, 상기 현재 프레임이 활성 프레임인 경우 상기 비트스트림 내에 포함된 오디오 데이터(106)를 기초로 생성되거나; 및/또는
    - 상기 재구성된 다운믹스 신호(114)는, 상기 현재 프레임이 비활성 프레임인 경우 상기 비트스트림 내에 포함된 스펙트럼 데이터 및 랜덤 잡음 생성기를 사용하여 생성되는, 방법(610).
  37. 제33항 내지 제36항 중 어느 한 항에 있어서, 상기 방법(610)은,
    - 상기 현재 프레임이 하나 이상의 이전의 비활성 프레임에 뒤따르는 비활성 프레임인 것으로 결정하는 단계 - 이전의 업믹싱 메타데이터(105)는 상기 하나 이상의 이전의 비활성 프레임에 대한 상기 재구성된 다중-채널 신호(111)를 생성하기 위해 사용됨 - ;
    - 상기 비트스트림이 상기 현재 프레임에 대한 업데이트된 업믹싱 메타데이터(105)를 포함하는 것으로 결정하는 단계: 및
    - 상기 업데이트된 업믹싱 메타데이터(105)를 기초로 상기 현재 프레임에 대한 상기 재구성된 다중-채널 신호(111)를 생성하는 단계(613)를 포함하는, 방법(610).
  38. 제37항에 있어서, 상기 방법(610)은,
    - 평활화된 업믹싱 메타데이터(105)를 결정하기 위해, 상기 업데이트된 업믹싱 메타데이터(105) 및 상기 이전의 업믹싱 메타데이터(105)를 기초로 메타데이터 평활화를 수행하는 단계; 및
    - 상기 평활화된 업믹싱 메타데이터(105)를 기초로 상기 현재 프레임에 대한 상기 재구성된 다중-채널 신호(111)를 생성하는 단계(613)를 포함하는, 방법(610).
  39. 제38항에 있어서, 메타데이터 평활화는 상기 현재 프레임에서 시작하는 하나 이상의 비활성 프레임 내에서 상기 이전의 업믹싱 메타데이터(105)로부터 상기 업데이트된 업믹싱 메타데이터(105)로의 크로스페이딩을 포함하는, 방법(610).
  40. N개의 상이한 채널을 포함하는 다중-채널 입력 신호(101)를 인코딩하기 위한 인코딩 유닛(100)으로서, 상기 입력 신호(101)는 프레임의 시퀀스를 포함하고; 상기 프레임의 시퀀스의 현재 프레임에 대해, 상기 인코딩 유닛(100)은,
    - 신호 및/또는 음성 활동 검출기를 사용하여, 상기 현재 프레임이 활성 프레임인지 또는 비활성 프레임인지를 결정하고;
    - 상기 다중-채널 입력 신호(101)를 기초로 다운믹스 신호(103)를 결정하고 - 상기 다운믹스 신호(103)는 N개 이하의 채널을 포함함 - ;
    - 상기 다운믹스 신호(103)를 기초로, N개의 채널을 포함하는 재구성된 다중-채널 신호(111)를 생성하기 위한 파라미터의 세트를 포함하는 업믹싱 메타데이터(105)를 결정하고 - 상기 업믹싱 메타데이터(105)는 상기 현재 프레임이 활성 프레임인지 또는 비활성 프레임인지에 의존하여 결정됨 - ; 및
    - 상기 업믹싱 메타데이터(105)를 비트스트림으로 인코딩하도록 구성되는, 인코딩 유닛(100).
  41. N개의 채널을 포함하는 재구성된 다중-채널 신호(111)를 나타내는 비트스트림을 디코딩하기 위한 디코딩 유닛(150)으로서, 상기 재구성된 신호(111)는 프레임의 시퀀스를 포함하고; 상기 프레임의 시퀀스의 현재 프레임에 대해, 상기 디코딩 유닛(150)은,
    - 상기 비트스트림을 기초로, 상기 현재 프레임이 활성 프레임인지 또는 비활성 프레임인지를 결정하고;
    - 재구성된 다운믹스 신호(114)를 결정하고 - 상기 재구성된 다운믹스 신호(114)는 N개 이하의 채널을 포함함 - ; 및
    - 상기 재구성된 다운믹스 신호(114)를 기초로, 및 상기 비트스트림 내에 포함된 업믹싱 메타데이터(105)를 기초로 상기 재구성된 다중-채널 신호(111)를 생성하도록 구성되고; 상기 재구성된 다중-채널 신호(111)는 상기 현재 프레임이 활성 프레임인지 또는 비활성 프레임인지에 의존하여 생성되는, 디코딩 유닛(150).
  42. 명령어를 저장하는 비일시적 컴퓨터 판독가능 매체로서, 상기 명령어는 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서로 하여금, 제1항 내지 제39항 중 어느 한 항의 동작을 수행하게 하는, 비일시적 컴퓨터 판독가능 매체.
KR1020237000829A 2020-06-11 2021-06-10 다중-채널 입력 신호 내의 공간 배경 잡음을 인코딩 및/또는 디코딩하기 위한 방법 및 디바이스 KR20230023725A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063037650P 2020-06-11 2020-06-11
US63/037,650 2020-06-11
US202163193946P 2021-05-27 2021-05-27
US63/193,946 2021-05-27
PCT/US2021/036714 WO2021252705A1 (en) 2020-06-11 2021-06-10 Methods and devices for encoding and/or decoding spatial background noise within a multi-channel input signal

Publications (1)

Publication Number Publication Date
KR20230023725A true KR20230023725A (ko) 2023-02-17

Family

ID=76845310

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237000829A KR20230023725A (ko) 2020-06-11 2021-06-10 다중-채널 입력 신호 내의 공간 배경 잡음을 인코딩 및/또는 디코딩하기 위한 방법 및 디바이스

Country Status (11)

Country Link
US (1) US20230215445A1 (ko)
EP (1) EP4165629A1 (ko)
JP (1) JP2023530409A (ko)
KR (1) KR20230023725A (ko)
CN (1) CN115867964A (ko)
AU (1) AU2021288690A1 (ko)
BR (1) BR112022025226A2 (ko)
CA (1) CA3185659A1 (ko)
IL (1) IL298725A (ko)
MX (1) MX2022015324A (ko)
WO (1) WO2021252705A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024051955A1 (en) * 2022-09-09 2024-03-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and decoding method for discontinuous transmission of parametrically coded independent streams with metadata
WO2024051954A1 (en) * 2022-09-09 2024-03-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder and encoding method for discontinuous transmission of parametrically coded independent streams with metadata

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050969A (zh) 2013-03-14 2014-09-17 杜比实验室特许公司 空间舒适噪声
CN117351965A (zh) * 2016-09-28 2024-01-05 华为技术有限公司 一种处理多声道音频信号的方法、装置和系统
CN112119457A (zh) * 2018-04-05 2020-12-22 瑞典爱立信有限公司 可截断的预测编码
ES2956797T3 (es) * 2018-06-28 2023-12-28 Ericsson Telefon Ab L M Determinación de parámetros de ruido de confort adaptable

Also Published As

Publication number Publication date
IL298725A (en) 2023-02-01
WO2021252705A1 (en) 2021-12-16
EP4165629A1 (en) 2023-04-19
US20230215445A1 (en) 2023-07-06
CN115867964A (zh) 2023-03-28
JP2023530409A (ja) 2023-07-18
BR112022025226A2 (pt) 2023-01-03
AU2021288690A1 (en) 2023-01-19
MX2022015324A (es) 2023-02-27
CA3185659A1 (en) 2021-12-16

Similar Documents

Publication Publication Date Title
US9479886B2 (en) Scalable downmix design with feedback for object-based surround codec
KR101657251B1 (ko) 오디오 신호 프레임에서 이벤트들의 슬롯 위치들의 인코딩 및 디코딩
RU2749349C1 (ru) Кодер аудиосцены, декодер аудиосцены и соответствующие способы, использующие пространственный анализ с гибридным кодером/декодером
KR102590816B1 (ko) 방향 컴포넌트 보상을 사용하는 DirAC 기반 공간 오디오 코딩과 관련된 인코딩, 디코딩, 장면 처리 및 기타 절차를 위한 장치, 방법 및 컴퓨터 프로그램
EP3762923A1 (en) Audio coding
US20230215445A1 (en) Methods and devices for encoding and/or decoding spatial background noise within a multi-channel input signal
WO2019105575A1 (en) Determination of spatial audio parameter encoding and associated decoding
JP7405962B2 (ja) 空間オーディオパラメータ符号化および関連する復号化の決定
EP3987516B1 (en) Coding scaled spatial components
KR20170078648A (ko) 멀티채널 오디오 신호의 파라메트릭 인코딩 및 디코딩
JP2024510205A (ja) ダウンミックスされた信号の適応利得制御を有するオーディオコーデック
US20220293112A1 (en) Low-latency, low-frequency effects codec
US20240161754A1 (en) Encoding of envelope information of an audio downmix signal
GB2598104A (en) Discontinuous transmission operation for spatial audio parameters
KR20230084232A (ko) 오디오 파라미터의 양자화
WO2023156176A1 (en) Parametric spatial audio rendering
WO2022008571A2 (en) Packet loss concealment
WO2023172865A1 (en) Methods, apparatus and systems for directional audio coding-spatial reconstruction audio processing
CN113678199A (zh) 空间音频参数的重要性的确定及相关联的编码