KR20220054645A - 저지연, 저주파 효과 코덱 - Google Patents

저지연, 저주파 효과 코덱 Download PDF

Info

Publication number
KR20220054645A
KR20220054645A KR1020227010324A KR20227010324A KR20220054645A KR 20220054645 A KR20220054645 A KR 20220054645A KR 1020227010324 A KR1020227010324 A KR 1020227010324A KR 20227010324 A KR20227010324 A KR 20227010324A KR 20220054645 A KR20220054645 A KR 20220054645A
Authority
KR
South Korea
Prior art keywords
channel signal
lfe channel
coefficients
lfe
low
Prior art date
Application number
KR1020227010324A
Other languages
English (en)
Inventor
리샤브 티야기
데이비드 맥그래스
Original Assignee
돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 레버러토리즈 라이쎈싱 코오포레이션 filed Critical 돌비 레버러토리즈 라이쎈싱 코오포레이션
Publication of KR20220054645A publication Critical patent/KR20220054645A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

일부 구현예에서, 저주파 효과(LFE) 채널을 인코딩하는 방법은: 시간 영역 LFE 채널 신호를 수신하는 단계; 저역 통과 필터를 사용하여, 시간 영역 LFE 채널 신호를 필터링하는 단계; 필터링된 시간 영역 LFE 채널 신호를 LFE 채널 신호의 주파수 스펙트럼을 표현하는 다수의 계수를 포함하는 LFE 채널 신호의 주파수 영역 표현으로 변환하는 단계; 계수를 LFE 채널 신호의 상이한 주파수 대역에 대응하는 다수의 부대역 그룹으로 배열하는 단계; 저역 통과 필터의 주파수 응답 곡선에 따라 각각의 부대역 그룹의 계수를 양자화하는 단계; 부대역 그룹에 대해 동조된 엔트로피 코더를 사용하여, 각각의 부대역 그룹의 양자화된 계수를 인코딩하는 단계; 및 인코딩된 양자화된 계수를 포함하는 비트스트림을 생성하는 단계; 및 비트스트림을 저장 디바이스에 저장하거나 비트스트림을 다운스트림 디바이스로 스트리밍하는 단계를 포함한다.

Description

저지연, 저주파 효과 코덱
관련 출원에 대한 상호 참조
본 출원은 각각 전체적으로 참고로 포함되는, 2019년 9월 3일자로 출원된 미국 가특허출원 제62/895,049호 및 2020년 8월 24일자로 출원된 미국 가특허출원 제63/069,420호에 대한 우선권을 주장한다.
기술 분야
본 개시는 일반적으로 오디오 신호 처리, 특히 저주파 효과(LFE) 채널을 처리하는 것에 관한 것이다.
몰입형 서비스(immersive services)에 대한 표준화 노력에는 예를 들어, 음성, 다중 스트림 원격 회의, 가상 현실(VR), 사용자 생성 라이브 및 비 라이브 콘텐츠 스트리밍에 대한 몰입형 음성 및 오디오 서비스(IVAS) 코덱의 개발이 포함된다. IVAS 표준의 목표는 우수한 오디오 품질, 저지연, 공간 오디오 코딩 지원, 적절한 범위의 비트 전송률, 고품질 오류 복원력 및 실용적인 구현 복잡성을 갖춘 단일 코덱을 개발하는 데 있다. 이 목표를 달성하기 위해, IVAS 지원 디바이스 또는 LFE 신호를 처리할 수 있는 임의의 다른 디바이스에서 저지연 LFE 작업을 처리할 수 있는 IVAS 코덱을 개발하는 것이 바람직하다. LFE 채널은 20-120Hz 범위의 깊고 낮은 음조를 위한 것으로, 전형적으로 저주파 오디오 콘텐츠를 재생하도록 설계된 스피커로 전송된다.
구성 가능한 저지연 LFE 코덱에 대한 구현예들이 개시된다.
일부 구현예에서, 저주파 효과(LFE) 채널을 인코딩하는 방법은: 하나 이상의 프로세서를 사용하여, 시간 영역 LFE 채널 신호를 수신하는 단계; 저역 통과 필터를 사용하여, 시간 영역 LFE 채널 신호를 필터링하는 단계; 하나 이상의 프로세서를 사용하여, 필터링된 시간 영역 LFE 채널 신호를 LFE 채널 신호의 주파수 스펙트럼을 표현하는 다수의 계수를 포함하는 LFE 채널 신호의 주파수 영역 표현으로 변환하는 단계; 하나 이상의 프로세서를 사용하여, 계수를 LFE 채널 신호의 상이한 주파수 대역에 대응하는 다수의 부대역 그룹으로 배열하는 단계; 하나 이상의 프로세서를 사용하여, 저역 통과 필터의 주파수 응답 곡선에 따라 각각의 부대역 그룹의 계수를 양자화하는 단계; 하나 이상의 프로세서를 사용하여, 부대역 그룹에 대해 동조된(tuned) 엔트로피 코더를 사용하여 각각의 부대역 그룹의 양자화된 계수를 인코딩하는 단계; 및 하나 이상의 프로세서를 사용하여, 인코딩된 양자화된 계수를 포함하는 비트스트림을 생성하는 단계; 및 하나 이상의 프로세서를 사용하여, 비트스트림을 저장 디바이스에 저장하거나, 비트스트림을 다운스트림 디바이스로 스트리밍하는 단계를 포함한다.
일부 구현예에서, 각각의 부대역 그룹의 계수를 양자화하는 단계는 이용가능한 양자화 포인트의 최대 수와 계수의 절대값의 합에 기초하여 스케일링 시프트 팩터(scaling shift factor)를 생성하는 단계; 및 스케일링 시프트 팩터를 사용하여 계수를 양자화하는 단계를 더 포함한다.
일부 구현예에서, 양자화된 계수가 양자화 포인트의 최대 수를 초과하면, 스케일링 시프트 팩터가 감소되고, 계수가 다시 양자화된다.
일부 구현예에서, 양자화 포인트는 각각의 부대역 그룹에 대해 상이하다.
일부 구현예에서, 각각의 부대역 그룹의 계수는 미세(fine) 양자화 방식 또는 대략적(coarse) 양자화 방식에 따라 양자화되고, 미세 양자화 방식에서는 대략적 양자화 방식에 따라 각각의 부대역 그룹에 할당된 것보다 더 많은 양자화 포인트가 하나 이상의 부대역 그룹에 할당된다.
일부 구현예에서, 계수에 대한 부호 비트는 계수와는 별도로 코딩된다.
일부 구현예에서, 4개의 부대역 그룹이 있으며, 제1 부대역 그룹은 0-100Hz의 제1 주파수 범위에 대응하고, 제2 부대역 그룹은 100-200Hz의 제2 주파수 범위에 대응하고, 제3 부대역 그룹은 200-300Hz의 제3 주파수 범위에 대응하며, 제4 부대역 그룹은 300-400Hz의 제4 주파수 범위에 대응한다.
일부 구현예에서, 엔트로피 코더는 산술 엔트로피 코더이다.
일부 구현예에서, 필터링된 시간 영역 LFE 채널 신호를 LFE 채널 신호의 주파수 스펙트럼을 표현하는 다수의 계수를 포함하는 LFE 채널 신호의 주파수 영역 표현으로 변환하는 단계는: LFE 채널 신호의 제1 스트라이드(stride) 길이를 결정하는 단계; 제1 스트라이드 길이에 기초하여 윈도잉 함수의 제1 윈도우 크기를 지정하는 단계; 시간 영역 LFE 채널 신호의 하나 이상의 프레임에 제1 윈도우 크기를 적용하는 단계; 및 계수를 생성하기 위해 윈도우화된 프레임에 수정된 이산 코사인 변환(MDCT)을 적용하는 단계를 더 포함한다.
일부 구현예에서, 방법은: LFE 채널 신호의 제2 스트라이드 길이를 결정하는 단계; 제2 스트라이드 길이에 기초하여 윈도잉 함수의 제2 윈도우 크기를 지정하는 단계; 및 시간 영역 LFE 채널 신호의 하나 이상의 프레임에 제2 윈도우 크기를 적용하는 단계를 더 포함한다.
일부 구현예에서, 제1 스트라이드 길이는 N밀리초(ms)이고, N은 5ms 이상 60ms 이하이고, 제1 윈도우 크기는 10ms 이상이고, 제2 스트라이드 길이는 5ms이고, 제2 윈도우 크기는 10ms이다.
일부 구현예에서, 제1 스트라이드 길이는 20밀리초(ms)이고, 제1 윈도우 크기는 10ms 또는 20ms 또는 40ms이고, 제2 스트라이드 길이는 10ms이고, 제2 윈도우 크기는 10ms 또는 20ms이다.
일부 구현예에서, 제1 스트라이드 길이는 10밀리초(ms)이고, 제1 윈도우 크기는 10ms 또는 20ms이고, 제2 스트라이드 길이는 5ms이고, 제2 윈도우 크기는 10ms이다.
일부 구현예에서, 제1 스트라이드 길이는 20밀리초(ms)이고, 제1 윈도우 크기는 10ms, 20ms, 또는 40ms이고, 제2 스트라이드 길이는 5ms이고, 제2 윈도우 크기는 10ms이다.
일부 구현예에서, 윈도잉 함수는 구성 가능한 페이드 길이를 가지는 카이저-베셀-파생(KBD) 윈도잉 함수이다.
일부 구현예에서, 저역 통과 필터는 차단 주파수가 약 130Hz 이하인 4차 버터워스 필터 저역 통과 필터이다.
일부 구현예에서, 방법은: 하나 이상의 프로세서를 사용하여, LFE 채널 신호의 프레임의 에너지 레벨이 임계값 미만인지 여부를 결정하는 단계; 임계 레벨 미만인 에너지 레벨에 따라, 디코더를 나타내는 무음 프레임 표시자를 생성하는 단계; 무음 프레임 표시자를 LFE 채널 비트스트림의 메타데이터에 삽입하는 단계; 및 무음 프레임 검출 시 LFE 채널 비트 전송률를 감소시키는 단계를 더 포함한다.
일부 구현예에서, 저주파 효과(LFE)를 디코딩하는 방법은, 하나 이상의 프로세서를 사용하여, 시간 영역 LFE 채널 신호의 주파수 스펙트럼을 표현하는 엔트로피 코딩된 계수를 포함하는 LFE 채널 비트스트림을 수신하는 단계; 하나 이상의 프로세서를 사용하여, 엔트로피 디코더를 사용하여 양자화된 계수를 디코딩하는 단계; 하나 이상의 프로세서를 사용하여, 역양자화된 계수를 역양자화하는 단계 - 계수는 인코더에서 시간 영역 LFE 채널 신호를 필터링하는 데 사용되는 저역 통과 필터의 주파수 응답 곡선에 따라 주파수 대역에 대응하는 부대역 그룹에서 양자화되었음 -; 하나 이상의 프로세서를 사용하여, 역양자화된 계수를 시간 영역 LFE 채널 신호로 변환하는 단계; 하나 이상의 프로세서를 사용하여, 시간 영역 LFE 채널 신호의 지연을 조정하는 단계; 및 저역 통과 필터를 사용하여, 지연 조정된 LFE 채널 신호를 필터링하는 단계를 포함한다.
일부 구현예에서, 저역 통과 필터의 차수는, LFE 채널의 인코딩 및 디코딩으로 인한 제1 총 알고리즘 지연이 LFE 채널 신호를 포함하는 다중 채널 오디오 신호의 다른 오디오 채널의 인코딩 및 디코딩으로 인한 제2 총 알고리즘 지연 이하임을 보장하도록 구성된다.
일부 구현예에서, 방법은: 제2 총 알고리즘 지연이 임계값을 초과하는지 여부를 결정하는 단계; 및 임계값을 초과하는 제2 총 알고리즘 지연에 따라, 저역 통과 필터를 N차 저역 통과 필터로서 구성하는 단계 - N은 2 이상의 정수임 -; 및 임계값을 초과하지 않는 제2 총 알고리즘 지연에 따라, 저역 통과 필터의 차수를 N 미만으로 구성하는 단계를 더 포함한다.
본 명세서에 개시된 다른 구현예는 시스템, 장치 및 컴퓨터 판독 가능한 매체에 관한 것이다. 개시된 구현예의 상세는 첨부 도면 및 이하의 설명에 개시된다. 다른 특징, 목적 및 이점이 설명, 도면 및 청구범위로부터 명백하다.
본 명세서에 개시된 특정 실시예는 이하의 이점들 중 하나 이상을 제공한다. 개시된 저지연 LFE 코덱은: 1) 주로 LFE 채널을 대상으로 하고; 2) 주로 20 내지 120Hz의 주파수 범위를 대상으로 하지만, 낮은/중간 비트 전송률 시나리오에서는 오디오를 300Hz까지, 높은 비트 전송률 시나리오에서는 400Hz까지 전송하고; 3) 주파수 응답 곡선에 따른 양자화 방식을 입력 저역 통과 필터에 적용하여 낮은 비트 전송률을 달성하고; 4) 알고리즘 지연이 낮고, 20밀리초(ms)의 스트라이드에서 동작하도록 설계되며, 총 알고리즘 지연(프레이밍 포함)은 33msec이며; 5) 5msec의 스트라이드 및 13msec의 총 알고리즘 지연(프레이밍 포함)까지의 구성을 포함하여 다른 시나리오를 지원하기 위해 더 작은 스트라이드와 더 낮은 알고리즘 지연으로 구성할 수 있고; 6) LFE 코덱에서 이용할 수 있는 지연에 기초하여 디코더 출력에서 저역 통과 필터를 자동으로 선택하고; 7) 무음 동안 초당 50비트(bps)의 낮은 비트 전송률을 갖는 무음 모드를 가지며; 8) 활성 프레임 동안 비트 전송률은 사용된 양자화 레벨에 기초하여 초당 2킬로비트(kbps) 내지 4kbps 사이에서 변동하고, 무음 프레임 동안 비트 전송률은 50bps이다.
도면에서는, 설명의 편의를 위해, 디바이스, 유닛, 명령 블록 및 데이터 요소를 나타내는 것과 같은 개략적 요소의 특정 배열 또는 순서가 도시되어 있다. 그러나, 도면에서 개략적 요소의 특정 순서 또는 배열이 처리의 특정 순서 또는 차례, 또는 처리의 분리가 필요하다는 것을 의미하는 것은 아니라는 것이 이 기술이 속하는 분야의 통상의 지식을 가진 자에 의해 이해되어야 한다. 또한, 도면에서 개략적 요소를 포함하는 것은 그러한 요소가 모든 실시예에서 필요하다는 것을 의미하거나, 그러한 요소에 의해 표현되는 특징이 일부 구현예에서 다른 요소에 포함되지 않거나 다른 요소와 결합되지 않을 수 있음을 의미하는 것은 아니다.
또한, 실선 또는 점선 또는 화살표와 같은 연결 요소가 2개 이상의 다른 개략적 요소 사이의 연결, 관계 또는 연관을 예시하는 데 사용되는 도면에서, 임의의 이러한 연결 요소의 부재가 연결, 관계 또는 연관이 존재할 수 없다는 의미는 아니다. 다시 말해, 본 개시를 불명료하게 하지 않기 위해, 일부 구성요소 간의 연결, 관계 또는 연관은 도면에 도시되지 않는다. 또한, 예시의 편의를 위해, 단일 연결 요소를 사용하여 요소 간의 다중 연결, 관계 또는 연관을 나타낸다. 예를 들어, 연결 요소가 신호, 데이터 또는 명령의 통신을 나타내는 경우, 이러한 요소는 통신에 영향을 미치기 위해 필요할 수 있는 하나 또는 다수의 신호 경로를 나타내는 것으로 이 기술이 속하는 분야의 통상의 지식을 가진 자에 의해 이해되어야 한다.
도 1은 하나 이상의 구현예에 따라 IVAS 및 LFE 비트스트림을 인코딩 및 디코딩하기 위한 IVAS 코덱을 예시한다.
도 2a는 하나 이상의 구현예에 따른 LFE 인코딩을 예시하는 블록도이다.
도 2b는 하나 이상의 구현예에 따른 LFE 디코딩을 예시하는 블록도이다.
도 3은 하나 이상의 구현예에 따라 130Hz의 코너 차단을 갖는 4차 버터워스(Butterworth) 저역 통과 필터의 주파수 응답을 예시하는 플롯이다.
도 4는 하나 이상의 구현예에 따른 필더(Fielder) 윈도우를 예시하는 플롯이다.
도 5는 하나 이상의 구현예에 따른, 주파수에 따른 미세 양자화 포인트의 변화를 예시한다.
도 6은 하나 이상의 구현예에 따른, 주파수에 따른 대략적 양자화 포인트의 변화를 예시한다.
도 7은 하나 이상의 구현예에 따른, 미세 양자화로 양자화된 MDCT 계수들의 확률 분포를 예시한다.
도 8은 하나 이상의 구현예에 따른, 대략적 양자화로 양자화된 MDCT 계수들의 확률 분포를 예시한다.
도 9는 하나 이상의 구현예에 따른, 수정된 이산 코사인 변환(MDCT) 계수를 인코딩하는 프로세스의 흐름도이다.
도 10은 하나 이상의 구현예에 따른, 수정된 이산 코사인 변환(MDCT) 계수를 디코딩하는 프로세스의 흐름도이다.
도 11은 하나 이상의 구현예에 따른, 도 1-10을 참조하여 설명된 특징 및 프로세스를 구현하기 위한 시스템의 블록도이다.
다양한 도면에 사용된 동일한 참조 부호는 유사한 요소를 나타낸다.
이하의 상세한 설명에서, 설명된 다양한 실시예의 완전한 이해를 제공하기 위해, 많은 특정 상세가 개시된다. 설명된 다양한 구현예가 이들 특정 상세 없이 실행될 수 있다는 것이 이 기술이 속하는 분야의 통상의 지식을 가진 자에게 명백할 것이다. 다른 예에서, 실시예의 양태를 불필요하게 모호하게 하지 않도록, 잘 알려진 방법, 절차, 구성요소 및 회로는 상세하게 설명되지 않았다. 각각 서로 독립적으로 또는 다른 특징의 임의의 조합과 함께 사용될 수 있는 몇몇 특징들이 후술된다.
명명법
본 명세서에 사용된 바와 같이, 용어 "포함한다" 및 그 변형은 "포함하지만 이로 한정되지 않는"을 의미하는 개방형 용어로 이해되어야 한다. 용어 "또는"은 문맥상 명백하게 달리 나타내지 않는 한 "및/또는"으로 이해되어야 한다. 용어 "에 기초한"은 "적어도 부분적으로 에 기초한"으로 이해되어야 한다. 용어 "하나의 예시적인 구현예" 및 "예시적인 구현예"는 "적어도 하나의 예시적인 구현예"로 이해되어야 한다. 용어 "다른 구현예"는 "적어도 하나의 다른 구현예"로 이해되어야 한다. 용어 "결정된", "결정하다" 또는 "결정하는"은 획득하는, 수신하는, 연산하는, 계산하는, 추정하는, 예측하는 또는 파생하는으로 이해되어야 한다. 또한, 이하의 설명 및 청구범위에서, 달리 정의되지 않는 한, 본 명세서에 사용되는 모든 기술적 및 과학적 용어는 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자가 통상적으로 이해하는 것과 동일한 의미를 갖는다.
시스템 개요
도 1은 하나 이상의 구현예에 따른 LFE 채널 비트스트림을 포함하는 IVAS 비트스트림을 인코딩 및 디코딩하기 위한 IVAS 코덱(100)을 예시한다. 인코딩을 위해, IVAS 코덱(100)은 오디오 데이터(101)의 N+1개의 채널을 수신하며, 여기서 오디오 데이터(101)의 N개의 채널이 공간 분석 및 다운믹스 유닛(102)에 입력되고, 하나의 LFE 채널이 LFE 채널 인코딩 유닛(105)에 입력된다. 오디오 데이터(101)는 모노 신호, 스테레오 신호, 바이노럴 신호, 공간 오디오 신호(예를 들어, 다중 채널 공간 오디오 개체), 1차 앰비소닉(FoA), 고차 앰비소닉(HoA) 및 임의의 다른 오디오 데이터를 포함하지만, 이로 한정되지 않는다.
일부 구현예에서, 공간 분석 및 다운믹스 유닛(102)은 스테레오 오디오 데이터를 분석/다운믹싱하기 위한 컴플렉스 어드밴스 커플링(complex advance coupling)(CACPL) 및/또는 FoA 오디오 데이터를 분석/다운믹싱하기 위한 공간 재구성(spatial reconstruction)(SPAR)을 구현하도록 구성된다. 다른 구현예에서, 공간 분석 및 다운믹스 유닛(102)은 다른 포맷을 구현한다. 공간 분석 및 다운믹스 유닛(102)의 출력은 공간 메타데이터, 및 오디오 데이터의 1 내지 N개의 채널을 포함한다. 공간 메타데이터는 공간 메타데이터를 양자화 및 엔트로피 코딩하도록 구성된 공간 메타데이터 인코딩 유닛(104)에 입력된다. 일부 구현예에서, 양자화는 미세, 중간, 코스 및 추가 코스 양자화 전략을 포함할 수 있고, 엔트로피 코딩은 허프만 또는 산술 코딩을 포함할 수 있다.
오디오 데이터의 1 내지 N개의 채널은 오디오 데이터의 1 내지 N개의 채널을 하나 이상의 향상된 음성 서비스(Enhanced Voice Services)(EVS) 비트스트림으로 인코딩하도록 구성된 프라이머리 오디오 채널 인코딩 유닛(103)에 입력된다. 일부 구현예에서, 프라이머리 오디오 채널 인코딩 유닛(103)은 3GPP TS 26.445를 준수하고, 협대역(EVS-NB) 및 광대역(EVS-WB) 음성 서비스에 대한 향상된 품질 및 코딩 효율, 초광대역(EVS-SWB) 음성을 사용한 향상된 품질, 대화 응용프로그램의 혼합된 콘텐츠 및 음악에 대한 향상된 품질, 패킷 손실 및 지연 지터(jitter)에 대한 견고성 및 AMR-WB 코덱에 대한 역호환성과 같은 광범위한 기능을 제공한다.
일부 구현예에서, 프라이머리 오디오 채널 인코딩 유닛(103)은 모드/비트전송률 제어에 기초하여, 지정된 비트 전송률로 오디오 신호를 인코딩하기 위한 지각 코더와 음성 신호들을 인코딩하기 위한 음성 코더 사이에서 선택하는 전처리 및 모드 선택 유닛을 포함한다. 일부 구현예에서, 음성 인코더는 상이한 음성 클래스에 대한 특수 LP 기반 모드로 확장된 대수 코드 여기 선형 예측(ACELP)의 개선된 변형이다.
일부 구현예에서, 오디오 인코더는 저지연/저 비트 전송률로 효율이 증가된 수정된 이산 코사인 변환(MDCT) 인코더이고, 음성 인코더와 오디오 인코더 사이에서 매끄럽고 신뢰할 수 있는 스위칭을 수행하도록 설계된다.
앞서 설명된 바와 같이, LFE 채널 신호는 20-120Hz 범위의 깊고 낮은 음조를 위한 것으로, 전형적으로 저주파 오디오 콘텐츠를 재생하도록 설계된 스피커(예를 들어, 서브우퍼)로 전송된다. LFE 채널 신호는 도 2a를 참조하여 설명된 것과 같이 LFE 채널 신호를 인코딩하도록 구성된 LFE 채널 신호 인코딩 유닛(105)으로 입력된다.
일부 구현예에서, IVAS 디코더는 공간 메타데이터를 복원하도록 구성된 공간 메타데이터 디코딩 유닛(106), 및 1 내지 N개의 채널 오디오 신호들을 복원하도록 구성된 프라이머리 오디오 채널 디코딩 유닛(107)을 포함한다. 복원된 공간 메타데이터 및 복원된 1 내지 N개의 채널 오디오 신호는 공간 합성/업믹싱/렌더링 유닛(109)에 입력되며, 공간 합성/업믹싱/렌더링 유닛은 홈 시어터 시스템, 화상 회의실 시스템, 가상 현실(VR) 장비 및 오디오를 렌더링할 수 있는 임의의 다른 오디오 시스템을 포함하지만 이로 한정되지 않는 다양한 오디오 시스템의 스피커에서 재생하기 위한 공간 메타데이터를 사용하여, 1 내지 N개의 채널 오디오 신호를 N개 이상의 채널 출력 오디오 신호로 합성하고 렌더링하도록 구성된다. LFE 채널 디코딩 유닛(108)은 도 2b를 참조하여 설명된 바와 같이 LFE 비트스트림을 수신하고, LFE 비트스트림을 디코딩하도록 구성된다.
전술된 LFE 인코딩/디코딩의 예시적인 구현예는 IVAS 코덱에 의해 수행되지만, 후술되는 저지연 LFE 코덱은 독립형 LFE 코덱일 수 있거나, 저지연 및 구성 가능성이 필요하거나 요구되는 오디오 응용 프로그램에서 저주파 신호를 인코딩 및 디코딩하는 임의의 독점 또는 표준화된 오디오 코덱에 포함될 수 있다.
도 2a는 하나 이상의 실시예에 따른, 도 1에 도시된 LFE 채널 인코딩 유닛(105)의 기능적 구성요소들을 예시하는 블록도이다. 도 2b는 하나 이상의 실시예에 따른, 도 1에 도시된 LFE 채널 디코더(108)의 기능적 구성요소들을 예시하는 블록도이다. LFE 채널 디코더(108)는 엔트로피 디코딩 및 역 양자화 유닛(204), 역 MDCT 및 윈도잉 유닛(205), 지연 조정 유닛(206) 및 출력 LPF(207)를 포함한다. 지연 조정 유닛(206)은 LPF(207) 전 또는 후에 있을 수 있고, 디코딩된 LFE 채널 신호와 프라이머리 코덱 디코딩된 출력을 일치시키기 위해 지연 조정(예를 들어, 디코딩된 LFE 채널 신호를 버퍼링함으로써)을 수행한다. 이하, 도 2b를 참조하여 설명되는 LFE 채널 인코딩 유닛(105) 및 LFE 채널 디코딩 유닛(108)은 LFE 코덱으로 통칭된다.
LFE 채널 인코딩 유닛(105)은 입력 저역 통과 필터(LPF)(201), 윈도잉 및 MDCT 유닛(202) 및 양자화 및 엔트로피 코딩 유닛(203)을 포함한다. 일 실시예에서, 입력 오디오 신호는 펄스 코드 변조된(PCM) 오디오 신호이고, LFE 채널 인코딩 유닛(105)은 5밀리초, 10밀리초 또는 20밀리초의 스트라이드를 갖는 입력 오디오 신호를 예상한다. 내부적으로, LFE 채널 인코딩 유닛(105)은 5밀리초 또는 10밀리초 서브프레임에서 작동하고, 윈도잉 및 MDCT는 이들 서브프레임의 조합에서 수행된다. 일 실시예에서, LFE 채널 인코딩 유닛(105)은 20밀리초 입력 스트라이드로 동작하고, 이 입력을 동일한 길이의 2개의 서브프레임으로 내부적으로 나눈다. LFE에 대한 이전 입력 프레임의 최종 서브프레임은 LFE에 대한 현재 입력 프레임의 제1 서브프레임과 연결되고 윈도우화된다. LFE에 대한 현재 입력 프레임의 제1 서브프레임은 LFE에 대한 현재 입력 프레임의 제2 서브프레임과 연결되고 윈도우화된다. MDCT는 각 윈도우화된 블록에 대해 한 번씩 두 번 수행된다.
일 실시예에서, 알고리즘 지연(프레이밍 지연 없음)은 8밀리초 더하기 입력 LPF(103)에 의해 발생된 지연 더하기 출력 LPF(207)에 의해 발생된 지연과 동일하다. 4차 입력 LPF(201) 및 4차 출력 LPF(207)의 경우, 총 시스템 지연은 약 15밀리초이다. 4차 입력 LPF(201) 및 2차 출력 LPF(207)의 경우, 총 LFE 코덱 지연은 약 13밀리초이다.
도 3은 하나 이상의 실시예에 따른 예시적인 입력 LPF(201)의 주파수 응답을 예시하는 플롯이다. 도시된 예에서 LPF(201)는 차단 주파수가 130Hz인 4차 버터워스 필터이다. 다른 실시예는 동일하거나 상이한 차수 및 동일하거나 상이한 차단 주파수를 갖는 상이한 유형의 LPF(예를 들어, 체비쇼프, 베셀)를 사용할 수 있다.
도 4는 하나 이상의 실시예에 따른 필더 윈도우를 예시하는 플롯이다. 일 실시예에서, 윈도잉 및 MDCT 유닛(202)에 의해 적용되는 윈도잉 함수는 페이드 길이가 8밀리초인 필더 윈도우 함수이다. 필더 윈도우는 알파=5인 카이저-베셀-파생(KBD) 윈도우이며, 이는 구성에 따라 MDCT에 대한 프린센-브래들리 조건을 충족하고, 이에 의해 고급 오디오 코딩(Advanced Audio Coding)(AAC) 디지털 오디오 포맷에 사용되는 윈도우이다. 다른 윈도잉 함수도 사용될 수 있다.
양자화 및 엔트로피 코딩
일 실시예에서, 양자화 및 엔트로피 코딩 유닛(203)은 MDCT 계수를 보다 효율적으로 양자화하기 위해 입력 LPF(201) 주파수 응답 곡선을 따르는 양자화 전략을 구현한다. 일 실시예에서, 주파수 범위는 4개의 주파수 대역: 0-100Hz, 100-200Hz, 200-300Hz 및 300-400Hz를 나타내는 4개의 부대역 그룹으로 분할된다. 이러한 대역은 예시이며, 더 많거나 더 적은 대역이 동일하거나 상이한 주파수 범위로 사용될 수 있다. 보다 구체적으로, MDCT 계수는 특정 프레임의 MDCT 계수 값에 기초하여 동적으로 연산되는 스케일링 시프트 팩터를 사용하여 양자화되고, 양자화 포인트는 도 5-8에 도시된 바와 같이 LPF 주파수 응답 곡선에 따라 선택된다. 이 양자화 전략은 100-200Hz, 200-300Hz 및 300-400Hz 대역에 속하는 MDCT 계수에 대한 양자화 포인트를 감소시키는 데 도움이 되는 동시에, 대부분의 저주파 효과(예를 들어, 럼블링(rumbling))의 에너지가 발견되는 0-100Hz의 프라이머리 LFE 대역에 대한 최적의 양자화 포인트를 유지한다.
일 실시예에서, LFE 채널 인코딩 유닛(105)에 대한 F len 밀리초(ms) 입력 PCM 스트라이드(입력 프레임 길이)에 대한 양자화 전략이 후술되며, 여기서 프레임 길이 F len 은 5*f ms로 주어지는 임의의 값을 취할 수 있으며, 여기서 1<=f<=12이다.
먼저, 입력 PCM 스트라이드는 동일한 길이의 N개의 서브프레임으로 분할되며, 각각의 서브프레임 폭(Sw) = F len /N ms이다. N은 각각의 Sw가 5ms의 배수가 되도록 선택되어야 한다(예를 들어, F len = 20ms이면, N은 1, 2 또는 4가 될 수 있고; F len = 10ms이면, N은 1 또는 2가 될 수 있으며, F len 이 5ms이면, N은 1과 같다). Si를 임의의 주어진 프레임에서 i번째 서브프레임이라고 하고, 여기서 i는 범위가 0 <= i <= N인 정수이고, S0는 LFE 인코딩 유닛(105)에 대한 이전 입력 프레임의 최종 서브프레임에 대응하고, S1 내지 SN은 현재 프레임의 N개의 서브프레임이다.
다음으로, 모든 Si 및 Si+1 서브프레임이 연결되고(concatenated) 필더 윈도우(도 4 참조)로 윈도우화된 다음 이렇게 윈도우화된 샘플에 대해 MDCT가 수행된다. 결과적으로 모든 프레임에 대해 총 N개의 MDCT가 이루어진다. 각 MDCT로부터의 MDCT 계수의 수(num_coeffs) = 샘플링 주파수*Sw/1000이다. 각 MDCT의 주파수 분해능(각각의 MDCT 계수의 폭)(W mdct )은 약 1000/(2*Sw)Hz이다. 서브우퍼가 전형적으로 약 100-120Hz의 LPF 차단을 갖고, 400Hz 이후의 포스트 LPF 에너지가 전형적으로 매우 낮다는 점을 감안할 때, 최대 400Hz의 MDCT 계수가 양자화되어 LFE 디코딩 유닛(108)으로 전송되고, MDCT 계수의 나머지가 0으로 양자화된다. 최대 400Hz까지 MDCT 계수를 전송하면 LFE 디코딩 유닛(108)에서 최대 120Hz의 고품질 재구성이 보장된다. 따라서, 양자화 및 코딩될 MDCT 계수의 총 수(N quant )는 N*400/W mdct 과 동일하다.
다음으로, MDCT 계수는 각각의 부대역 그룹의 폭이 W mdct 의 배수이고, 모든 부대역 그룹의 폭의 합이 400Hz와 동일한 M개의 부대역 그룹으로 배열된다. 각각의 부대역의 폭을 SBWm Hz라고 하고, 여기서 m은 범위가 1 <= m <= M인 정수이다. 이 폭의 경우, m번째 부대역 그룹의 계수의 수 = SN quant = N* SBWm / W mdct (즉, 각각의 MDCT로부터의 SBWm/W mdct 계수). 그 후, 각각의 부대역 그룹의 MDCT 계수는 N quant 개의 MDCT 계수 전부의 절대값의 합 또는 최대값에 의해 결정되는 후술하는 시프트 스케일링 팩터(shift)로 스케일링된다. 그 후, 각각의 부대역 그룹의 스케일링된 MDCT 계수는 인코더 입력에서 LPF 곡선을 따르는 양자화 방식을 사용하여 개별적으로 양자화 및 코딩된다. 양자화된 MDCT 계수의 코딩은 엔트로피 코더(예를 들어, 산술 또는 허프만 코더)로 수행된다. 각각의 부대역 그룹은 상이한 엔트로피 코더로 코딩되고, 각각의 엔트로피 코더는 각각의 부대역 그룹을 효율적으로 코딩하기 위해 적절한 확률 분포 모델을 사용한다.
20밀리초(ms) 스트라이드(F len =20ms), 2개의 서브프레임(N=2) 및 샘플링 주파수=48000에 대한 예시적인 양자화 전략이 이제 설명될 것이다. 이 예제의 입력 구성에서, 서브프레임 폭 Sw = 10ms이고, MDCT의 수 = N = 2이다. 첫 번째 MDCT는 20ms 블록에서 수행된다. 이 블록은 이전 20ms 입력의 10-20ms 서브프레임과 현재 20ms 입력의 0-10ms 서브프레임을 연결한 다음 20ms 길이의 필더 윈도우로 윈도잉하여 형성된다(그림 4 참조). N = 1 및 N = 4일 때, 필더 윈도우는 그에 따라 스케일링되고, 페이드 길이는 16/N ms로 변경된다. 두 번째 MDCT는 20ms 길이의 필더 윈도우로 현재 20ms 입력 프레임을 윈도잉하여 형성된 20ms 블록에서 수행된다. 각각의 MDCT의 MDCT 계수의 수(num_coeffs) = 480이고, 각각의 MDCT 계수의 폭 W mdct = 50Hz이고, 양자화 및 코딩될 계수의 총 수 N quant = 16이며, MDCT당 양자화 및 코딩될 계수의 총 수 = 16/N = 8이다.
다음으로, MDCT 계수는 4개의 부대역 그룹(M=4)으로 배열되며, 각각의 부대역 그룹은 100Hz 대역(0-100, 100-200, 200-300, 300-400, SBWm = 100Hz, 각각의 부대역 그룹의 계수의 수 = SN quant =N*SBWm/W mdct = 4임)에 대응한다. a1, a2, a3, a4, a5, a6, a7, a8을 첫 번째 MDCT로부터 양자화할 첫 번째 8개의 MDCT 계수라고 하고, b1, b2, b3, b4, b5, b6, b7, b8을 두 번째 MDCT로부터 양자화할 첫 번째 8개의 MDCT 계수라고 한다. 4개의 부대역 그룹은 이하의 계수를 갖도록 배열된다.
부대역 그룹 1 = {a1, a2, b1, b2},
부대역 그룹 2 = {a3, a4, b3, b4},
부대역 그룹 3 = {a5, a6, b5, b6},
부대역 그룹 4 = {a7, a8, b7, b8},
여기서, 각각의 부대역 그룹은 100Hz 대역에 대응한다.
약 -30dB(또는 그 미만)의 이득을 갖는 프레임은 대략 10-2 또는 10-1, 또는 그 보다 더 낮은 값을 갖는 MDCT 계수를 가질 수 있는 반면, 풀(full) 스케일 이득을 갖는 프레임은 20 이상의 값을 갖는 MDCT 계수를 가질 수 있다. 이 넓은 범위의 값을 만족시키기 위해, 아래와 같이 이용 가능한 최대 양자화 포인트(max_value)와 MDCT 계수의 절대값의 합(lfe_dct_new)에 기초하여 스케일링 시프트 팩터(shift)가 연산된다.
shift=floor(shifts_per_double*log2(max_value/sum(abs(lfe_dct_new)))),
구현예에서, lfe_dct_new는 16개의 MDCT 계수의 어레이이고, shifts_per_double은 상수(예를 들어, 4)이고, max_value는 미세 양자화(예를 들어, 63 양자화 값) 및 대략적 양자화(예를 들어, 31 양자화 값)에 대해 선택된 정수이며, shift는 미세 양자화의 경우 4에서 35, 그리고 대략적 양자화의 경우 2 내지 33의 5비트 값으로 제한된다.
그 후, 양자화된 MDCT 계수가 다음과 같이 연산된다:
vals = round(lfe_dct_new*(2^(shift/shifts_per_double))), 여기서 round() 연산은 결과를 가장 가까운 정수 값으로 반올림한다.
양자화된 값(vals)이 이용 가능한 최대 허용 양자화 포인트의 수(max_val)를 초과하는 경우, 스케일링 시프트 팩터(shift)가 감소되고, 양자화된 값(vals)이 다시 계산된다. 다른 구현예에서는 합계 함수 sum(abs(lfe_dct_new))) 대신 최대 함수 max(abs(lfe_dct_new)))를 사용하여 스케일링 시프트 팩터(shift)를 연산할 수 있지만, 양자화 값은 max() 함수를 사용하여 더 분산되어 있을 것이며, 효율적인 엔트로피 코더의 설계를 더 어렵게 할 것이다.
전술한 양자화 단계에서, 각각의 부대역 그룹에 대한 양자화된 값은 하나의 루프에서 함께 계산되지만, 양자화 포인트는 각각의 부대역 그룹마다 상이하다. 제1 부대역 그룹이 허용 범위를 초과하면, 스케일링 시프트 팩터가 감소한다. 다른 부대역 그룹의 임의의 부대역 그룹이 허용된 범위를 초과하는 경우, 해당 부대역 그룹은 max_value로 잘린다(truncated). 모든 MDCT 계수에 대한 부호 비트와 양자화된 MDCT 계수의 절대값은 각각의 부대역 그룹에 대해 별도로 코딩된다.
도 5는 하나 이상의 구현예에 따른, 주파수에 따른 미세 양자화 포인트의 변화를 예시한다. 미세 양자화의 경우, 부대역 그룹 1(0-100Hz)은 64개의 양자화 포인트를 갖고, 부대역 그룹 2(100-200Hz)는 32개의 양자화 포인트를 갖고, 부대역 그룹 3(200-300Hz)은 8개의 양자화 포인트를 갖고, 부대역 그룹 4(300-400Hz)는 양자화 2 포인트를 갖는다. 일 실시예에서, 각각의 부대역 그룹은 개별 엔트로피 코더(예를 들어, 산술 또는 허프만 엔트로피 코더)로 엔트로피 코딩되며, 여기서 각각의 엔트로피 코더는 상이한 확률 분포를 사용한다. 따라서 프라이머리 0-100Hz 범위에 가장 많은 양자화 포인트가 할당된다.
부대역 그룹 1-4에 대한 양자화 포인트의 할당은 높은 주파수보다 낮은 주파수에서 더 많은 정보를 갖고 차단 주파수 외부에는 정보가 없는 LPF 주파수 응답 곡선의 형상을 따른다는 점에 주목해야 한다. 최대 130Hz의 주파수를 올바르게 재구성하기 위해, 130Hz를 초과하는 주파수에 대응하는 MDCT 계수도 인코딩되어 앨리어싱(aliasing)을 피하거나 최소화한다. 일부 구현예에서, 최대 400Hz의 MDCT 계수가 인코딩되어 최대 130Hz의 주파수가 디코딩 유닛에서 적절하게 재구성될 수 있다.
도 6은 하나 이상의 구현예에 따른, 주파수에 따른 대략적 양자화 포인트의 변화를 예시한다. 대략적 양자화의 경우, 부대역 그룹 1(0-100Hz)은 32개의 양자화 포인트를 갖고, 부대역 그룹 2(100-200Hz)는 16개의 양자화 포인트를 갖고, 부대역 그룹 3(200-300Hz)은 4개의 양자화 포인트를 갖고, 부대역 그룹 4(300-400Hz)는 양자화 및 엔트로피 코딩되지 않는다. 일 실시예에서, 각각의 부대역 그룹은 상이한 확률 분포를 사용하는 개별 엔트로피 코더로 엔트로피 코딩된다.
도 7은 하나 이상의 구현예에 따른, 미세 양자화로 양자화된 MDCT 계수들의 확률 분포를 예시한다. y-축은 발생 빈도이고, x축은 양자화 포인트의 수이다. Sg1은 0-100Hz 대역에서 양자화된 MDCT 계수에 대응하는 부대역 그룹 1이고, Sg2는 100-200Hz 대역에서 양자화된 MDCT 계수에 대응하는 부대역 그룹 2이다. Sg3은 200-300Hz 대역에서 양자화된 MDCT 계수에 대응하는 부대역 그룹 3이다. Sg4는 300-400Hz 대역에서 양자화된 MDCT 계수에 대응하는 부대역 그룹 4이다.
도 8은 하나 이상의 구현예에 따른, 대략적 양자화로 양자화된 MDCT 계수들의 확률 분포를 예시한다. y-축은 발생 빈도이고, x축은 양자화 포인트의 수이다. Sg1은 0-100Hz 대역에서 양자화된 MDCT 계수에 대응하는 부대역 그룹 1이고, Sg2는 100-200Hz 대역에서 양자화된 MDCT 계수에 대응하는 부대역 그룹 2이다. Sg3은 200-300Hz 대역에서 양자화된 MDCT 계수에 대응하는 부대역 그룹 3이다. Sg4는 300-400Hz 대역에서 양자화된 MDCT 계수에 대응하는 부대역 그룹 4이다.
프라이머리 대역(0-100Hz)은 대부분의 LFE 효과가 발견되는 곳이므로 더 큰 해상도를 위해 더 많은 양자화 포인트가 할당된다는 점에 유의해야 한다. 그러나, 미세 양자화보다 대략적 양자화에서 프라이머리 대역에 더 적은 비트가 할당된다. 일 실시예에서, 미세 양자화 또는 대략적 양자화가 MDCT 계수의 프레임에 대해 사용되는지 여부는 프라이머리 오디오 채널 인코더(103)에 의해 설정된 원하는 목표 비트 전송률에 의존한다.
프라이머리 오디오 채널 인코더(103)는 각각의 프레임에서 프라이머리 오디오 채널을 인코딩하는 데 필요하거나 사용되는 비트에 기초하여, 초기화 동안 한 번 또는 프레임별로 동적으로 이 값을 설정한다.
무음 프레임(Slience Frames)
일부 구현예에서, 무음 프레임들을 나타내기 위해 신호가 LFE 채널 비트스트림에 추가된다. 무음 프레임은 지정된 임계값 미만의 에너지를 갖는 프레임이다. 일부 구현예에서, 1비트는 무음 프레임을 나타내기 위해 디코더에 전송된 LFE 채널 비트스트림에 포함되고(예를 들어, 프레임 헤더에 삽입되고), LFE 채널 비트스트림의 모든 MDCT 계수는 0으로 설정된다. 이 기술은 무음 프레임 동안 비트 전송률을 50bps로 감소시킬 수 있다.
디코더 LPF
LPF(207)를 구현하기 위한 두 가지 옵션(도 2b 참조)이 LFE 채널 디코딩 유닛(108)의 출력에 제공된다. LPF(207)는 이용 가능한 지연(다른 오디오 채널의 총 지연 빼기 LFE 페이딩 지연 빼기 입력 LPF 지연)에 기초하여 선택된다. 다른 채널은 프라이머리 오디오 채널 인코딩/디코딩 유닛(103, 107)에 의해 인코딩/디코딩될 것으로 예상되며, 이러한 채널에 대한 지연은 프라이머리 오디오 채널 인코딩/디코딩 유닛(103, 107)의 알고리즘 지연에 의존한다는 점에 주목해야 한다.
구현예에서, 이용 가능한 지연이 3.5ms 미만이면, 차단이 130Hz인 2차 버터워스 LPF가 사용되고; 그렇지 않으면 차단이 130Hz인 4차 버터워스 LPF가 사용된다. 따라서, LFE 채널 디코딩 유닛(108)에서는 차단 주파수를 넘어 에일리어싱된 에너지의 제거와 알고리즘 지연 사이에 트레이드오프가 존재한다. 일부 구현예에서는 서브우퍼가 일반적으로 LPF를 가지므로, LPF(207)를 완전히 제거할 수 있다. LPF(207)는 LFE 디코더 출력 자체에서 차단을 넘어 앨리어싱된 에너지를 감소시키는 데 도움이 되며, 효율적인 후처리(post processing)에 도움이 될 수 있다.
예시 프로세스
도 9는 하나 이상의 구현예에 따른 MDCT 계수를 인코딩하는 프로세스(900)의 흐름도이다. 프로세스(900)는 예를 들어, 도 11을 참조하여 설명되는 시스템(1100)을 사용하여 구현될 수 있다.
프로세스(900)는 시간 영역 LFE 채널 신호를 수신하는 단계(901), 저역 통과 필터를 사용하여, 시간 영역 LFE 채널 신호를 필터링하는 단계(902), 필터링된 시간 영역 LFE 채널 신호를 LFE 채널 신호의 주파수 스펙트럼을 표현하는 다수의 계수를 포함하는 LFE 채널 신호의 주파수 영역 표현으로 변환하는 단계(903); 계수를 LFE 채널 신호의 상이한 주파수 대역에 대응하는 다수의 부대역 그룹으로 배열하는 단계(904); 스케일링 시프트 팩터를 사용하여 저역 통과 필터의 주파수 응답 곡선에 따라 각각의 부대역 그룹의 계수를 양자화하는 단계(905); 부대역 그룹에 대해 구성된 엔트로피 코더를 사용하여 각각의 부대역 그룹의 양자화된 계수를 인코딩하는 단계(906); 인코딩된 양자화된 계수를 포함하는 비트스트림을 생성하는 단계(907); 및 비트스트림을 저장 디바이스에 저장하거나 비트스트림을 다운스트림 디바이스로 스트리밍하는 단계(908)를 포함한다.
도 10은 하나 이상의 구현예에 따른, MDCT 계수들을 디코딩하는 프로세스(1000)의 흐름도이다. 프로세스(1000)는 예를 들어 도 11을 참조하여 설명되는 시스템(1100)을 사용하여 구현될 수 있다.
프로세스(1000)는, 시간 영역 LFE 채널 신호의 주파수 스펙트럼을 표현하는 엔트로피 코딩된 계수를 포함하는 LFE 채널 비트스트림을 수신하는 단계(1001); 스케일링 시프트 팩터를 사용하는 저역 통과 필터의 주파수 응답 곡선에 따라 상이한 주파수 대역에 대응하는 부대역 그룹에서 양자화되는 계수를 디코딩 및 역양자화하는 단계(1002); 디코딩 및 역양자화된 계수를 시간 영역 LFE 채널 신호로 변환하는 단계(1003); 시간 영역 LFE 채널 신호의 지연을 조정하는 단계(1004); 및 저역 통과 필터를 사용하여, 지연 조정된 LFE 채널 신호를 필터링하는 단계(1005)를 포함한다. 일 실시예에서, 저역 통과 필터의 차수는 시간 영역 LFE 채널 신호를 포함하는 다중 채널 오디오 신호의 전체 대역폭 채널을 인코딩/디코딩하는데 사용되는 프라이머리 코덱으로부터 이용 가능한 총 알고리즘 지연에 기초하여 구성될 수 있다. 일부 구현예에서, 디코딩 유닛은 MDCT 계수들이 인코딩 유닛에 의해 미세 또는 대략적 양자화로 인코딩되었는지 여부만을 알 필요가 있다. 양자화의 유형은 LFE 비트스트림 헤더의 비트 또는 임의의 다른 적절한 신호 메커니즘을 사용하여 표시될 수 있다.
일부 구현예에서, 시간 영역 PCM 샘플들에 대한 역양자화된 계수들의 디코딩은 다음과 같이 수행된다. 각각의 부대역 그룹의 역양자화된 계수는 N개의 그룹(N은 인코딩 유닛에서 연산된 MDCT의 수)으로 재배열되며, 각각의 그룹은 각 MDCT에 대응하는 계수를 갖는다. 전술한 예시적인 구현예에 따라, 인코딩 유닛은 이하의 4개의 부대역 그룹을 인코딩한다:
부대역 그룹 1 = {a1, a2, b1, b2},
부대역 그룹 2 = {a3, a4, b3, b4},
부대역 그룹 3 = {a5, a6, b5, b6},
부대역 그룹 4 = {a7, a8, b7, b8}.
디코딩 유닛은 4개의 부대역 그룹을 디코딩하고, 이들을 다시 {a1, a2, a3, a4, a5, a6, a7, a8} 및 {b1, b2, b3, b4, b5, b6, b7, b8}로 재배열한 다음 원하는 역 MDCT(iMDCT) 입력 길이를 얻기 위해 그룹을 0으로 채운다(pad). 각 그룹의 MDCT 계수를 시간 영역 블록으로 역변환하기 위해 N개의 iMDCT가 수행된다. 본 예에서, 각각의 블록의 폭은 2*Sw ms이며, 여기서 Sw는 위에서 정의한 서브프레임 폭이다. 다음으로, 이 블록은 도 4에 도시된 LFE 인코딩 유닛에 의해 사용되는 동일한 필더 윈도우를 사용하여 윈도우화된다. 각 서브프레임 S i (i는 1 < = i < = N 사이의 정수임)는 이전 iMDCT 출력과 현재 iMDCT 출력의 윈도우화된 데이터를 적절히 중첩 추가하여 재구성된다. 마지막으로 (1003)의 출력은 N개의 모든 서브프레임을 연결하여 재구성된다.
예시적인 시스템 아키텍처
도 11은 하나 이상의 구현예에 따라, 도 1-10을 참조하여 설명된 특징 및 프로세스를 구현하기 위한 시스템(1100)의 블록도이다. 시스템(1100)은 호출 서버, 사용자 장비, 회의실 시스템, 홈 시어터 시스템, 가상 현실(VR) 장비 및 몰입형 콘텐츠 수집 디바이스를 포함하지만 이로 한정되지 않는 하나 이상의 서버 컴퓨터 또는 임의의 클라이언트 디바이스를 포함한다. 시스템(1100)은 스마트폰, 태블릿 컴퓨터, 웨어러블 컴퓨터, 차량 컴퓨터, 게임 콘솔, 서라운드 시스템, 키오스크 등을 포함하지만 이로 한정되지 않는 임의의 소비자 디바이스를 포함한다.
도시된 바와 같이, 시스템(1100)은 예를 들어 리드 온리 메모리(ROM)(1102)에 저장된 프로그램 또는 예를 들어, 저장 유닛(1108)으로부터 랜덤 액세스 메모리(RAM)(1103)에 로딩된 프로그램에 따라 다양한 프로세스를 수행할 수 있는 중앙 처리 장치(CPU)(1101)를 포함한다. RAM(1103)에는, CPU(1101)가 다양한 프로세스를 수행할 때 필요한 데이터도 필요에 따라 저장된다. CPU(1101), ROM(1102) 및 RAM(1103)은 버스(1104)를 통해 서로 연결된다. 입/출력(I/O) 인터페이스(1105)도 버스(1104)에 연결된다.
다음의 구성요소가 I/O 인터페이스(1105)에 연결된다: 키보드, 마우스 등을 포함할 수 있는 입력 유닛(1106); 액정 디스플레이(LCD)와 같은 디스플레이 및 하나 이상의 스피커를 포함할 수 있는 출력 유닛(1107); 하드 디스크, 또는 다른 적절한 저장 디바이스를 포함하는 저장 유닛(1108); 및 네트워크 카드(예를 들어, 유선 또는 무선)와 같은 네트워크 인터페이스 카드를 포함하는 통신 유닛(1109).
일부 구현예에서, 입력 유닛(1106)은 다양한 포맷(예를 들어, 모노, 스테레오, 공간, 몰입형 및 다른 적절한 포맷)으로 오디오 신호의 캡처를 가능하게 하는 (호스트 디바이스에 따라) 상이한 위치에 하나 이상의 마이크로폰을 포함한다.
일부 구현예에서, 출력 유닛(1107)은 다양한 수의 스피커를 갖는 시스템을 포함한다. (호스트 디바이스의 능력에 따라) 출력 유닛(1107)은 오디오 신호를 다양한 포맷(예를 들어, 모노, 스테레오, 몰입형, 바이노럴, 및 다른 적절한 포맷)으로 렌더링할 수 있다.
통신 유닛(1109)은 (예를 들어, 네트워크를 통해) 다른 디바이스와 통신하도록 구성된다. 드라이브(1110)는 또한 필요에 따라 I/O 인터페이스(1105)에 연결된다. 자기 디스크, 광 디스크, 광자기 디스크, 플래시 드라이브 또는 다른 적절한 제거 가능 매체와 같은 제거 가능 매체(1111)가 드라이브(1110)에 장착되어, 그로부터 판독된 컴퓨터 프로그램이 필요에 따라 저장 유닛(1108)에 설치된다. 이 기술이 속하는 분야의 통상의 지식을 가진 자는 비록 시스템(1100)이 전술된 구성요소를 포함하는 것으로 설명되지만, 실제 적용에 있어서는 이러한 구성요소의 일부를 추가, 제거 및/또는 교체하는 것이 가능하고, 이러한 모든 수정 또는 변경이 모두 본 개시의 범위에 속한다는 것을 이해할 것이다.
본 개시의 예시적인 실시예에 따르면, 전술된 프로세스는 컴퓨터 소프트웨어 프로그램으로서 또는 컴퓨터 판독 가능한 저장 매체 상에서 구현될 수 있다. 예를 들어, 본 개시의 실시예는 기계 판독 가능한 매체 상에서 유형적으로 구현된 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품을 포함하고, 컴퓨터 프로그램은 방법을 수행하기 위한 프로그램 코드를 포함한다. 이러한 실시예에서, 컴퓨터 프로그램은 통신 유닛(1309)을 통해 네트워크로부터 다운로드 및 탑재될 수 있고, 그리고/또는 제거 가능 매체(1111)로부터 설치될 수 있다.
일반적으로, 본 개시의 다양한 예시적인 실시예는 하드웨어 또는 특수 목적 회로(예를 들어, 제어 회로), 소프트웨어, 로직 또는 이들의 임의의 조합으로 구현될 수 있다. 예를 들어, 전술된 유닛은 제어 회로(예를 들어, 도 11의 다른 구성요소와 조합된 CPU)에 의해 실행될 수 있고, 따라서 제어 회로는 본 개시에서 설명된 동작을 수행할 수 있다. 일부 양태는 하드웨어로 구현될 수 있는 반면, 다른 양태는 컨트롤러, 마이크로프로세서 또는 다른 컴퓨팅 디바이스(예를 들어, 제어 회로)에 의해 실행될 수 있는 펌웨어 또는 소프트웨어로 구현될 수 있다. 본 개시의 예시적인 실시예의 다양한 양태가 블록도로서, 흐름도로서, 또는 일부 다른 그림 표현을 사용하여 예시되고 설명되지만, 본 명세서에 설명된 블록, 장치, 시스템, 기술 또는 방법은 비제한적인 예로서, 하드웨어, 소프트웨어, 펌웨어, 특수 목적 회로 또는 로직, 범용 하드웨어 또는 제어기 또는 다른 컴퓨팅 디바이스, 또는 이들의 일부 조합으로 구현될 수 있음이 인식될 것이다.
추가로, 흐름도에 도시된 다양한 블록은 방법 단계로서, 및/또는 컴퓨터 프로그램 코드의 작동으로 인한 작업으로서, 및/또는 관련 함수(들)를 수행하도록 구성된 복수의 결합된 로직 회로 요소로서 볼 수 있다. 예를 들어, 본 개시의 실시예는 기계 판독 가능한 매체 상에 유형적으로 구현된 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품을 포함하고, 컴퓨터 프로그램은 전술한 바와 같은 방법을 수행하도록 구성된 프로그램 코드를 포함한다.
본 개시의 맥락에서, 기계/컴퓨터 판독 가능한 매체는 명령 실행 시스템, 장치 또는 디바이스에 의해 또는 이들과 결합하여 사용하기 위한 프로그램을 포함하거나 저장할 수 있는 임의의 유형의 매체일 수 있다. 기계/컴퓨터 판독 가능한 매체는 기계/컴퓨터 판독 가능한 신호 매체 또는 기계/컴퓨터 판독 가능한 저장 매체일 수 있다. 기계/컴퓨터 판독 가능한 매체는 비일시적일 수 있고, 전자, 자기, 광학, 전자기, 적외선, 또는 반도체 시스템, 장치 또는 디바이스, 또는 이들의 임의의 적절한 조합을 포함할 수 있지만 이로 한정되지 않을 수 있다. 기계/컴퓨터 판독 가능한 저장 매체의 보다 구체적인 예에는 하나 이상의 전선을 갖는 전기 접속, 휴대용 컴퓨터 디스켓, 하드 디스크, RAM, ROM, 지울 수 있는 프로그램 가능한 리드 온리 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 콤팩트 디스크 리드 온리 메모리(CD-ROM), 광 저장 디바이스, 자기 저장 디바이스, 또는 이들의 적절한 조합이 포함될 것이다.
본 개시의 방법을 수행하기 위한 컴퓨터 프로그램 코드는 하나 이상의 프로그래밍 언어의 임의의 조합으로 작성될 수 있다. 이러한 컴퓨터 프로그램 코드는 컴퓨터의 프로세서 또는 다른 프로그래밍 가능한 데이터 처리 장치에 의해 실행될 때, 프로그램 코드로 인해 흐름도 및/또는 블록 다이어그램에서 지정된 함수/작업이 구현되도록, 범용 컴퓨터, 특수 목적 컴퓨터 또는 제어 회로를 갖는 다른 프로그래밍 가능한 데이터 처리 장치의 프로세서에 제공될 수 있다. 프로그램 코드는 전적으로 컴퓨터에서, 부분적으로 컴퓨터에서, 독립 실행형 소프트웨어 패키지로서, 부분적으로는 컴퓨터에서 그리고 부분적으로는 원격 컴퓨터에서, 또는 전적으로 원격 컴퓨터나 서버에서 실행되거나, 하나 이상의 원격 컴퓨터 및/또는 서버에 걸쳐 배포될 수 있다.
이 문서가 많은 특정 구현예의 상세를 포함하지만, 이들은 청구될 수 있는 범위에 대한 한정으로 해석되어서는 안 되며, 오히려 특정 실시예에 특수할 수 있는 특징의 설명으로 해석되어야 한다. 개별 실시예와 관련하여 본 명세서에 설명된 소정의 특징은 단일 실시예에서 조합하여 구현될 수도 있다. 반대로, 단일 실시예와 관련하여 설명된 다양한 특징은 개별적으로 또는 임의의 적절한 하위 조합으로 다중 실시예에서 구현될 수도 있다. 또한, 특징들이 소정의 조합으로 작용하는 것으로 전술될 수 있고, 심지어 초기에 그렇게 청구될 수도 있지만, 청구된 조합의 하나 이상의 특징은 일부 경우에 이러한 조합에서 제거될 수 있으며, 청구된 조합은 하위 조합 또는 하위 조합의 변형에 관한 것일 수 있다. 도면에 도시된 로직 흐름은 원하는 결과를 얻기 위해 도시된 특정 순서 또는 순차적 순서를 필요로하지 않는다. 또한, 설명된 흐름으로부터 다른 단계가 제공되거나 단계가 제거될 수 있으며, 다른 구성요소가 설명된 시스템에 추가되거나 시스템으로부터 제거될 수 있다. 따라서, 다른 구현예는 이하의 청구범위의 범위 내에 있다.

Claims (20)

  1. 저주파 효과(LFE) 채널을 인코딩하는 방법으로서,
    하나 이상의 프로세서를 사용하여, 시간 영역 LFE 채널 신호를 수신하는 단계;
    저역 통과 필터를 사용하여, 상기 시간 영역 LFE 채널 신호를 필터링하는 단계;
    상기 하나 이상의 프로세서를 사용하여, 상기 필터링된 시간 영역 LFE 채널 신호를 상기 LFE 채널 신호의 주파수 스펙트럼을 표현하는 다수의 계수를 포함하는 상기 LFE 채널 신호의 주파수 영역 표현으로 변환하는 단계;
    상기 하나 이상의 프로세서를 사용하여, 계수를 상기 LFE 채널 신호의 상이한 주파수 대역에 대응하는 다수의 부대역(subband) 그룹으로 배열하는 단계;
    상기 하나 이상의 프로세서를 사용하여, 상기 저역 통과 필터의 주파수 응답 곡선에 따라 각각의 부대역 그룹의 계수를 양자화하는 단계;
    상기 하나 이상의 프로세서를 사용하여, 상기 부대역 그룹에 대해 동조된(tuned) 엔트로피 코더를 사용하여 각각의 부대역 그룹의 상기 양자화된 계수를 인코딩하는 단계; 및
    상기 하나 이상의 프로세서를 사용하여, 상기 인코딩된 양자화된 계수를 포함하는 비트스트림을 생성하는 단계; 및
    상기 하나 이상의 프로세서를 사용하여, 상기 비트스트림을 저장 디바이스에 저장하거나, 상기 비트스트림을 다운스트림 디바이스로 스트리밍하는 단계를 포함하는, 방법.
  2. 제1항에 있어서,
    각각의 부대역 그룹의 상기 계수를 양자화하는 단계는,
    이용 가능한 양자화 포인트의 최대 수와 상기 계수의 절대값의 합에 기초하여 스케일링 시프트 팩터(scaling shift factor)를 생성하는 단계; 및
    상기 스케일링 시프트 팩터를 사용하여 상기 계수를 양자화하는 단계를 더 포함하는, 방법.
  3. 제2항에 있어서,
    양자화된 계수가 상기 양자화 포인트의 최대 수를 초과하면, 상기 스케일링 시프트 팩터가 감소되고, 상기 계수가 다시 양자화되는, 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 양자화 포인트는 각각의 부대역 그룹에 대해 상이한, 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    각각의 부대역 그룹의 상기 계수는 미세(fine) 양자화 방식 또는 대략적(coarse) 양자화 방식에 따라 양자화되고, 상기 미세 양자화 방식에서는 상기 대략적 양자화 방식에 따라 각각의 부대역 그룹에 할당된 것보다 더 많은 양자화 포인트가 하나 이상의 부대역 그룹에 할당되는, 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 계수에 대한 부호 비트는 상기 계수와는 별도로 코딩되는, 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    4개의 부대역 그룹이 있으며, 제1 부대역 그룹은 0-100Hz의 제1 주파수 범위에 대응하고, 제2 부대역 그룹은 100-200Hz의 제2 주파수 범위에 대응하고, 제3 부대역 그룹은 200-300Hz의 제3 주파수 범위에 대응하며, 제4 부대역 그룹은 300-400Hz의 제4 주파수 범위에 대응하는, 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 엔트로피 코더는 산술 엔트로피 코더인, 방법.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서,
    상기 필터링된 시간 영역 LFE 채널 신호를 상기 LFE 채널 신호의 주파수 스펙트럼을 표현하는 다수의 계수를 포함하는 상기 LFE 채널 신호의 주파수 영역 표현으로 변환하는 단계는,
    상기 LFE 채널 신호의 제1 스트라이드(stride) 길이를 결정하는 단계;
    상기 제1 스트라이드 길이에 기초하여, 윈도잉 함수의 제1 윈도우 크기를 지정하는 단계;
    상기 시간 영역 LFE 채널 신호의 하나 이상의 프레임에 상기 제1 윈도우 크기를 적용하는 단계; 및
    상기 계수를 생성하기 위해, 상기 윈도우화된 프레임에 수정된 이산 코사인 변환(MDCT)을 적용하는 단계를 더 포함하는, 방법.
  10. 제9항에 있어서,
    상기 LFE 채널 신호의 제2 스트라이드 길이를 결정하는 단계;
    상기 제2 스트라이드 길이에 기초하여, 상기 윈도잉 함수의 제2 윈도우 크기를 지정하는 단계; 및
    상기 시간 영역 LFE 채널 신호의 하나 이상의 프레임에 상기 제2 윈도우 크기를 적용하는 단계를 더 포함하는, 방법.
  11. 제10항에 있어서,
    상기 제1 스트라이드 길이는 N 밀리초(ms)이고;
    N은 5ms 이상 60ms 이하이고;
    상기 제1 윈도우 크기는 10ms 이상이고;
    상기 제2 스트라이드 길이는 5ms이고; 그리고
    상기 제2 윈도우 크기는 10ms인, 방법.
  12. 제10항에 있어서,
    상기 제1 스트라이드 길이는 20 밀리초(ms)이고;
    상기 제1 윈도우 크기는 10ms, 20ms 또는 40ms이고;
    상기 제2 스트라이드 길이는 10ms이고; 그리고
    상기 제2 윈도우 크기는 10ms 또는 20ms인, 방법.
  13. 제10항에 있어서,
    상기 제1 스트라이드 길이는 10 밀리초(ms)이고;
    상기 제1 윈도우 크기는 10ms 또는 20ms이고;
    상기 제2 스트라이드 길이는 5ms이고; 그리고
    상기 제2 윈도우 크기는 10ms인, 방법.
  14. 제10항에 있어서,
    상기 제1 스트라이드 길이는 20 밀리초(ms)이고;
    상기 제1 윈도우 크기는 10ms, 20ms 또는 40ms이고;
    상기 제2 스트라이드 길이는 5ms이고; 그리고
    상기 제2 윈도우 크기는 10ms인, 방법.
  15. 제9항에 있어서,
    상기 윈도잉 함수는 구성 가능한 페이드(fade) 길이를 갖는 카이저 베셀 파생(Kaiser-Bessel-derived)(KBD) 윈도잉 함수인, 방법.
  16. 제1항 내지 제15항 중 어느 한 항에 있어서,
    상기 저역 통과 필터는 차단 주파수가 약 130Hz 이하인 4차 버터워스(Butterworth) 필터 저역 통과 필터인, 방법.
  17. 제1항 내지 제16항 중 어느 한 항에 있어서,
    상기 하나 이상의 프로세서를 사용하여, 상기 LFE 채널 신호의 프레임의 에너지 레벨이 임계값 미만인지 여부를 결정하는 단계;
    임계 레벨 미만인 상기 에너지 레벨에 따라,
    디코더를 나타내는 무음 프레임(silent frame) 표시자를 생성하는 단계;
    상기 무음 프레임 표시자를 상기 LFE 채널 비트스트림의 메타데이터에 삽입하는 단계; 및
    무음 프레임 검출 시 LFE 채널 비트 전송률을 감소시키는 단계를 더 포함하는, 방법.
  18. 저주파 효과(LFE) 채널 비트스트림을 디코딩하는 방법으로서,
    하나 이상의 프로세서를 사용하여, LFE 채널 비트스트림을 수신하는 단계 - 상기 LFE 채널 비트스트림은 시간 영역 LFE 채널 신호의 주파수 스펙트럼을 표현하는 엔트로피 코딩된 계수를 포함함 -;
    상기 하나 이상의 프로세서를 사용하여, 엔트로피 디코더를 사용하여 양자화된 계수를 디코딩하는 단계;
    상기 하나 이상의 프로세서를 사용하여, 역양자화된 계수를 역양자화하는 단계 - 상기 계수는 인코더에서 상기 시간 영역 LFE 채널 신호를 필터링하는 데 사용되는 저역 통과 필터의 주파수 응답 곡선에 따라 주파수 대역에 대응하는 부대역 그룹에서 양자화되었음 -;
    상기 하나 이상의 프로세서를 사용하여, 상기 역양자화된 계수를 시간 영역 LFE 채널 신호로 변환하는 단계;
    상기 하나 이상의 프로세서를 사용하여, 상기 시간 영역 LFE 채널 신호의 지연을 조정하는 단계; 및
    저역 통과 필터를 사용하여, 상기 지연 조정된 LFE 채널 신호를 필터링하는 단계를 포함하는, 방법.
  19. 제18항에 있어서,
    저역 통과 필터의 차수는, 상기 LFE 채널의 인코딩 및 디코딩으로 인한 제1 총 알고리즘 지연이 상기 LFE 채널 신호를 포함하는 다중 채널 오디오 신호의 다른 채널의 인코딩 및 디코딩으로 인한 제2 총 알고리즘 지연 이하임을 보장하도록 구성되는, 방법.
  20. 제19항에 있어서,
    상기 제2 총 알고리즘 지연이 임계값을 초과하는지 여부를 결정하는 단계; 및
    상기 임계값을 초과하는 상기 제2 총 알고리즘 지연에 따라,
    상기 저역 통과 필터를 N차 저역 통과 필터로서 구성하는 단계 - N은 2 이상의 정수임 -; 및
    상기 임계값을 초과하지 않는 상기 제2 총 알고리즘 지연에 따라,
    상기 저역 통과 필터의 상기 차수를 N 미만으로 구성하는 단계를 더 포함하는, 방법.
KR1020227010324A 2019-09-03 2020-09-01 저지연, 저주파 효과 코덱 KR20220054645A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962895049P 2019-09-03 2019-09-03
US62/895,049 2019-09-03
US202063069420P 2020-08-24 2020-08-24
US63/069,420 2020-08-24
PCT/US2020/048954 WO2021046060A1 (en) 2019-09-03 2020-09-01 Low-latency, low-frequency effects codec

Publications (1)

Publication Number Publication Date
KR20220054645A true KR20220054645A (ko) 2022-05-03

Family

ID=72474028

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227010324A KR20220054645A (ko) 2019-09-03 2020-09-01 저지연, 저주파 효과 코덱

Country Status (12)

Country Link
US (1) US20220293112A1 (ko)
EP (1) EP4026122A1 (ko)
JP (1) JP2022547038A (ko)
KR (1) KR20220054645A (ko)
CN (1) CN114424282A (ko)
AR (2) AR125511A2 (ko)
AU (1) AU2020340937A1 (ko)
BR (1) BR112022003440A2 (ko)
CA (1) CA3153258A1 (ko)
IL (1) IL290684A (ko)
MX (1) MX2022002323A (ko)
WO (1) WO2021046060A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114531936A (zh) * 2019-09-25 2022-05-24 米沙洛公司 用于数据的鲁棒传输的包有效载荷映射

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003222397A1 (en) * 2003-04-30 2004-11-23 Nokia Corporation Support of a multichannel audio extension
CN104683933A (zh) * 2013-11-29 2015-06-03 杜比实验室特许公司 音频对象提取

Also Published As

Publication number Publication date
CA3153258A1 (en) 2021-03-11
AR125511A2 (es) 2023-07-26
MX2022002323A (es) 2022-04-06
AR125559A2 (es) 2023-07-26
IL290684A (en) 2022-04-01
JP2022547038A (ja) 2022-11-10
BR112022003440A2 (pt) 2022-05-24
WO2021046060A1 (en) 2021-03-11
AU2020340937A1 (en) 2022-03-24
CN114424282A (zh) 2022-04-29
EP4026122A1 (en) 2022-07-13
US20220293112A1 (en) 2022-09-15

Similar Documents

Publication Publication Date Title
KR102077308B1 (ko) 메타데이터 구동된 동적 범위 제어
US8527282B2 (en) Method and an apparatus for processing a signal
EP2124224A1 (en) A method and an apparatus for processing an audio signal
CN109074810A (zh) 用于多声道编码中的立体声填充的装置和方法
IL307827A (en) Decoding bitstreams with a spectral band duplication meta-method enhanced by at least one filler element
KR20210027236A (ko) 몰입형 오디오 신호를 포함하는 비트스트림을 생성 또는 디코딩하기 위한 방법 및 디바이스
CN107077861B (zh) 音频编码器和解码器
KR20220042166A (ko) Ivas 비트스트림들의 인코딩 및 디코딩
EP4057281A1 (en) Audio scene encoder, audio scene decoder and related methods using hybrid encoder/decoder spatial analysis
CN114365218A (zh) 空间音频参数编码和相关联的解码的确定
JP2024512953A (ja) 空間音声ストリームの結合
KR102168054B1 (ko) 멀티 채널 코딩
AU2020310952A1 (en) Method and system for coding metadata in audio streams and for efficient bitrate allocation to audio streams coding
US20220293112A1 (en) Low-latency, low-frequency effects codec
CN110556116B (zh) 计算下混信号和残差信号的方法和装置
WO2022192217A1 (en) Audio codec with adaptive gain control of downmixed signals
JP2023549038A (ja) パラメータ変換を用いて符号化されたオーディオシーンを処理するための装置、方法、またはコンピュータプログラム
RU2809977C1 (ru) Кодек с малой задержкой и низкочастотными эффектами
TW202211206A (zh) 低延遲、低頻率效應之編碼解碼器
WO2024052450A1 (en) Encoder and encoding method for discontinuous transmission of parametrically coded independent streams with metadata
WO2024052499A1 (en) Decoder and decoding method for discontinuous transmission of parametrically coded independent streams with metadata
JP2023548650A (ja) 帯域幅拡張を用いて符号化されたオーディオシーンを処理するための装置、方法、またはコンピュータプログラム
JP2023549033A (ja) パラメータ平滑化を用いて符号化されたオーディオシーンを処理するための装置、方法、またはコンピュータプログラム