KR20220088864A - 몰입형 음성 및 오디오 서비스에서 비트레이트 분배 - Google Patents

몰입형 음성 및 오디오 서비스에서 비트레이트 분배 Download PDF

Info

Publication number
KR20220088864A
KR20220088864A KR1020227014328A KR20227014328A KR20220088864A KR 20220088864 A KR20220088864 A KR 20220088864A KR 1020227014328 A KR1020227014328 A KR 1020227014328A KR 20227014328 A KR20227014328 A KR 20227014328A KR 20220088864 A KR20220088864 A KR 20220088864A
Authority
KR
South Korea
Prior art keywords
bitrate
metadata
processors
evs
ivas
Prior art date
Application number
KR1020227014328A
Other languages
English (en)
Inventor
리샤브 티야기
주안 필릭스 토레스
스테파니 브라운
Original Assignee
돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 레버러토리즈 라이쎈싱 코오포레이션 filed Critical 돌비 레버러토리즈 라이쎈싱 코오포레이션
Publication of KR20220088864A publication Critical patent/KR20220088864A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Stereophonic System (AREA)

Abstract

몰입형 음성 및 오디오 서비스의 비트레이트 분배를 위한 실시예가 개시된다. 일 실시예에서, IVAS 비트스트림을 인코딩하는 방법은: 입력 오디오 신호를 수신하는 것; 입력 오디오 신호를 하나 이상의 다운믹스 채널 및 공간 메타데이터로 다운믹싱하는 것; 비트레이트 분배 제어 테이블로부터 다운믹스 채널에 대한 하나 이상의 비트레이트 세트 및 공간 메타데이터에 대한 양자화 수준 세트를 판독하는 것; 다운믹스 채널에 대한 하나 이상의 비트레이트의 조합을 결정하는 것; 비트레이트 분배 프로세스를 사용하여 메타데이터 양자화 수준 세트로부터 메타데이터 양자화 수준을 결정하는 것; 메타데이터 양자화 수준을 사용하여 공간 메타데이터를 양자화 및 코딩하는 것; 하나 이상의 비트레이트의 조합을 사용하여, 하나 이상의 다운믹스 채널에 대한 다운믹스 비트스트림을 생성하는 것; 다운믹스 비트스트림, 양자화 및 코딩된 공간 메타데이터 및 양자화 수준 세트를 IVAS 비트스트림으로 결합하는 것을 포함한다.

Description

몰입형 음성 및 오디오 서비스에서 비트레이트 분배
관련된 출원에 대한 상호 참조
이 출원은 2019년 10월 30일에 출원된 미국 가특허 출원 제62/927,772호 및 2020년 10월 16일에 출원된 미국 가특허 출원 제63/092,830호의 우선권을 주장하며, 이들은 본원에서 참조로 포함된다.
기술분야
이 개시는 일반적으로 오디오 비트스트림 인코딩 및 디코딩에 관한 것이다.
음성 및 오디오 인코더/디코더("코덱") 표준 개발은 최근 몰입형 음성 및 오디오 서비스(immersive voice and audio services; IVAS)를 위한 코덱 개발에 초점을 맞추었다. IVAS는 모노에서 스테레오로의 업믹싱과 완전 몰입형 오디오 인코딩, 디코딩 및 렌더링을 포함하지만 이에 제한되지 않는 범위의 오디오 서비스 기능을 지원할 것으로 예상된다. IVAS는 모바일 및 스마트폰, 전자 태블릿, 개인용 컴퓨터, 회의용 전화, 회의실, 가상 현실(virtual reality; VR) 및 증강 현실(augmented reality; AR) 디바이스, 홈 시어터 디바이스 및 다른 적절한 디바이스를 포함하지만 이에 제한되지 않는 광범위한 디바이스, 엔드포인트 및 네트워크 노드에서 지원되도록 의도된다. 이러한 디바이스, 엔드포인트 및 네트워크 노드는 사운드 캡처 및 렌더링을 위한 다양한 음향 인터페이스를 가질 수 있다.
몰입형 음성 및 오디오 서비스의 비트레이트 분배를 위한 구현이 개시된다.
일 실시예에서, 몰입형 음성 및 오디오 서비스(immersive voice and audio services; IVAS) 비트스트림을 인코딩하는 방법에 있어서, 방법은: 하나 이상의 프로세서를 사용하여, 입력 오디오 신호를 수신하는 것; 하나 이상의 프로세서를 사용하여, 입력 오디오 신호를 하나 이상의 다운믹스 채널 및 입력 오디오 신호의 하나 이상의 채널과 연관된 공간 메타데이터로 다운믹싱하는 것; 하나 이상의 프로세서를 사용하여, 비트레이트 분배 제어 테이블로부터 다운믹스 채널에 대한 하나 이상의 비트레이트 세트 및 공간 메타데이터에 대한 양자화 수준 세트를 판독하는 것; 하나 이상의 프로세서를 사용하여, 다운믹스 채널에 대한 하나 이상의 비트레이트의 조합을 결정하는 것; 하나 이상의 프로세서를 사용하여, 비트레이트 분배 프로세스를 사용하여 메타데이터 양자화 수준 세트로부터 메타데이터 양자화 수준을 결정하는 것; 하나 이상의 프로세서를 사용하여, 메타데이터 양자화 수준을 사용하여 공간 메타데이터를 양자화 및 코딩하는 것; 하나 이상의 프로세서 및 하나 이상의 비트레이트의 조합을 사용하여, 하나 이상의 다운믹스 채널에 대한 다운믹스 비트스트림을 생성하는 것; 하나 이상의 프로세서를 사용하여, 다운믹스 비트스트림, 양자화 및 코딩된 공간 메타데이터 및 양자화 수준 세트를 IVAS 비트스트림으로 결합하는 것; 및 IVAS 지원 디바이스에서 재생하기 위해 IVAS 비트스트림을 스트리밍 또는 저장하는 것을 포함한다.
일 실시예에서, 입력 오디오 신호는 4채널 1차 앰비소닉(first order Ambisonic; FoA) 오디오 신호, 3채널 평면 FoA 신호 또는 2채널 스테레오 오디오 신호이다.
일 실시예에서, 하나 이상의 비트레이트는 모노 오디오 코더/디코더(코덱) 비트레이트의 하나 이상의 채널의 비트레이트이다.
일 실시예에서, 모노 오디오 코덱은 향상된 음성 서비스(enhanced voice services; EVS) 코덱이고 다운믹스 비트스트림은 EVS 비트스트림이다.
일 실시예에서, 하나 이상의 프로세서를 사용하여, 비트레이트 분배 제어 테이블을 사용하여 다운믹스 채널 및 공간 메타데이터에 대한 하나 이상의 비트레이트를 획득하는 것은: 입력 오디오 신호의 형식, 입력 오디오 신호의 대역폭, 허용된 공간 코딩 도구, 전환 모드 및 모노 다운믹스 역호환 모드를 포함하는 테이블 색인을 사용하여 비트레이트 분배 제어 테이블의 행을 식별하는 것; 비트레이트 분배 제어 테이블의 식별된 행으로부터 목표 비트레이트, 비트레이트 비율, 최소 비트레이트 및 비트레이트 편차 간격을 추출하는 것 - 비트레이트 비율은 전체 비트레이트가 다운믹스 오디오 신호 채널 사이에 분배되는 비율을 나타내고, 최소 비트레이트는 전체 비트레이트가 그 아래로 가도록 허용되지 않는 값이며, 비트레이트 편차 간격은 다운믹스 신호에 대한 제1 우선순위가 공간 메타데이터의 제2 우선순위보다 더 높거나 동일하거나 더 낮을 때 목표 비트레이트 감소 간격임; 및 목표 비트레이트, 비트레이트 비율, 최소 비트레이트 및 비트레이트 편차 간격에 기초하여 다운믹스 채널 및 공간 메타데이터에 대한 하나 이상의 비트레이트를 결정하는 것을 더 포함한다.
일 실시예에서, 양자화 수준 양자화 세트를 사용하여 입력 오디오 신호의 하나 이상의 채널에 대한 공간 메타데이터를 양자화하는 것은 목표 메타데이터 비트레이트와 실제 메타데이터 비트레이트 사이의 차이에 기초하여 점점 더 거친 양자화 전략을 적용하는 양자화 루프에서 수행된다.
일 실시예에서, 양자화는 입력 오디오 신호로부터 추출된 속성 및 채널 대역 공분산 값에 기초하여 모노 코덱 우선순위 및 공간 메타데이터 우선순위에 따라 결정된다.
일 실시예에서, 입력 오디오 신호는 스테레오 신호이고 다운믹스 신호는 중간 신호의 표현, 스테레오 신호의 잔차 및 공간 메타데이터를 포함한다.
일 실시예에서, 공간 메타데이터는 공간 재구성기(spatial reconstructor; SPAR) 형식에 대한 예측 계수(PR), 교차 예측 계수(C) 및 역상관(P) 계수 및 복소 고급 결합(complex advanced coupling; CACPL) 형식에 대한 예측 계수(P) 및 역상관 계수(PR)를 포함한다.
일 실시예에서, 몰입형 음성 및 오디오 서비스(IVAS) 비트스트림을 인코딩하는 방법에 있어서, 방법은: 하나 이상의 프로세서를 사용하여, 입력 오디오 신호를 수신하는 것; 하나 이상의 프로세서를 사용하여, 입력 오디오 신호의 속성을 추출하는 것; 하나 이상의 프로세서를 사용하여, 입력 오디오 신호의 채널에 대한 공간 메타데이터를 계산하는 것; 하나 이상의 프로세서를 사용하여, 비트레이트 분배 제어 테이블로부터 다운믹스 채널에 대한 하나 이상의 비트레이트 세트 및 공간 메타데이터에 대한 양자화 수준 세트를 판독하는 것; 하나 이상의 프로세서를 사용하여, 다운믹스 채널에 대한 하나 이상의 비트레이트의 조합을 결정하는 것; 하나 이상의 프로세서를 사용하여, 비트레이트 분배 프로세스를 사용하여 메타데이터 양자화 수준 세트로부터 메타데이터 양자화 수준을 결정하는 것; 하나 이상의 프로세서를 사용하여, 메타데이터 양자화 수준을 사용하여 공간 메타데이터를 양자화 및 코딩하는 것; 하나 이상의 프로세서 및 하나 이상의 비트레이트의 조합을 사용하여, 하나 이상의 비트레이트를 사용하여 하나 이상의 다운믹스 채널에 대한 다운믹스 비트스트림을 생성하는 것; 하나 이상의 프로세서를 사용하여, 다운믹스 비트스트림, 양자화 및 코딩된 공간 메타데이터 및 양자화 수준 세트를 IVAS 비트스트림으로 결합하는 것; 및 IVAS 지원 디바이스에서 재생하기 위해 IVAS 비트스트림을 스트리밍 또는 저장하는 것을 포함한다.
일 실시예에서, 입력 오디오 신호의 속성은 대역폭, 음성/음악 분류 데이터 및 음성 활동 감지(voice activity detection; VAD) 데이터 중 하나 이상을 포함한다.
일 실시예에서, IVAS 비트스트림으로 코딩될 다운믹스 채널의 수는 공간 메타데이터의 잔차 수준 표시자에 기초하여 선택된다.
일 실시예에서, 몰입형 음성 및 오디오 서비스(IVAS) 비트스트림을 인코딩하는 방법에 있어서, 방법은: 하나 이상의 프로세서를 사용하여, 1차 앰비소닉(FoA) 입력 오디오 신호를 수신하는 것; 하나 이상의 프로세서 및 IVAS 비트레이트를 사용하여, FoA 입력 오디오 신호의 속성을 추출하는 것 - 속성 중 하나는 FoA 입력 오디오 신호의 대역폭임; 하나 이상의 프로세서를 사용하여, FoA 신호 속성을 사용하여 FoA 입력 오디오 신호에 대한 공간 메타데이터를 생성하는 것; 하나 이상의 프로세서를 사용하여, 공간 메타데이터 내의 잔차 수준 표시자 및 역상관 계수에 기초하여 전송할 잔차 채널의 수를 선택하는 것; 하나 이상의 프로세서를 사용하여, IVAS 비트레이트, 대역폭 및 다운믹스 채널의 수에 기초하여 비트레이트 분배 제어 테이블 색인을 획득하는 것; 하나 이상의 프로세서를 사용하여, 비트레이트 분배 제어 테이블 색인이 가리키는 비트레이트 분배 제어 테이블의 행으로부터 공간 재구성기(SPAR) 구성을 판독하는 것; 하나 이상의 프로세서를 사용하여, IVAS 비트레이트, 목표 EVS 비트레이트의 합 및 IVAS 헤더의 길이로부터 목표 메타데이터 비트레이트를 결정하는 것; 하나 이상의 프로세서를 사용하여, IVAS 비트레이트, 최소 EVS 비트레이트의 합 및 IVAS 헤더의 길이로부터 최대 메타데이터 비트레이트를 결정하는 것; 하나 이상의 프로세서 및 양자화 루프를 사용하여, 제1 양자화 전략에 따라 비-시간 차동 방식으로 공간 메타데이터를 양자화하는 것; 하나 이상의 프로세서를 사용하여, 양자화된 공간 메타데이터를 엔트로피 코딩하는 것; 하나 이상의 프로세서를 사용하여, 제1 실제 메타데이터 비트레이트를 계산하는 것; 하나 이상의 프로세서를 사용하여, 제1 실제 메타데이터 비트레이트가 목표 메타데이터 비트레이트 이하인지 여부를 결정하는 것; 및 제1 실제 메타데이터 비트레이트가 목표 메타데이터 비트레이트 이하인 것에 따라, 양자화 루프를 종료하는 것을 더 포함한다.
일 실시예에서, 방법은: 하나 이상의 프로세서를 사용하여, 메타데이터 목표 비트레이트와 제1 실제 메타데이터 비트레이트 사이의 차이와 동일한 제1 양의 비트를 전체 EVS 목표 비트레이트에 더함으로써 제1 전체 실제 EVS 비트레이트를 결정하는 것; 하나 이상의 프로세서를 사용하여, 제1 전체 실제 EVS 비트레이트를 사용하여 EVS 비트스트림을 생성하는 것; 하나 이상의 프로세서를 사용하여, EVS 비트스트림, 비트레이트 분배 제어 테이블 색인 및 양자화 및 엔트로피 코딩된 공간 메타데이터를 포함하는 IVAS 비트스트림을 생성하는 것; 제1 실제 메타데이터 비트레이트가 목표 메타데이터 비트레이트보다 큰 것에 따라: 하나 이상의 프로세서를 사용하여, 제1 양자화 전략에 따라 시간 차동 방식으로 공간 메타데이터를 양자화하는 것; 하나 이상의 프로세서를 사용하여, 양자화된 공간 메타데이터를 엔트로피 코딩하는 것; 하나 이상의 프로세서를 사용하여, 제2 실제 메타데이터 비트레이트를 계산하는 것; 하나 이상의 프로세서를 사용하여, 제2 실제 메타데이터 비트레이트가 목표 메타데이터 비트레이트 이하인지 여부를 결정하는 것; 및 제2 실제 메타데이터 비트레이트가 목표 메타데이터 비트레이트 이하인 것에 따라, 양자화 루프를 종료하는 것을 더 포함한다.
일 실시예에서, 방법은: 하나 이상의 프로세서를 사용하여, 메타데이터 목표 비트레이트와 제2 실제 메타데이터 비트레이트 사이의 차이와 동일한 제2 양의 비트를 전체 EVS 목표 비트레이트에 더함으로써 제2 전체 실제 EVS 비트레이트를 결정하는 것; 하나 이상의 프로세서를 사용하여, 제2 전체 실제 EVS 비트레이트를 사용하여 EVS 비트스트림을 생성하는 것; 하나 이상의 프로세서를 사용하여, EVS 비트스트림, 비트레이트 분배 제어 테이블 색인 및 양자화 및 엔트로피 코딩된 공간 메타데이터를 포함하는 IVAS 비트스트림을 생성하는 것; 제2 실제 메타데이터 비트레이트가 목표 메타데이터 비트레이트보다 큰 것에 따라: 하나 이상의 프로세서를 사용하여, 제1 양자화 전략에 따라 비-시간 차동 방식으로 공간 메타데이터를 양자화하는 것; 하나 이상의 프로세서 및 베이스2(base2) 코더를 사용하여, 양자화된 공간 메타데이터를 코딩하는 것; 하나 이상의 프로세서를 사용하여, 제3 실제 메타데이터 비트레이트를 계산하는 것; 및 제3 실제 메타데이터 비트레이트가 목표 메타데이터 비트레이트 이하임에 따라, 양자화 루프를 종료하는 것을 더 포함한다.
일 실시예에서, 방법은: 하나 이상의 프로세서를 사용하여, 메타데이터 목표 비트레이트와 제3 실제 메타데이터 비트레이트 사이의 차이와 동일한 제3 양의 비트를 전체 EVS 목표 비트레이트에 더함으로써 제3 전체 실제 EVS 비트레이트를 결정하는 것; 하나 이상의 프로세서를 사용하여, 제3 전체 실제 EVS 비트레이트를 사용하여 EVS 비트스트림을 생성하는 것; 하나 이상의 프로세서를 사용하여, EVS 비트스트림, 비트레이트 분배 제어 테이블 색인 및 양자화 및 엔트로피 코딩된 공간 메타데이터를 포함하는 IVAS 비트스트림을 생성하는 것; 제3 실제 메타데이터 비트레이트가 목표 메타데이터 비트레이트보다 큰 것에 따라: 하나 이상의 프로세서를 사용하여, 제4 실제 메타데이터 비트레이트를 제1, 제2 및 제3 실제 메타데이터 비트레이트 중 최소값으로 설정하는 것; 하나 이상의 프로세서를 사용하여, 제4 실제 메타데이터 비트레이트가 최대 메타데이터 비트레이트 이하인지 여부를 결정하는 것; 제4 실제 메타데이터 비트레이트가 최대 메타데이터 비트레이트 이하인 것에 따라: 하나 이상의 프로세서를 사용하여, 제4 실제 메타데이터 비트레이트가 목표 메타데이터 비트레이트 이하인지 여부를 결정하는 것; 및 제4 실제 메타데이터 비트레이트가 목표 메타데이터 비트레이트 이하인 것에 따라, 양자화 루프를 종료하는 것을 더 포함한다.
일 실시예에서, 방법은: 하나 이상의 프로세서를 사용하여, 메타데이터 목표 비트레이트와 제4 실제 메타데이터 비트레이트 사이의 차이와 동일한 제4 양의 비트를 전체 목표 EVS 비트레이트에 더함으로써 제4 전체 실제 EVS 비트레이트를 결정하는 것; 하나 이상의 프로세서를 사용하여, 제4 전체 실제 EVS 비트레이트를 사용하여 EVS 비트스트림을 생성하는 것; 하나 이상의 프로세서를 사용하여, EVS 비트스트림, 비트레이트 분배 제어 테이블 색인 및 양자화 및 엔트로피 코딩된 공간 메타데이터를 포함하는 IVAS 비트스트림을 생성하는 것; 및 제4 실제 메타데이터 비트레이트가 목표 메타데이터 비트레이트보다 크고 최대 메타데이터 비트레이트 이하인 것에 따라, 양자화 루프를 종료하는 것을 더 포함한다.
일 실시예에서, 방법은: 하나 이상의 프로세서를 사용하여, 제4 실제 메타데이터 비트레이트와 목표 메타데이터 비트레이트 사이의 차이와 동일한 양의 비트를 전체 목표 EVS 비트레이트로부터 뺌으로써 제5 전체 실제 EVS 비트레이트를 결정하는 것; 하나 이상의 프로세서를 사용하여, 제5 실제 EVS 비트레이트를 사용하여 EVS 비트스트림을 생성하는 것; 하나 이상의 프로세서를 사용하여, EVS 비트스트림, 비트레이트 분배 제어 테이블 색인 및 양자화 및 엔트로피 코딩된 공간 메타데이터를 포함하는 IVAS 비트스트림을 생성하는 것; 제4 실제 메타데이터 비트레이트가 최대 메타데이터 비트레이트보다 큰 것에 따라: 제1 양자화 전략을 제2 양자화 전략으로 변경하고 제2 양자화 전략을 사용하여 양자화 루프에 다시 진입하는 것을 더 포함하며, 제2 양자화 전략은 제1 양자화 전략보다 더 거칠다. 일 실시예에서, 최대 MD 비트레이트보다 작은 실제 MD 비트레이트를 제공하도록 보장하는 제3 양자화 전략이 사용될 수 있다.
일 실시예에서, SPAR 구성은 다운믹스 문자열, 액티브 W 플래그, 복소 공간 메타데이터 플래그, 공간 메타데이터 양자화 전략, 향상된 음성 서비스(EVS) 모노 코더/디코더(코덱)의 하나 이상의 인스턴스에 대한 최소, 최대 및 목표 비트레이트 및 시간 도메인 역상관기 더킹(ducking) 플래그에 의해 정의된다.
일 실시예에서, EVS 비트의 전체 실제 수는 IVAS 비트 수에서 헤더 비트 수를 빼고 실제 메타데이터 비트레이트를 뺀 것과 동일하고, 전체 실제 EVS 비트의 수가 EVS 목표 비트의 전체 수보다 작으면 Z, X, Y 및 W의 순서로 EVS 채널로부터 비트를 가져오고, 임의의 채널로부터 가져올 수 있는 최대 비트 수는 채널에 대한 EVS 목표 비트 수에서 채널에 대한 최소 EVS 비트 수를 뺀 것이며, 실제 EVS 비트의 수가 EVS 목표 비트의 수보다 크면 모든 추가 비트가 W, Y, X 및 Z의 순서로 다운믹스 채널에 할당되고, 임의의 채널에 추가할 수 있는 추가 비트의 최대 수는 최대 EVS 비트 수에서 EVS 목표 비트 수를 뺀 것이다.
일 실시예에서, 몰입형 음성 및 오디오 서비스(IVAS) 비트스트림을 디코딩하는 방법에 있어서, 방법은: 하나 이상의 프로세서를 사용하여, IVAS 비트스트림을 수신하는 것; 하나 이상의 프로세서를 사용하여, IVAS 비트스트림의 비트 길이로부터 IVAS 비트레이트를 획득하는 것; 하나 이상의 프로세서를 사용하여, IVAS 비트스트림으로부터 비트레이트 분배 제어 테이블 색인을 획득하는 것; 하나 이상의 프로세서를 사용하여, IVAS 비트스트림의 헤더로부터 메타데이터 양자화 전략을 파싱하는 것; 하나 이상의 프로세서를 사용하여, 메타데이터 양자화 전략에 기초하여 양자화된 공간 메타데이터 비트를 파싱 및 역양자화하는 것; 하나 이상의 프로세서를 사용하여, IVAS 비트스트림의 잔여 비트 길이와 동일한 향상된 음성 서비스(EVS) 비트의 실제 수를 설정하는 것; 하나 이상의 프로세서 및 비트레이트 분배 제어 테이블 색인을 사용하여, EVS 목표를 포함하는 비트레이트 분배 제어 테이블의 테이블 항목, 및 하나 이상의 EVS 인스턴스에 대한 EVS 최소 비트레이트 및 최대 EVS 비트레이트를 판독하는 것; 하나 이상의 프로세서를 사용하여, 각 다운믹스 채널에 대한 실제 EVS 비트레이트를 획득하는 것; 하나 이상의 프로세서를 사용하여, 채널에 대한 실제 EVS 비트레이트를 사용하여 각 EVS 채널을 디코딩하는 것; 및 하나 이상의 프로세서를 사용하여, EVS 채널을 1차 앰비소닉(FoA) 채널로 업믹싱하는 것을 포함한다.
일 실시예에서, 시스템은: 하나 이상의 프로세서; 및 하나 이상의 프로세서에 의한 실행에 따라, 하나 이상의 프로세서가 위에서 설명한 방법 중 어느 하나의 동작을 수행하도록 하는 명령을 저장하는 비일시적 컴퓨터 판독 가능 매체를 포함한다.
일 실시예에서, 하나 이상의 프로세서에 의한 실행에 따라, 하나 이상의 프로세서가 위에서 설명한 방법 중 어느 하나의 동작을 수행하도록 하는 명령을 저장하는 비일시적 컴퓨터 판독 가능 매체.
본원에 개시된 다른 구현은 시스템, 장치 및 컴퓨터 판독가능 매체에 관한 것이다. 개시된 구현의 세부사항은 첨부 도면 및 아래의 설명에 제시되어 있다. 다른 특징, 목적 및 이점은 설명, 도면 및 청구범위로부터 명백하다.
본원에 개시된 특정 구현은 다음 이점 중 하나 이상을 제공한다. IVAS 코덱 비트레이트는 모노 코덱과 공간 메타데이터(MD) 사이에서 그리고 모노 코덱의 여러 인스턴스 사이에서 분배된다. 주어진 오디오 프레임에 대해, IVAS 코덱은 공간 오디오 코딩 모드(매개변수적 또는 잔차 코딩)를 결정한다. IVAS 비트스트림은 공간 MD를 줄이고, 모노 코덱 오버헤드를 줄이며 비트 낭비를 0으로 최소화하도록 최적화된다.
도면에서, 설명의 편의를 위해 디바이스, 유닛, 명령 블록 및 데이터 요소를 나타내는 것과 같은 개략적 요소의 특정 배열 또는 순서가 도시되어 있다. 그러나, 도면에서 개략적인 요소의 특정한 순서 또는 배열이 처리의 특정한 순서 또는 서열, 또는 처리의 분리가 필요하다는 것을 의미하는 것은 아니라는 것이 당업자에 의해 이해되어야 한다. 또한, 도면에 개략적인 요소를 포함하는 것은 그러한 요소가 모든 실시예에서 필요하다는 것을 의미하거나 그러한 요소에 의해 표현되는 특징이 일부 구현에서 다른 요소에 포함되거나 다른 요소와 결합되지 않을 수 있음을 의미하는 것은 아니다.
또한, 실선 또는 점선 또는 화살표와 같은 연결 요소가 2개 이상의 다른 개략적인 요소 사이의 연결, 관계 또는 연관을 설명하기 위해 사용되는 도면에서, 그러한 연결 요소의 부재는 연결, 관계 또는 연관이 존재할 수 없다는 의미는 아니다. 달리 말하자면, 개시를 불명료하게 하지 않기 위해 요소 간의 일부 연결, 관계 또는 연관은 도면에 나타나지 않는다. 또한, 설명의 편의를 위해, 단일 연결 요소를 사용하여 요소 간의 다중 연결, 관계 또는 연관을 나타낸다. 예를 들어, 연결 요소가 신호, 데이터 또는 명령의 통신을 나타내는 경우, 이러한 요소는 통신에 영향을 미치기 위해 필요할 수 있는 하나 또는 다수의 신호 경로를 나타내는 것으로 당업자는 이해해야 한다.
도 1은 일 실시예에 따른, IVAS 코덱에 대한 사용 사례를 도시한다.
도 2는 일 실시예에 따른, IVAS 비트스트림을 인코딩 및 디코딩하는 시스템의 블록도이다.
도 3은 일 실시예에 따른, FoA 형식의 IVAS 비트스트림을 인코딩 및 디코딩하는 공간 재구성기(SPAR) 1차 앰비소닉(FoA) 코더/디코더("코덱")의 블록도이다.
도 4a는 일 실시예에 따른, FoA 및 스테레오 입력 신호에 대한 IVAS 신호 체인의 블록도이다.
도 4b는 일 실시예에 따른, FoA 및 스테레오 입력 신호에 대한 대안적인 IVAS 신호 체인의 블록도이다.
도 5a는 일 실시예에 따른, 스테레오, 평면 FoA 및 FoA 입력 신호에 대한 비트레이트 분배 프로세스의 흐름도이다.
도 5b 및 도 5c는 일 실시예에 따른, 공간 재구성기(SPAR) FoA 입력 신호에 대한 비트레이트 분배 프로세스의 흐름도이다.
도 6은 일 실시예에 따른, 스테레오, 평면 FoA 및 FoA 입력 신호에 대한 비트레이트 분배 프로세스의 흐름도이다.
도 7은 일 실시예에 따른, SPAR FoA 입력 신호에 대한 비트레이트 분배 프로세스의 흐름도이다.
도 8은 일 실시예에 따른, 예시적인 디바이스 아키텍처의 블록도이다.
다양한 도면에 사용된 동일한 참조 부호는 유사한 요소를 나타낸다.
다음의 상세한 설명에서, 다양한 설명된 실시예의 완전한 이해를 제공하기 위해 다수의 특정 세부사항이 설명된다. 다양한 설명된 구현이 이러한 특정 세부사항 없이 실행될 수 있다는 것이 당업자에게 명백할 것이다. 다른 예에서, 잘 알려진 방법, 절차, 구성요소 및 회로는 실시예의 양상을 불필요하게 모호하게 하지 않도록 상세하게 설명되지 않았다. 각각 서로 독립적으로 또는 다른 기능의 임의의 조합과 함께 사용할 수 있는 몇 가지 기능이 이후에 설명된다.
명명법
본원에서 사용되는 바에 따르면, 용어 "포함하는" 및 그의 변형은 "포함하지만, 이에 제한되지 않는"을 의미하는 개방형 용어로 해석되어야 한다. 용어 "또는"은 문맥이 명백하게 달리 나타내지 않는 한 "및/또는"으로 읽어야 한다. "에 기초한"이라는 용어는 "적어도 부분적으로 기초한"으로 읽어야 한다. "하나의 예시적인 구현" 및 "예시적인 구현"이라는 용어는 "적어도 하나의 예시적인 구현"으로 읽어야 한다. "다른 구현"이라는 용어는 "적어도 하나의 다른 구현"으로 읽어야 한다. "결정된", "결정한다" 또는 "결정하는"이라는 용어는 획득, 수신, 컴퓨팅, 계산, 추정, 예측 또는 유도로 읽어야 한다. 또한, 이하의 설명 및 특허청구범위에서, 달리 정의되지 않는 한, 본원에서 사용되는 모든 기술적, 과학적 용어는 이 개시가 속하는 기술분야의 당업자가 일반적으로 이해하는 것과 동일한 의미를 갖는다.
IVAS 사용 사례
도 1은 하나 이상의 구현에 따른, IVAS 코덱(100)에 대한 사용 사례(100)를 도시한다. 일부 구현에서, 다양한 디바이스는, 예를 들어, PSTN/기타 PLMN(104)에 의해 예시된 공중 교환 전화 네트워크(public switched telephone network; PSTN) 또는 공중 육상 이동 네트워크(public land mobile network; PLMN) 디바이스로부터 오디오 신호를 수신하도록 구성되는 호출 서버(102)를 통해 통신한다. 사용 사례(100)는 향상된 음성 서비스(enhanced voice services; EVS), 다중 속도 광대역(multi-rate wideband; AMR-WB) 및 적응형 다중 속도 협대역(adaptive multi-rate narrowband; AMR-NB)을 지원하는 디바이스를 포함하지만, 이에 제한되지 않는, 오디오를 모노로만 렌더링 및 캡처하는 레거시 디바이스(106)를 지원한다. 사용 사례(100)는 또한 스테레오 오디오 신호를 캡처하고 렌더링하는 사용자 장비(user equipment; UE)(108, 114), 또는 모노 신호를 캡처하고 다중 채널 신호로 양이로(binaurally) 렌더링하는 UE(110)를 지원한다. 사용 사례(100)는 또한 각각 비디오 회의실 시스템(116, 118)에 의해 캡처 및 렌더링된 몰입형 및 스테레오 신호를 지원한다. 사용 사례(100)는 또한 홈 시어터 시스템(120)을 위한 스테레오 캡처 및 스테레오 오디오 신호의 몰입형 렌더링, 및 가상 현실(virtual reality; VR) 기어(122) 및 몰입형 콘텐츠 수집(ingest)(124)을 위한 오디오 신호의 모노 캡처 및 몰입형 렌더링을 위한 컴퓨터(112)를 지원한다.
예시적인 IVAS 인코딩/디코딩 시스템
도 2는 하나 이상의 구현에 따른, IVAS 비트스트림을 인코딩 및 디코딩하는 시스템(200)의 블록도이다. 인코딩을 위해, IVAS 인코더는 모노 신호, 스테레오 신호, 양이 신호, 공간 오디오 신호(예를 들어, 다중 채널 공간 오디오 객체), FoA, 고차 앰비소닉(higher order Ambisonics; HoA) 및 임의의 다른 오디오 데이터를 포함하지만 이에 제한되지 않는 오디오 데이터(201)를 수신하는 공간 분석 및 다운믹스 유닛(202)을 포함한다. 일부 구현에서, 공간 분석 및 다운믹스 유닛(202)은 스테레오/FoA 오디오 신호를 분석/다운믹싱하기 위한 복소 고급 결합(complex advanced coupling; CACPL) 및/또는 FoA 오디오 신호를 분석/다운믹싱하기 위한 SPAR을 구현한다. 다른 구현에서, 공간 분석 및 다운믹스 유닛(202)은 다른 형식을 구현한다.
공간 분석 및 다운믹스 유닛(202)의 출력은 공간 메타데이터 및 오디오의 1 내지 N 다운믹스 채널을 포함하며, 여기에서 N은 입력 채널의 수이다. 공간 메타데이터는 공간 데이터를 양자화 및 엔트로피 코딩하는 양자화 및 엔트로피 코딩 유닛(203)에 입력된다. 일부 구현에서, 양자화는 예를 들어 미세(fine), 보통(moderate), 거친(coarse) 및 매우 거친(extra coarse) 양자화 전략과 같은 점점 더 거칠어지는 양자화의 여러 수준을 포함할 수 있고 엔트로피 코딩은 허프만(Huffman) 또는 산술 코딩을 포함할 수 있다. 향상된 음성 서비스(EVS) 인코딩 유닛(206)은 오디오의 1 내지 N 채널을 하나 이상의 EVS 비트스트림으로 인코딩한다.
일부 구현에서, EVS 인코딩 유닛(206)은 3GPP TS 26.445를 준수하고 협대역(EVS-NB) 및 광대역(EVS-WB) 음성 서비스에 대한 향상된 품질 및 코딩 효율성, 초광대역(EVS-SWB) 음성을 사용한 향상된 품질, 대화 애플리케이션의 혼합 콘텐츠 및 음악에 대한 향상된 품질, 패킷 손실 및 지연 지터에 대한 강건성, AMR-WB 코덱에 대한 역호환성과 같은 광범위한 기능을 제공한다. 일부 구현에서, EVS 인코딩 유닛(206)은 모드/비트레이트 제어(207)에 기초하여 지정된 비트레이트에서 오디오 신호를 인코딩하기 위한 지각 코더와 음성 신호를 인코딩하기 위한 음성 코더 사이에서 선택하는 전처리 및 모드 선택 유닛을 포함한다. 일부 구현에서, 음성 인코더는 다양한 음성 클래스에 대한 특수 선형 예측(linear prediction; LP) 기반 모드로 확장된 대수 코드 여기 선형 예측(algebraic code-excited linear prediction; ACELP)의 개선된 변형이다. 일부 구현에서, 오디오 인코더는 낮은 지연/낮은 비트레이트에서 증가된 효율성을 갖는 수정된 이산 코사인 변환(modified discrete cosine transform; MDCT) 인코더이고 음성 및 오디오 인코더 사이에서 매끄럽고 안정적인 스위칭을 수행하도록 설계된다.
일부 구현에서, IVAS 디코더는 공간 메타데이터를 복구하도록 구성되는 양자화 및 엔트로피 디코딩 유닛(204), 및 1 내지 N 채널 오디오 신호를 복구하도록 구성되는 EVS 디코더(들)(208)를 포함한다. 복구된 공간 메타데이터 및 오디오 신호는 다양한 오디오 시스템(210)에서 재생하기 위해 공간 메타데이터를 사용하여 오디오 신호를 합성/렌더링하는 공간 합성/렌더링 유닛(209)에 입력된다.
예시적인 IVAS/SPAR 코덱
도 3은 일부 구현에 따른, SPAR 형식의 FoA를 인코딩 및 디코딩하는 FoA 코덱(300)의 블록도이다. FoA 코덱(300)은 SPAR FoA 인코더(301), EVS 인코더(305), SPAR FoA 디코더(306) 및 EVS 디코더(307)를 포함한다. SPAR FoA 인코더(301)는 FoA 입력 신호를 SPAR FoA 디코더(306)에서 입력 신호를 재생성하는 데 사용되는 다운믹스 채널 및 매개변수 세트로 변환한다. 다운믹스 신호는 1 내지 4채널까지 다양할 수 있으며 매개변수는 예측 계수(PR), 교차 예측 계수(C) 및 역상관 계수(P)를 포함한다. SPAR은 아래에서 더 자세히 설명하는 것처럼 PR, C 및 P 매개변수를 사용하여 오디오 신호의 다운믹스 버전으로부터 오디오 신호를 재구성하는 데 사용되는 프로세스이다.
도 3에 나타난 예시적인 구현은 W(액티브(active) 예측) 또는 W'(패시브(passive) 예측) 채널이 단일 예측 채널 Y'와 함께 디코더(306)로 전송되는 공칭 2-채널 다운믹스를 도시함을 유의한다. 일부 구현에서, W는 액티브 채널일 수 있다. 액티브 W 채널은 다음과 같이 X, Y, Z 채널을 W 채널 내로 일부 믹싱할 수 있게 한다.
W' = W + f * pry * Y + f * prz * Z + f * prx * X,
여기에서 f는 X, Y, Z 채널 중 일부를 W 채널 내로 믹싱할 수 있게 하는 상수(예를 들어 0.5)이고 pry, prx 및 prz는 예측(PR) 계수이다. 패시브 W에서, f = 0이므로 X, Y, Z 채널이 W 채널로 믹싱되지 않는다.
교차 예측 계수(C)는 적어도 하나의 채널이 잔차로 전송되고 적어도 하나가 매개변수적으로 전송되는 경우, 즉 2 및 3채널 다운믹스에 대해, 매개변수적 채널의 일부분이 잔차 채널로부터 재구성될 수 있게 한다. 2개의 채널 다운믹스(아래에서 더 자세히 설명됨)의 경우, C 계수를 사용하면 X 및 Z 채널 중 일부가 Y'로부터 재구성될 수 있고, 아래에서 더 자세히 설명되는 바와 같이, 잔여 채널은 W 채널의 역상관된 버전에 의해 재구성된다. 3채널 다운믹스의 경우, Y'와 X'는 Z만을 재구성하는 데 사용된다.
일부 구현에서, SPAR FoA 인코더(301)는 패시브/액티브 예측기 유닛(302), 리믹스 유닛(303) 및 추출/다운믹스 선택 유닛(304)을 포함한다. 패시브/액티브 예측기는 4-채널 B-형식의 FoA 채널(W, Y, Z, X)을 수신하고 다운믹스 채널(W, Y', Z', X'의 표현)을 계산한다.
추출/다운믹스 선택 유닛(304)은 아래에서 더 상세히 설명되는 바와 같이 IVAS 비트스트림의 메타데이터 페이로드 섹션으로부터 SPAR FoA 메타데이터를 추출한다. 패시브/액티브 예측기 유닛(302) 및 리믹스 유닛(303)은 SPAR FoA 메타데이터를 사용하여 리믹스된 FoA 채널(W 또는 W' 및 A')을 생성하며, 이는 EVS 인코더(305)에 입력되어 EVS 비트스트림으로 인코딩되고, IVAS 비트스트림 내에 캡슐화되어 디코더(306)로 전송된다. 이 예에서 앰비소닉 B 형식(Ambisonic B-format) 채널은 AmbiX 규칙으로 배열된다. 그러나, 퍼스-말햄(Furse-Malham; FuMa) 규칙(W, X, Y, Z)과 같은 다른 규칙도 사용할 수 있다.
SPAR FoA 디코더(306)를 참조하면, EVS 비트스트림은 EVS 디코더(307)에 의해 디코딩되어 N_dmx(예를 들어, N_dmx=2) 다운믹스 채널을 생성한다. 일부 구현에서, SPAR FoA 디코더(306)는 SPAR 인코더(301)에 의해 수행된 동작의 역을 수행한다. 예를 들어, 도 3의 예에서 리믹스된 FoA 채널(W', A', B', C'의 표현)은 SPAR FoA 공간 메타데이터를 사용하여 2개의 다운믹스 채널로부터 복구된다. 리믹스된 SPAR FoA 채널은 역 믹서(311)에 입력되어 SPAR FoA 다운믹스 채널(W', Y', Z', X'의 표현)을 복구한다. 그런 다음 예측된 SPAR FoA 채널이 역 예측기(312)에 입력되어 원래의 믹스되지 않은 SPAR FoA 채널(W, Y, Z, X)을 복구한다.
이 2-채널 예에서, 역상관기 블록(309A(dec1) 및 309B(dec2))은 시간 도메인 또는 주파수 도메인 역상관기를 사용하여 W 채널의 역상관 버전을 생성하는 데 사용됨을 유의한다. 다운믹스 채널 및 역상관된 채널은 SPAR FoA 메타데이터와 함께 사용되어 X 및 Z 채널을 완전히 또는 매개변수적으로 재구성한다. C 블록(308)은 2x1 C 계수 행렬에 의한 잔차 채널의 곱셈을 참조하여, 도 3에 도시된 바와 같이, 매개변수적으로 재구성된 채널로 합산되는 2개의 교차 예측 신호를 생성한다. P1 블록(310A) 및 P2 블록(310B)은 2x2 P 계수 행렬의 열에 의한 역상관기 출력의 곱셈을 참조하여, 도 3에 도시된 바와 같이, 매개변수적으로 재구성된 채널로 합산되는 4개의 출력을 생성한다.
일부 구현에서, 다운믹스 채널의 수에 따라 FoA 입력 중 하나는 그대로 SPAR FoA 디코더(306)(W 채널)로 전송되고, 다른 채널(Y, Z 및 X) 중 1 내지 3개는 SPAR FoA 디코더(306)에 잔차로 또는 완전히 매개변수적으로 전송된다. 다운믹스 채널의 수 N에 관계없이 동일하게 유지되는 PR 계수는 잔차 다운믹스 채널에서 예측 가능한 에너지를 최소화하는 데 사용된다. C 계수는 잔차로부터 완전히 매개변수화된 채널을 재생성하는 것을 추가로 보조하는 데 사용된다. 따라서, C 계수는 예측할 잔차 채널이나 매개변수화된 채널이 없는 1개 및 4개 채널 다운믹스의 경우에는 필요하지 않다. P 계수는 PR 및 C 계수로 설명되지 않는 잔여 에너지를 채우는 데 사용된다. P 계수의 수는 각 대역의 다운믹스 채널의 수 N에 의존한다. 일부 구현에서, SPAR PR 계수(패시브 W 전용)는 다음과 같이 계산된다.
단계 1. 식 [1]을 이용하여 모든 사이드 신호(Y, Z, X)를 메인 W 신호로부터 예측한다.
Figure pct00001
, [1]
여기에서, 예를 들어, 예측된 채널 Y'에 대한 예측 매개변수는 식 [2]를 사용하여 계산된다.
Figure pct00002
, [2]
여기에서 RAB=cov(A,B)는 신호 A 및 B에 대응하는 입력 공분산 행렬의 요소이며, 대역별로 계산할 수 있다. 유사하게, Z' 및 X' 잔차 채널은 대응하는 예측 매개변수 prz 및 prx를 갖는다. PR은 예측 계수 [prY,prZ,prX]T의 벡터이다.
단계 2. W 및 예측된(Y', Z', X') 신호를 음향 관련성이 가장 높은 신호에서 가장 낮은 신호로 리믹스하며, 여기에서 "리믹싱"은 일부 방법론에 기초하여 신호를 재정렬하거나 재결합하는 것을 의미한다.
Figure pct00003
.
[3]
리믹싱의 한 구현은 왼쪽 및 오른쪽의 오디오 큐가 전면 및 전방-후방보다 음향적으로 더 관련성이 있으며, 전방-후방 큐는 위-아래 큐보다 음향적으로 더 관련성이 있다는 가정 하에서, 입력 신호를 W, Y', X', Z'로 재정렬하는 것이다.
단계 3. 4 채널 사후 예측 및 리믹싱 다운믹스의 공분산을 식 [4] 및 [5]에 나타난 바와 같이 계산한다.
Figure pct00004
[4]
Figure pct00005
. [5]
여기에서 d는 잔차 채널(즉, 제2 내지 N_dmx 채널)을 나타내고, u는 완전히 재생성되어야 하는 매개변수적 채널(즉, 제(N_dmx+1) 내지 제4 채널)을 나타낸다.
1 내지 4개 채널을 갖는 WABC 다운믹스의 예에 대해, d 및 u는 표 1에 나타낸 다음 채널을 나타낸다:
표 1 - d 및 u 채널 표현
N d 채널 U 채널
1 --
Figure pct00006
2
Figure pct00007
Figure pct00008
3
Figure pct00009
Figure pct00010
4
Figure pct00011
--
SPAR FoA 메타데이터의 계산에 대한 주요 관심사는 R_dd, R_ud 및 R_uu 양이다. R_dd, R_ud 및 R_uu 양으로부터, 코덱(300)은 디코더로 전송되는 잔차 채널로부터 완전히 매개변수적인 채널의 임의의 잔여 부분을 교차 예측하는 것이 가능한지 여부를 결정한다. 일부 구현에서, 필요한 추가 C 계수는 다음과 같이 주어진다.
Figure pct00012
[6]
따라서, C 매개변수는 3-채널 다운믹스의 경우 (1×2), 2-채널 다운믹스의 경우 (2×1)의 형태를 갖는다.
단계 4. 역상관기(309A, 309B)에 의해 재구성되어야 하는 매개변수화된 채널의 잔여 에너지를 계산한다. 업믹스 채널 Res_uu의 잔차 에너지는 실제 에너지 R_uu(사후 예측)와 재생성된 교차 예측 에너지 Reg_uu 사이의 차이이다.
Figure pct00013
,
[7]
Figure pct00014
[8]
Figure pct00015
.
[9]
일 실시예에서, 정규화된 Resuu 행렬의 비-대각선(off-diagonal) 요소가 0으로 설정된 후에 행렬 제곱근을 취한다. P는 또한 공분산 행렬이고, 따라서 에르미트(Hermitian) 대칭이고, 따라서 상부 또는 하부 삼각형으로부터의 매개변수만이 디코더(306)로 보내질 필요가 있다. 대각선 항목이 실수인 반면, 비-대각선 요소는 복소수일 수 있다. 일 실시예에서, P 계수는 대각선 및 비-대각선 요소 P_d 및 P_o로 더 분리될 수 있다.
예시적인 IVAS 신호 체인(FoA 또는 스테레오 입력)
도 4a는 일 실시예에 따른, FoA 및 스테레오 입력 오디오 신호에 대한 IVAS 신호 체인(400)의 블록도이다. 이 예시적인 구성에서, 신호 체인(400)에 대한 오디오 입력은 4-채널 FoA 오디오 신호 또는 2-채널 스테레오 오디오 신호일 수 있다. 다운믹스 유닛(401)은 다운믹스 오디오 채널(dmx_ch) 및 공간 MD를 생성한다. 다운믹스 채널은 비트레이트(bitrate; BR) 분배 유닛(402)으로 입력되며, 이는 아래에서 상세히 설명되는 바와 같이, 공간 MD를 양자화하고 BR 분배 제어 테이블 및 IVAS 비트레이트를 사용하여 다운믹스 오디오 채널에 대한 모노 코덱 비트레이트를 제공하도록 구성된다. BR 분배 유닛(402)의 출력은 다운믹스 오디오 채널을 EVS 비트스트림으로 인코딩하는 EVS 유닛(403)으로 입력된다. EVS 비트스트림 및 양자화되고 코딩된 공간 MD는 IVAS 비트스트림 패커(405)에 입력되어 IVAS 비트스트림을 형성하고, 이는 IVAS 디코더로 전송되거나 및/또는 하나 이상의 IVAS 디바이스에서 후속 처리 또는 재생을 위해 저장된다.
스테레오 입력 신호의 경우, 다운믹스 유닛(401)은 중간 신호(M'), 스테레오 신호로부터의 잔차(Re) 및 공간 MD의 표현을 생성하도록 구성된다. 공간 MD는 SPAR에 대한 PR, C 및 P 계수와 CACPL에 대한 PR 및 P 계수를 포함하며, 이는 아래에서 더 자세히 설명된다. M' 신호, Re, 공간 MD 및 BR 분배 제어 테이블은 공간 메타데이터를 양자화하고 M' 신호의 신호 특성 및 BR 분배 제어 테이블을 사용하여 다운믹스 채널에 대한 모노 코덱 비트레이트를 제공하도록 구성된 BR(비트레이트) 분배 유닛(402)에 입력된다. M' 신호, Re 및 모노 코덱 BR은 M' 신호 및 Re를 EVS 비트스트림으로 인코딩하는 EVS 유닛(403)으로 입력된다. EVS 비트스트림 및 양자화되고 코딩된 공간 MD는 IVAS 비트스트림 패커(405)에 입력되어 IVAS 비트스트림을 형성하고, 이는 IVAS 디코더로 전송되거나 및/또는 하나 이상의 IVAS 디바이스에서 후속 처리 또는 재생을 위해 저장된다.
FoA 입력 신호의 경우, 다운믹스 유닛(401)은 1 내지 4개의 FoA 다운믹스 채널 W', Y', X' 및 Z' 및 공간 MD를 생성하도록 구성된다. 공간 MD는 SPAR에 대한 PR, C 및 P 계수와 CACPL에 대한 PR 및 P 계수를 포함하며, 이는 아래에서 더 자세히 설명된다. 1 내지 4개의 FoA 다운믹스 채널(W', Y', X', Z')은 BR 분배 유닛(402)에 입력되고, 이는 공간 MD를 양자화하고 FoA 다운믹스 채널의 신호 특성 및 BR 분배 제어 테이블을 사용하여 FoA 다운믹스 채널(들)에 대한 모노 코덱 비트레이트를 제공하도록 구성된다. FoA 다운믹스 채널(들)은 FoA 다운믹스 채널(들)을 EVS 비트스트림으로 인코딩하는 EVS 유닛(403)으로 입력된다. EVS 비트스트림 및 양자화되고 코딩된 공간 MD는 IVAS 비트스트림 패커(405)에 입력되어 IVAS 비트스트림을 형성하고, 이는 IVAS 디코더로 전송되거나 및/또는 하나 이상의 IVAS 디바이스에서 후속 처리 또는 재생을 위해 저장된다. IVAS 디코더는 IVAS 디바이스에서 재생하기 위해 입력 오디오 신호를 재구성하기 위해 IVAS 인코더가 수행하는 작업의 역순을 수행할 수 있다.
도 4b는 실시예에 따른, FoA 및 스테레오 입력 오디오 신호에 대한 대안적인 IVAS 신호 체인(405)의 블록도이다. 이 예시적인 구성에서, 신호 체인(405)에 대한 오디오 입력은 4-채널 FoA 오디오 신호 또는 2-채널 스테레오 오디오 신호일 수 있다. 이 실시예에서, 전처리기(406)는 대역폭(bandwidth; BW), 음성/음악 분류 데이터, 음성 활동 검출(voice activity detection; VAD) 데이터 등과 같은 입력 오디오 신호로부터 신호 속성을 추출한다.
공간 MD 유닛(407)은 추출된 신호 속성을 사용하여 입력 오디오 신호로부터 공간 MD를 생성한다. 입력 오디오 신호, 신호 속성 및 공간 MD는 공간 MD를 양자화하고 아래에서 자세히 설명되는 BR 분배 제어 테이블 및 IVAS 비트레이트를 사용하여 다운믹스 오디오 채널에 대한 모노 코덱 비트레이트를 제공하도록 구성된 BR 분배 유닛(408)에 입력된다.
BR 분배 유닛(408)에 의해 출력된 입력 오디오 신호, 양자화된 공간 MD 및 다운믹스 채널의 수(d_dmx)는 다운믹스 채널(들)을 생성하는 다운믹스 유닛(409)에 입력된다. 예를 들어, FoA 신호의 경우 다운믹스 채널은 W' 및 N_dmx-1 잔차(Re)를 포함할 수 있다.
BR 분배 유닛(408)에 의해 출력된 EVS 비트레이트 및 다운믹스 채널(들)은 다운믹스 채널(들)을 EVS 비트스트림으로 인코딩하는 EVS 유닛(410)으로 입력된다. EVS 비트스트림 및 양자화된, 코딩된 공간 MD는 IVAS 비트스트림 패커(411)에 입력되어 IVAS 비트스트림을 형성하고, 이는 IVAS 디코더로 전송되거나 및/또는 하나 이상의 IVAS 디바이스에서 후속 처리 또는 재생을 위해 저장된다. IVAS 디코더는 IVAS 디바이스에서 재생하기 위해 입력 오디오 신호를 재구성하기 위해 IVAS 인코더에 의해 수행되는 작업의 역순을 수행할 수 있다.
예시적인 비트레이트 분배 제어 전략
일 실시예에서, IVAS 비트레이트 분배 제어 전략은 2개의 구성요소를 포함한다. 제1 구성 요소는 BR 분배 제어 프로세스의 초기 조건을 제공하는 BR 분배 제어 테이블이다. BR 분배 제어 테이블에 대한 색인은 코덱 구성 매개변수에 의해 결정된다. 코덱 구성 매개변수는 IVAS 비트레이트, 스테레오, FoA, 평면 FoA 또는 기타 형식과 같은 입력 형식, 오디오 대역폭(BW), 공간 코딩 모드(또는 잔차 채널 수 Nre), 모노 코덱의 우선순위 및 공간 MD를 포함할 수 있다. 스테레오 코딩의 경우 Nre = 0은 완전 매개변수적(full-parametric; FP) 모드에 대응하고 Nre = 1은 중간 잔차(mid-residual; MR) 모드에 대응한다. 일 실시예에서, BR 분배 제어 테이블 색인은 각 다운믹스 채널에 대한 목표, 최소 및 최대 모노 코덱 비트레이트, 및 공간 MD를 코딩하기 위한 다수의 양자화 전략(예를 들어, 미세, 중간 거친, 거친)을 가리킨다. 다른 실시예에서, BR 분배 제어 테이블 색인은 모든 모노 코덱 인스턴스에 대한 전체 목표 및 최소 비트레이트, 모든 다운믹스 채널 사이에서 분할되어야 할 이용 가능한 비트레이트의 비율, 및 공간 MD를 코딩하기 위한 다수의 양자화 전략을 가리킨다. IVAS 비트레이트 분배 제어 전략의 제2 구성요소는, 도 5a 및 도 5b를 참조하여 설명된 바와 같이, 공간 메타데이터 양자화 수준 및 비트레이트 및 각 다운믹스 채널의 비트레이트를 결정하기 위해 BR 분배 제어 테이블 출력 및 입력 오디오 신호 속성을 사용하는 프로세스이다.
비트레이트 분배 프로세스-개요
본원에 개시된 비트레이트 분배 프로세스의 주요 처리 구성요소는 다음을 포함한다:
* 오디오 대역폭(BW) 검출(예를 들어, 협대역(narrow band; NB), 광대역(wide band; WB), 초광대역(super wide band; SWB), 전대역(full band; FB)). 이 단계에서, 중간(mid) 또는 W 신호의 BW가 검출되고, 이에 따라 메타데이터가 양자화된다. 그런 다음 EVS는 IVAS BW를 상한선으로 처리하고 그에 따라 다운믹스 채널을 코딩한다.
* 입력 오디오 신호 속성 추출 (예를 들어 음성 또는 음악)
* 공간 코딩 모드(예를 들어, 완전 매개변수적(FP), 중간 잔차(MR)) 또는 잔차 채널 수 선택 N_re, 여기에서 스테레오 코딩의 경우 N_re=0일 때 FP 모드가 선택되고, N_re=1일 때 MR 모드가 선택된다)
* 모노 코덱 및 공간 MD 우선순위 결정. 목표 비트레이트, 각 다운믹스 채널에 대한 최소 및 최대 비트레이트 또는 전체 모노 코덱 비트레이트가 다운믹스 채널 간에 분할되는 비율
오디오 BW 검출
이 구성요소는 중간 또는 W 신호의 BW를 검출한다. 실시예에서, IVAS 코덱은 EVS TS 26.445에 설명된 EVS BW 검출기를 사용한다.
입력 신호 속성 추출
이 구성요소는 입력 오디오 신호의 각 프레임을 음성 또는 음악으로 분류한다. 일 실시예에서, IVAS 코덱은 EVS TS 26.445에 설명된 EVS 음성/음악 분류기를 사용한다.
모노 코덱 대 공간 MD 우선순위 결정
이 구성요소는 다운믹스 신호 속성에 기초하여 모노 코덱 대 공간 MD의 우선순위를 결정한다. 다운믹스 신호 속성의 예로는 음성/음악 분류기 데이터에 의해 결정된 음성 또는 음악 및 스테레오에 대한 중간-측면(mid-side; M-S) 대역 공분산 추정, 및 FoA에 대한 W-Y, W-X, W-Z 대역 공분산 추정을 포함한다. 음성/음악 분류기 데이터는 입력 오디오 신호가 음악인 경우 모노 코덱에 더 높은 우선순위를 부여하는 데 사용할 수 있으며, 공분산 추정은 입력 오디오 신호가 왼쪽 또는 오른쪽으로 하드 패닝된(hard-panned) 경우 공간 MD에 더 높은 우선순위를 부여하는 데 사용할 수 있다.
일 실시예에서, 우선순위 결정은 입력 오디오 신호의 각 프레임에 대해 계산된다. 주어진 IVAS 비트레이트, 중간 또는 W 신호 BW 및 입력 구성에 대해, 비트레이트 분배는 BR 분배 제어 테이블에 있는 다운믹스 채널에 대한 목표 또는 원하는 비트레이트(예를 들어 모노 코덱 비트레이트는 주관적 또는 객관적 평가에 따라 결정됨) 및 메타데이터를 위한 가장 미세한 양자화 전략으로 시작된다. 초기 조건이 주어진 IVAS 비트레이트 예산 내에 맞지 않으면, IVAS 비트레이트 예산에 맞을 때까지 모노 코덱 비트레이트 또는 공간 MD의 양자화 수준 또는 둘 모두가 각자의 우선순위에 기초한 양자화 루프에서 반복적으로 감소된다.
다운믹스 채널 사이에서 비트레이트 분배
완전 매개변수적 대 중간 잔차
FP 모드에서, M' 또는 W' 채널만이 모노 코덱에 의해 코딩되고 추가 매개변수는 디코더에 의해 추가될 잔차 채널의 수준 또는 역상관의 수준을 나타내는 공간 MD에 코딩된다. FP와 MR이 모두 가능한 비트레이트의 경우, IVAS BR 분배 프로세스는 프레임 단위로 공간 MD에 기초하여 모노 코덱에 의해 코딩되고 디코더로 전송/스트리밍될 잔차 채널의 수를 동적으로 선택한다. 임의의 잔차 채널의 수준이 임계값보다 높으면 해당 잔차 채널은 모노 코덱에 의해 코딩된다. 그렇지 않으면 프로세스가 FP 모드에서 실행된다. 모노 코덱이 코딩할 잔차 채널의 수가 변경되면 코덱 상태 버퍼를 재설정하기 위해 전환 프레임 처리가 수행된다.
MR 다운믹스 비트레이트 분배
중간 채널과 잔차 채널 사이의 다양한 입력 신호 및 비트레이트 분배에 대한 청취 평가가 수행되었다. 집중 청취 테스트에 기초하여, 가장 효과적인 중간 대 잔차 비트레이트 비율은 3:2이다. 그러나 애플리케이션의 요구 사항에 따라 다른 비율을 사용할 수 있다. 실시예에서, 비트레이트 분배는 조정 단계에서 추가로 조정되는 고정 비율을 사용한다. 다운믹스 채널에 대한 양자화 전략 및 BR을 선택하는 반복 프로세스 동안, 각 다운믹스 채널에 대한 BR은 주어진 비율에 따라 수정된다.
일 실시예에서, 다운믹스 채널 비트레이트 사이에서 고정된 비율을 유지하는 대신, 목표 비트레이트 및 각 다운믹스 채널에 대한 최소 및 최대 비트레이트가 BR 분배 제어 테이블에 별도로 나열된다. 이러한 비트레이트는 신중한 주관적 및 객관적인 평가에 기초하여 선택된다. 다운믹스 채널에 대한 양자화 전략 및 BR을 선택하는 반복 프로세스 동안, 모든 다운믹스 채널의 우선순위에 기초하여 다운믹스 채널에 비트가 추가되거나 제거된다. 다운믹스 채널의 우선순위는 고정되거나 프레임 단위로 동적일 수 있다. 실시예에서, 다운믹스 채널의 우선순위는 고정되어 있다.
비트레이트 분배 프로세스 - 프로세스 흐름
도 5a는 일 실시예에 따른, 스테레오 및 FoA 입력 신호에 대한 비트레이트 분배 프로세스(500)의 흐름도이다. 프로세스(500)에 대한 입력은 IVAS 비트레이트, 상수(예를 들어, 비트레이트 분배 제어 테이블, IVAS 비트레이트), 다운믹스 채널, 공간 MD, 입력 형식(예를 들어, 스테레오, FoA, 평면 FoA) 및 강제 명령줄 매개변수(예를 들어 최대 대역폭, 코딩 모드, 모노 다운믹스 EVS 역호환 모드)이다. 프로세스(500)의 출력은 각 다운믹스 채널에 대한 EVS 비트레이트, 메타데이터 양자화 수준 및 인코딩된 메타데이터 비트이다. 다음 단계는 프로세스 500의 일부로 실행된다.
다운믹스 오디오 특징 추출
단계 501에서, 다음의 신호 속성이 입력 오디오 신호로부터 추출된다: 대역폭(예를 들어, 협대역, 광대역, 초광대역, 전대역) 및 음성/음악 분류 데이터, 음성 활동 검출(VAD) 데이터. 대역폭(BW)은 입력 오디오 신호의 실제 대역폭의 최소값과 사용자가 지정한 명령줄 최대 대역폭이다. 실시예에서, 다운믹스 오디오 신호는 펄스 코드 변조(pulse code modulated; PCM) 형식일 수 있다.
테이블 색인 결정
단계 502에서, 프로세스(500)는 IVAS 비트레이트를 사용하여 IVAS 비트레이트 분배 제어 테이블로부터 IVAS 비트레이트 분배 제어 테이블 색인을 추출한다. 단계 503에서, 프로세스(500)는 단계 501에서 추출된 신호 매개변수(즉, BW 및 음성/음악 분류), 입력 오디오 신호 형식, 단계 502에서 추출된 IVAS 비트레이트 분배 제어 테이블 색인 및 EVS 모노 다운믹스 역호환성 모드에 기초하여 입력 형식 테이블 색인을 결정한다. 단계 504에서, 프로세스(500)는 비트레이트 분배 제어 테이블 색인, 전환 오디오 코딩 모드 및 공간 MD에 기초하여 공간 코딩 모드(즉, FP 또는 MR) 또는 잔차 채널의 수(즉, N_re = 0 내지 3)를 선택한다. 단계 505에서, 프로세스(500)는 위에서 설명된 6개의 매개변수에 기초하여 최종 정확한 테이블 색인을 결정한다. 일 실시예에서, 단계 504에서 공간 오디오 코딩 모드의 선택은 공간 MD의 잔차 채널 수준 표시자에 기초한다. 공간 오디오 코딩 모드는 다운믹스된 오디오 신호에서 중간 또는 W 채널(M' 또는 W')의 표현이 하나 이상의 잔차 채널과 동반되는 MR 코딩 모드 또는 다운믹스된 오디오 신호에 중간 또는 W 채널(M' 또는 W')의 표현만이 있는 FP 코딩 모드를 나타낸다. 실시예에서, 이전 프레임의 공간 오디오 코딩 모드가 잔차 채널 코딩을 포함하는 반면 현재 프레임은 M' 또는 W' 채널 코딩만을 필요로 하는 경우 전환 오디오 코딩 모드는 1로 설정된다. 그렇지 않으면, 전환 오디오 코딩 모드는 0으로 설정된다. 코딩할 잔차 채널 수가 현재 프레임과 이전 프레임 사이에서 상이하면, 전환 오디오 코딩 모드는 1로 설정된다.
모노 코덱 및 공간 MD 우선순위 계산
단계 506에서, 프로세스(500)는 단계 1에서 추출된 입력 오디오 신호 속성 및 중간-측면 또는 W-Y, W-X, W-Z 채널 대역 공분산 추정에 기초하여 모노 코덱/공간 MD 우선순위를 결정한다. 실시예에서, 4개의 가능한 우선순위 결과가 존재한다: 모노 코덱 높은 우선순위 및 공간 MD 낮은 우선순위, 모노 코덱 낮은 우선순위 및 공간 MD 높은 우선순위, 모노 코덱 높은 우선순위 및 공간 MD 높은 우선순위; 및 모노 코덱 낮은 우선순위 및 공간 MD 낮은 우선순위.
테이블로부터 모노 코덱 비트레이트 관련 변수 추출
단계 507에서, 단계 505에서 계산된 최종 테이블 색인이 가리키는 테이블 항목으로부터 다음 매개변수가 판독된다: 모노 코덱(EVS) 목표 비트레이트, 비트레이트 비율, EVS 최소 비트레이트 및 EVS 비트레이트 편차 간격. 실제 모노 코덱(EVS) 비트레이트는 단계 506에서 결정된 모노 코덱/공간 MD 우선순위와 다양한 양자화 수준을 갖는 공간 MD 비트레이트에 따라 BR 분배 제어 테이블에 명시된 모노 코덱(EVS) 목표 비트레이트보다 높거나 낮을 수 있다. 비트레이트 비율은 입력 오디오 신호 채널 사이에서 전체 EVS 비트레이트가 분배되어야 하는 비율을 나타낸다. EVS 최소 비트레이트는 전체 EVS 비트레이트가 그 아래로 가도록 허용되지 않는 값이다. EVS 비트레이트 편차 간격은 EVS 우선순위가 공간 MD의 우선순위보다 더 높거나 같거나 더 낮을 때 EVS 목표 비트레이트 감소 간격이다.
입력 매개변수에 기초하여 최상의 EVS 비트레이트 및 메타데이터 양자화 수준 계산
단계 508에서, 최적의 EVS 비트레이트 및 메타데이터 양자화 전략이, 다음의 하위 단계에 따라, 단계 501 내지 503에서 획득된 입력 매개변수에 기초하여 계산된다. 다운믹스 채널에 대한 높은 비트레이트 및 거친 양자화 전략은 공간 문제를 유발할 수 있는 반면 미세 양자화 전략 및 낮은 다운믹스 오디오 채널 비트레이트는 모노 코덱 코딩 아티팩트를 유발할 수 있다. 본원에서 사용되는 바에 따르면 "최적"은 IVAS 비트레이트 예산에서 사용 가능한 모든 비트를 활용하거나 적어도 비트 낭비를 크게 줄이는 EVS 비트레이트와 메타데이터 양자화 수준 사이의 IVAS 비트레이트의 가장 균형 잡힌 분배이다.
단계 508.1: 가장 정밀한 양자화 수준으로 메타데이터를 양자화하고 조건 508.a(아래에 표시됨)를 확인한다. 조건 508.a가 참이면, 단계 508.b를 수행한다(아래 참조). 그렇지 않으면, 단계 503에서 계산된 우선순위에 따라 단계 508.2 또는 508.3 또는 508.4로 계속 진행한다.
단계 508.2: EVS 우선순위가 높고 공간 MD 우선순위가 낮으면, 공간 MD의 양자화 수준을 줄이고 조건 508.a를 확인한다. 조건 508.a가 참이면, 단계 508.b를 수행한다. 그렇지 않으면, 단계 507(EVS 비트레이트 편차 간격)에 기초하여 EVS 목표 비트레이트를 줄이고 조건 508a를 확인한다. 조건 508a가 참이면 단계 508.b를 수행하고, 그렇지 않으면 단계 508.2를 반복한다.
단계 508.3: EVS 우선순위가 낮고 공간 MD 우선순위가 높으면, 단계 507(EVS 비트레이트 편차 간격)에 기초하여 EVS 목표 비트레이트를 줄이고 조건 508.a를 확인한다. 조건 508.a가 참이면, 단계 508.b를 수행한다. 그렇지 않으면, 공간 MD의 양자화 수준을 줄이고 조건 508.a를 확인한다. 조건 508.a가 참이면 단계 508.b를 수행한다. 그렇지 않으면, 단계 508.3을 반복한다.
단계 508.4: EVS 우선순위가 공간 MD 우선순위와 동일하면, 단계 507(EVS 비트레이트 편차 간격)에 기초하여 EVS 목표 비트레이트를 줄이고 조건 508.a를 확인한다. 조건 508.a가 참이면, 단계 508.b를 수행한다. 그렇지 않으면, 공간 메타데이터의 양자화 수준을 낮추고 조건 508.a를 확인한다. 조건 508.a가 참이면 단계 508.b를 수행하고, 그렇지 않으면 단계 5.4를 반복한다.
위에서 참조된 조건 508.a는 메타데이터 비트레이트, EVS 목표 비트레이트 및 오버헤드 비트의 합이 IVAS 비트레이트 이하인지 여부를 확인한다.
위에서 참조한 단계 508.b는 IVAS 비트레이트에서 메타데이터 비트레이트를 빼고 오버헤드 비트를 뺀 것과 같도록 EVS 비트레이트를 계산한다. 그런 다음 EVS 비트레이트는 단계 507에서 언급된 비트레이트 비율에 따라 다운믹스 오디오 채널에 분배된다.
최소 EVS 목표 비트레이트 및 가장 거친 양자화 수준이 IVAS 비트레이트 예산 내에 맞지 않으면, 비트레이트 분배 프로세스(500)는 더 낮은 대역폭으로 수행된다.
실시예에서, 테이블 색인 및 메타데이터 양자화 수준 정보는 IVAS 디코더로 전송되는 IVAS 비트스트림의 오버헤드 비트에 포함된다. IVAS 디코더는 IVAS 비트스트림의 오버헤드 비트에서 테이블 색인 및 메타데이터 양자화 수준을 판독하고 공간 MD를 디코딩한다. 이것은 처리할 IVS 비트스트림의 EVS 비트만을 IVAS 디코더에 남겨둔다. EVS 비트는 테이블 색인에 의해 표시된 비율에 따라 입력 오디오 신호 채널 사이에 분할된다(단계 508.b). 그런 다음 각 EVS 디코더 인스턴스는 다운믹스 오디오 채널의 재구성으로 이어지는 대응하는 비트와 함께 호출된다.
예시적인 IVAS 비트레이트 분배 제어 테이블
아래는 예시적인 IVAS 비트레이트 분배 제어 테이블이다. 테이블에 표시된 다음 매개변수는 아래에 표시된 값을 갖는다.
입력 형식: 스테레오 - 1, 평면 FoA - 2, FoA - 3
BW: NB - 0, WB - 1, SWB - 2, FB - 3
허용되는 공간 코딩 도구: FP - 1, MR - 2
전환 모드: 1 -> MR에서 FP로의 전환, 0 -> 그렇지 않은 경우
모노 다운믹스 역호환 모드: 1 -> 중간 채널이 3GPP EVS와 호환되어야 하는 경우, 0 -> 그렇지 않은 경우.
표 I - 예시적인 IVAS 비트레이트 분배 테이블
IVAS BR
(kbps)
입력
형식
BW 공간
오디오
코딩 모드
전환
모드
모노
다운믹스
역호환
모드
EVS
목표 BR
(bps)
BR
비율
EVS
최소BR
(bps)
EVS BR 편차
간격
(bps)
16.4 1 1 1 0 0 11400 (1, 0) 9000 (200, 400, 800)
16.4 1 2 1 0 0 11400 (1, 0) 9000 (200, 400, 800)
16.4 1 2 1 0 1 9600 (1, 0) 9600 (0, 0, 0)
24.4 1 1 1 0 0 19200 (1, 0) 16400 (200, 400, 800)
24.4 1 1 2 0 0 19200 (3, 2) 16400 (50, 100, 200)
24.4 1 1 1 1 0 19200 (3, 2) 16400 (50, 100, 200)
24.4 2 1 1 0 0 16400 (1, 0, 0) 13200 (200, 400, 800)
24.4 1 2 1 0 0 19200 (1, 0) 16400 (200, 400, 800)
24.4 1 2 2 0 0 19200 (3, 2) 16400 (50, 100, 200)
24.4 1 2 1 1 0 19200 (3, 2) 16400 (50, 100, 200)
24.4 1 2 2 0 1 19200 (1, 1) 19200 (0, 0, 0)
24.4 2 2 1 0 0 16400 (1, 0, 0) 13200 (200, 400, 800)
24.4 2 2 1 0 1 13200 (1, 0, 0) 13200 (0, 0, 0)
24.4 1 3 1 0 0 19200 (1, 0) 16400 (200, 400, 800)
32 1 1 2 0 0 28000 (3, 2) 24400 (50, 100, 200)
32 2 1 1 0 0 23200 (1, 0, 0) 19200 (400, 800, 1200)
32 3 1 1 0 0 20800 (1, 0, 0, 0) 16400 (400, 800, 1200)
32 1 2 1 0 0 28000 (1, 0) 24400 (400, 800, 1200)
32 1 2 2 0 0 28000 (3, 2) 24400 (50, 100, 200)
32 1 2 2 0 1 26000 (41, 24) 26000 (0, 0, 0)
32 1 2 1 1 0 28000 (3, 2) 24400 (50, 100, 200)
32 2 2 1 0 0 26600 (1, 0, 0) 25200 (400, 800, 1200)
32 2 2 2 0 0 26600 (3, 2, 2) 25200 (50, 100, 200)
32 2 2 1 0 1 16400 (1, 0, 0) 16400 (0, 0, 0)
32 2 2 1 1 0 26600 (3, 2, 2) 25200 (50, 100, 200)
32 3 2 1 0 0 20800 (1, 0, 0, 0) 16400 (400, 800, 1200)
32 1 3 1 0 0 26000 (1, 0) 23200 (400, 800, 1200)
32 2 3 1 0 0 26400 (1, 0, 0) 23200 (400, 800, 1200)
48 1 1 2 0 0 44000 (3, 2) 40000 (100, 200, 400)
48 2 1 2 0 0 40000 (3, 2, 2) 36000 (100, 200, 400)
48 3 1 2 0 0 39600 (3, 2, 2, 2) 34200 (100, 200, 300)
48 1 2 2 0 0 44000 (3, 2) 40000 (100, 200, 400)
48 1 2 2 0 1 40800 (61, 41) 40800 (0, 0, 0)
48 2 2 2 0 0 40000 (3, 2, 2) 36000 (100, 200, 400)
48 2 2 2 0 1 35600 (41, 24, 24) 35600 (0, 0, 0)
48 3 2 1 0 0 34000 (1, 0, 0, 0) 30000 (600, 1000, 1600)
48 3 2 1 0 1 24400 (1, 0, 0, 0) 24400 (0, 0, 0)
48 1 3 1 0 0 44000 (1, 0) 40000 (600, 1000, 1600)
48 1 3 2 0 0 44000 (3, 2) 40000 (100, 200, 400)
48 1 3 1 1 0 44000 (3, 2) 40000 (100, 200, 400)
48 2 3 1 0 0 39200 (1, 0, 0) 35200 (600, 1000, 1600)
48 3 3 1 0 0 34000 (1, 0, 0, 0) 30000 (600, 1000, 1600)
64 1 1 2 0 0 60000 (3, 2) 56000 (100, 200, 400)
64 2 1 2 0 0 57400 (3, 2, 2) 52500 (100, 200, 400)
64 3 1 2 0 0 52000 (3, 2, 2, 2) 45000 (100, 200, 300)
64 1 2 2 0 0 60000 (3, 2) 56000 (100, 200, 400)
64 1 2 2 0 1 48800 (1, 1) 48800 (0, 0, 0)
64 2 2 2 0 0 57400 (3, 2, 2) 52200 (100, 200, 400)
64 2 2 2 0 1 50800 (61, 33, 33) 50800 (0, 0, 0)
64 3 2 2 0 0 52000 (3, 2, 2, 2) 45000 (100, 200, 300)
64 3 2 2 0 1 45200 (41, 24, 24, 24) 45200 (0, 0, 0)
64 1 3 2 0 0 60000 (3, 2) 56000 (100, 200, 400)
64 2 3 1 0 0 57400 (1, 0, 0) 52500 (800, 1200, 2000)
64 2 3 2 0 0 57400 (3, 2, 2) 52500 (100, 200, 400)
64 2 3 1 1 0 57400 (3, 2, 2) 52500 (100, 200, 400)
64 3 3 1 0 0 48000 (1, 0, 0, 0) 40000 (800, 1200, 2000)
96 1 1 2 0 0 90000 (3, 2) 86000 (200, 400, 600)
96 2 1 2 0 0 86000 (3, 2, 2) 78000 (200, 300, 400)
96 3 1 2 0 0 84000 (3, 2, 2, 2) 76000 (100, 200, 300)
96 1 2 2 0 0 90000 (3, 2) 86000 (200, 400, 600)
96 1 2 2 0 1 88000 (6, 5) 88000 (0, 0, 0)
96 2 2 2 0 0 86000 (3, 2, 2) 78000 (200, 300, 400)
96 2 2 2 0 1 80800 (80, 61, 61) 80800 (0, 0, 0)
96 3 2 2 0 0 84000 (3, 2, 2, 2) 76000 (100, 200, 300)
96 3 2 2 0 1 81200 (80, 41, 41, 41) 81200 (0, 0, 0)
96 1 3 2 0 0 90000 (3, 2) 86000 (200, 400, 600)
96 2 3 2 0 0 86000 (3, 2, 2) 78000 (200, 300, 400)
96 3 3 1 0 0 84000 (1, 0, 0, 0) 76000 (1000, 2000, 3000)
96 3 3 2 0 0 84000 (3, 2, 2, 2) 76000 (100, 200, 300)
96 3 3 1 1 0 84000 (3, 2, 2, 2) 76000 (100, 200, 300)
128 1 1 2 0 0 122000 (3, 2) 118000 (200, 400, 600)
128 2 1 2 0 0 118000 (3, 2, 2) 110000 (200, 300, 400)
128 3 1 2 0 0 116000 (3, 2, 2, 2) 108000 (100, 200, 300)
128 1 2 2 0 0 122000 (3, 2) 118000 (200, 400, 600)
128 2 2 2 0 0 118000 (3, 2, 2) 110000 (200, 300, 400)
128 3 2 2 0 0 116000 (3, 2, 2, 2) 108000 (100, 200, 300)
128 1 3 2 0 0 122000 (3, 2) 118000 (200, 400, 600)
128 2 3 2 0 0 118000 (3, 2, 2) 110000 (200, 300, 400)
128 3 3 2 0 0 116000 (3, 2, 2, 2) 108000 (100, 200, 300)
256 1 1 2 0 0 248000 (3, 2) 244000 (400, 800, 1000)
256 2 1 2 0 0 244000 (3, 2, 2) 236000 (300, 500, 800)
256 3 1 2 0 0 240000 (3, 2, 2, 2) 232000 (300, 400, 600)
256 1 2 2 0 0 248000 (3, 2) 244000 (400, 800, 1000)
256 2 2 2 0 0 244000 (3, 2, 2) 236000 (300, 500, 800)
256 3 2 2 0 0 240000 (3, 2, 2, 2) 232000 (300, 400, 600)
256 1 3 2 0 0 248000 (3, 2) 244000 (400, 800, 1000)
256 2 3 2 0 0 244000 (3, 2, 2) 236000 (300, 500, 800)
256 3 3 2 0 0 240000 (3, 2, 2, 2) 232000 (300, 400, 600)
또한 도 5a는 IVAS 비트스트림을 도시한다. 일 실시예에서, IVAS 비트스트림은 고정 길이 공통 IVAS 헤더(common IVAS header; CH)(509) 및 가변 길이 공통 도구 헤더(common tool header; CTH)(510)를 포함한다. 일 실시예에서, CTH 섹션의 비트 길이는 IVAS 비트레이트 분배 제어 테이블에서 주어진 IVAS 비트레이트에 대응하는 항목의 수에 기초하여 계산된다. 상대 테이블 색인(테이블의 해당 IVAS 비트레이트에 대한 제1 색인으로부터 오프셋)은 CTH 섹션에 저장된다. 모노 다운믹스 역호환 모드에서 동작하는 경우, CTH(510) 다음에 EVS 페이로드(511)가 오고, 공간 MD 페이로드(513)가 뒤따른다. IVAS 모드에서 동작하는 경우, CTH(510) 다음에 공간 MD 페이로드(512)가 오고, EVS 페이로드(514)가 뒤따른다. 다른 실시예에서, 순서는 상이할 수 있다.
예시적인 프로세스
비트레이트 분배의 예시적인 프로세스는 IVAS 코덱 또는 비일시적 컴퓨터 판독 가능 저장 매체에 저장된 명령을 실행하는 하나 이상의 프로세서를 포함하는 인코딩/디코딩 또는 시스템에 의해 수행될 수 있다.
일 실시예에서, 오디오 인코딩 시스템은 오디오 입력 및 메타데이터를 수신한다. 시스템은 오디오 입력, 메타데이터 및 오디오 입력을 인코딩하는 데 사용된 IVAS 코덱의 매개변수에 기초하여, 비트레이트 분배 제어 테이블의 하나 이상의 색인, IVAS 비트레이트, 입력 형식 및 모노 역호환성 모드를 포함하는 매개변수를 결정하고, 하나 이상의 색인은 공간 오디오 코딩 모드 및 오디오 입력의 대역폭을 포함한다.
시스템은 IVAS 비트레이트, 입력 형식, 공간 오디오 코딩 모드 및 하나 이상의 색인에 기초하여 비트레이트 분배 제어 테이블에서 조회를 수행하고, 조회는 비트레이트 분배 제어 테이블에서 항목을 식별하고, 항목은 EVS 목표 비트레이트, 비트레이트 비율, EVS 최소 비트레이트 및 EVS 비트레이트 편차 간격의 표현을 포함한다.
시스템은 오디오 입력(예를 들어, 다운믹스 채널)의 비트레이트, 메타데이터의 비트레이트, 및 메타데이터의 양자화 수준을 결정하도록 프로그래밍된 비트레이트 계산 프로세스에 식별된 항목을 제공한다. 시스템은 다운믹스 채널의 비트레이트와 메타데이터의 비트레이트 또는 메타데이터의 양자화 수준 중 적어도 하나를 다운스트림 IVAS 디바이스에 제공한다.
일부 구현에서, 시스템은 오디오 입력으로부터 속성을 추출할 수 있으며, 속성은 오디오 입력이 음성인지 또는 음악인지의 표시자 및 오디오 입력의 대역폭을 포함한다. 시스템은 속성에 기초하여 다운믹스 채널의 비트레이트와 메타데이터의 비트레이트 사이의 우선순위를 결정한다. 시스템은 비트레이트 계산 프로세스에 우선순위를 제공한다.
일부 구현에서, 시스템은 공간 MD로부터 잔차(측면 채널 예측 오차) 수준을 포함하는 하나 이상의 매개변수를 추출한다. 시스템은 매개변수에 기초하여 IVAS 비트스트림에서 하나 이상의 잔차 채널이 필요함을 나타내는 공간 오디오 코딩 모드를 결정한다. 시스템은 비트레이트 계산 프로세스에 공간 오디오 코딩 모드를 제공한다.
일부 구현에서, 비트레이트 분배 제어 테이블 색인은 IVAS 비트스트림의 공통 도구 헤더(CTH)에 저장된다.
오디오 디코딩 시스템은 IVAS 비트스트림을 수신하도록 구성된다. 시스템은 IVAS 비트스트림에 기초하여 IVAS 비트레이트 및 비트레이트 분배 제어 테이블 색인을 결정한다. 시스템은 테이블 색인에 기초하여 비트레이트 분배 제어 테이블에서 조회를 수행하고 입력 형식, 공간 코딩 모드, 모노 역호환성 모드 및 하나 이상의 색인, EVS 목표 비트레이트 및 비트레이트 비율을 추출한다. 시스템은 다운믹스 채널당 다운믹스 오디오 비트와 공간 MD 비트를 추출하고 디코딩한다. 시스템은 추출된 다운믹스 신호 비트와 공간 MD 비트를 다운스트림 IVAS 디바이스에 제공한다. 다운스트림 IVAS 디바이스는 오디오 처리 디바이스 또는 저장 디바이스일 수 있다.
SPAR FoA 비트레이트 분배 프로세스
일 실시예에서, 스테레오 입력 신호에 대해 위에서 설명된 비트레이트 분배 프로세스는 또한 아래에 도시된 SPAR FoA 비트레이트 분배 제어 테이블을 사용하여 SPAR FoA 비트레이트 분배에 수정 및 적용될 수 있다. 표에 포함된 용어에 대한 정의는 독자를 돕기 위해 아래에 제공되며, 그 뒤에 SPAR FoA 비트레이트 분배 제어 테이블이 표시된다.
* 메타데이터 목표 비트(MDtar) = IVAS_bits - header_bits - evs_target_bits(EVStar)
* 메타데이터 최대 비트(MDmax) = IVAS_bits - header_bits - evs_minimum_bits(EVSmin)
* 메타데이터 목표 비트는 항상 "MDmax"보다 작아야 한다.
표 II - 예시적인 SPAR FoA 비트레이트 분배 제어 테이블
IVAS BR
(kbps)
BW  N_dmx 리믹스
문자열
액티브 W 복소
플래그
dmx 스위치
전환
모드(플레이스홀더)
EVS (목표, 최소, 최대)  BR (kbps) MD 양자화 수준
목표
대체 1
대체 2
(표기: [PR, C, P_d, P_o])
TD 역상관기 더킹 MD (목표, 최대) BR (kbps) 대체2 최악의 경우 베이스 2 코딩을 갖는 MD BR (kbps); 실수 계수에 대한 코딩, 0.4kbps 헤더 포함
32 3 1 WYXZ 1 0 0 W':
(24, 20.45, 31.95)
T:   [21,1,5,1]
F1: [15,1,5,1]
F2: [15,1,3,1]
0 (8, 11.55) 11.2
64 3 2 WYXZ 0 0 0 W:(38, 34.05, 56)
Y': (16, 15.60, 20.40)
T:   [21,7,5,1]
F1: [15,7,5,1]
F2: [15,7,3,1]
1 (10, 14.35) 13.6
96 3 3 WYXZ 0 0 0 W: (47, 42.60, 56)
Y': (23, 22.6, 31.95;
X': (16, 15.60, 20.4)
T:   [21,9,9,1]
F1: [21,7,5,1]
F2: [21,7,5,1]
1 (10, 15.2) 14.8
160 3 3 WYXZ 0 0 0 W: (74, 70.9, 112)
Y': (41, 40.05, 56)
X': (35, 34.05, 56)
T:   [21,11,11,1]
F1: [21,9,9,1]
F2: [21,7,7,1]
1 (10, 15) 14.8
256 3 4 WYXZ 0 0 0 W: (90, 90, 112)
Y': (70, 70, 112)
X': (50, 50, 56)
Z': (36.6, 36.6, 56)
T:   [31,1,1,1]
F1: [31,1,1,1]
F2: [31,1,1,1]
1 (9.0, 9.4) 9.4
최대 MD 비트레이트(실수 계수)의 일부 예시적인 계산이 아래 표에 나와 있다.
N_dmx 공간 매개변수의 수 양자화 수준 ->비트 계산: 
#params * bits' * 50
최대 BR
(bps)
PR C P_d P_o
1 36 0 36 36 [15,1,3,1] ->4,0,2,0) 10800
2 36 24 24 12 [15,7,3,1] ->4,3,2,0) 13200
3 36 24 12 0 [21,7,7,1] ->5,3,3,0) 14400
4 36 0 0 0 [31,1,1,1] ->5,0,0,0) 9000
예시적인 메타데이터 양자화 루프
일 실시예에서, 메타데이터 양자화 루프는 아래에서 설명되는 바와 같이 구현된다. 메타데이터 양자화 루프는 MDtar 및 MDmax의 두 가지 임계값(위에서 정의됨)을 포함한다.
단계 1: 입력 오디오 신호의 모든 프레임에 대해, MD 매개변수는 비-시간 차동 방식으로 양자화되고 산술 코더로 코딩된다. 실제 메타데이터 비트레이트(MDact)는 MD 코딩된 비트에 기초하여 계산된다. MDact가 MDtar보다 낮으면, 이 단계는 통과로 간주되고 프로세스는 양자화 루프를 종료하고 MDact 비트는 IVAS 비트스트림에 통합된다. 사용 가능한 추가 비트(MDtar-MDact)는 다운믹스 오디오 채널의 핵심 비트레이트를 높이기 위해 모노 코덱(EVS) 인코더에 제공된다. 비트레이트가 높을수록 모노 코덱으로 더 많은 정보를 인코딩할 수 있으며 디코딩된 오디오 출력은 상대적으로 손실이 적다.
단계 2: 단계 1이 실패하면, 프레임의 MD 매개변수 값의 서브세트가 양자화되고 이전 프레임의 양자화된 MD 매개변수 값에서 감산되고 차동 양자화된 매개변수 값이 산술 코더로 코딩된다(즉, 시간 차동 코딩). MDact는 MD 코딩된 비트에 기초하여 계산된다. MDact가 MDtar보다 낮으면, 이 단계는 통과로 간주되고 프로세스는 양자화 루프를 종료하고 MDact 비트는 IVAS 비트스트림에 통합된다. 사용 가능한 추가 비트(MDtar - MDact)는 다운믹스 오디오 채널의 핵심 비트레이트를 높이기 위해 모노 코덱(EVS) 인코더에 제공된다.
단계 3: 단계 2가 실패하면, 양자화된 MD 매개변수의 비트 레이트(MDact)가 엔트로피 없이 계산된다.
단계 4: 단계 1 내지 3에서 계산된 MDact 비트레이트 값이 MDmax와 비교된다. 단계 1, 단계 2및 단계 3에서 계산된 최소 MDact 비트레이트가 MDmax 내에 있으면, 이 단계는 통과로 간주되고 프로세스는 양자화 루프를 종료하고 최소 MDact를 갖는 MD 비트스트림이 IVAS 비트스트림에 통합된다. MDact가 MDtar보다 높으면, EVS(모노 코덱) 인코더에서 비트(MDact-MDtar)를 가져온다.
단계 5: 단계 4가 실패하면, 매개변수가 더 거칠게 양자화되고 위의 단계가 제1 대체 전략(대체 1)으로 반복된다.
단계 6: 단계 5가 실패하면, 매개변수는 제2 대체 전략(대체 2)으로서 MDmax 내에 적합하도록 보장되는 양자화 방식으로 양자화된다.
위에서 언급된 모든 반복 후에는 메타데이터 비트레이트가 MDmax 내에 적합할 것이고 인코더가 실제 메타데이터 비트 또는 MDact를 생성할 것이라는 것이 보장된다.
다운믹스 채널/EVS 비트레이트 분배(EVSbd)
일 실시예에서, EVS 실제 비트(EVSact) = IVAS_bits - header_bits - MDact이다. "EVSact"가 "EVStar"보다 작으면 (Z, X, Y, W)의 순서로 EVS 채널에서 비트를 가져온다. 임의의 채널로부터 가져올 수 있는 최대 비트는 EVStar(ch)에서 EVSmin(ch)을 뺀 값이다. "EVSact"가 "EVStar"보다 크면 모든 추가 비트가 W, Y, X 및 Z 순서로 다운믹스 채널에 할당된다. 임의의 채널에 추가할 수 있는 최대 추가 비트는 EVSmax(ch) - EVStar(ch)이다.
SPAR 디코더 언패킹(Unpacking)
일 실시예에서, SPAR 디코더는 다음과 같이 IVAS 비트스트림을 언패킹한다.
1. 비트 길이에서 IVAS 비트레이트를 가져오고 IVAS 비트스트림의 도구 헤더(CTH)에서 테이블 색인을 가져온다.
2. IVAS 비트스트림의 헤더/메타데이터 비트 파싱(parse)
3. 메타데이터 비트를 파싱 및 역양자화(unquantize)
4. "EVSact" = 잔여 비트 길이로 설정
5. EVS 목표, 최소 및 최대 비트레이트와 관련된 테이블 항목을 판독하고 디코더에서 "EVSbd" 단계를 반복하여 각 채널에 대한 실제 EVS 비트레이트를 얻는다.
6. EVS 채널을 디코딩하고 FoA 채널로 업믹스한다.
SPAR FoA 입력 오디오 신호에 대한 BR 분배 프로세스
도 5b 및 도 5c는 일 실시예에 따른, SPAR FoA 입력 신호에 대한 비트레이트 분배 프로세스(515)의 흐름도이다. 프로세스(515)는 FoA 입력(W, Y, Z, X)(516)을 전처리하여, IVAS 비트레이트를 사용하여 BW, 음성/음악 분류 데이터, VAD 데이터 등과 같은 신호 속성을 추출하는 것으로 시작한다. 프로세스(515)는 공간 MD(예를 들어, PR, C, P 계수) 생성(518) 및 공간 MD의 잔차 수준 표시자에 기초하여 IVAS 디코더로 전송할 잔차 채널의 수 선택(520) 및 IVAS 비트레이트, BW 및 다운믹스 채널 수(N_dmx)에 기초한 BR 분배 제어 테이블 색인 획득(521)으로 계속된다. 일부 실시예에서, 공간 MD의 P 계수는 잔차 수준 표시자의 역할을 할 수 있다. BR 분배 제어 테이블 색인은 IVAS 디코더에 저장 및/또는 전송될 수 있는 IVAS 비트스트림에 포함될 IVAS 비트 패커(도 4a, 도 4b 참조)로 전송된다.
프로세스(515)는 테이블 색인이 가리키는 BR 분배 제어 테이블의 행에서 SPAR 구성을 판독함으로써 계속된다(521). 위의 표 II에 나타난 바와 같이, SPAR 구성은 다운믹스 문자열(리믹스), 액티브 W 플래그, 복소 공간 MD 플래그, 공간 MD 양자화 전략, EVS 최소/목표/최대 비트레이트 및 시간 도메인 역상관기 더킹 플래그를 포함하지만 이에 제한되지 않는 하나 이상의 기능에 의해 정의된다.
프로세스(515)는 이전에 위에서 설명한 바와 같이 IVAS 비트레이트, EVSmin 및 EVStar 비트레이트 값으로부터 MDmax, MDtar 비트레이트를 결정하고(522), 양자화 전략을 사용하여 비-시간 차동 방식으로 공간 MD를 양자화하고, 엔트로피 코더(예를 들어, 산술 코더)로 양자화된 공간 MD를 코딩하고 MDact를 계산하는 양자화 루프(523)로 진입한다. 일 실시예에서, 양자화 루프의 제1 반복은 미세 양자화 전략을 사용한다.
프로세스(515)는 MDact가 MDtar 이하인지 확인(524)함으로써 계속된다. MDact가 MDtar 이하이면, MD 비트가 IVAS 비트 패커로 전송되어 IVAS 비트스트림에 포함되고 (MDtar-MDact) 비트가 W, Y, X, Z의 순서로 EVStar 비트레이트에 추가되고(532), N_dmx EVS 비트스트림(채널)이 생성되고 EVS 비트는 이전에 설명한 바와 같이 IVAS 비트스트림에 포함되도록 IVAS 비트 패커로 전송된다. MDact가 MDtar 이하가 아니면, 프로세스(515)는 미세 양자화 전략을 사용하여 시간 차동 방식으로 공간 MD를 양자화하고, 양자화된 공간 MD를 엔트로피 코더로 코딩하고, MDact를 다시 계산한다(525). MDact가 MDtar 이하이면, MD 비트가 IVAS 비트 패커로 전송되어 IVAS 비트스트림에 포함되고 (MDtar-MDact) 비트가 W, Y, X, Z의 순서로 EVStar 비트레이트에 추가되고(532), N_dmx EVS 비트스트림(채널)이 생성되고 EVS 비트는 이전에 설명된 바와 같이 IVAS 비트스트림에 포함되도록 IVAS 비트 패커로 전송된다. MDact가 MDtar보다 크면, 공간 MD는 미세 양자화 전략을 사용하여 비-시간 차동 방식으로 양자화되고 엔트로피 및 base2 코딩되고, MDact에 대한 새로운 값이 계산된다(527). EVS 인스턴스에 추가할 수 있는 최대 비트는 EVSmax-EVStar와 같음을 유의한다.
프로세스(515)는 다시 MDact가 MDtar 이하인지 결정한다(528). MDact가 MDtar 이하이면, MD 비트가 IVAS 비트 패커로 전송되어 IVAS 비트스트림에 포함되고 (MDtar-MDact) 비트가 W, Y, X, Z의 순서로 EVStar 비트레이트에 추가되고(532), N_dmx EVS 비트스트림(채널)이 생성되고 EVS 비트는 이전에 설명된 바와 같이 IVAS 비트스트림에 포함되도록 IVAS 비트 패커로 전송된다. MDact가 MDtar보다 크면, 프로세스(515)는 MDact를 (523), (525), (527)에서 계산된 3개의 MDact 비트레이트의 최소값으로 설정하고 MDact를 MDmax와 비교한다(529). MDact가 MDmax보다 크면(530), 이전에 위에서 설명한 바와 같이, 거친 양자화 전략을 사용하여 양자화 루프(단계 523-530)가 반복된다.
MDact가 MDmax 이하이면, MD 비트는 IVAS 비트스트림에 포함되도록 IVAS 비트 패커로 전송되고, 프로세스(515)는 다시 MDact가 MDtar 이하인지 결정한다(531). MDact가 MDtar 이하이면, (MDtar-MDact) 비트가 W, Y, X, Z의 순서로 EVStar 비트레이트(532)에 추가되고, N_dmx EVS 비트스트림(채널)이 생성되고 EVS 비트는 이전에 설명된 바와 같이 IVAS 비트스트림에 포함되도록 IVAS 비트 패커로 전송된다. MDact가 MDtar보다 크면, Z, X, Y, W의 순서로 EVStar 비트레이트(532)로부터 (MDtar-MDact) 비트를 빼고, N_dmx EVS 비트스트림(채널)이 생성되고 EVS 비트가 이전에 설명된 대로 IVAS 비트스트림에 포함되도록 IVAS 비트 패커로 전송된다. EVS 인스턴스에서 뺄 수 있는 최대 비트는 EVStar-EVSmin과 같음을 유의한다.
예시적인 프로세스
도 6은 일 실시예에 따른, IVAS 인코딩 프로세스(600)의 흐름도이다. 프로세스(600)는 도 8을 참조하여 설명된 디바이스 아키텍처를 사용하여 구현될 수 있다.
프로세스(600)는 입력 오디오 신호를 수신하는 것(601), 입력 오디오 신호를 입력 오디오 신호의 하나 이상의 채널과 연관된 하나 이상의 다운믹스 채널 및 공간 메타데이터로 다운믹싱하는 것(602); 비트레이트 분배 제어 테이블로부터 다운믹스 채널에 대한 하나 이상의 비트레이트 세트 및 공간 메타데이터에 대한 양자화 수준 세트를 판독하는 것(603); 다운믹스 채널에 대한 하나 이상의 비트레이트의 조합을 결정하는 것(604); 비트레이트 분배 프로세스를 사용하여 메타데이터 양자화 수준의 세트로부터 메타데이터 양자화 수준을 결정하는 것(605); 메타데이터 양자화 수준을 사용하여 공간 메타데이터를 양자화 및 코딩하는 것(606); 하나 이상의 비트레이트의 조합을 사용하여, 하나 이상의 다운믹스 채널에 대한 다운믹스 비트스트림을 생성하는 것(607); 다운믹스 비트스트림, 양자화 및 코딩된 공간 메타데이터 및 양자화 수준 세트를 IVAS 비트스트림으로 결합하는 것(608); 및 IVAS 지원 디바이스에서 재생하기 위해 IVAS 비트스트림을 스트리밍 또는 저장하는 것(609)을 포함한다.
도 7은 일 실시예에 따른, 대안적인 IVAS 인코딩 프로세스(700)의 흐름도이다. 프로세스(700)는 도 8을 참조하여 설명된 디바이스 아키텍처를 사용하여 구현될 수 있다.
프로세스(700)는 입력 오디오 신호를 수신하는 것(701); 입력 오디오 신호의 속성을 추출하는 것(702); 입력 오디오 신호의 채널에 대한 공간 메타데이터를 계산하는 것(703); 비트레이트 분배 제어 테이블로부터 다운믹스 채널에 대한 하나 이상의 비트레이트 세트 및 공간 메타데이터에 대한 양자화 수준 세트를 판독하는 것(704); 다운믹스 채널에 대한 하나 이상의 비트레이트의 조합을 결정하는 것(705); 비트레이트 분배 프로세스를 사용하여 메타데이터 양자화 수준의 세트로부터 메타데이터 양자화 수준을 결정하는 것(706); 메타데이터 양자화 수준을 사용하여 공간 메타데이터를 양자화 및 코딩하는 것(707); 하나 이상의 비트레이트의 조합을 사용하여, 하나 이상의 비트레이트를 사용하여 하나 이상의 다운믹스 채널에 대한 다운믹스 비트스트림을 생성하는 것(708); 다운믹스 비트스트림, 양자화 및 코딩된 공간 메타데이터 및 양자화 수준 세트를 IVAS 비트스트림으로 결합하는 것(709); 및 IVAS 지원 디바이스에서 재생하기 위해 IVAS 비트스트림을 스트리밍 또는 저장하는 것(710)을 포함한다.
예시적인 시스템 아키텍처
도 8은 본 개시의 예시적인 실시예를 구현하기에 적합한 예시적인 시스템(800)의 블록도를 도시한다. 시스템(800)은 호출 서버(102), 레거시 디바이스(106), 사용자 장비(108, 114), 회의실 시스템(116, 118), 홈 시어터 시스템, VR 장비(122) 및 몰입형 콘텐츠 수집(124)과 같은, 도 1에 도시된 임의의 디바이스를 포함하지만 이에 제한되지 않는 하나 이상의 서버 컴퓨터 또는 임의의 클라이언트 디바이스를 포함한다. 시스템(800)은 스마트폰, 태블릿 컴퓨터, 웨어러블 컴퓨터, 차량용 컴퓨터, 게임 콘솔, 서라운드 시스템, 키오스크를 포함하지만 이에 제한되지 않는 임의의 소비자 디바이스를 포함한다.
도시된 바와 같이, 시스템(800)은, 예를 들어, 읽기 전용 메모리(ROM)(802)에 저장된 프로그램 또는, 예를 들어, 저장 유닛(808)으로부터 임의 접근 메모리(RAM)(803)로 로딩될 수 있는 프로그램에 따라 다양한 프로세스를 수행할 수 있는 중앙 처리 장치(CPU)(801)를 포함한다. RAM(803)에는, CPU(801)가 다양한 프로세스를 수행할 때 필요한 데이터도 필요에 따라 저장된다. CPU(801), ROM(802) 및 RAM(803)은 버스(804)를 통해 서로 연결된다. 입출력(I/O) 인터페이스(805) 또한 버스(804)에 연결된다.
다음 구성요소가 I/O 인터페이스(805)에 연결된다: 키보드, 마우스 등을 포함할 수 있는 입력 유닛(806); 액정 디스플레이(LCD)와 같은 디스플레이 및 하나 이상의 스피커를 포함할 수 있는 출력 유닛(807); 하드 디스크, 또는 다른 적절한 저장 디바이스를 포함하는 저장 유닛(808); 및 네트워크 카드(예를 들어, 유선 또는 무선)와 같은 네트워크 인터페이스 카드를 포함하는 통신 유닛(809).
일부 구현에서, 입력 유닛(806)은 다양한 형식(예를 들어, 모노, 스테레오, 공간, 몰입형 및 기타 적절한 형식)으로 오디오 신호의 캡처를 가능하게 하는 (호스트 디바이스에 따라) 상이한 위치에 하나 이상의 마이크를 포함한다.
일부 구현에서, 출력 유닛(807)은 다양한 수의 스피커를 갖는 시스템을 포함한다. 도 1에 도시된 바와 같이, 출력 유닛(807)은 (호스트 디바이스의 능력에 따라) 오디오 신호를 다양한 형식(예를 들어, 모노, 스테레오, 몰입형, 양이 및 기타 적절한 형식)으로 렌더링할 수 있다.
통신 유닛(809)은 (예를 들어, 네트워크를 통해) 다른 디바이스와 통신하도록 구성된다. 드라이브(810)가 또한 필요에 따라 I/O 인터페이스(805)에 연결된다. 자기 디스크, 광 디스크, 광자기 디스크, 플래시 드라이브 또는 다른 적절한 이동식 매체와 같은 이동식 매체(811)가 드라이브(810)에 탑재되어, 그로부터 판독된 컴퓨터 프로그램이 필요에 따라 저장 유닛(808)에 설치된다. 시스템(800)이 위에서 설명된 구성요소를 포함하는 것으로 설명되었지만, 당업자는 실제 애플리케이션에서 이러한 구성요소 중 일부를 추가, 제거 및/또는 교체하는 것이 가능하고 이러한 모든 수정 또는 변경이 모두 본 개시의 범위에 속한다는 것을 이해할 것이다.
본 개시의 예시적인 실시예에 따르면, 위에서 설명된 프로세스들은 컴퓨터 소프트웨어 프로그램으로서 또는 컴퓨터 판독 가능 저장 매체 상에서 구현될 수 있다. 예를 들어, 본 개시의 실시예는 기계 판독 가능 매체 상에 유형적으로 구현된 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품을 포함하고, 컴퓨터 프로그램은 방법을 수행하기 위한 프로그램 코드를 포함한다. 그러한 실시예에서, 컴퓨터 프로그램은 도 8에 도시된 바와 같이 통신 유닛(809)을 통해 네트워크로부터 다운로드 및 탑재될 수 있고 및/또는 이동식 매체(811)로부터 설치될 수 있다.
일반적으로, 본 개시의 다양한 예시적인 실시예는 하드웨어 또는 특수 목적 회로(예를 들어, 제어 회로), 소프트웨어, 로직 또는 이들의 임의의 조합으로 구현될 수 있다. 예를 들어, 위에서 논의된 유닛은 제어 회로(예를 들어, 도 8의 다른 구성요소와 조합된 CPU)에 의해 실행될 수 있고, 따라서 제어 회로는 이 개시에서 설명된 동작을 수행할 수 있다. 일부 양상은 하드웨어로 구현될 수 있는 반면, 다른 양상은 컨트롤러, 마이크로프로세서 또는 다른 컴퓨팅 디바이스(예를 들어 제어 회로)에 의해 실행될 수 있는 펌웨어 또는 소프트웨어로 구현될 수 있다. 본 개시의 예시적인 실시예의 다양한 양상이 블록도, 흐름도, 또는 일부 다른 그림 표현을 사용하여 예시되고 설명되지만, 본원에 설명된 블록, 장치, 시스템, 기술 또는 방법은, 비제한적인 예로서, 하드웨어, 소프트웨어, 펌웨어, 특수 목적 회로 또는 로직, 범용 하드웨어 또는 컨트롤러 또는 기타 컴퓨팅 디바이스, 또는 이들의 일부 조합으로 구현될 수 있음을 이해할 것이다.
추가적으로, 흐름도에 도시된 다양한 블록은 방법 단계, 및/또는 컴퓨터 프로그램 코드의 작동으로 인한 작업, 및/또는 연관된 기능(들)을 수행하도록 구성된 복수의 결합된 논리 회로 요소로 볼 수 있다. 예를 들어, 본 개시의 실시예는 기계 판독 가능 매체 상에 유형적으로 구현된 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품을 포함하고, 컴퓨터 프로그램은 위에서 설명한 방법을 수행하도록 구성된 프로그램 코드를 포함한다.
개시의 맥락에서, 기계 판독 가능 매체는 명령 실행 시스템, 장치 또는 디바이스에 의해 또는 이와 관련하여 사용하기 위한 프로그램을 포함하거나 저장할 수 있는 임의의 유형의 매체일 수 있다. 기계 판독 가능 매체는 기계 판독 가능 신호 매체 또는 기계 판독 가능 저장 매체일 수 있다. 기계 판독 가능 매체는 비일시적일 수 있고 전자, 자기, 광학, 전자기, 적외선, 또는 반도체 시스템, 장치 또는 디바이스, 또는 이들의 임의의 적절한 조합을 포함할 수 있지만 이에 제한되지 않는다. 기계 판독 가능 저장 매체의 더 구체적인 예는 하나 이상의 배선을 갖는 전기적 연결, 휴대용 컴퓨터 디스켓, 하드 디스크, 임의 접근 메모리(RAM), 읽기 전용 메모리(ROM), 소거 가능 프로그래밍 가능 읽기 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 콤팩트 디스크 읽기 전용 메모리(CD-ROM), 광학 저장 디바이스, 자기 저장 디바이스, 또는 이들의 적절한 조합을 포함할 것이다.
본 개시의 방법을 수행하기 위한 컴퓨터 프로그램 코드는 하나 이상의 프로그래밍 언어의 임의의 조합으로 작성될 수 있다. 이러한 컴퓨터 프로그램 코드는 범용 컴퓨터, 특수 목적 컴퓨터의 프로세서 또는 제어 회로가 있는 다른 프로그래밍 가능한 데이터 처리 장치에 제공될 수 있어, 프로그램 코드가, 컴퓨터의 프로세서 또는 다른 프로그래밍 가능한 데이터 처리 장치에 의해 실행될 때, 흐름도 및/또는 블록도에 지정된 기능/동작이 구현되도록 한다. 프로그램 코드는 전체적으로 컴퓨터에서, 부분적으로 컴퓨터에서, 독립 실행형 소프트웨어 패키지로서 부분적으로 컴퓨터에서 및 부분적으로 원격 컴퓨터에서 또는 전체적으로 원격 컴퓨터나 서버에서 실행되거나 하나 이상의 원격 컴퓨터 및/또는 서버에 걸쳐 분산될 수 있다.
이 문서가 많은 특정 구현 세부사항을 포함하고 있지만, 이들은 청구될 수 있는 범위에 대한 제한으로 해석되어서는 안 되며, 오히려 특정 실시예에 특정할 수 있는 특징에 대한 설명으로 해석되어야 한다. 별도의 실시예의 맥락에서 이 명세서에 설명된 특정 특징은 또한 단일 실시예에서 조합하여 구현될 수 있다. 역으로, 단일 실시예의 맥락에서 설명된 다양한 특징이 또한 개별적으로 또는 임의의 적절한 하위 조합으로 다수의 실시예에서 구현될 수 있다. 또한, 특징이 특정 조합으로 작용하는 것으로 위에서 설명될 수 있고 심지어 초기에 그렇게 청구될 수도 있지만, 청구된 조합의 하나 이상의 특징은, 일부 경우에, 조합에서 제거될 수 있으며, 청구된 조합은 하위 조합 또는 하위 조합의 변형에 관한 것일 수 있다. 도면에 표시된 논리 흐름은 원하는 결과를 달성하기 위해 표시된 특정 순서 또는 순차적 순서를 요구하지 않는다. 또한, 설명된 흐름에서 다른 단계가 제공되거나, 단계가 제거될 수 있으며, 설명된 시스템에 다른 구성요소가 추가되거나, 제거될 수 있다. 따라서, 다른 구현은 다음 청구항의 범위 내에 있다.

Claims (31)

  1. 몰입형 음성 및 오디오 서비스(immersive voice and audio services; IVAS) 비트스트림을 인코딩하는 방법에 있어서, 상기 방법은:
    하나 이상의 프로세서를 사용하여, 입력 오디오 신호를 수신하는 것;
    상기 하나 이상의 프로세서를 사용하여, 상기 입력 오디오 신호를 하나 이상의 다운믹스 채널 및 상기 입력 오디오 신호의 하나 이상의 채널과 연관된 공간 메타데이터로 다운믹싱하는 것;
    상기 하나 이상의 프로세서를 사용하여, 비트레이트 분배 제어 테이블로부터 상기 다운믹스 채널에 대한 하나 이상의 비트레이트 세트 및 상기 공간 메타데이터에 대한 양자화 수준 세트를 판독하는 것;
    상기 하나 이상의 프로세서를 사용하여, 상기 다운믹스 채널에 대한 상기 하나 이상의 비트레이트의 조합을 결정하는 것;
    상기 하나 이상의 프로세서를 사용하여, 비트레이트 분배 프로세스를 사용하여 상기 메타데이터 양자화 수준 세트로부터 메타데이터 양자화 수준을 결정하는 것;
    상기 하나 이상의 프로세서를 사용하여, 상기 메타데이터 양자화 수준을 사용하여 상기 공간 메타데이터를 양자화 및 코딩하는 것;
    상기 하나 이상의 프로세서 및 상기 하나 이상의 비트레이트의 조합을 사용하여, 상기 하나 이상의 다운믹스 채널에 대한 다운믹스 비트스트림을 생성하는 것;
    상기 하나 이상의 프로세서를 사용하여, 상기 다운믹스 비트스트림, 상기 양자화 및 코딩된 공간 메타데이터 및 상기 양자화 수준 세트를 상기 IVAS 비트스트림으로 결합하는 것; 및
    IVAS 지원 디바이스에서 재생하기 위해 상기 IVAS 비트스트림을 스트리밍 또는 저장하는 것을 포함하는 방법.
  2. 제1항에 있어서, 상기 입력 오디오 신호는 4채널 1차 앰비소닉(first order Ambisonic; FoA) 오디오 신호, 3채널 평면 FoA 신호 또는 2채널 스테레오 오디오 신호인 방법.
  3. 제1항 또는 제2항에 있어서, 상기 하나 이상의 비트레이트는 모노 오디오 코더/디코더(코덱) 비트레이트의 하나 이상의 인스턴스의 비트레이트인 방법.
  4. 제1항 또는 제2항에 있어서, 상기 모노 오디오 코덱은 향상된 음성 서비스(enhanced voice services; EVS) 코덱이고 상기 다운믹스 비트스트림은 EVS 비트스트림인 방법.
  5. 제1항 또는 제2항에 있어서, 상기 하나 이상의 프로세서를 사용하여, 비트레이트 분배 제어 테이블을 사용하여 상기 다운믹스 채널 및 상기 공간 메타데이터에 대한 하나 이상의 비트레이트를 획득하는 것은:
    상기 입력 오디오 신호의 형식, 상기 입력 오디오 신호의 대역폭, 허용된 공간 코딩 도구, 전환 모드 및 모노 다운믹스 역호환 모드를 포함하는 테이블 색인을 사용하여 상기 비트레이트 분배 제어 테이블의 행을 식별하는 것; 및
    상기 비트레이트 분배 제어 테이블의 상기 식별된 행으로부터 목표 비트레이트, 비트레이트 비율, 최소 비트레이트 및 비트레이트 편차 간격을 추출하는 것 - 상기 비트레이트 비율은 전체 비트레이트가 상기 다운믹스 오디오 신호 채널 사이에 분배되는 비율을 나타내고, 상기 최소 비트레이트는 상기 전체 비트레이트가 그 아래로 가도록 허용되지 않는 값이며, 상기 비트레이트 편차 간격은 상기 다운믹스 신호에 대한 제1 우선순위가 상기 공간 메타데이터의 제2 우선순위보다 더 높거나 동일하거나 더 낮을 때 목표 비트레이트 감소 간격임 -; 및
    상기 목표 비트레이트, 상기 비트레이트 비율, 상기 최소 비트레이트 및 상기 비트레이트 편차 간격에 기초하여 상기 다운믹스 채널 및 상기 공간 메타데이터에 대한 상기 하나 이상의 비트레이트를 결정하는 것을 더 포함하는 방법.
  6. 제1항 또는 제2항에 있어서, 양자화 수준 양자화 세트를 사용하여 상기 입력 오디오 신호의 상기 하나 이상의 채널에 대한 상기 공간 메타데이터를 양자화하는 것은 목표 메타데이터 비트레이트와 실제 메타데이터 비트레이트 사이의 차이에 기초하여 점점 더 거친 양자화 전략을 적용하는 양자화 루프에서 수행되는 방법.
  7. 제1항 또는 제2항에 있어서, 상기 양자화는 상기 입력 오디오 신호로부터 추출된 속성 및 채널 대역 공분산 값에 기초하여 모노 코덱 우선순위 및 공간 메타데이터 우선순위에 따라 결정되는 방법.
  8. 제1항 또는 제2항에 있어서, 상기 입력 오디오 신호는 스테레오 신호이고 상기 다운믹스 신호는 중간 신호의 표현, 상기 스테레오 신호의 잔차 및 상기 공간 메타데이터를 포함하는 방법.
  9. 제1항 또는 제2항에 있어서, 상기 공간 메타데이터는 공간 재구성기(spatial reconstructor; SPAR) 형식에 대한 예측 계수(PR), 교차 예측 계수(C) 및 역상관(P) 계수 및 복소 고급 결합(complex advanced coupling; CACPL) 형식에 대한 예측 계수(P) 및 역상관 계수(PR)를 포함하는 방법.
  10. 몰입형 음성 및 오디오 서비스(immersive voice and audio services; IVAS) 비트스트림을 인코딩하는 방법에 있어서, 상기 방법은:
    하나 이상의 프로세서를 사용하여, 입력 오디오 신호를 수신하는 것;
    상기 하나 이상의 프로세서를 사용하여, 상기 입력 오디오 신호의 속성을 추출하는 것;
    상기 하나 이상의 프로세서를 사용하여, 상기 입력 오디오 신호의 채널에 대한 공간 메타데이터를 계산하는 것;
    상기 하나 이상의 프로세서를 사용하여, 비트레이트 분배 제어 테이블로부터 상기 다운믹스 채널에 대한 하나 이상의 비트레이트 세트 및 상기 공간 메타데이터에 대한 양자화 수준 세트를 판독하는 것;
    상기 하나 이상의 프로세서를 사용하여, 상기 다운믹스 채널에 대한 상기 하나 이상의 비트레이트의 조합을 결정하는 것;
    상기 하나 이상의 프로세서를 사용하여, 비트레이트 분배 프로세스를 사용하여 상기 메타데이터 양자화 수준 세트로부터 메타데이터 양자화 수준을 결정하는 것;
    상기 하나 이상의 프로세서를 사용하여, 상기 메타데이터 양자화 수준을 사용하여 상기 공간 메타데이터를 양자화 및 코딩하는 것;
    상기 하나 이상의 프로세서 및 상기 하나 이상의 비트레이트의 조합을 사용하여, 상기 하나 이상의 비트레이트를 사용하여 상기 하나 이상의 다운믹스 채널에 대한 다운믹스 비트스트림을 생성하는 것;
    상기 하나 이상의 프로세서를 사용하여, 상기 다운믹스 비트스트림, 상기 양자화 및 코딩된 공간 메타데이터 및 상기 양자화 수준 세트를 상기 IVAS 비트스트림으로 결합하는 것; 및
    IVAS 지원 디바이스에서 재생하기 위해 상기 IVAS 비트스트림을 스트리밍 또는 저장하는 것을 포함하는 방법.
  11. 제10항에 있어서, 상기 입력 오디오 신호의 상기 속성은 대역폭, 음성/음악 분류 데이터 및 음성 활동 감지(voice activity detection; VAD) 데이터 중 하나 이상을 포함하는 방법.
  12. 제10항 또는 제11항에 있어서, 상기 입력 오디오 신호는 4채널 1차 앰비소닉(first order Ambisonic; FoA) 오디오 신호, 3채널 평면 FoA 또는 2채널 스테레오 오디오 신호인 방법.
  13. 제10항 또는 제11항에 있어서, 상기 하나 이상의 비트레이트는 모노 오디오 코더/디코더(코덱) 비트레이트의 하나 이상의 인스턴스의 비트레이트인 방법.
  14. 제13항에 있어서, 상기 모노 오디오 코덱은 향상된 음성 서비스(enhanced voice services; EVS) 코덱이고 상기 다운믹스 비트스트림은 EVS 비트스트림인 방법.
  15. 제10항 또는 제11항에 있어서, 상기 하나 이상의 프로세서를 사용하여, 비트레이트 분배 제어 테이블을 사용하여 상기 다운믹스 채널에 대한 하나 이상의 비트레이트 및 공간 메타데이터에 대한 상기 양자화 수준 세트를 획득하는 것은:
    상기 입력 오디오 신호의 형식, 상기 입력 오디오 신호의 대역폭, 허용된 공간 코딩 도구, 전환 모드 및 모노 다운믹스 역호환 모드를 포함하는 테이블 색인을 사용하여 상기 비트레이트 분배 제어 테이블의 행을 식별하는 것; 및
    상기 비트레이트 분배 제어 테이블의 상기 식별된 행으로부터 목표 비트레이트, 비트레이트 비율, 최소 비트레이트 및 비트레이트 편차 간격을 추출하는 것 - 상기 비트레이트 비율은 전체 비트레이트가 상기 입력 오디오 신호 채널 사이에 분배되는 비율을 나타내고, 상기 최소 비트레이트는 상기 전체 비트레이트가 그 아래로 가도록 허용되지 않는 값이며, 상기 비트레이트 편차 간격은 상기 다운믹스 신호에 대한 제1 우선순위가 상기 공간 메타데이터의 제2 우선순위보다 더 높거나 동일하거나 더 낮을 때 목표 비트레이트 감소 간격임 -; 및
    상기 목표 비트레이트, 상기 비트레이트 비율, 상기 최소 비트레이트 및 상기 비트레이트 편차 간격에 기초하여 상기 다운믹스 채널 및 상기 공간 메타데이터에 대한 상기 하나 이상의 비트레이트를 결정하는 것을 더 포함하는 방법.
  16. 제10항 또는 제11항에 있어서, 양자화 수준 양자화 세트를 사용하여 상기 입력 오디오 신호의 상기 하나 이상의 채널에 대한 상기 공간 메타데이터를 양자화하는 것은 목표 메타데이터 비트레이트와 실제 메타데이터 비트레이트 사이의 차이에 기초하여 점점 더 거친 양자화 전략을 적용하는 양자화 루프에서 수행되는 방법.
  17. 제10항 또는 제11항에 있어서, 상기 양자화는 상기 입력 오디오 신호로부터 추출된 속성 및 채널 대역 공분산 값에 기초하여 모노 코덱 우선순위 및 공간 메타데이터 우선순위에 따라 결정되는 방법.
  18. 제10항 또는 제11항에 있어서, 상기 입력 오디오 신호는 스테레오 신호이고 상기 다운믹스 신호는 중간 신호의 표현, 상기 스테레오 신호의 잔차 및 상기 공간 메타데이터를 포함하는 방법.
  19. 제10항 또는 제11항에 있어서, 상기 공간 메타데이터는 공간 재구성기(spatial reconstructor; SPAR) 형식에 대한 예측 계수(PR), 교차 예측 계수(C) 및 역상관(P) 계수 및 복소 고급 결합(complex advanced coupling; CACPL) 형식에 대한 예측 계수(P) 및 역상관 계수(PR)를 포함하는 방법.
  20. 제10항 또는 제11항에 있어서, 상기 IVAS 비트스트림으로 코딩될 다운믹스 채널의 수는 상기 공간 메타데이터의 잔차 수준 표시자에 기초하여 선택되는 방법.
  21. 몰입형 음성 및 오디오 서비스(immersive voice and audio services; IVAS) 비트스트림을 인코딩하는 방법에 있어서, 상기 방법은:
    하나 이상의 프로세서를 사용하여, 1차 앰비소닉(first order Ambisonic; FoA) 입력 오디오 신호를 수신하는 것;
    상기 하나 이상의 프로세서 및 IVAS 비트레이트를 사용하여, 상기 FoA 입력 오디오 신호의 속성을 추출하는 것 - 상기 속성 중 하나는 상기 FoA 입력 오디오 신호의 대역폭임;
    상기 하나 이상의 프로세서를 사용하여, 상기 FoA 신호 속성을 사용하여 상기 FoA 입력 오디오 신호에 대한 공간 메타데이터를 생성하는 것;
    상기 하나 이상의 프로세서를 사용하여, 상기 공간 메타데이터 내의 잔차 수준 표시자 및 역상관 계수에 기초하여 전송할 잔차 채널의 수를 선택하는 것;
    상기 하나 이상의 프로세서를 사용하여, IVAS 비트레이트, 대역폭 및 다운믹스 채널의 수에 기초하여 비트레이트 분배 제어 테이블 색인을 획득하는 것;
    상기 하나 이상의 프로세서를 사용하여, 상기 비트레이트 분배 제어 테이블 색인이 가리키는 상기 비트레이트 분배 제어 테이블의 행으로부터 공간 재구성기(spatial reconstructor; SPAR) 구성을 판독하는 것;
    상기 하나 이상의 프로세서를 사용하여, 상기 IVAS 비트레이트, 목표 EVS 비트레이트의 합 및 IVAS 헤더의 길이로부터 목표 메타데이터 비트레이트를 결정하는 것;
    상기 하나 이상의 프로세서를 사용하여, 상기 IVAS 비트레이트, 최소 EVS 비트레이트의 합 및 상기 IVAS 헤더의 상기 길이로부터 최대 메타데이터 비트레이트를 결정하는 것;
    상기 하나 이상의 프로세서 및 양자화 루프를 사용하여, 제1 양자화 전략에 따라 비-시간 차동 방식으로 상기 공간 메타데이터를 양자화하는 것;
    상기 하나 이상의 프로세서를 사용하여, 상기 양자화된 공간 메타데이터를 엔트로피 코딩하는 것;
    상기 하나 이상의 프로세서를 사용하여, 제1 실제 메타데이터 비트레이트를 계산하는 것;
    상기 하나 이상의 프로세서를 사용하여, 상기 제1 실제 메타데이터 비트레이트가 목표 메타데이터 비트레이트 이하인지 여부를 결정하는 것; 및
    상기 제1 실제 메타데이터 비트레이트가 상기 목표 메타데이터 비트레이트 이하인 것에 따라,
    상기 양자화 루프를 종료하는 것을 포함하는 방법.
  22. 제21항에 있어서:
    상기 하나 이상의 프로세서를 사용하여, 상기 메타데이터 목표 비트레이트와 상기 제1 실제 메타데이터 비트레이트 사이의 차이와 동일한 제1 양의 비트를 상기 전체 EVS 목표 비트레이트에 더함으로써 제1 전체 실제 EVS 비트레이트를 결정하는 것;
    상기 하나 이상의 프로세서를 사용하여, 상기 제1 전체 실제 EVS 비트레이트를 사용하여 EVS 비트스트림을 생성하는 것;
    상기 하나 이상의 프로세서를 사용하여, 상기 EVS 비트스트림, 상기 비트레이트 분배 제어 테이블 색인 및 상기 양자화 및 엔트로피 코딩된 공간 메타데이터를 포함하는 IVAS 비트스트림을 생성하는 것;
    상기 제1 실제 메타데이터 비트레이트가 상기 목표 메타데이터 비트레이트보다 큰 것에 따라:
    상기 하나 이상의 프로세서를 사용하여, 상기 제1 양자화 전략에 따라 시간 차동 방식으로 상기 공간 메타데이터를 양자화하는 것;
    상기 하나 이상의 프로세서를 사용하여, 상기 양자화된 공간 메타데이터를 엔트로피 코딩하는 것;
    상기 하나 이상의 프로세서를 사용하여, 제2 실제 메타데이터 비트레이트를 계산하는 것;
    상기 하나 이상의 프로세서를 사용하여, 상기 제2 실제 메타데이터 비트레이트가 상기 목표 메타데이터 비트레이트 이하인지 여부를 결정하는 것; 및
    상기 제2 실제 메타데이터 비트레이트가 상기 목표 메타데이터 비트레이트 이하인 것에 따라,
    상기 양자화 루프를 종료하는 것을 더 포함하는 방법.
  23. 제22항에 있어서:
    상기 하나 이상의 프로세서를 사용하여, 상기 메타데이터 목표 비트레이트와 상기 제2 실제 메타데이터 비트레이트 사이의 차이와 동일한 제2 양의 비트를 상기 전체 EVS 목표 비트레이트에 더함으로써 제2 전체 실제 EVS 비트레이트를 결정하는 것;
    상기 하나 이상의 프로세서를 사용하여, 상기 제2 전체 실제 EVS 비트레이트를 사용하여 EVS 비트스트림을 생성하는 것;
    상기 하나 이상의 프로세서를 사용하여, 상기 EVS 비트스트림, 상기 비트레이트 분배 제어 테이블 색인 및 상기 양자화 및 엔트로피 코딩된 공간 메타데이터를 포함하는 상기 IVAS 비트스트림을 생성하는 것;
    상기 제2 실제 메타데이터 비트레이트가 상기 목표 메타데이터 비트레이트보다 큰 것에 따라:
    상기 하나 이상의 프로세서를 사용하여, 상기 제1 양자화 전략에 따라 비-시간 차동 방식으로 상기 공간 메타데이터를 양자화하는 것;
    상기 하나 이상의 프로세서 및 베이스2(base2) 코더를 사용하여, 상기 양자화된 공간 메타데이터를 코딩하는 것;
    상기 하나 이상의 프로세서를 사용하여, 제3 실제 메타데이터 비트레이트를 계산하는 것; 및
    상기 제3 실제 메타데이터 비트레이트가 상기 목표 메타데이터 비트레이트 이하임에 따라,
    상기 양자화 루프를 종료하는 것을 더 포함하는 방법.
  24. 제23항에 있어서:
    상기 하나 이상의 프로세서를 사용하여, 상기 메타데이터 목표 비트레이트와 상기 제3 실제 메타데이터 비트레이트 사이의 차이와 동일한 제3 양의 비트를 상기 전체 EVS 목표 비트레이트에 더함으로써 제3 전체 실제 EVS 비트레이트를 결정하는 것;
    상기 하나 이상의 프로세서를 사용하여, 상기 제3 전체 실제 EVS 비트레이트를 사용하여 EVS 비트스트림을 생성하는 것;
    상기 하나 이상의 프로세서를 사용하여, 상기 EVS 비트스트림, 상기 비트레이트 분배 제어 테이블 색인 및 상기 양자화 및 엔트로피 코딩된 공간 메타데이터를 포함하는 상기 IVAS 비트스트림을 생성하는 것;
    상기 제3 실제 메타데이터 비트레이트가 상기 목표 메타데이터 비트레이트보다 큰 것에 따라:
    상기 하나 이상의 프로세서를 사용하여, 제4 실제 메타데이터 비트레이트를 상기 제1, 제2 및 제3 실제 메타데이터 비트레이트 중 최소값으로 설정하는 것;
    상기 하나 이상의 프로세서를 사용하여, 상기 제4 실제 메타데이터 비트레이트가 상기 최대 메타데이터 비트레이트 이하인지 여부를 결정하는 것;
    상기 제4 실제 메타데이터 비트레이트가 상기 최대 메타데이터 비트레이트 이하인 것에 따라:
    상기 하나 이상의 프로세서를 사용하여, 상기 제4 실제 메타데이터 비트레이트가 상기 목표 메타데이터 비트레이트 이하인지 여부를 결정하는 것; 및
    상기 제4 실제 메타데이터 비트레이트가 상기 목표 메타데이터 비트레이트 이하인 것에 따라,
    상기 양자화 루프를 종료하는 것을 더 포함하는 방법.
  25. 제24항에 있어서:
    상기 하나 이상의 프로세서를 사용하여, 상기 메타데이터 목표 비트레이트와 상기 제4 실제 메타데이터 비트레이트 사이의 차이와 동일한 제4 양의 비트를 상기 전체 EVS 목표 비트레이트에 더함으로써 제4 전체 실제 EVS 비트레이트를 결정하는 것;
    상기 하나 이상의 프로세서를 사용하여, 상기 제4 전체 실제 EVS 비트레이트를 사용하여 EVS 비트스트림을 생성하는 것;
    상기 하나 이상의 프로세서를 사용하여, 상기 EVS 비트스트림, 상기 비트레이트 분배 제어 테이블 색인 및 상기 양자화 및 엔트로피 코딩된 공간 메타데이터를 포함하는 상기 IVAS 비트스트림을 생성하는 것; 및
    상기 제4 실제 메타데이터 비트레이트가 상기 목표 메타데이터 비트레이트보다 크고 상기 최대 목표 메타데이터 비트레이트 이하인 것에 따라
    상기 양자화 루프를 종료하는 것을 더 포함하는 방법.
  26. 제25항에 있어서:
    상기 하나 이상의 프로세서를 사용하여, 상기 제4 실제 메타데이터 비트레이트와 상기 목표 메타데이터 비트레이트 사이의 차이와 동일한 양의 비트를 상기 전체 EVS 목표 비트레이트로부터 뺌으로써 제5 전체 실제 EVS 비트레이트를 결정하는 것;
    상기 하나 이상의 프로세서를 사용하여, 상기 제5 실제 EVS 비트레이트를 사용하여 EVS 비트스트림을 생성하는 것;
    상기 하나 이상의 프로세서를 사용하여, 상기 EVS 비트스트림, 상기 비트레이트 분배 제어 테이블 색인 및 상기 양자화 및 엔트로피 코딩된 공간 메타데이터를 포함하는 상기 IVAS 비트스트림을 생성하는 것; 및
    상기 제4 실제 메타데이터 비트레이트가 상기 최대 목표 메타데이터 비트레이트보다 큰 것에 따라, 상기 제1 양자화 전략을 제2 양자화 전략으로 변경하고 상기 제2 양자화 전략을 사용하여 상기 양자화 루프에 다시 진입하는 것을 더 포함하며, 상기 제2 양자화 전략은 상기 제1 양자화 전략보다 더 거친 방법.
  27. 제21항 내지 제26항 중 어느 한 항에 있어서, 상기 SPAR 구성은 다운믹스 문자열, 액티브 W 플래그, 복소 공간 메타데이터 플래그, 공간 메타데이터 양자화 전략, 향상된 음성 서비스(EVS) 모노 코더/디코더(코덱)의 하나 이상의 인스턴스에 대한 최소, 최대 및 목표 비트레이트 및 시간 도메인 역상관기 더킹(ducking) 플래그에 의해 정의되는 방법.
  28. 제21항 내지 제26항 중 어느 한 항에 있어서, EVS 비트의 전체 실제 수는 IVAS 비트 수에서 헤더 비트 수를 빼고 상기 실제 메타데이터 비트레이트를 뺀 것과 동일하고, 상기 실제 EVS 비트의 전체 수가 EVS 목표 비트의 전체 수보다 작으면 Z, X, Y 및 W의 순서로 상기 EVS 채널로부터 비트를 가져오고, 임의의 채널로부터 가져올 수 있는 최대 비트 수는 상기 채널에 대한 상기 EVS 목표 비트 수에서 상기 채널에 대한 상기 최소 EVS 비트 수를 뺀 것이며, 상기 실제 EVS 비트의 전체 수가 상기 EVS 목표 비트의 전체 수보다 크면 모든 추가 비트가 W, Y, X 및 Z의 순서로 상기 다운믹스 채널에 할당되고, 임의의 채널에 추가할 수 있는 추가 비트의 최대 수는 상기 최대 EVS 비트 수에서 상기 EVS 목표 비트 수를 뺀 것인 방법.
  29. 몰입형 음성 및 오디오 서비스(immersive voice and audio services; IVAS) 비트스트림을 디코딩하는 방법에 있어서, 상기 방법은:
    하나 이상의 프로세서를 사용하여, IVAS 비트스트림을 수신하는 것;
    상기 하나 이상의 프로세서를 사용하여, 상기 IVAS 비트스트림의 비트 길이로부터 IVAS 비트레이트를 획득하는 것;
    상기 하나 이상의 프로세서를 사용하여, 상기 IVAS 비트스트림으로부터 비트레이트 분배 제어 테이블 색인을 획득하는 것;
    상기 하나 이상의 프로세서를 사용하여, 상기 IVAS 비트스트림의 헤더로부터 메타데이터 양자화 전략을 파싱하는 것;
    상기 하나 이상의 프로세서를 사용하여, 상기 메타데이터 양자화 전략에 기초하여 상기 양자화된 공간 메타데이터 비트를 파싱 및 역양자화하는 것(unquantizing);
    상기 하나 이상의 프로세서를 사용하여, 상기 IVAS 비트스트림의 잔여 비트 길이와 동일한 향상된 음성 서비스(enhanced voice services; EVS) 비트의 실제 수를 설정하는 것;
    상기 하나 이상의 프로세서 및 비트레이트 분배 제어 테이블 색인을 사용하여, EVS 목표를 포함하는 비트레이트 분배 제어 테이블의 테이블 항목, 및 하나 이상의 EVS 인스턴스에 대한 EVS 최소 비트레이트 및 최대 EVS 비트레이트를 판독하는 것;
    상기 하나 이상의 프로세서를 사용하여, 각 다운믹스 채널에 대한 실제 EVS 비트레이트를 획득하는 것; 및
    상기 하나 이상의 프로세서를 사용하여, 상기 채널에 대한 상기 실제 EVS 비트레이트를 사용하여 각 EVS 채널을 디코딩하는 것; 및
    상기 하나 이상의 프로세서를 사용하여, 상기 EVS 채널을 1차 앰비소닉(first order Ambisonic; FoA) 채널로 업믹싱하는 것을 포함하는 방법.
  30. 하나 이상의 프로세서; 및
    상기 하나 이상의 프로세서에 의한 실행에 따라, 상기 하나 이상의 프로세서가 제1항 내지 제29항 중 어느 한 항의 방법의 동작을 수행하도록 하는 명령을 저장하는 비일시적 컴퓨터 판독 가능 매체를 포함하는 시스템.
  31. 하나 이상의 프로세서에 의한 실행에 따라, 상기 하나 이상의 프로세서가 제1항 내지 제29항 중 어느 한 항의 방법의 동작을 수행하도록 하는 명령을 저장하는 비일시적 컴퓨터 판독 가능 매체.
KR1020227014328A 2019-10-30 2020-10-28 몰입형 음성 및 오디오 서비스에서 비트레이트 분배 KR20220088864A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962927772P 2019-10-30 2019-10-30
US62/927,772 2019-10-30
US202063092830P 2020-10-16 2020-10-16
US63/092,830 2020-10-16
PCT/US2020/057737 WO2021086965A1 (en) 2019-10-30 2020-10-28 Bitrate distribution in immersive voice and audio services

Publications (1)

Publication Number Publication Date
KR20220088864A true KR20220088864A (ko) 2022-06-28

Family

ID=73476272

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227014328A KR20220088864A (ko) 2019-10-30 2020-10-28 몰입형 음성 및 오디오 서비스에서 비트레이트 분배

Country Status (12)

Country Link
US (1) US20220406318A1 (ko)
EP (1) EP4052256A1 (ko)
JP (1) JP2023500632A (ko)
KR (1) KR20220088864A (ko)
CN (1) CN114616621A (ko)
AU (1) AU2020372899A1 (ko)
BR (1) BR112022007735A2 (ko)
CA (1) CA3156634A1 (ko)
IL (1) IL291655A (ko)
MX (1) MX2022005146A (ko)
TW (2) TWI762008B (ko)
WO (1) WO2021086965A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX2022015649A (es) * 2020-06-11 2023-03-06 Dolby Laboratories Licensing Corp Cuantificacion y codificacion entropica de parametros para un codec de audio de baja latencia.
WO2023141034A1 (en) * 2022-01-20 2023-07-27 Dolby Laboratories Licensing Corporation Spatial coding of higher order ambisonics for a low latency immersive audio codec
WO2024012666A1 (en) * 2022-07-12 2024-01-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding ar/vr metadata with generic codebooks
GB2623516A (en) * 2022-10-17 2024-04-24 Nokia Technologies Oy Parametric spatial audio encoding
WO2024097485A1 (en) 2022-10-31 2024-05-10 Dolby Laboratories Licensing Corporation Low bitrate scene-based audio coding

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI501580B (zh) * 2009-08-07 2015-09-21 Dolby Int Ab 資料串流的鑑別
US10885921B2 (en) * 2017-07-07 2021-01-05 Qualcomm Incorporated Multi-stream audio coding
US10854209B2 (en) * 2017-10-03 2020-12-01 Qualcomm Incorporated Multi-stream audio coding
CA3134343A1 (en) * 2017-10-04 2019-04-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding
WO2019106221A1 (en) * 2017-11-28 2019-06-06 Nokia Technologies Oy Processing of spatial audio parameters

Also Published As

Publication number Publication date
IL291655A (en) 2022-05-01
EP4052256A1 (en) 2022-09-07
WO2021086965A1 (en) 2021-05-06
JP2023500632A (ja) 2023-01-10
AU2020372899A1 (en) 2022-04-21
TWI821966B (zh) 2023-11-11
CN114616621A (zh) 2022-06-10
TW202135046A (zh) 2021-09-16
CA3156634A1 (en) 2021-05-06
TWI762008B (zh) 2022-04-21
TW202230332A (zh) 2022-08-01
MX2022005146A (es) 2022-05-30
US20220406318A1 (en) 2022-12-22
BR112022007735A2 (pt) 2022-07-12

Similar Documents

Publication Publication Date Title
JP7175979B2 (ja) 様々な時間/周波数分解能を使用して指向性オーディオコーディングパラメータを符号化または復号するための装置および方法
US20220406318A1 (en) Bitrate distribution in immersive voice and audio services
US20220284910A1 (en) Encoding and decoding ivas bitstreams
KR20120063535A (ko) 오디오 신호 디코더, 오디오 신호 인코더, 업믹스 신호 표현을 제공하는 방법, 다운믹스 신호 표현을 제공하는 방법, 공통 객체 간의 상관 파라미터 값을 이용한 컴퓨터 프로그램 및 비트스트림
TW202016924A (zh) 使用信號白化或信號後處理之多重信號編碼器、多重信號解碼器及相關方法
WO2022120093A1 (en) Immersive voice and audio services (ivas) with adaptive downmix strategies
CA3212631A1 (en) Audio codec with adaptive gain control of downmixed signals
US20240105192A1 (en) Spatial noise filling in multi-channel codec
TW202410024A (zh) 編碼及解碼浸入式語音及音訊服務位元流之方法、系統及非暫時性電腦可讀媒體
BR122023022314A2 (pt) Distribuição de taxa de bits em serviços de voz e áudio imersivos
BR122023022316A2 (pt) Distribuição de taxa de bits em serviços de voz e áudio imersivos
WO2023172865A1 (en) Methods, apparatus and systems for directional audio coding-spatial reconstruction audio processing
CN116547748A (zh) 多通道编解码器中的空间噪声填充
TW202411984A (zh) 用於具有元資料之參數化經寫碼獨立串流之不連續傳輸的編碼器及編碼方法
WO2024097485A1 (en) Low bitrate scene-based audio coding
WO2024052499A1 (en) Decoder and decoding method for discontinuous transmission of parametrically coded independent streams with metadata
WO2024051954A1 (en) Encoder and encoding method for discontinuous transmission of parametrically coded independent streams with metadata
CN116830192A (zh) 利用自适应下混策略的沉浸式语音和音频服务(ivas)