KR20230002697A - 오디오 신호 인코딩 방법, 디코딩 방법, 인코딩 기기 및 디코딩 기기 - Google Patents

오디오 신호 인코딩 방법, 디코딩 방법, 인코딩 기기 및 디코딩 기기 Download PDF

Info

Publication number
KR20230002697A
KR20230002697A KR1020227039651A KR20227039651A KR20230002697A KR 20230002697 A KR20230002697 A KR 20230002697A KR 1020227039651 A KR1020227039651 A KR 1020227039651A KR 20227039651 A KR20227039651 A KR 20227039651A KR 20230002697 A KR20230002697 A KR 20230002697A
Authority
KR
South Korea
Prior art keywords
frequency range
frequency
tiles
tile
information
Prior art date
Application number
KR1020227039651A
Other languages
English (en)
Inventor
빙윤 샤
쟈웨이 리
저 왕
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Publication of KR20230002697A publication Critical patent/KR20230002697A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

본 출원은 오디오 신호 인코딩 방법을 제공한다. 상기 방법은 오디오 신호의 현재 프레임을 획득하는 단계(501) - 상기 현재 프레임은 고주파 대역 신호 및 저주파 대역 신호를 포함함 -; 상기 고주파 대역 신호, 상기 저주파 대역 신호 및 대역폭 확장의 미리 설정된 구성 정보에 기초하여 상기 현재 프레임의 대역폭 확장의 파라미터를 획득하는 단계(502); 타일 정보를 획득하는 단계(503) - 상기 타일 정보는 상기 고주파 대역 신호에 대해 음조 성분 검출이 수행되어야 하는 제1 주파수 범위를 지시함 -; 상기 제1 주파수 범위에서 음조 성분 검출을 수행하여 상기 고주파 대역 신호의 음조 성분에 관한 정보를 획득하는 단계(504); 및 상기 대역폭 확장의 파라미터 및 상기 음조 성분의 정보에 대해 비트스트림 다중화를 수행하여 페이로드 비트스트림을 획득하는 단계(505)를 포함한다. 대응하는 디코딩 방법, 인코딩 기기, 디코딩 기기, 통신 시스템, 네트워크 기기 및 컴퓨터로 판독 가능한 저장 매체가 추가로 개시된다.

Description

오디오 신호 인코딩 방법, 디코딩 방법, 인코딩 기기 및 디코딩 기기
본 출원은 "AUDIO SIGNAL ENCODING METHOD, DECODING METHOD, ENCODING DEVICE, AND DECODING DEVICE(오디오 신호 인코딩 방법, 디코딩 방법, 인코딩 기기 및 디코딩 기기)"라는 명칭으로 2020년 4월 15일 중국 국가지식재산국에 출원된 중국 특허출원 제202010297340.0호에 대한 우선권을 주장하며, 그 내용 전체가 인용에 의해 본 출원에 통합된다.
본 출원은 통신 분야에 관한 것으로, 특히 오디오 신호 인코딩 방법, 디코딩 방법, 인코딩 기기 및 디코딩 기기에 관한 것이다.
사회의 진보와 기술의 지속적인 발전으로 사용자의 오디오 서비스에 대한 요구는 점점 더 높아지고 있다. 코딩 비트 레이트가 제한된 경우 사용자에게 더 고품질의 서비스를 제공하는 방법 또는 더 낮은 코딩 비트 레이트를 사용하여 사용자에게 동일한 품질의 서비스를 제공하는 방법은 항상 오디오 인코딩 및 디코딩 연구의 중점이었다.
일반적으로, 오디오 데이터를 코딩하는 과정에서 오디오 데이터의 고주파수 부분과 저주파수 부분은 별도로 처리된다. 코딩 비트 레이트를 줄이기 위해, 서로 다른 주파수 대역의 신호 간의 상관관계가 일반적으로 코딩에 더 사용된다. 예를 들어, 저주파 대역 신호에 기초하여 스펙트럼 대역 복제또는 대역폭 확장과 같은 방법을 사용하여 고주파 대역 신호가 생성된다. 그러나, 저주파 대역의 스펙트럼에서 음조 성분(tonal component)과 유사하지 않은 일부 음조 성분이 일반적으로 고주파 대역의 스펙트럼에 존재하며, 기존 방안은 이러한 유사하지 않은 음조 성분을 처리할 수 없다. 결과적으로, 실제코딩된 데이터의 코딩 품질은 낮다. 따라서 고품질의 코딩된 데이터를 획득하는 방법은 시급히 해결해야 할 문제가 되었다.
본 출원은 고품질 오디오 인코딩 및 디코딩을 구현하고 사용자 경험을 향상시키기 위한 오디오 신호 인코딩 방법, 디코딩 방법, 인코딩 기기 및 디코딩 기기를 제공한다.
제1 측면에 따르면 본 출원은 오디오 신호 인코딩 방법을 제공한다. 상기 오디오 신호 인코딩 방법은, 오디오 신호의 현재 프레임을 획득하는 단계 - 상기 현재 프레임은 고주파 대역 신호 및 저주파 대역 신호를 포함함 -; 상기 고주파 대역 신호, 상기 저주파 대역 신호 및 대역폭 확장의 미리 설정된 구성 정보에 기초하여 상기 현재 프레임의 대역폭 확장의 파라미터를 획득하는 단계; 타일 정보를 획득하는 단계 - 상기 타일 정보는 상기 고주파 대역 신호에 대해 음조 성분 검출(tonal component detection)이 수행되어야 하는 제1 주파수 범위를 지시함 -; 상기 제1 주파수 범위에서 음조 성분 검출을 수행하여 상기 고주파 대역 신호의 음조 성분에 관한 정보를 획득하는 단계; 및 상기 대역폭 확장의 파라미터 및 상기 음조 성분에 관한 정보에 대해 비트스트림 다중화를 수행하여 페이로드 비트스트림을 획득하는 단계를 포함한다.
따라서, 본 출원의 이 구현에서, 타일 정보에 의해 지시되는 주파수 범위에 기초하여 음조 성분 검출이 수행될 수 있으며, 여기서 주파수 범위는 대역폭 확장의 구성 정보 및 오디오 신호의 샘플링 주파수에 기초하여 결정되므로, 검출을 통해 획득된 음조 성분에 관한 정보는 고주파 대역 신호와 저주파 대역 신호 사이에 음조 성분이 유사하지 않은 더 많은 주파수 범위를 커버할 수 있고, 더 많은 주파수 범위를 커버하는 음조 성분에 관한 정보에 기초하여 인코딩이 수행된다. 이는 인코딩 품질을 향상시킨다.
가능한 구현에서, 상기 오디오 신호 인코딩 방법은, 상기 타일 정보에 대해 비트스트림 다중화를 수행하여 구성 비트스트림을 획득하는 단계를 더 포함한다. 따라서, 본 출원의 이 구현에서, 타일 정보는 구성 비트스트림을 사용하여 디코딩 기기에 전송될 수 있으므로, 디코딩 기기는 구성 비트스트림에 포함된 타일 정보에 의해 지시되는 주파수 범위에 기초하여 디코딩을 수행할 수 있다. 이러한 방식으로, 고주파 대역 신호와 저주파 대역 신호 사이의 유사하지 않은 음조 성분(dissimilar tonal component)에 관한 정보가 디코딩될 수 있다. 이는 디코딩 품질을 더욱 향상시킨다.
가능한 구현에서, 상기 타일 정보를 획득하는 단계는, 상기 오디오 신호의 샘플링 주파수 및 상기 대역폭 확장의 구성 정보에 기초하여 상기 타일 정보를 결정하는 단계를 포함할 수 있다. 본 출원의 구현에서, 오디오 신호는 하나 이상의 프레임을 갖고, 대응하는 타일 정보는 각각의 프레임이 인코딩될 때 결정될 수 있거나, 복수의 프레임이 동일한 타일 정보를 사용할 수 있다. 복수의 구현이 제공되며, 실제 적용 시나리오에 기초하여 구체적으로 조정될 수 있다.
가능한 구현에서, 상기 타일 정보는 제1 수량, 식별 정보, 관계 정보 또는 변경된 타일의 수량 중 적어도 하나를 포함하고, 상기 제1 수량은 상기 제1 주파수 범위에 있는 타일의 수량이고, 상기 식별 정보는 상기 제1 주파수 범위가 상기 구성 정보에 의해 지시되는 대역폭 확장에 대응하는 제2 주파수 범위와 동일한지를 지시하고, 상기 관계 정보는 상기 제1 주파수 범위가 상기 제2 주파수 범위와 다른 경우 상기 제1 주파수 범위와 상기 제2 주파수 범위 사이의 값 관계를 지시하며, 상기 변경된 타일의 수량은 상기 제1 주파수 범위가 상기 제2 주파수 범위와 다른 경우 상기 제1 주파수 범위와 상기 제2 주파수 범위 사이에 차이가 있는 타일의 수량이다. 따라서, 음조 성분 검출이 수행되어야 하는 주파수 범위가 타일 정보에 기초하여 정확하게 결정될 수 있다.
가능한 구현에서, 상기 대역폭 확장의 구성 정보는 대역폭 확장 상한 및/또는 제2 수량을 포함하고, 상기 제2 수량은 상기 제2 주파수 범위에 있는 타일의 수량이다. 상기 오디오 신호 인코딩 방법은, 상기 현재 프레임의 인코딩 레이트, 상기 오디오 신호의 채널의 수량, 상기 오디오 신호의 샘플링 주파수, 상기 대역폭 확장 상한, 또는 상기 제2 수량 중 하나 이상에 기초하여 상기 제1 수량을 결정하는 단계를 더 포함할 수 있다. 따라서, 본 출원의 이 구현에서, 음조 성분 검출이 수행되어야 하는 타일의 수량이 현재 프레임의 인코딩 레이트, 오디오 신호의 채널의 수량, 샘플링 주파수, 대역폭 확장 상한 또는 제2 수량 중 하나 이상에 기초하여 정확하게 결정될 수 있다.
가능한 구현에서, 상기 대역폭 확장 상한은 최고 주파수, 최고 빈 인덱스(highest bin index), 최고 주파수 대역 인덱스, 또는 상기 제2 주파수 범위에서의 최고 타일 인덱스(highest tile index) 중 하나 이상을 포함한다.
가능한 구현에서, 상기 오디오 신호의 적어도 하나의 채널이 있고; 상기 현재 프레임의 인코딩 레이트, 상기 오디오 신호의 채널의 수량, 상기 샘플링 주파수, 상기 대역폭 확장 상한, 또는 상기 제2 수량 중 하나 이상에 기초하여 상기 제1 수량을 결정하는 단계는, 상기 현재 프레임의 인코딩 레이트 및 상기 채널의 수량에 기초하여 상기 현재 프레임에서 현재 채널의 제1 결정 식별자를 결정하는 단계 - 상기 현재 프레임의 인코딩 레이트는 상기 현재 프레임의 인코딩 레이트임 -; 및 상기 제1 결정 식별자에 기초하여 상기 제2 수량과 결합하여 현재 채널의 제1 수량을 결정하는 단계; 또는 상기 샘플링 주파수 및 상기 대역폭 확장 상한에 기초하여 상기 현재 프레임에서 현재 채널의 제2 결정 식별자를 결정하는 단계; 및 상기 제2 결정 식별자에 기초하여 상기 제2 수량과 결합하여 현재 채널의 제1 수량을 결정하는 단계; 또는 상기 현재 프레임의 인코딩 레이트 및 상기 채널의 수량에 기초하여 상기 현재 프레임에서 현재 채널의 제1 결정 식별자를 결정하고, 상기 샘플링 주파수 및 상기 대역폭 확장 상한에 기초하여 상기 현재 프레임에서 상기 현재 채널의 제2 결정 식별자를 결정하는 단계; 및 상기 제1 결정 식별자 및 상기 제2 결정 식별자에 기초하여 상기 제2 수량과 결합하여 상기 현재 프레임에서 현재 채널의 제1 수량을 결정하는 단계를 포함할 수 있다.
따라서, 본 출원의 이 구현에서, 제1 수량은 제2 수량과 결합하여 복수의 방식으로 결정되어, 음조 성분 검출이 수행되어야 하는 타일의 수량을 정확하게 결정할 수 있다.
가능한 구현에서, 상기 현재 프레임의 인코딩 레이트 및 상기 채널의 수량에 기초하여 상기 현재 프레임에서 현재 채널의 제1 결정 식별자를 결정하는 단계는, 상기 현재 프레임의 인코딩 레이트 및 상기 채널의 수량에 기초하여 상기 현재 프레임에서 채널 각각의 평균 인코딩 레이트를 획득하는 단계; 및 상기 평균 인코딩 레이트 및 제1 임계값에 기초하여 상기 현재 채널의 제1 결정 식별자를 획득하는 단계를 포함할 수 있다.
본 출원의 이 구현에서, 현재 채널의 제1 결정 식별자는 평균 인코딩 레이트에 기초하여 획득될 수 있으므로, 제1 결정 식별자는 평균 인코딩 레이트가 제1 임계값보다 큰지를 지시한다. 이러한 방식으로, 이후에 획득된 제1 수량은 더 정확하다.
가능한 구현에서, 상기 현재 프레임의 인코딩 레이트 및 상기 채널의 수량에 기초하여 상기 현재 프레임에서 현재 채널의 제1 결정 식별자를 결정하는 단계는, 상기 현재 프레임의 인코딩 레이트 및 상기 채널의 수량에 기초하여 상기 현재 채널의 실제 인코딩 레이트를 결정하는 단계; 및 상기 현재 채널의 실제 인코딩 레이트 및 제2 임계값에 기초하여 상기 현재 채널의 제1 결정 식별자를 획득하는 단계를 더 포함할 수 있다.
본 출원의 이 구현에서, 실제 인코딩 레이트가 각 채널에 할당될 수 있으므로, 제1 결정 식별자는 현재 채널의 실제 인코딩 레이트가 제2 임계값보다 큰지를 지시한다. 이러한 방식으로, 이후에 획득된 제1 수량은 더 정확하다.
가능한 구현에서, 상기 샘플링 주파수 및 상기 대역폭 확장 상한에 기초하여 상기 현재 프레임에서 현재 채널의 제2 결정 식별자를 결정하는 단계는, 상기 대역폭 확장 상한이 상기 최고 주파수를 포함하는 경우, 상기 대역폭 확장 상한에 포함된 최고 주파수가 상기 오디오 신호의 최고 주파수와 동일한지를 비교하여, 상기 현재 프레임에서 상기 현재 채널의 제2 결정 식별자를 결정하는 단계를 포함하거나; 또는 상기 대역폭 확장 상한이 상기 최고 주파수 대역 인덱스를 포함하는 경우, 상기 대역폭 확장 상한에 포함된 최고 주파수 대역 인덱스가 상기 오디오 신호의 최고 주파수 대역 인덱스와 동일한지를 비교하여, 상기 현재 프레임에서 상기 현재 채널의 제2 결정 식별자를 결정하는 단계 - 상기 오디오 신호의 최고 주파수 대역 인덱스는 상기 샘플링 주파수에 기초하여 결정됨 -를 포함할 수 있다.
본 출원의 이 구현에서, 제2 결정 식별자는 대역폭 확장 상한에 포함된 최고 주파수를 오디오 신호의 최고 주파수와 비교함으로써, 또는 대역폭 확장 상한에 포함된 최고 빈 인덱스, 최고 주파수 대역 인덱스, 최고 타일 인텍스 등을 오디오 신호에 대응하는 최고 빈 인덱스, 최고 주파수 대역 인덱스, 최고 타일 인텍스 등과 비교함으로써 결정되어, 오디오 신호의 최고 주파수가 대역폭 확장의 주파수 상환을 초과하는지를 판정할 수 있어, 더 정확한 제1 수량을 획득할 수 있다.
가능한 구현에서, 상기 현재 프레임에서 현재 채널의 제1 수량을 결정하는 단계는, 상기 제1 결정 식별자와 상기 제2 결정 식별자 모두가 미리 설정된 조건을 충족하면, 상기 대역폭 확장에 대응하는 상기 제2 수량에 하나 이상의 타일을 추가하여 상기 현재 채널의 제1 수량을 획득하는 단계; 또는 상기 제1 결정 식별자 또는 상기 제2 결정 식별자가 미리 설정된 조건을 충족하지 않으면, 상기 대역폭 확장에 대응하는 상기 제2 수량을 상기 현재 채널의 제1 수량으로 사용하는 단계를 포함할 수 있다.
따라서, 본 출원의 이 구현에서, 제1 결정 식별자 및 제2 결정 식별자가 모두 미리 설정된 조건을 충족하는 경우, 음조 성분 검출이 수행되어야 하는 주파수 범위가 대역폭 확장에 대응하는 주파수 범위를 초과하여, 타일의 수량을 증가시켜야 음조 성분 검출이 수행되는 타일의 수량이 대역폭 확장에 대응하는 주파수 범위를 커버할 수 있음을 지시한다. 이러한 방식으로, 최종적으로 획득된 음조 성분에 관한 정보는 음조 신호의 현재 프레임 내의 모든 음조 성분에 관한 정보를 포함할 수 있다. 이는 인코딩 품질을 향상시킨다. 제1 결정 식별자 또는 제2 결정 식별자가 미리 설정된 조건을 충족하지 않는 경우, 현재 프레임의 대역폭 확장에 대응하는 주파수 범위에서 톤 검출(tone detection)이 수행될 수 있거나, 현재 프레임 내의 모든 음조 성분에 관한 정보가 완전히 커버될 수 있다. 이는 인코딩 품질을 향상시킨다.
가능한 구현에서, 상기 제1 주파수 범위의 하한은 상기 구성 정보에 의해 지시되는 대역폭 확장이 수행되는 상기 제2 주파수 범위의 하한과 동일하다. 상기 타일 정보에 포함된 상기 제1 수량이 상기 대역폭 확장에 대응하는 상기 제2 수량보다 작거나 같은 경우, 상기 제1 주파수 범위에서의 타일의 분포는 상기 구성 정보에서 지시된 상기 제2 주파수 범위에서의 타일의 분포와 동일하다. 상기 제1 수량이 상기 제2 수량보다 큰 경우, 상기 제1 주파수 범위의 주파수 상한은 상기 제2 주파수 범위의 주파수 상한보다 크고, 상기 제1 주파수 범위와 상기 제2 주파수 범위의 중첩 부분에서의 타일의 분포는 상기 제2 주파수 범위에서의 타일의 분포와 동일하며, 상기 제1 주파수 범위와 상기 제2 주파수 범위의 중첩되지 않은 부분에서의 타일의 분포는 미리 정해진 방식으로 결정된다.
따라서, 본 출원의 이 구현에서, 제1 주파수 범위의 하한은 대역폭 확장이 수행되는 제2 주파수 범위의 하한과 동일하다. 그 후, 제1 주파수 범위에서의 타일의 분할 방식이 제1 주파수 범위에 있는 타일의 수량과 제2 주파수 범위에 있는 타일의 수량을 비교하여 결정되어, 제1 주파수 범위에 포함된 타일을 정확하게 결정할 수 있다.
가능한 구현에서, 상기 제1 주파수 범위와 상기 제2 주파수 범위의 중첩되지 않은 부분에 있는 타일은 다음 조건을 충족한다: 상기 제1 주파수 범위와 상기 제2 주파수 범위의 중첩되지 않은 부분에서의 타일의 폭은 미리 설정된 값보다 작거나 같고, 상기 제1 주파수 범위와 상기 제2 주파수 범위의 중첩되지 않은 부분에서의 타일의 주파수 상한은 상기 오디오 신호의 최고 주파수보다 작거나 같다. 따라서, 본 출원의 이 구현에서, 제1 주파수 범위와 제2 주파수 범위의 중첩되지 않은 부분을 분할하는 방식이 제한될 수 있다. 다시 말해, 폭이 미리 설정된 값을 초과하지 않고, 타일의 주파수 상한이 오디오 신호의 최고 주파수보다 작거나 같으므로 타일을 보다 적절하게 분할할 수 있다.
가능한 구현에서, 본 출원의 이 구현에서, 주파수 범위는 분할된다. 제1 주파수 범위는 하나 이상의 타일로 분할될 수 있고, 각 타일은 하나 이상의 주파수 대역으로 더 분할될 수 있다. 또한, 주파수 범위 내의 주파수 대역은 정렬될 수 있고, 각각의 주파수 대역은 설로 다른 인덱스를 가져, 주파수 대역의 인덱스를 비교함으로써 주파수 값을 비교할 수 있다.
가능한 구현에서, 상기 제1 주파수 범위에 있는 타일의 수량은 미리 설정된 수량이다. 따라서, 본 출원의 이 구현에서, 음조 성분 검출이 수행되어야 하는 타일의 수량은 대안적으로 미리 설정된 수량으로 설정될 수 있으므로, 작업 부하가 직접적으로 감소될 수 있다.
선택적으로, 제1 주파수 범위에 있는 타일의 수량이 미리 설정된 수량인 경우, 상기 미리 설정된 수량은 상기 구성 비트스트림에 기록될 수 있거나, 상기 구성 비트스트림에 기록되지 않을 수 있다.
가능한 구현에서, 상기 음조 성분에 관한 정보는 상기 음조 성분의 위치 수량 파라미터, 및 상기 음조 성분의 진폭 파라미터 또는 에너지 파라미터를 포함할 수 있다.
가능한 구현에서, 상기 음조 성분에 관한 정보는 상기 고주파 대역 신호의 잡음 플로어 파라미터(noise floor parameter)를 더 포함할 수 있다.
제2 측면에 따르면, 본 출원은 디코딩 방법을 제공하며, 상기 디코딩 방법은, 페이로드 비트스트림을 획득하는 단계; 상기 페이로드 비트스트림에 대해 비트스트림 역다중화를 수행하여 오디오 신호의 현재 프레임의 음조 성분에 관한 정보 및 대역폭 확장의 파라미터를 획득하는 단계; 상기 대역폭 확장의 파라미터에 기초하여 상기 현재 프레임의 고주파 대역 신호를 획득하는 단계; 상기 음조 성분에 관한 정보 및 타일 정보에 기초하여 재구축을 수행하여 재구축된 음조 신호를 획득하는 단계 - 상기 타일 정보는 상기 현재 프레임에서 음조 성분 재구축이 수행되어야 하는 제1 주파수 범위를 지시함 -; 및 상기 고주파 대역 신호 및 상기 재구축된 음조 신호에 기초하여 상기 현재 프레임의 디코딩된 신호를 획득하는 단계를 포함한다.
본 출원의 이 구현에서, 음조 성분 재구축이 수행되어야 하는 주파수 범위는 타일 정보에 기초하여 결정될 수 있으며, 여기서 주파수 범위는 대역폭 확장의 구성 정보 및 오디오 신호의 샘플링 주파수에 기초하여 결정되므로, 음조 성분 재구축이 타일 정보에 기초하여 고주파 대역 신호와 저주파 대역 신호 사이의 유사하지 않은 음조 성분에 대해 수행될 수 있도록 한다. 이는 디코딩 품질을 향상시킨다.
가능한 구현에서, 상기 디코딩 방법은, 구성 비트스트림을 획득하는 단계; 및 상기 구성 비트스트림에 기초하여 상기 타일 정보를 획득하는 단계를 더 포함한다. 따라서, 본 출원의 이 구현에서, 디코딩은 구성 비트스트림에 포함된 타일 정보에 의해 지시되는 주파수 범위에 기초하여 수행될 수 있으므로, 고주파 대역 신호와 저주파 대역 신호 사이의 유사하지 않은 음조 성분에 관한 정보가 디코딩될 수 있다. 이는 디코딩 품질을 향상시킨다.
가능한 구현에서, 상기 타일 정보는 제1 수량, 식별 정보, 관계 정보 또는 변경된 타일의 수량 중 적어도 하나를 포함할 수 있고, 상기 제1 수량은 상기 제1 주파수 범위에 있는 타일의 수량이고, 상기 식별 정보는 상기 제1 주파수 범위가 상기 대역폭 확장에 대응하는 제2 주파수 범위와 동일한지를 지시하고, 상기 관계 정보는 상기 제1 주파수 범위가 상기 제2 주파수 범위와 다른 경우 상기 제1 주파수 범위와 상기 제2 주파수 범위 사이의 값 관계를 지시하며, 상기 변경된 타일의 수량은 상기 제1 주파수 범위가 상기 제2 주파수 범위와 다른 경우 상기 제1 주파수 범위와 상기 제2 주파수 범위 사이에 차이가 있는 타일의 수량이다.
가능한 구현에서, 상기 음조 성분에 관한 정보 및 타일 정보에 기초하여 재구축을 수행하여 재구축된 음조 신호를 획득하는 단계는, 상기 타일 정보에 기초하여, 음조 성분 재구축이 수행되어야 하는 타일의 수량이 제1 수량인 것으로 결정하는 단계; 상기 제1 수량에 기초하여, 상기 제1 주파수 범위에서 음조 성분 재구축이 수행되는 각각의 타일을 결정하는 단계; 및 상기 제1 주파수 범위에서, 상기 음조 성분에 관한 정보에 기초하여 상기 음조 성분을 재구축하여 상기 재구축된 음조 신호를 획득하하는 단계를 포함한다.
따라서, 본 출원의 이 구현에서, 타일 정보에 지시하는 주파수 범위에 기초하여 음조 성분 재구축이 수행될 수 있으므로, 고주파 대역 신호와 저주파 대역 신호 사이의 유사하지 않은 음조 신호에 관한 정보를 디코딩할 수 있다. 이는 디코딩 품질을 향상시킨다.
가능한 구현에서, 상기 제1 주파수 범위의 하한은 상기 구성 정보에 의해 지시되는 대역폭 확장이 수행되는 제2 주파수 범위의 하한과 동일하다. 상기 제1 수량에 기초하여, 상기 제1 주파수 범위에서 음조 성분 재구축이 수행되는 각각의 타일을 결정하는 단계는, 상기 제1 수량이 제2 수량보다 작거나 같으면, 상기 제2 주파수 범위에서의 타일 분포에 기초하여 상기 제1 주파수 범위에서의 타일 분포를 결정하는 단계 - 상기 제2 수량은 상기 제2 주파수 범위에서의 타일 수량임 -; 및 상기 제1 수량이 상기 제2 수량보다 크면, 상기 제1 주파수 범위의 주파수 상한이 상기 제2 주파수 범위의 주파수 상한보다 큰 것으로 결정하고, 상기 제2 주파수 범위에서의 타일의 분포에 기초하여 상기 제1 주파수 범위와 상기 제2 주파수 범위의 중첩 부분에서의 타일의 분포를 결정하고, 미리 설정된 방식으로 상기 제1 주파수 범위와 상기 제2 주파수 범위의 중첩되지 않은 부분에서의 타일의 분포를 결정하여, 상기 제1 주파수 범위에서의 타일의 분포를 획득하는 단계를 포함할 수 있다. 본 출원의 이 구현에서, 제1 주파수 범위의 하한은 대역폭 확장이 수행되는 제2 주파수 범위의 하한과 동일하다. 후속하여, 제1 주파수 범위에 있는 타일의 수량과 제2 주파수 범위에 있는 타일의 수량을 비교하여 제1 주파수 범위에 있는 타일의 분할 방식이 결정되어, 제1 주파수 범위에 포함된 타일을 정확하게 결정할 수 있다.
가능한 구현에서, 상기 제1 주파수 범위와 상기 제2 주파수 범위의 중첩되지 않은 부분에 있는 타일은 다음 조건을 충족한다: 상기 제1 주파수 범위와 상기 제2 주파수 범위의 중첩되지 않은 부분에서의 타일의 폭은 미리 설정된 값보다 작거나 같고, 상기 제1 주파수 범위와 상기 제2 주파수 범위의 중첩되지 않은 부분에서의 타일의 주파수 상한은 상기 오디오 신호의 최고 주파수보다 작거나 같다. 따라서, 본 출원의 이 구현에서, 제1 주파수 범위와 제2 주파수 범위의 중첩되지 않은 부분을 분할하는 방식이 제한될 수 있다. 다시 말해, 폭은 미리 설정된 값을 초과하지 않고, 타일의 주파수 상한은 오디오 신호의 최고 주파수보다 작거나 같으므로, 타일을 보다 적절하게 분할할 수 있다.
제3 측면에 따르면, 본출원은 인코딩 기기를 제공하며, 상기 인코딩 기기는,
오디오 신호의 현재 프레임을 획득하도록 구성된 오디오 획득 모듈 - 상기 현재 프레임은 고주파 대역 신호 및 저주파 대역 신호를 포함함 -;
상기 고주파 대역 신호, 상기 저주파 대역 신호 및 대역폭 확장의 미리 설정된 구성 정보에 기초하여 상기 현재 프레임의 대역폭 확장의 파라미터를 획득하도록 구성된 파라미터 획득 모듈;
타일 정보를 획득하도록 구성된 주파수 획득 모듈 - 상기 타일 정보는 상기 고주파 대역 신호에 대해 음조 성분 검출이 수행되어야 하는 제1 주파수 범위를 지시함 -;
상기 제1 주파수 범위에서 음조 성분 검출을 수행하여 상기 고주파 대역 신호의 음조 성분에 관한 정보를 획득하도록 구성된 음조 성문 인코딩 모듈; 및
상기 대역폭 확장의 파라미터 및 상기 음조 성분에 관한 정보에 대해 비트스트림 다중화를 수행하여 페이로드 비트스트림을 획득하도록 구성된 비트스트림 다중화 모듈을 포함한다.
제3 측면 및 제3 측면의 가능한 구현 중 어느 하나에 의해 생성되는 유익한 효과에 대해서는, 제1 측면 및 제1 측면의 가능한 구현 중 어느 하나에 대한 설명을 참조한다.
가능한 구현에서, 상기 인코딩 기기는 다음을 더 포함할 수 있다:
상기 비트스트림 멀티플렉싱 모듈은 추가로, 상기 타일 정보에 대해 비트스트림 다중화를 수행하여 구성 비트스트림을 획득하도록 구성된다.
가능한 구현에서, 상기 주파수 획득 모듈은 구체적으로, 상기 오디오 신호의 샘플링 주파수 및 상기 대역폭 확장의 구성 정보에 기초하여 상기 타일 정보를 결정하도록 구성된다.
가능한 구현에서, 상기 타일 정보는 제1 수량, 식별 정보, 관계 정보 또는 변경된 타일의 수량 중 적어도 하나를 포함하고, 상기 제1 수량은 상기 제1 주파수 범위에 있는 타일의 수량이고, 상기 식별 정보는 상기 제1 주파수 범위가 상기 대역폭 확장에 대응하는 제2 주파수 범위와 동일한지를 지시하고, 상기 관계 정보는 상기 제1 주파수 범위가 상기 제2 주파수 범위와 다른 경우 상기 제1 주파수 범위와 상기 제2 주파수 범위 사이의 값 관계를 지시하며, 상기 변경된 타일의 수량은 상기 제1 주파수 범위가 상기 제2 주파수 범위와 다른 경우 상기 제1 주파수 범위와 상기 제2 주파수 범위 사이에 차이가 있는 타일의 수량이다.
가능한 구현에서, 상기 타일 정보는 적어도 상기 제1 수량을 포함하고, 상기 대역폭 확장의 구성 정보는 대역폭 확장 상한 및/또는 제2 수량을 포함하고, 상기 제2 수량은 상기 제2 주파수 범위에 있는 타일의 수량이며;
상기 주파수 획득 모듈은 구체적으로, 상기 현재 프레임의 인코딩 레이트, 상기 오디오 신호의 채널의 수량, 상기 샘플링 주파수, 상기 대역폭 확장 상한, 또는 상기 제2 수량 중 하나 이상에 기초하여 상기 제1 수량을 결정하도록 구성된다.
가능한 구현에서, 상기 대역폭 확장 상한은 최고 주파수, 최고 빈 인덱스, 최고 주파수 대역 인덱스, 또는 상기 제2 주파수 범위에서의 최고 타일 인덱스 중 하나 이상을 포함한다.
가능한 구현에서, 상기 오디오 신호의 적어도 하나의 채널이 있고;
상기 주파수 획득 모듈은 구체적으로,
상기 현재 프레임의 인코딩 레이트 및 상기 채널의 수량에 기초하여 상기 현재 프레임에서 현재 채널의 제1 결정 식별자를 결정하고 - 상기 현재 프레임의 인코딩 레이트는 상기 현재 프레임의 인코딩 레이트임 -; 상기 제1 결정 식별자에 기초하여 상기 제2 수량과 결합하여 현재 채널의 제1 수량을 결정하거나;
상기 샘플링 주파수 및 상기 대역폭 확장 상한에 기초하여 상기 현재 프레임에서 현재 채널의 제2 결정 식별자를 결정하고; 상기 제2 결정 식별자에 기초하여 상기 제2 수량과 결합하여 현재 채널의 제1 수량을 결정하거나;
상기 현재 프레임의 인코딩 레이트 및 상기 채널의 수량에 기초하여 상기 현재 프레임에서 현재 채널의 제1 결정 식별자를 결정하고, 상기 샘플링 주파수 및 상기 대역폭 확장 상한에 기초하여 상기 현재 프레임에서 상기 현재 채널의 제2 결정 식별자를 결정하고; 상기 제1 결정 식별자 및 상기 제2 결정 식별자에 기초하여 상기 제2 수량과 결합하여 상기 현재 프레임에서 현재 채널의 제1 수량을 결정하도록 구성된다.
가능한 구현에서, 상기 주파수 획득 모듈은 구체적으로, 상기 현재 프레임의 인코딩 레이트 및 상기 채널의 수량에 기초하여 상기 현재 프레임에서 채널 각각의 평균 인코딩 레이트를 획득하고; 상기 평균 인코딩 레이트 및 제1 임계값에 기초하여 상기 현재 채널의 제1 결정 식별자를 획득하도록 구성된다.
가능한 구현에서, 상기 주파수 획득 모듈은 구체적으로, 상기 현재 프레임의 인코딩 레이트 및 상기 채널의 수량에 기초하여 상기 현재 채널의 실제 인코딩 레이트를 결정하고; 상기 현재 채널의 실제 인코딩 레이트 및 제2 임계값에 기초하여 상기 현재 채널의 제1 결정 식별자를 획득하도록 구성될 수 있다.
가능한 구현에서, 상기 주파수 획득 모듈은 구체적으로, 상기 주파수 확장 상한이 상기 최고 주파수를 포함하는 경우, 상기 대역폭 확장 상한에 포함된 최고 주파수가 상기 오디오 신호의 최고 주파수와 동일한지를 비교하여, 상기 현재 프레임에서 상기 현재 채널의 제2 결정 식별자를 결정하거나; 상기 대역폭 확장 상한이 상기 최고 주파수 대역 인덱스를 포함하는 경우, 상기 대역폭 확장 상한에 포함된 최고 주파수 대역 인덱스가 상기 오디오 신호의 최고 주파수 대역 인덱스와 동일한지를 비교하여, 상기 현재 프레임에서 상기 현재 채널의 제2 결정 식별자를 결정하도록 구성될 수 있으며, 상기 오디오 신호의 최고 주파수 대역 인덱스는 상기 샘플링 주파수에 기초하여 결정된다.
가능한 구현에서, 상기 주파수 획득 모듈은 구체적으로,
상기 제1 결정 식별자와 상기 제2 결정 식별자 모두가 미리 설정된 조건을 충족하면, 상기 대역폭 확장에 대응하는 상기 제2 수량에 하나 이상의 타일을 추가하여 상기 현재 채널의 제1 수량을 획득하거나;
상기 제1 결정 식별자 또는 상기 제2 결정 식별자가 미리 설정된 조건을 충족하지 않으면, 상기 대역폭 확장에 대응하는 상기 제2 수량을 상기 현재 채널의 제1 수량으로 사용하도록 구성될 수 있다.
가능한 구현에서, 상기 제1 주파수 범위의 하한은 상기 구성 정보에 의해 지시되는 대역폭 확장이 수행되는 상기 제2 주파수 범위의 하한과 동일하다. 상기 타일 정보에 포함된 상기 제1 수량이 상기 대역폭 확장에 대응하는 상기 제2 수량보다 작거나 같은 경우, 상기 제1 주파수 범위에서의 타일의 분포는 상기 제2 주파수 범위에서의 타일의 분포와 동일하다. 상기 제1 수량이 상기 제2 수량보다 큰 경우, 상기 제1 주파수 범위의 주파수 상한은 상기 제2 주파수 범위의 주파수 상한보다 크고, 상기 제1 주파수 범위와 상기 제2 주파수 범위의 중첩 부분에서의 타일의 분포는 상기 제2 주파수 범위에서의 타일의 분포와 동일하며, 상기 제1 주파수 범위와 상기 제2 주파수 범위의 중첩되지 않은 부분에서의 타일의 분포는 미리 정해진 방식으로 결정된다.
가능한 구현에서, 상기 제1 주파수 범위와 상기 제2 주파수 범위의 중첩되지 않은 부분에서의 타일의 폭은 미리 설정된 값보다 작고, 상기 제1 주파수 범위와 상기 제2 주파수 범위의 중첩되지 않은 부분에서의 타일의 주파수 상한은 상기 오디오 신호의 최고 주파수보다 작거나 같다.
가능한 구현에서, 상기 고주파 대역 신호에 대응하는 주파수 범위는 하나 이상의 타일을 포함하고, 하나의 타일은 하나 이상의 주파수 대역을 포함한다.
가능한 구현에서, 상기 제1 주파수 범위에 있는 타일의 수량은 미리 설정된 수량이다.
가능한 구현에서, 상기 음조 성분에 관한 정보는 상기 음조 성분의 위치 수량 파라미터, 및 상기 음조 성분의 진폭 파라미터 또는 에너지 파라미터를 포함한다.
가능한 구현에서, 상기 음조 성분에 관한 정보는 상기 고주파 대역 신호의 잡음 플로어 파라미터를 더 포함한다.
제4 측면에 따르면 본 출원은 디코딩 기기를 제공하며, 상기 디코딩 기기는,
페이로드 비트스트림을 획득하도록 구성된 획득 모듈;
상기 페이로드 비트스트림에 대해 비트스트림 역다중화를 수행하여 오디오 신호의 현재 프레임의 음조 성분에 관한 정보 및 대역폭 확장의 파라미터를 획득하도록 구성된 역다중화 모듈;
상기 대역폭 확장의 파라미터에 기초하여 상기 현재 프레임의 고주파 대역 신호를 획득하도록 구성된 대역폭 확장 디코딩 모듈;
상기 음조 성분에 관한 정보 및 타일 정보에 기초하여 재구축을 수행하여 재구축된 음조 신호를 획득하도록 구성된 재구축 모듈 - 상기 타일 정보는 상기 현재 프레임에서 음조 성분 재구축이 수행되어야 하는 제1 주파수 범위를 지시함 -; 및
상기 고주파 대역 신호 및 상기 재구축된 음조 신호에 기초하여 상기 현재 프레임의 디코딩된 신호를 획득하도록 구성된 신호 디코딩 모듈을 포함한다.
제4 측면 또는 제4 측면의 가능한 구현 중 어느 하나에 의해 생성된 유익한 효과에 대해서는, 제2 측면 또는 제2 측면의 가능한 구현 중 중 어느 하나에 대한 설명을 참조한다.
가능한 구현에서, 상기 획득 모듈은 추가로, 구성 비트스트림을 획득하고; 상기 구성 비트스트림에 기초하여 상기 타일 정보를 획득하도록 구성될 수 있다.
가능한 구현에서, 상기 타일 정보는 제1 수량, 식별 정보, 관계 정보 또는 변경된 타일의 수량 중 적어도 하나를 포함하고, 상기 제1 수량은 상기 제1 주파수 범위에 있는 타일의 수량이고, 상기 식별 정보는 상기 제1 주파수 범위가 상기 대역폭 확장에 대응하는 제2 주파수 범위와 동일한지를 지시하고, 상기 관계 정보는 상기 제1 주파수 범위가 상기 제2 주파수 범위와 다른 경우 상기 제1 주파수 범위와 상기 제2 주파수 범위 사이의 값 관계를 지시하며, 상기 변경된 타일의 수량은 상기 제1 주파수 범위가 상기 제2 주파수 범위와 다른 경우 상기 제1 주파수 범위와 상기 제2 주파수 범위 사이에 차이가 있는 타일의 수량이다.
가능한 구현에서, 상기 재구축 모듈은 구체적으로, 상기 타일 정보에 기초하여, 음조 성분 재구축이 수행되어야 하는 타일의 수량이 제1 수량인 것으로 결정하고; 상기 제1 수량에 기초하여, 상기 제1 주파수 범위에서 음조 성분 재구축이 수행되는 각각의 타일을 결정하고; 상기 제1 주파수 범위에서, 상기 음조 성분에 관한 정보에 기초하여 상기 음조 성분을 재구축하여 상기 재구축된 음조 신호를 획득하도록 구성될 수 있다.
가능한 구현에서, 상기 제1 주파수 범위의 하한은 구성 정보에 의해 지시되는 대역폭 확장이 수행되는 제2 주파수 범위의 하한과 동일하다. 상기 획득 모듈은 구체적으로, 상기 제1 수량이 제2 수량보다 작거나 같으면, 상기 제2 주파수 범위에서의 타일 분포에 기초하여 상기 제1 주파수 범위와 상기 제2 주파수 범위의 중첩 부분에 있는 타일을 결정하고 - 상기 제2 수량은 상기 제2 주파수 범위에서의 타일 수량임 -; 상기 제1 수량이 상기 제2 수량보다 크면, 상기 제1 주파수 범위의 주파수 상한이 상기 제2 주파수 범위의 주파수 상한보다 큰 것으로 결정하고, 상기 제2 주파수 범위에서의 타일의 분포에 기초하여 상기 제1 주파수 범위와 상기 제2 주파수 범위의 중첩 부분에 있는 상기 타일의 분포를 결정하고, 미리 설정된 방식으로 상기 제1 주파수 범위와 상기 제2 주파수 범위의 중첩되지 않은 부분에서의 타일의 분포를 결정하여, 상기 제1 주파수 범위에서의 타일의 분포를 획득하도록 구성된다.
가능한 구현에서, 상기 제1 주파수 범위와 상기 제2 주파수 범위의 중첩되지 않은 부분에서의 분할된 타일은 다음 조건을 충족한다: 상기 제1 주파수 범위와 상기 제2 주파수 범위의 중첩되지 않은 부분에서의 분할된 타일의 폭은 미리 설정된 값보다 작고, 상기 제1 주파수 범위와 상기 제2 주파수 범위의 중첩되지 않은 부분에서의 분할된 타일의 주파수 상한은 상기 오디오 신호의 최고 주파수보다 작거나 같다.
가능한 구현에서, 상기 음조 성분에 관한 정보는 상기 음조 성분의 위치 수량 파라미터, 및 상기 음조 성분의 진폭 파라미터 또는 에너지 파라미터를 포함한다.
가능한 구현에서, 상기 음조 성분에 관한 정보는 상기 고주파 대역 신호의 잡음 플로어 파라미터를 더 포함한다.
제5 측면에 따르면, 본 출원은 프로세서 및 메모리를 포함하는 인코딩 기기를 제공한다. 상기 프로세서와 상기 메모리에 선(line)을 통해 상호연결되고, 상기 프로세서는 상기 메모리 내의 프로그램 코드를 호출하여 제1 측면 중 어느 하나에 따른 오디오 신호 인코딩 방법에서의 처리 관련 기능을 수행한다.
제6 측면에 따르면, 본 출원은 프로세서 및 메모리를 포함하는 디코딩 기기를 제공한다. 상기 프로세서와 상기 메모리에 선을 통해 상호연결되고, 상기 프로세서는 상기 메모리 내의 프로그램 코드를 호출하여 제2 측면 중 어느 둘에 따른 오디오 신호 디코딩 방법에서의 처리 관련 기능을 수행한다.
제7 측면에 따르면, 본 출원은 인코딩 기기 및 디코딩 기기를 포함하는 통신 시스템을 제공한다. 상기 인코딩 기기는 제1 측면 중 어느 하나에 따른 오디오 신호 인코딩 방법을 수행하도록 구성되고, 상기 디코딩 기기는 제2 측면 중 어느 둘에 따른 디코딩 방법을 수행하도록 구성된다.
제8 측면에 따르면, 본 출원의 일 실시예는 디지털 처리 칩을 제공하며, 여기서 칩은 프로세서 및 메모리를 포함한다. 상기 메모리와 상기 프로세서는 선을 통해 상호 연결되고, 상기 메모리는 명령어를 저장하고, 상기 프로세서는 제1 측면 또는 제1 측면의 선택적 구현 중 어느 하나, 또는 제2 측면 또는 제2 측면의 선택적 구현 중 어느 하나에서의 처리 관련 기능을 수행하도록 구성된다.
제9 측면에 따르면, 본 출원의 일 실시예는 명령어를 포함하는, 컴퓨터로 판독 가능한 저장 매체를 제공한다. 상기 명령어가 컴퓨터에서 실행될 때, 상기 컴퓨터는 제1 측면 또는 제1 측면의 선택적 구현 중 어느 하나, 또는 제2 측면 또는 제2 측면의 선택적 구현 중 어느 하나의 방법을 수행할 수 있게 된다.
제10 측면에 따르면, 본 출원의 일 실시예는 명령어를 포함하는 컴퓨터 프로그램 제품을 제공한다. 상기 컴퓨터 프로그램 제품이 컴퓨터에서 실행될 때, 상기 컴퓨터는 제1 측면 또는 제1 측면의 선택적 구현 중 어느 하나, 또는 제2 측면 또는 제2 측면의 선택적 구현 중 어느 하나의 방법을 수행할 수 있게 된다.
제11 측면에 따르면, 본 출원은 네트워크 기기를 제공한다. 상기 네트워크 기는는 인코딩 기기 또는 디코딩 기기와 같은 기기에 사용될 수 있다. 상기 네트워크 장치는 메모리에 결합되어, 상기 메모리에 저장된 명령어를 판독하여 실행하여, 상기 네트워크 기기가 본 출원의 제1 측면 및 제2 측면 중 어느 하나의 임의의 구현에서 제공되는 방법의 단계를 구현하도록 한다. 가능한 설계에서, 상기 포트 검출 장치는 칩 또는 시스템 온 칩이다.
제12 측면에 따르면, 본 출원은 본 출원의 제1 측면 및 제2 측면 중 어느 하나의 구현에서 제공되는 방법에 따라 생성된 페이로드 비트스트림을 저장하는, 컴퓨터로 판독 가능한 저장 매체를 제공한다.
제13 측면에 따르면, 본 출원은 컴퓨터로 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램을 제공한다. 상기 컴퓨터 프로그램은 명령어를 포함하고, 상기 명령어가 실행될 때, 본 출원의 제1 측면 및 제2 측면 중 어느 하나의 구현에서 제공되는 방법이 구현된다.
도 1은 본 출원에 따른 통신 시스템의 아키텍처의 개략도이다.
도 2는 본 출원에 따른 다른 통신 시스템의 구성의 개략도이다.
도 3은 본 출원에 따른 인코딩 및 디코딩 기기의 구성의 개략도이다.
도 4는 본 출원에 따른 다른 인코딩 및 디코딩 기기의 구성의 개략도이다.
도 5는 본 출원에 따른 오디오 신호 인코딩 방법의 개략적인 흐름도이다.
도 6a는 본 출원의 실시예에 따른 타일 분할 방식의 개략도이다.
도 6b는 본 출원의 실시예에 따른 다른 타일 분할 방식의 개략도이다.
도 6c는 본 출원의 실시예에 따른 다른 타일 분할 방식의 개략도이다.
도 7은 본 출원에 따른 디코딩 방법의 개략적인 흐름도이다.
도 8은 본 출원에 따른 인코딩 기기의 구성의 개략도이다.
도 9는 본 출원에 따른 디코딩 기기의 구성의 개략도이다.
도 10은 본 출원에 따른 다른 인코딩 기기의 구성의 개략도이다.
도 11은 본 출원에 따른 다른 디코딩 기기의 구성의 개략도이다.
본 출원은 고품질 오디오 인코딩 및 디코딩을 구현하고 사용자 경험을 개선하기 위한 오디오 신호 인코딩 방법, 디코딩 방법, 인코딩 기기 및 디코딩 기기를 제공한다.
먼저, 본 출원에서 제공되는 오디오 신호 인코딩 방법 및 디코딩 방법은 데이터 송신이 존재하는 다양한 시스템에 적용될 수 있다.
예를 들어, 도 1은 본 출원에 따른 통신 시스템의 아키텍처의 개략도이다.
통신 시스템은 단말기 또는 서버와 같은 복수의 기기를 포함할 수 있고, 복수의 기기는 네트워크를 사용하여 연결될 수 있다.
네트워크는 유선 통신 네트워크 또는 무선 통신 네트워크일 수 있다. 예를 들어, 네트워크는 5세대 이동 통신 기술(5th-Generation, 5G) 시스템, 롱텀 에볼루션(long term evolution, LTE) 시스템, 이동 통신을 위한 글로벌 시스템(global system for mobile communication, GSM). 코드 분할 다중 액세스(code division multiple access, CDMA) 네트워크, 또는 광대역 코드 분할 다중 액세스(wideband code division multiple access, WCDMA) 네트워크일 수 있다. 네트워크는 대안적으로 다른 통신 네트워크 또는 통신 시스템, 예를 들어 무선 충실도(wireless fidelity, Wi-Fi) 또는 광역 네트워크일 수 있다.
하나 이상의 단말 기기, 예를 들어, 도 1에 도시된 단말기 1, 단말기 2 또는 단말기 3가 있을 수 있다. 구체적으로, 통신 시스템에서의 단말기는 머리에 장착하는 머리 장착형 디스플레이(Head-Mounted Display, HMD) 기기를 포함할 수 있다. 머리 장착형 디스플레이 기기는 VR 박스와 단말기의 조합일 수 있으며, 올인원(all-in-one) VR 머신, 개인용 컴퓨터(personal computer, PC) VR, 증강 현실(augmented reality, AR) 기기치, 혼합형 현실(mixed reality, MR) 기기 등일 수 있다. 단말기는 셀룰러 폰(cellular phone), 스마트폰(smartphone), 개인 정보 단말기(personal digital assistant, PDA), 태블릿 컴퓨터, 랩탑 컴퓨터(laptop computer), 개인용 컴퓨터(personal computer, PC), 또는 사용자 측에 배포된 컴퓨팅 기기를 더 포함할 수 있다.
하나 이상의 서버가 있을 수 있다. 통신 시스템에 복수의 서버가 있는 경우, 복수의 서버는 분산형 서버일 수 있거나, 중앙 집중형 서버일 수 있다. 이는 실제 적용 시나리오에 기초하여 구체적으로 조정될 수 있다. 이는 본 출원에서 한정되지 않는다.
구체적으로, 단말기, 서버 등은 인코딩 기기로 사용될 수 있거나 디코딩 기기로 사용될 수 있다. 단말기 또는 서버가 본 출원에서 제공하는 오디오 신호 인코딩 방법을 수행할 수 있거나, 본 출원에서 제공하는 디코딩 방식을 수행할 수도 있음을 이해할 수 있다. 물론, 인코딩 기기와 디코딩 기기는 대안적으로 서로 독립적인 장치일 수 있다. 예를 들어, 하나의 단말기가 인코딩 기기로 사용되고, 다른 단말기는 디코딩 기기로 사용될 수 있다.
보다 구체적으로, 도 2를 참조한다. 다음은 본 출원에서 제공되는 통신 시스템을 보다 구체적으로 설명하기 위해 두 개의 단말기를 예로 들어 설명한다.
단말기 1 및 단말기 2는 각각 오디오 캡처 모듈, 다중 사운드 채널 인코더, 채널 인코더, 채널 디코더, 다중 사운드 채널 디코더 및 오디오 재생 모듈을 포함할 수 있다.
이하에서는 단말기 1이 오디오 신호 인코딩 방법을 수행하고 단말기 2가 디코딩 방법을 수행하는 예를 간략하게 설명한다. 구체적인 실행 단계에 대해서는 도 4 또는 도 5에서의 다음 설명을 참조한다.
단말기 1의 오디오 캡처 모듈은 오디오 신호를 획득할 수 있다. 오디오 캡처 모듈은 센서, 마이크로폰, 카메라 또는 녹음기와 같은 기기를 포함할 수 있다. 또는 오디오 캡처 모듈은 다른 기기에 의해 전송되는 오디오 신호를 직접 수신할 수 있다.
오디오 신호가 다중 사운드 채널 신호이면, 다중 사운드 채널 인코더는 오디오 신호를 인코딩한다. 그 다음, 채널 인코더는 다중 채널 인코더에 의해 인코딩된 신호를 인코딩하여 인코딩된 비트스트림을 획득한다.
그 다음, 인코딩된 비트스트림은 통신 네트워크의 네트워크 기긱 1에 송신된다. 네트워크 기기 1은 인코딩된 비트스트림을 디지털 채널을 통해 네트워크 기기 2에 송신하고, 네트워크 기기 2는 인코딩된 비트스트림을 단말기 2에 송신한다. 네트워크 기기 1 또는 네트워크 기기 2는 예를 들어 라우터 또는 교환기와 같은, 통신 시스템의 포워딩 기기일 수 있다.
인코딩된 비트스트림을 수신한 후, 단말기 2는 인코딩된 비트스트림에 대해 채널 디코더를 사용하여 채널 디코딩을 수행하여 채널 디코딩 후에 획득된 신호를 획득한다.
그 다음, 다중 사운드 채널 디코더는 채널 디코딩 후에 획득된 신호에 대해 다중 사운드 채널 디코딩을 수행하여 오디오 신호를 획득한다. 오디오 재생 모듈은 오디오 신호를 재생할 수 있다. 오디오 재생 모듈은 스피커 또는 헤드셋과 같은 기기를 포함할 수 있다.
또한, 단말기 2의 오디오 캡처 모듈은 대안적으로 오디오 신호를 캡처할 수 있다. 인코딩된 비트스트림은 다중 사운드 채널 인코더와 채널 인코더를 사용함으로써 획득되고, 인코딩된 비트스트림은 통신 네트워크를 사용하여 단말기 1에 전송된다. 그 다음, 단말기 1의 채널 디코더 및 다중 사운드 채널 디코더는 디코딩을 수행하여 오디오 신호를 획득하고, 단말기 1의 오디오 재생 모듈은 오디오를 재생한다.
다른 시나리오에서, 통신 시스템의 인코딩 기기는 오디오 캡처 및 오디오 재생 기능을 갖지 않는 포워딩 기기일 수 있다. 예를 들어, 도 3은 본 출원에 따른 인코딩 기기의 구성의 개략도이다. 인코딩 기기는 채널 디코더(301), 오디오 디코더(302), 다중 사운드 채널 인코더(303), 및 채널 인코더(304)를 포함할 수 있다. 인코딩된 비트스트림이 수신되는 경우, 채널 디코더(301)는 인코딩된 비트스트림에 대해 채널 디코딩을 수행하여 채널 디코딩된 신호를 획득할 수 있다. 그 다음, 오디오 디코더(302)는 채널 디코딩된 신호에 대해 오디오 디코딩을 수행하여 오디오 신호를 획득한다. 그 다음, 다중 사운드 채널 인코더(303)는 오디오 신호에 대해 다중 채널 인코딩을 수행하여 다중 사운드 채널 인코딩된 신호를 획득한다. 마지막으로, 채널 인코더(304)는 다중 사운드 채널 인코딩된 신호에 대해 채널 인코딩을 수행하여 업데이트된 인코딩된 비트스트림을 획득하고, 업데이트된 인코딩된 비트스트림을 다른 기기에 전송하여 인코딩된 비트스트림의 포워딩을 완료한다.
상이한 시나리오에서는, 사용되는 인코더 및 디코더의 유형도 상이할 수 있다. 예를 들어, 도 4에 도시된 바와 같이, 인코딩된 비트스트림이 수신되고 채널 디코더(401)가 인코딩된 비트스트림을 디코딩하여 채널 디코딩된 신호를 획득한 후, 다중 사운드 채널 디코더(402)는 채널 디코딩된 신호에 대해 다중 사운드 채널 디코딩을 수행하여 오디오 신호를 복원한다. 그 다음, 오디오 인코더(403)는 오디오 신호를 인코딩하고, 채널 인코더(404)는 오디오 인코더(403)에 의해 인코딩된 데이터에 대해 채널 인코딩을 수행하여 업데이트된 인코딩된 비트스트림을 획득한다.
또한, 다중 사운드 채널 오디오 신호의 시나리오가 위에서 설명되었다. 다중 사운드 채널은 대안적으로 스테레오 신호, 이중 채널 신호 등일 수 있다. 스테레오 신호가 예로 사용된다. 다중 사운드 채널 오디오 신호는 대안적으로 스테레오 신호일 수 있고, 다중 사운드 채널 인코더는 대안적으로 스테레오 인코더일 수 있거나, 다중 사운드 채널 디코더는 대안적으로 스테레오 디코더일 수 있다.
다음은 특정 시나리오를 예로 사용하여 오디오 신호 인코딩 프로세스를 설명한다. 3차원 오디오는 사용자에게 더 나은 몰입 경험을 제공할 수 있기 때문에 오디오 서비스 개발의 새로운 트렌드가 되었다. 3차원 오디오는 복수의 사운드 채널을 포함하는 오디오로 이해될 수 있다. 3차원 오디오 서비스를 구현하기 위해, 압축 및 인코딩이 필요한 원본 오디오 신호 포맷은 사운드 채널 기반 오디오 신호 포맷, 객체 기반 오디오 신호 포맷, 장면 기반 오디오 신호 포맷, 및 임의의 세 가지 오디오 신호 포맷의 하이브리드 신호 포맷으로 분류될 수 있다. 전술한 포맷의 오디오 신호의 경우, 오디오 인코더에 의해 압축 및 인코딩되어야 하는 오디오 신호는 복수의 신호 채널을 포함하며, 복수의 신호 채널은 또한 복수의 채널로 이해될 수 있다. 일반적으로, 오디오 인코더는 채널들 간의 상관에 기초하여 복수의 신호를 다운믹싱하여 다운믹싱된(downmixed) 신호 및 다중 채널 인코딩 파라미터를 획득한다. 일반적으로 다운믹싱된 신호에 포함된 채널 수량은 입력 오디오 신호의 채널 수량보다 훨씬 적다. 예를 들어, 다중 채널 신호는 스테레오 신호로 다운믹싱될 수 있다. 그 다음, 다운믹싱된 신호가 인코딩된다. 스테레오 신호는 모노포닉 신호(monophonic signal)와 스테레오 인코딩 파라미터로 추가로 다운믹싱되고, 다운믹싱된 모노 신호가 인코딩될 수 있다. 다운믹싱된 신호 및 다중 채널 인코딩 파라미터를 인코딩하는 데 사용되는 비트의 수량은 입력 다중 채널 신호를 독립적으로 인코딩하는 것보다 훨씬 적다. 따라서, 인코더의 작업부하 및 인코딩 이후에 획득되는 인코딩된 비트스트림의 데이터 볼륨이 감소될 수 있고, 송신 효율이 향상될 수 있다.
또한, 코딩 비트 레이트를 감소시키기 위해, 일반적으로 상이한 주파수 대역의 신호 간의 상관이 코딩에 추가로 사용된다. 인코딩 기기는 저주파 대역 신호와, 저주파 대역 신호와 고주파 대역 사이의 상관 데이터를 인코딩하여 비교적 적은 수량의 비트를 사용하여 고주파 대역 신호를 인코딩으로써, 전체 인코딩 기기의 인코딩 비트 레이트를 감소시킨다. 예를 들어, 3세대 파트너십 프로젝트(3rd generation partnership project, 3GPP)에서 향상된 음성 서비스(Enhanced Voice Service, EVS) 코더/디코더 또는 또는 동영상 전문가 그룹(moving picture experts group, MPEG) 코더/디코더의 코딩 프로세스에서, 서로 다른 주파수 대역의 신호 간의 상관관계가 사용되고, 대역폭 확장 기술 또는 스펙트럼 대역 복제 기술이 고주파 대역 신호를 코딩하는 데 사용된다. 그러나 실제 오디오 신호에서, 저주파 대역의 스펙트럼에서의 음조 성분과 유사하지 않은 일부 음조 성분이 일반적으로 고주파 대역의 스펙트럼에 존재한다. 유사하지 않은 음조 성분을 인코딩하거나 재구축하지 않으면, 오디오 및 비디오의 인코딩 및 디코딩 품질이 떨어질 수 있다.
따라서, 본 출원은 오디오 신호의 인코딩 및 디코딩 품질을 개선하기 위한 오디오 신호 인코딩 방법 및 디코딩 방법을 제공한다. 저주파 대역 스펙트럼에서의 음조 성분과 유사하지 않은 음조 성분이 고주파 대역 스펙트럼에 존재하는 시나리오에서도 고품질의 인코딩된 비트스트림이 획득될 수 있다. 따라서 디코더 측은 디코딩을 통해 고품질 오디오 신호를 획득할 수 있다. 이는 사용자 경험을 향상시킨다.
다음은 본 출원에서 제공되는 오디오 신호 인코딩 방법 및 디코딩 방법을 개별적으로 상세히 설명한다.
먼저, 본 출원에서 제공되는 오디오 신호 인코딩 방법이 설명된다. 도 5는 본 출원에 따른 오디오 신호 인코딩 방법의 개략적인 흐름도이다. 세부 사항은 다음과 같다:
501: 오디오 신호의 현재 프레임을 획득한다.
현재 프레임은 오디오 신호에서의 임의의 프레임일 수 있고, 현재 프레임은 고주파 대역 신호 및 저주파 대역 신호를 포함할 수 있으며, 고주파 대역 신호의 주파수는 저주파 대역 신호의 주파수보다 높다. 고주파 대역 신호와 저주파 대역 신호로의 분할은 주파수 대역 임계값을 사용하여 결정될 수 있다. 주파수 대역 임계값보다 높은 신호는 고주파 대역 신호이고, 주파수 대역 임계값보다 낮은 신호는 저주파 대역 신호이다. 주파수 대역 임계값은 송신 대역폭 및 인코더 또는 디코더의 처리 능력에 기초하여 결정될 수 있다. 이는 본 출원에서 한정되지 않는다.
고주파 대역 신호와 저주파 대역 신호는 상대적이다. 예를 들어, 어느 하나의 주파수(즉, 주파수 대역 임계값)보다 낮은 신호는 저주파 대역 신호이고, 어느 하나의 주파수보다 높은 신호는 고주파 대역 신호이다(주파수에 그 주파수에 대응하는 신호는 저주파 대역 또는 고주파 대역 신호로 분류될 수 있다). 주파수는 현재 프레임의 대역폭에 따라 달라진다. 예를 들어, 현재 프레임이 0kHz 내지 8kHz의 광대역 신호인 경우, 주파수는 4kHz일 수 있고; 현재 프레임이 0kHz 내지 16kHz의 초광대역 신호인 경우, 주파수는 8kHz일 수 있다.
본 출원의 이 실시예에서 오디오 신호는 복수의 프레임을 포함할 수 있음을 유의해야 한다. 예를 들어, 현재 프레임은 구체적으로 오디오 신호에서의 어느 하나의 프레임을 가리킬 수 있다. 본 출원의 이 실시예에서, 오디오 신호의 현재 프레임의 인코딩 및 디코딩이 설명을 위한 예로 사용된다. 오디오 신호에서 현재 프레임의 이전 프레임 또는 다음 프레임은 오디오 신호의 현재 프레임의 인코딩 및 디코딩 방식에 기초하여 상응하게 인코딩 및 디코딩될 수 있다. 오디오 신호에서 현재 프레임의 이전 프레임 또는 다음 프레임의 인코딩 과정과 디코딩 프로세스는 일일이 설명하지 않는다. 또한, 본 출원의 이 실시예에서 오디오 신호는 모노포닉 오디오 신호일 수 있거나 스테레오 신호일 수 있다(또는 다중 사운드 채널 신호일 수 있음). 스테레오 신호는 오리지널 스테레오 신호일 수 있고, 다중 사운드 채널 신호에 포함된 2채널의 신호(좌측 사운드 채널 신호 및 우측 사운드 채널 신호)을 포함하는 스테레오 신호일 수 있거나, 다중 사운드 채널 신호에 포함된 신호의 적어도 3개 채널에 의해 생성된 2채널의 신호를 포함하는 스테레오 신호일 수 있다. 이는 본 출원의 이 실시예에서 한정되지 않는다.
본 출원의 이 구현에서, 오디오 신호는 다중 채널(multi-chan) 신호일 수 있거나 단일 채널 신호일 수 있다는 점에 추가로 유의해야 한다. 오디오 신호가 다중 채널 신호인 경우, 각 채널의 신호가 인코딩될 수 있다. 본 출원의 이 구현에서, 하나의 채널(이하 현재 채널이라 함)의 신호의 인코딩 프로세스만이 설명을 위한 예로서 사용된다. 실제 적용 시에, 오디오 신호의 각 채널에 대해 다음 단계 502 내지 506이 수행될 수 있다. 본 출원에서는 반복되는 단계를 다시 설명하지 않는다. 본 출원에서 사운드 채널은 대안적으로 채널로 대체될 수 있음을 이해해야 한다. 예를 들어, 전술한 다중 채널은 대안적으로 다중 채널로 대체될 수 있다. 이해의 편의를 위해, 다음 구현에서는 다중 채널을 채널이라고 한다.
502: 고주파 대역 신호, 저주파 대역 신호, 및 대역폭 확장의 미리 설정된 구성 정보에 기초하여 현재 프레임의 대역폭 확장 파라미터를 획득한다.
고주파 대역 신호 및 저주파 대역 신호를 인코딩하는 프로세스에서, 고주파 대역은 복수의 타일로 분할될 수 있다. 대역폭 확장의 파라미터는 타일 단위로 결정될 수 있다. 즉, 각 타일은 대역폭 확장의 파라미터를 갖는다.
구체적으로, 대역폭 확장의 파라미터는 상이한 시나리오에서 상이한 파라미터를 포함할 수 있다. 구체적으로, 대역폭 확장의 파라미터에 구체적으로 포함되는 파라미터는 실제 적용 시나리오에 기초하여 결정될 수 있다. 예를 들어, 시간 도메인 대역폭 확장 시나리오에서, 대역폭 확장의 파라미터는 고주파 대역 선형 예측 코딩(linear predictive coding, LPC) 파라미터, 고주파 대역 이득, 필터링 파라미터 등을 포함할 수 있다. 주파수 도메인 대역폭 확장 시나리오에서, 대역폭 확장의 파라미터는 시간 도메인 포락선(time domain envelope) 또는 주파수 도메인 포락선(frequency domain envelope)과 같은 파라미터를 더 포함할 수 있다.
대역폭 확장의 구성 정보는 미리 구성된 정보일 수 있으며, 구체적으로 인코더 또는 디코더의 데이터 처리 능력에 기초하여 결정될 수 있다. 가능한 구현에서, 대역폭 확장의 구성 정보는 대역폭 확장 상한, 제2 수량 등을 포함할 수 있다. 제2 수량은 대역폭 확장이 수행되는 타일의 수량이다. 구체적으로, 대역폭 확장에 대응하는 제2 주파수 범위는 대역폭 확장 상한 또는 제2 수량을 사용하여 지시될 수 있다. 예를 들어, 제2 주파수 범위의 주파수 하한은 일반적으로 고정될 수 있으며, 예를 들어 단계 501에서의 주파수 대역 임계값이다. 제2 주파수 범위의 주파수 상한은 대역폭 확장 상한을 사용하여 지시될 수 있으므로, 제2 주파수 범위는 결정된 주파수 하한 및 결정된 주파수 상한에 기초하여 결정될 수 있다. 다른 예로, 구성 정보가 제2 수량을 포함하면, 일반적으로 제2 주파수 범위의 주파수 하한은 고정될 수 있으며, 예를 들어 단계 501에서의 주파수 대역 임계값이다. 이 경우, 제2 주파수에 대응하는 타일의 경계는 미리 설정된 표를 사용하여 제2 주파수 범위를 결정하기 위해 조회될 수 있다.
구체적으로, 대역폭 확장의 구성 정보에 포함된 대역폭 확장 상한은 다음 중 하나 이상을 포함할 수 있지만 이에 한정되지 않는다: 최고 주파수의 값, 최고 빈 인덱스, 최고 주파수 대역 인덱스 또는 제2째 주파수 범위에서의 최고 타일 인덱스이다. 제2 주파수 범위에서의 최고 빈 인덱스는 제2 주파수 범위에서 최고 주파수가 위치하는 빈의 인덱스이고, 최고 주파수 대역 인덱스는 제2 주파수 범위에서 최고 주파수가 위치하는 주파수 대역의 인덱스이다. 최고 타일 인덱스는 제2 주파수 범위에서 최고 주파수가 위치하는 타일의 인덱스이다. 최고 빈 인덱스, 최고 주파수 대역 인덱스 및 최고 타일 인덱스는 주파수의 값이 증가함에 따라 증가할 수 있다. 예를 들어, 보다 낮은 주파수가 위치하는 빈의 인덱스는 보다 높은 주파수가 위치하는 빈의 인덱스보다 작고, 보다 낮은 주파수가 위치하는 주파수 대역의 인덱스는 보다 높은 주파수가 위치하는 주파수 대역의 인덱스보다 작고, 보다 낮은 주파수가 위치하는 타일의 인덱스는 보다 주파수가 위치하는 타일의 인덱스보다 작다. 빈, 주파수 대역 또는 타일의 수량은 미리 설정된 시퀀스에 따라 번호가 매겨질 수도 있고, 각각의 빈, 주파수 대역 또는 타일에는 고정된 번호가 할당될 수 있음에 유의해야 한다. 이는 실제 적용 시나리오에 기초하여 구체적으로 조정될 수 있다. 이는 본 출원에서 한정되지 않는다.
또한, 고주파 대역 신호, 저주파 대역 신호 및 대역폭 확장의 구성 정보에 기초하여, 현재 프레임의 대역폭 확장의 파라미터 외에, 고주파 대역 신호 또는 저주파 대역 신호의 인코딩 파라미터가 획득될 수 있다. 예를 들어, 시간 도메인 잡음 성형 파라미터(noise shaping parameter), 주파수 도메인 잡음 성형 파라미터, 또는 고주파 대역 신호 또는 저주파 대역 신호의 스펙트럼 양자화 파라미터가 획득될 수 있다. 시간 도메인 잡음 성형 파라미터 및 주파수 도메인 잡음 성형 파라미터는 인코딩될 스펙트럼 계수를 전처리하는 데 사용된다. 이것은 스펙트럼 계수의 양자화 인코딩 효율을 향상시킨다. 스펙트럼 양자화 파라미터는 양자화된 스펙트럼 계수, 대응하는 이득 파라미터 등이다.
503: 타일 정보를 획득한다.
타일 정보는 현재 프레임의 고주파 대역 신호의 제1 주파수 범위를 지시한다.
본 출원의 이 구현에서, 음조 성분 검출이 수행되어야 하는 주파수 범위는 제1 주파수 범위로 지칭되고, 구성 정보에 의해 지시되는 대역폭 확장에 대응하는 주파수 범위는 제2 주파수 범위로 지시되며, 제1 주파수 범위의 주파수 하한은 제2 주파수 범위의 주파수 하한과 동일하다. 세부사항은 이하에서 다시 설명하지 않는다.
가능한 구현에서, 타일 정보는 제1 수량, 식별 정보, 관계 정보, 변경된 타일의 수량 등 중 하나 이상을 포함한다.
제1 수량은 제1 주파수 범위에 있는 타일의 수량이다.
본 출원에서, 주파수 범위는 주파수 영역들(타일들)로 분할될 수 있음을 유의해야 한다. 각각의 타일은 미리 설정된 주파수 대역 분할 방식으로 적어도 하나의 주파수 대역으로 더 분할될 수 있으며, 하나의 주파수 대역은 하나의 스케일 팩터 밴드(scale factor band, SFB)로 이해될 수 있다. 예를 들어, 타일은 1kHz 단위로 분할된 다음, 주파수 대역이 각각의 타일에서 200Hz 단위로 분할될 수 있다. 서로 다른 타일에 대응하는 주파수 폭은 동일하거나 상이할 수 있고, 서로 다른 주파수 대역에 대응하는 주파수 폭은 동일하거나 상이할 수 있음을 이해할 수 있다.
식별 정보는 제1 주파수 범위가 대역폭 확장에 대응하는 제2 주파수 범위와 동일한지를 지시한다. 예를 들어, 식별 정보가 0을 포함하면, 제1 주파수 범위가 제2 주파수 범위와 다르다는 것을 지시한다. 식별 정보가 1을 포함하면, 제1 주파수 범위가 제2 주파수 범위와 동일함을 지시한다.
관계 정보는 제1 주파수 범위와 제2 주파수 범위 사이의 값 관계를 나타낸다. 예를 들어, 2비트는 제1 주파수 범위와 제2 주파수 범위 사이의 값 관계, 예를 들어 동일한 관계, 증가 관계 또는 감소 관계를 지시할 수 있다. 예를 들어, 관계 정보가 00을 포함하면, 제1 주파수 범위와 제2 주파수 범위가 동일함을 지시한다. 관계 정보가 01을 포함하면, 제1 주파수 범위가 제2 주파수 범위보다 크다는 것을 지시한다. 관계 정보가 10을 포함하는 경우, 제1 주파수 범위가 제2 주파수 범위보다 작다는 것을 지시한다.
변경된 타일의 수량은 제1 주파수 범위와 제2 주파수 범위 사이에 차이가 있는 타일의 수량이다. 예를 들어, 변경된 타일의 수량의 범위는 [-N, N]일 수 있으며, 여기서 N은 제1 주파수 범위가 제2 주파수 범위보다 N개 더 많은 타일을 가짐을 지시하고, -N은 제1 주파수 범위가 제2 주파수 범위보다 N개 더 적은 타일을 가짐을 지시한다.
일반적으로, 실제 적용 시나리오에서, 타일 정보는 적어도 제1 수량을 포함한다. 선택적으로, 타일 정보는 식별 정보, 관계 정보 또는 변경된 타일의 수량 중 하나 이상을 더 포함하지만 이에 한정되지 않는다.
또한, 타일 정보를 사용하여 제1 주파수 범위를 지시하는 것은 다음과 같이 이해될 수 있다: 타일 정보가 제1 수량을 포함하면, 제1 수량의 타일에서 각각의 타일의 경계, 즉 각각의 타일에 의해 커버되는 주파수 범위는 미리 설정된 표를 조회함으로써 결정될 수 있다. 제1 수량의 타일에서의 제1 타일의 하부 경계(lower boundary)는 대역폭 확장이 수행되는 제2 주파수 범위의 하부 경계이다. 제1 수량의 타일이 주파수 도메인에서 연속적인 경우, 제1 주파수 범위는 대안적으로 첫 번째 타일의 하부 경계 및 마지막 타일의 상부 경계(upper boundary)에만 기초하여 결정될 수 있음을 이해할 수 있다.
또한, 타일 정보가 식별 정보를 포함하는 경우, 식별 정보가 제1 주파수 범위가 제2 주파수 범위와 동일함을 지시하면, 제2 주파수 범위는 제1 주파수 범위로 사용될 수 있다. 식별 정보가 제1 주파수 범위와 제2 주파수 범위가 다르다는 것을 지시하면, 관계 정보에 기초하여 제1 주파수 범위와 제2 주파수 범위 사이의 값 관계가 결정될 수 있다. 예를 들어, 제1 주파수 범위가 제2 주파수 범위보다 크거나, 제2 주파수 범위가 제1 주파수 범위보다 크다. 물론, 식별 정보가 제1 주파수 범위가 제2 주파수 범위와 동일함을 지시하면, 타일 정보는 또한 관계 정보를 포함할 수 있다. 이 경우, 관계 정보는 대안적으로 제1 주파수 범위가 제2 주파수 범위와 동일함을 지시할 수 있다. 식별 정보 또는 관계 정보에 기초하여 제1 주파수 범위가 제2 주파수 범위와 다르다고 판정되는 경우, 관계 정보에 기초하여 제1 주파수 범위와 제2 주파수 범위 사이의 값 관계가 결정될 수 있다. 그 다음, 변경된 타일의 수량에 기초하여 제1 주파수 범위와 제2 주파수 범위 사이의 서로 다른 주파수 범위에 있는 타일 수량을 결정한다. 이 다음, 표 검색(table lookup) 또는 미리 설정된 대역폭 계획과 같은 미리 설정된 방식으로 제1 주파수 범위의 특정 범위가 결정된다. 예를 들어, 제1 주파수 범위와 제2 주파수 범위가 다르면, 관계 정보에 기초하여 제1 주파수 범위와 제2 주파수 범위 중 어느 주파수 범위가 더 큰지를 결정할 수 있다. 예를 들어, 제1 주파수 범위가 제2 주파수 범위보다 크면, 제1 주파수 범위와 제2 주파수 범위의 중첩되지 않은 부분의 타일의 수량에 기초하여 미리 설정된 표가 조회되거나, 미리 설정된 대역폭에 기초하여 분할이 수행되어, 제1 주파수 범위와 제2 주파수 범위의 중첩되지 않은 부분의 경계를 획득한다. 따라서 제1 주파수 범위에 의해 커버되는 정확한 주파수 범위가 결정된다.
구체적으로, 타일 정보를 획득하는 복수의 방식이 있으며, 이에 대해서는 아이하에 개별적으로 설명한다.
방식 1: 타일 정보는 오디오 신호의 샘플링 주파수와 대역폭 확장의 미리 설정된 구성 정보에 기초하여 결정된다.
타일 정보는 적어도 제1 수량을 포함하고, 오디오 신호의 적어도 하나의 채널이 있다. 다음은 단계 503을 설명하기 위한 예로서 적어도 하나의 채널 중의 현재 채널을 사용한다. 단계 503은 구체적으로 , 현재 프레임의 인코딩 레이트, 오디오 신호의 채널의 수량, 샘플링 주파수, 대역폭 확장 상한 또는 제2 수량 중 하나 이상에 기초하여 제1 수량의 현재 채널을 결정한다.
구체적으로, 제1 수량은 현재 채널의 제1 결정 식별자에 기초하여 결정될 수 있거나, 또는 제1 수량은 제2 결정 식별자에 기초하여 결정될 수 있거나, 또는 제1 수량은 현재 채널의 제1 결정 식별자 및 제2 결정 식별자에 기초하여 결정될 수 있다. 그 전에, 현재 프레임의 채널 각각의 제1 결정 식별자는 현재 프레임의 인코딩 레이트 및 채널의 수량에 기초하여 결정될 수 있으며, 여기서 제1 결정 식별자는 현재 채널의 제1 결정 식별자를 포함한다. 대안적으로, 제2 결정 식별자는 샘플링 주파수 및 대역폭 확장 상한에 기초하여 결정된다. 현재 프레임의 인코딩 레이트는 현재 프레임에 있는 모든 채널의 총 인코딩 레이트이다.
더 구체적으로, 현재 채널의 제1 결정 식별자를 획득하는 특정 방식은 다음 중 하나 이상을 포함할 수 있지만 이에 한정되지 않는다:
1. 현재 프레임에서의 채널 각각의 평균 인코딩 레이트는 현재 프레임의 인코딩 레이트 및 채널의 수량에 기초하여 획득되고, 평균 인코딩 레이트는 제1 임계값과 비교되어 현재 채널의 제1 결정 식별자가 획득된다. 예를 들어, 각각의 채널의 평균 인코딩 레이트는 현재 프레임의 인코딩 레이트를 채널의 수량으로 나누어 구할 수 있다. 평균 인코딩 레이트는 제1 임계값과 비교되고, 현재 채널의 제1 결정 식별자는 비교 결과에 기초하여 획득된다. 예를 들어, 평균 인코딩 레이트가 24kbps(즉, 초당 24,000비트)보다 높은 경우(즉, 제1 임계값, 32kbps 또는 128kbps와 같은 다른 값일 수 있음), 현재 채널의 제1 결정 식별자는 1로 결정된다. 평균 인코딩 레이트가 24kbps보다 높지 않은 경우, 현재 채널의 제1 결정 식별자는 0으로 결정된다.
2. 현재 프레임에서의 채널 각각의 실제 인코딩 레이트는 현재 프레임의 인코딩 레이트 및 채널의 수량에 기초하여 결정되고, 각각의 채널의 실제 인코딩 레이트는 제2 임계값과 비교되어 각각의 채널의 제1 결정 식별자가 획득된다. 실제 인코딩 레이트는 현재 프레임의 총 인코딩 레이트에 기초하여 채널 각각에 할당될 수 있음을 이해할 수 있다. 각각의 채널의 제1 결정 식별자는 각각의 채널의 실제 인코딩 레이트를 제2 임계값과 비교함으로써 획득될 수 있다. 각각의 채널의 실제 인코딩 레이트를 결정하는 방식으로는 복수의 방식을 포함할 수 있다. 예를 들어, 인코딩 레이트는 각각의 채널에 무작위로 할당될 수 있다. 대안적으로, 각각의 채널의 데이터 크기에 따라 각각의 채널에 인코딩 레이트가 할당될 수 있다. 채널의 데이터 볼륨이 클수록 할당된 인코딩 레이트가 커진다. 대안적으로, 인코딩 레이트는 고정된 방식으로 각각의 채널에 할당될 수 있다. 구체적인 할당 방식은 실제 적용 시나리오에 기초하여 조정될 수 있다. 예를 들어, 현재 오디오 신호의 총 가용 인코딩 레이트(즉, 현재 프레임의 인코딩 레이트)가 256kbps이고, 오디오 신호가 3개 채널, 예를 들어 채널 1, 채널 2, 채널 3을 가지면, 인코딩 레이트는 3개의 채널에 할당될 수 있다. 예를 들어 채널 1에 192kbps가 할당되고, 채널 2에 44kbps가 할당되고, 채널 3에 20kbps가 할당된다. 그 다음, 각 채널의 실제 인코딩 레이트가 64kbps(즉, 제2 임계값)과 비교된다. 현재 채널의 실제 인코딩 레이트가 64kbps보다 높은 경우, 현재 채널의 제1 결정 식별자의 값은 1로 결정된다. 현재 채널의 실제 인코딩 레이트가 64kbps보다 높지 않은 경우, 현재 채널의 제1 결정 식별자는 0으로 결정된다. 획득된 채널 1의 제1 결정 식별자의 값은 1이고, 채널 2 및 채널 3의 제1 결정 식별자의 값은 0이다.
보다 구체적으로, 현재 채널의 제2 결정 식별자를 획득하는 구체적인 방식은 다음을 포함할 수 있다: 대역폭 확장 상한이 최고 주파수의 값을 포함하는 경우, 대역폭 확장 상한에 포함된 최고 주파수의 값이 오디오 신호의 최고 주파수의 값과 동일한지를 비교하여 제2 결정 식별자를 결정하며, 여기서 오디오 신호의 최고 주파수는 일반적으로 샘플링 주파수의 절반이고, 물론 샘플링 주파수는 대안적으로 최고 주파수의 2배보다 높게 설정될 수 있다. 또는 대역폭 확장 상한이 최고 주파수 대역 인덱스를 포함하는 경우, 대역폭 확장 상한에 포함된 최고 주파수 대역 인덱스가 오디오 신호의 최고 주파수 대역 인덱스와 동일한지를 비교하여 제2 결정 식별자를 결정하며, 여기서 오디오 신호의 최고 주파수 대역 인덱스는 샘플링 주파수에 기초하여 결정되고, 오디오 신호의 최고 주파수 대역 인덱스는 오디오 신호의 최고 주파수가 위치하는 주파수 대역의 인덱스일 수 있다. 또한, 대안적으로 제2 결정 식별자는 대역폭 확장 상한에 포함된 최고 빈 인덱스가 오디오 신호의 최고 빈 인덱스와 동일한지를 비교하거나 대역폭에 포함된 최고 타일 인덱스가 오디오 신호의 최고 타일 인덱스와 동일한지를 비교함으로써 결정될 수 있다.
또한, 대역폭 확장 상한에 포함된 데이터의 유형이 획득된 오디오 신호의 최고 주파수의 데이터의 유형과 다른 경우, 대역폭 확장 상한에 포함된 데이터와 획득된 오디오 신호의 최고 주파수의 데이터는 동일한 유형으로 변환될 수 있고, 그 다음 동일한 유형의 데이터를 비교하여 제2 결정 식별자를 획득한다. 예를 들어, 대역폭 확장 상한이 최고 주파수의 값을 포함하고, 오디오 신호의 최고 빈 인덱스가 획득되는 경우, 오디오 신호의 최고 빈 인덱스에 대응하는 최고 주파수의 값이 결정될 수 있고, 대역폭 확장 상한에 포함된 최고 주파수의 값은 오디오 신호에 대응하는 최고 주파수의 결정된 값과 비교되어 제2 결정 식별자가 획득된다.
제2 결정 식별자를 결정하는 구체적인 방식은, 예를 들어 대역폭 확장 상한에 포함된 최고 주파수의 값이 오디오 신호의 최고 주파수와 동일하면, 제2 결정 식별자의 값이 0일 수 있고; 그렇지 않으면 제2 결정 식별자의 값은 1이다. 다른 예를 들어, 대역폭 확장 상한에 대응하는 주파수 대역 인덱스는 오디오 신호의 최고 주파수 대역 인덱스와 비교된다. 대역폭 확장 상한에 포함된 최고 주파수 대역 인덱스가 오디오 신호의 최고 주파수 대역 인덱스와 동일한 경우, 제2 결정 식별자의 값은 0일 수 있고; 그렇지 않으면, 제2 결정 식별자의 값은 1이다. 일반적으로, 대역폭 확장 상한에 대응하는 최고 주파수는 오디오 신호의 최고 주파수를 초과하지 않는다.
또한, 제1 수량을 결정하는 구체적인 방식은 다음을 포함할 수 있다:
현재 채널의 제1 결정 식별자 및 제2 결정 식별자 모두가 미리 설정된 조건을 충족하면, 현재 채널의 제1 수량으로서 제2 수량에 하나 이상의 타일을 추가한다. 추가 타일의 구체적인 수량은 실제 적용 시나리오에 기초하여 조정될 수 있다. 구체적으로, 미리 설정된 조건은 다음 일 수 있다: 현재 채널의 평균 인코딩 레이트가 제1 임계값보다 크거나, 현재 채널의 실제 인코딩 레이트가 제2 임계값보다 크고; 대역폭 확장 상한에 포함된 최고 주파수 대역 인덱스가 오디오 신호의 최고 주파수 대역 인덱스와 같지 않거나, 대역폭 확장 상한에 포함된 최고 주파수 대역 인덱스가 오디오 신호의 최고 주파수 대역 인덱스와 같지 않거나, 또는 대역폭 확장 상한에 포함된 최고 빈 인덱스가 오디오 신호의 최고 빈 인덱스와 같지 않다.
예를 들어, 추가된 타일의 수량은 오디오 신호의 최고 주파수와 대역폭 확장 상한 사이의 차이에 기초하여 결정될 수 있고, 제1 주파수 범위의 주파수 상한이 대역폭 확장 상한에 대응하는 최고 주파수보다 높도록, 오디오 신호의 최고 주파수와 대역폭 확장 상한 사이의 차이는 하나 이상의 타일로 분할된다. 이러한 방식으로 고주파 대역 신호에서 더 많은 음조 성분에 관한 정보를 검출할 수 있다. 구체적으로, 예를 들어, 전술한 미리 설정된 조건은 제1 결정 식별자 및 제2 결정 식별자가 모두 1인 것일 수 있다. 현재 채널의 제1 결정 식별자 및 제2 결정 식별자가 모두 1이면, 하나 이상의 타일이 제2 수량에 추가되어 현재 채널의 제1 수량이 획득된다. 추가된 하나 이상의 타일은 제1 주파수 범위의 부분으로서 대역폭 확장 상한보다 높은 부분을 미리 설정된 분할 방식으로 분할하여 획득될 수 있다.
제1 결정 식별자 및 제2 결정 식별자 중 적어도 하나가 미리 설정된 조건을 충족하지 않으면, 제2 수량이 제1 수량으로 사용된다. 오디오 신호의 최고 주파수가 제2 주파수 범위에 있는 경우, 제2 주파수 범위를 직접 제1 주파수 범위로 사용하고, 제1 주파수 범위에서 음조 성분 검출을 수행할 수 있음을 이해할 수 있다. 대안적으로, 고주파 대역 신호에서 음조 성분의 보다 포괄적인 검출이 구현될 수 있다.
이해의 편의를 위해, 다음은 구체적인 적용 시나리오를 예로 사용하여 현재 채널의 제1 수량을 결정하는 결정 방식의 예를 설명한다.
일반적으로, 현재 채널의 제1 수량을 획득하기 위해 제2 수량에 추가 타일(tile)을 추가할지 여부는 다음 두 조건에 의해 함께 결정될 수 있다.
1. 오디오 신호의 전체 인코딩 레이트가 비교적 낮은 경우, 추가 타일에 의해 도입된 비트 소비가 인코딩 효과에 부정적인 영향을 미칠 수 있고, 인코딩 효율 또는 인코딩 품질이 저하될 수 있다. 따라서, 각 채널(channel)의 인코딩 레이트에 기초하여 추가 타일이 추가될 필요가 있는지가 먼저 선택될 수 있다. 인코더의 총 레이트는 bitrate_tot라고 가정하고 채널의 수량은 n_channels라고 가정한다. 이 경우, 각각의 채널의 비트 수량은 bitrate_ch = bitrate_tot/n_channels이다. 대안적으로 각각의 채널에 bitrate_tot를 개별적으로 할당하여 bitrate_ch를 획득할 수도 있다. bitrate_ch는 미리 설정된 제1 임계값과 비교된다. bitrate_ch가 제1 임계값을 초과하면, flag_addTile(즉, 제1 결정 식별자) 플래그가 1로 설정되고; 그렇지 않으면 flag_addTile이 0으로 설정된다.
2. 지능형 갭 채움(IGF, Intelligent Gap Filling)과 같은 대역폭 확장 처리를 통해 획득된 정지 SFB 인덱스와 SFB의 총 수량을 비교하여, IGF에 대응하는 주파수 범위가 오디오 신호의 전체 주파수 대역을 커버할 수 있는지를 판정할 수 있다. IGF에 대응하는 주파수 범위가 오디오 신호의 전체 주파수 대역을 커버할 수 없으면, 하나 이상의 타일이 추가된다.
전술한 두 가지 조건을 참조하여 타일 추가 여부를 결정하는 방식은 다음과 같다:
Figure pct00001
igfStopSfb는 IGF 정지 SFB 인덱스이고, nr_of_sfb_long은 SFB의 총 수량이고, flag_addTile은 첫 번째 결정하는 플래그이며, num_tiles는 IGF 주파수 대역에 있는 타일 수량이며, num_tiles_detect는 음조 성분 검출이 수행되는 타일의 수량이다.
가능한 구현에서, 제1 주파수 범위에 있는 타일의 수량은 대안적으로 미리 설정된 수량일 수 있다. 구체적으로, 미리 설정된 수량은 사용자에 의해 결정될 수있거나, 경험적 값에 기초하여 결정될 수도 있다. 이는 실제 적용 시나리오에 기초하여 구체적으로 조정될 수 있다.
선택적으로, 제1 주파수 범위에 있는 타일의 수량이 미리 설정된 수량인 경우, 미리 설정된 수량은 구성 비트스트림에 기록될 수 있거나 구성 비트스트림에 기록되지 않을 수 있다. 예를 들어, 인코딩 기기 및 디코딩 기기는 디폴트로 타일의 수량을 제2 주파수 범위에 포함된 타일의 수량에 N을 더한 것으로 생각할 수 있으며, 여기서 N은 미리 설정된 양의 정수일 수 있다.
또한, 현재 채널의 제1 수량을 획득하는 것 외에, 현재 채널의 다른 정보, 예를 들어 식별 정보, 관계 정보, 또는 변경된 타일의 수량을 추가로 획득할 수 있다. 예를 들어, 제1 주파수 범위가 제2 주파수 범위와 동일한지를 비교하여 식별 정보를 획득할 수 있고; 제1 주파수 범위와 제2 주파수 범위 사이의 값 관계를 비교하여 관계 정보를 획득할 수 있으며; 제1 수량과 제2 수량 사이의 차이를 비교하여 변경된 타일의 수량을 획득할 수 있다.
방식 2: 오디오 신호의 이전 프레임 또는 제1 프레임에 의해 사용된 타일 정보가 현재 프레임의 타일 정보로서 획득된다.
타일 정보는 현재 프레임의 이전 프레임이 인코딩되는 경우 전술한 방식 1로 획득될 수 있다. 타일 정보는 현재 프레임 획득될 때 직접 판독될 수 있다. 타일 정보는 대안적으로 오디오 신호의 제1 프레임이 인코딩되는 경우 방식 1로 획득될 수 있다. 예를 들어, 오디오 신호에 포함된 모든 프레임을 동일한 타일 정보를 사용하여 인코딩함으로써, 인코딩 기기의 작업부하를 줄이고 인코딩 효율을 향상시킬 수 있다.
따라서, 본 출원의 구현에서, 타일 정보는 복수의 방식으로 획득될 수 있고, 각각의 프레임에 의해 사용되는 타일 정보는 방식 1에서 실시간으로 동적으로 결정될 수 있으므로, 타일 정보에 의해 지시되는 주파수 범위는 각각의 프레임에서 고주파 대역 신호의 음조 성분이 저주파 대역 신호의 음조 성분과 유사하지 않은 주파수 범위를 적응적으로 커버할 수 있다. 이는 인코딩 품질을 향상시킨다. 대악적으로 복수의 프레임이 동일한 타일 정보를 공유함으로써 타일 정보 계산의 작업부하를 줄이고 인코딩 품질 및 인코딩 효율을 향상시킬 수 있다. 따라서 본 출원에서 제공되는 오디오 신호 인코딩 방법은 더 많은 시나리오에 유연하게 적응할 수 있다.
또한, 음조 성분 검출이 수행되어야 하는 타일의 제1 수량을 결정하는 것 외에도, 음조 성분 검출이 수행되어야 하는 각각의 타일의 경계, 즉, 제1 타일 경계가 타일 정보에 기초하여 추가로 결정될 수 있으므로, 제1 주파수 범위가 더 정확하게 결정될 수 있다. 제1 주파수 범위에 있는 타일의 수량이 결정된 후, 제1 주파수 범위에 있는 각 타일의 분할 방식이 더 결정되어야 함을 이해할 수 있다.
구체적으로, 제1 주파수 범위의 하한은 구성 정보에 의해 지시되는 대역폭 확장이 수행되는 제2 주파수 범위의 하한과 동일하다. 제1 수량이 제2 수량보다 작거나 같은 경우, 제1 주파수 범위에서의 타일의 분포는 구성 정보에 지시된 제2 주파수 범위에서의 타일의 분포와 동일하다. 다시 말해, 제1 주파수 범위에 있는 타일의 분할 방식은 제2 주파수 범위에 있는 타일의 분할 방식과 동일하다. 제1 수량이 제2 수량보다 큰 경우, 제1 주파수 범위의 주파수 상한은 제2 주파수 범위의 주파수 상한보다 크다. 다시 말해, 제1 주파수 범위는 제2 주파수 범위를 커버하고 제2 주파수 범위보다 크다. 제1 주파수 범위와 제2 주파수 범위의 중첩 부분에서의 타일 분포는 제2 주파수 범위에서의 타일 분포와 동일하다. 다시 말해, 제1 주파수 범위와 제2 주파수 범위의 중첩 부분에서의 타일의 분할 방식은 제2 주파수 범위에서의 타일의 분할 방식과 동일하다. 제1 주파수 범위와 제2 주파수 범위의 중첩되지 않은 부분에서의 타일의 분포는 미리 정해진 방식으로 결정된다. ㄷ다시 말해, 제1 주파수 범위와 제2 주파수 범위의 중첩되지 않은 부분의 타일은 미리 설정된 방식으로 분할된다.
일반적으로, 대역폭 확장이 수행되는 타일의 분할 방식은 미리 설정되어 있는 것으로 이해될 수 있으며, 구체적으로, 구성 정보는 제2 주파수 범위에서 타일로의 분할을 포함할 수 있다. 제1 수량이이 대역폭 확장에 대응하는 제2 수량보다 작거나 같은 경우, 제1 주파수 범위는 제2 주파수 범위의 타일의 분할 방식으로 분할되어 제1 주파수 범위에 있는 각각의 타일을 획득할 수 있다. 예를 들어, 제2 주파수 범위에서 타일을 1kHz 단위로 분할하면, 제1 주파수 범위도 1kHz 단위로 분할되어, 제1 주파수 범위에서 하나 이상의 타일을 획득할 수 있다. 제1 수량이 대역 확장에 대응하는 제2 수량보다 큰 경우, 제1 주파수 범위의 주파수 상한이 제2 주파수 범위의 상한보다 큰 것으로 결정될 수 있다. 제1 주파수 범위는 제2 주파수 범위를 완전히 커버하고 제2 주파수 범위보다 클수 있으며, 제2 주파수 범위와 제1 주파수 범위의 중첩 부분은 제2 주파수 범위에서의 타일의 분할 방식으로 분할될 수 있고, 제2 주파수 범위와 제1 주파수 범위의 중첩되지 않은 부분, 즉, 제1 수량과 제2 수량의 차이에 대응하는 타일은 미리 설정된 방식으로 분할될 수 있다. 따라서, 음조 성분 검출이 수행되어야 하는 제1 주파수 범위에 포함된 각각의 타일의 경계가 정확하게 결정된다. 미리 설정된 방식은 미리 설정된 폭, 타일의 주파수 상한 등을 포함할 수 있다.
예를 들어, 이해의 편의를 위해, 제1 수량이 제2 수량보다 작거나 같은 시나리오의 경우, 도 6a를 참조한다. 제1 주파수 범위에서의 타일의 분할 방식은 제2 주파수 범위에서의 타일의 분할 방식과 동일하다. 제1 수량이 제2 수량보다 많은 시나리오의 경우, 도 6b를 참조한다. 제1 주파수 범위와 제2 주파수 범위의 중첩 부분에서의 타일을 분할하는 방식은 제2 주파수 범위에서의 타일을 분할하는 방식과 동일하다. 제2 주파수 범위에 대한 제1 주파수 범위에서의 하나 이상의 타일의 분할, 즉, 제1 수량과 제2 수량의 차이에 대응하는 타일 분할은 미리 설정된 방식으로 수행될 수 있다. 제1 주파수 범위와 제2 주파수 범위의 중첩되지 않은 부분에서의 타일의 분할 방식은 중첩 부분에서의 타일의 분할 방식과 동일하거나 상이할 수 있다. 예를 들어, 중첩되지 않은 부분은 하나 이상의 타일로 분할될 수 있다. 물론, 중첩되지 않은 부분은 대안적으로 도 6c에 도시된 바와 같이 중첩 부분의 마지막 타일로 분할될 수 있다.
중첩되지 않은 부분이 하나 이상의 타일로 분할되면, 중첩되지 않은 부분에 의해 분할되는 타일이 충족해야 하는 조건은 다음을 포함할 수 있다: 타일의 주파수 상한은 오디오 신호의 최고 주파수보다 작거나 같다. 일반적으로, 타일의 주파수 상한은 오디오 신호의 최고 주파수보다 작거나 같고, 타일의 폭은 미리 설정된 값보다 작거나 같다.
전술한 타일 정보에 포함된 변경된 타일의 수량은 제1 주파수 범위와 제2 주파수 범위의 중첩되지 않은 부분에 포함된 타일의 수량인 것으로 이해될 수 있다.
구체적인 시나리오에서, 타일의 주파수 대역은 번호가 매겨질 수 있다. 이 경우, 중첩되지 않은 부분에서의 타일의 주파수 상한에 대응하는 주파수 대역 인덱스는 오디오 신호의 최고 주파수에 대응하는 주파수 대역 인덱스보다 작거나 같고, 중첩되지 않은 부분에서의 타일의 폭은 미리 설정된 값보다 작거나 같다. 오디오 신호의 최고 주파수에 대응하는 주파수 대역 인덱스는 샘플링 주파수와 주파수 대역 분할 방식에 따라 결정된다.
2개의 인접한 타일의 경우, 보다 낮은 주파수가 위치하는 타일의 주파수 상한은 보다 높은 주파수가 위치하는 타일의 하한이라는 것을 이해해야 한다.
따라서, 본 출원의 이 구현에서, 제1 주파수 범위에 있는 타일의 수량 및 각각의 타일의 분할 방식이 결정되므로, 후속 음조 성분 검출 동안, 타일에 기초하여 검출이 수행되어 보다 포괄적인 음조 성분 검출이 수행될 수 있다. 예를 들어, 음조 성분 검출은 타일 단위로 수행될 수 있거나, 음조 성분 검출은 타일에서의 주파수 대역 단위로 수행될 수 있다.
제1 주파수 범위에 포함된 타일들의 제1 수량이 결정된 후에, 제1 주파수 범위에 포함된 각각의 타일의 경계가 추가로 결정됨을 이해할 수 있다. 구체적으로, 제1 주파수 범위에 포함된 각각의 타일의 경계를 결정하는 방식은 다음을 포함할 수 있다: 제1 수량이 제2 수량보다 작거나 같으면, 제2 주파수 범위에 포함된 각각의 타일의 경계에 기초하여 제1 주파수 범위에 포함된 타일의 경계를 결정한다. 제1 수량이 제2 수량보다 크면, 제1 주파수 범위와 제2 주파수 범위의 중첩 부분에 대해, 제1 주파수 범위에 포함된 각각의 타일의 경계는 제2 주파수 범위에서의 각각의 타일의 경계에 기초하여 결정될 수 있고, 제1 주파수 범위와 제2 주파수 범위의 중첩되지 않은 부분에 대해, 타일이 미리 설정된 분할 방식으로 분할되고, 타일의 경계가 결정될 수 있다.
구체적으로, 제1 주파수 범위에서의 각각 타일의 경계를 결정하는 방식은 다음을 함할 수 있다: 제1 수량이 제2 수량보다 작거나 같으면, 대역폭 확장에 대응하는 제2 주파수 범위에서의 각각의 타일의 경계를 제1 주파수 범위에서의 각각 타일의 경계로 사용하고; 제1 수량이 제2 수량보다 크면, 제2 주파수 범위에서의 각각의 타일의 경계를 제1 주파수 범위에서의 적어도 하나의 저 타일(low tile)의 경계로 사용하여, 미리 설정된 방식으로 적어도 하나의 고 타일(high tile)의 경계를 결정하며, 여기서 로우 타일은 주파수 상한이 제1 주파수 범위에서 대역폭 확장 상한보다 낮은 타일이고, 고 타일은 주파수 하한이 제1 주파수 범위에서 대역폭 확장 상한보다 작거나 같은 타일이다.
적어도 하나의 고 타일의 제1 타일이 설명을 위한 예로서 사용된다. 미리 설정된 방식으로 적어도 하나의 고 타일의 경계를 결정하는 것은 구체적으로 다음을 포함할 수 있다: 제1 타일에 인접하고 제1 타일의 주파수보다 주파수가 낮은 타일의 주파수 상한을 제1 타일의 주파수 하한으로 사용하고, 미리 설정된 방식으로 제1 타일의 주파수 상한을 결정하며, 여기서 제1 타일은 적어도 하나의 고 타일에 포함된다. 제1 타일의 주파수 상한은 오디오 신호의 최고 주파수보다 작거나 같고, 제1 타일의 폭은 미리 설정된 값보다 작거나 같다. 대안적으로, 제1 타일의 주파수 상한에 대응하는 주파수 대역 인덱스는 오디오 신호의 최고 주파수에 대응하는 주파수 대역 인덱스보다 작거나 같고, 제1 타일의 폭은 미리 설정된 값보다 작거나 같다. 오디오 신호의 최고 주파수에 대응하는 주파수 대역 인덱스는 샘플링 주파수와 미리 설정된 주파수 대역 분할 방식에 기초하여 결정된다.
다음은 제1 주파수 범위에서 각각의 타일을 결정하는 방식의 예를 설명하기 위해 구체적인 적용 시나리오를 예로 사용한다.
일반적으로, 음조 성분 검출이 수행되어야 하는 타일의 수량이 결정된 후, 음조 성분 검출이 되는 타일의 경계가 음조 성분 검출되는 타일의 수량에 기초하여 먼저 결정되어야 한다. 타일의 경계는 경계의 SFB 인덱스일 수 있거나, 경계의 주파수일 수 있거나, 둘 다를 포함할 수도 있다.
음조 성분 검출 효율 및 인코딩 효율을 개선하기 위해, 추가된 타일은 IGF 정지 주파수에서 Fs/2까지의 나머지 고주파 대역 전체를 커버할 필요가 없다. 따라서, 추가된 타일의 최대 폭은 128개의 빈(bin)으로 제한될 수 있다. 다시 말해, 타일의 폭은 미리 설정된 값보다 작거나 같을 수 있다. Fs는 샘플링 주파수이다.
예를 들어, 추가된 타일의 폭을 결정하는 방식과 타일 주파수 대역 표 및 타일-sfb 대응관계 표를 업데이트하는 방식은 다음과 같다:
Figure pct00002
igfStopSfb는 IGF 정지 SFB 인덱스이고, sfbIdx는 SFB 인덱스이고, tileWidth_new는 추가된 타일의 폭이고, nr_of_sfb_long은 SFB의 총 수량이고, sfb_offset은 SFB 경계이고, 제i SFB의 하한은 sfb_offset[i]이고, 상한은 sfb_offset[i+1]이고, tile_sfb_wrap은 타일과 SFB의 대응관계를 나타내고, 제i 타일의 시작 SFB 인덱스는 tile_sfb_wrap [i]이고, 끝 SFB 인덱스는 tile_sfb_wrap[i+1] ] - 1이다.
따라서, 본 출원의 이 구현에서, 제1 주파수 범위에서 각각의 타일의 경계가 결정될 수 있으므로, 음조 성분 검출이 보다 정확하게 수행될 수 있다.
504: 제1 주파수 범위에서 톤 검출을 수행하여 고 주파수 대역 신호의 음조성분에 관한 정보를 획득한다.
타일 정보에 의해 지시되는 제1 주파수 범위가 결정된 후, 제1 주파수 범위에서 음조 성분 검출이 수행되어 고주파 대역 신호의 음조 성분에 관한 정보를 획득한다.
구체적으로, 음조 성분에 관한 정보는 음조 성분의 위치 수량 파라미터, 및 음조 성분의 진폭 파라미터 또는 에너지 파라미터를 포함할 수 있다. 대안적으로, 음조 성분에 관한 정보는 고주파 대역 신호의 잡음 플로어 파라미터를 더 포함한다. 위치 수량 파라미터는 음조 성분의 위치 및 동일한 파라미터로 표현되는 음조 성분의 수량을 나타낸다. 다른 구현예에서, 음조 성분에 관한 정보는 음조 성분의 위치 파라미터, 음조 성분의 수량 파라미터, 및 음조 성분의 진폭 파라미터 또는 에너지 파라미터를 포함할 수 있다. 이 경우, 음조 성분의 위치와 음조 성분의 수량은 서로 다른 파라미터를 사용하여 표현된다.
보다 구체적으로, 타일 정보에 지시된 제1 주파수 범위는 하나 이상의 타일(tile)을 포함할 수 있고, 하나의 타일은 하나 이상의 주파수 대역을 포함할 수 있으며, 하나의 주파수 대역은 하나 이상의 서브대역을 포함할 수 있다. 단계 504는 구체적으로, 고주파 대역 신호에서 제1 수량의 타일 중 현재 타일의 고주파 대역 신호에 기초하여 현재 타일의 음조 신호의 위치 수량 파라미터 및 현재 타일의 음조 신호의 진폭 파라미터 또는 에너지 파라미터를 결정하는 단계를 포함할 수 있다.
타일 단위로 음조 성분 검출을 수행하는 것 외에도, 음조 성분 검출은 주파수 대역 단위로 또는 서브대역 단위로 수행될 수 있으며, 상세한 내용은 여기에서 다시 설명되지 않는다.
현재 타일의 음조 성분에 관한 정보가 결정되기 전에, 현재 영역이 음조 성분을 포함하는지가 결정될 수 있다. 현재 타일이 음조 성분을 포함하는 경우에만 현재 타일의 고주파 대역 신호에 기초하여 현재 타일의 음조 성분의 위치 수량 파라미터 및 현재 타일의 음조 성분의 진폭 파라미터 또는 에너지 파라미터가 결정된다. 이러한 방식으로 음조 성분을 포함하는 타일의 파라미터만 획득된다. 이는 인코딩 효율을 향상시킨다.
이에 상응하여, 현재 프레임의 음조 성분에 관한 정보는 음조 성분 지시 정보를 더 포함하고, 음조 성분 지시 정보는 현재 타일이 음조 성분을 포함하는지를 지시한다. 이러한 방식으로, 오디오 디코더는 지시 정보에 기초하여 디코딩을 수행할 수 있다. 이는 디코딩 효율을 향상시킨다.
일 구현에서, 현재 타일의 고주파 대역 신호에 기초하여 현재 타일의 음조 신호에 관한 정보를 결정하는 것은, 적어도 하나의 타일에서 현재 타일의 고주파 대역 신호에 기초하여 현재 타일에서의 피크 탐색(peak search)을 수행하여 현재 영역의 피크 수량 정보, 피크 위치 정보 및 피크 진폭 정보 중 적어도 하나를 획득하는 것; 및 현재 타일의 피크 수량 정보, 피크 위치 정보 및 피크 진폭 정보 중 적어도 하나에 기초하여 현재 타일의 음조 성분의 위치 수량 파라미터 및 현재 타일의 음조 성분의 진폭 파라미터 또는 에너지 파라미터를 결정하는 것을 포함한다.
피크 탐색이 수행되는 고주파 대역 신호는 주파수 도메인 신호일 수 있거나 시간 도메인 신호일 수 있다.
구체적으로, 일 구현에서, 피크 탐색은 구체적으로 현재 타일의 전력 스펙트럼, 에너지 스펙트럼, 또는 진폭 스펙트럼 중 적어도 하나에 기초하여 수행될 수 있다.
일 구현에서, 현재 타일의 피크 수량 정보, 피크 위치 정보 및 피크 진폭 정보 중 적어도 하나에 기초하여 현재 타일의 음조 성분의 위치 수량 파라미터 및 현재 타일의 음조 성분의 진폭 파라미터 또는 에너지 파라미터를 결정하는 것은, 현재 타일의 피크 수량 정보, 피크 위치 정보 및 피크 진폭 정보 중 적어도 하나에 기초하여 현재 타일의 음조 성분의 위치 정보, 수량 정보, 및 진폭 정보를 결정하는 것; 및 현재 타일의 음조 성분의 위치 정보, 수량 정보 및 진폭 성분에 기초하여 현재 타일의 음조 성분의 위치 수량 파라미터 및 현재 타일의 음조 성분의 진폭 파라미터 또는 에너지 파라미터를 결정하는 것을 포함할 수 있다.
505: 대역폭 확장의 파라미터 및 음조 성분에 관한 정보에 대해 비트스트림 다중화를 수행하여 페이로드 비트스트림을 획득한다.
대역폭 확장의 파라미터 및 고주파 대역 신호의 음조 성분에 관한 정보가 획득된 후, 페이로드 비트스트림을 획득하기 위해 대역폭 확장의 파라미터 및 음조 성분에 관한 정보에 대해 비트스트림 다중화가 수행될 수 있다 .
구체적으로, 비트스트림 다중화 동안, 대역폭 확장의 파라미터 및 음조 성분에 관한 정보에 대해 비트스트림 다중화를 수행하는 것 외에, 저주파 대역 신호 또는 고주파 대역 신호의 다른 정보를 참조하여 비트스트림 다중화가 수행될 수 있다. 예를 들어, 인코딩 파라미터, 시간 도메인 잡음 성형 파라미터, 주파수 도메인 잡음 성형 파라미터 또는 저주파 대역의 스펙트럼 양자화 파라미터를 참조하여 비트스트림 다중화가 수행되어 고품질 페이로드 비트스트림을 획득한다.
구체적으로, 비트스트림 다중화 동안, 신호 유형 정보는 음조 신호가 타일 또는 주파수 대역에 존재하는지를 지시할 수 있다. 음조 성분이 존재하지 않으면, 타일 또는 주파수 대역에 음조 성분이 존재하지 않음을 지시하는 신호 유형 정보가 비트스트림에 기록되어, 타일 또는 주파수 대역에 음조 성분이 존재하지 않음을 지시할 수 있다. 이는 디코딩 효율을 향상시킨다. 음조 성분이 존재하면, 음조 성분에 관한 정보가 비트스트림에 기록되어야 하고, 어느 타일에 음조 성분이 존재함을 지시하는 신호 유형 정보가 비트스림에 추가로 기록되고, 대역폭 확장의 파라미터, 시간 도메인 잡음 성형 파라미터, 주파수 도메인 잡음 성형 파라미터 또는 스펙트럼 양자화 파라미터가 비트스트림에 기록되어 인코딩 품질을 향상시킨다.
506: 타일 정보에 대해 비트스트림 다중화를 수행하여 구성 비트스트림을 획득한다.
타일 정보가 획득된 후, 구성 비트스트림을 획득하기 위해 타일 정보에 대해 비트스트림 다중화가 수행될 수 있다.
구체적으로, 타일 정보는 구성 비트스트림에 기록될 수 있으므로 디코딩 기기는 구성 비트스트림에 포함된 타일 정보에 기초하여 오디오 신호를 디코딩하여 타일 정보에 의해 지시된 주파수 범위의 음조 성분을 재구축하여, 고품질 디코딩 데이터를 획득할 수 있다.
본 출원의 이 실시예의 단계 506은 선택적인 단계라는 점에 유의해야 한다. 단계 506은 오디오 신호의 첫 번째 프레임에 대해 비트스트림 다중화가 수행되는 경우 수행될 수 있고, 각각의 프레임에 대해 비트스트림 다중화가 수행되는 경우 단계 506은 수행될 필요가 없다. 다시 말해, 오디오 신호에서의 복수의 프레임이 동일한 타일 정보를 공유함으로써 점유 자원을 줄이고 인코딩 효율을 향상시킬 수 있다. 물론, 각각의 프레임이 인코딩될 때 단계 506가 대안적으로 수행될 수 있다. 이는 본 출원에서 한정되지 않는다.
페이로드 비트스트림은 오디오 신호의 각각의 프레임의 특정 정보를 실어 전달할 수 있고, 구성 비트스트림은 오디오 신호의 모든 프레임에 의해 공유되는 구성 정보를 실어 전달할 수 있음을 이해할 수 있다. 페이로드 비트스트림과 구성 비트스트림은 서로 독립적인 비트스트림일 수 있거나, 동일한 비트스트림에 포함될 수 있다. 다시 말해, 페이로드 비트스트림과 구성 비트스트림은 동일한 비트스트림의 다른 부분일 수 있다. 이는 실제 적용 시나리오에 기초하여 구체적으로 조정될 수 있다. 이는 본 출원에서 한정되지 않는다.
따라서, 본 출원의 이 구현에서, 타일 정보에 의해 지시되는 주파수 범위에 기초하여 음조 성분 검출이 수행될 수 있으므로, 검출을 통해 획득된 음조 성분에 관한 정보는 음조 성분이 고주파 대역 신호와 저주파 대역 신호 사이에 유사하지 않은 더 많은 주파수 범위를 커버할 수 있다. 이는 인코딩 품질을 향상시킨다.
전술한 내용은 본 출원에서 제공되는 오디오 인코딩 방법을 상세히 설명하고, 다음은 본 출원에서 제공되는 디코딩 방법을 상세히 설명한다.
도 7은 본 출원에 따른 디코딩 방법의 개략적인 흐름도이다. 세부 사항은 다음과 같다:
701: 페이로드 비트스트림을 획득한다.
페이로드 비트스트림에 대해서는 단계 505의 관련 설명을 참조한다. 세부 사항은 여기에서 다시 설명되지 않는다.
702: 페이로드 비트스트림에 대해 비트스트림 역다중화를 수행하여 오디오 신호의 현재 프레임의 음조 성분에 관한 정보 및 대역폭 확장의 파라미터를 획득한다.
페이로드 비트스트림이 획득된 후, 오디오 신호의 현재 프레임의 음조 성분에 관한 정보 및 대역폭 확장의 파라미터를 획득하기 위해 비트스트림에 대해 비트스트림 역다중화가 수행된다.
구체적으로, 음조 성분에 관한 정보는 음조 성분의 위치 수량 파라미터, 및 음조 성분의 진폭 파라미터 또는 에너지 파라미터를 포함할 수 있다. 위치 수량 파라미터는 동일한 파라미터로 표현되는 음조 성분의 위치와 음조 성분의 수량을 나타낸다. 다른 구현에서, 음조 성분에 관한 정보는 음조 성분의 위치 파라미터, 음조 성분의 수량 파라미터, 및 음조 성분의 진폭 파라미터 또는 에너지 파라미터를 포함한다. 이 경우, 음조 성분의 위치와 음조 성분의 수량은 서로 다른 파라미터를 사용하여 표현된다.
가능한 구현에서, 고주파 대역 신호에 대응하는 주파수 범위는 적어도 하나의 타일을 포함한다. 하나의 타일은 적어도 하나의 주파수 대역을 포함하고, 하나의 주파수 대역은 적어도 하나의 서브대역을 포함한다. 상응하게, 음조 성분에 관한 정보는, 현재 프레임의 고주파 대역 신호의 음조 성분의 위치 수량 파라미터가 적어도 하나의 타일의 각각의 음조 성분의 위치 수량 파라미터를 포함하고, 현재 프레임의 고주파수 신호의 음조 성분의 진폭 파라미터 또는 에너지 파라미터가 적어도 하나의 타일의 각각의 음조 성분의 진폭 파라미터 또는 에너지 파라미터를 포함한다는 것을 포함한다. 음조 성분에 관한 정보는 타일 단위일 수 있음을 이해할 수 있다. 물론, 음조 성분에 관한 정보는 대안적으로 주파수 대역 단위, 서브대역 단위 등일 수 있다. 이는 실제 적용 시나리오에 기초하여 구체적으로 조정될 수 있다.
가능한 구현에서, 페이로드 비트스트림에 대해 비트스트림 역다중화를 수행하여 오디오 신호의 현재 프레임의 음조 성분에 관한 정보를 획득하는 것은, 적어도 하나의 타일의 현재 주파수 대역 또는 현재 타일의 음조 성분의 위치 수량 파라미터를 획득하는 것; 및 현재 주파수 대역 또는 현재 타일의 음조 성분의 위치 수량 파라미터에 기초하여 페이로드 비트스트림을 파싱하여 현재 주파수 대역 또는 현재 타일의 음조 성부의 진폭 파라미터 또는 에너지 파라미터를 획득하는 것을 포함한다.
또한, 페이로드 비트스트림에 대해 비트스트림 역다중화가 수행된다. 오디오 신호의 현재 프레임의 음조 성분에 관한 정보 및 대역폭 확장의 파라미터 외에, 저주파 대역 신호와 관련된 파라미터/파라미터들, 예를 들어 저주파 대역 인코딩 파라미터, 시간 도메인 잡음 성형 파라미터, 주파수 도메인 잡음 성형 파라미터, 및/또는 스펙트럼 양자화 파라미터가 획득될 수 있다.
본 출원의 이 구현에서, 오디오 신호는 다중 채널 신호일 수 있거나, 단일 채널 신호일 수 있음에 유의해야 한다. 오디오 신호가 다중 채널 신호인 경우, 각각의 채널의 신호의 페이로드 비트스트림에 대해 역다중화, 신호 재구축 등이 수행될 수 있다. 본 출원의 이 구현에서, 하나의 채널(이하 현재 채널이라 함)의 신호의 인코딩 프로세스만이 설명을 위한 예로서 사용된다. 실제 적용 시에, 단계 702 내지 단계 707은 오디오 신호의 채널 각각에 대해 수행될 수 있다. 반복되는 단계는 본 출원에서 다시 설명되지 않는다.
703: 대역폭 확장의 파라미터에 기초하여 현재 프레임의 고주파 대역 신호를 획득한다.
대역폭 확장의 파라미터에 대해서는 단계 502의 관련 설명을 참조한다. 자세한 내용은 여기에서 다시 설명되지 않는다.
구체적으로, 시간 도메인 확장 시나리오에서, 대역폭 확장의 파라미터, 예를 들어 고주파 대역 LPC 파라미터, 고주파 대역 이득, 또는 필터링 파라미터에 기초하여 시간 도메인 확장을 수행하여 고주파 대역 신호를 획득한다. 대안적으로, 주파수 도메인 확장 시나리오에서, 시간 포락선 또는 주파수 포락선과 같은 파라미터에 기초하여 주파수 도메인 확장을 수행하여 고주파 대역 신호를 획득할 수 있다.
또한, 비트스트림을 역다중화하여 획득된 저주파 대역의 인코딩 파라미터에 기초하여 디코딩을 수행하여 저주파 대역 신호를 획득할 수 있다. 대역폭 확장의 파라미터에 기초하여 대역폭 확장을 수행하는 경우, 저주파 대역 신호를 참조하여 고주파 대역 신호이 추가로 복원되어, 보다 정확한 고주파 대역 신호를 획득할 수 있다. 페이로드 비트스트림을 역다중화한 후, 저주파 대역 신호와 고주파 대역 신호 간의 상관 정보를 획득할 수 있고, 저주파 대역 신호를 획득한 후, 고주파 대역 신호가 저주파 대역 신호 및 저주파 대역 신호와 고주파 대역 신호 사이의 상관 정보에 기초하여 복원되어 고주파 대역 신호를 획득할 수 있음을 이해할 수 있다.
704: 구성 비트스트림을 획득한다.
인코딩 기기에 의해 전송된 구성 비트스트림이 수신될 수 있으며, 여기서 구성 비트스트림은 인코딩 기기가 인코딩을 수행할 때 일부 구성 파라미터를 포함할 수 있다. 구성 비트스트림에 대해서는 단계 506의 관련 설명을 참조하십시오. 자세한 내용은 여기에서 다시 설명하지 않습니다.
705: 구성 비트스트림에 기초하여 타일 정보를 획득한다.
구성 비트스트림이 획득된 후, 구성 비트스트림을 역다중화하여 타일 정보를 획득할 수 있다.
타일 정보에 대해서는 단계 503의 관련 설명을 참조한다. 자세한 내용은 여기에서 다시 설명되지 않는다.
본 출원의 단계 704 및 705는 선택적 단계이며, 오디오 신호의 프레임에 대응하는 비트스트림이 수신되는 경우에 수행될 수 있음을 유의해야 한다, 즉 복수의 프레임이 타일 정보를 공유할 수 있거나, 오디오 신호의 각각의 프레임에 대응하는 비트스트림이 수신되는 경우에 수행될 수 있다. 이는 실제 적용 시나리오에 기초하여 구체적으로 조정될 수 있다.
또한, 인코딩 기기는 대안적으로 구성 비트스트림을 사용하여 대역폭 확장의 구성 정보를 디코딩 기기에 전송할 수 있거나, 인코딩 기기와 디코딩 기기는 미리 설정된 구성 정보를 공유할 수 있다. 이는 실제 적용 시나리오에 기초하여 구체적으로 조정될 수 있다.
706: 음조 신호에 관한 정보 및 타일 정보에 기초하여 재구축을 수행하여 재구축된 음조 신호를 획득한다.
타일 정보가 획득된 후, 타일 정보에 의해 지시되는 주파수 범위는 재구축된 음조 신호를 획득하기 위해 음조 신호에 관한 정보에 기초하여 재구축된다.
본 출원의 다음 구현들에서, 톤 성분 재구축이 수행되어야 하는 주파수 범위는 제1 주파수 범위로 지칭되고, 대역폭 확장에 대응하는 주파수 범위는 제2 주파수 범위로 지칭되며, 제1 주파수 범위의 주파수 하한은 제2 주파수 범위의 주파수 하한과 동일하다. 자세한 내용은 아래에서 다시 설명되지 않는다.
제1 주파수 범위는 하나 이상의 타일로 분할될 수 있고, 하나의 타일은 하나 이상의 주파수 대역을 포함할 수 있다. 음조 성분에 관한 정보 및 타일 정보에 기초하여 재구축을 수행하는 것은 구체적으로, 타일 정보에 기초하여, 음조 성분 재구축이 필요한 타일의 수량을 제1 수량으로 결정하는 것; 제1 수량에 기초하여, 제1 주파수 범위에서 음조 성분 재구축이 수행되는 각각의 타일을 결정하는 것; 및 음조 성분에 관한 정보에 기초하여 제1 주파수 범위에서 음조 성분을 재구축하여 재구축된 음조 신호를 획득하는 것을 포함할 수 있다.
보다 구체적으로, 제1 수량에 기초하여, 제1 주파수 범위에서 음조 성분 재구축이 수행되는 각각의 타일을 결정하는 것은,
제1 수량이 제2 주파수 범위에 있는 타일의 제2 수량보다 작거나 같으면, 제2 주파수 범위에서의 타일의 분포에 기초하여 제1 주파수 범위에서의 타일의 분포를 결정하는 것, 즉, 제2 주파수 범위에서의 타일의 분할 방식에 기초하여 제1 주파수 범위에 있는 각각의 타일을 결정하는 것; 및 제1 수량이 제2 수량보다 크면, 제2 주파수 범위에서의 타일 분포에 기초하여 제1 주파수 범위와 제2 주파수 범위의 중첩 부분에서의 타일의 분포를 결정하고, 미리 설정된 방식으로 제1 주파수 범위와 제2 주파수 범위의 중첩되지 않은 부분에서의 타일 분포를 결정하여 제1 주파수 범위에서의 타일의 분포를 획득하는 것을 포함한다. 제1 수량이 제2 수량보다 크면, 제1 주파수 범위와 제2 주파수 범위의 중첩 부분은 제2 주파수 범위에서 주파수를 분할하는 방식으로 분할될 수 있고, 제1 주파수 범위와 제2 주파수 범위의 중첩되지 않은 부분은 미리 설정된 방식으로 분할되어 음조 성분 재구축이 수행되어야 하는 제1 주파수 범위에 있는 각각의 타일을 획득할 수 있음을 이해할 수 있다. 따라서, 음조 성분 재구축이 수행되어야 하는 주파수 범위에서의 타일의 수량이 제2 주파수 범위에서의 제2 수량과 결합하여 정확하게 결정될 수 있다.
선택적으로, 제1 주파수 범위와 제2 주파수 범위의 중첩되지 않은 부분의 타일은 다음 조건을 충족할 수 있다: 타일의 주파수 상한은 오디오 신호의 최고 주파수보다 작거나 같고, 여기서 타일의 주파수 상한은 일반적으로 샘플링 주파수의 절반보다 작거나 같고, 타일의 폭은 미리 설정된 값보다 작거나 같다.
대역폭 확장의 구성 정보는 구성 비트스트림을 사용하여 획득될 수 있거나, 대역폭 확장의 구성 정보는 국부적으로 획득될 수 있으며, 대역폭 확장이 수행되는 제2 주파수 범위, 제2 주파수 범위에서의 타일의 분포 또는 분할 방식 등은 구성 정보를 사용하여 결정되어, 구성 정보에 의해 지시된 제2 주파수 범위에서의 타일의 분포에 기초하여 제1 주파수 범위에서의 타일의 분포를 결정한다.
음조 성분 재구축을 수행하는 경우, 재구축은 타 단위로 수행될 수 있거나, 재구축은 주파수 대역 단위로 수행될 수 있다. 전술한 단계 503의 관련 설명을 참조한다. 음조 성분 재구축이 수행되어야 하는 타일의 수량은 num_tiles_detect일 수 있다.
다음은 설명을 위해 타일 단위로 음조 성분 재구축이 수행되는 예를 사용한다. 재구축 후에 획득된 재구축된 음조 신호는 시간 도메인 신호일 수 있거나, 주파수 도메인 신호일 수 있다.
구체적으로, 음조 성분에 관한 정보는 음조 성분의 위치 파라미터, 수량 파라미터, 진폭 파라미터 등을 포함할 수 있고, 음조 성분의 수량 파라미터는 음조 성분의 수량을 나타낸다. 한 위치에서 음조 성분을 재구축하는 방법은 구체적으로 다음과 같을 수 있다:
(1) 음조 성분의 위치가 계산된다.
구체적으로, 음조 성분의 위치는 음조 성분의 위치 파라미터에 기초하여 계산될 수 있다:
Figure pct00003
tile[p]는 p번째 타일의 시작 빈이고, sfb는 타일 내의 음조 성분을 갖는 서브대역의 인덱스이고, tone_res[p]는 p번째 타일의 주파수 도메인 해상도(즉, 제p 타일에서의 서브대역 폭 정보)이다. 타일에서 음조 성분을 갖는 서브대역의 인덱스는 음조 성분의 위치 파라미터이다. 0.5는 음조 성분을 갖는 서브밴드에서 음조 성분의 위치가 서브밴드의 중앙에 위치함을 지시한다. 물론, 재구축된 음조 성분은 대안적으로 서브대역의 다른 위치에 위치할 수 있다.
(2) 음조 성분의 진폭이 계산된다.
구체적으로, 음조 성분의 진폭은 음조 성분의 진폭 파라미터에 기초하여 계산될 수 있다:
Figure pct00004
,
여기서 tone_val_q[p][tone_idx]는 p번째 타일의 tone_idx번째 위치 파라미터에 대응하는 진폭 파라미터를 나타내고, tone_val은 p번째 타일의 tone_idx번째 위치 파라미터에 대응하는 bin의 진폭 값을 나타낸다.
tone_idx의 값 범위는 [0, tone_cnt[p] - 1] 내에 속하고, tone_cnt[p]는 p번째 타일에서의 음조 신호의 수량이다.
(3) 음조 성분의 위치 및 음조 성분의 진폭에 기초하여 재구축이 수행되어 재구축된 오디오 신호를 획득한다.
음조 성분의 위치 tone_pos에 대응하는 주파수 도메인 신호는 다음을 충족한다:
Figure pct00005
,
여기서 pSpectralData[tone_pos]는 음조 성분의 위치 tone_pos에 대응하는 주파수 도메인 신호를 나타내고, tone_val은 p번째 타일에서 tone_idx번째 위치 파라미터에 대응하는 빈의 진폭 값을 나타내며, tone_pos는 음조 성분에 대응하는 p번째 타일에서 tone_idx번째 위치 파라미터에 대응하는 음조 성분의 위치를 나타낸다.
707: 고주파 대역 신호 및 재구축된 음조 신호에 기초하여 현재 프레임의 디코딩된 신호를 획득한다.
고주파 대역 신호 및 재구축된 음조 신호에 기초하여 현재 프레임의 디코딩된 신호를 획득하는 것 외에, 현재 프레임의 보다 완전한 디코딩된 신호가 저주파 대역 신호와 결합하여 획득될 수 있다.
구체적으로, 재구축된 음조 신호가 획득된 후, 고주파 대역 신호를 참조하여 음조 성분 복구가 수행되어, 구체적인 세부사항 및 현재 프레임의 고주파 대역 부분의 음조 성분을 획득하고, 현재 프레임이 저주파 대역 신호를 참조하여 복구되어 완전한 음조 성분을 포함하는 현재 프레임을 획득한다.
따라서, 본 출원의 이 구현에서, 음조 성분을 복원하는 경우, 디코딩 기기는 인코딩 기기에 의해 제공되는 타일 정보를 참조하여 제1 주파수 범위에서 음조 성분을 복원할 수 있으므로, 획득된 현재 프레임은 더 완전한 음조 성분을 포함한다. 저주파 대역의 스펙트럼에서의 음조 성분과 유사하지 않은 음조 성분이 일반적으로 고주파 대역의 스펙트럼에 존재하는 시나리오에서도, 디코딩을 통해 획득된 현재 프레임은 더 많은 음조 성분을 가질 수 있다. 이는 디코딩 품질과 사용자 경험을 향상시킨다.
전술한 내용은 본 출원에서 제공되는 오디오 신호 인코딩 방법 및 디코딩 방법을 상세히 설명하였다. 다음은 위에서 제공된 방법에 기초하여 본 출원에서 제공되는 장치를 상세히 설명한다.
먼저, 본 출원은 도 5에 도시된 오디오 신호 인코딩 방법을 수행하도록 구성된 인코딩 기기를 제공한다. 도 8은 본 출원에 따른 인코딩 기기의 구성의 개략도이다.
인코딩 기기는,
오디오 신호의 현재 프레임을 획득하도록 구성된 오디오 획득 모듈(901) - 현재 프레임은 고주파 대역 신호 및 저주파 대역 신호를 포함함 -;
고주파 대역 신호, 저주파 대역 신호 및 대역폭 확장의 미리 설정된 구성 정보에 기초하여 현재 프레임의 대역폭 확장의 파라미터를 획득하도록 구성된 파라미터 획득 모듈(802);
타일 정보를 획득하도록 구성된 주파수 획득 모듈(803) - 타일 정보는 고주파 대역 신호에 대해 음조 성분 검출이 수행되어야 하는 제1 주파수 범위를 지시함 -;
제1 주파수 범위에서 음조 성분 검출을 수행하여 고주파 대역 신호의 음조 성분에 관한 정보를 획득하도록 구성된 음조 성문 인코딩 모듈(804); 및
대역폭 확장의 파라미터 및 음조 성분에 관한 정보에 대해 비트스트림 다중화를 수행하여 페이로드 비트스트림을 획득하도록 구성된 비트스트림 다중화 모듈(805)을 포함한다.
가능한 구현에서, 인코딩 기기는 다음을 더 포함할 수 있다:
비트스트림 멀티플렉싱 모듈(805)은 추가로, 타일 정보에 대해 비트스트림 다중화를 수행하여 구성 비트스트림을 획득하도록 구성된다.
가능한 구현에서, 주파수 획득 모듈(803)은 구체적으로, 오디오 신호의 샘플링 주파수 및 대역폭 확장의 구성 정보에 기초하여 타일 정보를 결정하도록 구성된다.
가능한 구현에서, 타일 정보는 제1 수량, 식별 정보, 관계 정보 또는 변경된 타일의 수량 중 적어도 하나를 포함하고, 제1 수량은 제1 주파수 범위에 있는 타일의 수량이고, 식별 정보는 제1 주파수 범위가 대역폭 확장에 대응하는 제2 주파수 범위와 동일한지를 지시하고, 관계 정보는 제1 주파수 범위가 제2 주파수 범위와 다른 경우 제1 주파수 범위와 제2 주파수 범위 사이의 값 관계를 지시하며, 변경된 타일의 수량은 제1 주파수 범위가 제2 주파수 범위와 다른 경우 제1 주파수 범위와 제2 주파수 범위 사이에 차이가 있는 타일의 수량이다.
가능한 구현에서, 타일 정보는 적어도 제1 수량을 포함하고, 대역폭 확장의 구성 정보는 대역폭 확장 상한 및/또는 제2 수량을 포함하고, 제2 수량은 제2 주파수 범위에 있는 타일의 수량이며;
주파수 획득 모듈(803)은 구체적으로, 현재 프레임의 인코딩 레이트, 오디오 신호의 채널의 수량, 샘플링 주파수, 대역폭 확장 상한, 또는 제2 수량 중 하나 이상에 기초하여 제1 수량을 결정하도록 구성된다.
가능한 구현에서, 대역폭 확장 상한은 최고 주파수, 최고 빈 인덱스, 최고 주파수 대역 인덱스, 또는 제2 주파수 범위에서의 최고 타일 인덱스 중 하나 이상을 포함한다.
가능한 구현에서, 오디오 신호의 적어도 하나의 채널이 있고;
주파수 획득 모듈(803)은 구체적으로,
현재 프레임의 인코딩 레이트 및 채널의 수량에 기초하여 현재 프레임에서 현재 채널의 제1 결정 식별자를 결정하고 - 현재 프레임의 인코딩 레이트는 현재 프레임의 인코딩 레이트임 -; 제1 결정 식별자에 기초하여 제2 수량과 결합하여 현재 채널의 제1 수량을 결정하거나;
샘플링 주파수 및 대역폭 확장 상한에 기초하여 현재 프레임에서 현재 채널의 제2 결정 식별자를 결정하고; 제2 결정 식별자에 기초하여 제2 수량과 결합하여 현재 채널의 제1 수량을 결정하거나;
현재 프레임의 인코딩 레이트 및 채널의 수량에 기초하여 현재 프레임에서 현재 채널의 제1 결정 식별자를 결정하고, 샘플링 주파수 및 대역폭 확장 상한에 기초하여 현재 프레임에서 현재 채널의 제2 결정 식별자를 결정하고; 제1 결정 식별자 및 제2 결정 식별자에 기초하여 제2 수량과 결합하여 현재 프레임에서 현재 채널의 제1 수량을 결정하도록 구성된다.
가능한 구현에서, 주파수 획득 모듈(803)은 구체적으로, 현재 프레임의 인코딩 레이트 및 채널의 수량에 기초하여 현재 프레임에서 채널 각각의 평균 인코딩 레이트를 획득하고; 평균 인코딩 레이트 및 제1 임계값에 기초하여 현재 채널의 제1 결정 식별자를 획득하도록 구성된다.
가능한 구현에서, 주파수 획득 모듈(803)은 구체적으로, 현재 프레임의 인코딩 레이트 및 채널의 수량에 기초하여 현재 채널의 실제 인코딩 레이트를 결정하고; 현재 채널의 실제 인코딩 레이트 및 제2 임계값에 기초하여 현재 채널의 제1 결정 식별자를 획득하도록 구성될 수 있다.
가능한 구현에서, 주파수 획득 모듈(803)은 구체적으로, 주파수 확장 상한이 최고 주파수를 포함하는 경우, 대역폭 확장 상한에 포함된 최고 주파수가 오디오 신호의 최고 주파수와 동일한지를 비교하여, 현재 프레임에서 현재 채널의 제2 결정 식별자를 결정하거나; 대역폭 확장 상한이 최고 주파수 대역 인덱스를 포함하는 경우, 대역폭 확장 상한에 포함된 최고 주파수 대역 인덱스가 오디오 신호의 최고 주파수 대역 인덱스와 동일한지를 비교하여, 현재 프레임에서 현재 채널의 제2 결정 식별자를 결정하도록 구성될 수 있으며, 여기서 오디오 신호의 최고 주파수 대역 인덱스는 샘플링 주파수에 기초하여 결정된다.
가능한 구현에서, 주파수 획득 모듈(803)은 구체적으로,
제1 결정 식별자와 제2 결정 식별자 모두가 미리 설정된 조건을 충족하면, 대역폭 확장에 대응하는 제2 수량에 하나 이상의 타일을 추가하여 현재 채널의 제1 수량을 획득하거나;
제1 결정 식별자 또는 제2 결정 식별자가 미리 설정된 조건을 충족하지 않으면, 대역폭 확장에 대응하는 제2 수량을 현재 채널의 제1 수량으로 사용하도록 구성될 수 있다.
가능한 구현에서, 제1 주파수 범위의 하한은 구성 정보에 의해 지시되는 대역폭 확장이 수행되는 제2 주파수 범위의 하한과 동일하다. 타일 정보에 포함된 제1 수량이 대역폭 확장에 대응하는 제2 수량보다 작거나 같은 경우, 제1 주파수 범위에서의 타일의 분포는 제2 주파수 범위에서의 타일의 분포와 동일하다. 제1 수량이 제2 수량보다 큰 경우, 제1 주파수 범위의 주파수 상한은 제2 주파수 범위의 주파수 상한보다 크고, 제1 주파수 범위와 제2 주파수 범위의 중첩 부분에서의 타일의 분포는 제2 주파수 범위에서의 타일의 분포와 동일하며, 제1 주파수 범위와 제2 주파수 범위의 중첩되지 않은 부분에서의 타일의 분포는 미리 정해진 방식으로 결정된다.
가능한 구현에서, 제1 주파수 범위와 제2 주파수 범위의 중첩되지 않은 부분에서의 타일은 다음 조건을 충족한다: 제1 주파수 범위와 제2 주파수 범위의 중첩되지 않은 부분에서의 타일의 폭은 미리 설정된 값보다 작고, 제1 주파수 범위와 제2 주파수 범위의 중첩되지 않은 부분에서의 타일의 주파수 상한은 오디오 신호의 최고 주파수보다 작거나 같다.
가능한 구현에서, 고주파 대역 신호에 대응하는 주파수 범위는 적어도 하나의 타일을 포함하고, 하나의 타일은 적어도 하나의 주파수 대역을 포함한다.
가능한 구현에서, 제1 주파수 범위에 있는 타일의 수량은 미리 설정된 수량이다.
가능한 구현에서, 음조 성분에 관한 정보는 음조 성분의 위치 수량 파라미터, 및 음조 성분의 진폭 파라미터 또는 에너지 파라미터를 포함한다.
가능한 구현에서, 음조 성분에 관한 정보는 고주파 대역 신호의 잡음 플로어 파라미터를 더 포함한다.
둘째, 본 출원은 도 7에 도시된 디코딩 방법을 수행하도록 구성된 디코딩 기기를 제공한다. 도 9는 본 출원에 따른 디코딩 기기의 구성의 개략도이다.
디코딩 기기는,
페이로드 비트스트림을 획득하도록 구성된 획득 모듈(901);
페이로드 비트스트림에 대해 비트스트림 역다중화를 수행하여 오디오 신호의 현재 프레임의 음조 성분에 관한 정보 및 대역폭 확장의 파라미터를 획득하도록 구성된 역다중화 모듈(902);
대역폭 확장의 파라미터에 기초하여 현재 프레임의 고주파 대역 신호를 획득하도록 구성된 대역폭 확장 디코딩 모듈(903);
음조 성분에 관한 정보 및 타일 정보에 기초하여 재구축을 수행하여 재구축된 음조 신호를 획득하도록 구성된 재구축 모듈(904) - 타일 정보는 현재 프레임에서 음조 성분 재구축이 수행되어야 하는 제1 주파수 범위를 지시함 -; 및
고주파 대역 신호 및 재구축된 음조 신호에 기초하여 현재 프레임의 디코딩된 신호를 획득하도록 구성된 신호 디코딩 모듈(905)을 포함한다.
가능한 구현에서, 획득 모듈(901)은 추가로, 구성 비트스트림을 획득하고; 구성 비트스트림에 기초하여 타일 정보를 획득하도록 구성될 수 있다.
가능한 구현에서, 타일 정보는 제1 수량, 식별 정보, 관계 정보 또는 변경된 타일의 수량 중 적어도 하나를 포함하고, 제1 수량은 제1 주파수 범위에 있는 타일의 수량이고, 식별 정보는 제1 주파수 범위가 대역폭 확장에 대응하는 제2 주파수 범위와 동일한지를 지시하고, 관계 정보는 제1 주파수 범위가 제2 주파수 범위와 다른 경우 제1 주파수 범위와 제2 주파수 범위 사이의 값 관계를 지시하며, 변경된 타일의 수량은 제1 주파수 범위가 제2 주파수 범위와 다른 경우 제1 주파수 범위와 제2 주파수 범위 사이에 차이가 있는 타일의 수량이다.
가능한 구현에서, 재구축 모듈(904)은 구체적으로, 타일 정보에 기초하여, 음조 성분 재구축이 수행되어야 하는 타일의 수량이 제1 수량인 것으로 결정하고; 제1 수량에 기초하여, 제1 주파수 범위에서 음조 성분 재구축이 수행되는 각각의 타일을 결정하고; 제1 주파수 범위에서, 음조 성분에 관한 정보에 기초하여 음조 성분을 재구축하여 재구축된 음조 신호를 획득하도록 구성될 수 있다.
가능한 구현에서, 제1 주파수 범위의 하한은 구성 정보에 의해 지시되는 대역폭 확장이 수행되는 제2 주파수 범위의 하한과 동일하다. 획득 모듈은 구체적으로, 제1 수량이 제2 수량보다 작거나 같으면, 제2 주파수 범위에서의 타일 분포에 기초하여 제1 주파수 범위와 제2 주파수 범위의 중첩 부분에 있는 타일을 결정하고 - 제2 수량은 제2 주파수 범위에서의 타일 수량임 -; 제1 수량이 제2 수량보다 크면, 제1 주파수 범위의 주파수 상한이 제2 주파수 범위의 주파수 상한보다 큰 것으로 결정하고, 제2 주파수 범위에서의 타일의 분포에 기초하여 제1 주파수 범위와 제2 주파수 범위의 중첩 부분에 있는 타일의 분포를 결정하고, 미리 설정된 방식으로 제1 주파수 범위와 제2 주파수 범위의 중첩되지 않은 부분에서의 타일의 분포를 결정하여, 제1 주파수 범위에서의 타일을 획득하도록 구성된다.
가능한 구현에서, 제1 주파수 범위와 제2 주파수 범위의 중첩되지 않은 부분에서 타일은 다음 조건을 충족한다: 제1 주파수 범위와 제2 주파수 범위의 중첩되지 않은 부분에서 분할된 타일의 폭은 미리 설정된 값보다 작고, 제1 주파수 범위와 제2 주파수 범위의 중첩되지 않은 부분에서 분할된 타일의 주파수 상한은 오디오 신호의 최고 주파수보다 작거나 같다.
가능한 구현에서, 음조 성분에 관한 정보는 음조 성분의 위치 수량 파라미터, 및 음조 성분의 진폭 파라미터 또는 에너지 파라미터를 포함한다.
가능한 구현에서, 음조 성분에 관한 정보는 고주파 대역 신호의 잡음 플로어 파라미터를 더 포함한다.
도 10은 본 출원에 따른 다른 인코딩 기기의 구성의 개략도이다. 인코딩 기기(1000)는 프로세서(1001), 메모리(1002) 및 송수신기(1003)를 포함할 수 있다. 프로세서(1001), 메모리(1002) 및 송수신기(1003)는 배선을 통해 상호연결된다. 메모리(1002)는 프로그램 명령어 및 데이터를 저장한다.
메모리(1002)는 도 5에 대응하는 구현에서 인코딩 기기에 의해 수행되는 단계들에 대응하는 프로그램 명령어 및 데이터를 저장한다.
프로세서(1001)는 인코딩 기기에 의해 수행되고 도 5의 임의의 실시예에 도시된 단계들을 수행하도록 구성된다. 예를 들어, 프로세서(1001)는 도 5의 단계 501 내지 단계 505를 수행할 수 있다.
송수신기(1003)는 데이터를 수신 및 전송하도록 구성될 수 있다. 예를 들어, 송수신기(1003)는 도 5의 단계 506을 수행하도록 구성될 수 있다.
일 구현에서, 인코딩 기기(1000)는 도 10에 도시된 것보다 더 많거나 더 적은 구성요소를 포함할 수 있다. 이는 단지 설명을 위한 예시일 뿐이며 본 출원에서 어떠한 한정사항도 구성하지 않는다.
도 11은 본 출원에 따른 다른 디코딩 기기의 구성의 개략도이다. 디코딩 기기(1100)는 프로세서(1101), 메모리(1102) 및 송수신기(1103)를 포함할 수 있다. 프로세서(1101), 메모리(1102) 및 송수신기(1103)는 배선을 통해 상호연결된다. 메모리(1102)는 프로그램 명령어 및 데이터를 저장한다.
메모리(1102)는 도 7에 대응하는 구현에서 디코딩 기기에 의해 수행되는 단계들에 대응하는 프로그램 명령어 및 데이터를 저장한다.
프로세서(1101)는 디코딩 기기에 의해 수행되고 도 7의 임의의 실시예에 도시된 단계를 수행하도록 구성된다. 예를 들어, 프로세서(1101)는 도 7의 단계 702, 단계 703, 단계 705 내지 단계 707 등을 수행할 수 있다.
송수신기(1103)는 데이터를 수신 및 전송하도록 구성될 수 있다. 예를 들어, 송수신기(1103)는 도 7의 단계 701 또는 단계 704를 수행하도록 구성될 수 있다.
일 구현에서, 디코딩 기기(1100)는 도 11에 도시된 것보다 더 많거나 더 적은 구성요소를 포함할 수 있다. 이는 단지 설명을 위한 예시일 뿐이며 본 출원에서 어떠한 한정사항도 구성하지 않는다.
본 출원은 통신 시스템을 더 제공한다. 통신 시스템은 인코딩 기기 및 디코딩 기기를 포함할 수 있다.
인코딩 기기는 도 8 또는 도 10에 도시된 인코딩 기기일 수 있고, 도 5에 도시된 임의의 구현에서 인코딩 기기에 의해 수행되는 단계들을 수행하도록 구성될 수 있다.
디코딩 기기는 도 9 또는 도 11에 도시된 디코딩 기기일 수 있고, 도 7에 도시된 임의의 구현에서 디코딩 기기에 의해 수행되는 단계들을 수행하도록 구성될 수 있다.
본 출원은 네트워크 기기를 제공한다. 네트워크 기기는 인코딩 기기 또는 디코딩 기기와 같은 기기에 사용될 수 있다. 네트워크 기기는 메모리에 결합되고, 메모리에 저장된 명령어를 판독하여 실행하도록 구성되어, 네트워크 기기가 도 5 내지 도 7의 임의의 구현에서 인코딩 기기 또는 디코딩 기기에 의해 수행되는 방법의 단계를 구현하도록 한다. 가능한 설계에서 네트워크 기기는 칩 또는 시스템 온 칩이다.
본 출원은 칩 시스템을 제공한다. 칩 시스템은 인코딩 기기 또는 디코딩 기기를 지원하도록 구성된 프로세서를 포함하여 전술한 측면들의 기능, 예를 들어 전술한 방법에서 데이터 및/또는 정보를 전송하거나 처리하는 기능을 구현한다. 가능한 설계에서, 칩 시스템은 메모리를 더 포함한다. 메모리는 필요한 프로그램 명령어 및 데이터를 저장하도록 구성된다. 칩 시스템은 칩을 포함할 수 있거나 칩 및 다른 개별 구성요소를 포함할 수 있다.
다른 가능한 설계에서, 칩 시스템이 인코딩 기기 또는 디코딩 기기 내의 칩인 경우, 칩은 처리 유닛 및 통신 유닛을 포함한다. 처리 유닛은, 예를 들어, 프로세서일 수 있고, 통신 유닛은, 예를 들어, 입출력 인터페이스, 핀, 회로 등일 수 있다. 처리 유닛은 저장 유닛에 저장된 컴퓨터로 실행 가능한 명령어를 실행할 수 있으므로, 인코딩 기기 또는 디코딩 기기 내의 칩은 도 5 내지 도 7의 실시예 중 어느 하나의 인코딩 기기 또는 디코딩 기기에 의해 수행되는 방법의 단계를 수행한다. 선택적으로, 저장 유닛은 칩 내의 저장 유닛, 예를 들어 레지스터 또는 버퍼이다. 대안적으로, 저장 유닛은 OLT, ONU 등에 있는 저장 유닛일 수 있지만 칩 외부에 있는, 예를 들어 판독 전용 메모리(read-only memory, ROM), 정적 정보 및 명령어를 저장할 수 있는 다른 유형의 정적 저장 기기, 또는 랜덤 액세스 메모리(random access memory, RAM)일 수 있다.
본 출원의 실시예는 메모리에 결합되도록 구성되고, 전술한 실시예들 중 어느 하나에서 인코딩 기기 또는 디코딩 기기와 관련된 방법 및 기능을 수행하도록 구성된 프로세서를 더 제공한다.
본 출원의 실시예는 컴퓨터로 판독 가능한 저장 매체를 더 제공한다. 컴퓨터로 판독 가능한 기록 매체는 컴퓨터 프로그램을 저장한다. 컴퓨터 프로그램이 컴퓨터에 의해 실행될 때, 전술한 방법 실시예 중 어느 하나의 인코딩 기기 또는 디코딩 기기와 관련된 방법 프로시저가 구현된다. 상응하게, 컴퓨터는 전술한 인코딩 기기 또는 디코딩 기기일 수 있다.
본 출원의 전술한 실시예에서의 칩 시스템, 인코딩 기기, 디코딩 기기 등의 프로세서 또는 본 출원의 전술한 실시예에서 제공된 프로세서는 중앙 처리 장치(central processing unit, CPU)일 수 있거나, 또는 다른 범용 프로세서, 디지털 신호 프로세서(digital signal processor, DSP), 주문형 반도체(application-specific integrated circuit, ASIC), 필드 프로그래머블 게이트 어레이(field programmable gate array, FPGA) 또는 다른 프로그래머블 논리 소자, 개별 게이트 또는 트랜지스터 논리 소자, 개별 하드웨어 구성요소 등일 수 있음을 이해해야 한다. 범용 프로세서는 마이크로프로세서일 수 있거나, 프로세서는 임의의 종래의 프로세서 등일 수 있다.
본 출원의 전술한 실시예에서 칩 시스템, 인코딩 기기, 디코딩 기기 등에서 프로세서의 수는 하나 이상일 수 있으며, 이는 실제 적용 시나리오에 기초하여 조정될 수 있다. 이는 단지 설명을 위한 예일 뿐이며 여기서 한정되지 않는다. 본 출원의 실시예에는 하나 이상의 메모리가 있을 수 있으며, 이는 실제 적용 시나리오에 기초하여 조정될 수 있다. 이는 단지 설명을 위한 예일 뿐이며 여기서 한정되지 않는다.
본 출원의 전술한 실시예에서 칩 시스템, 인코딩 기기, 디코딩 기기 등의 메모리, 판독 가능한 저장 매체 등은 휘발성 메모리 또는 비휘발성 메모리이거나 휘발성 메모리와 비휘발성 메모리를 모두 포함할 수 있다. 비휘발성 메모리는 판독 전용 메모리(read-only memory, ROM), 프로그램 가능한 판독 전용 메모리(programmable ROM, PROM), 소거 가능한 프로그램 가능한 판독 전용 메모리(erasable PROM, EPROM), 전기적으로 소거 가능한 프로그램 가능한 판독 전용 메모리(electrically EPROM, EEPROM) 또는 플래시 메모리일 수 있다. 휘발성 메모리는 외부 캐시로 사용되는 랜덤 액세스 메모리(random access memory, RAM)일 수 있다. 예를 들어 한정이 아닌 예의 설명을 통해, 많은 형태의 RAM이 사용될 수 있으며, 예를 들어 정적 랜덤 액세스 메모리(static RAM, SRAM), 동적 랜덤 액세스 메모리(dynamic RAM, DRAM), 동기식 동적 랜덤 액세스 메모리(synchronous DRAM, SDRAM), 더블 데이터 레이트 동기식 동적 랜덤 액세스 메모리(double data rate SDRAM, DDR SDRAM), 향상된 동기식 동적 랜덤 액세스 메모리(enhanced SDRAM, ESDRAM), 싱크링크 동적 랜덤 액세스 메모리(synchlink DRAM, SLDRAM) 및 직접 램버스 랜덤 액세스 메모리(direct rambus RAM, DR RAM)가 사용될 수 있다.
인코딩 기기 또는 디코딩 기기가 프로세서(또는 처리 유닛) 및 메모리를 포함하는 경우, 본 출원의 프로세서는 메모리와 통합될 수 있거나, 프로세서는 인터페이스를 통해 메모리에 연결될 수 있다. 이는 실제 적용 시나리오에 기초하여 조정될 수 있다. 이는 한정되지 않는다.
본 출원의 실시예는 컴퓨터 프로그램 또는 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품을 더 제공한다. 컴퓨터 프로그램이 컴퓨터에서 실행될 때, 컴퓨터는 전술한 방법 실시예 중 어느 하나에서 인코딩 기기 또는 디코딩 기기에 의해 수행되는 방법 프로시저를 구현할 수 있게 된다. 상응하여, 컴퓨터는 전술한 인코딩 기기 또는 디코딩 기기일 수 있다.
도 5 내지 도 7의 실시예의 전부 또는 일부는 소프트웨어, 하드웨어, 펌웨어, 또는 이들의 임의의 조합을 사용하여 구현될 수 있다. 실시예를 구현하기 위해 소프트웨어가 사용될 때, 실시예의 전부 또는 일부는 컴퓨터 프로그램 제품의 형태로 구현될 수 있다.
컴퓨터 프로그램 제품은 하나 이상의 컴퓨터 명령어를 포함한다. 컴퓨터 프로그램 명령어가 컴퓨터에 로딩되어 실행될 때, 본 출원의 실시예에 따른 프로시저 또는 기능이 전부 또는 부분적으로 생성된다. 컴퓨터는 범용 컴퓨터, 특수 목적 컴퓨터, 컴퓨터 네트워크 또는 기타 프로그램 가능한 장치일 수 있다. 컴퓨터 명령어는 컴퓨터로 판독 가능한 저장 매체에 저장될 수 있거나 컴퓨터로 판독 가능한 저장 매체에서 다른 컴퓨터로 판독 가능한 저장 매체로 송신될 수 있다. 예를 들어, 컴퓨터 명령어는 웹사이트, 컴퓨터, 서버 또는 데이터 센터에서 유선(예: 동축 케이블, 광섬유 또는 디지털 가입자 회선(digital subscriber line, DSL)) 또는 무선(예: 적외선, 라디오 또는 마이크로파) 방식으로 다른 웹사이트, 컴퓨터, 서버 또는 데이터 센터로 송신될 수 있다. 컴퓨터로 판독 가능한 저장 매체는 컴퓨터에 의해 액세스 가능한 임의의 사용 가능한 매체이거나, 하나 이상의 사용 가능한 매체를 통합한 서버 또는 데이터 센터와 같은 데이터 기기일 수 있다. 사용 가능한 매체는 자기 매체(예: 플로피 디스크, 하드 디스크 또는 자기 테이프), 광학 매체(예: DVD), 반도체 매체(예: 솔리드 스테이트 디스크(Solid-State Disk, SSD)) 등일 수 있다.
편리하고 간략한 설명을 위해, 전술한 시스템, 장치 및 유닛의 상세한 작동 프로세스에 대해서는 전술한 방법 실시예의 대응하는 프로세스를 참조한다는 것은 당업자에게 명확하게 이해될 수 있으며, 세부 사항은 여기에서 다시 설명되지 않는다.
본 출원에 제공된 여러 실시예에서, 개시된 시스템, 장치 및 방법은 다른 방식으로 구현될 수 있음을 이해해야 한다. 예를 들어, 설명된 장치 실시예는 단지 예일 뿐이다. 예를 들어, 유닛들로의 분할은 단지 논리적 기능 분할이며 실제 구현시에는 다른 분할일 수 있다. 예를 들어, 복수의 유닛 또는 구성요소가 다른 시스템에 결합 또는 통합될 수 있거나, 일부 기능이 무시되거나 수행되지 않을 수 있다. 또한, 표시되거나 논의된 상호 결합 또는 직접 결합 또는 통신 연결은 일정한 인터페이스를 통해 구현될 수 있다. 장치 또는 유닛 간의 간접 결합 또는 통신 연결은 전자적 형태, 기계적 형태 또는 기타 형태로 구현될 수 있다.
별개의 부분으로 설명된 유닛은 물리적으로 분리되거나 분리되지 않을 수 있으며, 유닛으로 표시된 부분은 물리적 유닛일 수도 물리적 유닛이 아닐 수도 있고, 한 곳에 위치할 수도, 복수의 네트워크 유닛에 분산될 수도 있다. 유닛의 일부 또는 전부는 실시예의 방안의 목적을 달성하기 위한 실제 요건에 기초하여 선택될 수 있다.
또한, 본 출원의 실시예에서 기능 유닛은 하나의 처리 유닛으로 통합될 수 있고, 각각의 유닛은 물리적으로 단독으로 존재할 수 있거나, 또는 둘 이상의 유닛이 하나의 유닛으로 통합될 수 있다. 통합된 유닛은 하드웨어의 형태로 구현될 수 있거나, 소프트웨어 기능 유닛의 형태로 구현될 수도 있다.
통합된 유닛이 소프트웨어 기능 유닛의 형태로 구현되어 독립적인 제품으로 판매되거나 사용되는 경우, 통합된 유닛은 컴퓨터로 판독 가능한 저장 매체에 저장될 수 있다. 이러한 이해를 바탕으로, 본 출원의 기술적 방안은 본질적으로, 또는 종래 기술에 기여하는 부분, 또는 기술적 방안의 전부 또는 일부는 소프트웨어 제품의 형태로 구현될 수 있다. 컴퓨터 소프트웨어 제품은 저장 매체에 저장되며 컴퓨터 기기(개인용 컴퓨터, 서버 또는 다른 네트워크 기기일 수 있음)에게 본 출원의 도 5 내지 도 7의 실시예에 설명된 방법의 단계 전체 또는 일부를 수행하도록 명령하기 위한 여러 명령어를 포함한다. 저장 매체로는 USB 플래시 드라이브, 탈착 가능한 하드 디스크, 판독 전용 메모리(ROM, Read-Only Memory), 랜덤 액세스 메모리(RAM, Random Access Memory), 자기 디스크, 또는 광 디스크와 같은, 프로그램 코드를 저장할 수 있는 다양한 매체를 포함한다.
본 출원의 명세서, 청구범위 및 첨부 도면에서 "제1(first)", "제2(second)" 등의 용어는 유사한 대상을 구별하기 위한 것이고 반드시 특정 순서 또는 시퀀스를 나타내는 것은 아니다. 이러한 방식으로 사용된 용어는 적절한 상황에서 상호교환 가능하며, 이는 본 출원의 실시예에서 동일한 속성을 갖는 객체가 설명될 때 사용되는 단지 구별 방식일 뿐이다. 또한, 용어 "포함하다(include)", "포함하다(contain)" 및 기타 변형은 비배타적 포함을 포함하는 것을 의미하므로 일련의 유닛을 포함하는 프로세스, 방법, 시스템, 제품 또는 기기가 반드시 그러한 유닛으로 한정되는 것은 아니라, 명시적으로 나열되지 않았거나 그러한 프로세스, 방법, 제품 또는 장치에 고유하지 않은 다른 유닛을 포함할 수 있다.
본 출원의 실시예에서 제공되는 메시지/프레임/정보, 모듈, 유닛 등의 명칭은 단지 예일 뿐이며, 메시지/프레임/정보, 모듈, 유닛 등이 동일한 기능을 가지고 있다면 다른 명칭이 사용될 수 있다.
본 출원의 실시예에서 사용된 용어는 단지 구체적인 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 본 출원의 실시예에서 사용된 단수 형태의 용어 "일(a)", "그(the)" 및 "이(this)"는 문맥상 명백하게 달리 명시되지 않는 한 복수 형태를 포함하는 것으로 의도된다. 본 출원의 설명에서, "/"는 달리 명시되지 않는 한, 연관된 객체들 사이의 "또는" 관계를 나타낸다는 것을 또한 이해해야 한다. 예를 들어, A/B는 A 또는 B를 나타낼 수 있다. 본 출원에서 "및/또는"이라는 용어는 단지 연관된 객체들 간의 연관 관계일 뿐이, 세 가지 관계가 존재할 수 있음을 나타낸다. 예를 들어, A 및/또는 B는 다음 세 가지 경우: A만 존재하는 경우, A와 B가 모두 존재하는 경우, B만 존재하는 경우를 나타낼 수 있으며, 여기서 A와 B는 각각 단수 또는 복수일 수 있다.
문맥에 따라, 예를 들어, 본 명세서에서 사용된 단어 "~ 면(if)"은 "~하는 때(while)" 또는 "~하는 경우(when)" 또는 "결정에 응답하여" 또는 "검출에 응답하여"로 설명될 수 있다. 유사하게, 문맥에 따라 (명시된 조건 또는 이벤트를) "결정하면" 또는 "검출하면"은 (명시된 조건 또는 이벤트를) "결정하는 경우" 또는 "결정한 것에 응답하여" 또는 (명시된 조건 또는 이벤트를) 검출하는 경우" 또는 "검출한 것에 응답하여"로 설명될 수 있다.
결론적으로, 전술한 실시예는 단지 본 출원의 기술적 방안을 설명하기 위한 것이지, 본 출원을 한정하기 위한 것은 아니다. 본 출원이 전술한 실시예들을 참조하여 상세히 설명되었지만, 당업자는 본 출원의 실시예들의 기술적 방안의 범위를 벗어나지 않으면서 그들이 여전히 전술한 실시예들에 설명된 기술적 방안을 수정하거나 일부 기술적 특징에 대해 동등한 대체를 할 수 있음을 이해해야 한다.

Claims (49)

  1. 오디오 신호 인코딩 방법으로서,
    오디오 신호의 현재 프레임을 획득하는 단계 - 상기 현재 프레임은 고주파 대역 신호 및 저주파 대역 신호를 포함함 -;
    상기 고주파 대역 신호, 상기 저주파 대역 신호 및 대역폭 확장의 미리 설정된 구성 정보에 기초하여 상기 현재 프레임의 대역폭 확장의 파라미터를 획득하는 단계;
    타일 정보를 획득하는 단계 - 상기 타일 정보는 상기 고주파 대역 신호에 대해 음조 성분 검출(tonal component detection)이 수행되어야 하는 제1 주파수 범위를 지시함 -;
    상기 제1 주파수 범위에서 음조 성분 검출을 수행하여 상기 고주파 대역 신호의 음조 성분에 관한 정보를 획득하는 단계; 및
    상기 대역폭 확장의 파라미터 및 상기 음조 성분에 관한 정보에 대해 비트스트림 다중화를 수행하여 페이로드 비트스트림을 획득하는 단계
    를 포함하는 오디오 신호 인코딩 방법.
  2. 제1항에 있어서,
    상기 오디오 신호 인코딩 방법은,
    상기 타일 정보에 대해 비트스트림 다중화를 수행하여 구성 비트스트림을 획득하는 단계를 더 포함하는 오디오 신호 인코딩 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 타일 정보를 획득하는 단계는,
    상기 오디오 신호의 샘플링 주파수 및 상기 대역폭 확장의 구성 정보에 기초하여 상기 타일 정보를 결정하는 단계를 포함하는, 오디오 신호 인코딩 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 타일 정보는 제1 수량, 식별 정보, 관계 정보 또는 변경된 타일의 수량 중 적어도 하나를 포함하고, 상기 제1 수량은 상기 제1 주파수 범위에 있는 타일의 수량이고, 상기 식별 정보는 상기 제1 주파수 범위가 상기 구성 정보에 의해 지시되는 대역폭 확장에 대응하는 제2 주파수 범위와 동일한지를 지시하고, 상기 관계 정보는 상기 제1 주파수 범위가 상기 제2 주파수 범위와 다른 경우 상기 제1 주파수 범위와 상기 제2 주파수 범위 사이의 값 관계를 지시하며, 상기 변경된 타일의 수량은 상기 제1 주파수 범위가 상기 제2 주파수 범위와 다른 경우 상기 제1 주파수 범위와 상기 제2 주파수 범위 사이에 차이가 있는 타일의 수량인, 오디오 신호 인코딩 방법.
  5. 제4항에 있어서,
    상기 타일 정보는 적어도 상기 제1 수량을 포함하고, 상기 대역폭 확장의 구성 정보는 대역폭 확장 상한 및/또는 제2 수량을 포함하고, 상기 제2 수량은 상기 제2 주파수 범위에 있는 타일의 수량이며;
    상기 오디오 신호 인코딩 방법은,
    상기 현재 프레임의 인코딩 레이트, 상기 오디오 신호의 채널의 수량, 상기 오디오 신호의 샘플링 주파수, 상기 대역폭 확장 상한, 또는 상기 제2 수량 중 하나 이상에 기초하여 상기 제1 수량을 결정하는 단계를 더 포함하는 오디오 신호 인코딩 방법.
  6. 제5항에 있어서,
    상기 대역폭 확장 상한은 최고 주파수, 최고 빈 인덱스, 최고 주파수 대역 인덱스, 또는 상기 제2 주파수 범위에서의 최고 타일 인덱스 중 하나 이상을 포함하는, 오디오 신호 인코딩 방법.
  7. 제5항 또는 제6항에 있어서,
    상기 오디오 신호의 적어도 하나의 채널이 있고;
    상기 현재 프레임의 인코딩 레이트, 상기 오디오 신호의 채널의 수량, 상기 샘플링 주파수, 상기 대역폭 확장 상한, 또는 상기 제2 수량 중 하나 이상에 기초하여 상기 제1 수량을 결정하는 단계는,
    상기 현재 프레임의 인코딩 레이트 및 상기 채널의 수량에 기초하여 상기 현재 프레임에서 현재 채널의 제1 결정 식별자를 결정하는 단계; 및 상기 제1 결정 식별자에 기초하여 상기 제2 수량과 결합하여 현재 채널의 제1 수량을 결정하는 단계; 또는
    상기 샘플링 주파수 및 상기 대역폭 확장 상한에 기초하여 상기 현재 프레임에서 현재 채널의 제2 결정 식별자를 결정하는 단계; 및 상기 제2 결정 식별자에 기초하여 상기 제2 수량과 결합하여 현재 채널의 제1 수량을 결정하는 단계; 또는
    상기 현재 프레임의 인코딩 레이트 및 상기 채널의 수량에 기초하여 상기 현재 프레임에서 현재 채널의 제1 결정 식별자를 결정하고, 상기 샘플링 주파수 및 상기 대역폭 확장 상한에 기초하여 상기 현재 프레임에서 상기 현재 채널의 제2 결정 식별자를 결정하는 단계; 및 상기 제1 결정 식별자 및 상기 제2 결정 식별자에 기초하여 상기 제2 수량과 결합하여 상기 현재 프레임에서 현재 채널의 제1 수량을 결정하는 단계를 포함하는, 오디오 신호 인코딩 방법.
  8. 제7항에 있어서,
    상기 현재 프레임의 인코딩 레이트 및 상기 채널의 수량에 기초하여 상기 현재 프레임에서 현재 채널의 제1 결정 식별자를 결정하는 단계는,
    상기 현재 프레임의 인코딩 레이트 및 상기 채널의 수량에 기초하여 상기 현재 프레임에서 채널 각각의 평균 인코딩 레이트를 획득하는 단계; 및
    상기 평균 인코딩 레이트 및 제1 임계값에 기초하여 상기 현재 채널의 제1 결정 식별자를 획득하는 단계를 포함하는, 오디오 신호 인코딩 방법.
  9. 제7항에 있어서,
    상기 현재 프레임의 인코딩 레이트 및 상기 채널의 수량에 기초하여 상기 현재 프레임에서 현재 채널의 제1 결정 식별자를 결정하는 단계는,
    상기 현재 프레임의 인코딩 레이트 및 상기 채널의 수량에 기초하여 상기 현재 채널의 실제 인코딩 레이트를 결정하는 단계; 및
    상기 현재 채널의 실제 인코딩 레이트 및 제2 임계값에 기초하여 상기 현재 채널의 제1 결정 식별자를 획득하는 단계를 포함하는, 오디오 신호 인코딩 방법.
  10. 제6항 내지 제8항 중 어느 한 항에 있어서,
    상기 대역폭 확장 상한이 상기 최고 주파수를 포함하는 경우, 상기 샘플링 주파수 및 상기 대역폭 확장 상한에 기초하여 상기 현재 프레임에서 현재 채널의 제2 결정 식별자를 결정하는 단계는,
    상기 대역폭 확장 상한에 포함된 최고 주파수가 상기 오디오 신호의 최고 주파수와 동일한지를 비교하여, 상기 현재 프레임에서 상기 현재 채널의 제2 결정 식별자를 결정하는 단계를 포함하거나; 또는
    상기 대역폭 확장 상한이 상기 최고 주파수 대역 인덱스를 포함하는 경우, 상기 샘플링 주파수 및 상기 대역폭 확장 상한에 기초하여 상기 현재 프레임에서 현재 채널의 제2 결정 식별자를 결정하는 단계는,
    상기 대역폭 확장 상한에 포함된 최고 주파수 대역 인덱스가 상기 오디오 신호의 최고 주파수 대역 인덱스와 동일한지를 비교하여, 상기 현재 프레임에서 상기 현재 채널의 제2 결정 식별자를 결정하는 단계 - 상기 오디오 신호의 최고 주파수 대역 인덱스는 상기 샘플링 주파수에 기초하여 결정됨 -를 포함하는, 오디오 신호 인코딩 방법.
  11. 제7항 내지 제10항 중 어느 한 항에 있어서,
    상기 제2 수량과 결합하여 상기 현재 프레임에서 현재 채널의 제1 수량을 결정하는 단계는,
    상기 제1 결정 식별자와 상기 제2 결정 식별자 모두가 미리 설정된 조건을 충족하면, 상기 제2 주파수 범위에서 상기 제2 수량에 하나 이상의 타일을 추가하여 상기 현재 채널의 제1 수량을 획득하는 단계; 또는
    상기 제1 결정 식별자 또는 상기 제2 결정 식별자가 미리 설정된 조건을 충족하지 않으면, 상기 대역폭 확장에 대응하는 상기 제2 수량을 상기 현재 채널의 제1 수량으로 사용하는 단계를 포함하는, 오디오 신호 인코딩 방법.
  12. 제4항 내지 제11항 중 어느 한 항에 있어서,
    상기 제1 주파수 범위의 하한은 상기 구성 정보에 의해 지시되는 대역폭 확장이 수행되는 상기 제2 주파수 범위의 하한과 동일하고;
    상기 제1 수량이 상기 제2 주파수 범위에서의 타일의 제2 수량보다 작거나 같은 경우, 상기 제1 주파수 범위에서의 타일의 분포는 상기 제2 주파수 범위에서의 타일의 분포와 동일하고;
    상기 제1 수량이 상기 제2 수량보다 큰 경우, 상기 제1 주파수 범위의 주파수 상한은 상기 제2 주파수 범위의 주파수 상한보다 크고, 상기 제1 주파수 범위와 상기 제2 주파수 범위의 중첩 부분에서의 타일의 분포는 상기 제2 주파수 범위에서의 타일의 분포와 동일하며, 상기 제1 주파수 범위와 상기 제2 주파수 범위의 중첩되지 않은 부분에서의 타일의 분포는 미리 정해진 방식으로 결정되는, 오디오 신호 인코딩 방법.
  13. 제12항에 있어서,
    상기 제1 주파수 범위와 상기 제2 주파수 범위의 중첩되지 않은 부분에서의 타일의 폭은 미리 설정된 값보다 작거나 같고, 상기 제1 주파수 범위와 상기 제2 주파수 범위의 중첩되지 않은 부분에서의 타일의 주파수 상한은 상기 오디오 신호의 최고 주파수보다 작거나 같은, 오디오 신호 인코딩 방법.
  14. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 제1 주파수 범위에 있는 타일의 수량은 미리 설정된 수량인, 오디오 신호 인코딩 방법.
  15. 디코딩 방법으로서,
    페이로드 비트스트림을 획득하는 단계;
    상기 페이로드 비트스트림에 대해 비트스트림 역다중화를 수행하여 오디오 신호의 현재 프레임의 음조 성분에 관한 정보 및 대역폭 확장의 파라미터를 획득하는 단계;
    상기 대역폭 확장의 파라미터에 기초하여 상기 현재 프레임의 고주파 대역 신호를 획득하는 단계;
    상기 음조 성분에 관한 정보 및 타일 정보에 기초하여 재구축을 수행하여 재구축된 음조 신호를 획득하는 단계 - 상기 타일 정보는 상기 현재 프레임에서 음조 성분 재구축이 수행되어야 하는 제1 주파수 범위를 지시함 -; 및
    상기 고주파 대역 신호 및 상기 재구축된 음조 신호에 기초하여 상기 현재 프레임의 디코딩된 신호를 획득하는 단계
    를 포함하는 디코딩 방법.
  16. 제15항에 있어서,
    상기 디코딩 방법은,
    구성 비트스트림을 획득하는 단계; 및
    상기 구성 비트스트림에 기초하여 상기 타일 정보를 획득하는 단계를 더 포함하는 디코딩 방법.
  17. 제15항 또는 제16항에 있어서,
    상기 타일 정보는 제1 수량, 식별 정보, 관계 정보 또는 변경된 타일의 수량 중 적어도 하나를 포함하고, 상기 제1 수량은 상기 제1 주파수 범위에 있는 타일의 수량이고, 상기 식별 정보는 상기 제1 주파수 범위가 상기 대역폭 확장에 대응하는 제2 주파수 범위와 동일한지를 지시하고, 상기 관계 정보는 상기 제1 주파수 범위가 상기 제2 주파수 범위와 다른 경우 상기 제1 주파수 범위와 상기 제2 주파수 범위 사이의 값 관계를 지시하며, 상기 변경된 타일의 수량은 상기 제1 주파수 범위가 상기 제2 주파수 범위와 다른 경우 상기 제1 주파수 범위와 상기 제2 주파수 범위 사이에 차이가 있는 타일의 수량인, 디코딩 방법.
  18. 제17항에 있어서,
    상기 음조 성분에 관한 정보 및 타일 정보에 기초하여 재구축을 수행하여 재구축된 음조 신호를 획득하는 단계는,
    상기 타일 정보에 기초하여, 음조 성분 재구축이 수행되어야 하는 타일의 수량이 제1 수량인 것으로 결정하는 단계;
    상기 제1 수량에 기초하여, 상기 제1 주파수 범위에서 음조 성분 재구축이 수행되는 각각의 타일을 결정하는 단계; 및
    상기 제1 주파수 범위에서, 상기 음조 성분에 관한 정보에 기초하여 상기 음조 성분을 재구축하여 상기 재구축된 음조 신호를 획득하하는 단계를 포함하는, 디코딩 방법.
  19. 제18항에 있어서,
    상기 제1 주파수 범위의 하한은 상기 구성 정보에 의해 지시되는 대역폭 확장이 수행되는 제2 주파수 범위의 하한과 동일하고; 상기 제1 수량에 기초하여, 상기 제1 주파수 범위에서 음조 성분 재구축이 수행되는 각각의 타일을 결정하는 단계는,
    상기 제1 수량이 제2 수량보다 작거나 같으면, 상기 제2 주파수 범위에서의 타일 분포에 기초하여 상기 제1 주파수 범위에서의 타일 분포를 결정하는 단계 - 상기 제2 수량은 상기 제2 주파수 범위에서의 타일 수량임 -; 및
    상기 제1 수량이 상기 제2 수량보다 크면, 상기 제1 주파수 범위의 주파수 상한이 상기 제2 주파수 범위의 주파수 상한보다 큰 것으로 결정하고, 상기 제2 주파수 범위에서의 타일의 분포에 기초하여 상기 제1 주파수 범위와 상기 제2 주파수 범위의 중첩 부분에서의 타일의 분포를 결정하고, 미리 설정된 방식으로 상기 제1 주파수 범위와 상기 제2 주파수 범위의 중첩되지 않은 부분에서의 타일의 분포를 결정하여, 상기 제1 주파수 범위에서의 타일의 분포를 획득하는 단계를 포함하는, 디코딩 방법.
  20. 제19항에 있어서,
    상기 제1 주파수 범위와 상기 제2 주파수 범위의 중첩되지 않은 부분에서의 분할된 타일의 폭은 미리 설정된 값보다 작거나 같고, 상기 제1 주파수 범위와 상기 제2 주파수 범위의 중첩되지 않은 부분에서의 분할된 타일의 주파수 상한은 상기 오디오 신호의 최고 주파수보다 작거나 같은, 디코딩 방법.
  21. 인코딩 기기로서,
    오디오 신호의 현재 프레임을 획득하도록 구성된 오디오 획득 모듈 - 상기 현재 프레임은 고주파 대역 신호 및 저주파 대역 신호를 포함함 -;
    상기 고주파 대역 신호, 상기 저주파 대역 신호 및 대역폭 확장의 미리 설정된 구성 정보에 기초하여 상기 현재 프레임의 대역폭 확장의 파라미터를 획득하도록 구성된 파라미터 획득 모듈;
    타일 정보를 획득하도록 구성된 주파수 획득 모듈 - 상기 타일 정보는 상기 고주파 대역 신호에 대해 음조 성분 검출이 수행되어야 하는 제1 주파수 범위를 지시함 -;
    상기 제1 주파수 범위에서 음조 성분 검출을 수행하여 상기 고주파 대역 신호의 음조 성분에 관한 정보를 획득하도록 구성된 음조 성문 인코딩 모듈; 및
    상기 대역폭 확장의 파라미터 및 상기 음조 성분에 관한 정보에 대해 비트스트림 다중화를 수행하여 페이로드 비트스트림을 획득하도록 구성된 비트스트림 다중화 모듈
    을 포함하는 인코딩 기기.
  22. 제21항에 있어서,
    상기 인코딩 기기는 더 포함하고,
    상기 비트스트림 멀티플렉싱 모듈은 추가로, 상기 타일 정보에 대해 비트스트림 다중화를 수행하여 구성 비트스트림을 획득하도록 구성되는, 인코딩 기기.
  23. 제21항 또는 제22항에 있어서,
    상기 주파수 획득 모듈은 구체적으로, 상기 오디오 신호의 샘플링 주파수 및 상기 대역폭 확장의 구성 정보에 기초하여 상기 타일 정보를 결정하도록 구성되는, 인코딩 기기.
  24. 제21항 내지 제23항 중 어느 한 항에 있어서,
    상기 타일 정보는 제1 수량, 식별 정보, 관계 정보 또는 변경된 타일의 수량 중 적어도 하나를 포함하고, 상기 제1 수량은 상기 제1 주파수 범위에 있는 타일의 수량이고, 상기 식별 정보는 상기 제1 주파수 범위가 상기 대역폭 확장에 대응하는 제2 주파수 범위와 동일한지를 지시하고, 상기 관계 정보는 상기 제1 주파수 범위가 상기 제2 주파수 범위와 다른 경우 상기 제1 주파수 범위와 상기 제2 주파수 범위 사이의 값 관계를 지시하며, 상기 변경된 타일의 수량은 상기 제1 주파수 범위가 상기 제2 주파수 범위와 다른 경우 상기 제1 주파수 범위와 상기 제2 주파수 범위 사이에 차이가 있는 타일의 수량인, 인코딩 기기.
  25. 제24항에 있어서,
    상기 타일 정보는 적어도 상기 제1 수량을 포함하고, 상기 대역폭 확장의 구성 정보는 대역폭 확장 상한 및/또는 제2 수량을 포함하고, 상기 제2 수량은 상기 제2 주파수 범위에 있는 타일의 수량이며;
    상기 주파수 획득 모듈은 구체적으로, 상기 현재 프레임의 인코딩 레이트, 상기 오디오 신호의 채널의 수량, 상기 오디오 신호의 샘플링 주파수, 상기 대역폭 확장 상한, 또는 상기 제2 수량 중 하나 이상에 기초하여 상기 제1 수량을 결정하도록 구성되는, 인코딩 기기.
  26. 제25항에 있어서,
    상기 대역폭 확장 상한은 최고 주파수, 최고 빈 인덱스, 최고 주파수 대역 인덱스, 또는 상기 제2 주파수 범위에서의 최고 타일 인덱스 중 하나 이상을 포함하는, 인코딩 기기.
  27. 제25항 또는 제26항에 있어서,
    상기 오디오 신호의 적어도 하나의 채널이 있고;
    상기 주파수 획득 모듈은 구체적으로,
    상기 현재 프레임의 인코딩 레이트 및 상기 채널의 수량에 기초하여 상기 현재 프레임에서 현재 채널의 제1 결정 식별자를 결정하고 - 상기 현재 프레임의 인코딩 레이트는 상기 현재 프레임의 인코딩 레이트임 -; 상기 제1 결정 식별자에 기초하여 상기 제2 수량과 결합하여 현재 채널의 제1 수량을 결정하거나;
    상기 샘플링 주파수 및 상기 대역폭 확장 상한에 기초하여 상기 현재 프레임에서 현재 채널의 제2 결정 식별자를 결정하고; 상기 제2 결정 식별자에 기초하여 상기 제2 수량과 결합하여 현재 채널의 제1 수량을 결정하거나;
    상기 현재 프레임의 인코딩 레이트 및 상기 채널의 수량에 기초하여 상기 현재 프레임에서 현재 채널의 제1 결정 식별자를 결정하고, 상기 샘플링 주파수 및 상기 대역폭 확장 상한에 기초하여 상기 현재 프레임에서 상기 현재 채널의 제2 결정 식별자를 결정하고; 상기 제1 결정 식별자 및 상기 제2 결정 식별자에 기초하여 상기 제2 수량과 결합하여 상기 현재 프레임에서 현재 채널의 제1 수량을 결정하도록 구성되는, 인코딩 기기.
  28. 제27항에 있어서,
    상기 주파수 획득 모듈은 구체적으로,
    상기 현재 프레임의 인코딩 레이트 및 상기 채널의 수량에 기초하여 상기 현재 프레임에서 채널 각각의 평균 인코딩 레이트를 획득하고;
    상기 평균 인코딩 레이트 및 제1 임계값에 기초하여 상기 현재 채널의 제1 결정 식별자를 획득하도록 구성되는, 인코딩 기기.
  29. 제27항에 있어서,
    상기 주파수 획득 모듈은 구체적으로,
    상기 현재 프레임의 인코딩 레이트 및 상기 채널의 수량에 기초하여 상기 현재 채널의 실제 인코딩 레이트를 결정하고;
    상기 현재 채널의 실제 인코딩 레이트 및 제2 임계값에 기초하여 상기 현재 채널의 제1 결정 식별자를 획득하도록 구성되는, 인코딩 기기.
  30. 제26항 내지 제29항 중 어느 한 항에 있어서,
    상기 주파수 획득 모듈은 구체적으로,
    상기 주파수 확장 상한이 상기 최고 주파수를 포함하는 경우, 상기 대역폭 확장 상한에 포함된 최고 주파수가 상기 오디오 신호의 최고 주파수와 동일한지를 비교하여, 상기 현재 프레임에서 상기 현재 채널의 제2 결정 식별자를 결정하거나;
    상기 대역폭 확장 상한이 상기 최고 주파수 대역 인덱스를 포함하는 경우, 상기 대역폭 확장 상한에 포함된 최고 주파수 대역 인덱스가 상기 오디오 신호의 최고 주파수 대역 인덱스와 동일한지를 비교하여, 상기 현재 프레임에서 상기 현재 채널의 제2 결정 식별자를 결정하도록 구성되고, 상기 오디오 신호의 최고 주파수 대역 인덱스는 상기 샘플링 주파수에 기초하여 결정되는, 인코딩 기기.
  31. 제27항 내지 제30항 중 어느 한 항에 있어서,
    상기 주파수 획득 모듈은 구체적으로,
    상기 제1 결정 식별자와 상기 제2 결정 식별자 모두가 미리 설정된 조건을 충족하면, 상기 대역폭 확장에 대응하는 상기 제2 수량에 하나 이상의 타일을 추가하여 상기 현재 채널의 제1 수량을 획득하거나;
    상기 제1 결정 식별자 또는 상기 제2 결정 식별자가 미리 설정된 조건을 충족하지 않으면, 상기 대역폭 확장에 대응하는 상기 제2 수량을 상기 현재 채널의 제1 수량으로 사용하도록 구성되는, 인코딩 기기.
  32. 제21항 내지 제31항 중 어느 한 항에 있어서,
    상기 제1 주파수 범위의 하한은 상기 구성 정보에 의해 지시되는 대역폭 확장이 수행되는 상기 제2 주파수 범위의 하한과 동일하고;
    상기 타일 정보에 포함된 상기 제1 수량이 상기 대역폭 확장에 대응하는 상기 제2 수량보다 작거나 같은 경우, 상기 제1 주파수 범위에서의 타일의 분포는 상기 제2 주파수 범위에서의 타일의 분포와 동일하고;
    상기 제1 수량이 상기 제2 수량보다 큰 경우, 상기 제1 주파수 범위의 주파수 상한은 상기 제2 주파수 범위의 주파수 상한보다 크고, 상기 제1 주파수 범위와 상기 제2 주파수 범위의 중첩 부분에서의 타일의 분포는 상기 제2 주파수 범위에서의 타일의 분포와 동일하며, 상기 제1 주파수 범위와 상기 제2 주파수 범위의 중첩되지 않은 부분에서의 타일의 분포는 미리 정해진 방식으로 결정되는, 인코딩 기기.
  33. 제32항에 있어서,
    상기 제1 주파수 범위와 상기 제2 주파수 범위의 중첩되지 않은 부분에서의 타일의 폭은 미리 설정된 값보다 작고, 상기 제1 주파수 범위와 상기 제2 주파수 범위의 중첩되지 않은 부분에서의 타일의 주파수 상한은 상기 오디오 신호의 최고 주파수보다 작거나 같은, 인코딩 기기.
  34. 제21항 내지 제33항 중 어느 한 항에 있어서,
    상기 고주파 대역 신호에 대응하는 주파수 범위는 하나 이상의 타일을 포함하고, 하나의 타일은 하나 이상의 주파수 대역을 포함하는, 인코딩 기기.
  35. 제21항 내지 제24항 중 어느 한 항에 있어서,
    상기 제1 주파수 범위에 있는 타일의 수량은 미리 설정된 수량인, 인코딩 기기.
  36. 디코딩 기기로서,
    페이로드 비트스트림을 획득하도록 구성된 획득 모듈;
    상기 페이로드 비트스트림에 대해 비트스트림 역다중화를 수행하여 오디오 신호의 현재 프레임의 음조 성분에 관한 정보 및 대역폭 확장의 파라미터를 획득하도록 구성된 역다중화 모듈;
    상기 대역폭 확장의 파라미터에 기초하여 상기 현재 프레임의 고주파 대역 신호를 획득하도록 구성된 대역폭 확장 디코딩 모듈;
    상기 음조 성분에 관한 정보 및 타일 정보에 기초하여 재구축을 수행하여 재구축된 음조 신호를 획득하도록 구성된 재구축 모듈 - 상기 타일 정보는 상기 현재 프레임에서 음조 성분 재구축이 수행되어야 하는 제1 주파수 범위를 지시함 -; 및
    상기 고주파 대역 신호 및 상기 재구축된 음조 신호에 기초하여 상기 현재 프레임의 디코딩된 신호를 획득하도록 구성된 신호 디코딩 모듈
    을 포함하는 디코딩 기기.
  37. 제36항에 있어서,
    상기 획득 모듈은 추가로,
    구성 비트스트림을 획득하고;
    상기 구성 비트스트림에 기초하여 상기 타일 정보를 획득하도록 구성되는, 디코딩 기기.
  38. 제36항 또는 제37항에 있어서,
    상기 타일 정보는 제1 수량, 식별 정보, 관계 정보 또는 변경된 타일의 수량 중 적어도 하나를 포함하고, 상기 제1 수량은 상기 제1 주파수 범위에 있는 타일의 수량이고, 상기 식별 정보는 상기 제1 주파수 범위가 상기 대역폭 확장에 대응하는 제2 주파수 범위와 동일한지를 지시하고, 상기 관계 정보는 상기 제1 주파수 범위가 상기 제2 주파수 범위와 다른 경우 상기 제1 주파수 범위와 상기 제2 주파수 범위 사이의 값 관계를 지시하며, 상기 변경된 타일의 수량은 상기 제1 주파수 범위가 상기 제2 주파수 범위와 다른 경우 상기 제1 주파수 범위와 상기 제2 주파수 범위 사이에 차이가 있는 타일의 수량인, 디코딩 기기.
  39. 제38항에 있어서,
    상기 재구축 모듈은 구체적으로,
    상기 타일 정보에 기초하여, 음조 성분 재구축이 수행되어야 하는 타일의 수량이 제1 수량인 것으로 결정하고;
    상기 제1 수량에 기초하여, 상기 제1 주파수 범위에서 음조 성분 재구축이 수행되는 각각의 타일을 결정하고;
    상기 제1 주파수 범위에서, 상기 음조 성분에 관한 정보에 기초하여 상기 음조 성분을 재구축하여 상기 재구축된 음조 신호를 획득하도록 구성되는, 디코딩 기기.
  40. 제39항에 있어서,
    상기 제1 주파수 범위의 하한은 상기 구성 정보에 의해 지시되는 대역폭 확장이 수행되는 제2 주파수 범위의 하한과 동일하고; 상기 획득 모듈은 구체적으로,
    상기 제1 수량이 제2 수량보다 작거나 같으면, 상기 제2 주파수 범위에서의 타일 분포에 기초하여 상기 제1 주파수 범위에서의 타일 분포를 결정하고 - 상기 제2 수량은 상기 제2 주파수 범위에서의 타일 수량임 -;
    상기 제1 수량이 상기 제2 수량보다 크면, 상기 제1 주파수 범위의 주파수 상한이 상기 제2 주파수 범위의 주파수 상한보다 큰 것으로 결정하고, 상기 제2 주파수 범위에서의 타일의 분포에 기초하여 상기 제1 주파수 범위와 상기 제2 주파수 범위의 중첩 부분에서의 타일의 분포를 결정하고, 미리 설정된 방식으로 상기 제1 주파수 범위와 상기 제2 주파수 범위의 중첩되지 않은 부분에서의 타일의 분포를 결정하여, 상기 제1 주파수 범위에서의 타일의 분포를 획득하도록 구성되는, 디코딩 기기.
  41. 제40항에 있어서,
    상기 제1 주파수 범위와 상기 제2 주파수 범위의 중첩되지 않은 부분에서의 분할된 타일의 폭은 미리 설정된 값보다 작고, 상기 제1 주파수 범위와 상기 제2 주파수 범위의 중첩되지 않은 부분에서의 분할된 타일의 주파수 상한은 상기 오디오 신호의 최고 주파수보다 작거나 같은, 디코딩 기기.
  42. 프로세서를 포함하는 인코딩 기기로서,
    상기 프로세서는 메모리에 결합되고, 상기 메모리는 프로그램을 저장하고, 상기 메모리에 저장된 프로그램 명령어가 상기 프로세서에 의해 실행될 때, 제1항 내지 제14항 중 어느 한 항에 따른 방법이 구현되는,
    인코딩 기기.
  43. 프로세서를 포함하는 디코딩 기기로서,
    상기 프로세서는 메모리에 결합되고, 상기 메모리는 프로그램을 저장하고, 상기 메모리에 저장된 프로그램 명령어가 상기 프로세서에 의해 실행될 때, 제15항 내지 제20항 중 어느 한 항에 따른 방법이 구현되는,
    디코딩 기기.
  44. 인코딩 기기 및 디코딩 기기를 포함하는 통신 시스템으로서,
    상기 인코딩 기기는 제21항 내지 제35항 중 어느 한 항에 따른 인코딩 기기이고;
    상기 디코딩 기기는 제36항 내지 제41항 중 어느 한 항에 따른 디코딩 기기인,
    통신 시스템.
  45. 프로그램을 포함하는, 컴퓨터로 판독 가능한 저장 매체로서,
    상기 프로그램이 컴퓨터에서 실행될 때, 상기 컴퓨터는 제1항 내지 제14항 또는 제15항 내지 제20항 중 어느 한 항에 따른 방법을 수행하게 되는,
    컴퓨터로 판독 가능한 저장 매체.
  46. 프로세서 및 메모리를 포함하는 네트워크 기기로서,
    상기 프로세서는 상기 메모리에 결합되고, 상기 메모리에 저장된 명령어를 판독하고 실행하여 제1항 내지 제14항 또는 제15항 내지 제20항 중 어느 한 항에 단계를 구현하도록 구성되는,
    네트워크 기기.
  47. 제46항에 있어서,
    상기 네트워크 기기는 칩 또는 시스템 온 칩(system on chip)인, 네트워크 기기.
  48. 제1항 내지 제14항 중 어느 한 항에 따른 방법에 따라 생성된 페이로드 비트스트림을 저장하는, 컴퓨터로 판독 가능한 저장 매체.
  49. 컴퓨터로 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램으로서,
    상기 컴퓨터 프로그램은 명령어를 포함하고, 상기 명령어가 실행될 때, 제1항 내지 제14항 또는 제15항 내지 제20항 중 어느 한 항에 따른 방법이 구현되는,
    컴퓨터 프로그램.
KR1020227039651A 2020-04-15 2021-04-08 오디오 신호 인코딩 방법, 디코딩 방법, 인코딩 기기 및 디코딩 기기 KR20230002697A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010297340.0A CN113593586A (zh) 2020-04-15 2020-04-15 音频信号编码方法、解码方法、编码设备以及解码设备
CN202010297340.0 2020-04-15
PCT/CN2021/085920 WO2021208792A1 (zh) 2020-04-15 2021-04-08 音频信号编码方法、解码方法、编码设备以及解码设备

Publications (1)

Publication Number Publication Date
KR20230002697A true KR20230002697A (ko) 2023-01-05

Family

ID=78083913

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227039651A KR20230002697A (ko) 2020-04-15 2021-04-08 오디오 신호 인코딩 방법, 디코딩 방법, 인코딩 기기 및 디코딩 기기

Country Status (7)

Country Link
US (1) US20230048893A1 (ko)
EP (1) EP4131261A4 (ko)
KR (1) KR20230002697A (ko)
CN (1) CN113593586A (ko)
BR (1) BR112022020773A2 (ko)
MX (1) MX2022012891A (ko)
WO (1) WO2021208792A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113192517B (zh) 2020-01-13 2024-04-26 华为技术有限公司 一种音频编解码方法和音频编解码设备
CN114550732B (zh) * 2022-04-15 2022-07-08 腾讯科技(深圳)有限公司 一种高频音频信号的编解码方法和相关装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101656075B (zh) * 2004-05-14 2012-08-29 松下电器产业株式会社 音频解码装置、音频解码方法以及通信终端和基站装置
US7813931B2 (en) * 2005-04-20 2010-10-12 QNX Software Systems, Co. System for improving speech quality and intelligibility with bandwidth compression/expansion
KR101355376B1 (ko) * 2007-04-30 2014-01-23 삼성전자주식회사 고주파수 영역 부호화 및 복호화 방법 및 장치
CN101903944B (zh) * 2007-12-18 2013-04-03 Lg电子株式会社 用于处理音频信号的方法和装置
CN101662288B (zh) * 2008-08-28 2012-07-04 华为技术有限公司 音频编码、解码方法及装置、系统
EP2273493B1 (en) * 2009-06-29 2012-12-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Bandwidth extension encoding and decoding
CN104584124B (zh) * 2013-01-22 2019-04-16 松下电器产业株式会社 编码装置、解码装置、编码方法、以及解码方法
EP2830064A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
CN111312277B (zh) * 2014-03-03 2023-08-15 三星电子株式会社 用于带宽扩展的高频解码的方法及设备
CN105280190B (zh) * 2015-09-16 2018-11-23 深圳广晟信源技术有限公司 带宽扩展编码和解码方法以及装置
JP6769299B2 (ja) * 2016-12-27 2020-10-14 富士通株式会社 オーディオ符号化装置およびオーディオ符号化方法
EP3576088A1 (en) * 2018-05-30 2019-12-04 Fraunhofer Gesellschaft zur Förderung der Angewand Audio similarity evaluator, audio encoder, methods and computer program

Also Published As

Publication number Publication date
US20230048893A1 (en) 2023-02-16
WO2021208792A1 (zh) 2021-10-21
CN113593586A (zh) 2021-11-02
MX2022012891A (es) 2023-01-11
BR112022020773A2 (pt) 2022-11-29
EP4131261A4 (en) 2023-05-03
EP4131261A1 (en) 2023-02-08

Similar Documents

Publication Publication Date Title
US10885921B2 (en) Multi-stream audio coding
US10854209B2 (en) Multi-stream audio coding
JP4724452B2 (ja) デジタルメディア汎用基本ストリーム
KR102300062B1 (ko) 인코딩 장치 및 인코딩 방법, 디코딩 장치 및 디코딩 방법, 및 프로그램
US20230048893A1 (en) Audio Signal Encoding Method, Decoding Method, Encoding Device, and Decoding Device
JP6006400B2 (ja) 信号符号化の方法および装置
JP2012238034A (ja) マルチチャンネルオーディオ信号復号化方法
WO2019170955A1 (en) Audio coding
US20230137053A1 (en) Audio Coding Method and Apparatus
EP3987514A1 (en) Correlating scene-based audio data for psychoacoustic audio coding
US11081116B2 (en) Embedding enhanced audio transports in backward compatible audio bitstreams
JP2004199075A (ja) ビット率調節可能なステレオオーディオ符号化・復号化方法及びその装置
KR20230002899A (ko) 오디오 신호 코딩 방법 및 장치
US11996107B2 (en) Sound signal receiving and decoding method, sound signal encoding and transmitting method, sound signal decoding method, sound signal encoding method, sound signal receiving side apparatus, sound signal transmitting side apparatus, decoding apparatus, encoding apparatus, program and storage medium
KR102628755B1 (ko) 다운믹스된 신호 계산 방법 및 장치
WO2020263843A1 (en) Performing psychoacoustic audio coding based on operating conditions
WO2020263849A1 (en) Coding scaled spatial components
US20230105508A1 (en) Audio Coding Method and Apparatus
US20220335962A1 (en) Audio encoding method and device and audio decoding method and device
KR20230153402A (ko) 다운믹스 신호들의 적응형 이득 제어를 갖는 오디오 코덱
US10762910B2 (en) Hierarchical fine quantization for audio coding
US20230154473A1 (en) Audio coding method and related apparatus, and computer-readable storage medium
WO2024021732A1 (zh) 音频编解码方法、装置、存储介质及计算机程序产品
US20220246157A1 (en) Sound signal receiving and decoding method, sound signal decoding method, sound signal receiving side apparatus, decoding apparatus, program and storage medium

Legal Events

Date Code Title Description
A201 Request for examination