KR20220123108A - 오디오 인코딩 및 디코딩 방법 및 오디오 인코딩 및 디코딩 장치 - Google Patents

오디오 인코딩 및 디코딩 방법 및 오디오 인코딩 및 디코딩 장치 Download PDF

Info

Publication number
KR20220123108A
KR20220123108A KR1020227026854A KR20227026854A KR20220123108A KR 20220123108 A KR20220123108 A KR 20220123108A KR 1020227026854 A KR1020227026854 A KR 1020227026854A KR 20227026854 A KR20227026854 A KR 20227026854A KR 20220123108 A KR20220123108 A KR 20220123108A
Authority
KR
South Korea
Prior art keywords
frequency band
band signal
current
high frequency
signal
Prior art date
Application number
KR1020227026854A
Other languages
English (en)
Inventor
빙윈 샤
지아웨이 리
제 왕
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Publication of KR20220123108A publication Critical patent/KR20220123108A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 출원의 실시예는 디코딩된 오디오 신호의 품질을 개선하기 위해 오디오 인코딩 및 디코딩 방법 및 오디오 인코딩 및 디코딩 장치를 제공한다. 오디오 인코딩 방법은, 오디오 신호의 현재 프레임을 획득하는 단계 - 현재 프레임은 고주파수 대역 신호 및 저주파수 대역 신호를 포함함 -와, 고주파수 대역 신호 및 저주파수 대역 신호에 기초하여 제1 인코딩 파라미터를 획득하는 단계와, 고주파수 대역 신호에 기초하여 현재 프레임의 제2 인코딩 파라미터를 획득하는 단계 - 제2 인코딩 파라미터는 톤 성분 정보를 포함함 -와, 인코딩된 비트스트림을 획득하기 위해, 제1 인코딩 파라미터 및 제2 인코딩 파라미터에 대해 비트스트림 다중화를 수행하는 단계를 포함한다.

Description

오디오 인코딩 및 디코딩 방법 및 오디오 인코딩 및 디코딩 장치
본 출원은 "오디오 인코딩 및 디코딩 방법 및 오디오 인코딩 및 디코딩 장치"라는 제목으로 2020년 1월 13일자로 중국 국가지식재산관리국에 제출된 중국 특허 출원 번호 202010033326.X를 우선권으로 주장하며, 이는 본 명세서에서 참조로 통합된다.
본 출원은 오디오 신호 인코딩 및 디코딩 기술 분야에 관한 것으로, 특히 오디오 인코딩 및 디코딩 방법 및 오디오 인코딩 및 디코딩 장치에 관한 것이다.
삶의 질이 향상됨에 따라, 고품질 오디오에 대한 요구가 지속적으로 증가하고 있다. 제한된 대역폭에서 오디오 신호를 더 잘 전송하려면, 일반적으로 오디오 신호를 먼저 인코딩한 다음 인코딩된 비트스트림을 디코더 측으로 전송해야 한다. 디코더 측은 수신된 비트스트림을 디코딩하여 디코딩된 오디오 신호를 획득하고 디코딩된 오디오 신호를 재생에 사용한다.
디코딩된 오디오 신호의 품질을 개선하는 방법은 시급히 해결되어야 하는 기술적인 문제가 된다.
본 출원의 실시예는 디코딩된 오디오 신호의 품질을 개선하기 위해 오디오 인코딩 및 디코딩 방법 및 오디오 인코딩 및 디코딩 장치를 제공한다.
전술한 기술적 문제를 해결하기 위해, 본 출원의 실시예는 다음과 같은 기술적 솔루션을 제공한다.
본 발명의 제1 양태는 오디오 인코딩 방법을 제공한다. 방법은, 오디오 신호의 현재 프레임을 획득하는 단계 - 현재 프레임은 고주파수 대역 신호 및 저주파수 대역 신호를 포함함 -와, 고주파수 대역 신호 및 저주파수 대역 신호에 기초하여 제1 인코딩 파라미터를 획득하는 단계와, 고주파수 대역 신호에 기초하여 현재 프레임의 제2 인코딩 파라미터를 획득하는 단계 - 제2 인코딩 파라미터는 톤 성분 정보(tone component information)를 포함함 -와, 인코딩된 비트스트림을 획득하기 위해, 제1 인코딩 파라미터 및 제2 인코딩 파라미터에 대해 비트스트림 다중화를 수행하는 단계를 포함한다.
제1 양태를 참조하면, 구현에서, 고주파수 대역 신호에 기초하여 현재 프레임의 제2 인코딩 파라미터를 획득하는 단계는: 고주파수 대역 신호가 톤 성분을 포함하는지 여부를 검출하는 단계와, 고주파수 대역 신호가 톤 성분을 포함하는 경우, 고주파수 대역 신호에 기초하여 현재 프레임의 제2 인코딩 파라미터를 획득하는 단계를 포함한다.
제1 양태 및 제1 양태의 전술한 구현을 참조하면, 구현에서, 톤 성분 정보는 톤 성분 수량 정보, 톤 성분 위치 정보, 톤 성분 진폭 정보, 또는 톤 성분 에너지 정보 중 적어도 하나를 포함한다.
제1 양태 및 제1 양태의 전술한 구현을 참조하면, 구현에서, 제2 인코딩 파라미터는 노이즈 플로어 파라미터를 더 포함한다.
제1 양태 및 제1 양태의 전술한 구현을 참조하면, 구현에서, 노이즈 플로어 파라미터는 노이즈 플로어 에너지를 나타내기 위해 사용된다.
본 발명의 제2 양태는 오디오 디코딩 방법을 제공한다. 방법은 인코딩된 비트스트림을 획득하는 단계와, 오디오 신호의 현재 프레임의 제1 인코딩 파라미터 및 현재 프레임의 제2 인코딩 파라미터를 획득하기 위해 인코딩된 비트스트림에 대해 비트스트림 역다중화를 수행하는 단계 - 현재 프레임의 제2 인코딩 파라미터는 톤 성분 정보를 포함함 -와, 제1 인코딩 파라미터에 기초하여 현재 프레임의 제1 고주파수 대역 신호 및 현재 프레임의 제1 저주파수 대역 신호를 획득하는 단계와, 제2 인코딩 파라미터에 기초하여 현재 프레임의 제2 고주파수 대역 신호를 획득하는 단계 - 제2 고주파수 대역 신호는 재구성된 톤 신호를 포함함 -와, 현재 프레임의 제2 고주파수 대역 신호 및 현재 프레임의 제1 고주파수 대역 신호에 기초하여 현재 프레임의 융합된 고주파수 대역 신호를 획득하는 단계를 포함한다.
제2 양태를 참조하면, 구현에서, 제1 고주파수 대역 신호는 제1 인코딩 파라미터에 기초하여 직접 디코딩을 수행함으로써 획득된 디코딩된 고주파수 대역 신호, 및 제1 저주파수 대역 신호에 기초하여 주파수 대역 확장을 수행하여 얻어진 확장된 고주파수 대역 신호 중 적어도 하나를 포함한다.
제2 양태 및 제2 양태의 전술한 구현을 참조하면, 구현에서, 제1 고주파수 대역 신호가 확장된 고주파수 대역 신호를 포함하는 경우, 현재 프레임의 제2 고주파수 대역 신호 및 현재 프레임의 제1 고주파수 대역 신호에 기초하여 현재 프레임의 융합된 고주파수 대역 신호를 획득하는 단계는, 현재 프레임의 현재 부대역의 현재 주파수에 대한 재구성된 톤 신호의 스펙트럼의 값이 미리 설정된 조건을 충족하는 경우, 현재 주파수에 대한 확장된 고주파수 대역 신호의 스펙트럼 및 현재 부대역의 노이즈 플로어 정보에 기초하여 현재 주파수에 대한 융합된 고주파수 대역 신호를 획득하는 단계, 또는 현재 프레임의 현재 부대역의 현재 주파수에 대한 재구성된 톤 신호의 스펙트럼의 값이 미리 설정된 조건을 충족하지 않는 경우, 현재 주파수에서 재구성된 톤 신호의 스펙트럼에 기초하여 현재 주파수에 대한 융합된 고주파수 대역 신호를 획득하는 단계를 포함한다.
제2 양태 및 제2 양태의 전술한 구현을 참조하면, 구현에서, 노이즈 플로어 정보는 노이즈 플로어 이득 파라미터를 포함한다.
제2 양태 및 제2 양태의 전술한 구현을 참조하면, 구현에서, 현재 부대역의 노이즈 플로어 이득 파라미터는 현재 부대역의 폭, 현재 부대역의 확장된 고주파수 대역 신호의 스펙트럼의 에너지, 및 현재 부대역의 노이즈 플로어 에너지에 기초하여 획득된다.
제2 양태 및 제2 양태의 전술한 구현을 참조하면, 구현에서, 제1 고주파수 대역 신호가 디코딩된 고주파수 대역 신호 및 확장된 고주파수 대역 신호를 포함하는 경우, 현재 프레임의 제2 고주파수 대역 신호 및 현재 프레임의 제1 고주파수 대역 신호에 기초하여 현재 프레임의 융합된 고주파수 대역 신호를 획득하는 단계는, 현재 프레임의 현재 부대역의 현재 주파수에 대한 재구성된 톤 신호의 스펙트럼의 값이 미리 설정된 조건을 충족하지 않는 경우, 현재 주파수에 대한 재구성된 톤 신호의 스펙트럼에 기초하여 현재 주파수에 대한 융합된 고주파수 대역 신호를 획득하는 단계, 또는 현재 프레임의 현재 부대역의 현재 주파수에 대한 재구성된 톤 신호의 스펙트럼의 값이 미리 설정된 조건을 충족하는 경우, 현재 주파수 상의 확장된 고주파수 대역 신호의 스펙트럼, 현재 주파수 상의 디코딩된 고주파수 대역 신호의 스펙트럼, 및 현재 부대역의 노이즈 플로어 정보에 기초하여 현재 주파수에 대한 융합된 고주파수 대역 신호를 획득하는 단계를 포함한다.
제2 양태 및 제2 양태의 전술한 구현을 참조하면, 구현에서, 노이즈 플로어 정보는 노이즈 플로어 이득 파라미터를 포함한다.
제2 양태 및 제2 양태의 전술한 구현을 참조하면, 구현에서, 현재 부대역의 노이즈 플로어 이득 파라미터는 현재 부대역의 폭, 현재 부대역의 노이즈 플로어 에너지, 현재 부대역의 확장된 고주파수 대역 신호의 스펙트럼의 에너지, 및 현재 부대역의 디코딩된 고주파수 대역 신호의 스펙트럼의 에너지에 기초하여 획득된다.
제2 양태 및 제2 양태의 전술한 구현을 참조하면, 구현에서, 제1 고주파수 대역 신호가 디코딩된 고주파수 대역 신호 및 확장된 고주파수 대역 신호를 포함하는 경우, 방법은, 현재 프레임의 융합된 고주파수 대역 신호를 획득하기 위해, 미리 설정된 표시 정보 또는 디코딩을 통해 획득된 표시 정보에 기초하여, 디코딩된 고주파수 대역 신호, 확장된 고주파수 대역 신호, 및 재구성된 톤 신호 중에서 적어도 하나의 신호를 선택하는 단계를 더 포함한다.
제2 양태 및 제2 양태의 전술한 구현을 참조하면, 일 구현에서, 제2 인코딩 파라미터는 노이즈 플로어 에너지를 나타내기 위해 사용되는 노이즈 플로어 파라미터를 더 포함한다.
제2 양태 및 제2 양태의 전술한 구현을 참조하면, 구현에서, 미리 설정된 조건은 재구성된 톤 신호의 스펙트럼의 값이 0 또는 미리 설정된 임계값 미만인 것을 포함한다.
본 발명의 제3 양태는 오디오 신호의 현재 프레임을 획득하도록 구성된 신호 획득 유닛 - 현재 프레임은 고주파수 대역 신호 및 저주파수 대역 신호를 포함함 - 과, 고주파수 대역 신호 및 저주파수 대역 신호에 기초하여 제1 인코딩 파라미터를 획득하고, 고주파수 대역 신호에 기초하여 현재 프레임의 제2 인코딩 파라미터를 획득하도록 구성된 파라미터 획득 유닛- 제2 인코딩 파라미터는 톤 성분 정보를 포함함 -과, 인코딩된 비트스트림을 획득하기 위해, 제1 인코딩 파라미터 및 제2 인코딩 파라미터에 대해 비트스트림 다중화를 수행하도록 구성된 인코딩 유닛을 포함한다.
제3 양태를 참조하면, 일 구현에서, 파라미터 획득 유닛은 구체적으로, 고주파수 대역 신호가 톤 성분을 포함하는지 여부를 검출하고, 고주파수 대역 신호가 톤 성분을 포함하는 경우, 고주파수 대역 신호에 기초하여 현재 프레임의 제2 인코딩 파라미터를 획득하도록 구성된다.
제3 양태 및 제3 양태의 전술한 구현을 참조하면, 구현에서, 톤 성분 정보는 톤 성분 수량 정보, 톤 성분 위치 정보, 톤 성분 진폭 정보, 또는 톤 성분 에너지 정보 중 적어도 하나를 포함한다.
제3 양태 및 제3 양태의 전술한 구현을 참조하면, 구현에서, 제2 인코딩 파라미터는 노이즈 플로어 파라미터를 더 포함한다.
제3 양태 및 제3 양태의 전술한 구현을 참조하면, 구현에서, 노이즈 플로어 파라미터는 노이즈 플로어 에너지를 나타내기 위해 사용된다.
본 발명의 제4 양태는 오디오 디코더를 제공하는데, 이 오디오 디코더는 인코딩된 비트스트림을 획득하도록 구성된 수신 유닛과, 오디오 신호의 현재 프레임의 제1 인코딩 파라미터 및 현재 프레임의 제2 인코딩 파라미터를 획득하기 위해 인코딩된 비트스트림에 대해 비트스트림 역다중화를 수행하도록 구성된 역다중화 유닛 - 현재 프레임의 제2 인코딩 파라미터는 톤 성분 정보를 포함함 -과, 제1 인코딩 파라미터에 기초하여 현재 프레임의 제1 고주파수 대역 신호 및 현재 프레임의 제1 저주파수 대역 신호를 획득하고, 제2 인코딩 파라미터에 기초하여 현재 프레임의 제2 고주파수 대역 신호를 획득하도록 구성된 획득 유닛 - 제2 고주파수 대역 신호는 재구성된 톤 신호를 포함함 -과, 현재 프레임의 제2 고주파수 대역 신호 및 현재 프레임의 제1 고주파수 대역 신호에 기초하여 현재 프레임의 융합된 고주파수 대역 신호를 획득하도록 구성된 융합 유닛을 포함한다.
제4 측면을 참조하면, 구현에서, 제1 고주파수 대역 신호는 제1 인코딩 파라미터에 기초하여 직접 디코딩을 수행함으로써 획득된 디코딩된 고주파수 대역 신호, 및 제1 저주파수 대역 신호에 기초하여 주파수 대역 확장을 수행하여 얻어진 확장된 고주파수 대역 신호 중 적어도 하나를 포함한다.
제4 양태 및 제4 양태의 전술한 구현을 참조하면, 구현에서, 제1 고주파수 대역 신호가 확장된 고주파수 대역 신호를 포함하는 경우, 융합 유닛은 구체적으로, 현재 프레임의 현재 부대역의 현재 주파수에 대한 재구성된 톤 신호의 스펙트럼의 값이 미리 설정된 조건을 충족하는 경우, 현재 주파수에 대한 확장된 고주파수 대역 신호의 스펙트럼 및 현재 부대역의 노이즈 플로어 정보에 기초하여 현재 주파수에 대한 융합된 고주파수 대역 신호를 획득하고, 또는 현재 프레임의 현재 부대역의 현재 주파수에 대한 재구성된 톤 신호의 스펙트럼의 값이 미리 설정된 조건을 충족하지 않는 경우, 현재 주파수에서 재구성된 톤 신호의 스펙트럼에 기초하여 현재 주파수에 대한 융합된 고주파수 대역 신호를 획득하도록 구성된다.
제4 양태 및 제4 양태의 전술한 구현을 참조하면, 구현에서, 노이즈 플로어 정보는 노이즈 플로어 이득 파라미터를 포함한다.
제4 양태 및 제4 양태의 전술한 구현을 참조하면, 구현에서, 현재 부대역의 노이즈 플로어 이득 파라미터는 현재 부대역의 폭, 현재 부대역의 확장된 고주파수 대역 신호의 스펙트럼의 에너지, 및 현재 부대역의 노이즈 플로어 에너지에 기초하여 획득된다.
제4 양태 및 제4 양태의 전술한 구현을 참조하면, 구현에서, 제1 고주파수 대역 신호가 디코딩된 고주파수 대역 신호 및 확장된 고주파수 대역 신호를 포함하는 경우, 융합 유닛은 구체적으로, 현재 프레임의 현재 부대역의 현재 주파수에 대한 재구성된 톤 신호의 스펙트럼의 값이 미리 설정된 조건을 충족하지 않는 경우, 현재 주파수에 대한 재구성된 톤 신호의 스펙트럼에 기초하여 현재 주파수에 대한 융합된 고주파수 대역 신호를 획득하고, 또는 현재 프레임의 현재 부대역의 현재 주파수에 대한 재구성된 톤 신호의 스펙트럼의 값이 미리 설정된 조건을 충족하는 경우, 현재 주파수 상의 확장된 고주파수 대역 신호의 스펙트럼, 현재 주파수 상의 디코딩된 고주파수 대역 신호의 스펙트럼, 및 현재 부대역의 노이즈 플로어 정보에 기초하여 현재 주파수에 대한 융합된 고주파수 대역 신호를 획득하도록 구성된다.
제4 양태 및 제4 양태의 전술한 구현을 참조하면, 구현에서, 노이즈 플로어 정보는 노이즈 플로어 이득 파라미터를 포함한다.
제4 양태 및 제4 양태의 전술한 구현을 참조하면, 구현에서, 현재 부대역의 노이즈 플로어 이득 파라미터는 현재 부대역의 폭, 현재 부대역의 노이즈 플로어 에너지, 현재 부대역의 확장된 고주파수 대역 신호의 스펙트럼의 에너지, 및 현재 부대역의 디코딩된 고주파수 대역 신호의 스펙트럼의 에너지에 기초하여 획득된다.
제4 양태 및 제4 양태의 전술한 구현을 참조하면, 구현에서, 제1 고주파수 대역 신호가 디코딩된 고주파수 대역 신호 및 확장된 고주파수 대역 신호를 포함하는 경우, 융합 유닛은, 현재 프레임의 융합된 고주파수 대역 신호를 획득하기 위해, 미리 설정된 표시 정보 또는 디코딩을 통해 획득된 표시 정보에 기초하여, 디코딩된 고주파수 대역 신호, 확장된 고주파수 대역 신호, 및 재구성된 톤 신호 중에서 적어도 하나의 신호를 선택하도록 더 구성된다.
제4 양태 및 제4 양태의 전술한 구현을 참조하면, 구현에서, 제2 인코딩 파라미터는 노이즈 플로어 에너지를 나타내기 위해 사용되는 노이즈 플로어 파라미터를 더 포함한다.
제4 양태 및 제4 양태의 전술한 구현을 참조하면, 구현에서, 미리 설정된 조건은 재구성된 톤 신호의 스펙트럼의 값이 0 또는 미리 설정된 임계값 미만인 것을 포함한다.
본 발명의 제5 양태는 적어도 하나의 프로세서를 포함하는 오디오 인코딩 장치를 제공한다. 적어도 하나의 프로세서는 메모리에 연결되고, 메모리에서 명령어를 읽고 실행하여 제1 양태의 방법을 구현하도록 구성된다.
본 발명의 제6 양태는 적어도 하나의 프로세서를 포함하는 오디오 디코딩 장치를 제공한다. 적어도 하나의 프로세서는 메모리에 연결되고, 메모리에서 명령어를 읽고 실행하여 제2 양태의 방법을 구현하도록 구성된다.
제7 양태에 따르면, 본 출원의 실시예는 컴퓨터 판독가능 저장 매체를 제공한다. 컴퓨터 판독 가능한 저장 매체는 명령어를 저장하고, 명령어가 컴퓨터 상에서 실행될 때, 컴퓨터는 제1 양태 또는 제2 양태의 방법을 수행할 수 있다.
제8 양태에 따르면, 본 출원의 실시예는 명령어를 포함하는 컴퓨터 프로그램 제품을 제공한다. 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때, 컴퓨터는 제1 양태 또는 제2 양태의 방법을 수행할 수 있다.
제9 양태에 따르면, 본 출원의 실시예는 통신 장치를 제공한다. 통신 장치는 오디오 인코딩 및 디코딩 장치 또는 칩과 같은 엔티티를 포함할 수 있다. 통신 장치는 프로세서를 포함한다. 선택적으로, 통신 장치는 메모리를 더 포함한다. 메모리는 명령어를 저장하도록 구성되고, 프로세서는 메모리에서 명령어를 실행하도록 구성되어, 통신 장치가 제1 양태 또는 제2 양태의 방법을 수행한다.
제10 양태에 따르면, 본 출원은 칩 시스템을 제공한다. 칩 시스템은 전술한 양태에서의 기능, 예를 들어, 전술한 방법에서 데이터 및/또는 정보를 전송하거나 처리하는 기능을 구현하기 위해 오디오 인코딩 및 디코딩 장치를 지원하도록 구성된 프로세서를 포함한다. 가능한 설계에서, 칩 시스템은 메모리를 더 포함하고, 메모리는 오디오 인코딩 및 디코딩 장치에 필요한 프로그램 명령어 및 데이터를 저장하도록 구성된다. 칩 시스템은 칩을 포함할 수 있거나 칩 및 다른 개별 컴포넌트를 포함할 수 있다.
전술한 설명으로부터, 본 발명의 실시예에서, 오디오 인코더는 톤 성분 정보를 인코딩하여, 오디오 디코더가 수신된 톤 성분 정보에 기초하여 오디오 신호를 디코딩할 수 있고, 오디오 신호의 톤 성분을 보다 정확하게 복구하여 디코딩된 오디오 신호의 품질을 개선한다.
도 1은 본 출원의 실시예에 따른 오디오 인코딩 및 디코딩 시스템의 구조의 개략도이다.
도 2는 본 출원의 실시예에 따른 오디오 인코딩 방법의 개략적인 흐름도이다.
도 3은 본 출원의 실시예에 따른 오디오 디코딩 방법의 개략적인 흐름도이다.
도 4는 본 출원의 실시예에 따른 이동 단말기의 개략도이다.
도 5는 본 출원의 실시예에 따른 네트워크 요소의 개략도이다.
도 6은 본 출원의 실시예에 따른 오디오 인코딩 장치의 조성 구조의 개략도이다.
도 7은 본 출원의 실시예에 따른 오디오 디코딩 장치의 조성 구조의 개략도이다.
도 8은 본 출원의 실시예에 따른 다른 오디오 인코딩 장치의 조성 구조의 개략도이다.
도 9는 본 출원의 실시예에 따른 다른 오디오 디코딩 장치의 조성 구조의 개략도이다.
다음은 첨부된 도면을 참조하여 본 출원의 실시예를 설명한다.
본 출원의 명세서, 특허청구범위 및 첨부된 도면에서, "제1", "제2" 등의 용어는 유사한 대상을 구별하기 위한 것으로, 반드시 특정한 순서 또는 시퀀스를 나타내는 것은 아니다. 이러한 방식으로 사용되는 용어는 적절한 상황에서 상호 교환이 가능하며, 이는 본 출원의 실시예에서 동일한 속성을 갖는 객체를 설명하기 위한 구별 방식에 불과함을 이해해야 한다. 또한, 용어 "포함하다", "갖다" 및 기타 변형은 비배타적인 포함을 의미하므로 일련의 유닛을 포함하는 프로세스, 방법, 시스템, 제품 또는 장치는 반드시 이들 유닛으로 제한될 필요는 없으며, 이러한 프로세스, 방법, 시스템, 제품 또는 장치에 고유한 또는 명시적으로 나열되지 않은 다른 유닛을 포함할 수도 있다.
본 출원의 실시예에서 오디오 신호는 오디오 인코딩 장치에서의 입력 신호이고, 오디오 신호는 복수의 프레임을 포함할 수 있다. 예를 들어, 현재 프레임은 구체적으로 오디오 신호의 프레임일 수 있다. 본 출원의 실시예에서는 설명을 위해 현재 프레임의 오디오 신호를 인코딩 및 디코딩하는 예를 사용한다. 오디오 신호의 현재 프레임 이전 또는 이후의 프레임은 현재 프레임의 오디오 신호의 인코딩 및 디코딩 모드에 따라 대응하여 인코딩 및 디코딩될 수 있다. 오디오 신호의 현재 프레임 이전 또는 이후 프레임의 인코딩 및 디코딩 과정은 설명하지 않는다. 또한, 본 출원의 실시예에서 오디오 신호는 모노 오디오 신호일 수도 있고, 스테레오 신호일 수도 있다. 스테레오 신호는 오리지널 스테레오 신호일 수도 있고, 다채널 신호에 포함된 두 개의 채널 신호(좌채널 신호와 우채널 신호)로 구성된 스테레오 신호일 수도 있고, 다채널 신호에 포함된 적어도 3개 채널의 신호에 의해 생성된 2개 채널의 신호에 의해 형성된 스테레오 신호일 수도 있다. 이것은 본 출원의 실시예에서 제한되지 않는다.
도 1은 본 출원의 예시적인 실시예에 따른 오디오 인코딩 및 디코딩 시스템의 구조의 개략도이다. 오디오 인코딩 및 디코딩 시스템은 인코딩 컴포넌트(110) 및 디코딩 컴포넌트(120)를 포함한다.
인코딩 컴포넌트(110)는 주파수 영역 또는 시간 영역에서 현재 프레임(오디오 신호)을 인코딩하도록 구성된다. 선택적으로, 인코딩 컴포넌트(110)는 소프트웨어에 의해 구현될 수 있거나, 하드웨어에 의해 구현될 수 있거나, 소프트웨어와 하드웨어의 조합 형태로 구현될 수 있다. 이것은 본 출원의 이 실시예에서 제한되지 않는다.
인코딩 컴포넌트(110)가 주파수 영역 또는 시간 영역에서 현재 프레임을 인코딩할 때, 가능한 구현에서, 도 2에 도시된 단계들이 포함될 수 있다.
선택적으로, 인코딩 컴포넌트(110)는 유선 또는 무선으로 디코딩 컴포넌트(120)에 연결될 수 있다. 디코딩 컴포넌트(120)는 디코딩 컴포넌트(120)와 인코딩 컴포넌트(110) 사이의 연결을 사용하여, 인코딩 컴포넌트(110)에 의해 생성된 인코딩된 비트스트림을 획득할 수 있다. 대안적으로, 인코딩 컴포넌트(110)는 생성된 인코딩된 비트스트림을 메모리에 저장할 수 있고, 디코딩 컴포넌트(120)는 메모리에서 인코딩된 비트스트림을 판독한다.
선택적으로, 디코딩 컴포넌트(120)는 소프트웨어에 의해 구현될 수 있거나, 하드웨어에 의해 구현될 수 있거나, 소프트웨어와 하드웨어의 조합의 형태로 구현될 수 있다. 이것은 본 출원의 이 실시예에서 제한되지 않는다.
디코딩 컴포넌트(120)가 주파수 영역 또는 시간 영역에서 현재 프레임(오디오 신호)을 디코딩할 때, 가능한 구현에서, 도 3에 도시된 단계들이 포함될 수 있다.
선택적으로, 인코딩 컴포넌트(110) 및 디코딩 컴포넌트(120)는 동일한 장치에 배치될 수 있거나 다른 장치에 배치될 수도 있다. 장치는 휴대폰, 태블릿 컴퓨터, 노트북 컴퓨터, 데스크탑 컴퓨터, 블루투스 스피커, 펜 레코더, 웨어러블 장치와 같이 오디오 신호 처리 기능을 갖는 단말기일 수 있다. 대안적으로, 장치는 코어 네트워크 또는 무선 네트워크에서 오디오 신호 처리 능력을 갖는 네트워크 요소일 수 있다. 이것은 이 실시예에서 제한되지 않는다.
예를 들어, 도 4에 도시된 바와 같이, 본 실시예에서 설명을 위해 다음 예가 사용된다. 인코딩 컴포넌트(110)는 이동 단말기(130)에 배치되고, 디코딩 컴포넌트(120)는 이동 단말기(140)에 배치된다. 이동 단말기(130)와 이동 단말기(140)는 오디오 신호 처리 능력을 갖는 상호 독립적인 전자 장치이다. 예를 들어, 이동 단말기(130) 및 이동 단말기(140)는 휴대폰, 웨어러블 장치, 가상 현실(virtual Reality, VR) 장치, 또는 증강 현실(Augmented Reality, AR) 장치일 수 있다. 또한, 이동 단말기(130)와 이동 단말기(140)는 무선 또는 유선 네트워크를 이용하여 연결된다.
선택적으로, 이동 단말기(130)는 수집 컴포넌트(131), 인코딩 컴포넌트(110) 및 채널 인코딩 컴포넌트(132)를 포함할 수 있다. 수집 컴포넌트(131)는 인코딩 컴포넌트(110)에 연결되고, 인코딩 컴포넌트(110)는 인코딩 컴포넌트(132)에 연결된다.
선택적으로, 이동 단말기(140)는 오디오 재생 컴포넌트(141), 디코딩 컴포넌트(120), 및 채널 디코딩 컴포넌트(142)를 포함할 수 있다. 오디오 재생 컴포넌트(141)는 디코딩 컴포넌트(120)에 연결되고, 디코딩 컴포넌트(120)는 채널 디코딩 컴포넌트(142)에 연결된다.
수집 컴포넌트(131)를 통해 오디오 신호를 수집한 후, 이동 단말기(130)는 인코딩 컴포넌트(110)를 이용하여 오디오 신호를 인코딩하여, 인코딩된 비트스트림을 획득하고, 그런 다음 채널 인코딩 컴포넌트(132)를 사용하여 인코딩된 비트스트림을 인코딩하여 전송 신호를 획득한다.
이동 단말기(130)는 무선 또는 유선 네트워크를 이용하여 전송 신호를 이동 단말기(140)로 전송한다.
전송 신호를 수신한 후, 이동 단말기(140)는 채널 디코딩 컴포넌트(142)를 사용하여 전송 신호를 디코딩하여, 인코딩된 비트스트림을 획득하고, 디코딩 컴포넌트(110)를 사용하여 인코딩된 비트스트림을 디코딩하여 오디오 신호를 획득하고, 오디오 재생 컴포넌트를 사용하여 오디오 신호를 재생한다. 이동 단말기(130)는 이동 단말기(140)에 포함된 컴포넌트들을 대안적으로 포함할 수 있고, 이동 단말기(140)는 이동 단말기(130)에 포함된 컴포넌트들을 대안적으로 포함할 수 있음을 이해할 수 있다.
예를 들어, 도 5에 도시된 바와 같이, 설명을 위해 다음 예가 사용된다. 인코딩 컴포넌트(110) 및 디코딩 컴포넌트(120)는 코어 네트워크 또는 무선 네트워크에서 오디오 신호 처리 능력을 갖는 하나의 네트워크 요소(150)에 배치된다.
선택적으로, 네트워크 요소(150)는 채널 디코딩 컴포넌트(151), 디코딩 컴포넌트(120), 인코딩 컴포넌트(110), 및 채널 인코딩 컴포넌트(152)를 포함한다. 채널 디코딩 컴포넌트(151)는 디코딩 컴포넌트(120)에 연결되고, 디코딩 컴포넌트(120)는 인코딩 컴포넌트(110)에 연결되고, 인코딩 컴포넌트(110)는 채널 인코딩 컴포넌트(152)에 연결된다.
다른 장치에 의해 전송된 전송 신호를 수신한 후, 채널 디코딩 컴포넌트(151)는 전송 신호를 디코딩하여 제1 인코딩된 비트스트림을 획득한다. 디코딩 컴포넌트(120)는 인코딩된 비트스트림을 디코딩하여 오디오 신호를 획득한다. 인코딩 컴포넌트(110)는 오디오 신호를 인코딩하여 제2 인코딩된 비트스트림을 획득한다. 채널 인코딩 컴포넌트(152)는 제2 인코딩된 비트스트림을 인코딩하여 전송 신호를 획득한다.
다른 장치는 오디오 신호 처리 능력을 갖는 이동 단말기일 수 있거나, 또는 오디오 신호 처리 능력을 갖는 다른 네트워크 요소일 수 있다. 이것은 이 실시예에서 제한되지 않는다.
선택적으로, 네트워크 요소의 인코딩 컴포넌트(110) 및 디코딩 컴포넌트(120)는 이동 단말기에 의해 전송된 인코딩된 비트스트림을 트랜스코딩할 수 있다.
선택적으로, 본 출원의 이 실시예에서, 인코딩 컴포넌트(110)가 설치된 장치는 오디오 인코딩 장치로 지칭될 수 있다. 실제 구현에서, 오디오 인코딩 장치는 오디오 디코딩 기능도 가질 수 있다. 이것은 본 출원의 이 실시예에서 제한되지 않는다.
선택적으로, 본 출원의 이 실시예에서, 디코딩 컴포넌트(120)가 설치된 장치는 오디오 디코딩 장치로 지칭될 수 있다. 실제 구현에서, 오디오 디코딩 장치는 또한 오디오 인코딩 기능을 가질 수 있다. 이것은 본 출원의 이 실시예에서 제한되지 않는다.
도 2는 본 발명의 일 실시예에 따른 오디오 인코딩 방법의 절차를 설명한다.
201: 오디오 신호의 현재 프레임을 획득하는데, 현재 프레임은 고주파수 대역 신호와 저주파수 대역 신호를 포함한다.
현재 프레임은 오디오 신호의 임의의 프레임일 수 있으며, 현재 프레임은 고주파수 대역 신호 및 저주파수 대역 신호를 포함할 수 있다. 주파수 대역 임계값을 이용하여 고주파수 대역 신호와 저주파수 대역 신호의 구분을 결정할 수 있으며, 주파수 대역 임계값보다 높은 신호는 고주파수 대역 신호이고, 주파수 대역 임계값보다 낮은 신호는 저주파수 대역 신호이다. 주파수 대역 임계값은 인코딩 컴포넌트(110) 및 디코딩 컴포넌트(120)의 전송 대역폭 및 데이터 처리 능력에 기초하여 결정될 수 있다. 이것은 여기에서 제한되지 않는다.
고주파수 대역 신호와 저주파수 대역 신호는 상대적이다. 예를 들어, 주파수보다 낮은 신호는 저주파수 대역 신호이고, 주파수보다 높은 신호는 고주파수 대역 신호이다(소정의 주파수에 대응하는 신호는 저주파수 대역 신호일 수도 있고 또는 고주파수 대역 신호일 수도 있다). 주파수는 현재 프레임의 대역폭에 따라 달라진다. 예를 들어, 현재 프레임이 0~8kHz의 광대역 신호인 경우 주파수는 4kHz일 수 있다. 현재 프레임이 0~16kHz의 초광대역 신호인 경우 주파수는 8kHz일 수 있다.
202: 고주파수 대역 신호 및 저주파수 대역 신호에 기초하여 제1 인코딩 파라미터를 획득한다.
제1 인코딩 파라미터는 구체적으로 시간 영역 노이즈 성형 파라미터, 주파수 영역 노이즈 성형 파라미터, 스펙트럼 양자화 파라미터, 주파수 대역 확장 파라미터 등을 포함할 수 있다.
203: 고주파수 대역 신호에 기초하여 현재 프레임의 제2 인코딩 파라미터를 획득하고, 여기서 제2 인코딩 파라미터는 톤 성분 정보(tone component information)를 포함한다.
구현에서, 톤 성분 정보는 톤 성분 수량 정보, 톤 성분 위치 정보, 톤 성분 진폭 정보, 또는 톤 성분 에너지 정보 중 적어도 하나를 포함한다. 진폭 정보는 하나뿐이고 에너지 정보는 하나뿐이다.
구현에서, 단계(203)는 고주파수 대역 신호가 톤 성분을 포함하는 경우에만 수행될 수 있다. 이 경우, 고주파수 대역 신호에 기초하여 현재 프레임의 제2 인코딩 파라미터를 획득하는 단계는, 고주파수 대역 신호가 톤 성분을 포함하는지 여부를 검출하는 단계, 및 고주파수 대역 신호가 톤 성분을 포함하는 경우, 고주파수 대역 신호에 기초하여 현재 프레임의 제2 인코딩 파라미터를 획득하는 단계를 포함한다.
구현에서, 제2 인코딩 파라미터는 노이즈 플로어 파라미터(noise floor parameter)를 더 포함할 수 있다. 예를 들어, 노이즈 플로어 파라미터는 노이즈 플로어 에너지를 나타내기 위해 사용될 수 있다.
204: 제1 인코딩 파라미터와 제2 인코딩 파라미터에 대해 비트스트림 다중화를 수행하여 인코딩된 비트스트림을 획득한다.
본 발명의 이 실시예에서, 오디오 인코더는 톤 성분 정보를 인코딩하여, 오디오 디코더가 수신된 톤 성분 정보에 기초하여 오디오 신호를 디코딩할 수 있고, 오디오 신호의 톤 성분을 보다 정확히 복구할 수 있도록 하여, 디코딩된 오디오 신호의 품질을 향상시킨다는 것을 전술한 설명으로부터 알 수 있다.
도 3은 본 발명의 다른 실시예에 따른 오디오 디코딩 방법의 절차를 설명한다.
301: 인코딩된 비트스트림을 획득한다.
302: 인코딩된 비트스트림에 대해 비트스트림 역다중화를 수행하여, 오디오 신호의 현재 프레임의 제1 인코딩 파라미터 및 현재 프레임의 제2 인코딩 파라미터를 획득하되, 현재 프레임의 제2 인코딩 파라미터는 톤 성분 정보를 포함한다.
제1 인코딩 파라미터 및 제2 인코딩 파라미터에 대해서는 인코딩 방법을 참조한다. 세부 사항은 여기에서 다시 설명되지 않는다.
303: 제1 인코딩 파라미터에 기초하여 현재 프레임의 제1 고주파수 대역 신호 및 현재 프레임의 제1 저주파수 대역 신호를 획득한다.
제1 고주파수 대역 신호는 제1 인코딩 파라미터에 기초하여 직접 디코딩을 수행하여 획득된 디코딩된 고주파수 대역 신호 및 제1 저주파수 대역 신호에 기초하여 주파수 대역 확장을 수행하여 획득된 확장된 고주파수 대역 신호 중 적어도 하나를 포함한다.
304: 제2 인코딩 파라미터에 기초하여 현재 프레임의 제2 고주파수 대역 신호를 획득하되, 제2 고주파수 대역 신호는 재구성된 톤 신호를 포함한다.
제1 고주파수 대역 신호가 확장된 고주파수 대역 신호를 포함하는 경우, 현재 프레임의 제2 고주파수 대역 신호 및 현재 프레임의 제1 고주파수 대역 신호에 기초하여 현재 프레임의 융합된 고주파수 대역 신호를 획득하는 단계는, 현재 프레임의 현재 부대역의 현재 주파수에 대한 재구성된 톤 신호의 스펙트럼의 값이 미리 설정된 조건을 충족하는 경우, 현재 주파수에 대한 확장된 고주파수 대역 신호의 스펙트럼 및 현재 부대역의 노이즈 플로어 정보에 기초하여 현재 주파수에 대한 융합된 고주파수 대역 신호를 획득하는 단계, 또는 현재 프레임의 현재 부대역의 현재 주파수에 대한 재구성된 톤 신호의 스펙트럼의 값이 미리 설정된 조건을 충족하지 않는 경우, 현재 주파수에 대한 재구성된 톤 신호의 스펙트럼에 기초하여 현재 주파수에 대한 융합된 고주파수 대역 신호를 획득하는 단계를 포함한다.
노이즈 플로어 정보는 노이즈 플로어 이득 파라미터를 포함할 수 있다. 구현에서, 현재 부대역의 노이즈 플로어 이득 파라미터는 현재 부대역의 폭, 현재 부대역의 확장된 고주파수 대역 신호의 스펙트럼의 에너지, 및 현재 부대역의 노이즈 플로어 에너지에 기초하여 획득된다.
제1 고주파수 대역 신호가 디코딩된 고주파수 대역 신호 및 확장된 고주파수 대역 신호를 포함하는 경우, 현재 프레임의 제2 고주파수 대역 신호 및 현재 프레임의 제1 고주파수 대역 신호에 기초하여 현재 프레임의 융합된 고주파수 대역 신호를 획득하는 단계는, 현재 프레임의 현재 부대역의 현재 주파수에 대한 재구성된 톤 신호의 스펙트럼의 값이 미리 설정된 조건을 충족하지 않는 경우, 현재 주파수에 대한 재구성된 톤 신호의 스펙트럼에 기초하여 현재 주파수에 대한 융합된 고주파수 대역 신호를 획득하는 단계, 또는 현재 프레임의 현재 부대역의 현재 주파수에 대한 재구성된 톤 신호의 스펙트럼의 값이 미리 설정된 조건을 충족하는 경우, 현재 주파수에 대한 확장된 고주파수 대역 신호의 스펙트럼, 현재 주파수에 대한 디코딩된 고주파수 대역 신호의 스펙트럼, 및 현재 부대역의 노이즈 플로어 정보에 기초하여 현재 주파수에 대한 융합된 고주파수 대역 신호를 획득하는 단계를 포함한다.
노이즈 플로어 정보는 노이즈 플로어 이득 파라미터를 포함할 수 있다. 현재 부대역의 노이즈 플로어 이득 파라미터는 현재 부대역의 폭, 현재 부대역의 노이즈 플로어 에너지, 현재 부대역의 확장된 고주파수 대역 신호의 스펙트럼의 에너지, 및 현재 부대역의 디코딩된 고주파수 대역 신호의 스펙트럼의 에너지에 기초하여 획득된다.
본 발명의 실시예에서, 미리 설정된 조건은 재구성된 톤 신호의 스펙트럼의 값이 0이라는 것을 포함한다. 본 발명의 다른 실시예에서, 미리 설정된 조건은 재구성된 톤 신호의 스펙트럼의 값은 미리 설정된 임계값보다 작고 미리 설정된 임계값은 0보다 큰 실수인 것을 포함한다.
305: 현재 프레임의 제2 고주파수 대역 신호와 현재 프레임의 제1 고주파수 대역 신호를 기반으로 현재 프레임의 융합된 고주파수 대역 신호를 획득한다.
본 발명의 이 실시예에서, 오디오 인코더는 톤 성분 정보를 인코딩하여, 오디오 디코더가 수신된 톤 성분 정보에 기초하여 오디오 신호를 디코딩할 수 있고, 오디오 신호의 톤 성분을 보다 정확하게 복구할 수 있도록 하여 디코딩된 오디오 신호의 품질을 향상시킴을 전술한 설명으로부터 알 수 있다.
다른 실시예에서, 제1 고주파수 대역 신호가 디코딩된 고주파수 대역 신호 및 확장된 고주파수 대역 신호를 포함하는 경우, 도 3에서 설명된 오디오 디코딩 방법은, 현재 프레임의 융합된 고주파수 대역 신호를 획득하기 위해, 미리 설정된 표시 정보 또는 디코딩을 통해 획득된 표시 정보에 기초하여, 디코딩된 고주파수 대역 신호, 확장된 고주파수 대역 신호, 및 재구성된 톤 신호 중에서 적어도 하나의 신호를 선택하는 단계를 더 포함할 수 있다.
예를 들어, 본 발명의 일 실시예에서, 현재 프레임의 고주파수 대역 신호의 sfb번째 부대역에서, 제1 인코딩 파라미터에 기초하여 직접 디코딩을 수행하여 획득된 디코딩된 고주파수 대역 신호의 스펙트럼은 enc_spec[sfb]로 표기되고, 제1 저주파수 대역 신호를 기반으로 주파수 대역 확장을 수행하여 얻은 확장된 고주파수 대역 신호의 스펙트럼은 patch_spec[sfb]로 표기되고, 재구성된 톤 신호의 스펙트럼은 recon_spec[sfb]로 표기된다. 노이즈 플로어 에너지는 E noise_floor [sfb]로 표기된다. 예를 들어, 노이즈 플로어 에너지는 스펙트럼 구간과 부대역 간의 대응에 따른 스펙트럼 구간의 노이즈 플로어 에너지 파라미터 E noise_floor [tile]에 기초하여 획득될 수 있는데, 즉 tile번째 스펙트럼 구간 내의 각 sfb의 노이즈 플로어 에너지는 E noise_floor [tile]와 같다.
stb번째 고주파 부대역에서, 현재 프레임의 제2 고주파수 대역 신호 및 현재 프레임의 제1 고주파수 대역 신호에 기초하여 현재 프레임의 융합된 고주파수 대역 신호를 획득하는 단계는 다음의 사례를 포함할 수 있다.
사례 1:
sfb번째 부대역에 patch_spec[sfb]만이 존재하는 경우, sfb번째 부대역의 융합된 신호 스펙트럼은 다음과 같이 표현된다.
Figure pct00001
여기서, merge_spec[sfb][k]는 sfb번째 부대역의 k번째 주파수에 대한 융합된 신호 스펙트럼을 나타내고, sfb_offset은 부대역 분할 테이블이고, sfb_offset[sfb] 및 sfb_offset[sfb+1]은 sfb번째 부대역 및 (sfb+1)번째 부대역의 각각의 시작점이다.
사례 2:
sfb번째 부대역에 patch_spec[sfb] 및 enc_spec[sfb]만이 존재하는 경우, sfb번째 부대역의 융합된 신호 스펙트럼은 patch_spec[sfb] 및 enc_spec[sfb]를 결합하여 획득된다.
enc_spec[sfb][k]가 sfb번째 부대역의 k번째 주파수에서 0이면,
Figure pct00002
.
enc_spec[sfb][k]가 sfb번째 부대역의 k번째 주파수에서 0이 아니면,
Figure pct00003
.
사례 3:
sfb번째 부대역에 patch_spec[sfb]와 recon_spec[sfb]만이 존재한다면, sfb번째 부대역의 융합된 신호 스펙트럼은 patch_spec[sfb]와 recon_spec[sfb]를 결합하여 획득된다.
sfb 번째 부대역의 k번째 주파수에서 recon_spec[sfb][k]가 0이면,
Figure pct00004
여기서, gnoise_floor[sfb]는 sfb번째 부대역의 노이즈 플로어 이득 파라미터이며, sfb번째 부대역의 노이즈 플로어 에너지 파라미터와 patch_spec[sfb]의 에너지를 기반으로 하는 계산을 통해 얻어지는데, 즉 다음과 같다.
Figure pct00005
여기서, sfb_width[sfb]는 sfb번째 부대역의 폭이며, 다음과 같이 표현된다.
Figure pct00006
여기서 Epatch[sfb]는 patch_spec[sfb]의 에너지이다. 계산 프로세스는 다음과 같다.
Figure pct00007
여기서, k의 값 범위는 k
Figure pct00008
이다.
sfb번째 부대역의 k번째 주파수에서 recon_spec[sfb][k]가 0이 아닌 경우,
Figure pct00009
.
사례 4:
enc_spec[sfb], patch_spec[sfb] 및 recon_spec[sfb]가 sfb번째 부대역에 존재하는 경우, enc_spec[sfb], patch_spec[sfb] 및 recon_spec[sfb]를 결합하여 융합된 신호가 얻어질 수 있다.
두 가지 융합 방식이 있을 수 있다. 하나는 enc_spec[sfb], patch_spec[sfb], recon_spec[sfb]의 스펙트럼을 결합하는 것인데, 여기서 recon_spec[sfb]가 주성분이며, enc_spec[sfb]의 에너지 및 patch_spec[sfb]의 에너지는 노이즈 플로어 에너지 레벨로 조정된다. 다른 하나는 enc_spec[sfb]와 patch_spec[sfb]를 결합하는 것이다.
방식 1:
patch_spec[sfb] 및 enc_spec[sfb]를 기반으로 얻은 고주파수 신호의 스펙트럼은 노이즈 플로어 이득을 사용하여 조정되고, recon_spec[sfb]는 patch_spec[sfb] 및 enc_spec[sfb]와 결합되어 융합된 신호 스펙트럼을 얻는다.
구체적인 방법은 다음과 같다.
sfb번째 부대역의 k번째 주파수에서 recon_spec[sfb][k]가 0이 아닌 경우,
Figure pct00010
sfb번째 부대역의 k번째 주파수에서 recon_spec[sfb][k]가 0이면,
Figure pct00011
여기서, gnoise_floor[sfb]는 sfb번째 부대역의 노이즈 플로어 이득 파라미터이며, sfb번째 부대역의 노이즈 플로어 에너지 파라미터, patch_spec[sfb]의 에너지, 및 enc_spec[sfb]의 에너지에 기초한 계산을 통해 획득되는데, 즉 다음과 같다.
Figure pct00012
여기서, Epatch[sfb]는 patch_spec[sfb]의 에너지이다.
Eenc[sfb]는 enc_spec[sfb]의 에너지이다. 계산 프로세스는 다음과 같다.
Figure pct00013
여기서, k의 값 범위는
Figure pct00014
이다.
방식 2:
Recon_spec[sfb]은(는) 예약되지 않는다. 융합 신호는 patch_spec[sfb] 및 enc_spec[sfb]를 포함한다.
구체적인 구현은 사례 2와 동일하다.
방식 1 및 방식 2의 선택 정책:
전술한 방식 1 및 방식 2에서의 두 가지 고주파수 스펙트럼 융합 방식 중 하나는 미리 정해진 방식으로 선택되거나 특정 방식으로 결정될 수 있다. 예를 들어, 신호가 미리 설정된 조건을 충족할 때 방식 1이 선택된다. 특정 선택 방식은 본 발명의 이 실시예에서 제한되지 않는다.
도 6은 다음을 포함하는 본 발명의 실시예에 따른 오디오 인코더의 구조를 설명한다:
오디오 신호의 현재 프레임을 획득하도록 구성된 신호 획득 유닛(601) - 현재 프레임은 고주파수 대역 신호 및 저주파수 대역 신호를 포함함 -;
고주파수 대역 신호 및 저주파수 대역 신호에 기초하여 제1 인코딩 파라미터를 획득하고 고주파수 대역 신호에 기초하여 현재 프레임의 제2 인코딩 파라미터를 획득하도록 구성된 파라미터 획득 유닛(602)- 제2 인코딩 파라미터는 톤 성분 정보를 포함함 -; 및
인코딩된 비트스트림을 획득하기 위해 제1 인코딩 파라미터 및 제2 인코딩 파라미터에 대해 비트스트림 다중화를 수행하도록 구성된 인코딩 유닛(603).
오디오 인코더의 구체적인 구현에 대해서는 전술한 오디오 인코딩 방법을 참조하한다. 세부 사항은 여기에서 다시 설명되지 않는다.
도 7은 다음을 포함하는 본 발명의 일 실시예에 따른 오디오 디코더의 구조를 설명한다:
인코딩된 비트스트림을 획득하도록 구성된 수신 유닛(701);
오디오 신호의 현재 프레임의 제1 인코딩 파라미터 및 현재 프레임의 제2 인코딩 파라미터를 획득하기 위해, 인코딩된 비트스트림에 대해 비트스트림 역다중화를 수행하도록 구성된 역다중화 유닛(702) - 현재 프레임의 제2 인코딩 파라미터는 톤 성분 정보를 포함함 -;
제1 인코딩 파라미터에 기초하여 현재 프레임의 제1 고주파수 대역 신호 및 현재 프레임의 제1 저주파수 대역 신호를 획득하고, 제2 인코딩 파라미터에 기초하여 현재 프레임의 제2 고주파수 대역 신호를 획득하도록 구성된 획득 유닛(703) - 제2 고주파수 대역 신호는 재구성된 톤 신호를 포함함 -; 및
현재 프레임의 제2 고주파수 대역 신호 및 현재 프레임의 제1 고주파수 대역 신호에 기초하여 현재 프레임의 융합된 고주파수 대역 신호를 획득하도록 구성된 융합 유닛(704).
오디오 디코더의 구체적인 구현에 대해서는 앞의 오디오 디코딩 방법을 참조한다. 세부 사항은 여기에서 다시 설명되지 않는다.
장치의 모듈/유닛 및 그 실행 프로세스 간의 정보 교환과 같은 내용은 본 출원의 방법 실시예와 동일한 아이디어에 기초하고 있으며, 본 출원의 방법 실시예와 동일한 기술적 효과를 생성한다는 점에 유의해야 한다. 구체적인 내용에 대해서는, 본 출원의 방법 실시예에서의 전술한 설명을 참조하고, 상세한 내용은 여기에서 다시 설명하지 않는다.
본 발명의 실시예는 명령어를 포함하는 컴퓨터 판독 가능 저장 매체를 더 제공한다. 명령어가 컴퓨터 상에서 실행될 때, 컴퓨터는 전술한 오디오 인코딩 방법 또는 전술한 오디오 디코딩 방법을 수행할 수 있다.
본 발명의 실시예는 명령어를 포함하는 컴퓨터 프로그램 제품을 더 제공한다. 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때, 컴퓨터는 전술한 오디오 인코딩 방법 또는 전술한 오디오 디코딩 방법을 수행할 수 있다.
본 출원의 실시예는 컴퓨터 저장 매체를 더 제공한다. 컴퓨터 저장 매체는 프로그램을 저장하고, 프로그램은 방법 실시예에서 설명된 단계의 일부 또는 전부를 수행하는 데 사용된다.
다음은 본 출원의 실시예에 따른 다른 오디오 인코딩 장치를 설명한다. 도 8을 참조하면, 오디오 인코딩 장치(1000)는 수신기(1001), 전송기(1002), 프로세서(1003) 및 메모리(1004)(오디오 인코딩 장치(1000)에는 하나 이상의 프로세서(1003)가 있을 수 있고, 도 8에서는 하나의 프로세서가 있는 예가 사용됨)를 포함한다. 본 출원의 일부 실시예에서, 수신기(1001), 전송기(1002), 프로세서(1003), 및 메모리(1004)는 버스를 이용하거나 다른 방식으로 연결될 수 있다. 도 8에서는, 수신기(1001), 전송기(1002), 프로세서(1003) 및 메모리(1004)가 버스를 이용하여 연결되는 예가 사용된다.
메모리(1004)는 읽기 전용 메모리 및 랜덤 액세스 메모리를 포함할 수 있고, 프로세서(1003)에 명령어 및 데이터를 제공할 수 있다. 메모리(1004)의 일부는 비휘발성 랜덤 액세스 메모리(non-volatile random access memory, NVRAM)를 더 포함할 수 있다. 메모리(1004)는 운영 체제 및 동작 명령어, 실행 가능한 모듈 또는 데이터 구조, 또는 이들의 서브세트, 또는 이들의 확장된 세트를 저장한다. 동작 명령어는 다양한 동작을 구현하기 위한 다양한 동작 명령어를 포함할 수 있다. 운영 체제는 다양한 기본 서비스를 구현하고 하드웨어 기반 작업을 처리하기 위한 다양한 시스템 프로그램을 포함할 수 있다.
프로세서(1003)는 오디오 인코딩 장치의 동작을 제어하고, 프로세서(1003)는 또한 중앙 처리 장치(central processing unit, CPU)로 지칭될 수 있다. 특정 애플리케이션에서, 오디오 인코딩 장치의 컴포넌트는 버스 시스템을 사용하여 함께 연결된다. 버스 시스템은 데이터 버스 외에, 전원 버스, 제어 버스, 상태 신호 버스를 더 포함할 수 있다. 다만, 설명의 편의를 위해 도면에서는 다양한 종류의 버스를 버스 시스템으로 표기하였다.
본 출원의 실시예에 개시된 방법은 프로세서(1003)에 적용되거나 프로세서(1003)에 의해 구현될 수 있다. 프로세서(1003)는 집적 회로 칩일 수 있고 신호 처리 능력을 갖는다. 구현 프로세스에서, 전술한 방법의 단계는 프로세서(1003)의 하드웨어 집적 로직 회로를 사용하거나, 소프트웨어 형태의 명령어를 사용하여 구현될 수 있다. 프로세서(1003)는 범용 프로세서, 디지털 신호 프로세서(digital signal processor, DSP), 주문형 집적 회로(application-specific integrated circuit, ASIC), 필드 프로그램 가능 게이트 어레이(field-programmable gate array, FPGA) 또는 다른 프로그래밍 가능 로직 장치, 개별 게이트 또는 트랜지스터 로직 장치, 또는 개별 하드웨어 컴포넌트일 수 있다. 프로세서는 본 출원의 실시예에 개시된 방법, 단계 및 로직 블록도를 구현하거나 수행할 수 있다. 범용 프로세서는 마이크로프로세서일 수 있거나, 프로세서는 임의의 통상적인 프로세서 등일 수 있다. 본 출원의 실시예를 참조하여 개시된 방법의 단계는 하드웨어 디코딩 프로세서에 의해 직접 수행 및 완료될 수 있거나 디코딩 프로세서에서 하드웨어 및 소프트웨어 모듈의 조합을 사용하여 수행 및 완료될 수 있다. 소프트웨어 모듈은 당업계의 성숙한 저장 매체, 예를 들어 랜덤 액세스 메모리, 플래시 메모리, 읽기 전용 메모리, 프로그램 가능한 읽기 전용 메모리, 전기적으로 소거 가능한 프로그램 가능한 메모리, 또는 레지스터에 위치할 수 있다. 저장 매체는 메모리(1004)에 위치하며, 프로세서(1003)는 메모리(1004)의 정보를 읽고 프로세서의 하드웨어와 결합하여 전술한 방법의 단계를 완료한다.
수신기(1001)는 입력된 숫자 또는 문자 정보를 수신하고 오디오 인코딩 장치의 관련 설정 및 기능 제어와 관련된 신호 입력을 생성하도록 구성될 수 있다. 전송기(1002)는 디스플레이와 같은 디스플레이 장치를 포함할 수 있고, 전송기(1002)는 외부 인터페이스를 통해 숫자 또는 문자 정보를 출력하도록 구성될 수 있다.
본 출원의 이 실시예에서, 프로세서(1003)는 전술한 오디오 인코딩 방법을 수행하도록 구성된다.
다음은 본 출원의 실시예에 따른 다른 오디오 디코딩 장치를 설명한다. 도 9를 참조하면, 오디오 디코딩 장치(1100)는 수신기(1101), 전송기(1102), 프로세서(1103), 및 메모리(1104)(오디오 디코딩 장치(1100)에는 하나 이상의 프로세서(1103)가 있을 수 있고, 하나의 프로세서가 있는 예가 도 9에서 사용됨)을 포함한다. 본 출원의 일부 실시예에서, 수신기(1101), 전송기(1102), 프로세서(1103), 및 메모리(1104)는 버스 또는 다른 방식으로 연결될 수 있다. 도 9에서는 수신기(1101), 전송기(1102), 프로세서(1103) 및 메모리(1104)가 버스를 이용하여 연결되는 예가 사용된다.
메모리(1104)는 읽기 전용 메모리 및 랜덤 액세스 메모리를 포함할 수 있고, 프로세서(1103)에 명령어 및 데이터를 제공할 수 있다. 메모리(1104)의 일부는 NVRAM를 더 포함할 수 있다. 메모리(1104)는 운영 체제 및 동작 명령어, 실행 가능한 모듈 또는 데이터 구조, 또는 이들의 서브세트, 또는 이들의 확장된 세트를 저장한다. 동작 명령어는 다양한 동작을 구현하기 위한 다양한 동작 명령어를 포함할 수 있다. 운영 체제는 다양한 기본 서비스를 구현하고 하드웨어 기반 작업을 처리하기 위한 다양한 시스템 프로그램을 포함할 수 있다.
프로세서(1103)는 오디오 인코딩 장치의 동작을 제어하고, 프로세서(1103)는 또한 CPU로 지칭될 수 있다. 특정 애플리케이션에서, 오디오 인코딩 장치의 컴포넌트는 버스 시스템을 사용하여 함께 연결된다. 버스 시스템은 데이터 버스 외에, 전원 버스, 제어 버스, 상태 신호 버스를 더 포함할 수 있다. 다만, 설명의 편의를 위해 도면에서는 다양한 종류의 버스를 버스 시스템으로 표기하였다.
본 출원의 실시예에 개시된 방법은 프로세서(1103)에 적용되거나 프로세서(1103)에 의해 구현될 수 있다. 프로세서(1103)는 집적 회로 칩일 수 있고 신호 처리 능력을 갖는다. 구현 프로세스에서, 전술한 방법의 단계는 프로세서(1103)의 하드웨어 집적 로직 회로를 사용하거나, 소프트웨어 형태의 명령어를 사용하여 구현될 수 있다. 프로세서(1103)는 범용 프로세서, DSP, ASIC, FPGA 또는 다른 프로그래밍 가능 로직 장치, 개별 게이트 또는 트랜지스터 로직 장치, 또는 개별 하드웨어 컴포넌트일 수 있다. 프로세서는 본 출원의 실시예에 개시된 방법, 단계 및 로직 블록도를 구현하거나 수행할 수 있다. 범용 프로세서는 마이크로프로세서일 수 있거나, 프로세서는 임의의 통상적인 프로세서 등일 수 있다. 본 출원의 실시예를 참조하여 개시된 방법의 단계는 하드웨어 디코딩 프로세서에 의해 직접 수행 및 완료될 수 있거나 디코딩 프로세서에서 하드웨어 및 소프트웨어 모듈의 조합을 사용하여 수행 및 완료될 수 있다. 소프트웨어 모듈은 당업계의 성숙한 저장 매체, 예를 들어 랜덤 액세스 메모리, 플래시 메모리, 읽기 전용 메모리, 프로그램 가능한 읽기 전용 메모리, 전기적으로 소거 가능한 프로그램 가능한 메모리, 또는 레지스터에 위치할 수 있다. 저장 매체는 메모리(1104)에 위치하며, 프로세서(1103)는 메모리(1104)의 정보를 읽고 프로세서의 하드웨어와 결합하여 전술한 방법의 단계를 완료한다.
본 출원의 이 실시예에서, 프로세서(1103)는 전술한 오디오 디코딩 방법을 수행하도록 구성된다.
다른 가능한 설계에서, 오디오 인코딩 장치 또는 오디오 디코딩 장치가 단말기의 칩인 경우, 칩은 처리 유닛 및 통신 유닛을 포함한다. 처리 유닛은 예를 들어 프로세서일 수 있다. 통신 유닛은, 예를 들어, 입/출력 인터페이스, 핀 또는 회로일 수 있다. 처리 유닛은 저장 유닛에 저장된 컴퓨터 실행가능 명령어를 실행할 수 있어서, 단말기의 칩이 제1 양태의 방법을 수행할 수 있다. 선택적으로, 저장 유닛은 칩의 저장 유닛, 예를 들어 레지스터 또는 캐시이다. 대안적으로, 저장 유닛은 단말기에 있고 칩 외부에 위치한 저장 유닛, 예를 들어 읽기 전용 메모리(read-only memory, ROM) 또는 정적 정보 및 명령어를 저장할 수 있는 다른 유형의 정적 저장 장치, 예를 들어 랜덤 액세스 메모리(random access memory, RAM)일 수 있다.
위에서 언급한 프로세서는 제1 양태에 따른 방법의 프로그램 실행을 제어하도록 구성된 범용 중앙 처리 장치, 마이크로프로세서, ASIC, 또는 하나 이상의 집적 회로일 수 있다.
또한, 설명된 장치 실시예는 단지 예에 불과하다는 점에 유의해야 한다. 별도의 부분으로 설명된 유닛은 물리적으로 분리되거나 그렇지 않을 수 있으며, 유닛으로 표시된 부분은 물리적인 유닛일 수도 있고 아닐 수도 있으며, 한 위치에 위치하거나 복수의 네트워크 유닛에 분산될 수도 있다. 일부 또는 모든 모듈은 실시예의 솔루션의 목적을 달성하기 위한 실제 필요에 따라 선택될 수 있다. 또한, 본 출원에서 제공되는 장치 실시예의 첨부 도면에서, 모듈 간의 연결 관계는 모듈이 서로 통신 연결되어 있음을 나타내며, 이는 구체적으로 하나 이상의 통신 버스 또는 신호 케이블로 구현될 수 있다.
전술한 구현의 설명에 기초하여, 당업자는 본 출원이 필요한 범용 하드웨어에 추가하여 소프트웨어에 의해 구현될 수 있거나, 애플리케이션 특정 집적회로, 전용 CPU, 전용 메모리, 전용 컴포넌트 등을 포함하는 전용 하드웨어에 의해 확실히 구현될 수 있음을 명확하게 이해할 수 있다. 일반적으로, 컴퓨터 프로그램에 의해 수행될 수 있는 모든 기능은 해당 하드웨어를 사용하여 쉽게 구현될 수 있으며, 동일한 기능을 달성하기 위해 사용되는 특정 하드웨어 구조는 다양한 형태, 예를 들어 아날로그 회로, 디지털 회로, 전용 회로 등의 형태를 취할 수 있다. 그러나, 본 출원에서는, 대부분의 경우 소프트웨어 프로그램 구현이 더 나은 구현이다. 이러한 이해를 바탕으로, 본 출원의 기술적 솔루션 또는 기존 기술에 기여하는 부분은 소프트웨어 제품의 형태로 구현될 수 있다. 소프트웨어 제품은 컴퓨터의 플로피 디스크, USB 플래시 드라이브, 이동식 하드 디스크, ROM, RAM, 자기 디스크 또는 CD-ROM과 같은 판독가능 저장 매체에 저장되고, 컴퓨터 장치(개인용 컴퓨터, 서버, 네트워크 장치 등일 수 있음)에 본 출원의 실시예에 설명된 방법을 수행하도록 지시하기 위한 여러 명령어를 포함한다.
전술한 실시예의 전부 또는 일부는 소프트웨어, 하드웨어, 펌웨어, 또는 이들의 임의의 조합을 사용하여 구현될 수 있다. 실시예를 구현하기 위해 소프트웨어가 사용될 때, 실시예의 전부 또는 일부는 컴퓨터 프로그램 제품의 형태로 구현될 수 있다.
컴퓨터 프로그램 제품은 하나 이상의 컴퓨터 명령어를 포함한다. 컴퓨터 프로그램 명령어가 컴퓨터에 로드되어 실행될 때, 본 출원의 실시예에 따른 절차 또는 기능은 전부 또는 부분적으로 생성된다. 컴퓨터는 범용 컴퓨터, 전용 컴퓨터, 컴퓨터 네트워크 또는 다른 프로그램 가능한 장치일 수 있다. 컴퓨터 명령어는 컴퓨터 판독가능 저장 매체에 저장되거나 컴퓨터 판독가능 저장 매체에서 다른 컴퓨터로 판독가능 저장 매체로 전송될 수 있다. 예를 들어, 컴퓨터 명령어는 웹사이트, 컴퓨터, 서버 또는 데이터 센터에서 유선(예컨대, 동축 케이블, 광섬유 또는 디지털 가입자 회선(DSL))으로 또는 무선(예컨대, 적외선, 라디오 또는 마이크로파) 방식으로 다른 웹사이트, 컴퓨터, 서버 또는 데이터 센터로 전송될 수 있다. 컴퓨터 판독가능 저장 매체는 컴퓨터에 의해 액세스 가능한 임의의 사용 가능한 매체이거나, 또는 하나 이상의 사용 가능한 매체를 통합한 서버 또는 데이터 센터와 같은 데이터 저장 장치일 수 있다. 사용 가능한 매체는 자기 매체(예컨대, 플로피 디스크, 하드 디스크 또는 자기 테이프), 광학 매체(예컨대, DVD), 반도체 매체(예컨대, 솔리드 스테이트 드라이브(Solid-State Drive, SSD)) 등일 수 있다.

Claims (35)

  1. 오디오 인코딩 방법으로서,
    오디오 신호의 현재 프레임을 획득하는 단계- 상기 현재 프레임은 고주파수 대역 신호 및 저주파수 대역 신호를 포함함 -와,
    상기 고주파수 대역 신호 및 상기 저주파수 대역 신호에 기초하여 제1 인코딩 파라미터를 획득하는 단계와,
    상기 고주파수 대역 신호에 기초하여 상기 현재 프레임의 제2 인코딩 파라미터를 획득하는 단계- 상기 제2 인코딩 파라미터는 톤 성분 정보(tone component information)를 포함함 -와,
    인코딩된 비트스트림을 획득하기 위해, 상기 제1 인코딩 파라미터 및 상기 제2 인코딩 파라미터에 대해 비트스트림 다중화를 수행하는 단계를 포함하는
    오디오 인코딩 방법.
  2. 제1항에 있어서,
    상기 고주파수 대역 신호에 기초하여 상기 현재 프레임의 제2 인코딩 파라미터를 획득하는 단계는,
    상기 고주파수 대역 신호가 톤 성분을 포함하는지 여부를 검출하는 단계와,
    상기 고주파수 대역 신호가 톤 성분을 포함하는 경우, 상기 고주파수 대역 신호에 기초하여 상기 현재 프레임의 상기 제2 인코딩 파라미터를 획득하는 단계를 포함하는
    오디오 인코딩 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 톤 성분 정보는 톤 성분 수량 정보, 톤 성분 위치 정보, 톤 성분 진폭 정보, 또는 톤 성분 에너지 정보 중 적어도 하나를 포함하는
    오디오 인코딩 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 제2 인코딩 파라미터는 노이즈 플로어 파라미터(noise floor parameter)를 더 포함하는
    오디오 인코딩 방법.
  5. 제4항에 있어서,
    상기 노이즈 플로어 파라미터는 노이즈 플로어 에너지를 포함하는
    오디오 인코딩 방법.
  6. 오디오 디코딩 방법으로서,
    인코딩된 비트스트림을 획득하는 단계와,
    오디오 신호의 현재 프레임의 제1 인코딩 파라미터 및 상기 현재 프레임의 제2 인코딩 파라미터를 획득하기 위해, 상기 인코딩된 비트스트림에 대해 비트스트림 역다중화를 수행하는 단계- 상기 현재 프레임의 상기 제2 인코딩 파라미터는 톤 성분 정보를 포함함 -와,
    상기 제1 인코딩 파라미터에 기초하여 상기 현재 프레임의 제1 고주파수 대역 신호 및 상기 현재 프레임의 제1 저주파수 대역 신호를 획득하는 단계와,
    상기 제2 인코딩 파라미터에 기초하여 상기 현재 프레임의 제2 고주파수 대역 신호를 획득하는 단계- 상기 제2 고주파수 대역 신호는 재구성된 톤 신호를 포함함 -와,
    상기 현재 프레임의 상기 제2 고주파수 대역 신호 및 상기 현재 프레임의 상기 제1 고주파수 대역 신호에 기초하여 상기 현재 프레임의 융합된 고주파수 대역 신호를 획득하는 단계를 포함하는
    오디오 디코딩 방법.
  7. 제6항에 있어서,
    상기 제1 고주파수 대역 신호는 상기 제1 인코딩 파라미터에 기초하여 직접 디코딩을 수행함으로써 획득된 디코딩된 고주파수 대역 신호, 및 상기 제1 저주파수 대역 신호에 기초하여 주파수 대역 확장을 수행하여 얻어진 확장된 고주파수 대역 신호 중 적어도 하나를 포함하는
    오디오 디코딩 방법.
  8. 제7항에 있어서,
    상기 제1 고주파수 대역 신호가 상기 확장된 고주파수 대역 신호를 포함하는 경우, 상기 현재 프레임의 제2 고주파수 대역 신호 및 상기 현재 프레임의 제1 고주파수 대역 신호에 기초하여 상기 현재 프레임의 융합된 고주파수 대역 신호를 획득하는 단계는,
    상기 현재 프레임의 현재 부대역의 현재 주파수에 대한 재구성된 톤 신호의 스펙트럼의 값이 미리 설정된 조건을 충족하는 경우, 상기 현재 주파수에 대한 확장된 고주파수 대역 신호의 스펙트럼 및 상기 현재 부대역의 노이즈 플로어 정보에 기초하여 상기 현재 주파수에 대한 융합된 고주파수 대역 신호를 획득하는 단계, 또는
    상기 현재 프레임의 현재 부대역의 현재 주파수에 대한 재구성된 톤 신호의 스펙트럼의 값이 미리 설정된 조건을 충족하지 않는 경우, 상기 현재 주파수에 대한 재구성된 톤 신호의 스펙트럼에 기초하여 상기 현재 주파수에 대한 융합된 고주파수 대역 신호를 획득하는 단계를 포함하는
    오디오 디코딩 방법.
  9. 제8항에 있어서,
    상기 노이즈 플로어 정보는 노이즈 플로어 이득 파라미터를 포함하는
    오디오 디코딩 방법.
  10. 제9항에 있어서,
    상기 현재 부대역의 상기 노이즈 플로어 이득 파라미터는 상기 현재 부대역의 폭, 상기 현재 부대역의 확장된 고주파수 대역 신호의 스펙트럼의 에너지, 및 상기 현재 부대역의 노이즈 플로어 에너지에 기초하여 획득되는
    오디오 디코딩 방법.
  11. 제7항에 있어서,
    상기 제1 고주파수 대역 신호가 상기 디코딩된 고주파수 대역 신호 및 상기 확장된 고주파수 대역 신호를 포함하는 경우, 상기 현재 프레임의 상기 제2 고주파수 대역 신호 및 상기 현재 프레임의 상기 제1 고주파수 대역 신호에 기초하여 상기 현재 프레임의 융합된 고주파수 대역 신호를 획득하는 단계는,
    상기 현재 프레임의 현재 부대역의 현재 주파수에 대한 재구성된 톤 신호의 스펙트럼의 값이 미리 설정된 조건을 충족하지 않는 경우, 상기 현재 주파수에 대한 상기 재구성된 톤 신호의 스펙트럼에 기초하여 상기 현재 주파수에 대한 융합된 고주파수 대역 신호를 획득하는 단계, 또는
    상기 현재 프레임의 현재 부대역의 현재 주파수에 대한 재구성된 톤 신호의 스펙트럼의 값이 미리 설정된 조건을 충족하는 경우, 상기 현재 주파수에 대한 확장된 고주파수 대역 신호의 스펙트럼, 상기 현재 주파수에 대한 디코딩된 고주파수 대역 신호의 스펙트럼, 및 상기 현재 부대역의 노이즈 플로어 정보에 기초하여 상기 현재 주파수에 대한 융합된 고주파수 대역 신호를 획득하는 단계를 포함하는
    오디오 디코딩 방법.
  12. 제11항에 있어서,
    상기 노이즈 플로어 정보는 노이즈 플로어 이득 파라미터를 포함하는
    오디오 디코딩 방법.
  13. 제12항에 있어서,
    상기 현재 부대역의 상기 노이즈 플로어 이득 파라미터는 상기 현재 부대역의 폭, 상기 현재 부대역의 노이즈 플로어 에너지, 상기 현재 부대역의 확장된 고주파수 대역 신호의 스펙트럼의 에너지, 및 상기 현재 부대역의 디코딩된 고주파수 대역 신호의 스펙트럼의 에너지에 기초하여 획득되는
    오디오 디코딩 방법.
  14. 제7항에 있어서,
    상기 제1 고주파수 대역 신호가 상기 디코딩된 고주파수 대역 신호 및 상기 확장된 고주파수 대역 신호를 포함하는 경우, 상기 방법은,
    상기 현재 프레임의 상기 융합된 고주파수 대역 신호를 획득하기 위해, 미리 설정된 표시 정보 또는 디코딩을 통해 획득된 표시 정보에 기초하여, 상기 디코딩된 고주파수 대역 신호, 상기 확장된 고주파수 대역 신호, 및 상기 재구성된 톤 신호 중에서 적어도 하나의 신호를 선택하는 단계를 더 포함하는
    오디오 디코딩 방법.
  15. 제10항 또는 제13항에 있어서,
    상기 제2 인코딩 파라미터는 상기 노이즈 플로어 에너지를 나타내기 위해 사용되는 노이즈 플로어 파라미터를 더 포함하는
    오디오 디코딩 방법.
  16. 제8항 또는 제11항에 있어서,
    상기 미리 설정된 조건은 상기 재구성된 톤 신호의 스펙트럼의 값이 0 또는 미리 설정된 임계값 미만인 것을 포함하는
    오디오 디코딩 방법.
  17. 오디오 인코더로서,
    오디오 신호의 현재 프레임을 획득하도록 구성된 신호 획득 유닛- 상기 현재 프레임은 고주파수 대역 신호 및 저주파수 대역 신호를 포함함 - 과,
    상기 고주파수 대역 신호 및 상기 저주파수 대역 신호에 기초하여 제1 인코딩 파라미터를 획득하고, 상기 고주파수 대역 신호에 기초하여 상기 현재 프레임의 제2 인코딩 파라미터를 획득하도록 구성된 파라미터 획득 유닛- 상기 제2 인코딩 파라미터는 톤 성분 정보를 포함함 -과,
    인코딩된 비트스트림을 획득하기 위해, 상기 제1 인코딩 파라미터 및 상기 제2 인코딩 파라미터에 대해 비트스트림 다중화를 수행하도록 구성된 인코딩 유닛을 포함하는
    오디오 인코더.
  18. 제17항에 있어서,
    상기 파라미터 획득 유닛은 구체적으로,
    상기 고주파수 대역 신호가 톤 성분을 포함하는지 여부를 검출하고,
    상기 고주파수 대역 신호가 톤 성분을 포함하는 경우, 상기 고주파수 대역 신호에 기초하여 상기 현재 프레임의 상기 제2 인코딩 파라미터를 획득하도록 구성된
    오디오 인코더.
  19. 제17항 또는 제18항에 있어서,
    상기 톤 성분 정보는 톤 성분 수량 정보, 톤 성분 위치 정보, 톤 성분 진폭 정보, 또는 톤 성분 에너지 정보 중 적어도 하나를 포함하는
    오디오 인코더.
  20. 제17항 내지 제19항 중 어느 한 항에 있어서,
    상기 제2 인코딩 파라미터는 노이즈 플로어 파라미터를 더 포함하는
    오디오 인코더.
  21. 제20항에 있어서,
    상기 노이즈 플로어 파라미터는 노이즈 플로어 에너지를 나타내기 위해 사용되는
    오디오 인코더.
  22. 오디오 디코더로서,
    인코딩된 비트스트림을 획득하도록 구성된 수신 유닛과,
    오디오 신호의 현재 프레임의 제1 인코딩 파라미터 및 상기 현재 프레임의 제2 인코딩 파라미터를 획득하기 위해, 상기 인코딩된 비트스트림에 대해 비트스트림 역다중화를 수행하도록 구성된 역다중화 유닛- 상기 현재 프레임의 상기 제2 인코딩 파라미터는 톤 성분 정보를 포함함 -과,
    상기 제1 인코딩 파라미터에 기초하여 상기 현재 프레임의 제1 고주파수 대역 신호 및 상기 현재 프레임의 제1 저주파수 대역 신호를 획득하고, 상기 제2 인코딩 파라미터에 기초하여 상기 현재 프레임의 제2 고주파수 대역 신호를 획득하도록 구성된 획득 유닛- 상기 제2 고주파수 대역 신호는 재구성된 톤 신호를 포함함 -과,
    상기 현재 프레임의 상기 제2 고주파수 대역 신호 및 상기 현재 프레임의 상기 제1 고주파수 대역 신호에 기초하여 상기 현재 프레임의 융합된 고주파수 대역 신호를 획득하도록 구성된 융합 유닛을 포함하는
    오디오 디코더.
  23. 제22항에 있어서,
    상기 제1 고주파수 대역 신호는 상기 제1 인코딩 파라미터에 기초하여 직접 디코딩을 수행함으로써 획득된 디코딩된 고주파수 대역 신호, 및 상기 제1 저주파수 대역 신호에 기초하여 주파수 대역 확장을 수행하여 얻어진 확장된 고주파수 대역 신호 중 적어도 하나를 포함하는
    오디오 디코더.
  24. 제23항에 있어서,
    상기 제1 고주파수 대역 신호가 상기 확장된 고주파수 대역 신호를 포함하는 경우, 상기 융합 유닛은 구체적으로,
    상기 현재 프레임의 현재 부대역의 현재 주파수에 대한 재구성된 톤 신호의 스펙트럼의 값이 미리 설정된 조건을 충족하는 경우, 상기 현재 주파수에 대한 확장된 고주파수 대역 신호의 스펙트럼 및 상기 현재 부대역의 노이즈 플로어 정보에 기초하여 상기 현재 주파수에 대한 융합된 고주파수 대역 신호를 획득하고, 또는
    상기 현재 프레임의 현재 부대역의 현재 주파수에 대한 재구성된 톤 신호의 스펙트럼의 값이 미리 설정된 조건을 충족하지 않는 경우, 상기 현재 주파수에 대한 상기 재구성된 톤 신호의 스펙트럼에 기초하여 상기 현재 주파수에 대한 융합된 고주파수 대역 신호를 획득하도록 구성된
    오디오 디코더.
  25. 제24항에 있어서,
    상기 노이즈 플로어 정보는 노이즈 플로어 이득 파라미터를 포함하는
    오디오 디코더.
  26. 제25항에 있어서,
    상기 현재 부대역의 상기 노이즈 플로어 이득 파라미터는 상기 현재 부대역의 폭, 상기 현재 부대역의 확장된 고주파수 대역 신호의 스펙트럼의 에너지, 및 상기 현재 부대역의 노이즈 플로어 에너지에 기초하여 획득되는
    오디오 디코더.
  27. 제23항에 있어서,
    상기 제1 고주파수 대역 신호가 상기 디코딩된 고주파수 대역 신호 및 상기 확장된 고주파수 대역 신호를 포함하는 경우, 상기 융합 유닛은 구체적으로,
    상기 현재 프레임의 현재 부대역의 현재 주파수에 대한 재구성된 톤 신호의 스펙트럼의 값이 미리 설정된 조건을 충족하지 않는 경우, 상기 현재 주파수에 대한 상기 재구성된 톤 신호의 스펙트럼에 기초하여 상기 현재 주파수에 대한 융합된 고주파수 대역 신호를 획득하고, 또는
    상기 현재 프레임의 현재 부대역의 현재 주파수에 대한 재구성된 톤 신호의 스펙트럼의 값이 미리 설정된 조건을 충족하는 경우, 상기 현재 주파수에 대한 확장된 고주파수 대역 신호의 스펙트럼, 상기 현재 주파수 상의 디코딩된 고주파수 대역 신호의 스펙트럼, 및 상기 현재 부대역의 노이즈 플로어 정보에 기초하여 상기 현재 주파수에 대한 융합된 고주파수 대역 신호를 획득하도록 구성된
    오디오 디코더.
  28. 제27항에 있어서,
    상기 노이즈 플로어 정보는 노이즈 플로어 이득 파라미터를 포함하는
    오디오 디코더.
  29. 제28항에 있어서,
    상기 현재 부대역의 상기 노이즈 플로어 이득 파라미터는 상기 현재 부대역의 폭, 상기 현재 부대역의 노이즈 플로어 에너지, 상기 현재 부대역의 확장된 고주파수 대역 신호의 스펙트럼의 에너지, 및 상기 현재 부대역의 디코딩된 고주파수 대역 신호의 스펙트럼의 에너지에 기초하여 획득되는
    오디오 디코더.
  30. 제23항에 있어서,
    상기 제1 고주파수 대역 신호가 상기 디코딩된 고주파수 대역 신호 및 상기 확장된 고주파수 대역 신호를 포함하는 경우, 상기 융합 유닛은, 상기 현재 프레임의 상기 융합된 고주파수 대역 신호를 획득하기 위해, 미리 설정된 표시 정보 또는 디코딩을 통해 획득된 표시 정보에 기초하여, 상기 디코딩된 고주파수 대역 신호, 상기 확장된 고주파수 대역 신호, 및 상기 재구성된 톤 신호 중에서 적어도 하나의 신호를 선택하도록 더 구성된
    오디오 디코더.
  31. 제26항 또는 제29항에 있어서,
    상기 제2 인코딩 파라미터는 상기 노이즈 플로어 에너지를 나타내기 위해 사용되는 노이즈 플로어 파라미터를 더 포함하는
    오디오 디코더.
  32. 제31항 또는 제34항에 있어서,
    상기 미리 설정된 조건은 상기 재구성된 톤 신호의 스펙트럼의 값이 0 또는 미리 설정된 임계값 미만인 것을 포함하는
    오디오 디코더.
  33. 적어도 하나의 프로세서를 포함하는 오디오 인코딩 장치로서,
    상기 적어도 하나의 프로세서는 메모리에 연결되고, 상기 메모리 내의 명령어를 읽고 실행하여 제1항 내지 제5항 중 어느 한 항의 방법을 구현하도록 구성된
    오디오 인코딩 장치.
  34. 적어도 하나의 프로세서를 포함하는 오디오 디코딩 장치로서,
    상기 적어도 하나의 프로세서는 메모리에 연결되고, 상기 메모리 내의 명령어를 읽고 실행하여 제6항 내지 제16항 중 어느 한 항의 방법을 구현하도록 구성된
    오디오 디코딩 장치.
  35. 명령어를 포함하는 컴퓨터 판독가능 저장 매체로서,
    상기 명령어가 컴퓨터 상에서 실행되는 경우, 상기 컴퓨터는 제1항 내지 제16항 중 어느 한의 방법을 수행하도록 구성된
    컴퓨터 판독가능 저장 매체.
KR1020227026854A 2020-01-13 2021-01-12 오디오 인코딩 및 디코딩 방법 및 오디오 인코딩 및 디코딩 장치 KR20220123108A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010033326.X 2020-01-13
CN202010033326.XA CN113192523A (zh) 2020-01-13 2020-01-13 一种音频编解码方法和音频编解码设备
PCT/CN2021/071328 WO2021143692A1 (zh) 2020-01-13 2021-01-12 一种音频编解码方法和音频编解码设备

Publications (1)

Publication Number Publication Date
KR20220123108A true KR20220123108A (ko) 2022-09-05

Family

ID=76863590

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227026854A KR20220123108A (ko) 2020-01-13 2021-01-12 오디오 인코딩 및 디코딩 방법 및 오디오 인코딩 및 디코딩 장치

Country Status (6)

Country Link
US (1) US20220358941A1 (ko)
EP (1) EP4084001A4 (ko)
JP (1) JP7443534B2 (ko)
KR (1) KR20220123108A (ko)
CN (1) CN113192523A (ko)
WO (1) WO2021143692A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113808597A (zh) * 2020-05-30 2021-12-17 华为技术有限公司 一种音频编码方法和音频编码装置
CN113808596A (zh) * 2020-05-30 2021-12-17 华为技术有限公司 一种音频编码方法和音频编码装置
CN114127844A (zh) * 2021-10-21 2022-03-01 北京小米移动软件有限公司 一种信号编解码方法、装置、编码设备、解码设备及存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BRPI0418665B1 (pt) * 2004-03-12 2018-08-28 Nokia Corp método e decodificador para sintetizar um sinal de áudio mono baseado no sinal de áudio codificado de múltiplos canais disponíveis, terminal móvel e sistema de codificação
BRPI0520729B1 (pt) * 2005-11-04 2019-04-02 Nokia Technologies Oy Método para a codificação e decodificação de sinais de áudio, codificador para codificação e decodificador para decodificar sinais de áudio e sistema para compressão de áudio digital.
CN1831940B (zh) * 2006-04-07 2010-06-23 安凯(广州)微电子技术有限公司 基于音频解码器的音调和节奏调节方法
JP2008058727A (ja) * 2006-08-31 2008-03-13 Toshiba Corp 音声符号化装置
KR101355376B1 (ko) * 2007-04-30 2014-01-23 삼성전자주식회사 고주파수 영역 부호화 및 복호화 방법 및 장치
JP4932917B2 (ja) * 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
CN102194458B (zh) * 2010-03-02 2013-02-27 中兴通讯股份有限公司 频带复制方法、装置及音频解码方法、系统
EP2950308B1 (en) * 2013-01-22 2020-02-19 Panasonic Corporation Bandwidth expansion parameter-generator, encoder, decoder, bandwidth expansion parameter-generating method, encoding method, and decoding method
CN111710342B (zh) * 2014-03-31 2024-04-16 弗朗霍弗应用研究促进协会 编码装置、解码装置、编码方法、解码方法及程序
EP3443557B1 (en) * 2016-04-12 2020-05-20 Fraunhofer Gesellschaft zur Förderung der Angewand Audio encoder for encoding an audio signal, method for encoding an audio signal and computer program under consideration of a detected peak spectral region in an upper frequency band
JP6769299B2 (ja) * 2016-12-27 2020-10-14 富士通株式会社 オーディオ符号化装置およびオーディオ符号化方法
EP3435376B1 (en) * 2017-07-28 2020-01-22 Fujitsu Limited Audio encoding apparatus and audio encoding method
EP3872809B1 (en) * 2018-01-26 2022-07-27 Dolby International AB Backward-compatible integration of high frequency reconstruction techniques for audio signals
CA3152262A1 (en) * 2018-04-25 2019-10-31 Dolby International Ab Integration of high frequency reconstruction techniques with reduced post-processing delay

Also Published As

Publication number Publication date
EP4084001A1 (en) 2022-11-02
WO2021143692A1 (zh) 2021-07-22
EP4084001A4 (en) 2023-03-08
JP2023510556A (ja) 2023-03-14
JP7443534B2 (ja) 2024-03-05
CN113192523A (zh) 2021-07-30
US20220358941A1 (en) 2022-11-10

Similar Documents

Publication Publication Date Title
KR20220123108A (ko) 오디오 인코딩 및 디코딩 방법 및 오디오 인코딩 및 디코딩 장치
KR20220123109A (ko) 오디오 인코딩 및 디코딩 방법 및 오디오 인코딩 및 디코딩 장치
US11887610B2 (en) Audio encoding and decoding method and audio encoding and decoding device
EP4086899A1 (en) Audio transmission method and electronic device
US20230040515A1 (en) Audio signal coding method and apparatus
KR20230002697A (ko) 오디오 신호 인코딩 방법, 디코딩 방법, 인코딩 기기 및 디코딩 기기
US20240105188A1 (en) Downmixed signal calculation method and apparatus
KR20230018495A (ko) 오디오 코딩 방법 및 장치
US20220335962A1 (en) Audio encoding method and device and audio decoding method and device
US20230105508A1 (en) Audio Coding Method and Apparatus
US20230145725A1 (en) Multi-channel audio signal encoding and decoding method and apparatus
EP3991170A1 (en) Determination of spatial audio parameter encoding and associated decoding
US20220335961A1 (en) Audio signal encoding method and apparatus, and audio signal decoding method and apparatus
US20230154472A1 (en) Multi-channel audio signal encoding method and apparatus
WO2022012677A1 (zh) 音频编解码方法和相关装置及计算机可读存储介质
WO2023051368A1 (zh) 编解码方法、装置、设备、存储介质及计算机程序产品
EP4071758A1 (en) Audio signal encoding and decoding method, and encoding and decoding apparatus
JP2022144246A (ja) 情報処理装置

Legal Events

Date Code Title Description
A201 Request for examination