KR20190029778A - 오디오 코딩 방법 및 장치 - Google Patents

오디오 코딩 방법 및 장치 Download PDF

Info

Publication number
KR20190029778A
KR20190029778A KR1020197007222A KR20197007222A KR20190029778A KR 20190029778 A KR20190029778 A KR 20190029778A KR 1020197007222 A KR1020197007222 A KR 1020197007222A KR 20197007222 A KR20197007222 A KR 20197007222A KR 20190029778 A KR20190029778 A KR 20190029778A
Authority
KR
South Korea
Prior art keywords
energy
audio frame
ratio
preset
minimum bandwidth
Prior art date
Application number
KR1020197007222A
Other languages
English (en)
Other versions
KR102051928B1 (ko
Inventor
저 왕
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Publication of KR20190029778A publication Critical patent/KR20190029778A/ko
Application granted granted Critical
Publication of KR102051928B1 publication Critical patent/KR102051928B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Abstract

오디오 코딩 방법 및 장치. 이 방법은: 입력된 N개 오디오 프레임의 에너지의, 주파수 스펙트럼을 따른 분포 희소성을 결정하는 단계(101) - 여기서 상기 N개 오디오 프레임은 현재 오디오 프레임을 포함하고 N은 양의 정수임 -; 및 상기 분포 희소성에 기초하여, 상기 현재 오디오 프레임을 코딩하기 위해 제1 코딩 방법을 이용할지 제2 코딩 방법을 이용할지를 결정하는 단계(102)를 포함하고, 여기서 상기 제1 코딩 방법은 시간-주파수 변환 및 변환 계수 양자화에 기초하는 그리고 선형 예측에 기초하지 않는 코딩 방법이고, 상기 제2 코딩 방법은 선형 예측에 기초하는 코딩 방법이다. 오디오 프레임들을 코딩할 때, 이 설명된 방법은 상기 오디오 프레임들의 에너지의, 주파수 스펙트럼을 따른 분포 희소성을 고려하여, 코딩 복잡도를 감소시키고 높은 정확도의 코딩을 보장한다.

Description

오디오 코딩 방법 및 장치{AUDIO CODING METHOD AND APPARATUS}
본 발명의 실시예들은 신호 처리 기술의 분야에 관한 것이고, 더 구체적으로는, 오디오 인코딩 방법 및 장치에 관한 것이다.
선행 기술에서는, 음성 통신 시스템에서 오디오 신호를 인코딩하기 위해 하이브리드 인코더가 통상적으로 이용된다. 구체적으로, 하이브리드 인코더는 통상적으로 2개의 서브 인코더를 포함한다. 하나의 서브 인코더는 음성 신호를 인코딩하는 데 적합하고, 다른 하나의 인코더는 비음성 신호를 인코딩하는 데 적합하다. 수신된 오디오 신호에 대해, 하이브리드 인코더의 각각의 서브 인코더는 오디오 신호를 인코딩한다. 하이브리드 인코더는 인코딩된 오디오 신호들의 품질을 직접 비교하여 최적의 서브 인코더를 선택한다. 그러나, 이러한 폐루프 인코딩 방법은 연산 복잡도가 높다.
본 발명의 실시예들은 인코딩 복잡도를 감소시키고 비교적 높은 정확도의 인코딩을 보장할 수 있는, 오디오 인코딩 방법 및 장치를 제공한다.
제1 양태에 따르면, 오디오 인코딩 방법이 제공되는데, 이 방법은: N개 입력 오디오 프레임의 에너지의, 스펙트럼상의 분포의 희소성을 결정하는 단계 - 여기서 상기 N개 오디오 프레임은 현재 오디오 프레임을 포함하고, N은 양의 정수임 -; 및 상기 N개 오디오 프레임의 에너지의, 상기 스펙트럼상의 상기 분포의 희소성에 따라, 상기 현재 오디오 프레임을 인코딩하기 위해 제1 인코딩 방법을 이용할지 제2 인코딩 방법을 이용할지를 결정하는 단계를 포함하고, 여기서 상기 제1 인코딩 방법은 시간-주파수 변환 및 변환 계수 양자화에 기초하는 그리고 선형 예측에 기초하지 않는 인코딩 방법이고, 상기 제2 인코딩 방법은 선형 예측 기반 인코딩 방법이다.
상기 제1 양태에 관련하여, 상기 제1 양태의 상기 제1 가능한 구현 방식에서, N개 입력 오디오 프레임의 에너지의, 스펙트럼상의 분포의 희소성을 결정하는 상기 단계는: 상기 N개 오디오 프레임 각각의 스펙트럼을 P개 스펙트럼 포락선으로 나누는 단계 - 여기서 P는 양의 정수임 -; 및 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의 에너지에 따라 일반 희소성 파라미터를 결정하는 단계를 포함하고, 여기서 상기 일반 희소성 파라미터는 상기 N개 오디오 프레임의 상기 에너지의, 상기 스펙트럼상의 상기 분포의 희소성을 지시한다.
상기 제1 양태의 상기 제1 가능한 구현 방식에 관련하여, 상기 제1 양태의 제2 가능한 구현 방식에서, 상기 일반 희소성 파라미터는 제1 최소 대역폭을 포함하고; 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의 에너지에 따라 일반 희소성 파라미터를 결정하는 상기 단계는: 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의 상기 에너지에 따라 상기 N개 오디오 프레임의 제1 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭들의 평균값을 결정하는 단계를 포함하고, 여기서 상기 N개 오디오 프레임의 상기 제1 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭들의 상기 평균값은 상기 제1 최소 대역폭이고; 상기 N개 오디오 프레임의 에너지의, 상기 스펙트럼상의 상기 분포의 희소성에 따라, 상기 현재 오디오 프레임을 인코딩하기 위해 제1 인코딩 방법을 이용할지 제2 인코딩 방법을 이용할지를 결정하는 상기 단계는: 상기 제1 최소 대역폭이 제1 사전 설정 값보다 작을 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정하는 단계; 또는 상기 제1 최소 대역폭이 상기 제1 사전 설정 값보다 클 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제2 인코딩 방법을 이용하기로 결정하는 단계를 포함한다.
상기 제1 양태의 상기 제2 가능한 구현 방식과 관련하여, 상기 제1 양태의 제3 가능한 구현 방식에서, 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의 상기 에너지에 따라 상기 N개 오디오 프레임의 제1 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭들의 평균값을 결정하는 상기 단계는: 각각의 오디오 프레임의 상기 P개 스펙트럼 포락선의 상기 에너지를 내림차순으로 분류하는 단계; 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의, 내림차순으로 분류된 상기 에너지에 따라, 상기 N개 오디오 프레임 각각의 상기 제1 사전 설정 비율 이상을 차지하는 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭을 결정하는 단계; 및 상기 N개 오디오 프레임 각각의 상기 제1 사전 설정 비율 이상을 차지하는 상기 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭에 따라, 상기 N개 오디오 프레임의 상기 제1 사전 설정 비율 이상을 차지하는 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭들의 평균값을 결정하는 단계를 포함한다.
상기 제1 양태의 상기 제1 가능한 구현 방식에 관련하여, 상기 제1 양태의 제4 가능한 구현 방식에서, 상기 일반 희소성 파라미터는 제1 에너지 비율을 포함하고; 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의 에너지에 따라 일반 희소성 파라미터를 결정하는 상기 단계는: 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선 중에서 P1개 스펙트럼 포락선을 선택하는 단계; 및 상기 N개 오디오 프레임 각각의 상기 P1개 스펙트럼 포락선의 에너지 및 상기 각각의 N개 오디오 프레임의 총 에너지에 따라 상기 제1 에너지 비율을 결정하는 단계를 포함하고, 여기서 P1은 P보다 작은 양의 정수이고; 상기 N개 오디오 프레임의 에너지의, 상기 스펙트럼상의 상기 분포의 희소성에 따라, 상기 현재 오디오 프레임을 인코딩하기 위해 제1 인코딩 방법을 이용할지 제2 인코딩 방법을 이용할지를 결정하는 상기 단계는: 상기 제1 에너지 비율이 제2 사전 설정 값보다 클 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정하는 단계; 또는 상기 제1 에너지 비율이 상기 제2 사전 설정 값보다 작을 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제2 인코딩 방법을 이용하기로 결정하는 단계를 포함한다.
상기 제1 양태의 상기 제4 가능한 구현 방식과 관련하여, 상기 제1 양태의 제5 가능한 구현 방식에서, 상기 P1개 스펙트럼 포락선 중 어느 하나의 에너지는 상기 P개 스펙트럼 포락선 중 상기 P1개 스펙트럼 포락선을 제외한 다른 스펙트럼 포락선들 중 어느 하나의 에너지보다 크다.
상기 제1 양태의 상기 제1 가능한 구현 방식에 관련하여, 상기 제1 양태의 제6 가능한 구현 방식에서, 상기 일반 희소성 파라미터는 제2 최소 대역폭 및 제3 최소 대역폭을 포함하고; 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의 에너지에 따라 일반 희소성 파라미터를 결정하는 상기 단계는: 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의 상기 에너지에 따라 상기 N개 오디오 프레임의 제2 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭들의 평균값을 결정하고 상기 N개 오디오 프레임의 제3 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭들의 평균값을 결정하는 단계를 포함하고, 여기서 상기 N개 오디오 프레임의 상기 제2 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭들의 상기 평균값은 상기 제2 최소 대역폭으로서 이용되고, 상기 N개 오디오 프레임의 상기 제3 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭들의 상기 평균값은 상기 제3 최소 대역폭으로서 이용되고, 상기 제2 사전 설정 비율은 상기 제3 사전 설정 비율보다 작고; 상기 N개 오디오 프레임의 에너지의, 상기 스펙트럼상의 상기 분포의 희소성에 따라, 상기 현재 오디오 프레임을 인코딩하기 위해 제1 인코딩 방법을 이용할지 제2 인코딩 방법을 이용할지를 결정하는 상기 단계는: 상기 제2 최소 대역폭이 제3 사전 설정 값보다 작고 상기 제3 최소 대역폭이 제4 사전 설정 값보다 작을 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정하는 단계; 상기 제3 최소 대역폭이 제5 사전 설정 값보다 작을 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정하는 단계; 또는 상기 제3 최소 대역폭이 제6 사전 설정 값보다 클 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제2 인코딩 방법을 이용하기로 결정하는 단계를 포함하고, 여기서 상기 제4 사전 설정 값은 상기 제3 사전 설정 값 이상이고, 상기 제5 사전 설정 값은 상기 제4 사전 설정 값보다 작고, 상기 제6 사전 설정 값은 상기 제4 사전 설정 값보다 크다.
상기 제1 양태의 상기 제6 가능한 구현 방식과 관련하여, 상기 제1 양태의 제7 가능한 구현 방식에서, 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의 상기 에너지에 따라 상기 N개 오디오 프레임의 제2 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭들의 평균값을 결정하고 상기 N개 오디오 프레임의 제3 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭들의 평균값을 결정하는 상기 단계는: 각각의 오디오 프레임의 상기 P개 스펙트럼 포락선의 상기 에너지를 내림차순으로 분류하는 단계; 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의, 내림차순으로 분류된 상기 에너지에 따라, 상기 N개 오디오 프레임 각각의 상기 제2 사전 설정 비율 이상을 차지하는 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭을 결정하는 단계; 상기 N개 오디오 프레임 각각의 상기 제2 사전 설정 비율 이상을 차지하는 상기 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭에 따라, 상기 N개 오디오 프레임의 상기 제2 사전 설정 비율 이상을 차지하는 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭들의 평균값을 결정하는 단계; 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의, 내림차순으로 분류된 상기 에너지에 따라, 상기 N개 오디오 프레임 각각의 상기 제3 사전 설정 비율 이상을 차지하는 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭을 결정하는 단계; 및 상기 N개 오디오 프레임 각각의 상기 제3 사전 설정 비율 이상을 차지하는 상기 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭에 따라, 상기 N개 오디오 프레임의 상기 제3 사전 설정 비율 이상을 차지하는 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭들의 평균값을 결정하는 단계를 포함한다.
상기 제1 양태의 상기 제1 가능한 구현 방식에 관련하여, 상기 제1 양태의 제8 가능한 구현 방식에서, 상기 일반 희소성 파라미터는 제2 에너지 비율 및 제3 에너지 비율을 포함하고; 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의 에너지에 따라 일반 희소성 파라미터를 결정하는 상기 단계는: 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선 중에서 P2개 스펙트럼 포락선을 선택하는 단계; 상기 N개 오디오 프레임 각각의 상기 P2개 스펙트럼 포락선의 에너지 및 상기 각각의 N개 오디오 프레임의 총 에너지에 따라 상기 제2 에너지 비율을 결정하는 단계; 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선 중에서 P3개 스펙트럼 포락선을 선택하는 단계; 및 상기 N개 오디오 프레임 각각의 상기 P3개 스펙트럼 포락선의 에너지 및 상기 각각의 N개 오디오 프레임의 상기 총 에너지에 따라 상기 제3 에너지 비율을 결정하는 단계를 포함하고, 여기서 P2 및 P3는 P보다 작은 양의 정수들이고, P2는 P3보다 작고; 상기 N개 오디오 프레임의 에너지의, 상기 스펙트럼상의 상기 분포의 희소성에 따라, 상기 현재 오디오 프레임을 인코딩하기 위해 제1 인코딩 방법을 이용할지 제2 인코딩 방법을 이용할지를 결정하는 상기 단계는: 상기 제2 에너지 비율이 제7 사전 설정 값보다 크고 상기 제3 에너지 비율이 제8 사전 설정 값보다 클 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정하는 단계; 상기 제2 에너지 비율이 제9 사전 설정 값보다 클 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정하는 단계; 또는 상기 제3 에너지 비율이 제10 사전 설정 값보다 작을 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제2 인코딩 방법을 이용하기로 결정하는 단계를 포함한다.
상기 제1 양태의 상기 제8 가능한 구현 방식과 관련하여, 상기 제1 양태의 제9 가능한 구현 방식에서, 상기 P2개 스펙트럼 포락선은 상기 P개 스펙트럼 포락선 중 최대 에너지를 갖는 P2개 스펙트럼 포락선이고; 상기 P3개 스펙트럼 포락선은 상기 P개 스펙트럼 포락선 중 최대 에너지를 갖는 P3개 스펙트럼 포락선이다.
상기 제1 양태에 관련하여, 상기 제1 양태의 제10 가능한 구현 방식에서, 상기 스펙트럼상의 상기 에너지의 상기 분포의 희소성은 상기 스펙트럼상의 상기 에너지의 분포의 전역 희소성, 국부 희소성, 및 단시간 버스트성(short-time burstiness)을 포함한다.
상기 제1 양태의 상기 제10 가능한 구현 방식에 관련하여, 상기 제1 양태의 제11 가능한 구현 방식에서, N은 1이고, 상기 N개 오디오 프레임은 상기 현재 오디오 프레임이고; N개 입력 오디오 프레임의 에너지의, 스펙트럼상의 분포의 희소성을 결정하는 상기 단계는: 상기 현재 오디오 프레임의 스펙트럼을 Q개 부대역으로 나누는 단계; 및 상기 현재 오디오 프레임의 상기 스펙트럼의 상기 Q개 부대역 각각의 피크 에너지에 따라 버스트 희소성 파라미터를 결정하는 단계를 포함하고, 여기서 상기 버스트 희소성 파라미터는 상기 현재 오디오 프레임의 전역 희소성, 국부 희소성, 및 단시간 버스트성을 지시하는 데 이용된다.
상기 제1 양태의 상기 제11 가능한 구현 방식에 관련하여, 상기 제1 양태의 제12 가능한 구현 방식에서, 상기 버스트 희소성 파라미터는: 상기 Q개 부대역 각각의 전역 피크 대 평균 비율, 상기 Q개 부대역 각각의 국부 피크 대 평균 비율, 및 상기 Q개 부대역 각각의 단시간 에너지 변동을 포함하고, 여기서 상기 전역 피크 대 평균 비율은 상기 부대역에서의 상기 피크 에너지 및 상기 현재 오디오 프레임의 모든 부대역의 평균 에너지에 따라 결정되고, 상기 국부 피크 대 평균 비율은 상기 부대역에서의 상기 피크 에너지 및 상기 부대역에서의 평균 에너지에 따라 결정되고, 상기 단시간 피크 에너지 변동은 상기 부대역에서의 상기 피크 에너지 및 상기 오디오 프레임 전의 오디오 프레임의 특정 주파수 대역에서의 피크 에너지에 따라 결정되고; 상기 N개 오디오 프레임의 에너지의, 상기 스펙트럼상의 상기 분포의 희소성에 따라, 상기 현재 오디오 프레임을 인코딩하기 위해 제1 인코딩 방법을 이용할지 제2 인코딩 방법을 이용할지를 결정하는 상기 단계는: 상기 Q개 부대역 중에 제1 부대역이 있는지를 결정하는 단계 - 여기서 상기 제1 부대역의 국부 피크 대 평균 비율은 제11 사전 설정 값보다 크고, 상기 제1 부대역의 전역 피크 대 평균 비율은 제12 사전 설정 값보다 크고, 상기 제1 부대역의 단시간 피크 에너지 변동은 제13 사전 설정 값보다 큼 -; 및 상기 Q개 부대역 중에 상기 제1 부대역이 있을 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정하는 단계를 포함한다.
상기 제1 양태에 관련하여, 상기 제1 양태의 제13 가능한 구현 방식에서, 상기 스펙트럼상의 상기 에너지의 상기 분포의 희소성은 상기 스펙트럼상의 상기 에너지의 분포의 대역 제한 특성을 포함한다.
상기 제1 양태의 상기 제13 가능한 구현 방식에 관련하여, 상기 제1 양태의 제14 가능한 구현 방식에서, N개 입력 오디오 프레임의 에너지의, 스펙트럼상의 분포의 희소성을 결정하는 상기 단계는: 상기 N개 오디오 프레임 각각의 경계 주파수(demarcation frequency)를 결정하는 단계; 및 상기 N개 오디오 프레임 각각의 상기 경계 주파수에 따라 대역 제한 희소성 파라미터를 결정하는 단계를 포함한다.
상기 제1 양태의 상기 제14 가능한 구현 방식에 관련하여, 상기 제1 양태의 제15 가능한 구현 방식에서, 상기 대역 제한 희소성 파라미터는 상기 N개 오디오 프레임의 상기 경계 주파수들의 평균값이고; 상기 N개 오디오 프레임의 에너지의, 상기 스펙트럼상의 상기 분포의 희소성에 따라, 상기 현재 오디오 프레임을 인코딩하기 위해 제1 인코딩 방법을 이용할지 제2 인코딩 방법을 이용할지를 결정하는 상기 단계는: 상기 오디오 프레임들의 상기 대역 제한 희소성 파라미터가 제14 사전 설정 값보다 작다고 결정될 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정하는 단계를 포함한다.
제2 양태에 따르면, 본 발명의 일 실시예는 장치를 제공하는데, 이 장치는: N개 오디오 프레임을 획득하도록 구성된 획득 유닛 - 여기서 상기 N개 오디오 프레임은 현재 오디오 프레임을 포함하고, N은 양의 정수임 -; 및 상기 획득 유닛에 의해 획득된 상기 N개 오디오 프레임의 에너지의 상기 스펙트럼상의 분포의 희소성을 결정하도록 구성된 결정 유닛을 포함하고; 상기 결정 유닛은 상기 N개 오디오 프레임의 에너지의, 상기 스펙트럼상의 상기 분포의 희소성에 따라, 상기 현재 오디오 프레임을 인코딩하기 위해 제1 인코딩 방법을 이용할지 제2 인코딩 방법을 이용할지를 결정하도록 추가로 구성되고, 여기서 상기 제1 인코딩 방법은 시간-주파수 변환 및 변환 계수 양자화에 기초하는 그리고 선형 예측에 기초하지 않는 인코딩 방법이고, 상기 제2 인코딩 방법은 선형 예측 기반 인코딩 방법이다.
상기 제2 양태에 관련하여, 상기 제2 양태의 제1 가능한 구현 방식에서, 상기 결정 유닛은 구체적으로 상기 N개 오디오 프레임 각각의 스펙트럼을 P개 스펙트럼 포락선으로 나누고, 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의 에너지에 따라 일반 희소성 파라미터를 결정하도록 구성되고, 여기서 P는 양의 정수이고, 상기 일반 희소성 파라미터는 상기 N개 오디오 프레임의 상기 에너지의, 상기 스펙트럼상의 상기 분포의 희소성을 지시한다.
상기 제2 양태의 상기 제1 가능한 구현 방식에 관련하여, 상기 제2 양태의 제2 가능한 구현 방식에서, 상기 일반 희소성 파라미터는 제1 최소 대역폭을 포함하고; 상기 결정 유닛은 구체적으로 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의 상기 에너지에 따라 상기 N개 오디오 프레임의 제1 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭들의 평균값을 결정하도록 구성되고, 여기서 상기 N개 오디오 프레임의 상기 제1 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭들의 상기 평균값은 상기 제1 최소 대역폭이고; 상기 결정 유닛은 구체적으로: 상기 제1 최소 대역폭이 제1 사전 설정 값보다 작을 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정하고; 상기 제1 최소 대역폭이 상기 제1 사전 설정 값보다 클 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제2 인코딩 방법을 이용하기로 결정하도록 구성된다.
상기 제2 양태의 상기 제2 가능한 구현 방식에 관련하여, 상기 제2 양태의 제3 가능한 구현 방식에서, 상기 결정 유닛은 구체적으로: 각각의 오디오 프레임의 상기 P개 스펙트럼 포락선의 상기 에너지를 내림차순으로 분류하고; 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의, 내림차순으로 분류된 상기 에너지에 따라, 상기 N개 오디오 프레임 각각의 상기 제1 사전 설정 비율 이상을 차지하는 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭을 결정하고; 상기 N개 오디오 프레임 각각의 상기 제1 사전 설정 비율 이상을 차지하는 상기 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭에 따라, 상기 N개 오디오 프레임의 상기 제1 사전 설정 비율 이상을 차지하는 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭들의 평균값을 결정하도록 구성된다.
상기 제2 양태의 상기 제1 가능한 구현 방식에 관련하여, 상기 제2 양태의 제4 가능한 구현 방식에서, 상기 일반 희소성 파라미터는 제1 에너지 비율을 포함하고; 상기 결정 유닛은 구체적으로 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선 중에서 P1개 스펙트럼 포락선을 선택하고, 상기 N개 오디오 프레임 각각의 상기 P1개 스펙트럼 포락선의 에너지 및 상기 각각의 N개 오디오 프레임의 총 에너지에 따라 상기 제1 에너지 비율을 결정하도록 구성되고, 여기서 P1은 P보다 작은 양의 정수이고; 상기 결정 유닛은 구체적으로: 상기 제1 에너지 비율이 제2 사전 설정 값보다 클 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정하고; 상기 제1 에너지 비율이 상기 제2 사전 설정 값보다 작을 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제2 인코딩 방법을 이용하기로 결정하도록 구성된다.
상기 제2 양태의 상기 제4 가능한 구현 방식에 관련하여, 상기 제2 양태의 제5 가능한 구현 방식에서, 상기 결정 유닛은 구체적으로 상기 P개 스펙트럼 포락선의 상기 에너지에 따라 상기 P1개 스펙트럼 포락선을 결정하도록 구성되고, 여기서 상기 P1개 스펙트럼 포락선 중 어느 하나의 에너지는 상기 P개 스펙트럼 포락선 중 상기 P1개 스펙트럼 포락선을 제외한 다른 스펙트럼 포락선들 중 어느 하나의 에너지보다 크다.
상기 제2 양태의 상기 제1 가능한 구현 방식에 관련하여, 상기 제2 양태의 제6 가능한 구현 방식에서, 상기 일반 희소성 파라미터는 제2 최소 대역폭 및 제3 최소 대역폭을 포함하고; 상기 결정 유닛은 구체적으로 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의 상기 에너지에 따라 상기 N개 오디오 프레임의 제2 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭들의 평균값을 결정하고 상기 N개 오디오 프레임의 제3 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭들의 평균값을 결정하도록 구성되고, 여기서 상기 N개 오디오 프레임의 상기 제2 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭들의 상기 평균값은 상기 제2 최소 대역폭으로서 이용되고, 상기 N개 오디오 프레임의 상기 제3 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭들의 상기 평균값은 상기 제3 최소 대역폭으로서 이용되고, 상기 제2 사전 설정 비율은 상기 제3 사전 설정 비율보다 작고; 상기 결정 유닛은 구체적으로: 상기 제2 최소 대역폭이 제3 사전 설정 값보다 작고 상기 제3 최소 대역폭이 제4 사전 설정 값보다 작을 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정하고; 상기 제3 최소 대역폭이 제5 사전 설정 값보다 작을 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정하고; 상기 제3 최소 대역폭이 제6 사전 설정 값보다 클 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제2 인코딩 방법을 이용하기로 결정하도록 구성되고, 여기서 상기 제4 사전 설정 값은 상기 제3 사전 설정 값 이상이고, 상기 제5 사전 설정 값은 상기 제4 사전 설정 값보다 작고, 상기 제6 사전 설정 값은 상기 제4 사전 설정 값보다 크다.
상기 제2 양태의 상기 제6 가능한 구현 방식에 관련하여, 상기 제2 양태의 제7 가능한 구현 방식에서, 상기 결정 유닛은 구체적으로: 각각의 오디오 프레임의 상기 P개 스펙트럼 포락선의 상기 에너지를 내림차순으로 분류하고; 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의, 내림차순으로 분류된 상기 에너지에 따라, 상기 N개 오디오 프레임 각각의 상기 제2 사전 설정 비율 이상을 차지하는 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭을 결정하고; 상기 N개 오디오 프레임 각각의 상기 제2 사전 설정 비율 이상을 차지하는 상기 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭에 따라, 상기 N개 오디오 프레임의 상기 제2 사전 설정 비율 이상을 차지하는 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭들의 평균값을 결정하고; 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의, 내림차순으로 분류된 상기 에너지에 따라, 상기 N개 오디오 프레임 각각의 상기 제3 사전 설정 비율 이상을 차지하는 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭을 결정하고; 상기 N개 오디오 프레임 각각의 상기 제3 사전 설정 비율 이상을 차지하는 상기 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭에 따라, 상기 N개 오디오 프레임의 상기 제3 사전 설정 비율 이상을 차지하는 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭들의 평균값을 결정하도록 구성된다.
상기 제2 양태의 상기 제1 가능한 구현 방식에 관련하여, 상기 제2 양태의 제8 가능한 구현 방식에서, 상기 일반 희소성 파라미터는 제2 에너지 비율 및 제3 에너지 비율을 포함하고; 상기 결정 유닛은 구체적으로: 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선 중에서 P2개 스펙트럼 포락선을 선택하고, 상기 N개 오디오 프레임 각각의 상기 P2개 스펙트럼 포락선의 에너지 및 상기 각각의 N개 오디오 프레임의 총 에너지에 따라 상기 제2 에너지 비율을 결정하고, 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선 중에서 P3개 스펙트럼 포락선을 선택하고, 상기 N개 오디오 프레임 각각의 상기 P3개 스펙트럼 포락선의 에너지 및 상기 각각의 N개 오디오 프레임의 상기 총 에너지에 따라 상기 제3 에너지 비율을 결정하도록 구성되고, 여기서 P2 및 P3는 P보다 작은 양의 정수들이고, P2는 P3보다 작고; 상기 결정 유닛은 구체적으로: 상기 제2 에너지 비율이 제7 사전 설정 값보다 크고 상기 제3 에너지 비율이 제8 사전 설정 값보다 클 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정하고; 상기 제2 에너지 비율이 제9 사전 설정 값보다 클 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정하고; 상기 제3 에너지 비율이 제10 사전 설정 값보다 작을 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제2 인코딩 방법을 이용하기로 결정하도록 구성된다.
상기 제2 양태의 상기 제8 가능한 구현 방식에 관련하여, 상기 제2 양태의 제9 가능한 구현 방식에서, 상기 결정 유닛은 구체적으로 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선 중에서, 최대 에너지를 갖는 P2개 스펙트럼 포락선을 결정하고, 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선 중에서, 최대 에너지를 갖는 P3개 스펙트럼 포락선을 결정하도록 구성된다.
상기 제2 양태에 관련하여, 상기 제2 양태의 제10 가능한 구현 방식에서, N은 1이고, 상기 N개 오디오 프레임은 상기 현재 오디오 프레임이고; 상기 결정 유닛은 구체적으로 상기 현재 오디오 프레임의 스펙트럼을 Q개 부대역으로 나누고, 상기 현재 오디오 프레임의 상기 스펙트럼의 상기 Q개 부대역 각각의 피크 에너지에 따라 버스트 희소성 파라미터를 결정하도록 구성되고, 여기서 상기 버스트 희소성 파라미터는 상기 현재 오디오 프레임의 전역 희소성, 국부 희소성, 및 단시간 버스트성을 지시하는 데 이용된다.
상기 제2 양태의 상기 제10 가능한 구현 방식에 관련하여, 상기 제2 양태의 제11 가능한 구현 방식에서, 상기 결정 유닛은 구체적으로 상기 Q개 부대역 각각의 전역 피크 대 평균 비율, 상기 Q개 부대역 각각의 국부 피크 대 평균 비율, 및 상기 Q개 부대역 각각의 단시간 에너지 변동을 결정하도록 구성되고, 여기서 상기 전역 피크 대 평균 비율은 상기 결정 유닛에 의해 상기 부대역에서의 상기 피크 에너지 및 상기 현재 오디오 프레임의 모든 부대역의 평균 에너지에 따라 결정되고, 상기 국부 피크 대 평균 비율은 상기 결정 유닛에 의해 상기 부대역에서의 상기 피크 에너지 및 상기 부대역에서의 평균 에너지에 따라 결정되고, 상기 단시간 피크 에너지 변동은 상기 부대역에서의 상기 피크 에너지 및 상기 오디오 프레임 전의 오디오 프레임의 특정 주파수 대역에서의 피크 에너지에 따라 결정되고; 상기 결정 유닛은 구체적으로: 상기 Q개 부대역 중에 제1 부대역이 있는지를 결정하도록 구성되고, 여기서 상기 제1 부대역의 국부 피크 대 평균 비율은 제11 사전 설정 값보다 크고, 상기 제1 부대역의 전역 피크 대 평균 비율은 제12 사전 설정 값보다 크고, 상기 제1 부대역의 단시간 피크 에너지 변동은 제13 사전 설정 값보다 크고; 상기 Q개 부대역 중에 상기 제1 부대역이 있을 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정하도록 구성된다.
상기 제2 양태에 관련하여, 상기 제2 양태의 제12 가능한 구현 방식에서, 상기 결정 유닛은 구체적으로 상기 N개 오디오 프레임 각각의 경계 주파수를 결정하도록 구성되고; 상기 결정 유닛은 구체적으로 상기 N개 오디오 프레임 각각의 상기 경계 주파수에 따라 대역 제한 희소성 파라미터를 결정하도록 구성된다.
상기 제2 양태의 상기 제12 가능한 구현 방식에 관련하여, 상기 제2 양태의 제13 가능한 구현 방식에서, 상기 대역 제한 희소성 파라미터는 상기 N개 오디오 프레임의 상기 경계 주파수들의 평균값이고; 상기 결정 유닛은 구체적으로: 상기 오디오 프레임들의 상기 대역 제한 희소성 파라미터가 제14 사전 설정 값보다 작다고 결정될 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정하도록 구성된다.
전술한 기술적 해결 방안들에 따르면, 오디오 프레임이 인코딩될 때, 상기 오디오 프레임의 에너지의, 스펙트럼상의 분포의 희소성이 고려되고, 이는 인코딩 복잡도를 감소시키고 비교적 높은 정확도의 인코딩을 보장할 수 있다.
본 발명의 실시예들에서의 기술적 해결 방안들을 더 명확하게 설명하기 위해, 이하에서는 본 발명의 실시예들을 설명하는 데에 필요한 첨부 도면들을 간략하게 설명한다. 분명히, 이하의 설명에서의 첨부 도면들은 본 발명의 일부 실시예들을 도시할 뿐이며, 본 기술분야의 통상의 기술자는 창의적 노력 없이도 이들 첨부 도면들로부터 다른 도면들을 도출해낼 수 있다.
도 1은 본 발명의 실시예에 따른 오디오 인코딩 방법의 개략 흐름도이다;
도 2는 본 발명의 실시예에 따른 장치의 구조 블록도이다;
도 3은 본 발명의 실시예에 따른 장치의 구조 블록도이다.
이하에서는 본 발명의 실시예들에서 첨부 도면들을 참조하여 본 발명의 실시예들의 기술적 해결 방안들을 명확하고 완전하게 설명한다. 분명히, 설명된 실시예들은 본 발명의 실시예들 전부가 아니라 일부일 뿐이다. 본 기술분야의 통상의 기술자에 의해 창의적 노력 없이 본 발명의 실시예들에 기초하여 획득되는 모든 다른 실시예들은 본 발명의 보호 범위 내에 포함되어야 한다.
도 1은 본 발명의 실시예에 따른 오디오 인코딩 방법의 개략 흐름도이다.
101: N개 입력 오디오 프레임의 에너지의, 스펙트럼상의 분포의 희소성을 결정한다 - 여기서 상기 N개 오디오 프레임은 현재 오디오 프레임을 포함하고, N은 양의 정수이다.
102: 상기 N개 오디오 프레임의 상기 에너지의, 상기 스펙트럼상의 상기 분포의 희소성에 따라, 상기 현재 오디오 프레임을 인코딩하기 위해 제1 인코딩 방법을 이용할지 제2 인코딩 방법을 이용할지를 결정한다 - 여기서 상기 제1 인코딩 방법은 시간-주파수 변환 및 변환 계수 양자화에 기초하는 그리고 선형 예측에 기초하지 않는 인코딩 방법이고, 상기 제2 인코딩 방법은 선형 예측 기반 인코딩 방법이다.
도 1에 도시된 방법에 따르면, 오디오 프레임이 인코딩될 때, 상기 오디오 프레임의 에너지의, 스펙트럼상의 분포의 희소성이 고려되고, 이는 인코딩 복잡도를 감소시키고 비교적 높은 정확도의 인코딩을 보장할 수 있다.
오디오 프레임에 대한 적절한 인코딩 방법의 선택 동안, 상기 오디오 프레임의 에너지의, 스펙트럼상의 분포의 희소성이 고려될 수 있다. 오디오 프레임의 에너지의, 스펙트럼상의 분포의 3가지 유형의 희소성이 있을 수 있다: 일반 희소성, 버스트 희소성, 및 대역 제한 희소성.
임의적으로, 일 실시예에서, 상기 현재 오디오 프레임에 대해 상기 일반 희소성을 이용하여 적절한 인코딩 방법이 선택될 수 있다. 이 경우, N개 입력 오디오 프레임의 에너지의, 스펙트럼상의 분포의 희소성을 결정하는 상기 단계는: 상기 N개 오디오 프레임 각각의 스펙트럼을 P개 스펙트럼 포락선으로 나누는 단계 - 여기서 P는 양의 정수임 -; 및 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의 에너지에 따라 일반 희소성 파라미터를 결정하는 단계를 포함하고, 여기서 상기 일반 희소성 파라미터는 상기 N개 오디오 프레임의 상기 에너지의, 상기 스펙트럼상의 상기 분포의 희소성을 지시한다.
구체적으로, N개 입력 연속 오디오 프레임의 특정 비율 에너지의, 스펙트럼상에 분포된 최소 대역폭들의 평균값이 상기 일반 희소성으로서 정의될 수 있다. 더 작은 대역폭은 더 강한 일반 희소성을 지시하고, 더 큰 대역폭은 더 약한 일반 희소성을 지시한다. 달리 말해서, 더 강한 일반 희소성은 오디오 프레임의 에너지가 더 집중되는 것을 지시하고, 더 약한 일반 희소성은 오디오 프레임의 에너지가 더 분산되는 것을 지시한다. 일반 희소성이 비교적 강한 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법이 이용될 때 효율이 높다. 그러므로, 상기 오디오 프레임을 인코딩하기 위해, 오디오 프레임의 일반 희소성을 결정하는 것에 의해 적절한 인코딩 방법이 선택될 수 있다. 오디오 프레임의 일반 희소성을 결정하는 것을 돕기 위해, 상기 일반 희소성을 양자화하여 일반 희소성 파라미터를 획득할 수 있다. 임의적으로, N이 1일 때, 상기 일반 희소성은 상기 현재 오디오 프레임의 특정 비율 에너지의, 스펙트럼상에 분포된 최소 대역폭이다.
임의적으로, 일 실시예에서, 상기 일반 희소성 파라미터는 제1 최소 대역폭을 포함한다. 이 경우, 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의 에너지에 따라 일반 희소성 파라미터를 결정하는 상기 단계는: 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의 상기 에너지에 따라 상기 N개 오디오 프레임의 제1 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭들의 평균값을 결정하는 단계를 포함하고, 여기서 상기 N개 오디오 프레임의 상기 제1 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭들의 상기 평균값은 상기 제1 최소 대역폭이다. 상기 N개 오디오 프레임의 에너지의, 상기 스펙트럼상의 상기 분포의 희소성에 따라, 상기 현재 오디오 프레임을 인코딩하기 위해 제1 인코딩 방법을 이용할지 제2 인코딩 방법을 이용할지를 결정하는 상기 단계는: 상기 제1 최소 대역폭이 제1 사전 설정 값보다 작을 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정하는 단계; 또는 상기 제1 최소 대역폭이 상기 제1 사전 설정 값보다 클 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제2 인코딩 방법을 이용하기로 결정하는 단계를 포함한다. 임의적으로, 일 실시예에서, N이 1일 때, 상기 N개 오디오 프레임은 상기 현재 오디오 프레임이고, 상기 N개 오디오 프레임의 상기 제1 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭들의 상기 평균값은 상기 현재 오디오 프레임의 제1 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭이다.
이 기술분야의 통상의 기술자는 상기 제1 사전 설정 값 및 상기 제1 사전 설정 비율은 시뮬레이션 실험에 따라 결정될 수 있다는 것을 이해할 수 있다. 적절한 제1 사전 설정 값 및 제1 사전 설정 비율이 시뮬레이션 실험에 의해 결정될 수 있고, 따라서 전술한 조건을 만족시키는 오디오 프레임이 상기 제1 인코딩 방법 또는 상기 제2 인코딩 방법을 이용하여 인코딩될 때 양호한 인코딩 효과가 획득될 수 있다. 일반적으로, 상기 제1 사전 설정 비율의 값은 일반적으로 0과 1 사이이고 1에 비교적 가까운 수, 예를 들어, 90% 또는 80%이다. 상기 제1 사전 설정 값의 선택은 상기 제1 사전 설정 비율의 값에 관련되고, 상기 제1 인코딩 방법과 상기 제2 인코딩 방법 간의 선택 경향에도 관련된다. 예를 들어, 비교적 큰 제1 사전 설정 비율에 대응하는 제1 사전 설정 값은 비교적 작은 제1 사전 설정 비율에 대응하는 제1 사전 설정 값보다 일반적으로 더 크다. 또 다른 예로, 상기 제1 인코딩 방법을 선택하는 경향에 대응하는 제1 사전 설정 값은 상기 제2 인코딩 방법을 선택하는 경향에 대응하는 제1 사전 설정 값보다 일반적으로 더 크다.
상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의 상기 에너지에 따라 상기 N개 오디오 프레임의 제1 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭들의 평균값을 결정하는 상기 단계는: 각각의 오디오 프레임의 상기 P개 스펙트럼 포락선의 상기 에너지를 내림차순으로 분류하는 단계; 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의, 내림차순으로 분류된 상기 에너지에 따라, 상기 N개 오디오 프레임 각각의 상기 제1 사전 설정 비율 이상을 차지하는 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭을 결정하는 단계; 및 상기 N개 오디오 프레임 각각의 상기 제1 사전 설정 비율 이상을 차지하는 상기 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭에 따라, 상기 N개 오디오 프레임의 상기 제1 사전 설정 비율 이상을 차지하는 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭들의 평균값을 결정하는 단계를 포함한다. 예를 들어, 입력 오디오 신호는 16kHz로 샘플링된 광대역 신호이고, 상기 입력 신호는 20ms의 프레임에서 입력된다. 신호의 각각의 프레임은 320개 시간 도메인 샘플링 포인트이다. 시간 도메인 신호에 대해 시간-주파수 변환이 수행된다. 예를 들어, 고속 푸리에 변환(Fast Fourier Transformation, FFT)에 의해 시간-주파수 변환을 수행하여, 160개 스펙트럼 포락선 S(k), 즉, 160개 FFT 에너지 스펙트럼 계수를 획득하고, 여기서 k=0, 1, 2, ..., 159이다. 상기 스펙트럼 포락선들 S(k) 중에서 최소 대역폭을 상기 대역폭에서의 에너지가 상기 프레임의 총 에너지에서 차지하는 비율이 상기 제1 사전 설정 비율인 방식으로 찾는다. 구체적으로, 오디오 프레임의 제1 사전 설정 비율 에너지의, 스펙트럼상에 분포된 최소 대역폭을, 상기 오디오 프레임의 P개 스펙트럼 포락선의, 내림차순으로 분류된 에너지에 따라 결정하는 단계는: 내림차순으로 상기 스펙트럼 포락선들 S(k)에서의 주파수 빈들의 에너지를 순차적으로 누적하는 단계; 및 각 회의 누적 후에 획득되는 에너지를 상기 오디오 프레임의 상기 총 에너지와 비교하고, 비율이 상기 제1 사전 설정 비율보다 크면, 상기 누적 프로세스를 종료하는 단계를 포함하고, 여기서 누적 횟수는 상기 최소 대역폭이다. 예를 들어, 상기 제1 사전 설정 비율은 90%이고, 30회 누적 후에 획득된 에너지 합계가 상기 총 에너지에서 차지하는 비율이 90%를 초과하면, 29회 누적 후에 획득된 에너지 합계가 상기 총 에너지에서 차지하는 비율이 90%보다 작고, 31회 누적 후에 획득된 에너지 합계가 상기 총 에너지에서 차지하는 비율이 30회 누적 후에 획득된 상기 에너지 합계가 상기 총 에너지에서 차지하는 상기 비율을 초과하면, 상기 오디오 프레임의 상기 제1 사전 설정 비율 이상을 차지하는 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭은 30이라고 간주될 수 있다. 전술한 최소 대역폭 결정 프로세스를 상기 N개 오디오 프레임 각각에 대해 실행하여, 상기 현재 오디오 프레임을 포함하는 상기 N개 오디오 프레임의 상기 제1 사전 설정 비율 이상을 차지하는 상기 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭을 개별적으로 결정하고, 상기 N개 최소 대역폭들의 상기 평균값을 산출한다. 상기 N개 최소 대역폭들의 상기 평균값은 상기 제1 최소 대역폭으로 지칭될 수 있고, 상기 제1 최소 대역폭은 상기 일반 희소성 파라미터로서 이용될 수 있다. 상기 제1 최소 대역폭이 상기 제1 사전 설정 값보다 작을 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정된다. 상기 제1 최소 대역폭이 상기 제1 사전 설정 값보다 클 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제2 인코딩 방법을 이용하기로 결정된다.
임의적으로, 또 다른 실시예에서, 상기 일반 희소성 파라미터는 제1 에너지 비율을 포함할 수 있다. 이 경우, 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의 에너지에 따라 일반 희소성 파라미터를 결정하는 상기 단계는: 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선 중에서 P1개 스펙트럼 포락선을 선택하는 단계; 및 상기 N개 오디오 프레임 각각의 상기 P1개 스펙트럼 포락선의 에너지 및 상기 각각의 N개 오디오 프레임의 총 에너지에 따라 상기 제1 에너지 비율을 결정하는 단계를 포함하고, 여기서 P1은 P보다 작은 양의 정수이다. 상기 N개 오디오 프레임의 에너지의, 상기 스펙트럼상의 상기 분포의 희소성에 따라, 상기 현재 오디오 프레임을 인코딩하기 위해 제1 인코딩 방법을 이용할지 제2 인코딩 방법을 이용할지를 결정하는 상기 단계는: 상기 제1 에너지 비율이 제2 사전 설정 값보다 클 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정하는 단계; 또는 상기 제1 에너지 비율이 상기 제2 사전 설정 값보다 작을 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제2 인코딩 방법을 이용하기로 결정하는 단계를 포함한다. 임의적으로, 일 실시예에서, N이 1일 때, 상기 N개 오디오 프레임은 상기 현재 오디오 프레임이고, 상기 N개 오디오 프레임 각각의 상기 P1개 스펙트럼 포락선의 에너지 및 상기 각각의 N개 오디오 프레임의 총 에너지에 따라 상기 제1 에너지 비율을 결정하는 상기 단계는: 상기 현재 오디오 프레임의 P1개 스펙트럼 포락선의 에너지 및 상기 현재 오디오 프레임의 총 에너지에 따라 상기 제1 에너지 비율을 결정하는 단계를 포함한다.
구체적으로, 상기 제1 에너지 비율은 이하의 공식을 이용하여 산출될 수 있다:
Figure pat00001
공식 1.1
여기서 R1은 상기 제1 에너지 비율을 나타내고, Ep1(n)는 n번째 오디오 프레임에서의 P1개 선택된 스펙트럼 포락선의 에너지 합계를 나타내고, Eall(n)는 상기 n번째 오디오 프레임의 총 에너지를 나타내고, r(n)은 상기 N개 오디오 프레임 중 상기 n번째 오디오 프레임의 상기 P1개 스펙트럼 포락선의 상기 에너지가 상기 오디오 프레임의 상기 총 에너지에서 차지하는 비율을 나타낸다.
이 기술분야의 통상의 기술자는 상기 제2 사전 설정 값 및 상기 P1개 스펙트럼 포락선의 선택이 시뮬레이션 실험에 따라 결정될 수 있다는 것을 이해할 수 있다. 적절한 제2 사전 설정 값, P1의 적절한 값, 및 상기 P1개 스펙트럼 포락선을 선택하기 위한 적절한 방법이 시뮬레이션 실험에 의해 결정될 수 있고, 따라서 전술한 조건을 만족시키는 오디오 프레임이 상기 제1 인코딩 방법 또는 상기 제2 인코딩 방법을 이용하여 인코딩될 때 양호한 인코딩 효과가 획득될 수 있다. 일반적으로, P1의 값은 비교적 작은 수일 수 있다. 예를 들어, P1은 P1 대 P의 비율이 20%보다 작은 방식으로 선택된다. 상기 제2 사전 설정 값으로, 지나치게 작은 비율에 대응하는 수는 일반적으로 선택되지 않는다. 예를 들어, 10%보다 작은 수는 선택되지 않는다. 상기 제2 사전 설정 값의 선택은 P1의 값 및 상기 제1 인코딩 방법과 상기 제2 인코딩 방법 간의 선택 경향에 관련된다. 예를 들어, 비교적 큰 P1에 대응하는 제2 사전 설정 값은 비교적 작은 P1에 대응하는 제2 사전 설정 값보다 일반적으로 더 크다. 또 다른 예로, 상기 제1 인코딩 방법을 선택하는 경향에 대응하는 제2 사전 설정 값은 상기 제2 인코딩 방법을 선택하는 경향에 대응하는 제2 사전 설정 값보다 일반적으로 더 작다. 임의적으로, 일 실시예에서, 상기 P1개 스펙트럼 포락선 중 어느 하나의 에너지는 상기 P개 스펙트럼 포락선 중 나머지 (P-P1)개 스펙트럼 포락선 중 어느 하나의 에너지보다 크다.
예를 들어, 입력 오디오 신호는 16kHz로 샘플링된 광대역 신호이고, 상기 입력 신호는 20ms의 프레임에서 입력된다. 신호의 각각의 프레임은 320개 시간 도메인 샘플링 포인트이다. 시간 도메인 신호에 대해 시간-주파수 변환이 수행된다. 예를 들어, 고속 푸리에 변환에 의해 시간-주파수 변환을 수행하여, 160개 스펙트럼 포락선 S(k)를 획득할 수 있고, 여기서 k=0, 1, 2, ..., 159이다. 상기 160개 스펙트럼 포락선 중에서 P1개 스펙트럼 포락선이 선택되고, 상기 P1개 스펙트럼 포락선의 에너지 합계가 상기 오디오 프레임의 총 에너지에서 차지하는 비율이 산출된다. 전술한 프로세스를 상기 N개 오디오 프레임 각각에 대해 실행한다. 즉, 상기 N개 오디오 프레임 각각의 상기 P1개 스펙트럼 포락선의 에너지 합계가 각각의 총 에너지에서 차지하는 비율이 산출된다. 상기 비율들의 평균값이 산출된다. 상기 비율들의 상기 평균값은 상기 제1 에너지 비율이다. 상기 제1 에너지 비율이 상기 제2 사전 설정 값보다 클 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정된다. 상기 제1 에너지 비율이 상기 제2 사전 설정 값보다 작을 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제2 인코딩 방법을 이용하기로 결정된다. 상기 P1개 스펙트럼 포락선 중 어느 하나의 에너지는 상기 P개 스펙트럼 포락선 중 상기 P1개 스펙트럼 포락선을 제외한 다른 스펙트럼 포락선들 중 어느 하나의 에너지보다 크다. 임의적으로, 일 실시예에서, P1의 값은 20일 수 있다.
임의적으로, 또 다른 실시예에서, 상기 일반 희소성 파라미터는 제2 최소 대역폭 및 제3 최소 대역폭을 포함할 수 있다. 이 경우, 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의 에너지에 따라 일반 희소성 파라미터를 결정하는 상기 단계는: 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의 상기 에너지에 따라 상기 N개 오디오 프레임의 제2 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭들의 평균값을 결정하고 상기 N개 오디오 프레임의 제3 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭들의 평균값을 결정하는 단계를 포함하고, 여기서 상기 N개 오디오 프레임의 상기 제2 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭들의 상기 평균값은 상기 제2 최소 대역폭으로서 이용되고, 상기 N개 오디오 프레임의 상기 제3 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭들의 상기 평균값은 상기 제3 최소 대역폭으로서 이용되고, 상기 제2 사전 설정 비율은 상기 제3 사전 설정 비율보다 작다. 상기 N개 오디오 프레임의 에너지의, 상기 스펙트럼상의 상기 분포의 희소성에 따라, 상기 현재 오디오 프레임을 인코딩하기 위해 제1 인코딩 방법을 이용할지 제2 인코딩 방법을 이용할지를 결정하는 상기 단계는: 상기 제2 최소 대역폭이 제3 사전 설정 값보다 작고 상기 제3 최소 대역폭이 제4 사전 설정 값보다 작을 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정하는 단계; 상기 제3 최소 대역폭이 제5 사전 설정 값보다 작을 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정하는 단계; 또는 상기 제3 최소 대역폭이 제6 사전 설정 값보다 클 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제2 인코딩 방법을 이용하기로 결정하는 단계를 포함한다. 상기 제4 사전 설정 값은 상기 제3 사전 설정 값 이상이고, 상기 제5 사전 설정 값은 상기 제4 사전 설정 값보다 작고, 상기 제6 사전 설정 값은 상기 제4 사전 설정 값보다 크다. 임의적으로, 일 실시예에서, N이 1일 때, 상기 N개 오디오 프레임은 상기 현재 오디오 프레임이다. 상기 N개 오디오 프레임의 제2 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭들의 평균값을 상기 제2 최소 대역폭으로서 결정하는 상기 단계는: 상기 현재 오디오 프레임의 제2 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭을 상기 제2 최소 대역폭으로서 결정하는 단계를 포함한다. 상기 N개 오디오 프레임의 제3 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭들의 평균값을 상기 제3 최소 대역폭으로서 결정하는 상기 단계는: 상기 현재 오디오 프레임의 제3 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭을 상기 제3 최소 대역폭으로서 결정하는 단계를 포함한다.
이 기술분야의 통상의 기술자는 상기 제3 사전 설정 값, 상기 제4 사전 설정 값, 상기 제5 사전 설정 값, 상기 제6 사전 설정 값, 상기 제2 사전 설정 비율, 및 상기 제3 사전 설정 비율이 시뮬레이션 실험에 따라 결정될 수 있다는 것을 이해할 수 있다. 적절한 사전 설정 값들 및 사전 설정 비율들은 시뮬레이션 실험에 의해 결정될 수 있고, 따라서 전술한 조건을 만족시키는 오디오 프레임이 상기 제1 인코딩 방법 또는 상기 제2 인코딩 방법을 이용하여 인코딩될 때 양호한 인코딩 효과가 획득될 수 있다.
상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의 상기 에너지에 따라 상기 N개 오디오 프레임의 제2 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭들의 평균값을 결정하고 상기 N개 오디오 프레임의 제3 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭들의 평균값을 결정하는 상기 단계는: 각각의 오디오 프레임의 상기 P개 스펙트럼 포락선의 상기 에너지를 내림차순으로 분류하는 단계; 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의, 내림차순으로 분류된 상기 에너지에 따라, 상기 N개 오디오 프레임 각각의 상기 제2 사전 설정 비율 이상을 차지하는 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭을 결정하는 단계; 상기 N개 오디오 프레임 각각의 상기 제2 사전 설정 비율 이상을 차지하는 상기 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭에 따라, 상기 N개 오디오 프레임의 상기 제2 사전 설정 비율 이상을 차지하는 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭들의 평균값을 결정하는 단계; 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의, 내림차순으로 분류된 상기 에너지에 따라, 상기 N개 오디오 프레임 각각의 상기 제3 사전 설정 비율 이상을 차지하는 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭을 결정하는 단계; 및 상기 N개 오디오 프레임 각각의 상기 제3 사전 설정 비율 이상을 차지하는 상기 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭에 따라, 상기 N개 오디오 프레임의 상기 제3 사전 설정 비율 이상을 차지하는 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭들의 평균값을 결정하는 단계를 포함한다. 예를 들어, 입력 오디오 신호는 16kHz로 샘플링된 광대역 신호이고, 상기 입력 신호는 20ms의 프레임에서 입력된다. 신호의 각각의 프레임은 320개 시간 도메인 샘플링 포인트이다. 시간 도메인 신호에 대해 시간-주파수 변환이 수행된다. 예를 들어, 고속 푸리에 변환에 의해 시간-주파수 변환을 수행하여, 160개 스펙트럼 포락선 S(k)를 획득할 수 있고, 여기서 k=0, 1, 2, ..., 159이다. 상기 스펙트럼 포락선들 S(k) 중에서 최소 대역폭을, 상기 대역폭에서의 에너지가 상기 프레임의 총 에너지에서 차지하는 비율이 상기 제2 사전 설정 비율인 방식으로 찾는다. 상기 스펙트럼 포락선들 S(k) 중에서 대역폭을, 상기 대역폭에서의 에너지가 상기 총 에너지에서 차지하는 비율이 상기 제3 사전 설정 비율인 방식으로 계속해서 찾는다. 구체적으로, 상기 오디오 프레임의 P개 스펙트럼 포락선의, 내림차순으로 분류된 에너지에 따라 , 오디오 프레임의 상기 제2 사전 설정 비율 이상을 차지하는 에너지의, 스펙트럼상에 분포된 최소 대역폭 및 상기 오디오 프레임의 상기 제3 사전 설정 비율 이상을 차지하는 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭을 결정하는 단계는: 내림차순으로 상기 스펙트럼 포락선들 S(k)에서의 주파수 빈들의 에너지를 순차적으로 누적하는 단계를 포함한다. 각 회의 누적 후에 획득되는 에너지를 상기 오디오 프레임의 총 에너지와 비교하고, 비율이 상기 제2 사전 설정 비율보다 크면, 누적 횟수는 상기 제2 사전 설정 비율 이상을 만족시키는 최소 대역폭이다. 상기 누적은 계속되고, 누적 후에 획득되는 에너지 대 상기 오디오 프레임의 상기 총 에너지의 비율이 상기 제3 사전 설정 비율보다 크면, 상기 누적은 종료되고, 누적 횟수는 상기 제3 사전 설정 비율 이상을 만족시키는 최소 대역폭이다. 예를 들어, 상기 제2 사전 설정 비율은 85%이고, 상기 제3 사전 설정 비율은 95%이다. 30회 누적 후에 획득된 에너지 합계가 상기 총 에너지에서 차지하는 비율이 85%를 초과하면, 상기 오디오 프레임의 상기 제2 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭은 30이라고 간주될 수 있다. 상기 누적은 계속되고, 35회의 누적 후에 획득되는 에너지 합계가 상기 총 에너지에서 차지하는 비율이 95%이면, 상기 오디오 프레임의 상기 제3 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭은 35라고 간주될 수 있다. 전술한 프로세스를 상기 N개 오디오 프레임 각각에 대해 실행하여, 상기 현재 오디오 프레임을 포함하는 상기 N개 오디오 프레임의 상기 제2 사전 설정 비율 이상을 차지하는 상기 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭 및 상기 현재 오디오 프레임을 포함하는 상기 N개 오디오 프레임의 상기 제3 사전 설정 비율 이상을 차지하는 상기 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭을 개별적으로 결정한다. 상기 N개 오디오 프레임의 상기 제2 사전 설정 비율 이상을 차지하는 상기 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭들의 상기 평균값은 상기 제2 최소 대역폭이다. 상기 N개 오디오 프레임의 상기 제3 사전 설정 비율 이상을 차지하는 상기 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭들의 상기 평균값은 상기 제3 최소 대역폭이다. 상기 제2 최소 대역폭이 상기 제3 사전 설정 값보다 작고 상기 제3 최소 대역폭이 상기 제4 사전 설정 값보다 작을 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정된다. 상기 제3 최소 대역폭이 상기 제5 사전 설정 값보다 작을 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정된다. 상기 제3 최소 대역폭이 상기 제6 사전 설정 값보다 클 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제2 인코딩 방법을 이용하기로 결정된다.
임의적으로, 또 다른 실시예에서, 상기 일반 희소성 파라미터는 제2 에너지 비율 및 제3 에너지 비율을 포함한다. 이 경우, 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의 에너지에 따라 일반 희소성 파라미터를 결정하는 상기 단계는: 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선 중에서 P2개 스펙트럼 포락선을 선택하는 단계; 상기 N개 오디오 프레임 각각의 상기 P2개 스펙트럼 포락선의 에너지 및 상기 각각의 N개 오디오 프레임의 총 에너지에 따라 상기 제2 에너지 비율을 결정하는 단계; 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선 중에서 P3개 스펙트럼 포락선을 선택하는 단계; 및 상기 N개 오디오 프레임 각각의 상기 P3개 스펙트럼 포락선의 에너지 및 상기 각각의 N개 오디오 프레임의 상기 총 에너지에 따라 상기 제3 에너지 비율을 결정하는 단계를 포함한다. 상기 N개 오디오 프레임의 에너지의, 상기 스펙트럼상의 상기 분포의 희소성에 따라, 상기 현재 오디오 프레임을 인코딩하기 위해 제1 인코딩 방법을 이용할지 제2 인코딩 방법을 이용할지를 결정하는 상기 단계는: 상기 제2 에너지 비율이 제7 사전 설정 값보다 크고 상기 제3 에너지 비율이 제8 사전 설정 값보다 클 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정하는 단계; 상기 제2 에너지 비율이 제9 사전 설정 값보다 클 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정하는 단계; 또는 상기 제3 에너지 비율이 제10 사전 설정 값보다 작을 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제2 인코딩 방법을 이용하기로 결정하는 단계를 포함한다. P2 및 P3는 P보다 작은 양의 정수들이고, P2는 P3보다 작다. 임의적으로, 일 실시예에서, N이 1일 때, 상기 N개 오디오 프레임은 상기 현재 오디오 프레임이다. 상기 N개 오디오 프레임 각각의 상기 P2개 스펙트럼 포락선의 에너지 및 상기 각각의 N개 오디오 프레임의 총 에너지에 따라 상기 제2 에너지 비율을 결정하는 상기 단계는: 상기 현재 오디오 프레임의 P2개 스펙트럼 포락선의 에너지 및 상기 현재 오디오 프레임의 총 에너지에 따라 상기 제2 에너지 비율을 결정하는 단계를 포함한다. 상기 N개 오디오 프레임 각각의 상기 P3개 스펙트럼 포락선의 에너지 및 상기 각각의 N개 오디오 프레임의 상기 총 에너지에 따라 상기 제3 에너지 비율을 결정하는 상기 단계는: 상기 현재 오디오 프레임의 P3개 스펙트럼 포락선의 에너지 및 상기 현재 오디오 프레임의 상기 총 에너지에 따라 상기 제3 에너지 비율을 결정하는 단계를 포함한다.
이 기술분야의 통상의 기술자는 P2 및 P3의 값들, 상기 제7 사전 설정 값, 상기 제8 사전 설정 값, 상기 제9 사전 설정 값, 및 상기 제10 사전 설정 값은 시뮬레이션 실험에 따라 결정될 수 있다는 것을 이해할 수 있다. 적절한 사전 설정 값들이 시뮬레이션 실험에 의해 결정될 수 있고, 따라서 전술한 조건을 만족시키는 오디오 프레임이 상기 제1 인코딩 방법 또는 상기 제2 인코딩 방법을 이용하여 인코딩될 때 양호한 인코딩 효과가 획득될 수 있다. 임의적으로, 일 실시예에서, 상기 P2개 스펙트럼 포락선은 상기 P개 스펙트럼 포락선 중 최대 에너지를 갖는 P2개 스펙트럼 포락선일 수 있고; 상기 P3개 스펙트럼 포락선은 상기 P개 스펙트럼 포락선 중 최대 에너지를 갖는 P3개 스펙트럼 포락선일 수 있다.
예를 들어, 입력 오디오 신호는 16kHz로 샘플링된 광대역 신호이고, 상기 입력 신호는 20ms의 프레임에서 입력된다. 신호의 각각의 프레임은 320개 시간 도메인 샘플링 포인트이다. 시간 도메인 신호에 대해 시간-주파수 변환이 수행된다. 예를 들어, 고속 푸리에 변환에 의해 시간-주파수 변환을 수행하여, 160개 스펙트럼 포락선 S(k)를 획득할 수 있고, 여기서 k=0, 1, 2, ..., 159이다. P2개 스펙트럼 포락선이 상기 160개 스펙트럼 포락선 중에서 선택되고, 상기 P2개 스펙트럼 포락선의 에너지 합계가 상기 오디오 프레임의 총 에너지에서 차지하는 비율이 산출된다. 전술한 프로세스를 상기 N개 오디오 프레임 각각에 대해 실행한다. 즉, 상기 N개 오디오 프레임 각각의 상기 P2개 스펙트럼 포락선의 에너지 합계가 각각의 총 에너지에서 차지하는 비율이 산출된다. 상기 비율들의 평균값이 산출된다. 상기 비율들의 상기 평균값은 상기 제2 에너지 비율이다. P3개 스펙트럼 포락선이 상기 160개 스펙트럼 포락선 중에서 선택되고, 상기 P3개 스펙트럼 포락선의 에너지 합계가 상기 오디오 프레임의 상기 총 에너지에서 차지하는 비율이 산출된다. 전술한 프로세스를 상기 N개 오디오 프레임 각각에 대해 실행한다. 즉, 상기 N개 오디오 프레임 각각의 상기 P3개 스펙트럼 포락선의 에너지 합계가 상기 각각의 총 에너지에서 차지하는 비율이 산출된다. 상기 비율들의 평균값이 산출된다. 상기 비율들의 상기 평균값은 상기 제3 에너지 비율이다. 상기 제2 에너지 비율이 상기 제7 사전 설정 값보다 크고 상기 제3 에너지 비율이 상기 제8 사전 설정 값보다 클 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정된다. 상기 제2 에너지 비율이 상기 제9 사전 설정 값보다 클 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정된다. 상기 제3 에너지 비율이 상기 제10 사전 설정 값보다 작을 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제2 인코딩 방법을 이용하기로 결정된다. 상기 P2개 스펙트럼 포락선은 상기 P개 스펙트럼 포락선 중 최대 에너지를 갖는 P2개 스펙트럼 포락선일 수 있고; 상기 P3개 스펙트럼 포락선은 상기 P개 스펙트럼 포락선 중 최대 에너지를 갖는 P3개 스펙트럼 포락선일 수 있다. 임의적으로, 일 실시예에서, P2의 값은 20일 수 있고, P3의 값은 30일 수 있다.
임의적으로, 또 다른 실시예에서, 상기 현재 오디오 프레임에 대해 상기 버스트 희소성을 이용하여 적절한 인코딩 방법이 선택될 수 있다. 상기 버스트 희소성으로는, 오디오 프레임의 에너지의, 스펙트럼상의 분포의 전역 희소성, 국부 희소성, 및 단시간 버스트성이 고려될 필요가 있다. 이 경우, 상기 스펙트럼상의 상기 에너지의 상기 분포의 희소성은 상기 스펙트럼상의 상기 에너지의 분포의 전역 희소성, 국부 희소성, 및 단시간 버스트성을 포함할 수 있다. 이 경우, N의 값은 1일 수 있고, 상기 N개 오디오 프레임은 상기 현재 오디오 프레임이다. N개 입력 오디오 프레임의 에너지의, 스펙트럼상의 분포의 희소성을 결정하는 상기 단계는: 상기 현재 오디오 프레임의 스펙트럼을 Q개 부대역으로 나누는 단계; 및 상기 현재 오디오 프레임의 상기 스펙트럼의 상기 Q개 부대역 각각의 피크 에너지에 따라 버스트 희소성 파라미터를 결정하는 단계를 포함하고, 여기서 상기 버스트 희소성 파라미터는 상기 현재 오디오 프레임의 전역 희소성, 국부 희소성, 및 단시간 버스트성을 지시하는 데 이용된다. 상기 버스트 희소성 파라미터는: 상기 Q개 부대역 각각의 전역 피크 대 평균 비율, 상기 Q개 부대역 각각의 국부 피크 대 평균 비율, 및 상기 Q개 부대역 각각의 단시간 에너지 변동을 포함하고, 여기서 상기 전역 피크 대 평균 비율은 상기 부대역에서의 상기 피크 에너지 및 상기 현재 오디오 프레임의 모든 부대역의 평균 에너지에 따라 결정되고, 상기 국부 피크 대 평균 비율은 상기 부대역에서의 상기 피크 에너지 및 상기 부대역에서의 평균 에너지에 따라 결정되고, 상기 단시간 피크 에너지 변동은 상기 부대역에서의 상기 피크 에너지 및 상기 오디오 프레임 전의 오디오 프레임의 특정 주파수 대역에서의 피크 에너지에 따라 결정된다. 상기 N개 오디오 프레임의 에너지의, 상기 스펙트럼상의 상기 분포의 희소성에 따라, 상기 현재 오디오 프레임을 인코딩하기 위해 제1 인코딩 방법을 이용할지 제2 인코딩 방법을 이용할지를 결정하는 상기 단계는: 상기 Q개 부대역 중에 제1 부대역이 있는지를 결정하는 단계 - 여기서 상기 제1 부대역의 국부 피크 대 평균 비율은 제11 사전 설정 값보다 크고, 상기 제1 부대역의 전역 피크 대 평균 비율은 제12 사전 설정 값보다 크고, 상기 제1 부대역의 단시간 피크 에너지 변동은 제13 사전 설정 값보다 큼 -; 및 상기 Q개 부대역 중에 상기 제1 부대역이 있을 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정하는 단계를 포함한다. 상기 Q개 부대역 각각의 상기 전역 피크 대 평균 비율, 상기 Q개 부대역 각각의 상기 국부 피크 대 평균 비율, 및 상기 Q개 부대역 각각의 상기 단시간 에너지 변동은 각각 상기 전역 희소성, 상기 국부 희소성, 및 상기 단시간 버스트성을 나타낸다.
구체적으로, 상기 전역 피크 대 평균 비율은 이하의 공식을 이용하여 결정될 수 있다:
Figure pat00002
공식 1.2
여기서 e(i)는 상기 Q개 부대역 중 i번째 부대역의 피크 에너지를 나타내고, s(k)는 상기 P개 스펙트럼 포락선 중 k번째 스펙트럼 포락선의 에너지를 나타내고, p2s(i)는 상기 i번째 부대역의 전역 피크 대 평균 비율을 나타낸다.
상기 국부 피크 대 평균 비율은 이하의 공식을 이용하여 결정될 수 있다:
Figure pat00003
공식 1.3
여기서 e(i)는 상기 Q개 부대역 중 상기 i번째 부대역의 상기 피크 에너지를 나타내고, s(k)는 상기 P개 스펙트럼 포락선 중 상기 k번째 스펙트럼 포락선의 상기 에너지를 나타내고, h(i)는 상기 i번째 부대역에 포함되는 그리고 가장 높은 주파수를 갖는 스펙트럼 포락선의 인덱스를 나타내고, l(i)은 상기 i번째 부대역에 포함되는 그리고 가장 낮은 주파수를 갖는 스펙트럼 포락선의 인덱스를 나타내고, p2a(i)는 상기 i번째 부대역의 국부 피크 대 평균 비율을 나타내고, h(i)는 P-1 이하이다.
상기 단시간 피크 에너지 변동은 이하의 공식을 이용하여 결정될 수 있다:
공식 1.4
여기서 e(i)는 상기 현재 오디오 프레임의 상기 Q개 부대역 중 상기 i번째 부대역의 상기 피크 에너지를 나타내고, e1 및 e2는 상기 현재 오디오 프레임 전의 오디오 프레임들의 특정 주파수 대역들의 피크 에너지를 나타낸다. 구체적으로, 상기 현재 오디오 프레임이 M번째 오디오 프레임이라고 가정하여, 상기 현재 오디오 프레임의 상기 i번째 부대역의 피크 에너지가 위치하는 스펙트럼 포락선이 결정된다. 상기 피크 에너지가 위치하는 상기 스펙트럼 포락선이 i1이라고 가정한다. (M-1)번째 오디오 프레임에서의 (i1-t)번째 스펙트럼 포락선 내지 (i1+t)번째 스펙트럼 포락선의 범위 내의 피크 에너지가 결정되고, 상기 피크 에너지는 e1이다. 유사하게, (M-2)번째 오디오 프레임에서의 (i1-t)번째 스펙트럼 포락선 내지 (i1+t)번째 스펙트럼 포락선의 범위 내의 피크 에너지가 결정되고, 상기 피크 에너지는 e2이다.
이 기술분야의 통상의 기술자는 상기 제11 사전 설정 값, 상기 제12 사전 설정 값, 및 상기 제13 사전 설정 값은 시뮬레이션 실험에 따라 결정될 수 있다는 것을 이해할 수 있다. 적절한 사전 설정 값들이 시뮬레이션 실험에 의해 결정될 수 있고, 따라서 전술한 조건을 만족시키는 오디오 프레임이 상기 제1 인코딩 방법을 이용하여 인코딩될 때 양호한 인코딩 효과가 획득될 수 있다.
임의적으로, 또 다른 실시예에서, 상기 현재 오디오 프레임에 대해 상기 대역 제한 희소성을 이용하여 적절한 인코딩 방법이 선택될 수 있다. 이 경우, 상기 스펙트럼상의 상기 에너지의 상기 분포의 희소성은 상기 스펙트럼상의 상기 에너지의 대역 제한 분포의 희소성을 포함한다 . 이 경우, N개 입력 오디오 프레임의 에너지의, 스펙트럼상의 분포의 희소성을 결정하는 상기 단계는: 상기 N개 오디오 프레임 각각의 경계 주파수를 결정하는 단계; 및 각각의 N개 오디오 프레임의 상기 경계 주파수에 따라 대역 제한 희소성 파라미터를 결정하는 단계를 포함한다. 상기 대역 제한 희소성 파라미터는 상기 N개 오디오 프레임의 상기 경계 주파수들의 평균값일 수 있다. 예를 들어, Ni번째 오디오 프레임은 상기 N개 오디오 프레임 중 어느 하나이고, 상기 Ni번째 오디오 프레임의 주파수 범위는 Fb 내지 Fe이고, 여기서 Fb는 Fe보다 작다. 시작 주파수가 Fb라고 가정하여, 상기 Ni번째 오디오 프레임의 경계 주파수를 결정하기 위한 방법은 Fb에서 시작하여 주파수 Fs를 검색할 수 있고, 여기서 Fs는 이하의 조건들을 만족시킨다: Fb에서 Fs까지의 에너지 합계 대 상기 Ni번째 오디오 프레임의 총 에너지의 비율이 제4 사전 설정 비율 이상이고, Fb에서 Fs보다 작은 임의의 주파수까지의 에너지 합계 대 상기 Ni번째 오디오 프레임의 상기 총 에너지의 비율이 상기 제4 사전 설정 비율보다 작고, 여기서 Fs는 상기 Ni번째 오디오 프레임의 상기 경계 주파수이다. 전술한 경계 주파수 결정 단계를 상기 N개 오디오 프레임 각각에 대해 수행한다. 이렇게 하여, 상기 N개 오디오 프레임의 상기 N개 경계 주파수를 획득할 수 있다. 상기 N개 오디오 프레임의 에너지의, 상기 스펙트럼상의 상기 분포의 희소성에 따라, 상기 현재 오디오 프레임을 인코딩하기 위해 제1 인코딩 방법을 이용할지 제2 인코딩 방법을 이용할지를 결정하는 상기 단계는: 상기 오디오 프레임들의 상기 대역 제한 희소성 파라미터가 제14 사전 설정 값보다 작다고 결정될 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정하는 단계를 포함한다.
이 기술분야의 통상의 기술자는 상기 제4 사전 설정 비율 및 상기 제14 사전 설정 값은 시뮬레이션 실험에 따라 결정될 수 있다는 것을 이해할 수 있다. 적절한 사전 설정 값 및 사전 설정 비율이 시뮬레이션 실험에 따라 결정될 수 있고, 따라서 전술한 조건을 만족시키는 오디오 프레임이 상기 제1 인코딩 방법을 이용하여 인코딩될 때 양호한 인코딩 효과가 획득될 수 있다. 일반적으로, 1보다 작지만 1에 가까운 수, 예를 들어, 95% 또는 99%가 상기 제4 사전 설정 비율의 값으로서 선택된다. 상기 제14 사전 설정 값의 선택에서, 비교적 높은 주파수에 대응하는 수는 일반적으로 선택되지 않는다. 예를 들어, 일부 실시예들에서, 오디오 프레임의 주파수 범위가 0Hz 내지 8kHz이면, 5kHz의 주파수보다 작은 수가 상기 제14 사전 설정 값으로서 선택될 수 있다.
예를 들어, 상기 현재 오디오 프레임의 P개 스펙트럼 포락선 각각의 에너지를 결정할 수 있고, 저주파수에서 고주파수까지 경계 주파수를 상기 경계 주파수보다 작은 에너지가 상기 현재 오디오 프레임의 총 에너지에서 차지하는 비율이 상기 제4 사전 설정 비율인 방식으로 검색한다. N이 1이라고 가정하여, 상기 현재 오디오 프레임의 상기 경계 주파수는 상기 대역 제한 희소성 파라미터이다. N이 1보다 큰 정수라고 가정하여, 상기 N개 오디오 프레임의 상기 경계 주파수들의 상기 평균값은 상기 대역 제한 희소성 파라미터라고 결정된다. 이 기술분야의 통상의 기술자는 위에 언급한 상기 경계 주파수 결정은 예에 불과하다는 것을 이해할 수 있다. 대안적으로, 상기 경계 주파수 결정 방법은 고주파수에서 저주파수까지 경계 주파수를 검색할 수 있거나 또는 또 다른 방법일 수 있다.
또한, 상기 제1 인코딩 방법과 상기 제2 인코딩 방법 간의 빈번한 스위칭을 피하기 위해, 행오버 구간이 추가로 설정될 수 있다. 상기 행오버 구간에서의 오디오 프레임에 대해서는, 상기 행오버 구간의 시작 위치에서의 오디오 프레임에 대해 이용되는 인코딩 방법이 이용될 수 있다. 이렇게 하여, 상이한 인코딩 방법들 간의 빈번한 스위칭에 의해 야기되는 스위칭 품질 저하를 피할 수 있다.
상기 행오버 구간의 행오버 길이가 L이면, 상기 현재 오디오 프레임 후의 L개 오디오 프레임이 모두 상기 현재 오디오 프레임의 행오버 구간에 속한다. 상기 행오버 구간에 속하는 오디오 프레임의 에너지의, 스펙트럼상의 분포의 희소성이 상기 행오버 구간의 시작 위치에서의 오디오 프레임의 에너지의, 스펙트럼상의 분포의 희소성과 상이하면, 상기 오디오 프레임은 여전히 상기 행오버 구간의 상기 시작 위치에서의 상기 오디오 프레임에 대해 이용되는 것과 동일한 인코딩 방법을 이용하여 인코딩된다.
상기 행오버 구간 길이가 0일 때까지, 상기 행오버 구간 길이는 상기 행오버 구간에서의 오디오 프레임의 에너지의, 스펙트럼상의 분포의 희소성에 따라 업데이트될 수 있다.
예를 들어, I번째 오디오 프레임에 대해 상기 제1 인코딩 방법을 이용하기로 결정되고 사전 설정 행오버 구간의 길이가 L이면, (I+1)번째 오디오 프레임 내지 (I+L)번째 오디오 프레임에 대해 상기 제1 인코딩 방법이 이용된다 . 그 후, 상기 (I+1)번째 오디오 프레임의 에너지의, 스펙트럼상의 분포의 희소성이 결정되고, 상기 행오버 구간은 상기 (I+1)번째 오디오 프레임의 상기 에너지의, 상기 스펙트럼상의 상기 분포의 희소성에 따라 재산출된다. 상기 (I+1)번째 오디오 프레임이 상기 제1 인코딩 방법을 이용하는 조건을 여전히 만족시키면, 후속의 행오버 구간은 여전히 상기 사전 설정 행오버 구간 L이다. 즉, 상기 행오버 구간은 (L+2)번째 오디오 프레임에서 시작하여 (I+1+L)번째 오디오 프레임까지 이어진다. 상기 (I+1)번째 오디오 프레임이 상기 제1 인코딩 방법을 이용하는 상기 조건을 만족시키지 않으면, 상기 행오버 구간은 상기 (I+1)번째 오디오 프레임의 상기 에너지의, 상기 스펙트럼상의 상기 분포의 희소성에 따라 재결정된다 . 예를 들어, 상기 행오버 구간은 L-L1이라고 재결정될 수 있고, 여기서 L1은 L 이하의 양의 정수이다. L1이 L과 같으면, 상기 행오버 구간 길이는 0으로 업데이트된다. 이 경우, 상기 인코딩 방법은 상기 (I+1)번째 오디오 프레임의 상기 에너지의, 상기 스펙트럼상의 상기 분포의 희소성에 따라 재결정된다. L1이 L보다 작은 정수이면, 상기 인코딩 방법은 (I+1+L-L1)번째 오디오 프레임의 에너지의, 스펙트럼상의 분포의 희소성에 따라 재결정된다. 그러나, 상기 (I+1)번째 오디오 프레임은 상기 I번째 오디오 프레임의 행오버 구간에 있기 때문에, 상기 (I+1)번째 오디오 프레임은 여전히 상기 제1 인코딩 방법을 이용하여 인코딩된다. L1은 행오버 업데이트 파라미터로 지칭될 수 있고, 상기 행오버 업데이트 파라미터의 값은 입력 오디오 프레임의 에너지의, 스펙트럼상의 분포의 희소성에 따라 결정될 수 있다. 이렇게 하여, 행오버 구간 업데이트는 오디오 프레임의 에너지의, 스펙트럼상의 분포의 희소성에 관련된다.
예를 들어, 일반 희소성 파라미터가 결정되고 상기 일반 희소성 파라미터가 제1 최소 대역폭일 때, 상기 행오버 구간은 오디오 프레임의 제1 사전 설정 비율 에너지의, 스펙트럼상에 분포된 최소 대역폭에 따라 재결정될 수 있다. 상기 I번째 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정되고, 사전 설정 행오버 구간이 L이라고 가정한다. 상기 (I+1)번째 오디오 프레임을 포함하는 H개 연속 오디오 프레임 각각의 제1 사전 설정 비율 에너지의, 스펙트럼상에 분포된 최소 대역폭이 결정되고, 여기서 H는 0보다 큰 양의 정수이다. 상기 (I+1)번째 오디오 프레임이 상기 제1 인코딩 방법을 이용하는 상기 조건을 만족시키지 않으면, 제1 사전 설정 비율 에너지의, 스펙트럼상에 분포된 최소 대역폭들이 제15 사전 설정 값보다 작은 오디오 프레임들의 수량(상기 수량은 간단히 제1 행오버 파라미터로 지칭된다)이 결정된다. (L+1)번째 오디오 프레임의 제1 사전 설정 비율 에너지의, 스펙트럼상에 분포된 최소 대역폭이 제16 사전 설정 값보다는 크고 제17 사전 설정 값보다는 작고, 상기 제1 행오버 파라미터가 제18 사전 설정 값보다 작을 때, 상기 행오버 구간 길이가 1 감산되고, 즉, 상기 행오버 업데이트 파라미터는 1이다. 상기 제16 사전 설정 값은 상기 제1 사전 설정 값보다 크다. 상기 (L+1)번째 오디오 프레임의 상기 제1 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭이 상기 제17 사전 설정 값보다는 크고 제19 사전 설정 값보다는 작고, 상기 제1 행오버 파라미터가 상기 제18 사전 설정 값보다 작을 때, 상기 행오버 구간 길이가 2 감산되고, 즉, 상기 행오버 업데이트 파라미터는 2이다. 상기 (L+1)번째 오디오 프레임의 상기 제1 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭이 상기 제19 사전 설정 값보다 클 때, 상기 행오버 구간은 0으로 설정된다. 상기 제1 행오버 파라미터 및 상기 (L+1)번째 오디오 프레임의 상기 제1 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭이 상기 제16 사전 설정 값 내지 상기 제19 사전 설정 값 중 하나 이상을 만족시키지 않을 때, 상기 행오버 구간은 불변으로 유지된다.
이 기술분야의 통상의 기술자는 상기 사전 설정 행오버 구간이 실제 상황에 따라 설정될 수 있고, 상기 행오버 업데이트 파라미터도 실제 상황에 따라 조정될 수 있다는 것을 이해할 수 있다. 상기 제15 사전 설정 값 내지 상기 제19 사전 설정 값은 실제 상황에 따라 조정될 수 있고, 따라서 상이한 행오버 구간들이 설정될 수 있다.
유사하게, 상기 일반 희소성 파라미터가 제2 최소 대역폭 및 제3 최소 대역폭을 포함하거나, 또는 상기 일반 희소성 파라미터가 제1 에너지 비율을 포함하거나, 또는 상기 일반 희소성 파라미터가 제2 에너지 비율 및 제3 에너지 비율을 포함할 때, 대응하는 사전 설정 행오버 구간, 대응하는 행오버 업데이트 파라미터, 및 상기 행오버 업데이트 파라미터를 결정하는 데 이용되는 관련 파라미터를, 대응하는 행오버 구간이 결정될 수 있고, 인코딩 방법들 간의 빈번한 스위칭이 피해지도록 설정할 수 있다.
상기 인코딩 방법이 상기 버스트 희소성에 따라 결정될 때(즉, 상기 인코딩 방법이 오디오 프레임의 에너지의, 스펙트럼상의 분포의 전역 희소성, 국부 희소성, 및 단시간 버스트성에 따라 결정될 때), 대응하는 행오버 구간, 대응하는 행오버 업데이트 파라미터, 및 상기 행오버 업데이트 파라미터를 결정하는 데 이용되는 관련 파라미터를, 인코딩 방법들 간의 빈번한 스위칭을 피하도록 설정할 수 있다. 이 경우, 상기 행오버 구간은 상기 일반 희소성 파라미터의 경우에 설정되는 상기 행오버 구간보다 작을 수 있다.
상기 인코딩 방법이 스펙트럼상의 에너지의 분포의 대역 제한 특성에 따라 결정될 때, 대응하는 행오버 구간, 대응하는 행오버 업데이트 파라미터, 및 상기 행오버 업데이트 파라미터를 결정하는 데 이용되는 관련 파라미터를, 인코딩 방법들 간의 빈번한 스위칭을 피하도록 설정할 수 있다. 예를 들어, 입력 오디오 프레임의 낮은 스펙트럼 포락선의 에너지 대 모든 스펙트럼 포락선의 에너지의 비율이 계산될 수 있고, 상기 비율에 따라 상기 행오버 업데이트 파라미터가 결정된다. 구체적으로, 상기 낮은 스펙트럼 포락선의 에너지 대 모든 스펙트럼 포락선의 에너지의 상기 비율은 이하의 공식을 이용하여 결정될 수 있다:
Figure pat00005
공식 1.5
여기서 Rlow은 상기 낮은 스펙트럼 포락선의 에너지 대 모든 스펙트럼 포락선의 에너지의 상기 비율을 나타내고, s(k)는 k번째 스펙트럼 포락선의 에너지를 나타내고, y는 저주파수 대역의 가장 높은 스펙트럼 포락선의 인덱스를 나타내고, P는 상기 오디오 프레임이 총 P개 스펙트럼 포락선으로 나누어지는 것을 지시한다. 이 경우, Rlow이 제20 사전 설정 값보다 크면, 상기 행오버 업데이트 파라미터는 0이다. 그렇지 않고, Rlow이 제21 사전 설정 값보다 크면, 상기 행오버 업데이트 파라미터는 비교적 작은 값을 가질 수 있고, 여기서 상기 제20 사전 설정 값은 상기 제21 사전 설정 값보다 크다. Rlow이 상기 제21 사전 설정 값보다 크지 않으면, 상기 행오버 파라미터는 비교적 큰 값을 가질 수 있다. 이 기술분야의 통상의 기술자는 상기 제20 사전 설정 값 및 상기 제21 사전 설정 값은 시뮬레이션 실험에 따라 결정될 수 있고, 상기 행오버 업데이트 파라미터의 값도 실험에 따라 결정될 수 있다는 것을 이해할 수 있다. 일반적으로, 지나치게 작은 비율인 수는 상기 제21 사전 설정 값으로서 일반적으로 선택되지 않는다. 예를 들어, 50%보다 큰 수가 일반적으로 선택될 수 있다. 상기 제20 사전 설정 값은 상기 제21 사전 설정 값과 1 사이의 범위에 있다.
게다가, 상기 인코딩 방법이 스펙트럼상의 에너지의 분포의 대역 제한 특성에 따라 결정될 때, 입력 오디오 프레임의 경계 주파수가 추가로 결정될 수 있고, 상기 행오버 업데이트 파라미터는 상기 경계 주파수에 따라 결정되고, 여기서 상기 경계 주파수는 대역 제한 희소성 파라미터를 결정하는 데 사용되는 경계 주파수와는 상이할 수 있다. 상기 경계 주파수가 제22 사전 설정 값보다 작으면, 상기 행오버 업데이트 파라미터는 0이다. 그렇지 않고, 상기 경계 주파수가 제23 사전 설정 값보다 작으면, 상기 행오버 업데이트 파라미터는 비교적 작은 값을 갖는다. 상기 제23 사전 설정 값은 상기 제22 사전 설정 값보다 크다. 상기 경계 주파수가 상기 제23 사전 설정 값보다 크면, 상기 행오버 업데이트 파라미터는 비교적 큰 값을 가질 수 있다. 이 기술분야의 통상의 기술자는 상기 제22 사전 설정 값 및 상기 제23 사전 설정 값은 시뮬레이션 실험에 따라 결정될 수 있고, 상기 행오버 업데이트 파라미터의 값도 실험에 따라 결정될 수 있다는 것을 이해할 수 있다. 일반적으로, 비교적 높은 주파수에 대응하는 수는 상기 제23 사전 설정 값으로서 선택되지 않는다. 예를 들어, 오디오 프레임의 주파수 범위가 0Hz 내지 8kHz이면, 5kHz의 주파수보다 작은 수가 상기 제23 사전 설정 값으로서 선택될 수 있다.
도 2는 본 발명의 실시예에 따른 장치의 구조 블록도이다. 도 2에 도시된 장치(200)는 도 1의 단계들을 수행할 수 있다. 도 2에 도시된 바와 같이, 장치(200)는 획득 유닛(201) 및 결정 유닛(202)을 포함한다.
획득 유닛(201)은 N개 오디오 프레임을 획득하도록 구성되고, 여기서 상기 N개 오디오 프레임은 현재 오디오 프레임을 포함하고, N은 양의 정수이다.
결정 유닛(202)은 획득 유닛(201)에 의해 획득된 상기 N개 오디오 프레임의 에너지의 상기 스펙트럼상의 분포의 희소성을 결정하도록 구성된다.
결정 유닛(202)은 상기 N개 오디오 프레임의 에너지의, 상기 스펙트럼상의 상기 분포의 희소성에 따라, 상기 현재 오디오 프레임을 인코딩하기 위해 제1 인코딩 방법을 이용할지 제2 인코딩 방법을 이용할지를 결정하도록 추가로 구성되고, 여기서 상기 제1 인코딩 방법은 시간-주파수 변환 및 변환 계수 양자화에 기초하는 그리고 선형 예측에 기초하지 않는 인코딩 방법이고, 상기 제2 인코딩 방법은 선형 예측 기반 인코딩 방법이다.
도 2에 도시된 장치에 따르면, 오디오 프레임이 인코딩될 때, 상기 오디오 프레임의 에너지의, 스펙트럼상의 분포의 희소성이 고려되고, 이는 인코딩 복잡도를 감소시키고 비교적 높은 정확도의 인코딩을 보장할 수 있다.
오디오 프레임에 대한 적절한 인코딩 방법의 선택 동안, 상기 오디오 프레임의 에너지의, 스펙트럼상의 분포의 희소성이 고려될 수 있다. 오디오 프레임의 에너지의, 스펙트럼상의 분포의 3가지 유형의 희소성이 있을 수 있다: 일반 희소성, 버스트 희소성, 및 대역 제한 희소성.
임의적으로, 일 실시예에서, 상기 현재 오디오 프레임에 대해 상기 일반 희소성을 이용하여 적절한 인코딩 방법이 선택될 수 있다. 이 경우, 결정 유닛(202)은 구체적으로 상기 N개 오디오 프레임 각각의 스펙트럼을 P개 스펙트럼 포락선으로 나누고, 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의 에너지에 따라 일반 희소성 파라미터를 결정하도록 구성되고, 여기서 P는 양의 정수이고, 상기 일반 희소성 파라미터는 상기 N개 오디오 프레임의 상기 에너지의, 상기 스펙트럼상의 상기 분포의 희소성을 지시한다.
구체적으로, N개 입력 연속 오디오 프레임의 특정 비율 에너지의, 스펙트럼상에 분포된 최소 대역폭들의 평균값이 상기 일반 희소성으로서 정의될 수 있다. 더 작은 대역폭은 더 강한 일반 희소성을 지시하고, 더 큰 대역폭은 더 약한 일반 희소성을 지시한다. 달리 말해서, 더 강한 일반 희소성은 오디오 프레임의 에너지가 더 집중되는 것을 지시하고, 더 약한 일반 희소성은 오디오 프레임의 에너지가 더 분산되는 것을 지시한다. 일반 희소성이 비교적 강한 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법이 이용될 때 효율이 높다. 그러므로, 상기 오디오 프레임을 인코딩하기 위해, 오디오 프레임의 일반 희소성을 결정하는 것에 의해 적절한 인코딩 방법이 선택될 수 있다. 오디오 프레임의 일반 희소성을 결정하는 것을 돕기 위해, 상기 일반 희소성을 양자화하여 일반 희소성 파라미터를 획득할 수 있다. 임의적으로, N이 1일 때, 상기 일반 희소성은 상기 현재 오디오 프레임의 특정 비율 에너지의, 스펙트럼상에 분포된 최소 대역폭이다.
임의적으로, 일 실시예에서, 상기 일반 희소성 파라미터는 제1 최소 대역폭을 포함한다. 이 경우, 결정 유닛(202)은 구체적으로 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의 상기 에너지에 따라 상기 N개 오디오 프레임의 제1 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭들의 평균값을 결정하도록 구성되고, 여기서 상기 N개 오디오 프레임의 상기 제1 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭들의 상기 평균값은 상기 제1 최소 대역폭이다. 결정 유닛(202)은 구체적으로: 상기 제1 최소 대역폭이 제1 사전 설정 값보다 작을 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정하고; 상기 제1 최소 대역폭이 상기 제1 사전 설정 값보다 클 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제2 인코딩 방법을 이용하기로 결정하도록 구성된다.
이 기술분야의 통상의 기술자는 상기 제1 사전 설정 값 및 상기 제1 사전 설정 비율은 시뮬레이션 실험에 따라 결정될 수 있다는 것을 이해할 수 있다. 적절한 제1 사전 설정 값 및 제1 사전 설정 비율이 시뮬레이션 실험에 의해 결정될 수 있고, 따라서 전술한 조건을 만족시키는 오디오 프레임이 상기 제1 인코딩 방법 또는 상기 제2 인코딩 방법을 이용하여 인코딩될 때 양호한 인코딩 효과가 획득될 수 있다.
결정 유닛(202)은 구체적으로: 각각의 오디오 프레임의 상기 P개 스펙트럼 포락선의 상기 에너지를 내림차순으로 분류하고; 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의, 내림차순으로 분류된 상기 에너지에 따라, 상기 N개 오디오 프레임 각각의 상기 제1 사전 설정 비율 이상을 차지하는 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭을 결정하고; 상기 N개 오디오 프레임 각각의 상기 제1 사전 설정 비율 이상을 차지하는 상기 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭에 따라, 상기 N개 오디오 프레임의 상기 제1 사전 설정 비율 이상을 차지하는 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭들의 평균값을 결정하도록 구성된다. 예를 들어, 획득 유닛(201)에 의해 획득되는 오디오 신호는 16kHz로 샘플링된 광대역 신호이고, 상기 획득되는 오디오 신호는 20ms의 프레임에서 획득된다. 신호의 각각의 프레임은 320개 시간 도메인 샘플링 포인트이다. 결정 유닛(202)은 시간 도메인 신호에 대해 시간-주파수 변환을 수행하여, 예를 들어, 고속 푸리에 변환(Fast Fourier Transformation, FFT)에 의해 시간-주파수 변환을 수행하여, 160개 스펙트럼 포락선 S(k), 즉, 160개 FFT 에너지 스펙트럼 계수를 획득할 수 있고, 여기서 k=0, 1, 2, ..., 159이다. 결정 유닛(202)은 상기 스펙트럼 포락선들 S(k) 중에서 최소 대역폭을, 상기 대역폭에서의 에너지가 상기 프레임의 총 에너지에서 차지하는 비율이 상기 제1 사전 설정 비율인 방식으로 찾을 수 있다. 구체적으로, 결정 유닛(202)은 내림차순으로 상기 스펙트럼 포락선들 S(k)에서의 주파수 빈들의 에너지를 순차적으로 누적하고; 각 회의 누적 후에 획득되는 에너지를 상기 오디오 프레임의 상기 총 에너지와 비교하고, 비율이 상기 제1 사전 설정 비율보다 크면, 상기 누적 프로세스를 종료할 수 있고, 여기서 누적 횟수는 상기 최소 대역폭이다. 예를 들어, 상기 제1 사전 설정 비율은 90%이고, 30회 누적 후에 획득된 에너지 합계가 상기 총 에너지에서 차지하는 비율이 90%를 초과하면, 상기 오디오 프레임의 상기 제1 사전 설정 비율 이상을 차지하는 에너지의 최소 대역폭이 30이라고 간주될 수 있다. 결정 유닛(202)은 상기 N개 오디오 프레임 각각에 대해 전술한 최소 대역폭 결정 프로세스를 실행하여, 상기 현재 오디오 프레임을 포함하는 상기 N개 오디오 프레임의 상기 제1 사전 설정 비율 이상을 차지하는 상기 에너지의 상기 최소 대역폭들을 개별적으로 결정할 수 있다. 결정 유닛(202)은 상기 N개 오디오 프레임의 상기 제1 사전 설정 비율 이상을 차지하는 상기 에너지의 상기 최소 대역폭들의 평균값을 산출할 수 있다. 상기 N개 오디오 프레임의 상기 제1 사전 설정 비율 이상을 차지하는 상기 에너지의 상기 최소 대역폭들의 상기 평균값은 상기 제1 최소 대역폭으로 지칭될 수 있고, 상기 제1 최소 대역폭은 상기 일반 희소성 파라미터로서 이용될 수 있다. 상기 제1 최소 대역폭이 상기 제1 사전 설정 값보다 작을 때, 결정 유닛(202)은 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정할 수 있다. 상기 제1 최소 대역폭이 상기 제1 사전 설정 값보다 클 때, 결정 유닛(202)은 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제2 인코딩 방법을 이용하기로 결정할 수 있다.
임의적으로, 또 다른 실시예에서, 상기 일반 희소성 파라미터는 제1 에너지 비율을 포함할 수 있다. 이 경우, 결정 유닛(202)은 구체적으로 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선 중에서 P1개 스펙트럼 포락선을 선택하고, 상기 N개 오디오 프레임 각각의 상기 P1개 스펙트럼 포락선의 에너지 및 상기 각각의 N개 오디오 프레임의 총 에너지에 따라 상기 제1 에너지 비율을 결정하도록 구성되고, 여기서 P1은 P보다 작은 양의 정수이다. 결정 유닛(202)은 구체적으로: 상기 제1 에너지 비율이 제2 사전 설정 값보다 클 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정하고; 상기 제1 에너지 비율이 상기 제2 사전 설정 값보다 작을 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제2 인코딩 방법을 이용하기로 결정하도록 구성된다. 임의적으로, 일 실시예에서, N이 1일 때, 상기 N개 오디오 프레임은 상기 현재 오디오 프레임이고, 결정 유닛(202)은 구체적으로 상기 현재 오디오 프레임의 P1개 스펙트럼 포락선의 에너지 및 상기 현재 오디오 프레임의 총 에너지에 따라 상기 제1 에너지 비율을 결정하도록 구성된다. 결정 유닛(202)은 구체적으로 상기 P개 스펙트럼 포락선의 상기 에너지에 따라 상기 P1개 스펙트럼 포락선을 결정하도록 구성되고, 여기서 상기 P1개 스펙트럼 포락선 중 어느 하나의 에너지는 상기 P개 스펙트럼 포락선 중 상기 P1개 스펙트럼 포락선을 제외한 다른 스펙트럼 포락선들 중 어느 하나의 에너지보다 크다.
구체적으로, 결정 유닛(202)은 이하의 공식을 이용하여 상기 제1 에너지 비율을 산출할 수 있다:
Figure pat00006
공식 1.6
여기서 R1은 상기 제1 에너지 비율을 나타내고, Ep1(n)는 n번째 오디오 프레임에서의 P1개 선택된 스펙트럼 포락선의 에너지 합계를 나타내고, Eall(n)는 상기 n번째 오디오 프레임의 총 에너지를 나타내고, r(n)은 상기 N개 오디오 프레임 중 상기 n번째 오디오 프레임의 상기 P1개 스펙트럼 포락선의 상기 에너지가 상기 오디오 프레임의 상기 총 에너지에서 차지하는 비율을 나타낸다.
이 기술분야의 통상의 기술자는 상기 제2 사전 설정 값 및 상기 P1개 스펙트럼 포락선의 선택이 시뮬레이션 실험에 따라 결정될 수 있다는 것을 이해할 수 있다. 적절한 제2 사전 설정 값, P1의 적절한 값, 및 상기 P1개 스펙트럼 포락선을 선택하기 위한 적절한 방법이 시뮬레이션 실험에 의해 결정될 수 있고, 따라서 전술한 조건을 만족시키는 오디오 프레임이 상기 제1 인코딩 방법 또는 상기 제2 인코딩 방법을 이용하여 인코딩될 때 양호한 인코딩 효과가 획득될 수 있다. 임의적으로, 일 실시예에서, 상기 P1개 스펙트럼 포락선은 상기 P개 스펙트럼 포락선 중 최대 에너지를 갖는 P1개 스펙트럼 포락선일 수 있다.
예를 들어, 획득 유닛(201)에 의해 획득되는 오디오 신호는 16kHz로 샘플링된 광대역 신호이고, 상기 획득되는 오디오 신호는 20ms의 프레임에서 획득된다. 신호의 각각의 프레임은 320개 시간 도메인 샘플링 포인트이다. 결정 유닛(202)은 시간 도메인 신호에 대해 시간-주파수 변환을 수행하여, 예를 들어, 고속 푸리에 변환에 의해 시간-주파수 변환을 수행하여, 160개 스펙트럼 포락선 S(k)를 획득할 수 있고, 여기서 k=0, 1, 2, ..., 159이다. 결정 유닛(202)은 상기 160개 스펙트럼 포락선 중에서 P1개 스펙트럼 포락선을 선택하고, 상기 P1개 스펙트럼 포락선의 에너지 합계가 상기 오디오 프레임의 총 에너지에서 차지하는 비율을 산출할 수 있다. 결정 유닛(202)은 상기 N개 오디오 프레임 각각에 대해 전술한 프로세스를 실행하고, 즉, 상기 N개 오디오 프레임 각각의 상기 P1개 스펙트럼 포락선의 에너지 합계가 각각의 총 에너지에서 차지하는 비율을 산출할 수 있다. 결정 유닛(202)은 상기 비율들의 평균값을 산출할 수 있다. 상기 비율들의 상기 평균값은 상기 제1 에너지 비율이다. 상기 제1 에너지 비율이 상기 제2 사전 설정 값보다 클 때, 결정 유닛(202)은 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정할 수 있다. 상기 제1 에너지 비율이 상기 제2 사전 설정 값보다 작을 때, 결정 유닛(202)은 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제2 인코딩 방법을 이용하기로 결정할 수 있다. 상기 P1개 스펙트럼 포락선은 상기 P개 스펙트럼 포락선 중 최대 에너지를 갖는 P1개 스펙트럼 포락선일 수 있다. 즉, 결정 유닛(202)은 구체적으로 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선 중에서, 최대 에너지를 갖는 P1개 스펙트럼 포락선을 결정하도록 구성된다. 임의적으로, 일 실시예에서, P1의 값은 20일 수 있다.
임의적으로, 또 다른 실시예에서, 상기 일반 희소성 파라미터는 제2 최소 대역폭 및 제3 최소 대역폭을 포함할 수 있다. 이 경우, 결정 유닛(202)은 구체적으로 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의 상기 에너지에 따라 상기 N개 오디오 프레임의 제2 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭들의 평균값을 결정하고 상기 N개 오디오 프레임의 제3 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭들의 평균값을 결정하도록 구성되고, 여기서 상기 N개 오디오 프레임의 상기 제2 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭들의 상기 평균값은 상기 제2 최소 대역폭으로서 이용되고, 상기 N개 오디오 프레임의 상기 제3 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭들의 상기 평균값은 상기 제3 최소 대역폭으로서 이용되고, 상기 제2 사전 설정 비율은 상기 제3 사전 설정 비율보다 작다. 결정 유닛(202)은 구체적으로: 상기 제2 최소 대역폭이 제3 사전 설정 값보다 작고 상기 제3 최소 대역폭이 제4 사전 설정 값보다 작을 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정하고; 상기 제3 최소 대역폭이 제5 사전 설정 값보다 작을 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정하고; 상기 제3 최소 대역폭이 제6 사전 설정 값보다 클 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제2 인코딩 방법을 이용하기로 결정하도록 구성된다. 임의적으로, 일 실시예에서, N이 1일 때, 상기 N개 오디오 프레임은 상기 현재 오디오 프레임이다. 결정 유닛(202)은 상기 현재 오디오 프레임의 제2 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭을 상기 제2 최소 대역폭으로서 결정할 수 있다. 결정 유닛(202)은 상기 현재 오디오 프레임의 제3 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭을 상기 제3 최소 대역폭으로서 결정할 수 있다.
이 기술분야의 통상의 기술자는 상기 제3 사전 설정 값, 상기 제4 사전 설정 값, 상기 제5 사전 설정 값, 상기 제6 사전 설정 값, 상기 제2 사전 설정 비율, 및 상기 제3 사전 설정 비율이 시뮬레이션 실험에 따라 결정될 수 있다는 것을 이해할 수 있다. 적절한 사전 설정 값들 및 사전 설정 비율들은 시뮬레이션 실험에 의해 결정될 수 있고, 따라서 전술한 조건을 만족시키는 오디오 프레임이 상기 제1 인코딩 방법 또는 상기 제2 인코딩 방법을 이용하여 인코딩될 때 양호한 인코딩 효과가 획득될 수 있다.
결정 유닛(202)은 구체적으로: 각각의 오디오 프레임의 상기 P개 스펙트럼 포락선의 상기 에너지를 내림차순으로 분류하고; 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의, 내림차순으로 분류된 상기 에너지에 따라, 상기 N개 오디오 프레임 각각의 상기 제2 사전 설정 비율 이상을 차지하는 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭을 결정하고; 상기 N개 오디오 프레임 각각의 상기 제2 사전 설정 비율 이상을 차지하는 상기 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭에 따라, 상기 N개 오디오 프레임의 상기 제2 사전 설정 비율 이상을 차지하는 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭들의 평균값을 결정하고; 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의, 내림차순으로 분류된 상기 에너지에 따라, 상기 N개 오디오 프레임 각각의 상기 제3 사전 설정 비율 이상을 차지하는 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭을 결정하고; 상기 N개 오디오 프레임 각각의 상기 제3 사전 설정 비율 이상을 차지하는 상기 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭에 따라, 상기 N개 오디오 프레임의 상기 제3 사전 설정 비율 이상을 차지하는 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭들의 평균값을 결정하도록 구성된다. 예를 들어, 획득 유닛(201)에 의해 획득되는 오디오 신호는 16kHz로 샘플링된 광대역 신호이고, 상기 획득되는 오디오 신호는 20ms의 프레임에서 획득된다. 신호의 각각의 프레임은 320개 시간 도메인 샘플링 포인트이다. 결정 유닛(202)은 시간 도메인 신호에 대해 시간-주파수 변환을 수행하여, 예를 들어, 고속 푸리에 변환에 의해 시간-주파수 변환을 수행하여, 160개 스펙트럼 포락선 S(k)를 획득할 수 있고, 여기서 k=0, 1, 2, ..., 159이다. 결정 유닛(202)은 상기 스펙트럼 포락선들 S(k) 중에서 최소 대역폭을, 상기 대역폭에서의 에너지가 상기 프레임의 총 에너지에서 차지하는 비율이 상기 제2 사전 설정 비율 이상인 방식으로 찾을 수 있다. 결정 유닛(202)은 상기 스펙트럼 포락선들 S(k) 중에서 대역폭을, 상기 대역폭에서의 에너지가 상기 총 에너지에서 차지하는 비율이 상기 제3 사전 설정 비율 이상인 방식으로 계속해서 찾을 수 있다. 구체적으로, 결정 유닛(202)은 내림차순으로 상기 스펙트럼 포락선들 S(k)에서의 주파수 빈들의 에너지를 순차적으로 누적할 수 있다. 각 회의 누적 후에 획득되는 에너지가 상기 오디오 프레임의 상기 총 에너지와 비교되고, 비율이 상기 제2 사전 설정 비율보다 크면, 누적 횟수는 상기 제2 사전 설정 비율 이상인 최소 대역폭이다. 결정 유닛(202)은 상기 누적을 계속할 수 있다. 누적 후에 획득되는 에너지 대 상기 오디오 프레임의 상기 총 에너지의 비율이 상기 제3 사전 설정 비율보다 크면, 상기 누적은 종료되고, 누적 횟수는 상기 제3 사전 설정 비율 이상인 최소 대역폭이다. 예를 들어, 상기 제2 사전 설정 비율은 85%이고, 상기 제3 사전 설정 비율은 95%이다. 30회 누적 후에 획득된 에너지 합계가 상기 총 에너지에서 차지하는 비율이 85%를 초과하면, 상기 오디오 프레임의 상기 제2 사전 설정 비율 이상을 차지하는 상기 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭은 30이라고 간주될 수 있다. 상기 누적은 계속되고, 35회의 누적 후에 획득되는 에너지 합계가 상기 총 에너지에서 차지하는 비율이 95%이면, 상기 오디오 프레임의 상기 제3 사전 설정 비율 이상을 차지하는 상기 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭은 35라고 간주될 수 있다. 결정 유닛(202)은 상기 N개 오디오 프레임 각각에 대해 전술한 프로세스를 실행할 수 있다. 결정 유닛(202)은 상기 현재 오디오 프레임을 포함하는 상기 N개 오디오 프레임의 상기 제2 사전 설정 비율 이상을 차지하는 상기 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭 및 상기 현재 오디오 프레임을 포함하는 상기 N개 오디오 프레임의 상기 제3 사전 설정 비율 이상을 차지하는 상기 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭을 개별적으로 결정할 수 있다. 상기 N개 오디오 프레임의 상기 제2 사전 설정 비율 이상을 차지하는 상기 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭들의 상기 평균값은 상기 제2 최소 대역폭이다. 상기 N개 오디오 프레임의 상기 제3 사전 설정 비율 이상을 차지하는 상기 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭들의 상기 평균값은 상기 제3 최소 대역폭이다. 상기 제2 최소 대역폭이 상기 제3 사전 설정 값보다 작고 상기 제3 최소 대역폭이 상기 제4 사전 설정 값보다 작을 때, 결정 유닛(202)은 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정할 수 있다. 상기 제3 최소 대역폭이 상기 제5 사전 설정 값보다 작을 때, 결정 유닛(202)은 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정할 수 있다. 상기 제3 최소 대역폭이 상기 제1 사전 설정 값보다 클 때, 결정 유닛(202)은 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제2 인코딩 방법을 이용하기로 결정할 수 있다.
임의적으로, 또 다른 실시예에서, 상기 일반 희소성 파라미터는 제2 에너지 비율 및 제3 에너지 비율을 포함한다. 이 경우, 결정 유닛(202)은 구체적으로: 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선 중에서 P2개 스펙트럼 포락선을 선택하고, 상기 N개 오디오 프레임 각각의 상기 P2개 스펙트럼 포락선의 에너지 및 상기 각각의 N개 오디오 프레임의 총 에너지에 따라 상기 제2 에너지 비율을 결정하고, 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선 중에서 P3개 스펙트럼 포락선을 선택하고, 상기 N개 오디오 프레임 각각의 상기 P3개 스펙트럼 포락선의 에너지 및 상기 각각의 N개 오디오 프레임의 상기 총 에너지에 따라 상기 제3 에너지 비율을 결정하도록 구성되고, 여기서 P2 및 P3는 P보다 작은 양의 정수들이고, P2는 P3보다 작다. 결정 유닛(202)은 구체적으로 상기 제2 에너지 비율이 제7 사전 설정 값보다 크고 상기 제3 에너지 비율이 제8 사전 설정 값보다 클 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정하고; 상기 제2 에너지 비율이 제9 사전 설정 값보다 클 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정하고; 상기 제3 에너지 비율이 제10 사전 설정 값보다 작을 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제2 인코딩 방법을 이용하기로 결정하도록 구성된다. 임의적으로, 일 실시예에서, N이 1일 때, 상기 N개 오디오 프레임은 상기 현재 오디오 프레임이다. 결정 유닛(202)은 상기 현재 오디오 프레임의 P2개 스펙트럼 포락선의 에너지 및 상기 현재 오디오 프레임의 총 에너지에 따라 상기 제2 에너지 비율을 결정할 수 있다. 결정 유닛(202)은 상기 현재 오디오 프레임의 P3개 스펙트럼 포락선의 에너지 및 상기 현재 오디오 프레임의 상기 총 에너지에 따라 상기 제3 에너지 비율을 결정할 수 있다.
이 기술분야의 통상의 기술자는 P2 및 P3의 값들, 상기 제7 사전 설정 값, 상기 제8 사전 설정 값, 상기 제9 사전 설정 값, 및 상기 제10 사전 설정 값은 시뮬레이션 실험에 따라 결정될 수 있다는 것을 이해할 수 있다. 적절한 사전 설정 값들이 시뮬레이션 실험에 의해 결정될 수 있고, 따라서 전술한 조건을 만족시키는 오디오 프레임이 상기 제1 인코딩 방법 또는 상기 제2 인코딩 방법을 이용하여 인코딩될 때 양호한 인코딩 효과가 획득될 수 있다. 임의적으로, 일 실시예에서, 결정 유닛(202)은 구체적으로 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선 중에서, 최대 에너지를 갖는 P2개 스펙트럼 포락선을 결정하고, 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선 중에서, 최대 에너지를 갖는 P3개 스펙트럼 포락선을 결정하도록 구성된다.
예를 들어, 획득 유닛(201)에 의해 획득되는 오디오 신호는 16kHz로 샘플링된 광대역 신호이고, 상기 획득되는 오디오 신호는 20ms의 프레임에서 획득된다. 신호의 각각의 프레임은 320개 시간 도메인 샘플링 포인트이다. 결정 유닛(202)은 시간 도메인 신호에 대해 시간-주파수 변환을 수행하여, 예를 들어, 고속 푸리에 변환에 의해 시간-주파수 변환을 수행하여, 160개 스펙트럼 포락선 S(k)를 획득할 수 있고, 여기서 k=0, 1, 2, ..., 159이다. 결정 유닛(202)은 상기 160개 스펙트럼 포락선 중에서 P2개 스펙트럼 포락선을 선택하고, 상기 P2개 스펙트럼 포락선의 에너지 합계가 상기 오디오 프레임의 총 에너지에서 차지하는 비율을 산출할 수 있다. 결정 유닛(202)은 상기 N개 오디오 프레임 각각에 대해 전술한 프로세스를 실행하고, 즉, 상기 N개 오디오 프레임 각각의 상기 P2개 스펙트럼 포락선의 에너지 합계가 각각의 총 에너지에서 차지하는 비율을 산출할 수 있다. 결정 유닛(202)은 상기 비율들의 평균값을 산출할 수 있다. 상기 비율들의 상기 평균값은 상기 제2 에너지 비율이다. 결정 유닛(202)은 상기 160개 스펙트럼 포락선 중에서 P3개 스펙트럼 포락선을 선택하고, 상기 P3개 스펙트럼 포락선의 에너지 합계가 상기 오디오 프레임의 상기 총 에너지에서 차지하는 비율을 산출할 수 있다. 결정 유닛(202)은 상기 N개 오디오 프레임 각각에 대해 전술한 프로세스를 실행하고, 즉, 상기 N개 오디오 프레임 각각의 상기 P3개 스펙트럼 포락선의 에너지 합계가 상기 각각의 총 에너지에서 차지하는 비율을 산출할 수 있다. 결정 유닛(202)은 상기 비율들의 평균값을 산출할 수 있다. 상기 비율들의 상기 평균값은 상기 제3 에너지 비율이다. 상기 제2 에너지 비율이 상기 제7 사전 설정 값보다 크고 상기 제3 에너지 비율이 상기 제8 사전 설정 값보다 클 때, 결정 유닛(202)은 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정할 수 있다. 상기 제2 에너지 비율이 상기 제9 사전 설정 값보다 클 때, 결정 유닛(202)은 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정할 수 있다. 상기 제3 에너지 비율이 상기 제10 사전 설정 값보다 작을 때, 결정 유닛(202)은 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제2 인코딩 방법을 이용하기로 결정할 수 있다. 상기 P2개 스펙트럼 포락선은 상기 P개 스펙트럼 포락선 중 최대 에너지를 갖는 P2개 스펙트럼 포락선일 수 있고; 상기 P3개 스펙트럼 포락선은 상기 P개 스펙트럼 포락선 중 최대 에너지를 갖는 P3개 스펙트럼 포락선일 수 있다. 임의적으로, 일 실시예에서, P2의 값은 20일 수 있고, P3의 값은 30일 수 있다.
임의적으로, 또 다른 실시예에서, 상기 현재 오디오 프레임에 대해 상기 버스트 희소성을 이용하여 적절한 인코딩 방법이 선택될 수 있다. 상기 버스트 희소성으로는, 오디오 프레임의 에너지의, 스펙트럼상의 분포의 전역 희소성, 국부 희소성, 및 단시간 버스트성이 고려될 필요가 있다. 이 경우, 상기 스펙트럼상의 상기 에너지의 상기 분포의 희소성은 상기 스펙트럼상의 상기 에너지의 분포의 전역 희소성, 국부 희소성, 및 단시간 버스트성을 포함할 수 있다. 이 경우, N의 값은 1일 수 있고, 상기 N개 오디오 프레임은 상기 현재 오디오 프레임이다. 결정 유닛(202)은 구체적으로 상기 현재 오디오 프레임의 스펙트럼을 Q개 부대역으로 나누고, 상기 현재 오디오 프레임의 상기 스펙트럼의 상기 Q개 부대역 각각의 피크 에너지에 따라 버스트 희소성 파라미터를 결정하도록 구성되고, 여기서 상기 버스트 희소성 파라미터는 상기 현재 오디오 프레임의 전역 희소성, 국부 희소성, 및 단시간 버스트성을 지시하는 데 이용된다.
구체적으로, 결정 유닛(202)은 구체적으로 상기 Q개 부대역 각각의 전역 피크 대 평균 비율, 상기 Q개 부대역 각각의 국부 피크 대 평균 비율, 및 상기 Q개 부대역 각각의 단시간 에너지 변동을 결정하도록 구성되고, 여기서 상기 전역 피크 대 평균 비율은 결정 유닛(202)에 의해 상기 부대역에서의 상기 피크 에너지 및 상기 현재 오디오 프레임의 모든 부대역의 평균 에너지에 따라 결정되고, 상기 국부 피크 대 평균 비율은 결정 유닛(202)에 의해 상기 부대역에서의 상기 피크 에너지 및 상기 부대역에서의 평균 에너지에 따라 결정되고, 상기 단시간 피크 에너지 변동은 상기 부대역에서의 상기 피크 에너지 및 상기 오디오 프레임 전의 오디오 프레임의 특정 주파수 대역에서의 피크 에너지에 따라 결정된다. 상기 Q개 부대역 각각의 상기 전역 피크 대 평균 비율, 상기 Q개 부대역 각각의 상기 국부 피크 대 평균 비율, 및 상기 Q개 부대역 각각의 상기 단시간 에너지 변동은 각각 상기 전역 희소성, 상기 국부 희소성, 및 상기 단시간 버스트성을 나타낸다. 결정 유닛(202)은 구체적으로: 상기 Q개 부대역 중에 제1 부대역이 있는지를 결정하고 - 여기서 상기 제1 부대역의 국부 피크 대 평균 비율은 제11 사전 설정 값보다 크고, 상기 제1 부대역의 전역 피크 대 평균 비율은 제12 사전 설정 값보다 크고, 상기 제1 부대역의 단시간 피크 에너지 변동은 제13 사전 설정 값보다 큼 -; 상기 Q개 부대역 중에 상기 제1 부대역이 있을 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정하도록 구성된다.
구체적으로, 결정 유닛(202)은 이하의 공식을 이용하여 상기 전역 피크 대 평균 비율을 산출할 수 있다:
Figure pat00007
공식 1.7
여기서 e(i)는 상기 Q개 부대역 중 i번째 부대역의 피크 에너지를 나타내고, s(k)는 상기 P개 스펙트럼 포락선 중 k번째 스펙트럼 포락선의 에너지를 나타내고, p2s(i)는 상기 i번째 부대역의 전역 피크 대 평균 비율을 나타낸다.
결정 유닛(202)은 이하의 공식을 이용하여 상기 국부 피크 대 평균 비율을 산출할 수 있다:
Figure pat00008
공식 1.8
여기서 e(i)는 상기 Q개 부대역 중 상기 i번째 부대역의 상기 피크 에너지를 나타내고, s(k)는 상기 P개 스펙트럼 포락선 중 상기 k번째 스펙트럼 포락선의 상기 에너지를 나타내고, h(i)는 상기 i번째 부대역에 포함되는 그리고 가장 높은 주파수를 갖는 스펙트럼 포락선의 인덱스를 나타내고, l(i)은 상기 i번째 부대역에 포함되는 그리고 가장 낮은 주파수를 갖는 스펙트럼 포락선의 인덱스를 나타내고, p2a(i)는 상기 i번째 부대역의 국부 피크 대 평균 비율을 나타내고, h(i)는 P-1 이하이다.
결정 유닛(202)은 이하의 공식을 이용하여 상기 단시간 피크 에너지 변동을 산출할 수 있다:
Figure pat00009
공식 1.9
여기서 e(i)는 상기 현재 오디오 프레임의 상기 Q개 부대역 중 상기 i번째 부대역의 상기 피크 에너지를 나타내고, e1 및 e2는 상기 현재 오디오 프레임 전의 오디오 프레임들의 특정 주파수 대역들의 피크 에너지를 나타낸다. 구체적으로, 상기 현재 오디오 프레임이 M번째 오디오 프레임이라고 가정하여, 상기 현재 오디오 프레임의 상기 i번째 부대역의 피크 에너지가 위치하는 스펙트럼 포락선이 결정된다. 상기 피크 에너지가 위치하는 상기 스펙트럼 포락선이 i1이라고 가정한다. (M-1)번째 오디오 프레임에서의 (i1-t)번째 스펙트럼 포락선 내지 (i1+t)번째 스펙트럼 포락선의 범위 내의 피크 에너지가 결정되고, 상기 피크 에너지는 e1이다. 유사하게, (M-2)번째 오디오 프레임에서의 (i1-t)번째 스펙트럼 포락선 내지 (i1+t)번째 스펙트럼 포락선의 범위 내의 피크 에너지가 결정되고, 상기 피크 에너지는 e2이다.
이 기술분야의 통상의 기술자는 상기 제11 사전 설정 값, 상기 제12 사전 설정 값, 및 상기 제13 사전 설정 값은 시뮬레이션 실험에 따라 결정될 수 있다는 것을 이해할 수 있다. 적절한 사전 설정 값들이 시뮬레이션 실험에 의해 결정될 수 있고, 따라서 전술한 조건을 만족시키는 오디오 프레임이 상기 제1 인코딩 방법을 이용하여 인코딩될 때 양호한 인코딩 효과가 획득될 수 있다.
임의적으로, 또 다른 실시예에서, 상기 현재 오디오 프레임에 대해 상기 대역 제한 희소성을 이용하여 적절한 인코딩 방법이 선택될 수 있다. 이 경우, 상기 스펙트럼상의 상기 에너지의 상기 분포의 희소성은 상기 스펙트럼상의 상기 에너지의 대역 제한 분포의 희소성을 포함한다 . 이 경우, 결정 유닛(202)은 구체적으로 상기 N개 오디오 프레임 각각의 경계 주파수를 결정하도록 구성된다. 결정 유닛(202)은 구체적으로 상기 N개 오디오 프레임 각각의 상기 경계 주파수에 따라 대역 제한 희소성 파라미터를 결정하도록 구성된다.
이 기술분야의 통상의 기술자는 상기 제4 사전 설정 비율 및 상기 제14 사전 설정 값은 시뮬레이션 실험에 따라 결정될 수 있다는 것을 이해할 수 있다. 적절한 사전 설정 값 및 사전 설정 비율이 시뮬레이션 실험에 따라 결정될 수 있고, 따라서 전술한 조건을 만족시키는 오디오 프레임이 상기 제1 인코딩 방법을 이용하여 인코딩될 때 양호한 인코딩 효과가 획득될 수 있다.
예를 들어, 결정 유닛(202)은 상기 현재 오디오 프레임의 P개 스펙트럼 포락선 각각의 에너지를 결정하고, 저주파수에서 고주파수까지 경계 주파수를, 상기 경계 주파수보다 작은 에너지가 상기 현재 오디오 프레임의 총 에너지에서 차지하는 비율이 상기 제4 사전 설정 비율인 방식으로 검색할 수 있다. 상기 대역 제한 희소성 파라미터는 상기 N개 오디오 프레임의 상기 경계 주파수들의 평균값일 수 있다. 이 경우, 결정 유닛(202)은 구체적으로: 상기 오디오 프레임들의 상기 대역 제한 희소성 파라미터가 제14 사전 설정 값보다 작다고 결정될 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정하도록 구성된다. N이 1이라고 가정하여, 상기 현재 오디오 프레임의 상기 경계 주파수는 상기 대역 제한 희소성 파라미터이다. N이 1보다 큰 정수라고 가정하여, 결정 유닛(202)은 상기 N개 오디오 프레임의 상기 경계 주파수들의 상기 평균값은 상기 대역 제한 희소성 파라미터라고 결정할 수 있다. 이 기술분야의 통상의 기술자는 위에 언급한 상기 경계 주파수 결정은 예에 불과하다는 것을 이해할 수 있다. 대안적으로, 상기 경계 주파수 결정 방법은 고주파수에서 저주파수까지 경계 주파수를 검색할 수 있거나 또는 또 다른 방법일 수 있다.
또한, 상기 제1 인코딩 방법과 상기 제2 인코딩 방법 간의 빈번한 스위칭을 피하기 위해, 결정 유닛(202)은 행오버 구간을 설정하도록 추가로 구성될 수 있다. 결정 유닛(202)은: 상기 행오버 구간에서의 오디오 프레임에 대해서는, 상기 행오버 구간의 시작 위치에서의 오디오 프레임에 대해 이용되는 인코딩 방법을 이용하도록 구성될 수 있다. 이렇게 하여, 상이한 인코딩 방법들 간의 빈번한 스위칭에 의해 야기되는 스위칭 품질 저하를 피할 수 있다.
상기 행오버 구간의 행오버 길이가 L이면, 결정 유닛(202)은 상기 현재 오디오 프레임 후의 L개 오디오 프레임이 모두 상기 현재 오디오 프레임의 행오버 구간에 속한다고 결정하도록 구성될 수 있다. 상기 행오버 구간에 속하는 오디오 프레임의 에너지의, 스펙트럼상의 분포의 희소성이 상기 행오버 구간의 시작 위치에서의 오디오 프레임의 에너지의, 스펙트럼상의 분포의 희소성과 상이하면, 결정 유닛(202)은 상기 오디오 프레임은 여전히 상기 행오버 구간의 상기 시작 위치에서의 상기 오디오 프레임에 대해 이용되는 것과 동일한 인코딩 방법을 이용하여 인코딩된다고 결정하도록 구성될 수 있다.
상기 행오버 구간 길이가 0일 때까지, 상기 행오버 구간 길이는 상기 행오버 구간에서의 오디오 프레임의 에너지의, 스펙트럼상의 분포의 희소성에 따라 업데이트될 수 있다.
예를 들어, 결정 유닛(202)이 I번째 오디오 프레임에 대해 상기 제1 인코딩 방법을 이용하기로 결정하고 사전 설정 행오버 구간의 길이가 L이면, 결정 유닛(202)은 (I+1)번째 오디오 프레임 내지 (I+L)번째 오디오 프레임에 대해 상기 제1 인코딩 방법이 이용된다고 결정할 수 있다. 그 후, 결정 유닛(202)은 상기 (I+1)번째 오디오 프레임의 에너지의, 스펙트럼상의 분포의 희소성을 결정하고, 상기 (I+1)번째 오디오 프레임의 상기 에너지의, 상기 스펙트럼상의 상기 분포의 희소성에 따라 상기 행오버 구간을 재산출할 수 있다. 상기 (I+1)번째 오디오 프레임이 상기 제1 인코딩 방법을 이용하는 조건을 여전히 만족시키면, 결정 유닛(202)은 후속의 행오버 구간은 여전히 상기 사전 설정 행오버 구간 L이라고 결정할 수 있다. 즉, 상기 행오버 구간은 (L+2)번째 오디오 프레임에서 시작하여 (I+1+L)번째 오디오 프레임까지 이어진다. 상기 (I+1)번째 오디오 프레임이 상기 제1 인코딩 방법을 이용하는 상기 조건을 만족시키지 않으면, 결정 유닛(202)은 상기 (I+1)번째 오디오 프레임의 상기 에너지의, 상기 스펙트럼상의 상기 분포의 희소성에 따라 상기 행오버 구간을 재결정할 수 있다. 예를 들어, 결정 유닛(202)은 상기 행오버 구간은 L-L1이라고 재결정할 수 있고, 여기서 L1은 L 이하의 양의 정수이다. L1이 L과 같으면, 상기 행오버 구간 길이는 0으로 업데이트된다. 이 경우, 결정 유닛(202)은 상기 (I+1)번째 오디오 프레임의 상기 에너지의, 상기 스펙트럼상의 상기 분포의 희소성에 따라 상기 인코딩 방법을 재결정할 수 있다. L1이 L보다 작은 정수이면, 결정 유닛(202)은 (I+1+L-L1)번째 오디오 프레임의 에너지의, 스펙트럼상의 분포의 희소성에 따라 상기 인코딩 방법을 재결정할 수 있다. 그러나, 상기 (I+1)번째 오디오 프레임은 상기 I번째 오디오 프레임의 행오버 구간에 있기 때문에, 상기 (I+1)번째 오디오 프레임은 여전히 상기 제1 인코딩 방법을 이용하여 인코딩된다. L1은 행오버 업데이트 파라미터로 지칭될 수 있고, 상기 행오버 업데이트 파라미터의 값은 입력 오디오 프레임의 에너지의, 스펙트럼상의 분포의 희소성에 따라 결정될 수 있다. 이렇게 하여, 행오버 구간 업데이트는 오디오 프레임의 에너지의, 스펙트럼상의 분포의 희소성에 관련된다.
예를 들어, 일반 희소성 파라미터가 결정되고 상기 일반 희소성 파라미터가 제1 최소 대역폭일 때, 결정 유닛(202)은 오디오 프레임의 제1 사전 설정 비율 에너지의, 스펙트럼상에 분포된 최소 대역폭에 따라 상기 행오버 구간을 재결정할 수 있다. 상기 I번째 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정되고, 사전 설정 행오버 구간이 L이라고 가정한다. 결정 유닛(202)은 상기 (I+1)번째 오디오 프레임을 포함하는 H개 연속 오디오 프레임 각각의 제1 사전 설정 비율 에너지의, 스펙트럼상에 분포된 최소 대역폭을 결정할 수 있고, 여기서 H는 0보다 큰 양의 정수이다. 상기 (I+1)번째 오디오 프레임이 상기 제1 인코딩 방법을 이용하는 상기 조건을 만족시키지 않으면, 결정 유닛(202)은 제1 사전 설정 비율 에너지의, 스펙트럼상에 분포된 최소 대역폭들이 제15 사전 설정 값보다 작은 오디오 프레임들의 수량을 결정할 수 있다(상기 수량은 간단히 제1 행오버 파라미터로 지칭된다). (L+1)번째 오디오 프레임의 제1 사전 설정 비율 에너지의, 스펙트럼상에 분포된 최소 대역폭이 제16 사전 설정 값보다는 크고 제17 사전 설정 값보다는 작고, 상기 제1 행오버 파라미터가 제18 사전 설정 값보다 작을 때, 결정 유닛(202)은 상기 행오버 구간 길이를 1 감산할 수 있고, 즉, 상기 행오버 업데이트 파라미터는 1이다. 상기 제16 사전 설정 값은 상기 제1 사전 설정 값보다 크다. 상기 (L+1)번째 오디오 프레임의 상기 제1 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭이 상기 제17 사전 설정 값보다는 크고 제19 사전 설정 값보다는 작고, 상기 제1 행오버 파라미터가 상기 제18 사전 설정 값보다 작을 때, 결정 유닛(202)은 상기 행오버 구간 길이를 2 감산할 수 있고, 즉, 상기 행오버 업데이트 파라미터는 2이다. 상기 (L+1)번째 오디오 프레임의 상기 제1 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭이 상기 제19 사전 설정 값보다 클 때, 결정 유닛(202)은 상기 행오버 구간을 0으로 설정할 수 있다. 상기 제1 행오버 파라미터 및 상기 (L+1)번째 오디오 프레임의 상기 제1 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭이 상기 제16 사전 설정 값 내지 상기 제19 사전 설정 값 중 하나 이상을 만족시키지 않을 때, 결정 유닛(202)은 상기 행오버 구간은 불변으로 유지된다고 결정할 수 있다.
이 기술분야의 통상의 기술자는 상기 사전 설정 행오버 구간이 실제 상황에 따라 설정될 수 있고, 상기 행오버 업데이트 파라미터도 실제 상황에 따라 조정될 수 있다는 것을 이해할 수 있다. 상기 제15 사전 설정 값 내지 상기 제19 사전 설정 값은 실제 상황에 따라 조정될 수 있고, 따라서 상이한 행오버 구간들이 설정될 수 있다.
유사하게, 상기 일반 희소성 파라미터가 제2 최소 대역폭 및 제3 최소 대역폭을 포함하거나, 또는 상기 일반 희소성 파라미터가 제1 에너지 비율을 포함하거나, 또는 상기 일반 희소성 파라미터가 제2 에너지 비율 및 제3 에너지 비율을 포함할 때, 결정 유닛(202)은 대응하는 사전 설정 행오버 구간, 대응하는 행오버 업데이트 파라미터, 및 상기 행오버 업데이트 파라미터를 결정하는 데 이용되는 관련 파라미터를, 대응하는 행오버 구간이 결정될 수 있고, 인코딩 방법들 간의 빈번한 스위칭이 피해지도록 설정할 수 있다.
상기 인코딩 방법이 상기 버스트 희소성에 따라 결정될 때(즉, 상기 인코딩 방법이 오디오 프레임의 에너지의, 스펙트럼상의 분포의 전역 희소성, 국부 희소성, 및 단시간 버스트성에 따라 결정될 때), 결정 유닛(202)은 대응하는 행오버 구간, 대응하는 행오버 업데이트 파라미터, 및 상기 행오버 업데이트 파라미터를 결정하는 데 이용되는 관련 파라미터를, 인코딩 방법들 간의 빈번한 스위칭을 피하도록 설정할 수 있다. 이 경우, 상기 행오버 구간은 상기 일반 희소성 파라미터의 경우에 설정되는 상기 행오버 구간보다 작을 수 있다.
상기 인코딩 방법이 스펙트럼상의 에너지의 분포의 대역 제한 특성에 따라 결정될 때, 결정 유닛(202)은 대응하는 행오버 구간, 대응하는 행오버 업데이트 파라미터, 및 상기 행오버 업데이트 파라미터를 결정하는 데 이용되는 관련 파라미터를, 인코딩 방법들 간의 빈번한 스위칭을 피하도록 설정할 수 있다. 예를 들어, 결정 유닛(202)은 입력 오디오 프레임의 낮은 스펙트럼 포락선의 에너지 대 모든 스펙트럼 포락선의 에너지의 비율을 산출하고, 상기 비율에 따라 상기 행오버 업데이트 파라미터를 결정할 수 있다. 구체적으로, 결정 유닛(202)은 상기 낮은 스펙트럼 포락선의 에너지 대 모든 스펙트럼 포락선의 에너지의 상기 비율을 이하의 공식을 이용하여 결정할 수 있다:
Figure pat00010
공식 1.10
여기서 Rlow은 상기 낮은 스펙트럼 포락선의 에너지 대 모든 스펙트럼 포락선의 에너지의 상기 비율을 나타내고, s(k)는 k번째 스펙트럼 포락선의 에너지를 나타내고, y는 저주파수 대역의 가장 높은 스펙트럼 포락선의 인덱스를 나타내고, P는 상기 오디오 프레임이 총 P개 스펙트럼 포락선으로 나누어지는 것을 지시한다. 이 경우, Rlow이 제20 사전 설정 값보다 크면, 상기 행오버 업데이트 파라미터는 0이다. Rlow이 제21 사전 설정 값보다 크면, 상기 행오버 업데이트 파라미터는 비교적 작은 값을 가질 수 있고, 여기서 상기 제20 사전 설정 값은 상기 제21 사전 설정 값보다 크다. Rlow이 상기 제21 사전 설정 값보다 크지 않으면, 상기 행오버 파라미터는 비교적 큰 값을 가질 수 있다. 이 기술분야의 통상의 기술자는 상기 제20 사전 설정 값 및 상기 제21 사전 설정 값은 시뮬레이션 실험에 따라 결정될 수 있고, 상기 행오버 업데이트 파라미터의 값도 실험에 따라 결정될 수 있다는 것을 이해할 수 있다.
게다가, 상기 인코딩 방법이 스펙트럼상의 에너지의 분포의 대역 제한 특성에 따라 결정될 때, 결정 유닛(202)은 추가로 입력 오디오 프레임의 경계 주파수를 결정하고, 상기 경계 주파수에 따라 상기 행오버 업데이트 파라미터를 결정할 수 있고, 여기서 상기 경계 주파수는 대역 제한 희소성 파라미터를 결정하는 데 사용되는 경계 주파수와는 상이할 수 있다. 상기 경계 주파수가 제22 사전 설정 값보다 작으면, 결정 유닛(202)은 상기 행오버 업데이트 파라미터는 0이라고 결정할 수 있다. 상기 경계 주파수가 제23 사전 설정 값보다 작으면, 결정 유닛(202)은 상기 행오버 업데이트 파라미터는 비교적 작은 값을 갖는다고 결정할 수 있다. 상기 경계 주파수가 상기 제23 사전 설정 값보다 크면, 결정 유닛(202)은 상기 행오버 업데이트 파라미터는 비교적 큰 값을 가질 수 있다고 결정할 수 있다. 이 기술분야의 통상의 기술자는 상기 제22 사전 설정 값 및 상기 제23 사전 설정 값은 시뮬레이션 실험에 따라 결정될 수 있고, 상기 행오버 업데이트 파라미터의 값도 실험에 따라 결정될 수 있다는 것을 이해할 수 있다.
도 3은 본 발명의 실시예에 따른 장치의 구조 블록도이다. 도 3에 도시된 장치(300)는 도 1의 단계들을 수행할 수 있다. 도 3에 도시된 바와 같이, 장치(300)는 프로세서(301) 및 메모리(302)를 포함한다.
장치(300)의 컴포넌트들은 버스 시스템(303)을 이용하여 결합된다. 버스 시스템(303)은 데이터 버스 외에 전원 버스, 제어 버스, 및 상태 신호 버스를 추가로 포함한다. 그러나, 명료한 설명을 위해, 모든 버스들은 도 3에서 버스 시스템(303)으로 표시된다.
본 발명의 전술한 실시예들에서 개시된 방법은 프로세서(301)에 적용될 수 있거나, 프로세서(301)에 의해 구현될 수 있다. 프로세서(301)는 집적 회로 칩이고 신호 처리 능력을 가질 수 있다. 구현 프로세스에서, 상기 방법의 단계들은 프로세서(301) 내의 하드웨어의 통합된 논리 회로 또는 소프트웨어 형태의 명령어를 이용하여 완성될 수 있다. 프로세서(301)는 범용 프로세서, 디지털 신호 프로세서(Digital Signal Processor, DSP), 주문형 집적 회로(Application Specific Integrated Circuit, ASIC), 필드 프로그램 가능 게이트 어레이(Field Programmable Gate Array, FPGA), 또는 또 다른 프로그램 가능 논리 디바이스, 개별 게이트 또는 트랜지스터 논리 디바이스, 및 개별 하드웨어 컴포넌트일 수 있다. 프로세서(301)는 본 발명의 실시예들에서 개시된 방법들, 단계들 및 논리 블록도들을 구현하거나 실행할 수 있다. 범용 프로세서는 마이크로프로세서일 수 있거나 또는 프로세서는 임의의 통상의 프로세서 등일 수 있다. 본 발명의 실시예들을 참조하여 개시된 방법들의 단계들은 하드웨어 디코딩 프로세서에 의해 직접 실행되고 완성될 수 있거나, 또는 디코딩 프로세서 내의 하드웨어 및 소프트웨어 모듈들의 조합을 이용하여 실행되고 완성될 수 있다. 소프트웨어 모듈은 랜덤 액세스 메모리(Random Access Memory, RAM), 플래시 메모리, 판독 전용 메모리(Read-Only Memory, ROM), 프로그램 가능 판독 전용 메모리 또는 전기적으로 소거 가능한 프로그램 가능 메모리, 또는 레지스터와 같은 본 기술분야의 발전된 저장 매체에 위치할 수 있다. 저장 매체는 메모리(302)에 위치한다. 프로세서(301)는 메모리(302)로부터 명령어를 판독하고, 그것의 하드웨어와 함께 상기 방법의 단계들을 완성한다.
프로세서(301)는 N개 오디오 프레임을 획득하도록 구성되고, 여기서 상기 N개 오디오 프레임은 현재 오디오 프레임을 포함하고, N은 양의 정수이다.
프로세서(301)는 프로세서(301)에 의해 획득된 상기 N개 오디오 프레임의 에너지의, 상기 스펙트럼상의 분포의 희소성을 결정하도록 구성된다.
프로세서(301)는 상기 N개 오디오 프레임의 에너지의, 상기 스펙트럼상의 상기 분포의 희소성에 따라, 상기 현재 오디오 프레임을 인코딩하기 위해 제1 인코딩 방법을 이용할지 제2 인코딩 방법을 이용할지를 결정하도록 추가로 구성되고, 여기서 상기 제1 인코딩 방법은 시간-주파수 변환 및 변환 계수 양자화에 기초하는 그리고 선형 예측에 기초하지 않는 인코딩 방법이고, 상기 제2 인코딩 방법은 선형 예측 기반 인코딩 방법이다.
도 3에 도시된 장치에 따르면, 오디오 프레임이 인코딩될 때, 상기 오디오 프레임의 에너지의, 스펙트럼상의 분포의 희소성이 고려되고, 이는 인코딩 복잡도를 감소시키고 비교적 높은 정확도의 인코딩을 보장할 수 있다.
오디오 프레임에 대한 적절한 인코딩 방법의 선택 동안, 상기 오디오 프레임의 에너지의, 스펙트럼상의 분포의 희소성이 고려될 수 있다. 오디오 프레임의 에너지의, 스펙트럼상의 분포의 3가지 유형의 희소성이 있을 수 있다: 일반 희소성, 버스트 희소성, 및 대역 제한 희소성.
임의적으로, 일 실시예에서, 상기 현재 오디오 프레임에 대해 상기 일반 희소성을 이용하여 적절한 인코딩 방법이 선택될 수 있다. 이 경우, 프로세서(301)는 구체적으로 상기 N개 오디오 프레임 각각의 스펙트럼을 P개 스펙트럼 포락선으로 나누고, 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의 에너지에 따라 일반 희소성 파라미터를 결정하도록 구성되고, 여기서 P는 양의 정수이고, 상기 일반 희소성 파라미터는 상기 N개 오디오 프레임의 상기 에너지의, 상기 스펙트럼상의 상기 분포의 희소성을 지시한다.
구체적으로, N개 입력 연속 오디오 프레임의 특정 비율 에너지의, 스펙트럼상에 분포된 최소 대역폭들의 평균값이 상기 일반 희소성으로서 정의될 수 있다. 더 작은 대역폭은 더 강한 일반 희소성을 지시하고, 더 큰 대역폭은 더 약한 일반 희소성을 지시한다. 달리 말해서, 더 강한 일반 희소성은 오디오 프레임의 에너지가 더 집중되는 것을 지시하고, 더 약한 일반 희소성은 오디오 프레임의 에너지가 더 분산되는 것을 지시한다. 일반 희소성이 비교적 강한 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법이 이용될 때 효율이 높다. 그러므로, 상기 오디오 프레임을 인코딩하기 위해, 오디오 프레임의 일반 희소성을 결정하는 것에 의해 적절한 인코딩 방법이 선택될 수 있다. 오디오 프레임의 일반 희소성을 결정하는 것을 돕기 위해, 상기 일반 희소성을 양자화하여 일반 희소성 파라미터를 획득할 수 있다. 임의적으로, N이 1일 때, 상기 일반 희소성은 상기 현재 오디오 프레임의 특정 비율 에너지의, 스펙트럼상에 분포된 최소 대역폭이다.
임의적으로, 일 실시예에서, 상기 일반 희소성 파라미터는 제1 최소 대역폭을 포함한다. 이 경우, 프로세서(301)는 구체적으로 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의 상기 에너지에 따라 상기 N개 오디오 프레임의 제1 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭들의 평균값을 결정하도록 구성되고, 여기서 상기 N개 오디오 프레임의 상기 제1 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭들의 상기 평균값은 상기 제1 최소 대역폭이다. 프로세서(301)는 구체적으로: 상기 제1 최소 대역폭이 제1 사전 설정 값보다 작을 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정하고; 상기 제1 최소 대역폭이 상기 제1 사전 설정 값보다 클 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제2 인코딩 방법을 이용하기로 결정하도록 구성된다.
이 기술분야의 통상의 기술자는 상기 제1 사전 설정 값 및 상기 제1 사전 설정 비율은 시뮬레이션 실험에 따라 결정될 수 있다는 것을 이해할 수 있다. 적절한 제1 사전 설정 값 및 제1 사전 설정 비율이 시뮬레이션 실험에 의해 결정될 수 있고, 따라서 전술한 조건을 만족시키는 오디오 프레임이 상기 제1 인코딩 방법 또는 상기 제2 인코딩 방법을 이용하여 인코딩될 때 양호한 인코딩 효과가 획득될 수 있다.
프로세서(301)는 구체적으로: 각각의 오디오 프레임의 상기 P개 스펙트럼 포락선의 상기 에너지를 내림차순으로 분류하고; 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의, 내림차순으로 분류된 상기 에너지에 따라, 상기 N개 오디오 프레임 각각의 상기 제1 사전 설정 비율 이상을 차지하는 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭을 결정하고; 상기 N개 오디오 프레임 각각의 상기 제1 사전 설정 비율 이상을 차지하는 상기 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭에 따라, 상기 N개 오디오 프레임의 상기 제1 사전 설정 비율 이상을 차지하는 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭들의 평균값을 결정하도록 구성된다. 예를 들어, 프로세서(301)에 의해 획득된 오디오 신호는 16kHz로 샘플링된 광대역 신호이고, 상기 획득되는 오디오 신호는 30ms의 프레임에서 획득된다. 신호의 각각의 프레임은 330개 시간 도메인 샘플링 포인트이다. 프로세서(301)는 시간 도메인 신호에 대해 시간-주파수 변환을 수행하여, 예를 들어, 고속 푸리에 변환(Fast Fourier Transformation, FFT)에 의해 시간-주파수 변환을 수행하여, 130개 스펙트럼 포락선 S(k), 즉, 130개 FFT 에너지 스펙트럼 계수를 획득할 수 있고, 여기서 k=0, 1, 2, ..., 159이다. 프로세서(301)는 상기 스펙트럼 포락선들 S(k) 중에서 최소 대역폭을, 상기 대역폭에서의 에너지가 상기 프레임의 총 에너지에서 차지하는 비율이 상기 제1 사전 설정 비율인 방식으로 찾을 수 있다. 구체적으로, 프로세서(301)는 내림차순으로 상기 스펙트럼 포락선들 S(k)에서의 주파수 빈들의 에너지를 순차적으로 누적하고; 각 회의 누적 후에 획득되는 에너지를 상기 오디오 프레임의 상기 총 에너지와 비교하고, 비율이 상기 제1 사전 설정 비율보다 크면, 상기 누적 프로세스를 종료할 수 있고, 여기서 누적 횟수는 상기 최소 대역폭이다. 예를 들어, 상기 제1 사전 설정 비율은 90%이고, 30회 누적 후에 획득된 에너지 합계가 상기 총 에너지에서 차지하는 비율이 90%를 초과하면, 상기 오디오 프레임의 상기 제1 사전 설정 비율 이상을 차지하는 에너지의 최소 대역폭이 30이라고 간주될 수 있다. 프로세서(301)는 상기 N개 오디오 프레임 각각에 대해 전술한 최소 대역폭 결정 프로세스를 실행하여, 상기 현재 오디오 프레임을 포함하는 상기 N개 오디오 프레임의 상기 제1 사전 설정 비율 이상을 차지하는 상기 에너지의 상기 최소 대역폭들을 개별적으로 결정할 수 있다. 프로세서(301)는 상기 N개 오디오 프레임의 상기 제1 사전 설정 비율 이상을 차지하는 상기 에너지의 상기 최소 대역폭들의 평균값을 산출할 수 있다. 상기 N개 오디오 프레임의 상기 제1 사전 설정 비율 이상을 차지하는 상기 에너지의 상기 최소 대역폭들의 상기 평균값은 상기 제1 최소 대역폭으로 지칭될 수 있고, 상기 제1 최소 대역폭은 상기 일반 희소성 파라미터로서 이용될 수 있다. 상기 제1 최소 대역폭이 상기 제1 사전 설정 값보다 작을 때, 프로세서(301)는 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정할 수 있다. 상기 제1 최소 대역폭이 상기 제1 사전 설정 값보다 클 때, 프로세서(301)는 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제2 인코딩 방법을 이용하기로 결정할 수 있다.
임의적으로, 또 다른 실시예에서, 상기 일반 희소성 파라미터는 제1 에너지 비율을 포함할 수 있다. 이 경우, 프로세서(301)는 구체적으로 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선 중에서 P1개 스펙트럼 포락선을 선택하고, 상기 N개 오디오 프레임 각각의 상기 P1개 스펙트럼 포락선의 에너지 및 상기 각각의 N개 오디오 프레임의 총 에너지에 따라 상기 제1 에너지 비율을 결정하도록 구성되고, 여기서 P1은 P보다 작은 양의 정수이다. 프로세서(301)는 구체적으로: 상기 제1 에너지 비율이 제2 사전 설정 값보다 클 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정하고; 상기 제1 에너지 비율이 상기 제2 사전 설정 값보다 작을 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제2 인코딩 방법을 이용하기로 결정하도록 구성된다. 임의적으로, 일 실시예에서, N이 1일 때, 상기 N개 오디오 프레임은 상기 현재 오디오 프레임이고, 프로세서(301)는 구체적으로 상기 현재 오디오 프레임의 P1개 스펙트럼 포락선의 에너지 및 상기 현재 오디오 프레임의 총 에너지에 따라 상기 제1 에너지 비율을 결정하도록 구성된다. 프로세서(301)는 구체적으로 상기 P개 스펙트럼 포락선의 상기 에너지에 따라 상기 P1개 스펙트럼 포락선을 결정하도록 구성되고, 여기서 상기 P1개 스펙트럼 포락선 중 어느 하나의 에너지는 상기 P개 스펙트럼 포락선 중 상기 P1개 스펙트럼 포락선을 제외한 다른 스펙트럼 포락선들 중 어느 하나의 에너지보다 크다.
구체적으로, 프로세서(301)는 이하의 공식을 이용하여 상기 제1 에너지 비율을 산출할 수 있다:
Figure pat00011
공식 1.6
여기서 R1은 상기 제1 에너지 비율을 나타내고, Ep1(n)는 n번째 오디오 프레임에서의 P1개 선택된 스펙트럼 포락선의 에너지 합계를 나타내고, Eall(n)는 상기 n번째 오디오 프레임의 총 에너지를 나타내고, r(n)은 상기 N개 오디오 프레임 중 상기 n번째 오디오 프레임의 상기 P1개 스펙트럼 포락선의 상기 에너지가 상기 오디오 프레임의 상기 총 에너지에서 차지하는 비율을 나타낸다.
이 기술분야의 통상의 기술자는 상기 제2 사전 설정 값 및 상기 P1개 스펙트럼 포락선의 선택이 시뮬레이션 실험에 따라 결정될 수 있다는 것을 이해할 수 있다. 적절한 제2 사전 설정 값, P1의 적절한 값, 및 상기 P1개 스펙트럼 포락선을 선택하기 위한 적절한 방법이 시뮬레이션 실험에 의해 결정될 수 있고, 따라서 전술한 조건을 만족시키는 오디오 프레임이 상기 제1 인코딩 방법 또는 상기 제2 인코딩 방법을 이용하여 인코딩될 때 양호한 인코딩 효과가 획득될 수 있다. 임의적으로, 일 실시예에서, 상기 P1개 스펙트럼 포락선은 상기 P개 스펙트럼 포락선 중 최대 에너지를 갖는 P1개 스펙트럼 포락선일 수 있다.
예를 들어, 프로세서(301)에 의해 획득된 오디오 신호는 16kHz로 샘플링된 광대역 신호이고, 상기 획득되는 오디오 신호는 30ms의 프레임에서 획득된다. 신호의 각각의 프레임은 330개 시간 도메인 샘플링 포인트이다. 프로세서(301)는 시간 도메인 신호에 대해 시간-주파수 변환을 수행하여, 예를 들어, 고속 푸리에 변환에 의해 시간-주파수 변환을 수행하여, 130개 스펙트럼 포락선 S(k)를 획득할 수 있고, 여기서 k=0, 1, 2, ..., 159이다. 프로세서(301)는 상기 130개 스펙트럼 포락선 중에서 P1개 스펙트럼 포락선을 선택하고, 상기 P1개 스펙트럼 포락선의 에너지 합계가 상기 오디오 프레임의 총 에너지에서 차지하는 비율을 산출할 수 있다. 프로세서(301)는 상기 N개 오디오 프레임 각각에 대해 전술한 프로세스를 실행하고, 즉, 상기 N개 오디오 프레임 각각의 상기 P1개 스펙트럼 포락선의 에너지 합계가 각각의 총 에너지에서 차지하는 비율을 산출할 수 있다. 프로세서(301)는 상기 비율들의 평균값을 산출할 수 있다. 상기 비율들의 상기 평균값은 상기 제1 에너지 비율이다. 상기 제1 에너지 비율이 상기 제2 사전 설정 값보다 클 때, 프로세서(301)는 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정할 수 있다. 상기 제1 에너지 비율이 상기 제2 사전 설정 값보다 작을 때, 프로세서(301)는 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제2 인코딩 방법을 이용하기로 결정할 수 있다. 상기 P1개 스펙트럼 포락선은 상기 P개 스펙트럼 포락선 중 최대 에너지를 갖는 P1개 스펙트럼 포락선일 수 있다. 즉, 프로세서(301)는 구체적으로 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선 중에서, 최대 에너지를 갖는 P1개 스펙트럼 포락선을 결정하도록 구성된다. 임의적으로, 일 실시예에서, P1의 값은 30일 수 있다.
임의적으로, 또 다른 실시예에서, 상기 일반 희소성 파라미터는 제2 최소 대역폭 및 제3 최소 대역폭을 포함할 수 있다. 이 경우, 프로세서(301)는 구체적으로 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의 상기 에너지에 따라 상기 N개 오디오 프레임의 제2 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭들의 평균값을 결정하고 상기 N개 오디오 프레임의 제3 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭들의 평균값을 결정하도록 구성되고, 여기서 상기 N개 오디오 프레임의 상기 제2 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭들의 상기 평균값은 상기 제2 최소 대역폭으로서 이용되고, 상기 N개 오디오 프레임의 상기 제3 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭들의 상기 평균값은 상기 제3 최소 대역폭으로서 이용되고, 상기 제2 사전 설정 비율은 상기 제3 사전 설정 비율보다 작다. 프로세서(301)는 구체적으로: 상기 제2 최소 대역폭이 제3 사전 설정 값보다 작고 상기 제3 최소 대역폭이 제4 사전 설정 값보다 작을 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정하고; 상기 제3 최소 대역폭이 제5 사전 설정 값보다 작을 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정하고; 상기 제3 최소 대역폭이 제6 사전 설정 값보다 클 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제2 인코딩 방법을 이용하기로 결정하도록 구성된다. 임의적으로, 일 실시예에서, N이 1일 때, 상기 N개 오디오 프레임은 상기 현재 오디오 프레임이다. 프로세서(301)는 상기 현재 오디오 프레임의 제2 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭을 상기 제2 최소 대역폭으로서 결정할 수 있다. 프로세서(301)는 상기 현재 오디오 프레임의 제3 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭을 상기 제3 최소 대역폭으로서 결정할 수 있다.
이 기술분야의 통상의 기술자는 상기 제3 사전 설정 값, 상기 제4 사전 설정 값, 상기 제5 사전 설정 값, 상기 제6 사전 설정 값, 상기 제2 사전 설정 비율, 및 상기 제3 사전 설정 비율이 시뮬레이션 실험에 따라 결정될 수 있다는 것을 이해할 수 있다. 적절한 사전 설정 값들 및 사전 설정 비율들은 시뮬레이션 실험에 의해 결정될 수 있고, 따라서 전술한 조건을 만족시키는 오디오 프레임이 상기 제1 인코딩 방법 또는 상기 제2 인코딩 방법을 이용하여 인코딩될 때 양호한 인코딩 효과가 획득될 수 있다.
프로세서(301)는 구체적으로: 각각의 오디오 프레임의 상기 P개 스펙트럼 포락선의 상기 에너지를 내림차순으로 분류하고; 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의, 내림차순으로 분류된 상기 에너지에 따라, 상기 N개 오디오 프레임 각각의 상기 제2 사전 설정 비율 이상을 차지하는 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭을 결정하고; 상기 N개 오디오 프레임 각각의 상기 제2 사전 설정 비율 이상을 차지하는 상기 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭에 따라, 상기 N개 오디오 프레임의 상기 제2 사전 설정 비율 이상을 차지하는 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭들의 평균값을 결정하고; 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선의, 내림차순으로 분류된 상기 에너지에 따라, 상기 N개 오디오 프레임 각각의 상기 제3 사전 설정 비율 이상을 차지하는 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭을 결정하고; 상기 N개 오디오 프레임 각각의 상기 제3 사전 설정 비율 이상을 차지하는 상기 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭에 따라, 상기 N개 오디오 프레임의 상기 제3 사전 설정 비율 이상을 차지하는 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭들의 평균값을 결정하도록 구성된다. 예를 들어, 프로세서(301)에 의해 획득된 오디오 신호는 16kHz로 샘플링된 광대역 신호이고, 상기 획득되는 오디오 신호는 30ms의 프레임에서 획득된다. 신호의 각각의 프레임은 330개 시간 도메인 샘플링 포인트이다. 프로세서(301)는 시간 도메인 신호에 대해 시간-주파수 변환을 수행하여, 예를 들어, 고속 푸리에 변환에 의해 시간-주파수 변환을 수행하여, 130개 스펙트럼 포락선 S(k)를 획득할 수 있고, 여기서 k=0, 1, 2, ..., 159이다. 프로세서(301)는 상기 스펙트럼 포락선들 S(k) 중에서 최소 대역폭을, 상기 대역폭에서의 에너지가 상기 프레임의 총 에너지에서 차지하는 비율이 상기 제2 사전 설정 비율 이상인 방식으로 찾을 수 있다. 프로세서(301)는 상기 스펙트럼 포락선들 S(k) 중에서 대역폭을, 상기 대역폭에서의 에너지가 상기 총 에너지에서 차지하는 비율이 상기 제3 사전 설정 비율 이상인 방식으로 계속해서 찾을 수 있다. 구체적으로, 프로세서(301)는 내림차순으로 상기 스펙트럼 포락선들 S(k)에서의 주파수 빈들의 에너지를 순차적으로 누적할 수 있다. 각 회의 누적 후에 획득되는 에너지가 상기 오디오 프레임의 상기 총 에너지와 비교되고, 비율이 상기 제2 사전 설정 비율보다 크면, 누적 횟수는 상기 제2 사전 설정 비율 이상인 최소 대역폭이다. 프로세서(301)는 상기 누적을 계속할 수 있다. 누적 후에 획득되는 에너지 대 상기 오디오 프레임의 상기 총 에너지의 비율이 상기 제3 사전 설정 비율보다 크면, 상기 누적은 종료되고, 누적 횟수는 상기 제3 사전 설정 비율 이상인 최소 대역폭이다. 예를 들어, 상기 제2 사전 설정 비율은 85%이고, 상기 제3 사전 설정 비율은 95%이다. 30회 누적 후에 획득된 에너지 합계가 상기 총 에너지에서 차지하는 비율이 85%를 초과하면, 상기 오디오 프레임의 상기 제2 사전 설정 비율 이상을 차지하는 상기 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭은 30이라고 간주될 수 있다. 상기 누적은 계속되고, 35회의 누적 후에 획득되는 에너지 합계가 상기 총 에너지에서 차지하는 비율이 95%이면, 상기 오디오 프레임의 상기 제3 사전 설정 비율 이상을 차지하는 상기 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭은 35라고 간주될 수 있다. 프로세서(301)는 상기 N개 오디오 프레임 각각에 대해 전술한 프로세스를 실행할 수 있다. 프로세서(301)는 상기 현재 오디오 프레임을 포함하는 상기 N개 오디오 프레임의 상기 제2 사전 설정 비율 이상을 차지하는 상기 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭 및 상기 현재 오디오 프레임을 포함하는 상기 N개 오디오 프레임의 상기 제3 사전 설정 비율 이상을 차지하는 상기 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭을 개별적으로 결정할 수 있다. 상기 N개 오디오 프레임의 상기 제2 사전 설정 비율 이상을 차지하는 상기 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭들의 상기 평균값은 상기 제2 최소 대역폭이다. 상기 N개 오디오 프레임의 상기 제3 사전 설정 비율 이상을 차지하는 상기 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭들의 상기 평균값은 상기 제3 최소 대역폭이다. 상기 제2 최소 대역폭이 상기 제3 사전 설정 값보다 작고 상기 제3 최소 대역폭이 상기 제4 사전 설정 값보다 작을 때, 프로세서(301)는 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정할 수 있다. 상기 제3 최소 대역폭이 상기 제5 사전 설정 값보다 작을 때, 프로세서(301)는 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정할 수 있다. 상기 제3 최소 대역폭이 상기 제6 사전 설정 값보다 클 때, 프로세서(301)는 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제2 인코딩 방법을 이용하기로 결정할 수 있다.
임의적으로, 또 다른 실시예에서, 상기 일반 희소성 파라미터는 제2 에너지 비율 및 제3 에너지 비율을 포함한다. 이 경우, 프로세서(301)는 구체적으로: 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선 중에서 P2개 스펙트럼 포락선을 선택하고, 상기 N개 오디오 프레임 각각의 상기 P2개 스펙트럼 포락선의 에너지 및 상기 각각의 N개 오디오 프레임의 총 에너지에 따라 상기 제2 에너지 비율을 결정하고, 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선 중에서 P3개 스펙트럼 포락선을 선택하고, 상기 N개 오디오 프레임 각각의 상기 P3개 스펙트럼 포락선의 에너지 및 상기 각각의 N개 오디오 프레임의 상기 총 에너지에 따라 상기 제3 에너지 비율을 결정하도록 구성되고, 여기서 P2 및 P3는 P보다 작은 양의 정수들이고, P2는 P3보다 작다. 프로세서(301)는 구체적으로: 상기 제2 에너지 비율이 제7 사전 설정 값보다 크고 상기 제3 에너지 비율이 제8 사전 설정 값보다 클 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정하고; 상기 제2 에너지 비율이 제9 사전 설정 값보다 클 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정하고; 상기 제3 에너지 비율이 제10 사전 설정 값보다 작을 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제2 인코딩 방법을 이용하기로 결정하도록 구성된다. 임의적으로, 일 실시예에서, N이 1일 때, 상기 N개 오디오 프레임은 상기 현재 오디오 프레임이다. 프로세서(301)는 상기 현재 오디오 프레임의 P2개 스펙트럼 포락선의 에너지 및 상기 현재 오디오 프레임의 총 에너지에 따라 상기 제2 에너지 비율을 결정할 수 있다. 프로세서(301)는 상기 현재 오디오 프레임의 P3개 스펙트럼 포락선의 에너지 및 상기 현재 오디오 프레임의 상기 총 에너지에 따라 상기 제3 에너지 비율을 결정할 수 있다.
이 기술분야의 통상의 기술자는 P2 및 P3의 값들, 상기 제7 사전 설정 값, 상기 제8 사전 설정 값, 상기 제9 사전 설정 값, 및 상기 제10 사전 설정 값은 시뮬레이션 실험에 따라 결정될 수 있다는 것을 이해할 수 있다. 적절한 사전 설정 값들이 시뮬레이션 실험에 의해 결정될 수 있고, 따라서 전술한 조건을 만족시키는 오디오 프레임이 상기 제1 인코딩 방법 또는 상기 제2 인코딩 방법을 이용하여 인코딩될 때 양호한 인코딩 효과가 획득될 수 있다. 임의적으로, 일 실시예에서, 프로세서(301)는 구체적으로 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선 중에서, 최대 에너지를 갖는 P2개 스펙트럼 포락선을 결정하고, 상기 N개 오디오 프레임 각각의 상기 P개 스펙트럼 포락선 중에서, 최대 에너지를 갖는 P3개 스펙트럼 포락선을 결정하도록 구성된다.
예를 들어, 프로세서(301)에 의해 획득된 오디오 신호는 16kHz로 샘플링된 광대역 신호이고, 상기 획득되는 오디오 신호는 30ms의 프레임에서 획득된다. 신호의 각각의 프레임은 330개 시간 도메인 샘플링 포인트이다. 프로세서(301)는 시간 도메인 신호에 대해 시간-주파수 변환을 수행하여, 예를 들어, 고속 푸리에 변환에 의해 시간-주파수 변환을 수행하여, 130개 스펙트럼 포락선 S(k)를 획득할 수 있고, 여기서 k=0, 1, 2, ..., 159이다. 프로세서(301)는 상기 130개 스펙트럼 포락선 중에서 P2개 스펙트럼 포락선을 선택하고, 상기 P2개 스펙트럼 포락선의 에너지 합계가 상기 오디오 프레임의 총 에너지에서 차지하는 비율을 산출할 수 있다. 프로세서(301)는 상기 N개 오디오 프레임 각각에 대해 전술한 프로세스를 실행하고, 즉, 상기 N개 오디오 프레임 각각의 상기 P2개 스펙트럼 포락선의 에너지 합계가 각각의 총 에너지에서 차지하는 비율을 산출할 수 있다. 프로세서(301)는 상기 비율들의 평균값을 산출할 수 있다. 상기 비율들의 상기 평균값은 상기 제2 에너지 비율이다. 프로세서(301)는 상기 130개 스펙트럼 포락선 중에서 P3개 스펙트럼 포락선을 선택하고, 상기 P3개 스펙트럼 포락선의 에너지 합계가 상기 오디오 프레임의 상기 총 에너지에서 차지하는 비율을 산출할 수 있다. 프로세서(301)는 상기 N개 오디오 프레임 각각에 대해 전술한 프로세스를 실행하고, 즉, 상기 N개 오디오 프레임 각각의 상기 P3개 스펙트럼 포락선의 에너지 합계가 상기 각각의 총 에너지에서 차지하는 비율을 산출할 수 있다. 프로세서(301)는 상기 비율들의 평균값을 산출할 수 있다. 상기 비율들의 상기 평균값은 상기 제3 에너지 비율이다. 상기 제2 에너지 비율이 상기 제7 사전 설정 값보다 크고 상기 제3 에너지 비율이 상기 제8 사전 설정 값보다 클 때, 프로세서(301)는 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정할 수 있다. 상기 제2 에너지 비율이 상기 제9 사전 설정 값보다 클 때, 프로세서(301)는 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정할 수 있다. 상기 제3 에너지 비율이 상기 제10 사전 설정 값보다 작을 때, 프로세서(301)는 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제2 인코딩 방법을 이용하기로 결정할 수 있다. 상기 P2개 스펙트럼 포락선은 상기 P개 스펙트럼 포락선 중 최대 에너지를 갖는 P2개 스펙트럼 포락선일 수 있고; 상기 P3개 스펙트럼 포락선은 상기 P개 스펙트럼 포락선 중 최대 에너지를 갖는 P3개 스펙트럼 포락선일 수 있다. 임의적으로, 일 실시예에서, P2의 값은 30일 수 있고, P3의 값은 30일 수 있다.
임의적으로, 또 다른 실시예에서, 상기 현재 오디오 프레임에 대해 상기 버스트 희소성을 이용하여 적절한 인코딩 방법이 선택될 수 있다. 상기 버스트 희소성으로는, 오디오 프레임의 에너지의, 스펙트럼상의 분포의 전역 희소성, 국부 희소성, 및 단시간 버스트성이 고려될 필요가 있다. 이 경우, 상기 스펙트럼상의 상기 에너지의 상기 분포의 희소성은 상기 스펙트럼상의 상기 에너지의 분포의 전역 희소성, 국부 희소성, 및 단시간 버스트성을 포함할 수 있다. 이 경우, N의 값은 1일 수 있고, 상기 N개 오디오 프레임은 상기 현재 오디오 프레임이다. 프로세서(301)는 구체적으로 상기 현재 오디오 프레임의 스펙트럼을 Q개 부대역으로 나누고, 상기 현재 오디오 프레임의 상기 스펙트럼의 상기 Q개 부대역 각각의 피크 에너지에 따라 버스트 희소성 파라미터를 결정하도록 구성되고, 여기서 상기 버스트 희소성 파라미터는 상기 현재 오디오 프레임의 전역 희소성, 국부 희소성, 및 단시간 버스트성을 지시하는 데 이용된다.
구체적으로, 프로세서(301)는 구체적으로 상기 Q개 부대역 각각의 전역 피크 대 평균 비율, 상기 Q개 부대역 각각의 국부 피크 대 평균 비율, 및 상기 Q개 부대역 각각의 단시간 에너지 변동을 결정하도록 구성되고, 여기서 상기 전역 피크 대 평균 비율은 프로세서(301)에 의해 상기 부대역에서의 상기 피크 에너지 및 상기 현재 오디오 프레임의 모든 부대역의 평균 에너지에 따라 결정되고, 상기 국부 피크 대 평균 비율은 프로세서(301)에 의해 상기 부대역에서의 상기 피크 에너지 및 상기 부대역에서의 평균 에너지에 따라 결정되고, 상기 단시간 피크 에너지 변동은 상기 부대역에서의 상기 피크 에너지 및 상기 오디오 프레임 전의 오디오 프레임의 특정 주파수 대역에서의 피크 에너지에 따라 결정된다. 상기 Q개 부대역 각각의 상기 전역 피크 대 평균 비율, 상기 Q개 부대역 각각의 상기 국부 피크 대 평균 비율, 및 상기 Q개 부대역 각각의 상기 단시간 에너지 변동은 각각 상기 전역 희소성, 상기 국부 희소성, 및 상기 단시간 버스트성을 나타낸다. 프로세서(301)는 구체적으로: 상기 Q개 부대역 중에 제1 부대역이 있는지를 결정하고 - 여기서 상기 제1 부대역의 국부 피크 대 평균 비율은 제11 사전 설정 값보다 크고, 상기 제1 부대역의 전역 피크 대 평균 비율은 제12 사전 설정 값보다 크고, 상기 제1 부대역의 단시간 피크 에너지 변동은 제13 사전 설정 값보다 큼 -; 상기 Q개 부대역 중에 상기 제1 부대역이 있을 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정하도록 구성된다.
구체적으로, 프로세서(301)는 이하의 공식을 이용하여 상기 전역 피크 대 평균 비율을 산출할 수 있다:
Figure pat00012
공식 1.7
여기서 e(i)는 상기 Q개 부대역 중 i번째 부대역의 피크 에너지를 나타내고, s(k)는 상기 P개 스펙트럼 포락선 중 k번째 스펙트럼 포락선의 에너지를 나타내고, p2s(i)는 상기 i번째 부대역의 전역 피크 대 평균 비율을 나타낸다.
프로세서(301)는 이하의 공식을 이용하여 상기 국부 피크 대 평균 비율을 산출할 수 있다:
Figure pat00013
공식 1.8
여기서 e(i)는 상기 Q개 부대역 중 상기 i번째 부대역의 상기 피크 에너지를 나타내고, s(k)는 상기 P개 스펙트럼 포락선 중 상기 k번째 스펙트럼 포락선의 상기 에너지를 나타내고, h(i)는 상기 i번째 부대역에 포함되는 그리고 가장 높은 주파수를 갖는 스펙트럼 포락선의 인덱스를 나타내고, l(i)은 상기 i번째 부대역에 포함되는 그리고 가장 낮은 주파수를 갖는 스펙트럼 포락선의 인덱스를 나타내고, p2a(i)는 상기 i번째 부대역의 국부 피크 대 평균 비율을 나타내고, h(i)는 P-1 이하이다.
프로세서(301)는 이하의 공식을 이용하여 상기 단시간 피크 에너지 변동을 산출할 수 있다:
Figure pat00014
공식 1.9
여기서 e(i)는 상기 현재 오디오 프레임의 상기 Q개 부대역 중 상기 i번째 부대역의 상기 피크 에너지를 나타내고, e1 및 e2는 상기 현재 오디오 프레임 전의 오디오 프레임들의 특정 주파수 대역들의 피크 에너지를 나타낸다. 구체적으로, 상기 현재 오디오 프레임이 M번째 오디오 프레임이라고 가정하여, 상기 현재 오디오 프레임의 상기 i번째 부대역의 피크 에너지가 위치하는 스펙트럼 포락선이 결정된다. 상기 피크 에너지가 위치하는 상기 스펙트럼 포락선이 i1이라고 가정한다. (M-1)번째 오디오 프레임에서의 (i1-t)번째 스펙트럼 포락선 내지 (i1+t)번째 스펙트럼 포락선의 범위 내의 피크 에너지가 결정되고, 상기 피크 에너지는 e1이다. 유사하게, (M-2)번째 오디오 프레임에서의 (i1-t)번째 스펙트럼 포락선 내지 (i1+t)번째 스펙트럼 포락선의 범위 내의 피크 에너지가 결정되고, 상기 피크 에너지는 e2이다.
이 기술분야의 통상의 기술자는 상기 제11 사전 설정 값, 상기 제12 사전 설정 값, 및 상기 제13 사전 설정 값은 시뮬레이션 실험에 따라 결정될 수 있다는 것을 이해할 수 있다. 적절한 사전 설정 값들이 시뮬레이션 실험에 의해 결정될 수 있고, 따라서 전술한 조건을 만족시키는 오디오 프레임이 상기 제1 인코딩 방법을 이용하여 인코딩될 때 양호한 인코딩 효과가 획득될 수 있다.
임의적으로, 또 다른 실시예에서, 상기 현재 오디오 프레임에 대해 상기 대역 제한 희소성을 이용하여 적절한 인코딩 방법이 선택될 수 있다. 이 경우, 상기 스펙트럼상의 상기 에너지의 상기 분포의 희소성은 상기 스펙트럼상의 상기 에너지의 대역 제한 분포의 희소성을 포함한다 . 이 경우, 프로세서(301)는 구체적으로 상기 N개 오디오 프레임 각각의 경계 주파수를 결정하도록 구성된다. 프로세서(301)는 구체적으로 상기 N개 오디오 프레임 각각의 상기 경계 주파수에 따라 대역 제한 희소성 파라미터를 결정하도록 구성된다.
이 기술분야의 통상의 기술자는 상기 제4 사전 설정 비율 및 상기 제14 사전 설정 값은 시뮬레이션 실험에 따라 결정될 수 있다는 것을 이해할 수 있다. 적절한 사전 설정 값 및 사전 설정 비율이 시뮬레이션 실험에 따라 결정될 수 있고, 따라서 전술한 조건을 만족시키는 오디오 프레임이 상기 제1 인코딩 방법을 이용하여 인코딩될 때 양호한 인코딩 효과가 획득될 수 있다.
예를 들어, 프로세서(301)는 상기 현재 오디오 프레임의 P개 스펙트럼 포락선 각각의 에너지를 결정하고, 저주파수에서 고주파수까지 경계 주파수를, 상기 경계 주파수보다 작은 에너지가 상기 현재 오디오 프레임의 총 에너지에서 차지하는 비율이 상기 제4 사전 설정 비율인 방식으로 검색할 수 있다. 상기 대역 제한 희소성 파라미터는 상기 N개 오디오 프레임의 상기 경계 주파수들의 평균값일 수 있다. 이 경우, 프로세서(301)는 구체적으로: 상기 오디오 프레임들의 상기 대역 제한 희소성 파라미터가 제14 사전 설정 값보다 작다고 결정될 때, 상기 현재 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정하도록 구성된다. N이 1이라고 가정하여, 상기 현재 오디오 프레임의 상기 경계 주파수는 상기 대역 제한 희소성 파라미터이다. N이 1보다 큰 정수라고 가정하여, 프로세서(301)는 상기 N개 오디오 프레임의 상기 경계 주파수들의 상기 평균값은 상기 대역 제한 희소성 파라미터라고 결정할 수 있다. 이 기술분야의 통상의 기술자는 위에 언급한 상기 경계 주파수 결정은 예에 불과하다는 것을 이해할 수 있다. 대안적으로, 상기 경계 주파수 결정 방법은 고주파수에서 저주파수까지 경계 주파수를 검색할 수 있거나 또는 또 다른 방법일 수 있다.
또한, 상기 제1 인코딩 방법과 상기 제2 인코딩 방법 간의 빈번한 스위칭을 피하기 위해, 프로세서(301)는 행오버 구간을 설정하도록 추가로 구성될 수 있다. 프로세서(301)는: 상기 행오버 구간에서의 오디오 프레임에 대해서는, 상기 행오버 구간의 시작 위치에서의 오디오 프레임에 대해 이용되는 인코딩 방법을 이용하도록 구성될 수 있다. 이렇게 하여, 상이한 인코딩 방법들 간의 빈번한 스위칭에 의해 야기되는 스위칭 품질 저하를 피할 수 있다.
상기 행오버 구간의 행오버 길이가 L이면, 프로세서(301)는 상기 현재 오디오 프레임 후의 L개 오디오 프레임이 모두 상기 현재 오디오 프레임의 행오버 구간에 속한다고 결정하도록 구성될 수 있다. 상기 행오버 구간에 속하는 오디오 프레임의 에너지의, 스펙트럼상의 분포의 희소성이 상기 행오버 구간의 시작 위치에서의 오디오 프레임의 에너지의, 스펙트럼상의 분포의 희소성과 상이하면, 프로세서(301)는 상기 오디오 프레임은 여전히 상기 행오버 구간의 상기 시작 위치에서의 상기 오디오 프레임에 대해 이용되는 것과 동일한 인코딩 방법을 이용하여 인코딩된다고 결정하도록 구성될 수 있다.
상기 행오버 구간 길이가 0일 때까지, 상기 행오버 구간 길이는 상기 행오버 구간에서의 오디오 프레임의 에너지의, 스펙트럼상의 분포의 희소성에 따라 업데이트될 수 있다.
예를 들어, 프로세서(301)가 I번째 오디오 프레임에 대해 상기 제1 인코딩 방법을 이용하기로 결정하고 사전 설정 행오버 구간의 길이가 L이면, 프로세서(301)는 (I+1)번째 오디오 프레임 내지 (I+L)번째 오디오 프레임에 대해 상기 제1 인코딩 방법이 이용된다고 결정할 수 있다. 그 후, 프로세서(301)는 상기 (I+1)번째 오디오 프레임의 에너지의, 스펙트럼상의 분포의 희소성을 결정하고, 상기 (I+1)번째 오디오 프레임의 상기 에너지의, 상기 스펙트럼상의 상기 분포의 희소성에 따라 상기 행오버 구간을 재산출할 수 있다. 상기 (I+1)번째 오디오 프레임이 상기 제1 인코딩 방법을 이용하는 조건을 여전히 만족시키면, 프로세서(301)는 후속의 행오버 구간은 여전히 상기 사전 설정 행오버 구간 L이라고 결정할 수 있다. 즉, 상기 행오버 구간은 (L+2)번째 오디오 프레임에서 시작하여 (I+1+L)번째 오디오 프레임까지 이어진다. 상기 (I+1)번째 오디오 프레임이 상기 제1 인코딩 방법을 이용하는 상기 조건을 만족시키지 않으면, 프로세서(301)는 상기 (I+1)번째 오디오 프레임의 상기 에너지의, 상기 스펙트럼상의 상기 분포의 희소성에 따라 상기 행오버 구간을 재결정할 수 있다. 예를 들어, 프로세서(301)는 상기 행오버 구간은 L-L1이라고 재결정할 수 있고, 여기서 L1은 L 이하의 양의 정수이다. L1이 L과 같으면, 상기 행오버 구간 길이는 0으로 업데이트된다. 이 경우, 프로세서(301)는 상기 (I+1)번째 오디오 프레임의 상기 에너지의, 상기 스펙트럼상의 상기 분포의 희소성에 따라 상기 인코딩 방법을 재결정할 수 있다. L1이 L보다 작은 정수이면, 프로세서(301)는 (I+1+L-L1)번째 오디오 프레임의 에너지의, 스펙트럼상의 분포의 희소성에 따라 상기 인코딩 방법을 재결정할 수 있다. 그러나, 상기 (I+1)번째 오디오 프레임은 상기 I번째 오디오 프레임의 행오버 구간에 있기 때문에, 상기 (I+1)번째 오디오 프레임은 여전히 상기 제1 인코딩 방법을 이용하여 인코딩된다. L1은 행오버 업데이트 파라미터로 지칭될 수 있고, 상기 행오버 업데이트 파라미터의 값은 입력 오디오 프레임의 에너지의, 스펙트럼상의 분포의 희소성에 따라 결정될 수 있다. 이렇게 하여, 행오버 구간 업데이트는 오디오 프레임의 에너지의, 스펙트럼상의 분포의 희소성에 관련된다.
예를 들어, 일반 희소성 파라미터가 결정되고 상기 일반 희소성 파라미터가 제1 최소 대역폭일 때, 프로세서(301)는 오디오 프레임의 제1 사전 설정 비율 에너지의, 스펙트럼상에 분포된 최소 대역폭에 따라 상기 행오버 구간을 재결정할 수 있다. 상기 I번째 오디오 프레임을 인코딩하기 위해 상기 제1 인코딩 방법을 이용하기로 결정되고, 사전 설정 행오버 구간이 L이라고 가정한다. 프로세서(301)는 상기 (I+1)번째 오디오 프레임을 포함하는 H개 연속 오디오 프레임 각각의 제1 사전 설정 비율 에너지의, 스펙트럼상에 분포된 최소 대역폭을 결정할 수 있고, 여기서 H는 0보다 큰 양의 정수이다. 상기 (I+1)번째 오디오 프레임이 상기 제1 인코딩 방법을 이용하는 상기 조건을 만족시키지 않으면, 프로세서(301)는 제1 사전 설정 비율 에너지의, 스펙트럼상에 분포된 최소 대역폭들이 제15 사전 설정 값보다 작은 오디오 프레임들의 수량을 결정할 수 있다(상기 수량은 간단히 제1 행오버 파라미터로 지칭된다). (L+1)번째 오디오 프레임의 제1 사전 설정 비율 에너지의, 스펙트럼상에 분포된 최소 대역폭이 제16 사전 설정 값보다는 크고 제17 사전 설정 값보다는 작고, 상기 제1 행오버 파라미터가 제18 사전 설정 값보다 작을 때, 프로세서(301)는 상기 행오버 구간 길이를 1 감산할 수 있고, 즉, 상기 행오버 업데이트 파라미터는 1이다. 상기 제16 사전 설정 값은 상기 제1 사전 설정 값보다 크다. 상기 (L+1)번째 오디오 프레임의 상기 제1 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭이 상기 제17 사전 설정 값보다는 크고 제19 사전 설정 값보다는 작고, 상기 제1 행오버 파라미터가 상기 제18 사전 설정 값보다 작을 때, 프로세서(301)는 상기 행오버 구간 길이를 2 감산할 수 있고, 즉, 상기 행오버 업데이트 파라미터는 2이다. 상기 (L+1)번째 오디오 프레임의 상기 제1 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭이 상기 제19 사전 설정 값보다 클 때, 프로세서(301)는 상기 행오버 구간을 0으로 설정할 수 있다. 상기 제1 행오버 파라미터 및 상기 (L+1)번째 오디오 프레임의 상기 제1 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 상기 최소 대역폭이 상기 제16 사전 설정 값 내지 상기 제19 사전 설정 값 중 하나 이상을 만족시키지 않을 때, 프로세서(301)는 상기 행오버 구간은 불변으로 유지된다고 결정할 수 있다.
이 기술분야의 통상의 기술자는 상기 사전 설정 행오버 구간이 실제 상황에 따라 설정될 수 있고, 상기 행오버 업데이트 파라미터도 실제 상황에 따라 조정될 수 있다는 것을 이해할 수 있다. 상기 제15 사전 설정 값 내지 상기 제19 사전 설정 값은 실제 상황에 따라 조정될 수 있고, 따라서 상이한 행오버 구간들이 설정될 수 있다.
유사하게, 상기 일반 희소성 파라미터가 제2 최소 대역폭 및 제3 최소 대역폭을 포함하거나, 또는 상기 일반 희소성 파라미터가 제1 에너지 비율을 포함하거나, 또는 상기 일반 희소성 파라미터가 제2 에너지 비율 및 제3 에너지 비율을 포함할 때, 프로세서(301)는 대응하는 사전 설정 행오버 구간, 대응하는 행오버 업데이트 파라미터, 및 상기 행오버 업데이트 파라미터를 결정하는 데 이용되는 관련 파라미터를, 대응하는 행오버 구간이 결정될 수 있고, 인코딩 방법들 간의 빈번한 스위칭이 피해지도록 설정할 수 있다.
상기 인코딩 방법이 상기 버스트 희소성에 따라 결정될 때(즉, 상기 인코딩 방법이 오디오 프레임의 에너지의, 스펙트럼상의 분포의 전역 희소성, 국부 희소성, 및 단시간 버스트성에 따라 결정될 때), 프로세서(301)는 대응하는 행오버 구간, 대응하는 행오버 업데이트 파라미터, 및 상기 행오버 업데이트 파라미터를 결정하는 데 이용되는 관련 파라미터를, 인코딩 방법들 간의 빈번한 스위칭을 피하도록 설정할 수 있다. 이 경우, 상기 행오버 구간은 상기 일반 희소성 파라미터의 경우에 설정되는 상기 행오버 구간보다 작을 수 있다.
상기 인코딩 방법이 스펙트럼상의 에너지의 분포의 대역 제한 특성에 따라 결정될 때, 프로세서(301)는 대응하는 행오버 구간, 대응하는 행오버 업데이트 파라미터, 및 상기 행오버 업데이트 파라미터를 결정하는 데 이용되는 관련 파라미터를, 인코딩 방법들 간의 빈번한 스위칭을 피하도록 설정할 수 있다. 예를 들어, 프로세서(301)는 입력 오디오 프레임의 낮은 스펙트럼 포락선의 에너지 대 모든 스펙트럼 포락선의 에너지의 비율을 산출하고, 상기 비율에 따라 상기 행오버 업데이트 파라미터를 결정할 수 있다. 구체적으로, 프로세서(301)는 상기 낮은 스펙트럼 포락선의 에너지 대 모든 스펙트럼 포락선의 에너지의 상기 비율을 이하의 공식을 이용하여 결정할 수 있다:
Figure pat00015
공식 1.10
여기서 Rlow은 상기 낮은 스펙트럼 포락선의 에너지 대 모든 스펙트럼 포락선의 에너지의 상기 비율을 나타내고, s(k)는 k번째 스펙트럼 포락선의 에너지를 나타내고, y는 저주파수 대역의 가장 높은 스펙트럼 포락선의 인덱스를 나타내고, P는 상기 오디오 프레임이 총 P개 스펙트럼 포락선으로 나누어지는 것을 지시한다. 이 경우, Rlow이 제20 사전 설정 값보다 크면, 상기 행오버 업데이트 파라미터는 0이다. Rlow이 제21 사전 설정 값보다 크면, 상기 행오버 업데이트 파라미터는 비교적 작은 값을 가질 수 있고, 여기서 상기 제20 사전 설정 값은 상기 제21 사전 설정 값보다 크다. Rlow이 상기 제21 사전 설정 값보다 크지 않으면, 상기 행오버 파라미터는 비교적 큰 값을 가질 수 있다. 이 기술분야의 통상의 기술자는 상기 제20 사전 설정 값 및 상기 제21 사전 설정 값은 시뮬레이션 실험에 따라 결정될 수 있고, 상기 행오버 업데이트 파라미터의 값도 실험에 따라 결정될 수 있다는 것을 이해할 수 있다.
게다가, 상기 인코딩 방법이 스펙트럼상의 에너지의 분포의 대역 제한 특성에 따라 결정될 때, 프로세서(301)는 추가로 입력 오디오 프레임의 경계 주파수를 결정하고, 상기 경계 주파수에 따라 상기 행오버 업데이트 파라미터를 결정할 수 있고, 여기서 상기 경계 주파수는 대역 제한 희소성 파라미터를 결정하는 데 사용되는 경계 주파수와는 상이할 수 있다. 상기 경계 주파수가 제22 사전 설정 값보다 작으면, 프로세서(301)는 상기 행오버 업데이트 파라미터는 0이라고 결정할 수 있다. 상기 경계 주파수가 제23 사전 설정 값보다 작으면, 프로세서(301)는 상기 행오버 업데이트 파라미터는 비교적 작은 값을 갖는다고 결정할 수 있다. 상기 경계 주파수가 상기 제23 사전 설정 값보다 크면, 프로세서(301)는 상기 행오버 업데이트 파라미터는 비교적 큰 값을 가질 수 있다고 결정할 수 있다. 이 기술분야의 통상의 기술자는 상기 제22 사전 설정 값 및 상기 제23 사전 설정 값은 시뮬레이션 실험에 따라 결정될 수 있고, 상기 행오버 업데이트 파라미터의 값도 실험에 따라 결정될 수 있다는 것을 이해할 수 있다.
본 기술분야의 통상의 기술자는 본 명세서에 개시된 실시예들에서 설명되는 예들과 조합하여, 유닛들 및 알고리즘 단계들이 전자 하드웨어 또는 컴퓨터 소프트웨어와 전자 하드웨어의 조합에 의해 구현될 수 있다는 점을 알 수 있을 것이다. 기능들이 하드웨어에 의해 수행되는지 소프트웨어에 의해 수행되는지는 특정 응용들 및 기술적 해결 방안들의 설계 제약에 의존한다. 본 기술분야의 통상의 기술자는 각각의 특정 응용들에 대해 설명되는 기능들을 구현하기 위해 상이한 방법들을 이용할 수 있지만, 이러한 구현이 본 발명의 범위를 넘는 것이라고 간주되어서는 안 된다.
편리하고 간략한 설명을 위해, 전술한 시스템, 장치, 및 유닛의 상세한 작업 프로세스에 대해서는, 전술한 방법 실시예들의 대응하는 프로세스가 참조될 수 있고, 세부 사항들이 본 명세서에서 설명되지 않는다는 것을 본 기술분야의 통상의 기술자는 명백히 이해할 수 있다.
본 출원에서 제공된 여러 실시예들에서, 개시된 시스템, 장치, 및 방법은 다른 방식들로 구현될 수 있다는 것을 이해하여야 한다. 예를 들어, 설명되는 장치 실시예는 예시적일 뿐이다. 예를 들어, 유닛 분할은 논리적 기능 분할일 뿐이며, 실제 구현에서는 다른 분할일 수 있다. 예를 들어, 복수의 유닛들 또는 컴포넌트들이 또 다른 시스템에 결합 또는 통합될 수 있거나, 일부 특징들이 무시되거나 수행되지 않을 수 있다. 또한, 표시되거나 논의된 상호 결합들 또는 직접 결합들 또는 통신 접속들은 일부 인터페이스들을 통해 구현될 수 있다. 장치들 또는 유닛들 사이의 간접 결합들 또는 통신 접속들은 전자적, 기계적, 또는 다른 형태들로 구현될 수 있다.
개별적인 부분들로서 설명된 유닛들은 물리적으로 분리되어 있을 수 있거나 그렇지 않을 수 있고, 유닛들로서 표시된 부분들은 물리적 유닛들일 수 있거나 그렇지 않을 수 있거나, 하나의 위치에 위치하거나, 복수의 네트워크 유닛들에 분산되어 있을 수 있다. 유닛들의 일부 또는 모두는 실시예들의 해결 방안들의 목적들을 달성하기 위한 실제 필요에 따라 선택될 수 있다.
또한, 본 발명의 실시예들에서의 기능 유닛들은 하나의 처리 유닛으로 통합될 수 있거나, 또는 이러한 유닛들 각각은 물리적으로 단독으로 존재할 수 있거나, 또는 두 개 이상의 유닛이 하나의 유닛으로 통합된다.
기능들이 소프트웨어 기능 유닛의 형태로 구현되고 독립된 제품으로서 판매되거나 사용될 때, 기능들은 컴퓨터 판독가능 저장 매체 내에 저장될 수 있다. 이러한 이해에 기초하여, 본질적으로 본 발명의 기술적 해결 방안들, 또는 선행 기술에 기여하는 부분, 또는 기술적 해결 방안들의 일부가 소프트웨어 제품의 형태로 구현될 수 있다. 소프트웨어 제품은 저장 매체에 저장되고, 본 발명의 실시예들에 설명된 방법들의 단계들의 전부 또는 일부를 수행하도록 컴퓨터 디바이스(개인용 컴퓨터, 서버, 또는 네트워크 디바이스일 수 있음) 또는 프로세서에 지시하기 위한 수 개의 명령어들을 포함한다. 전술한 저장 매체는, USB 플래시 드라이브, 이동식 하드 디스크, 판독 전용 메모리(ROM, Read-Only Memory), 랜덤 액세스 메모리(RAM, Random Access Memory), 자기 디스크, 또는 광 디스크와 같은, 프로그램 코드를 저장할 수 있는 임의의 매체를 포함한다.
전술한 설명들은 본 발명의 구체적인 실시예들에 지나지 않으며, 본 발명의 보호 범위를 한정하도록 의도된 것이 아니다. 본 발명에 개시된 기술 범위 내에서 본 기술분야의 통상의 기술자에 의해 용이하게 도출될 수 있는 임의의 변형 또는 대체는 본 발명의 보호 범위 내에 포함되어야 한다. 그러므로, 본 발명의 보호 범위는 청구항들의 보호 범위에 따라야 한다.

Claims (6)

  1. 오디오 인코딩 방법으로서,
    현재 오디오 프레임의 에너지 스펙트럼을 P개의 고속 푸리에 변환(FFT) 에너지 스펙트럼 계수로 나누는 단계 - P는 양의 정수임 -;
    제1 최소 대역폭을 결정하는 단계 - 상기 제1 최소 대역폭은 상기 현재 오디오 프레임의 에너지의, 상기 스펙트럼상의 분포의 희소성을 지시하고, 상기 제1 최소 대역폭을 결정하는 단계는 상기 현재 오디오 프레임의 상기 P개의 FFT 에너지 스펙트럼 계수의 에너지에 따라 상기 현재 오디오 프레임의 제1 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭을 결정하는 단계를 포함하고, 상기 현재 오디오 프레임의 제1 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭은 상기 제1 최소 대역폭임 -; 및
    상기 제1 최소 대역폭이 제1 사전 설정 값보다 클 때, 상기 현재 오디오 프레임을 인코딩하기 위해 선형 예측 기반 인코딩 방법(linear-production-based encoding method)을 이용하기로 결정하는 단계
    를 포함하는, 오디오 인코딩 방법.
  2. 제1항에 있어서,
    상기 현재 오디오 프레임의 상기 P개의 FFT 에너지 스펙트럼 계수의 에너지에 따라 상기 현재 오디오 프레임의 제1 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭을 결정하는 단계는
    상기 현재 오디오 프레임의 상기 P개의 FFT 에너지 스펙트럼 계수의 에너지를 내림차순으로 분류하는 단계;
    내림차순으로 상기 FFT 에너지 스펙트럼 계수에서의 주파수 빈들의 에너지를 순차적으로 누적하는 단계;
    각 회의 누적 후에 획득되는 에너지를 상기 오디오 프레임의 총 에너지와 비교하는 단계; 및
    비율이 상기 제1 사전 설정 비율보다 크면, 상기 누적 프로세스를 종료하는 단계
    를 포함하며, 누적 횟수는 상기 최소 대역폭인, 오디오 인코딩 방법.
  3. 제2항에 있어서, 상기 제1 최소 대역폭이 상기 제1 사전 설정 값보다 작을 때, 상기 현재 오디오 프레임을 인코딩하기 위해 시간-주파수 변환 및 변환 계수 양자화에 기초하고 선형 예측에 기초하지 않는 인코딩 방법을 이용하기로 결정하는 단계를 포함하는, 오디오 인코딩 방법.
  4. 장치로서,
    현재 오디오 프레임을 획득하도록 구성된 획득 유닛; 및
    현재 오디오 프레임의 에너지 스펙트럼을 P개의 고속 푸리에 변환(FFT) 에너지 스펙트럼 계수로 나누고, 제1 최소 대역폭을 결정하도록 구성된 결정 유닛 - P는 양의 정수임 -
    을 포함하고,
    상기 제1 최소 대역폭은 상기 현재 오디오 프레임의 에너지의, 상기 스펙트럼상의 분포의 희소성을 지시하고,
    상기 제1 최소 대역폭을 결정하기 위해, 상기 결정 유닛은 상기 현재 오디오 프레임의 상기 P개의 FFT 에너지 스펙트럼 계수의 에너지에 따라 상기 현재 오디오 프레임의 제1 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭을 결정하도록 구성되고, 상기 현재 오디오 프레임의 제1 사전 설정 비율 에너지의, 상기 스펙트럼상에 분포된 최소 대역폭은 상기 제1 최소 대역폭이고,
    상기 결정 유닛은 또한, 상기 제1 최소 대역폭이 제1 사전 설정 값보다 클 때, 상기 현재 오디오 프레임을 인코딩하기 위해 선형 예측 기반 인코딩 방법(linear-production-based encoding method)을 이용하기로 결정하도록 구성되는, 장치.
  5. 제4항에 있어서,
    상기 결정 유닛은 특히
    상기 현재 오디오 프레임의 상기 P개의 FFT 에너지 스펙트럼 계수의 에너지를 내림차순으로 분류하고;
    내림차순으로 상기 FFT 에너지 스펙트럼 계수에서의 주파수 빈들의 에너지를 순차적으로 누적하고;
    각 회의 누적 후에 획득되는 에너지를 상기 오디오 프레임의 총 에너지와 비교하고;
    비율이 상기 제1 사전 설정 비율보다 크면, 상기 누적 프로세스를 종료하도록
    구성되고,
    누적 횟수는 상기 최소 대역폭인, 장치.
  6. 제5항에 있어서, 상기 결정 유닛은 또한, 상기 제1 최소 대역폭이 상기 제1 사전 설정 값보다 작을 때, 상기 현재 오디오 프레임을 인코딩하기 위해 시간-주파수 변환 및 변환 계수 양자화에 기초하고 선형 예측에 기초하지 않는 인코딩 방법을 이용하기로 결정하도록 구성되는, 장치.
KR1020197007222A 2014-06-24 2015-06-23 오디오 코딩 방법 및 장치 KR102051928B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201410288983.3 2014-06-24
CN201410288983.3A CN105336338B (zh) 2014-06-24 2014-06-24 音频编码方法和装置
PCT/CN2015/082076 WO2015196968A1 (zh) 2014-06-24 2015-06-23 音频编码方法和装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020167036467A Division KR101960152B1 (ko) 2014-06-24 2015-06-23 오디오 코딩 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20190029778A true KR20190029778A (ko) 2019-03-20
KR102051928B1 KR102051928B1 (ko) 2019-12-04

Family

ID=54936800

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020197007222A KR102051928B1 (ko) 2014-06-24 2015-06-23 오디오 코딩 방법 및 장치
KR1020167036467A KR101960152B1 (ko) 2014-06-24 2015-06-23 오디오 코딩 방법 및 장치

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020167036467A KR101960152B1 (ko) 2014-06-24 2015-06-23 오디오 코딩 방법 및 장치

Country Status (17)

Country Link
US (3) US9761239B2 (ko)
EP (2) EP3460794B1 (ko)
JP (1) JP6426211B2 (ko)
KR (2) KR102051928B1 (ko)
CN (3) CN107424622B (ko)
AU (2) AU2015281506B2 (ko)
BR (1) BR112016029380B1 (ko)
CA (1) CA2951593C (ko)
DK (1) DK3460794T3 (ko)
ES (2) ES2703199T3 (ko)
HK (1) HK1220542A1 (ko)
MX (1) MX361248B (ko)
MY (1) MY173129A (ko)
PT (1) PT3144933T (ko)
RU (1) RU2667380C2 (ko)
SG (1) SG11201610302TA (ko)
WO (1) WO2015196968A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107424622B (zh) * 2014-06-24 2020-12-25 华为技术有限公司 音频编码方法和装置
CN111739543B (zh) * 2020-05-25 2023-05-23 杭州涂鸦信息技术有限公司 音频编码方法的调试方法及其相关装置
CN113948085B (zh) * 2021-12-22 2022-03-25 中国科学院自动化研究所 语音识别方法、系统、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008045846A1 (en) * 2006-10-10 2008-04-17 Qualcomm Incorporated Method and apparatus for encoding and decoding audio signals
WO2012024379A2 (en) * 2010-08-17 2012-02-23 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
KR20130108391A (ko) * 2010-10-25 2013-10-02 퀄컴 인코포레이티드 다중 채널 오디오 신호를 분해하는 방법, 장치 및 머신 판독가능 저장 매체

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI101439B1 (fi) * 1995-04-13 1998-06-15 Nokia Telecommunications Oy Transkooderi, jossa on tandem-koodauksen esto
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
ES2247741T3 (es) * 1998-01-22 2006-03-01 Deutsche Telekom Ag Metodo para conmutacion controlada por señales entre esquemas de codificacion de audio.
US7139700B1 (en) * 1999-09-22 2006-11-21 Texas Instruments Incorporated Hybrid speech coding and system
US6901362B1 (en) * 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US6647366B2 (en) * 2001-12-28 2003-11-11 Microsoft Corporation Rate control strategies for speech and music coding
WO2004082288A1 (en) * 2003-03-11 2004-09-23 Nokia Corporation Switching between coding schemes
US20050096898A1 (en) * 2003-10-29 2005-05-05 Manoj Singhal Classification of speech and music using sub-band energy
FI118835B (fi) 2004-02-23 2008-03-31 Nokia Corp Koodausmallin valinta
FI118834B (fi) * 2004-02-23 2008-03-31 Nokia Corp Audiosignaalien luokittelu
GB0408856D0 (en) * 2004-04-21 2004-05-26 Nokia Corp Signal encoding
US7739120B2 (en) * 2004-05-17 2010-06-15 Nokia Corporation Selection of coding models for encoding an audio signal
RU2376657C2 (ru) * 2005-04-01 2009-12-20 Квэлкомм Инкорпорейтед Системы, способы и устройства для высокополосного предыскажения шкалы времени
TWI317933B (en) 2005-04-22 2009-12-01 Qualcomm Inc Methods, data storage medium,apparatus of signal processing,and cellular telephone including the same
DE102005046993B3 (de) 2005-09-30 2007-02-22 Infineon Technologies Ag Vorrichtung und Verfahren zum Erzeugen eines Leistungssignals aus einem Laststrom
US8015000B2 (en) * 2006-08-03 2011-09-06 Broadcom Corporation Classification-based frame loss concealment for audio signals
KR100964402B1 (ko) * 2006-12-14 2010-06-17 삼성전자주식회사 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치
CN101025918B (zh) * 2007-01-19 2011-06-29 清华大学 一种语音/音乐双模编解码无缝切换方法
KR101149449B1 (ko) * 2007-03-20 2012-05-25 삼성전자주식회사 오디오 신호의 인코딩 방법 및 장치, 그리고 오디오 신호의디코딩 방법 및 장치
JP5156260B2 (ja) * 2007-04-27 2013-03-06 ニュアンス コミュニケーションズ,インコーポレイテッド 雑音を除去して目的音を抽出する方法、前処理部、音声認識システムおよびプログラム
KR100925256B1 (ko) * 2007-05-03 2009-11-05 인하대학교 산학협력단 음성 및 음악을 실시간으로 분류하는 방법
JP5108960B2 (ja) * 2008-03-04 2012-12-26 エルジー エレクトロニクス インコーポレイティド オーディオ信号処理方法及び装置
EP2139000B1 (en) * 2008-06-25 2011-05-25 Thomson Licensing Method and apparatus for encoding or decoding a speech and/or non-speech audio input signal
US8380523B2 (en) * 2008-07-07 2013-02-19 Lg Electronics Inc. Method and an apparatus for processing an audio signal
ES2684297T3 (es) * 2008-07-11 2018-10-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Método y discriminador para clasificar diferentes segmentos de una señal de audio que comprende segmentos de voz y música
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
US9037474B2 (en) * 2008-09-06 2015-05-19 Huawei Technologies Co., Ltd. Method for classifying audio signal into fast signal or slow signal
CN101615910B (zh) * 2009-05-31 2010-12-22 华为技术有限公司 压缩编码的方法、装置和设备以及压缩解码方法
US8606569B2 (en) * 2009-07-02 2013-12-10 Alon Konchitsky Automatic determination of multimedia and voice signals
CN102044244B (zh) * 2009-10-15 2011-11-16 华为技术有限公司 信号分类方法和装置
CN101800050B (zh) * 2010-02-03 2012-10-10 武汉大学 基于感知自适应比特分配的音频精细分级编码方法及系统
CN102959873A (zh) * 2010-07-05 2013-03-06 日本电信电话株式会社 编码方法、解码方法、装置、程序及记录介质
US8484023B2 (en) 2010-09-24 2013-07-09 Nuance Communications, Inc. Sparse representation features for speech recognition
BR112013026333B1 (pt) * 2011-04-28 2021-05-18 Telefonaktiebolaget L M Ericsson (Publ) método de classificação de sinal de áudio baseada em quadro, classificador de áudio, dispositivo de comunicação de áudio, e, disposição de codec de áudio
WO2013057895A1 (ja) 2011-10-19 2013-04-25 パナソニック株式会社 符号化装置及び符号化方法
US9111531B2 (en) * 2012-01-13 2015-08-18 Qualcomm Incorporated Multiple coding mode signal classification
CN102737647A (zh) * 2012-07-23 2012-10-17 武汉大学 双声道音频音质增强编解码方法及装置
CN103854653B (zh) * 2012-12-06 2016-12-28 华为技术有限公司 信号解码的方法和设备
CN103747237B (zh) * 2013-02-06 2015-04-29 华为技术有限公司 视频编码质量的评估方法及设备
CN103280221B (zh) 2013-05-09 2015-07-29 北京大学 一种基于基追踪的音频无损压缩编码、解码方法及系统
CN103778919B (zh) * 2014-01-21 2016-08-17 南京邮电大学 基于压缩感知和稀疏表示的语音编码方法
CN107424622B (zh) * 2014-06-24 2020-12-25 华为技术有限公司 音频编码方法和装置
CN104217730B (zh) * 2014-08-18 2017-07-21 大连理工大学 一种基于k‑svd的人工语音带宽扩展方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008045846A1 (en) * 2006-10-10 2008-04-17 Qualcomm Incorporated Method and apparatus for encoding and decoding audio signals
WO2012024379A2 (en) * 2010-08-17 2012-02-23 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
KR20130108391A (ko) * 2010-10-25 2013-10-02 퀄컴 인코포레이티드 다중 채널 오디오 신호를 분해하는 방법, 장치 및 머신 판독가능 저장 매체

Also Published As

Publication number Publication date
EP3144933A1 (en) 2017-03-22
CN107424622B (zh) 2020-12-25
JP6426211B2 (ja) 2018-11-21
DK3460794T3 (da) 2021-08-16
CN105336338A (zh) 2016-02-17
US11074922B2 (en) 2021-07-27
PT3144933T (pt) 2018-12-18
CA2951593A1 (en) 2015-12-30
KR102051928B1 (ko) 2019-12-04
AU2015281506A1 (en) 2017-01-05
US20170103768A1 (en) 2017-04-13
EP3460794A1 (en) 2019-03-27
SG11201610302TA (en) 2017-01-27
HK1220542A1 (zh) 2017-05-05
RU2017101813A3 (ko) 2018-07-27
CN107424621A (zh) 2017-12-01
KR20170015354A (ko) 2017-02-08
EP3144933B1 (en) 2018-09-26
US20170345436A1 (en) 2017-11-30
CN107424621B (zh) 2021-10-26
MY173129A (en) 2019-12-30
BR112016029380A2 (pt) 2017-08-22
US10347267B2 (en) 2019-07-09
CA2951593C (en) 2019-02-19
BR112016029380B1 (pt) 2020-10-13
MX2016016564A (es) 2017-04-25
WO2015196968A1 (zh) 2015-12-30
AU2018203619A1 (en) 2018-06-14
CN107424622A (zh) 2017-12-01
ES2883685T3 (es) 2021-12-09
EP3144933A4 (en) 2017-03-22
US20190311727A1 (en) 2019-10-10
AU2018203619B2 (en) 2020-02-13
RU2667380C2 (ru) 2018-09-19
US9761239B2 (en) 2017-09-12
MX361248B (es) 2018-11-30
RU2017101813A (ru) 2018-07-27
JP2017523455A (ja) 2017-08-17
AU2015281506B2 (en) 2018-02-22
EP3460794B1 (en) 2021-05-26
CN105336338B (zh) 2017-04-12
ES2703199T3 (es) 2019-03-07
KR101960152B1 (ko) 2019-03-19

Similar Documents

Publication Publication Date Title
JP6823121B2 (ja) 符号化装置および符号化方法
KR101602408B1 (ko) 오디오 신호 코딩 및 디코딩 방법 및 장치
US10600430B2 (en) Signal decoding method, audio signal decoder and non-transitory computer-readable medium
US11074922B2 (en) Hybrid encoding method and apparatus for encoding speech or non-speech frames using different coding algorithms
US10446159B2 (en) Speech/audio encoding apparatus and method thereof
EP3525206B1 (en) Encoding method and apparatus
EP2892052A1 (en) Bit allocation method and device for audio signal
EP2863388A1 (en) Bit allocation method and device for audio signal
KR20180069124A (ko) 신호 처리 방법 및 장치
EP3637417A1 (en) Signal processing method and device
EP3707713B1 (en) Controlling bandwidth in encoders and/or decoders

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant