KR101853352B1 - 정렬된 예견 부를 사용하여 오디오 신호를 인코딩하고 디코딩하기 위한 장치 및 방법 - Google Patents

정렬된 예견 부를 사용하여 오디오 신호를 인코딩하고 디코딩하기 위한 장치 및 방법 Download PDF

Info

Publication number
KR101853352B1
KR101853352B1 KR1020167007581A KR20167007581A KR101853352B1 KR 101853352 B1 KR101853352 B1 KR 101853352B1 KR 1020167007581 A KR1020167007581 A KR 1020167007581A KR 20167007581 A KR20167007581 A KR 20167007581A KR 101853352 B1 KR101853352 B1 KR 101853352B1
Authority
KR
South Korea
Prior art keywords
data
frame
window
transform
predictive coding
Prior art date
Application number
KR1020167007581A
Other languages
English (en)
Other versions
KR20160039297A (ko
Inventor
엠마뉘엘 라벨리
랄프 가이거
마르쿠스 슈넬
기욤 푹스
베사 루오필라
탐 벡스트룀
베른하트 그릴
크리스티안 헴리히
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20160039297A publication Critical patent/KR20160039297A/ko
Application granted granted Critical
Publication of KR101853352B1 publication Critical patent/KR101853352B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • G10L19/107Sparse pulse excitation, e.g. by using algebraic codebook
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/13Residual excited linear prediction [RELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Image Processing (AREA)

Abstract

오디오 샘플들(100)의 스트림을 갖는 오디오 신호를 인코딩하기 위한 장치는 예측 분석을 위한 윈도우잉된 데이터를 획득하기 위하여 예측 코딩 분석 윈도우(200)를 오디오 샘플들의 스트림에 적용하고 변환 분석을 위한 윈도우잉된 데이터를 획득하기 위하여 변환 코딩 분석 윈도우(204)를 오디오 샘플들의 스트림에 적용하기 위한 윈도우어(102)를 포함하되, 변환 코딩 분석 윈도우는 오디오 샘플들의 현재 프레임 내의 오디오 샘플들 및 변환 코딩 예견 부(206)인 오디오 샘플들의 미래 프레임의 미리 정의된 부분의 오디오 샘플들과 관련되고, 예측 코딩 분석 윈도우는 현재 프레임의 오디오 샘플들의 적어도 일부 및 예측 코딩 예견 부(208)인 미래 프레임의 미리 정의된 부분의 오디오 샘플들과 관련되며, 변환 코딩 예견 부(206) 및 예측 코딩 예견 부(208)는 서로 동일하거나 또는 예측 코딩 예견 부(208)의 20% 이하 또는 변환 코딩 예견 부(206)의 20% 이하에 의해 서로 다르며, 또한 예측 분석을 위한 윈도우잉된 데이터를 사용하여 현재 프레임을 위한 예측 코딩된 데이터를 발생시키거나 또는 변환 분석을 위한 윈도우잉된 데이터를 사용하여 현재 프레임을 위한 변환 코딩된 데이터를 발생시키기 위한 인코딩 프로세서(104)를 포함한다.

Description

정렬된 예견 부를 사용하여 오디오 신호를 인코딩하고 디코딩하기 위한 장치 및 방법{APPARATUS AND METHOD FOR ENCODING AND DECODING AN AUDIO SIGNAL USING AN ALIGNED LOOK-AHEAD PORTION}
본 발명은 오디오 코딩, 특히 저지연(low-delay) 적용들에 적합한, 전환된 오디오 인코더들 및 상응하게 제어되는 오디오 디코더들에 의존하는 오디오 코딩에 관한 것이다.
전환된 코더들에 의존하는 일부 오디오 코딩 개념들이 알려졌다. 잘 알려진 한가지 오디오 코딩 개념은 이른바 3GPP TS 26.290 B10.0.0 (2011-03)에서 설명된 것과 같은, 확장 적응성 멀티-레이트-광대역(Extended Adaptive Multi-rate-Wideband, AMR-WB+) 코덱이다. 확장 적응성 멀티-레이트-광대역 오디오 코덱은 확장 적응성 멀티-레이트-광대역 음성 코덱 방식들 1 내지 9 및 확장 적응성 멀티-레이트-광대역 유성음 활성 검출기(VAD)와 불연속 전송(Discontinuous Transmission, DTX)을 포함한다. 확장 적응성 멀티-레이트-광대역은 변환 코딩 여진(TCX), 대역폭 확장(BWE), 및 스테레오를 더함으로써 확장 적응성 멀티-레이트-광대역 코덱을 확장한다.
확장 적응성 멀티-레이트-광대역 오디오 코덱은 내부 샘플링 주파수(Fs)에서 2048 샘플들과 동일한 입력 프레임들을 처리한다. 내부 샘플링 주파수는 12,800 내지 38,400 ㎐의 범위 내에 한정된다. 2048 샘플 프레임들은 두 개의 임계적으로 샘플링된 동일한 주파수 대역으로 분할된다. 이는 저주파수(LF) 및 고주파수(HF) 대역과 상응하는 두 개의 1024 샘플의 수퍼프레임(superframe)을 야기한다. 각각의 수퍼프레임은 4개의 256-샘플 프레임으로 나눠진다. 내부 샘플링 레이트에서의 샘플링은 입력 신호를 재샘플링하는(re-sample), 다양한 샘플링 변환 계획의 사용에 의해 획득된다.
저주파수 및 고주파수 신호들은 그리고 나서 두 가지의 서로 다른 접근법을 사용하여 인코딩된다. 저주파수 신호는 전환된 대수 부호 여진 선형 예측(ACELP) 및 변환 코딩 여진을 기초로 하여, "코어(core)" 인코더/디코더를 사용하여 인코딩되고 디코딩된다. 대수 부호 여진 선형 예측 방식에서, 표준 확장 적응성 멀티-레이트-광대역 코덱이 사용된다. 고주파수 신호는 대역폭 확장(BWE) 방법을 사용하여 상대적으로 적은 비트들(16 비트/프레임)로 인코딩된다. 인코더로부터 디코더로 전송된 파라미터들은 방식-선택(mode-selection) 비트들, 저주파수 파라미터들 및 고주파수 파라미터들이다. 각각의 1024-샘플 수퍼프레임을 위한 파라미터들은 동일한 크기의 4개의 포켓(pocket)으로 분해된다. 입력 신호가 스테레오일 때, 왼쪽 및 오른쪽 채널들은 대수 부호 여진 선형 예측/변환 코딩 여진 인코딩을 위한 모노-신호들로 결합되고, 반면에 스테레오 인코딩은 입력 채널들 모두를 수신한다. 디코더 면 상에서, 저주파수 및 고주파수 대역들은 별도로 디코딩된다. 그리고 나서, 대역들은 합성 필터뱅크(synthesis filterbank) 내에 결합된다. 만일 출력이 모노로만 제한되면, 스테레오 파라미터들은 생략되고 디코더는 모노 방식으로 작동한다. 확장 적응성 멀티-레이트-광대역 코덱은 저주파수 신호를 인코딩할 때, 대수 부호 여진 선형 예측 및 변환 코딩 여진 방식 모두를 위한 선형 예측 분석을 적용한다. 선형 예측 계수들은 매 64-샘플 서브-프레임에서 선형으로 보간된다(interpolated). 선형 예측 분석 윈도우는 길이 384 샘플들의 반(half)-코사인이다. 코어 모노-신호를 인코딩하기 위하여, 각각의 프레임을 위하여 대수 부호 여진 선형 예측 또는 변환 코딩 여진 코딩이 사용된다. 코딩 방식은 폐쇄 루프 합성에 의한 분석(analysis-by-synthesis) 방법을 기초로 하여 선택된다. 256 샘플 프레임들만이 대수 부호 여진 선형 예측 프레임들을 위하여 고려되나, 256, 512 또는 1024 샘플들의 프레임들이 변환 코딩 여진 방식에서 가능하다.
확장 적응성 멀티-레이트-광대역에서 선형 예측 코딩(LPC)을 위하여 사용되는 윈도우가 도 5b에 도시된다. 20 ms의 예견(look-ahead)을 갖는 대칭의 선형 예측 코딩 분석 윈도우가 사용된다. 예견은 도 5b에 도시된 것과 같이, 500에 도시된 현재 프레임을 위한 선형 예측 코딩 분석 윈도우가 502에 의해 도시된 도 5b에서 0 및 20 ms 사이에 표시되는 현재 프레임 내에서 확장할 뿐만 아니라 20 및 40 ms 사이의 미래 프레임 내로 확장하는 것을 의미한다. 이는 이러한 선형 예측 코딩 분석 윈도우를 사용함으로써, 20 ms의 부가적인 지연, 즉, 전체 미래 프레임이 필요하다는 것을 의미한다. 따라서, 도 5b의 504에 표시되는 예견 부는 확장 적응성 멀티-레이트-광대역 인코더와 관련된 체계적인 지연에 기여한다. 바꾸어 말하면, 미래 프레임은 현재 프레임(502)을 위한 선형 예측 코딩 분석 계수들이 계산되도록 하기 위하여 완전히 이용할 수 있어야만 한다.
도 5a는 또 다른 인코더, 이른바 적응성 멀티-레이트-광대역 코더 및, 특히, 현재 프레임을 위한 분석 계수들을 계산하도록 사용되는 선형 예측 코딩 분석 윈도우를 도시한다. 다시, 현재 프레임은 0 및 20 ms 사이에서 확장하고 미래 프레임은 20 및 40 ms 사이에서 확장한다. 도 5b와 대조적으로, 적응성 멀티-레이트-광대역의 선형 예측 코딩 분석 윈도우는 5 ms만의 예견 부(508), 즉, 20 ms 및 25 ms 사이의 시간 거리만을 갖는다. 따라서 선형 예측 코딩 분석에 의해 도입되는 지연은 실질적으로 도 5a와 관련하여 감소된다. 그러나, 다른 한편으로, 선형 예측 코딩 계수들을 결정하기 위한 큰 예견 부, 즉, 선형 예측 코딩 분석 윈도우를 위한 큰 예견 부는 더 나은 선형 예측 코딩 계수들 및 따라서 잔류 신호 내의 작은 에너지 및 따라서 낮은 비트레이트를 야기하는 것이 알려졌는데, 그 이유는 선형 예측 코딩 예측이 오리지널 신호에 더 잘 맞기 때문이다.
도 5a 및 5b는 하나의 프레임을 위한 선형 예측 코딩 계수들을 결정하기 위한 단일 분석 윈도우를 갖는 인코더들에 관한 것이나, 도 5c는 G718 음성 코더를 위한 상황을 도시한다. G718 (06-2008) 규격은 전송 시스템들과 디지털 시스템들 및 네트워크에 관한 것이며, 특히 디지털 터미널 장비 및, 특히 그러한 장비를 위한 음성과 오디오 신호의 코딩을 설명한다. 특히, 이러한 표준은 권고 ITU-T G718에서 정의되는 것과 같이 8-32 kbit/s로부터의 음성 및 오디오의 강력한 협대역 및 광대역 내장 가변 비트레이트 코딩에 관한 것이다. 입력 신호는 20 ms 프레임들을 사용하여 처리된다. 코덱 지연은 입력 및 출력의 샘플링 레이트에 의존한다. 광대역 입력 및 광대역 출력을 위하여, 이러한 코딩의 전체 알고리즘 지연은 42,875 ms이다. 이는 상위 계층 변환 코딩의 오버랩-가산(overlap-add) 운용을 허용하기 위하여 하나의 20 ms 프레임, 입력 및 출력 재-샘플링 필터들의 1,875 지연, 인코더 예견을 위한 10 ms, 후필터링 지연의 1 ms 및 디코더에서의 10 ms로 구성된다. 협대역 입력 및 협대역 출력을 위하여, 상위 계층들은 사용되지 않으나, 프레임 제거들의 존재 하에서 코딩 성능을 향상시키고 음악 신호들을 위하여 10 ms 디코더 지연이 사용된다. 만일 입력이 계층 2로 한정되면, 코덱 지연은 10 ms 감소될 수 있다. 인코더의 설명은 다음과 같다. 하위 두 계층이 12.8 ㎑에서 샘플링되는 전-강조된(pre-emphasized) 신호에 적용되고, 상위 3 계층은 16 ㎑에서 샘플링된 입력 신호 도메인 내에서 운영한다. 코어 계층은 부호 여진 선형 예측(CELP) 기술을 기초로 하는데, 음성 신호는 스펙트럼 엔벨로프(spectrum envelope)를 표현하는 선형 예측 합성 필터를 통과한 여진 신호에 의해 모델링된다. 선형 예측 필터는 전환 예측(switched-predictive) 접근법 및 멀티-스테이지 벡터 양자화를 사용하여 이미턴스 스펙트럼 주파수(iimmittance spectral frequency, ISF) 도메인 내에서 양자화된다. 매끄러운 피치 윤곽을 보장하기 위하여 피치-추적(pitch-tracking) 알고리즘에 의해 개방 루프 피치 분석이 실행된다. 두 가지의 동시에 발생하는 피치 이볼루션(pitch evolution) 윤곽이 비교되고 피치 평가를 더 강력하게 만들기 위하여 더 매끄러운 윤곽을 생산하는 트랙이 선택된다. 프레임 레벨 전처리는 하이-패스 필터링, 초당 12800 샘플들로의 샘플링 전환, 전-강조, 스펙트럼 분석, 협대역 입력들의 검출, 음성 활성 검출, 잡음 평가, 잡음 감소, 선형 예측 분석, 선형 예측의 이미턴스 스펙트럼 주파수로의 전환, 및 보간, 가중 음성 신호의 계산, 개방 루프 피치 분석, 배경 잡음 업데이트, 코딩 방식 선택 및 프레임 소거 은닉(frame erasure concealment)을 위한 신호 분류를 포함한다. 선택된 인코딩 종류를 사용하는 계층 1 인코딩은 무성음 코딩 방식, 유성음 코딩 방식, 전이(transition) 코딩 방식, 포괄적 코딩 방식, 및 불연속 전송과 편안한 잡음 발생(comfort noise generation, CNG)을 포함한다.
자기상관 접근법을 사용하는 장기간 예측 또는 선형 예측 분석은 부호 여진 선형 예측 모델의 합성 필터의 계수들을 결정한다. 그러나, 부호 여진 선형 예측에서, 장기간 예측은 일반적으로 "적응성-코드북"이며 따라서 선형 예측과 서로 다르다. 따라서, 선형 예측은 더 단기간 예측으로 고려된다. 윈도우잉된 음성의 자기상관은 레빈슨-더빈(Levinson-Durbin) 알고리즘을 사용하여 선형 예측 계수들로 전환된다. 그리고 나서, 선형 예측 코딩 계수들은 이미턴스 스펙트럼 쌍들로 변환되고 그 뒤에 양자화 및 보간 목적을 위하여 이미턴스 스펙트럼 주파수로 변환된다. 보간된 양자화되고 양자화되지 않은 계수들은 각각의 서브프레임을 위하여 합성 및 가중 필터들을 구성하기 위하여 다시 선형 예측 도메인으로 전환된다. 활성 신호 프레임을 인코딩하는 경우에, 도 5c의 510 및 512에 표시된 두 개의 선형 예측 분석 윈도우를 사용하여 두 세트의 선형 예측 계수들이 각각의 프레임에서 평가된다. 윈도우(512)는 "중간-프레임(mid-frame) 선형 예측 코딩 윈도우"로 불리고 윈도우(510)는 "종단-프레임(단부-프레임, end-frame) 선형 예측 코딩 윈도우"로 불린다. 10 ms의 예견 부(514)는 프레임 단부 자기상관 계산을 위하여 사용된다. 프레임 구조가 도 5c에 도시된다. 프레임은 4개의 서브프레임으로 세분되는데, 각각의 서브 프레임은 12.8 ㎑의 샘플링 레이트에서 64 샘플들과 상응하는 5 ms의 길이를 갖는다. 프레임 단부 분석 및 중간 프레임 분석을 위한 윈도우들은 도 5c에 도시된 것과 같이 각각 제 4 서브프레임 및 제 2 서브프레임에서 중심에 위치된다. 320 샘플들의 길이를 갖는 해밍 윈도우(Hamming window)가 윈도우잉을 위하여 사용된다. 계수들은 G.718, 섹션 6.4.1에 정의된다. 레빈슨-더빈 알고리즘이 섹션 6.4.3에 설명되고, 선형 예측에서 이미턴스 스펙트럼 쌍으로의 전환이 섹션 6.4.4에 설명되며, 이미턴스 스펙트럼 쌍에서 선형 예측으로의 전환이 섹션 6.4.5에 설명된다.
적응성 코드북 지연과 이득, 대수 코드북 지수와 이득과 같은 음성 인코딩 파라미터들은 인지적으로 가중된 도메인 내의 입력 신호 및 합성된 신호 사이의 에러를 최소화함으로써 검색된다. 인지 가중(perceptually weighting)은 선형 예측 필터 계수들로부터 유래하는 인지 가중 필터를 통하여 신호를 필터링함으로써 실행된다. 인지 가중 신호는 또한 개방 루프 피치 분석에서 사용된다.
G.718 인코더는 단일 음성 코딩 방식만을 갖는 순수 음성 코더이다. 따라서, G.718 인코더는 전환된 인코더가 아니며, 따라서 이러한 인코더는 코어 계층 내에서 단일 음성 코딩 방식만을 제공한다는 점에서 바람직하지 않다. 따라서, 이러한 코더가 음성 신호들보다는 다른 신호들, 즉, 부호 여진 선형 예측 인코딩 뒤의 모델에 적합하지 않은, 일반적인 오디오 신호에 적용될 때 품질 문제가 발생할 것이다.
부가적인 전환된 코덱은 이른바 2010년 9월 24일자로 ISO/IEC CD 23003-3에 정의된 것과 같은 통합 음성 및 오디오 코덱(USAC)이다. 이러한 전환된 코덱을 위하여 사용되는 선형 예측 코딩 분석 윈도우가 도 5d의 516에 표시된다. 다시, 0 및 20 ms 사이를 확장하는 현재 프레임이 가정되고, 따라서, 이러한 코덱의 예견 부는 20 ms인데, 즉, G718의 예견 부보다 상당히 높다. 따라서, 비록 통합 음성 및 오디오 코덱 인코더가 그것이 전환 본질에 의해 뛰어난 오디오 품질을 제공하더라도, 도 5d의 선형 예측 코딩 분석 윈도우 예견 부(518)에 기인하여 지연이 상당하다. 통합 음성 및 오디오 코덱의 일반적인 구조는 다음과 같다. 먼저, 스테레오 다중 채널을 처리하기 위하여 MPEG 서라운드 기능적 유닛 및 입력 신호 내의 높은 오디오 주파수의 파라미터 표현을 처리하는 향상된 스펙트럼 대역 복제(eSBR) 유닛으로 구성되는 공통의 전/후처리가 존재한다. 그리고 나서 하나는 변형된 고급 오디오 코딩 기구 경로로 구성되고 다른 하나는 선형 예측 코딩 기반 경로로 구성되는, 두 분기가 존재하는데, 이는 차례로 선형 예측 코딩 잔여의 주파수 도메인 표현 또는 시간-도메인 표현을 특징으로 한다. 고급 오디오 코딩 또는 선형 예측 코딩 모두를 위한 모든 전송된 스펙트럼은 변형 이산 코사인 변환(MDCT) 도메인 내에 표현되고 그 뒤에 양자화 및 산술 코딩이 뒤따른다. 시간-도메인 표현은 대수 부호 여진 선형 예측 여진 코딩 방식을 사용한다. 대수 부호 여진 선형 예측 기구는 장기간 예측기(적응성 코드워드)를 펄스 유사 시퀀스(혁신 코드워드)와 결합함으로써 시간 도메인 여진 신호를 효율적으로 표현하는 방법을 제공한다. 재구성된 여진은 시간 도메인 신호를 형성하기 위하여 선형 예측 합성 필터를 통하여 보내진다. 대수 부호 여진 선형 예측 기구로의 입력은 적응성 혁신 코드북 지수들, 적응 및 혁신 코드 이득 값들, 다른 제어 데이터, 및 역으로 양자화되고 보간된 선형 예측 코딩 필터 계수들을 포함한다. 대수 부호 여진 선형 예측 기구로의 출력은 시간-도메인 재구성 오디오 신호이다.
변형 이산 코사인 변환 기반 변환 코딩 여진 디코딩 도구는 가중 선형 예측 잔류 표현을 변형 이산 코사인 변환 도메인으로부터 다시 시간 도메인 신호 내로 되돌리도록 사용되고 가중 선형 예측 합성 필터링을 포함하는 가중 시간-도메인 신호를 출력한다. 역 변형 이산 코사인 변환은 256, 512, 1024 스펙트럼 계수들을 제공하도록 구성될 수 있다. 변환 여진 코딩 기구로의 입력은 (역 양자화된) 변형 이산 코사인 변환 스펙트럼, 및 역으로 양자화되고 보간된 선형 예측 코딩 필터 계수들을 포함한다. 변환 코딩 여진 기구의 출력은 시간-도메인 재구성 오디오 신호이다.
도 6은 통합 음성 및 오디오 코딩에서의 상황을 도시하는데, 현재 프레임(520)을 위한, 그리고 과거 또는 미래 프레임을 위한 선형 예측 분석 윈도우들(516)이 도시되고, 게다가, 변환 코딩 여진 윈도우(522)가 도시된다. 변환 코딩 여진 인도우(522)는 0 및 20 ms 사이에서 확장하는 현재 프레임의 중심에 위치되며 과거 프로임 내로 10 ms 확장하고 20 및 40 ms 사이에서 확장하는 미래 프레임 내로 10 ms 확장한다. 따라서, 선형 예측 코딩 분석 윈도우(516)는 20 및 40 ms 사이의 선형 예측 코딩 예견 부, 즉, 20 ms를 필요로 하나, 변환 코딩 여진 분석 윈도우는 부가적으로 20 및 30 ms 사이에서 미래 프레임 내로 확장하는 예견 부를 갖는다. 이는 통합 음성 및 오디오 코딩 분석 윈도우(516)에 의해 도입되는 지연은 20 ms이고, 반면에 변환 코딩 여진에 의해 인코더 내로 도입되는 지연은 10 ms라는 것을 의미한다. 따라서, 두 종류의 윈도우의 예견 부는 서로 정렬되지 않는 것이 자명하다. 따라서, 변환 코딩 여진 윈도우(522)가 10 ms의 지연만을 도입하더라도, 인코더의 전체 지연은 그럼에도 불구하고 선형 예측 분석 윈도우(516) 때문에 20 ms이다. 따라서, 변환 코딩 여진 윈도우를 위한 매우 작은 예견 부가 존재하더라도, 이는 인코더의 전체 알고리즘 지연을 감소시키지 않는데, 그 이유는 전체 지연이 즉, 미래 프레임 내로 20 ms 확장하는 선형 예측 코딩 분석 때문에 20 ms와 동일한, 즉, 현재 프레임을 포함할 뿐만 아니라 미래 프레임을 포함하는 가장 높은 기여에 의해 결정되기 때문이다.
한편으로 뛰어난 오디오 품질을 제공하고 다른 한편으로 감소된 지연을 야기하는, 오디오 코딩 또는 디코딩을 위한 향상된 오디오 코딩 개념을 제공하는 것이 본 발명의 목적이다.
본 발명의 목적은 청구항 1에 따른 오디오 신호를 인코딩하기 위한 장치, 청구항 15에 따른 오디오 신호를 인코딩하는 방법, 청구항 16에 따른 오디오 디코더, 청구항 23에 따른 오디오 디코딩의 방법 또는 청구항 24에 따른 컴퓨터 프로그램에 의해 달성된다.
본 발명에 따라, 변환 코딩 브랜치(transform coding branch) 및 예측 코딩 브랜치를 갖는 전환된 오디오 코덱 방식이 적용된다. 중요하게, 두 종류의 윈도우, 즉, 한편으로는 예측 코딩 분석 윈도우 및 다른 한편으로는 변환 코딩 분석 윈도우가 그것들의 예견 부에 대하여 정렬되는데 따라서 변환 코딩 예견 부 및 예측 코딩 예견 부가 동일하거나 예측 코딩 예견 부의 20% 이하 또는 변환 코딩 예견 부의 20% 이하에 의해 서로 다르다. 예측 분석 윈도우는 예측 코딩 브랜치에서 뿐만 아니라 실제로 두 브랜치 모두에서 사용되는 것을 이해하여야 한다. 선형 예측 분석 코딩은 또한 변환 도메인 내의 잡음을 형상화하기 위하여 사용된다. 따라서, 바꾸어 말하면, 예견 부들은 동일하거나 서로 상당히 근접한다. 이는 최적 절충이 달성되고 어떠한 오디오 품질 및 지연 특징들이 최적 이하의 방법 내로 설정되지 않도록 보장한다. 따라서, 분석 윈도우 내의 예측 코딩을 위하여 선형 예측 코딩은 예견 부가 높을수록 더 뛰어나나, 다른 한편으로 지연은 높은 예견 부에 따라 증가된다는 것이 알려졌다. 다른 한편으로, 변환 코딩 여진을 위하여 이는 동일하게 적용된다. 변환 코딩 여진 윈도우의 예견 부가 높을수록, 변환 코딩 여진 비트레이트는 더 감소되는데, 그 이유는 긴 변환 코딩 여진 윈도우들이 일반적으로 낮은 비트레이트들을 야기하기 때문이다. 따라서, 본 발명에 따라, 예견 부들은 동일하거나 서로 근접하며, 특히 20% 이하로 서로 다르다. 따라서, 지연 이유 때문에 바람직하지 않은, 예견 부는 다른 한편으로, 두 인코딩/디코딩 브랜치에 의해 선택적으로 사용된다.
이를 고려하여, 본 발명은 한편으로는 두 분석 윈도우를 위한 예견 부가 낮게 설정될 때 저지연을 갖는 향상된 코딩 개념을 제공하고 다른 한편으로는 오디오 품질 이유들 또는 비트레이트 이유들을 위하여 도입되어야만 하는 지연이 어쨌든 단일 코딩 브랜치에 의한 것뿐만 아니라 두 코딩 브랜치에 의해 최적으로 사용된다는 사실 때문에 뛰어난 특성들을 갖는 인코딩/디코딩 개념을 제공한다.
오디오 샘플들의 스트림을 갖는 오디오 신호를 인코딩하기 위한 장치는 예측 분석을 위하여 윈도우잉된 데이터를 획득하도록 예측 코딩 분석 윈도우를 오디오 샘플들의 스트림에 적용하기 위하여, 그리고 변환 분석을 위하여 윈도우잉된 데이터를 획득하도록 변환 코딩 분석 윈도우를 오디오 샘플들의 스트림에 적용하기 위한 윈도우어를 포함한다. 변환 코딩 분석 윈도우는 변환 코딩 예견 부인 오디오 샘플들의 미래 프레임의 미리 정의된 예견 부의 오디오 샘플들의 현재 프레임의 오디오 샘플들과 관련된다.
게다가, 예측 코딩 분석 윈도우는 현재 프레임의 오디오 샘플들의 적어도 일부 및 예측 코딩 예견 부인 미래 프레임의 미리 정의된 부분의 오디오 샘플들과 관련된다.
변환 코딩 예견 부 및 예측 코딩 예견 부는 서로 동일하거나 또는 예측 코딩 예견 부의 20% 이하 또는 변환 코딩 예견 부의 20% 이하로 서로 다르며 따라서 서로 상당히 근접한다. 장치는 부가적으로 예측 분석을 위하여 윈도우잉된 데이터를 사용하여 현재 프레임을 위한 예측 코딩된 데이터를 발생시키거나 또는 변환 분석을 위한 윈도우를 사용하여 현재 프레임을 위한 변환 코딩된 데이터를 발생시키기 위한 인코딩 프로세서를 포함한다.
인코딩된 오디오 신호를 디코딩하기 위한 오디오 디코더는 인코딩된 오디오 신호로부터 예측 코딩된 프레임을 위한 데이터의 디코딩을 실행하기 위한 예측 파라미터 디코더, 및 제 2 브랜치를 위하여, 인코딩된 오디오 신호로부터 변환 코딩된 프레임을 위한 데이터의 디코딩을 실행하기 위한 변환 파라미터 디코더를 포함한다.
변환 파라미터 디코더는 바람직하게는 변형 이산 코사인 변환 또는 변형 이산 사인 변환(MDST) 또는 그러한 다른 변환과 같은 에일리어싱(aliasing) 영향의 변환인 스펙트럼-시간 변환을 실행하도록, 그리고 현재 프레임과 미래 프레임을 위한 데이터를 획득하기 위하여 합성 윈도우를 변환된 데이터에 적용하도록 구성된다. 오디오 디코더에 의해 적용된 합성 윈도우는 그것이 제 1 오버랩 부, 인접한 제 2 오버랩 부 및 인접한 제 3 오버랩 부를 갖도록 되는데, 제 3 오버랩 부는 미래 프레임을 위한 오디오 샘플들과 관련되고 비-오버랩 부는 현재 프레임의 데이터와 관련된다. 부가적으로, 디코더 면 상에 뛰어난 오디오 품질을 갖기 위하여, 미래 프레임을 위한 오디오 샘플들의 제 1 부를 획득하기 위하여 현재 프레임을 위한 합성 윈도우의 제 3 오버랩 부와 관련된 합성 윈도우잉된 샘플들 및 미래 프레임을 위한 합성 윈도우의 제 1 오버랩 부와 관련된 합성 윈도우잉된 샘플들을 오버래핑하고 가산하기 위한 오버랩-가산기가 적용되는데, 미래 프레임을 위한 나머지 오디오 샘플들은 오버랩-가산 없이 획득되는 미래 프레임을 위한 합성 윈도우의 제 2 비-오버래핑 부와 관련된 합성 윈도우잉된 샘플들이고, 현재 프레임 및 미래 프레임은 변환 코딩된 데이터를 포함한다.
본 발명의 바람직한 실시 예들은 변환 코딩 여진 브랜치와 같은 변환 코딩 브랜치 및 대수 부호 여진 선형 예측 브랜치와 같은 예측 코딩 브랜치가 서로 동일하고 따라서 두 코딩 방식은 지연 제약들 하에서 최대 이용가능한 예견을 갖는다는 특징을 갖는다. 게다가, 변환 코딩 여진 윈도우 오버랩은 예견 부에 제한되는데 따라서 하나의 프레임으로부터 다음 프레임으로의 변환 코딩 방식으로부터 예측 코딩 방식으로의 전환은 어떠한 에일리어싱 어드레스(aliasind addressing) 문제없이 쉽게 가능하다.
오버랩을 예견에 제한하는 또 다른 이유는 디코더 면에서 지연을 도입하지 않기 위한 것이다. 만일 10 ms 예견, 및 예를 들면 20 ms의 오버랩을 갖는 변환 코딩 여진을 가지면, 디코더 내에 120ms 더 지연을 도입할 수 있다. 만일 10 ms 예견 및 10 ms 오버랩을 가지면, 디코더 면에서 어떠한 지연도 갖지 않는다. 쉬운 변환은 그러한 뛰어난 결과이다.
따라서, 분석 윈도우 및 합성 윈도우의 제 2 비-오버랩 부는 현재 프레임의 단부 및 제 3 오버랩 부가 미래 프레임에 대하여 시작할 때까지 확장하는 것이 바람직하다. 게다가, 변환 코딩 여진 또는 변환 코딩 분석/합성 윈도우의 비-제로 부는 프레임의 초기에 정렬되는데 따라서 다시, 하나의 방식으로부터 다른 방식으로의 쉽고 낮은 전환이 이용가능하다.
게다가, 4개의 서브프레임과 같은, 복수의 서브프레임으로 구성되는 전체 프레임은 변환 코딩 방식(변환 코딩 여진 방식)에서 완전히 코딩되거나 또는 예측 코딩 방식(대수 부호 여진 선형 예측 방식과 같은)에서 완전히 코딩된다.
게다가, 단일 선형 예측 코딩 분석 윈도우뿐만 아니라 두 개의 서로 다른 선형 예측 코딩 윈도우를 사용하는 것이 바람직한데, 하나의 선형 예측 코딩 분석 윈도우는 제 4 서브프레임의 중심과 정렬되고 종단 프레임 분석 윈도우이며, 나머지 분석 윈도우는 제 2 서브프레임과 정렬되고 중간 프레임 분석 윈도우이다. 만일 인코더가 변환 코딩으로 전환되면, 종단 프레임 선형 예측 코딩 분석 윈도우를 기초로 하여 선형 예측 코딩 분석으로부터만 유래하는 단일 선형 예측 코딩 계수 데이터 세트만을 전송하는 것이 바람직하다. 게다가, 디코더 면상에서, 변환 코딩 합성을 위하여 이러한 선형 예측 코딩 데이터, 특히, 변환 코딩 여진 계수들의 스펙트럼 가중을 직접 사용하지 않는 것이 바람직하다. 대신에, 현재 프레임의 종단 프레임 선형 예측 코딩 분석 윈도우로부터 획득되는 변환 코딩 여진 데이터를, 과거 프레임으로부터의, 즉, 시간에 맞춰 현재 프레임을 즉시 선행하는 프레임으로부터의 종단 프레임 선형 예측 코딩 분석 윈도우에 의해 획득되는 데이터로 보간하는 것이 바람직하다. 변환 코딩 여진 방식에서 전체 프레임을 위한 선형 예측 코딩 계수들의 단일 세트만을 전송함으로써, 중간 프레임 분석 및 종단 프레임 분석을 위한 두 개의 선형 예측 코딩 계수 데이터 세트의 전송과 비교하여 또 다른 비트레이트 감소가 획득될 수 있다. 그러나, 인코더가 대수 부호 여진 선형 예측 방식으로 전환될 때, 두 선형 예측 코딩 계수들의 세트 모두 인코더로부터 디코더로 전송된다.
게다가, 중간 프레임 선형 예측 코딩 분석 윈도우는 현재 프레임의 뒤의 프레임 경계에서 끝나고 부가적으로 과거 프레임 내로 확장하는 것이 바람직하다. 이는 어떠한 지연도 도입하지 않는데, 그 이유는 과거 프레임이 이미 이용가능하고 어떠한 지연 없이 사용될 수 있기 때문이다.
다른 한편으로, 종단 프레임 분석 윈도우는 현재 프레임 내의 어딘가에서 시작하고 현재 프레임의 처음에서 시작하지 않는 것이 바람직하다. 그러나, 이는 문제가 되지 않는데, 그 이유는 변환 코딩 여진 가중을 형성하기 위하여, 과거 프레임을 위한 종단 프레임 선형 예측 코딩 데이터 세트 및 현재 프레임을 위한 종단 프레임 선형 예측 코딩 데이터 세트의 평균이 사용되고, 따라서 그 결과, 모든 데이터가 어떤 의미에서는 선형 예측 코딩 계수들을 계산하는데 사용되는 것이 바람직하다. 따라서, 종단 프레임 분석 윈도우의 시작은 바람직하게는 과거 프레임의 종단 프레임 분석 윈도우의 예견 부 내에 존재한다.
디코더 면상에서, 하나의 방식으로부터 다른 방식으로의 전환을 위한 상당히 감소된 오버헤드(overhead)가 획득된다. 그 이유는 바람직하게는 자체 내에서 대칭인, 합성 윈도우의 비-오버래핑 부가 현재 프레임의 샘플들과 관련되지 않고 미래 프레임의 샘플들과 관련되고, 따라서 예견 부 내, 즉, 미래 프레임 내에서만 확장하기 때문이다. 따라서, 합성 윈도우는 바람직하게는 현재 프레임의 즉각적인 시작에서 시작하는 제 1 오버랩 부만이 현재 프레임 내에 존재하고 제 2 비-오버래핑 부는 제 1 오버래핑 부의 단부에서 현재 프레임의 단부로 확장하며, 따라서, 제 2 오버랩 부는 예견 부와 일치한다. 따라서, 변환 코딩 여진으로부터 대수 부호 여진 선형 예측으로의 변환이 존재할 때, 합성 윈도우의 오버랩 부 때문에 획득되는 데이터는 간단히 버려지고 대수 부호 여진 선형 예측 브랜치 외부의 미래 프레임의 맨 처음으로부터 이용가능한 예측 코딩 데이터에 의해 대체된다.
다른 한편으로, 대수 부호 여진 선형 예측으로부터 변환 코딩 여진으로의 변환이 존재할 때, 현재 프레임, 즉 전환 바로 후의 프레임의 시작에서 즉시 시작하는 특정 전송 윈도우가 적용되며 따라서 오버랩 "파트너들"을 찾기 위하여 어떠한 데이터도 재구성되어서는 안 된다. 대신에, 합성 윈도우의 비-오버랩 부는 디코더에 필요한 어떠한 오버래핑 및 어떠한 오버랩-가산 과정 없이 정확한 데이터를 제공한다. 오버랩 부들, 즉, 현재 프레임을 위한 윈도우의 제 3 부 및 다음 프레임을 위한 윈도우의 제 1 부만을 위하여, 오버랩-가산 과정은 유용하고 간단한 변형 이산 코사인 변환에서와 같이, 최종적으로 또한 종래에 용어 "시간 도메인 에일리어싱 제거"로서 알려진 것과 같은 변형 이산 코사인 변환의 심각하게 샘플링되는 본질에 기인하여 비트레이트를 증가시킬 필요없이 뛰어난 오디오 품질을 획득하기 위하여 하나의 블록으로부터 다른 블록으로 연속적인 페이드-인(fade-in)/페이드-아웃을 갖도록 실행된다.
게다가, 디코더는 대수 부호 여진 선형 예측 코딩 방식을 위하여, 인코더 내의 중간 프레임 윈도우 및 종단 프레임 윈도우로부터 유래하는 선형 예측 코딩 데이터가 전송되고, 변환 코딩 여진 코딩 방식을 위하여, 종단 프레임 윈도우로부터 유래하는 단일 선형 예측 코딩 데이터 세트만이 사용된다는 점에서 유용하다. 그러나, 스펙트럼 가중 변환 코딩 여진 디코딩된 데이터를 위하여 전송된 선형 예측 코딩 데이터는 있는 그대로 사용되지 않고, 데이터는 과거 프레임을 위하여 획득된 종단 프레임 선형 예측 코딩 분석 윈도우로부터의 상응하는 데이터와 함께 평균을 낸다.
본 발명의 바람직한 실시 예들이 첨부된 도면들을 참조하여 뒤에 설명된다.
도 1a는 전환된 오디오 인코더의 블록 다이어그램을 도시한다.
도 1b는 상응하는 전환된 디코더의 블록 다이어그램을 도시한다.
도 1c는 도 1b에 도시된 변환 파라미터 디코더를 더 상세히 도시한다.
도 1d는 도 1a의 디코더의 변환 코딩 방식을 더 상세히 도시한다.
도 2a는 한편으로는 선형 예측 코딩 분석 및 다른 한편으로는 변환 코딩 분석을 위하여 인코더 내에 적용되는 윈도우어를 위한 바람직한 실시 예를 도시하며, 도 1b의 변환 코딩 디코더에서 사용되는 합성 윈도우의 표현을 도시한다.
도 2b는 두 프레임 이상의 기간을 위한 정렬된 선형 예측 코딩 분석 윈도우들 및 변환 코딩 여진 윈도우들의 윈도우 시퀀스를 도시한다.
도 2c는 변환 코딩 여진으로부터 대수 부호 여진 선형 예측으로의 전이를 위한 상황 및 대수 부호 여진 선형 예측으로부터 변환 코딩 여진으로의 전이를 위한 전이 윈도우를 도시한다.
도 3a는 도 1a의 인코더를 더 상세히 도시한다.
도 3b는 하나의 프레임을 위하여 하나의 코딩 방식으로 결정하기 위한 합성에 의한 분석 과정을 도시한다.
도 3c는 각각의 프레임을 위한 방식들 사이를 디코딩하기 위한 또 다른 실시 예를 도시한다.
도 4a는 현재 프레임을 위하여 서로 다른 두 가지 선형 예측 코딩 분석 윈도우를 사용함으로써 유래되는 선형 예측 코딩 데이터의 계산 및 사용을 도시한다.
도 4b는 인코더의 변환 코딩 여진 브랜치를 위하여 선형 예측 코딩 분석을 사용하여 윈도우잉에 의해 획득되는 선형 예측 코딩 데이터의 사용을 도시한다.
도 5a는 적응성 멀티-레이트-광대역을 위한 선형 예측 코딩 분석 윈도우들을 도시한다.
도 5b는 선형 예측 코딩 분석의 목적을 위하여 확장 적응성 멀티-레이트-광대역을 위한 대칭 윈도우들을 도시한다.
도 5c는 G.718 인코더를 위한 선형 예측 코딩 분석 윈도우들을 도시한다.
도 5d는 통합 음성 및 오디오 코덱에서 사용되는 것과 같은 선형 예측 코딩 분석 윈도우들을 도시한다.
도 6은 현재 프레임을 위한 선형 예측 코딩 분석 윈도우와 관련하여 현재 프레임을 위한 변환 코딩 여진 윈도우를 도시한다.
도 1a는 오디오 샘플들의 스트림을 갖는 오디오 신호를 인코딩하기 위한 장치를 도시한다. 오디오 샘플들 또는 오디오 데이터는 100에서 인코더로 들어간다. 예측 분석을 위하여 윈도우잉된 데이터를 획득하기 위하여 오디오 데이터는 예측 코딩 분석 윈도우를 오디오 샘플들의 스트림에 적용하기 위한 윈도우어(102) 내로 도입된다. 윈도우어(102)는 부가적으로 변환 분석을 위한 윈도우잉된 데이터를 획득하기 위하여 변환 코딩 분석 윈도우를 오디오 샘플들의 스트림에 적용하도록 구성된다. 구현에 따라, 선형 예측 코딩 윈도우는 오리지널 신호 상에 직접적으로 적용되지 않으나, "전-강조된" 신호(적응성 멀티-레이트-광대역, 확장 적응성 멀티-레이트-광대역, G718 및 통합 음성 및 오디오 코딩에서와 같은) 상에 적용된다. 다른 한편으로, 변환 코딩 여진 윈도우가 오리지널 신호 상에 직접적으로(통합 음성 및 오디오 코딩에서와 같은) 적용된다. 그러나, 두 윈도우 모두 또한 동일한 신호들에 적용될 수 있거나 또는 변환 코딩 여진 윈도우가 또한 품질 또는 압축 효율을 향상시키도록 사용되는 전-강조 또는 다른 가중에 의한 것과 같이 오리지널 신호로부터 유래하는 처리된 오디오 신호에 적용될 수 있다.
변환 코딩 분석 윈도우는 오디오 샘플들의 현재 프레임 내의 오디오 샘플들 및 변환 코딩 예견 부인 오디오 샘플들의 미래 프레임의 미리 정의된 부분의 오디오 샘플들과 관련된다.
게다가, 예측 코딩 분석 윈도우는 현재 프레임의 오디오 샘플들의 적어도 일부 및 예측 코딩 예견 부인 오디오 샘플들의 미래 프레임의 미리 정의된 부분의 오디오 샘플들과 관련된다.
블록 102에서 설명되는 것과 같이, 변환 코딩 예견 부 및 예측 코딩 예견 부는 서로 정렬되는데, 이는 이러한 부들이 동일하거나 또는 예측 코딩 예견 부의 20% 이하 또는 변환 코딩 예견 부의 20% 이하에 의해 서로 다른 것과 같이, 서로 상당히 가깝다는 것을 의미한다. 바람직하게는, 예견 부들은 동일하거나 또는 예측 코딩 예견 부의 5% 이하 또는 변환 코딩 예견 부의 5% 이하에 의해 서로 다르다.
인코더는 바람직하게는 예측 분석을 위하여 윈도우잉된 데이터를 사용하여 현재 프레임을 위한 예측 코딩된 데이터를 발생시키거나 또는 변환 분석을 위하여 윈도우잉된 데이터를 사용하여 현재 프레임을 위한 변환 코딩된 데이터를 발생시키기 위한 인코딩 프로세서(104)를 포함한다.
게다가, 인코더는 바람직하게는 현재 프레임을 위하여, 그리고, 실제로 각각의 프레임을 위하여, 선형 예측 코딩 데이터(108a) 및 변환 코딩된 데이터(변환 코딩 여진 데이터와 같은) 또는 예측 코딩된 데이터(대수 부호 여진 선형 예측 데이터와 같은)를 라인(108b) 위로 수신하기 위한 출력 인터페이스(106)를 포함한다. 인코딩 프로세서(104)는 이러한 두 종류의 데이터를 제공하고 입력으로서, 110a에 표시된 예측 분석을 위하여 윈도우잉된 데이터 및 110b에 표시된 변환 분석을 위하여 윈도우잉된 데이터를 수신한다. 게다가, 입력으로서, 오디오 데이터(100)를 수신하고 출력으로서, 제어 라인(114a)을 거쳐 인코딩 프로세서(104))로 제어 데이터 제공하거나, 또는 제어 라인(114b)을 거쳐 출력 인터페이스(106)로 제어 데이터를 제공하는 인코딩 방식 선택기 또는 컨트롤러(112)를 포함한다.
도 3a는 인코딩 프로세서(104) 및 윈도우어(102)에 대한 상세한 설명을 제공한다. 윈도우어(102)는 바람직하게는 제 1 모듈로서, 선형 예측 코딩 또는 예측 코딩 분석 윈도우어(102a)를 포함하고 제 2 부품 또는 모듈로서, 변환 코딩 윈도우어(102b, 변환 코딩 여진 윈도우어와 같은)를 포함한다. 화살표 300에 의해 표시된 것과 같이, 선형 예측 코딩 분석 윈도우 및 변환 코딩 여진 원도우는 서로 정렬되고 따라서 두 윈도우의 예견 부들은 서로 동일한데, 이는 두 예견 부들이 동일한 시간 순간까지 미래 프레임 내로 확장하는 것을 의미한다. 선형 예측 코딩 윈도우어(102b)로부터 바깥쪽으로 오른쪽으로의 도 3a의 상부 브랜치는 선형 예측 코딩 분석기와 보간기(302), 인지 가중 필터 또는 가중 블록(304) 및 대수 부호 여진 선형 예측 파라미터 계산과 같은 예측 코딩 계산기(306)를 포함하는 예측 코딩 브랜치이다. 오디오 데이터(100)가 선형 예측 코딩 윈도우어(102a) 및 인지 가중 블록(304)에 제공된다. 부가적으로, 오디오 데이터는 변환 코딩 여진 윈도우어에 제공되고 변환 코딩 여진 윈도우어의 출력으로부터의 오른쪽으로의 하부 브랜치는 변환 코딩 브랜치를 구성한다. 이러한 변환 코딩 브랜치는 시간-주파수 전환 블록(310), 스펙트럼 가중 블록(312) 및 처리/양자화 인코딩 블록(314)을 포함한다. 시간 주파수 전환 블록(310)은 바람직하게는 변형 이산 코사인 변환, 변형 이산 사인 변환 또는 출력 값들의 수보다 큰 다수의 입력 값들을 갖는 다른 변환과 같은 에일리어싱-도입 변환으로서 구현된다. 시간-주파수 전환은 입력으로서, 변환 코딩 여진 또는 일반적으로 변환 코딩 윈도우어(102b)에 의해 출력되는 윈도우잉된 데이터를 갖는다.
도 3a가 예측 코딩 브랜치를 위하여, 대수 부호 여진 선형 예측 인코딩 알고리즘으로의 선형 예측 코딩 처리를 나타내나, 한편으로는 그것의 품질 및 다른 한편으로는 그 효율성 때문에 대수 부호 여진 선형 예측 알고리즘이 바람직하더라도, 종래에 알려진 부호 여진 선형 예측 또는 다른 시간 도메인과 같은 다른 예측 코더들이 또한 적용될 수 있다.
게다가, 변환 코딩 브랜치를 위하여, 다른 스펙트럼 도메인 변환들이 또한 실행될 수 있더라도, 특히 시간-주파수 전환 블록(30) 내의 변형 이산 코사인 변환 처리가 바람직하다.
게다가, 도 3a는 블록(310)에 의해 출력된 스펙트럼 값들을 선형 예측 코딩 도메인 내로 변환하기 위한 스펙트럼 가중(312)을 도시한다. 이러한 스펙트럼 가중(312)은 예측 코딩 브랜치 내의 블록(302)에 의해 발생된 선형 예측 코딩 분석 데이터로부터 유래하는 가중 데이터와 함께 실행된다. 그러나, 대안으로서, 시간-도메인으로부터 선형 예측 코딩 도메인 내로의 변환이 또한 시간-도메인 내에서 실행될 수 있다. 이 경우에 있어서, 예측 잔류 시간 도메인 데이터를 획득하기 위하여 선형 예측 코딩 분석 필터가 변환 코딩 여진 윈도우어(102b) 앞에 위치될 수 있다. 그러나, 시간-도메인으로부터 선형 예측 코딩 도메인 내로의 변환은 바람직하게는 선형 예측 코딩 데이터로부터 변형 이산 코사인 변환 도메인과 같은 스펙트럼 도메인 내의 상응하는 가증 인자들 내로 변환된 선형 예측 코딩 데이터를 사용하여 변환 코딩된 데이터를 스펙트럼으로 가중함으로써 스펙트럼 도메인 내에서 실행된다는 것이 알려졌다.
도 3b는 각각의 프레임을 위한 코딩 모듈의 합성에 의한 분석 또는 "폐쇄 루프" 결정을 나타내기 위한 일반적인 개요를 도시한다. 이를 위하여, 도 3c에 도시된 인코더는 완전한 변환 코딩 인코더 및 104b에 도시된 것과 같은 변환 코딩 디코더를 포함하고, 부가적으로 완전한 예측 코딩 인코더 및 도 3c의 104a에 도시된 것과 같은 상응하는 디코더를 포함한다. 두 블록(104a, 104b)은 입력으로서, 오디오 데이터를 수신하고 완전한 인코딩/디코딩 운용을 실행한다. 그리고 나서, 두 코딩 브랜치(104a, 104b)를 위한 인코딩/디코딩 운용의 결과들이 오리지널 신호와 비교되고 어떤 코딩 방식이 더 나은 품질을 야기하는지를 알아내기 위하여 품질 측정이 결정된다. 품질 측정은 예를 들면, 3GPP TS 26.290의 섹션 5.2.3에 설명된 것과 같은 분절 신호 잡음비(segmental SNR) 값 또는 평균 분절 신호 잡음비일 수 있다. 그러나, 일반적으로 인코딩/디코딩 결과의 오리지널 신호와의 비교에 의존하는 다른 품질 측정들이 또한 적용될 수 있다.
각각의 브랜치(104a, 104b)로부터 판정기(decider, 112)로 제공되는 품질 측정을 기초로 하여, 판정기는 현재 검사된 프레임이 대수 부호 여진 선형 예측 또는 변환 코딩 여진을 위하여 인코딩되는지를 판정한다. 판정 뒤에, 코딩 방식 선택을 실행하기 위한 몇 가지 방법이 존재한다. 한가지 방법은 판정기(112)가 현재 프레임을 위한 코딩 결과를 출력 인터페이스(106)에 간단히 출력하도록 상응하는 인코더/디코더 블록들(104a, 104b)을 제어하는 것인데, 따라서, 특정 프레임을 위하여, 단일 코딩 결과가 107에서 출력 코딩된 신호 내로 전송되는 것이 보장된다.
대안으로서, 두 장치(104a, 104b)가 그것들의 인코딩 결과를 이미 출력 인터페이스(106)에 전달할 수 있으며, 두 결과들은 판정기가 블록(104b)으로부터 또는 블록(104a)으로부터 결과를 출력하도록 라인(105)을 거쳐 출력 인터페이스를 제어할 때까지 출력 인터페이스(106) 내에 저장된다.
도 3b는 도 3c의 개념에 대한 더 상세한 내용을 도시한다. 특히, 블록(104a)은 완전한 대수 부호 여진 선형 예측 디코더 및 비교기(comparator, 112a)를 포함한다. 비교기(112a)는 비교기(112c)에 품질 측정을 제공한다. 변환 코딩 여진 인코딩되고 다시 디코딩된 신호의 오리지널 오디오 신호와의 비교에 기인하여 품질 측정들을 갖는, 비교기(112b)에도 동일하게 적용된다. 그 뒤에, 두 비교기(112a, 112b)는 최종 비교기(112c)에 그것들의 품질 측정들을 제공한다. 어떤 품질 측정이 더 나은가에 따라, 비교기는 부호 선형 예측 코딩 또는 변환 코딩 여진 판정을 판정한다. 판정은 판정 내로의 부가적인 인자들의 도입에 의해 개선될 수 있다.
대안으로서, 현재 프레임을 위한 오디오 데이터의 신호 분석을 기초로 하여 현재 프레임을 위한 코딩 방식을 결정하기 위하여 개방 루프 방식이 실행될 수 있다. 이 경우에 있어서, 도 3c의 판정기는 현재 프레임을 위한 오디오 데이터의 신호 분석을 실행할 수 있고 그리고 나서 실제로 현재 오디오 프레임을 인코딩하기 위하여 대수 부호 여진 선형 예측 또는 변환 코딩 여진 인코더를 제어할 수 있다. 이러한 상황에 있어서, 인코더는 완전한 디코더가 필요하지 않을 수 있으며, 인코더 내의 인코딩 단계들만의 구현이 충분할 수 있다. 개방 루프 신호 분류들 및 신호 결정들은 예를 들면, 또한 확장 적응성 멀티-레이트-광대역(3GPP TS 26.920)에서 설명된다.
도 2a는 윈도우어(102) 및, 특히 윈도우어에 의해 제공되는 원도우들의 바람직한 구현을 도시한다.
바람직하게는, 현재 프레임을 위한 예측 코딩 분석 윈도우는 제 4 서브프레임의 중심에 위치되고 이러한 윈도우가 200에 표시된다. 게다가, 부가적인 선형 예측 코딩 분석 윈도우, 즉, 202로 표시되는 중간 프레임 선형 예측 코딩 분석 윈도우를 사용하고 현재 프레임의 제 2 서브프레임의 중심에 위치되는 것이 바람직하다. 게다가, 예를 들면, 변형 이산 코사인 변환 윈도우(204)와 같은, 변환 코딩 윈도우가 도시된 것과 같은 두 선형 예측 코딩 분석 윈도우(200, 202)와 관련하여 위치된다. 특히, 분석 윈도우의 예견 부는 예측 코딩 분석 윈도우의 예견 부와 같은 동일한 시간의 길이를 갖는다. 두 예견 부는 미래 프레임 내로 10 ms 확장한다. 게다가, 변환 코딩 분석 원도우는 오버랩 부(206)를 가질 뿐만 아니라 10 및 20 ms 사이의 비-오버랩 부(비-오버래핑 부, 209) 및 제 1 오버랩 부(210)를 갖는 것이 바람직하다. 오버랩 부들(206 및 210)은 디코더 내의 오버랩-가산기가 오버랩 부 내의 오버랩-가산 처리를 실행하나, 비-오버랩 부를 위한 오버랩-가산 처리는 필요하지는 않도록 된다.
바람직하게는, 제 1 오버랩 부(210)는 프레임의 처음에서, 즉 0 ms에서 시작하고 프레임의 중심, 즉, 10 ms까지 확장한다. 게다가, 비-오버랩 부는 프레임(210)의 제 1 부의 단부로부터 20 ms에서의 프레임의 단부까지 확장하며 따라서 제 2 오버랩 부(206)는 예견 부와 완전히 일치한다. 이는 하나의 방식으로부터 다른 방식으로의 전환에 기인하는 장점을 갖는다. 변환 코딩 여진 실행의 관점에서, 완전한 오버랩(통합 음성 및 오디오 코딩에서와 같은, 20 ms 오버랩)을 갖는 사인 윈도우를 사용하는 것이 더 나을 수 있다. 그러나, 이는 변환 코딩 여진 및 대수 부호 여진 선형 예측 사이의 전이를 위한 전방 에일리어싱 제거 같은 기술을 필요로 하도록 할 수 있다. 전방 에일리어싱 제거는 다음의 변환 코딩 여진 프레임들(대수 부호 여진 선형 예측에 의해 대체되는)에 의해 도입되는 에일리어싱을 제거하기 위하여 통합 음성 및 오디오 코딩에서 사용된다. 전방 에일리어싱 제거는 상당한 양의 비트들을 필요로 하며 따라서 일정한 비트레이트, 특히, 설명된 코덱의 바람직한 실시 예 같은 낮은 비트레이트 코덱에 적합하지 않다. 따라서, 본 발명의 실시 예들에 따라, 전방 에일리어싱 제거의 사용 대신에, 변환 코딩 여진 윈도우 오버랩은 감소되고 윈도우는 미래를 향하여 이동되며 따라서 완전한 오버랩 부는 미래 프레임 내에 위치된다. 게다가, 변환 코딩을 위하여 도 2a에 도시된 윈도우는 그럼에도 불구하고 현재 프레임 내의 완벽한 재구성을 수신하도록 최대 오버랩을 갖는다. 최대 오버랩은 바람직하게는 이용가능한 시간 내의 예견 10 ms, 즉 도 2a로부터 자명한 것과 같은 10 ms로 설정된다.
도 2a는 변환 인코딩을 위한 윈도우(204)가 분석 윈도우인, 인코더와 관련하여 설명되었으나, 윈도우(204)는 또한 변환 디코딩을 위한 합성 윈도우를 나타낸다는 것을 이해하여야 한다. 바람직한 실시 예에서, 분석 윈도우는 합성 윈도우와 동일하고, 두 윈도우는 자체로 대칭이다. 이는 두 윈도우가 (수평) 중심 라인에 대칭인 것을 의미한다. 그러나, 다른 적용들에서, 분석 윈도우가 합성 윈도우와 형태가 다른, 비대칭 윈도우들이 사용될 수 있다.
250에 도시된 오버랩-가산 프로세서에 의해 처리된 오버랩-가산 부는 각각의 프레임의 시작에서 각각의 프레임의 중간까지, 즉, 미래 프레임 데이터를 계산하기 위한 20 및 30 ms 사이 및 그 다음의 미래 프레임을 위한 데이터를 계산하기 위한 40 및 50 ms 사이 또는 현재 프레임을 위한 데이터를 계산하기 위한 0 및 10 ms 사이까지 확장하는 것이 자명하다. 그러나, 각각의 프레임의 후반(second half) 내의 데이터를 계산하기 위하여, 어떠한 오버랩-가산도, 따라서 어떠한 전방 에일리어싱 제거 기술도 필요하지 않다. 이는 합성 윈도우가 각각의 프레임의 후반 내에 비-오버랩 부를 갖는다는 사실에 기인한다.
일반적으로, 변형 이산 코사인 변환의 길이는 하나의 프레임의 길이의 두 배이다. 이는 또한 본 발명의 경우에도 적용된다. 다시 도 2a를 고려할 때, 그러나, 분석/합성 윈도우만이 0으로부터 30 ms로 확장하나, 윈도우의 완전한 길이는 40 ms라는 것이 자명해진다. 이러한 완전한 길이는 변형 이산 코사인 변환 계산의 상응하는 중첩(folding) 또는 탈중첩 운용을 위한 입력 데이터를 제공하는데 중요하다. 윈도우를 14 ms의 완전한 길이로 확장하기 위하여, 5 ms의 제로 값들이 -5 및 0 ms 사이에 가산되고 5초의 변형 이산 코사인 변환 제로 값들이 또한 30 및 35 ms 사이의 프레임의 단부에서 가산된다. 이러한 부가적인 부들은 제로들만을 가지나. 지연 고려사항에 이르면 어떠한 역할도 하지 않는데, 그 이유는 윈도우의 마지막 5 ms 및 윈도우의 처음 5 ms가 제로들이며, 따라서 이러한 데이터는 어떠한 지연 없이 이미 존재하는 것으로 인코더 또는 디코더에 알려졌기 때문이다.
도 2c는 두 가지 가능한 전이를 나타낸다. 그러나, 변환 코딩 여진으로부터 대수 부호 여진 선형 예측으로의 전이를 위하여, 어떠한 특별한 주의도 수행되지 않는데, 그 이유는 도 2a와 관련하여 미래 프레임이 대수 부호 여진 선형 예측 프레임으로 가정하면, 예견 부(206)를 위한 마지막 프레임을 변환 코딩 여진 디코딩함으로써 획득되는 데이터는 간단히 삭제될 수 있는데, 그 이유는 대수 부호 여진 선형 예측 프레임이 미래 프레임의 시작에서 즉각적으로 시작하고, 따라서 어떠한 데이터 홀(hole)도 존재하지 않기 때문이다. 대수 부호 여진 선형 예측 데이터는 자기 일관적이고(self-consistent) 따라서, 변환 코딩 여진으로부터 대수 부호 여진 선형 예측으로의 전환을 가질 때, 디코더는 현재 프레임을 위하여 변형 코딩 여진으로부터 계산된 데이터를 사용하고 미래 프레임을 위한 변환 코딩 여진 처리에 의해 획득되는 데이터를 버리며, 대신에 대수 부호 여진 선형 예측 브랜치로부터의 미래 프레임 데이터를 사용한다.
그러나, 대수 부호 여진 선형 예측으로부터 변환 코딩 여진으로의 전이가 실행될 때, 도 2a에 도시된 것과 같은 스펙트럼 전이 윈도우가 사용된다. 이러한 윈도우는 0부터 1의 프레임의 시작에서 시작하고, 비-오버랩 부(220)를 가지며 간단한 변형 이산 코사인 변환 윈도우의 오버랩 부(206)와 동일한 222에 표시되는 단부에서 오버랩 부를 갖는다.
이러한 윈도우는 부가적으로 윈도우의 시작에서 -12.5 내지 0 사이의 제로들로 그리고 단부에서, 즉, 예견 부(222) 다음에서 30 및 35.5 사이에서 패딩된다. 이는 증가된 변환 길이를 야기한다. 길이는 50 ms이나, 단순한 분석/합성 윈도우의 길이는 단지 40 ms이다. 그러나, 이는 효율을 감소시키거나 비트레이트를 증가시키지 않으며, 이러한 긴 변환은 대수 부호 여진 선형 예측으로부터 변환 코딩 여진으로의 전환이 발생할 때 필요하다. 상응하는 디코더에서 사용되는 전이 윈도우는 도 2c에 도시된 윈도우와 동일하다.
그 뒤에, 디코더가 더 상세히 논의된다. 도 1b는 인코딩된 오디오 신호를 디코딩하기 위한 오디오 디코더를 도시한다. 오디오 디코더는 예측 파라미터 디코더(180)를 포함하는데, 예측 파라미터 디코더(180)는 181에서 수신되고 인터페이스(182) 내로 입력되는 인코딩된 오디오 신호로부터 예측 코딩된 프레임을 위한 데이터의 디코딩을 실행하도록 구성된다. 디코더는 부가적으로 라인(181) 상의 입력된 오디오 신호로부터 변환 코딩된 프레임을 위한 데이터의 디코딩을 실행하기 위한 변환 파라미터 디코더(183)를 포함한다. 변환 파라미터 디코더는 바람직하게는, 현재 프레임 및 미래 프레임을 위한 데이터를 획득하기 위하여 에일리어싱-영향 스펙트럼-시간 변환을 실행하고 합성 윈도우를 변환된 데이터에 적용하도록 구성된다. 합성 윈도우는 도 2a에 도시된 것과 같이 제 1 오버랩 부, 인접한 제 2 오버랩 부, 및 인접한 제 3 오버랩 부를 갖는데, 제 3 오버랩 부는 미래 프레임을 위한 오디오 샘플들과만 관련되고 비-오버랩 부는 현재 프레임의 데이터와만 관련된다. 게다가, 미래 프레임을 위한 오디오 샘플들의 제 1 부를 획득하기 위하여 현재 프레임을 위한 합성 윈도우의 제 3 오버랩 부와 관련된 합성 윈도우 샘플들 및 미래 프레임을 위한 합성 윈도우의 제 1 오버랩 부와 관련된 샘플들에서 합성 윈도우을 오버래핑하고 가산하기 위하여 오버랩 가산기(184)가 제공된다. 미래 프레임을 위한 나머지 오디오 샘플들은 현재 프레임 및 미래 프레임이 변환 코딩된 데이터를 포함할 때 오버래핑-가산 없이 획득된 미래 프레임을 위한 합성 윈도우의 제 2 비-오버랩 부와 관련된 합성 윈도우잉된 샘플들이다. 그러나, 하나의 프레임으로부터 그 다음 프레임으로 전환이 발생할 때, 결합기(combiner, 185)의 출력에서 최종적으로 디코딩된 오디오 데이터를 획득하기 위하여 하나의 코딩 방식으로부터 다른 코딩 방식으로의 뛰어난 전환을 다뤄야만 하는 결합기(185)가 유용하다.
도 1c는 변환 파라미터 장치(183)의 구조에 대하여 더 상세히 도시된다.
디코더는 블록(183)의 출력에서 디코딩된 스펙트럼 값들을 획득하기 위하여 산술 코딩, 허프만(Huffman) 디코딩 또는 일반적으로 엔트로피 디코딩 및 그 뒤의 탈양자화 등과 같은 인코딩된 스펙트럼 데이터를 디코딩하는데 필요한 모든 처리를 실행하도록 구성되는 디코더 처리 단계(183a)를 포함한다. 이러한 스펙트럼 값들은 스펙트럼 가중기(spectral weighter, 183b) 내로 입력된다. 스펙트럼 가중기(183b)는 디코더 면상의 예측 분석 블록으로부터 발생된 선형 예측 코딩 데이터에 의해 공급되고 디코더에서 입력 인터페이스(182)를 거쳐 수신되는, 선형 예측 코딩 가중 데이터 계산기(183c)로부터 스펙트럼 가중 데이터를 수신한다. 그리고 나서, 바람직하게는, 제 1 단계로서, 미래 프레임을 위한 데이터가 예를 들면, 오버랩-가산기(184)에 제공되기 전에, 이산 코사인 변환(DCT)-Ⅳ 역 변환(183d) 및 그 뒤에 탈중첩과 합성 윈도우잉 처리(183c)를 포함하는 역 스펙트럼 변환이 실행된다. 오버랩-가산기는 그 다음의 미래 프레임을 위한 데이터가 이용가능할 때 오버랩-가산 운용을 실행할 수 있다. 블록들(183d 및 183e)은 스펙트럼/시간 변환 또는 도 1c의 실시 예에서, 바람직한 변형 이산 코사인 변환 역변환을 함께 구성한다.
특히, 블록(183d)은 20 ms의 프레임을 위한 데이터를 수신하고, 40 ms, 즉, 이전부터의 데이터의 양의 두 배를 위한 데이터 내로의 블록(183e)의 탈중첩 단계에서 데이터 크기를 증가시키며, 그 뒤에 40 ms의 길이(윈도우의 시작 및 단부에서 제로 부들이 함께 가산될 때)를 갖는 합성 윈도우가 이러한 40 ms의 데이터에 적용된다. 그리고 나서, 블록(183e)의 출력에서, 현재 블록을 위한 데이터 및 미래 블록을 위한 예견 부 내의 데이터가 이용가능하다.
도 1d는 상응하는 인코더 면 처리를 도시한다. 도 1d의 맥락에서 논의된 특징들은 인코딩 프로세서(104)에서 또는 도 3a의 상응하는 블록들에 의해 구현된다. 도 3a의 시간-주파수 전환(310)은 바람직하게는 변형 이산 코사인 변환으로서 구현되고 윈도우잉, 중첩 단계(310a)를 포함하는데, 도 3a의 블록(310) 내의 윈도우잉 운용은 40 ms의 입력 데이터를 20 ms의 프레임 데이터 내로 재도입하기 위한 중첩 운용이다. 그리고 나서, 수신된 에일리어싱 기여를 갖는 중첩된 데이터와 함께, 이산 코사인 변환-Ⅳ가 블록 310d에 도시된 것과 같이 실행된다. 블록(302)은 종단 프레임 선형 예측 코딩 윈도우를 사용하여 분석으로부터 유래하는 선형 예측 코딩 데이터를 (선형 예측 코딩 또는 변형 이산 코사인 변환) 블록(302b)에 제공하고, 블록(302d)은 스펙트럼 가중기(312)에 의해 스펙트럼 가중을 실행하도록 가중 인자들을 발생시킨다. 바람직하게는, 변환 코딩 여진 인코딩 방식에서 20 ms의 하나의 프레임을 위한 16 선형 예측 코딩 계수들은 바람직하게는 홀수 이산 푸리에 변환(odd DFT)을 사용하여, 16 변형 이산 코사인 변환 도메인 가중 인자들 내로 변환된다. 8 ㎑의 샘플링 레이트를 갖는 NB 방식들과 같은 다른 방식들을 위하여, 선형 예측 코딩 계수들의 수는 10과 같이 적을 수 있다. 높은 샘플링 레이트들을 갖는 다른 방식들을 위하여, 또한 16 이상의 선형 예측 코딩 계수들이 존재할 수 있다. 이러한 홀수 이산 푸리에 변환의 결과는 16 가중 값들이고, 각각의 가중 값은 블록 310b에 의해 획득되는 스펙트럼 데이터의 대역과 관련된다. 스펙트럼 가중은 블록 312에서 이러한 스펙트럼 가중 운용을 매우 효율적으로 실행하기 위하여 하나의 대역을 위한 모든 변형 이산 코사인 변환 스펙트럼 값들을 이러한 대역과 관련된 동일한 가중 값으로 나눔으로써 발생한다. 따라서, 예를 들면, 양자화 및 엔트로피-코딩에 의해 종래에 알려진 것과 같이 블록 314에 의해 더 처리되는 스펙트럼으로 가중된 스펙트럼 값들을 획득하기 위하여, 변형 이산 코사인 변환 값들의 16 대역들이 상응하는 가중 인자에 의해 각각 나눠진다.
다른 한편으로, 디코더 면상에서, 도 1d의 블록 312와 상응하는 스펙트럼 가중이 도 1c에 도시된 스펙트럼 가중기(183b)에 의해 곱셈 실행된다.
그 뒤에, 선형 예측 코딩 분석 윈도우들에 의해 발생되거나 또는 도 2에 도시된 두 선형 예측 코딩 분석 윈도우들에 의해 발생된 선형 예측 코딩 데이터가 어떻게 대수 부호 여진 선형 예측 방식에서 또는 변환 코딩 여진/변형 이산 코사인 변환 방식에서 사용되는지를 설명하기 위하여 도 4a 및 4b가 논의된다.
선형 예측 코딩 분석 윈도우의 적용 다음에, 선형 예측 코딩 윈도우잉된 데이터로 자기상관 계산이 실행된다. 그리고 나서, 자기상관 함수 상에 레빈슨 더빈 알고리즘이 적용된다. 그리고 나서 각각의 선형 예측 분석을 위한 16 선형 예측 계수들, 즉, 중간 프레임 윈도우를 위한 16 계수들 및 종단 프레임 계수들을 위한 16 계수들이 이미턴스 스펙트럼 쌍 값들 내로 전환된다. 따라서, 자기상관 계산으로부터 이미턴스 스펙럼 쌍 전환으로의 단계들은 예를 들면, 도 4a의 블록 400에 실행된다.
그리고 나서, 이미턴스 스펙트럼 쌍 계수들의 양자화에 의해 인코더 면상에서 계산이 계속된다. 그리고 나서, 이미턴스 스펙트럼 쌍 계수들은 다시 탈양자화되고 다시 선형 예측 계수 도메인으로 전환된다. 따라서 선형 예측 코딩 데이터 또는 달리 말하면, 블록 400에서 유래하는(양자화 및 재양자화에 기인하는) 선형 예측 코딩 계수들과 약간 다른 16 선형 예측 코딩 계수들이 획득되는데, 이는 그리고 나서 단계 401에 표시된 것과 같은 제 4 서브프레임을 위하여 사용될 수 있다. 그러나, 다른 서브프레임들을 위하여, 예를 들면, Rec. ITU-T G.718(06/2008)의 섹션 6.8.3에 설명된 것과 같이 몇몇 보간들을 실행하는 것이 바람직하다. 제 3 서브프레임을 위한 선형 예측 코딩 데이터는 블록 402에 도시된 종단 프레임 및 중간 프레임 선형 예측 코딩 데이터를 보간함으로써 계산된다. 바람직한 보간은 각각의 상응하는 데이터가 2로 나눠지고 함께 더하는 것, 즉, 종단 프레임 및 중간 프레임 선형 예측 코딩 데이터의 평균이다. 블록 403에 도시된 것과 같이 제 2 서브프레임을 위한 선형 예측 코딩 데이터를 계산하기 위하여, 부가적으로, 보간이 실행된다. 특히, 최종적으로 제 2 서브프레임을 위한 선형 예측 코딩 데이터를 계산하기 위하여 마지막 프레임의 종단 프레임 선형 예측 코딩 데이터의 값들의 10%, 현재 프레임을 위한 중간 프레임 선형 예측 코딩 데이터의 80% 및 현재 프레임의 종단 프레임을 위한 선형 예측 코딩 데이터의 값들의 10%가 사용된다.
끝으로, 마지막 프레임의 종단 프레임 선형 예측 코딩 데이터 및 현재 프레임의 중간 프레임 선형 예측 코딩 데이터 사이의 평균을 형성함으로써 블록 404에 표시된 것과 같이, 제 1 프레임을 위한 선형 예측 코딩 데이터가 계산된다.
대수 부호 여진 선형 예측 인코딩을 실행하기 위하여, 중간 프레임 분석 및 종단 프레임 분석으로부터의 두 양자화된 선형 예측 코딩 파라미터 세트들은 디코더로 전송된다.
블록 401 내지 404에 의해 계산된 개별 서브프레임들을 위한 결과들을 기초로 하여, 대수 부호 여진 선형 예측 계산들은 디코더로 전송되려는 대수 부호 연진 선형 예측 데이터를 획득하기 위하여 블록 405에 표시된 것과 같이 실행된다.
그 뒤에, 도 4b가 설명된다. 다시, 블록 400에서, 중간 프레임 및 종단 프레임 선형 예측 코딩 데이터가 계산된다. 그러나, 변환 코딩 여진 인코딩 방식이 존재하기 때문에, 종단 프레임 선형 예측 코딩 데이터만이 디코더로 전송되고 중간 프레임 선형 예측 코딩 데이터는 디코더로 전송되지 않는다. 특히, 이는 선형 예측 코딩 계수들 자체를 디코더로 전송하지 않으나, 이미턴스 스펙트럼 쌍 변환 및 양자화 이후에 획득된 값들을 전송한다. 따라서, 선형 예측 코딩 데이터로서, 종단 프레임 선형 예측 코딩 데이터 계수들로부터 유래하는 양자화된 이미턴스 스펙트럼 쌍 값들이 디코더로 전송된다.
그러나, 인코더에 있어서, 단계들 406 내지 408에서의 과정들은 그럼에도 불구하고 현재 프레임의 변형 이산 코사인 변환 스펙트럼 데이터를 가중하기 위한 가중 인자를 획득하도록 실행되어야 한다. 이를 위하여, 현재 프레임의 종단 프레임 선형 예측 코딩 데이터, 및 과거 프레임의 종단 프레임 선형 예측 코딩 데이터가 보간된다. 그러나, 선형 예측 코딩 분석으로부터 직접적으로 유래한 것과 같은 선형 예측 코딩 데이터 계수들 자체는 보간하지 않는 것이 바람직하다. 대신에, 상응하는 선형 예측 코딩 계수들로부터 유래하는 양자화되고 다시 탈양자화된 이미턴스 스펙트럼 쌍 값들을 보간하는 것이 바람직하다. 따라서, 블록 406에서 사용되는 선형 예측 코딩 데이터뿐만 아니라 블록 401 내지 404에서 다른 계산들을 위하여 사용되는 선형 예측 코딩 데이터는 바람직하게는, 항상 선형 예측 코딩 분석 윈도우 당 오리지널 16 선형 예측 코딩 계수들로부터 유래하는 양자화되고 다시 탈양자화되는 이미턴스 스펙트럼 쌍 데이터이다.
블록(406)에서의 보간은 바람직하게는 순 평균인데, 즉, 상응하는 값들이 더해지고 2로 나뉜다. 그리고 나서, 블록(407)에서, 현재 프레임의 변형 이산 코사인 변환 스펙트럼 데이터가 보간된 선형 예측 코딩 데이터를 사용하여 가중되고, 블록(408)에서 최종적으로 인코더로부터 디코더로 전송되려는 인코딩된 스펙트럼 데이터를 획득하기 위하여 가중된 스펙트럼 데이터의 뒤따르는 처리가 실행된다. 따라서, 단계 407에서 실행되는 과정들은 블록(312)과 상응하고, 도 4d의 블록 408에서 실행되는 과정은 도 4d의 블록 314와 상응한다. 상응하는 운용들은 실제로 디코더 면상에서 실행된다. 따라서, 한편으로는 스펙트럼 가중 인자들을 계산하기 위하여 또는 다른 한편으로는 보간에 의한 개별 서브프레임들을 위한 선형 예측 코딩 계수들을 계산하기 위하여 동일한 보간들이 디코더 면 상에 필요하다. 따라서, 도 4a 및 4b는 도 4b의 블록 401 내지 404에서의 과정과 관련하여 디코더 면에 동일하게 적용가능하다.
본 발명은 특히 저지연 코덱 구현들에 유용하다. 이는 그러한 코덱들이 바람직하게는 45 ms 이하 및, 일부 경우에 있어서 35 ms와 동일하거나 낮은 알고리즘 또는 체계적인 지연을 갖도록 디자인된다는 것을 의미한다. 그럼에도 불구하고, 선형 예측 코딩 분석 및 변환 코딩 여진 분석을 위한 예견 부는 뛰어난 오디오 품질을 획득하는데 필요하다. 따라서, 두 모순되는 요구사항 사이의 뛰어난 균형이 필요하다. 한편으로는 지연 및 다른 한편으로는 품질 사이의 뛰어난 균형은 20 ms의 프레임 길이를 갖는 전환된 오디오 인코더 또는 디코더에 의해 획득될 수 있다는 것이 알려졌으나, 15 및 30 ms 사이의 프레임 길이들을 위한 값들이 또한 수용할만한 결과들을 제공한다는 것이 알려졌다. 다른 한편으로, 지연 문제에 관해서라면 10 ms의 예견 부가 수용가능하다는 것이 알려졌으나, 상응하는 적용에 따라 5 ms 및 20 ms 사이의 값들이 또한 유용하다는 것이 알려졌다. 게다가, 예견 부 및 프레임 길이 사이의 관계는 0.5의 값을 가질 때 유용하나, 0.4 및 0.6 사이의 다른 값들이 또한 유용하다는 것이 알려졌다. 게다가, 본 발명이 한편으로는 대수 부호 여진 선형 예측 및 다른 한편으로는 변형 이산 코사인 변환-변환 코딩 여진으로 설명되었으나, 부호 여진 선형 예측과 같은 시간 도메인 또는 다른 예측 또는 파형 알고리즘들이 또한 유용하다. 변환 코딩 여진/변형이산 코사인 변환과 관련하여, 변형 이산 사인 변환과 같은 다른 변환 도메인 코딩 알고리즘들 또는 다른 변환 기반 알고리즘들이 또한 적용될 수 있다.
선형 예측 코딩 분석 및 선형 예측 코딩 계산의 특정 구현들을 위해서도 마찬가지이다. 이전에 설명된 과정들에 의존하는 것이 바람직하나, 계산/보간 및 분석을 위한 다른 과정들은 그러한 과정들이 선형 예측 코딩 분석 윈도우에 의존하는 한, 또한 사용될 수 있다.
장치의 맥락에서 일부 양상들이 설명되었으나, 이러한 양상들은 또한 블록 또는 장치가 방법 단계 또는 방법 단계의 특징에 상응하는, 상응하는 방법의 설명을 나타내는 것이 자명하다. 유사하게, 방법 단계의 맥락에서 설명된 양상들은 또한 상응하는 장치의 상응하는 블록 또는 아이템 또는 특징을 나타낸다.
특정 구현 필요성에 따라, 본 발명의 실시 예들은 하드웨어 또는 소프트웨어에서 구현될 수 있다. 구현은 디지털 저장 매체, 예를 들면, 거기에 저장되는 전자적으로 판독가능한 신호들을 갖는, 플로피 디스크, DVD, CD, ROM,, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 실행될 수 있는데, 이는 각각의 방법이 실행되는 것과 같이 프로그램가능 컴퓨터 시스템과 협력한다(또는 협력할 수 있다).
본 발명에 따른 일부 실시 예들은 여기에 설명된 방법들 중의 하나가 실행되는 것과 같이, 프로그램가능 컴퓨터 시스템과 협력할 수 있는, 전자적으로 판독가능한 제어 신호들을 갖는 비-일시적 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시 예들은 프로그램 코드를 갖는 컴퓨터 프로그램 베춤으로서 구현될 수 있는데, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터상에 구동될 때 방법들 중의 하나를 실행하도록 작동할 수 있다. 프로그램 코드는 예를 들면 기계 판독가능 캐리어 상에 저장될 수 있다.
다른 실시 예들은 기계 판독가능 캐리어 상에 저장되는, 여기에 설명된 방법들 중의 하나를 실행하기 위한 컴퓨터 프로그램을 포함한다.
바꾸어 말하면, 따라서 본 발명의 방법의 일 실시 예는 컴퓨터 프로그램이 컴퓨터상에 구동할 때, 여기에 설명된 방법들 중의 하나를 실행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
본 발명의 방법의 또 다른 실시 예는 따라서 여기에 설명된 방법들 중의 하나를 실행하기 위하여 그것에 대해 기록된, 컴퓨터 프로그램을 포함하는 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터 판독가능 매체)이다.
본 발명의 방법의 또 다른 실시 예는 따라서 여기에 설명된 방법들 중의 하나를 실행하기 위한 컴퓨터 프로그램을 표현하는 신호들의 데이터 스트림 또는 시퀀스이다. 신호들의 데이터 스트림 또는 시퀀스는 예를 들면 데이터 통신 연결, 예를 들면 인터넷을 거쳐 전달되도록 구성될 수 있다.
또 다른 실시 예는 처리 수단들, 예를 들면, 여기에 설명된 방법들 중의 하나를 실행하거나 적용하도록 구성되는 컴퓨터, 또는 프로그램가능 논리 장치를 포함한다.
또 다른 실시 예는 여기에 설명된 방법들 중의 하나를 실행하기 위하여 거기에 설치된 컴퓨터 프로그램을 갖는 컴퓨터를 포함한다.
일부 실시 예들에서, 프로그램가능 논리 장치(예를 들면, 필드 프로그램가능 게이트 어레이(field programmable gate array))는 여기에 설명된 방법들의 기능들이 일부 또는 모두를 실행하도록 사용될 수 있다. 일부 실시 예들에서, 필드 프로그램가능 게이트 어레이는 여기에 설명된 방법들 중의 하나를 실행하기 위하여 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게는 어떠한 하드웨어 장치에 의해 실행된다.
위에서 설명된 실시 예들은 단지 본 발명의 원리를 설명하기 위한 것이다. 여기에 설명된 배치들 및 내용들의 변형 및 변경들은 통상의 지식을 가진 자들에 자명할 것이라는 것을 이해하여야 한다. 따라서, 본 발명의 실시 예들의 설명에 의해 표현된 특정 상세 내용에 의한 것이 아니라 첨부된 청구항들의 범위에 의해서만 한정되는 것으로 의도된다.
100 : 오디오 데이터
102 : 윈도우어
104 : 인코딩 프로세서
106 : 출력 인터페이스
108a : 선형 예측 코딩 데이터
108b : 라인
112 : 컨트롤러
112a, 112b, 112c : 비교기
114a, 114b : 제어 라인
180 : 예측 파라미터 디코더
181 : 라인
182 : 인터페이스
183 : 변환 파라미터 디코더
184 : 오버랩 가산기
185 : 결합기
200 : 윈도우
202 : 선형 예측 코딩 분석 윈도우
204 : 변형 이산 코사인 변환 윈도우
206 : 오버랩 부
210 : 제 1 오버랩 부
222 : 예견 부
302 : 보간기
304 : 가중 블록
306 : 예측 코딩 계산기
310 : 시간-주파수 전환 블록
312 : 스펙트럼 가중 블록
314 : 처리/양자화 인코딩 블록

Claims (27)

  1. 오디오 샘플들(100)의 스트림을 갖는 오디오 신호를 인코딩하기 위한 장치에 있어서,
    예측 분석을 위한 윈도우잉된 데이터를 획득하기 위하여 예측 코딩 분석 윈도우(200)를 상기 오디오 샘플들의 스트림에 적용하고 변환 분석을 위한 윈도우잉된 데이터를 획득하기 위하여 변환 코딩 분석 윈도우(204)를 오디오 샘플들의 상기 스트림에 적용하기 위한 윈도우어(102)를 구비하되, 상기 변환 코딩 분석 윈도우는 오디오 샘플들의 현재 프레임 내의 오디오 샘플들 및 변환 코딩 예견 부(206)인 오디오 샘플들의 미래 프레임의 미리 정의된 부분의 오디오 샘플들과 관련되고, 상기 예측 코딩 분석 윈도우는 상기 현재 프레임의 상기 오디오 샘플들의 적어도 일부 및 예측 코딩 예견 부(208)인 상기 미래 프레임의 미리 정의된 부분의 오디오 샘플들과 관련되며, 상기 변환 코딩 예견 부(206) 및 상기 예측 코딩 예견 부(208)는 서로 동일하거나 또는 상기 예측 코딩 예견 부(208)의 20% 이하 또는 상기 변환 코딩 예견 부(206)의 20% 이하에 의해 서로 다른, 윈도우어(102); 및
    상기 예측 분석을 위한 윈도우잉된 데이터를 사용하여 상기 현재 프레임을 위한 예측 코딩된 데이터를 발생시키거나 또는 상기 변환 분석을 위한 윈도우잉된 데이터를 사용하여 상기 현재 프레임을 위한 변환 코딩된 데이터를 발생시키기 위한 인코딩 프로세서(104);를 포함하며,

    또 다른 예측 코딩 분석 윈도우(202)는 상기 미래 프레임 내의 예견 부를 갖지 않으며 상기 현재 프레임의 샘플들과 관련되며, 또는

    상기 인코딩하기 위한 장치는 상기 현재 프레임을 위한 인코딩된 신호를 출력하기 위한 출력 인터페이스(106); 및
    상기 현재 프레임을 위한 예측 코딩된 데이터 또는 변환 코딩된 데이터를 출력하도록 상기 인코딩 프로세서(104)를 제어하기 위한 인코딩 방식 선택기(112);를 더 포함하되,
    상기 윈도우어(102)는 예측 코딩 윈도우 앞의 상기 현재 프레임 내에 위치되는 또 다른 예측 코딩 윈도우를 사용하도록 구성되고,
    상기 인코딩 방식 선택기(112)는 상기 인코딩 프로세서가 상기 예측 코딩 윈도우로부터 유래하는 예측 코딩 분석 데이터만을 전달하고, 상기 변환 코딩된 데이터가 상기 출력 인터페이스로 출력될 때 상기 또 다른 예측 코딩 윈도우로부터 유래하는 상기 예측 코딩 분석 데이터를 전달하지 않게 제어하도록 구성되며, 및
    상기 인코딩 방식 선택기(112)는 상기 예측 코딩된 데이터가 상기 출력 인터페이스로 출력될 때, 상기 인코딩 프로세서가 상기 예측 코딩 윈도우로부터 유래하는 예측 코딩 분석 데이터를 전달하고 상기 또 다른 예측 코딩 윈도우로부터 유래하는 상기 예측 코딩 분석 데이터를 전달하도록 제어하도록 구성되는 것을 것을 특징으로 하는 오디오 신호를 인코딩하기 위한 장치.
  2. 제 1항에 있어서, 상기 변환 코딩 분석 윈도우(204)는 상기 변환 코딩 예견 부(206) 내에서 확장하는 비-오버래핑 부를 포함하는 특징으로 하는 오디오 신호를 인코딩하기 위한 장치.
  3. 제 2항에 있어서, 상기 변환 코딩 분석 윈도우(204)는 상기 현재 프레임의 시작에서 시작하고 상기 비-오버래핑 부(209)의 시작에서 끝나는 또 다른 오버래핑 부(210)를 포함하는 특징으로 하는 오디오 신호를 인코딩하기 위한 장치.
  4. 제 1항에 있어서, 상기 윈도우어(102)는 하나의 프레임으로부터 그 다음 프레임으로 예측 코딩으로부터 변환 코딩으로의 전이를 위한 전이 윈도우(220, 222)만을 사용하도록 구성되고, 상기 전이 윈도우는 하나의 프레임으로부터 그 다음 프레임으로 변환 코딩으로부터 예측 코딩으로의 전이를 위하여 사용되지 않는 것을 특징으로 하는 오디오 신호를 인코딩하기 위한 장치.
  5. 제 1항에 있어서,
    상기 현재 프레임을 위한 인코딩된 신호를 출력하기 위한 출력 인터페이스(106); 및
    상기 현재 프레임을 위한 예측 코딩된 데이터 또는 변환 코딩된 데이터를 출력하도록 상기 인코딩 프로세서(104)를 제어하기 위한 인코딩 방식 선택기(112);를 더 포함하되,
    상기 인코딩 방식 선택기(112)는 전체 프레임을 위한 예측 코딩 또는 변환 코딩 사이에서만 전환하도록 구성되며 따라서 전체 프레임을 위한 상기 인코딩된 신호는 예측 코딩된 데이터 또는 변환 코딩된 데이터를 포함하는 것을 특징으로 하는 오디오 신호를 인코딩하기 위한 장치.
  6. 제 1항에 있어서,
    상기 윈도우어(102)는 상기 예측 코딩 분석 윈도우에 더하여, 상기 현재 프레임의 시작에 위치되는 오디오 샘플들과 관련된 또 다른 예측 코딩 분석 윈도우(202)를 사용하며, 상기 예측 코딩 분석 윈도우(200)는 상기 현재 프레임의 시작에 위치되는 오디오 샘플들과 관련되지 않는 것을 특징으로 하는 오디오 신호를 인코딩하기 위한 장치.
  7. 제 1항에 있어서,
    상기 프레임은 복수의 서브프레임을 포함하고, 상기 예측 코딩 분석 윈도우(200)는 서브프레임의 중심에 위치되며, 상기 변환 코딩 분석 윈도우는 두 서브프레임 사이의 경계의 중심에 위치되는 것을 특징으로 하는 오디오 신호를 인코딩하기 위한 장치.
  8. 제 7항에 있어서,
    상기 예측 코딩 분석 윈도우(200)는 상기 프레임의 마지막 서브프레임의 중심에 위치되고, 또 다른 분석 윈도우(202)는 상기 현재 프레임의 제 2 서브프레임의 중심에 위치되며, 상기 변환 코딩 분석 윈도우는 상기 현재 프레임의 제 3 및 제 4 서브프레임 사이의 경계의 중심에 위치되며, 상기 현재 프레임은 4개의 서브프레임으로 세분되는 것을 특징으로 하는 오디오 신호를 인코딩하기 위한 장치.
  9. 삭제
  10. 제 1항에 있어서, 상기 변환 코딩 분석 윈도우는 부가적으로 윈도우의 시작 전에 제로 부 및 상기 윈도우의 단부 뒤에 제로 부를 포함하며 따라서 상기 변환 코딩 분석 윈도우의 시간 내의 총 길이는 상기 현재 프레임의 시간 내의 길이의 두 배인 것을 특징으로 하는 오디오 신호를 인코딩하기 위한 장치.
  11. 제 10항에 있어서, 하나의 프레임으로부터 그 다음 프레임으로 상기 예측 코딩 방식으로부터 상기 변환 코딩 방식으로의 전이를 위하여, 상기 윈도우어(102)에 의해 전이 윈도우가 사용되고,
    상기 전이 윈도우는 상기 프레임의 시작에서 시작하는 제 1 비-오버래핑 부 및 상기 비-오버래핑 부의 단부에서 시작하고 상기 미래 프레임 내로 확장하는 오버랩 부를 포함하며,
    상기 미래 프레임 내로 확장하는 오버랩 부는 상기 분석 윈도우의 상기 변환 코딩 예견 부의 길이와 동일한 길이를 갖는 것을 특징으로 하는 오디오 신호를 인코딩하기 위한 장치.
  12. 제 1항에 있어서, 상기 변환 코딩 분석 윈도우의 시간 내의 길이는 상기 예측 코딩 분석 윈도우(200, 202)의 시간 내의 길이보다 큰 것을 특징으로 하는 오디오 신호를 인코딩하기 위한 장치.
  13. 삭제
  14. 제 1항에 있어서,
    상기 인코딩 프로세서(104)는:
    예측 분석을 위하여 상기 윈도우잉된 데이터(100a)로부터 상기 현재 프레임을 위한 예측 코딩 데이터를 유도하기 위한 예측 코딩 분석기(302);
    상기 예측 코딩 데이터를 사용하여 상기 현재 프레임을 위한 오디오 샘플들로부터 필터 데이터를 계산하기 위한 필터 단계(304), 및 상기 인코딩 프로세서가 현재 프레임을 위한 예측 코딩 데이터들을 발생시키도록 작동할 때 상기 현재 프레임을 위한 예측 코딩 파라미터들을 계산하기 위한 예측 코더 파라미터 계산기(306)를 포함하는 예측 코딩 브랜치; 및
    상기 변환 분석을 위하여 윈도우잉된 데이터를 스펙트럼 표현 내로 전환하기 위한 시간-스펙트럼 전환기(310), 가중 스펙트럼 데이터를 획득하기 위하여 상기 예측 코딩 데이터로부터 유래하는 가중 데이터를 사용하여 상기 스펙트럼 데이터를 가중하기 위한 스펙트럼 가중기(312), 및 상기 인코딩 프로세서가 현재 프레임을 위한 변환 코딩된 데이터들을 발생시키도록 작동할 때 상기 현재 프레임을 위한 변환 코딩된 데이터를 획득하기 위하여 상기 가중 스펙트럼 데이터를 처리하기 위한 스펙트럼 데이터 프로세서(314)를 포함하는 변환 코딩 브랜치;를 포함하는 것을 특징으로 하는 오디오 신호를 인코딩하기 위한 장치.
  15. 오디오 샘플들(100)의 스트림을 갖는 오디오 신호를 인코딩하는 방법에 있어서,
    예측 분석을 위한 윈도우잉된 데이터를 획득하기 위하여 예측 코딩 분석 윈도우(200)를 상기 오디오 샘플들의 스트림에 적용하고 변환 분석을 위한 윈도우잉된 데이터를 획득하기 위하여 변환 코딩 분석 윈도우(204)를 오디오 샘플들의 상기 스트림에 적용하는 단계(102)를 구비하되,
    상기 변환 코딩 분석 윈도우는 오디오 샘플들의 현재 프레임 내의 오디오 샘플들 및 변환 코딩 예견 부(206)인 오디오 샘플들의 미래 프레임의 미리 정의된 부분의 오디오 샘플들과 관련되고,
    상기 예측 코딩 분석 윈도우는 상기 현재 프레임의 상기 오디오 샘플들의 적어도 일부 및 예측 코딩 예견 부(208)인 상기 미래 프레임의 미리 정의된 부분의 오디오 샘플들과 관련되며,
    상기 변환 코딩 예견 부(206) 및 상기 예측 코딩 예견 부(208)는 서로 동일하거나 또는 상기 예측 코딩 예견 부(208)의 20% 이하 또는 상기 변환 코딩 예견 부(206)의 20% 이하에 의해 서로 다른, 단계(102); 및
    상기 예측 분석을 위한 윈도우잉된 데이터를 사용하여 상기 현재 프레임을 위한 예측 코딩된 데이터를 발생시키거나 또는 상기 변환 분석을 위한 윈도우잉된 데이터를 사용하여 상기 현재 프레임을 위한 변환 코딩된 데이터를 발생시키는 단계(104);를 포함하며,

    상기 발생시키는 단계(104)는:
    예측 분석을 위하여 상기 윈도우잉된 데이터(100a)로부터 상기 현재 프레임을 위한 예측 코딩 데이터를 유도하는 단계;
    상기 예측 코딩 데이터를 사용하여 상기 현재 프레임을 위한 오디오 샘플들로부터 필터 데이터를 계산하는 단계(304), 및 상기 발생시키는 단계(104)가 현재 프레임을 위한 예측 코딩 데이터들을 발생시키는 단계를 포함할 때 상기 현재 프레임을 위한 예측 코딩 파라미터들을 계산하는 단계(306); 또는
    상기 변환 분석을 위하여 윈도우잉된 데이터를 스펙트럼 표현 내로 전환하는 단계(310), 가중 스펙트럼 데이터를 획득하기 위하여 상기 예측 코딩 데이터로부터 유래하는 가중 데이터를 사용하여 상기 스펙트럼 데이터를 가중하는 단계(312), 및 상기 발생시키는 단계가 현재 프레임을 위한 변환 코딩된 데이터들을 발생시키는 단계를 포함할 때 상기 현재 프레임을 위한 변환 코딩된 데이터를 획득하기 위하여 상기 가중 스펙트럼 데이터를 처리하는 단계(314);를 포함하고,

    또 다른 예측 코딩 분석 윈도우(202)는 상기 미래 프레임 내의 예견 부를 갖지 않으며 상기 현재 프레임의 샘플들과 관련되고,

    상기 인코딩하는 방법은:
    상기 현재 프레임을 위한 인코딩된 신호를 출력하는 단계(106); 및
    상기 현재 프레임을 위한 예측 코딩된 데이터 또는 변환 코딩된 데이터를 출력하기 위해 상기 발생시키는 단계(104)를 제어하는 단계(112);를 더 포함하되,
    상기 적용하는 단계는 예측 코딩 윈도우 앞의 상기 현재 프레임 내에 위치되는 또 다른 예측 코딩 윈도우를 사용하는 것을 포함하고,
    상기 제어하는 단계(112)는 상기 예측 코딩 윈도우로부터 유래하는 예측 코딩 분석 데이터만을 전달하고, 상기 변환 코딩된 데이터가 출력될 때 상기 또 다른 예측 코딩 윈도우로부터 유래하는 상기 예측 코딩 분석 데이터를 전달하지 않게 발생시키는 단계(104)를 제어하는 단계를 포함하며,
    상기 제어하는 단계(112)는 상기 예측 코딩된 데이터가 출력될 때, 상기 예측 코딩 윈도우로부터 유래하는 예측 코딩 분석 데이터를 전달하고 상기 또 다른 예측 코딩 윈도우로부터 유래하는 상기 예측 코딩 분석 데이터를 전달하기 위해 발생시키는 단계(104)를 제어하는 단계를 포함하는 것을 특징으로 하는 오디오 신호를 인코딩하는 방법.
  16. 삭제
  17. 인코딩된 오디오 신호를 디코딩하기 위한 오디오 디코더에 있어서,
    상기 인코딩된 오디오 신호로부터 예측 코딩된 프레임을 위한 데이터의 디코딩을 실행하기 위한 예측 파라미터 디코더(180);
    상기 인코딩된 오디오 신호로부터 변환 코딩된 프레임을 위한 데이터의 디코딩을 실행하기 위한 변환 파라미터 디코더(183)를 구비하되, 상기 변환 파라미터 디코더(183)는 현재 프레임 및 미래 프레임을 위한 데이터를 획득하기 위하여 스펙트럼-시간 변환을 실행하고 합성 윈도우를 변환된 데이터에 적용하도록 구성되며, 상기 합성 윈도우는 제 1 오버랩 부, 인접한 제 2 오버랩 부 및 인접한 제 3 오버랩 부(206)를 가지며, 상기 제 3 오버랩 부는 상기 미래 프레임을 위한 오디오 샘플들과 관련되고 비-오버래핑 부(209)는 상기 현재 프레임의 데이터와 관련되는, 변환 파라미터 디코더; 및
    미래 프레임을 위한 오디오 샘플들의 제 1부를 획득하기 위하여 현재 프레임을 위한 합성 윈도우의 제 3 오버랩 부와 관련된 합성 윈도우잉된 샘플들 및 상기 미래 프레임을 위한 합성 윈도우의 제 1 오버랩 부와 관련된 합성 윈도우잉된 샘플들을 오버래핑하고 가산하기 위한 오버랩-가산기(184)를 구비하되, 상기 미래 프레임을 위한 오디오 샘플들의 나머지는 상기 현재 프레임 및 상기 미래 프레임이 변환 코딩된 데이터를 포함할 때, 오버래핑-가산 없이 획득되는 미래 프레임을 위한 합성 윈도우의 제 2 비-오버래핑 부와 관련된 합성 윈도우잉된 샘플들인, 오버랩-가산기;를 포함하며,

    상기 변환 파라미터 디코더(183)는:
    상기 인코딩된 오디오 신호에 포함된 예측 코딩 데이터를 이용하여 스펙트럼 가중 데이터를 계산하기 위한 예측 코딩 가중 데이터 계산기(183c); 및
    가중 변환 스펙트럼 데이터를 얻기 위해 스펙트럼 가중을 이용하여 상기 현재 프레임을 위하여 디코딩된 변환 스펙트럼 데이터를 가중하기 위한 스펙트럼 가중기(183b);를 포함하며,
    상기 변환 파라미터 디코더(183)는 변환된 데이터를 얻기 위해 상기 가중 변환 스펙트럼 데이터의 스펙트럼-시간 변환을 수행하고, 상기 변환된 데이터에 합성 윈도우잉을 적용하도록 구성되는 것을 특징으로 하는 인코딩된 오디오 신호를 디코딩하기 위한 오디오 디코더.
  18. 제 17항에 있어서,
    상기 현재 프레임은 예측 코딩 데이터를 포함하고 상기 미래 프레임은 변환 코딩 데이터를 포함하며,
    상기 변환 파라미터 디코더(183)는 상기 합성 윈도우와는 다른 전이 윈도우를 사용하도록 구성되며,
    상기 전이 윈도우(220, 222)는 상기 미래 프레임의 시작에서의 제 1 비-오버랩 부(220) 및 상기 미래 프레임의 단부에서 시작하고 시간에 맞춰 상기 미래 프레임 다음의 프레임 내로 확장하는 오버랩 부(222)를 포함하며, 및
    상기 미래 프레임의 오디오 샘플들은 오버랩 없이 발생되고 상기 미래 프레임을 위한 상기 윈도우의 상기 제 2 오버랩 부(222)와 관련된 오디오 데이터는 상기 미래 프레임 다음의 프레임을 위한 상기 합성 윈도우의 상기 제 1 오버랩 부를 사용하여 상기 오버랩-가산기(184)에 의해 계산되는 것을 특징으로 하는 오디오 디코더.
  19. 삭제
  20. 제 17항에 있어서,
    상기 예측 코딩 가중 데이터 계산기(183c)는 스펙트럼 가중 데이터에 따라 보간된 예측 코딩 데이터를 획득하기 위하여 과거 프레임으로부터 유래하는 예측 코딩 데이터 및 상기 현재 프레임으로부터 유래하는 예측 코딩 데이터의 가중 합계를 결합함으로써 상기 예측 코딩 데이터를 계산하는 것을 특징으로 하는 오디오 디코더.
  21. 제20항에 있어서,
    상기 예측 코딩 가중 데이터 계산기(183c)는 상기 예측 코딩 데이터를 각각의 주파수 대역을 위한 가중 값을 갖는 스펙트럼 표현 내로 전환되도록 구성되고, 및
    상기 스펙트럼 가중기(183b)는 이러한 대역을 위하여 동일한 가중 값에 의해 대역 내에서 모든 스펙트럼 값들을 가중하도록 구성되는 것을 특징으로 하는 오디오 디코더.
  22. 제 17항, 제 18항 또는 제 20항 중 어느 한 항에 있어서,
    상기 합성 윈도우는 50 ms보다 작고 25 ms보다 큰 전체 시간 길이를 갖도록 구성되며, 상기 제 1 및 제 3 오버랩 부는 동일한 길이를 가지며 상기 제 3 오버랩 부는 15 ms보다 작은 길이를 갖는 것을 특징으로 하는 오디오 디코더.
  23. 제 17항에 있어서,
    상기 합성 윈도우는 제로 패딩된 부분들 없이 30 ms의 길이를 가지며, 상기 제 1 및 상기 제 3 오버랩 부는 각각 10 ms의 길이를 가지며 상기 비-오버래핑 부는 10 ms의 길이를 갖는 특징으로 하는 오디오 디코더.
  24. 제 17항에 있어서,
    상기 변환 파라미터 디코더(183)는 스펙트럼-시간 변환을 위하여, 프레임 길이와 상응하는 샘플들의 수를 갖는 이산 코사인 변환 변환(183d), 및 이산 코사인 변환 이전에 시간 값들의 수의 두 배인 시간 값들의 수를 발생시키기 위한 탈중첩 운용(183e)을 적용하도록 구성되고,
    상기 합성 윈도우를 상기 탈중첩 운용(183e)의 결과에 적용하기 위하여, 상기 합성 윈도우는 상기 제 1 오버랩 부 앞에 그리고 상기 제 3 오버랩 부 뒤에, 상기 제 1 및 상기 제 3 오버랩 부의 길이의 반인 길이를 갖는 제로 부분들을 포함하는 특징으로 하는 오디오 디코더.
  25. 인코딩된 오디오 신호로부터 예측 코딩된 프레임을 위한 데이터의 디코딩을 실행하는 단계(180);
    상기 인코딩된 오디오 신호로부터 변환 코딩된 프레임을 위한 데이터의 디코딩을 실행하는 단계(183)를 구비하며, 상기 변환 코딩된 프레임을 위한 데이터의 디코딩을 실행하는 단계(183)는 현재 프레임 및 미래 프레임을 위한 데이터를 획득하기 위하여 스펙트럼-시간 변환을 실행하는 단계 및 합성 윈도우를 변환된 데이터에 적용하는 단계를 포함하며, 상기 합성 윈도우는 제 1 오버랩 부, 인접한 제 2 오버랩 부 및 인접한 제 3 오버랩 부(206)를 가지며, 상기 제 3 오버랩 부는 상기 미래 프레임을 위한 오디오 샘플들과 관련되고 비-오버래핑 부(209)는 상기 현재 프레임의 데이터와 관련되는, 단계; 및
    상기 미래 프레임을 위한 오디오 샘플들의 제 1부를 획득하기 위하여 상기 현재 프레임을 위한 합성 윈도우의 제 3 오버랩 부와 관련된 합성 윈도우잉된 샘플들 및 상기 미래 프레임을 위한 합성 윈도우의 제 1 오버랩 부와 관련된 합성 윈도우잉된 샘플들을 오버래핑하고 가산하는 단계(184)를 구비하되, 상기 미래 프레임을 위한 오디오 샘플들의 나머지는 상기 현재 프레임 및 상기 미래 프레임이 변환 코딩된 데이터를 포함할 때, 오버래핑-가산 없이 획득되는 미래 프레임을 위한 합성 윈도우의 제 2 비-오버래핑 부와 관련된 합성 윈도우잉된 샘플들인, 단계;를 포함하며,

    상기 변환 코딩된 프레임을 위한 데이터의 디코딩을 실행하는 단계(183)는 상기 인코딩된 오디오 신호에 포함된 예측 코딩 데이터를 이용하여 스펙트럼 가중 데이터를 계산하는 단계; 및 가중 변환 스펙트럼 데이터를 얻기 위해 스펙트럼 가중을 이용하여 상기 현재 프레임을 위하여 디코딩된 변환 스펙트럼 데이터를 가중하는 단계(183b);를 포함하며,
    상기 변환 코딩된 프레임을 위한 데이터의 디코딩을 실행하는 단계(183)는 변환된 데이터를 얻기 위해 상기 가중 변환 스펙트럼 데이터의 스펙트럼-시간 변환을 수행하고, 상기 변환된 데이터에 합성 윈도우잉을 적용하는 것을 특징으로 하는 인코딩된 오디오 신호를 디코딩하는 방법.
  26. 삭제
  27. 컴퓨터상에서 실행될 때, 제 15항의 오디오 신호를 인코딩하는 방법을 실행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램을 저장한 컴퓨터 판독가능 매체.
KR1020167007581A 2011-02-14 2012-02-14 정렬된 예견 부를 사용하여 오디오 신호를 인코딩하고 디코딩하기 위한 장치 및 방법 KR101853352B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161442632P 2011-02-14 2011-02-14
US61/442,632 2011-02-14
PCT/EP2012/052450 WO2012110473A1 (en) 2011-02-14 2012-02-14 Apparatus and method for encoding and decoding an audio signal using an aligned look-ahead portion

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020137024191A Division KR101698905B1 (ko) 2011-02-14 2012-02-14 정렬된 예견 부를 사용하여 오디오 신호를 인코딩하고 디코딩하기 위한 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20160039297A KR20160039297A (ko) 2016-04-08
KR101853352B1 true KR101853352B1 (ko) 2018-06-14

Family

ID=71943595

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020137024191A KR101698905B1 (ko) 2011-02-14 2012-02-14 정렬된 예견 부를 사용하여 오디오 신호를 인코딩하고 디코딩하기 위한 장치 및 방법
KR1020167007581A KR101853352B1 (ko) 2011-02-14 2012-02-14 정렬된 예견 부를 사용하여 오디오 신호를 인코딩하고 디코딩하기 위한 장치 및 방법

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020137024191A KR101698905B1 (ko) 2011-02-14 2012-02-14 정렬된 예견 부를 사용하여 오디오 신호를 인코딩하고 디코딩하기 위한 장치 및 방법

Country Status (19)

Country Link
US (1) US9047859B2 (ko)
EP (3) EP4243017A3 (ko)
JP (1) JP6110314B2 (ko)
KR (2) KR101698905B1 (ko)
CN (2) CN105304090B (ko)
AR (3) AR085221A1 (ko)
AU (1) AU2012217153B2 (ko)
BR (1) BR112013020699B1 (ko)
CA (1) CA2827272C (ko)
ES (1) ES2725305T3 (ko)
MX (1) MX2013009306A (ko)
MY (1) MY160265A (ko)
PL (1) PL2676265T3 (ko)
PT (1) PT2676265T (ko)
SG (1) SG192721A1 (ko)
TR (1) TR201908598T4 (ko)
TW (2) TWI479478B (ko)
WO (1) WO2012110473A1 (ko)
ZA (1) ZA201306839B (ko)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9972325B2 (en) 2012-02-17 2018-05-15 Huawei Technologies Co., Ltd. System and method for mixed codebook excitation for speech coding
MX340634B (es) * 2012-09-11 2016-07-19 Ericsson Telefon Ab L M Generacion de confort acustico.
US9129600B2 (en) * 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
FR3011408A1 (fr) * 2013-09-30 2015-04-03 Orange Re-echantillonnage d'un signal audio pour un codage/decodage a bas retard
SG11201509526SA (en) 2014-07-28 2017-04-27 Fraunhofer Ges Forschung Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm using harmonics reduction
FR3024582A1 (fr) * 2014-07-29 2016-02-05 Orange Gestion de la perte de trame dans un contexte de transition fd/lpd
FR3024581A1 (fr) 2014-07-29 2016-02-05 Orange Determination d'un budget de codage d'une trame de transition lpd/fd
KR102413692B1 (ko) * 2015-07-24 2022-06-27 삼성전자주식회사 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
KR102192678B1 (ko) 2015-10-16 2020-12-17 삼성전자주식회사 음향 모델 입력 데이터의 정규화 장치 및 방법과, 음성 인식 장치
CA3011915C (en) 2016-01-22 2021-07-13 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for estimating an inter-channel time difference
US10249307B2 (en) * 2016-06-27 2019-04-02 Qualcomm Incorporated Audio decoding using intermediate sampling rate
JP7167335B2 (ja) * 2018-10-29 2022-11-08 ドルビー・インターナショナル・アーベー 生成モデルを用いたレート品質スケーラブル符号化のための方法及び装置
US11955138B2 (en) * 2019-03-15 2024-04-09 Advanced Micro Devices, Inc. Detecting voice regions in a non-stationary noisy environment

Family Cites Families (126)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2225321T3 (es) 1991-06-11 2005-03-16 Qualcomm Incorporated Aparaato y procedimiento para el enmascaramiento de errores en tramas de datos.
US5408580A (en) 1992-09-21 1995-04-18 Aware, Inc. Audio compression system employing multi-rate signal analysis
BE1007617A3 (nl) 1993-10-11 1995-08-22 Philips Electronics Nv Transmissiesysteem met gebruik van verschillende codeerprincipes.
US5784532A (en) 1994-02-16 1998-07-21 Qualcomm Incorporated Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system
CN1090409C (zh) 1994-10-06 2002-09-04 皇家菲利浦电子有限公司 采用不同编码原理的传送系统
US5537510A (en) 1994-12-30 1996-07-16 Daewoo Electronics Co., Ltd. Adaptive digital audio encoding apparatus and a bit allocation method thereof
SE506379C3 (sv) 1995-03-22 1998-01-19 Ericsson Telefon Ab L M Lpc-talkodare med kombinerad excitation
US5848391A (en) 1996-07-11 1998-12-08 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Method subband of coding and decoding audio signals using variable length windows
JP3259759B2 (ja) 1996-07-22 2002-02-25 日本電気株式会社 音声信号伝送方法及び音声符号復号化システム
JPH10124092A (ja) 1996-10-23 1998-05-15 Sony Corp 音声符号化方法及び装置、並びに可聴信号符号化方法及び装置
US5960389A (en) 1996-11-15 1999-09-28 Nokia Mobile Phones Limited Methods for generating comfort noise during discontinuous transmission
JPH10214100A (ja) 1997-01-31 1998-08-11 Sony Corp 音声合成方法
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
JPH10276095A (ja) * 1997-03-28 1998-10-13 Toshiba Corp 符号化器及び復号化器
JP3223966B2 (ja) 1997-07-25 2001-10-29 日本電気株式会社 音声符号化/復号化装置
US6070137A (en) 1998-01-07 2000-05-30 Ericsson Inc. Integrated frequency-domain voice coding using an adaptive spectral enhancement filter
EP0932141B1 (en) * 1998-01-22 2005-08-24 Deutsche Telekom AG Method for signal controlled switching between different audio coding schemes
GB9811019D0 (en) 1998-05-21 1998-07-22 Univ Surrey Speech coders
US6317117B1 (en) 1998-09-23 2001-11-13 Eugene Goff User interface for the control of an audio spectrum filter processor
US7272556B1 (en) 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US7124079B1 (en) 1998-11-23 2006-10-17 Telefonaktiebolaget Lm Ericsson (Publ) Speech coding with comfort noise variability feature for increased fidelity
FI114833B (fi) * 1999-01-08 2004-12-31 Nokia Corp Menetelmä, puhekooderi ja matkaviestin puheenkoodauskehysten muodostamiseksi
CN1145928C (zh) 1999-06-07 2004-04-14 艾利森公司 用参数噪声模型统计量产生舒适噪声的方法及装置
JP4464484B2 (ja) 1999-06-15 2010-05-19 パナソニック株式会社 雑音信号符号化装置および音声信号符号化装置
US6236960B1 (en) 1999-08-06 2001-05-22 Motorola, Inc. Factorial packing method and apparatus for information coding
KR100711047B1 (ko) 2000-02-29 2007-04-24 퀄컴 인코포레이티드 폐루프 멀티모드 혼합영역 선형예측 (mdlp) 음성 코더
US6757654B1 (en) 2000-05-11 2004-06-29 Telefonaktiebolaget Lm Ericsson Forward error correction in speech coding
JP2002118517A (ja) 2000-07-31 2002-04-19 Sony Corp 直交変換装置及び方法、逆直交変換装置及び方法、変換符号化装置及び方法、並びに復号装置及び方法
US6847929B2 (en) 2000-10-12 2005-01-25 Texas Instruments Incorporated Algebraic codebook system and method
CA2327041A1 (en) 2000-11-22 2002-05-22 Voiceage Corporation A method for indexing pulse positions and signs in algebraic codebooks for efficient coding of wideband signals
US20040142496A1 (en) 2001-04-23 2004-07-22 Nicholson Jeremy Kirk Methods for analysis of spectral data and their applications: atherosclerosis/coronary heart disease
US20020184009A1 (en) 2001-05-31 2002-12-05 Heikkinen Ari P. Method and apparatus for improved voicing determination in speech signals containing high levels of jitter
US20030120484A1 (en) 2001-06-12 2003-06-26 David Wong Method and system for generating colored comfort noise in the absence of silence insertion description packets
US6941263B2 (en) 2001-06-29 2005-09-06 Microsoft Corporation Frequency domain postfiltering for quality enhancement of coded speech
US6879955B2 (en) 2001-06-29 2005-04-12 Microsoft Corporation Signal modification based on continuous time warping for low bit rate CELP coding
KR100438175B1 (ko) 2001-10-23 2004-07-01 엘지전자 주식회사 코드북 검색방법
CA2388439A1 (en) 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
KR100728428B1 (ko) 2002-09-19 2007-06-13 마츠시타 덴끼 산교 가부시키가이샤 오디오 디코딩 장치 및 오디오 디코딩 방법
US7343283B2 (en) * 2002-10-23 2008-03-11 Motorola, Inc. Method and apparatus for coding a noise-suppressed audio signal
US7363218B2 (en) 2002-10-25 2008-04-22 Dilithium Networks Pty. Ltd. Method and apparatus for fast CELP parameter mapping
KR100465316B1 (ko) 2002-11-18 2005-01-13 한국전자통신연구원 음성 부호화기 및 이를 이용한 음성 부호화 방법
JP4191503B2 (ja) * 2003-02-13 2008-12-03 日本電信電話株式会社 音声楽音信号符号化方法、復号化方法、符号化装置、復号化装置、符号化プログラム、および復号化プログラム
US7318035B2 (en) 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
US20050091044A1 (en) 2003-10-23 2005-04-28 Nokia Corporation Method and system for pitch contour quantization in audio coding
CN1875402B (zh) 2003-10-30 2012-03-21 皇家飞利浦电子股份有限公司 音频信号编码或解码
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
FI118835B (fi) 2004-02-23 2008-03-31 Nokia Corp Koodausmallin valinta
WO2005096274A1 (fr) 2004-04-01 2005-10-13 Beijing Media Works Co., Ltd Dispositif et procede de codage/decodage audio ameliores
GB0408856D0 (en) 2004-04-21 2004-05-26 Nokia Corp Signal encoding
CA2566368A1 (en) 2004-05-17 2005-11-24 Nokia Corporation Audio encoding with different coding frame lengths
US7649988B2 (en) 2004-06-15 2010-01-19 Acoustic Technologies, Inc. Comfort noise generator using modified Doblinger noise estimate
US8160274B2 (en) 2006-02-07 2012-04-17 Bongiovi Acoustics Llc. System and method for digital signal processing
TWI253057B (en) 2004-12-27 2006-04-11 Quanta Comp Inc Search system and method thereof for searching code-vector of speech signal in speech encoder
US7519535B2 (en) 2005-01-31 2009-04-14 Qualcomm Incorporated Frame erasure concealment in voice communications
KR101237546B1 (ko) 2005-01-31 2013-02-26 스카이프 통신 시스템에서 프레임들을 연결하는 방법
US20070147518A1 (en) 2005-02-18 2007-06-28 Bruno Bessette Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
US8155965B2 (en) 2005-03-11 2012-04-10 Qualcomm Incorporated Time warping frames inside the vocoder by modifying the residual
NZ562182A (en) 2005-04-01 2010-03-26 Qualcomm Inc Method and apparatus for anti-sparseness filtering of a bandwidth extended speech prediction excitation signal
US8577686B2 (en) 2005-05-26 2013-11-05 Lg Electronics Inc. Method and apparatus for decoding an audio signal
US7707034B2 (en) 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
PL1897085T3 (pl) 2005-06-18 2017-10-31 Nokia Technologies Oy System i sposób adaptacyjnej transmisji parametrów szumu łagodzącego w czasie nieciągłej transmisji mowy
KR100851970B1 (ko) 2005-07-15 2008-08-12 삼성전자주식회사 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치
US7610197B2 (en) 2005-08-31 2009-10-27 Motorola, Inc. Method and apparatus for comfort noise generation in speech communication systems
US7720677B2 (en) 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
US7536299B2 (en) 2005-12-19 2009-05-19 Dolby Laboratories Licensing Corporation Correlating and decorrelating transforms for multiple description coding systems
US8255207B2 (en) 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
CN101371297A (zh) 2006-01-18 2009-02-18 Lg电子株式会社 用于编码和解码信号的设备和方法
JP2009524101A (ja) 2006-01-18 2009-06-25 エルジー エレクトロニクス インコーポレイティド 符号化/復号化装置及び方法
US8032369B2 (en) 2006-01-20 2011-10-04 Qualcomm Incorporated Arbitrary average data rates for variable rate coders
FR2897733A1 (fr) 2006-02-20 2007-08-24 France Telecom Procede de discrimination et d'attenuation fiabilisees des echos d'un signal numerique dans un decodeur et dispositif correspondant
US20070253577A1 (en) 2006-05-01 2007-11-01 Himax Technologies Limited Equalizer bank with interference reduction
US7873511B2 (en) * 2006-06-30 2011-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
JP4810335B2 (ja) * 2006-07-06 2011-11-09 株式会社東芝 広帯域オーディオ信号符号化装置および広帯域オーディオ信号復号装置
US7933770B2 (en) 2006-07-14 2011-04-26 Siemens Audiologische Technik Gmbh Method and device for coding audio data based on vector quantisation
EP2044575B1 (en) 2006-07-24 2017-01-11 Sony Corporation A hair motion compositor system and optimization techniques for use in a hair/fur graphics pipeline
US7987089B2 (en) * 2006-07-31 2011-07-26 Qualcomm Incorporated Systems and methods for modifying a zero pad region of a windowed frame of an audio signal
DE102006049154B4 (de) 2006-10-18 2009-07-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodierung eines Informationssignals
CN101589623B (zh) 2006-12-12 2013-03-13 弗劳恩霍夫应用研究促进协会 对表示时域数据流的数据段进行编码和解码的编码器、解码器以及方法
FR2911227A1 (fr) * 2007-01-05 2008-07-11 France Telecom Codage par transformee, utilisant des fenetres de ponderation et a faible retard
KR101379263B1 (ko) 2007-01-12 2014-03-28 삼성전자주식회사 대역폭 확장 복호화 방법 및 장치
FR2911426A1 (fr) 2007-01-15 2008-07-18 France Telecom Modification d'un signal de parole
JP4708446B2 (ja) 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
JP2008261904A (ja) 2007-04-10 2008-10-30 Matsushita Electric Ind Co Ltd 符号化装置、復号化装置、符号化方法および復号化方法
US8630863B2 (en) * 2007-04-24 2014-01-14 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding audio/speech signal
CN101388210B (zh) 2007-09-15 2012-03-07 华为技术有限公司 编解码方法及编解码器
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
KR101513028B1 (ko) * 2007-07-02 2015-04-17 엘지전자 주식회사 방송 수신기 및 방송신호 처리방법
US8185381B2 (en) 2007-07-19 2012-05-22 Qualcomm Incorporated Unified filter bank for performing signal conversions
CN101110214B (zh) 2007-08-10 2011-08-17 北京理工大学 一种基于多描述格型矢量量化技术的语音编码方法
ES2823560T3 (es) 2007-08-27 2021-05-07 Ericsson Telefon Ab L M Análisis/síntesis espectral de baja complejidad utilizando resolución temporal seleccionable
CN101842833B (zh) 2007-09-11 2012-07-18 沃伊斯亚吉公司 语音和音频编码中快速代数码本搜索的方法和设备
US8576096B2 (en) * 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
CN101425292B (zh) 2007-11-02 2013-01-02 华为技术有限公司 一种音频信号的解码方法及装置
DE102007055830A1 (de) 2007-12-17 2009-06-18 Zf Friedrichshafen Ag Verfahren und Vorrichtung zum Betrieb eines Hybridantriebes eines Fahrzeuges
CN101483043A (zh) 2008-01-07 2009-07-15 中兴通讯股份有限公司 基于分类和排列组合的码本索引编码方法
CN101488344B (zh) 2008-01-16 2011-09-21 华为技术有限公司 一种量化噪声泄漏控制方法及装置
US8000487B2 (en) 2008-03-06 2011-08-16 Starkey Laboratories, Inc. Frequency translation by high-frequency spectral envelope warping in hearing assistance devices
EP2107556A1 (en) 2008-04-04 2009-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transform coding using pitch correction
US8423852B2 (en) 2008-04-15 2013-04-16 Qualcomm Incorporated Channel decoding-based error detection
US8768690B2 (en) 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
KR101250309B1 (ko) 2008-07-11 2013-04-04 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 에일리어싱 스위치 기법을 이용하여 오디오 신호를 인코딩/디코딩하는 장치 및 방법
ES2683077T3 (es) * 2008-07-11 2018-09-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada
MY181231A (en) * 2008-07-11 2020-12-21 Fraunhofer Ges Zur Forderung Der Angenwandten Forschung E V Audio encoder and decoder for encoding and decoding audio samples
EP2346029B1 (en) 2008-07-11 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, method for encoding an audio signal and corresponding computer program
EP2311034B1 (en) * 2008-07-11 2015-11-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding frames of sampled audio signals
MY154452A (en) 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
EP2410522B1 (en) 2008-07-11 2017-10-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal encoder, method for encoding an audio signal and computer program
US8352279B2 (en) 2008-09-06 2013-01-08 Huawei Technologies Co., Ltd. Efficient temporal envelope coding approach by prediction between low band signal and high band signal
US8577673B2 (en) 2008-09-15 2013-11-05 Huawei Technologies Co., Ltd. CELP post-processing for music signals
US8798776B2 (en) 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
TWI419148B (zh) 2008-10-08 2013-12-11 Fraunhofer Ges Forschung 多解析度切換音訊編碼/解碼方案
CN101770775B (zh) 2008-12-31 2011-06-22 华为技术有限公司 信号处理方法及装置
US8457975B2 (en) * 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
JP2012516462A (ja) 2009-01-28 2012-07-19 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ オーディオエンコーダ、オーディオデコーダ、符号化されたオーディオ情報、オーディオ信号を符号化および復号化する方法およびコンピュータ・プログラム
EP2214165A3 (en) 2009-01-30 2010-09-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for manipulating an audio signal comprising a transient event
JP5520967B2 (ja) 2009-02-16 2014-06-11 エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュート 適応的正弦波コーディングを用いるオーディオ信号の符号化及び復号化方法及び装置
ES2374486T3 (es) 2009-03-26 2012-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dispositivo y método para manipular una señal de audio.
JP5699141B2 (ja) 2009-06-23 2015-04-08 ヴォイスエイジ・コーポレーション 重み付けされた信号領域またはオリジナルの信号領域で適用される順方向時間領域エイリアシング取り消し
CN101958119B (zh) 2009-07-16 2012-02-29 中兴通讯股份有限公司 一种改进的离散余弦变换域音频丢帧补偿器和补偿方法
BR122020024243B1 (pt) * 2009-10-20 2022-02-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E. V. Codificador de sinal de áudio, decodificador de sinal de áudio, método para prover uma representação codificada de um conteúdo de áudio e método para prover uma representação decodificada de um conteúdo de áudio.
PL2491555T3 (pl) 2009-10-20 2014-08-29 Fraunhofer Ges Forschung Wielotrybowy kodek audio
CN102081927B (zh) 2009-11-27 2012-07-18 中兴通讯股份有限公司 一种可分层音频编码、解码方法及系统
US8423355B2 (en) * 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
US8428936B2 (en) * 2010-03-05 2013-04-23 Motorola Mobility Llc Decoder for audio signal including generic audio and speech frames
TW201214415A (en) 2010-05-28 2012-04-01 Fraunhofer Ges Forschung Low-delay unified speech and audio codec
ES2968927T3 (es) * 2010-07-08 2024-05-14 Fraunhofer Ges Forschung Decodificador que utiliza cancelación del efecto de solapamiento hacia delante

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
B.Bessette et al., Universal speech/audio coding using hybrid ACELP/TCX techniques, ICASSP2005, 1 Jan. 2005, pp301-304(vol.3) *
B.Bessette et al., Universal speech/audio coding using hybrid ACELP/TCX techniques, ICASSP2005, 1 Jan. 2005, pp301-304(vol.3)*
B.Bessette et al., Universal speech/audio coding using hybrid ACELP/TCX techniques, ICASSP2005, 1 Jan. 2005, pp301-304(vol.3). 1부. *

Also Published As

Publication number Publication date
EP4243017A2 (en) 2023-09-13
AR098557A2 (es) 2016-06-01
EP2676265B1 (en) 2019-04-10
JP2014510305A (ja) 2014-04-24
CN103503062B (zh) 2016-08-10
EP3503098C0 (en) 2023-08-30
TR201908598T4 (tr) 2019-07-22
KR101698905B1 (ko) 2017-01-23
CN103503062A (zh) 2014-01-08
AU2012217153B2 (en) 2015-07-16
TW201506907A (zh) 2015-02-16
AR102602A2 (es) 2017-03-15
EP4243017A3 (en) 2023-11-08
CN105304090B (zh) 2019-04-09
MY160265A (en) 2017-02-28
KR20130133846A (ko) 2013-12-09
AU2012217153A1 (en) 2013-10-10
CN105304090A (zh) 2016-02-03
US9047859B2 (en) 2015-06-02
CA2827272C (en) 2016-09-06
WO2012110473A1 (en) 2012-08-23
EP3503098B1 (en) 2023-08-30
AR085221A1 (es) 2013-09-18
MX2013009306A (es) 2013-09-26
ZA201306839B (en) 2014-05-28
KR20160039297A (ko) 2016-04-08
JP6110314B2 (ja) 2017-04-05
TWI479478B (zh) 2015-04-01
TW201301262A (zh) 2013-01-01
US20130332148A1 (en) 2013-12-12
PT2676265T (pt) 2019-07-10
EP3503098A1 (en) 2019-06-26
EP2676265A1 (en) 2013-12-25
SG192721A1 (en) 2013-09-30
BR112013020699A2 (pt) 2016-10-25
BR112013020699B1 (pt) 2021-08-17
TWI563498B (en) 2016-12-21
PL2676265T3 (pl) 2019-09-30
CA2827272A1 (en) 2012-08-23
RU2013141919A (ru) 2015-03-27
ES2725305T3 (es) 2019-09-23

Similar Documents

Publication Publication Date Title
KR101853352B1 (ko) 정렬된 예견 부를 사용하여 오디오 신호를 인코딩하고 디코딩하기 위한 장치 및 방법
KR101508819B1 (ko) 멀티 모드 오디오 코덱 및 이를 위해 적응된 celp 코딩
RU2485606C2 (ru) Схема кодирования/декодирования аудио сигналов с низким битрейтом с применением каскадных переключений
JP6629834B2 (ja) ハーモニックフィルタツールのハーモニック依存制御
KR101562281B1 (ko) 트랜지언트 검출 및 품질 결과를 사용하여 일부분의 오디오 신호를 코딩하기 위한 장치 및 방법
KR20110043592A (ko) 샘플링된 오디오 신호의 프레임들을 인코딩 및 디코딩하기 위한 오디오 인코더 및 디코더
KR20110055545A (ko) 오디오 샘플 인코드 및 디코드용 오디오 인코더 및 디코더
EP2951816B1 (en) Noise filling without side information for celp-like coders
KR20150110708A (ko) 주파수 도메인 내의 선형 예측 코딩 기반 코딩을 위한 저주파수 강조
RU2574849C2 (ru) Устройство и способ для кодирования и декодирования аудиосигнала с использованием выровненной части опережающего просмотра

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
E90F Notification of reason for final refusal
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant