KR20130138362A - 불활성 위상 동안에 잡음 합성을 사용하는 오디오 코덱 - Google Patents

불활성 위상 동안에 잡음 합성을 사용하는 오디오 코덱 Download PDF

Info

Publication number
KR20130138362A
KR20130138362A KR1020137024142A KR20137024142A KR20130138362A KR 20130138362 A KR20130138362 A KR 20130138362A KR 1020137024142 A KR1020137024142 A KR 1020137024142A KR 20137024142 A KR20137024142 A KR 20137024142A KR 20130138362 A KR20130138362 A KR 20130138362A
Authority
KR
South Korea
Prior art keywords
background noise
audio signal
data stream
phase
parameter
Prior art date
Application number
KR1020137024142A
Other languages
English (en)
Other versions
KR101613673B1 (ko
Inventor
판지 세티아완
콘스탄틴 슈미트
슈테판 빌데
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20130138362A publication Critical patent/KR20130138362A/ko
Application granted granted Critical
Publication of KR101613673B1 publication Critical patent/KR101613673B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • G10L19/107Sparse pulse excitation, e.g. by using algebraic codebook
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/13Residual excited linear prediction [RELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Noise Elimination (AREA)
  • Image Generation (AREA)
  • Electric Clocks (AREA)

Abstract

파라미터 배경 잡음 추정은 활성 위상 다음의 불활성 위상의 입구 상에서 잡음 발생이 즉시 시작되도록 하기 위하여 활성 위상 또는 비-무음 위상 동안에 연속적으로 업데이트된다. 또 다른 양상에 따라, 배경 잡음을 파라미터화하기 위하여 스펙트럼 도메인이 매우 효율적으로 사용되며 그렇게 함으로써 더 사실적인 배경 잡음을 생산하고 따라서 불활성 위상으로의 더 투명한 활성 전환에 이르게 한다.

Description

불활성 위상 동안에 잡음 합성을 사용하는 오디오 코덱{AUDIO CODEC USING NOISE SYNTHESIS DURING INACTIVE PHASES}
본 발명은 불활성 위상 동안에 잡음 합성(noise synthesis)을 지원하는 오디오 코덱에 관한 것이다.
음성 또는 다른 잡음 소스(source)들의 불활성 기간을 이용함으로써 전송 대역폭을 감소시키는 가능성이 종래에 알려져 있다. 그러한 방식들은 일반적으로 불활성(또는 무음(silence)) 및 활성(비-무음) 위상 사이를 구별하기 위한 검출의 일부 형태를 사용한다. 불활성 위상 동안에, 기록된 신호를 정확하게 인코딩하는 보통의 데이터 스트림을 멈추고, 대신에 무음 삽입 서술(silence insertion description) 업데이트들만을 송신함으로써 낮은 비트레이트가 달성된다. 무음 삽입 서술 업데이트들은 정규 간격에서 또는 배경 잡음 특성들의 변화가 검출될 때 전송될 수 있다. 무음 삽입 서술 프레임들은 그리고 나서 기록된 신호를 인코딩하는 보통의 데이터 스트림의 전송의 멈춤이 수령자의 측면에서 활성 위상으로부터 불활성 위상으로의 불안한 전이에 이르지 않도록 하기 위하여 활성 위상 동안에 배경 잡음과 유사한 특성들을 갖는 배경 잡음을 발생시키도록 디코딩 면에서 사용될 수 있다.
그러나, 전송 비율을 더 감소시키기 위한 필요성이 여전히 존재한다. 휴대폰의 수의 증가와 같은, 증가하는 비트레이트 소비자들의 수 및 무선 전송 방송과 같은 증가하는 비트레이트 집약적 적용들의 수는 소비되는 비트레이트의 안정적인 감소를 필요로 한다.
다른 한편으로, 합성된 잡음은 합성이 사용자들을 위하여 투명하도록 실제 잡음에 가깝게 모방하여야만 한다.
따라서, 달성가능한 잡음 발생 품질의 유지와 함께 전송 비트레이트의 감소를 가능하게 하는 불활성 위상 동안에 잡음 발생을 지원하는 오디오 코덱 방식을 제공하는 것이 본 발명의 목적이다.
본 발명의 목적은 첨부된 독립항들의 일부의 주제에 의해 달성된다.
본 발명의 기본 개념은 만일 활성 위상 다음에 불활성 위상으로 들어갈 때 잡음 발생이 즉시 시작될 수 있도록 하기 위하여 활성 위상 동안에 파라미터 배경 잡음 추정(parametric background noise estimation)이 연속적으로 업데이트되면, 가치있는 비트레이트가 불활성 위상 동안에 잡음 발생 품질의 유지로 절약될 수 있다는 것이다. 예를 들면, 연속적인 업데이트는 디코딩 면에서 실행될 수 있고, 제공이 가치있는 비트레이트를 소모할 수 있는 불활성 위상의 검출 다음에 바로 웜-업(warm-up) 기간 동안에 디코딩 면에 배경 잡음의 코딩된 표현을 미리 제공할 필요가 없는데, 그 이유는 디코딩 면이 활성 위상 동안에 연속적으로 업데이트되는 파라미터 배경 잡음 추정을 갖고, 따라서 언제든지 즉시 적합한 잡음 발생과 함께 불활성 위상으로 들어갈 준비가 되어 있기 때문이다. 유사하게, 그러한 웜-업 위상은 만일 인코딩 면에서 파라미터 배경 잡음 추정이 수행되면 방지될 수 있다. 배경 잡음을 학습하고 그에 알맞게 학습 위상 이후에 디코딩 면에 얼려주기 위하여 미리 디코딩 면에 불활성 위상의 입구의 검출 상에서 종래의 코딩된 표현을 연속적으로 제공하는 대신에, 인코더는 과거 활성 위상 동안에 연속적으로 업데이트된 파라미터 배경 잡음 추정에 의지함으로써 불활성 위상의 입구의 검출 상에서 즉시 디코더에 필요한 파라미터 배경 잡음 추정을 제공할 수 있으며 그렇게 함으로써 배경 잡음을 필요 이상으로 인코딩하는 그 뒤의 수행을 미리 소비하는 비트레이트를 방지한다.
본 발명의 특정 실시 예들에 따라, 예를 들면, 비트레이트 및 계산 복잡도와 관련하여 적당한 오버헤드(overhead)에서 더 사실적인 잡음 발생이 달성된다. 특히, 이러한 실시 예들에 따라, 스펙트럼 도메인은 배경 잡음을 파라미터로 나타내도록 사용되고 그렇게 함으로써 더 사실적인 배경 잡음 합성을 생산하고 따라서 불활성 위상 전환에 대한 더 투명한 활성에 이르게 한다. 게다가, 스펙트럼 도메인 내의 배경 잡음을 파라미터로 나타내는 것은 잡음의 유용한 신호로부터의 분리를 가능하게 하고 따라서, 잡음 및 유용한 신호 사이의 더 나은 분리가 스펙트럼 도메인 내에서 달성될 수 있기 때문에 스펙트럼 도메인 내의 배경 잡음을 파라미터로 나타내는 것은 앞서 언급된 활성 위상 동안의 파라미터 배경 잡음 추정의 연속적인 업데이트와 결합할 때 장점을 가지며 따라서 본 발명의 두 바람직한 양상들을 결합할 때 하나의 도메인으로부터 다른 도메인으로의 어떠한 부가적인 전이도 필요하지 않다.
본 발명의 또 다른 실시 예들의 바람직한 상세 내용들이 첨부된 청구항의 종속항들의 주제이다.
본 발명이 바람직한 실시 예들이 도면을 참조하여 아래에 설명된다.
도 1은 일 실시 예에 따른 오디오 인코딩을 도시한 블록 다이어그램을 도시한다.
도 2는 인코딩 엔진(14)의 가능한 구현을 도시한다.
도 3은 일 실시 예에 따른 오디오 디코더의 블록 다이어그램을 도시한다.
도 4는 일 실시 예에 따른 도 3의 디코딩 엔진의 가능한 구현을 도시한다.
도 5는 실시 예의 또 다른, 더 상세한 설명에 따른 오디오 인코더의 블록 다이어그램을 도시한다.
도 6은 일 실시 예에 따른 도 5의 디코더와 함께 사용될 수 있는 디코더의 블록 다이어그램을 도시한다.
도 7은 실시 예의 또 다른, 더 상세한 설명에 따른 오디오 디코더의 블록 다이어그램을 도시한다.
도 8은 일 실시 예에 따른 오디오 인코더의 스펙트럼 대역폭 확장 부분의 블록 다이어그램을 도시한다.
도 9는 일 실시 예에 따른 도 8의 편안한 잡음 발생 스펙트럼 대역 폭 확장 인코더의 구현을 도시한다.
도 10은 스펙트럼 대역폭 확장을 사용하는 일 실시 예에 따른 오디오 디코더의 블록 다이어그램을 도시한다.
도 11은 스펙트럼 대역폭 확장을 사용하는 오디오 디코더를 위한 일 실시 예의 가능한, 더 상세한 설명의 블록 다이어그램을 도시한다.
도 12는 스펙트럼 대역폭 확장을 사용하는 또 다른 실시 예에 따른 오디오 인코더의 블록 다이어그램을 도시한다.
도 13은 오디오 디코더의 또 다른 실시 예의 블록 다이어그램을 도시한다.
도 1은 본 발명의 일 실시 예에 따른 오디오 인코더를 도시한다. 도 1의 오디오 인코더는 배경 잡음 추정기(background noise estimator, 12), 인코딩 엔진(14), 검출기(16), 오디오 신호 입력(18) 및 데이터 스트림 출력(20)을 포함한다. 제공기(provider, 12), 인코딩 엔진(14) 및 검출기(16)는 각각 오디오 신호 입력(18)에 연결되는 입력을 갖는다. 추정기(12) 및 인코딩 엔진(14)의 출력들은 각각 스위치(22)를 거쳐 데이터 스트림 출력(20)에 연결된다. 스위치(22), 추정기(12) 및 인코딩 엔진(14)은 각각 검출기(16)의 출력에 연결되는 제어 입력을 갖는다.
배경 잡음 추정기(12)는 입력(18)에서 오디오 인코더(10)로 들어가는 입력 오디오 신호를 기초로 하여 활성 위상(24) 동안에 파라미터 배경 잡음 추정을 업데이트하도록 구성된다. 비록 도 1의 배경 잡음 추정기(12) 입력(18)에서 입력으로서 오디오 신호를 기초로 하여 파라미터 배경 잡음 추정의 연속적인 업데이트를 유래할 수 있는 것으로 제안하나, 반드시 그렇지는 않다. 배경 잡음 추정기(12)는 대안으로서 또는 부가적으로 쇄선(26)에 의해 도시된 것과 같이 인코딩 엔진(14)으로부터 오디오 신호의 버전을 획득할 수 있다. 그러한 경우에 있어서, 배경 잡음 추정기(12)는 대안으로서 또는 부가적으로 각각 연결 라인(26) 및 인코딩 엔진(14)을 거쳐 간접적으로 입력(18)에 연결될 수 있다. 특히, 배경 잡음 추정을 연속적으로 업데이트하기 위한 서로 다른 가능성들이 존재하며 이러한 가능성 중 일부가 아래에 더 설명된다.
인코딩 엔진은 활성 위상 동안에 입력(18)에 도착하는 입력 오디오 신호를 데이터 스트림 내로 인코딩하도록 구성된다. 활성 위상은 유용한 정보가 음성(speech) 또는 잡음 소스의 다른 유용한 소리(sound)와 같은 오디오 신호 내에 포함되는 모든 시간을 포함하여야 한다. 다른 한편으로, 예를 들면, 스피커의 배경에서 비 또는 차량에 의해 야기되는 것과 같은 시간-불변 스펙트럼과 같은 거의 시간-변이 특성을 갖는 소리들은 배경 잡음으로 분류되고 단지 이러한 배경 잡음이 존재할 때마다, 각각의 시간 위상은 불활성 위상(28)으로서 분류되어야만 한다. 검출기(16)는 입력(18)에서의 입력 오디오 신호를 기초로 하여 활성 위상(24) 다음의 불활성 위상(28)의 입구를 검출하는데 책임이 있다. 바꾸어 말하면, 검출기(16)는 두 위상, 주로 활성 위상 및 불활성 위상 사이를 구별하며 검출기(16)는 어떠한 위상이 현재 존재하는지를 판정한다. 검출기(16)는 인코딩 엔진(14)에 현재 존재하는 위상에 관하여 알려주며 이미 설명된 것과 같이, 인코딩 엔진(14)은 활성 위상(24) 동안에 입력 오디오 신호의 데이터 스트림 내로의 인코딩을 실행한다. 검출기(16)는 인코딩 엔진(14)에 의해 출력되는 데이터 스트림은 출력(20)에서 출력되도록 스위치(22)를 그에 알맞게 제어한다. 불활성 위상 동안에, 인코딩 엔진(14)은 입력 오디오 신호의 인코딩을 멈출 수 있다. 적어도, 출력(20)에서 출력된 데이터 스트림은 인코딩 엔진(14)에 의해 가능하게 출력되는 어떠한 데이터 스트림에 의해서도 제공되지 않는다. 그에 더하여, 인코딩 엔진(14)은 일부 상태 가변 업데이트들을 갖는 추정기(12)를 지원하기 위하여 최소 과정만을 실행할 수 있다. 이러한 행동은 계산 능력을 상당히 감소시킨다. 스위치(22)는 예를 들면, 추정기(12)의 출력이 인코딩 엔진의 출력 대신에 출력에 연결되는 것과 같이 설정된다. 이러한 방법으로, 출력(20)에서 비트스트림 출력을 전송하기 위한 가치있는 전송 비트레이트가 감소된다.
배경 잡음 추정기(12)는 위에서 이미 설명된 것과 같이 입력 오디오 신호(18)를 기초로 하여 활성 위상(24) 동안에 파라미터 배경 잡음 추정을 연속적으로 업데이트하도록 구성되며, 이로 인하여, 추정기(12)는 활성 위상(24)으로부터 불활성 위상(28)으로의 전이 바로 다음에, 즉, 불활성 위상(28) 내로의 입구 상에서 활성 위상(28) 동안에 연속적으로 업데이트됨에 따라 파라미터 배경 잡음 추정을 출력(20)에서 출력되는 데이터 스트림(30) 내로 삽입할 수 있다. 배경 잡음 추정기(12)는 예를 들면, 활성 위상(24)의 끝 바로 다음에 그리고 검출기(16)가 불활성 위상(28)을 검출한 시간 순간(time instance, 34) 바로 다음에 무음 삽입 서술기(Silence Insertion Descriptor, SID) 프레임(32)을 데이터 스트림(30) 내로 삽입한다. 바꾸어 말하면, 활성 위상(24) 동안에 파라미터 배경 잡음 추정기의 파라미터 배경 잡음 추정의 연속적인 업데이트 때문에 필요한 불활성 위상(28)의 입구의 검출기의 판정 및 무음 삽입 서술기 프레임(32) 삽입 사이에 어떠한 시간 갭도 존재하지 않는다.
따라서, 위의 설명을 요약하면, 도 1의 오디오 인코더는 다음과 같이 운용할 수 있다. 설명의 목적을 위하여, 활성 위상(24)이 현재 존재한다고 가정한다. 이러한 경우에 있어서, 인코딩 엔진(14)은 입력(18)에서 입력 오디오 신호를 데이터 스트림(20) 내로 현재 인코딩한다. 스위치(22)는 인코딩 엔진(14)의 출력을 출력(20)에 연결한다. 인코딩 엔진(14)은 입력 오디오 신호(18)를 데이터 스트림 내로 인코딩하기 위하여 파라미터 코딩 및 변환 코딩을 사용할 수 있다. 특히, 인코딩 엔진(14)은 입력 오디오 신호의 연속적인(부분적으로 상호 오버래핑하는) 시간 간격들 중의 하나를 인코딩하는 각각의 프레임을 갖는 프레임들의 유닛으로 입력 오디오 신호를 인코딩할 수 있다. 인코딩 엔진(14)은 부가적으로 데이터 스트림의 연속적인 프레임들 사이의 서로 다른 코딩 방식들 사이를 전환하는 능력을 갖는다. 예를 들면, 일부 프레임들은 부호 여진 선형 예측(CELP) 코딩과 같은 예측 코딩을 사용하여 인코딩될 수 있고, 다른 일부 프레임들은 변환 코딩 여진(TCX) 또는 고급 오디오 코딩과 같은 변환 코딩을 사용하여 코딩될 수 있다. 예를 들면, 2010년 9월 24일자의 ISO/IEC 23003-3에 설명된 것과 같은 통합 음성 및 오디오 코딩(USAC) 및 그것의 코딩 방식들이 참조된다.
배경 잡음 추정기(12)는 활성 위상(24) 동안에 파라미터 배경 잡음 추정을 연속적으로 업데이트한다. 따라서, 배경 잡음 추정기(12)는 단지 잡음 컴포넌트로부터의 파라미터 배경 잡음 추정을 판정하기 위하여 입력 오디오 신호 내의 잡음 컴포넌트 및 유용한 신호 컴포넌트 사이를 구별하도록 구성될 수 있다. 아래에 설명되는 또 다른 실시 예들에 따라, 배경 잡음 추정기(12)는 또한 인코딩 엔진(14) 내의 변환 코딩을 위하여 사용되는 스펙트럼 도메인과 같은 스펙트럼 도메인에서 이러한 업데이트를 실행할 수 있다. 그러나, 시간-도메인과 같은, 다른 대안들이 또한 이용가능하다. 만일 스펙트럼 도메인이면, 이는 변형 이산 코사인 변환(MDCT) 도메인과 같은 겹침 변환 도메인, 또는 직각 대칭 필터(QMF) 도메인과 같은 복소수 값의 필터뱅크 도메인과 같은 필터뱅크 도메인일수 있다.
게다가, 배경 잡음 추정기(12)는 데이터 스트림 내로 들어가는 입력(18) 또는 데이터 스트림 내로 손실 코딩되는 것과 같은 오디오 신호보다는 오히려 예를 들면, 예측 및/또는 변환 코딩 동안에 인코딩 엔진(14) 내의 중간 결과로서 획득되는 여진 또는 잔류 신호를 기초로 하여 업데이트를 실행할 수 있다. 그렇게 함으로써, 입력 오디오 신호 내이 상당한 양이 유용한 신호 컴포넌트가 이미 제거되었으며 따라서 배경 잡음 추정기(12)를 위한 잡음 컴포넌트의 검출이 더 쉬어진다.
활성 위상(24) 동안에, 검출기(16)는 또한 불활성 위상(28)의 입구를 검출하도록 연속적으로 구동한다. 검출기(16)는 유성음(voice)/소리 활성 검출기(VAD/SAD) 또는 입력 오디오 신호 내에 유용한 신호 컴포넌트가 현재 존재하는지를 판정하는 일부 다른 수단들로서 구현될 수 있다. 활성 위상이 지속하는지를 판정하기 위하여 검출기(16)를 위한 기본 기준은 한계값(threshold)이 초과하자마자 불활성 위상이 들어가는 것으로 가정하여, 입력 오디오 신호의 로우-패스(low-pass) 필터링된 전력이 특정 한계값 아래에 남아 있는지의 검사일 수 있다.
검출기가 정확히 활성 위상(24) 다음에 불활성 위상(28)의 입구의 검출을 실행하는 것과 관계없이, 검출기(16)는 불활성 위상(28)의 입구의 다른 엔티티들(12, 14 및 22)에 즉시 알려준다. 활성 위상(24) 동안에 파라미터 배경 잡음 추정기의 파라미터 배경 잡음 추정의 연속적인 업데이트 때문에, 출력(20)에서 출력되는 데이터 스트림(30)은 인코딩 엔진(14)으로부터 더 제공되는 것이 즉시 방지될 수 있다. 오히려, 배경 잡음 추정기(12)는 불활성 위상(28)의 입구가 알려지자마자 즉시, 무음 삽입 서술기 프레임(32)의 형태로 파라미터 배경 잡음 추정의 마지막 업데이트 상의 정보를 데이터 스트림 내로 삽입할 수 있다. 즉, 무음 삽입 서술기 프레임(32)은 검출기(16)가 불활성 위상 입구를 검출한 시간 간격에 관하여 오디오 신호의 프레임을 인코딩하는 인코딩 엔진의 마지막 프레임을 즉시 따를 수 있다.
정상적으로, 배경 잡음은 자주 변하지 않는다. 대부분의 경우에, 배경 잡음은 시간에 따라 다소 불변하는 경향이 있다. 따라서, 배경 잡음 추정기(12)가 불활성 위상(28)의 시작을 검출한 뒤에 즉시 무음 삽입 설명기 프레임(32)을 삽입한 후에, 어떠한 데이터 스트림 전송도 중단될 수 있는데 따라서 이러한 중단 위상(34)에서, 데이터 스트림(30)은 어떠한 비트레이트도 소비하지 않거나 또는 일부 전송 목적을 위하여 필요한 최소 비트레이트만을 소비한다. 최소 비트레이트를 유지하기 위하여, 배경 잡음 추정기(12)는 무음 삽입 서술기(32)의 출력을 간헐적으로 반복할 수 있다.
그러나, 시간에 따라 변하지 않는 배경 잡음의 경향에도 불구하고, 배경 잡음이 변하는 것이 발생할 수 있다. 예를 들면, 배경 잡음이 사용자의 통화 동안에 승용차로부터 승용차 외부의 차량 잡음(traffic noise)으로 변하도록 승용차에서 떠난 휴대폰 사용자를 가정한다. 배경 잡음의 그러한 변경들을 추적하기 위하여, 배경 잡음 추정기(12)는 불활성 위상(28) 동안에도 배경 잡음을 연속적으로 조사하도록 구성될 수 있다. 배경 잡음 추정기(12)가 파라미터 배경 잡음 추정이 일부 한계값을 초과하는 양에 의해 변하는 것을 결정할 때마다, 배경 추정기(12)는 파라미터 배경 잡음 추정의 업데이트된 버전을 또 다른 무음 삽입 서술기(38)를 거쳐 데이터 스트림 내로 삽입할 수 있으며, 그 이후에 예를 들면, 또 검출기(16)에 의해 검출되는 것과 같이 또 다른 활성 위상(42)이 시작할 때까지 또 다른 중단 위상(40)이 뒤따를 수 있다. 일반적으로, 현재 업데이트된 파라미터 배경 잡음 추정을 드러내는 무음 삽입 서술기 프레임들은 대안으로서 또는 부가적으로 파라미터 배경 잡음 추정의 변화와 관계없이 중간 방식으로 불활성 위상 내에 배치될 수 있다.
분명하게, 인코딩 엔진(14)에 의해 출력되고 해칭(hatching)의 사용에 의해 도 1에 표시된 데이터 스트림(44)은 불활성 위상(28) 동안에 전송되려는 데이터 스트림 단편들(32 및 38)보다 더 많은 전송 비트레이트들을 소비하며 따라서 비트레이트 절약이 상당하다. 게다가, 배경 잡음 추정기(12)가 데이터 스트림(30)의 또 다른 제공으로의 진행과 함께 즉시 시작할 수 있기 때문에, 시간에 대한 불활성 검출 지점(34)을 넘어 인코딩 엔진(14)의 데이터 스트림(44)을 미리 연속적으로 전송하는 것이 필요하지 않으며, 그렇게 함으로써 전체 소비되는 비트레이트를 더 감소시킨다.
또 다른 특정 실시 예들과 관련하여 아래에 더 상세히 설명될 것과 같이, 인코딩 엔진(14)은 입력 오디오 신호를 인코딩하는데 있어서, 입력 오디오 신호를 선형 예측 계수들 내로 예측 코딩하고, 각각 데이터 스트림(30 및 44) 내로 여진 신호를 변환 코딩하고 선형 예측 계수들을 코딩하도록 구성될 수 있다. 한가지 가능한 구현이 도 2에 도시된다. 도 2에 따라, 인코딩 엔진(14)은 오디오 신호 입력 신호 및 인코딩 엔진(14)의 데이터 스트림 출력(58) 사이에 순서대로 연속으로 연결되는, 변환기(transformer, 50), 주파수 도메인 잡음 형상기(52), 및 양자화기(54)를 포함한다. 또한, 도 2의 인코딩 엔진(14)은 오디오 신호 부분들의 각각의 윈도우잉 및 윈도우잉된 부분들 상의 자기상관의 적용에 의해 오디오 신호(56)로부터 선형 예측 계수들을 결정하거나, 또는 자기상관을 결정하기 위하여, 그것의 파워 스펙트럼을 사용 및 역 이산 푸리에 변환(inverse DFT)의 적용, 그 뒤에 (위너(Wiener)) 레빈슨-더빈(Levinson-Durbin) 알고리즘의 사용을 갖는 변환기(50)에 의해 출력되는 것과 같이 입력 오디오 신호의 변환 도메인 내의 변환들을 기초로 하여 자기상관을 결정하도록 구성되는 선형 예측 분석 모듈(60)을 포함한다.
선형 예측 분석 모듈(60)에 의해 판정되는 선형 예측 계수들을 기초로 하여, 출력(58)에서 출력되는 데이터 스트림에 선형 예측 코딩들에 대한 각각의 정보가 제공되며, 주파수 도메인 잡음 형상기는 모듈(60)에 의해 출력되는 선형 예측 계수들에 의해 판정되는 선형 예측 분석 필터의 전달 함수와 상응하는 전달 함수에 따라 오디오 신호의 스펙트로그램(spectrogram)을 스펙트럼으로 형상화하도록 제어된다. 데이터 스트림 내에서 그것들을 전송하기 위한 선형 예측 코딩들의 양자화는 선 스펙트럼 쌍(Line spectrum Pair, LSP)/선 스펙트럼 주파수(LSF) 도메인 내에서 또는 분석기(60)에서의 분석 비율과 비교하여 전송 비율을 감소시키기 위하여 보간을 사용하여 실행될 수 있다. 또한, 주파수 도메인 잡음 형상기(FDNS) 내에서 실행되는 스펙트럼 가중으로의 선형 예측 코딩 전환은 홀수 이산 푸리에 변환의 선형 예측 코딩들 상으로의 적용 및 나눔수로서 결과로서 생기는 가중 값들의 변환기의 스펙트럼 상으로의 적용을 포함할 수 있다.
양자화기(54)는 그리고 나서 스펙트럼으로 형성된 스펙트로그램의 변환 계수들을 양자화한다. 예를 들면, 변환기(50)는 시간 도메인으로부터 스펙트럼 도메인으로 오디오 신호를 전달하기 위하여 변형 이산 코사인 변환과 같은 겹침 변환을 사용하며, 그렇게 함으로써, 그리고 나서 선형 예측 분석 필터의 전달 함수에 따라 이러한 변환들을 가중함으로써 주파수 도메인 잡음 형상기(52)에 의해 스펙트럼으로 형성되는 입력 오디오 신호의 윈도우잉된 부분들의 오버래핑과 상응하는 연속적인 변환들을 획득한다.
형상화된 스펙트로그램은 여진 신호로서 해석될 수 있으며 쇄선 화살표(62)로 표시된 것과 같이, 배경 잡음 추정기(12)는 이러한 여진 신호를 사용하여 파라미터 배경 잡음 추정을 업데이트하도록 구성될 수 있다. 대안으로서, 쇄선 화살표(64)로 표시된 것과 같이, 배경 잡음 추정기(12)는 업데이트를 위한 기본으로서 직접적으로, 즉, 잡음 형상기(52)에 의한 주파수 도메인 잡음 형상기 없이 변환기(50)에 의한 출력으로서 겹침 변환 표현을 사용할 수 있다.
도 1 내지 2에 도시된 구성요소들의 가능한 구현에 관한 상세한 설명들이 그 뒤에 더 상세한 실시 예들로부터 유래하며 이러한 모든 상세한 설명들은 개별적으로 도 1 및 2의 구성요소들로 이전가능하다는 것을 이해하여야 한다.
그러나, 이러한 실시 예들을 설명하기 전에, 부가적으로 또는 대안으로서, 디코더 면에서 파라미터 배경 잡음 추정 업데이트가 실행될 수 있는 것을 나타내는, 도 3이 참조된다.
도 3의 오디오 디코더(80)는 그것으로부터 디코더(80)의 출력에서 출력되려는 오디오 신호를 재구성하기 위하여 디코더(82)의 입력에 들어가는 데이터 스트림을 디코딩하도록 구성된다. 데이터 스트림은 적어도 활성 위상(86)에 뒤이어 불활성 위상(28)을 포함한다. 내부적으로, 오디오 디코더(80)는 배경 잡음 추정기, 디코딩 엔진(92), 파라미터 랜덤 발생기(parametric random generator, 94) 및 배경 잡음 발생기(96)를 포함한다. 디코딩 엔진(92)은 입력(82) 및 출력(84) 사이에 연결되고 유사하게, 제공기(90), 배경 잡음 발생기(96) 및 파라미터 랜덤 발생기의 연속적 연결이 입력(82) 및 출력(84) 사이에 연결된다. 디코더(92)는 활성 위상 동안에 데이터 스트림으로부터 오디오 신호를 재구성하도록 구성되며, 따라서 출력(84)에서 출력되는 것과 같은 오디오 신호(98)는 적절한 품질로 잡음 및 유용한 소리를 포함한다. 배경 잡음 추정기(90)는 활성 위상 동안에 데이터 스트림으로부터 파라미터 배경 잡음 추정을 연속적으로 업데이트하도록 구성된다. 이를 위하여, 배경 잡음 추정기(90)는 디코딩 엔진(92)으로부터 오디오 신호의 일부 재구성된 버전을 획득하기 위하여 쇄선(100)에 의해 도시된 것과 같이 직접적으로 입력(82)에 연결되지 않고 디코딩 엔진을 거쳐 연결될 수 있다. 원칙적으로, 배경 잡음 추정기(90)는 배경 잡음 추정기(90)가 오디오 신호의 재구성 가능한 버전으로의 액세스를 갖는, 즉, 인코딩 면에서 양자화에 의해 야기되는 손실을 포함한다는 사실을 제외하고, 배경 잡음 추정기(12)와 매우 유사하게 운용하도록 구성될 수 있다.
파라미터 랜덤 발생기(94)는 값들의 시퀀스가 파라미터로 배경 잡음 발생기(96)를 거쳐 설정될 수 있는 통계적 분포에 일치할 수 있는 하나 또는 그 이상의 난수 발생기(true random number generator) 또는 슈도(pseudo) 난수 발생기를 포함할 수 있다.
배경 잡음 발생기(96)는 배경 잡음 추정기(90)로부터 획득되는 것과 같은 파라미터 배경 잡음 추정에 따라 불활성 위상 동안에 파라미터 랜덤 발생기(94)를 제어함으로써 불활성 위상(88) 동안에 오디오 신호(98)를 합성하도록 구성된다. 비록 두 엔티티(96 및 94)가 연속적으로 연결되는 것으로 도시되나, 연속적 연결이 이를 한정하는 것으로 해석되어서는 안 된다. 발생기들(96 및 94)은 서로 연결될 수 있다. 실제로, 발생기(94)는 발생기(96)의 일부인 것으로 해석될 수 있다.
따라서, 도 3의 오디오 디코더(80)의 운용 방식은 다음과 같을 수 있다. 활성 위상(85) 동안에 입력(82)에 활성 위상(86) 동안에 디코딩 엔진(92)에 의해 처리되려는 데이터 스트림 부분(102)이 연속적으로 제공된다. 입력(82)에서 들어가는 데이터 스트림(104)은 그리고 나서 일부 시간 순간(106)에서 디코딩 엔진(92)을 위하여 전념하는 데이터 스트림 부분(102)의 전송을 멈춘다. 즉, 엔진(92)에 의한 디코딩을 위하여 데이터 스트림 부분의 어떠한 추가의 프레임도 시간 순간(106)에서 이용할 수 없다. 불활성 위상(88)의 입구의 신호전달(signalization)은 데이터 스트림 부분(102)의 전송의 중단일 수 있거나, 또는 불활성 위상(88)의 시작에서 즉시 배치되는 일부 정보(108)에 의해 신호가 보내질 수 있다.
어떤 경우라도, 불활성 위상(88)의 입구는 매우 갑자기 발생하나, 이는 문제가 되지 않는데 그 이유는 배경 잡음 추정기(90)가 데이터 스트림 부분(102)을 기초로 하여 활성 위상(86) 동안에 파라미터 배경 잡음 추정을 연속적으로 업데이트 하였기 때문이다. 이 때문에, 배경 잡음 추정기(90)는 106에서 불활성 위상이 시작하자마자 배경 잡음 발생기(96)에 파라미터 배경 잡음 추정의 새로운 버전을 제공할 수 있다. 따라서, 시간 순간(106) 이후에, 디코딩 엔진(92)은 디코딩 엔진(92)에 더 이상 데이터 스트림 부분(102)이 제공되지 않기 때문에 어떠한 오디오 신호 재구성의 출력도 멈추나, 파라미터 랜덤 발생기(94)는 배경 잡음의 에뮬레이션(emulation)이 시간 순간(106)까지 디코딩 엔진(106)에 의해 출력되는 것과 같은 재구성되는 오디오 신호를 무간격으로(gaplessly) 뒤따르기 위하여 시간 순간(106) 다음으로 바로 출력(84)에서 출력될 수 있는 것과 같이 파라미터 배경 잡음 추정에 따른 배경 잡음 발생기(96)에 의해 제어된다. 엔진(92)에 의해 출력되는 것과 같은 활성 위상의 마지막 재구성되는 프레임으로부터 파라미터 배경 잡음 추정의 최근에 업데이트된 버전에 의해 판정된 것과 같은 배경 잡음으로 전송하기 위하여 크로스- 페이딩(cross-fading)이 사용될 수 있다.
배경 잡음 추정기(90)가 활성 위상(86) 동안에 데이터 스트림(104)으로부터 파라미터 배경 잡음 추정을 연속적으로 업데이트하도록 구성되기 때문에, 이는 활성 위상(86)에서 데이터 스트림(104)으로부터 오디오 신호의 버전 내의 잡음 컴포넌트 및 유용한 신호 컴포넌트 사이를 구별하고 유용한 신호 컴포넌트보다는 잡음 컴포넌트로부터 파라미터 배경 잡음 추정을 결정하도록 구성될 수 있다. 배경 잡음 추정기(90)가 이러한 구별/분리를 실행하는 방법은 배경 잡음 추정기(12)와 관련하여 위에서 설명된 방법과 상응한다. 예를 들면, 디코딩 엔진(92) 내의 데이터 스트림(104)으로부터 내부로 재구성되는 여진 또는 잔류 신호가 사용될 수 있다.
도 2와 유사하게, 도 4는 디코딩 엔진(92)을 위한 가능한 구현을 도시한다. 도 4에 따라, 디코딩 엔진(92)은 데이터 스트림 부분(102)을 수신하기 위한 입력(110) 및 활성 위상(86) 내의 재구성되는 오디오 신호를 출력하기 위한 출력(112)을 포함한다. 그것들 사이에 연속적으로 연결되어, 디코딩 엔진(92)은 순서대로 입력(110) 및 출력(112) 사이에 연결되는, 탈양자화기(114), 주파수 도메인 잡음 형상기(116) 및 역 변환기(118)를 포함한다. 입력(110)에 도착하는 데이터 스트림 부분(102)은 여진 신호의 변환 코딩된 버전, 즉, 탈양자화기(114)의 입력에 제공되는, 이를 표현하는 변환 계수 레벨들뿐만 아니라 정보가 주파수 도메인 잡음 형상기(116)에 제공되는, 선형 예측 계수들 상의 정보를 포함한다. 탈양자화기(114)는 여진 신호의 스펙트럼 표현을 탈양자화하고 이를 주파수 도메인 잡음 형상기(116)로 전달하며 차례로, 선형 예측 합성 필터와 상응하는 전달 함수에 따라 여진 신호의 스펙트로그램(플랫 양자화 잡음과 함께)을 형성하는데, 그렇게 함으로써, 양자화 잡음을 형성한다. 원칙적으로, 도 4의 주파수 도메인 잡음 형상기(116)는 도 2의 주파수 도메인 잡음 형상기와 유사하게 작동한다. 선형 예측 코딩들이 데이터 스트림으로부터 추출되고 그리고 나서 예를 들면, 추출된 선형 예측 코딩들 상으로 홀수 이산 푸리에 변환의 적용에 의해, 그리고 나서 결과로서 생기는 스펙트럼 가중들을 배율기(muultiplicator)들과 같은 탈양자화기(114)로부터 오는 탈양자화된 스펙트럼 상에 적용하여 선형 예측 코딩을 스펙트럼 가중 변환으로 만든다. 변환기(118)는 그리고 나서 획득된 오디오 신호 재구성을 스펙트럼 도메인으로부터 시간 도메인으로 전달하고 출력(112)에서 획득된 재구성된 오디오 신호를 출력한다. 겹침 변환이 역 변형 이산 코사인 변환과 같은 역 변환기(118)에 의해 사용될 수 있다. 쇄선 화살표(120)에 의해 도시된 것과 같이, 여진 신호의 스펙트로그램은 파라미터 배경 잡음 업데이트를 위한 배경 잡음 추정기(90)에 의해 사용될 수 있다. 대안으로서, 오디오 신호 자체의 스펙트로그램이 쇄선 화살표(122)에 의해 표시된 것과 같이 사용될 수 있다.
도 2 및 4와 관련하여, 인코딩/디코딩 엔진들의 구현을 위한 이러한 실시 예들은 제한적인 것으로 해석되어서는 안 된다는 것을 이해하여야 한다. 대안의 실시 예들이 또한 실현 가능하다. 게다가, 인코딩/디코딩 엔진들은 도 2 및 4의 부품들이 그것과 관련된 특정 프레임 코딩 방식을 갖는 인코딩/디코딩 프레임들에 대한 책임을 맡는 다중 방식 코덱 형태일 수 있으며, 반면에 다른 프레임들은 도 2 및 4에 도시되지 않은 인코딩/디코딩 엔진들의 다른 부분들의 대상이다. 그러한 또 다른 프레임 코딩 방식은 또한 예를 들면, 변환 코딩의 사용보다는 시간-도메인 내의 코딩을 갖는, 선형 예측 코딩을 사용하는 예측 코딩 방식일 수 있다.
도 5는 도 1의 인코더의 더 상세한 실시 예를 도시한다. 특히, 특정 실시 예에 따라 도 5에 배경 잡음 추정기(12)가 더 상세히 도시된다.
도 5에 따라, 배경 잡음 추정기(12)는 변환기(140), 주파수 도메인 잡음 형상기(142), 선형 예측 분석 모듈(144), 잡음 추정기(146), 파라미터 추정기(148), 정상성 측정기(stationarity measurer, 150), 및 양자화기(152)를 포함한다. 언급된 부품들 일부는 인코딩 엔진(14)에 의해 부분적으로 또는 완전히 공유될 수 있다. 예를 들면, 변환기(140) 및 도 2의 변환기(50)는 같을 수 있고, 선형 예측 분석 모듈들(60 및 144) 이 같을 수 있으며, 주파수 도메인 잡음 형상기들(52 및 142)이 같을 수 있거나 및/또는 양자화기들(54 및 152)이 하나의 모듈에서 구현될 수 있다.
도 5는 또한 도 1의 스위치(22)의 운용을 위한 간접 책임을 추정하는 비트스트림 패키저(bitstream packager, 154)를 포함한다. 특히, 오디오 인코딩(14)의 경로 또는 배경 잡음 추정기(12)의 경로 중 어떤 경로가 취해지는지를 판정하는, 도 5의 인코더의 검출기(16)와 같은 유성음 활성 검출기가 바람직하게 호출된다. 더 정확히 설명하면, 인코딩 엔진(14) 및 배경 잡음 추정기(14)는 입력(18) 및 패키저(154) 사이에 모두 병렬로 연결되며, 배경 잡음 추정기(12) 내에, 변환기(140), 주파수 도메인 잡음 형상기(142), 선형 예측 분석 모듈(144), 잡음 추정기(146), 파라미터 추정기(148), 및 양자화기(152)가 입력(18) 및 패키저(154) 사이에 직렬로 연결되나(언급된 순서대로), 선형 예측 분석 모듈(144)은 각각 입력(18) 및 주파수 도메인 잡음 형상기 모듈(142)의 선형 예측 코딩 입력과 양자화기(152)의 또 다른 입력 사이에 연결되며, 정상성 측정기(150)는 부가적으로 선형 예측 분석 모듈(144) 및 양자화기(152)의 제어 입력 사이에 연결된다. 비트스트림 패키저(154)는 만일 그것이 그것의 입력들에 연결되는 엔티티들 중 어느 하나로부터 입력을 수신하면 간단하게 패키징을 실행한다.
제로 프레임들을 전송하는 경우에, 즉, 불활성 위상의 중단 위상 동안에, 검출기(16)는 배경 잡음 추정기(12), 특히 양자화기(152)에 과정을 멈추고 비트스트림 패키저(154)에 어떠한 것도 보내지 않도록 알려준다.
도 5에 따라, 검출기(16)는 활성/불활성 위상을 검출하기 위하여 시간 및/또는 변환/스펙트럼 도메인 내에서 운용할 수 있다.
도 5의 인코더의 운용 방식은 다음과 같다. 자명할 것과 같이, 도 5의 인코더는 일반적인 정지된 잡음, 차량 잡음, 많은 대화자를 갖는 누화 간섭 잡음(babble noise), 일부 악기, 및 특히 빗방울과 같은 고조파(harmonics)에 풍부한 것과 같은 편안한 잡음(comfort noise)의 품질을 개선할 수 있다.
특히, 도 5의 인코더는 인코딩 면에서 검출된 잡음이 모방되는 것과 같이 변환 계수들을 자극하기 위하여 디코딩 면에서 랜덤 발생기를 제어한다. 따라서, 도 5의 인코더의 기능을 더 논의하기 전에, 도 5의 인코더에 의해 설명된 것과 같이 디코딩 면에서 편안한 잡음을 모방할 수 있는 디코더를 위한 가능한 실시 예를 도시한 도 6이 간단하게 참조된다. 더 일반적으로, 도 6은 도 1의 인코더의 디코더 맞춤의 가능한 구현을 도시한다.
특히, 도 6의 디코더는 활성 위상 동안에 데이터 스트림 부분(44)을 디코딩하기 위한 디코딩 엔진(160) 및 불활성 위상(28)과 관련하여 데이터 스트림 내에 제공되는 정보(32 및 38)를 기초로 하여 편안한 잡음을 발생시키기 위한 편안한 잡음 발생 부품(162)을 포함한다. 편안한 잡음 발생 부품(162)은 파라미터 랜덤 발생기(164), 주파수 도메인 잡음 형상기(166) 및 역 변환기(168, 또는 합성기)를 포함한다. 모듈들(164 내지 168)은 서로 직렬로 연결된다. 합성기(168)의 출력에서, 편안한 잡음이 발생하는데, 이는 도 1에 대하여 논의된 것과 같이 불활성 위상(28) 동안에 디코딩 엔진(160)에 의해 출력되는 것과 같은 재구성되는 오디오 신호 사이의 갭을 채운다. 프로세서들 주파수 도메인 잡음 형상기(166) 및 역 변환기(168)는 디코딩 엔진(160)의 일부일 수 있다. 특히, 그것들은 예를 들면, 도 4의 주파수 도메인 잡음 형상기(116 및 118)와 동일할 수 있다.
도 5 및 6의 개별 모듈들의 운용 방식 및 기능이 다음의 설명으로부터 자명해질 것이다.
특히 변환기(140)는 겹침 변환을 사용하는 것과 같이 입력 신호를 스펙트로그램으로 스펙트럼으로 분해한다. 잡음 추정기(146)는 그것으로부터의 잡음 파라미터들을 결정하도록 구성된다. 동시에, 음성 또는 소리 활성 검출기(16)는 활성 위상으로부터 불활성 위상으로 또는 반대로의 전이가 발생하는지를 검출하기 위하여 입력 신호로부터 유래하는 특성들을 모방한다. 검출기(16)에 의해 사용되는 이러한 특성들은 트랜지언트/온셋(onset) 검출기, 조성(tonality) 측정, 및 선형 예측 코딩 잔류 측정의 형태일 수 있다. 트랜지언트/온셋 검출기는 깨끗한 환경 또는 잡음이 없는 신호에서 공격(에너지의 갑작스러운 증가) 또는 활성 음성의 시작을 검출하도록 사용될 수 있다. 조성 측정은 사이렌, 전화벨소리 및 음악과 같은 유용한 배경 잡음을 구별하도록 사용될 수 있다. 선형 예측 코딩 잔류는 신호 내의 음성 존재의 표시를 얻도록 사용될 수 있다. 이러한 특성들을 기초로 하여, 검출기(16)는 현재 프레임이 예를 들면, 음성, 무음, 음악, 또는 잡음을 위하여 분류될 수 있는지의 정보를 제공할 수 있다.
잡음 추정기(146)가 [R. Martin, Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics, 2001]에서 제안된 것과 같이, 스펙트로그램 내의 잡음을 그 안의 유용한 신호 컴포넌트와 구별하기 위한 책임을 맡을 수 있으나, 파라미터 추정기(148)는 잡음 컴포넌트들을 통계적으로 분석하고 예를 들면, 잡음 컴포넌트를 기초로 하여, 각각의 스펙트럼 컴포넌트를 위하여 파라미터들을 결정하는 책임이 있을 수 있다.
잡음 추정기(146)는 예를 들면, 스펙트로그램 내의 지역 최소치(local minima)를 탐색하도록 구성될 수 있고 파라미터 추정기(148)는 스펙트로그램 내의 최소치는 주로 전경(foreground) 소리보다는 배경 잡음의 속성으로 가정하여, 이러한 부분들에서 잡음 통계를 결정하도록 구성될 수 있다.
중간의 언급으로서, 최소치는 또한 비-형상화 스펙트럼에서 발생하기 때문에 주파수 도메인 잡음 형상기(142) 없이 잡음 추정기에 의한 추정을 실행하는 것이 또한 가능하다는 것이 강조된다. 도 5의 대부분의 설명은 마찬가지일 수 있다.
파라미터 양자화기(152)는 차례로 파라미터 추정기(148)에 의해 추정되는 파라미터들을 파라미터화하도록 구성될 수 있다. 예를 들면, 파라미터들은 잡음 컴포넌트가 관련되는 한 입력 신호의 스펙트로그램 내의 스펙트럼 값들의 분포의 평균 진폭 및 첫 번째 도는 더 높은 순차 운동량을 서술할 수 있다. 비트레이트를 절약하기 위하여, 파라미터들은 변환기(140)에 의해 제공되는 스펙트럼 해상도보다 낮은 스펙트럼 해상도에서 무음 삽입 서술기 프레임 내에 이를 삽입하기 위하여 데이터 스트림으로 전달될 수 있다.
정상성 측정기(150)는 잡음 신호를 위한 정상성의 측정을 유래하도록 구성될 수 있다. 차례로 파라미터 추정기(148)는 파라미터 업데이트가 도 1의 프레임과 같은 또 다른 무음 삽입 서술기 프레임의 송신에 의해 개시되어야 하는지를 판정하거나 또는 파라미터들이 추정되는 방법에 영향을 주기 위하여 정상성의 측정을 사용할 수 있다.
모듈(152)은 파라미터 추정기(148) 및 선형 예측 분석(144)에 의해 계산된 파라미터들을 양자화하고 이를 디코딩 면에 전달한다. 특히, 양자화 이전에, 스펙트럼 컴포넌트들은 그룹들로 그룹화될 수 있다. 그러한 그룹화는 바크 스케일(bark scale) 등과 일치하는 것과 같은 음향심리학적 양상들에 따라 선택될 수 있다. 검출기(16)는 양자화기(152)에 양자화가 실행될 필요가 있는지를 알려준다. 양자화가 필요하지 않은 경우에, 제로 프레임들이 뒤따라야만 한다.
서술을 활성 위상으로부터 불활성 위상으로의 전환의 구체적인 시나리오상으로 전달할 때, 도 5의 모듈들은 다음과 같이 행동한다.
활성 위상 동안에, 인코딩 엔진(14)은 오디오 신호를 패키저를 거쳐 비트스트림 내로 계속 코딩한다. 인코딩은 프레임 방식으로 실행될 수 있다. 데이터 스트림의 각각의 프레임은 오디오 신호의 하나의 시간 부분/간격을 표현할 수 있다. 오디오 인코더(14)는 선형 예측 코딩 코딩을 사용하여 모든 프레임을 인코딩하도록 구성될 수 있다. 오디오 인코더(14)는 예를 들면, 변환 코딩 여진 프레임 코딩 방식으로 불리는, 도 2와 관련하여 설명된 것과 같이 일부 프레임을 코딩하도록 구성될 수 있다. 나머지들은 예를 들면, 대수 부호 여진 선형 예측 코딩 방식과 같은, 부호 여진 선형 예측 코딩을 사용하여 인코딩될 수 있다. 즉, 데이터 스트림의 부분(44)은 프레임 비율보다 크거나 동일할 수 있는 일부 선형 예측 코딩 전송 비율을 사용하여 선형 예측 코딩 계수들의 연속적인 업데이트를 포함할 수 있다.
동시에, 잡음 추정기(146)는 이러한 스펙트럼의 시퀀스에 의해 표현되는 변환 코딩 여진 스펙트로그램 내의 최소치(kmin)를 식별하기 위하여 선형 예측 코딩 플랫(flattended)(선형 예측 코딩 필터링된) 스펙트럼을 검사한다. 물론, 이러한 최소치는 시간(t)에 따라 변경할 수 있는데, 즉, kmin(t)이다. 그럼에도 불구하고, 최소치는 주파수 도메인 잡음 형상기(142)에 의해 출력되는 스펙트로그램 트레이스(trace)들을 형성할 수 있으며, 따라서 시간(t)에서 각각의 연속적인 스펙트럼(i)을 위하여, 최소치는 각각 이전 및 다음 스펙트럼에서의 최소치와 관련될 수 있다.
파라미터 추정기는 그리고 나서 예를 들면, 서로 다른 스펙트럼 컴포넌트들 또는 대역들을 위한 중심 집중 경향(central tendency, d, 평균, 중앙치(median) 등) 및/또는 분산(d, 표준 편차, 분산 등)과 같이, 그것으로부터 배경 잡음 평가 파라미터들을 유래할 수 있다. 유래는 최소치에서 스펙트로그램의 스펙트럼의 연속적인 스펙트럼 계수들의 통계적 분석을 포함할 수 있는데, 그렇게 함으로써 각각의 최소치(kmin)를 위한 m 및 d를 산출한다. 다른 미리 결정된 스펙트럼 컴포넌트들 또는 대역들을 위한 m 및 d를 획득하기 위하여 앞서 언급된 스펙트럼 최소치 사이의 스펙트럼 크기를 따라 보간이 실행될 수 있다. 중심 집중 경향의 유도 및/또는 보간 및 분산(표준 편차, 분산 등)의 유도를 위한 스펙트럼 해상도는 다를 수 있다.
방금 언급된 파라미터들은 예를 들면, 주파수 도메인 잡음 형상기에 의해 출력되는 스펙트럼 당 연속적으로 업데이트된다.
검출기(16)가 불활성 위상의 입구를 검출하자마자, 검출기(16)는 다른 어떠한 활성 프레임들도 패키저(154)에 전달되지 않도록 엔진(14)에 그에 알맞게 알려준다, 그러나, 양자화기(152)는 대신에 불활성 위상 내의 제 1 무음 삽입 서술기 프레임 내의 방금 언급된 통계적 잡음 파라미터들을 출력한다. 제 1 무음 삽입 서술기 프레임은 선형 예측 코딩들의 업데이트를 포함하거나 포함하지 않을 수 있다. 만일 선형 예측 코딩 업데이트가 존재하면, 이는 선 스펙트럼 주파수/선 스펙트럼 쌍 도메인 내의 양자화를 사용하는 것과 같이, 또는 다르게, 활성 위상으로의 진행에서 인코딩 엔진(14)의 프레임워크 내의 주파수 도메인 잡음 형상기(143)에 의해 적용되었던 것과 같은 선형 예측 코딩 분석 또는 선형 예측 코딩 합성 필터의 전달 함수와 상응하는 스펙트럼 가중들을 사용하는 것과 같이, 부분(44)에서 사용되는 형태로, 즉, 활성 위상 동안에 데이터 스트림 내에 전달될 수 있다.
불활성 위상 동안에, 잡음 추정기(146), 파라미터 평가기(148) 및 정상성 측정기(150)는 디코딩 면이 배경 잡음의 변화상에서 계속 업데이트되도록 하기 위하여 계속해서 공동 운용한다. 특히, 측정기(150)는 무음 삽입 서술기 프레임이 디코더로 전송되어야만 할 때 변화들을 식별하고 추정기(148)에 알려주기 위하여 선형 예측 코딩들에 의해 정의되는 스펙트럼 가중을 검사한다. 예를 들면, 측정기(150)는 앞서 언급된 정상성의 측정이 특정 양을 초과하는 선형 예측 코딩들 내의 변동 정도를 나타낼 때마다 그에 알맞게 추정기를 활성화할 수 있다. 부가적으로, 또는 대안으로서, 추정기는 업데이트된 파라미터들을 정기적으로 보내도록 트리거링될 수 있다. 이러한 무음 삽입 서술기 업데이트 프레임들(40) 사이에, 데이터 스트림들, 즉 "제로 프레임들" 내에 어떤 것도 보내질 수 없다.
디코더 면에서, 활성 위상 동안에, 디코딩 엔진(160)은 오디오 신호의 재구성에 대한 책임을 가정한다. 불활성 위상이 시작하자마자, 적응성 파라미터 랜덤 발생기(164)는 랜덤 스펙트럼 컴포넌트들을 발생시키기 위하여 파라미터 양자화기(150)로부터 데이터 스트림 내의 불활성 위상 동안에 보내지는 탈양자화된 랜덤 발생기 파라미터들을 사용하는데, 그렇게 함으로써 합성기(168)로 스펙트럼 에너지 프로세서(166) 내에 스펙트럼 내에 형성되는 랜덤 스펙트로그램을 형성하고 그리고 나서 스펙트럼 도메인으로부터 시간 도메인 내로 재변환을 실행한다. 주파수 도메인 잡음 형상기(166) 내의 스펙트럼 변환을 위하여, 가장 최근의 활성 프레임들로부터 가장 최근의 선형 예측 코딩 계수들이 사용될 수 있거나 또는 주파수 도메인 잡음 형상기(166)에 의해 적용되려는 스펙트럼 가중이 외삽법(extrapolation)에 의해 그것으로부터 유래할 수 있거나 또는 무음 삽입 서술기 프레임(32) 자체가 정보를 전달할 수 있다. 이러한 측정에 의해, 불활성 위상의 시작에서, 주파수 도메인 잡음 형상기(166)는 활성 데이터 부분(44) 또는 무음 삽입 서술기 프레임(32)으로부터 유래하는 선형 예측 코딩 합성 필터를 정의하는 선형 예측 코딩으로, 선형 예측 코딩 합성 필터의 전달 함수에 따라 들어오는 스펙트럼을 스펙트럼으로 계속 가중한다. 그러나, 불활성 위상의 시작과 함께, 주파수 도메인 잡음 형상기(166)에 의해 형상화되려는 스펙트럼은 변환 코딩 여진 방식의 경우에서와 같이 변환 코딩되는 것보다는 오히려 무작위로 발생되는 스펙트럼이다. 게다가, 166에서 적용되는 스펙트럼 형상화는 무음 삽입 서술기 프레임들(38)의 사용에 의해 불연속적으로 업데이트된다. 중단 위상(36) 동안에 하나의 스펙트럼 형상화 정의로부터 그 다음으로 점차로 전환하도록 보간 또는 페이딩이 실행될 수 있다.
도 6에 도시된 것과 같이, 146과 같은 적응성 파라미터 랜덤 발생기는 부가적으로, 선택적으로, 주로, 불활성 위상의 입구 바로 전에, 데이터 스트림 내의 마지막 활성 위상의 가장 최근의 부분들 사이에 포함되는 것과 같은 탈양자화된 변환 계수들을 사용한다. 예를 들면, 사용은 따라서 평탄한 전이가 활성 위상 내의 스펙트로그램으로부터 불활성 위상 내의 랜덤 스펙트로그램으로 실행되는 것과 같을 수 있다.
다시 도 1 및 3을 간단히 언급하면, 도 5의 실시 예로부터 인코더 및/또는 디코더 내에 발생되는 것과 같은 파라미터 배경 잡음 추정은 바크 대역들 또는 다른 스펙트럼 컴포넌트들과 같은 독특한 스펙트럼 부분들을 위하여 시간으로 연속적인 스펙트럼 값들의 분포에 대한 통계적 정보를 포함할 수 있다고 할 수 있다. 그러한 각각의 스펙트럼 부분을 위하여, 예를 들면, 통계 정보가 분산 측정을 포함할 수 있다. 분산 측정은 따라서 주로 스펙트럼 부분들에서/부분들을 위하여 샘플링되는, 스펙트럼으로 분해하는 방식으로 스펙트럼 정보 내에 정의될 수 있다. 스펙트럼 해상도, 즉, 스펙트럼 축을 따라 확산되는 분산 및 중심 집중 경향을 위한 측정들의 수는 예를 들면, 분산 측정 및 선택적으로 존재하는 중간 또는 중심 집중 경향 사이에서 다를 수 있다. 통계적 정보는 무음 삽입 서술기 프레임들 내에 포함된다. 이는 통계적 스펙트럼에 따라 랜덤 스펙트럼을 합성하고 선형 예측 코딩 합성 필터의 전달 함수에 따라 이를 탈양자화함으로써 합성을 가능하게 하는 형상화된 변형 이산 코사인 변환 스펙트럼과 같은 선형 예측 코딩 분석 필터링된(즉, 선형 예측 코딩 평탄화된) 스펙트럼과 같은 형상화된 스펙트럼을 언급할 수 있다. 그러한 경우에 있어서, 스펙트럼 형상화 정보는 비록 그것이 예를 들면, 제 1 무음 삽입 서술기 프레임(32) 내에서 떠날 수 있더라도, 무음 삽입 서술기 프레임들 내에 존재할 수 있다. 그러나, 아래에 설명될 것과 같이, 이러한 통계적 정보는 대안으로서 비-형상화된 스펙트럼으로 언급할 수 있다. 게다가, 변형 이산 코사인 변환과 같은 실제 값의 스펙트럼 표현을 사용하는 대신에, 오디오 신호의 직각 대칭 필터 스펙트럼과 같은 복잡한 값의 필터뱅크 스펙트럼이 사용될 수 있다. 예를 들면, 비형상화된 형태의 오디오 신호의 직각 대칭 필터 스펙트럼이 사용될 수 있고 통계 정보에 의해 설명될 수 있으며 이 경우에 통계적 정보 자체 내에 포함되는 것 이외에 스펙트럼 형상화가 존재하지 않는다,
도 1의 실시 예에 대하여 도 3의 실시 예 사이의 관계와 유사하게, 도 7은 도 3의 디코더의 가능한 구현을 도시한다. 도 5에서와 같이 동일한 참조 부호들의 사용에 의해 도시된 것과 같이, 도 7의 디코더는 도 7의 잡음 추정기(146)를 갖는, 도 5에서의 동일한 구성요소들과 같이 운용되나, 도 4의 120 또는 122와 같은 전송되고 탈양자화된 스펙트로그램 상에서 운용되는, 잡음 추정기(146), 파라미터 추정기(148) 및 정상성 측정기(150)를 포함할 수 있다. 파라미터 추정기(146)는 그리고 나서 도 5에 설명된 것과 같이 운용된다. 정상성 측정기(148)에도 동일하게 적용되는데, 이는 에너지와 스펙트럼 값들 또는 활성 위상 동안에 데이터 스트림을 거쳐/으로부터 전송되고 탈양자화되는 것과 같이 선형 예측 코딩 분석 필터의(또는 선형 예측 코딩 합성 필터의) 스펙트럼의 시간 발생을 나타내는 선형 예측 코딩 데이터 상에서 운용된다.
구성요소들(146, 148 및 150)은 도 3의 배경 잡음 추정기(90)와 같이 행동하나, 도 7의 디코더는 또한 작용성 파라미터 랜덤 발생기(164) 및 주파수 도메인 잡음 형상기(166) 뿐만 아니라 역 변환기(168)를 포함하며 이들은 합성기(68)의 출력에서 편안한 잡음을 출력하기 위하여 도 6에서와 같이 서로 직렬로 연결된다. 모듈들(164, 166 및 168)은 모듈(164)이 파라미터 랜덤 발생기(94)의 기능성에 책임이 있는 것으로 추정하는 도 3의 배경 잡음 발생기(96)와 같이 행동한다. 적응성 파라미터 랜덤 발생기(94, 164)는 파라미터 추정기(148)에 의해 결정되는 파라미터들에 따라 스펙트로그램의 무작위로 발생되는 스펙트럼 컴포넌트들을 출력하고 차례로, 정상성 측정기(150)에 의해 출력되는 정상성 측정을 사용하여 트리거링된다. 프로세서(166)는 그리고 나서 발생된 스펙트로그램을 역 변환기(168)로 스펙트럼으로 형상화하고 그리고 나서 스펙트럼 도메인으로부터 시간 도메인으로의 전이를 실행한다. 불활성 위상(88) 동안에 디코더가 정보(108)를 수신할 때, 배경 잡음 추정기(90)는 잡음 추정들이 업데이트를 실행하고 일부 보간의 수단이 뒤따른다는 것을 이해하여야 한다. 그렇지 않으면, 만일 제로 프레임들이 수신되면, 간단히 보간/및/또는 페이딩과 같은 과정을 수행할 것이다.
도 5 내지 7을 요약하면, 이러한 실시 예들은 변형 이산 코사인 변환에서와 같은 실제 값들 또는 고속 푸리에 변환(FFT)에서와 같은 복잡한 값들일 수 있는, 변환 코딩 여진 계수들을 자극하기 위하여 제어된 랜덤 발생기(164)를 적용하는 것이 기술적으로 가능하다는 것을 나타낸다.
랜덤 발생기(164)는 바람직하게는 가능한 한 가깝게 잡음의 형태를 모델링하는 것과 같이 제어된다. 이는 만일 대상(target) 잡음이 미리 알려지면 달성될 수 있다. 일부 적용들이 이를 허용할 수 있다. 대상이 서로 다른 종류의 잡음을 접하는 많은 실제 적용들에서, 도 5 내지 7에 도시된 것과 같이 적응성 방법이 필요하다. 따라서, 간단하게 g = f(x)로서 정의되는 정의될 수 있는 적응성 파라미터 랜덤 발생기(164)가 사용되는데, 여기서 x=(x1, x2, ...)는 각각 파라미터 추정기들(146 및 150)에 의해 제공되는 랜덤 발생기 파라미터들의 세트이다.
파라미터 랜덤 발생기를 적응적으로 만들기 위하여, 랜덤 발생기 파라미터 추정기(146)는 랜덤 발생기를 적절하게 제어한다. 데이터가 통계적으로 불충분한 것으로 여겨지는 경우들을 보상하기 위하여 바이어스 보상(bias compensation)이 포함될 수 있다. 이는 과거 프레임들을 기초로 하는 잡음의 통계적으로 대응되는 모델을 발생시키도록 수행되고 추정된 파라미터들을 항상 업데이트할 것이다. 랜덤 발생기(164)가 가우스(Gaussian) 잡음을 발생시키도록 제안되는 예가 주어진다. 이 경우에 있어서, 예를 들면, 평균 및 가변 파라미터들만이 필요할 것이며 바이어스가 계산되고 그러한 파라미터들에 적용될 것이다. 더 고급의 방법이 잡음 또는 분포의 어떠한 종류도 처리할 수 있으며 파라미터들은 반드시 분포의 모멘트(moment)들은 아니다.
비-정지 잡음을 위하여, 정상성 측정을 갖는 것이 필요하고 덜 적응성의 파라미터 랜덤 발생기가 사용될 수 있다. 측정기(148)에 의해 판정되는 정상성 측정은 예를 들면, 이타쿠라 거리 측정(Itakura distanc measure), 쿨벡-라이블러(Kullback-Leibler) 거리 측정 등과 같은 다양한 방법들을 사용하여 입력 신호의 스펙트럼 형태로부터 유래할 수 있다.
도 1의 38에 의해 도시된 것과 같은 무음 삽입 서술기 프레임들을 통하여 전송된 잡음 업데이트들이 불연속 본성을 처리하기 위하여, 일반적으로 잡음의 에너지 및 스펙트럼 형태와 같은 부가적인 정보가 전송된다. 이러한 정보는 불활성 위상 내의 불연속 위상 동안에도 평탄한 전이를 갖는 디코더 내의 잡음을 발생시키는데 유용하다. 끝으로, 편안한 잡음 에뮬레이터의 품질을 향상시키는데 도움을 주도록 다양한 평탄화(smoothing) 또는 필터링 기술들이 적용될 수 있다.
위에서 이미 설명된 것과 같이, 한편으로는 도 5와 6 및 다른 한편으로는 도 7은 서로 다른 시나리오에 속한다. 도 5 및 6과 상응하는 시나리오에서, 파라미터 배경 잡음 추정은 처리된 입력 신호를 기초로 하여 인코더 내에서 수행되고 그 뒤에 파라미터들은 디코더로 전송된다. 도 7은 디코더가 활성 위상 내의 과거에 수신된 프레임들을 기초로 하여 파라미터 배경 잡음 추정을 수행하는 다른 시나리오와 상응한다. 음성/신호 활성 검출기 또는 잡음 추정기의 사용은 예를 들면, 활성 음성 동안에도 잡음 컴포넌트들의 추출을 돕는데 이로울 수 있다.
도 5 내지 7에 도시된 시나리오들 중에서, 도 7의 시나리오가 실행될 수 있는데 이러한 시나리오는 전송되는 낮은 비트레이트를 야기하기 때문이다. 그러나, 도 5 및 6의 시나리오는 이용가능한 더 정확한 잡음 추정을 갖는 장점을 갖는다.
위의 실시 예들 모두는 비록 일반적인 대역폭 확장이 사용될 수 있더라도, 스펙트럼 대역 복제(SBR)와 같은 대역폭 확장 기술들과 결합될 수 있다.
이를 설명하기 위하여, 도 8이 참조된다. 도 8은 도 1 및 5의 인코더가 입력 신호의 높은 주파수 부분과 관련하여 파라미터 코딩을 실행하도록 확장될 수 있는 모듈들을 도시한다. 특히, 도 8에 따라, 시간 도메인 입력 오디오 신호가 도 8에 도시된 것과 같이 직각 대칭 필터 분석 필터 뱅크와 같은 분석 필터뱅크(200)에 의해 스펙트럼으로 분해된다. 도 1 및 5의 위의 실시 예들은 그리고 나서 필터뱅크(200)에 의해 발생되는 스펙트럼 분해의 낮은 주파수 부분 상에만 적용될 수 있다. 높은 주파수 부분 상의 정보를 디코더 면에 전달하기 위하여, 파라미터 코딩이 또한 사용된다. 이를 위하여, 정규 스펙트럼 대역 복제 인코더(202)가 활성 위상 동안에 높은 주파수 부분을 파라미터화하고 그것에 대한 정보를 데이터 스트림 내의 스펙트럼 대역 복제 정보 형태로 디코딩 면에 제공한다. 스위치(204)는 불활성 위상 동안에 대역폭 확장을 위한 책임을 추정하기 위하여 필터뱅크(200)의 출력을 인코더(202)에 병렬로 연결되는 스펙트럼 대역 복제 인코더(206)의 입력에 연결하도록 직각 대칭 필터 필터뱅크(200)의 출력 및 스펙트럼 대역 복제 인코더(202)의 입력 사이에 제공될 수 있다. 즉, 스위치(204)는 도 1의 스위치(22) 같이 제어될 수 있다. 아래에 더 상세히 설명될 것과 같이, 스펙트럼 대역 복제 인코더 모듈(206)은 스펙트럼 대역 복제 인코더(202)와 유사하게 운용하도록 구성될 수 있다. 둘 모두 높은 주파수 부분 내의 입력 오디오 신호의 스펙트럼 엔벨로프를 파라미터화하도록 구성될 수 있는데, 즉, 나머지 높은 주파수 부분은 예를 들면, 인코딩 엔진에 의한 코어 코딩(core coding)의 대상이 아니다. 주파수 대역 복제 인코더 모듈(206)은 스펙트럼 엔벨로프가 데이터 스트림 내에서 파라미터화되고 전달되는 최소 시간/주파수 해상도를 사용할 수 있으며, 반면에 스펙트럼 대역 복제 인코더(202)는 시간/주파수 해상도를 오디오 신호 내의 트랜지언트들의 발생들에 따르는 것과 같이 입력 오디오 신호에 적용하도록 구성될 수 있다.
도 9는 대역폭 확장 인코딩 모듈(206)의 가능한 구현을 도시한다. 인코딩 모듈(206)의 입력 및 출력 사이에 시간/주파수 그리드 세터(grid setter, 208)), 에너지 계산기(210) 및 에너지 인코더(212)가 서로 직렬로 연결된다. 시간/주파수 그리드 세터(208)는 높은 주파수 부분의 엔벨로프가 결정되는 시간/주파수 해상도를 설정하도록 구성될 수 있다. 예를 들면, 최소 허용 시간/주파수 해상도는 인코딩 모듈(206)에 의해 연속적으로 사용된다. 에너지 계산기(210)는 그리고 나서 시간/주파수 해상도와 상응하는 시간/주파수 타일(tile)들 내의 높은 주파수 부분 내의 필터 뱅크(200)에 의해 출력되는 스펙트로그램의 높은 주파수 부분의 에너지를 판정할 수 있으며, 에너지 인코더(210)는 무음 삽입 서술기 프레임(38)과 같은 무음 삽입 서술기 프레임들과 같은 불활성 위상 동안에 계산기(210)에 의해 계산된 에너지들을 데이터 스트림(40, 도 1 참조) 내에 삽입하기 위하여 예를 들면, 엔트로피 코딩을 사용할 수 있다.
도 8 및 9의 실시 예에 따라 발생되는 대역폭 확장 정보는 또한 도 3, 4, 및 7과 같은, 위에서 설명된 실시 예들 중 어느 하나에 따른 디코더의 사용과 함께 사용될 수 있다.
따라서, 도 8 및 9는 도 1 내지 7과 관련하여 설명된 것과 같은 편안한 잡음 발생이 또한 스펙트럼 대역 복제와 함께 사용될 수 있다는 것을 명확하게 한다. 예를 들면, 위에서 설명된 오디오 인코더 및 디코더들은 서로 다른 운용 방식들로 운영하는데, 이들 중 일부는 스펙트럼 대역 복제를 포함하고 일부는 이를 포함하지 않을 수 있다. 초광대역 운용 방식들은 예를 들면, 스펙트럼 대역 복제를 포함할 수 있다. 어떤 경우라도, 편안한 잡음을 발생시키기 위한 실시 예들을 도시한 도 1 내지 7의 위의 실시 예들은 도 8 및 9와 관련하여 설명된 방식으로 대역폭 확장 기술들과 결합될 수 있다. 불활성 위상 동안에 대역폭 확장에 대한 책임을 맡는 스펙트럼 대역폭 복제 인코딩 모듈(206)은 매우 낮은 시간 및 주파수 해상도 상에서 운용하도록 구성될 수 있다. 정규 스펙트럼 대역 복제 처리와 비교하여, 인코더(206)는 불활성 위상 동안에 엔벨로프 조정기 내에 적용되는 에너지 스케일 팩터(energy scale factor)들을 보간하는 스케일 팩터 대역을 발생시키는 모든 편안한 잡음을 위하여 디코더 내의 임펄스 응답 평탄화 필터(IR smoothing filter)들과 함께 매우 낮은 주파수 해상도를 갖는 부가적인 주파수 대역 테이블을 수반하는 서로 다른 주파수해상도에서 운용할 수 있다. 방금 언급된 것과 같이, 시간/주파수 그리드는 가장 낮은 가능한 시간 해상도와 상응하도록 구성될 수 있다.
즉, 대역폭 확장 코딩은 무음 또는 존재하는 활성 위상에 따라 직각 대칭 필터 또는 스펙트럼 도메인에서 다르게 실행될 수 있다. 활성 위상에서, 즉, 활성 프레임들 동안에, 인코더(202)에 의해 각각 데이터 스트림(44 및 102)을 동반하는 정상적인 스펙트럼 대역 복제 데이터 스트림을 야기하는, 규칙적인 스펙트럼 대역 복제 인코딩이 수행된다. 불활성 위상 내에 또는 무음 삽입 서술기 프레임들로서 분류되는 프레임들 동안에, 에너지 스케일 팩터들로서 표현되는, 스펙트럼 엔벨로프에 대한 정보만이 매우 낮은 주파수 해상도, 및 예를 들면 가장 낮은 가능한 시간 해상도를 나타내는 시간/주파수 그리드의 적용에 의해 추출될 수 있다. 제로 프레임들 내에 또는 중단 위상(36) 동안에, 결과로서 생기는 스케일 팩터들은 인코더(212)에 의해 효율적으로 코딩될 수 있으며 데이터 스트림에 기록될 수 있다. 스펙트럼 대역 복제 인코딩 모듈(206)에 의해 데이터 스트림 내로 어떠한 부가 정보도 기록될 수 없으며, 따라서 계산기(210)에 의해 어떠한 에너지 계산도 수행될 수 없다.
도 8에 따라, 도 10은 도 3 및 7의 디코더 실시 예들의 가능한 확장을 도시한다. 더 정확히 설명하면, 도 10은 본 발명에 따른 오디오 디코더의 가능한 실시 예를 도시한다. 코어 디코더(92)는 참조 부호 220으로 표시되고 예를 들면, 잡음 발생 모듈(162) 또는 도 3의 모듈들(90, 94 및 96)을 포함하는, 편안한 잡음 발생기에 병렬로 연결된다. 스위치(222)는 데이터 스트림들(104 및 30) 내의 프레임들을 주로 프레임이 활성 위상에 관련되거나 속하는지 또는 중단 위상에 대하여 무음 삽입 서술기 프레임들 또는 제로 프레임들과 같은 불활성 위상에 관련되거나 속하는지의, 프레임 종류에 따라 코어 디코더(92) 또는 편안한 잡음 발생기(220) 상으로 분배하는 것과 같이 도시된다. 코어 디코더(92) 및 편안한 잡음 발생기(220)의 의 출력들은 출력이 재구성된 오디오 신호를 드러내는, 스펙트럼 대역폭 확장 디코더(224)의 입력에 연결된다.
도 11은 대역폭 확장 코딩 기술로 대역폭 확장 디코더(224)의 가능한 구현의 더 상세한 실시 예를 도시한다.
도 11에 도시된 것과 같이, 도 11의 실시 예에 따른 대역폭 확장 디코더(224)는 재구성되려는 완전한 오디오 신호의 저주파수 부분의 시간 도메인 재구성을 수신하기 위한 입력(226)을 포함한다. 입력(226)은 대역폭 확장 디코더(224)를 코어 디코더(92) 및 편안한 잡음 발생기(220)의 출력들에 연결하며 따라서 입력(226)에서의 시간 도메인 입력의 잡음 및 유용한 컴포넌트 모두를 포함하는 오디오 신호의 재구성되는 저주파수 부분일 수 있거나 또는 활성 위상 사이에 시간을 형성하기 위하여 발생되는 편안한 잡음일 수 있다.
도 11의 실시 예에 따른 것과 같이, 대역폭 확장 디코더(224)는 스펙트럼 대역폭 복제를 실행하도록 구성되고, 디코더(224)는 다음에서 스펙트럼 대역폭 복제 디코더로 불린다. 그러나, 도 8 내지 10과 관련하여, 이러한 실시 예들은 스펙트럼 대역폭 복제로 한정되지 않는다는 것이 강조된다. 오히려, 이러한 실시 예들과 관련하여 더 일반적인, 대안의 대역폭 확장의 방법이 또한 사용될 수 있다.
또한, 도 11의 스펙트럼 대역 복제 디코더(224)는 즉, 활성 위상 또는 불활성 위상 내의 최종적으로 재구성되는 오디오 신호를 출력하기 위하여 시간-도메인 출력을 포함한다. 입력(226) 및 출력(228) 사이에, 스펙트럼 대역 복제 디코더(224)는 도 11에 도시된 것과 같을 수 있는, 스펙트럼 분해기(230), 직각 대칭 필터 분석 필터뱅크와 같은 분석 필터뱅크, 고주파수 발생기(232), 엔벨로프 조정기(234) 및 직각 대칭 필터 합성 필터뱅크와 같은 합성 필터뱅크로서 구현되는, 도 11에 도시된 것과 같을 수 있는, 스펙트럼-대-시간 도메인 변환기(236)를 포함한다(언급된 순서에 따라 직렬로 연결되는).
모듈들(230 내지 236)은 다음과 같이 운용된다. 스펙트럼 분해기(230)는 재구성되는 저주파수 부분을 획득하기 위하여 시간 도메인 입력 신호를 스펙트럼으로 분해한다. 고주파수 발생기(232)는 재구성되는 저주파수 부분을 기초로 하여 고주파수 복제(replica) 부분을 발생시키고 엔벨로프 조정기(234)는 스펙트럼 대역 복제 데이터 스트림 부분을 거쳐 전달되고 아직 설명되지 않았으나 엔벨로프 조정기(234) 위의 도 11에 도시된 모듈들에 의해 제공되는 것과 같이 고주파수 부분의 스펙트럼 엔벨로프의 표현을 사용하여 고주파수 복제를 형성하거나 형상화한다. 따라서 엔벨로프 조정기(234)는 전송된 고주파수 엔벨로프의 시간/주파수 그리드 표현에 따라 고주파수 복제 부분의 엔벨로프를 조정하며, 전체 주파수 스펙트럼, 즉, 재구성되는 저주파수 부분과 함께 스펙트럼으로 형성되는 고주파수 부분을 출력(228)에서 재구성되는 시간 도메인 신호로의 전환을 위하여, 획득된 고주파수 부분을 스펙트럼-대-일시적 도메인 전환기(236)로 전달한다.
도 8 내지 10과 관련하여 위에서 이미 설명된 것과 같이, 고주파수 부분 스펙트럼 엔벨로프는 에너지 스케일 팩터들의 형태로 데이터 스트림 내에 전달될 수 있으며 스펙트럼 대역 복제 디코더(224)는 고주파수 부분들 스펙트럼 엔벨로프에 대한 이러한 정보를 수신하기 위하여 입력(238)을 포함한다. 도 11에 도시된 것과 같이, 활성 위상의 경우, 즉, 활성 위상 동안에 활성 프레임들이 데이터 스트림 내에 존재하는 경우에 있어서, 입력들(238)은 각각의 스위치(240)를 거쳐 엔벨로프 조정기(234)의 스펙트럼 엔벨로프 입력에 직접적으로 연결될 수 있다. 그러나, 스펙트럼 대역 복제 디코더(224)는 부가적으로 스케일 팩터 결합기(242), 스케일 팩터 데이터 스토어(244), 임펄스 응답 필터링 유닛과 같은 보간 필터링 유닛(246), 및 이득 조정기(248)를 포함한다. 모듈들(242, 244, 246 및 248)은 이득 조정기(248)와 엔벨로프 조정기(234) 사이에 연결되는 스위치(240) 및 스케일 팩터 데이터 스토어(244)와 필터링 유닛(246) 사이에 연결되는 또 다른 스위치(250)로 입력들(238) 및 엔벨로프 조정기(234)의 스펙트럼 엔벨로프 입력 사이에 직렬로 서로 연결된다. 스위치(250)는 이러한 스케일 팩터 데이터 스토어(244)를 필터링 유닛(246)의 입력, 또는 스케일 팩터 데이터 리스토어러(scale factor data restorer, 252)에 연결하도록 구성된다. 불활성 위상 동안의 무음 삽입 서술기 프레임들의 경우에(및 선택적으로 고주파수 부분 스펙트럼 엔벨로프의 매우 거친 표현을 위한 활성 프레임들의 경우에), 스위치들(250 및 240)은 입력(238) 및 엔벨로프 조정기(234) 사이에 모듈들(242 내지 248)의 시퀀스를 연결한다. 스케일 팩터 결합기(242)는 고주파수 부분들 스펙트럼 엔벨로프가 전송된 주파수 해상도를 데이터 스트림을 거쳐 엔벨로프 조정기(234)가 수신을 기대하는 해상도에 적용하며, 스케일 팩터 데이터 스토어(244)는 그 다음 업데이트까지 결과로서 생긴 스펙트럼 엔벨로프를 저장한다. 필터링 유닛(246)은 시간 내의 스펙트럼 엔벨로프 및/또는 스펙트럼 크기를 필터링하고 이득 조정기(248)는 고주파수 부분의 스펙트럼 엔벨로프의 이득을 적용한다. 이를 위하여, 이득 조정기는 유닛(246)에 의해 획득되는 것과 같은 엔벨로프 데이터를 직각 대칭 필터 필터뱅크 출력으로부터 유래할 수 있는 것과 같은 실제 엔벨로프와 결합할 수 있다. 스케일 팩터 데이터 리스토어러(252)는 중단 위상 내의 스펙트럼 엔벨로프 또는 스케일 팩터 스토어(244)에 의해 저장된 것과 같은 제로 프레임들을 표현하는 스케일 팩터 데이터를 복사한다.
따라서, 디코더 면에서 다음의 과정이 실행될 수 있다. 활성 프레임들에서 또는 활성 위상 동안에, 규칙적인 스펙트럼 대역 복제 과정이 적용될 수 있다. 이러한 활성 기간들 동안에, 일반적으로 데이터 스트림으로부터의 스케일 팩터들은 스케일 팩터 결합기(242)에 의해 편안한 잡음 발생 주파수 해상도로 전환된다. 스케일 팩터 결합기는 서로 다른 주파수 대역 테이블들의 공통 주파수 대역 경계들을 이용함으로써 편안한 잡음 발생에 따르는 다수의 스케일 팩터를 야기하도록 높은 주파수 해상도를 위한 스케일 팩터들을 결합한다. 스케일 팩터 결합 유닛(242)의 출력에서 결과로서 생긴 스케일 팩터 값들은 제로 프레임들에서의 재사용 및 이후에 리스토어러(252)에 의한 복사를 위하여 저장되고 그 뒤에 편안한 잡음 발생 운용 방식을 위한 필터링 유닛(246)을 업데이트하도록 사용된다. 무음 삽입 서술기 프레임들에 있어서, 데이터 스트림으로부터 스케일 팩터 정보를 추출하는 변형된 스펙트럼 대역 복제 데이터 스트림 리더(reader)가 적용된다. 스펙트럼 대역 복제 과정의 나머지 구성은 시간/주파수 그리드가 인코더에서 사용되는 동일한 시간/주파수 해상도로 초기화되는, 미리 정의된 값과 함께 개시된다. 추출된 스케일 팩터들이 필터링 유닛(246) 내로 제공되는데, 예를 들면, 하나의 임펄스 응답 평탄화 필터는 시간에 따라 하나의 저해상도 스케일 팩터를 위한 에너지의 진행을 보간한다. 제로 프레임들이 경우에 있어서, 비트스트림으로 어떠한 패이로드(payload)도 판독되지 않고 시간/주파수 그리드를 포함하는 스펙트럼 대역 복제 구성은 무음 삽입 서술기 프레임들에서 사용되는 것과 같다. 제로 프레임들에서, 필터링 유닛(246) 내의 평탄화 필터들에 유효한 스케일 팩터 정보를 포함하는 마지막 프레임 내에 저장되었던 스케일 팩터 결합 유닛(242)으로부터 출력되는 스케일 팩터 값이 제공된다. 현재 프레임이 불활성 프레임 또는 무음 삽입 서술기 프레임으로서 분류되는 경우에 있어서, 편안한 잡음은 변환 코딩 여진 도메인에서 발생되고 다시 시간 도메인으로 변환된다. 그 뒤에, 편안한 잡음을 포함하는 시간 도메인 신호는 스펙트럼 대역 복제 모듈(224)의 직각 대칭 필터 분석 필터뱅크(230) 내로 제공된다. 직각 대칭 필터 도메인에서, 편안한 잡음의 대역폭 확장은 고주파수 발생기(232) 내의 카피-업 치환(copy-up transposition)에 의해 실행되고 최종적으로 인공적으로 생성된 고주파수 부분의 스펙트럼 엔벨로프는 엔벨로프 조정기(234) 내의 에너지 스케일 팩터 정보의 적용에 의해 조정된다. 이러한 에너지 스케일 팩터들은 필터링 유닛(246)의 출력에 의해 획득되고 엔벨로프 조정기(234) 내로의 적용 이전에 이득 조정 유닛(248)에 의해 스케일링된다. 이러한 이득 조정 유닛(248)에 있어서, 스케일 팩터들을 스케일링하기 위한 이득 값이 계산되고 신호의 저주파수 부분 및 고주파수 콘텐츠 사이의 경계에서 상당한 에너지 차이들을 보상하도록 적용된다.
위에서 설명된 실시 예들은 도 12 및 13의 실시 예에서 공동으로 사용된다. 도 12는 본 발명의 일 실시 예에 따른 오디오 인코더의 일 실시 예를 도시하며, 도 13은 오디오 디코더의 일 실시 예를 도시한다. 이러한 도면들과 관련된 상세한 내용은 이전에 설명된 구성요소들에 개별적으로 동등하게 적용되어야 한다.
도 12의 오디오 인코더는 입력 오디오 신호를 스펙트럼으로 분해하기 위한 직각 대칭 필터 분석 필터뱅크(200)를 포함한다. 검출기(270) 및 잡음 추정기(262)가 직각 대칭 필터 분석 필터뱅크(200)의 출력에 연결된다. 잡음 추정기(262)는 배경 잡음 추정기(12)의 기능에 대한 책임을 맡는다. 활성 위상 동안에, 직각 대칭 필터 분석 필터뱅크로부터의 직각 대칭 필터는 한편으로는 일부 스펙트럼 대역 복제 인코더(264) 다음의 스펙트럼 대역 복제 파라미터 계산기(260)의 병렬 연결 및 다른 한편으로는 코어 인코더(14) 다음의 직각 대칭 필터 합성 필터뱅크(272)의 연결에 의해 처리된다. 두 병렬 경로 모두 비트스트림 패키저(266)의 각각의 입력에 연결된다. 무음 삽입 서술기 프레임들을 출력하는 경우에 있어서, 무음 삽입 서술기 프레임 인코더(274)는 잡음 추정기(262)로부터 데이터를 수신하고 무음 삽입 서술기 프레임들을 비트스트림 패키저(266)에 출력한다.
추정기(260)에 의해 출력되는 스펙트럼 대역폭 확장 데이터는 직각 대칭 필터 합성 필터뱅크(200)에 의해 출력되는 스펙트로그램 또는 스펙트럼의 고주파수 부분의 스펙트럼 엔벨로프를 설명하는데, 그리고 나서 스펙트럼 대역 복제 인코더(264)에 의한 엔트로피 코딩에 의한 것과 같이, 인코딩된다. 데이터 스트림 다중화기(data stream nultiplexer, 266)는 활성 위상 내의 스펙트럼 대역폭 확장 데이터를 다중화기(266)의 출력(268)에서 출력되는 데이터 스트림 내로 삽입한다.
검출기(270)는 현재 활성 위상 또는 불활성 위상이 활성인지를 검출한다. 이러한 검출을 기초로 하여, 활성 프레임, 무음 삽입 서술기 프레임 또는 제로 프레임, 즉, 불활성 프레임이 현재 출력된다. 바꾸어 말하면, 모듈(270)은 활성 위상 또는 불활성 위상이 활성인지를 검출하고, 만일 불활성 위상이 활성이면, 무음 삽입 서술기 프레임이 출력되는지 출력되지 않는지를 검출한다. 판정들이 제로 프레임들을 위한 Ⅰ을 사용하여 도 12에 표시된다. 활성 위상이 존재하는 입력 신호의 시간 간격과 상응하는 프레임들은 또한 직각 대칭 필터 합성 필터뱅크(272) 및 코어 인코더(14)의 연결로 보내진다. 직각 대칭 필터 합성 필터뱅크(272)는 입력 신호의 활성 프레임 부분들을 다시 시간 도메인으로 전달하는데 있어서 부대역 수 비율에 의해 상응하는 다운샘플링 비율을 달성하기 위하여 직각 대칭 필터 분석 필터뱅크(200)와 비교할 때 저주파수 해상도를 갖거나 또는 낮은 수의 직각 대칭 필터 부대역들에서 운용된다. 특히, 직각 대칭 필터 합성 필터뱅크(272)는 활성 프레임들 내의 직각 대칭 필터 분석 필터뱅크 스펙트로그램의 저주파수 부분들 또는 저주파수 부대역들에 적용된다. 코어 코더(14)는 따라서 입력 신호의 다운샘플링된 버전을 수신하며, 이는 따라서 직각 대칭 필터 분석 필터뱅크(200) 내로 입력된 오리지널 입력 신호의 저주파수 부분만을 포함한다. 나머지 고주파수 부분은 모듈들(260 및 264)에 의해 파라미터로 코딩된다.
무음 삽입 서술기 프레임들(또는 더 정확히는 이에 의해 전달되려는 정보)은 무음 삽입 서술기 프레임 인코더(274)로 전달되는데, 이는 예를 들면, 도 5의 모듈(152)에 대한 책임을 맡는다. 유일한 차이는 모듈(262)이 선형 예측 코딩 형상화 없이 직접적으로 입력 신호의 스펙트럼상에 운용된다는 것이다. 게다가, 직각 대칭 필터 분석 필터뱅크가 사용되기 때문에, 모듈(262)의 운용은 코어 디코더에 의해 선택되는 프레임 방식 떠는 적용되려는 스펙트럼 대역폭 확장 선택과 관계없다.
다중화기(266)는 출력(268)에서 각각의 인코딩된 정보를 데이터 스트림 내로 다중화한다.
도 13의 오디오 디코더는 도 12의 인코더에 의해 출력되는 것과 같이 데이터 스트림 상에서 운용될 수 있다. 즉, 모듈(280)은 데이터 스트림을 수신하고 데이터 스트림 내의 프레임들을 활성 프레임들, 무음 삽입 서술기 프레임들 및 제로 프레임들, 즉, 예를 들면 데이터 스트림 내의 프레임의 결여로 분류된다. 활성 프레임들은 코어 디코더(92), 연속되는 직각 대칭 필터 분석 필터뱅크(282) 및 스펙트럼 대역폭 확장 모듈(284)에 연결될 수 있다. 선택적으로, 잡음 추정기(286)는 직각 대칭 필터 분석 필터뱅크의 출력에 연결된다. 잡음 추정기(286)는 예를 들면, 잡음 추정기가 여진 스펙트럼보다는 비형상화된 스펙트럼 상에서 운용되는 것을 제외하고는, 도 3의 배경 잡음 추정기(90)와 같이 운용되거나 상기 배경 잡음 추정기(90)의 기능에 대한 책임을 맡을 수 있다. 모듈들((92, 282 및 284)의 연결은 직각 대칭 필터 합성 필터뱅크(288)의 입력에 연결된다. 무음 삽입 서술기 프레임들은 예를 들면, 도 3의 배경 잡음 발생기(96)의 기능에 대한 책임을 맡는 무음 삽입 서술기 프레임 디코더(290)로 전달된다. 편안한 잡음 발생 파라미터 업데이터(292)는 디코더(290) 및 도 3의 파라미터 랜덤 발생기들 기능에 대한 책임을 맡는, 랜덤 발생기(292)를 조정하는 이러한 업데이터(292)를 갖는 잡음 추정기(286)로부터의 정보에 의해 제공된다. 불활성 또는 제로 프레임들이 누락되기 때문에, 그것들은 어디로 전달될 필요가 없으나, 그것들은 랜덤 발생기(294)의 또 다른 랜덤 발생 사이클을 트리거링한다. 랜덤 발생기(294)의 출력은 출력이 시간 도메인 내의 무음 및 활성 위상 내의 재구성되는 오디오 신호를 드러내는, 직각 대칭 필터 합성 필터뱅크(288)에 연결된다.
따라서, 활성 위상 동안에, 코어 디코더(92)는 잡음 및 유용한 신호 컴포넌트 모두를 포함하는 오디오 신호의 저주파수 부분을 재구성한다. 직각 대칭 필터 분석 필터뱅크(282)는 재구성되는 신호를 스펙트럼으로 분해하고 스펙트럼 대역폭 확장 모듈(284)은 고주파수 부분을 가산하기 위하여 각각 데이터 스트림 및 활성 프레임들 내의 스펙트럼 대역폭 확장 정보를 사용한다. 잡음 추정기(286)는 만일 존재하면, 코어 디코더에 의해 재구성되는 것과 같은 스펙트럼 부분, 즉, 저주파수 부분을 기초로 하여 잡음 추정을 실행한다. 불활성 위상에서, 무음 삽입 서술기 프레임들은 인코더 면에서 잡음 추정기(262)에 의해 유래하는 배경 잡음 추정을 파라미터로 설명하는 정보를 전달한다., 파라미터 업데이터(292)는 무음 삽입 서술기 프레임들에 관한 전송 손실의 경우에서의 대비 위치로서 주로 잡음 추정기(286)에 의해 제공되는 정보를 사용하여, 그것의 파라미터 배경 잡음 추정을 업데이트하기 위하여 주로 인코더 정보를 사용할 수 있다. 직각 대칭 필터 합성 필터뱅크(288)는 활성 위상 내의 스펙트럼 대역 복제 모듈(284) 및 시간 도메인 내의 편안한 잡음이 발생된 신호 스펙트럼에 의해 출력되는 것과 같이 스펙트럼으로 분해된 신호를 전환한다. 따라서, 도 12 및 13은 직각 대칭 필터 필터뱅크 프레임워크가 직각 대칭 필터 기반 편안한 잡음 발생을 위한 기준으로서 사용될 수 있다는 것을 확실하게 한다. 직각 대칭 필터 프레임워크는 인코더 내의 코어-코더 샘플링 비율에 이르기까지 입력 신호를 재샘플링하거나, 또는 직각 대칭 필터 합성 필터뱅크(288)를 사용하여 디코더 면에서 코어 디코더(92)의 코어-디코더 출력 신호를 업샘플링하는 편리한 방법을 제공한다. 동시에, 직각 대칭 필터 프레임워크는 또한 코어 디코더와 코어 디코더 모듈(14 및 92)에 의해 남은 신호의 고주파수 컴포넌트들을 추출하고 처리하기 위하여 대역폭 확장과 결합하여 사용될 수 있다. 따라서, 직각 대칭 필터 필터뱅크는 다양한 신호 처리 공구들을 위한 공동의 프레임워크를 제공할 수 있다. 도 12 및 13의 실시 예에 따라, 편안한 잡음 발생이 이러한 프레임워크 내로 성공적으로 포함된다.
특히, 도 12 및 13의 실시 예에 따라, 예를 들면, 직각 대칭 필터 합성 필터뱅크(288) 각각의 직각 대칭 필터 계수의 실수 및 허수 부분을 여진하기 위하여 랜덤 발생기(294)를 적용함으로써 직각 대칭 필터 분석 후에, 그러나 직각 대칭 필터 합성 전에, 디코더 면에서 편안한 잡음을 발생시키는 것이 가능하다는 것을 알 수 있다. 랜덤 시퀀스들의 진폭은 예를 들면, 발생된 편안한 잡음이 실제 입력 배경 잡음 신호의 스펙트럼과 유사한 것과 같이 각각의 직각 대칭 필터 대역에서 개별적으로 계산된다. 이는 인코딩 면에서 직각 대칭 필터 분석 후에 잡음 추정을 사용하여 각각의 직각 대칭 필터에서 달성될 수 있다. 이러한 파라미터들은 그리고 나서 디코더 면에서 각각의 직각 대칭 필터 대역 내에 적용되는 랜덤 시퀀스들의 진폭을 업데이트하기 위하여 무음 삽입 서술기 프레임들을 통하여 전송될 수 있다.
이상적으로, 인코더 면에 적용되는 잡음 추정기(262)는 편안한 잡음 파라미터들이 각각의 활성 위상의 끝에서 즉시 업데이트되도록 두 불활성(즉, 오직 잡음만) 및 활성 기간들(일반적으로 잡음첨가(noisy) 음성을 포함하는) 동안에 운용될 수 있어야만 한다는 것을 이해하여야 한다. 게다가, 잡음 평가는 디코더 면에서 또한 사용될 수 있다. 오직 잡음만의 프레임들은 불연속 전송(Discontinuous Transmission, DTX) 기반 코딩/디코딩 시스템에서 버려지기 때문에, 디코더 면에서의 잡음 평가는 잡음첨가 음성 콘텐츠 상에서 바람직하게 운용될 수 있다. 인코더 면에 더하여, 디코더 면에서의 잡음 평가의 실행의 장점은 활성의 기간에 뒤이어 제 1 무음 삽입 서술기 프레임(들)을 위하여 인코더로부터 디코더로의 패킷 전송이 실패할 때 편안한 잡음의 스펙트럼 형상이 업데이트될 수 있다는 것이다.
잡음 추정은 배경 잡음의 스펙트럼 콘텐츠의 변화를 정확하고 신속하게 따라야 하며, 이상적으로 이는 위에서 설명된 것과 같이, 두 활성 및 불활성 프레임들 동안에 실행될 수 있어야 한다. 이러한 목표들을 달성하기 위한 한가지 방법은 [R. Martin, Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics, 2001]에서 제안된 것과 같이, 유한 길이의 슬라이딩 윈도우(sliding window)를 사용하여 파워 스펙트럼에 의해 각각의 대역에서 얻어지는 최소치를 추적하는 것이다. 그것의 개념은 잡음첨가 음성 스펙트럼의 파워가 빈번히 배경 잡음의 파워에, 예를 들면, 단어들 또는 음절 사이에서, 쇠퇴한다는 것이다. 파워 스펙트럼의 최소치의 추적은 따라서 음성 활성 동안에도, 각각의 잡음 플로어의 추정을 제공한다. 그러나, 이러한 잡음 플로어들은 일반적으로 과소평가된다. 게다가, 그것들은 스펙트럼 파워들의 빠른 변동들, 특히 갑작스런 에너지 증가들을 포착하도록 허용하지 않는다.
그럼에도 불구하고, 각각의 대역에서 위에서 설명된 것과 같이 계산되는 잡음 플로어는 잡음 추정의 제 2 위상을 적용하기 위한 매우 유용한 부가 정보를 제공한다. 실제로, 불활성 동안에 추정된 잡음 플로어에 가까운 잡음 첨가 스펙트럼의 파워를 예상할 수 있으나, 반면에 스펙트럼 파워는 활성 동안에 잡음 플로어를 훨씬 넘을 것이다. 각각의 대역에서 개별적으로 계산되는 잡음 플로어들은 따라서 각각의 대역을 위한 개략적인 활성 검출기들과 같이 사용될 수 있다. 이러한 지식을 기초로 하여, 배경 잡음 파워는 다음과 같이 파워 스펙트럼의 재귀적으로 평탄화된 버전으로서 쉽게 추정될 수 있다:
Figure pct00001
여기서 δx 2(m,k)는 프레임(m)에서 입력 신호의 파워 스펙트럼 밀도를 나타내고 대역 k, δN 2(m,k)는 잡음 파워 추정을 언급하며, β(m,k)는 개별적으로 각각의 대역 및 각각의 프레임을 위한 평탄도의 양을 제어하는 망각 팩터(forgetting factor, 필연적으로 0과 1 사이)이다. 활성 상태를 반영하는 잡음 플로어 정보를 사용하여, 불활성 기간들 동안에(즉, 파워 스펙트럼이 노이즈 플로어에 가까울 때) 작은 값을 취해야 하며, 반면에 활성 프레임들 동안에 더 많은 평탄도(이상적으로 δN 2(m,k) 상수를 유지)를 적용하도록 높은 값이 선택되어야 한다. 이를 달성하기 위하여, 다음과 같이 망각 팩터를 계산함으로써 연판정(soft decision)이 만들어질 수 있다:
Figure pct00002
여기서, δNF 2는 잡음 플로어 파워이고 α는 제어 파라미터이다. α를 위한 높은 값은 더 큰 망각 팩터들을 야기하고 따라서 전체의 더 많은 평탄도를 야기한다.
따라서, 인공적인 잡음이 변환 도메인 내의 디코더 면에서 생산되는 편안한 잡음 발생 개념이 설명되었다. 위의 실시 예들은 시간-도메인 신호를 다중 스펙트럼 대역들 내로 분해하는 어떠한 종류의 스펙트럼-시간 분석 공구(즉, 변환 또는 필터뱅크)와도 결합하여 적용될 수 있다.
따라서, 위의 실시 예들은 그중에서도 특히, 기본적인 편안한 잡음 발생기가 잔류를 모델링하도록 랜덤 펄스들을 사용하는 변환 코딩 여진 기반 편안한 잡음 발생을 설명하였다.
장치의 맥락에서 일부 양상들이 설명되었으나, 이러한 양상들은 또한 블록 또는 장치가 방법 단계 또는 방법 단계의 특징에 상응하는, 상응하는 방법의 설명을 나타내는 것이 자명하다. 유사하게, 방법 단계의 맥락에서 설명된 양상들은 또한 상응하는 장치의 상응하는 장치의 블록 또는 아이템 또는 특징을 나타낸다. 일부 또는 모든 방법 단계는 예를 들면, 마이크로프로세서, 프로그램가능 컴퓨터 또는 전자 회로 같은, 하드웨어 장치에 의해 실행될 수(또는 사용할 수) 있다. 일부 실시 예들에서, 일부 하나 또는 그 이상의 가장 중요한 방법 단계가 그러한 장치에 의해 실행될 수 있다.
특정 구현 필요성에 따라, 본 발명의 실시 예들은 하드웨어 또는 소프트웨어에서 구현될 수 있다. 구현은 디지털 저장 매체, 예를 들면, 거기에 저장되는 전자적으로 판독가능한 신호들을 갖는, 플로피 디스크, DVD, CD, ROM,, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 실행될 수 있는데, 이는 각각의 방법이 실행되는 것과 같이 프로그램가능 컴퓨터 시스템과 협력한다(또는 협력할 수 있다). 따라서 디지털 저장 매체는 컴퓨터 판독가능할 수 있다.
본 발명에 따른 일부 실시 예들은 여기에 설명된 방법들 중의 하나가 실행되는 것과 같이, 프로그램가능 컴퓨터 시스템과 협력할 수 있는, 전자적으로 판독가능한 제어 신호들을 갖는 비-일시적 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시 예들은 프로그램 코드를 갖는 컴퓨터 프로그램 베춤으로서 구현될 수 있는데, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터상에 구동될 때 방법들 중의 하나를 실행하도록 작동할 수 있다. 프로그램 코드는 예를 들면 기계 판독가능 캐리어 상에 저장될 수 있다.
다른 실시 예들은 기계 판독가능 캐리어 상에 저장되는, 여기에 설명된 방법들 중의 하나를 실행하기 위한 컴퓨터 프로그램을 포함한다.
바꾸어 말하면, 따라서 본 발명의 방법의 일 실시 예는 컴퓨터 프로그램이 컴퓨터상에 구동할 때, 여기에 설명된 방법들 중의 하나를 실행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
본 발명의 방법의 또 다른 실시 예는 따라서 여기에 설명된 방법들 중의 하나를 실행하기 위하여 그것에 대해 기록된, 컴퓨터 프로그램을 포함하는 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터 판독가능 매체)이다. 데이터 캐리어, 디지털 저장 매체 또는 기록된 매체는 일반적으로 고정 또는 비-일시적이다.
본 발명의 방법의 또 다른 실시 예는 따라서 여기에 설명된 방법들 중의 하나를 실행하기 위한 컴퓨터 프로그램을 표현하는 신호들의 데이터 스트림 또는 시퀀스이다. 예를 들면 신호들의 데이터 스트림 또는 시퀀스는 데이터 통신 연결, 예를 들면 인터넷을 거쳐 전달되도록 구성될 수 있다.
또 다른 실시 예는 처리 수단들, 예를 들면, 여기에 설명된 방법들 중의 하나를 실행하거나 적용하도록 구성되는 컴퓨터, 또는 프로그램가능 논리 장치를 포함한다.
또 다른 실시 예는 여기에 설명된 방법들 중의 하나를 실행하기 위하여 거기에 설치된 컴퓨터 프로그램을 갖는 컴퓨터를 포함한다.
본 발명에 따른 도 다른 실시 예는 여기에 설명된 방법들 중 하나를 수신기 에 실행하도록 컴퓨터 프로그램을 전달하도록(예를 들면, 전자적으로 또는 광학적으로) 구성되는 장치 또는 시스템을 포함한다. 수신기는 예를 들면, 컴퓨터, 이동 기기, 메모리 장치 등일 수 있다. 장치 또는 시스템은 예를 들면, 컴퓨터 프로그램을 수신기에 전달하기 위한 파일 서버를 포함할 수 있다.
일부 실시 예들에서, 프로그램가능 논리 장치(예를 들면, 필드 프로그램가능 게이트 어레이(field programmable gate array))는 여기에 설명된 방법들의 기능들이 일부 또는 모두를 실행하도록 사용될 수 있다. 일부 실시 예들에서, 필드 프로그램가능 게이트 어레이는 여기에 설명된 방법들 중의 하나를 실행하기 위하여 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게는 어떠한 하드웨어 장치에 의해 실행된다.
위에서 설명된 실시 예들은 단지 본 발명의 원리를 설명하기 위한 것이다. 여기에 설명된 배치들 및 내용들의 변형 및 변경들은 통상의 지식을 가진 자들에 자명할 것이라는 것을 이해하여야 한다. 따라서, 본 발명의 실시 예들의 설명에 의해 표현된 특정 상세 내용에 의한 것이 아니라 첨부된 청구항들의 범위에 의해서만 한정되는 것으로 의도된다.
12 : 배경 잡음 추정기
14 : 인코딩 엔진
16 : 검출기
18 : 오디오 신호 입력
20 : 데이터 스트림 출력
22 : 스위치
24 : 활성 위상
26 : 라인
28 : 불활성 위상
30 : 데이터 스트림
32 : 무음 삽입 서술기 프레임
34 : 중단 위상
38 : 무음 삽입 서술기
40 : 중단 위상
42 : 활성 위상
44 : 데이터 스트림
50 : 변환기
52 : 주파수 도메인 잡음 형상기
54 : 양자화기
56 : 오디오 신호
58 : 데이터 스트림 출력
60 : 선형 예측 분석 모듈
80 : 디코더
82 : 입력
84 : 출력
90 : 배경 잡음 추정기
92 : 디코딩 엔진
94 : 파라미터 랜덤 발생기
96 : 배경 잡음 발생기
102 :데이터 스트림 부분
104 : 데이터 스트림
106 : 디코딩 엔진
108 : 정보
110 : 입력
112 : 출력
114 : 탈양자화기
116 : 주파수 도메인 잡음 형상기
118 : 역 변환기
140 : 변환기
142 : 주파수 도메인 잡음 형상기
144 : 선형 예측 분석 모듈
146 : 잡음 추정기
148 : 파라미터 추정기
150 : 정상성 측정기
152 : 양자화기
154 : 비트스트림 패키저
160 : 디코딩 엔진
162 : 편안한 잡음 발생 부품
164 : 파라미터 랜덤 발생기
166 : 주파수 도메인 잡음 형상기
168 : 역 변환기
200 : 분석 필터뱅크
202 : 스펙트럼 대역 복제 인코더
204 : 스위치
206 : 스펙트럼 대역 복제 인코더
208 : 시간/주파수 그리드 세터
210 : 에너지 계산기
212 : 에너지 인코더
220 : 편안한 잡음 발생기
222 : 스위치
224 : 스펙트럼 대역폭 확장 디코더
226 : 입력
228 : 출력
230 : 스펙트럼 분해기
232 : 고주파수 발생기
234 : 엔벨로프 조정기
236 : 스펙트럼-대-시간 도메인 변환기
238 : 입력
240 : 스위치
242 : 스펙트럼 대역 복제 디코더
244 : 스케일 팩터 데이터 스토어
246 : 보간 필터링 유닛
248 : 이득 조정기
250 : 스위치
252 : 스케일 팩터 데이터 리스토어러
260 : 스펙트럼 대역 복제 파라미터 계산기
262 : 잡음 추정기
264 : 스펙트럼 대역 복제 인코더
266 : 비트스트림 패키저
268 : 출력
270 : 검출기
272 : 직각 대칭 필터 합성 필터뱅크
274 : 무음 삽입 서술기 프레임 인코더
282 : 직각 대칭 필터 분석 필터뱅크
284 : 스펙트럼 대역폭 확장 모듈
286 : 잡음 추정기
288 : 직각 대칭 필터 합성 필터뱅크
290 : 무음 삽입 서술기 프레임 디코더
292 : 편안한 잡음 발생 파라미터 업데이터
294 : 랜덤 발생기

Claims (29)

  1. 입력 오디오 신호를 기초로 하여 활성 위상(24) 동안에 파라미터 배경 잡음 추정을 연속적으로 업데이트하도록 구성되는 배경 잡음 추정기(12);
    상기 활성 위상 동안에 상기 입력 오디오 신호를 데이터 스트림 내로 인코딩하기 위한 인코더(14); 및
    상기 입력 오디오 신호를 기초로 하여 상기 활성 위상(24) 다음으로 불활성 위상(28)의 입구를 검출하도록 구성되는 검출기(16);를 포함하되,
    상기 오디오 인코더는 상기 불활성 위상의 입구의 검출 상에서, 상기 검출된 불활성 위상에 뒤따르는 상기 활성 위상 동안에 연속적으로 업데이트되는 것과 같이 상기 배경 잡음 추정을 상기 데이터 스트림 내로 인코딩하도록 구성되는 것을 특징으로 하는 오디오 인코더.
  2. 제 1항에 있어서, 상기 배경 잡음 추정기(12)는 상기 파라미터 배경 잡음 추정을 연속적으로 업데이트하는데 있어서, 상기 입력 오디오 신호 내의 잡음 컴포넌트 및 유용한 신호 컴포넌트 사이를 구별하고 상기 잡음 컴포넌트로부터만 상기 파라미터 배경 잡음 추정을 결정하도록 구성되는 것을 특징으로 하는 오디오 인코더.
  3. 제 1항 또는 2항에 있어서, 상기 인코더(14)는 상기 입력 오디오 신호를 인코딩하는데 있어서, 상기 입력 오디오 신호를 선형 예측 계수들 및 여진 신호 내로 예측 코딩하고, 상기 여진 신호를 변환 코딩하며, 상기 선형 예측 계수들을 상기 데이터 스트림(30) 내로 코딩하도록 구성되는 것을 특징으로 하는 오디오 인코더.
  4. 제 3항에 있어서, 상기 배경 잡음 추정기(12)는 상기 활성 위상 동안에 상기 여진 신호를 사용하여 상기 파라미터 배경 잡음 추정을 업데이트하도록 구성되는 것을 특징으로 하는 오디오 인코더.
  5. 제 3항 또는 4항에 있어서, 상기 배경 잡음 추정기(12)는 상기 파라미터 배경 잡음 추정을 연속적으로 업데이트하는데 있어서, 상기 파라미터 배경 잡음 추정을 유래하기 위하여 상기 여진 신호 내의 지역 최소치를 식별하고 상기 지역 최소치에서 상기 여진 신호의 통계적 분석을 실행하도록 구성되는 것을 특징으로 하는 오디오 인코더.
  6. 전 항 중 어느 한 항에 있어서, 상기 인코더는 상기 입력 신호를 인코딩하는데 있어서, 상기 입력 오디오 신호의 낮은 주파수 부분을 인코딩하기 위하여 예측 및/또는 변환 코딩을 사용하며, 상기 입력 오디오 신호의 높은 주파수 부분의 스펙트럼 엔벨로프를 인코딩하기 위하여 파라미터 코딩을 사용하도록 구성되는 것을 특징으로 하는 오디오 인코더.
  7. 전 항 중 어느 한 항에 있어서, 상기 인코더는 상기 입력 신호를 인코딩하는데 있어서, 상기 입력 오디오 신호의 낮은 주파수 부분을 인코딩하기 위하여 예측 및/또는 변환 코딩을 사용하며, 상기 입력 오디오 신호의 높은 주파수 부분의 스펙트럼 엔벨로프를 인코딩하기 위한 파라미터 코딩의 사용 및 상기 입력 오디오 신호의 높은 주파수 부분이 코딩되지 않도록 두는 것 사이에서 선택하도록 구성되는 것을 특징으로 하는 오디오 인코더.
  8. 제 6항 또는 7항에 있어서, 상기 인코더는 상기 불활성 위상에서 상기 예측 및/또는 변환 코딩 및 상기 파라미터 코딩을 중단하거나 또는 상기 예측 및/또는 변환 코딩을 중단하고 상기 활성 위상 내의 상기 파라미터 코딩의 사용과 비교하여 낮은 시간/주파수 해상도에서 상기 입력 오디오 신호의 상기 놀은 주파수 부분의 스펙트럼 엔벨로프의 상기 파라미터 코딩을 실행하도록 구성되는 것을 특징으로 하는 오디오 인코더.
  9. 제 6항, 7항 또는 8항에 있어서, 상기 인코더는 상기 입력 오디오 신호를 상기 낮은 주파수 부분을 형성하는 하나의 부대역들 세트 및 상기 높은 주파수 부분을 형성하는 하나의 부대역들 세트 내로 스펙트럼으로 분해하기 위하여 필터뱅크를 사용하도록 구성되는 것을 특징으로 하는 오디오 인코더.
  10. 제 9항에 있어서, 상기 배경 잡음 추정기는 상기 입력 오디오 신호의 상기 낮은 주파수 부분 및 상기 높은 주파수 부분을 기초로 하여 상기 활성 위상에서 상기 파라미터 배경 잡음 추정을 업데이트하도록 구성되는 것을 특징으로 하는 오디오 인코더.
  11. 제 10항에 있어서, 상기 배경 잡음 추정기는 상기 파라미터 배경 잡음 추정을 업데이트하는데 있어서, 상기 파라미터 배경 잡음 추정을 유래하기 위하여 상기 입력 오디오 신호의 상기 높은 주파수 및 상기 낮은 주파수 부분 내의 지역 최소치를 식별하고 상기 지역 최소치에서 입력 오디오 신호의 상기 높은 주파수 및 상기 낮은 주파수의 통계적 분석을 실행하도록 구성되는 것을 특징으로 하는 오디오 인코더.
  12. 전 항 중 어느 한 항에 있어서, 상기 잡음 추정기는 상기 불활성 위상 동안에도 상기 배경 잡음 추정을 계속해서 연속적으로 업데이트하도록 구성되고, 상기 오디오 인코더는 상기 불활성 위상 동안에 연속적으로 업데이트되는 것과 같이 상기 파라미터 배경 잡음 추정의 업데이트들을 간헐적으로 인코딩하도록 구성되는 것을 특징으로 하는 오디오 인코더.
  13. 제 12항에 있어서, 상기 오디오 인코더는 고정되거나 또는 가변 시간의 간격으로 상기 파라미터 배경 잡음 추정의 업데이트들을 간헐적으로 인코딩하도록 구성되는 것을 특징으로 하는 오디오 인코더.
  14. 그것으로부터 오디오 신호를 재구성재구성하기 위하여 데이터 스트림을 디코딩하기 위한 오디오 디코더에 있어서, 상기 데이터 스트림은 불활성 위상(88)에 뒤이어 적어도 하나의 활성 위상(86)을 포함하며, 상기 오디오 디코더는:
    상기 활성 위상(86) 동안에 상기 데이터 스트림(104)으로부터 파라미터 배경 잡음 추정을 연속적으로 업데이트하도록 구성되는 배경 잡음 추정기(90);
    상기 활성 위상 동안에 상기 데이터 스트림으로부터 상기 오디오 신호를 재구성하도록 구성되는 디코더(92);
    파라미터 랜덤 발생기(94); 및
    상기 파라미터 배경 잡음 추정에 따라 상기 불활성 위상(88) 동안에 상기 파라미터 랜덤 발생기(94)를 제어함으로써 상기 불활성 위상(88) 동안에 상기 오디오 신호를 합성하도록 구성되는 배경 잡음 발생기(96);를 포함하는 것을 특징으로 하는 오디오 디코더.
  15. 제 14항에 있어서, 상기 배경 잡음 추정기(90)는 상기 파라미터 배경 잡음 추정을 연속적으로 업데이트하는데 있어서, 상기 활성 위상(86)에서 상기 데이터 스트림(104)으로부터 재구성되는 것과 같이 상기 오디오 신호의 버전 내의 잡음 컴포넌트 및 유용한 신호 컴포넌트 사이를 구별하고 상기 잡음 컴포넌트로부터만 상기 파라미터 배경 잡음 추정을 판정하도록 구성되는 것을 특징으로 하는 오디오 디코더.
  16. 제 14항 또는 15항에 있어서, 상기 디코더(92)는 상기 입력 신호를 상기 데이터 스트림으로부터 재구성하는데 있어서, 또한 상기 데이터 스트림 내로 코딩된 선형 예측 계수들을 기초로 하여 상기 데이터 스트림 내로 변환 코딩된 여진 신호를 형상화하는 것을 특징으로 하는 오디오 디코더.
  17. 제 16항에 있어서, 상기 배경 잡음 추정기(90)는 상기 여진 신호를 사용하여 상기 파라미터 배경 잡음 추정을 업데이트하도록 구성되는 것을 특징으로 하는 오디오 디코더.
  18. 제 16항 또는 17항에 있어서, 상기 배경 잡음 추정기는 상기 파라미터 배경 잡음 추정을 업데이트하는데 있어서, 상기 파라미터 배경 잡음 추정을 유래하기 위하여 상기 여진 신호 내의 지역 최소치를 식별하고 상기 지역 최소치에서 상기 여진 신호의 통계적 분석을 실행하도록 구성되는 것을 특징으로 하는 오디오 디코더.
  19. 전 항 중 어느 한 항에 있어서, 상기 디코더는 상기 오디오 신호를 재구성하는데 있어서, 상기 데이터 스트림으로부터 상기 오디오 신호의 낮은 주파수 부분을 재구성하기 위하여 예측 및/또는 변환 디코딩을 사용하고, 상기 오디오 신호의 높은 주파수 부분을 합성하도록 구성되는 것을 특징으로 하는 오디오 디코더.
  20. 제 19항에 있어서, 상기 디코더는 상기 데이터 스트림 내로 파라미터로 인코딩되는 상기 데이터 스트림 내로 파라미터로 인코딩되는, 상기 입력 오디오 신호의 상기 높은 주파수 부분의 스펙트럼 엔벨로프로부터 상기 오디오 신호의 상기 높은 주파수 부분을 합성하거나, 또는 상기 낮은 주파수 부분을 기초로 하여 블라인드 대역폭 확장에 의해 상기 오디오 신호의 상기 높은 주파수 부분을 합성하도록 구성되는 것을 특징으로 하는 오디오 디코더.
  21. 제 20항에 있어서, 상기 디코더는 불활성 위상에서 예측 및/또는 변환 디코딩을 중단하고, 상기 활성 위상에서 상기 스펙트럼 엔벨로프에 따른 상기 오디오 신호의 상기 낮은 주파수 부분의 복제를 스펙트럼으로 형성함으로써 상기 오디오 신호의 상기 높은 주파수 부분의 합성 및 상기 불활성 위상에서 상기 스펙트럼 엔벨로프에 따른 상기 합성된 오디오 신호의 복제의 스펙트럼으로의 형성을 실행하도록 구성되는 것을 특징으로 하는 오디오 디코더.
  22. 제 20항 또는 21항에 있어서, 상기 디코더는 상기 낮은 주파수 부분의 하나의 부대역들 세트 및 상기 높은 주파수 부분의 하나의 부대역들 세트로부터 상기 입력 오디오 신호를 스펙트럼으로 구성하기 위하여 역 필터뱅크를 포함하는 것을 특징으로 하는 오디오 디코더.
  23. 제 14항 내지 22항 중 어느 한 항에 있어서, 상기 오디오 디코더는 상기 데이터 스트림이 중단될 때마다, 및/또는 상기 데이터 스트림이 상기 데이터 스트림 입구로 신호를 보낼 때마다, 상기 불활성 위상의 입구를 검출하도록 구성되는 것을 특징으로 하는 오디오 디코더.
  24. 제 14항 내지 23항 중 어느 한 항에 있어서, 상기 배경 잡음 발생기(96)는 활성 위상으로부터 불활성 위상으로의 전이 바로 후에 상기 데이터 스트림 내의 어떠한 파라미터 배경 잡음 추정 정보도 없는 경우에만 상기 배경 잡음 추정기에 의해 연속적으로 업데이트되는 것과 같이 상기 파라미터 배경 잡음에 따라 상기 불활성 위상(88) 동안에 상기 파라미터 랜덤 발생기(94)를 제어함으로써 상기 불활성 위상(88) 동안에 상기 오디오 신호를 합성하도록 구성되는 것을 특징으로 하는 오디오 디코더.
  25. 제 14항 내지 24항 중 어느 한 항에 있어서, 상기 배경 잡음 추정기(90)는 상기 파라미터 배경 잡음 추정을 연속적으로 업데이트하는데 있어서, 상기 디코더(92)로부터 재구성되는 것과 같이 상기 오디오 신호의 스펙트럼 분해를 사용하는 것을 특징으로 하는 오디오 디코더.
  26. 제 14항 내지 25항 중 어느 한 항에 있어서, 상기 배경 잡음 추정기(90)는 상기 파라미터 배경 잡음 추정을 연속적으로 업데이트하는데 있어서, 상기 디코더(92)로부터 재구성되는 것과 같이 상기 오디오 신호의 직각 대칭 필터를 사용하는 것을 특징으로 하는 오디오 디코더.
  27. 입력 오디오 신호를 기초로 하여 활성 위상(24) 동안에 파라미터 배경 잡음 추정을 연속적으로 업데이트하는 단계;
    상기 활성 위상 동안에 상기 입력 오디오 신호를 데이터 스트림 내로 인코딩하는 단계;
    상기 입력 오디오 신호를 기초로 하여 상기 활성 위상(24) 다음의 불활성 위상(28)의 입구를 검출하는 단계; 및
    상기 불활성 위상의 입구의 검출 상에서, 상기 불활성 위상에 뒤따르는 상기 활성 위상 동안에 연속적으로 업데이트되는 것과 같이 상기 파라미터 배경 잡음 추정을 상기 데이터 스트림 내로 인코딩하는 단계;를 포함하는 것을 특징으로 하는 오디오 인코딩 방법.
  28. 그것으로부터 오디오 신호를 재구성하기 위하여 데이터 스트림을 디코딩하기 위한 오디오 디코딩 방법에 있어서, 상기 데이터 스트림은 불활성 위상(88)에 뒤이어 적어도 하나의 활성 위상(86)을 포함하며, 상기 방법은:
    상기 활성 위상(86) 동안에 상기 데이터 스트림(104)으로부터 파라미터 배경 잡음 추정을 연속적으로 업데이트하는 단계;
    상기 활성 위상 동안에 상기 데이터 스트림으로부터 상기 오디오 신호를 재구성하는 단계;
    상기 파라미터 배경 잡음 추정에 따라 상기 불활성 위상(88) 동안에 파라미터 랜덤 발생기(94)를 제어함으로써 상기 불활성 위상(88) 동안에 상기 오디오 신호를 합성하는 단계;를 포함하는 것을 특징으로 하는 오디오 디코딩 방법.
  29. 컴퓨터상에서 구동할 때, 제 26항 내지 28항 중 어느 한 항에 따른 방법을 실행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램.
KR1020137024142A 2011-02-14 2012-02-14 불활성 위상 동안에 잡음 합성을 사용하는 오디오 코덱 KR101613673B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161442632P 2011-02-14 2011-02-14
US61/442,632 2011-02-14
PCT/EP2012/052462 WO2012110481A1 (en) 2011-02-14 2012-02-14 Audio codec using noise synthesis during inactive phases

Publications (2)

Publication Number Publication Date
KR20130138362A true KR20130138362A (ko) 2013-12-18
KR101613673B1 KR101613673B1 (ko) 2016-04-29

Family

ID=71943599

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020137024142A KR101613673B1 (ko) 2011-02-14 2012-02-14 불활성 위상 동안에 잡음 합성을 사용하는 오디오 코덱

Country Status (17)

Country Link
US (1) US9153236B2 (ko)
EP (1) EP2676264B1 (ko)
JP (1) JP5969513B2 (ko)
KR (1) KR101613673B1 (ko)
CN (1) CN103534754B (ko)
AR (1) AR085224A1 (ko)
CA (2) CA2903681C (ko)
ES (1) ES2535609T3 (ko)
HK (1) HK1192641A1 (ko)
MX (1) MX2013009303A (ko)
MY (1) MY160272A (ko)
PL (1) PL2676264T3 (ko)
RU (1) RU2586838C2 (ko)
SG (1) SG192718A1 (ko)
TW (1) TWI480857B (ko)
WO (1) WO2012110481A1 (ko)
ZA (1) ZA201306873B (ko)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MY159444A (en) 2011-02-14 2017-01-13 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Encoding and decoding of pulse positions of tracks of an audio signal
US8892046B2 (en) * 2012-03-29 2014-11-18 Bose Corporation Automobile communication system
MX344169B (es) * 2012-12-21 2016-12-07 Fraunhofer Ges Forschung Generacion de ruido de confort con alta resolucion espectro-temporal en transmision discontinua de señales de audio.
BR112015017753B1 (pt) * 2013-01-29 2022-05-31 Fraunhofer - Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Codificador de áudio, decodificador de áudio, método para fornecer uma informação de áudio codificado, método para fornecer uma informação de áudio decodificado, programa de computador e representação codificada utilizando uma extensão da largura de banda adaptável ao sinal.
CN105225668B (zh) 2013-05-30 2017-05-10 华为技术有限公司 信号编码方法及设备
JP6465020B2 (ja) * 2013-05-31 2019-02-06 ソニー株式会社 復号装置および方法、並びにプログラム
ES2716652T3 (es) 2013-11-13 2019-06-13 Fraunhofer Ges Forschung Codificador para la codificación de una señal de audio, sistema de transmisión de audio y procedimiento para la determinación de valores de corrección
FR3017484A1 (fr) * 2014-02-07 2015-08-14 Orange Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
EP2922056A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation
EP2922055A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information
EP2922054A1 (en) * 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation
KR20150117114A (ko) * 2014-04-09 2015-10-19 한국전자통신연구원 잡음 제거 장치 및 방법
LT3511935T (lt) 2014-04-17 2021-01-11 Voiceage Evs Llc Būdas, įrenginys ir kompiuteriu nuskaitoma neperkeliama atmintis garso signalų tiesinės prognozės kodavimui ir dekodavimui po perėjimo tarp kadrų su skirtingais mėginių ėmimo greičiais
EP2980790A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for comfort noise generation mode selection
EP2980801A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
MX365694B (es) 2014-07-29 2019-06-11 Ericsson Telefon Ab L M Estimacion del ruido de fondo en señales de audio.
TW202242853A (zh) 2015-03-13 2022-11-01 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
ES2769061T3 (es) 2015-09-25 2020-06-24 Fraunhofer Ges Forschung Codificador y método para codificar una señal de audio con ruido de fondo reducido que utiliza codificación predictiva lineal
CN108140395B (zh) * 2015-09-25 2022-01-04 美高森美半导体(美国)股份有限公司 舒适噪声生成装置和方法
CN116631417A (zh) 2017-01-10 2023-08-22 弗劳恩霍夫应用研究促进协会 音频解码器、提供解码的音频信号的方法、和计算机程序
CN109841222B (zh) * 2017-11-29 2022-07-01 腾讯科技(深圳)有限公司 音频通信方法、通信设备及存储介质
US11694708B2 (en) * 2018-09-23 2023-07-04 Plantronics, Inc. Audio device and method of audio processing with improved talker discrimination
US11264014B1 (en) * 2018-09-23 2022-03-01 Plantronics, Inc. Audio device and method of audio processing with improved talker discrimination
US11109440B2 (en) * 2018-11-02 2021-08-31 Plantronics, Inc. Discontinuous transmission on short-range packet-based radio links
KR20210137146A (ko) * 2019-03-10 2021-11-17 카르돔 테크놀로지 엘티디. 큐의 클러스터링을 사용한 음성 증강
US11545172B1 (en) * 2021-03-09 2023-01-03 Amazon Technologies, Inc. Sound source localization using reflection classification
CN113571072B (zh) * 2021-09-26 2021-12-14 腾讯科技(深圳)有限公司 一种语音编码方法、装置、设备、存储介质及产品
WO2024056701A1 (en) * 2022-09-13 2024-03-21 Telefonaktiebolaget Lm Ericsson (Publ) Adaptive stereo parameter synthesis

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060025203A (ko) * 2003-06-30 2006-03-20 코닌클리케 필립스 일렉트로닉스 엔.브이. 잡음 부가에 의한 디코딩된 오디오의 품질 개선

Family Cites Families (150)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG70558A1 (en) 1991-06-11 2000-02-22 Qualcomm Inc Variable rate vocoder
US5408580A (en) 1992-09-21 1995-04-18 Aware, Inc. Audio compression system employing multi-rate signal analysis
BE1007617A3 (nl) 1993-10-11 1995-08-22 Philips Electronics Nv Transmissiesysteem met gebruik van verschillende codeerprincipes.
US5784532A (en) 1994-02-16 1998-07-21 Qualcomm Incorporated Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system
CN1090409C (zh) 1994-10-06 2002-09-04 皇家菲利浦电子有限公司 采用不同编码原理的传送系统
JP3304717B2 (ja) 1994-10-28 2002-07-22 ソニー株式会社 ディジタル信号圧縮方法及び装置
US5537510A (en) 1994-12-30 1996-07-16 Daewoo Electronics Co., Ltd. Adaptive digital audio encoding apparatus and a bit allocation method thereof
SE506379C3 (sv) 1995-03-22 1998-01-19 Ericsson Telefon Ab L M Lpc-talkodare med kombinerad excitation
US5754733A (en) 1995-08-01 1998-05-19 Qualcomm Incorporated Method and apparatus for generating and encoding line spectral square roots
US5659622A (en) * 1995-11-13 1997-08-19 Motorola, Inc. Method and apparatus for suppressing noise in a communication system
US5956674A (en) 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5848391A (en) 1996-07-11 1998-12-08 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Method subband of coding and decoding audio signals using variable length windows
JP3259759B2 (ja) 1996-07-22 2002-02-25 日本電気株式会社 音声信号伝送方法及び音声符号復号化システム
JP3622365B2 (ja) 1996-09-26 2005-02-23 ヤマハ株式会社 音声符号化伝送方式
JPH10124092A (ja) 1996-10-23 1998-05-15 Sony Corp 音声符号化方法及び装置、並びに可聴信号符号化方法及び装置
US5960389A (en) * 1996-11-15 1999-09-28 Nokia Mobile Phones Limited Methods for generating comfort noise during discontinuous transmission
JP3464371B2 (ja) * 1996-11-15 2003-11-10 ノキア モービル フォーンズ リミテッド 不連続伝送中に快適雑音を発生させる改善された方法
JPH10214100A (ja) 1997-01-31 1998-08-11 Sony Corp 音声合成方法
US6134518A (en) 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
JP3223966B2 (ja) 1997-07-25 2001-10-29 日本電気株式会社 音声符号化/復号化装置
US6070137A (en) 1998-01-07 2000-05-30 Ericsson Inc. Integrated frequency-domain voice coding using an adaptive spectral enhancement filter
ATE302991T1 (de) 1998-01-22 2005-09-15 Deutsche Telekom Ag Verfahren zur signalgesteuerten schaltung zwischen verschiedenen audiokodierungssystemen
GB9811019D0 (en) 1998-05-21 1998-07-22 Univ Surrey Speech coders
US6173257B1 (en) 1998-08-24 2001-01-09 Conexant Systems, Inc Completed fixed codebook for speech encoder
SE521225C2 (sv) 1998-09-16 2003-10-14 Ericsson Telefon Ab L M Förfarande och anordning för CELP-kodning/avkodning
US6317117B1 (en) 1998-09-23 2001-11-13 Eugene Goff User interface for the control of an audio spectrum filter processor
US7272556B1 (en) 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US7124079B1 (en) 1998-11-23 2006-10-17 Telefonaktiebolaget Lm Ericsson (Publ) Speech coding with comfort noise variability feature for increased fidelity
JP4024427B2 (ja) 1999-05-24 2007-12-19 株式会社リコー 線形予測係数抽出装置、線形予測係数抽出方法、およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003501925A (ja) * 1999-06-07 2003-01-14 エリクソン インコーポレイテッド パラメトリックノイズモデル統計値を用いたコンフォートノイズの生成方法及び装置
JP4464484B2 (ja) 1999-06-15 2010-05-19 パナソニック株式会社 雑音信号符号化装置および音声信号符号化装置
US6236960B1 (en) 1999-08-06 2001-05-22 Motorola, Inc. Factorial packing method and apparatus for information coding
DE60031002T2 (de) 2000-02-29 2007-05-10 Qualcomm, Inc., San Diego Multimodaler mischbereich-sprachkodierer mit geschlossener regelschleife
US6757654B1 (en) 2000-05-11 2004-06-29 Telefonaktiebolaget Lm Ericsson Forward error correction in speech coding
JP2002118517A (ja) 2000-07-31 2002-04-19 Sony Corp 直交変換装置及び方法、逆直交変換装置及び方法、変換符号化装置及び方法、並びに復号装置及び方法
US6847929B2 (en) 2000-10-12 2005-01-25 Texas Instruments Incorporated Algebraic codebook system and method
CA2327041A1 (en) 2000-11-22 2002-05-22 Voiceage Corporation A method for indexing pulse positions and signs in algebraic codebooks for efficient coding of wideband signals
US6701772B2 (en) 2000-12-22 2004-03-09 Honeywell International Inc. Chemical or biological attack detection and mitigation system
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7901873B2 (en) 2001-04-23 2011-03-08 Tcp Innovations Limited Methods for the diagnosis and treatment of bone disorders
KR100464369B1 (ko) 2001-05-23 2005-01-03 삼성전자주식회사 음성 부호화 시스템의 여기 코드북 탐색 방법
US20020184009A1 (en) 2001-05-31 2002-12-05 Heikkinen Ari P. Method and apparatus for improved voicing determination in speech signals containing high levels of jitter
US20030120484A1 (en) 2001-06-12 2003-06-26 David Wong Method and system for generating colored comfort noise in the absence of silence insertion description packets
US6879955B2 (en) 2001-06-29 2005-04-12 Microsoft Corporation Signal modification based on continuous time warping for low bit rate CELP coding
US6941263B2 (en) 2001-06-29 2005-09-06 Microsoft Corporation Frequency domain postfiltering for quality enhancement of coded speech
DE10140507A1 (de) 2001-08-17 2003-02-27 Philips Corp Intellectual Pty Verfahren für die algebraische Codebook-Suche eines Sprachsignalkodierers
KR100438175B1 (ko) 2001-10-23 2004-07-01 엘지전자 주식회사 코드북 검색방법
CA2365203A1 (en) * 2001-12-14 2003-06-14 Voiceage Corporation A signal modification method for efficient coding of speech signals
JP3815323B2 (ja) 2001-12-28 2006-08-30 日本ビクター株式会社 周波数変換ブロック長適応変換装置及びプログラム
CA2388439A1 (en) 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
US7302387B2 (en) 2002-06-04 2007-11-27 Texas Instruments Incorporated Modification of fixed codebook search in G.729 Annex E audio coding
DE60303689T2 (de) 2002-09-19 2006-10-19 Matsushita Electric Industrial Co., Ltd., Kadoma Audiodecodierungsvorrichtung und -verfahren
KR100711280B1 (ko) * 2002-10-11 2007-04-25 노키아 코포레이션 소스 제어되는 가변 비트율 광대역 음성 부호화 방법 및장치
US7343283B2 (en) 2002-10-23 2008-03-11 Motorola, Inc. Method and apparatus for coding a noise-suppressed audio signal
US7363218B2 (en) 2002-10-25 2008-04-22 Dilithium Networks Pty. Ltd. Method and apparatus for fast CELP parameter mapping
KR100463419B1 (ko) 2002-11-11 2004-12-23 한국전자통신연구원 적은 복잡도를 가진 고정 코드북 검색방법 및 장치
KR100465316B1 (ko) 2002-11-18 2005-01-13 한국전자통신연구원 음성 부호화기 및 이를 이용한 음성 부호화 방법
US7249014B2 (en) 2003-03-13 2007-07-24 Intel Corporation Apparatus, methods and articles incorporating a fast algebraic codebook search technique
WO2004090870A1 (ja) 2003-04-04 2004-10-21 Kabushiki Kaisha Toshiba 広帯域音声を符号化または復号化するための方法及び装置
US7318035B2 (en) 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
US20050091044A1 (en) 2003-10-23 2005-04-28 Nokia Corporation Method and system for pitch contour quantization in audio coding
WO2005043511A1 (en) 2003-10-30 2005-05-12 Koninklijke Philips Electronics N.V. Audio signal encoding or decoding
CA2457988A1 (en) 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
FI118835B (fi) 2004-02-23 2008-03-31 Nokia Corp Koodausmallin valinta
FI118834B (fi) 2004-02-23 2008-03-31 Nokia Corp Audiosignaalien luokittelu
EP1852851A1 (en) 2004-04-01 2007-11-07 Beijing Media Works Co., Ltd An enhanced audio encoding/decoding device and method
GB0408856D0 (en) 2004-04-21 2004-05-26 Nokia Corp Signal encoding
CA2566368A1 (en) 2004-05-17 2005-11-24 Nokia Corporation Audio encoding with different coding frame lengths
US7649988B2 (en) * 2004-06-15 2010-01-19 Acoustic Technologies, Inc. Comfort noise generator using modified Doblinger noise estimate
US8160274B2 (en) 2006-02-07 2012-04-17 Bongiovi Acoustics Llc. System and method for digital signal processing
KR100656788B1 (ko) 2004-11-26 2006-12-12 한국전자통신연구원 비트율 신축성을 갖는 코드벡터 생성 방법 및 그를 이용한 광대역 보코더
TWI253057B (en) 2004-12-27 2006-04-11 Quanta Comp Inc Search system and method thereof for searching code-vector of speech signal in speech encoder
WO2006079349A1 (en) 2005-01-31 2006-08-03 Sonorit Aps Method for weighted overlap-add
US7519535B2 (en) 2005-01-31 2009-04-14 Qualcomm Incorporated Frame erasure concealment in voice communications
US20070147518A1 (en) 2005-02-18 2007-06-28 Bruno Bessette Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
US8155965B2 (en) 2005-03-11 2012-04-10 Qualcomm Incorporated Time warping frames inside the vocoder by modifying the residual
NZ562183A (en) 2005-04-01 2010-09-30 Qualcomm Inc Systems, methods, and apparatus for highband excitation generation
EP1899958B1 (en) 2005-05-26 2013-08-07 LG Electronics Inc. Method and apparatus for decoding an audio signal
US7707034B2 (en) 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
PL1897085T3 (pl) * 2005-06-18 2017-10-31 Nokia Technologies Oy System i sposób adaptacyjnej transmisji parametrów szumu łagodzącego w czasie nieciągłej transmisji mowy
US7974837B2 (en) 2005-06-23 2011-07-05 Panasonic Corporation Audio encoding apparatus, audio decoding apparatus, and audio encoded information transmitting apparatus
KR100851970B1 (ko) 2005-07-15 2008-08-12 삼성전자주식회사 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치
US7610197B2 (en) * 2005-08-31 2009-10-27 Motorola, Inc. Method and apparatus for comfort noise generation in speech communication systems
US7720677B2 (en) 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
US7536299B2 (en) 2005-12-19 2009-05-19 Dolby Laboratories Licensing Corporation Correlating and decorrelating transforms for multiple description coding systems
US8255207B2 (en) 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
CN101371295B (zh) 2006-01-18 2011-12-21 Lg电子株式会社 用于编码和解码信号的设备和方法
US20090281812A1 (en) 2006-01-18 2009-11-12 Lg Electronics Inc. Apparatus and Method for Encoding and Decoding Signal
US8032369B2 (en) 2006-01-20 2011-10-04 Qualcomm Incorporated Arbitrary average data rates for variable rate coders
FR2897733A1 (fr) 2006-02-20 2007-08-24 France Telecom Procede de discrimination et d'attenuation fiabilisees des echos d'un signal numerique dans un decodeur et dispositif correspondant
US20070253577A1 (en) 2006-05-01 2007-11-01 Himax Technologies Limited Equalizer bank with interference reduction
EP2030199B1 (en) 2006-05-30 2009-10-28 Koninklijke Philips Electronics N.V. Linear predictive coding of an audio signal
US7873511B2 (en) 2006-06-30 2011-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
JP4810335B2 (ja) 2006-07-06 2011-11-09 株式会社東芝 広帯域オーディオ信号符号化装置および広帯域オーディオ信号復号装置
US7933770B2 (en) 2006-07-14 2011-04-26 Siemens Audiologische Technik Gmbh Method and device for coding audio data based on vector quantisation
EP2044575B1 (en) 2006-07-24 2017-01-11 Sony Corporation A hair motion compositor system and optimization techniques for use in a hair/fur graphics pipeline
US7987089B2 (en) 2006-07-31 2011-07-26 Qualcomm Incorporated Systems and methods for modifying a zero pad region of a windowed frame of an audio signal
DE102006049154B4 (de) 2006-10-18 2009-07-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodierung eines Informationssignals
US20080147518A1 (en) 2006-10-18 2008-06-19 Siemens Aktiengesellschaft Method and apparatus for pharmacy inventory management and trend detection
BR122019024992B1 (pt) 2006-12-12 2021-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Codificador, decodificador e métodos para codificação e decodificação de segmentos de dados representando uma corrente de dados de domínio de tempo
FR2911228A1 (fr) 2007-01-05 2008-07-11 France Telecom Codage par transformee, utilisant des fenetres de ponderation et a faible retard.
KR101379263B1 (ko) 2007-01-12 2014-03-28 삼성전자주식회사 대역폭 확장 복호화 방법 및 장치
FR2911426A1 (fr) 2007-01-15 2008-07-18 France Telecom Modification d'un signal de parole
JP4708446B2 (ja) 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
JP2008261904A (ja) 2007-04-10 2008-10-30 Matsushita Electric Ind Co Ltd 符号化装置、復号化装置、符号化方法および復号化方法
US8630863B2 (en) 2007-04-24 2014-01-14 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding audio/speech signal
CN101388210B (zh) 2007-09-15 2012-03-07 华为技术有限公司 编解码方法及编解码器
RU2356046C2 (ru) 2007-06-13 2009-05-20 Государственное образовательное учреждение высшего профессионального образования "Самарский государственный университет" Способ получения капиллярных колонок и устройство для его осуществления
KR101513028B1 (ko) 2007-07-02 2015-04-17 엘지전자 주식회사 방송 수신기 및 방송신호 처리방법
US8185381B2 (en) 2007-07-19 2012-05-22 Qualcomm Incorporated Unified filter bank for performing signal conversions
CN101110214B (zh) 2007-08-10 2011-08-17 北京理工大学 一种基于多描述格型矢量量化技术的语音编码方法
PT3550564T (pt) 2007-08-27 2020-08-18 Ericsson Telefon Ab L M Análise/síntese espectral de baixa complexidade utilizando resolução temporal selecionável
JP5264913B2 (ja) 2007-09-11 2013-08-14 ヴォイスエイジ・コーポレーション 話声およびオーディオの符号化における、代数符号帳の高速検索のための方法および装置
US8576096B2 (en) 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
CN101425292B (zh) 2007-11-02 2013-01-02 华为技术有限公司 一种音频信号的解码方法及装置
DE102007055830A1 (de) 2007-12-17 2009-06-18 Zf Friedrichshafen Ag Verfahren und Vorrichtung zum Betrieb eines Hybridantriebes eines Fahrzeuges
CN101483043A (zh) 2008-01-07 2009-07-15 中兴通讯股份有限公司 基于分类和排列组合的码本索引编码方法
CN101488344B (zh) 2008-01-16 2011-09-21 华为技术有限公司 一种量化噪声泄漏控制方法及装置
US8000487B2 (en) 2008-03-06 2011-08-16 Starkey Laboratories, Inc. Frequency translation by high-frequency spectral envelope warping in hearing assistance devices
EP2107556A1 (en) 2008-04-04 2009-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transform coding using pitch correction
US8879643B2 (en) 2008-04-15 2014-11-04 Qualcomm Incorporated Data substitution scheme for oversampled data
US8768690B2 (en) 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
WO2010003532A1 (en) 2008-07-11 2010-01-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme
MY154452A (en) 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
ES2657393T3 (es) 2008-07-11 2018-03-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador y descodificador de audio para codificar y descodificar muestras de audio
JP5369180B2 (ja) 2008-07-11 2013-12-18 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ サンプリングされたオーディオ信号のフレームを符号化するためのオーディオエンコーダおよびデコーダ
RU2621965C2 (ru) 2008-07-11 2017-06-08 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Передатчик сигнала активации с деформацией по времени, кодер звукового сигнала, способ преобразования сигнала активации с деформацией по времени, способ кодирования звукового сигнала и компьютерные программы
EP2144171B1 (en) 2008-07-11 2018-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding and decoding frames of a sampled audio signal
PL2346030T3 (pl) 2008-07-11 2015-03-31 Fraunhofer Ges Forschung Koder audio, sposób kodowania sygnału audio oraz program komputerowy
EP2146344B1 (en) 2008-07-17 2016-07-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding/decoding scheme having a switchable bypass
US8352279B2 (en) 2008-09-06 2013-01-08 Huawei Technologies Co., Ltd. Efficient temporal envelope coding approach by prediction between low band signal and high band signal
US8577673B2 (en) 2008-09-15 2013-11-05 Huawei Technologies Co., Ltd. CELP post-processing for music signals
US8798776B2 (en) 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
BRPI0914056B1 (pt) 2008-10-08 2019-07-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Esquema de codificação/decodificação de áudio comutado multi-resolução
KR101315617B1 (ko) 2008-11-26 2013-10-08 광운대학교 산학협력단 모드 스위칭에 기초하여 윈도우 시퀀스를 처리하는 통합 음성/오디오 부/복호화기
CN101770775B (zh) 2008-12-31 2011-06-22 华为技术有限公司 信号处理方法及装置
US8457975B2 (en) 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
CN102334160B (zh) 2009-01-28 2014-05-07 弗劳恩霍夫应用研究促进协会 音频编码器,音频解码器,编码和解码音频信号的方法
EP2214165A3 (en) 2009-01-30 2010-09-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for manipulating an audio signal comprising a transient event
US8805694B2 (en) 2009-02-16 2014-08-12 Electronics And Telecommunications Research Institute Method and apparatus for encoding and decoding audio signal using adaptive sinusoidal coding
PL2234103T3 (pl) 2009-03-26 2012-02-29 Fraunhofer Ges Forschung Urządzenie i sposób manipulacji sygnałem audio
CA2763793C (en) 2009-06-23 2017-05-09 Voiceage Corporation Forward time-domain aliasing cancellation with application in weighted or original signal domain
CN101958119B (zh) 2009-07-16 2012-02-29 中兴通讯股份有限公司 一种改进的离散余弦变换域音频丢帧补偿器和补偿方法
JP5243661B2 (ja) 2009-10-20 2013-07-24 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ オーディオ信号符号器、オーディオ信号復号器、オーディオコンテンツの符号化表現を供給するための方法、オーディオコンテンツの復号化表現を供給するための方法、および低遅延アプリケーションにおける使用のためのコンピュータ・プログラム
MX2012004593A (es) 2009-10-20 2012-06-08 Fraunhofer Ges Forschung Codec multimodo de audio y codificacion de celp adaptada a este.
CN102081927B (zh) * 2009-11-27 2012-07-18 中兴通讯股份有限公司 一种可分层音频编码、解码方法及系统
US8428936B2 (en) 2010-03-05 2013-04-23 Motorola Mobility Llc Decoder for audio signal including generic audio and speech frames
US8423355B2 (en) 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
WO2011147950A1 (en) 2010-05-28 2011-12-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low-delay unified speech and audio codec
MY159444A (en) 2011-02-14 2017-01-13 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Encoding and decoding of pulse positions of tracks of an audio signal

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060025203A (ko) * 2003-06-30 2006-03-20 코닌클리케 필립스 일렉트로닉스 엔.브이. 잡음 부가에 의한 디코딩된 오디오의 품질 개선

Also Published As

Publication number Publication date
HK1192641A1 (en) 2014-08-22
SG192718A1 (en) 2013-09-30
EP2676264A1 (en) 2013-12-25
CN103534754B (zh) 2015-09-30
RU2013141934A (ru) 2015-03-27
CN103534754A (zh) 2014-01-22
CA2827335C (en) 2016-08-30
EP2676264B1 (en) 2015-01-28
AR085224A1 (es) 2013-09-18
PL2676264T3 (pl) 2015-06-30
MX2013009303A (es) 2013-09-13
JP5969513B2 (ja) 2016-08-17
CA2903681C (en) 2017-03-28
JP2014505907A (ja) 2014-03-06
AU2012217161B2 (en) 2015-11-12
TWI480857B (zh) 2015-04-11
ES2535609T3 (es) 2015-05-13
KR101613673B1 (ko) 2016-04-29
AU2012217161A1 (en) 2013-09-26
WO2012110481A1 (en) 2012-08-23
TW201250671A (en) 2012-12-16
CA2827335A1 (en) 2012-08-23
RU2586838C2 (ru) 2016-06-10
US20130332175A1 (en) 2013-12-12
US9153236B2 (en) 2015-10-06
CA2903681A1 (en) 2012-08-23
MY160272A (en) 2017-02-28
ZA201306873B (en) 2014-05-28

Similar Documents

Publication Publication Date Title
JP6643285B2 (ja) オーディオ符号器及びオーディオ符号化方法
KR101613673B1 (ko) 불활성 위상 동안에 잡음 합성을 사용하는 오디오 코덱
KR101698905B1 (ko) 정렬된 예견 부를 사용하여 오디오 신호를 인코딩하고 디코딩하기 위한 장치 및 방법
EP2866228B1 (en) Audio decoder comprising a background noise estimator
AU2012217161B9 (en) Audio codec using noise synthesis during inactive phases

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant