KR101551046B1 - 저-지연 통합 스피치 및 오디오 코딩에서 에러 은닉을 위한 장치 및 방법 - Google Patents

저-지연 통합 스피치 및 오디오 코딩에서 에러 은닉을 위한 장치 및 방법 Download PDF

Info

Publication number
KR101551046B1
KR101551046B1 KR1020137023692A KR20137023692A KR101551046B1 KR 101551046 B1 KR101551046 B1 KR 101551046B1 KR 1020137023692 A KR1020137023692 A KR 1020137023692A KR 20137023692 A KR20137023692 A KR 20137023692A KR 101551046 B1 KR101551046 B1 KR 101551046B1
Authority
KR
South Korea
Prior art keywords
values
spectral
frame
filter
audio
Prior art date
Application number
KR1020137023692A
Other languages
English (en)
Other versions
KR20140005277A (ko
Inventor
제레미 레콤테
마틴 디에츠
마이클 슈나벨
랄프 스페르슈나이더
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
테크니쉐 유니베르시타트 일메나우
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베., 테크니쉐 유니베르시타트 일메나우 filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20140005277A publication Critical patent/KR20140005277A/ko
Application granted granted Critical
Publication of KR101551046B1 publication Critical patent/KR101551046B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • G10L19/107Sparse pulse excitation, e.g. by using algebraic codebook
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/13Residual excited linear prediction [RELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)

Abstract

오디오 신호를 위한 스펙트럼 대체값들을 생성하는 장치(100)가 제공된다. 장치(100)는 이전에 수신된 에러-프리 오디오 프레임에 관한 이전 스펙트럼 값들을 저장하는 버퍼 유닛(110)을 포함한다. 또한, 장치(100)는 현재 오디오 프레임이 수신되지 않거나 현재 오디오 프레임에 오류가 있을 때, 스펙트럼 대체값들을 생성하는 은닉 프레임 생성부(120)를 포함한다. 이전에 수신된 에러-프리 오디오 프레임은 필터 정보를 포함하고, 필터 정보는 예측 필터의 안정성을 나타내는 필터 안정성 값에 연관된다. 은닉 프레임 생성부(120)는 이전의 스펙트럼 값들 및 필터 안정성 값에 기반하는 스펙트럼 대체값들을 생성하도록 구성된다.

Description

저-지연 통합 스피치 및 오디오 코딩에서 에러 은닉을 위한 장치 및 방법{APPARATUS AND METHOD FOR ERROR CONCEALMENT IN LOW-DELAY UNIFIED SPEECH AND AUDIO CODING}
본 발명은 오디오 신호 처리에 관한 것으로, 특히, 저-지연 통합 스피치 및 오디오 코딩(LD-USAC)에서 에러 은닉을 위한 장치 및 방법에 관한 것이다.
오디오 신호 처리는 많은 방법들에서 발전하고, 점점 더 중요해지고 있다. 오디오 신호 처리에서, 저-지연 통합 스피치 및 오디오 코딩(Low-Delay Unified Speech and Audio Coding, LD-USAC)은 스피치, 오디오 및 스피치와 오디오의 합성에 적합한 코딩 기술을 제공하는데 목적이 있다. 더 나아가, LD-USAC는 인코딩된 오디오 신호들을 위해 높은 품질을 보장하는데 목적이 있다. USAC(Unified Speech and Audio Coding)와 비교하여, LD-USAC에서 지연은 감소된다.
오디오 데이터를 인코딩할 때, LD-USAC 인코더는 인코딩될 오디오 신호를 검사한다. LD-USAC 인코더는 예측 필터의 선형 예측 필터 계수들을 인코딩함에 의해 오디오 신호를 인코딩한다. 특정한 오디오 프레임에 의해 인코딩될 오디오 데이터에 따라, LD-USAC 인코더는 인코딩을 위해 ACELP (Advanced Code Excited Linear Prediction)이 이용될지 또는 오디오 데이터가 TCX (Transform Coded Excitation)를 이용하여 인코딩될지 결정한다. ACELP가 LP 필터 계수들(선행 예측 필터 계수들), 적응적 코드북 인덱스들, 대수적인 코드북 인덱스들 및 적응적이고 대수적인 코드북 이득들을 사용하는 반면에, TCX는 LP 필터 계수들, 변형된 이산 코사인 변환(Modified Discrete Cosine Transform, MDCT)에 관련된 에너지 파라미터와 양자화 인덱스들을 사용한다.
디코더 측에서, LD-USAC 디코더는 현재 오디오 신호 프레임을 인코딩하기 위해 ACELP 또는 TCX를 쓸지 결정한다. 따라서, 디코더는 오디오 신호를 디코딩한다.
가끔, 데이터 전송이 실패한다. 예를 들어, 송신기에 의해 전송된 오디오 신호 프레임은 수신기에서 에러들을 가지고 도달하거나 전부 도달하지 않거나 프레임이 늦는다.
이러한 경우, 에러 은닉은 누락이나 오류가 있는 오디오 데이터가 대체되는 것을 보장하는 것이 필수적일 수 있다. 이것은 오류가 있거나 누락된 프레임의 재전송 요청은 저-지연 요구사항들을 침해할 수 있기 때문에, 특히, 실시간 요구들을 가지는 애플리케이션을 위해서는 사실이다.
그러나, 다른 오디오 애플리케이션들은 위해 사용되는 종래의 은닉 기술들은 합성된 잡음에 의해 발생된 인공적인 사운드를 종종 생성한다.
따라서 오디오 신호 프레임을 위한 에러 은닉을 위해 개선된 개념들을 제공하는 것이 본 발명의 목적이다. 본 발명의 목적은 청구항 1에 따른 장치, 청구항 15에 따른 방법 및 청구항 16에 따른 컴퓨터 프로그램에 의해 해결된다.
오디오 신호를 위해 스펙트럼 값들을 생성하는 장치가 제공된다. 상기 장치는 이전에 수신된 에러-프리(error-free) 오디오 프레임에 관한 이전 스펙트럼 값들을 저장하는 버퍼 유닛을 포함한다. 게다가, 상기 장치는 현재 오디오 프레임이 수신되지 않거나 현재 오디오 프레임에 오류가 있을 때, 스펙트럼 대체값들을 생성하는 은닉 프레임 생성부를 포함한다. 이전에 수신된 에러-프리 오디오 프레임은 필터 정보를 포함하고, 필터 정보는 예측 필터의 안정성을 나타내는 필터 안정성 값과 관련된다. 은닉 프레임 생성부는 이전 스펙트럼 값들과 필터 안정성 값에 기반한 스펙트럼 대체값들을 생성할 수 있다.
본 발명은 이전에 수신된 에러-프리 프레임의 이전 스펙트럼 값들이 에러 은닉을 위해 사용되는 동안, 페이드 아웃이 이러한 값들에 수행되고, 페이드 아웃은 신호의 안정성에 의존한다는 것을 발견한 것에 기반한다. 신호가 덜 안정적일수록, 페이드 아웃은 더 빠르게 수행된다.
일 실시예에서, 은닉 프레임 생성부는 이전 스팩트럼 값들의 부호(sign)를 랜덤하게 플립핑(flipping)함에 의해 스펙트럼 대체값들을 생성할 수 있다.
다른 실시예에 따르면, 은닉 프레임 생성부는 필터 안정성 값이 제1 값을 가질 때 제1 이득 팩터에 이전 스펙트럼 값들의 각각을 곱하거나, 필터 안정성 값이 제1 값보다 작은 제2 값을 가질 때 제2 이득 팩터보다 작은 제2 이득 팩터에 이전 스펙트럼 값들의 각각을 곱함에 의해 스펙트럼 대체값들을 생성하도록 구성될 수 있다.
다른 실시예로, 은닉 프레임 생성부는 필터 안정성 값에 기반한 스펙트럼 대체값들을 생성할 수 있고, 이전에 수신된 에러-프리 오디오 프레임은 예측 필터의 제1 예측 필터 계수들을 포함하고, 이전에 수신된 에러-프리 오디오 프레임의 선행자 프레임은 제2 예측 필터 계수들을 포함하며, 필터 안정성 값은 제2 예측 필터 계수들과 제2 예측 필터 계수들에 의존한다.
일 실시예에 따르면, 은닉 프레임 생성부는 이전에 수신된 에러-프리 오디오 프레임의 제1 예측 필터 계수들 및 이전에 수신된 에러-프리 오디오 프레임의 선행자 프레임의 제2 예측 필터 계수들에 기반하여 제1 필터 안정성 값을 결정할 수 있다.
다른 실시예에서, 은닉 프레임 생성부는 제1 필터 안정성 값에 기반한 스펙트럼 대체값을 생성하고, 상기 필터 안정성 값은 LSFdist에 의존하고, 거리 측정 LSFdist은 다음의 공식에 의해 정의되고,
Figure 112013081780901-pct00001
Figure 112013081780901-pct00002
는 이전에 수신된 에러-프리 오디오 프레임의 제1 예측 필터 계수들의 전체 개수를 명시하고,
Figure 112013081780901-pct00003
는 또한 상기 이전에 수신된 에러-프리 오디오 프레임의 선행자 프레임의 제2 예측 필터 계수들의 전체 개수를 명시하며,
Figure 112013081780901-pct00004
은 제1 예측 필터 계수들의 i번째 필터 계수를 명시하고,
Figure 112013081780901-pct00005
는 제2 예측 필터 계수들의 i번째 필터 계수를 명시한다.
실시예에 따르면, 은닉 프레임 생성부는 이전에 수신된 에러-프리 오디오 프레임에 관한 프레임 클래스(frame class) 정보에 더 기반하는 스펙트럼 대체값들을 생성할 수 있다. 예를 들어, 프레임 클래스 정보는 이전에 수신된 에러-프리 오디오 프레임이 "인위적인 온셋(onset)", "온셋", "유성음의 전이", "무성음의 전이", "무성음" 또는 "유성음"로써 분류되는 것을 나타낸다.
다른 실시예에서, 은닉 프레임 생성부는 마지막 에러-프리 오디오 프레임이 수신기에 도달한 이후로, 수신기에 도달하기 않거나 오류가 있는 연속적인 프레임들의 개수에 더 기반하여 스펙트럼 대체값들을 생성할 수 있으며, 마지막 에러-프리 오디오 프레임이 수신기에 도달한 이후에 수신기에 다른 에러-프리 오디오 프레임들이 도달하지 않는다.
다른 실시예에 따르면, 은닉 프레임 생성부는 필터 안정성 값과 수신기에 도달하지 않거나 오류가 있는 연속적인 프레임들의 개수에 기반하여 페이드 아웃 팩터(fade out factor)를 산출할 수 있다. 게다가, 은닉 프레임 생성부는 이전 스펙트럼 값들 중 적어도 일부에 또는 중간값들의 각각은 이전 스펙트럼 값들의 적어도 하나에 의존하는 중간값들의 그룹 중 적어도 일부에, 페이드 아웃 팩터를 곱함에 의해 스펙트럼 대체값들을 생성할 수 있다.
또 다른 실시예에서, 은닉 프레임 생성부는, 이전 스펙트럼 값들, 필터 안전성 값 및 또한 시간의 노이즈 성형의 예측 이득에 기반하여 스펙트럼 대체값들을 생성할 수 있다.
또 다른 실시예에 따르면, 오디오 신호 디코더가 제공된다. 오디오 신호 디코더는 스펙트럼 오디오 신호값들을 디코딩하는 장치, 상술한 실시예들 중 어느 하나에 따라 스펙트럼 대체값들을 생성하는 장치를 포함할 수 있다. 스펙트럼 오디오 신호값들을 디코딩하는 장치는 이전에 수신된 에러-프리 오디오 프레임에 기반하는 오디오 신호의 스펙트럼 값들을 디코딩할 수 있다. 게다가, 스펙트럼 오디오 신호값들을 디코딩하는 장치는 스펙트럼 대체값들을 생성하는 장치의 버퍼 유닛에 오디오 신호의 스펙트럼 값들을 저장할 수 있다. 스펙트럼 대체값들을 생성하는 장치는, 현재 오디오 프레임이 수신되지 않거나 현재 프레임에 오류가 있을 때, 버퍼 유닛에 저장된 스펙트럼 값들에 기반한 스펙트럼 대체값들을 생성할 수 있다.
게다가, 다른 실시예에 따른 오디오 신호 디코더가 제공된다. 오디오 신호 디코더는 수신된 에러-프리 오디오 프레임에 기반하여 제1 중간 스펙트럼 값들을 생성하는 디코딩 유닛, 제2 중간 스펙트럼 값들을 획득하도록 제1 중간 스펙트럼 값들에 시간적 노이즈 성형을 수행하는 시간적 노이즈 성형 유닛, 제1 중간 스펙트럼 값들 및 제2 중간 스펙트럼 값들에 따른 시간적 노이즈 성형의 예측 이득을 산출하는 예측 이득 산출부, 현재 오디오 프레임이 수신되지 않거나 현재 오디오 프레임에 오류가 있을 때, 스펙트럼 대체값들을 생성하는 상술한 실시예들 중 어느 하나에 따른 장치, 및 예측 이득이 임계값보다 크거나 같은 경우 스펙트럼 대체값들을 생성하는 장치의 버퍼 유닛에 제1 중간 스펙트럼 값들을 저장하거나, 예측 이득이 임계값보다 작은 경우 스펙트럼 대체값들을 생성하는 장치의 버퍼 유닛에 제2 중간 스펙트럼 값들을 저장하는 값 선택부를 포함한다.
더 나아가, 또 다른 실시예에 따라 또 다른 오디오 신호 디코더가 제공된다. 오디오 신호 디코더는 수신된 에러-프리 오디오 프레임에 기반하여 스펙트럼 값들을 생성하는 제1 디코딩 모듈, 상술한 실시예들 중 어느 하나에 따라 스펙트럼 대체값들을 생성하는 장치, 디코딩된 오디오 신호의 스펙트럼 오디오 값들을 획득하도록, 시간적 노이즈 성형을 수행하고, 노이즈-필링(noise-filling) 적용 또는 글로벌 이득을 적용함에 의해 스펙트럼 값들을 처리하는 처리 모듈을 포함한다. 스펙트럼 대체값들을 생성하는 장는 현재 프레임이 수신되지 않거나 현재 오디오 프레임에 오류가 있을 때, 스펙트럼 대체값들을 생성하여 처리 모듈로 제공할 수 있다.
바람직한 실시예들은 종속항들에서 제공될 것이다.
본 발명의 실시예에 따른 은닉 프레임 생성부(120)는 이전의 스펙트럼 값들 및 필터 안정성 값에 기반하여 스펙트럼 대체값들을 생성할 수 있다.
또한, 스펙트럼 대체값들을 통하여 잡음(artefact)이 생성되는 것을 방지할 수 있다.
본 발명의 다음과 같은 바람직한 실시예들이 도면들과 관련하여 설명된다.
도 1은 본 발명의 실시예에 따른 오디오 신호를 위한 스펙트럼 대체값들을 획득하는 장치를 설명한다.
도 2는 본 발명의 다른 실시예에 따른 오디오 신호를 위한 스펙트럼 대체값들을 획득하는 장치를 설명한다.
도 3a-3c는 본 발명의 실시예에 따른 이득 팩터와 이전 스펙트럼 값들의 곱셈을 설명한다.
도 4a는 시간 도메인에서 온셋(onset)을 포함하는 신호 부분의 반복을 설명한다.
도 4b는 시간 도메인에서 안정된 신호 부분의 반복을 설명한다.
도 5a-5b는 본 발명의 실시예에 따라 도 3a의 스펙트럼 값들에 적용되는 이득 팩터들을 생성하는, 예들을 설명한다.
도 6은 본 발명의 실시예에 따른 오디오 신호 디코더를 설명한다.
도 7은 본 발명의 다른 실시예에 따른 오디오 신호 디코더를 설명한다.
도 8은 본 발명의 또 다른 실시예에 따른 오디오 신호 디코더를 설명한다.
도 1은 오디오 신호를 위한 스펙트럼 대체값들을 생성하는 장치(100)를 설명한다. 장치(100)는 이전에 수신된 에러-프리 오디오 프레임(previously received error-free audio frame)에 관한 이전 스펙트럼 값들(previous spectral values)을 저장하는 버퍼 유닛(110)을 포함한다. 게다가, 장치(100)는, 현재 오디오 프레임이 수신되지 않거나 현재 오디오 프레임에 오류가 있을 때, 스펙트럼 대체값들을 생성하는 은닉 프레임 생성부(concealment frame generator)(120)를 포함한다. 이전에 수신된 에러-프리 오디오 프레임은 필터 정보를 포함하고, 필터 정보는 예측 필터의 안정성을 나타내는 필터 안정성 값과 연관된다. 은닉 프레임 생성부(120)는 이전 스펙트럼 값들 및 필터 안정성 값에 기반한 스펙트럼 대체값들을 생성한다.
이전에 수신된 에러-프리 오디오 프레임은, 예를 들어, 이전 스펙트럼 값들을 포함한다. 예를 들어, 이전 스펙트럼 값들은 인코딩된 형태에서 이전에 수신된 에러-프리 오디오 프레임을 포함할 수 있다.
또는, 이전 스펙트럼 값들은, 예를 들어, 이전에 수신된 에러-프리 오디오 프레임에 포함된 값들을 수정함에 의해 생성된 값들일 수 있으며, 예컨대, 오디오 신호의 스펙트럼 값들일 수 있다. 예를 들어, 이전에 수신된 에러-프리 오디오 프레임에 포함된 값들은, 이전 스펙트럼 값들을 획득하도록, 이득 팩터를 그들의 각각에 곱합으로써 수정될 수 있다.
또는, 이전 스펙트럼 값들은, 예를 들어, 이전에 수신된 에러-프리 오디오 프레임에 포함된 값들에 기반하여 생성된 값들일 수 있다. 예를 들어, 이전 스펙트럼 값들의 각각이 이전에 수신된 에러-프리 오디오 프레임에 포함된 값들의 적어도 몇 개에 의존하도록, 이전 스펙트럼 값들의 각각은 이전에 수신된 에러-프리 오디오 프레임에 포함된 값들의 적어도 몇 개에 이용함에 의해 생성될 수 있다. 예컨대, 이전에 수신된 에러-프리 오디오 프레임에 포함된 값들은 중간 신호를 생성하기 위해 사용될 수 있다. 예를 들어, 생성된 중간 신호의 스펙트럼 값들은 이전에 수신된 에러-프리 오디오 프레임에 관한 이전 스펙트럼 값들로서 고려될 수 있다.
화살표 105는 이전 스펙트럼 값들이 버퍼 유닛(110)에 저장되는 것을 나타낼 수 있다.
은닉 프레임 생성부(120)는 현재 오디오 프레임이 제시간에 수신되지 않거나 현재 오디오 프레임에 오류가 있을 때 스펙트럼 대체값들을 생성할 수 있다. 예를 들어, 전송기는, 예를 들어, 스펙트럼 대체값들을 획득하기 위한 장치(100)에 위치된 수신기에 현재 오디오 프레임을 전송한다. 그러나, 예컨대, 전송 에러의 어떤 유형에 때문에, 현재 오디오 프레임은 수신기에 도달하기 않는다. 또는 전송된 현재 프레임은 수신기에 의해 수신되고, 그러나, 예를 들어, 전송 동안에 방해때문에, 현재 오디오 프레임은 오류가 있다. 이와 같은 경우에서, 은닉 프레임 생성부(120)는 에러 은닉을 위해 필요하다.
이를 위해서, 은닉 프레임 생성부(120)는 현재 오디오 프레임이 수신되지 않거나 현재 오디오 프레임에 오류가 있을 때, 이전 스펙트럼 값들의 최소 몇 개에 기반하여 스펙트럼 대체값들을 생성할 수 있다. 실시예에 따르면, 이전에 수신된 에러-프리 오디오 프레임은 필터 정보를 포함하는 것으로 추정되고, 필터 정보는 필터 정보에 의해 정의되는 예측 필터의 안정성을 나타내는 필터 안정성 값에 연관된다. 예를 들어, 오디오 프레임은 필터 정보로서, 예를 들어 선형 예측 필터 계수들과 같은, 예측 필터 계수들을 포함할 수 있다.
은닉 프레임 생성부(120)는 이전 스펙트럼 값들 및 필터 안정성 값에 기반한 스펙트럼 대체값들을 더 생성할 수 있다.
예를 들어, 스펙트럼 대체값들은, 이전 스펙트럼 값들의 각각에 이득 팩터를 곱함으로, 이전 스펙트럼 값들 및 필터 안정성 값에 기반하여 생성될 수 있고, 이득 팩터는 필터 안정성 값에 의존한다. 예컨대, 제2 경우에서의 필터 안정성 값은 제1 경우에서 보다 더 작은 경우에, 이득 팩터는 제1 경우보다 제2 경우에 더 작을 수 있다.
다른 실시예에 따르면, 스팩트럼 대체값들은 이전 스펙트럼 값들 및 필터 안정성 값에 기반하여 생성될 수 있다. 중간값들은 이전 스펙트럼 값들을 변경함에 의해 생성될 수 있고, 예를 들어, 이전 스펙트럼 값들의 부호(sign)를 랜덤하게 플립핑(flipping)함에 의해, 중간값들의 각각에 이득 팩터를 곱함에 의해, 여기서, 이득 팩터의 값은 필터 안정성 값에 의존한다. 예를 들어, 제2 경우에서의 필터 안정성 값은 제1 경우에서 보다 더 작은 경우에, 이득 팩터는 제1 경우보다 제2 경우에 더 작을 수 있다.
또 다른 실시예에 따르면, 이전 스펙트럼 값들은 중간 신호를 생성하기 위해 이용될 수 있고, 스펙트럼 도메인 합성 신호(spectral domain synthesis signal)는 중간 신호에 선형적인 예측 필터를 적용함에 의해 생성될 수 있다. 그리하여, 생성된 합성 신호의 각각의 스펙트럼 값은 이득 팩터에 의해 곱해질 수 있고, 여기서 이득 팩터의 값은 필터 안정성 값에 의존한다. 위와 같이, 이득 팩터는, 예를 들어, 만약 제2 경우에서 필터 안정성 값이 제1 경우에서보다 작다면, 제1 경우에서보다 제2 경우에서 작을 수 있다.
특정한 실시예가 도 2에서 보다 상세하게 설명된다. 제1 프레임(101)은, 스펙트럼 대체값들을 획득하는 장치(100)에 위치하는 수신기 측에 도달한다. 수신기 측에서, 오디오 프레임이 에러-프리인지 아닌지가 확인된다. 예를 들어, 에러-프리 오디오 프레임은, 오디오 프레임에 포함된 모든 오디오 데이터가 에러-프리인 오디오 프레임이다. 이러한 목적을 위하여, 수신된 프레임이 에러-프리인지 아닌지 결정하는, 수단들(미도시)이 수신기 측에서 이용될 수 있다. 이를 위하여, 수신된 오디오 데이터가 수신된 체크 비트 또는 수신된 체크 합계(sum)와 일치하는지 테스트하는 수단과 같은, 최첨단의 에러 인식 기술들이 이용될 수 있다. 또는, 에러-검출 수단들은, 수신된 오디오 데이터가 수신된 CRC-값과 일치하는지 여부를 테스트하는 순환 중복 검사(cyclic redundancy check: CRC)를 이용할 수 있다. 수신된 오디오 프레임이 에러-프리인지 아닌지에 대한 테스팅을 위한 다른 기술이 또한 이용될 수 있다.
제1 오디오 프레임(101)은 오디오 데이터(102)를 포함한다. 게다가, 제1 오디오 프레임은 체크 데이터(103)를 포함한다. 예를 들어, 체크 데이터는, 수신된 오디오 프레임(101)이 에러-프리(에러-프리 프레임)인지 아닌지를 테스트하기 위해 수신기 측에서 이용되는 체크 비트, 체크 합계 또는 CRC-값일 수 있다.
만약에 오디오 프레임(101)이 에러-프리라고 결정되면, 에러-프리 오디오 프레임, 예컨대, 오디오 데이터(102)와 관련된 값들은 "이전 스펙트럼 값들(previous spectral values)"로 버퍼 유닛(110)에 저장될 것이다. 이러한 값들은, 예를 들어, 오디오 프레임에서 인코딩된 오디오 신호의 스펙트럼 값들일 수 있다. 또는, 버퍼 유닛에 저장된 값들은, 예를 들어, 오디오 프레임에서 저장된 인코딩된 값들을 프로세싱하고/하거나 변경함으로 도출한 중간값일 수 있다. 그렇지 않으며, 예를 들어 스펙트럼 도메인에 합성 신호와 같은, 신호는 오디오 프레임의 인코딩된 값들에 기반하여 생성될 수 있고, 생성된 신호의 스펙트럼 값들은 버퍼 유닛(110)에 저장될 수 있다. 버퍼 유닛(110)에 이전 스펙트럼 값들의 저장은 화살표 105에 의해 나타날 수 있다.
게다가, 오디오 프레임(101)의 오디오 데이터(102)는 인코딩된 오디오 신호(미도시)를 디코딩하기 위해 수신기 측에서 사용된다. 디코딩되는 오디오 신호의 부분은 수신기 측에서 리플레이될 수 있다.
오디오 프레임(101)을 프로세싱한 이후에, 수신기 측은 수신기 측에 도달할 다음 오디오 프레임(111)(또는 오디오 데이터(112) 및 체크 데이터(113)을 포함하여)을 예상한다. 그러나, 예를 들어, 오디오 프레임(111)이 전송되는 동안, 예측되지 않은 일이 발생한다. 이것은 116에 의해 설명된다. 예를 들어, 오디오 프레임(11)의 미세한 부분이 전송하는 동안 의도되지 않게 변경되거나, 예를 들어, 오디오 프레임(111)이 수신기 측에 전혀 도달하지 않는 것과 같이, 접속이 방해될 수 있다.
이러한 상황에서, 은닉이 요청된다. 예를 들어, 수신된 오디오 프레임에 기반하여 생성된 오디오 신호가 수신기 측에서 리플레이될 때, 누락된 프레임을 감추는 기술들이 이용된다. 예를 들어, 재생을 위하여 필요한 오디오 신호의 현재 오디오 프레임이 수신기 측에 도달하기 않거나 현재 오디오 프레임에 오류가 있을 때, 무엇을 할지 개념을 정의할 수 있다.
은닉 프레임 생성부(120)는 에러 은닉을 제공할 수 있다. 도 2에서, 은닉 프레임 생성부(120)는 현재 프레임이 수신되지 않거나 현재 오디오 프레임에 오류가 있는 것을 알려준다. 수신기 측에서 은닉이 필요함을 은닉 프레임 생성부(120)에 지시하는 수단들(미도시)이 이용될 수 있다(이것은 대쉬된 화살표 117에 나타난다).
에러 은닉을 수행하기 위하여, 은닉 프레임 생성부(120)는 이전 스펙트럼 값들의 일부 또는 전부, 예를 들어, 버퍼 유닛(110)으로부터 수신된 에러-프리 프레임(101)과 관련된, 이전 오디오 값들을 요청할 수 있다. 이러한 요청은 화살표 118에 의해 설명된다. 도 2의 예와 같이, 이전에 수신된 에러-프리 프레임은, 예를 들어, 오디오 프레임(101)과 같은, 수신된 마지막 에러-프리 프레임일 수 있다. 그러나, 다른 에러-프리 프레임은 이전에 수신된 에러-프리 프레임으로서 수신기 측에서 이용될 수 있다.
은닉 프레임 생성부는, 119에서 보여지는 바와 같이, 버퍼 유닛(110)으로부터 이전에 수신된 에러-프리 오디오 프레임(예컨대, 오디오 프레임(101))에 관한 이전 스펙트럼 값들은 수신한다. 예컨대, 다수의 프레임 손실의 경우에서, 버퍼는 완전히 또는 부분적으로 업데이트된다. 실시예에 따르면, 화살표 118 및 119에 의해 나타나는 단계들은 은닉 프레임 생성부(120)가 버퍼 유닛(110)으로부터 이전 스펙트럼 값들은 로딩하는 것을 인식할 수 있다.
은닉 프레임 생성부(120)는 이전 스펙트럼 값들의 적어도 일부에 기반하여 스펙트럼 대체값들을 생산한다. 이것에 의해, 청취자는, 재생에 의해 생성되는 사운드 표현이 방해되는 것과 같은, 하나 또는 더 많은 오디오 프레임이 누락된 것을 인식하지 못한다.
은닉을 실현하는 간단한 방법은, 누락 또는 오류가 있는 현재 프레임을 위한 스펙트럼 대체값들로서, 마지막 에러-프리 프레임의 스펙트럼 값과 같은 값들을 이용하는 것이다.
그러나, 사운드 볼륨이 갑자기 상당히 변화하는 경우에 있어, 특정한 문제들이 온셋들(onsets)의 경우에서 특히 존재한다. 예를 들어, 노이즈 버스트(noise brust)의 경우에, 마지막 프레임의 이전 스펙트럼 값들을 반복함에 의해, 노이즈 버스트는 또한 반복될 수 있다.
반면에, 만약 오디오 신호가 꽤 안정적이면, 예를 들어, 그것을 볼륨이 상당히 변화하기 않거나, 즉, 스펙트럼 값들이 상당히 변화하지 않으면, 이전에 수신된 오디오 데이터에 기반하여 현재 오디오 신호 부분을 인위적으로 생성하는 것, 가령, 이전에 수신된 오디오 신호 부분을 반복하는 것의 효과는 청취자를 위하여 덜 방해될 수 있다.
실시예는 이러한 발견에 기반한다. 은닉 프레임 생성부(120)는 이전 스펙트럼 값들의 적어도 일부와 오디오 신호에 관한 예측 필터의 안정성을 나타내는 필터 안정성 값에 기반하여 스펙트럼 대체값들을 생성한다. 그리하여, 은닉 프레임 생성부(120)는, 이전에 수신된 에러-프리 프레임에 관한 오디오 신호의 안정성을 고려할 수 있다.
이를 위하여, 은닉 프레임 생성부(120)는 이전 스펙트럼 값들에 적용되는 이득 팩터의 값을 바꿀 수 있다. 예를 들어, 이전 스펙트럼 값들의 각각이 이득 팩터에 의해 곱해진다. 이것은 도 3a-3c과 관련되어 설명된다.
도 3a에서, 이전에 수신된 에러-프리 프레임에 관한 오디오 신호의 스펙트럼 라인들의 몇몇은 원본 이득 팩터가 적용되기 전에 설명된다. 예를 들어, 원본 이득 팩터는 오디오 프레임에 전송되는 이득 팩터일 수 있다. 수신기 측에서, 만약에 수신된 프레임이 에러-프리이면, 디코더는, 예를 들어, 변경된 스펙트럼을 획득하도록 원본 이득 팩터 g에 의해 오디오 신호의 스펙트럼 값들의 각각을 곱하도록 구성된다. 이것은 도 3b에 나타난다.
도 3b에서, 원본 이득 팩터에 의해 도 3a의 스펙트럼 라인을 곱함으로 스펙트럼 라인들이 나타난다. 간단함의 이유들로, 원본 이득 팩터 g는 2.0인 것으로 가정한다(g=2.0). 도 3a 및 도 3b는 은닉이 필수적이지 않은 시나리오를 설명한다.
도 3c에서, 현재 프레임이 수신되지 않거나 현재 프레임에 오류가 있는 시나리오를 가정한다. 이러한 경우, 대체 벡터들이 생성되어야 한다. 이를 위하여, 버퍼 유닛에 저장된, 이전에 수신된 에러-프리 프레임에 관한 이전 스펙트럼 값들은 스펙트럼 대체값들을 생성하기 위하여 사용될 수 있다.
도 3c의 실시예에서, 스펙트럼 대체값들은 수신된 값들에 기반하여 생성될 수 있으나, 원본 이득 팩터는 수정된다.
도 3b의 경우에서 수신된 값들을 증폭하는데 사용되는 이득 팩터보다, 다른, 더 작은, 이득 팩터가 스펙트럼 대체값들을 생성하도록 사용된다. 이에 의해, 페이드 아웃이 달성될 수 있다.
예를 들어, 도 3c에 의해 설명되는 시나리오에서 사용되는 수정된 이득 팩터는 원본 이득 팩터, 예컨대, 0.75·2.0=1.5,의 75%가 될 수 있다. 스펙트럼 값들의 각각의 곱셈을 위해 사용되는 수정된 이득 팩터 gact=1.5가 에러-프리 경우에 스펙트럼 값들의 곱셈을 위해 사용되는 원본 이득 팩터(이득 팩터 gprev=2.0)보다 작기 때문에, (감소된)수정된 이득 팩터에 스펙트럼 값들의 각각을 곱함에 의해 페이드 아웃이 수행된다.
본 발명은 그 중에서, 각각의 오디오 신호 부분이 불안정할 때, 각각의 오디오 신호 부분이 안정적일 때의 경우 보다, 이전에 수신된 에러-프리 프레임의 값들의 반복이 더 방해하는 것으로 인지되는 것을 발견하는 것에 기반한다. 이것은 도 4a 및 4b에 나타난다.
예를 들어, 이전에 수신된 에러-프리 프레임이 온셋(onset)을 포함하면, 상기 온셋은 재생될 수 있다. 도 4a는 오디오 신호 부분을 나타내며, 마지막 수신된 에러-프리 프레임에 연관된 오디오 신호 부분에서 트렌션트(transient)가 발생한다. 도 4a 및 4b에서, 가로 좌표는 시간을 나타내고, 세로 좌표는 오디오 신호의 진폭 값을 나타낸다.
410에 의해 명시된 신호 부분은 마지막 수신된 에러-프리 프레임에 관련된 오디오 신호 부분에 관련된다. 만약, 이전에 수신된 에러-프리 프레임에 관련된 값들이 단순히 복사되고 대체 프레임의 스펙크럼 대체값들로 사용된다면, 영역 420에 대쉬된 라인은 시간 도메인에서 커브의 가능한 연속을 나타낸다. 보여지는 바와 같이, 트렌션트는 청취자에 의해 방해로써 인식되는 것이 반복되는 것일 수 있다.
반면에서, 도 4b는 신호가 상당히 안정적일 때의 예를 나타낸다. 도 4b에서, 마지막 수신된 에러-프리 프레임에 관련한 오디오 신호 부분이 나타난다. 도 4b의 신호 부분에서, 트렌션트가 발생하지 않는다. 다시, 가로 좌표는 시간을 나타내고, 세로 좌표는 오디오 신호의 진폭을 나타낸다. 영역 430은 마지막 수신된 에러-프리 프레임에 연관된 신호 부분과 관련한다. 만약 이전에 수신된 에러-프리 프레임의 값들이 복사되고, 대체 프레임의 스펙트럼 대체값들로써 사용된다면, 영역 440에서 대쉬된 라인은 시간 도메인에서 커브의 가능한 연속을 나타낸다. 도 4a에 나타난것 처럼, 오디오 신호가 상당히 안정적인 상황에서 마지막 신호 부분을 반복하는 것은, 온셋이 반복되는 상황에서 보다 청취자를 위하여 더 용인될 수 있는 것처럼 보인다.
본 발명은 스펙트럼 대체값들이 이전 오디오 프레임의 이전에 수신된 값들에 기반하여 생성되나, 오디오 신호 부분의 안정성에 의존하는 예측 필터의 안정성이 또한 고려된다는 것을 발견하는 것에 기반한다. 이를 위하여, 필터 안정성 값이 고려된다. 필터 안정성 값은, 예컨대, 예측 필터의 안정성을 나타낸다.
LU-USAC에서, 예측 필터 계수들, 예컨대, 선형 예측 필터 계수들은, 인코더 측에서 결정될 수 있고, 오디오 프레임안에서 수신기에게 전달될 수 있다.
디코더 측에서, 디코더는 예를 들어, 이전에 수신된 에러-프리 프레임의 예측 필터 계수들과 같은, 예측 필터 계수들을 수신한다. 게다가, 디코더는 이전에 수신된 프레임의 선행자(predecessor) 프레임의 예측 필터 계수들을 이미 수신할 수 있고, 예컨대, 이러한 예측 필터 계수들을 저장할 수 있다. 이전에 수신된 에러-프리 프레임의 선행자 프레임은 이전에 수신된 에러-프리 프레임에 바로 앞서는 프레임이다. 은닉 프레임 생성부는 이전에 수신된 에러-프리 프레임의 예측 필터 계수들과 이전에 수신된 에러-프리 프레임의 선행자 프레임의 예측 필터 계수들에 기반하는 필터 안정성 값을 결정할 수 있다.
다음으로, 실시예에 따른 필터 안정성 값의 결정이 제공되고, 이는 특히 LD-USAC에 적절하다. 고려되는 안정성 값은, 이전에 수신된 에러-프리 프레임에서 전송되어진, 예를 들어, 협대역의 경우에서 10 예측 필터 계수들
Figure 112013081780901-pct00006
또는 예를 들어, 광대역의 경우에서 16 예측 필터 계수들
Figure 112013081780901-pct00007
과 같은 예측 필터 계수들에 의존한다.
게다가, 이전에 수신된 에러-프리 프레임의 선행자 프레임의 예측 필터 계수들, 예를 들어, 협대역의 경우에서 10 추가적 예측 필터 계수들
Figure 112013081780901-pct00008
(광대역의 경우에서 16 추가적 예측 필터 계수들
Figure 112013081780901-pct00009
)이 또한 고려된다.
예를 들어, k-번째 예측 필터
Figure 112013081780901-pct00010
는 자기 상관(autocorrelation)을 계산함에 의해 인코더 측에서,
Figure 112013081780901-pct00011
로 계산되어 질 수 있다.
여기서, s'는 윈도우(windowed) 스피치 신호이고, 예컨대, 윈도우가 스피치 신호에 적용된 후에, 인코딩되는 스피치 신호이다. t는 예를 들어 383일 수 있다. 그렇지 않으면, t는 191 또는 95와 같은 다른 값들을 가질 수 있다.
다른 실시예로, 자기 상관을 계산하는 대신에, 최첨단 기술로 알려진 Levinson-Durbin-algorithm이 대안적으로 사용될 수 있고, 예를 들면,
[3]: 3GPP, "Speech codec speech processing functions; Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; Transcoding functions" , 2009, V9.0.0, 3GPP TS 26.190.를 본다.
이미 언급한 바와 같이, 예측 필터 계수들
Figure 112013081780901-pct00012
Figure 112013081780901-pct00013
각각은 이전에 수신된 에러-프리 프레임 및 이전에 수신된 에러-프리 프레임의 선행자에서 수신기로 전송될 수 있다.
디코터 측에서, 라인 스펙트럼 주파수 거리 척도(Line Spectral Frequency distance measure) (LSF distance measure) LSFdist는,
Figure 112013081780901-pct00014
공식을 이용하여 계산될 수 있다.
u는 이전에 수신된 에러-프리 프레임에서 예측 필터들의 개수에서 1을 뺀것일 수 있다. 예컨대, 만약 이전에 수신된 에러-프리 프레임이 10 예측 필터 계수들을 가지면, 예를 들어, u=9이다. 이전에 수신된 에러-프리 프레임에서 예측 필터 계수들의 개수는 이전에 수신된 에러-프리 프레임의 선행자 프레임에서 예측 필터 계수들의 개수와 일반적으로 동일하다.
안정성 값은 다음의 공식에 의해 계산될 수 있다.
Figure 112013081780901-pct00015
v는 정수일 수 있다. 예를 들어, v는 협대역의 경우에서 156250일 수 있다. 다른 실시예에서, v는 광대역의 경우에서 400000일 수 있다.
만약 θ가 1이거나 1에 가깝다면, θ는 매우 안정적인 예측 필터를 나타내는 것으로 고려된다.
만약 θ가 0이거나 0에 가깝다면, θ는 매우 불안정적인 예측 필터를 나타내는 것으로 고려된다.
은닉 프레임 생성부는, 현재 오디오 프레임이 수신되지 않거나 현재 오디오 프레임에 오류가 있을 때, 이전에 수신된 에러-프리 프레임의 이전 스펙트럼 값들에 기반하여 스펙트럼 대체값들을 생성할 수 있다. 게다가, 상술한 바와 같이, 은닉 프레임 생성부는 이전에 수신된 에러-프리 프레임의 예측 필터 계수들
Figure 112013081780901-pct00016
및 또한 이전에 수신된 에러-프리 프레임의 예측 필터 계수들
Figure 112013081780901-pct00017
에 기반하여 안정성 값 θ를 계산할 수 있다.
실시예에서, 은닉 프레임 생성부는 예컨대, 원본 이득 팩터를 수정함에 의해, 생성된 이득 팩터를 생성하기 위해 필터 안정성 값을 사용할 수 있고, 스펙트럼 대체값들을 획득하기 위하여 상기 생성된 이득 팩터를 오디오 프레임에 관련된 이전 스펙트럼 값들에 적용할 수 있다. 다른 실시예에서, 은닉 프레임 생성부는 이전 스펙트럼 값들로부터 도출된 값들에 상기 생성된 이득 팩터를 적용할 수 있다.
예를 들어, 은닉 프레임 생성부는 페이드 아웃 팩터를 수신된 이득 팩터에 곱함에 의해 수정된 이득 팩터를 생성할 수 있고, 여기서, 페이드 아웃 팩터는 필터 안정성 값에 의존한다.
예를 들어, 오디오 신호 프레임에서 수신된 이득 팩터가 2.0 값을 가지는 것으로 가정하자. 이득 팩터는 일반적으로 수정된 스펙트럼 값들을 획득하기 위하여 이전 스펙트럼 값들을 곱하기 위하여 사용된다. 페이드 아웃을 적용하기 위하여, 수정된 이득 팩터는 안정성 값 θ에 의존하여 생성된다.
예를 들어, 안정성 값 θ=1이면, 예측 필터는 매우 안정한 것으로 여겨진다. 만약 복원될 프레임이 첫 프레임을 누락하면, 페이드 아웃 팩터는 0.85로 설정될 수 있다. 따라서, 수정된 이득 팩터는 0.85·2.0=1.7이다. 이전에 수신된 프레임의 수신된 스펙트럼 값들의 각각은, 스펙트럼 대체값들을 생성하기 위하여 2.0 (수신된 이득 팩터) 대신에 1.7의 수정된 이득 팩터에 의해 곱해진다.
도 5a는 생성된 이득 팩터 1.7이 도 3a의 스펙트럼 값들에 적용되는 실시예를 나타낸다.
그러나, 만약, 예를 들어, 안정성 값 θ=0이면, 예측 필터는 매우 불안정적인 것으로 여겨진다. 만약 복원될 프레임이 첫 프레임을 누락하면, 페이드 아웃 팩터는 0.65로 설정될 수 있다. 따라서, 수정된 이득 팩터는 0.65·2.0=1.3이다. 이전에 수신된 프레임의 수신된 스펙트럼 값들의 각각은 스펙트럼 대체값들을 생성하기 위하여 2.0 (수신된 이득 팩터) 대신에 1.3의 수정된 이득 팩터에 의해 곱해진다.
도 5b는 생성된 이득 팩터 1.3이 도 3a의 스펙트럼 값들에 적용되는 실시예를 나타낸다. 도 5b의 예에서 이득 팩터는 도 5a의 예에서보다 더 작기 때문에, 도 5b에서의 크기는 또한 도 5a의 예에서 보다 작다.
값 θ에 의존하는 다른 전략들이 적용될 수 있으며, θ는 0과 1사이의 어떤 값일 수 있다.
예를 들어, θ가 1이면 예컨대, 페이드 아웃 팩터가 0.85가 되는 것처럼, 값 θ≥0.5은 페이드 아웃 팩터가 동일한 값을 갖도록 1로써 해석될 수 있다. θ가 0이면 예컨대, 페이드 아웃 팩터가 0.65가 되는 것처럼, 값 θ<0.5은 페이드 아웃 팩터가 동일한 값을 갖도록 0으로 해석될 수 있다.
다른 실시예에 따르면, θ의 값이 0과 1 사이에 있으면, 페이드 아웃 팩터의 값이 대안적으로 보간될 수 있다. 예를 들어, θ가 1이면 페이드 아웃 팩터가 0.85이고, θ가 0이면 0.65가 되는 것으로 가정하면, 페이드 아웃 팩터는
Figure 112013081780901-pct00018
에 따라 계산될 수 있다.
다음 실시예에 있어서, 은닉 프레임 생성부는 이전에 수신된 에러-프리 프레임에 관련한 프레임 클래스 정보에 더 기반하여 스펙트럼 대체값들을 생성할 수 있다. 클래스에 대한 정보는 인코더에 의해 결정될 수 있다. 인코더는 오디오 프레임에서 프레임 클래스 정보를 인코딩할 수 있다. 디코더는 이전에 수신된 에러-프리 프레임을 디코딩할 때 프레임 클래스 정보를 디코딩할 수 있다.
그렇지 않으면, 디코더는 오디오 프레임을 검사함에 의해 프레임 클래스 정보를 자체적으로 결정할 수 있다.
게다가, 디코더는 인코더로부터의 정보에 기반하고 수신된 오디오 데이터의 검사, 디코더 자체에 의해 수행되는 검사에 기반하여 프레임 클래스 정보를 결정하도록 구성될 수 있다.
프레임 클래스는, 예를 들어, 프레임이 "인위적인 온셋(artificial onset)", "온셋(onset)", "유성음의 전이(voiced transition)", "무성음의 전이(unvoiced transition)", "무성음(unvoiced)" 또는 "유성음(voiced)"로써 분류된다.
예를 들어, "온셋"은 이전에 수신된 오디오 프레임이 온셋을 포함하는 것을 나타낼 수 있다. 예컨대, "유성음"은 이전에 수신된 오디오 프레임이 유성음의 데이터를 포함하는 것을 나타낼 수 있다. 예를 들어, "무성음"은 이전에 수신된 오디오 프레임이 무성음의 데이터를 포함하는 것을 나타낼 수 있다. 예컨대, "유성음의 전이"는 이전에 수신된 오디오 프레임이 유성음의 데이터를 포함하나, 이전에 수신된 오디오 프레임의 선행자와 비교하여, 피치(pitch)가 바뀐다. 예를 들어, "인위적인 온셋"은 이전에 수신된 오디오 프레임의 에너지가 강화되는 것(그리하여, 예를 들어, 인위적인 온셋을 생성하는)을 나타낼 수 있다. 예컨대, "무성음의 전이"는 이전에 수신된 오디오 프레임이 무성음의 데이터를 포함하나, 무성의 사운드가 바로 바뀌는 것을 나타낸다.
이전에 수신된 오디오 프레임에 의존하여, 안정성 값 θ 및 연속적인 소거된 프레임들의 개수, 감쇠 이득(attenuation gain), 예컨대, 페이드 아웃 팩터는, 예를 들어 다음과 같이 정의된다.
Figure 112013081780901-pct00019
실시예에 따르면, 은닉 프레임 생성부는 안정성 값과 프레임 클래스에 기반하여 결정된 페이드 아웃 팩터에 의해 수신된 이득 팩터를 곱함에 의해 수정된 이득 팩터를 생성할 수 있다. 그리하여, 이전 스펙트럼 값들은, 예를 들어, 스펙트럼 대체값들을 획득하도록 수정된 이득 팩터에 의해 곱해질 수 있다.
은닉 프레임 생성부는 프레임 클래스 정보에 더 기반하여 스펙트럼 대체값들을 다시 생성할 수 있다.
실시예에 따르면, 은닉 프레임 생성부는, 수신기에 도달하지 않거나 오류가 있는 연속적인 프레임들의 개수에 더 의존하여 스펙트럼 대체값들이 생성될 수 있다.
실시예에서, 은닉 프레임 생성부는 필터 안정성 및 수신기에 도달하지 않거나 오류가 있는 연속적인 프레임들의 개수에 기반하여 페이드 아웃 팩터를 계산할 수 있다.
은닉 프레임 생성부는 게다가 이전 스펙트럼 값들의 적어도 일부에 페이드 아웃 팩터를 곱함에 의해 스펙트럼 대체값들을 생성할 수 있다.
그렇지 않으면, 은닉 프레임 생성부는 중간값들의 그룹의 적어도 일부에 페이드 아웃 팩터를 곱합에 의해 스펙트럼 개체값들을 생성할 수 있다. 중간값들의 각각은 이전 스펙트럼 값들의 적어도 하나에 의존한다. 예를 들어, 중간값들의 그룹은 이전 스펙트럼 값들을 수정함에 의해 생성될 수 있다. 또는 스펙트럼 도메인에서 합성 신호는 이전 스펙트럼 값들에 기반하여 생성될 수 있고, 합성 신호의 스펙트럼 값들은 중간값들의 그룹을 형성할 수 있다.
다른 실시예에서, 페이드 아웃 팩터는 생성된 이득 팩터를 획득하도록 원본 이득 팩터에 의해 곱해질 수 있다. 스펙트럼 대체값들을 획득하도록, 생성된 이득 팩터는 이전의 스펙트럼 값들의 적어도 일부 또는 앞서 언급한 중간값들의 그룹의 적어도 일부에 의해 곱해질 수 있다.
페이드 아웃 팩터의 값은 필터 안정성 값 및 연속적으로 누락한 또는 오류가 있는 프레임들의 개수에 의존하고, 예를 들어, 다음의 값들을 가진다.
Figure 112013081780901-pct00020
여기서, "Number of consecutive missing/erroneous frames = 1"은 누락한/오류가 있는 프레임의 중간의 선행자가 에러-프리였던 것을 나타낸다.
위의 예에서, 보여지는 바와 같이, 페이드 아웃 팩터는, 프레임이 도달하지 않거나 오류가 있는 각각의 시간을 마지막 페이드 아웃 팩터에 기반하여 업데이트할 수 있다. 예를 들어, 만약 누락한/오류가 있는 프레임의 중간 선행자가 에러-프리이면, 상기 예에서, 페이드 아웃 팩터는 0.8이다. 만약 다음의 프레임이 누락하거나 오류가 있으면, 페이드 아웃 팩터는, 업데이트 팩터 0.65에 의해 이전 페이드 아웃 팩터를 곱함에 의한 이전 페이드 아웃 팩터에 기반하여 업데이트되고, 즉, 페이드 아웃 팩터=0.8·0.65=0.52 등이다.
이전 스펙트럼 값들의 일부 또는 전부는 페이드 아웃 팩터 자체에 의해 곱해질 수 있다.
그렇지 않으면, 페이드 아웃 팩터는 생성된 이득 팩터를 획득하도록 원본 이득 팩터에 의해 곱해질 수 있다. 생성된 이득 팩터는, 스펙트럼 대체값들을 획득하도록, 이전 스펙트럼 값들(또는 이전 스펙트럼 값들로부터 도출된 중간값들)의 각각(또는 몇 개)에 의해 곱해질 수 있다.
페이드 아웃 팩터가 필터 안정성 값에 또한 의존할 수 있다는 것에 주목해야 한다. 예를 위해, 만약 필터 안정성 값이 1.0, 0.5 또는 다른 값일 경우에, 상기 표는 페이드 아웃 팩터를 위한 정의들을 또한 포함할 수 있다. 예를 들면:
Figure 112013081780901-pct00021
중간 필터 안정성 값들을 위한 페이드 아웃 팩터 값들은 근사화될 수 있다.
다른 실시예에서, 페이드 아웃 팩터는 필터 안정성 값 및 수신기에 도달하지 않거나 오류가 있는 연속적인 프레임들의 개수에 기반하여 페이드 아웃 팩터를 계산하는 공식을 이용함에 의해 결정될 수 있다.
상술한 바와 같이, 버퍼 유닛에 저장되는 이전 스펙트럼 값들이 스펙트럼 값들이 될 수 있다. 방해하는 잡음(artefact)이 생성되는 것을 피하기 위해, 은닉 프레임 생성부는, 상술한 바와 같이, 필터 안정성 값에 기반하여 스펙트럼 대체값들을 생성할 수 있다.
그러나, 이와 같이 생성된 신호 부분 대체는 여전히 반복적인 특징을 가질 수 있다. 그리하여, 실시예에 따르면, 스펙트럼 값들의 부호(sign)를 플립핑(flipping)함에 의해, 이전 스펙트럼 값들, 예컨대, 이전에 수신된 프레임의 스펙트럼 값을 수정하기 위해 더 제안될 수 있다. 예를 들어, 은닉 프레임 생성부는, 스펙트럼 값의 신호가 인버트되는지 아닌지, 예컨대, 스펙트럼 값이 -1에 의해 곱해지는지 아닌지를, 이전 스펙트럼 값들의 각각을 위해 랜덤하게 결정한다. 이에 의해, 그것의 선행자 프레임에 관해 대체된 오디오 신호 프레임의 반복적인 특징이 감소된다.
다음으로, 실시예에 따른 LD-USAC 디코더에서 은닉이 설명된다. 이러한 실시예에서, 은닉은(concealment), LD-USAC-디코더가 시간 변환에 마지막 주파수를 수행하기 바로 전에 스펙트럼 데이터상에 작용한다.
이러한 실시예에서, 도달하는 오디오 프레임의 값들은 스펙트럼 도메인에서 합성 신호를 생성함에 의해 인코딩된 오디오 신호를 디코딩하기 위하여 사용된다. 이를 위하여, 스펙트럼 도메인에서 중간 신호가 도달하는 오디오 프레임의 값들에 기반하여 생성된다. 노이즈 필링(filling)이 0으로 양자화된 값들에 수행된다.
인코딩된 예측 필터 계수들은, 주파수 도메인에서 디코딩된/복원된 오디오 신호를 나타내는 합성 신호를 생성하도록 중간 신호에 적용되는 예측 필터를 정의한다.
도 6은 실시예에 따른 오디오 신호 디코더를 나타낸다. 오디오 신호 디코더는 스펙트럼 오디오 신호 값들 610을 디코딩하기 위한 장치를 포함하고, 상술한 실시예의 하나에 따라 스펙트럼 대체값들을 생성하기 위한 장치를 포함한다.
스펙트럼 오디오 신호 값들 610을 디코딩하기 위한 장치는, 에러-프리 오디오 프레임이 도달할 때, 설명된 바와 같이 디코딩된 오디오 신호의 스펙트럼 값들을 생성한다.
도 6의 실시예에서, 합성 신호의 스펙트럼 값들은, 스펙트럼 대체값들을 생성하기 위해 장치(620)의 버퍼 유닛에 저장될 수 있다. 디코딩된 오디오 신호의 이러한 스펙트럼 값들은 수신된 에러-프리 오디오 프레임에 기반하여 디코딩되고, 이전에 수신된 에러-프리 오디오 프레임에 관련된다.
현재 프레임이 누락하거나 현재 오디오 프레임에 오류가 있을 때, 스펙트럼 대체값들을 생성하기 위한 장치(620)는 스펙트럼 대체값들이 필요하다는 것을 알려준다. 스펙트럼 대체값들을 생성하는 장치(620)의 은닉 프레임 생성부는 상술한 실시예의 하나에 따라 스펙트럼 대체값들을 생성한다.
예를 들어, 마지막 좋은 프레임으로부터 스펙트럼 값들은, 그들의 부호(sign)를 랜덤하게 플립핑함에 의해 은닉 프레임 생성부에 의해 약간 수정된다. 그리하여, 페이드 아웃이 이러한 스펙트럼 값들에 적용된다. 페이드 아웃은 이전 예측 필터의 안정성 및 연속적인 손실 프레임들의 개수에 의존할 수 있다. 생성된 스펙트럼 대체값들은 오디오 신호를 위한 스펙트럼 대체값들로서 사용되고, 그리고 주파수에서 시간으로 변환은 시간-도메인 오디 신호를 획득하도록 수행된다.
LD-USAC에서, USAC 및 MPEG-4(MPEG = Moving Picture Experts Group)뿐아니라, 시간적 노이즈 성형(temporal noise shaping: TNS)가 이용된다. 시간적 노이즈 성형에 의해, 노이즈의 미세한 시간이 제어된다. 디코더 측에서, 필터 연산이 노이즈 성형 정보에 기반하여 스펙트럼 데이터에 적용된다. 시간적 노이즈 성형에 대한 더 많은 정보가, 예를 들어, 발견된다:
[4]: ISO/IEC 14496-3:2005: Information technology - Coding of audio-visual objects - Part 3: Audio, 2005
실시예들은 온셋(onset)/트렌션트(transient)의 경우에서, TNS가 매우 액티브하다는 발견에 기반한다. 그리하여, TNS가 매우 액티브한지 여부를 결정함에 의해, 온셋/트렌션트가 존재하는지 추정할 수 있다.
실시예에 따르면, TNS가 가진 예측 이득은, 수신기 측에서 계산된다. 수신기 측에서, 처음에는, 수신된 에러-프리 오디오 프레임의 수신된 스펙트럼 값들이 제1 중간 스펙트럼 값들 ai을 획득하도록 처리된다. 그리하여. TNS가 수행되고, 이것에 의해, 제2 중간 스펙트럼 값들 bi이 획득된다. 제1 에너지 값 E1은 제1 중간 스펙트럼 값들을 위해 계산되고, 제2 에너지 값 E2가 제2 중간 스펙트럼 값들을 위해 계산된다. TNS의 예측 이득 gTNS를 획득하도록, 제2 에너지 값이 제1 에너지 값에 의해 나누어진다.
예를 들어, gTNS은 다음과 같이 정의된다.
Figure 112013081780901-pct00022
(n=고려된 스펙트럼 값들의 개수)
실시예에 따르면, 은닉 프레임 생성부는, 이전 스펙트럼 값들에 기반하고, 필터 안정성 값에 기반하며, 시간적 노이즈 성형이 이전에 수신된 에러-프리 프레임에 수행될 때, 또한 시간적 노이즈 성형의 예측 이득에 기반하여 스펙트럼 대체값들을 생성할 수 있다. 다른 실시예에 따르면, 은닉 프레임 생성부는 연속적으로 누락하거나 오류가 있는 프레임들의 개수에 더 기반하여 스펙트럼 대체값들을 생성할 수 있다.
예측 이득이 더 높을수록, 페이드 아웃이 더 빨라진다. 예를 들어, 0.5의 필터 안정성 값을 고려하고, 예측 이득이 높다고, 예컨대, gTNS=6이라 하면; 페이드 아웃 팩터는, 예를 들어 0.65(=빠른 페이드 아웃)이 될 수 있다. 반면에, 다시, 0.5의 필터 안정성 값을 고려하나 예측 이득이 낮다고, 예컨대, 1.5라 하면, 페이드 아웃 팩터는, 예를 들어 0.95(느린 페이드 아웃)이 될 수 있다.
TNS의 예측 이득은 또한, 스펙트럼 대체값들을 생성하기 위한 장치의 버퍼 유닛에 저장되는 값들에 영향을 미친다.
만약 예측 이득 gTNS가 어떤 임계값(예컨대, 임계값=5.0)보다 작으면, TNS가 적용된 후에 스펙트럼 값들은 이전 스펙트럼 값들로서 버퍼 유닛에 저장된다. 누락하거나 오류가 있는 프레임의 경우에, 스펙트럼 대체값들은 이러한 이전 스펙트럼 값들에 기반하여 생성된다.
그렇지 않으면, 만약 예측 이득 gTNS가 임계값보다 크거나 같으며, TNS가 적용되기 이전에 스펙트럼 값들이 이전 스펙트럼 값들로서 버퍼 유닛에 저장된다. 누락하거나 오류가 있는 프레임의 경우에, 스펙트럼 대체값들은 이러한 이전 스펙트럼 값들에 기반하여 생성된다.
TNS는 이러한 이전 스펙트럼 값들에 어떠한 경우에 적용되지 않는다.
따라서, 도 7은 상응하는 실시예에 따른 오디오 신호 디코더를 나타낸다. 오디오 신호 디코더는 수신된 에러-프리 프레임에 기반하는 제1 중간 스펙트럼 값들을 생성하는 디코딩 유닛(710)을 포함한다. 게다가, 오디오 신호 디코더는 제2 중간 스펙트럼 값들을 획득하도록 제1 중간 스펙트럼 값들에 시간적 노이즈 성형을 수행하는 시간적 노이즈 성형 유닛(720)을 포함한다. 더 나아가, 오디오 신호 디코더는 제1 중간 스펙트럼 값들 및 제2 중간 스펙트럼 값들에 의존하는 시간적 노이즈 성형의 예측 이득을 계산하는 예측 이득 계산부(730)를 포함한다. 또한, 오디오 신호 디코더는 현재 오디오 프레임이 수신되지 않거나 현재 오디오 프레임에 오류가 있을 때, 스펙트럼 대체값들을 생성하는 상술한 실시예들 중 하나에 따른 장치(740)를 포함한다. 더 나아가, 오디오 신호 디코더는, 만약 예측 이득이 임계값보다 크거나 같으면, 스펙트럼 대체값들을 생성하는 장치(740)의 버퍼 유닛(745)에 제1 중간 스펙트럼 값들을 저장하거나, 만약 예측 이득이 임계값보다 작으면, 스펙트럼 대체값들을 생성하는 장치(740)의 버퍼 유닛(745)에 제2 중간 스펙트럼 값들을 저장하는, 값 선택부(750)를 포함한다.
임계값은, 예를 들어, 미리 정의된 값일 수 있다. 예컨대, 임계값은 오디오 신호 디코더에서 미리 정의될 수 있다.
다른 실시예에 따르면, 은닉은 제1 디코딩 단계 바로 이후에 그리고 노이즈-필링(noise-filling), 글로벌 이득 및/또는 TNS가 수행되지 이전에 스펙트럼 데이터에 수행될 수 있다.
이와 같은 실시예가 도 8에 도시된다. 도 8은 추가적인 실시예에 따른 디코더를 나타낸다. 디코더는 제1 디코딩 모듈(810)을 포함한다. 제1 디코딩 모듈(810)은 수신된 에러-프리 오디오 프레임에 기반하는 생성된 스펙트럼 값들을 생성할 수 있다. 상기 생성된 스펙트럼 값들은 스펙트럼 대체값들을 생성하기 위한 장치(820)의 버퍼 유닛에 저장된다. 게다가, 상기 생성된 스펙트럼 값들은, TNS를 수행, 노이즈-필링을 적용 및/또는 디코딩된 오디오 신호의 스펙트럼 오디오 값들을 획득하도록 글로벌 이득을 적용함에 의해 상기 생성된 스펙트럼 값들을 처리하는, 처리 모듈(830)로 입력된다. 만약 현재 프레임이 누락하거나 현재 오디오 프레임에 오류가 있으면, 스펙트럼 대체값들을 생성하는 장치(820)는 스펙트럼 대체값들 생성하여 처리 모듈(830)로 그들을 공급한다.
도 8에 나타나는 실시예에 따르면, 디코딩 모듈 또는 처리 모듈은 은닉의 경우에 일부 또는 전부의 단계에서 수행된다.
스펙트럼 값들은, 예컨대, 마지막 좋은 프레임으로부터, 그들의 부호를 랜덤하게 플립핑(flipping)함에 의해 약간 수정된다. 추가 단계에서, 노이즈-필링이 랜덤 노이즈에 기반하여 0으로 양자화된 스펙트럼 빈들(bins)에 수행된다. 다른 단계에서, 노이즈 팩터는 이전에 수신된 에러-프리 프레임과 비교하여 약간 조정된다.
추가 단계에서, 스펙트럼 노이즈-형성은 주파수-도메인에서 스펙트럼 엔빌로프(envelope)가 가중된 LPC-coded(LPC=Linear Predictive Coding)를 적용함에 의해 성취된다. 예를 들어, 마지막 수신된 에러-프리 프레임의 LPC 계수들이 사용될 수 있다. 다른 실시에에서, 평균된 LPC-계수들이 사용될 수 있다. 예를 들어, 마지막 세 개 수신된 에러-프리 프레임들의 고려된 LPC 계수의 마지막 세 개 값들의 평균이 필터의 각 LPC 계수를 위해 생성될 수 있고, 평균된 LPC 계수들이 적용될 수 있다.
다음 단계에서, 페이드 아웃이 이러한 스펙트럼 값들에 적용될 수 있다. 페이드 아웃은 연속적으로 누락하거나 오류가 있는 프레임들의 개수 및 이전 LP 필터의 안정성에 의존할 수 있다. 게다가, 예측 이득 정보는 페이드 아웃에 영향을 미치도록 사용될 수 있다. 예측 이득이 높을수록, 페이드 아웃이 더 빨라질 수 있다. 도 8의 실시예는 도 6의 실시예보다 약간 더 복잡하나, 더 좋은 오디오 품질을 제공한다.
비록 몇몇 측면들이 장치의 맥락에서 설명되었으나, 이러한 측면은, 블록 또는 장치가 방법 단계 또는 방법 단계의 특징에 상응하여, 상응하는 방법의 설명을 또한 나타냄은 명백하다. 유사하게, 방법 단계의 맥락에서 설명된 측면들은 또한 상응하는 블록 또는 아이템 또는 상응하는 장치의 특징의 설명을 나타낸다.
어떤 구현 요구에 따라, 본 발명의 실시예는 하드웨어 또는 소프트웨어에서 구현될 수 있다. 구현은 각각의 방법이 수행되도록 하는 프로그램 가능한 컴퓨터 시스템을 가지고 협업(또는 협업할 수 있는)되고, 전자적으로 읽을 수 있는 제어 신호를 저장하는, 디지털 저장 매체, 예를 들어 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 플래쉬 메모리를 이용하여 수행될 수 있다.
본 발명에 따른 일부 실시예들은 전자적으로 읽을 수 있는 제어 신호들을 가진 데이터 캐리어(carrier)를 포함하고, 여기서 설명된 방법들 중 하나가 수행되도록, 프로그램 가능한 컴퓨터 시스템을 가지고 협업 가능하다.
일반적으로, 본 발명의 실시예들은 프로그램 코드를 가진 컴퓨터 프로그램 제품으로 구현될 수 있고, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터에서 수행될 때 방법들의 하나를 수행하도록 동작한다. 프로그램 코드는 예를 들어 기계 판독 가능한 캐리어에 저장될 수 있다.
다른 실시예들은, 여기서 설명된 방법들의 하나를 수행하며, 기계 판독 가능한 캐리어 또는 비일시적 저장 매체에 저장되는 컴퓨터 프로그램를 포함한다.
다시 말해, 발명 방법 실시예는, 컴퓨터 프로그램이 컴퓨터에서 수행될 때, 여기서 설명된 방법의 하나를 수행하는 프로그램 코드를 가진 컴퓨터 프로그램이다.
발명 방법들의 다른 실시예는, 거기에 기록되고, 여기서 설명된 방법들의 하나를 수행하는 컴퓨터 프로그램을 포함하는, 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터로 판독 가능한 매체)이다.
발명 방법의 다른 실시예는, 데이터 스트림이나, 여기서 설명되는 방법들의 하나를 수행하도록 하는 컴퓨터 프로그램을 나타내는 신호들의 시퀀스이다. 데이터 스트림이나 신호들의 시퀀스는 예를 들어, 인터넷 또는 라디오 채널과 같은데이터 통신 연결을 통하여 전달되도록 구성된다.
다른 실시예는 여기서 설명된 방법들의 하나를 수행하도록 구성된, 처리 수단들, 예를 들어 컴퓨터 또는 프래그램 가능한 로직 장치를 포함한다.
다른 실시예는 여기서 설명된 방법들의 하나를 수행하는 컴퓨터 프로그램이 설치되어진 컴퓨터를 포함한다.
일부 실시예들에서, 프로그램 가능한 로직 장치(예를 들어, 필드 프로그램 가능한 게이트 어레이)는 여기서 설명된 방법들의 기능들의 일부 또는 전부를 수행하도록 사용될 수 있다. 일부 실시예들에서, 필드 프로그램 가능한 게이트 어레이는 여기서 설명된 방법들의 하나를 수행하기 위하여 마이크로프로세서를 가지고 협업할 수 있다. 일반적으로, 방법들은 바람직하게는 어떤 하드웨어 장치에 의해 수행된다.
상술한 실시예들은 본 발명의 원리들을 위한 실례가 된다. 여기서 설명된 세부 사항들과 배치들의 수정 및 변경은 본 발명 기술 분야에서 통상적인 지식을 가진 다른 사람에게 명백하다. 여기에 실시예들의 서술과 설명의 방법으로 제시된 특정 세부 사항에 의해서가 아니라, 단지 바로 다음의 특허 청구의 범위들에 의해 제한되는 것을 의도한다.
문헌:
[1]: 3GPP, "Audio codec processing functions; Extended Adaptive Multi-Rate Wideband (AMR-WB+) codec; Transcoding functions", 2009, 3GPP TS 26.290.
[2]: USAC codec (Unified Speech and Audio Codec), ISO/IEC CD 23003-3 dated September 24, 2010
[3]: 3GPP, "Speech codec speech processing functions; Adaptive Multi-Rate Wideband (AMR-WB) speech codec; Transcoding functions", 2009, V9.0.0, 3GPP TS 26.190.
[4]: ISO/IEC 14496-3:2005: Information technology Coding of audio-visual objects Part 3: Audio, 2005
[5]: ITU-T G.718 (06-2008) specification

Claims (16)

  1. 이전에 수신된 에러-프리 오디오 프레임에 관한 이전 스펙트럼 값들을 저장하는 버퍼 유닛(110); 및
    현재 오디오 프레임이 수신되지 않거나 상기 현재 오디오 프레임에 오류가 있을 때 스펙트럼 대체값들을 생성하는 은닉(concealment) 프레임 생성부(120)을 포함하고,
    상기 이전에 수신된 에러-프리 오디오 프레임은 필터 정보를 포함하고, 상기 은닉 프레임 생성부(120)는 상기 이전 스펙트럼 값들에 기반하고 필터 안정성 값에 기반하여 상기 스펙트럼 대체값들을 생성하도록 구성되며, 상기 필터 안정성 값은 예측 필터의 안정성을 나타내고, 상기 필터 안정성 값은 상기 필터 정보에 의존하는, 오디오 신호에 대한 스펙트럼 대체값들을 생성하는 장치(100).
  2. 청구항 1에 있어서,
    상기 은닉 프레임 생성부(120)는,
    상기 이전 스펙트럼 값들의 부호(sign)를 랜덤하게 플립핑(flipping)함에 의해 상기 스펙트럼 대체값들을 생성하도록 구성되는, 오디오 신호에 대한 스펙트럼 대체값들을 생성하는 장치(100).
  3. 청구항 1에 있어서,
    상기 은닉 프레임 생성부(120)는,
    상기 필터 안정성 값이 제1 값을 가질 때 제1 이득 팩터에 상기 이전 스펙트럼 값들의 각각을 곱함으로써, 상기 필터 안정성 값이 상기 제1 값보다 작은 제2 값을 가질 때 상기 제1 이득 팩터보다 작은 제2 이득 팩터에 상기 이전 스펙트럼 값들의 각각을 곱함으로써, 상기 스펙트럼 대체값들을 생성하도록 구성되는, 오디오 신호에 대한 스펙트럼 대체값들을 생성하는 장치(100).
  4. 청구항 1에 있어서,
    상기 은닉 프레임 생성부(120)는 상기 필터 안정성 값에 기반하여 상기 스펙트럼 대체값들을 생성하며,
    상기 이전에 수신된 에러-프리 오디오 프레임은 상기 예측 필터의 제1 예측 필터 계수들을 포함하고, 상기 이전에 수신된 에러-프리 오디오 프레임의 선행자(predecessor) 프레임은 제2 예측 필터 계수들을 포함하며, 상기 필터 안정성 값은 상기 제1 예측 필터 계수들 및 제2 예측 필터 계수들에 의존하도록 구성되는, 오디오 신호에 대한 스펙트럼 대체값들을 생성하는 장치(100).
  5. 청구항 4에 있어서,
    상기 은닉 프레임 생성부(120)는,
    상기 이전에 수신된 에러-프리 오디오 프레임의 상기 제1 예측 필터 계수들에 기반하고 상기 이전에 수신된 에러-프리 오디오 프레임의 상기 선행자 프레임의 상기 제2 예측 필터 계수들에 기반하여 상기 필터 안정성 값을 결정하도록 구성되는, 오디오 신호에 대한 스펙트럼 대체값들을 생성하는 장치(100).
  6. 청구항 4에 있어서,
    상기 은닉 프레임 생성부(120)는 상기 필터 안정성 값에 기반하여 상기 스펙트럼 대체값들을 생성하며,
    상기 필터 안정성 값은 거리 측정 LSFdist에 의존하고, 상기 거리 측정 LSFdist은 다음의 공식에 의해 정의되고,
    Figure 112015025205992-pct00023

    Figure 112015025205992-pct00024
    는 상기 이전에 수신된 에러-프리 오디오 프레임의 상기 제1 예측 필터 계수들의 전체 개수를 명시하고,
    Figure 112015025205992-pct00025
    는 또한 상기 이전에 수신된 에러-프리 오디오 프레임의 상기 선행자 프레임의 상기 제2 예측 필터 계수들의 전체 개수를 명시하며, 상기
    Figure 112015025205992-pct00026
    은 상기 제1 예측 필터 계수들 중 i번째 필터 계수를 명시하고, 상기
    Figure 112015025205992-pct00027
    는 상기 제2 예측 필터 계수들 중 i번째 필터 계수를 명시하도록 구성되는, 오디오 신호에 대한 스펙트럼 대체값들을 생성하는 장치(100).
  7. 청구항 1에 있어서,
    상기 은닉 프레임 생성부(120)는,
    추가적으로 상기 이전에 수신된 에러-프리 오디오 프레임에 관한 프레임 클래스 정보에 기반하여 상기 스펙트럼 대체값들을 생성하도록 구성되는, 오디오 신호에 대한 스펙트럼 대체값들을 생성하는 장치(100).
  8. 청구항 7에 있어서,
    상기 은닉 프레임 생성부(120)는 상기 프레임 클래스 정보에 기반하여 상기 스펙트럼 대체값들을 생성하도록 구성되고,
    상기 프레임 클래스 정보는 상기 이전에 수신된 에러-프리 오디오 프레임이 "인위적인 온셋(artificial onset)", "온셋(onset)", "유성음의 전이(voiced transition)", "무성음의 전이(unvoiced transition)", "무성음(unvoiced)" 또는 "유성음(voiced)"로써 분류되는, 오디오 신호에 대한 스펙트럼 대체값들을 생성하는 장치(100).
  9. 청구항 1에 있어서,
    상기 은닉 프레임 생성부(120)는,
    마지막 에러-프리 오디오 프레임이 수신기에 도달한 이후로, 추가적으로 상기 수신기에 도달하지 않거나 오류가 있는 연속적인 프레임들의 개수에 기반하여 상기 스펙트럼 대체값들을 생성하고,
    상기 마지막 에러-프리 오디오 프레임이 상기 수신기에 도달한 이후에는 상기 수신기에 다른 에러-프리 오디오 프레임들이 도달하지 않도록 구성되는, 오디오 신호에 대한 스펙트럼 대체값들을 생성하는 장치(100).
  10. 청구항 9에 있어서,
    상기 은닉 프레임 생성부(120)는 상기 필터 안정성 값 및 상기 수신기에 도달하지 않거나 오류가 있는 연속적인 프레임들의 개수에 기반하여 페이드 아웃 팩터를 산출하고,
    상기 은닉 프레임 생성부(120)는 상기 페이드 아웃 팩터에 상기 이전 스펙트럼 값들 중 적어도 일부를 곱하거나, 중간값들의 그룹 중 적어도 일부 값들을 곱하여 상기 스펙트럼 대체값들을 생성하며, 상기 중간값들의 각각은 상기 이전 스펙트럼 값들의 적어도 하나에 의존하도록 구성되는, 오디오 신호에 대한 스펙트럼 대체값들을 생성하는 장치(100).
  11. 청구항 1에 있어서,
    상기 은닉 프레임 생성부(120)는,
    상기 이전 스펙트럼 값들, 상기 필터 안전성 값 또한 시간적 노이즈 성형(shaping)의 예측 이득에 기반하여 상기 스펙트럼 대체값들을 생성하도록 구성되는, 오디오 신호에 대한 스펙트럼 대체값들을 생성하는 장치(100).
  12. 스펙트럼 오디오 신호값들을 디코딩하는 장치(610); 및
    청구항 1에 따른 스펙트럼 대체값들을 생성하는 장치(620)를 포함하고,
    상기 스펙트럼 오디오 신호값들을 디코딩하는 장치(610)는 이전에 수신된 에러-프리 오디오 프레임에 기반하여 오디오 신호의 스펙트럼 값들을 디코딩하도록 구성되고, 상기 스펙트럼 오디오 신호값을 디코딩하는 장치(610)는 스펙트럼 대체값들을 생성하는 장치(620)의 버퍼 유닛에 상기 오디오 신호의 상기 스펙트럼 값들을 저장하도록 구성되며,
    상기 스펙트럼 대체값들을 생성하는 장치(620)는 현재 오디오 프레임이 수신되지 않거나 상기 현재 오디오 프레임에 오류가 있을 때, 상기 버퍼 유닛에 저장된 상기 스펙트럼 값들에 기반하여 상기 스펙트럼 대체값들을 생성하는, 오디오 신호 디코더.
  13. 수신된 에러-프리 오디오 프레임에 기반하여 제1 중간 스펙트럼 값들을 생성하는 디코딩 유닛(710);
    제2 중간 스펙트럼 값들을 획득하도록 상기 제1 중간 스펙트럼 값들에 시간적 노이즈 성형(shaping)을 수행하는 시간적 노이즈 성형 유닛(720);
    상기 제1 중간 스펙트럼 값들 및 상기 제2 중간 스펙트럼 값들에 따른 시간적 노이즈 성형의 예측 이득을 산출하는 예측 이득 산출부(730);
    현재 오디오 프레임이 수신되지 않거나 상기 현재 오디오 프레임에 오류가 있을 때 스펙트럼 대체값들을 생성하는 청구항 1에 따른 장치(740); 및
    상기 예측 이득이 임계값보다 크거나 같은 경우 스펙트럼 대체값들을 생성하는 장치(740)의 버퍼 유닛(745)에 상기 제1 중간 스펙트럼 값들을 저장하거나, 상기 예측 이득이 상기 임계값보다 작은 경우 스펙트럼 대체값들을 생성하는 상기 장치의 버퍼 유닛에 상기 제2 중간 스펙트럼 값들을 저장하는 값 선택부(750)를 포함하도록 구성되는, 오디오 신호 디코더.
  14. 수신된 에러-프리 오디오 프레임에 기반하여 스펙트럼 값들을 생성하는 제1 디코딩 모듈(810);
    청구항 1에 따라 스펙트럼 대체값들을 생성하는 장치(820); 및
    디코딩된 오디오 신호의 스펙트럼 오디오 값들을 획득하도록, 시간적 노이즈 성형(shaping)을 수행하고, 노이즈-필링(noise-filling) 적용 또는 글로벌 이득을 적용함에 의해 상기 스펙트럼 값들을 처리하는 처리 모듈(830)을 포함하고,
    상기 스펙트럼 대체값들을 생성하는 장치(820)는 현재 프레임이 수신되지 않거나 상기 현재 오디오 프레임에 오류가 있을 때, 스펙트럼 대체값들을 생성하여 상기 처리 모듈(830)로 제공하도록 구성되는, 오디오 신호 디코더.
  15. 이전에 수신된 에러-프리 오디오 프레임에 관한 이전 스펙트럼 값들을 저장하는 단계; 및
    현재 오디오 프레임이 수신되지 않거나 상기 현재 오디오 프레임에 오류가 있을 때 스펙트럼 대체값들을 생성하는 단계를 포함하며,
    상기 이전에 수신된 에러-프리 오디오 프레임은 필터 정보를 포함하고, 상기 스펙트럼 대체값은 상기 이전 스펙트럼 값들과 필터 안정성 값에 기반하여 생성되며, 상기 필터 안정성 값은 상기 필터 정보에 의해 정의되는 예측 필터의 안정성을 나타내고, 상기 필터 안정성 값은 상기 필터 정보에 의존하는, 오디오 신호에 대한 스펙트럼 대체값들을 생성하는 방법.
  16. 컴퓨터 프로그램이 컴퓨터 또는 신호 처리기에 의해 수행될 때, 청구항 15의 방법을 구현하는 컴퓨터 프로그램을 저장하는 컴퓨터로 판독 가능한 매체.
KR1020137023692A 2011-02-14 2012-02-13 저-지연 통합 스피치 및 오디오 코딩에서 에러 은닉을 위한 장치 및 방법 KR101551046B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161442632P 2011-02-14 2011-02-14
US61/442,632 2011-02-14
PCT/EP2012/052395 WO2012110447A1 (en) 2011-02-14 2012-02-13 Apparatus and method for error concealment in low-delay unified speech and audio coding (usac)

Publications (2)

Publication Number Publication Date
KR20140005277A KR20140005277A (ko) 2014-01-14
KR101551046B1 true KR101551046B1 (ko) 2015-09-07

Family

ID=71943602

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020137023692A KR101551046B1 (ko) 2011-02-14 2012-02-13 저-지연 통합 스피치 및 오디오 코딩에서 에러 은닉을 위한 장치 및 방법

Country Status (19)

Country Link
US (1) US9384739B2 (ko)
EP (1) EP2661745B1 (ko)
JP (1) JP5849106B2 (ko)
KR (1) KR101551046B1 (ko)
CN (1) CN103620672B (ko)
AR (1) AR085218A1 (ko)
AU (1) AU2012217215B2 (ko)
BR (1) BR112013020324B8 (ko)
CA (1) CA2827000C (ko)
ES (1) ES2539174T3 (ko)
HK (1) HK1191130A1 (ko)
MX (1) MX2013009301A (ko)
MY (1) MY167853A (ko)
PL (1) PL2661745T3 (ko)
RU (1) RU2630390C2 (ko)
SG (1) SG192734A1 (ko)
TW (1) TWI484479B (ko)
WO (1) WO2012110447A1 (ko)
ZA (1) ZA201306499B (ko)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI585747B (zh) 2011-10-21 2017-06-01 三星電子股份有限公司 訊框錯誤修補方法與裝置、音訊解碼方法與裝置
US9741350B2 (en) * 2013-02-08 2017-08-22 Qualcomm Incorporated Systems and methods of performing gain control
EP3011558B1 (en) 2013-06-21 2017-07-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an adaptive spectral shape of comfort noise
CN108364657B (zh) 2013-07-16 2020-10-30 超清编解码有限公司 处理丢失帧的方法和解码器
WO2015063227A1 (en) * 2013-10-31 2015-05-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio bandwidth extension by insertion of temporal pre-shaped noise in frequency domain
PL3063759T3 (pl) * 2013-10-31 2018-06-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekoder audio i sposób dostarczania zdekodowanej informacji audio z wykorzystaniem ukrywania błędów modyfikując sygnał pobudzenia w dziedzinie czasu
PL3063760T3 (pl) 2013-10-31 2018-05-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekoder audio i sposób dostarczania zdekodowanej informacji audio z wykorzystaniem ukrywania błędów na bazie sygnału pobudzenia w dziedzinie czasu
EP2922056A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation
EP2922054A1 (en) * 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation
EP2922055A1 (en) * 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information
CN111192595B (zh) * 2014-05-15 2023-09-22 瑞典爱立信有限公司 音频信号分类和编码
NO2780522T3 (ko) * 2014-05-15 2018-06-09
CN105225666B (zh) * 2014-06-25 2016-12-28 华为技术有限公司 处理丢失帧的方法和装置
EP2980790A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for comfort noise generation mode selection
EP2980792A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an enhanced signal using independent noise-filling
CN110444219B (zh) 2014-07-28 2023-06-13 弗劳恩霍夫应用研究促进协会 选择第一编码演算法或第二编码演算法的装置与方法
RU2714365C1 (ru) * 2016-03-07 2020-02-14 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Способ гибридного маскирования: комбинированное маскирование потери пакетов в частотной и временной области в аудиокодеках
MX2018010756A (es) 2016-03-07 2019-01-14 Fraunhofer Ges Forschung Unidad de ocultamiento de error, decodificador de audio, y método relacionado y programa de computadora que usa características de una representación decodificada de una trama de audio decodificada apropiadamente.
CA3016949C (en) * 2016-03-07 2021-08-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Error concealment unit, audio decoder, and related method and computer program fading out a concealed audio frame out according to different damping factors for different frequency bands
KR20180037852A (ko) * 2016-10-05 2018-04-13 삼성전자주식회사 영상 처리 장치 및 그 제어방법
EP3382700A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using a transient location detection
KR20200097594A (ko) 2019-02-08 2020-08-19 김승현 유연하고 자유롭고 집중적인 집진기
WO2020165265A1 (en) * 2019-02-13 2020-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and decoding method for lc3 concealment including full frame loss concealment and partial frame loss concealment
WO2020164751A1 (en) * 2019-02-13 2020-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and decoding method for lc3 concealment including full frame loss concealment and partial frame loss concealment
CN112992160B (zh) * 2021-05-08 2021-07-27 北京百瑞互联技术有限公司 一种音频错误隐藏方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007073604A1 (en) 2005-12-28 2007-07-05 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs

Family Cites Families (187)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2483322C (en) * 1991-06-11 2008-09-23 Qualcomm Incorporated Error masking in a variable rate vocoder
US5408580A (en) 1992-09-21 1995-04-18 Aware, Inc. Audio compression system employing multi-rate signal analysis
SE501340C2 (sv) * 1993-06-11 1995-01-23 Ericsson Telefon Ab L M Döljande av transmissionsfel i en talavkodare
SE502244C2 (sv) * 1993-06-11 1995-09-25 Ericsson Telefon Ab L M Sätt och anordning för avkodning av ljudsignaler i ett system för mobilradiokommunikation
BE1007617A3 (nl) 1993-10-11 1995-08-22 Philips Electronics Nv Transmissiesysteem met gebruik van verschillende codeerprincipes.
US5657422A (en) 1994-01-28 1997-08-12 Lucent Technologies Inc. Voice activity detection driven noise remediator
US5784532A (en) 1994-02-16 1998-07-21 Qualcomm Incorporated Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system
US5684920A (en) 1994-03-17 1997-11-04 Nippon Telegraph And Telephone Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein
US5568588A (en) 1994-04-29 1996-10-22 Audiocodes Ltd. Multi-pulse analysis speech processing System and method
CN1090409C (zh) 1994-10-06 2002-09-04 皇家菲利浦电子有限公司 采用不同编码原理的传送系统
US5537510A (en) 1994-12-30 1996-07-16 Daewoo Electronics Co., Ltd. Adaptive digital audio encoding apparatus and a bit allocation method thereof
SE506379C3 (sv) 1995-03-22 1998-01-19 Ericsson Telefon Ab L M Lpc-talkodare med kombinerad excitation
JP3317470B2 (ja) 1995-03-28 2002-08-26 日本電信電話株式会社 音響信号符号化方法、音響信号復号化方法
US5659622A (en) 1995-11-13 1997-08-19 Motorola, Inc. Method and apparatus for suppressing noise in a communication system
US5848391A (en) 1996-07-11 1998-12-08 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Method subband of coding and decoding audio signals using variable length windows
JP3259759B2 (ja) 1996-07-22 2002-02-25 日本電気株式会社 音声信号伝送方法及び音声符号復号化システム
JPH10124092A (ja) 1996-10-23 1998-05-15 Sony Corp 音声符号化方法及び装置、並びに可聴信号符号化方法及び装置
US5960389A (en) 1996-11-15 1999-09-28 Nokia Mobile Phones Limited Methods for generating comfort noise during discontinuous transmission
JPH10214100A (ja) 1997-01-31 1998-08-11 Sony Corp 音声合成方法
US6134518A (en) 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
JP3223966B2 (ja) 1997-07-25 2001-10-29 日本電気株式会社 音声符号化/復号化装置
US6070137A (en) 1998-01-07 2000-05-30 Ericsson Inc. Integrated frequency-domain voice coding using an adaptive spectral enhancement filter
DE69926821T2 (de) 1998-01-22 2007-12-06 Deutsche Telekom Ag Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen
GB9811019D0 (en) 1998-05-21 1998-07-22 Univ Surrey Speech coders
US6173257B1 (en) 1998-08-24 2001-01-09 Conexant Systems, Inc Completed fixed codebook for speech encoder
US6439967B2 (en) * 1998-09-01 2002-08-27 Micron Technology, Inc. Microelectronic substrate assembly planarizing machines and methods of mechanical and chemical-mechanical planarization of microelectronic substrate assemblies
SE521225C2 (sv) 1998-09-16 2003-10-14 Ericsson Telefon Ab L M Förfarande och anordning för CELP-kodning/avkodning
US6317117B1 (en) 1998-09-23 2001-11-13 Eugene Goff User interface for the control of an audio spectrum filter processor
US7272556B1 (en) 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US7124079B1 (en) 1998-11-23 2006-10-17 Telefonaktiebolaget Lm Ericsson (Publ) Speech coding with comfort noise variability feature for increased fidelity
FI114833B (fi) 1999-01-08 2004-12-31 Nokia Corp Menetelmä, puhekooderi ja matkaviestin puheenkoodauskehysten muodostamiseksi
DE19921122C1 (de) * 1999-05-07 2001-01-25 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Verschleiern eines Fehlers in einem codierten Audiosignal und Verfahren und Vorrichtung zum Decodieren eines codierten Audiosignals
AU5032000A (en) 1999-06-07 2000-12-28 Ericsson Inc. Methods and apparatus for generating comfort noise using parametric noise model statistics
JP4464484B2 (ja) 1999-06-15 2010-05-19 パナソニック株式会社 雑音信号符号化装置および音声信号符号化装置
US6236960B1 (en) 1999-08-06 2001-05-22 Motorola, Inc. Factorial packing method and apparatus for information coding
US6636829B1 (en) * 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames
ATE341074T1 (de) 2000-02-29 2006-10-15 Qualcomm Inc Multimodaler mischbereich-sprachkodierer mit geschlossener regelschleife
US6757654B1 (en) * 2000-05-11 2004-06-29 Telefonaktiebolaget Lm Ericsson Forward error correction in speech coding
JP2002118517A (ja) 2000-07-31 2002-04-19 Sony Corp 直交変換装置及び方法、逆直交変換装置及び方法、変換符号化装置及び方法、並びに復号装置及び方法
FR2813722B1 (fr) * 2000-09-05 2003-01-24 France Telecom Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif
US6847929B2 (en) 2000-10-12 2005-01-25 Texas Instruments Incorporated Algebraic codebook system and method
CA2327041A1 (en) 2000-11-22 2002-05-22 Voiceage Corporation A method for indexing pulse positions and signs in algebraic codebooks for efficient coding of wideband signals
US7901873B2 (en) 2001-04-23 2011-03-08 Tcp Innovations Limited Methods for the diagnosis and treatment of bone disorders
US7206739B2 (en) 2001-05-23 2007-04-17 Samsung Electronics Co., Ltd. Excitation codebook search method in a speech coding system
US20020184009A1 (en) 2001-05-31 2002-12-05 Heikkinen Ari P. Method and apparatus for improved voicing determination in speech signals containing high levels of jitter
US20030120484A1 (en) 2001-06-12 2003-06-26 David Wong Method and system for generating colored comfort noise in the absence of silence insertion description packets
US6941263B2 (en) 2001-06-29 2005-09-06 Microsoft Corporation Frequency domain postfiltering for quality enhancement of coded speech
US6879955B2 (en) 2001-06-29 2005-04-12 Microsoft Corporation Signal modification based on continuous time warping for low bit rate CELP coding
US7711563B2 (en) * 2001-08-17 2010-05-04 Broadcom Corporation Method and system for frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
DE10140507A1 (de) 2001-08-17 2003-02-27 Philips Corp Intellectual Pty Verfahren für die algebraische Codebook-Suche eines Sprachsignalkodierers
KR100438175B1 (ko) 2001-10-23 2004-07-01 엘지전자 주식회사 코드북 검색방법
CA2365203A1 (en) 2001-12-14 2003-06-14 Voiceage Corporation A signal modification method for efficient coding of speech signals
US6646332B2 (en) * 2002-01-18 2003-11-11 Terence Quintin Collier Semiconductor package device
CA2388352A1 (en) 2002-05-31 2003-11-30 Voiceage Corporation A method and device for frequency-selective pitch enhancement of synthesized speed
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
CA2388358A1 (en) 2002-05-31 2003-11-30 Voiceage Corporation A method and device for multi-rate lattice vector quantization
US7302387B2 (en) 2002-06-04 2007-11-27 Texas Instruments Incorporated Modification of fixed codebook search in G.729 Annex E audio coding
ES2259158T3 (es) 2002-09-19 2006-09-16 Matsushita Electric Industrial Co., Ltd. Metodo y aparato decodificador audio.
EP1550108A2 (en) 2002-10-11 2005-07-06 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
US7343283B2 (en) 2002-10-23 2008-03-11 Motorola, Inc. Method and apparatus for coding a noise-suppressed audio signal
US7363218B2 (en) 2002-10-25 2008-04-22 Dilithium Networks Pty. Ltd. Method and apparatus for fast CELP parameter mapping
KR100463419B1 (ko) 2002-11-11 2004-12-23 한국전자통신연구원 적은 복잡도를 가진 고정 코드북 검색방법 및 장치
KR100465316B1 (ko) 2002-11-18 2005-01-13 한국전자통신연구원 음성 부호화기 및 이를 이용한 음성 부호화 방법
KR20040058855A (ko) 2002-12-27 2004-07-05 엘지전자 주식회사 음성 변조 장치 및 방법
US7249014B2 (en) 2003-03-13 2007-07-24 Intel Corporation Apparatus, methods and articles incorporating a fast algebraic codebook search technique
US20050021338A1 (en) 2003-03-17 2005-01-27 Dan Graboi Recognition device and system
WO2004090870A1 (ja) 2003-04-04 2004-10-21 Kabushiki Kaisha Toshiba 広帯域音声を符号化または復号化するための方法及び装置
US7318035B2 (en) 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
WO2005001814A1 (en) 2003-06-30 2005-01-06 Koninklijke Philips Electronics N.V. Improving quality of decoded audio by adding noise
US6987591B2 (en) * 2003-07-17 2006-01-17 Her Majesty The Queen In Right Of Canada, As Represented By The Minister Of Industry Through The Communications Research Centre Canada Volume hologram
US20050091041A1 (en) 2003-10-23 2005-04-28 Nokia Corporation Method and system for speech coding
US20050091044A1 (en) 2003-10-23 2005-04-28 Nokia Corporation Method and system for pitch contour quantization in audio coding
JP4966013B2 (ja) 2003-10-30 2012-07-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ信号のエンコードまたはデコード
SE527669C2 (sv) * 2003-12-19 2006-05-09 Ericsson Telefon Ab L M Förbättrad felmaskering i frekvensdomänen
DE102004007200B3 (de) * 2004-02-13 2005-08-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierung
CA2457988A1 (en) 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
FI118835B (fi) 2004-02-23 2008-03-31 Nokia Corp Koodausmallin valinta
FI118834B (fi) 2004-02-23 2008-03-31 Nokia Corp Audiosignaalien luokittelu
JP4744438B2 (ja) * 2004-03-05 2011-08-10 パナソニック株式会社 エラー隠蔽装置およびエラー隠蔽方法
EP1852851A1 (en) 2004-04-01 2007-11-07 Beijing Media Works Co., Ltd An enhanced audio encoding/decoding device and method
GB0408856D0 (en) 2004-04-21 2004-05-26 Nokia Corp Signal encoding
AU2004319556A1 (en) 2004-05-17 2005-11-24 Nokia Corporation Audio encoding with different coding frame lengths
US7649988B2 (en) 2004-06-15 2010-01-19 Acoustic Technologies, Inc. Comfort noise generator using modified Doblinger noise estimate
US8160274B2 (en) 2006-02-07 2012-04-17 Bongiovi Acoustics Llc. System and method for digital signal processing
US7630902B2 (en) 2004-09-17 2009-12-08 Digital Rise Technology Co., Ltd. Apparatus and methods for digital audio coding using codebook application ranges
KR100656788B1 (ko) 2004-11-26 2006-12-12 한국전자통신연구원 비트율 신축성을 갖는 코드벡터 생성 방법 및 그를 이용한 광대역 보코더
TWI253057B (en) 2004-12-27 2006-04-11 Quanta Comp Inc Search system and method thereof for searching code-vector of speech signal in speech encoder
US7519535B2 (en) 2005-01-31 2009-04-14 Qualcomm Incorporated Frame erasure concealment in voice communications
AU2006208530B2 (en) 2005-01-31 2010-10-28 Microsoft Technology Licensing, Llc Method for generating concealment frames in communication system
US20070147518A1 (en) 2005-02-18 2007-06-28 Bruno Bessette Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
US8155965B2 (en) 2005-03-11 2012-04-10 Qualcomm Incorporated Time warping frames inside the vocoder by modifying the residual
MX2007012185A (es) 2005-04-01 2007-12-11 Qualcomm Inc Metodo y aparato para cuantificacion de vector de una representacion de envoltura espectral.
US8917874B2 (en) 2005-05-26 2014-12-23 Lg Electronics Inc. Method and apparatus for decoding an audio signal
US7707034B2 (en) 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
RU2296377C2 (ru) 2005-06-14 2007-03-27 Михаил Николаевич Гусев Способ анализа и синтеза речи
PL1897085T3 (pl) 2005-06-18 2017-10-31 Nokia Technologies Oy System i sposób adaptacyjnej transmisji parametrów szumu łagodzącego w czasie nieciągłej transmisji mowy
KR100851970B1 (ko) 2005-07-15 2008-08-12 삼성전자주식회사 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치
US7610197B2 (en) 2005-08-31 2009-10-27 Motorola, Inc. Method and apparatus for comfort noise generation in speech communication systems
RU2312405C2 (ru) 2005-09-13 2007-12-10 Михаил Николаевич Гусев Способ осуществления машинной оценки качества звуковых сигналов
US7953605B2 (en) * 2005-10-07 2011-05-31 Deepen Sinha Method and apparatus for audio encoding and decoding using wideband psychoacoustic modeling and bandwidth extension
US7720677B2 (en) 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
US7536299B2 (en) 2005-12-19 2009-05-19 Dolby Laboratories Licensing Corporation Correlating and decorrelating transforms for multiple description coding systems
WO2007080211A1 (en) 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals
KR20080101873A (ko) 2006-01-18 2008-11-21 연세대학교 산학협력단 부호화/복호화 장치 및 방법
CN101371297A (zh) 2006-01-18 2009-02-18 Lg电子株式会社 用于编码和解码信号的设备和方法
US8032369B2 (en) 2006-01-20 2011-10-04 Qualcomm Incorporated Arbitrary average data rates for variable rate coders
US7668304B2 (en) * 2006-01-25 2010-02-23 Avaya Inc. Display hierarchy of participants during phone call
FR2897733A1 (fr) 2006-02-20 2007-08-24 France Telecom Procede de discrimination et d'attenuation fiabilisees des echos d'un signal numerique dans un decodeur et dispositif correspondant
FR2897977A1 (fr) * 2006-02-28 2007-08-31 France Telecom Procede de limitation de gain d'excitation adaptative dans un decodeur audio
US20070253577A1 (en) 2006-05-01 2007-11-01 Himax Technologies Limited Equalizer bank with interference reduction
US7873511B2 (en) 2006-06-30 2011-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
JP4810335B2 (ja) 2006-07-06 2011-11-09 株式会社東芝 広帯域オーディオ信号符号化装置および広帯域オーディオ信号復号装置
EP2040251B1 (en) * 2006-07-12 2019-10-09 III Holdings 12, LLC Audio decoding device and audio encoding device
US8255213B2 (en) * 2006-07-12 2012-08-28 Panasonic Corporation Speech decoding apparatus, speech encoding apparatus, and lost frame concealment method
US7933770B2 (en) 2006-07-14 2011-04-26 Siemens Audiologische Technik Gmbh Method and device for coding audio data based on vector quantisation
CN101512633B (zh) 2006-07-24 2012-01-25 索尼株式会社 毛发运动合成器系统和用于毛发/皮毛流水线的优化技术
US7987089B2 (en) 2006-07-31 2011-07-26 Qualcomm Incorporated Systems and methods for modifying a zero pad region of a windowed frame of an audio signal
KR101041895B1 (ko) * 2006-08-15 2011-06-16 브로드콤 코포레이션 패킷 손실 후 디코딩된 오디오 신호의 시간 워핑
US7877253B2 (en) * 2006-10-06 2011-01-25 Qualcomm Incorporated Systems, methods, and apparatus for frame erasure recovery
DE102006049154B4 (de) 2006-10-18 2009-07-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodierung eines Informationssignals
ATE435480T1 (de) 2006-10-25 2009-07-15 Fraunhofer Ges Forschung Vorrichtung und verfahren zur erzeugung von audio-subband-werten und vorrichtung und verfahren zur erzeugung von zeit-domänen-audio-beispielen
KR20090076964A (ko) * 2006-11-10 2009-07-13 파나소닉 주식회사 파라미터 복호 장치, 파라미터 부호화 장치 및 파라미터 복호 방법
ATE547898T1 (de) 2006-12-12 2012-03-15 Fraunhofer Ges Forschung Kodierer, dekodierer und verfahren zur kodierung und dekodierung von datensegmenten zur darstellung eines zeitdomänen-datenstroms
FR2911228A1 (fr) 2007-01-05 2008-07-11 France Telecom Codage par transformee, utilisant des fenetres de ponderation et a faible retard.
KR101379263B1 (ko) 2007-01-12 2014-03-28 삼성전자주식회사 대역폭 확장 복호화 방법 및 장치
FR2911426A1 (fr) 2007-01-15 2008-07-18 France Telecom Modification d'un signal de parole
US7873064B1 (en) * 2007-02-12 2011-01-18 Marvell International Ltd. Adaptive jitter buffer-packet loss concealment
WO2008108083A1 (ja) * 2007-03-02 2008-09-12 Panasonic Corporation 音声符号化装置および音声符号化方法
JP4708446B2 (ja) 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
BRPI0808202A8 (pt) 2007-03-02 2016-11-22 Panasonic Corp Dispositivo de codificação e método de codificação.
JP2008261904A (ja) * 2007-04-10 2008-10-30 Matsushita Electric Ind Co Ltd 符号化装置、復号化装置、符号化方法および復号化方法
US8630863B2 (en) 2007-04-24 2014-01-14 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding audio/speech signal
CN101388210B (zh) 2007-09-15 2012-03-07 华为技术有限公司 编解码方法及编解码器
US9653088B2 (en) 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
KR101513028B1 (ko) 2007-07-02 2015-04-17 엘지전자 주식회사 방송 수신기 및 방송신호 처리방법
US8185381B2 (en) 2007-07-19 2012-05-22 Qualcomm Incorporated Unified filter bank for performing signal conversions
CN101110214B (zh) 2007-08-10 2011-08-17 北京理工大学 一种基于多描述格型矢量量化技术的语音编码方法
US8428957B2 (en) 2007-08-24 2013-04-23 Qualcomm Incorporated Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands
PT3550564T (pt) 2007-08-27 2020-08-18 Ericsson Telefon Ab L M Análise/síntese espectral de baixa complexidade utilizando resolução temporal selecionável
JP4886715B2 (ja) 2007-08-28 2012-02-29 日本電信電話株式会社 定常率算出装置、雑音レベル推定装置、雑音抑圧装置、それらの方法、プログラム及び記録媒体
WO2009033288A1 (en) 2007-09-11 2009-03-19 Voiceage Corporation Method and device for fast algebraic codebook search in speech and audio coding
CN100524462C (zh) * 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
US8576096B2 (en) 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
KR101373004B1 (ko) 2007-10-30 2014-03-26 삼성전자주식회사 고주파수 신호 부호화 및 복호화 장치 및 방법
CN101425292B (zh) 2007-11-02 2013-01-02 华为技术有限公司 一种音频信号的解码方法及装置
DE102007055830A1 (de) 2007-12-17 2009-06-18 Zf Friedrichshafen Ag Verfahren und Vorrichtung zum Betrieb eines Hybridantriebes eines Fahrzeuges
CN101483043A (zh) 2008-01-07 2009-07-15 中兴通讯股份有限公司 基于分类和排列组合的码本索引编码方法
CN101488344B (zh) 2008-01-16 2011-09-21 华为技术有限公司 一种量化噪声泄漏控制方法及装置
DE102008015702B4 (de) 2008-01-31 2010-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals
US8000487B2 (en) 2008-03-06 2011-08-16 Starkey Laboratories, Inc. Frequency translation by high-frequency spectral envelope warping in hearing assistance devices
FR2929466A1 (fr) * 2008-03-28 2009-10-02 France Telecom Dissimulation d'erreur de transmission dans un signal numerique dans une structure de decodage hierarchique
EP2107556A1 (en) 2008-04-04 2009-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transform coding using pitch correction
US8423852B2 (en) * 2008-04-15 2013-04-16 Qualcomm Incorporated Channel decoding-based error detection
US8768690B2 (en) 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
EP2301020B1 (en) 2008-07-11 2013-01-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
PL2410520T3 (pl) 2008-07-11 2019-12-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodery sygnałów audio, sposoby kodowania sygnału audio i programy komputerowe
EP2144171B1 (en) 2008-07-11 2018-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding and decoding frames of a sampled audio signal
EP2346030B1 (en) 2008-07-11 2014-10-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, method for encoding an audio signal and computer program
MY154452A (en) 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
ES2564400T3 (es) 2008-07-11 2016-03-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador y descodificador de audio para codificar y descodificar muestras de audio
US8352279B2 (en) 2008-09-06 2013-01-08 Huawei Technologies Co., Ltd. Efficient temporal envelope coding approach by prediction between low band signal and high band signal
US8577673B2 (en) 2008-09-15 2013-11-05 Huawei Technologies Co., Ltd. CELP post-processing for music signals
US8798776B2 (en) 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
DE102008042579B4 (de) * 2008-10-02 2020-07-23 Robert Bosch Gmbh Verfahren zur Fehlerverdeckung bei fehlerhafter Übertragung von Sprachdaten
MX2011003824A (es) 2008-10-08 2011-05-02 Fraunhofer Ges Forschung Esquema de codificacion/decodificacion de audio conmutado de resolucion multiple.
KR101315617B1 (ko) 2008-11-26 2013-10-08 광운대학교 산학협력단 모드 스위칭에 기초하여 윈도우 시퀀스를 처리하는 통합 음성/오디오 부/복호화기
CN101770775B (zh) 2008-12-31 2011-06-22 华为技术有限公司 信号处理方法及装置
TWI430264B (zh) 2009-01-16 2014-03-11 Dolby Int Ab 交叉乘積加強之諧波移調
US8457975B2 (en) 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
TWI459375B (zh) 2009-01-28 2014-11-01 Fraunhofer Ges Forschung 音訊編碼器、音訊解碼器、包含經編碼音訊資訊之數位儲存媒體、用以將音訊信號編碼及解碼之方法及電腦程式
EP2214165A3 (en) 2009-01-30 2010-09-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for manipulating an audio signal comprising a transient event
WO2010093224A2 (ko) 2009-02-16 2010-08-19 한국전자통신연구원 적응적 정현파 펄스 코딩을 이용한 오디오 신호의 인코딩 및 디코딩 방법 및 장치
PL2234103T3 (pl) 2009-03-26 2012-02-29 Fraunhofer Ges Forschung Urządzenie i sposób manipulacji sygnałem audio
KR20100115215A (ko) 2009-04-17 2010-10-27 삼성전자주식회사 가변 비트율 오디오 부호화 및 복호화 장치 및 방법
ES2825032T3 (es) 2009-06-23 2021-05-14 Voiceage Corp Cancelación de solapamiento de dominio de tiempo directo con aplicación en dominio de señal original o ponderado
CN101958119B (zh) 2009-07-16 2012-02-29 中兴通讯股份有限公司 一种改进的离散余弦变换域音频丢帧补偿器和补偿方法
AU2010309838B2 (en) 2009-10-20 2014-05-08 Dolby International Ab Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation
KR101414305B1 (ko) 2009-10-20 2014-07-02 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 저 지연 애플리케이션들에서 사용하기 위한 오디오 신호 인코더, 오디오 신호 디코더, 오디오 콘텐츠의 인코딩된 표현을 제공하는 방법, 오디오 콘텐츠의 디코딩된 표현을 제공하는 방법 및 컴퓨터 프로그램
PL2491555T3 (pl) 2009-10-20 2014-08-29 Fraunhofer Ges Forschung Wielotrybowy kodek audio
CN102081927B (zh) 2009-11-27 2012-07-18 中兴通讯股份有限公司 一种可分层音频编码、解码方法及系统
US8423355B2 (en) 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
US8428936B2 (en) 2010-03-05 2013-04-23 Motorola Mobility Llc Decoder for audio signal including generic audio and speech frames
US8793126B2 (en) 2010-04-14 2014-07-29 Huawei Technologies Co., Ltd. Time/frequency two dimension post-processing
TW201214415A (en) 2010-05-28 2012-04-01 Fraunhofer Ges Forschung Low-delay unified speech and audio codec
EP2676268B1 (en) 2011-02-14 2014-12-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing a decoded audio signal in a spectral domain
AU2012217162B2 (en) 2011-02-14 2015-11-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Noise generation in audio codecs

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007073604A1 (en) 2005-12-28 2007-07-05 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs

Also Published As

Publication number Publication date
ZA201306499B (en) 2014-05-28
SG192734A1 (en) 2013-09-30
MX2013009301A (es) 2013-12-06
CN103620672A (zh) 2014-03-05
BR112013020324B8 (pt) 2022-02-08
CA2827000A1 (en) 2012-08-23
JP5849106B2 (ja) 2016-01-27
MY167853A (en) 2018-09-26
BR112013020324A2 (pt) 2018-07-10
US20130332152A1 (en) 2013-12-12
TWI484479B (zh) 2015-05-11
AU2012217215A1 (en) 2013-08-29
JP2014506687A (ja) 2014-03-17
TW201248616A (en) 2012-12-01
CA2827000C (en) 2016-04-05
HK1191130A1 (en) 2014-07-18
ES2539174T3 (es) 2015-06-26
WO2012110447A1 (en) 2012-08-23
KR20140005277A (ko) 2014-01-14
AU2012217215B2 (en) 2015-05-14
CN103620672B (zh) 2016-04-27
BR112013020324B1 (pt) 2021-06-29
AR085218A1 (es) 2013-09-18
RU2630390C2 (ru) 2017-09-07
RU2013142135A (ru) 2015-03-27
EP2661745B1 (en) 2015-04-08
EP2661745A1 (en) 2013-11-13
US9384739B2 (en) 2016-07-05
PL2661745T3 (pl) 2015-09-30

Similar Documents

Publication Publication Date Title
KR101551046B1 (ko) 저-지연 통합 스피치 및 오디오 코딩에서 에러 은닉을 위한 장치 및 방법
JP6306177B2 (ja) 時間ドメイン励振信号を修正するエラーコンシールメントを用いて、復号化されたオーディオ情報を提供する、オーディオデコーダおよび復号化されたオーディオ情報を提供する方法
JP6306175B2 (ja) 時間ドメイン励振信号に基づくエラーコンシールメントを用いて、復号化されたオーディオ情報を提供するオーディオデコーダおよび復号化されたオーディオ情報を提供する方法
US8428938B2 (en) Systems and methods for reconstructing an erased speech frame
US8843798B2 (en) Frame error concealment method and apparatus and decoding method and apparatus using the same
US20110125505A1 (en) Method and Device for Efficient Frame Erasure Concealment in Speech Codecs
KR20230129581A (ko) 음성 정보를 갖는 개선된 프레임 손실 보정

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190830

Year of fee payment: 5