KR20050061615A - 손실 프레임을 처리하기 위한 음성 통신 시스템 및 방법 - Google Patents

손실 프레임을 처리하기 위한 음성 통신 시스템 및 방법 Download PDF

Info

Publication number
KR20050061615A
KR20050061615A KR1020057010151A KR20057010151A KR20050061615A KR 20050061615 A KR20050061615 A KR 20050061615A KR 1020057010151 A KR1020057010151 A KR 1020057010151A KR 20057010151 A KR20057010151 A KR 20057010151A KR 20050061615 A KR20050061615 A KR 20050061615A
Authority
KR
South Korea
Prior art keywords
frame
speech
lost
voice
decoder
Prior art date
Application number
KR1020057010151A
Other languages
English (en)
Inventor
애딜 베냐씬
에얄 슬로못
후안-유 수
Original Assignee
코넥샌트 시스템, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코넥샌트 시스템, 인코포레이티드 filed Critical 코넥샌트 시스템, 인코포레이티드
Publication of KR20050061615A publication Critical patent/KR20050061615A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0012Smoothing of parameters of the decoder interpolation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)
  • Circuits Of Receivers In General (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Communication Control (AREA)
  • Radio Relay Systems (AREA)

Abstract

본 발명은 엔코더로부터 디코더로의 전송동안 손실된 정보를 처리하는 개선된 방식을 갖는 음성 통신 시스템 및 방법에 관한 것이다. 더 구체적으로, 개선된 음성 통신 시스템은 선형 스펙트럼 주파수(LSF), 피치 래그(또는 적응형 코드북 여기), 고정 코드북 여기 및/또는 이득 정보와 같은 음성 프레임에 대한 정보를 손실로부터 더욱 정확하게 복구해준다. 손실된 LSF를 처리하기 위해, 개선된 음성 통신 시스템은 LSF간의 최소 간격을 증가된 값으로 세팅하고 제어된 적응 방식으로 후속 프레임에 대한 값을 선택적으로 감소시킨다. 손실 피치 래그를 처리하기 위해, 개선된 시스템은 다수의 이전에 수신된 프레임의 피치 래그로부터 외삽함으로써 상기 손실 프레임에 대한 피치 래그를 추정한다. 상기 개선된 디코더가 연속하는 수신 프레임의 피치 래그를 수신할 때, 시스템은 후속 프레임에 의해 이용되기 전에 상기 적응형 코드북 버퍼를 조절하고 정정하기 위해 상기 손실 프레임에 대한 피치 래그의 추정을 미세 조정하기 위해 연속하는 수신 프레임의 피치 래그와 이전에 수신된 프레임의 피치 래그간의 커브 맞춤을 이용한다. 손실 이득 파라미터를 처리하는데 있어서, 손실된 이득 파라미터의 개선된 시스템 추정은 음성이 주기성인지 비주기성인지, 상기 손실 이득 파라미터가 적응형 코드북 이득 파라미터인지 고정 코드북 이득 파라미터인지, 그리고 적응된 수의 이전에 수신된 프레임의 서브프레임의 평균 적응형 코드북 이득 파라미터, 적응형 코드북 여기 에너지 대 총 여기 에너지의 비, 이전에 수신된 프레임의 스펙트럼 기울기 및/또는 이전에 수신된 프레임의 에너지와 같은 다른 인자에 종속한다. 음성 통신 시스템이 고정 코드북 여기 값을 디코더에 전송하지 않으면, 개선된 엔코더/디코더는 상기 프레임의 정보에 의해 결정되는 시드 값을 이용하여 주어진 프레임에 대한 동일한 랜덤 여기 값을 발생시킨다. 손실 프레임에서 손실 파라미터를 추정하고 음성을 합성한후에, 개선된 시스템은 합성된 음성 에너지를 이전에 수신된 프레임의 에너지에 매칭시킨다.

Description

손실 프레임을 처리하기 위한 음성 통신 시스템 및 방법{A SPEECH COMMUNICATION SYSTEM AND METHOD FOR HANDLING LOST FRAMES}
본 발명은 일반적으로 음성 통신 시스템에서 음성의 엔코딩 및 디코딩에 관한 것이며, 더욱 구체적으로 에러있거나 손실된 프레임을 처리하기 위한 방법 및 장치에 관한 것이다.
다음의 미국 특허 출원은 여기서 본 발명의 일부를 형성하며 참조로 통합된다.
1998년 9월 18일 출원된 Conexant 문서 No. 98RSS399 "개방 및 폐루프 이득을 결합하는 이득 표준화를 이용하는 음성 엔코더"란 명칭의 미국 특허 출원 번호 No. 09/156,650;
1999년 9월 22일 출원된 Conexant 문서 No. 99RSS485 "4 kbits/s 음성 코딩"이란 명칭의 잠정 미국 특허 출원 번호 No. 60/155,321; 및
2000년 5월 19일 출원된 Conexant 문서 No. 99RSS312 "신규한 음성 이득 양자화 방법"이란 명칭의 미국 특허 출원 번호 No. 09/574,396.
기본 음성 사운드를 모델링하기 위해, 음성 신호는 디지털로 처리되도록 시간에 따라 샘플링되고 이산 파형로서 프레임에 저장된다. 그러나, 음성용 통신 대역폭의 이용 효율을 증대시키기 위해, 음성은 특히 한정된 대역폭 제약하에 전송되어야 할 때 전송되기 전에 코딩된다. 음성 코딩의 여러 측면을 위해 수많은 알고리즘이 제시되어 왔다. 예를 들어, 분석에 의한 합성 코딩 방법은 음성 신호상에 수행될 수 있다. 음성 코딩시에, 음성 코딩 알고리즘은 더 적은 대역폭을 요구하는 방법으로 음성 신호의 특성을 나타내려 한다. 예를 들어, 음성 코딩 알고리즘은 음성 신호의 리던던시를 제거하기 위해 탐색한다. 제 1 단계는 단기 상관을 제거하는 것이다. 일 유형의 신호 코딩 기술은 선형 예측 코딩(LPC)이다. LCP 방법을 이용하여, 특정 시간에서의 음성 신호 값은 이전 값의 선형 함수로서 모델링된다. LPC 방법을 이용함으로써, 단기 상관은 감소될 수 있으며 효율적인 음성 신호 표현이 신호를 표현하기 위해 소정을 예측 파라미터를 추정하고 인가함으로써 결정될 수 있다. 음성 신호의 단기 상관의 포락선인 LPC 스펙트럼은 예를 들어, LSF's(선 스펙트럼 주파수)에 의해 표현될 수 있다. 음성 신호의 단기 상관의 제거후에, LPC 잔여 신호가 남아있다. 이러한 잔여 신호는 모델링될 필요가 있는 주기성 정보를 포함한다. 음성의 리던던시를 제거하는 제 2 단계는 주기성 정보를 모델링하는 것이다. 주기성 정보는 피치(pitch) 예측을 이용하여 모델링될 수 있다. 음성의 소정 부분은 주기성을 갖는 반면 다른 부분은 주기성을 갖지 않는다. 예를 들어, 사운드 "aah"는 주기성 정보를 갖는 반면, 사운드 "shhh"는 주기성 정보를 갖지 않는다.
LPC 기술을 적용하여, 종래의 소스 엔코더는 통신 채널을 통한 종래 소스 디코더로의 통신을 위해 코딩되는 모델링 및 파라미터 정보를 추출하기 위해 음성 신호상에 동작한다. 모델링 및 파라미터 정보를 더 소량의 정보로 코딩하는 한가지 방법은 양자화를 이용하는 것이다. 파라미터의 양자화는 파라미터를 표현하기 위해 테이블 또는 코드북의 가장 근접한 엔트리를 선택하는 것과 관련된다. 따라서, 예를 들어, 0.125의 파라미터는 코드북이 0, 0.1, 0.2, 0.3 등을 포함할 경우 0.1로 표현될 수 있다. 양자화는 스칼라 양자화와 벡터 양자화를 포함한다. 스칼라 양자화에서, 상기에 기술된 바와 같이, 파라미터에 최고 근사한 값인 테이블 또는 코드북의 엔트리를 선택한다. 반대로, 벡터 양자화는 두개 이상의 파라미터를 결합하고 결합된 파라미터에 가장 근접한 테이블 또는 코드북의 엔트리를 선택한다. 예를 들어, 벡터 양자화는 파라미터간의 차이에 가장 근접한 코드북의 엔트리를 선택할 수 있다. 한번에 두개의 파라미터를 벡터 양자화하는데 이용되는 코드북은 2차원 코드북으로 지칭된다. n차원 코드북은 한번에 n개 파라미터를 양자화한다.
양자화된 파라미터는 엔코더로부터 디코더로 전송되는 데이터 패킷으로 패키징될 수 있다. 다시 말해, 일단 코딩되면, 입력 음성 신호를 나타내는 파라미터는 송수신기에 전송된다. 따라서, 예를 들어 LSF's는 양자화될 수 있으며 코드북으로의 인덱스는 비트로 변환되고 엔코더로부터 디코더로 전송될 수 있다. 실시예에 따라, 각 패킷은 음성 신호의 프레임, 음성 프레임 또는 하나 이상의 음성 프레임의 일부를 나타낼 수 있다. 송수신기측에서, 디코더는 코딩된 정보를 수신한다. 디코더는 음성 신호가 엔코딩되는 방식을 인지하도록 구성되기 때문에, 디코더는 인간의 귀에 원래 음성처럼 들리는 재생용 신호를 재형성하도록 코딩된 정보를 디코딩한다. 그러나, 적어도 하나의 데이터 패킷은 전송동안 손실되며 디코더는 엔코더에 의해 전송된 모든 정보를 수신하지 못하는 것은 필수불가결할 것이다. 예를 들어, 음성이 셀 폰으로부터 다른 셀 폰으로 전송될 때, 수신 품질이 떨어지거나 잡음이 있을때 데이터가 손실될 수 있다. 따라서, 코딩된 모델링 및 파라미터 정보를 디코더에 전송하는 것은 디코더가 손실된 데이터 패킷을 정정하거나 조절하는 소정의 방법을 필요로 한다. 종래 기술은 손실된 패킷에서 정보가 무엇인지를 추측하기 위해 외삽법(extrapolation)에 의해서 손실된 데이터 패킷에 대해 조절하는 소정의 방법을 기술하는 반면, 이러한 방법은 개선 방법이 요구될 정도로 한계가 있다.
LSF 정보외에, 디코더에 전송되는 다른 파라미터가 손실될 수 있다. CELP(Code Excited Linear Prediction) 음성 코딩에서, 예를 들어, 양자화되며 디코더에 전송되는 두가지 유형의 이득이 존재한다. 제 1 유형의 이득은 적응형 코드북 이득으로 공지된 피치 이득(GP)이다. 적응형 코드북 이득은 때때로 첨자 "p"대신 첨자 "a"를 포함하는 것으로 지칭된다. 제 2 유형의 이득은 고정된 코드북 이득(GC)이다. 음성 코딩 알고리즘은 적응형 코드북 이득 및 고정 코드북 이득을 포함하는 양자화된 파라미터를 갖는다. 다른 파라미터는 예를 들어, 목소리 음성의 주기성을 나타내는 피치 래그(lag)를 포함할 수 있다. 음성 엔코더가 음성 신호를 분류하면, 음성 신호에 대한 분류 정보는 또한 디코더에 전송될 수 있다. 음성을 분류하고 다른 모드에서 동작하는 개선된 음성 엔코더/디코더에 대해서는, 여기서 참조로 통합되며 2000년 5월 19일 출원된 Conexant 문서 No. 99RSS312 "신규한 음성 이득 양자화 방법"이란 명칭의 미국 특허 출원 번호 No. 09/574,396을 참조하라.
이러한 그리고 다른 파라미터 정보는 불완전한 전송 수단을 통해 디코더에 전송되기 때문에, 이러한 파라미터 중 일부는 손실되거나 디코더에 의해 아예 수신되지 않는다. 음성 프레임당 정보 패킷을 전송하는 음성 통신 시스템에 대해, 손실된 패킷은 손실된 정보 프레임을 발생시킨다. 손실된 정보를 재형성하거나 추정하기 위해, 종래 시스템은 손실된 파라미터에 따라 여러 방법을 시도해왔다. 소정의 방법은 실제로 디코더에 의해 수신된 이전 프레임으로부터 단순하게 파라미터를 이용한다. 이러한 종래 방법은 단점, 부정확성 및 문제점을 갖는다. 따라서, 가능한한 원래 음성 신호에 근접한 음성 신호를 재형성하기 위해 손실된 정보에 대해 정정하거나 조절하기 위한 개선된 방법이 요구된다.
소정의 종래 기술 음성 통신 시스템은 대역폭을 절약하기 위해 고정된 코드북 여기(excitation)를 엔코더로부터 디코더로 전송하지 않는다. 대신에, 이러한 시스템은 랜덤 여기 값을 발생시키기 위해 초기의 고정된 시드를 이용하며 시스템이 침묵 또는 배경 잡음을 포함하는 프레임을 만날때 마다 상기 시드를 업데이트하는 국부 가우시안(Gaussian) 타임 시리즈 발생기를 갖는다. 따라서, 시드는 매 잡음 프레임마다 변화한다. 엔코더 및 디코더는 동일한 시퀀스에서 동일한 시드를 이용하는 동일한 가우시간 타임 시리즈 발생기를 갖기 때문에, 엔코더 및 디코더는 잡음 프레임에 대해 동일한 랜덤 여기 값을 발생시킨다. 그러나, 잡음 프레임이 손실되고 디코더에 의해 수신되지 않으면, 엔코더 및 디코더는 동일한 잡음 프레임에 대해 다른 시드를 이용하며, 그로인해 동시성을 상실하게 된다. 따라서, 고정된 코드북 여기 값을 전송하지 않지만, 프레임이 전송동안 손실될 때 엔코더와 디코더간의 동시성을 유지하는 음성 통신 시스템이 요구된다.
본 발명의 여러 개별 측면은 전송동안 엔코더로부터 디코더로 손실된 정보를 처리하는 개선된 방법을 갖는 음성 통신 시스템 및 방법에서 발견될 수 있다. 특히, 개선된 음성 통신 시스템은 손실된 데이터 패킷에서의 정보 손실의 더욱 정확한 추정을 발생시킬 수 있다. 예를 들어, 개선된 음성 통신 시스템은 LSF, 피치 래그(또는 적응형 코드북 여기), 고정된 코드북 여기 및/또는 이득 정보와 같은 손실된 정보를 더욱 정확하게 처리할 수 있다. 고정된 코드북 여기 값을 디코더에 전송하지 않는 음성 통신 시스템의 실시예에서, 개선된 엔코더/디코더는 이전의 잡음 프레임이 전송동안 손실되더라도 주어진 잡음 프레임에 대해 동일한 랜덤 여기 값을 발생시킬 수 있다.
먼저, 본 발명의 개별 측면은 LSF's간의 최소 간격을 증가된 값으로 세팅하고 그후에 제어된 적응형 방법으로 후속하는 프레임에 대한 값을 감소시킴으로써 손실된 LSF 정보를 처리하는 음성 통신 시스템이다.
두번째로, 본 발명의 개별 측면은 다수 이전 수신 프레임이 피치 래그로부터 초정함으로써 손실된 피치 래그를 추정하는 음성 통신 시스템이다.
세번째로, 본 발명의 개별 측면은 후속하는 프레임에 의해 이용되기 전에 적응형 코드북 버퍼를 조절하거나 정정하기 위해 손실된 프레임에 대한 피치 래그의 추정을 미세 조정하도록 이전에 수신된 프레임의 피치 래그와 후속하여 수신된 프레임의 피치 래그간의 적절한 커브를 이용하며 후속하여 수신된 프레임의 피치 래그를 수신하는 음성 통신 시스템이다.
네번째로, 본 발명의 개별 측면은 비주기성 음성에 대한 손실 이득 파라미터를 추정하는 것과 다르게 주기성 음성에 대한 손실 이득 파라미터를 추정하는 음성 통신 시스템이다.
다섯번째로, 본 발명의 개별 측면은 손실된 고정 코드북 이득 파라미터를 추정하는 것과는 다르게 손실된 적응형 코드북 이득 파라미터를 추정하는 음성 통신 시스템이다.
여섯번째로, 본 발명의 개별 측면은 적응된 수의 이전에 수신된 프레임의 서브프레임의 평균 적응형 코드북 이득 파라미터에 기초하여 비주기성 음성의 손실 프레임에 대해 손실된 적응형 코드북 이득 파라미터를 결정하는 음성 통신 시스템이다.
일곱번째로, 본 발명의 개별 측면은 적응된 수의 이전에 수신된 프레임의 서브프레임의 평균 적응형 코드북 이득 파라미터 및 적응형 코드북 여기 에너지대 총 여기 에너지의 비율에 기초하여 비주기성 음성의 손실 프레임에 대해 손실된 적응형 코드북 이득 파라미터를 결정하는 음성 통신 시스템이다.
여덟번째로, 본 발명의 개별 측면은 적응된 수의 이전에 수신된 프레임의 서브프레임의 평균 적응형 코드북 이득 파라미터, 적응형 코드북 여기 에너지대 총 여기 에너지의 비율, 이전에 수신된 프레임의 스펙트럼 기울기 및/또는 이전에 수신된 프레임의 에너지에 기초하여 비주기성 음성의 손실 프레임의 손실 적응형 코드북 이득 파라미터를 결정하는 음성 통신 시스템이다.
아홉번째로, 본 발명의 개별 측면은 비주기성 음성의 손실 프레임의 손실된 적응형 코드북 이득 파라미터를 임의의 높은 숫자로 세팅하는 음성 통신 시스템이다.
열번째로, 본 발명의 개별 측면은 손실된 고정 코드북 이득 파라미터를 비주기성 음성의 손실된 프레임의 모든 서브프레임에 대해 제로로 세팅하는 음성 통신 시스템이다.
열한번째로, 본 발명의 개별 측면은 이전에 수신된 프레임대 손실된 프레임의 에너지의 비율에 기초하여 비주기성 음성의 손실 프레임의 현재 서브프레임에 대한 손실된 고정 코드북 이득 파라미터를 결정하는 음성 통신 시스템이다.
열두번째로, 본 발명의 개별 측면은 이전에 수신된 프레임의 에너지 대 손실 프레임의 이전에 수신된 프레임의 비율에 기초하여 손실 프레임의 현재 서브프레임에 대한 손실된 고정 코드북 이득 파라미터를 결정하며 그후에 상기 손실 프레임의 잔여 서브프레임에 대해 손실된 코정 코드북 이득 파라미터를 세팅하기 위해 상기 파라미터를 감쇠하는 음성 통신 시스템이다.
열세번째로, 본 발명의 개별 측면은 수신된 프레임후에 손실되는 주기성 음성의 제 1 프레임에 대한 손실된 적응형 코드북 이득 파라미터를 임의적으로 높은 숫자로 세팅하는 음성 통신 시스템이다.
열네번째로, 본 발명의 개별 측면은 수신된 프레임후에 손실되는 주기성 음성의 제 1 프레임에 대한 손실된 적응형 코드북 이득 파라미터를 임의의 높은 숫자로 세팅하고 그후에 상기 손실 프레임의 잔여 서브프레임에 대해 손실된 적응형 코드북 이득 파라미터를 세팅하기 위해 파라미터를 감쇠시키는 음성 통신 시스템이다.
열다섯번째로, 본 발명의 개별 측면은 다수의 이전에 수신된 프레임의 평균 적응형 코드북 이득 파라미터가 임계값을 초과하면 주기성 음성의 손실 프레임에 대해 손실된 고정 코드북 이득 파라미터를 제로로 세팅하는 음성 통신 시스템이다.
열여섯번째로, 본 발명의 개별 측면은 다수의 이전에 수신된 프레임의 평균 적응형 코드북 이득 파라미터가 임계값을 초과하지 않는다면 이전에 수신된 프레임의 에너지와 손실된 프레임의 에너지의 비율에 기초하여 주기성 음성의 손실 프레임의 현재 서브프레임에 대한 손실된 고정 코드북 이득 파라미터를 결정하는 음성 통신 시스템이다.
열일곱번째로, 본 발명의 개별 측면은 이전에 수신된 프레임의 에너지와 손실된 프레임의 에너지의 비율에 기초하여 손실 프레임의 현재 서브프레임에 대한 손실된 고정 코드북 이득 파라미터를 결정하며 그후에 다수의 이전에 수신된 프레임의 평균 적응형 코드북 파라미터가 임계값을 초과하면 상기 손실 프레임의 잔여 서브프레임에 대한 손실된 고정 코드북 이득 파라미터를 세팅하기 위해 파라미터를 감쇠시키는 음성 통신 시스템이다.
열여덟번째로, 본 발명의 개별 측면은 프레임의 정보에 의해 그 값이 결정되는 시드를 이용하여 주어진 프레임에 대해 고정 코드북 여기를 랜덤하게 발생시키는 음성 통신 시스템이다.
열아홉번째로, 본 발명의 개별 측면은 손실된 프레임의 손실된 파라미터를 추정하고 음성을 합성한후에, 합성된 음성의 에너지와 이전에 수신된 프레임의 에너지를 매칭시키는 음성 통신 디코더이다.
스무번째로, 본 발명의 개별 측면은 개별적으로 또는 소정의 결합으로 상기 개별 측면 중 하나이다.
본 발명의 개별 측면은 또한 개별적으로 또는 소정의 결합으로 상기 개별 측면 중 하나를 실행하는 음성 신호를 엔코딩하고 및/또는 디코딩하는 방법에서 발견될 수 있다.
본 발명의 다른 측면, 장점 및 신규한 특징은 도면을 참조로 하기의 바람직한 실시예에의 상세한 설명으로부터 명백해질 것이다.
먼저 전체 음성 통신 시스템의 포괄적 기재가 이루어지며, 그후에 본 발명의 실시예의 상세한 설명이 제공된다.
도 1은 통신 시스템에서 음성 엔코더와 디코더의 일반적 용도를 나타내는 음성 통신 시스템의 개략적 블록선도이다. 음성 통신 시스템(100)은 통신 채널(103)을 통해 음성을 전송하고 재생성한다. 일반적으로 와이어, 파이버 또는 광 링크를 포함할 수 있을지라도, 통신 채널(103)은 일반적으로 셀룰라 전화에 설치될 수 있는 공유된 대역폭 자원을 필요로 하는 종종 다수의, 동시 음성 교환을 지원해야하는 무선 주파수 링크를 적어도 일부 포함한다.
저장 장치는 에를 들어, 자동응답 기능, 음성 메일등을 수행하기 위해 지연된 재생성 또는 재생에 대한 음성 정보를 일시적으로 저장하도록 통신 채널(103)에 연결될 수 있다. 유사하게, 통신 채널(103)은 예를 들어, 단순히 후속 재생을 위해 음성을 기록하고 저장하는 통신 시스템(100)의 단일 장치 실시예의 저장 장치에 의해 교체될 수 있다.
특히, 마이크로폰(111)은 실시간에서 음성 신호를 생성한다. 마이크로폰 (111)은 음성 신호를 A/D(아날로그 대 디지털) 변환기(115)에 전송한다. A/D 변환기(115)는 아날로그 음성 신호를 디지털 형태로 변환하고 디지털화된 음성 신호를 음성 엔코더(117)에 전송한다.
음성 엔코더(117)는 다수의 엔코딩 모드 중 선택된 하나를 이용하여 디지털화된 음성을 엔코딩한다. 다수의 엔코딩 모드 각각은 최종 재생성 음성의 품질을 최적화하는 특정 기술을 이용한다. 다수의 모드 중 하나에서 동작하는 동안, 음성 엔코더(117)는 일련의 모델링 및 파라미터 정보(예를 들어, "음성 파라미터")를 생성하며 음성 파라미터를 선택적 채널 엔코더(119)에 전송한다.
선택적 채널 엔코더(119)는 통신 채널(103)을 통해 음성 파라미터를 전송하도록 채널 디코더(131)와 협력한다. 채널 디코더(131)는 음성 파라미터를 음성 디코더(133)에 전송한다. 음성 엔코더(117)에 대응하는 모드에서 동작하는 동안, 음성 디코더(133)는 가능한 정확하게 음성 파라미터로부터 원래 음성을 재형성하려고 한다. 음성 디코더(133)는 재생성된 음성이 스피커(137)를 통해 청취될 수 있도록 D/A(디지털 대 아날로그) 변환기(135)에 재생성된 음성을 전송한다.
도 2는 도 1의 예시적인 통신 장치를 도시하는 기능적 블록선도이다. 통신 장치(151)는 음성의 동시 포착 및 재생성을 위한 음성 엔코더 및 디코더 양쪽을 포함한다. 일반적으로 단일 하우징내에서, 통신 장치(151)는, 예를 들어 셀룰라 전화, 휴대 전화, 컴퓨팅 시스템 또는 소정의 다른 통신 장치를 포함할 수 있다. 선택적으로, 메모리 엘리먼트가 엔코딩된 음성 정보를 저장하도록 제공되면, 통신 장치(151)는 자동 응답 머신, 레코더, 음성 메일 시스템 또는 다른 통신 메모리 장치를 포함할 수 있다.
마이크로폰(155) 및 A/D 변환기(157)는 디지털 음성 신호를 엔코딩 시스템 (159)에 전송한다. 엔코딩 시스템(159)는 음성 엔코딩을 수행하며 최종 음성 파라미터 정보를 통신 채널에 전송한다. 전송된 음성 파라미터 정보는 원격 위치에서 또 다른 통신 장치(도시되지 않음)에 할당될 수 있다.
음성 파라미터 정보가 수신됨에 따라, 디코딩 시스템(165)은 음성 디코딩을 수행한다. 디코딩 시스템은 아날로그 음성 출력이 스피커(169)상에 재생될 수 있는 경우 D/A 변환기(167)에 음성 파라미터 정보를 전송한다. 최종 결과는 가능한 원래 포착된 음성에 유사한 소리의 재생성물이다.
엔코딩 시스템(159)은 음성 엔코딩을 수행하는 음성 처리 회로(185) 및 선택적 채널 엔코딩을 수행하는 선택적 채널 처리 회로(187) 양쪽을 포함한다. 유사하게, 디코딩 시스템(165)은 음성 디코딩을 수행하는 음성 처리 회로(189) 및 채널 디코딩을 수행하는 선택적 채널 처리 회로(191)를 포함한다.
음성 처리 회로(185) 및 선택적 채널 처리 회로(187)가 개별적으로 도시될지라도, 상기 회로들은 부분적으로 또는 전체로 단일 유니트로 결합될 수 있다. 예를 들어, 음성 처리 회로(185) 및 채널 처리 회로(187)는 단일 DSP(디지털 신호 처리기) 및/또는 다른 처리 회로를 공유할 수 있다. 유사하게, 음성 처리 회로(189) 및 선택적 채널 처리 회로(191)는 전적으로 부분적으로 또는 전체로 분리되거나 결합된다. 게다가, 전체 또는 일부의 결합은 음성 처리 회로(185, 189), 채널 처리 회로(187, 191), 처리 회로(185, 187, 189, 191) 또는 적절한 다른 회로에 적용될 수 있다. 부가로, 디코더 및/또는 엔코더의 동작 측면을 제어하는 각각 또는 모든 회로는 제어 로직으로 지칭되고 예를 들어, 마이크로프로세서, 마이크로제어기, CPU(중앙 처리 유니트), ALU(연산 로직 유니트), 코-프로세서, ASIC(응용 주문형 집적 회로) 또는 다른 종류의 회로 및/또는 소프트웨어에 의해 실행될 수 있다.
엔코딩 시스템(159) 및 디코딩 시스템(165)은 둘다 메모리(161)를 이용한다. 음성 처리 회로(185)는 소스 엔코딩 프로세스동안 음성 메모리(177)의 고정된 코드북(181) 및 적응형 코드북(183)을 이용한다. 유사하게, 음성 처리 회로(189)는 소스 디코딩 프로세스동안 고정된 코드북(181) 및 적응형 코드북(183)을 이용한다.
도시된 음성 메모리(177)가 음성 처리 회로(185, 189)에 의해 공유될지라도, 하나 이상의 개별 음성 메모리는 처리 회로(185, 189)의 각각에 할당될 수 있다. 메모리(161)는 또한 소스 엔코딩 및 디코딩 프로세스에 요구되는 여러 기능을 수행하도록 처리 회로(185, 187, 189, 191)에 의해 이용되는 소프트웨어를 포함한다.
음성 코딩의 개선 실시예를 상세히 논의하기 전에, 전체 음성 엔코딩 알고리즘의 개관이 이시점에서 제공된다. 이 명세서에서 지칭되는 개선된 음성 엔코딩 알고리즘은 예를 들어, CELP 모델에 기초되는 eX-CELP(확장된 CELP) 알고리즘일 수 있다. eX-CELP 알고리즘의 상세한 사항은 동일한 양수인인, Conexant Systems, Inc.에게 양도되고 이전에 참조로 통합되는 다음의 미국 특허출원에 개시된다: 1999년 9월 22일 출원된 "4 kbits/s 음성 코딩"이란 명칭의 미국 특허 출원 번호 No. 60/155,321.
낮은 비트율(4 kbits/s와 같은)의 사용 품질을 달성하기 위해, 개선된 음성 엔코딩 알고리즘은 종래의 CELP 알고리즘의 엄격한 파형-매칭 기준으로부터 다소 벗어나며 입력 신호의 지각적으로 중요한 특징을 포착하도록 노력한다. 이것을 수행하기 위해, 개선된 음성 엔코딩 알고리즘은 잡음-유사 내용의 정도, 스파이크-유사 내용의 정도, 음성 내용의 정도, 무음성 내용의 정도, 크기 스펙트럼의 진화, 에너지 윤곽의 진화, 주기성의 진화등과 같은 소정 특징에 따라 입력 신호를 분석하며 엔코딩 및 양자화 프로세스동안 가중치를 제어하도록 이 정보를 이용한다. 그 원리는 지각적으로 중요한 기능을 정확하게 표현하고 중요도가 낮은 기능에서의 상대적으로 더 큰 에러를 허용하는 것이다. 그 결과로서, 개선된 음성 엔코딩 알고리즘은 파형 매칭대신에 지각적 매칭에 중점을 둔다. 지각적 매칭의 초점은 4 kbits/s에서, 파형 매칭은 입력 신호의 모든 정보를 충실하게 포착하는데 충분히 정확하지 않다는 가정때문에 만족스러운 음성 재생성을 발생시킨다. 결과적으로, 개선된 음성 엔코더는 개선된 결과를 달성하기 위해 소정의 우선순위화를 수행한다.
특정 실시예에서, 개선된 음성 엔코더는 20 ms 또는 초당 160 샘플의 프레임 크기를 이용하며, 각 프레임은 두개 또는 세개의 서브프레임으로 분할된다. 서브프레임의 수는 서브프레임 처리 모드에 종속한다. 상기 특정 실시예에서, 두개 모드 중 하나는 음성의 각 프레임에 대해 선택될 수 있다: 모드 0 및 모드 1. 중요하게는, 서브프레임이 처리되는 방법은 상기 모드에 의존한다. 이러한 특정 실시예에서, 모드 0은 각 서브프레임 크기가 10 ms의 지속시간을 가지며 80 샘플을 포함하는 경우에 프레임당 두개의 서브프레임을 이용한다. 마찬가지로, 이 예시적인 실시예에서, 모드 1은 제 1 및 제 2 서브프레임이 6.625 ms의 지속시간을 갖거나 53개 샘플을 포함하며, 제 3 서브프레임은 6.75 ms의 지속시간을 갖거나 54개 샘플을 포함하는 경우에 프레임당 세개의 서브프레임을 이용한다. 양쪽 모드에서, 15 ms의 미리보기(look-ahead)가 이용될 수 있다. 양쪽 모드 0 및 1에 대해, 10번째 순서의 선형 예측(LP) 모델은 신호의 스펙트럼 포락선을 나타내는데 이용될 수 있다. LP 모델은 예를 들어, 지연된 결정, 스위칭된 멀티-스테이지 예측 벡터 양자화 방법을 이용함으로써 선형 스펙트럼 주파수(LSF) 영역에서 코딩될 수 있다.
모드 0은 CELP 알고리즘과 같은 종래의 음성 엔코딩 알고리즘을 동작시킨다. 그러나, 모드 0은 모든 음성 프레임에 이용되지는 않는다. 대신에, 모드 0은 하기에 더 상세히 논의되는 바와 같이, "주기성" 음성과 다른 모든 음성 프레임을 처리하도록 선택된다. 편의를 위해, "주기성" 음성은 여기서 주기성 음성으로 지칭되며, 모든 다른 음성은 "비주기성" 음성이다. 상기 "비주기성" 음성은 피치 상관 및 피치 래그와 같은 전형적인 파라미터가 급격하게 변화하며 프레임의 신호가 지배적으로 잡음-유사성이 있는 경우에 전이 프레임을 포함한다. 모드 0은 각 프레임을 두개의 서브프레임으로 나눈다. 모드 0은 피치 래그를 서브프레임당 한번 코딩하며 피치 이득(즉, 적응형 코드북 이득) 및 고정 코드북 이득을 서브프레임당 한번 코딩하도록 2차원 벡터 양자화기를 갖는다. 이 예시적인 실시예에서, 고정된 코드북은 두개의 펄스 서브코드북 및 하나의 가우시안 서브코드북을 포함한다; 두개의 펄스 서브코드북은 각각 두개 및 세개의 펄스를 갖는다.
모드 1은 종래의 CELP 알고리즘으로부터 벗어난다. 모드 1은 일반적으로 높은 주기성을 가지며 평활화 피치 영역에 의해 잘 표현되는 주기적 음성을 포함하는 프레임을 처리한다. 이러한 특정 실시예에서, 모드 1은 프레임당 세개의 서브프레임을 이용한다. 피치 래그는 피치 사전처리의 일부로서 서브프레임 처리이전에 프레임당 한번 코딩되며 개정된 피치 영역이 상기 래그로부터 도출된다. 서브프레임의 세개의 피치 이득은 매우 안정한 행동을 나타내며 폐루프 서브프레임 처리이전에 평균 제곱된 에러 기준에 기초하여 사전 벡터 양자화를 이용하여 함께 양자화된다. 양자화되지 않은 세개의 기준 피치 이득은 가중된 음성으로부터 도출되며 프레임 기반 피치 사전처리의 부산물이다. 사전 양자화된 피치 이득을 이용하여 종래의 CELP 서브프레임 처리가 수행되며, 예외로 세개의 고정된 코드북 이득은 양자화되지 않은채로 남아있다. 세개의 고정된 코드북 이득은 에너지의 이동 평균 예측을 이용하는 지연된 결정 방법에 기초한 서브프레임 프로세싱후에 함께 양자화된다. 세개의 서브프레임은 후속적으로 완전히 양자화된 파라미터와 합성된다.
프로세싱 모드가 프레임에 포함된 음성의 분류에 기초하여 음성의 각 프레임에 대해 선택되는 방법과 주기성 음성이 처리되는 혁신적 방법은 음성의 지각적 품질의 상당한 희생없이도 상당히 적은 비트를 갖는 이득 양자화를 허용한다. 이러한 음성 처리 방법의 세부사항은 하기에 제공된다.
도 3-7은 도 1 및 2에 도시된 음성 엔코더의 일 실시예에 의해 이용되는 멀티-스테이지 엔코딩 방법을 도시하는 기능적 블록선도이다. 특히, 도 3은 멀티-스테이지 엔코딩 방법의 제 1 스테이지를 포함하는 음성 사전프로세서(193)를 도시하는 기능적 블록선도이다; 도 4는 제 2 스테이지를 도시하는 기능적 블록선도이다; 도 5 및 6은 제 3 스테이지의 모드 0을 기술하는 기능적 블록선도이다; 및 도 7은 제 3 스텡지의 모드 1을 도시하는 기능적 블록선도이다. 엔코더 처리 회로를 포함하는 음성 엔코더는 일반적으로 다음의 기능을 수행하기 위해 소프트웨어 명령하에서 동작한다.
입력 음성은 판독되고 프레임에 버퍼링된다. 도 3의 음성 사전프로세서 (193)로 돌아오면, 입력 음성(192)의 프레임은 음성 프레임이 순수한 침묵인지, 즉 오로지 "침묵 잡음"만이 존재하는지를 결정하는 침묵 인핸서(enhancer)(195)에 제공된다. 음성 인핸서(195)는 프레임 기반상에 적절하게 현재 프레임이 순수하게 "침묵 잡음"인지를 검출한다. 신호(192)가 "침묵 잡음"이라면, 음성 인핸서(195)는 신호를 신호의 제로 레벨(192)로 램핑(ramp)시킨다. 그렇지 않고, 신호(192)가 "침묵 잡음"이 아니라면, 음성 인핸서(195)는 신호(192)를 변조하지 않는다. 음성 인핸서(195)는 매우 낮은 레벨 잡음을 위해 청정 음성의 침묵 부분을 청정시키고 따라서 청정 음성의 지각적 품질을 강화시킨다. 음성 강화 기능의 효과는 특히 입력 음성이 A-로(law) 소스로부터의 원본일 때 주목할만하다; 즉, 입력은 현재이 음성 코딩 알고리즘에 의한 처리전에 즉시 A-로 엔코딩 및 디코딩을 통해 통과된다. A-로는 샘플 값을 0(예를 들어, -1, 0, +1)근처에서부터 -8 또는 +8까지 증폭시키기 때문에, A-로 증폭은 청취불가한 침묵 잡음을 깨끗하게 청취가능한 잡음으로 변환할 수 있다. 음성 인핸서(195)에 의한 처리후에, 음성 신호는 하이-패스 필터(197)에 제공된다.
하이-패스 필터(197)는 소정의 컷오프 주파수이하의 주파수를 제거하고 컷오프 주파수보다 높은 주파수가 잡음 감쇠기(199)에 전달되도록 허용한다. 이러한 특정 실시예에서, 하이-패스 필터(197)는 ITU-T의 G.729 음성 코딩 표준의 입력 하이-패스 필터와 동일하다. 즉, 상기 필터는 140 Hz의 컷오프 주파수를 갖는 제 2 차 극 영점 필터이다. 물론, 하이-패스 필터(197)는 상기 필터일 필요가 없으며 당업자에게 공지된 소정 종류의 적절한 필터로 구성될 수 있다.
잡음 감쇠기(199)는 잡음 압축 알고리즘을 수행한다. 이러한 특정 실시예에서, 잡음 감쇠기(199)는 음성 엔코딩 알고리즘에 의한 파라미터의 추정을 개선하기 위해 환경 잡음의 최대 5 dB의 약한 잡음 감쇠를 수행한다. 침묵을 강화하고 하이-패스 필터(197)를 설치하며 잡음을 감쇠시키는 특정 방법은 당업자에게 공지된 여러 기술 중 하나를 이용할 수 있다. 음성 사전프로세서(193)의 출력은 사전처리된 음성(200)이다.
물론, 침묵 인핸서(195), 하이-패스 필터(197) 및 잡음 감쇠기(199)는 다른 장치에 의해 교체되거나 당업자에게 공지되고 특정 애플리케이션에 적절한 방법으로 변형될 수 있다.
도 4를 참조하면, 음성 신호의 공통 프레임-기반 처리의 기능적 블록선도가 제공된다. 다시말해, 도 4는 프레임단위 기반상의 음성 신호 처리를 도시한다. 이러한 프레임 처리는 모드-종속 처리(250)전에 모드(예를 들어, 모드 0 또는 1)가 수행되는지에 관계없이 발생한다. 사전처리된 음성(200)은 사전처리된 음성 신호(200)의 밸리 영역을 강조하고 피크 영역을 약화시키도록 동작하는 지각적 가중 필터(252)에 의해 수신된다. 지각적 가중 필터(252)는 다른 장치에 의해 교체되거나 당업자에게 공지되고 특정 애플리케이션에 적절한 방법으로 변형될 수 있다.
LPC 분석기(260)는 사전처리된 음성 신호(200)를 수신하고 음성 신호(200)의 단기 스펙트럼 포락선을 추정한다. LPC 분석기(260)는 음성 신호(200)를 한정하는 특성으로부터 LPC 계수를 추출한다. 일 실시예에서, 세개의 10번째 LPC 분석은 각 프레임에 대해 수행된다. 상기 분석은 프레임의 중간 세번째, 최종 세번째 및 미리보기의 중심에 놓인다. 미리보기에 대한 LPC 분석은 프레임의 처음 세번째에 중심에 있는 LPC 분석으로서 다음 프레임에 대해 재순환된다. 따라서, 각 프레임에 대해, LPC 파라미터의 4개 세트가 발생된다. LPC 분석기(260)는 또한 예를 들어, 선형 스펙트럼 주파수(LSF) 영역으로 LPC 계수의 양자화를 수행할 수 있다. LPC 계수의 양자화는 스칼라 또는 벡터 양자화일 수 있으며 기술분야에 공지된 방법으로 소정의 적절한 영역에서 수행될 수 있다.
분류기(270)는 프레임의 절대 최대값, 반사 계수, 예측 에러, LPC 분석기(260)로부터의 LSF 벡터, 10번째 자동상관, 최근 피치 래그 및 최근 피치 이득을 관찰함으로써 사전처리된 음성(200)의 특성에 대한 정보를 획득한다. 이러한 파라미터는 당업자에게 공지되어 있으므로 여기에서 더 이상 설명되지 않는다. 분류기(270)는 신호 대 잡음 비, 피치 추정, 분류, 스펙트럼 평활화, 에너지 평활화 및 이득 정규화와 같은 엔코더의 다른 측면을 제어하기 위해 정보를 이용한다. 다시, 이러한 측면은 당업자에게 공지되어 있으므로 여기에서 더 이상 설명되지 않는다. 분류 알고리즘의 요약이 다음에 제공된다.
피치 사전프로세서(254)로부터의 도움에 의해 분류기(270)는 프레임의 지배적인 특징에 따라 6개 클래스 중 하나로 각 프레임을 분류한다. 클래스는 (1) 침묵/배경 잡음; (2) 잡음/유사 무성 음성; (3) 무성음; (4) 천이(온셋 포함); (5) 비정상 음성; 및 (6) 정상 음성이다. 분류기(270)는 입력 신호를 주기적 신호 및 비주기적 신호로 분류하기 위해 소정의 방법을 이용할 수 있다. 예를 들어, 분류기 (270)는 사전처리된 음성 신호, 피치 래그 및 프레임의 두번째 절반부분의 상관 및 입력 파라미터로서의 다른 정보를 취할 수 있다.
여러 기준은 음성이 주기적인 것으로 간주되는지를 결정하는데 이용될 수 있다. 예를 들어, 음성은 음성이 정상의 음성 신호라면 주기성으로 고려될 수 있다. 일부의 사람은 주기성 음성이 정상 유성 음성 및 비정상 유성 음성을 포함하도록 고려할 수 있지만, 이 명세서에서는, 주기성 음성은 정상 유성 음성을 포함한다. 게다가, 주기성 음성은 평활화되고 정상인 음성일 수 있다. 유성 음성은 음성 신호가 프레임내의 소정량이상 변화하지 않을 때 "정상"으로 고려된다. 상기 음성 신호는 더욱 잘 정의된 에너지 등고선을 갖는 경향이 있다. 음성 신호는 음성의 적응형 코드북 이득(GP)이 임계값보다 큰경우 "평활화"상태이다. 예를 들어, 임계값이 0.7이면, 서브프레임의 음성 신호는 적응형 코드북 이득(GP)이 0.7보다 큰경우 평활한 것으로 고려된다. 비주기성 음성 또는 무성 음성은 무성음(예를 들어, "shhh" 소리와 같은 마찰음), 변이(예를 들어, 온셋, 오프셋), 배경 잡음 및 침묵을 포함한다.
더욱 구체적으로, 예시적인 실시예에서, 음성 엔코더는 다음의 파라미터를 도출한다:
스펙트럼 기울기(프레임당 첫번째 반사 계수 4배의 추정):
여기서 L = 80은 반사 계수가 계산되며 sk(n)가 다음 식에 의해 주어진 kth 세그먼트인 윈도이다.
여기서 wh(n)은 80 샘플 해밍(Hamming) 윈도이며 s(0), s(1), ..., s(159)는 사전 처리된 음성 신호의 현재 프레임이다.
절대 최대값(절대 신호 최대값의 트래킹, 프레임당 8추정):
여기서 ns(k) 및 ne(k)는 프레임의 k·160/8 샘플일 때 kth 최대값의 탐색에 대해 각각 시작 포인트 및 엔드 포인트이다. 일반적으로, 세그먼트의 길이는 피치 주기 및 세그먼트 오버랩의 1.5배이다. 따라서, 진폭 포락선의 평활 등고선이 획득될 수 있다.
스펙트럼 기울기, 절대 최대값 및 피치 상관 파라미터는 분류에 대한 기반을 형성한다. 그러나, 파라미터의 부가의 처리 및 분석은 분류 결정 이전에 수행된다. 파라미터 처리는 초기에 세개의 파라미터에 가중치를 적용한다. 어떤 의미에서 가중치는 배경 잡음로부터 기여도를 감산함으로써 파라미터의 배경 잡음 성분을 제거한다. 이것은 소정 배경 잡음으로부터 "독립된" 파라미터 공간을 제공하며 따라서 더욱 균일하고 배경 잡음에 대한 분류의 견고성을 개선한다.
잡음의 피치 주기 에너지, 잡음의 스펙트럼 기울기, 잡음의 절대 최대값 및 잡음의 피치 상관의 실행 평균은 다음의 식, 식 4-7에 따라 프레임당 8배로 업데이팅되다. 식 4-7에 의해 정의된 다음의 파라미터는 파라미터 공간의 미세 시간 해상도를 제공하면서, 프레임당 8배로 추정되고/샘플링된다:
잡음의 피치 주기 에너지의 실행 평균:
여기서 EN,p(k)는 프레임의 k·160/8 샘플에서 피치 주기의 표준화 에너지이다. 피치 주기가 일반적으로 20 샘플(160 샘플/8)을 초과하기 때문에 에너지가 계산되는 세그먼트는 오버랩될 수 있다.
잡음의 스펙트럼 기울기의 실행 평균:
잡음의 절대 최대값의 실행 평균:
잡음의 피치 상관의 실행 평균:
여기서 Rp는 프레임의 두번째 절반에 대한 입력 피치 상관이다. 일반적인 값이 α1 = 0.99 이지만, 적응 상수 α1 은 적응가능하다.
배경 잡음 대 신호비는 다음 식에 따라 계산된다.
파라미터 잡음 감쇠는 30 dB로 제한된다. 즉,
파라미터(가중 파라미터)의 잡음 방지 세트는 다음의 식 10-12에 따라 잡음 성분을 제거함으로써 획득된다:
가중된 스펙트럼 기울기의 추정:
가중된 절대 최대값의 추정:
가중된 피치 상관의 추정:
가중된 기울기 및 가중된 최대값의 진화는 제 1 순서 근사화의 경사도로서 각각 다음의 식 13 및 14에 따라 계산된다:
일단 식 4부터 14의 파라미터가 프레임의 8개 샘플 포인트에 대해 업데이팅되면, 다음의 프레임-기반 파라미터는 식 4-14의 파라미터로부터 계산된다:
최대값 가중 피치 상관:
평균 가중 피치 상관:
평균 가중 피치 상관의 실행 평균:
m은 프레임 번호이고 α2 = 0.75는 적응 상수이다.
피치 래그의 정규화 표준 편차:
Lp(m)은 입력 피치 래그이며 μLp(m)은 다음 식에 의해 주어진 과거 3개 프레임을 통한 피치 래그의 평균이다.
최소값 가중 스펙트럼 기울기:
최소값 가중 스펙트럼 기울기의 실행 평균:
평균 가중 스펙트럼 기울기:
가중 기울기의 최소값 경사도:
가중 스펙트럼 기울기의 누적 경사도:
가중 최대값의 최대값 경사도:
가중 최대값의 누적 경사도:
식 23, 25, 26에 의해 주어진 파라미터는 프레임이 온셋을 포함하는 경향이 있는지를 표시하는데 이용되며, 식 16-18, 20-22에 의해 주어진 파라미터는 프레임이 유성 음성에 의해 지배되는 경향이 있는지를 표시하는데 이용된다. 초기의 표시, 과거의 표시 및 다른 정보에 기초하여, 프레임은 6개 클래스 중 하나로 분류된다.
분류기(270)가 사전 처리된 음성(200)을 분류하는 방법의 상세한 기술은 동일한 양수인인 Conexant Systems, Inc.에 양도되고 여기서 참조로 통합되는 미국 특허출원에 기술되어 있다: 1999년 9월 22일 출원된 Conexant 문서 No. 99RSS485 "4 kbits/s 음성 코딩"이란 명칭의 미국 특허 출원 No. 60/155,321.
LSF 양자화기(267)는 LPC 분석기(260)로부터 LPC 계수를 수신하고 LPC 계수를 양자화한다. 스칼라 또는 벡터 양자화를 포함하는 양자화의 공지된 방법일 수 있는 LSF 양자화의 목적은 더 적은 비트로 계수를 표현하는 것이다. 특정 실시예에서, LSF 양자화기(267)는 10번째 순서 LPC 모델을 양자화한다. LSF 양자화기(267)는 또한 LPC 합성 필터의 스펙트럼 포락선의 바람직하지 않은 변동을 감소시키기 위해 LSF를 평활화할 수 있다. LSF 양자화기(267)는 양자화된 계수 Aq(z)(268)를 음성 엔코더의 서브프레임 처리 부분(250)에 전송한다. 음성 엔코더의 서브프레임 처리 부분은 모드 종속된다. LSF가 바람직할지라도, 양자화기(267)는 LPC 계수를 LSF 영역과 다른 영역으로 양자화할 수 있다.
피치 사전처리가 선택되면, 가중된 음성 신호(256)는 피치 사전처리기(254)에 전송된다. 피치 사전처리기(254)는 피치 정보가 더욱 정확하게 양자화될 수 있도록 가중된 음성(256)을 수정하기 위해 개방 루프 피치 추정기(272)와 협력한다. 피치 사전처리기(254)는, 예를 들어, 피치 이득을 양자화하기 위해 음성 엔코더 성능을 개선하도록 피치 사이클상의 공지된 압축 또는 확장 기술을 이용한다. 즉, 피치 사전처리기(254)는 추정된 피치 트랙을 더 우수하게 매칭시키기 위해 그리고 지각적으로 구분할수 없는 재생성된 음성을 생성하는동안 코딩 모델을 더욱 정확하게 맞추기 위해 가중된 음성 신호(256)를 수정한다. 엔코더 처리 회로가 피치 사전처리 모드를 선택하면, 피치 사전처리기(254)는 가중된 음성 신호(256)의 피치 사전처리를 수행한다. 피치 사전처리기(254)는 디코더 처리 회로에 의해 발생되는 삽입된 피치 값을 매칭시키기 위해 가중된 음성 신호(256)를 왜곡시킨다. 피치 사전처리가 적용될 때, 왜곡된 음성 신호는 수정된 가중 음성 신호(258)로서 지칭된다. 피치 사전처리 모드가 선택되지 않으면, 가중된 음성 신호(256)는 피치 사전처리없이 피치 사전처리기(254)를 통해 통과한다(그리고, 편의를 위해, "수정된 가중 음성 신호" (258)로 지칭된다). 피치 사전처리기(254)는 기능 및 실행이 당업자에게 알려진 파형 인터폴레이터를 포함할 수 있다. 파형 인터폴레이터는 규칙성을 강화하고 음성 신호의 비규칙성을 억제하기 위해 공지된 전방-후방 파형 삽입 기술을 이용하여 소정의 비규칙 변이 세그먼트를 수정할 수 있다. 가중된 신호(256)에 대한 피치 이득 및 피치 상관은 피치 사전처리기(254)에 의해 추정된다. 개방 루프 피치 추정기(272)는 가중된 음성(256)으로부터의 피치 특성에 대한 정보를 추출한다. 피치 정보는 피치 래그 및 피치 이득 정보를 포함한다.
피치 사전처리기(254)는 또한 음성 신호의 분류기(270)에 의해 분류를 정제하기 위해 개방 루프 피치 추정기(272)를 통해 분류기(270)와 상호작용한다. 피치 사전처리기(254)는 음성 신호에 대해 부가 정보를 획득하기 때문에, 부가 정보는 음성 신호의 분류를 미세 조정하기 위해 분류기(270)에 의해 이용될 수 잇다. 피치 사전처리를 수행한후에, 피치 사전처리기(254)는 피치 트랙 정보(284) 및 양자화되지 않은 피치 이득(286)을 음성 엔코더의 모드-종속 서브프레임 처리 부분(250)에 출력한다.
일단 분류기(270)가 사전 처리된 음성(200)을 다수의 가능한 클래스 중 하나로 분류하면, 사전 처리된 음성 신호(200)의 분류 번호는 모드 선택기(274)에 전송되고 제어 정보(280)로서 모드-종속 서브프레임 처리기(250)에 전송된다. 모드 선택기(274)는 동작 모드를 선택하기 위해 분류 번호를 이용한다. 특정 실시예에서, 분류기(270)는 사전처리된 음성 신호(200)를 6개의 가능한 클래스 중 하나로 분류한다. 사전처리된 음성 신호(200)가 정상 유성 음성(예를 들어, "주기성" 음성으로 지칭됨)이라면, 모드 선택기(274)는 모드(282)를 모드 1으로 세팅한다. 그렇지않으면, 모드 선택기(274)는 모드(282)를 모드 0으로 세팅한다. 모드 신호(282)는 음성 엔코더의 모드 종속 서브프레임 처리부(250)에 전송된다. 모드 정보(282)는 디코더에 전송되는 비트스트림에 부가된다.
"주기성" 및 "비주기성"으로의 음성의 라벨링은 특정 실시예에서 주의해서 번역되어야 한다. 예를 들어, 모드 1을 이용하여 엔코딩된 프레임은 단지 프레임당 7비트로부터 도출된 피치 트랙(284)상에 기초한 프레임을 통해 높은 피치 상관 및 높은 피치 이득을 유지하는 프레임이다. 결과적으로, 모드 1보다는 모드 0의 선택은 반드시 주기성의 부재때문이 아니라 7비트만을 갖는 피치 트랙(284)의 부정확한 표현에 기인하여 이루어질 수 있다. 그러므로, 모드 0을 이용하여 엔코딩된 신호는 피치 트랙에 대해 프레임당 7비트만에 의해 표현되지 않지만, 모드 0을 이용하여 엔코딩된 신호는 주기성을 매우 잘 포함할 수 있다. 따라서, 모드 0은 피치 트랙을 더욱 적절하게 표현하기 위해 프레임당 총 14 비트에 대해 프레임당 7비트씩 두배로 피치 트랙을 엔코딩한다.
도 3-4 및 이 명세서의 다른 도면상의 기능 블록 각각은 개별 구조일 필요는 없으며 바람직하게는 또 다른 하나 이상의 기능적 블록과 결합될 수 있다.
음성 엔코더의 모드-종속 서브프레임 처리부(250)는 모드 0 및 모드 1의 두가지 모드에서 동작한다. 도 5-6은 도 7이 음성 엔코더의 제 3 스테이지의 모드 1 서브프레임 처리의 기능적 블록선도를 도시하면서 모드 0 서브프레임 처리의 기능적 블록선도를 제공한다. 도 8은 개선된 음성 엔코더에 대응하는 음성 디코더의 블록선도를 도시한다. 음성 디코더는 모드-종속 합성에 의해 수반되는 알고리즘 파라미터에 비트스트림의 역 매핑을 수행한다. 이러한 도면 및 모드의 더 상세한 기술은 동일한 양수인인 Conexant Systems, Inc.에 양도되고 이전에 여기서 참조로 통합는, 2000년 5월 19일 출원된 "신규한 음성 이득 양자화 방법"이란 명칭의 미국 특허 출원 번호 No. 09/574,396에 제공된다.
음성 신호를 표현하는 양자화 파라미터는 패킷화될 수 있으며 그후에 엔코더로부터 디코더로 데이터 패킷으로 전송된다. 다음에 기술되는 예시적인 실시예에서, 음성 신호는 프레임단위로 분석되며, 여기서 각 프레임은 적어도 하나의 서브프레임을 가질 수 있으며, 데이터의 각 패킷은 하나의 프레임에 대한 정보를 포함한다. 따라서, 이 예에서, 각 프레임에 대한 파라미터 정보는 정보 패킷에서 전송된다. 다시 말해, 각 프레임에 대해 하나이 패킷이 존재한다. 물론, 다른 변형이 가능하며, 실시예에 따라, 각 패킷은 프레임의 일부, 하나 이상의 음성 프레임 또는 다수의 프레임을 표현할 수 있다.
LSF
LSF(선형 스펙트럼 주파수)는 LPC 스펙트럼(즉, 음성 스펙트럼의 단기 포락선)의 표시이다. LSF는 음성 스펙트럼이 샘플링되는 특정 주파수로서 고려될 수 있다. 예를 들어, 시스템이 10th 순서 LPC를 이용하면, 프레임당 10개 LSF가 존재할 것이다. 연속적인 LSF가 유사-불안정 필터를 형성하지 않도록 연속적인 LSF간의 최소 간격이 존재해야 한다. 예를 들어, fi가 LSF이고 100Hz라면, (i+1)번째 LSF, fI+1은 최소한 fi + 최소 간격이어야 한다. 예를 들어, fi = 100 Hz이고 최소 간격이 60 Hz라면, fI+1은 적어도 160 Hz여야 하며 160 Hz보다 큰 소정 주파수일 수 있다. 최소 간격은 프레임단위로 변화하지 않는 고정 숫자이며 엔코더 및 디코더 양쪽이 협력할 수 있도록 양쪽 모두에 알려진다.
낮은 비트율로 음성 통신을 달성하는데 필요한 LSF(비예측 코딩과 반대로)를 코딩하기 위해 엔코더가 예측 코딩을 이용하는 것을 가정하자. 다시말해, 엔코더는 현재 프레임의 LSF를 예측하기 위해 이전 프레임의 양자화된 LSF를 이용한다. LPC 스펙트럼으로부터 엔코더가 도출하는 현재 프레임의 예측된 LSF와 실제 LSF간의 에러는 양자화되고 디코더에 전송된다. 디코더는 엔코더가 수행한 동일한 방법으로 현재 프레임의 예측된 LSF를 결정한다. 그후에 엔코더에 의해 전송된 에러를 알게되어, 디코더는 현재 프레임의 실제 LSF를 계산할 수 있다. 그러나, LSF 정보를 포함하는 프레임이 손실되는 어떻게 할 것인가? 도 9를 참조하면, 엔코더는 프레임 0-3을 전송하지만 디코더는 프레임 0, 2, 3만을 수신하는 것으로 가정하자. 프레임 1은 손실되거나 "삭제된" 프레임이다. 현재 프레임이 손실된 프레임 1이라면, 디코더는 실제 LSF를 계산하는데 필요한 에러 정보를 갖지 않는다. 그 결과로서, 종래 시스템은 실제 LSF를 계산하지 않았으며 대신, LSF를 이전 프레임의 LSF 또는 소정 수의 이전 프레임의 평균 LSF로 세팅한다. 이러한 방법이 갖는 문제점은 현재 프레임의 LSF가 너무 부정확할 수 있으며(실제 LSF에 비해) 후속 프레임(즉, 도 9의 예에서 프레임 2, 3)은 자신의 LSF를 결정하기 위해 프레임 1의 부정확한 LSF를 이용한다. 결과적으로, 손실된 프레임에 의해 유도되는 LSF 외삽 에러는 후속 프레임의 LSF의 정확성을 오염시킨다.
본 발명의 예시적인 실시예에서, 개선된 음성 디코더는 손실 프레임을 수반하는 우수한 프레임 수를 카운트하는 카운터를 포함한다. 도 10은 각 프레임과 관련된 최소 LSF 간격의 예를 도시한다. 우수한 프레임 0은 디코더에 의해 수신되고 프레임 1은 손실되는 것으로 가정한다. 종래 방법하에서, LSF간의 최소 간격은 변하지 않는 고정 숫자(도 10의 60 Hz)이다. 반대로, 개선된 음성 디코더는 손실 프레임을 발견할 때, 유사-불안정 필터 형성을 피하기 위해 프레임의 최소 간격을 증가시킨다. 이러한 "제어된 적응형 LSF 간격"의 증가량은 간격의 증가가 특정 경우에 대해 최적인지에 좌우된다. 예를 들어, 개선된 음성 디코더는 시간에 따라 신호 에너지(또는 신호 전력)가 어떻게 진화하는지, 시간에 따라 신호의 주파수 내용(스펙트럼)이 어떻게 진화하는지를 고려할 수 있으며, 어느 값에서 손실 프레임의 최소 간격이 세팅되어야 하는지를 결정하기 위해 카운터를 고려할 수 있다. 당업자는 어느 최소 간격 값이 이용하는데 만족스러운지를 결정하기 위해 간단한 실험을 수행할 수 있다. 적절한 LSF를 도출하기 위해 음성 신호 및/또는 파라미터를 분석하는 일 장점은 상기 프레임의 실제(그러나 손실된) LSF에 더 근접할 수 있다는 것이다.
적응형 코드북 여기(피치 래그)
적응형 코드북 여기 및 고정 코드북 여기로 구성되는 총 여기 eT는 다음의 식에 의해 기술된다:
여기서 gp 및 gc는 각각 양자화된 적응형 코드북 이득 및 고정 코드북 이득이며 exp 및 exc는 적응형 코드북 여기 및 고정 코드북 여기이다. 버퍼(또한 적응형 코드북 버퍼로 지칭됨)는 이전 프레임으로부터의 eT 및 그 성분을 홀딩한다. 현재 프레임의 피치 래그 파라미터에 기초하여, 음성 통신 시스템은 버퍼로부터 eT 를 선택하고 현재 프레임에 대해 exp로서 이용한다. gp, gc 및 exc에 대한 값은 현재 프레임으로부터 획득된다. exp, gp, gc 및 exc는 그후에 현재 프레임에 대한 eT를 계산하기 위한 형태로 플러깅(plugging)된다. 계산된 eT 및 그 성분은 버퍼의 현재 프레임에 대해 저장된다. 프로세스는 반복되며 그로인해 버퍼링된 eT 는 다음 프레임에 대해 exp로서 이용된다. 따라서, 이러한 엔코딩 방법(디코더에 의해 복제됨)의 피드백 성질은 명백하다. 상기 식의 정보가 양자화되기 때문에, 엔코더 및 디코더는 동기화된다. 버퍼는 적응형 코드북 유형임을 주목하라(그러나 이득 여기에 이용되는 적응형 코드북과는 다르다).
도 11은 네개 프레임 1-4에 대한 종래 음성 시스템에 으해 전송되는 피치 래그 정보의 예를 도시한다. 종래 엔코더는 현재 프레임 및 델타 값에 대한 피치 래그를 전송할 것이며, 델타 값은 현재 프레임의 피치 래그와 이전 프레임의 피치 래그간의 차이이다. EVRC(강화된 가변율 코더) 표준은 델타 피치 래그의 이용을 기술한다. 따라서, 예를 들어, 프레임 1을 고려하는 정보 패킷은 피치 래그(L1) 및 델타(L1-L0)를 포함하며, L0는 이전 프레임 0의 피치 래그이다; 프레임 2를 고려하는 정보 패킷은 피치 래그(L2) 및 델타(L2-L1)를 포함할 것이다; 프레임 3을 고려하는 정보 패킷은 피치 래그(L3) 및 델타(L3-L2)를 포함할 것이다. 인접한 프레임의 피치 래그는 동일할 수 있으며 따라서 델타 값이 제로가 될 수 있음을 주목하라. 프레임 2가 손실되고 디코더에 의해 수신되지 않는다면, 이전 프레임 1이 손실되지 않기 대문에 프레임 2의 경우에 이용가능한 피치 래그에 대한 정보는 피치 래그(L1)이다. 피치 래그(L2) 및 델타(L2-L1) 정보의 손실은 두가지 문제점을 발생시킨다. 첫번째 문제점은 손실된 프레임 2에 대한 정확한 피치 래그(L2)를 어떻게 추정하느냐 하는 것이다. 두번째 문제점은 후속 프레임의 에러 형성으로부터 피치 래그(L2) 추정 에러를 어떻게 방지하느냐 하는 것이다. 소정의 종래 시스템은 어떤 문제점도 개선하려 하지 않는다.
첫번째 문제점을 해결하기 위해, 소정의 종래 시스템은 추정된 피치 래그 (L2')와 실제 피치 래그(L2)간의 차이가 에러일 지라도, 손실 프레임 2에 대한 추정된 피치 래그(L2')로서 이전의 우수한 프레임 1로부터 피치 래그(L1)를 이용한다.
두번째 문제점은 후속 프레임의 에러 형성으로부터 추정된 피치 래그(L2')의 에러를 어떻게 방지하느냐 하는 것이다. 이전에 논의된 바와같이, 프레임 n의 피치 래그는 차례로 후속 프레임에 의해 이용되는 적응형 코드북 버퍼를 업데이팅하는데 이용됨을 상기시키자. 추정된 피치 래그(L2')와 실제 피치 래그(L2)간의 에러는 후속적으로 수신된 프레임에서 에러를 형성하는 적응형 코드북 버퍼에서 에러를 형성할 것이다. 다시 말해, 추정된 피치 래그(L2')의 에러는 엔코더의 관점으로부터 적응형 코드북 버퍼와 디코더 관점으로부터의 적응형 코드북 버퍼간의 동시성의 손실을 발생시킬 수 있다. 부가 예로서, 현재 손실 프레임 2의 처리동안, 종래 디코더는 프레임 2에 대해 exp를 검색하기 위해 피치 래그(L1)(실제 피치 래그(L2)와는 차이가 있는)가 되도록 추정 피치 래그(L2')를 이용할 것이다. 에러있는 피치 래그의 이용은 따라서 프레임 2에 대해 잘못된 exp를 선택하며, 이러한 에러는 후속하는 프레임을 통해 전파한다. 종래 기술의 이러한 문제점을 해결하기 위해, 프레임 3이 디코더에 의해 수신될 때, 디코더는 피치 래그(L3) 및 델타(L3-L2)를 가지며 따라서 실제 피치 래그(L2)가 무엇이 되어야 하는지를 역 계산할 수 있다. 실제 피치 래그(L2)는 간단히 피치 래그(L3) 마이너스 델타(L3-L2)이다. 따라서, 종래 디코더는 프레임 3에 의해 이용되는 적응형 코드북 버퍼를 정정할 수 있다. 손실 프레임 2이 이미 추정된 피치 래그(L2')로 처리되었기 때문에, 너무 늦어서 손실 프레임 2를 복구할 수 없다.
도 12는 손실 피치 래그 정보에 기인한 문제점을 해결하는 개선된 음성 통신 시스템의 예시적인 실시예의 동작을 나타내기 위한 프레임의 가상적 경우를 도시한다. 프레임 2가 손실되고 프레임 0, 1, 3, 4가 수신되는 것을 가정하라. 디코더가 손실 프레임 2를 처리하는 동안, 개선된 디코더는 이전 프레임 1으로부터 피치 래그(L1)를 이용할 수 있다. 선택적으로 그리고 바람직하게, 개선된 디코더는 피치 래그(L1)보다 더욱 정확한 추정을 발생시킬 수 있는 추정된 피치 래그(L2')를 결정하기 위해 이전 프레임의 피치 래그에 기초하여 외삽을 수행할 수 있다. 따라서, 예를 들어, 디코더는 추정된 피치 래그(L2')를 외삽하기 위해 피치 래그(L0, L1)를 이용할 수 있다. 외삽 방법은 손실 피치 래그(L2)를 추정하기 위해 과거로부터 평활한 피치 윤곽선을 가정하는 커브 맞춤 방법, 과거 피치 래그의 평균을 이용하는 방법 또는 다른 외삽 방법 중 하나의 외삽 방법일 수 있다. 이러한 방법은 델타 값이 전송될 필요가 없기 때문에 엔코더로부터 디코더로 전송되는 비트의 수를 감소시킨다.
두번째 문제점을 해결하기 위해, 개선된 디코더가 프레임 3을 수신할 때, 디코더는 정확한 피치 래그(L3)를 갖는다. 그러나, 상기에 설명된 바와 같이, 프레임 3에 의해 이용되는 적응형 코드북 버퍼는 피치 래그(L2')를 추정하는데 소정의 외삽 에러때문에 부정확할 수 있다. 개선된 디코더는 델타 피치 래그 정보를 전송할 필요없이, 프레임 2후에 프레임에 작용하여 프레임 2의 피치 래그(L2')를 추정시에 에러를 정정하기 위해 탐색을 수행한다. 일단 개선된 디코더가 피치 래그(L3)를 획득하면, 상기 디코더는 피치 래그(L2')의 이전 추정을 조절하거나 미세 조정하기 위해 커브 맞춤 방법과 같은 내삽 방법을 이용한다. 피치 래그(L1, L3)를 알게됨으로써, 커브 맞춤 방법은 피치 래그(L3)가 알려지지 않을 때보다 더욱 정확하게 L2'를 추정할 수 있다. 그 결과는 프레임 3에 의해 이용되는 적응형 코드북 버퍼를 조절하거나 정정하는데 이용되는 미세 조정된 피치 래그(L2")이다. 더 구체적으로, 미세 조정된 피치 래그(L2")는 적응형 코드북 버퍼에서 양자화된 적응형 코드북 여기를 조절하거나 정정하는데 이용된다. 결과적으로, 개선된 디코더는 대부분의 경우에 대해 충족되는 방법으로 피치 래그(L2')를 미세 조정하는 동안 전송되어야 하는 비트 수를 감소시킨다. 따라서, 후속하여 수신된 프레임상의 피치 래그(L2)의 추정시 에러의 영향을 감소시키기 위해, 개선된 디코더는 평활화 피치 윤곽을 가정함으로써 피치 래그(L2)의 이전 추정을 미세 조정하기 위해 다음 프레임 3의 피치 래그(L3) 및 이전에 수신된 프레임 1의 피치 래그(L1)를 이용할 수 있다. 손실 시프레임의 이전 및 연속하는 수신 프레임의 피치 래그에 기초한 이러한 추정 방법의 정확도는 매우 우수한데, 왜냐하면 피치 윤곽은 일반적으로 유성 음성에 대해 평활하기 때문이다.
이득
엔코더로부터 디코더로의 프레임 전송동안, 손실 프레임은 또한 적응형 코드북 이득(gp) 및 고정 코드북 이득(gc)과 같은 손실 이득 파라미터를 발생시킨다. 각 프레임은 다수의 서브프레임을 포함하며 각 서브프레임은 이득 정보를 갖는다. 따라서, 프레임의 손실은 프레임의 각 서브프레임에 대해 손실 이득 정보를 발생시킨다. 음성 통신 시스템은 손실 프레임의 각 서브프레임에 대해 이득 정보를 추정해야 한다. 하나의 서브프레임에 대한 이득 정보는 다른 서브프레임의 이득 정보와 다를 수 있다.
종래 시스템은 손실 프레임의 각 서브프레임의 이득으로서 이전의 우수한 프레임의 최종 서브프레임으로부터 이득을 이용하는 것과 같은 손실 프레임의 서브프레임에 대한 이득을 추정하기 위해 여러 방법을 취한다. 또 다른 변동은 손실 프레임의 제 1 서브프레임의 이득으로서 이전의 우수한 프레임의 최종 서브프레임으로부터 이득을 이용하며 손실 프레임의 다음 서브프레임의 이득으로서 이용되기 전에 점차적으로 이득을 감쇠시키는 것이다. 다시말해, 예를 들어, 각 프레임이 네개의 서브프레임을 가지며 프레임 1이 수신되지만 프레임 2는 손실되는 경우, 수신 프레임 1의 최종 서브프레임의 이득 파라미터는 손실 프레임 2의 제 1 서브프레임의 이득 파라미터로서 이용되며, 이득 파라미터는 그후에 소정량만큼 감소되며 손실 프레임 1의 제 2 서브프레임의 이득 파라미터로서 이용되며, 이득 파라미터는 다시 감소되고 손실 프레임 2의 제 3 서브프레임의 이득 파라미터로서 이용되며 이득 파라미터는 부가로 감소되며 손실 프레임 2의 최종 서브프레임의 이득 파라미터로서 이용된다. 또 다른 방법은 이득 파라미터가 점차적으로 감소되고 손실 프레임의 나머지 서브프레임의 이득 파라미터로서 이용될 수 있는 경우에 손실 프레임 2의 제 1 서브프레임의 이득 파라미터로서 이용되는 평균 이득 파라미터를 계산하기 위해 이전에 수신된 프레임의 고정된 수의 서브프레임의 이득 파라미터를 검사하는 것이다. 또 다른 방법은 이득 파라미터가 점차적으로 감소될 수 있으며 손실 프레임의 나머지 서브프레임의 이득 파라미터로서 이용되는 경우에 이전에 수신된 프레임의 고정된 수의 서브프레임을 검사하고 손실 프레임 2의 제 1 서브프레임의 이득 파라미터로서 중앙 값을 이용함으로써 중앙 이득 파라미터를 도출하는 것이다. 두드러지게, 종래 방법은 적응형 코드북 이득과 고정 코드북 이득에 다른 복구 방법을 수행하지 않는다; 종래 방법은 이득의 양쪽 유형상에 동일한 복구 방법을 이용한다.
개선된 음성 통신 시스템은 또한 손실 프레임에 기인한 손실 이득 파라미터를 처리할 수 있다. 음성 통신 시스템이 주기성 음성과 비주기성 음성간에 차별을 두면, 시스템은 음성의 각 유형에 대해 차별적으로 손실 이득 파라미터를 처리할 수 있다. 게다가, 개선된 시스템은 손실 고정 코드북 이득을 처리하는 것과는 다르게 손실된 적응형 코드북 이득을 처리한다. 먼저 비주기성 음성의 경우를 검사해보자. 추정된 적응형 코드북 이득(gp)을 결정하기 위해, 개선된 디코더는 적응된 수의 이전 수신 프레임의 서브프레임의 평균(gp)을 계산한다. 디코더에 의해 추정되는 현재 프레임(즉, 손실 프레임)의 피치 래그는 검사를 위해 이전에 수신된 프레임의 수를 결정하는데 이용된다. 일반적으로, 피치 래그가 커질수록, 평균(gp)을 계산하도록 이용하기 위한 이전에 수신된 프레임의 수는 커진다. 따라서, 개선된 디코더는 비주기성 음성을 위해 적응형 코드북 이득(gp)을 추정하기 위해 피치 동기화 평균 방법을 이용한다. 개선된 디코더는 그후에 다음의 형식에 기초하여 gp의 예측이 얼마나 우수한지를 표시하는 베타(β)를 계산한다:
β는 0부터 1로 변동하며 총 여기 에너지상의 적응형 코드북 여기 에너지의 퍼센트 결과를 나타낸다. β가 클수록, 적응형 코드북 여기 에너지의 결과가 커진다. 불필요하더라도, 개선된 디코더는 바람직하게는 비주기성 음성과 주기성 음성을 차별적으로 처리한다.
도 16은 비주기성 음성에 대한 디코더 처리의 예시적 흐름도를 도시한다. 단계(1000)는 현재 프레임이 프레임(즉, "우수한" 프레임)을 수신한후에 손실된 첫번째 프레임인지를 결정한다. 현재 프레임이 우수한 프레임후의 첫번째 손실 프레임이라면, 단계(1002)는 디코더에 의해 처리되는 현재 서브프레임이 프레임의 첫번째 서브프레임인지를 결정한다. 현재 서브프레임이 첫번째 서브프레임이면, 단계 (1004)는 서브프레임의 수가 현재 서브프레임의 피치 래그에 종속하는 경우에 소정수의 이전 서브프레임에 대한 평균(gp)을 계산한다. 예시적인 실시예에서, 피치 래그가 40보다 작거나 같으면, 평균(gp)은 두개의 이전 서브프레임에 기초된다; 피치 래그가 40보다 크지만 80보다 작거나 같으면, 평균(gp)은 네개의 이전 서브프레임에 기초된다; 피치 래그가 80보다 크지만 120보다 작거나 같으면, 평균(gp)은 8개 이전 서브프레임에 기초된다. 물론, 이러한 값은 임의적이며 서브프레임의 길이에 종속하는 다른 값에 세팅될 수 있다. 단계(1006)는 최대값 β가 소정 임계값을 초과하는지를 결정한다. 최대값 β가 소정 임계값을 초과하면, 단계(1008)는 손실 프레임의 모든 서브프레임에 대해 고정된 코드북 이득(gc)을 제로로 세팅하며 손실 프레임의 모든 서브프레임에 대해 gp를 상기에 결정된 평균(gp)대신에 0.95와 같은 임의의 높은 숫자로 세팅한다. 임의의 높은 숫자는 우수한 음성 신호를 표시한다. 손실 프레임의 현재 서브프레임의 gp가 세팅되는 임의적으로 높은 숫자는 소정수의 이전 프레임의 최대값 β, 이전에 수신된 프레임의 스펙트럼 기울기 및 이전에 수신된 프레임의 에너지를 포함하는 다수의 인자에 기초될 수 있으며, 그러나 이에 제한되지는 않는다.
그렇지 않으면, 최대값 β가 소정 임계값을 초과하지 않으면(즉, 이전에 수신된 프레임이 음성의 온셋을 포함), 단계(1010)는 손실 프레임의 현재 서브프레임의 gp를 (i) 상기에 결정된 평균(gp) 및 (ii) 임의적으로 선택된 높은 숫자(예를 들어, 0.95)의 최소값이 되도록 세팅한다. 또 다른 선택안은 이전에 수신된 프레임의 스펙트럼 경사도, 이전에 수신된 프레임의 에너지 상기에 결정된 평균(gp)의 최소값 및 임의로 선택된 높은 숫자(예를 들어, 0.95)에 기초하여 손실 프레임의 현재 서브프레임의 gp를 세팅하는 것이다. 최대값 β가 소정 임계값을 초과하지 않는 경우에, 고정 코드북 이득(gc)은 이전 서브프레임의 이득 스케일 고정 코드북 여기의 에너지 및 현재 서브프레임의 고정 코드북 여기의 에너지에 기초된다. 구체적으로, 이전 서브프레임의 이득 스케일 고정 코드북 여기의 에너지는 현재 서브프레임의 고정 코드북 여기 에너지에 의해 분할되며, 그 결과는 다음 형식에 나타난 바와 같이, 감쇠 부분에 의해 제곱근화되고 곱해지며 gc로 세팅된다:
선택적으로, 디코더는 이전에 수신된 프레임의 에너지대 현재 손실 프레임의 에너지의 비에 기초되도록 손실 프레임의 현재 서브프레임에 대한 gc를 도출할 수 있다.
단계(1002)로 복귀하여, 현재 서브프레임이 첫번째 서브프레임이 아니라면, 단계(1020)는 손실 프레임의 현재 서브프레임의 gp를 이전 서브프레임의 gp로부터 감쇠되거나 감소되는 값으로 세팅한다. 나머지 서브프레임의 각 gp는 이전 서브프레임의 gp로부터 부가로 감쇠된 값으로 세팅된다. 현재 서브프레임의 gc는 단계(1010) 및 형식 29에서와 동일한 방법으로 계산된다.
단계(1000)로 돌아가서, 이것이 우수한 프레임후의 첫번째 손실 프레임이 아니라면, 단계(1022)는 단계(1010)과 형식 29에서와 같은 동일한 방식으로 현재 서브프레임의 gc를 계산한다. 단계(1022)는 또한 손실 프레임의 현재 서브프레임의 gp를 이전 서브프레임의 gp로부터 감쇠되거나 감소된 값으로 세팅한다. 디코더가 gp 및 gc를 차별적으로 추정하기 때문에, 디코더는 종래 시스템보다 더욱 정확하게 gp 및 gc를 추정할 수 있다.
도 17에 도시된 흐름도의 예시에 따라 주기성 음성의 경우를 검사해보자. 디코더가 주기성 음성 및 비주기성 음성에 대해 gp 및 gc를 추정하는데 다른 방법을 적용할 수 있기 때문에, 이득 파라미터의 추정은 종래 방법보다 더욱 정확할 수 있다. 단계(1030)는 현재 프레임이 프레임(즉, "우수한" 프레임)수신후에 손실된 첫번째 프레임인지를 결정한다. 현재 프레임이 우수한 프레임후의 첫번째 손실 프레임이라면, 단계(1032)는 gc를 현재 프레임의 모든 서브프레임에 대해 제로로 세팅하고 gp를 현재 프레임의 모든 서브프레임에 대해 0.95와 같은 임의로 높은 숫자로 세팅한다. 현재 프레임은 우수한 프레임(예를 들어, 2번째 손실 프레임, 3번째 손실 프레임등)후에 제 1 손실 프레임이 아니라면, 단계(1034)는 gc를 현재 프레임의 모든 서브프레임에 대해 제로로 세팅하며 gp를 이전 서브프레임의 gp로부터 감쇠되는 값으로 세팅한다.
도 13은 개선된 음성 디코더의 동작을 나타내기 위한 프레임의 경우를 도시한다. 프레임 1, 3, 4는 우수한 반면(즉, 수신됨) 프레임 2, 5-8은 손실 프레임이라고 가정하자. 현재 손실 프레임이 우수한 프레임후의 첫번째 손실 프레임이라면, 디코더는 gp를 손실 프레임의 모든 서브프레임에 대해 임의의 높은 숫자(0.95와 같은)로 세팅한다. 도 13을 참조하면, 이것은 손실 프레임 2 및 5에 적용될 것이다. 첫번째 손실 프레임 5의 gp는 다른 손실 프레임 6-8의 gp'을 세팅하기 위해 점차적으로 감쇠된다. 그러므로, 예를 들어, gp가 손실 프레임 5에 대해 0.95로 세팅되면, gp는 손실 프레임 6에 대해 0.9로 세팅되고 손실 프레임 7에 대해 0.85 및 손실 프레임 8에 대해 0.8로 세팅될 수 있다. gc'에 대해, 디코더는 이전에 수신된 프레임으로부터 평균 gp를 계산하고 이러한 평균 gp가 소정 임계값을 초과하면, gc는 손실 프레임의 모든 서브프레임에 대해 제로로 세팅된다. 평균 gp가 소정 임계값을 초과하지 않으면, 디코더는 여기서 gc를 세팅하기 위해 상기에 기술된 비주기성 신호에 대해 gc를 세팅하는 동일한 방법을 이용한다.
디코더가 손실 프레임에서 손실 파라미터(예를 들어, LSF, 피치 래그, 이득, 분류 등)를 추정하고 최종 음성을 합성한후에, 디코더는 외삽 기술을 통해 손실 프레임의 합성된 음성의 에너지와 이전에 수신된 프레임의 에너지를 매칭시킬 수 있다. 이것은 부가로 손실 프레임에도 불구하고 원래 음성의 재생성 정확도를 개선시킬 수 있다.
고정 코드북 여기를 발생시키기 위한 시드
대역폭을 절약하기 위해, 음성 엔코더는 배경 잡음 또는 침묵 주기동안 디코더에 고정 코드북 여기를 전송할 필요가 없다. 대신에, 엔코더 및 디코더는 가우시안 타임 시리즈 발생기를 이용하여 국부적으로 여기 값을 랜덤하게 발생시킬 수 있다. 엔코더 및 디코더 양쪽은 동일한 순서로 동일한 랜덤 여기 값을 발생시키도록 구성된다. 그 결과로, 디코더는 엔코더가 주어진 잡음 프레임에 대해 발생시킨 동일한 랜덤 여기 값을 국부적으로 발생시킬 수 있기 때문에, 여기 값은 엔코더로부터 디코더로 전송될 필요가 없다. 랜덤 여기 값을 발생시키기 위해, 가우시안 타임 시리즈 발생기는 첫번째 랜덤 여기 값을 발생시키기 위해 초기 시드를 이용하며 그후에 발생기는 시드를 새로운 값으로 업데이팅한다. 그후에 발생기는 다음 랜덤 여기 값을 발생시키기 위해 업데이팅된 시드를 이용하며 시드를 다른 값으로 업데이팅한다. 도 14는 음성 엔코더의 가우시안 타임 시리즈 발생기가 랜덤 여기 값을 발생시키기 위해 어떻게 시드를 이용하고 그후에 상기 시드를 어떻게 다음 랜덤 여기 값을 발생시키도록 업데이팅하는지를 도시하기 위해 프레임의 가설적 경우를 나타낸다. 프레임 0 및 4가 음성 신호를 포함하는 반면 프레임 2, 3, 5는 침묵 또는 배경 잡음을 포함한다고 가정하자. 첫번째 잡음 프레임(즉, 프레임 2)을 발견하면, 엔코더는 초기 시드("시드 1"으로 지칭)를 이용하여 상기 프레임에 대해 고정 코드북 여기로서 이용하도록 랜덤 여기 값을 발생시킨다. 상기 프레임의 각 샘플에 대해, 시드는 새로운 고정 코드북 여기를 발생시키도록 변경된다. 따라서, 프레임이 160번 샘플링되면, 시드는 160번을 변경할 수 있다. 따라서, 다음 잡음 프레임이 조우되는 때에 의해(잡음 프레임 3), 엔코더는 상기 프레임에 대해 랜덤 여기 값을 발생시키도록 제 2 및 다른 시드(즉, 시드 2)를 이용한다. 기술적으로, 시드가 첫번째 프레임의 매 샘플에 대해 변경되기 때문에 제 2 프레임의 첫번째 샘플에 대한 시드는 "두번째"가 아니지만, 두번째 프레임의 제 1 샘플에 대한 시드는 편의를 위해 시드 2로 지칭된다. 잡음 프레임 4에 대해, 엔코더는 제 3 시드(첫번째 및 두번째 시드와 다름)를 이용한다. 잡음 프레임 6에 대한 랜덤 여기 값을 발생시키기 위해, 가우시안 타임 시리즈 발생기는 음성 통신 시스템의 실행에 따라 시드 1로 시작하거나 시드 4로 진행할 수 있다. 동일한 방법으로 시드를 업데이팅하기 위해 엔코더 및 디코더를 구성함으로써, 엔코더 및 디코더는 동일한 순서로 동일한 시드 및 동일한 랜덤 여기 값을 발생시킬 수 있다. 그러나, 종래 음성 통신 시스템에서 손실 프레임은 엔코더와 디코더간의 이러한 동시성을 파괴한다.
도 15는 도 14에 도시된 가설적 경우를 디코더의 관점에서 도시한다. 잡음 프레임 2가 손실되고 프레임 1 및 3은 디코더에 의해 수신된다고 가정하자. 잡음 프레임 2는 손실되기 때문에, 디코더는 이전 프레임 1(즉, 음성 프레임)과 동일한 유형인 것으로 가정한다. 손실된 잡음 프레임 2에 대해 잘못된 가정을 수행하면, 디코더는 실제로 제 2 잡음 프레임과 조우될 때의 첫번째 잡음 프레임인 것으로 추정한다. 시드가 조우되는 매 잡음 프레임의 각 샘플에 대해 업데이팅되기 때문에, 디코더는 시드 2가 이용되어야 할 때 잡음 프레임 3에 대한 랜덤 여기 값을 발생시키기 위해 시드 1을 잘못 이용할 것이다. 손실 프레임은 따라서 엔코더와 디코더간의 동시성 손실을 발생시킨다. 프레임 2가 잡음 프레임이기 때문에, 결과가 원래 잡음과는 다른 잡음이기 때문에 엔코더가 시드 2를 이용하는 동안 디코더가 시드 1을 이용하는 것을 중요하지 않다. 프레임 3에 대해서도 마찬가지다. 그러나, 시드 값의 에러는 음성을 포함하는 후속적으로 수신된 프레임상의 파급 효과에 대해 중요하다. 예를 들어, 음성 프레임 4를 살펴보자. 시드 2에 기초하여 국부적으로 발생된 가우시안 여기는 프레임 3의 적응형 코드북 버퍼를 연속적으로 업데이팅하는데 이용된다. 프레임 4가 처리될 때, 적응형 코드북 여기는 프레임 4의 피치 래그와 같은 정보에 기초하여 프레임 3의 적응형 코드북 버퍼로부터 추출된다. 엔코더는 프레임 3의 적응형 코드북 버퍼를 업데이팅하기 위해 시드 3을 이용하며 디코더는 프레임 3의 적응형 코드북 버퍼를 업데이팅하기 위해 시드 2(잘못된 시드)를 이용하기 때문에, 프레임 3의 적응형 코드북 버퍼를 업데이팅하는 차이는 소정 경우에 프레임 4의 품질 문제를 형성할 수 있다.
본 발명에 따라 형성된 개선된 음성 통신 시스템은 초기 고정 시드를 이용하지 않으며 그후에 시스템이 잡음 프레임을 조우할 때마다 시드를 업데이팅하지 않는다. 대신에, 개선된 엔코더 및 디코더는 프레임의 파라미터로부터 주어진 프레임에 대한 시드를 도출한다. 예를 들어, 현재 프레임의 스펙트럼 정보, 에너지 및/또는 이득 정보는 상기 프레임에 대한 시드를 발생시키는데 사용될 수 있다. 예를 들어, 그 값이 시드인 스트링 bi, b2, b3, b4, b5, c1, c2, c3를 형성하기 위해 스펙트럼을 나타내는 비트(5비트 b1, b2, b3, b4, b5) 및 에너지를 나타내는 비트(3비트, c1, c2, c3)를 이용할 수 있다. 숫자적인 예시로서, 스펙트럼이 01101에 의해 표현되며 에너지가 011에 의해 표현되는 것으로 가정하면, 시드는 01101011이다. 물론, 프레임의 정보로부터 시드를 도출하는 다른 선택적인 방법이 가능하며 본 발명의 범위내에 포함된다. 결과적으로, 잡음 프레임 2가 손실되는 도 15의 예에서, 디코더는 엔코더에 의해 도출되는 동일한 시드인 잡음 프레임 3에 대한 시드를 도출할 수 있을 것이다. 따라서, 손실 프레임은 엔코더와 디코더간의 동시성을 파괴하지 않는다.
본 발명의 실시예 및 실행이 도시되고 기술되었지만, 본 발명의 범위내에서 수많은 실시예와 실행이 있음을 명백할 것이다. 따라서, 본 발명은 이에 제한되지 않으며 청구범위에 의해서만 한정된다.
본 발명을 통해 가능한한 원래 음성 신호에 근접한 음성 신호를 재형성하기 위해 손실된 정보에 대해 정정하거나 조절하기 위한 개선된 시스템 및 방법을 제공할 수 있다.
도 1은 소스 엔코더 및 소스 디코더를 갖는 음성 통신 시스템의 기능적 블록선도이다.
도 2는 도 1의 음성 통신 시스템의 더욱 상세한 기능적 블록선도이다.
도 3은 도 1의 음성 통신 시스템의 일 실시예에 의해 이용되는 소스 엔코더의 예시적인 제 1 스테이지, 음성 프리프로세서의 기능적 블록선도이다.
도 4는 도 1의 음성 통신 시스템의 일 실시예에 의해 이용되는 소스 엔코더의 전형적인 제 2 스테이지를 도시하는 기능적 블록선도이다.
도 5는 도 1의 음성 통신 시스템의 일 실시예에 의해 이용되는 소스 엔코더의 전형적인 제 3 스테이지를 도시하는 기능적 블록선도이다.
도 6은 비주기성 음성(모드 0)을 처리하기 위해 음성 통신 시스템의 일 실시예에 의해 이용되는 소스 엔코더의 전형적인 제 4 스테이지를 도시하는 기능적 블록선도이다.
도 7은 주기성 음성(모드 1)을 처리하기 위해 도 1의 음성 통신 시스템의 일 실시예에 의해 이용되는 소스 엔코더의 전형적인 제 4 스테이지를 도시하는 기능적 블록선도이다.
도 8은 본 발명에 따라 형성된 음성 엔코더로부터 코딩된 정보를 처리하기 위한 음성 디코더의 일 실시예의 블록선도이다.
도 9는 수신된 프레임 및 손실 프레임의 가상적 예시를 도시한다.
도 10은 종래 시스템과 본 발명에 따라 형성된 음성 통신 시스템에 할당된 LSF간의 최소 간격뿐 아니라 수신 프레임 및 손실 프레임의 가상적 예시를 도시한다.
도 11은 종래의 음성 통신 시스템이 각 프레임에 대해 피치 래그 및 델타 래그 정보를 어떻게 할당하고 이용하는지를 나타내는 가상적 예시를 도시한다.
도 12는 본 발명에 따라 형성된 음성 통신 시스템이 각 프레임에 대해 피치 래그 및 델타 피치 래그 정보를 어떻게 할당하고 이용하는지를 나타내는 가상적 예시를 도시한다.
도 13은 본 발명에 따라 형성된 음성 디코더가 손실 프레임이 존재할 때 각 프레임에 대해 적응형 이득 파라미터 정보를 어떻게 할당하는지를 나타내는 가상적 예시를 도시한다.
도 14는 종래 엔코더가 침묵 또는 배경 잡음을 포함하는 각 프레임에 대해 랜덤 여기 값을 발생시키기 위해 시드를 어떻게 이용하는지를 나타내는 가상적 예시를 도시한다.
도 15는 종래 디코더가 침묵 또는 배경 잡음을 포함하는 각 프레임에 대한 랜덤 여기 값을 발생시키기 위해 어떻게 시드를 이용하며 손실된 프레임이 있을 경우 엔코더와의 동시성을 어떻게 잃어버리는지를 나타내는 가상적 예시를 도시한다.
도 16은 본 발명에 따른 비주기성 음성의 예시적 처리를 나타내는 흐름도이다.
도 17은 본 발명에 따라 주기성 음성의 예시적 처리를 나타내는 흐름도이다.

Claims (20)

  1. 복수의 음성 프레임들 중 제1 프레임을 나타내는 복수의 비트들로부터 제1 비트들 세트를 획득하는 단계;
    상기 복수의 음성 프레임들 중 상기 제1 프레임을 나타내는 상기 복수의 비트들로부터 상기 제1 비트들 세트를 사용하여 제1 시드값(seed value)을 유도하는 단계; 및
    상기 제1 시드값을 사용하여 제1 랜덤 여기값(excitation value)을 발생시키는 단계를 포함하는 음성 코딩 방법.
  2. 제1항에 있어서,
    상기 랜덤 여기값은 고정된 코드북 여기인 음성 코딩 방법.
  3. 제1항에 있어서,
    상기 복수의 프레임들 중 상기 하나의 프레임은 침묵 프레임인 음성 코딩 방법.
  4. 제1항에 있어서,
    상기 복수의 음성 프레임들 중 상기 하나의 프레임은 잡음 프레임인 음성 코딩 방법.
  5. 제1항에 있어서,
    상기 복수의 음성 프레임들 중 제2 프레임을 나타내는 복수의 비트들로부터 제2 비트들 세트를 획득하는 단계;
    상기 복수의 음성 프레임들 중 상기 제2 프레임을 나타내는 상기 복수의 비트들로부터의 상기 제2 비트들 세트를 사용하여 제2 시드값을 유도하는 단계; 및
    상기 제2 시드값을 사용하여 제2 랜덤 여기값을 발생시키는 단계를 추가로 포함하는 음성 코딩 방법.
  6. 제1항에 있어서,
    상기 획득 단계, 상기 유도 단계, 및 상기 발생 단계를 상기 복수의 음성 프레임들의 각 프레임에 대해 반복하는 단계를 추가로 포함하는 음성 코딩 방법.
  7. 제1항에 있어서,
    디코더가 상기 획득 단계, 상기 유도 단계, 및 상기 발생 단계를 수행하는 음성 코딩 방법.
  8. 제1항에 있어서,
    인코더가 상기 획득 단계, 상기 유도 단계, 및 상기 발생 단계를 수행하는 음성 코딩 방법.
  9. 제1항에 있어서,
    상기 제1 비트들 세트는 에너지를 나타내는 음성 코딩 방법.
  10. 제1항에 있어서,
    상기 제1 비트들 세트는 스펙트럼을 나타내는 음성 코딩 방법.
  11. 복수의 음성 프레임들 중 제1 프레임을 나타내는 복수의 비트들로부터 제1 비트들 세트를 획득하도록 구성되고, 상기 복수의 음성 프레임들 중 상기 제1 프레임을 나타내는 상기 복수의 비트들로부터의 상기 제1 비트들 세트를 사용하여 제1 시드값을 유도하도록 추가로 구성되는 음성 처리 회로; 및
    상기 제1 시드값을 사용하여 제1 랜덤 여기값을 발생시키도록 구성되는 발생기를 포함하는 음성 코딩 장치.
  12. 제11항에 있어서,
    상기 랜덤 여기값은 고정된 코드북 여기인 음성 코딩 장치.
  13. 제11항에 있어서,
    상기 복수의 음성 프레임들 중 상기 하나의 프레임은 침묵 프레임인 음성 코딩 장치.
  14. 제11항에 있어서,
    상기 복수의 음성 프레임들 중 상기 하나의 프레임은 잡음 프레임인 음성 코딩 장치.
  15. 제11항에 있어서,
    상기 음성 처리 회로는 상기 복수의 음성 프레임들 중 제2 프레임을 나타내는 복수의 비트들로부터 제2 비트들 세트를 획득하고, 상기 복수의 음성 프레임들 중 상기 제2 프레임을 나타내는 상기 복수의 비트들로부터의 상기 제2 비트들 세트를 사용하여 제2 시드값을 유도하도록 추가로 구성되며, 상기 발생기는 상기 제2 시드값을 사용하여 제2 랜덤 여기값을 발생시키도록 추가로 구성되는 음성 코딩 장치.
  16. 제11항에 있어서,
    상기 음성 처리 회로는 상기 복수의 음성 프레임들의 각 프레임으로부터 하나의 비트들 세트를 획득하고, 상기 복수의 음성 프레임들의 각 프레임에 대해 상기 비트들 세트를 사용하여 시드값을 유도하도록 추가로 구성되며, 상기 발생기는 상기 시드값을 사용하여 제2 랜덤 여기값을 발생시키도록 추가로 구성되는 음성 코딩 장치.
  17. 제11항에 있어서,
    상기 음성 처리 회로 및 상기 발생기는 디코더에 의해 사용되는 음성 코딩 장치.
  18. 제11항에 있어서,
    상기 음성 처리 회로 및 상기 발생기는 인코더에 의해 사용되는 음성 코딩 장치.
  19. 제11항에 있어서,
    상기 제1 비트들 세트는 에너지를 나타내는 음성 코딩 장치.
  20. 제11항에 있어서,
    상기 제1 비트들 세트는 스펙트럼을 나타내는 음성 코딩 장치.
KR1020057010151A 2000-07-14 2001-07-09 손실 프레임을 처리하기 위한 음성 통신 시스템 및 방법 KR20050061615A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/617,191 US6636829B1 (en) 1999-09-22 2000-07-14 Speech communication system and method for handling lost frames
US09/617,191 2000-07-14

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020037000511A Division KR100754085B1 (ko) 2000-07-14 2001-07-09 손실 프레임을 처리하기 위한 음성 통신 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR20050061615A true KR20050061615A (ko) 2005-06-22

Family

ID=24472632

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020037015014A KR100742443B1 (ko) 2000-07-14 2001-07-09 손실 프레임을 처리하기 위한 음성 통신 시스템 및 방법
KR1020057010151A KR20050061615A (ko) 2000-07-14 2001-07-09 손실 프레임을 처리하기 위한 음성 통신 시스템 및 방법
KR1020037000511A KR100754085B1 (ko) 2000-07-14 2001-07-09 손실 프레임을 처리하기 위한 음성 통신 시스템 및 방법

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020037015014A KR100742443B1 (ko) 2000-07-14 2001-07-09 손실 프레임을 처리하기 위한 음성 통신 시스템 및 방법

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020037000511A KR100754085B1 (ko) 2000-07-14 2001-07-09 손실 프레임을 처리하기 위한 음성 통신 시스템 및 방법

Country Status (10)

Country Link
US (1) US6636829B1 (ko)
EP (4) EP1577881A3 (ko)
JP (3) JP4137634B2 (ko)
KR (3) KR100742443B1 (ko)
CN (3) CN1722231A (ko)
AT (2) ATE317571T1 (ko)
AU (1) AU2001266278A1 (ko)
DE (2) DE60117144T2 (ko)
ES (1) ES2325151T3 (ko)
WO (1) WO2002007061A2 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140116511A (ko) * 2012-01-20 2014-10-02 퀄컴 인코포레이티드 리던던트 프레임 코딩 및 디코딩을 위한 디바이스들
US10068578B2 (en) 2013-07-16 2018-09-04 Huawei Technologies Co., Ltd. Recovering high frequency band signal of a lost frame in media bitstream according to gain gradient
US10311885B2 (en) 2014-06-25 2019-06-04 Huawei Technologies Co., Ltd. Method and apparatus for recovering lost frames

Families Citing this family (90)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
AU2001253752A1 (en) * 2000-04-24 2001-11-07 Qualcomm Incorporated Method and apparatus for predictively quantizing voiced speech
US6983242B1 (en) * 2000-08-21 2006-01-03 Mindspeed Technologies, Inc. Method for robust classification in speech coding
US7133823B2 (en) * 2000-09-15 2006-11-07 Mindspeed Technologies, Inc. System for an adaptive excitation pattern for speech coding
US7010480B2 (en) * 2000-09-15 2006-03-07 Mindspeed Technologies, Inc. Controlling a weighting filter based on the spectral content of a speech signal
US6856961B2 (en) * 2001-02-13 2005-02-15 Mindspeed Technologies, Inc. Speech coding system with input signal transformation
US6871176B2 (en) * 2001-07-26 2005-03-22 Freescale Semiconductor, Inc. Phase excited linear prediction encoder
DE60234195D1 (de) * 2001-08-31 2009-12-10 Kenwood Corp Vorrichtung und verfahren zum erzeugen eines tonhöhen-kurvenformsignals und vorrichtung und verfahren zum komprimieren, dekomprimieren und synthetisieren eines sprachsignals damit
US7095710B2 (en) * 2001-12-21 2006-08-22 Qualcomm Decoding using walsh space information
EP1383110A1 (fr) * 2002-07-17 2004-01-21 STMicroelectronics N.V. Procédé et dispositif d'encodage de la parole à bande élargie, permettant en particulier une amélioration de la qualité des trames de parole voisée
GB2391440B (en) * 2002-07-31 2005-02-16 Motorola Inc Speech communication unit and method for error mitigation of speech frames
JP4303687B2 (ja) 2003-01-30 2009-07-29 富士通株式会社 音声パケット消失隠蔽装置,音声パケット消失隠蔽方法,受信端末および音声通信システム
US7155386B2 (en) * 2003-03-15 2006-12-26 Mindspeed Technologies, Inc. Adaptive correlation window for open-loop pitch
KR20060011854A (ko) * 2003-05-14 2006-02-03 오끼 덴끼 고오교 가부시끼가이샤 소거된 주기 신호 데이터를 은닉하는 장치 및 방법
KR100546758B1 (ko) * 2003-06-30 2006-01-26 한국전자통신연구원 음성의 상호부호화시 전송률 결정 장치 및 방법
KR100516678B1 (ko) * 2003-07-05 2005-09-22 삼성전자주식회사 음성 코덱의 음성신호의 피치검출 장치 및 방법
US7146309B1 (en) * 2003-09-02 2006-12-05 Mindspeed Technologies, Inc. Deriving seed values to generate excitation values in a speech coder
US20050065787A1 (en) * 2003-09-23 2005-03-24 Jacek Stachurski Hybrid speech coding and system
US7536298B2 (en) * 2004-03-15 2009-05-19 Intel Corporation Method of comfort noise generation for speech communication
CN1989548B (zh) * 2004-07-20 2010-12-08 松下电器产业株式会社 语音解码装置及补偿帧生成方法
US7873515B2 (en) * 2004-11-23 2011-01-18 Stmicroelectronics Asia Pacific Pte. Ltd. System and method for error reconstruction of streaming audio information
US7519535B2 (en) * 2005-01-31 2009-04-14 Qualcomm Incorporated Frame erasure concealment in voice communications
US20060190251A1 (en) * 2005-02-24 2006-08-24 Johannes Sandvall Memory usage in a multiprocessor system
US7418394B2 (en) * 2005-04-28 2008-08-26 Dolby Laboratories Licensing Corporation Method and system for operating audio encoders utilizing data from overlapping audio segments
JP2007010855A (ja) * 2005-06-29 2007-01-18 Toshiba Corp 音声再生装置
US9058812B2 (en) * 2005-07-27 2015-06-16 Google Technology Holdings LLC Method and system for coding an information signal using pitch delay contour adjustment
CN1929355B (zh) * 2005-09-09 2010-05-05 联想(北京)有限公司 语音包丢失恢复系统以及方法
JP2007114417A (ja) * 2005-10-19 2007-05-10 Fujitsu Ltd 音声データ処理方法及び装置
FR2897977A1 (fr) * 2006-02-28 2007-08-31 France Telecom Procede de limitation de gain d'excitation adaptative dans un decodeur audio
US7457746B2 (en) 2006-03-20 2008-11-25 Mindspeed Technologies, Inc. Pitch prediction for packet loss concealment
KR100900438B1 (ko) * 2006-04-25 2009-06-01 삼성전자주식회사 음성 패킷 복구 장치 및 방법
US8255213B2 (en) 2006-07-12 2012-08-28 Panasonic Corporation Speech decoding apparatus, speech encoding apparatus, and lost frame concealment method
JPWO2008007698A1 (ja) * 2006-07-12 2009-12-10 パナソニック株式会社 消失フレーム補償方法、音声符号化装置、および音声復号装置
US7877253B2 (en) * 2006-10-06 2011-01-25 Qualcomm Incorporated Systems, methods, and apparatus for frame erasure recovery
US8489392B2 (en) 2006-11-06 2013-07-16 Nokia Corporation System and method for modeling speech spectra
KR100862662B1 (ko) 2006-11-28 2008-10-10 삼성전자주식회사 프레임 오류 은닉 방법 및 장치, 이를 이용한 오디오 신호복호화 방법 및 장치
KR101291193B1 (ko) * 2006-11-30 2013-07-31 삼성전자주식회사 프레임 오류은닉방법
CN100578618C (zh) * 2006-12-04 2010-01-06 华为技术有限公司 一种解码方法及装置
JP5238512B2 (ja) * 2006-12-13 2013-07-17 パナソニック株式会社 オーディオ信号符号化方法及び復号化方法
CN101286320B (zh) * 2006-12-26 2013-04-17 华为技术有限公司 增益量化系统用于改进语音丢包修补质量的方法
US8688437B2 (en) 2006-12-26 2014-04-01 Huawei Technologies Co., Ltd. Packet loss concealment for speech coding
CN101226744B (zh) * 2007-01-19 2011-04-13 华为技术有限公司 语音解码器中实现语音解码的方法及装置
CN101009098B (zh) * 2007-01-26 2011-01-26 清华大学 声码器增益参数分模式抗信道误码方法
CN101256774B (zh) * 2007-03-02 2011-04-13 北京工业大学 用于嵌入式语音编码的帧擦除隐藏方法及系统
WO2008108080A1 (ja) * 2007-03-02 2008-09-12 Panasonic Corporation 音声符号化装置及び音声復号装置
CN101325631B (zh) 2007-06-14 2010-10-20 华为技术有限公司 一种估计基音周期的方法和装置
CN101887723B (zh) * 2007-06-14 2012-04-25 华为终端有限公司 一种对基音周期进行微调的方法和装置
JP2009063928A (ja) * 2007-09-07 2009-03-26 Fujitsu Ltd 補間方法、情報処理装置
US20090094026A1 (en) * 2007-10-03 2009-04-09 Binshi Cao Method of determining an estimated frame energy of a communication
CN100550712C (zh) * 2007-11-05 2009-10-14 华为技术有限公司 一种信号处理方法和处理装置
KR100998396B1 (ko) * 2008-03-20 2010-12-03 광주과학기술원 프레임 손실 은닉 방법, 프레임 손실 은닉 장치 및 음성송수신 장치
CN101339767B (zh) * 2008-03-21 2010-05-12 华为技术有限公司 一种背景噪声激励信号的生成方法及装置
CN101604523B (zh) * 2009-04-22 2012-01-04 网经科技(苏州)有限公司 在g.711语音编码中隐藏冗余信息的方法
US9020812B2 (en) * 2009-11-24 2015-04-28 Lg Electronics Inc. Audio signal processing method and device
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US8280726B2 (en) * 2009-12-23 2012-10-02 Qualcomm Incorporated Gender detection in mobile phones
RU2510974C2 (ru) 2010-01-08 2014-04-10 Ниппон Телеграф Энд Телефон Корпорейшн Способ кодирования, способ декодирования, устройство кодера, устройство декодера, программа и носитель записи
US9082416B2 (en) 2010-09-16 2015-07-14 Qualcomm Incorporated Estimating a pitch lag
CN101976567B (zh) * 2010-10-28 2011-12-14 吉林大学 一种语音信号差错掩盖方法
CA2827249C (en) 2011-02-14 2016-08-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing a decoded audio signal in a spectral domain
KR101525185B1 (ko) 2011-02-14 2015-06-02 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 트랜지언트 검출 및 품질 결과를 사용하여 일부분의 오디오 신호를 코딩하기 위한 장치 및 방법
PL3239978T3 (pl) 2011-02-14 2019-07-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodowanie i dekodowanie pozycji impulsów ścieżek sygnału audio
JP5849106B2 (ja) * 2011-02-14 2016-01-27 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 低遅延の統合されたスピーチ及びオーディオ符号化におけるエラー隠しのための装置及び方法
BR112012029132B1 (pt) 2011-02-14 2021-10-05 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V Representação de sinal de informações utilizando transformada sobreposta
JP5625126B2 (ja) 2011-02-14 2014-11-12 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン スペクトル領域ノイズ整形を使用する線形予測ベースコーディングスキーム
US9626982B2 (en) 2011-02-15 2017-04-18 Voiceage Corporation Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a CELP codec
RU2591021C2 (ru) * 2011-02-15 2016-07-10 Войсэйдж Корпорейшн Устройство и способ для квантования усилений адаптивного и фиксированного вкладов возбуждения в кодеке celp
KR101757338B1 (ko) 2013-06-21 2017-07-26 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. 오디오 신호의 대체 프레임에 대한 스펙트럼 계수들을 획득하기 위한 방법과 장치, 오디오 디코더, 오디오 수신기 및 오디오 신호들의 전송을 위한 시스템
EP3011561B1 (en) 2013-06-21 2017-05-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for improved signal fade out in different domains during error concealment
CN104240715B (zh) * 2013-06-21 2017-08-25 华为技术有限公司 用于恢复丢失数据的方法和设备
CN107818789B (zh) 2013-07-16 2020-11-17 华为技术有限公司 解码方法和解码装置
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
KR101854296B1 (ko) 2013-10-31 2018-05-03 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 시간 도메인 여기 신호를 변형하는 오류 은닉을 사용하여 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더 및 방법
LT3511935T (lt) 2014-04-17 2021-01-11 Voiceage Evs Llc Būdas, įrenginys ir kompiuteriu nuskaitoma neperkeliama atmintis garso signalų tiesinės prognozės kodavimui ir dekodavimui po perėjimo tarp kadrų su skirtingais mėginių ėmimo greičiais
KR101597768B1 (ko) * 2014-04-24 2016-02-25 서울대학교산학협력단 입체 음향을 이용한 다자간 인터랙티브 통화 시스템 및 방법
US9583115B2 (en) * 2014-06-26 2017-02-28 Qualcomm Incorporated Temporal gain adjustment based on high-band signal characteristic
CN105225670B (zh) * 2014-06-27 2016-12-28 华为技术有限公司 一种音频编码方法和装置
US9978388B2 (en) 2014-09-12 2018-05-22 Knowles Electronics, Llc Systems and methods for restoration of speech components
WO2016142002A1 (en) * 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
CN107248411B (zh) * 2016-03-29 2020-08-07 华为技术有限公司 丢帧补偿处理方法和装置
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
US20170365271A1 (en) * 2016-06-15 2017-12-21 Adam Kupryjanow Automatic speech recognition de-reverberation
US9978392B2 (en) * 2016-09-09 2018-05-22 Tata Consultancy Services Limited Noisy signal identification from non-stationary audio signals
CN108922551B (zh) * 2017-05-16 2021-02-05 博通集成电路(上海)股份有限公司 用于补偿丢失帧的电路及方法
EP3483886A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
JP6914390B2 (ja) * 2018-06-06 2021-08-04 株式会社Nttドコモ 音声信号処理方法
CN111105804B (zh) * 2019-12-31 2022-10-11 广州方硅信息技术有限公司 语音信号处理方法、系统、装置、计算机设备和存储介质
CN111933156B (zh) * 2020-09-25 2021-01-19 广州佰锐网络科技有限公司 基于多重特征识别的高保真音频处理方法及装置
CN112489665B (zh) * 2020-11-11 2024-02-23 北京融讯科创技术有限公司 语音处理方法、装置以及电子设备
CN112802453B (zh) * 2020-12-30 2024-04-26 深圳飞思通科技有限公司 快速自适应预测拟合语音方法、系统、终端及存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69232202T2 (de) * 1991-06-11 2002-07-25 Qualcomm Inc Vocoder mit veraendlicher bitrate
US5255343A (en) * 1992-06-26 1993-10-19 Northern Telecom Limited Method for detecting and masking bad frames in coded speech signals
US5502713A (en) * 1993-12-07 1996-03-26 Telefonaktiebolaget Lm Ericsson Soft error concealment in a TDMA radio system
US5699478A (en) 1995-03-10 1997-12-16 Lucent Technologies Inc. Frame erasure compensation technique
CA2177413A1 (en) * 1995-06-07 1996-12-08 Yair Shoham Codebook gain attenuation during frame erasures
EP0883107B9 (en) * 1996-11-07 2005-01-26 Matsushita Electric Industrial Co., Ltd Sound source vector generator, voice encoder, and voice decoder
US6148282A (en) * 1997-01-02 2000-11-14 Texas Instruments Incorporated Multimodal code-excited linear prediction (CELP) coder and method using peakiness measure
US6233550B1 (en) * 1997-08-29 2001-05-15 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US6351730B2 (en) * 1998-03-30 2002-02-26 Lucent Technologies Inc. Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment
US6810377B1 (en) * 1998-06-19 2004-10-26 Comsat Corporation Lost frame recovery techniques for parametric, LPC-based speech coding systems
US6240386B1 (en) * 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
KR100281181B1 (ko) * 1998-10-16 2001-02-01 윤종용 약전계에서 코드 분할 다중 접속 시스템의 코덱 잡음 제거 방법
US6549587B1 (en) * 1999-09-20 2003-04-15 Broadcom Corporation Voice and data exchange over a packet based network with timing recovery
US7423983B1 (en) * 1999-09-20 2008-09-09 Broadcom Corporation Voice and data exchange over a packet based network

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140116511A (ko) * 2012-01-20 2014-10-02 퀄컴 인코포레이티드 리던던트 프레임 코딩 및 디코딩을 위한 디바이스들
US10068578B2 (en) 2013-07-16 2018-09-04 Huawei Technologies Co., Ltd. Recovering high frequency band signal of a lost frame in media bitstream according to gain gradient
US10614817B2 (en) 2013-07-16 2020-04-07 Huawei Technologies Co., Ltd. Recovering high frequency band signal of a lost frame in media bitstream according to gain gradient
US10311885B2 (en) 2014-06-25 2019-06-04 Huawei Technologies Co., Ltd. Method and apparatus for recovering lost frames
US10529351B2 (en) 2014-06-25 2020-01-07 Huawei Technologies Co., Ltd. Method and apparatus for recovering lost frames

Also Published As

Publication number Publication date
ATE317571T1 (de) 2006-02-15
CN1212606C (zh) 2005-07-27
AU2001266278A1 (en) 2002-01-30
JP2004504637A (ja) 2004-02-12
KR20030040358A (ko) 2003-05-22
JP2004206132A (ja) 2004-07-22
KR100754085B1 (ko) 2007-08-31
CN1267891C (zh) 2006-08-02
EP1577881A3 (en) 2005-10-19
JP4222951B2 (ja) 2009-02-12
EP1301891A2 (en) 2003-04-16
EP1363273B1 (en) 2009-04-01
CN1441950A (zh) 2003-09-10
EP2093756B1 (en) 2012-10-31
WO2002007061A2 (en) 2002-01-24
DE60138226D1 (de) 2009-05-14
EP1363273A1 (en) 2003-11-19
EP1301891B1 (en) 2006-02-08
CN1516113A (zh) 2004-07-28
EP2093756A1 (en) 2009-08-26
DE60117144D1 (de) 2006-04-20
JP4137634B2 (ja) 2008-08-20
KR20040005970A (ko) 2004-01-16
ATE427546T1 (de) 2009-04-15
ES2325151T3 (es) 2009-08-27
WO2002007061A3 (en) 2002-08-22
EP1577881A2 (en) 2005-09-21
KR100742443B1 (ko) 2007-07-25
CN1722231A (zh) 2006-01-18
US6636829B1 (en) 2003-10-21
DE60117144T2 (de) 2006-10-19
JP2006011464A (ja) 2006-01-12

Similar Documents

Publication Publication Date Title
KR100754085B1 (ko) 손실 프레임을 처리하기 위한 음성 통신 시스템 및 방법
US10181327B2 (en) Speech gain quantization strategy
US7693710B2 (en) Method and device for efficient frame erasure concealment in linear predictive based speech codecs
AU2001255422A1 (en) Gains quantization for a celp speech coder
KR20070001276A (ko) 신호 인코딩
KR100216018B1 (ko) 배경음을 엔코딩 및 디코딩하는 방법 및 장치
US7146309B1 (en) Deriving seed values to generate excitation values in a speech coder
US5806027A (en) Variable framerate parameter encoding
KR102099293B1 (ko) 오디오 인코더 및 오디오 신호를 인코딩하는 방법
WO2003001172A1 (en) Method and device for coding speech in analysis-by-synthesis speech coders

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application