KR100804888B1 - 프레임 에러에 대한 민감도를 감소시키기 위하여 코딩 방식선택 패턴을 사용하는 예측 음성 코더 - Google Patents

프레임 에러에 대한 민감도를 감소시키기 위하여 코딩 방식선택 패턴을 사용하는 예측 음성 코더 Download PDF

Info

Publication number
KR100804888B1
KR100804888B1 KR1020077025873A KR20077025873A KR100804888B1 KR 100804888 B1 KR100804888 B1 KR 100804888B1 KR 1020077025873 A KR1020077025873 A KR 1020077025873A KR 20077025873 A KR20077025873 A KR 20077025873A KR 100804888 B1 KR100804888 B1 KR 100804888B1
Authority
KR
South Korea
Prior art keywords
frame
speech
coding
pattern
predictive
Prior art date
Application number
KR1020077025873A
Other languages
English (en)
Other versions
KR20070112894A (ko
Inventor
사라쓰 만주나쓰
앤드류 피. 데자코
아라사니팔라이 케이. 아난싸파드마나반
에디 런 틱 초이
Original Assignee
콸콤 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 콸콤 인코포레이티드 filed Critical 콸콤 인코포레이티드
Publication of KR20070112894A publication Critical patent/KR20070112894A/ko
Application granted granted Critical
Publication of KR100804888B1 publication Critical patent/KR100804888B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters

Abstract

프레임 에러 상태에 대한 민감도를 감소시키기 위하여 예측 음성 코더에서 코딩 방식 선택 패턴을 사용하는 방법 및 장치는 여러 예측 코딩 모드중에서 선택하도록 구성된 음성 코더를 포함한다. 미리결정된 개수의 음성 프레임이 예측 코딩된 후, 음성 코더는 비예측 코딩 모드 또는 중간 정도의(mildly) 예측 코딩 모드를 이용하여 하나의 프레임을 코딩한다. 프레임의 미리결정된 개수는 청취자의 개인적인 관점으로부터 미리 결정될 수 있다. 프레임의 미리결정된 개수는 정기적으로 변경될 수 있다. 평균 코딩 비트율은 평균 코딩 비트율이 예측 코딩된 음성 프레임의 각각의 연속적 패턴 또는 그룹에 대하여 유지될 수 있다는 것을 보장함으로써 음성 코더에 대하여 유지될 수 있으며, 예측 코딩된 음성 프레임은 적어도 하나의 비예측 코딩된 음성 프레임 또는 중간 정도로(mildly) 예측 코딩된 음성 프레임을 포함한다.

Description

프레임 에러에 대한 민감도를 감소시키기 위하여 코딩 방식 선택 패턴을 사용하는 예측 음성 코더{A PREDICTIVE SPEECH CODER USING CODING SCHEME SELECTION PATTERNS TO REDUCE SENSITIVITY TO FRAME ERRORS}
본 발명은 음성 처리 분야에 관한 것으로, 특히 예측 음성 코더의 프레임 에러 상태에 대한 민감도를 감소시키는 방법 및 장치에 관한 것이다.
디지털 기술에 의한 음성 전송은 특히 장거리와 디지털 무선 전화기 애플리케이션에서 만연되었다. 이는 재구성된 음성의 인식된 품질을 유지하면서 채널을 통하여 전송될 수 있는 최소한의 정보를 결정하는 데 관심을 유발시켰다. 만일 음성이 단순하게 샘플링 및 디지타이징(digitizing)에 의하여 전송된다면, 초당 64킬로비트 정도의 데이터율이 통상적인 아날로그 전화의 음성 품질을 달성하는데 요구된다. 그러나 수신기에서 적당한 코딩, 전송 및 재합성에 의한 음성 분석의 사용에 의하여, 데이터율의 상당한 감소가 가능하다.
사람의 음성 발생 모델과 연관된 파라미터를 추출함으로써 음성을 압축하는 기술을 사용하는 장치는 음성 코더라 불린다. 음성 코더는 입력 음성 신호를 시간 블록 또는 분석 프레임으로 분할한다. 음성 코더는 전형적으로 인코더 및 디코더 를 포함한다. 인코더는 특정한 관련 파라미터를 추출한 후, 이 파라미터를 2진 표현, 즉 한 세트의 비트 또는 2진 데이터 패킷으로 양자화하기 위하여 입력 음성 프레임을 분석한다. 데이터 패킷은 통신 채널을 통하여 수신기 및 디코더로 전송된다. 디코더는 파라미터를 생성하기 위하여 데이터 패킷을 처리하고, 이를 역양자화하며, 역양자화된 파라미터를 사용하여 음성 프레임을 재합성한다.
음성 코더의 기능은 음성에 내재된 모든 특성 리던던시를 제거함으로써 디지털화된 음성 신호를 저비트율 신호로 압축하는 것이다. 디지털 압축은 한 세트의 파라미터를 이용하여 입력 음성 프레임을 표현하며, 이 파라미터를 한 세트의 비트를 이용하여 표현하도록 양자화를 이용함으로써 달성된다. 만일 입력 음성 프레임이 다수의 비트들 Ni를 가지고, 음성 코더에 의하여 생성된 데이터 패킷이 다수의 비트들 N0를 가진다면, 음성 코더에 의하여 달성된 압축 인자는 Cr=Ni/N0이다. 문제는 목표 압축 인자를 달성하면서 디코딩된 음성의 높은 음성 품질을 유지하는 것이다. 음성 코더의 성능은 (1) 음성 모델, 또는 분석 및 합성 프로세스의 조합이 상술한 설명을 얼마나 잘 수행하는지와 (2) 파라미터 양자화 프로세스가 프레임당 N0 비트인 목표 비트율에서 얼마나 잘 수행되는가에 달려있다. 따라서 음성 모델의 목표는 각 프레임에 대하여 적은 세트의 파라미터를 이용하여 음성 신호의 본질 또는 목표 음성 품질을 획득하는 것이다.
아마도 음성 코더의 설계시에 가장 중요한 것은 음성 신호를 기술하기 위한 충분한 세트의 파라미터(벡터 포함)에 대한 탐색이다. 충분한 세트의 파라미터는 인식할 수 있을 정도로 정확한 음성 신호의 재구성을 위한 작은 시스템 대역폭을 요구한다. 피치(pitch), 신호 전력, 스펙트럼 엔벨로프(또는 포르만트(formant)), 진폭 및 위상 스펙트럼이 음성 코딩 파라미터의 예이다.
음성 코더는 한번에 적은 음성의 세그멘트(전형적으로 5밀리초(ms) 서브프레임)를 인코딩하기 위하여 높은 시간분해 처리를 실시함으로써 시간영역 음성 파형 포착을 시도하는 시간영역 코더로서 수행될 수 있다. 각각의 서브프레임에 대하여, 코드북 공간으로부터의 고정밀 표현은 기술상 공지된 여러 탐색 알고리즘에 의하여 발견된다. 선택적으로, 음성 코더는 한 세트의 파라미터(분석)를 이용하여 입력 음성 프레임의 단기 음성 스펙트럼 포착을 시도하며 스펙트럼 파라미터로부터 음성 파형을 재생하도록 해당 합성 프로세스를 이용하는 주파수 영역 코더로 수행될 수 있다. 파라미터 양자화기는 A. Gersho & R.M. Gray, Vector Quantization and Signal Compression(1992)에 설명된 공지된 양자화 기술에 따라 코드 벡터의 저장된 표현을 이용하여 이들을 표현함으로써 파라미터를 보존한다.
공지된 시간 영역 음성 코더는 L.B. Rabiner & R.W. Schafer, Digital Porcessing of Speech Signals 396-453(1978)에 개시된 코드 여기 선형 예측(CELP) 코더이다. CELP 코더에서, 음성 신호의 단기 상관 또는 리던던시는 단기 포르만트 필터의 계수를 발견하는 선형 예측(LP) 분석에 의하여 제거된다. 입력 음성 프레임에 단기 예측 필터를 적용하는 것은 장기 예측 필터 파라미터 및 후속 확률 코드북을 이용하여 추가로 모델링 및 양자화되는 LP 잔여 신호를 생성한다. 그러므로 CELP 코딩은 시간 영역 음성 파형을 인코딩하는 작업을 LP 단기 필터 계수를 인코 딩하고 LP 잔여 신호를 인코딩하는 별개의 작업으로 나눈다. 시간 영역 코딩은 고정율(즉, 각 프레임에 대하여 N0의 동일한 비트수를 사용) 또는 가변율(서로 다른 비트가 서로 다른 타입의 프레임 컨텐츠에 사용됨)로 수행될 수 있다. 가변율 코더는 목표 품질을 획득하는데 적당한 레벨로 코덱 파라미터를 인코딩하는데 요구되는 비트량만을 사용하려고 한다. 전형적인 가변율 CELP 코더는 본 발명의 양수인에게 양도되고 본 명세서에서 상호참조되는 미국 특허번호 제 5,414,796호에 개시되어 있다.
CELP 코더와 같은 시간 영역 코더는 전형적으로 시간 영역 음성 파형의 정확도를 유지하기 위하여 프레임당 N0의 높은 비트수에 의존한다. 상기 코더는 전형적으로 상대적으로 큰 프레임당 N0 비트수(예를 들어, 8kbps이상)가 제공된 우수한 음성 품질을 전달한다. 그러나 낮은 비트율(4kbps이하)에서, 시간 영역 코더는 제한된 이용가능 비트수로 인해 고품질 및 확실한 성능을 유지하는데 실패한다. 낮은 비트율에서, 제한된 코드북 공간은 통상적인 시간 영역 코더의 파형 정합 능력을 고정하며, 이는 보다 높은 비트율의 상업적인 애플리케이션에서도 성공적으로 배치된다. 그러므로 시간에 대한 개선에도 불구하고, 낮은 비트율에서 동작하는 여러 CELP 코딩 시스템은 잡음으로서 전형화된 심각한 왜곡을 경험한다.
따라서 낮은 비트율(즉, 2.4내지 4kbps 및 그 이하의 범위)에서 적절하게 동작하는 고품질 음성 코더를 개발할 필요가 있다. 그 응용범위는 무선 전화, 위성 통신, 인터넷 전화, 여러 멀티미디어 및 음성 스트리밍 애플리케이션, 음성 메일 및 다른 음성 저장 시스템을 포함한다. 고성능을 위한 요구 및 패킷 손실 상황하에서의 확실한 성능에 대한 요구가 주요 현안이다. 최근의 여러 음성 코딩 표준화를 위한 노력은 낮은 레이트의 음성 코딩 알고리즘의 연구 및 개발을 촉진시키는 다른 방향의 주요 현안이다. 낮은 레이트의 음성 코더는 허용가능 애플리케이션 대역폭에 대하여 더 많은 채널 또는 사용자를 생성하며, 적당한 채널 코딩의 추가 계층과 결합된 낮은 레이트의 음성 코더는 코더 스펙의 전체 비트-버짓(bit-budget)을 적응시키며 채널 에러 상태하에서 확실한 성능을 전달한다. 전형적인 낮은 레이트의 음성 코더는 본 발명의 양수인에게 양도되고 본 명세서에서 상호참조되며, 1998년 12월 21일에 출원되고 VARIABLE RATE SPEECH CODING으로 명명된 미국 출원번호 09/217,341--현재 미국 특허 번호 6,691,084호--에 개시된 프로토타입 피치 피리어드(PPP;Prototype Pitch Period) 음성 코더이다.
CELP 코더, PPP 코더 및 파형 보간(WI) 코더와 같은 통상적인 예측 음성 코더에서, 코딩 방식은 과거 출력에 크게 의존한다. 그러므로 만일 프레임 에러 또는 프레임 소거가 디코더에서 수신되었다면, 디코더는 해당 프레임에 대한 자신의 최상 대체물을 생성하여야 한다. 디코더는 전형적으로 이전 출력의 지능적 프레임 반복을 사용한다. 디코더는 자신의 대체물을 생성하여야 하기 때문에, 디코더 및 인코더는 서로에 대한 동기를 잃게된다. 그러므로 후속 프레임이 디코더에 도달하였을 때, 만일 프레임이 예측 코딩되었다면, 디코더는 사용된 인코더와 다른 이전 출력을 참조한다. 이는 음성 품질 또는 음성 코더 성능의 감소를 야기시킨다. 음성 코더가 예측 코딩 기술에 더욱 크게 의존할수록(즉, 음성 코더가 더 많은 프레 임을 예측 인코딩 할수록), 성능은 크게 감소된다. 그러므로 예측 음성 코더에서 프레임 에러 상태에 대한 민감도를 감소시키는 방법이 필요하다.
본 발명은 예측 음성 코더에서 프레임 에러 상태에 대한 민감도를 감소시키는 방법에 관한 것이다. 따라서 본 발명의 일 양상에서, 음성 코더가 제공된다. 음성 코더는 유리하게 적어도 하나의 예측 코딩 모드; 적어도 하나의 비예측 코딩 모드; 및 상기 적어도 하나의 예측 코딩 모드 및 상기 적어도 하나의 비예측 코딩 모드에 결합된 프로세서를 포함하며, 상기 프로세서는 코딩된 음성 프레임의 패턴에 따라 코딩 모드를 선택함으로써 연속하는 음성 프레임이 코딩되도록 구성되고, 상기 패턴은 비예측 코딩 모드로 코딩된 적어도 하나의 음성 프레임을 포함한다.
본 발명의 다른 양상에서, 음성 프레임을 코딩하는 방법이 제공된다. 이 방법은 유리하게 예측 코딩 모드로 미리결정된 개수의 연속하는 음성 프레임을 코딩하는 단계; 예측 코딩 모드로 미리결정된 개수의 연속하는 음성 프레임을 코딩하는 단계를 수행한 후, 비예측 코딩 모드로 적어도 하나의 음성 프레임을 코딩하는 단계; 및 패턴에 따라 코딩된 다수의 음성 프레임을 생성하기 위하여 상기 두개 코딩 단계를 반복하는 단계를 포함한다.
본 발명의 다른 양상에서, 음성 코더가 제공된다. 이 음성 코더는 유리하게 예측 코딩 모드로 미리결정된 개수의 연속하는 음성 프레임을 코딩하는 수단; 미리결정된 개수의 연속하는 음성 프레임이 예측 코딩 모드로 코딩된 후, 비예측 코딩 모드로 적어도 하나의 음성 프레임을 코딩하는 수단; 및 패턴에 따라 코딩된 다수 의 음성 프레임을 생성하는 수단을 포함하며, 상기 패턴은 비예측 코딩 모드로 코딩된 적어도 하나의 음성 프레임을 포함한다.
본 발명의 다른 양상에서, 음성 프레임을 코딩하는 방법이 제공된다. 이 방법은 유리하게 패턴에 따라 다수의 음성 프레임을 코딩하는 단계를 포함하며, 상기 패턴은 적어도 하나의 예측 코딩된 음성 프레임 및 적어도 하나의 비예측 코딩된 음성 프레임을 포함한다.
본 발명의 다른 양상에서, 음성 프레임을 코딩하는 방법이 제공된다. 이 방법은 유리하게 패턴에 따라 다수의 음성 프레임을 코딩하는 단계를 포함하며, 상기 패턴은 적어도 하나의 충분한(heavily) 예측 코딩 음성 프레임 및 적어도 하나의 중간정도의(mildly) 예측 코딩 음성 프레임을 포함한다.
도 1에서 제 1 인코더(100)는 디지털화된 음성 샘플(s(n))을 수신하고 전송 매체(102) 또는 통신 채널(102)을 통하여 제 1 디코더(104)에 전송하기 위하여 이 샘플(s(n))을 인코딩한다. 전송 매체(102)는 예를 들면 육상기반 통신 라인, 기지국 및 위성 사이의 링크, 셀룰러 또는 PCS 전화 및 기지국 사이의 무선 통신 채널, 또는 셀룰러 또는 PCS 전화 및 위성 사이의 무선 통신 채널일 수 있다. 음성 샘플(s(n))은 유리하게 후술하는 바와 같이 여러 코드북 인덱스 및 양자화된 잡음 형태로 인코딩된다. 디코더(104)는 인코딩된 음성 샘플을 디코딩하고 출력 음성 신호(sSYNTH(n))를 합성한다. 디코딩 프로세스는 유리하게 후술하는 바와 같이 출력 음성 신호(sSYNTH(n))를 합성하는데 이용될 적당한 값을 결정하기 위하여 여러 코드북을 탐색하도록 전송된 코드북 인덱스를 이용하는 것을 포함한다. 반대 방향에서의 전송을 위하여, 제 2 인코더(106)는 통신 채널(108)을 통해 전송된 디지털화된 음성 샘플(s(n))을 인코딩한다. 제 2 디코더(110)는 인코딩된 음성 샘플을 수신하여 디코딩하고, 합성된 출력 음성 신호(sSYNTH(n))를 생성한다.
음성 샘플(s(n))은 예를 들어 μ-법칙 또는 A-법칙으로 압신된 펄스 코드 변조(PCM)를 포함하는 공지된 여러 방법에 따라 디지털화되고 양자화된 음성 신호를 나타낸다. 공지된 바와 같이, 음성 샘플(s(n))은 각각의 프레임이 미리결정된 개수의 디지털화된 음성 샘플(s(n))을 포함하는 입력 데이터의 프레임으로 구성된다. 이 프레임은 다시 서브프레임으로 세분될 수 있다. 전형적인 실시예에서, 각 프레임은 네개의 서브프레임을 포함한다. 전형적인 실시예에서, 8kHZ의 샘플링율이 사용되며, 각각의 20ms 프레임은 160샘플을 포함한다. 후술된 실시예에서, 데이터 전송율은 프레임 대 프레임 기반에서 유리하게 변경될 수 있다. 예를 들어, 데이터 전송율은 완전율에서 1/2율, 1/4율, 1/8율로 변경될 수 있다. 가변 데이터 전송율은 저비트율이 상대적으로 적은 음성 정보를 포함하는 프레임에 선택적으로 이용될 수 있기 때문에 유리하다. 당업자가 이해하는 바와 같이, 여러 샘플링율, 프레임 크기 및 데이터 전송율이 사용될 수 있다.
제 1 인코더(100) 및 제 2 디코더(110)는 모두 제 1 음성 코더 또는 음성 코덱을 포함한다. 음성 코더는 예를 들어 셀룰러 또는 PCS 전화, 기지국 및/또는 기 지국 제어기를 포함하는 음성 신호를 전송하는 임의의 통신 장치에 사용될 수 있다. 유사하게 제 2 인코더(106) 및 제 1 디코더(104)는 모두 제 2 음성 코더를 포함할 수 있다. 음성 코더가 디지털 신호 프로세서(DSP), 주문형 직접회로(ASIC), 이산 게이트 로직, 펌웨어 또는 임의의 통상적인 프로그램가능한 소프트웨어 모듈 및 마이크로프로세서를 이용하여 구현될 수 있다는 것은 당업자에게 이해된다. 소프트웨어 모듈은 RAM 메모리, 플래쉬 메모리, 레지스터 또는 공지된 임의의 다른 형태의 기록가능한 저장 매체에 상주할 수 있다. 선택적으로, 임의의 통상적인 프로세서, 제어기 또는 상태머신은 마이크로프로세서로 대체될 수 있다. 음성 코딩을 위하여 특정하게 설계된 전형적인 ASIC은 본 발명의 양수인에게 양도되고 본 명세서에서 상호 참조되는 미국 특허 번호 제 5,727,123호 및 1994년 2월 16일자로 출원되고 VOCODER ASIC로 명명된 미국 출원번호 08/197,417호--현재 미국 특허 번호 5,784,532호--에 개시되어 있다.
도 2에서, 음성 코더에서 사용될 수 있는 인코더(200)는 모드 결정 모듈(202), 피치 추정 모듈(204), LP 분석 모듈(206), LP 분석 필터(208), LP 양자화 모듈(210) 및 잔여 양자화 모듈(212)을 포함한다. 입력 음성 프레임(s(n))은 모드 결정 모듈(202), 피치 추정 모듈(204), LP 분석 모듈(206) 및 LP 분석 필터(208)에 제공된다. 모드 결정 모듈(202)은 각각의 입력 음성 프레임(s(n))의 다른 특성중에서 주기성, 에너지, 신호대잡음비(SNR) 또는 제로크로싱율을 기초로하여 모드 인덱스(IM) 및 모드 M을 생성한다. 주기성에 따라 음성 프레임을 분류하는 여러 방법 은 본 발명의 양수인에게 양도되고 본 명세서에서 상호참조되는 미국 특허번호 제 5,911,128호에 개시되어 있다. 이 방법은 또한 무선통신 산업 협회 산업 잠정 표준 TIA/EIA IS-127 및 TIA/EIA IS-733에 통합되어 있다. 전형적인 모드 결정안은 또한 상술한 미국 특허 번호 6,691,084호에 개시되어 있다.
피치 추정 모듈(204)은 각각의 입력 음성 프레임(s(n))을 기초로 피치 인덱스(IP) 및 래그값(PO)을 생성한다. LP 분석 모듈(206)은 LP 파라미터(a)를 생성하기 위하여 각각의 입력 음성 프레임(s(n))에 선형 예측 분석을 수행한다. LP 파라미터(a)는 LP 양자화 모듈(210)에 제공된다. LP 양자화 모듈(210)은 또한 모드 M을 수신하여 모드 종속 방식으로 양자화 프로세스를 수행한다. LP 양자화 모듈(210)은 LP 인덱스(ILP) 및 양자화된 LP 파라미터(
Figure 112007079968516-pat00001
)를 생성한다. LP 분석 필터(208)는 입력 음성 프레임(s(n))에 추가하여 양자화된 LP 파라미터(
Figure 112007079968516-pat00002
)를 수신한다. LP 분석 필터(208)는 양자화된 선형 예측 파라미터(
Figure 112007079968516-pat00003
)를 기초로 입력 음성 프레임(s(n)) 및 재구성된 음성 사이의 에러를 나타내는 LP 잔여 신호(R[n])를 생성한다. LP 잔여 신호(R[n]), 모드 M 및 양자화된 LP 파라미터(
Figure 112007079968516-pat00004
)는 잔여 양자화 모듈(212)에 제공된다. 이들 값을 기초로, 잔여 양자화 모듈(212)은 잔여 인덱스(IR) 및 양자화된 잔여 신호(
Figure 112007079968516-pat00005
)를 생성한다.
도 3에서, 음성 코더에서 사용될 수 있는 디코더(300)는 LP 파라미터 디코딩 모듈(302), 잔여 디코딩 모듈(304), 모드 디코딩 모듈(306) 및 LP 합성 필터(308) 를 포함한다. 모드 디코딩 모듈(306)은 모드 인덱스(IM)를 수신하여 디코딩하고 이로부터 모드 M을 생성한다. LP 파라미터 디코딩 모듈(302)는 모드 M 및 LP 인덱스(ILP)를 수신한다. LP 파라미터 디코딩 모듈(302)은 양자화된 LP 파라미터(
Figure 112007079968516-pat00006
)를 생성하기 위하여 수신된 값을 디코딩한다. 잔여 디코딩 모듈(304)은 잔여 인덱스(IR), 피치 인덱스(IP) 및 모드 인덱스(IM)를 수신한다. 잔여 디코딩 모듈(304)은 양자화된 잔여 신호(
Figure 112007079968516-pat00007
)를 생성하기 위하여 수신된 값을 디코딩한다. 양자화된 잔여 신호(
Figure 112007079968516-pat00008
) 및 양자화된 LP 파라미터(
Figure 112007079968516-pat00009
)는 디코딩된 출력 음성 신호(
Figure 112007079968516-pat00010
)를 합성하는 LP 합성 필터(308)에 제공된다.
도 2의 인코더 및 도 3의 디코더(300)의 모듈에 대한 여러 동작 및 수행 기술은 미국 특허 번호 제 5,414,796호 및 미국 특허 번호 6,691,084호에 개시되어 있다.
도 4에 도시된 바와 같이, 일 실시예를 따르는 음성 코더는 전송용 음성 샘플을 처리하는 한 세트의 단계들을 따른다. 단계 400에서, 음성 코더는 연속하는 프레임의 음성 신호의 디지털 샘플을 수신한다. 주어진 샘플을 수신할 때, 음성 코더는 단계 402로 진행한다. 단계 402에서, 음성 코더는 프레임의 에너지를 검출한다. 에너지는 프레임의 음성 활동의 측정값이다. 음성 검출은 디지털화된 음성 샘플의 크기의 제곱을 합산하고 그 결과된 에너지를 임계값과 비교함으로써 수행된다. 일 실시예에서 임계값은 배경 잡음의 변화되는 레벨에 기초하여 적응된다. 전형적인 가변 임계 음성 활성 검출기는 상술한 미국 특허번호 제 5,414,796호에 개시되어 있다. 어떤 무성음 소리는 배경 잡음으로서 실수로 인코딩될 수 있는 매우 낮은 에너지 샘플일 수 있다. 이를 방지하기 위하여, 저에너지 샘플의 스펙트럼 경사가 상술한 미국 특허번호 제 5,414,796호에 개시된 바와 같이 배경 잡음과 무성음을 구별하는데 사용될 수 있다.
프레임의 에너지를 검출한 후, 음성 코더는 단계 404로 진행한다. 단계 404에서, 음성 코더는 검출된 프레임 에너지가 프레임이 음성 정보를 포함하는 것으로 분류하는데 충분한지를 결정한다. 만일 검출된 프레임 에너지가 미리결정된 임계 레벨 이하로 떨어진다면, 음성 코더는 단계 406으로 진행한다. 단계 406에서, 음성 코더는 배경 잡음(즉, 비음성 또는 침묵)으로 프레임을 인코딩한다. 일 실시예에서, 배경 잡음 프레임은 1/8율로 인코딩된다. 만일 단계 404에서 검출된 프레임 에너지가 미리결정된 임계 레벨에 충족하거나 초과된다면, 프레임은 음성으로 분류되고 음성 코더는 단계 408로 진행한다.
단계 408에서, 음성 코더는 프레임이 무성음인지를 결정, 즉 프레임의 주기성을 검사한다. 주기성 결정의 여러 공지된 방법은 예를 들면 제로 크로싱(zero crossing)의 사용 및 정규화된 자기상관 함수(NACF)의 사용을 포함한다. 특히, 주기성을 검출하기 위하여 제로 크로싱 및 NACF를 사용하는 것은 상술한 미국 특허 번호 제 5,911,128 및 미국 특허 번호 6,691,084호에 개시되어 있다. 또한, 유성음과 무성음을 구별하는데 사용되는 상술한 방법들은 무선통신 산업 협회 산업 잠정 표준 TIA/EIA IS-127 및 TIA/EIA IS-733에 통합되어 있다. 만일 프레임이 단계 408에서 무성음으로 결정되면, 음성 코더는 단계 410으로 진행된다. 단계 410에서, 음성 코더는 프레임을 무성음으로 인코딩한다. 일 실시예에서, 무성음 프레임은 1/4율로 인코딩된다. 만일 단계 408에서, 프레임이 무성음으로 결정되지 않는다면, 음성 코더는 단계 412로 진행된다.
단계 412에서, 음성 코더는 예를 들어 상술한 미국 특허번호 제 5,911,128호에 개시된 바와 같이 공지된 주기성 검출 방법을 사용하여 프레임이 전이음(transitional speech)인지를 결정한다. 만일 프레임이 전이음으로 결정되면, 음성 코더는 단계 414로 진행된다. 단계 414에서, 프레임은 전이음으로 인코딩된다(즉, 무성음으로부터 유성음으로 전이). 일 실시예에서, 전이음 프레임은 본 발명의 양수인에게 양도되고 본 명세서에서 상호 참조되며 1999년 5월 7일자 출원되고 MULTIPLE INTERPOLATIVE CODING OF TRANSITION SPEECH FRAMES로 명명된 미국 특허 번호 6,260,017호에 개시된 다중펄스 보간 코딩 방법에 따라 인코딩된다. 다른 실시예에서, 전이음 프레임은 완전율에서 인코딩된다.
단계 412에서, 음성 코더는 프레임이 전이음이 아닌지를 결정하며, 음성 코더는 단계 416으로 진행된다. 단계 416에서, 음성 코더는 프레임을 유성음으로 인코딩한다. 일 실시예에서, 유성음 프레임은 1/2율로 인코딩될 수 있다. 또한 완전율로 유성음 프레임을 인코딩하는 것이 가능하다. 그러나 당업자들은 1/2율에서 유성음 프레임을 코딩하는 것은 코더로 하여금 유성음 프레임의 정상 상태 특성을 이용함으로써 가치있는 대역폭을 절약하도록 할 수 있다는 것을 이해한다. 게다가, 유성음을 인코딩하는데 사용된 비율과 관계없이, 유성음은 유리하게 과거 프레 임의 정보를 사용하여 코딩되며, 이에 따라 예측적으로 코딩되는 것으로 불린다.
당업자는 음성 신호 또는 해당 LP 잔여 신호중 하나가 도 4에 도시된 바와 같은 단계를 따름으로써 인코딩될 수 있다는 것을 이해할 것이다. 잡음, 무성음, 전이음 및 유성음의 파형 특성은 도 5a의 그래프의 시간 함수로 나타날 것이다. 잡음, 무성음, 전이음 및 유성음 LP 잔여 신호의 파형 특성은 도 5b의 그래프의 시간 함수로 나타날 것이다.
일 실시예에서, 프레임의 일부를 예측적으로 인코딩하는 음성 코더(500)는 도 6에 도시된 바와 같이 결정적 코딩 방식 선택 패턴을 사용함으로써 프레임 에러 상태에 대한 민감도를 감소시키도록 구성된다. 음성 코더(500)는 초기 파라미터 계산 모듈(502), 분류 모듈(504), 제어 프로세서(506), 다수(N)의 예측 코딩 모드(508,510; 간략함을 위해 단지 두개의 예측 코딩 모드(508,510)가 도시되었으며, 나머지 예측 코딩 모드는 점선으로 표시됨) 및 적어도 하나의 비예측 코딩 모드(512)를 포함한다. 초기 파라미터 계산 모듈(502)은 분류 모듈(504)에 결합된다. 분류 모듈(504)은 제어 프로세서(506)에 이어 여러 코딩 모드(508,510,512)에 결합된다. 제어 프로세서는 또한 여러 코딩 모드(508,510,512)에 결합된다.
디지털화된 음성 샘플(s(n))은 음성 코더(500)에 의하여 수신되고 초기 파라미터 계산 모듈(502)에 입력된다. 초기 파라미터 계산 모듈(502)은 예를 들어 선형 예측 계수(LPC 계수), 라인 스펙트럼쌍(LSP) 계수, 정규화된 자기상관 함수(NACF), 오픈 루프 래그 파라미터, 대역 에너지, 제로 크로싱율 및 포르만트 잔여 신호를 포함하는 여러 초기 파라미터를 음성 샘플(s(n))로부터 추출한다. 상기 계산 및 여러 초기 파라미터의 사용은 공지되어 있으며, 상술한 미국 특허번호 제 5,414,796호 및 미국 특허 번호 6,691,084호에 개시되어 있다.
초기 파라미터는 분류 모듈(504)에 제공된다. 초기 파라미터값에 기초하여, 분류 모듈(504)은 도 4를 참조하여 상술한 분류 단계에 따라 음성 프레임을 분류한다. 프레임 분류는 제어 프로세서(506)에 제공되고, 음성 프레임은 여러 코딩 모드(508,510,512)에 제공된다.
제어 프로세서(506)는 유리하게 어떤 모드가 현재의 프레임에 대하여 주어진 음성의 특성에 가장 적절한가에 따라 다중 코딩 모드(508,510,512) 사이에서 프레임으로부터 프레임으로 다이나믹하게 스위칭되도록 구성된다. 특정한 코딩 모드(508,510,512)는 디코더(도시되지 않음)에서 수용할만한 신호 재생성을 유지하는 동안 이용가능한 최저 비트율을 달성하기 위하여 각각의 프레임에 대하여 선택된다. 그러므로 음성 코더(500)의 비트율은 음성 신호(s(n))의 특성이 변함에 따라 시간에 대하여 변화되며, 이 처리는 가변율 음성 코딩으로 참조된다.
일 실시예에서, 제어 프로세서(506)는 현재 음성 프레임의 분류에 기초하여 특정한 예측 코딩 모드(508,510)의 애플리케이션을 지시한다. 예측 코딩 모드(508,510)중 하나는 상술한 미국 특허번호 제 5,414,796호에 개시된 CELP 코딩 모드이다. 다른 예측 코딩 모드(508,510)은 상술한 미국 특허 번호 6,691,084호에 개시된 PPP 코딩 모드이다. 또 다른 예측 코딩 모드(508,510)은 WI 코딩 모드일 수 있다.
일 실시예에서, 비예측 코딩 모드(512)는 중간 정도로 예측되거나 낮은 메모 리의 코딩 방식이다. 예측 코딩 모드(508,512)는 유리하게 충분한 예측 코딩 방식일 수 있다. 선택적인 실시예에서, 비예측 코딩 모드(512)는 완전히 비예측 또는 메모리없는(memoryless) 코딩 방식이다. 완전한 비예측 코딩 모드(512)는 예를 들어 음성 샘플(s(n))의 PCM 인코딩, 음성 샘플(s(n))의 신장된 μ-법칙 인코딩 또는 음성 샘플(s(n))의 A-법칙 인코딩일 수 있다.
하나의 비예측 코딩 모드(512)가 도 6을 참조로 기술된 실시예에 도시되어 있지만, 당업자는 하나 이상의 비예측 코딩 모듈이 사용될 수 있다는 것을 이해한다. 만일 하나 이상의 비예측 코딩 모듈이 사용되었다면, 비예측 코딩 모듈의 타입은 변경될 수 있다. 게다가, 하나 이상의 비예측 코딩 모듈이 사용된 선택적인 실시예에서, 어떤 비예측 코딩 모듈은 중간 정도의 예측 코딩 모듈이다. 그리고 다른 실시예에서, 어떤 비예측 코딩 모듈은 완전한 비예측 코딩 모듈이다.
일 실시예에서, 비예측 코딩 모드(512)는 유리하게 결정적 기간에 제어 프로세서(506)에 의하여 삽입된다. 제어 프로세서(506)는 프레임에서 길이 F를 가진 패턴을 생성한다. 일 실시예에서, 길이 F는 프레임 에러 영향의 최장 허용가능 기간에 기초한다. 최장 허용가능 기간은 유리하게 청취자의 개인적인 관점으로부터 미리 결정될 수 있다. 다른 실시예에서, 길이 F는 제어 프로세서(506)에 의하여 주기적으로 변경된다. 다른 실시예에서, 길이 F는 제어 프로세서(506)에 의하여 랜덤하게 또는 의사 랜덤하게 변경된다. 전형적인 순환 패턴은 PPPN이며, 여기서 P는 예측 코딩 모드(508,510)을 나타내며, N은 비예측 또는 중간정도의 예측 코딩 모드(512)를 나타낸다. 선택적인 실시예에서, 다수의 비예측 코딩 모드가 삽입된 다. 전형적인 패턴은 PPNPPN이다. 패턴 길이 F가 변경되는 실시예에서, 패턴 PPPN후에 패턴 PPN가 후속되며, 패턴 PPN후에 패턴 PPNPPN등이 될 수 있다.
일 실시예에서, 도 6의 음성 코더(500)와 같은 음성 코더는 결정적 간격에서 낮은 메모리 또는 메모리없는 코딩 방식중 하나를 지능적으로 삽입하도록 도 7의 흐름도에 도시된 알로리즘 단계를 수행한다. 단계 600에서, 제어 프로세서(도시되지 않음)는 계수 변수(i)를 제로값으로 세팅한다. 제어 프로세서는 이후에 단계 602로 진행한다. 단계 602에서, 제어 프로세서는 현 프레임의 음성 내용의 분류에 기초하여 현 음성 프레임에 대한 예측 코딩 모드를 선택한다. 제어 프로세서는 이후에 단계 604로 진행한다. 단계 604에서, 제어 프로세서는 선택된 예측 코딩 모드를 이용하여 현 프레임을 인코딩한다. 제어 프로세서는 이후에 단계 606으로 진행한다. 단계 606에서, 제어 프로세서는 계수 변수(i)를 증가시킨다. 제어 프로세서는 이후에 단계 608로 진행한다.
단계 608에서, 제어 프로세서는 계수 변수(i)가 미리결정된 임계값(T)보다 큰지를 결정한다. 미리결정된 임계값(T)은 청취자의 개인적인 관점으로부터 미리 결정된 프레임 에러 영향의 최장 허용가능 기간에 기초할 수 있다. 특정한 실시예에서, 미리결정된 임계값(T)은 흐름도에서 미리결정된 반복 회수동안 고정적으로 유지된 후 제어 프로세서에 의하여 미리결정된 서로 다른 값으로 변경된다. 만일 계수 변수(i)가 미리결정된 임계값(T)보다 크지 않다면, 제어 프로세서는 다음 음성 프레임에 대한 예측 코딩 모드를 선택하기 위하여 단계 602로 복귀한다. 한편, 계수 변수(i)가 미리결정된 임계값(T)보다 크다면 제어 프로세서는 단계 610으로 진행한다. 단계 610에서, 제어 프로세서는 비예측 또는 중간정도의 예측 코딩 모드를 이용하여 다음 음성 프레임을 인코딩한다. 제어 프로세서는 이후에 계수 변수(i)를 다시 제로값으로 세팅하는 단계 600으로 복귀한다.
당업자는 도 7의 흐름도가 예측 코딩된 및 비예측 또는 중간정도의 예측 코딩된 음성 프레임의 서로 다른 순환 패턴을 통합하도록 변경될 수 있다는 것을 이해한다. 예를 들어, 계수 변수(i)는 흐름도를 통하여 각각의 반복에 따라 변경될 수 있거나, 흐름도를 통하여 미리결정된 반복 횟수 이후에 변경될 수 있거나 의사 랜덤 또는 랜덤하게 변경될 수 있다. 또는 예를 들어, 다음의 두개 프레임이 비예측 코딩 모드 또는 중간 정도의 예측 코딩 모드로 단계 610에서 인코딩될 수 있다. 또는 예를 들어 임의의 미리결정된 개수의 프레임 또는 랜덤하게 선택된 수의 프레임 또는 의사 랜덤하게 선택된 수의 프레임 또는 흐름도를 통하여 각각의 반복에 따라 미리결정된 방식으로 변경하는 다수의 프레임이 단계 610에서 비예측 코딩 모드 또는 중간정도의 예측 코딩 모드를 이용하여 인코딩될 수 있다.
일 실시예에서, 도 6의 음성 코더(500)는 가변율 음성 코더(500)이며, 음성 코더(500)의 평균 비트율은 유리하게 유지된다. 특정한 실시예에서, 패턴에 사용된 각각의 예측 코딩 모드(508,510)는 각각의 다른 예측 코딩 모드들과는 다른 비율로 코딩되며, 비예측 코딩 모드(512)는 임의의 예측 코딩 모드(508,510)에 사용된 것과는 다른 비율로 코딩된다. 다른 특정 실시예에서, 예측 코딩 모드(508,510)는 상대적으로 낮은 비트율로 코딩되며, 비예측 코딩 모드(512)는 상대적으로 높은 비트율로 코딩된다. 그러므로, 높은 품질, 낮은 메모리 또는 메모리 없는 코딩 방식은 F 프레임마다 한번씩 삽입되며, 중간 T 고품질, 충분한 예측, 저비트율 코딩 방식은 연속하는 고비트율 프레임들 사이에서 사용되어, 감소된 평균 코딩율을 산출한다. 이 기술은 임의의 예측 음성 코더에 유리하며, 양호한 음성 품질이 단지 충분한 예측 코딩 방식을 사용함으로써 달성될 수 있는 특히 저비트율 음성 코더에 유용하다. 그 예측 특성으로 인한 상기의 저비트율 음성 코더는 프레임 에러에 의하여 야기된 손상에 더욱 예민하다. 예측 코딩 모드(508,510)가 여러 낮은 비트율로 유지되는 동안 주기적으로 고비트율의, 비예측 코딩 모드(512)를 삽입함으로써, 목표된 양호한 음성 품질 및 저평균 코딩율이 모두 달성된다.
일 실시예에서, 평균 코딩율은 유리하게 평균 비율이 R과 동일한 결정적인 반복 패턴으로 음성 세그멘트의 모든 프레임을 코딩함으로써 미리결정된 평균 비율(R)에서 일정하거나 거의 일정하게 유지된다. 전형적인 패턴은 PPN이며, 여기서 P는 예측 코딩 프레임을 나타내고 N은 비예측 또는 중간정도의 예측 코딩 프레임을 나타낸다. 이러한 패턴에서, 제 1 프레임은 R/2율로 예측 코딩되고, 제 2 프레임은 R/2율로 예측 코딩되고, 제 3 프레임은 2R율로 비예측 또는 중간정도로 예측 코딩된다. 이후 패턴은 반복된다. 따라서, 평균 코딩율은 R이다.
다른 전형적인 패턴은 PPPN이다. 이 패턴에서, 제 1 프레임은 R/2율로 예측 코딩되고, 제 2 프레임은 R율로 예측 코딩되고, 제 3 프레임은 R/2율로 예측 코딩되고, 제 4 프레임은 2R율로 비예측 또는 중간정도로 예측 코딩된다. 이후 패턴은 반복된다. 따라서, 평균 코딩율은 R이다.
다른 전형적인 패턴은 PPNPPN이다. 이 패턴에서, 제 1 프레임은 R/2율로 코 딩되고, 제 2 프레임은 R/2율로 코딩되고, 제 3 프레임은 2R율로 코딩되고, 제 4 프레임은 R/3율로 코딩되고, 제 5 프레임은 R/3율로 코딩되고, 제 6 프레임은 7R/3율로 코딩된다. 이후 패턴은 반복된다. 따라서, 평균 코딩율은 R이다.
다른 전형적인 패턴은 PPPNPN이다. 이 패턴에서, 제 1 프레임은 R/3율로 코딩되고, 제 2 프레임은 R/3율로 코딩되고, 제 3 프레임은 R/3율로 코딩되고, 제 4 프레임은 3R율로 코딩되고, 제 5 프레임은 R/2율로 코딩되고, 제 6 프레임은 3R/2율로 코딩된다. 이후 패턴은 반복된다. 따라서, 평균 코딩율은 R이다.
다른 전형적인 패턴은 PPNNPPN이다. 이 패턴에서, 제 1 프레임은 R/3율로 코딩되고, 제 2 프레임은 R/3율로 코딩되고, 제 3 프레임은 2R율로 코딩되고, 제 4 프레임은 2R율로 코딩되고, 제 5 프레임은 R/2율로 코딩되고, 제 6 프레임은 R/2율로 코딩되고, 제 7 프레임은 4R/3율로 코딩된다. 이후 패턴은 반복된다. 따라서, 평균 코딩율은 R이다.
당업자는 임의의 상술한 패턴의 순환 교대가 사용될 수 있다는 것을 이해한다. 당업자는 또한 상술한 패턴 및 다른 것들이 모두 임의의 순서로 랜덤하게 또는 의사 랜덤하게 선택되거나 또는 특성상 주기적으로 접합될 수 있다는 것을 인식할 것이다. 당업자는 패턴(F 프레임) 구간동안 평균 코딩율이 목표된 평균 코딩율(R)로 평균된다면, 임의 세트의 코딩율이 사용될 수 있다는 것을 이해할 것이다.
높은 비율로 코딩된 프레임을 비예측 또는 중간정도로 예측 코딩시키는 것은 프레임 에러 영향이 음성 세그멘트에 대한 R의 목표된 평균 코딩율(R)을 유지하는 패턴동안에만 지속되도록 한다. 결국, 제어 프로세서는 음성 세그멘트가 정확한 다수의 F 프레임, 즉 패턴 길이를 포함하지 않는다면 대체로 낮은 평균 비율을 달성하기 위하여 패턴을 지능적으로 교대시키도록 구성된다. 만일 음성 세그멘트에 대한 목표된 효과적인 평균 코딩율(R)이 R의 고정율에서 세그멘트의 모든 프레임을 코딩함으로써 대신 달성되며 비율 R이 예측하는데 사용하기 위해 상대적으로 낮은 비율로 존재한다면, 음성 코더는 프레임 에러의 지속적인 영향에 극도로 손상받기 쉬울 것이다.
당업자는 기재된 실시예들이 가변율 음성 코더에 속하지만, 상기한 것과 같은 패턴안이 또한 고정율, 예측 음성 코더에서 유리하게 사용될 수 있다는 것을 이해할 것이다. 만일 고정율, 예측 음성 코더가 저비트율 음성 코더이면, 프레임 에러 상태는 음성 코더에 악영향을 끼칠 것이다. 비예측 코딩 또는 중간 정도의 예측 코딩 프레임은 동일하게 낮은 비율로 코딩된 예측 코딩 프레임보다 낮은 품질일 수 있다. 그럼에도 불구하고, F 프레임마다 하나의 비예측 코딩 또는 중간정도의 예측 코딩 프레임을 사용하는 것은 F 프레임마다 프레임 에러 영향을 제거하는 것이다.
그러므로 프레임 에러 상태에 대한 민감도를 감소시키기 위하여 예측 음성 코더에서 코딩 방식 선택 패턴을 사용하는 신규한 방법 및 장치가 개시되었다. 당업자는 본 명세서에 개시된 실시예와 관련하여 기술된 여러 도식적 논리 블록 및 알고리즘 단계들이 전자 하드웨어, 컴퓨터 소프트웨어 또는 그 조합으로서 수행될 수 있다는 것을 이해할 것이다. 여러 도식적 성분, 블록 및 단계들은 그 기능성의 항목으로 기술되었다. 기능성이 하드웨어 또는 소프트웨어로 수행되는가의 여부는 특정 애플리케이션 및 전체 시스템에 부과된 디자인 제약조건에 의존한다. 당업자는 이러한 환경하에서 하드웨어 및 소프트웨어의 상호 변경성 및 각각의 특정한 애플리케이션에 대한 개시된 기능성의 최상의 수행성을 인식할 것이다. 예로서, 본 명세서에 개시된 실시예와 연관되어 설명된 여러 도식적 논리 블록 및 알고리즘 단계들은 디지털 신호 프로세서(DSP), 주문형 집적 회로(ASIC), 이산 게이트 또는 트랜지스터 로직, 레지스터 및 FIFO와 같은 이산 하드웨어 성분 또는 임의의 통상적인 프로그램가능한 소프트웨어 모듈 및 프로세서를 이용하여 수행될 수 있다. 프로세서는 유리하게 마이크로프로세서일 수 있으나, 선택적으로 임의의 통상적인 프로세서, 제어기, 마이크로제어기 또는 상태 머신일 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래쉬 메모리, 레지스터 또는 임의의 형태의 기록 가능한 공지된 저장 매체에 상주할 수 있다. 당업자는 또한 상술한 설명에서 참조될 수 있는 데이터, 인스트럭션, 명령, 정보, 신호, 비트, 심볼 및 칩들이 유리하게 전압, 전류, 전자기파, 자기장 또는 자기입자, 광학 필드 또는 광입자 또는 그 조합들에 의하여 표현될 수 있다.
본 발명의 바람직한 실시예가 지금까지 기술되었다. 그러나 여러 대안들이 본 발명의 범위를 벗어나지 않는다면 수정될 수 있을 것이라는 것은 당업자에게 명백하게 인식된다. 그러므로 본 발명은 이하 청구범위에 의하여만 제한받는다.
도 1은 음성 코더에 의하여 각 단부에서 종결된 통신 채널의 블록도이다.
도 2는 도 1의 음성 코더에서 사용될 수 있는 인코더의 블록도이다.
도 3은 도 1의 음성 코더에서 사용될 수 있는 디코더의 블록도이다.
도 4는 음성 코딩 결정 프로세스를 도시한 흐름도이다.
도 5a는 음성 신호 크기 대 시간의 그래프이며, 도 5b는 선형 예측(LP) 잔여 크기 대 시간의 그래프이다.
도 6은 코딩 모드 결정 패턴을 사용하도록 구성된 음성 코더의 블록도이다.
도 7은 코딩 모드 선택 패턴을 사용하기 위하여 도 8의 음성 코더와 같은 음성 코더에 의하여 수행된 방법 단계를 도시한 흐름도이다.

Claims (15)

  1. 입력 프레임을 적어도 하나의 예측 코딩 모드로 인코딩될 수 있는 프레임으로 분류하는 분류 모듈; 및
    상기 분류 모듈에 응답하여, 예측 코딩 모드로 미리 결정된 개수의 프레임들을 코딩하고, 상기 미리 결정된 개수의 프레임들이 코딩된 후, 적어도 하나의 프레임을 저예측 코딩 모드로 코딩하는 프로세서를 포함하는,
    인코더.
  2. 제1항에 있어서,
    상기 적어도 하나의 저예측 코딩 모드는 적어도 하나의 비예측 코딩 모드를 포함하는 것을 특징으로 하는 인코더.
  3. 제1항에 있어서,
    상기 적어도 하나의 비예측 코딩 모드는 중간 정도의 예측 코딩 모드인 것을 특징으로 하는 인코더.
  4. 제1항에 있어서,
    상기 적어도 하나의 비예측 코딩 모드는 완전한 비예측 코딩 모드인 것을 특징으로 하는 인코더.
  5. 제1항에 있어서,
    상기 프로세서는 코딩된 음성 프레임들의 패턴에 대해 평균 코딩율을 유지하도록 추가로 구성된 것을 특징으로 하는 인코더.
  6. 제1항에 있어서,
    상기 음성 프레임들의 미리 결정된 개수는 청취자에 의해 미리 결정된 것을 특징으로 하는 인코더.
  7. 제1항에 있어서,
    상기 프로세서는 패턴에 따라 상기 미리 결정된 개수의 프레임들 및 적어도 하나의 상기 프레임을 코딩하는 것을 특징으로 하는 인코더.
  8. 제7항에 있어서,
    상기 패턴은 반복 패턴인 것을 특징으로 하는 인코더.
  9. 제7항에 있어서,
    상기 패턴은 가변 패턴인 것을 특징으로 하는 인코더.
  10. 제7항에 있어서,
    상기 패턴은 PPN인데, 상기 P는 예측 코딩된 프레임이고, 상기 N은 저예측 코딩된 프레임을 나타내는 것을 특징으로 하는 인코더.
  11. 제7항에 있어서,
    상기 패턴은 PPPN인데, 상기 P는 예측 코딩된 프레임을 나타내고, 상기 N은 저예측 코딩된 프레임을 나타내는 것을 특징으로 하는 인코더.
  12. 제7항에 있어서,
    상기 패턴은 PPPNPN인데, 상기 P는 예측 코딩된 프레임을 나타내며, 상기 N은 저예측 코딩된 프레임을 나타내는 것을 특징으로 하는 인코더.
  13. 제7항에 있어서,
    상기 패턴은 PPNNPPN인데, 상기 P는 예측 코딩된 프레임을 나타내며, 상기 N은 저예측 코딩된 프레임을 나타내는 것을 특징으로 하는 인코더.
  14. 제10항 내지 제13항 중 어느 한 항에 있어서,
    상기 패턴의 순환 교대가 사용되는 것을 특징으로 하는 인코더.
  15. 입력 신호로부터의 LP 파라미터들 및 LP 잔여 신호들을 후속 프로세싱하는 장치로서,
    입력 신호를 수신하고, 적어도 대응하는 상기 LP 파라미터들 및 상기 LP 잔여를 출력하는 초기 파라미터 계산 모듈; 및
    상기 LP 파라미터들 및 LP 잔여를 코딩하는 프로세서를 포함하는,
    후속 프로세싱 장치.
KR1020077025873A 1999-10-28 2000-10-26 프레임 에러에 대한 민감도를 감소시키기 위하여 코딩 방식선택 패턴을 사용하는 예측 음성 코더 KR100804888B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/429,754 US6438518B1 (en) 1999-10-28 1999-10-28 Method and apparatus for using coding scheme selection patterns in a predictive speech coder to reduce sensitivity to frame error conditions
US09/429,754 1999-10-28

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020027005199A Division KR100827896B1 (ko) 1999-10-28 2000-10-26 프레임 에러에 대한 민감도를 감소시키기 위하여 코딩 방식 선택 패턴을 사용하는 예측 음성 코더

Publications (2)

Publication Number Publication Date
KR20070112894A KR20070112894A (ko) 2007-11-27
KR100804888B1 true KR100804888B1 (ko) 2008-02-20

Family

ID=23704610

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020027005199A KR100827896B1 (ko) 1999-10-28 2000-10-26 프레임 에러에 대한 민감도를 감소시키기 위하여 코딩 방식 선택 패턴을 사용하는 예측 음성 코더
KR1020077025873A KR100804888B1 (ko) 1999-10-28 2000-10-26 프레임 에러에 대한 민감도를 감소시키기 위하여 코딩 방식선택 패턴을 사용하는 예측 음성 코더

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020027005199A KR100827896B1 (ko) 1999-10-28 2000-10-26 프레임 에러에 대한 민감도를 감소시키기 위하여 코딩 방식 선택 패턴을 사용하는 예측 음성 코더

Country Status (13)

Country Link
US (1) US6438518B1 (ko)
EP (1) EP1224663B1 (ko)
JP (2) JP4805506B2 (ko)
KR (2) KR100827896B1 (ko)
CN (1) CN1212607C (ko)
AT (1) ATE346357T1 (ko)
AU (1) AU1576001A (ko)
BR (1) BRPI0015070B1 (ko)
DE (1) DE60032006T2 (ko)
ES (1) ES2274812T3 (ko)
HK (1) HK1051735A1 (ko)
TW (1) TW530296B (ko)
WO (1) WO2001031639A1 (ko)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002247137A (ja) * 2000-04-25 2002-08-30 Canon Inc 通信装置及び通信方法
JP4221537B2 (ja) * 2000-06-02 2009-02-12 日本電気株式会社 音声検出方法及び装置とその記録媒体
US7487083B1 (en) * 2000-07-13 2009-02-03 Alcatel-Lucent Usa Inc. Method and apparatus for discriminating speech from voice-band data in a communication network
WO2002097796A1 (en) * 2001-05-28 2002-12-05 Intel Corporation Providing shorter uniform frame lengths in dynamic time warping for voice conversion
US7433815B2 (en) * 2003-09-10 2008-10-07 Dilithium Networks Pty Ltd. Method and apparatus for voice transcoding between variable rate coders
US7542899B2 (en) * 2003-09-30 2009-06-02 Alcatel-Lucent Usa Inc. Method and apparatus for adjusting the level of a speech signal in its encoded format
US8111663B2 (en) 2004-07-20 2012-02-07 Qualcomm Incorporated Methods and systems for variable rate broadcast with soft handoff
SE0402649D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods of creating orthogonal signals
US20070005347A1 (en) * 2005-06-30 2007-01-04 Kotzin Michael D Method and apparatus for data frame construction
US8090573B2 (en) * 2006-01-20 2012-01-03 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision
US8346544B2 (en) * 2006-01-20 2013-01-01 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision
US8032369B2 (en) * 2006-01-20 2011-10-04 Qualcomm Incorporated Arbitrary average data rates for variable rate coders
RU2426179C2 (ru) * 2006-10-10 2011-08-10 Квэлкомм Инкорпорейтед Способ и устройство для кодирования и декодирования аудиосигналов
US8171380B2 (en) * 2006-10-10 2012-05-01 Marvell World Trade Ltd. Adaptive systems and methods for storing and retrieving data to and from memory cells
US7813922B2 (en) * 2007-01-30 2010-10-12 Nokia Corporation Audio quantization
EP2301015B1 (en) * 2008-06-13 2019-09-04 Nokia Technologies Oy Method and apparatus for error concealment of encoded audio data
WO2012002768A2 (ko) * 2010-07-01 2012-01-05 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
US8990094B2 (en) * 2010-09-13 2015-03-24 Qualcomm Incorporated Coding and decoding a transient frame
US9263054B2 (en) * 2013-02-21 2016-02-16 Qualcomm Incorporated Systems and methods for controlling an average encoding rate for speech signal encoding
TWI557727B (zh) * 2013-04-05 2016-11-11 杜比國際公司 音訊處理系統、多媒體處理系統、處理音訊位元流的方法以及電腦程式產品
JP2017009663A (ja) * 2015-06-17 2017-01-12 ソニー株式会社 録音装置、録音システム、および、録音方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1996022639A1 (en) * 1995-01-17 1996-07-25 Qualcomm Incorporated Method and apparatus for the formatting of data for transmission
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
WO2000030075A1 (en) * 1998-11-13 2000-05-25 Qualcomm Incorporated Closed-loop variable-rate multimode predictive speech coder
WO2001006491A1 (en) * 1999-07-19 2001-01-25 Qualcomm Incorporated Method and apparatus for providing feedback from decoder to encoder to improve performance in a predictive speech coder under frame erasure conditions
WO2001065544A1 (en) * 2000-02-29 2001-09-07 Qualcomm Incorporated Closed-loop multimode mixed-domain linear prediction speech coder

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS637042A (ja) * 1986-06-27 1988-01-12 Fujitsu Ltd 符号化伝送装置
JPS6444499A (en) * 1987-08-12 1989-02-16 Fujitsu Ltd Forecast encoding system for voice
JPH01293028A (ja) * 1988-05-20 1989-11-27 Fujitsu Ltd 音声符号化モード切り替え方式
EP1675100A2 (en) 1991-06-11 2006-06-28 QUALCOMM Incorporated Variable rate vocoder
GB9205932D0 (en) * 1992-03-18 1992-04-29 Philips Electronics Uk Ltd Method and apparatus for editing an audio signal
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
JP3198637B2 (ja) * 1992-07-23 2001-08-13 ソニー株式会社 画像信号符号化装置及び画像信号符号化方法
US5659659A (en) * 1993-07-26 1997-08-19 Alaris, Inc. Speech compressor using trellis encoding and linear prediction
JPH07131793A (ja) * 1993-11-01 1995-05-19 Toshiba Corp 映像信号高能率符号化装置
US5784532A (en) 1994-02-16 1998-07-21 Qualcomm Incorporated Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system
US5602961A (en) * 1994-05-31 1997-02-11 Alaris, Inc. Method and apparatus for speech compression using multi-mode code excited linear predictive coding
JPH0816200A (ja) * 1994-06-30 1996-01-19 Olympus Optical Co Ltd 音声記録装置
JPH0818543A (ja) * 1994-07-01 1996-01-19 Nippon Telegr & Teleph Corp <Ntt> 可変ビットレート符号化復号化方法、その符号化器及び復号化器
TW271524B (ko) * 1994-08-05 1996-03-01 Qualcomm Inc
JPH0869298A (ja) * 1994-08-29 1996-03-12 Olympus Optical Co Ltd 再生装置
JPH0884329A (ja) * 1994-09-13 1996-03-26 Canon Inc 画像通信端末装置
US5774846A (en) 1994-12-19 1998-06-30 Matsushita Electric Industrial Co., Ltd. Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus
JPH08263099A (ja) * 1995-03-23 1996-10-11 Toshiba Corp 符号化装置
US6021325A (en) * 1997-03-10 2000-02-01 Ericsson Inc. Mobile telephone having continuous recording capability
US6064954A (en) * 1997-04-03 2000-05-16 International Business Machines Corp. Digital audio signal coding
JPH1169355A (ja) * 1997-08-20 1999-03-09 Sharp Corp 画像伝送装置
US6058359A (en) * 1998-03-04 2000-05-02 Telefonaktiebolaget L M Ericsson Speech coding including soft adaptability feature
JP3529599B2 (ja) * 1997-09-02 2004-05-24 株式会社東芝 符号化装置における編集可能点挿入方法および符号化装置
JPH11220711A (ja) * 1998-02-03 1999-08-10 Fujitsu Ltd 多地点会議システム及び会議端末装置
JP3539615B2 (ja) * 1998-03-09 2004-07-07 ソニー株式会社 符号化装置、編集装置及び符号化多重化装置並びにそれらの方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1996022639A1 (en) * 1995-01-17 1996-07-25 Qualcomm Incorporated Method and apparatus for the formatting of data for transmission
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
WO2000030075A1 (en) * 1998-11-13 2000-05-25 Qualcomm Incorporated Closed-loop variable-rate multimode predictive speech coder
WO2001006491A1 (en) * 1999-07-19 2001-01-25 Qualcomm Incorporated Method and apparatus for providing feedback from decoder to encoder to improve performance in a predictive speech coder under frame erasure conditions
WO2001065544A1 (en) * 2000-02-29 2001-09-07 Qualcomm Incorporated Closed-loop multimode mixed-domain linear prediction speech coder

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Das A. et al.,"Multimode variable bit rate speech coding:an efficient paradigm for high-quality low-rate representation of speech signal, ICASSP99

Also Published As

Publication number Publication date
HK1051735A1 (en) 2003-08-15
KR20070112894A (ko) 2007-11-27
BR0015070A (pt) 2002-12-24
JP4805506B2 (ja) 2011-11-02
KR20020040910A (ko) 2002-05-30
EP1224663A1 (en) 2002-07-24
JP2011237809A (ja) 2011-11-24
EP1224663B1 (en) 2006-11-22
CN1402869A (zh) 2003-03-12
US6438518B1 (en) 2002-08-20
AU1576001A (en) 2001-05-08
ES2274812T3 (es) 2007-06-01
KR100827896B1 (ko) 2008-05-07
TW530296B (en) 2003-05-01
ATE346357T1 (de) 2006-12-15
WO2001031639A1 (en) 2001-05-03
JP2003515178A (ja) 2003-04-22
BRPI0015070B1 (pt) 2016-10-11
JP5543405B2 (ja) 2014-07-09
DE60032006D1 (de) 2007-01-04
CN1212607C (zh) 2005-07-27
DE60032006T2 (de) 2007-06-21

Similar Documents

Publication Publication Date Title
JP5543405B2 (ja) フレームエラーに対する感度を低減する符号化体系パターンを使用する予測音声コーダ
US6584438B1 (en) Frame erasure compensation method in a variable rate speech coder
EP1340223B1 (en) Method and apparatus for robust speech classification
KR100711047B1 (ko) 폐루프 멀티모드 혼합영역 선형예측 (mdlp) 음성 코더
EP1214705B1 (en) Method and apparatus for maintaining a target bit rate in a speech coder
EP1212749B1 (en) Method and apparatus for interleaving line spectral information quantization methods in a speech coder
KR100700857B1 (ko) 전환 스피치 프레임의 다중 펄스 보간 코딩
EP1204968B1 (en) Method and apparatus for subsampling phase spectrum information
KR20020081352A (ko) 유사주기 신호의 위상을 추적하는 방법 및 장치

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130130

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20140129

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20150129

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20151230

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20161229

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20171228

Year of fee payment: 11

LAPS Lapse due to unpaid annual fee