KR100700857B1 - 전환 스피치 프레임의 다중 펄스 보간 코딩 - Google Patents

전환 스피치 프레임의 다중 펄스 보간 코딩 Download PDF

Info

Publication number
KR100700857B1
KR100700857B1 KR1020017014217A KR20017014217A KR100700857B1 KR 100700857 B1 KR100700857 B1 KR 100700857B1 KR 1020017014217 A KR1020017014217 A KR 1020017014217A KR 20017014217 A KR20017014217 A KR 20017014217A KR 100700857 B1 KR100700857 B1 KR 100700857B1
Authority
KR
South Korea
Prior art keywords
samples
speech
frame
sample subset
transition
Prior art date
Application number
KR1020017014217A
Other languages
English (en)
Other versions
KR20010112480A (ko
Inventor
아미타바 다스
사라쓰 만주나쓰
Original Assignee
콸콤 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 콸콤 인코포레이티드 filed Critical 콸콤 인코포레이티드
Publication of KR20010112480A publication Critical patent/KR20010112480A/ko
Application granted granted Critical
Publication of KR100700857B1 publication Critical patent/KR100700857B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Analogue/Digital Conversion (AREA)

Abstract

스피치 프레임을 전환하는 다중 펄스 보간 코더는 전환 스피치 샘플의 제 1 프레임으로부터 제 1프레임의 샘플 서브세트를 생성하도록 구성된 추출기를 포함한다. 코더는 제 1 샘플 서브세트에 포함되지 않은 제 1 프레임의 다른 샘플을 합성하기 위하여 또한 샘플 서브세트와 이전에 수신된 프레임으로부터 추출된 샘플의 서브세트를 보간하도록 구성된 보간기를 포함한다. 샘플 서브세트들은 또한 서브세트로부터 한 펄스 세트를 선택하고, 선택되지 않은 펄스에 제로값을 할당함으로써 단순화된다. 선택적으로 선택되지 않은 펄스의 일부가 양자화될 수 있다. 펄스 세트는 서브세트에서 최고의 절대 진폭을 가지는 펄스가 될 수 있다. 선택적으로 펄스 세트는 서브 세트에서 지각적으로 중요한 펄스가 될 수 있다.

Description

전환 스피치 프레임의 다중 펄스 보간 코딩{MULTIPULSE INTERPOLATIVE CODING OF TRANSITION SPEECH FRAMES}
본 발명은 스피치 처리 분야에 관한 것으로서 특히 전환 스피치 프레임의 다중 펄스 보간 코딩에 관한 것이다.
디지털 기술에 의한 음성 전송은 특히 장거리와 디지털 무선 전화기 애플리케이션에서 널리 사용되었다. 이는 재구성된 스피치의 인식된 품질을 유지하면서 채널에서 전송될 수 있는 최소의 정보량을 결정하는데 관심이 있다. 만일 스피치가 단순하게 샘플링 및 디지털화되어 전송된다면, 초당 64킬로바이트(kbps) 정도의 데이터속도가 통상적인 아날로그 전화기의 스피치 품질을 달성하기 위하여 요구된다. 그러나 스피치 분석을 사용한 후 적당한 코딩, 전송 및 수신기에서의 재합성에 의하여 데이터의 상당한 감소를 가져올 수 있다.
인간의 스피치 생성에 관련된 파라미터를 추출함으로써 스피치를 압축하는 기술을 이용하는 장치는 스피치 코더라 불린다. 스피치 코더는 입력 스피치 신호를 시간블록 또는 분석 프레임으로 분할한다. 스피치 코더는 전형적으로 인코더와 디코더를 포함한다. 인코더는 특정의 해당 파라미터를 추출하기 위하여 입력 스피치 프레임을 분석한 후, 2진 표시, 즉 비트세트 또는 2진 데이터 패킷으로 파라미 터를 양자화한다. 데이터 패킷은 통신 채널을 통하여 수신기와 디코더에 전송된다. 디코더는 데이터 패킷을 처리하고, 파라미터를 생성하기 위하여 이들을 역양자화하며, 역양자화된 파라미터를 사용하여 스피치 프레임을 재합성한다.
스피치 코더의 함수는 스피치의 고유 리던던시를 모두 제거함으로써 디지털화된 스피치 신호를 저비트율 신호로 압축한다. 디지털 압축은 한 세트의 파라미터를 이용하여 입력 스피치 프레임을 표시하고 한 세트의 비트를 이용하여 파라미터를 나타내도록 양자화를 이용함으로써 달성된다. 만일 입력 스피치 프레임이 다수의 Ni 비트를 가지며 스피치 코더에 의하여 생성된 데이터 패킷이 다수의 No 비트를 가진다면, 스피치 코더에 의하여 달성된 압축율 Cr=Ni/No가 된다. 타겟 압축율을 유지하면서 디코딩된 스피치의 높은 음성 품질을 유지하는 것이 과제이다. 스피치 코더의 성능은 (1) 스피치 모델 또는 상술한 합성 처리와 분석의 조합이 얼마나 잘 수행되며 (2) 파라미터 양자화 처리가 프레임당 No 비트의 타겟 비트율에서 얼마나 잘 수행되는가에 달려있다. 따라서 스피치 모델의 목적은 각각의 프레임에 대하여 적은 세트의 파라미터를 이용하여 스피치 신호의 본질 또는 타겟 음성 품질을 캡쳐하는 것이다.
스피치 코더는 시간-도메인 코더로서 실행될 수 있으며, 이는 한번에(전형적으로 5밀리초(ms) 서브프레임) 적은 스피치 세그먼트를 인코딩하기 위하여 높은 시간-분해 처리를 이용함으로써 시간-도메인 스피치 파형을 캡쳐할 수 있다. 각각의 서브프레임에 대하여, 코드북 공간의 고정밀 표시는 기술상 공지된 여러 탐색 알고 리즘에 의하여 발견된다. 선택적으로, 스피치 코더는 주파수-도메인 코더로서 실행될 수 있으며, 이는 한 세트의 파라미터(분석)를 이용하여 입력 스피치 프레임의 단시간 스피치 스펙트럼을 캡쳐하고, 스펙트럼 파라미터로부터 스피치 파형을 재생성하기 위하여 해당 분석 처리를 이용하려고 한다. 파라미터 양자화기는 A.Gersho & R.M. Gray, Vector Quantizatioon and Signal Compression(1992)에 개시된 공지된 양자화 기술에 따라 코드 벡터의 저장된 표시를 이용하여 파라미터를 표시함으로써 파라미터를 보존한다.
공지된 시간-도메인 스피치 코더는 L.B. Rabiner & R.W. Schafer, Digital Processing of Speech Signals 396-453(1978)에 개시된 코드 여기된 선형 예측(CELP) 코더이며, 본 명세서에서 상호 참조된다. CELP 코더에서, 단기간 상관 또는 스피치 신호의 리던던시는 단기간 포맷 필터의 계수를 찾는 선형 예측(LP) 분석에 의하여 제거된다. 단기간 예측 필터를 입력 스피치 프레임에 적용하는 것은 LP 나머지 신호를 생성하고, 이는 또한 모델링되고 장시간 예측 필터 파라미터와 연이은 확률적 코드북을 이용하여 양자화된다. 그러므로, CELP 코딩은 시간-도메인 스피치 파형을 인코딩하는 작업을 LP 단시간 필터 계수를 인코딩하고 LP 나머지를 인코딩하는 분리된 작업으로 분할한다. 시간-도메인 코딩은 고정비율(즉, 각각의 프레임에 대하여 동일한 수의 NO비트를 이용하여) 또는 가변비율(서로 다른 비트율이 서로 다른 타입의 프레임 콘텐츠에 사용되는)에서 수행될 수 있다. 가변율 코더는 타겟 품질을 획득하기에 적당한 레벨로 코덱 파라미터를 인코딩하는데 필요 한 비트량만을 사용한다. 전형적인 가변율 CELP 코더는 미국 특허번호 제5,414,796호에 개시되어 있으며, 본 발명의 양수인에게 양도되고 본 명세서에서 상호참조된다.
CELP와 같은 시간-도메인 코더는 전형적으로 시간-도메인 스피치 파형의 정확도를 유지하기 위하여 프레임당 높은 NO비트수를 따른다. 상기 코더는 전형적으로 상대적으로 큰(예를 들어 8kbps이상) 프레임당 비트수가 제공된 높은 음성 품질을 전달한다. 그러나 낮은 비트율(4kbps이하)에서, 시간-도메인 코더는 제한된 개수의 이용가능 비트로 인한 강한 성능과 높은 품질을 유지하는 데 실패한다. 낮은 비트율에서 제한된 코드북 공간은 통상적인 시간-도메인 코더의 파형-매칭 용량을 제한하며, 이는 높은비율의 상업적 애플리케이션에 성공적으로 이용된다.
낮은 비트율(즉, 2,4에서 4kbps이하의 범위)의 매체에서 동작하는 고품질 스피치 코더를 개발하기 위한 큰 탐색관심과 강한 상업적 요구가 현재 존재한다. 애플리케이션 영역은 무선 전화기, 위성 통신, 인터넷 전화기, 여러 멀티미디어 및 음성-스트리밍 애플리케이션, 음성 메일 및 다른 음성 저장 시스템을 포함한다. 구동력은 높은 용량에 대한 요구이며, 패킷 손실 상황하에서 강한 성능을 위한 요구가 존재한다. 최근의 여러 스피치 코딩 표준화 노력들은 다른 직접 구동력 프로펠링 탐색이며, 저속 스피치 코딩 알고리즘의 개발에 주의를 기울인다. 저비율 스피치 코더는 허용가능 애플리케이션 밴드폭당 더 많은 채널 또는 사용자를 생성하며, 적당한 채널 코딩의 추가 레이어와 함께 결합된 저비율 스피치 코더는 전체 비 트-버젯의 코더 스펙을 적용할 수 있으며, 채널 에러 상태에서 강한 성능을 전달할 수 있다.
저비트율에서 효과적으로 스피치를 인코딩하는 하나의 효과적인 기술은 멀티모드 코딩이다. 전형적인 멀티모드 코딩 기술은 Amitava Das et al., Multimode and Variable-Rate Coding of Speech, in Speech Coding and Synthesis ch.7(W.B. Kleijn & K.K. Paliwal eds., 1995)에 개시되어 있다. 통상적인 멀티모드 코더는 서로 다른 모드 또는 인코딩-디코딩 알고리즘을 서로 다른 타입의 입력 스피치 프레임에 적용한다. 각각의 모드 또는 인코딩-디코딩 처리는 가장 효율적인 방식으로 예를 들어 유성화된 스피치, 무성화된 스피치, 전환 스피치(예를 들면, 유성음과 무성음 사이)와 같은 타입의 스피치 세그먼트를 선택적으로 나타내도록 커스터마이징된다. 외부의 오픈-루프 모드 결정 메카니즘은 입력 스피치 프레임을 검사하고, 어떤 모드가 프레임에 적용될 것인지에 대하여 결정한다. 오픈-루프 모드 결정은 전형적으로 입력 프레임의 다수의 파라미터를 추출하고, 특정한 시간 및 공간 특성에 대한 파라미터를 평가하고, 상기 평가에 따라 모드 결정을 수행함으로써 수행된다. 따라서 모드 결정은 출력 스피치의 정확한 상태를 먼저 인식하지 못한채, 즉 출력 스피치가 음성 품질 또는 다른 성능 측정의 견지에서 입력 스피치에 얼마나 가까이 접근하게 될 지를 알지 못한채 이루어진다.
높은 음성 품질을 유지하기 위하여, 전환 스피치 프레임을 정확하게 나타내는 것이 중요하다. 제한된 개수의 프레임당 비트를 사용하는 낮은 비트율 스피치 코더에 대하여, 이는 전통적으로 어려운 것으로 증명되었다. 그러므로 낮은 비트 율에서 코딩된 전환 스피치 프레임을 정확하게 나타내는 스피치 코더가 필요하다.
본 발명은 낮은 비트율에서 전환 스피치 프레임을 정확하게 나타내는 스피치 코더에 관한 것이다. 따라서 본 발명의 일 측면에서, 전환 스피치 프레임의 코딩 방법은 유리하게 전환 스피치 샘플들로 구성된 제 1 프레임으로부터 상기 제 1 프레임의 제 1 샘플 서브세트를 생성하는 단계; 및 상기 제 1 샘플 서브세트에 포함되지 않은 상기 제 1 프레임의 다른 샘플들을 합성하기 위하여, 상기 전환 스피치 샘플들 중 이전에 수신된 샘플들로 구성된 제 2 프레임으로부터 추출된 제 2 샘플 서브세트 및 상기 제 1 샘플 서브세트를 보간하는 단계를 포함한다.
본 발명의 다른 측면에서, 전환 스피치 프레임을 코딩하는 스피치 코더는 유리하게 전환 스피치 샘플들로 구성된 제 1 프레임으로부터 상기 제 1 프레임의 제 1 샘플 서브세트를 생성하는 수단; 및 상기 제 1 샘플 서브세트에 포함되지 않은 상기 제 1 프레임의 다른 샘플들을 합성하기 위하여, 상기 전환 스피치 샘플들 중 이전에 수신된 샘플들로 구성된 제 2 프레임으로부터 추출된 제 2 샘플 서브세트 및 상기 제 1 샘플 서브세트를 보간하는 수단을 포함한다.
본 발명의 또 다른 측면에서, 전환 스피치 프레임을 코딩하는 스피치 코더는 유리하게 전환 스피치 샘플들로 구성된 제 1 프레임으로부터 상기 제 1 프레임의 제 1 샘플 서브세트를 생성하도록 구성된 추출기; 및 상기 추출기에 결합되어, 상기 제 1 샘플 서브세트에 포함되지 않은 상기 제 1 프레임의 다른 샘플들을 합성하기 위하여, 상기 전환 스피치 샘플들 중 이전에 수신된 샘플들로 구성된 제 2 프레임으로부터 추출된 제 2 샘플 서브세트 및 상기 제 1 샘플 서브세트를 보간하도록 구성된 보간기를 포함한다.
도 1은 스피치 코더에 의하여 각각의 끝에서 종결된 통신 채널의 블록도이다.
도 2는 인코더의 블록도이다.
도 3은 디코더의 블록도이다.
도 4는 스피치 코딩 결정 프로세스의 흐름도이다.
도 5A는 스피치 신호 진폭 대 시간의 그래프이며, 도 5B는 선형 예측(LP) 나머지 진폭 대 시간의 그래프이다.
도 6은 전환 스피치 프레임을 위한 다중 펄스 보간 코딩 프로세스를 도시한 흐름도이다.
도 7은 스피치 신호를 생성하도록 LP-나머지-도메인 신호를 필터링하는 시스템 또는 LP-나머지-도메인 신호를 생성하도록 스피치-도메인 신호를 역필터링하는 시스템의 블록도이다.
도 8A-D는 각각 원래의 전환 스피치, 코딩되지 않은 나머지, 코딩되고/양자화된 나머지 및 디코딩되고/재구성된 스피치를 위한 신호 크기 대 시간의 그래프이다.
도 1에서, 제 1 인코더(10)는 디지털화된 스피치 샘플(S(n))을 수신하고, 전송 매체(12) 또는 통신 채널(12)에서 제 1 디코더(14)로 전송하기 위한 샘플(S(n))을 인코딩한다. 디코더(14)는 인코딩된 스피치 샘플을 디코딩하며, 출력 스피치 신호(SSYNTH(n))를 합성한다. 반대 방향의 전송을 위하여, 제 2 인코더(16)는 통신 채널(18)에서 전송되는 디지털화된 스피치 샘플(S(n))을 인코딩한다. 제 2 디코더(20)는 인코딩된 스피치 샘플을 수신 및 디코딩하고 합성된 출력 스피치 신호(SSYNTH(n))를 생성한다.
스피치 샘플(S(n))은 펄스 코드 변조(PCM), 압신된 μ-법칙 또는 A-법칙을 포함하는 기술상 공지된 여러 방법에 따라 디지털 및 양자화된 스피치 신호를 나타낸다. 기술상 공지된 바와 같이, 스피치 샘플(S(n))은 각각의 프레임이 미리 결정된 개수의 디지털화된 스피치 샘플(S(n))을 포함하는 입력 데이터의 프레임으로 조직된다. 전형적인 실시예에서, 8kHz의 샘플율이 이용되며, 각각 20ms 프레임은 60 샘플을 포함한다. 이하의 실시예에서, 데이터 전송율은 유리하게 31.2kbps(1/1율)에서 6.2kbps(1/2율), 2.6kbps(1/4율), 1kbps(1/8율)로 프레임대프레임 기반에서 변경될 수 있다. 데이터 전송율을 변경하는 것은 유리하며, 이는 낮은 비트율이 상대적으로 더 적은 스피치 정보를 포함하는 프레임에 선택적으로 이용될 수 있기 때문이다. 기술상 공지된 바와 같이, 다른 샘플링율, 프레임 크기 및 데이터 전송율이 사용될 수 있다.
제 1 인코더(10) 및 제 2 디코더(20)는 모두 제 1 스피치 코더, 또는 스피치 코덱을 포함한다. 유사하게, 제 2 인코더(16) 및 제 1 디코더(14)는 모두 제 2 스피치 코더를 포함한다. 당업자들은 스피치 코더가 디지털 신호 처리기(DSP), 주문형 집적회로(ASIC), 펌웨어, 또는 임의의 통상적인 프로그램 가능 소프트웨어 모듈 및 마이크로프로세서를 이용하여 수행될 수 있다는 것을 이해한다. 소프트웨어 모듈은 RAM 메모리, 플래쉬 메모리, 레지스터 또는 기술상 공지된 다른 형태의 기록가능 저장 매체에 존재할 수 있다. 선택적으로, 임의의 통상적인 프로세서, 제어기 또는 상태기기가 마이크로프로세서를 위하여 대체될 수 있다. 스피치 코딩을 위하여 특별히 설계된 전형적인 ASIC는 미국 특허 번호 제 5,727,123 호에 개시되어 있으며, 본 발명의 양수인에게 양도되고, 본 명세서에게 상호 참조되며, 1994년 2월 16일에 출원되고 VOCODER ASIC로 명명된 미국 출원 번호 08/197,417호에 개시되어 있으며, 본 발명의 양수인에게 양도되고, 본 명세서에서 상호 참조된다.
도 2에서, 스피치 인코더에서 사용될 수 있는 인코더(100)는 모드 결정 모듈(102), 피치 추정 모듈(104), LP 분석 모듈(106), LP 분석 필터(108), LP 양자화 모듈(110) 및 나머지 양자화 모듈(112)을 포함한다. 입력 스피치 프레임(S(n))은 모드 결정 모듈(102), 피치 추정 모듈(104), LP 분석 모듈(106) 및 LP 분석 필터(108)에 제공된다. 모드 결정 모듈(102)은 각각의 입력 스피치 프레임(S(n))의 주기를 기초로 모드 인덱스(IM) 및 모드(M)을 생성한다. 주기에 따라 스피치 프레임을 분석하는 여러 방법들은 1997년 3월 11일자에 출원되고 METHOD AND APPARATUS FOR PERFORMING REDUCED RATE VARIABLE RATE VOCODING으로 명명된 미국 특허 출원 번호 제 08/815,354호에 개시되어 있으며, 이는 본 발명의 양수인에게 양도되고 본 명세서에서 상호참조된다. 상기 방법들은 또한 미국전기통신공업협회 공업 잠정 표준 TIA/EIA IS-127 및 TIA/EIA IS-733으로 통합된다.
피치 추정 모듈(104)은 각각의 스피치 프레임(S(n))을 기초로 피치 인덱스(IP) 및 레그값(PO)을 생성한다. LP 분석모듈(106)은 LP 파라미터(a)를 생성하기 위하여 각각의 입력 스피치 프레임(S(n))에서 선형 예측 분석을 이용한다. LP 파라미터(a)는 LP 양자화 모듈(110)에 제공된다. LP 양자화 모듈(110)은 또한 모드 M을 수신하고, 따라서 모드 종속 방식으로 양자화 프로세스를 수행한다. LP 양자화 모듈(110)은 LP 인덱스(ILP) 및 양자화된 LP 파라미터(
Figure 112001028892273-pct00001
)를 생성한다. LP 분석 필터(108)는 입력 스피치 프레임(S(n))에 더하여 양자화된 LP 파라미터(
Figure 112001028892273-pct00002
)를 수신한다. LP 분석 필터(108)는 LP 나머지 신호(R[n])를 생성하며, 이는 양자화된 선형 예측 파라미터(
Figure 112001028892273-pct00003
)를 기초로 재구성된 스피치 및 입력 스피치 프레임(S(n)) 사이의 에러를 나타낸다. LP 나머지(R[n]), 모드 M 및 양자화된 LP 파라미터(
Figure 112001028892273-pct00004
)는 나머지 양자화 모듈(112)에 제공된다. 이러한 값들을 기초로, 나머지 양자화 모듈(112)은 나머지 인덱스(IR) 및 양자화된 나머지 신호(
Figure 112001028892273-pct00005
)를 생성한다.
도 3에서, 스피치 코더에 사용되는 디코더(200)는 LP 파라미터 디코딩 모듈(202), 나머지 디코딩 모듈(204), 모드 디코딩 모듈(206) 및 LP 합성 필터(208)를 포함한다. 모드 디코딩 모듈(106)은 모드 M으로부터 생성된 모드 인덱스(IM)를 수신 및 디코딩한다. LP 파라미터 디코딩 모듈(202)은 모드 M 및 LP 인덱스(ILP)를 수신한다. LP 파라미터 디코딩 모듈(202)은 양자화된 LP 파라미터(
Figure 112001028892273-pct00006
)를 생성하기 위하여 생성된 값을 디코딩한다. 나머지 디코딩 모듈(204)은 나머지 인덱스(IR), 피치 인덱스(IP) 및 모드 인덱스(IM)를 수신한다. 나머지 디코딩 모듈(204)은 양자화된 나머지 신호(
Figure 112001028892273-pct00007
)를 생성하기 위하여 수신된 값을 디코딩한다. 양자화된 나머지 신호(
Figure 112001028892273-pct00008
) 및 양자화된 LP 파라미터(
Figure 112001028892273-pct00009
)는 LP 합성 필터(208)에 제공되며, 이는 디코딩된 출력 스피치 신호(
Figure 112001028892273-pct00010
)를 합성한다.
도 2의 인코더(100) 및 도 3의 디코더(200)의 여러 모듈의 동작 및 실행은 기술상 공지되어 있으며 상술한 미국 특허번호 제5,414,796호와 L.B. Rabiner & R.W. Schafer, Digital Processing of Speech Signals 396-453(1978)에 개시되어 있다.
도 4의 흐름도에 도시된 바와 같이, 일 실시예를 따르는 스피치 디코더는 전송을 위한 처리 스피치 샘플에서 한 세트의 단계가 가능하다. 단계 300에서, 스피치 코더는 연속된 프레임에서 스피치 신호의 디지털 샘플을 수신한다. 주어진 프레임을 수신할 때, 스피치 코더는 단계 302로 진행된다. 단계 302에서, 스피치 코더는 프레임의 에너지를 탐색한다. 에너지는 프레임의 스피치 활동성의 측정이다. 스피치 탐색은 디지털화된 스피치 샘플의 진폭의 제곱을 합산하고 임계값과 최종 에너지를 비교함으로써 수행된다. 일 실시예에서, 임계값은 백그라운드 잡음의 변경 레벨을 기초로 적용한다. 전형적인 가변 임계 스피치 활동성 검출기는 미국 특허 번호 제 5,414,796호에 개시되어 있다. 어떤 무성음인 스피치 사운드는 백그라운드 잡음으로서 잘못 인코딩될 수 있는 매우 낮은-에너지 샘플일 수 있다. 이러한 일들이 생기는 것을 방지하기 위하여, 낮은 에너지 샘플의 스펙트럼 기울기는 상술한 미국 특허 번호 제 5,414,796호에 개시된 바와 같이 백그라운드 잡음으로부터 무성음인 스피치를 구별하는데 사용될 수 있다.
프레임의 에너지를 검출한 후, 스피치 코더는 단계 304로 진행된다. 단계 304에서, 스피치 코더는 검출된 프레임 에너지가 프레임이 스피치 정보를 포함하는 것으로 분류되기에 충분한가를 결정한다. 만일 검출된 프레임 에너지가 미리 정의된 임계 레벨이하로 떨어진다면, 스피치 코더는 단계 306으로 진행된다. 단계 306에서, 스피치 코더는 프레임을 백그라운드 잡음(즉, 묵음 또는 침묵)으로 인코딩한다. 일 실시예에서, 백그라운드 잡음 프레임은 1/8율 또는 1kbps에서 인코딩된다. 만일 단계 304에서, 검출된 프레임 에너지가 미리 정의된 임계 레벨에 충족되거나 초과한다면, 프레임은 스피치로서 분류되고 스피치 코더는 단계 308로 진행된다.
단계 308에서, 스피치 코더는 프레임이 무성음인 스피치인가, 즉 프레임의 주기성을 결정한다. 주기성 결정의 여러 공지된 방법은 예를 들면 제로 크로싱의 사용 및 일반화된 자기상관 함수(NACF)를 사용하는 것을 포함한다. 특히, 제로 크로싱 및 NACF를 주기를 검출하기 위하여 사용하는 것은 1997년 3월 11일에 출원되고 METHOD AND APPARATUS FOR PERFORMING REDUCED RATE VARIABLE RATE VOCODING으로 명명된 미국 출원번호 제 08/815,354호에 개시되어 있으며, 본 발명의 양수인에게 양도되고, 본 명세서와 상호 참조된다. 또한 무성음인 스피치로부터 유성음인 스피치를 구별하는데 사용되는 상기 방법들은 미국 공업 협회 잠정 표준 TIA/EIA IS-1127 및 TIA/EIA IS-733에 통합되어 있다. 만일 프레임이 단계 308에서 무성음 인 스피치로 결정된다면, 스피치 코더는 단계 310으로 진행된다. 단계 310에서, 스피치 코더는 프레임을 무성음인 스피치로서 인코딩한다. 일 실시예에서, 무성음인 스피치 프레임은 1/4율 또는 2.6kbps에서 인코딩된다. 만일 단계 308에서, 프레임이 무성음인 스피치로서 결정되지 않는다면, 스피치 코더는 단계 312로 진행된다.
단계 312에서, 스피치 코더는 예를 들면 상술한 미국 출원 번호 제 08/815,354호에 개시된 바와 같이 기술상 공지된 주기 검출 방법을 이용하여 프레임이 전환 스피치인지를 결정한다. 만일 프레임이 전환 스피치로서 검출된다면, 스피치 코더는 단계 314로 진행된다. 단계 314에서, 프레임은 전환 스피치(즉, 무성음 스피치에서 유성음 스피치로 전환)로서 인코딩된다. 일 실시예에서, 전환 스피치 프레임은 도 6을 참조로 이하 기술된 다중 펄스 보간 코딩 방법에 따라 코딩된다.
단계 312에서, 스피치 코더는 프레임이 전환 스피치인지를 결정하고, 스피치 코더는 단계 316으로 진행된다. 단계 316에서, 스피치 코더는 프레임을 유성음인 스피치로서 인코딩한다. 일 실시예에서, 유성음인 스피치 프레임은 1/1율 또는 13.2Kbps에서 인코딩될 수 있다.
당업자들은 전체 스피치 신호 또는 해당 LP 나머지중 하나가 도 4에 도시된 단계를 따름으로써 인코딩될 수 있다는 것을 이해할 것이다. 잡음, 무성음, 전환 및 유성음 스피치의 파형 특성은 도 5A의 그래프에 시간 함수로서 도시되어 있다. 잡음, 무성음, 전환 및 유성음 LP 나머지의 파형 특성은 도 5B의 그래프에서 시간 함수로 도시되어 있다.
일 실시예에서, 스피치 코더는 도 6의 흐름도에 도시된 방법 단계에 따라 전환 스피치 프레임을 코딩하기 위하여 다중 펄스 보간 코딩 알고리즘을 이용한다. 단계 400에서, 스피치 코더는 현 K-샘플 LP 스피치 나머지 프레임(S[n])의 피치 시간(M)을 추정하며, n=1,2,...,K이며, 프레임(S[n])의 가까운 미래의 근접값들이다. 일 실시예에서, LP 스피치 나머지 프레임(S[n])은 160개 샘플(즉, K=160)을 포함한다. 피치 시간(M)은 주어진 프레임안에서 반복하는 기본 시간이다. 스피치 코더는 이후에 단계 402로 진행된다. 단계 402에서, 스피치 코더는 현재의 나머지 프레임의 마지막 M개 샘플을 가지는 피치 프로토타입 X를 추출한다. 피치 프로토타입 X는 유리하게 프레임(S[n])의 마지막 피치 시간(M개 샘플)일 수 있다. 선택적으로, 피치 프로토타입 X는 프레임(S[n])의 임의의 피치 시간 M일 수 있다. 스피치 코더는 이후에 단계 404로 진행된다.
단계 404에서, 스피치 코더는 진폭 Qi와 신호 Si를 가지는 N개의 중요한 샘플 또는 펄스를 선택하며, M개 샘플, 피치 프로토 타입 X의 위치 Pi의 i=1,2,...,N, 이다. 그러므로 N개 "최상" 샘플은 M-샘플 피치 프로토타입 X 및 피치 프로토타입 X의 M-N개의 선택되지 않은 샘플 나머지로부터 선택된다. 스피치 코더는 이후에 단계 406으로 진행된다. 단계 406에서, 스피치 코더는 Bp 비트를 이용하여 펄스의 위치를 인코딩한다. 스피치 코더는 이후에 단계 408로 진행된다. 단계 408에서, 스피치 코더는 Bs 비트를 이용하여 펄스의 사인을 인코딩한다. 스피치 코더는 이후에 단계 410으로 진행된다. 단계 410에서, 스피치 코더는 Ba 비트를 이용하여 펄스의 진폭을 인코딩한다. N 펄스 진폭 Qi의 양자화값은 i=1,2,...,N에 대하여 Zi로 나타난다. 스피치 코더는 이후에 단계 412로 진행된다.
단계 412에서, 스피치 코더는 펄스를 추출한다. 일 실시예에서, 펄스 추출 단계는 절대(즉, 무성음인) 진폭에 따라 모든 M개의 펄스들을 정렬하고 N개의 최고 펄스(즉, 최고절대 진폭을 가진 N개의 펄스)들을 선택함으로써 수행된다. 선택적인 실시예에서, 펄스 추출 단계는 다음 기술내용에 따라 지각적인 중요성의 견지에서 N개의 "최상" 펄스들을 선택한다.
도 7에 도시된 바와 같이, 스피치 신호는 LP 나머지 도메인으로부터 필터링에 의하여 스피치 도메인으로 변환될 수 있다. 반대로, 스피치 신호가 스피치 도메인으로부터 역필터링에 의하여 LP 나머지 도메인으로 변환될 수 있다. 일 실시예에 따라, 도 7에 도시된 바와 같이, 피치 프로토타입 X는 제 1 LP 합성 필터(500)에 입력되고, 이는 H(z)로 표시된다. 제 1 LP 합성 필터(500)는 피치 프로토타입 X의 지각적으로 가중된 스피치-도메인 버전을 생성하며, 이는 S(n)으로 표시된다. 형태 코드북(502)은 형태 벡터값을 생성하며, 이는 다중화기(504)에 제공된다. 이득 코드북(506)은 이득 벡터값을 생성하며, 이는 또한 다중화기(504)에 제공된다. 다중화기(504)는 형태 벡터값과 이득 벡터값을 곱하고, 형태-이득 곱값을 생성한다. 형태-이득 곱값은 제 1 가산기(508)에 제공된다. 펄스의 수 N(숫자 N은 이하 개시된 바와 같이 피치 프로토타입 X와 모델 프로토타입 e_mod[n]사이의 형태-이득 에러(E)를 최소화하는 샘플의 수이다)이 또한 제 1 가산기(508)에 제공된다. 제 1 가산기(508)는 형태-이득 곱값에 N 펄스를 더하여, 모델 프로토타입(e_mod[n])을 생성한다. 모델 프로토타입(e_mod[n])은 제 2 LP 합성 필터(510)에 제공되며, 또한 H(z)로 표시된다. 제 2 LP 합성 필터(510)는 모델 프로토타입(e_mod[n])의 지각적으로 가중된 스피치-도메인 버전을 생성하며, 이는 Se(n)으로 표시된다. 스피치-도메인 값(S(n) 및 Se(n))은 제 2 가산기(512)에 제공된다. 제 2 가산기(512)는 Se(n)으로부터 S(n)을 감산하여, 제곱의 합 계산기(514)에 차이값을 제공한다. 제곱의 합 계산기(514)은 차이값의 제곱을 계산하여, 에너지 또는 에러값(E)를 생성한다.
도 6을 참조하는 상술한 선택적 실시예에 따라, LP 합성 필터에 대한 임펄스 응답(H(z); 도시되지 않음) 또는 현재의 전환 스피치 프레임에 대한 지각적으로 가중된 LP 합성 필터(H(z/α)는 H(n)으로 표시된다. 피치 프로토타입 X의 모델은 (e_mod[n])으로 표시된다. 지각적으로 가중된 스피치 도메인 에러(E)는 다음 방정식에 따라 표시될 수 있다.
Figure 112001028892273-pct00011
여기에서
Figure 112001028892273-pct00012
그리고
Figure 112001028892273-pct00013
,
"*"는 기술상 공지된 바와 같이 적당한 필터링 또는 컨볼루션 연산을 나타내고, Se(n) 및 S(n)은 각각 피치 프로토타입(e_mod[n]) 및 X의 지각적으로 가중된 스피치 도메인 버전을 나타낸다. 개시된 선택적인 실시예에서, N개의 최상 샘플은 다음과 같이 피치 프로토타입 X의 M개 샘플로부터 (e_mod[n])를 형성하기 위하여 선택될 수 있다: N개 샘플은 가능한 MCN 조합의 j번째 세트로 표시될 수 있으며, 유리하게 모델(e_mod[n])를 생성하기 위하여 선택되어, 에러(Ej)가 모든 j에 대하여 최소가 되며, j=1,2,3,...,MCN이고, Ej는 다음 방정식을 따른다.
Figure 112001028892273-pct00014
그리고
Figure 112001028892273-pct00015
펄스를 추출한 후에, 스피치 코더는 단계 414로 진행된다. 단계 414에서, 피치 프로토타입X의 나머지 M-N개 샘플들은 선택적인 실시예와 연관하여 두개의 가능한 방법에 따라 표시된다. 일 실시예에서, 피치 프로토타입X의 나머지 M-N개 샘플들은 M-N개 샘플들을 제로값으로 대체함으로써 선택될 수 있다. 선택적인 실시예에서, 피치 프로토타입X의 나머지 M-N개 샘플들은 Rg비트를 가진 코드북을 사용하는 이득과 Rs 비트를 가진 코드북을 사용하는 형태 벡터로 M-N개 샘플을 대체함으로써 선택될 수 있다. 따라서 이득(g) 및 형태 벡터(H)는 M-N개 샘플을 나타낸다. 이득(g) 및 형태 벡터(H)는 성분값 gj와 왜곡(Ejk)를 최소화하여 코드북으로부터 선택된 Hk를 가진다. 왜곡(Hk)은 다음 방정식을 따른다.
Figure 112001028892273-pct00016
그리고
Figure 112001028892273-pct00017
여기에서 모델 프로토타입(e_modjk[n])은 상술한 M 펄스로 형성되고, M-N 샘플은 j번째 이득 코드워드 gj와 k번째 형태 코드워드 Hk에 의하여 표시된다. 따라서 선택은 유리하게 Ejk의 최소값을 전달하는 {j,k}의 조합을 선택함으로써 함께 최적화되는 방식으로 수행될 수 있다. 스피치 코더는 이후에 단계 416으로 진행된다.
단계 416에서, 코딩된 피치 프로토타입(Y)이 계산된다. 코딩된 피치 프로토타입(Y)은 위치 Pi에서 다시 N 펄스를 교체하고, 진폭 Qi를 Si*Zi로 교체하고, 상술한 바와 같이(선택적 실시예), 나머지 M-N 샘플을 제로값(일 실시예) 또는 선택된 이득-형태 표시의 샘플(g*H)로 교체함으로써 원 피치 프로토타입(X)를 모델링한다. 코딩된 피치 프로토타입 Y는 재구성되거나 합성된 N "최상" 샘플 더하기 재구성되거나 합성된 나머지 M-N 샘플의 합에 해당한다. 스피치 코더는 이후에 단계 418로 진행된다.
단계 418에서, 스피치 코더는 과거(즉, 바로 이전) 디코딩된 나머지 프레임으로부터 M-샘플 "과거 프로토타입" W를 추출한다. 과거 프로토타입 W는 과거 디코딩된 나머지 프레임으로부터 마지막 M개 샘플을 취함으로써 추출된다. 선택적으로 과거 프로토타입 W는 과거 프레임의 M개 샘플의 다른 세트로부터 구성될 수 있으며, 피치 프로토타입 X는 현재의 프레임의 M개 샘플의 해당 세트로부터 취해진다. 스피치 코더는 이후에 단계 420으로 진행된다.
단계 420에서, 스피치 코더는 나머지 SSYNTH[n]의 디코딩된 현재 프래임의 전체 K개 샘플을 재구성한다. 상기 재구성은 마지막 M개 샘플들이 재구성된 피치 프로토타입 Y으로 형성되고, 마지막 K-M개 샘플들이 마지막 프로토타입 Y 및 현재 코딩된 피치 프로토타입 Y를 보간하여 형성되는 임의의 통상적인 보간 방법으로 수행된다. 일 실시예에서, 보간은 다음 단계에 따라 수행될 수 있다.
W 및 Y는 최적의 상대적 위치를 도출하기 위하여 유리하게 할당되며, 평균 피치 사간은 보간을 위해 사용된다. 상기 할당 A*는 W로 순환된 Y의 최대 크로스상관에 해당하는 현 피치 프로토타입 Y의 순환으로서 획득된다. 각각의 가능한 할당(A)에서의 상호 상관(C[A])은 0에서 M-1의 범위의 서브세트 또는 값들을 취하고, 다음으로 다음 방정식에 따라 계산될 수 있다.
Figure 112001028892273-pct00018
평균 피치 주기(Lav)는 이후에 다음 방정식을 따른다.
Figure 112001028892273-pct00019
여기에서
Figure 112001028892273-pct00020
보간은 다음 방정식에 따라 제 1 M-N 샘플을 계산하도록 수행된다.
Figure 112001028892273-pct00021
여기에서 α=M/Lav이며, 인덱스 n'의 비정수값에서의 샘플(nα또는 nα+A*와 동일)은 n'의 소수값의 원하는 정확도를 따르는 통상적인 보간 방법을 이용하여 계산된다. 상술한 방정식의 라운드 연산 및 모듈로 연산(% 심볼로 표시)은 기술상 공지되어 있다. 시간에 대하여 원 전환 스피치, 코딩되지 않은 나머지, 코딩된/양자화된 나머지 및 디코딩된/재구성된 스피치의 그래프가 각각 도 8A-D에 도시되어 있다.
일 실시예에서, 인코딩된 전환 나머지 프레임이 폐루프 기술에 따라 계산될 수 있다. 따라서 인코딩된 전환 나머지 프레임이 상기와 같이 계산된다. 이후에 지각적인 신호대잡음비(PSNR)는 전체 프레임에 대하여 계산된다. 만일 PSNR이 상기의 미리 정의된 임계값을 초과한다면, CELP와 같은 적당히 고비율, 고정밀 파형 코딩 방법이 프레임을 인코딩하는데 사용될 수 있다. 상기와 같은 기술은 1999년 2월 26일에 출원되고 CLOSED-LOOP MULTIMODE MIXED-DOMAIN LINEAR PREDICTION (MDLP) SPEECH CODER으로 명명된 미국 특허 출원번호 09/259,151에 개시되어 있으며, 본 발명의 양수인에게 할당된다. 가능할 때 상기의 저비트율 스피치 코딩 방법을 사용하고 저비트율 스피치 코딩 방법이 왜곡측정 타겟값을 전달하는데 실패할 때 고율 CELP 스피치 코딩방법으로 대체하여 사용함으로써, 전환 스피치 프레임은 낮은 평균 코딩율을 사용하면서 상대적으로 높은 품질(임계값 또는 사용된 왜곡측정값에 의하여 결정된)로 코딩될 수 있다.
그러므로 스피치 프레임에 대한 신규한 다중 펄스 보간 코더가 개시되었다. 당업자들은 개시된 실시예와 연관된 여러 로직 블록 및 알고리즘 단계가 디지털 신호 처리기(DSP), 주문형 집적회로(ASIC), 이산 게이트 또는 트랜지스터 로직, 예를 들어 레지스터 및 FIFO와 같은 이산 하드웨어 성분, 한 세트의 펌웨어 인스트럭션을 수행하는 처리기 또는 임의의 통상적인 프로그램가능한 소프트웨어 모듈 및 처리기를 이용하여 수행될 수 있다. 처리기는 유리하게 마이크로프로세서일 수 있지만 대안으로서 처리기가 임의의 통상적인 처리기, 제어기, 마이크로제어기 또는 상태 머신일 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래쉬 메모리, 레지스터 또는 기술상 공지된 임의의 다른 형태인 기록가능 저장 매체에 존재할 수 있다. 당업자들은 또한 데이터, 인스트럭션, 명령, 정보, 신호, 비트, 심볼 및 상기의 참조된 칩들이 유리하게 전압, 전류, 전자기파, 자기필드 또는 입자, 광필드 또는 입자 또는 임의의 이들의 조합인 것을 이해한다.
따라서 본 발명의 바람직한 실시예가 도시 및 개시되어 있다. 그러나 여러 변용이 본 발명의 범위를 벗어나지 않는다면 실시예에 이루어질 수 있다는 것이 당업자들에게는 명백하다. 그러므로 본 발명은 다음의 청구항을 제외하고는 제한받지 않는다.

Claims (24)

  1. 전환 스피치 프레임을 코딩하는 방법으로서,
    전환 스피치 샘플들로 구성된 제 1 프레임으로부터 상기 제 1 프레임의 제 1 샘플 서브세트(402, 416)를 생성하는 단계; 및
    상기 제 1 샘플 서브세트(402, 416)에 포함되지 않은 상기 제 1 프레임의 다른 샘플들을 합성하기 위하여, 상기 전환 스피치 샘플들 중 이전에 수신된 샘플들로 구성된 제 2 프레임으로부터 추출된 제 2 샘플 서브세트(418) 및 상기 제 1 샘플 서브세트(402, 416)를 보간하는 단계(420)를 포함하는 방법.
  2. 제 1 항에 있어서, 상기 생성 단계를 수행한 후에 상기 제 1 샘플 서브세트(402, 416)를 전송하는 단계 및 상기 보간 단계(420)를 수행하기 전에 상기 제 1 샘플 서브세트(402, 416)를 수신하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  3. 제 1 항에 있어서, 상기 제 1 샘플 서브세트(402, 416)의 특정 부분들을 단순화시키는 단계(412, 414)를 더 포함하는 것을 특징으로 하는 방법.
  4. 제 3 항에 있어서, 상기 단순화 단계(412, 414)는 상기 제 1 샘플 서브세트(402, 416)로부터 지각적으로 중요한 샘플들을 선택하는 단계(412) 및 모든 선택되지 않은 샘플들에 제로값을 할당하는 단계(414)를 포함하는 것을 특징으로 하는 방법.
  5. 제 3 항에 있어서, 상기 단순화 단계(412, 414)는 상기 제 1 샘플 서브세트(402, 416)로부터 상대적으로 높은 절대 진폭을 갖는 샘플들을 선택하는 단계(412) 및 모든 선택되지 않은 샘플들에 제로값을 할당하는 단계(414)를 포함하는 것을 특징으로 하는 방법.
  6. 제 4 항에 있어서, 상기 지각적으로 중요한 샘플들은 상기 전환 스피치 샘플들의 제 1 프레임 및 상기 전환 스피치 샘플들의 합성된 제 1 프레임 간의 지각적으로 가중된 스피치-도메인 에러가 최소가 되도록 선택된 샘플들인 것을 특징으로 하는 방법.
  7. 제 3 항에 있어서, 상기 단순화 단계(412, 414)는 상기 제 1 샘플 서브세트(402, 416)로부터 지각적으로 중요한 샘플들을 선택하는 단계(412) 및 모든 선택되지 않은 샘플들의 일부를 양자화하는 단계(414)를 포함하는 것을 특징으로 하는 방법.
  8. 제 3 항에 있어서, 상기 단순화 단계(412, 414)는 상기 제 1 샘플 서브세트(402, 416)로부터 상대적으로 높은 절대 진폭을 갖는 샘플들을 선택하는 단계(412) 및 모든 선택되지 않은 샘플의 일부를 양자화하는 단계(414)를 포함하는 것을 특징으로 하는 방법.
  9. 제 7 항에 있어서, 상기 지각적으로 중요한 샘플들은 상기 전환 스피치 샘플의 제 1 프레임 및 상기 전환 스피치 샘플들의 합성된 제 1 프레임들 간의 이득 및 형태 에러가 최소가 되도록 선택된 샘플들인 것을 특징으로 하는 방법.
  10. 전환 스피치 프레임을 코딩하는 스피치 코더로서,
    전환 스피치 샘플들로 구성된 제 1 프레임으로부터 상기 제 1 프레임의 제 1 샘플 서브세트(402, 416)를 생성하는 수단; 및
    상기 제 1 샘플 서브세트(402, 416)에 포함되지 않은 상기 제 1 프레임의 다른 샘플들을 합성하기 위하여, 상기 전환 스피치 샘플들 중 이전에 수신된 샘플들로 구성된 제 2 프레임으로부터 추출된 제 2 샘플 서브세트(418) 및 상기 제 1 샘플 서브세트(402, 416)를 보간하는 수단(420)을 포함하는 스피치 코더.
  11. 제 10 항에 있어서, 상기 제 1 샘플 서브세트(402, 416)의 특정 부분들을 단순화하는 수단을 더 포함하는 스피치 코더.
  12. 제 11 항에 있어서, 상기 단순화 수단(412, 414)은 상기 제 1 샘플 서브세트(402, 416)로부터 지각적으로 중요한 샘플들을 선택하는 수단(412) 및 모든 선택되지 않은 샘플들에 제로값을 할당하는 수단(414)을 포함하는 스피치 코더.
  13. 제 11 항에 있어서, 상기 단순화 수단(412, 414)은 상기 제 1 샘플 서브세트(402, 416)로부터 상대적으로 높은 절대 진폭을 갖는 샘플들을 선택하는 수단(412) 및 모든 선택되지 않은 샘플들에 제로값을 할당하는 수단(414)을 포함하는 것을 특징으로 하는 스피치 코더.
  14. 제 12 항에 있어서, 상기 지각적으로 중요한 샘플들은 상기 전환 스피치 샘플들의 제 1 프레임들 상기 전환 스피치 샘플들의 합성된 제 1 프레임 간의 지각적으로 가중된 스피치-도메인 에러가 최소가 되도록 선택된 샘플들인 것을 특징으로 하는 스피치 코더.
  15. 제 11 항에 있어서, 상기 단순화 수단(412, 414)은 상기 제 1 샘플 서브세트(402, 416)로부터 지각적으로 중요한 샘플들을 선택하는 수단(412) 및 모든 선택되지 않은 샘플들의 일부를 양자화하는 수단(414)을 포함하는 것을 특징으로 하는 스피치 코더.
  16. 제 11 항에 있어서, 상기 단순화 수단(412, 414)은 상기 제 1 샘플 서브세트(402, 416)로부터 상대적으로 높은 절대 진폭을 갖는 샘플들을 선택하는 수단(412) 및 모든 선택되지 않은 샘플의 일부를 양자화하는 수단(414)을 포함하는 것을 특징으로 하는 스피치 코더.
  17. 제 15 항에 있어서, 상기 지각적으로 중요한 샘플들은 상기 전환 스피치 샘플들의 제 1 프레임 및 상기 전환 스피치 샘플들의 합성된 제 1 프레임 간의 이득 및 형태 에러가 최소가 되도록 선택된 샘플들인 것을 특징으로 하는 스피치 코더.
  18. 전환 스피치 프레임을 코딩하는 스피치 코더로서,
    전환 스피치 샘플들로 구성된 제 1 프레임으로부터 상기 제 1 프레임의 제 1 샘플 서브세트(402, 416)를 생성하도록 구성된 추출기; 및
    상기 추출기에 결합되어, 상기 제 1 샘플 서브세트(402, 416)에 포함되지 않은 상기 제 1 프레임의 다른 샘플들을 합성하기 위하여, 상기 전환 스피치 샘플들 중 이전에 수신된 샘플들로 구성된 제 2 프레임으로부터 추출된 제 2 샘플 서브세트(418) 및 상기 제 1 샘플 서브세트(402, 416)를 보간하도록 구성된 보간기(420)를 포함하는 스피치 코더.
  19. 제 18 항에 있어서, 상기 제 1 샘플 서브세트(402, 416)로부터 지각적으로 중요한 샘플들을 선택하도록 구성된 펄스 선택기(412)를 더 포함하며, 모든 선택되지 않은 샘플들에 제로값이 할당되는(414) 것을 특징으로 하는 스피치 코더.
  20. 제 18 항에 있어서, 상기 제 1 샘플 서브세트(402, 416)로부터 상대적으로 높은 절대 진폭을 이용하여 샘플들을 선택하도록 구성된 펄스 선택기(412)를 더 포함하며, 모든 선택되지 않은 샘플들에 제로값이 할당되는(414) 것을 특징으로 하는 스피치 코더.
  21. 제 19 항에 있어서, 상기 지각적으로 중요한 샘플들은 상기 전환 스피치 샘플들의 제 1 프레임 및 상기 전환 스피치 샘플들의 합성된 제 1 프레임 간의 지각적으로 가중된 스피치-도메인 에러가 최소가 되도록 선택된 샘플인 것을 특징으로 하는 스피치 코더.
  22. 제 18 항에 있어서, 상기 제 1 샘플 서브세트(402, 416)로부터 지각적으로 중요한 샘플들을 선택하도록 구성된 펄스 선택기(412)를 더 포함하며, 상기 모든 선택되지 않은 샘플들의 일부가 양자화되는(414) 것을 특징으로 하는 스피치 코더.
  23. 제 18 항에 있어서, 상기 제 1 샘플 서브세트(402, 416)로부터 상대적으로 높은 절대 진폭을 갖는 샘플들을 선택하도록 구성된 펄스 선택기(412)를 더 포함하며, 상기 모든 선택된 샘플들의 일부가 양자화되는(414) 것을 특징으로 하는 스피치 코더.
  24. 제 22 항에 있어서, 상기 지각적으로 중요한 샘플들은 상기 전환 스피치 샘플들의 제 1 프레임 및 상기 전환 스피치 샘플들의 합성된 제 1 프레임 간의 이득 및 형태 에러가 최소가 되도록 선택된 샘플들인 것을 특징으로 하는 스피치 코더.
KR1020017014217A 1999-05-07 2000-05-08 전환 스피치 프레임의 다중 펄스 보간 코딩 KR100700857B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/307,294 US6260017B1 (en) 1999-05-07 1999-05-07 Multipulse interpolative coding of transition speech frames
US09/307,294 1999-05-07

Publications (2)

Publication Number Publication Date
KR20010112480A KR20010112480A (ko) 2001-12-20
KR100700857B1 true KR100700857B1 (ko) 2007-03-29

Family

ID=23189096

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020017014217A KR100700857B1 (ko) 1999-05-07 2000-05-08 전환 스피치 프레임의 다중 펄스 보간 코딩

Country Status (11)

Country Link
US (1) US6260017B1 (ko)
EP (1) EP1181687B1 (ko)
JP (1) JP4874464B2 (ko)
KR (1) KR100700857B1 (ko)
CN (1) CN1188832C (ko)
AT (1) ATE310303T1 (ko)
AU (1) AU4832200A (ko)
DE (1) DE60024080T2 (ko)
ES (1) ES2253226T3 (ko)
HK (1) HK1044614B (ko)
WO (1) WO2000068935A1 (ko)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6456964B2 (en) * 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
US6681203B1 (en) * 1999-02-26 2004-01-20 Lucent Technologies Inc. Coupled error code protection for multi-mode vocoders
GB2355607B (en) * 1999-10-20 2002-01-16 Motorola Israel Ltd Digital speech processing system
US6757301B1 (en) * 2000-03-14 2004-06-29 Cisco Technology, Inc. Detection of ending of fax/modem communication between a telephone line and a network for switching router to compressed mode
US7606703B2 (en) * 2000-11-15 2009-10-20 Texas Instruments Incorporated Layered celp system and method with varying perceptual filter or short-term postfilter strengths
US20050234712A1 (en) * 2001-05-28 2005-10-20 Yongqiang Dong Providing shorter uniform frame lengths in dynamic time warping for voice conversion
JPWO2003042648A1 (ja) * 2001-11-16 2005-03-10 松下電器産業株式会社 音声符号化装置、音声復号化装置、音声符号化方法および音声復号化方法
CN101317218B (zh) * 2005-12-02 2013-01-02 高通股份有限公司 用于频域波形对准的系统、方法和设备
KR100883652B1 (ko) * 2006-08-03 2009-02-18 삼성전자주식회사 음성 구간 검출 방법 및 장치, 및 이를 이용한 음성 인식시스템
CN101540612B (zh) * 2008-03-19 2012-04-25 华为技术有限公司 编码、解码系统、方法及装置
US8195452B2 (en) * 2008-06-12 2012-06-05 Nokia Corporation High-quality encoding at low-bit rates
KR101236054B1 (ko) * 2008-07-17 2013-02-21 노키아 코포레이션 벡터 양자화기를 위한 고속 최근접 이웃 탐색용 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
CN101615911B (zh) 2009-05-12 2010-12-08 华为技术有限公司 一种编解码方法和装置
KR20110001130A (ko) * 2009-06-29 2011-01-06 삼성전자주식회사 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법
US8849655B2 (en) 2009-10-30 2014-09-30 Panasonic Intellectual Property Corporation Of America Encoder, decoder and methods thereof
CN102222505B (zh) * 2010-04-13 2012-12-19 中兴通讯股份有限公司 可分层音频编解码方法系统及瞬态信号可分层编解码方法
US8990094B2 (en) * 2010-09-13 2015-03-24 Qualcomm Incorporated Coding and decoding a transient frame
US11270721B2 (en) * 2018-05-21 2022-03-08 Plantronics, Inc. Systems and methods of pre-processing of speech signals for improved speech recognition

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4821324A (en) * 1984-12-24 1989-04-11 Nec Corporation Low bit-rate pattern encoding and decoding capable of reducing an information transmission rate
US5119424A (en) * 1987-12-14 1992-06-02 Hitachi, Ltd. Speech coding system using excitation pulse train
US20050119424A1 (en) * 2001-07-31 2005-06-02 Mitsubishi Chemical Corporation Method of polymerization and nozzle employed in same

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4441201A (en) * 1980-02-04 1984-04-03 Texas Instruments Incorporated Speech synthesis system utilizing variable frame rate
CA1255802A (en) 1984-07-05 1989-06-13 Kazunori Ozawa Low bit-rate pattern encoding and decoding with a reduced number of excitation pulses
JPH01207800A (ja) 1988-02-15 1989-08-21 Nec Corp 音声合成方式
JPH02160300A (ja) * 1988-12-13 1990-06-20 Nec Corp 音声符号化方式
JP3102015B2 (ja) * 1990-05-28 2000-10-23 日本電気株式会社 音声復号化方法
SG70558A1 (en) 1991-06-11 2000-02-22 Qualcomm Inc Variable rate vocoder
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
US5884253A (en) 1992-04-09 1999-03-16 Lucent Technologies, Inc. Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter
US5784532A (en) 1994-02-16 1998-07-21 Qualcomm Incorporated Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system
TW271524B (ko) * 1994-08-05 1996-03-01 Qualcomm Inc
JP3747492B2 (ja) * 1995-06-20 2006-02-22 ソニー株式会社 音声信号の再生方法及び再生装置
SE506341C2 (sv) * 1996-04-10 1997-12-08 Ericsson Telefon Ab L M Metod och anordning för rekonstruktion av en mottagen talsignal
JPH10214100A (ja) * 1997-01-31 1998-08-11 Sony Corp 音声合成方法
US6029133A (en) * 1997-09-15 2000-02-22 Tritech Microelectronics, Ltd. Pitch synchronized sinusoidal synthesizer

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4821324A (en) * 1984-12-24 1989-04-11 Nec Corporation Low bit-rate pattern encoding and decoding capable of reducing an information transmission rate
US5119424A (en) * 1987-12-14 1992-06-02 Hitachi, Ltd. Speech coding system using excitation pulse train
US20050119424A1 (en) * 2001-07-31 2005-06-02 Mitsubishi Chemical Corporation Method of polymerization and nozzle employed in same

Also Published As

Publication number Publication date
DE60024080T2 (de) 2006-08-03
EP1181687B1 (en) 2005-11-16
ES2253226T3 (es) 2006-06-01
ATE310303T1 (de) 2005-12-15
AU4832200A (en) 2000-11-21
US6260017B1 (en) 2001-07-10
HK1044614B (zh) 2005-07-08
WO2000068935A1 (en) 2000-11-16
CN1188832C (zh) 2005-02-09
JP2002544551A (ja) 2002-12-24
EP1181687A1 (en) 2002-02-27
HK1044614A1 (en) 2002-10-25
JP4874464B2 (ja) 2012-02-15
KR20010112480A (ko) 2001-12-20
CN1355915A (zh) 2002-06-26
DE60024080D1 (de) 2005-12-22

Similar Documents

Publication Publication Date Title
US6584438B1 (en) Frame erasure compensation method in a variable rate speech coder
US7493256B2 (en) Method and apparatus for high performance low bit-rate coding of unvoiced speech
JP4907826B2 (ja) 閉ループのマルチモードの混合領域の線形予測音声コーダ
KR100700857B1 (ko) 전환 스피치 프레임의 다중 펄스 보간 코딩
JP2011237809A (ja) フレームエラーに対する感度を低減する符号化体系パターンを使用する予測音声コーダ
US7085712B2 (en) Method and apparatus for subsampling phase spectrum information
JP4567289B2 (ja) 準周期信号の位相を追跡するための方法および装置
JP2011090311A (ja) 閉ループのマルチモードの混合領域の線形予測音声コーダ

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130227

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140227

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20150227

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20151230

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20161229

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20171228

Year of fee payment: 12

LAPS Lapse due to unpaid annual fee