KR19980070294A - 개선된 멀티모달 코드-여기된 선형 예측(celp)코더 및 방법 - Google Patents

개선된 멀티모달 코드-여기된 선형 예측(celp)코더 및 방법 Download PDF

Info

Publication number
KR19980070294A
KR19980070294A KR1019970079078A KR19970079078A KR19980070294A KR 19980070294 A KR19980070294 A KR 19980070294A KR 1019970079078 A KR1019970079078 A KR 1019970079078A KR 19970079078 A KR19970079078 A KR 19970079078A KR 19980070294 A KR19980070294 A KR 19980070294A
Authority
KR
South Korea
Prior art keywords
speech
mode
gain
input
speech input
Prior art date
Application number
KR1019970079078A
Other languages
English (en)
Inventor
팩소이어댈(엔엠아이)
맥크리알렌브이.
Original Assignee
윌리엄비.켐플러
텍사스인스트루먼츠인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 윌리엄비.켐플러, 텍사스인스트루먼츠인코포레이티드 filed Critical 윌리엄비.켐플러
Publication of KR19980070294A publication Critical patent/KR19980070294A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

스피치 입력을 수신하도록 동작가능한 인코더(12)를 구비한 개선된 멀티모달 코드-여기된 선형 예측(Improved multimodal code-excited linear prediction : CELP) 코더(10) 및 방법이 개시된다. 피크치 모듈(54)은 상기 인코더(12)와 통신할 수 있다. 상기 피크치 모듈(54)은 상기 스피치 입력의 피크 측정치를 구하고 상기 피크 측정치가 피크 임계치보다 큰 지를 판정할 수 있다. 상기 인코더(12)는 상기 피크 측정치가 상기 피크 임계치보다 큰 제1 모드에서 스피치 입력을 분류할 수 있다.

Description

개선된 멀티모달 코드-여기된 선형 예측(CELP) 코더 및 방법
본 발명은 총체적으로 스피치 코딩(speech coding)의 분야에 관한 것으로, 특히 개선된 멀티모달 코드-여기된 선형 예측(Code-excited linear prediction : CELP) 코더 및 방법에 관한 것이다.
코드-여기된 선형 예측(CELP)은 4 내지 16kb/s인 중간 비트율의 저속으로 우수한 성능을 갖는 공지된 스피치 코딩의 부류이다. CELP 코더는 일반적으로 프레임이라 칭하는 입력 신호의 고정된-길이의 세그먼트 상에서 동작한다. 멀티모달(multimodal) CELP 코더는 각 입력 프레임을 모드라 칭하는 몇몇 부류중 하나로 분류한 것이다. 모드는 독특한 코딩 기술에 의해 특성화된다.
전형적으로, 멀티모달 CELP 코더는 음성 및 무음성 스피치를 위한 개별 모드를 포함한다. CELP 코더는 음성 및 무음성 스피치 간을 구별하는 다양한 기술을 사용하고 있다. 그러나, 이들 기술은 일반적으로 임의의 과도 사운드를 음성 스피치로서 적절히 특성화하지는 못한다. CELP 코더에서 다른 공통의 문제는 출력 스피치 이득이 입력 이득과 항상 일치하지 않는다는 것이다.
따라서, 기술 분야에 개선된 멀티모달 스피치 코더가 필요하게 되었다. 본 발명은 멀티모달 스피치 코더 및 종래 시스템과 관련된 단점과 문제를 실질적으로 감소시키거나 제거하는 방법을 제공한다.
본 발명에 따르면, 스피치는 스피치 입력을 수신하여 상기 스피치 입력의 피크 측정치를 구함으로써 분류될 수 있다. 다음에, 상기 피크 측정치가 피크 임계치보다 큰 지가 판정될 수 있다. 만약 상기 피크 측정치가 상기 피크 임계치보다 크다면, 상기 스피치 입력은 코드-여기된 선형 예측 모드를 포함하는 멀티모달 스피치 코더의 제1 모드로 분류될 수 있다.
보다 상세하게, 본 발명의 한 실시예에 따르면, 상기 스피치 분류 방법은 상기 스피치 입력의 개방-루프 피치 예측 이득과 제로-교차율을 구하는 단계를 더 구비할 수 있다. 다음에, 상기 개방-루프 피치 예측 이득이 개방-루프 피치 예측 이득 임계치보다 큰 지와 상기 제로-교차율이 제로-교차율 임계치보다 작은 지가 판정될 수 있다. 다른 경우에, 상기 스피치 입력은 상기 코드-여기된 선형 예측 모드를 포함하는 상기 멀티모달 스피치 코더의 상기 제1 모드로 분류될 수 있다. 상기 스피치 입력은 상기 제1 모드로 분류되지 않아, 상기 스피치 입력은 보다 많은 수의 0이 아닌 요소의 여기 벡터를 갖는 제2 모드로 분류될 수 있다.
본 발명의 다른 특징에 따르면, 스피치는 이득-일치된 분석/합성을 사용하여 인코드될 수 있다. 본 발명의 이 특징에 따르면, 이득값은 스피치 입력으로부터 구해질 수 있다. 다음에, 타겟 벡터는 상기 스피치 입력으로부터 구해지고 이득 정규화될 수 있다. 최적의 여기 벡터는 상기 이득 정규화된 타겟 벡터와 합성되고-필터된 여기 벡터 간의 에러를 최소화함으로써 결정될 수 있다.
본 발명의 중요한 기술적 장점은 개선된 멀티모달 코드-여기된 선형 예측(CELP) 코더 및 시스템을 제공하는 것을 포함한다. 특히, 상기 멀티모달 CELP 코더는 음성 스피치로서 비교적 조용하며, 잡음에 유사한 간격에 의해 발생되는 고-에너지 펄스의 짧은 버스트를 갖는 음성 스피치를 적절히 분류하고 인코드하도록 동작가능한 피크치 모듈을 포함할 수 있다. 따라서, /t/, /k/, 및 /p/와 같은 무음성 파열음은 보다 소수의 0이 아닌 요소의 임의의 여기 벡터를 갖는 모드로 적절히 분류될 수 있다.
본 발명의 다른 기술적 장점은 무음성 스피치를 위한 이득-일치된 분석/합성 인코딩을 제공하는 것을 포함한다. 특히, 상기 CELP 코더는 코드된 스피치 이득을 스피치 입력 이득에 일치시킨다. 이 때, 상기 스피치 입력은 상기 이득으로 정규화될 수 있다. 다음에 분석/합성은 상기 CELP 코더에 의해 수행되어 상기 스피치 입력의 여기 매개 변수를 결정할 수 있다. 상기 이득의 일치는 저속의 비트율로 코딩 무음성 스피치와 일반적으로 관련된 원치않는 이득의 유동을 실질적으로 감소시키거나 제거한다.
다른 기술적 장점이 다음의 도면, 설명, 및 청구범위로부터 기술 분야에 숙련자에게서 용이하게 명백해질 것이다.
도 1은 본 발명의 한 실시예에 따른 코드-여기된 선형 예측(code-excited linear prediction : CELP) 코더의 블록도.
도 2는 본 발명의 한 실시예에 따른 도 1의 CELP 코더로 음성 및 무음성 스피치를 특성화하는 방법의 흐름도.
도 3은 본 발명의 한 실시예에 따른 무음성 스피치를 코딩하는 방법의 흐름도.
<도면의 주요 부분에 대한 부호의 설명>
10 : 멀티모달 CELP 코더
12 : 인코더
14 : 디코더
16 : 메모리
18 : RAM
20 : 프로세서
22 : A/D 변환기
24 : 고역 통과 필터
32 : D/A 변환기
본 발명의 보다 완전한 이해 및 그 장점을 위해, 지금부터 첨부한 도면을 결합하여 취해진 다음의 설명을 참조하며, 유사한 참조 번호가 유사한 부분을 나타낸다.
지금부터 본 발명의 바람직한 실시예 및 그 장점이 도 1 내지 도 3을 더 상세히 참조함으로써 가장 잘 이해되며, 여기서 유사한 번호는 유사한 부분을 말한다. 이하에 더 상세히 설명되듯이, 도 1 내지 도 3은 양자 간을 더 잘 구별하고 스피치를 분류하도록 동작가능한 피크치 모듈(a peakiness module)을 포함하는 멀티모달 코드-여기된 선형 예측(a multimodal code-excited linear prediction : CELP) 코더를 도시한다. 본 발명의 다른 특징에 따르면, 멀티모달 CELP 코더는 이득-일치된 분석/합성 인코딩을 사용하여 스피치 코딩과 관련된 이득의 유동을 감소시키거나 제거할 수 있다.
도 1은 본 발명에 따른 멀티모달 CELP 코더(10)의 블록도를 도시한다. 본 발명에 따르면, CELP 코더는 3진법, 대수, 벡터-합, 랜덤하게-모집된, 훈련된, 적응 또는 유사한 코드북으로부터 얻어질 수 있는 여기를 사용하는 분석/합성 스피치 코더에 근거한 선형 예측일 수 있다.
한 실시예에서, 멀티모달 CELP 코더(10)는 전화 응답 장치에 사용될 수 있다. 멀티모달 CELP 코더(10)가 다른 통신, 전화, 또는 합성된 스피치를 제공하는 다른 형태의 장치와 결합하여 사용될 수 있다는 것을 알 것이다. 예를 들면, 멀티모달 CELP 코더(10)는 전화 우편 시스템, 디지털 사운드 레코딩 디바이스, 셀룰러 전화기 등에 의해 사용될 수 있다.
멀티모달 CELP 코더(10)는 인코더(12)와 디코더(14) 쌍, 메모리(16), 랜덤 액세스 메모리(18), 및 프로세서(20)를 구비할 수 있다. 프로세서(20)는 인코더(12)와 디코더(14)의 명령을 실행할 수 있다. 인코더(12)는 종래의 아날로그/디지털 변환기(22) 및 종래의 고역 통과 필터(24)를 통해 스피치 입력을 수신할 수 있다. 아날로그/디지털 변환기(22)는 아날로그 입력 신호(26)를 디지털 포맷으로 변환시킬 수 있다. 고역 통과 필터(24)는 입력 신호(26)로부터 DC 성분과 다른 바이어싱 행위자를 제거할 수 있다.
일반적으로 언급하자면, 인코더(12)는 프레임이라 칭하는 입력 신호의 고정된-길이의 세그먼트 상에서 동작할 수 있다. 인코더(12)는 한 세트의 매개 변수를 연산함으로써 스피치의 각 프레임을 처리할 수 있으며 차후 사용을 위해 디코더(14)로 코딩한다. 이들 매개 변수들은 현재 프레임, LPC 합성 필터라 칭하는 시변 전-폴 필터(a time-varying all-pole filter)를 지정하는 선형 예측 계수(LPC), 및 여기 신호라 칭하는 시간-영역 파형을 지정하는 여기 매개 변수를 코딩하는데 사용되는 모드를 디코더(14)에 통지하는 모드 비트를 포함할 수 있다. 각 프레임의 매개 변수는 코드된 메시지(28)로서 RAM(18)에 저장될 수 있다. 마찬가지로 코드된 메시지(28)가 본 발명의 범위 내에 저장될 수 있다는 것을 알 것이다.
메시지(28)가 재생될 때, 디코더(14)는 코드된 메시지(28)를 수신하여 코드된 스피치로 칭하는 입력 스피치의 근사를 합성할 수 있다. 디코더(14)는 여기 신호를 재구성하여 이를 LPC 합성 필터(30)에 통과시킨다. 합성 필터(30)의 출력은 코드된 스피치이다. 코드된 스피치는 상기 코드된 스피치가 아날로그 출력 신호(34)로 변환되는 종래의 디지털/아날로그 변환기(32)를 통해 라우트될 수 있다.
인코더(12)는 선형 예측 코딩(LPC) 분석 모듈(40) 및 모드 모듈(42)을 포함할 수 있다. LPC 분석 모듈(40)은 프레임을 분석하여 적절한 선형 예측 코딩 LPC 계수를 결정할 수 있다. LPC 계수는 잘 공지된 분석 기술을 사용하여 계산되고 예측 다-단계 벡터 양자화를 사용하는 유사한 방법으로 양자화된다. LPC 계수는 메모리(16)에 저장되어 있는 LPC 코드북(44)을 사용하여 양자화될 수 있다.
모드 결정 모듈(42)은 피치 예측 이득 모듈(50), 제로-교차 모듈(52) 및 입력 스피치를 독특한 코딩 기술에 의해 특성화된 몇몇 모드중 한 모드로 분류하기 위한 피크치 모듈(54)을 포함할 수 있다. 이하에 더 상세히 설명되듯이, 멀티모달 CELP 코더(10)는 고정된 여기에 의해 특성화된 제1 모드 및 랜덤한 여기에 의해 특성화된 제2 모드를 포함할 수 있다. 제1 모드는 다소 강한 펄스 또는 에너지의 편중된 버스트를 포함하는 신호뿐만 아니라 임의의 주기도를 갖는 신호에 더 적합할 수 있다. 결국, /t/, /k/, 및 /p/와 같은 무음성 파열음을 포함하는 음성 사운드는 제1 모드를 사용하여 모델링될 수 있다. 제2 모드는 단지 백그라운드 잡음으로 구성된 입력 신호의 일부뿐만 아니라 /s/, /sh/, /f/, /th/와 같은 마찰음에서와 같이, LPC의 나머지가 잡음에 유사한 신호에 적합하다. 따라서, 무음성 사운드는 제2 모드를 사용하여 모델링될 수 있다.
모드 결정의 목적은 각 프레임에 적당한 여기 신호의 형태를 선택하는 것이다. 제1 모드에서, 여기 신호는 두개의 다른 코드북으로부터 구해진 두 성분의 선형 조합일 수 있으며, 이들 코드북들은 적응 코드북(60) 및 고정된 여기 코드북(62)일 수 있다. 적응 코드북(60)은 적응 이득 코드북(64)과 연관되어 있고 LPC 나머지의 의사주기 피치 성분을 인코드하는데 사용될 수 있다. 적응 코드북(60)은 과거 여기의 시간-쉬프트되고 보간된 값으로 구성된다.
고정된 여기 코드북(62)은 고정된 이득 코드북(66)과 연관되어 있고 적응 코드북(60)의 기여가 감산된 후에 남겨진 여기 신호의 일부를 인코드하는데 사용된다. 고정된 여기 코드북(62)은 +1 또는 -1일 수 있는 작게 정해진 수의 0이 아닌 샘플만을 포함하는 희소 코드벡터를 포함할 수 있다.
제2 모드에서, 여기 신호는 랜덤한 가우스의 수가 채워진 랜덤한 여기 코드북(70)으로부터 얻어진 이득-스케일된 벡터일 수 있다. 랜덤한 여기 코드북(70)은 랜덤한 여기 이득 코드북(72)과 관련될 수 있다. 본 발명에 따르면, 제2 모드는 이득-일치 분석/합성 인코딩을 사용하여 인코드될 수 있다. 이 인코딩 방법은 도 3과 결합하여 이하에 더 상세히 설명된다.
LPC 코드북(44), 고정된 여기 코드북(62), 고정된 여기 이득 코드북(66), 랜덤한 여기 코드북(68), 및 랜덤한 여기 이득 코드북(70)은 멀티모달 CELP 코더(10)의 메모리(16)에 저장될 수 있다. 적응 코드북(60)은 RAM(18)에 저장될 수 있다. 따라서, 적응 코드북(60)은 계속해서 갱신될 수 있다. 적응 이득 코드북(64)은 인코더(12)에 저장될 수 있다. 마찬가지로 CELP 코더(10)의 코드북과 모듈이 본 발명의 범위 내에 저장될 수 있다는 것을 알 것이다.
도 2는 스피치 입력을 본 발명의 실시예에 따라 제1 모드 또는 제2 모드로 분류하는 방법의 흐름도를 도시한다. 한 실시예에서, 제1 모드는 제2 모드보다 더 적은 0이 아닌 요소를 갖는 여기 벡터를 가질 수 있다. 제1 모드는 일반적으로 음성/과도 스피치와 관련되고 제2 모드는 무음성 스피치와 관련될 수 있다. 방법은 입력 스피치 프레임을 수신하는 인코더(12)로 단계 100에서 시작한다. 단계 102로 진행하면, 인코더(12)는 스피치 프레임의 분류 매개 변수를 추출할 수 있다. 도 2의 실시예인 경우, 분류 매개 변수는 개방-루프 피치 이득, 제로-교차율, 및 피크 측정치를 포함할 수 있다.
다음으로, 단계 104에서, 개방-루프 피치 예측 이득 모듈(50)은 스피치 프레임의 개방-루프 피치를 구할 수 있다. 한 실시예에서, 개방-루프 피치 예측 이득은 정규화된 자동 상관관계의 값을 최소화함으로써 결정될 수 있다. 마찬가지로 개방-루프 예측 이득이 본 발명의 범위 내에서 구해질 수 있다는 것을 알 것이다. 판정 단계 106로 진행하여, 개방-루프 피치 예측 이득 모듈(50)은 개방-루프 피치 예측 이득이 개방-루프 피치 예측 이득 임계치보다 큰 지를 판정할 수 있다. 한 실시예에서, 개방-루프 피치 예측 이득 임계치는 0.3에서 0.6까지의 범위일 수 있다. 특정 실시예에서, 개방-루프 피치 예측 이득 임계치는 0.32일 수 있다. 이 실시예에서, 개방-루프 피치 예측 이득은 수학식 1로부터 결정될 수 있다.
(여기서 p는 선택적 피치 래그(optional pitch lag)이며, i는 시간 인덱스이며, x는 신호이며, N은 프레임당 샘플수임).
마찬가지로 개방-루프 피치 예측 이득이 본 발명의 범위 내에서 결정될 수 있다는 것을 알 것이다.
만약 피치 예측 이득이 피치 예측 이득 임계치보다 크다면, 판정 단계 106에서 예(YES)취해져 단계 108로 진행한다. 단계 108에서, 프레임은 고정된 여기 인코딩을 위한 음성 스피치로서 분류될 수 있다. 만약 개방-루프 피치 예측 이득이 개방-루프 피치 예측 이득 임계치보다 작으면, 판정 단계 106에서 아니오(NO)가 취해져 단계 110로 진행한다.
단계 110에서, 제로-교차 모듈(52)은 스피치 프레임의 제로-교차율을 구할 수 있다. 제로-교차율은 신호의 표시가 프레임의 샘플수에 의해 분할되는 프레임 내에서 변하는 횟수일 수 있다. 판정 단계 112로 진행하여, 제로-교차 모듈(52)은 스피치 프레임의 제로-교차율이 제로-교차율 임계치보다 작은 지를 판정할 수 있다. 한 실시예에서, 제로-교차율 임계치는 0.25에서 0.4까지의 범위일 수 있다. 특정 실시예에서는, 제로-교차율 임계치는 0.33일 수 있다. 만약 제로-교차율이 제로-교차율 임계치보다 작으면, 판정 단계 112에서 예가 취해져 단계 108로 진행한다. 상술된 바와 같이, 스피치 프레임은 단계 108에서 음성 스피치로서 분류될 수 있다. 만약 제로-교차율이 제로-교차율 임계치보다 크면, 판정 단계 112에서 아니오가 취해져 단계 114로 진행한다. 단계 114에서, 피크치 모듈(54)은 스피치 프레임의 피크 측정치를 구할 수 있다. 한 실시예에서, 피크 측정치는 수학식 2와 같이 계산될 수 있다.
(여기서 P는 피크 측정치이며, r[n]는 LPC 나머지이며, N은 프레임의 샘플수임).
단계 114는 판정 단계 116에 이른다. 판정 단계 116에서, 피크치 모듈(54)은 피크 측정치가 피크 임계치보다 큰 지를 판정할 수 있다. 한 실시예에서, 피크 임계치는 1.3에서 1.4까지의 범위일 수 있다. 특정 실시예에서는, 피크 임계치는 1.3일 수 있다. 만약 피크 측정치가 임계치보다 크다면, 판정 단계 116에서 예가 취해져 단계 108로 진행한다. 상술된 바와 같이, 스피치 프레임은 단계 108에서 음성 스피치로서 분류될 수 있다. 만약 피크 측정치가 임계치보다 작으면, 판정 단계 116에서 아니오가 취해져 단계 118로 진행한다.
단계 118에서, 스피치 프레임은 무음성 스피치로서 분류될 수 있다. 단계 108 및 단계 118은 판정 단계 120에 이를 수 있다. 판정 단계 120에서, 인코더(12)는 다른 입력 스피치 프레임이 존재하는 지를 판정할 수 있다. 만약 다른 프레임이 존재하면, 판정 단계 120에서 예가 취해져 단계 100로 진행하고, 여기서 분류를 위해 다른 프레임이 수신된다. 만약 다른 스피치 프레임이 존재하지 않으면, 판정 단계 120에서 아니오가 취해져 방법의 최종 단계로 진행한다.
따라서, 단지 임계값보다 작은 개방-루프 피치 예측 이득, 임계값보다 큰 제로-교차율 및 피크 임계치보다 작은 피크 측정치를 갖는 프레임만이 무음성 스피치로서 분류될 것이다. 수학식 2로부터, 스피치 프레임은 큰 피크 측정치를 가질 것이며 나머지보다 훨씬 큰 크기의 작은 샘플수를 포함한다. 그러나, 프레임의 피크 측정치는 만약 모든 샘플이 그 절대값면에서 비교가능하다면 작게 될 것이다. 따라서, 예리한 펄스의 주기 신호는 그밖의 침묵 프레임에 에너지의 짧은 버스트를 포함하는 신호일 것이기 때문에, 큰 피크치를 가질 것이다. 다른 한편으로, 무음성 마찰음과 같은 잡음에 유사한 신호는 작은 피크치를 가질 것이다. 따라서, 음성 발음의 시작 또는 끝은 음성 스피치 및 개선된 스피치 품질로서 적절하게 코드될 수 있다.
도 3은 본 발명의 한 실시예에 따른 두개의 스피치 모드를 코딩하기 위한 이득-일치(gain-match) 분석/합성을 도시한다. 방법은 단계 150에서 시작하며 인코더(12)는 입력 스피치 프레임을 수신한다. 단계 152로 진행하여, 인코더(12)는 입력 스피치 프레임의 LPC 매개 변수를 추출할 수 있다. 단계 154에서, 입력 스피치 프레임의 LPC 나머지가 결정될 수 있다. LPC 나머지는 입력 스피치와 LPC 매개 변수에 의해 예측된 스피치 간의 차이이다.
단계 156로 진행하여, LPC 나머지의 이득이 결정될 수 있다. 한 실시예에서, 이득은 수학식 3에 의해 결정될 수 있다.
(여기서 g는 이득이며, i는 시간 인덱스이며, N은 샘플수이며, r은 나머지임).
다음으로, 단계 158에서, 이득이 스케일될 수 있다. 한 실시예에서, 이득은 이득에 CELP 묵음 인수(muting factor)로서 공지된 일정한 스케일 인수를 곱함으로써 스케일될 수 있다. 이 상수는 경험적으로 측정되고 제1 음성 모드로 코드된 모든 스피치 프레임에 대한 코드된 스피치 대 본래 스피치의 평균 이득비일 수 있다. 스케일링은 코더의 모든 모드로 코드된 스피치 에너지 레벨을 일치시킨다. 여기 코드북에서 모든 코드벡터는 단위 놈(norm)을 갖는 것으로 간주될 수 있다. 이 때, 이득은 단계 160에서 양자화될 수 있다.
단계 161로 진행하여, 타겟 벡터는 폴-제로 지각 가중 필터(pole-zero perceptual weighting filter) W(z)를 통해 스피치 프레임을 필터링하고 단계 162에서 지각 가중 합성 필터의 제로-입력 응답의 결과로부터 감산함으로써 구해질 수 있다. 지각 가중 합성 필터에는 A(z)W(z)가 부여될 수 있다.
(여기서 X는 상수(예를 들면 γ = 0.9, λ = 0.6)이며, ai는 LPC 계수이며, P는 예측 순서이다).
단계 163으로 진행하여, 타겟 벡터는 이득-정규화될 수 있다. 한 실시예에서, 타겟 벡터는 입력 스피치를 이득으로 분할함으로써 이득-정규화될 수 있다. 따라서, 합성 스피치는 정확한 이득값을 가질 것이며, 이는 일반적으로 대부분의 무음성 신호에 대한 여기 벡터의 모양보다 더 중요하다. 이는 여기 코드북으로부터의 벡터를 갖는 이득-정규화된 타겟 벡터의 임의의 분석/합성 양자화를 수행하기 전에, 이득을 미리 연산하고 이를 이용하여 여기 타겟 벡터를 다시 스케일함으로써 이루어진다. 따라서, 본 발명은 코드된 스피치 이득을 허용하여 분석/합성 코딩을 여전히 수행하면서 입력 스피치 이득을 일치시킨다.
단계 164로 진행하여, 이득 정규화된 스피치 프레임의 여기값이 결정될 수 있다. 최적의 여기 벡터는 수학식 6을 최소화함으로써 구해질 수 있다.
(여기서 D'는 본래 및 합성된 스피치 간의 가중 제곱된 에러이며,s'는 이득 정규화된 타겟 벡터이며, H는 지각 가중 합성 필터의 임펄스 응답 행렬, W(z)A(z)이며,e는 최적의 여기 벡터임).
임펄스 응답 행렬은 다음과 같이 주어질 수 있다.
(여기서 N은 프레임 크기이며, i=0 . . . N-1인 경우 h(i)는 W(z)A(z)의 임펄스 응답임).
따라서 최적의 여기는 분석/합성을 사용하는 수학식 7을 최소화함으로써 구해질 수 있다.
(여기서 C'는 비용 함수, H는 계속해서 가중된 합성 필터의 과도 응답 행렬, W(z)A(z),e는 최적 여기 벡터,s'는 이득 정규화된 타겟 벡터임).
다음으로, 단계 166에서, 인코더(12)는 코드된 메시지(28)의 일부로서 스피치 프레임의 여기 매개 변수를 저장할 수 있다. 상술된 바와 같이, 코드된 메시지는 또한 모드 비트 및 LPC 계수를 포함할 수 있다. 단계 166은 프로세스의 끝으로 진행한다.
상기에 따르면, 본 발명은 합성화된 스피치가 정확한 이득 값을 가질 것이라고 보장한다. 동시에, 분석/합성이 입력 신호의 문자 보존을 돕도록 수행된다. 그 결과, 원치않는 이득의 유동이 크게 감소되거나 제거된다.
비록 본 발명이 몇몇 실시예를 통해 설명되었지만, 다양한 수정 및 변형이 기술 분야에 숙련자에게서 이루어질 수 있다. 본 발명은 첨부된 청구범위의 범위 내에서 벗어난 수정 및 변형을 포함하도록 의도되어 있다.
본 발명의 중요한 기술적 장점은 개선된 멀티모달 코드-여기된 선형 예측(CELP) 코더 및 시스템을 제공하는 것을 포함한다. 특히, 멀티모달 CELP 코더는 음성 스피치로서 비교적 조용하며, 잡음에 유사한 간격에 의해 발생되는 고-에너지 펄스의 짧은 버스트를 갖는 음성 스피치를 적절히 분류하고 인코드하도록 동작가능한 피크치 모듈을 포함할 수 있다. 따라서, /t/, /k/, 및 /p/와 같은 무음성 파열음은 보다 소수의 0이 아닌 요소의 임의의 여기 벡터를 갖는 모드로 적절히 분류될 수 있다.
본 발명의 다른 기술적 장점은 무음성 스피치를 위한 이득-일치된 분석/합성 인코딩을 제공하는 것을 포함한다. 특히, CELP 코더는 코드된 스피치 이득을 스피치 입력 이득에 일치시킨다. 이 때, 스피치 입력은 이득으로 정규화될 수 있다. 다음에 분석/합성은 CELP 코더에 의해 수행되어 스피치 입력의 여기 매개 변수를 결정할 수 있다. 이득의 일치는 저속의 비트율로 코딩 무음성 스피치와 일반적으로 관련된 원치않는 이득의 유동을 실질적으로 감소시키거나 제거한다.
다른 기술적 장점이 다음의 도면, 설명, 및 청구범위로부터 기술 분야에 숙련자에게서 용이하게 명백해질 것이다.

Claims (20)

  1. 스피치를 분류하는 방법에 있어서,
    스피치 입력을 수신하는 단계;
    상기 스피치 입력의 피크 측정치(a peakiness measure)를 구하는 단계;
    상기 피크 측정치가 피크 임계치보다 큰 지를 판정하는 단계; 및
    만약 상기 피크 측정치가 피크 임계치보다 크면, 코드-여기된 선형 예측 모드(a code-excited linear prediction mode)를 포함하는 멀티모달 스피치 코더(a multimodal speech coder)의 제1 모드로 상기 스피치 입력을 분류하는 단계
    를 구비하는 것을 특징으로 하는 방법.
  2. 제1항에 있어서,
    상기 스피치 입력의 개방-루프 피치 예측 이득(an open-loop pitch prediction gain)을 구하는 단계;
    상기 개방-루프 피치 예측 이득이 개방-루프 피치 예측 이득 임계치보다 큰 지를 판정하는 단계; 및
    만약 상기 개방-루프 피치 예측 이득이 상기 개방-루프 피치 예측 이득 임계치보다 크면, 상기 코드-여기된 선형 예측 모드를 포함하는 상기 멀티모달 스피치 차수의 제1 모드로 상기 스피치 입력을 분류하는 단계를 더 구비하는 것을 특징으로 하는 방법.
  3. 제1항에 있어서,
    상기 스피치 입력의 제로-교차율(a zero-crossing rate)을 구하는 단계;
    상기 제로-교차율이 제로-교차율 임계치보다 작은 지를 판정하는 단계; 및
    상기 제로-교차율이 상기 제로-교차율 임계치보다 작으면, 고정된 여기 인코딩을 위해 상기 스피치 입력을 제1 모드형으로서 분류하는 단계를 더 구비하는 것을 특징으로 하는 방법.
  4. 제1항에 있어서,
    상기 스피치 입력의 개방-루프 피치 예측 이득을 구하는 단계;
    상기 개방-루프 피치 예측 이득이 개방-루프 피치 예측 이득 임계치보다 큰 지를 판정하는 단계;
    만약 상기 개방-루프 피치 예측 이득이 상기 개방-루프 피치 예측 이득 임계치보다 크면, 상기 코드-여기된 선형 예측 모드를 포함하는 상기 멀티모달 스피치 코더의 제1 모드로 상기 스피치 입력을 분류하는 단계;
    상기 스피치 입력의 제로-교차율을 구하는 단계;
    상기 제로-교차율이 제로-교차율 임계치보다 작은 지를 판정하는 단계; 및
    상기 제로-교차율이 상기 제로-교차율 임계치보다 작으면, 상기 코드-여기된 선형 예측 모드를 포함하는 상기 멀티모달 스피치 코더의 제1 모드로 상기 스피치 입력을 분류하는 단계를 더 구비하는 것을 특징으로 하는 방법.
  5. 제1항에 있어서,
    만약 상기 스피치 입력이 상기 제1 모드로 분류되지 않으면 여기 벡터가 상기 제1 모드보다 큰 수의 0이 아닌 요소를 갖는 제2 모드로 상기 스피치 입력을 분류하는 단계를 더 구비하는 것을 특징으로 하는 방법.
  6. 제2항에 있어서,
    만약 상기 스피치 입력이 상기 제1 모드로 분류되지 않으면 여기 벡터가 상기 제1 모드보다 큰 수의 0이 아닌 요소를 갖는 제2 모드로 상기 스피치 입력을 분류하는 단계를 더 구비하는 것을 특징으로 하는 방법.
  7. 제3항에 있어서,
    만약 상기 스피치 입력이 상기 제1 모드에 분류되지 않으면 여기 벡터가 상기 제1 모드보다 큰 수의 0이 아닌 요소를 갖는 제2 모드로 상기 스피치 입력을 분류하는 단계를 더 구비하는 것을 특징으로 하는 방법.
  8. 제4항에 있어서,
    만약 상기 스피치 입력이 상기 제1 모드에 분류되지 않으면 여기 벡터가 상기 제1 모드보다 큰 수의 0이 아닌 요소를 갖는 제2 모드로 상기 스피치 입력을 분류하는 단계를 더 구비하는 것을 특징으로 하는 방법.
  9. 제5항에 있어서,
    상기 제1 모드는 펄스 여기를 구비하고 상기 제2 모드는 랜덤 여기를 구비하는 것을 특징으로 하는 방법.
  10. 제6항에 있어서,
    상기 제1 모드는 펄스 여기를 구비하고 상기 제2 모드는 랜덤 여기를 구비하는 것을 특징으로 하는 방법.
  11. 제7항에 있어서,
    상기 제1 모드는 펄스 여기를 구비하고 상기 제2 모드는 랜덤 여기를 구비하는 것을 특징으로 하는 방법.
  12. 스피치를 인코딩하는 방법에 있어서,
    입력 스피치로부터 이득값을 구하는 단계;
    상기 입력 스피치로부터 타겟 벡터(target vector)를 구하는 단계;
    상기 타겟 벡터를 이득 정규화(gain normalizing)하는 단계; 및
    상기 이득 정규화된 타겟 벡터와 합성되고-필터된 여기 벡터 간의 에러를 최소화함으로써 최적의 여기 벡터를 결정하는 단계
    를 구비하는 것을 특징으로 하는 방법.
  13. 제12항에 있어서,
    상기 이득을 묵음 인수(a muting factor)로 스케일링하는 단계를 더 구비하는 것을 특징으로 하는 방법.
  14. 제13항에 있어서,
    상기 스케일된 이득을 양자화하는 단계를 더 구비하는 것을 특징으로 하는 방법.
  15. 제12항에 있어서,
    상기 입력 스피치는 상기 입력 스피치를 상기 이득으로 나눔으로써 이득 정규화되는 것을 특징으로 하는 방법.
  16. 스피치를 인코딩하는 방법에 있어서,
    입력 스피치로부터 이득값을 구하는 단계;
    상기 입력 스피치를 이득 정규화(gain normalizing)하는 단계;
    상기 이득 정규화된 입력 스피치로부터 타겟 벡터를 구하는 단계; 및
    상기 이득 정규화된 입력 스피치의 타겟 벡터와 합성되고-필터된 여기 벡터 간의 에러를 최소화함으로써 최적의 여기 벡터를 결정하는 단계
    를 구비하는 것을 특징으로 하는 방법.
  17. 코드-여기된 선형 예측(A code-excited linear prediction : CELP) 코더에 있어서,
    스피치 입력을 수신하도록 동작가능한 인코더; 및
    상기 인코더와 통신하는 피크치 모듈(a peakiness module)
    을 구비하되,
    상기 피크치 모듈은 상기 스피치 입력의 피크 측정치를 구하고 상기 피크 측정치가 피크 임계치보다 큰 지를 판정하도록 동작가능하며,
    상기 인코더는 상기 피크 측정치가 피크 임계치보다 큰 제1 모드로 상기 스피치 입력을 분류하도록 동작가능하고,
    상기 인코더는 제1 모드 입력 스피치를 펄스 여기 시스템으로 인코드하도록 동작가능한 것을 특징으로 하는 코드-여기된 선형 예측 코더.
  18. 제17항에 있어서,
    상기 인코더는 상기 스피치 입력을 상기 제1 모드로 분류되지 않는 제2 모드로 분류하도록 동작가능하고,
    상기 인코더는 제2 모드 스피치 입력을 랜덤한 여기 시스템으로 인코드하도록 동작가능한 것을 특징으로 하는 코드-여기된 선형 예측 코더.
  19. 제17항에 있어서,
    상기 인코더와 통신하는 피치 예측 이득 모듈을 더 구비하되,
    상기 피치 예측 이득 모듈은 상기 스피치 입력의 개방-루프 피치 예측 이득을 구하고 상기 개방-루프 피치 예측 이득이 개방-루프 피치 예측 이득 임계치보다 큰 지를 판정하도록 동작가능하고,
    상기 인코더는 상기 개방-루프 피치 예측 이득이 상기 개방-루프 피치 예측 이득 임계치보다 큰 상기 제1 모드형으로서 상기 스피치 입력을 분류하도록 동작가능한 것을 특징으로 하는 코드-여기된 선형 예측 코더.
  20. 제17항에 있어서,
    상기 인코더와 통신하는 제로-교차율 모듈를 더 구비하되,
    상기 제로-교차율 모듈은 상기 스피치 입력의 제로-교차율을 구하고 상기 제로-교차율이 제로-교차율 임계치보다 작은 지를 판정하도록 동작가능하며,
    상기 인코더는 상기 제로-교차율이 상기 제로-교차율 임계치보다 작은 상기 제1 모드형으로서 상기 스피치 입력을 분류하도록 동작가능한 것을 특징으로 하는 코드-여기된 선형 예측 코더.
KR1019970079078A 1997-01-02 1997-12-30 개선된 멀티모달 코드-여기된 선형 예측(celp)코더 및 방법 KR19980070294A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US3447697P 1997-01-02 1997-01-02
US60/034,476 1997-01-02

Publications (1)

Publication Number Publication Date
KR19980070294A true KR19980070294A (ko) 1998-10-26

Family

ID=21876667

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970079078A KR19980070294A (ko) 1997-01-02 1997-12-30 개선된 멀티모달 코드-여기된 선형 예측(celp)코더 및 방법

Country Status (4)

Country Link
US (1) US6148282A (ko)
EP (1) EP0852376A3 (ko)
JP (1) JPH10207498A (ko)
KR (1) KR19980070294A (ko)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6006174A (en) * 1990-10-03 1999-12-21 Interdigital Technology Coporation Multiple impulse excitation speech encoder and decoder
US5621852A (en) * 1993-12-14 1997-04-15 Interdigital Technology Corporation Efficient codebook structure for code excited linear prediction coding
CN1167047C (zh) * 1996-11-07 2004-09-15 松下电器产业株式会社 声源矢量生成装置及方法
US6470309B1 (en) * 1998-05-08 2002-10-22 Texas Instruments Incorporated Subframe-based correlation
EP1093230A4 (en) * 1998-06-30 2005-07-13 Nec Corp speech
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6104992A (en) * 1998-08-24 2000-08-15 Conexant Systems, Inc. Adaptive gain reduction to produce fixed codebook target signal
US6192335B1 (en) * 1998-09-01 2001-02-20 Telefonaktieboiaget Lm Ericsson (Publ) Adaptive combining of multi-mode coding for voiced speech and noise-like signals
JP4438127B2 (ja) * 1999-06-18 2010-03-24 ソニー株式会社 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体
US6304842B1 (en) * 1999-06-30 2001-10-16 Glenayre Electronics, Inc. Location and coding of unvoiced plosives in linear predictive coding of speech
US6636829B1 (en) * 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames
US6947888B1 (en) * 2000-10-17 2005-09-20 Qualcomm Incorporated Method and apparatus for high performance low bit-rate coding of unvoiced speech
JP3404016B2 (ja) * 2000-12-26 2003-05-06 三菱電機株式会社 音声符号化装置及び音声符号化方法
FI119955B (fi) * 2001-06-21 2009-05-15 Nokia Corp Menetelmä, kooderi ja laite puheenkoodaukseen synteesi-analyysi puhekoodereissa
EP1383112A3 (fr) * 2002-07-17 2008-08-20 STMicroelectronics N.V. Procédé et dispositif d'encodage de la parole à bande élargie, permettant en particulier une amélioration de la qualité des trames de parole voisée
US7146309B1 (en) 2003-09-02 2006-12-05 Mindspeed Technologies, Inc. Deriving seed values to generate excitation values in a speech coder
WO2007083931A1 (en) * 2006-01-18 2007-07-26 Lg Electronics Inc. Apparatus and method for encoding and decoding signal
CN1815552B (zh) * 2006-02-28 2010-05-12 安徽中科大讯飞信息科技有限公司 基于线谱频率及其阶间差分参数的频谱建模与语音增强方法
KR20150032390A (ko) * 2013-09-16 2015-03-26 삼성전자주식회사 음성 명료도 향상을 위한 음성 신호 처리 장치 및 방법
US10535364B1 (en) * 2016-09-08 2020-01-14 Amazon Technologies, Inc. Voice activity detection using air conduction and bone conduction microphones

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4969192A (en) * 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
US5657418A (en) * 1991-09-05 1997-08-12 Motorola, Inc. Provision of speech coder gain information using multiple coding modes
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
US5495555A (en) * 1992-06-01 1996-02-27 Hughes Aircraft Company High quality low bit rate celp-based speech codec
US5327520A (en) * 1992-06-04 1994-07-05 At&T Bell Laboratories Method of use of voice message coder/decoder
JP2746039B2 (ja) * 1993-01-22 1998-04-28 日本電気株式会社 音声符号化方式
US5673364A (en) * 1993-12-01 1997-09-30 The Dsp Group Ltd. System and method for compression and decompression of audio signals
US5751903A (en) * 1994-12-19 1998-05-12 Hughes Electronics Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset

Also Published As

Publication number Publication date
EP0852376A3 (en) 1999-02-03
EP0852376A2 (en) 1998-07-08
JPH10207498A (ja) 1998-08-07
US6148282A (en) 2000-11-14

Similar Documents

Publication Publication Date Title
US7472059B2 (en) Method and apparatus for robust speech classification
US5751903A (en) Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset
US6148282A (en) Multimodal code-excited linear prediction (CELP) coder and method using peakiness measure
EP2099028B1 (en) Smoothing discontinuities between speech frames
EP1224662B1 (en) Variable bit-rate celp coding of speech with phonetic classification
EP2040253B1 (en) Predictive dequantization of voiced speech
JP2971266B2 (ja) 低遅延celp符号化方法
US6073092A (en) Method for speech coding based on a code excited linear prediction (CELP) model
US6556966B1 (en) Codebook structure for changeable pulse multimode speech coding
US20020007269A1 (en) Codebook structure and search for speech coding
EP1912207A1 (en) Method and apparatus for high performance low bitrate coding of unvoiced speech
JPH0990995A (ja) 音声符号化装置
KR100700857B1 (ko) 전환 스피치 프레임의 다중 펄스 보간 코딩
Paksoy et al. A variable rate multimodal speech coder with gain-matched analysis-by-synthesis
Paulus Variable bitrate wideband speech coding using perceptually motivated thresholds
US7089180B2 (en) Method and device for coding speech in analysis-by-synthesis speech coders
JPH08328597A (ja) 音声符号化装置
Ojala Toll quality variable-rate speech codec
KR20020081352A (ko) 유사주기 신호의 위상을 추적하는 방법 및 장치
Drygajilo Speech Coding Techniques and Standards
Lee et al. On reducing computational complexity of codebook search in CELP coding
JPH09179593A (ja) 音声符号化装置
Ekudden et al. ITU-t g. 729 extension at 6.4 kbps.
Delprat et al. A 6 kbps Regular Pulse CELP coder for Mobile Radio Communications
Stegmann et al. CELP coding based on signal classification using the dyadic wavelet transform

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid