KR970001166B1 - 언어 처리 방법 및 장치 - Google Patents

언어 처리 방법 및 장치 Download PDF

Info

Publication number
KR970001166B1
KR970001166B1 KR1019870700360A KR870700360A KR970001166B1 KR 970001166 B1 KR970001166 B1 KR 970001166B1 KR 1019870700360 A KR1019870700360 A KR 1019870700360A KR 870700360 A KR870700360 A KR 870700360A KR 970001166 B1 KR970001166 B1 KR 970001166B1
Authority
KR
South Korea
Prior art keywords
language
signal
frame
pitch
speech
Prior art date
Application number
KR1019870700360A
Other languages
English (en)
Other versions
KR880700387A (ko
Inventor
도온리 하트웰 월터
피콘 죠셉
파노스 프레자스 디미트리오스
Original Assignee
아메리칸 텔리폰 앤드 텔레그라프 캄파니
엘리 와이스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아메리칸 텔리폰 앤드 텔레그라프 캄파니, 엘리 와이스 filed Critical 아메리칸 텔리폰 앤드 텔레그라프 캄파니
Publication of KR880700387A publication Critical patent/KR880700387A/ko
Application granted granted Critical
Publication of KR970001166B1 publication Critical patent/KR970001166B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

내용 없음.

Description

[발명의 명칭]
언어 처리 방법 및 장치
[도면의 간단한 설명]
제1도는 본 발명에 따른 분석기의 블럭도.
제2도는 본 발명에 따른 합성기의 블럭도.
제3도는 제1도의 피치 검출기(148)의 블럭도.
제4도는 언어 프레임의 후보 펄스에 대한 그래프도.
제5도는 피치 보우터(pitch voter ; 151)의 블럭도.
[발명의 상세한 설명]
[기술 분야]
본 발명은 언어 처리에 관한 것으로써 특히, 언어 합성기(speech synthesizer)의 여기(excitation)에 관한 디지탈 언어 부호화 장치(digital speech coding arrange ments)에 관한 것이다.
[기술의 배경]
음성 기억 장치 및 음성 응답 장치를 포함하여 구성된 디지탈 언어 통신 시스템은 기억 및/또는 전송을 위해 필요한 비트 전송율을 감소시키기 위해 신호 압축을 이용한다.
미합중국 특허 제3,624,302호에 기술된 바와 같이, 한가지 공지된 디지탈 언어 부호화 시스템은 입력 언어 신호의 선형 예측 분석(linear prediction analysis)을 포함하고 있다. 이 언어 신호는 연속적인 간격으로 분할되고, 언어의 간격을 표시하는 한 셋트의 매개변수가 발생된다. 이 매개변수 셋트는 그 간격에서 언어의 스펙트럼형 포락선(spectral envelope)을 표시하는 선형 예측 계수 신호 및, 언어 여기(speech excitati on)에 해당하는 피치 및 음성 신호를 포함한다. 이들 매개변수 신호는 언어 신호 파형 자체보다 훨씬 낮은 비트 전송율로 엔코드 될 수도 있다. 입력 언어 신호의 복제는 합성에 의해 매개변수 신호 부호로부터 형성이 될 수 있다. 합성기 장치는 모든 극성(polt)에 예측 필터의 예측 매개변수를 표시하는 스펙트럼형 포락선에 의해 여기 펄스가 변경된 피치 여기 선형 예측 부호화의 상기 형태는 음성 부분(vocal tract) 모델을 갖는다. 상기 형태의 피치 여기 선형 예측 부호화는 매우 효율적인 반면, 발생된 언어 복제는 종종 이해하기 어려운 합성 특성을 나타낸다.
또 다른 공지된 디지탈 음성 부호화 시스템이 미합중국 특허 제4,472,832호에 공지되었다. 이러한 분석 및 합성 시스템에선, 여기를 위한 LPC 매개변수 및 변경된 잔여 신호가 전송된다. 이 여기 신호는 LPC 필터임펄스 응답과 원래의 신호의 상호 상관(cross-correlation)의 피크로부터 선택된 펄스 시퀀스이다. 상기 형태의 여기는 다중-펄스 여기(multi-pulse excitation)로써 종래 기술에서 종종 언급된다. 이 시스템은 양호한 언어 복제가 되나, 초당 대략 9.6킬로 비트(kbs)의 최소 비트율로 제한된다. 또한, 음성 부분 동안, 언어 복제가 인식 가능한 정도로 거칠어지게 된다. 또한, 이 방법은 대다수의 복잡한 계산을 필요로 한다.
상기 관점에서 볼때, 언어파의 음성 주기 동안과 또한 언어파의 비음성 부분 동안 정확한 언어 복제를 할 수 있는 분석 및 합성 시스템의 필요성이 생기게 되었다. 또한, 낮은 비트율을 갖는 것이 바람직하다.
[발명의 개요]
예시한 방법에 통합된 본 발명의 원리 및 언어의 음성 부분 동안 피치 여기의 이용과 언어의 비음성 부분동안 다른 잡음 여기의 이용을 허용하는 분석 및 합성 시스템에 따라서 상술된 문제점이 해결되고 기술적인 개선이 이루어진다.
언어를 인코딩하기 위한 예시된 방법은 언어를 연속적인 시간 프레임으로 분할하는 단계와 ; 각 프레임에 대해 음성 부분을 규정하는 한 셋트의 언어 매개변수 신호를 발생하는 단계와 ; 각 언어 프레임에 대해 음성 언어를 포함하는 음성 신호를 발생하는 단계와 ; 각 언어 프레임에 대해 비음성 언어를 포함하는 비음성 신호를 발생하는 단계와 ; 음성 신호에 의해 음성으로서 표시된 언어 프레임에 대한 피지형 여기 정보 및 비음성 신호에 의해 비음성으로서 표시된 각각의 언어 프레임에 대한 다른 잡음 형태의 여기 정보를 구비하는 부호화된 여기 신호를 발생하는 단계 및 ; 각 프레임의 언어를 표시하는 부호화된 결합 신호를 형성하기 위하여 생성된 부호화 여기 신호와 여기 매개변수 신호를 결합하는 단계를 구비한다.
유리하게, 다른 잡음 형태의 여기 정보는 각 프레임에 대한 상기 매개변수 신호 셋트의 임펄스 응답과 원래 언어와의 상호-상관 관계의 피크로부터 선택된 펄스 시퀀스이다. 또한, 매개변수 신호 셋트를 발생하는 단계는 음성 부분의 모델을 형성하는 선형 예측 계수를 발생하는 단계로 구성된다.
또한, 상기 분할 단계는 각 프레임에 대한 언어 패턴의 언어 샘플을 형성하는 단계와 각 프레임에 대한 언어 샘플중 양 및 음(positive and negative)의 언어 샘플에 대한 제 1 및 제 2피치값을 각기 추정하는 단계와 ; 양과 음의 잔여 샘플에 각기 응답하여 제 3 및 제 4피치값을 추정하는 단계 및 ; 최종 이전의 언어 프레임에 대한 추정된 피치값 및 이전의 다수의 언어 프레임과 현재의 언어 프레임에 대한 피치값에 응답하여, 최종 이전의 언어 프레임의 최종 피치값을 결정하는 단계를 구비한다.
또한, 피치값을 결정하는 단계는 추정된 피치값으로부터 한 피치값을 계산하는 단계와 ; 상기 계산된 피치값이 이전의 프레임으로부터 계산된 피치값과 일치하도록 최종 피치값을 제한하는 단계를 구비한다.
유리하게, 상기 방법은 원래의 언어 복제를 형성하기 위해 이하 단계를 구비한다 : 여기가 펄스형 인지 또는 피치형 여기 인지를 결정하는 단계와, LPC 매개변수에 응답하여 그 음성 부분을 모델을 형성하는 단계 및, 피치형 여기가 검출됨에 따라 피치형 여기를 이용하거나 또는 검출되어진 피치형 여기에 응답하여 펄스형 여기를 발생하는 모델을 구동하기 위한 여기를 발생하는 단계를 구비한다.
예시된 분석 및 합성 시스템은 선정된 수의 샘플을 각각 갖는 다수의 각 언어 프레임 같은 언어를 양자화하며, 디지탈화 하고, 기억하는 유닛을 구비한다. 또다른 유닛은 각 프레임의 샘플에 응답하여, 음성 부분의 모델을 형성하는 한 셋트의 언어 매개변수를 계산한다. 검출 유닛은 각 프레임이 음성인지 비음성인지를 표시하는 신호를 발생하며, 여기 유닛은 검출 유닛으로부터의 신호에 응답하여, 상기 프레임이 음성으로서 표시되는 경우 피치 형태의 여기 정보를 또는, 프레임이 비음성으로서 표시되는 경우 다른 잡음 형태의 여기 정보를 갖는 여기 정보를 발생한다. 최종적으로, 채널 인코더 유닛은 여기 정보와 언어 매개변수의 셋트를 결합시켜 합성기 보조 시스템에 전송하는데 사용된다.
여기 유닛은 상호 상관 관계를 표시하는 펄스 신호를 발생하기 위해, 유리하게, 각 프레임에 대해 언어 및 선형 예측 매개변수일 수도 있는 매개변수 신호 셋트의 임펄스 응답의 상호 상관 동작을 실행함으로써 다른 잡음 형태의 여기 정보를 발생한다. 또한, 여기 유닛은 상호 상관 관계 펄스로부터 펄스의 시퀀스를 선택하여, 다른 잡음 형태의 여기가 되게 한다.
합성 유닛은 여기 정보와 언어 매개변수 셋트에 응답하여, 합성기 필터를 형성하고 수신된 정보가 음성인 경우 피치 여기 정보를 또는, 수신된 정보가 비음성인 경우 다른 잡음 형태의 여기 정보로 상기 필터를 구동시켜 원래의 언어의 복제를 형성한다.
[상세한 설명]
제1도는 음성 메세지와 같은 언어 패턴이 마이크로폰 변환기(101)에 의해 수신이 되는 언어 분석기에 대한 블럭도이다. 해당하는 아날로그 언어 신호는 제한된 대역이며, 예측 분석기(110)의 필터 및 샘플기 회로(113)에서 펄스 샘플의 시퀀스로 변환된다. 필터링은 4.0 킬로헤르쯔(Khz) 이상의 언어 신호의 주파수 성분을 제거하도록 배열될 수도 있고 샘플링은 종래 기술에서 널리 공지된 바와 같이 8.0KHz 비율일 수도 있다. 샘플의 타이밍은 클럭 발생기(103)로부터의 샘플 클럭(CL)에 의해 제어된다. 회로(113)로부터의 각 샘플을 아날로그-디지탈 변환기(115)에서 진폭 표시 디지탈 부호로 변환된다.
언어 샘플의 시퀀스는 종래 기술에서 널리 공지된 바와 같이, 언어 신호를 10 내지 20 밀리초 간격으로 분할하고 각 간격이 NP 언어 샘플의 예측된 단-시간 스펙트럼을 나타내는 한 셋트의 선형 예측 계수신호 ak(k=1,2...p)를 발생하도록 동작하는 예측 매개변수 컴퓨터(119)에 제공된다. A/D 변환기(115)로부터의 언어 샘플은 신호(ak)의 형성을 위한 시간을 허용하기 위해 지연부(117)에서 지연된다. 상기 지연된 샘플은 예측 잔여 신호 발생기(18)의 입력에 공급된다. 종래 기술에서 널리 공지된 바와 같이, 예측 잔여 신호 발생기는 지연된 샘플과 예측 매개변수(ak)에 응답하여, LPC 예측 에러에 대응하는 신호를 형성한다. 예측 분석기(110)에서의 예측 매개변수 및 예측 잔여 신호의 형성은 미국 특허 제3,740,476호에 공지된 장치 또는 종래 기술에서 널리 공지된 임의의 다른 장치에 따라 수행될 수도 있다.
각각의 연속적인 프레임에 대한 예측 잔여 신호(dk) 및 예측 매개변수 신호(ak)는 상기 연속 프레임의 초기에 회로(110)로부터 여기 신호 형성 회로(120)로 인가된다.
회로(120)는 각 프레임에 대해 선정된 수의 비트 위치를 갖는 다중 펄스 부호 또는 변경된 잔여 부호로도 언급되는 다중-요소 프레임 여기 부호(EC)를 형성하도록 동작한다. 각각의 여기 부호는 프레임의 여기 함수를 나타내는 1≤i≤I 펄스의 시퀀스에 대응한다. 프레임내의 각 펄스의 진폭(D1) 및 장소(M1)는 여기 신호 형성 회로에서 결정되어, 여기 신호 및 프레임의 예측 매개변수 신호로부터 프레임 언어 신호의 복제의 구성을 허용한다. D1및 M1신호는 부호기(131)에서 인코드되고, 경로(159)를 통해 선택기(161)로 전달된다. 회로(120)에 의한 여기 부호(EC), D1및 M1신호의 형성은 미국 특허 제4,472,832호에 기술된 장치 또는 종래 기술에서 널리 공지된 임의의 다른 장치에 따라 수행될 수도 있다. 지연부(133,128)는 동일한 언어 세그먼트로부터 유도된 일치 데이타를 멀티플렉서(152)에 각각 제공하도록 110,120 및 130의 출력을 시간 일치시킨다.
디지탈 언어 샘플과 잔여 샘플의 응답에 있어선, 피치 검출 회로(130)는 상기 신호에 응답하여 언어 프레임이 음성 인지 또는 비음성 인지를 결정한다. 언어 프레임이 비음성이란 결정이 행해지면, 피치 검출 회로는 경로(156)를 통해 비음성 신호를 데이타 선택기(161)에 전송한다. 상기는 데이타 선택기(161)가 멀티플렉서와의 통신을 위해 부호기(131)로부터 진폭 및 장소 정보 (D1및 M1)를 선택하게 한다. 후자의 멀티플렉서는 지연부(128)로부터의 정보와 경로(160) 를 통해 수신되는 지연부(133)로부터의 매개변수 정보에 응답하여, 회로망(153)을 통해 제2도의 합성기와의 통신을 위해 상기 정보를 인코드한다. 검출 회로(130)에 의해 프레임이 음성이란 결정이 행해지면, 경로(156)를 통해 전송된 신호는 선택기(151)가 경로(157)를 통해 검출 회로(130)로부터 통신되어질 멀티플렉서(152)로 전송되는 프레임에 대한 피치 정보를 선택하게 한다. 멀티플렉서(152)는 피치 정보 및 매개변수 정보에 응답하여, 회로망(53)을 통해 제2도의 합성기로 전송하기 위한 상기 정보를 인코딩한다
합성기는 제2도에 도시되었다. 디멀티플렉서(201)는 경로(155)를 통해 회로망(153)으로부터 수신된 정보에 응답하여, 여기가 다중 펄스인지 또는 피치인지를 결정한다. 만약 여기가 피치인 경우, 피치 정보가 경로(209)를 통해 피치 발생기(203)에 전달된다. 또한, 멀티플렉서는 선택기(204)가 피치 발생기(203)의 출력을 선택하게 하여, 이 출력이 합성기 필터(205)에 입력될 수 있게 한다. 또한, 디멀티플렉서(201)는 필터를 적당히 셋트하기 위해 선형 예측 부호와 매개변수를 합성 필터(205)에 입력시킨다. 합성 필터(205)는 선택기(204)로부터 수신된 여기와 LPC계수와 응답하여, 디지탈 형태로 원래의 언어의 복제를 재생한다. 디지탈-아나로그 변환기(206)는 이들 디지탈 샘플에 응답하여, 컨덕터(207) 상에 대응하는 아날로그 신호를 발생시킨다.
만약, 디멀티플렉서(201)가 회로망(151)으로부터 여기가 펄스 여기임을 나타내는 정보를 수신하는 경우, 상기 디멀티플렉서는 진폭 및 장소 정보를 경로(208)를 통해 디코더(202)에 전달하여 선택기(204)가 경로(211)를 통해 합성 필터(205)와의 통신을 위한 디코더(202)의 출력 선택하게 한다. 또한 디멀티플렉서(201)는 LPC 계수를 합성 필터에 전달하고, 합성 필터(205) 및 디지탈-아나로그 변환기(206)는 전술된 바와 같은 기능을 한다.
제1도에 도시된 피치 검출 회로(130)를 보다 상세히 검토해 보기로 한다. 클리퍼(143 내지 146)는 경로(115,116) 상에 인입한 x 및 d 계수화 신호를 정방향 진행(positive-going) 및 부방향 진행(negative-going) 파형으로 변환시킨다. 상기 신호를 형성하는 목적은 합성 파형이 주기성을 분명히 나타내지 않는 반면 클리핑된 파형은 주기성을 분명히 나타내기 때문이다. 그래서, 주기성이 보다 쉽게 검출되게 한다.
클리퍼(143,145)는 x 및 d 신호를 각기 정방향 진행 신호로 변환시키고, 클리퍼(144,146)는 x 및 d 신호를 각기 부방향 진행 신호로 변환시킨다.
피치 검출기(147 내지 150)는 그들 자신의 개별 입력 신호에 응답하여, 인입한 신호의 주기성을 결정한다. 피치 검출기의 출력은 상기 신호를 수신한 다음의 2개의 프레임이다. 각 프레임이 예시된 바와 같이 160개의 샘플 지점으로 구성됨에 주의하자. 피치 보우터(pitch voter ; 151)는 4개의 피치 검출기의 출력에 응답하여, 최종 피치를 결정한다. 피치 보우터(151)의 출력은 경로(154)를 통해 전송된다.
제3도는 피치 검출기(148)를 블럭도 형태로 도시한다. 다른 피치 검출기도 형태가 유사하다. 최대 로케이터(maxima locator ; 31)는 각 프레임이 계수화된 신호에 응답하여, 주기성 검색이 수행된 펄스를 찾는다. 최대 로케이터(301)의 출력은 2 셋트의 수인데 ; 이들이 후보 샘플인 최대 진폭(M1)을 나타내고, 상기 진폭 D1의 프레임내의 장소를 나타낸다. 거리 검출기(302)는 상기 2 셋트의 수에 응답하여, 주기적인 한 보조 셋트의 후보 펄스를 결정한다. 상기 보조 셋트는 상기 프레임에 대해 주기성이 어떠한가에 대한 거리 검출기(302)의 결정을 나타낸다. 거리 검출기(302)의 출력이 피치 트랙커(303)로 전달된다. 피치 트랙커(303)의 용도는 연속적인 프레임의 계수화된 신호간의 피치에 대한 피치 검출기의 결정을 제한하기 위한 것이다. 상기 기능을 수행하기 위해, 피치 트랙커(303)는 2개의 이전 프레임에 대해 결정된 바와 같은 피치를 이용한다.
이제 최대 로케이터(301)에 의해 수행되는 동작을 보다 상세히 살펴보기로 한다. 최대 로케이터(301)는 첫째로 프레임으로부터 샘플내에서 프레임의 전체 최대 진폭(M0), 프레임의 장소(D0)를 식별한다. 주기성 검색을 위해 선택된 다른 지점은 모든 이하 조건을 만족시켜야 한다. 첫째, 펄스는 국부 최대이어야 하는데, 상기는 정선된 그다음 펄스가 이미 정선되었거나 또는 제거되었던 모든 펄스를 제외한 프레임의 최대 진폭 이여야 함을 의미한다. 상기 조건은 피치 펄스가 통상 프레임의 다른 샘플보다 더 높은 진폭을 갖는 것으로 가정되기 때문에 적용된다. 둘째, 선택된 펄스의 진폭은 전체 최대의 특정 퍼센트보다 크거나 같아야 한다. 즉, M1gMO인데, 여기서 g는 유리하게 25%일 수도 있는 임계 진폭 퍼센트이다. 셋째, 펄스는 이미 색출이 되었던 모든 펄스로부터 최소한 18개의 샘플로 유리하게 분할돼야 한다. 이 조건은 사람 언어에서 조우된 가장 높은 피치가 8KH의 샘플 비율에서 18개의 샘플을 초래하는 대략 444Hz이라는 가정에 근거를 두고 있다.
거리 검출기(302)는 프레임 전체 최대(MO)로부터 가장 가깝게 인저한 후보 펄스까지의 거리를 고려하여 시작되는 순환형 절차로 동작한다. 이 거리는 후보 거리(dc)라 불리며, 다음과 같이 주어지는데,
Figure kpo00001
여기서 D1는 가장 인접한 후보 펄스의 인-프레임 장소(in-frame location)이다. 만약 프레임에서 이러한 한 보조 셋트의 펄스가 상기 거리 플러스 또는 마이너스 호흡 간격(B)으로 분리되지 않는 경우, 상기 후보 거리는 무시되고, 상기 과정은 새로운 후보 거리를 이용하여 그 다음 가장 인접한 후보 펄스에 대해 다시 시작된다. 유리하게, B는 4 내지 7의 값을 가질 수도 있다. 상기 새로운 후보 거리는 전체 최대 펄스에 상기 그다음 가장 인접한 펄스까지의 거리이다.
일단 피치 검출기(302)가 거리(dc±B)로 분리된 한 보조 셋트의 후보 펄스를 결정하면, 상호 보간 진폭 테스트가 행하여진다. 상기 상호 보간 진폭 테스는 MO와 각각의 상기 그 다음 가장 인접한 후보 보간 펄스간의 선형 상호 보간을 실행하며, MO에 바로 접하여 인접한 후보 펄스의 진폭이 최소한 보간된 값의 q퍼센트이어야 한다. 유리하게, 상호 보간 진폭 임계치인 q 퍼센트는 75%이다. 제4도에 도시된 후보 펄스로 예시된 실시예에 대해 살펴보기로 한다. 유효 후보 거리일 dc에 대해, 이하 사항이 참이어야 하는데 :
Figure kpo00002
Figure kpo00003
상술한 바와 같이, M1qMO(i=1, 2, 3, 4, 5에 대해서)
피치 트랙커(303)는 거리 검출기(302)의 출력에 응답하여, 피치의 주파수에 관한 피치 거리 추정치를 평가하는데, 이는 피치 거리는 피치의 주기를 나타내기 때문이다. 피치 트랙커(303)의 기능은 필요에 따라 4가지 테스트, 즉, 음성 세그먼트 개시 테스트(voice segment start-up test), 최대 호흡 및 피치 더블링 테스트(maximum breating and pitch doubling test), 한계 테스트(limiting test) 및 돌연한 변환 테스트(abrupt change test)를 수행하여 피치 검출기로부터 수신된 임의의 초기 피치 거리 추정치를 변경시켜 피치 거리 추정치가 프레임간에 일치되도록 제한하는 것이다.
이들 테스트중 제 1테스트인 음성 세그먼트 개시 테스트는 음성 영역의 시작에서 피치 거리 일관성을 보장하기 위해 수행된다. 상기 테스트가 음성 영역의 시작에만 관련이 되기 때문에, 현 프레임이 비제로 피치 주기를 갖는다고 가정한다. 이 가정은 이전의 프레임과 현 프레임이 음성 영역의 제 1 및 제 2음성 프레임이라고 가정하는 것이다. 만약 피치 거리 추정치가 T(i)로 표시되는 경우(여기서, i는 거리 검출기(302)로부터 추정된 현 피치 거리를 표시한다), 피치 검출기(303)는 각 검출기를 통해 2개의 프레임이 지연되기 때문에 T*(i-2)를 출력한다. 이 테스트 T(i-3) 및 T(i-2)가 제로인 경우, 또는 T(i-3) 및 T(i-4)가 제로인 반면 T(i-2)가 비제로인 경우에만 수행되는데, 프레임(i-2 및 i-1)은 음성 영역의 제 1 및 제 2프레임을 각기 의미한다. 음성 세그먼트 개시 테스트는 2개의 일관성 테스트를 수행하는데, 그 테스트중 하나는 제 1 음성 프레임 T(i-2)에 대한 것이고, 다른 하나는 제 2음성 프레임 T(i-1)에 대한 것이다. 이들 2개의 테스트는 연속적인 프레임 동안 수행된다. 음성 세그먼트 테스트의 목적은 음성 영역이 실제 시작되지 않았을 때, 음성 영역의 개시를 규정할 가능성을 감소시키기 위한 것이다. 음성 영역에 대한 다른 일관성 테스트만이 최대 호흡 및 피치 더블링 테스트에서 수행되고, 단지 하나의 일관성 조건만이 필요하기 때문에, 상기가 중요하다. 제 1일관성 테스트는 프레임 T(i-2)의 최우측 후보 샘플과 프레임 T(i-1)의 최좌측 후보 샘플의 거리 및 피치 거리 T(i-2)가 피치 임계치(B+2) 내에서 접근해 있다는 것을 보장하기 위해 수행된다.
상기 제 1일관성 테스트가 부합되는 경우, 제 1일관성 테스트로 보장되었으나, 새로운 프레임 시퀀스가 프레임 시퀀스대로 우측으로 하나씩 시프트 되어져 동일한 결과를 정확히 보장하기 위해 그다음 프레임 동안 제 2일관성 테스트가 수행된다. 제 2일관성 테스트가 부합되지 않은 경우, T(i-1)이 제로로 셋트되어, 프레임(i-1)이 제 2음성 프레임이 될 수 없다는 것을 의미한다(T(i-2)가 제로로 셋트되지 않는 경우).
그러나 만약 상기 일관성 테스트 둘다가 통과되는 경우, 프레임(i-2 및 i-1)은 음성 영역의 개시를 규정한다. 만약 T(i-1)이 제로에 셋트되는 반면에, T(i-2)가 비제로이고, T(i-3)가 제로인 경우, 즉, 프레임(i-2)이 비음성 프레임간의 음성인 경우, 돌연한 변화 테스트가 이러한 상황을 처리하는데, 이러한 특수 테스트는 이후에 설명된다.
최대 호흡 및 피치 더블링 테스트는 음성 영역의 2개의 인접한 음성 프레임에 대한 피치 일관성을 보장한다. 그래서, 상기 테스트는 단지 T(i-3), T(i-2) 및, T(i-1)가 비제로인 경우에만 실행된다. 최대 호흡 및 피치 더블링 테스트는 또한 거리 검출기(302)에 의해 만들어진 임의의 피치 더블링 에러를 검색하고 정정한다. 상기 검색의 피치 더블링 부분은 T(i-2)와 T(i-1)가 일관성이 있거나 또는 T(i-2)가 2배의 T(i-1)와 일관성이 있는 경우, 피치 중복 에러를 의미한다. 이 테스트는 우선 상기 테스트의 최대 호흡 부분이 부합되는가, 즉, 다음 식을 만족하는가를 알기 위해 검색되는데 ;
Figure kpo00004
여기서, A는 유리하게 값 10을 가질 수도 있다. 만약 상기 방정식이 부합되는 경우, T(i-1)은 양호한 피치 거리 추정치이며 변경될 필요가 없다. 그러나, 만약 테스트중 최대 호흡 부분이 부합되지 않는 경우, 상기 테스트의 피치 더블링 부분이 부합되는지를 결정하기 위한 테스트가 수행되어야 한다. 상기 테스트 첫번째 부분은 T(i-3)가 비제로로 주어진 이하 식에 의해 정의된 바와 같이 T(i-2) 및 2배의 T(i-1)가 피치임계치 내에서 인접한가를 알기 위해 검색한다.
Figure kpo00005
상기 조건이 부합되는 경우, T(i-)이 T(i-2)와 같게 셋트된다.
만약 상기 조건이 부합되지 않는 경우, T(i-1)가 제로로 셋트된다. 상기 테스트의 두번째 부분은 T(i-3)가 제로인 경우 수행된다. 만약 다음 조건이 부합되는 경우 즉,
Figure kpo00006
만약 상기 조건이 부합되지 않는 경우, T(i-1)는 제로에 셋트된다.
T(i-1) 상에 수행되는 한계 테스트는 계산되었던 피치가 50Hz 내지 400Hz인 사람의 언어의 범위내에 있는지를 보장한다. 만약 계산된 피치가 상기 범위내에 있지 않은 경우, T(i-1)은 프레임 (i-1)이 상기 계산된 피치를 가진 음성일 수 없다는 것을 표시하는 제로로 셋트된다.
돌연한 변화 테스트는 3개의 앞서의 테스트가 행하여진 후 수행되고, 다른 테스트가 비음성 영역의 중앙의 음성이나 또는, 음성 영역의 중앙의 비음성으로서 프레임이 표시될 수 있게 할 수도 있는지를 결정하려고 하는 경향이 있다. 사람은 통상 상기와 같은 언어 프레임의 시퀀스를 발생할 수 없기 때문에, 돌연한 변화 테스트는 음성-비음성-음성 또는 비음성-음성-비음성인 임의의 시퀀스를 제거함으로써 임의의 음성 또는 비음성 세그먼트가 적어도 2개의 프레임 길이라는 것을 보증한다. 돌연한 변화 테스트는 2개의 앞서 언급된 시퀀스를 검출하도록 각각 지정된 2개의 처리 절차로 구성된다. 일단 피치 트랙커(303)가 앞서 설명된 4개의 테스트를 수행하면, 제1도의 피치 보우터(151)에 대해 T*(i-2)를 출력한다. 피치 트랙커(303)는 거리 검출기(302)로부터 그다음 수신된 피치 거리에 대한 계산을 위해 다른 피치 거리를 유지한다.
제5도는 제1도의 피치 보우터(151)를 보다 상세히 도시한다. 피치값 추정기(501)는 피치 검출기(147 내지 150)의 출력에 응답하여, 어느 피치가 초기의 2개의 프레임 P(i-2)에 대한 것인가의 초기 추정치를 형성하며, 피치값 트랙커(502)는 피치값 추정기(501)의 출력에 응답하여, 프레임간에 일관성이 있도록 앞서의 제 3프레임 P(i-3)에 대한 최종 피치값을 억제한다.
피치값 추정기(501)에 의해 수행된 기능을 보다 상세히 검토해 보기로 한다. 일반적으로, 피치값 추정기(501)에 의해 수신된 모든 4개의 피치 거리 추정치가 비제로인 경우, 즉 음성 프레임을 나타내는 경우, 최저 및 최고 추정치는 무시되고, P(i-2)가 2개의 잔여 추정치의 산술 평균과 같게 셋트된다.
마찬가지로, 3개의 피치 거리 추정치가 비제로인 경우, 최고 및 최저 추정치는 무시되고 피치값 추정기(501)는 잔여 비제로 추정치와 같게 P(i-2)를 셋트시킨다. 단지 2개의 추정치만이 비제로인 경우, 피치값 추정기(501)는 상기 2개의 값이 피치 임계치(A) 내에서 근접하여 있는 경우에만 2개의 피치 거리 추정치의 산술적 평균과 같게 P(i-2)를 셋트시킨다. 만약 2개의 값이 피치 임계값(A) 내에서 근법하여 있지 않는 경우, 피치값 추정기(501)는 P(i-2)를 제로에 셋트시킨다. 상기 결정은 몇몇의 개별 검출기가 어떤 주기성을 부정확하게 결정하더라도, 프레임(i-2)이 비음성이라는 것을 표시한다. 4개의 피치 거리 추정치중 단지 하나만 비제로인 경우, 피치값 추정기(501)는 P(i-2)를 비제로값으로 셋트시킨다. 이 경우, 상기 피치 거리 추정치의 유효성을 검색하기 위해 피치값 트랙커(502)에 비제로값으로 세트된 P(i-2)를 남겨두어 이전의 피치 추정치와 일치하게 만든다. 만약 모든 피치 거리 추정치가 제로인 경우, 피치값 추정기(501)는 P(i-2)를 제로로 셋트시킨다.
피치값 트랙커(502)에 대해 보다 상세히 살펴보기로 한다. 피치값 트랙커(502)는 피치값 추정기(501)의 출력에 응답하여, 이전의 제 3프레임 P*(i-3)에 대한 피치값을 발생하며, P(i-2)와 P(i-4)를 근거로 하여 상기 추정치를 만든다. 상기 피치값 P*(i-3)은 프레임간에 일관성이 있도록 선택된다.
첫번째로 검색이 되는 사항은 음성-비음성-음성, 비음성-음성-비음성 또는 음성-음성-비음성 형태를 갖는 프레임의 시퀀스이다. 만약에 제1시퀀스가 비제로인 P(i-4) 및 P(i-2)에 의해 표시된 바와 같이 발생이 되고 P(i-3)가 제로이면, 최종 피치값 P*(i-3)은 피치값 트랙커(502)에 의해 P(i-4) 및 P(i-2)의 산술 평균과 같게 셋트된다. 만약 제 2시퀀스가 발생되며, 최종 피치값 P*(i-3)은 제로로 셋트된다. 제 3시퀀스에 대해선, 상기 피치 트랙커(502)는 비제로인 P(i-4) 및 P(i-3)와 제로인 P(i-2)에 응답하여, P(i-3)와 P(i-4)가 피치 임계값(A) 내에 근접하여 있는 한, P(i-3)과 P(i-4)의 산술적 평균에 P*(i-3)를 셋트시킨다. 피치 트랙커(502)는
Figure kpo00007
에 응답하여, 이하 연산을 수행한다.
Figure kpo00008
P(i-3)와 P(i-4)가 상기 조건에 부합되지 않는다고 피치값 트랙커(502)가 판단한 경우(즉, P(i-3) 및 P(i-4)가 피치 임계값 A내에 근접하여 있지 않음), 피치값 트랙커(502)는 P*(i-3)을 P(i-4)의 값과 같게 셋트시킨다.
앞서 설명된 연산외에도, 피치값 트랙커(502)는 특정 형태의 음성-음성-음성 프레임 시퀀스에 대한 피치값 추정치를 평탄화시키도록 설계된 동작을 수행한다. 3가지 형태의 프레임 시퀀스는 상기 평탄화 동작이 수행될시에 발생한다.
첫번째 시퀀스는 이하 식이 참일 때이다. 즉,
Figure kpo00009
상기 조건이 참일시에, 피치값 트랙커(502)는 이하와 같이 셋팅되므로 평탄화 동작을 수행한다.
Figure kpo00010
제2셋트의 조건은
Figure kpo00011
Figure kpo00012
일시에 발생한다.
상기 제2셋트의 조건이 참일시에, 피치값 트랙커(502)는 P*(i-3)를 다음과 같이 셋트시킨다.
Figure kpo00013
제3 및 최종 셋트의 조건은 다음과 같이 규정된다.
Figure kpo00014
Figure kpo00015
상기 최종 셋트의 조건이 발생할시에, 피치값 트랙커(502)는 P*(i-3)를 다음 셋트시킨다.
Figure kpo00016
피치 검출 회로(130)의 동작에 관한 또다른 상세한 사항은 본 출원과 동일자로 출원되었고 본 출원과 동일한 양수인에게 양도된 J.Picone씨 등이 계류중인 미국 특허 출원 Case 1-4 A Parallel Processing Pitch Detector에 주어져 있다. J.Picone씨 등의 계류중인 미국 특허 출원 Case 1-4는 기준에 의해 본 출원에 통합되었다.
이 분야의 기술에 숙련된 자에게는 상술된 실시예가 단지 본 발명의 원리의 예시이며, 본 발명의 정신 및 범위를 벗어나지 않고도 다른 장치가 고안될 수도 있음이 명백할 것이다.

Claims (8)

  1. 언어 처리 방법에 있어서, 언어를 연속적으로 시간 프레임으로 나누는 분할 단계(113,115,118)와 ; 각각의 상기 프레임에 대해 음성 부분(vocal tract)을 규정하는 한 셋트의 언어 매개변수 신호를 발생시키는 단계(119)와 ; 각각의 상기 언어 프레임에 대해 음성 언어를 포함하는 음성 신호를 발생하는 음성 신호 발생 단계(151)와 ; 각각의 상기 언어 프레임에 대해 비음성 언어를 포함하는 비음성 신호를 발생하는 비음성 신호 발생 단계(151)와 ; 다른 피치형 여기 정보를 발생하기 위해 상기 각 프레임에 대한 상기 매개변수 신호 셋트 및 상기 언어의 임펄스 응답의 상호 상관의 펄스로부터 선택된 펄스의 시퀀스를 발생하는 펄스의 시퀀스 발생 단계(120)와, 상기 음성 신호에 의해 음성으로서 표시된 각각의 상기 언어 프레임에 대한 피치형 여기 정보 및 상기 비음성 신호에 의해 비음성으로서 표시된 각각의 상기 언어 프레임에 대한 상기 다른 피치형 여기 정보로 구성된 부호화된 여기 신호를 생성하는 부호화된 여기 신호 생성 단계(130,131) 및, 각각의 상기 플레임의 언어를 표시하는 부호화된 결합 신호를 형성하기 위하여 각각의 상기 프레임에 대하여 상기 생성된 부호화 여기 신호 및 상기 언어 매개변수 신호 셋트를 결합하는 단계(152,161)를 구비하는 것을 특징으로 하는 언어 처리 방법.
  2. 제1항에 있어서, 상기 분리 단계는 각각의 상기 프레임에 대해 상기 언어 패턴의 언어 샘플을 형성하는 언어 샘플 형성 단계(115) 및, 각각의 상기 프레임에 대해 상기 언어 패턴의 잔여 샘플을 발생하는 잔여 샘플 발생 단계(118)를 구비하며, 상기 피치 형태의 여기 정보 발생 단계는 각 프레임내에 있는 상기 언어 샘플중 양(positive)의 샘플에 응답하여, 각각의 상기 프레임에 대한 제 1피치값을 추정하는데 제 1피치값 추정 단계(143,147)와 ; 각 프레임내에 있는 상기 언어 샘플중 음(negative)의 샘플에 응답하여, 각각의 상기 프레임에 대한 제 2피치값을 추정하는 제 2피치값 추정 단계(144,148)와 ; 상기 잔여 샘플중 양의 샘플에 응답하여, 각각의 상기 프레임에 대한 제 3피치값을 추정하는 제 3피치값 추정 단계(145,149)와 ; 각 프레임에 대한 상기 잔여 샘플중 음의 샘플에 응답하여, 각각의 상기 프레임에 대한 제 4피치값을 추정하는 제 4피치값 추정 단계(146,150) 및, 최종 이전의 언어 프레임에 대한 상기 추정된 피치값 및 이전의 다수의 언어 프레임과 현재의 언어 프레임에 대한 피치값에 응답하여, 상기 최종 이전의 언어 프레임의 최종 피치값을 결정하는 최종 피치값 결정 단계(151)를 구비하는 것을 특징으로 하는 언어 처리 방법.
  3. 제2항에 있어서, 상기 결정 단계는 상기 추정된 피치값중 하나로부터 피치값을 계산하는 피치값 계산 단계(501) 및 ; 상기 계산된 피치값이 이전의 프레임으로부터 계산된 피치값과 일치하도록 상기 최종 피치값을 제한하는 최종 피치값 제한 단계(502)를 구비하는 것을 특징으로 하는 언어 처리 방법.
  4. 상기 언어의 순간 진폭에 대하여 선정된 수의 균일하게 이격된 샘플을 각각 갖는 다수의 언어 프레임을 기억하는 기억 회로(113,115,118)와, 각각의 언어 프레임에 대해 음성 부분을 한정하는 한 셋트의 언어 매개변수 신호를 곗나하는 계산 회로(119)와, 음성 언어를 포함하는 각각의 상기 언어 프레임에 대해 음성 신호를 발생하는 음성 신호 발생 회로(151)와, 비음성 언어를 포함하는 각각의 상기 언어 프레임에 대해 비음성 신호를 발생하는 비음성 신호 발생 회로와 ; 상호 상관 펄스 신호를 발생하기 위해 각각의 상기 프레임에 대한 상기 매개변수 신호 셋트 및 상기 언어의 임펄스 응답의 상호 상관 동작을 수행하는 회로(121-125) 및, 다른 피치형 여기를 발생하는 상기 상호-상관된 펄스로부터 펄스 시퀀스를 선택하는 회로를 포함하는 사람의 언어를 처리하는 언어 처리 방법에 있어서, 상기 음성 신호에 의해 음성으로서 표시된 각각의 상기 언어 프레임에 대한 피치형 여기 정보 및 상기 비음성 신호에 의해 비음성으로서 표시된 각각의 상기 언어 프레임에 대한 상기 다른 피치형 여기 정보를 포함하는 부호화된 여기 신호를 생성하는 회로(130,131) 및, 상기 생성된 부호화된 여기 신호 및 각각의 상기 프레임에 대한 상기 언어 매개변수 신호 셋트를 결합시켜 각각의 상기 프레임에 대한 언어를 표시하는 부호화된 결합 신호를 형성하는 수단을 구비하는 것을 특징으로 하는 언어 처리 장치.
  5. 제4항에 있어서, 상기 피치형 여기 정보를 발생하는 상기 회로는 각각의 상기 프레임의 상기 샘플중 개개의 선전된 부분에 응답하여, 각각의 상기 프레임에 대한 피치값을 추정하는 다수의 동일한 서브 회로(143 내지 150) 및, 각각의 상기 추정 서브 회로로부터 개별적으로 추정된 피치값에 응답하여, 각각의 상기 프레임에 대한 최종 피치값을 결정하는 서브 회로(151)를 구비하는 것을 특징으로 하는 언어 처리 장치.
  6. 제5항에 있어서, 상기 결정 서브 회로는 각각의 상기 프레임에 대해 상기 추정된 피치값중 하나에 대한 최종 피치값을 계산하는 서브 회로(501) 및, 각각의 상기 프레임에 대해 계산된 피치값이 상기 프레임중 이전의 프레임으로부터 계산된 피치값과 일치하도록 상기 최종 피치값을 제한하는 서브 회로(502)를 구비하는 것을 특징으로 하는 언어 처리 장치.
  7. 언어 처리 방법에 있어서, 언어를 연속적으로 시간 프레임으로 나누는 분할 단계(113,115,118)와 ; 각각의 상기 프레임에 대해 음성 부분(vocal tract)을 규정하는 한 셋트의 언어 매개변수 신호를 발생하는 단계(119)와 ; 각각의 상기 언어 프레임에 대해 음성 언어를 포함하는 음성 신호를 발생하는 음성 신호 발생 단계(151)와 ; 각각의 상기 언어 프레임에 대해 비음성 언어를 포함하는 비음성 신호를 발생하는 비음성 신호 발생 단계(151)와 ; 다른 피치형 여기 정보를 발생하기 위해 상기 각 프레임에 대한 상기 매개변수 신호 셋트 및 상기 언어의 임펄스 응답의 상호 상관의 펄스로부터 선택된 펄스의 시퀀스를 발생하는 펄스의 시퀀스 발생 단계(120)와, 상기 음성 신호에 의해 음성으로서 표시된 각각의 상기 언어 프레임에 대한 피치형 여기 정보 및 상기 비음성 신호에 의해 비음성으로서 표시된 각각의 상기 언어 프레임에 대한 상기 다른 피치형 여기 정보로 구성된 부호화된 여기 신호를 생성하는 부호화된 여기 신호 생성 단계(130,131)와, 각각의 상기 프레임의 언어를 표시하는 부호화된 결합 신호를 형성하기 위하여 각각의 상기 프레임에 대하여 상기 생성된 부호화 여기 신호 및 상기 언어 매개변수 신호 셋틀르 결합하는 단계(152,161)와, 피치형 여기 정보를 갖는 결합된 부호화 신호의 수신에 따라 수신된 음성 신호를 발생하는 음성 신호 발생 단계(201)와, 상기 다른 피치형 여기 정보를 갖는 상기 결합된 부호화 신호의 수신에 따라 수신된 비음성 신호를 발생하는 비음성 신호 발생 단계(201)와, 각 프레임에 대한 상기 언어 매개변수 신호 셋트에 응답하여 상기 음성 부분을 모델링하는 음성 부분 모델링 단계(205)와, 상기 수신된 음성 신호가 발생되어짐에 따라 상기 피치형 여기 정보를 이용하여 각 프레임의 언어를 합성하는 언어 합성 단계(204) 및, 상기 수신된 비음성 신호의 발생에 따라 상기 다른 잡음형 여기 정보를 이용하여 각 프레임의 언어를 합성하는 언어 합성 단계(204)를 구비하는 것을 특징으로 하는 언어 처리 방법.
  8. 사람의 언어를 처리하는 언어 처리 장치에 있어서, 상기 언어의 순간 진폭에 대하여 선정된 수의 균일하게 이격된 샘플을 각각 갖는 다수의 언어 프레임을 기억하는 기억 회로(113,115,118)와, 각각의 언어 프레임에 대해 음성 부분을 한정하는 한 셋트의 언어 매개변수 신호를 계산하는 계산 회로(119)와, 음성 언어를 포함하는 각각의 상기 언어 프레임에 대해 음성 신호를 발생하는 음성 신호 발생 회로(151)와, 비음성 언어를 포함하는 각각의 상기 언어 프레임에 대해 비음성 신호를 발생하는 비음성 신호 발생 회로와 ; 상호 상관 펄스 신호를 발생하기 위해 각각의 상기 프레임에 대한 상기 매개변수 신호 셋트 및 상기 언어의 임펄스 응답의 상호 상관 동작을 수행하는 회로(121-125)와, 다른 피치형 여기를 발생하는 상기 상호-상관된 펄스로부터 펄스 시퀀스를 선택하는 회로와, 상기 음성 신호에 의해 음성으로서 표시된 각각의 상기 언어 프레임에 대한 피치형 여기 정보 및 상기 비음성 신호에 의해 비음성으로서 표시된 각각의 상기 언어 프레임에 대한 상기 다른 피치형 여기 정보를 포함하는 부호화된 여기 신호를 생성하는 회로(130,131)와, 상기 생성된 부호화된 여기 신호 및 각각의 상기 프레임에 대한 상기 언어 매개변수 신호 셋트를 결합시켜 각각의 상기 프레임에 대한 언어를 표시하는 부호화된 결합 신호를 형성하는 수단과, 상기 부호화된 결합 신호를 수신하는 부호화된 결합 신호 수신 수단과, 피치형 여기 정보를 갖는 수신된 부호화 결합 신호에 따라 수신된 음성 신호를 발생하는 음성 신호 발생 회로(201)와, 상기 다른 피치형 여기 정보를 갖는 상기 수신된 부호화 결합 신호에 따라 수신된 비음성 신호를 발생하는 비음성 신호 발생 회로와, 상기 수신된 음성 신호가 발생되어짐에 따라 상기 언어 매개변수 신호 셋트 및 상기 피치형 여기 정보를 이용하여 각 프레임의 언어를 합성하는 언어 합성 회로(202 내지 206) 및, 상기 언어 매개변수 신호 셋트 및 상기 수신된 비음성 신호에 응답하여 각 프레임의 언어를 합성하기 위해 상기 다른 잡음형 여기 정보를 이용하는 상기 언어 합성 회로를 구비하는 것을 특징으로 하는 언어 처리 장치.
KR1019870700360A 1985-08-28 1986-07-22 언어 처리 방법 및 장치 KR970001166B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US770632 1985-08-28
US770,632 1985-08-28
US06/770,632 US4912764A (en) 1985-08-28 1985-08-28 Digital speech coder with different excitation types
PCT/US1986/001521 WO1987001499A1 (en) 1985-08-28 1986-07-22 Digital speech coder with different excitation types

Publications (2)

Publication Number Publication Date
KR880700387A KR880700387A (ko) 1988-03-15
KR970001166B1 true KR970001166B1 (ko) 1997-01-29

Family

ID=25089221

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019870700360A KR970001166B1 (ko) 1985-08-28 1986-07-22 언어 처리 방법 및 장치

Country Status (7)

Country Link
US (1) US4912764A (ko)
EP (1) EP0236349B1 (ko)
JP (1) JP2738534B2 (ko)
KR (1) KR970001166B1 (ko)
CA (1) CA1270331A (ko)
DE (1) DE3674782D1 (ko)
WO (1) WO1987001499A1 (ko)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5046100A (en) * 1987-04-03 1991-09-03 At&T Bell Laboratories Adaptive multivariate estimating apparatus
US5351338A (en) * 1992-07-06 1994-09-27 Telefonaktiebolaget L M Ericsson Time variable spectral analysis based on interpolation for speech coding
FR2697101B1 (fr) * 1992-10-21 1994-11-25 Sextant Avionique Procédé de détection de la parole.
US5659659A (en) * 1993-07-26 1997-08-19 Alaris, Inc. Speech compressor using trellis encoding and linear prediction
US5764779A (en) * 1993-08-25 1998-06-09 Canon Kabushiki Kaisha Method and apparatus for determining the direction of a sound source
JP2658816B2 (ja) * 1993-08-26 1997-09-30 日本電気株式会社 音声のピッチ符号化装置
EP0657874B1 (en) * 1993-12-10 2001-03-14 Nec Corporation Voice coder and a method for searching codebooks
JP3024468B2 (ja) * 1993-12-10 2000-03-21 日本電気株式会社 音声復号装置
US5602961A (en) * 1994-05-31 1997-02-11 Alaris, Inc. Method and apparatus for speech compression using multi-mode code excited linear predictive coding
CN1155942C (zh) * 1995-05-10 2004-06-30 皇家菲利浦电子有限公司 具有改进的音调检测的编码语音传输系统和方法
JP3707116B2 (ja) * 1995-10-26 2005-10-19 ソニー株式会社 音声復号化方法及び装置
US6240384B1 (en) * 1995-12-04 2001-05-29 Kabushiki Kaisha Toshiba Speech synthesis method
US5937374A (en) * 1996-05-15 1999-08-10 Advanced Micro Devices, Inc. System and method for improved pitch estimation which performs first formant energy removal for a frame using coefficients from a prior frame
US6047254A (en) * 1996-05-15 2000-04-04 Advanced Micro Devices, Inc. System and method for determining a first formant analysis filter and prefiltering a speech signal for improved pitch estimation
US5794185A (en) * 1996-06-14 1998-08-11 Motorola, Inc. Method and apparatus for speech coding using ensemble statistics
US5797120A (en) * 1996-09-04 1998-08-18 Advanced Micro Devices, Inc. System and method for generating re-configurable band limited noise using modulation
US6154499A (en) * 1996-10-21 2000-11-28 Comsat Corporation Communication systems using nested coder and compatible channel coding
US5832443A (en) * 1997-02-25 1998-11-03 Alaris, Inc. Method and apparatus for adaptive audio compression and decompression
US6876965B2 (en) * 2001-02-28 2005-04-05 Telefonaktiebolaget Lm Ericsson (Publ) Reduced complexity voice activity detector
US8229086B2 (en) 2003-04-01 2012-07-24 Silent Communication Ltd Apparatus, system and method for providing silently selectable audible communication
KR100900438B1 (ko) * 2006-04-25 2009-06-01 삼성전자주식회사 음성 패킷 복구 장치 및 방법
US8364492B2 (en) * 2006-07-13 2013-01-29 Nec Corporation Apparatus, method and program for giving warning in connection with inputting of unvoiced speech
US8494490B2 (en) 2009-05-11 2013-07-23 Silent Communicatin Ltd. Method, circuit, system and application for providing messaging services
US8229409B2 (en) 2007-02-22 2012-07-24 Silent Communication Ltd. System and method for telephone communication
JP5747562B2 (ja) * 2010-10-28 2015-07-15 ヤマハ株式会社 音響処理装置
ES2821141T3 (es) * 2016-12-16 2021-04-23 Ericsson Telefon Ab L M Método y codificador para manejar coeficientes de representación de envolvente
US10494779B2 (en) * 2018-03-12 2019-12-03 University Of Maine System Board Of Trustees Hybrid composite concrete bridge and method of assembling

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2206889A5 (ko) * 1972-11-16 1974-06-07 Rhone Poulenc Sa
US3916105A (en) * 1972-12-04 1975-10-28 Ibm Pitch peak detection using linear prediction
US3903366A (en) * 1974-04-23 1975-09-02 Us Navy Application of simultaneous voice/unvoice excitation in a channel vocoder
US3979557A (en) * 1974-07-03 1976-09-07 International Telephone And Telegraph Corporation Speech processor system for pitch period extraction using prediction filters
US4058676A (en) * 1975-07-07 1977-11-15 International Communication Sciences Speech analysis and synthesis system
US4301329A (en) * 1978-01-09 1981-11-17 Nippon Electric Co., Ltd. Speech analysis and synthesis apparatus
CA1123955A (en) * 1978-03-30 1982-05-18 Tetsu Taguchi Speech analysis and synthesis apparatus
JPS602678B2 (ja) * 1980-04-18 1985-01-23 松下電器産業株式会社 音成合成方式
JPS576898A (en) * 1980-06-13 1982-01-13 Nippon Electric Co Voice synthesizer
JPS6040633B2 (ja) * 1981-07-15 1985-09-11 松下電工株式会社 無声破裂音源付きの音声合成装置
ATE15415T1 (de) * 1981-09-24 1985-09-15 Gretag Ag Verfahren und vorrichtung zur redundanzvermindernden digitalen sprachverarbeitung.
US4472832A (en) * 1981-12-01 1984-09-18 At&T Bell Laboratories Digital speech coder
US4561102A (en) * 1982-09-20 1985-12-24 At&T Bell Laboratories Pitch detector for speech analysis
US4696038A (en) * 1983-04-13 1987-09-22 Texas Instruments Incorporated Voice messaging system with unified pitch and voice tracking
US4669120A (en) * 1983-07-08 1987-05-26 Nec Corporation Low bit-rate speech coding with decision of a location of each exciting pulse of a train concurrently with optimum amplitudes of pulses
JPS6087400A (ja) * 1983-10-19 1985-05-17 日本電気株式会社 マルチパルス型音声符号復号化装置
US4701954A (en) * 1984-03-16 1987-10-20 American Telephone And Telegraph Company, At&T Bell Laboratories Multipulse LPC speech processing arrangement
US4709390A (en) * 1984-05-04 1987-11-24 American Telephone And Telegraph Company, At&T Bell Laboratories Speech message code modifying arrangement

Also Published As

Publication number Publication date
EP0236349B1 (en) 1990-10-03
DE3674782D1 (de) 1990-11-08
CA1270331A (en) 1990-06-12
KR880700387A (ko) 1988-03-15
JP2738534B2 (ja) 1998-04-08
WO1987001499A1 (en) 1987-03-12
EP0236349A1 (en) 1987-09-16
JPS63500682A (ja) 1988-03-10
US4912764A (en) 1990-03-27

Similar Documents

Publication Publication Date Title
KR970001166B1 (ko) 언어 처리 방법 및 장치
EP0235181B1 (en) A parallel processing pitch detector
Talkin et al. A robust algorithm for pitch tracking (RAPT)
EP0275416B1 (en) Method for enhancing the quality of coded speech
KR20010022092A (ko) 이격 대역 선형 예상 보코더
EP0342687B1 (en) Coded speech communication system having code books for synthesizing small-amplitude components
WO1980002211A1 (en) Residual excited predictive speech coding system
CA2162407C (en) A robust pitch estimation method and device for telephone speech
US4890328A (en) Voice synthesis utilizing multi-level filter excitation
KR960005741B1 (ko) 음성신호부호화장치
US5173941A (en) Reduced codebook search arrangement for CELP vocoders
JP3068196B2 (ja) マルチパルス分析音声処理システムおよび方法
SE470577B (sv) Förfarande och anordning för kodning och/eller avkodning av bakgrundsljud
KR100217372B1 (ko) 음성처리장치의 피치 추출방법
JPH0636159B2 (ja) ピツチ検出器
EP0713208B1 (en) Pitch lag estimation system
JP2585214B2 (ja) ピッチ抽出方法
KR0175250B1 (ko) 보코더의 톤 검출회로 및 방법
KR960011132B1 (ko) 씨이엘피(celp) 보코더에서의 피치검색방법
JPH05224698A (ja) ピッチサイクル波形を平滑化する方法及び装置
JPH077275B2 (ja) 音声信号符号化方式とその装置
Chen et al. Application of wavelet transforms for C/V segmentation on Mandarin speech signals
JPH07104793A (ja) 音声信号の符号化装置及び復号化装置
JPH04342298A (ja) 瞬時ピッチ分析方法及び有声・無声判定方法
Edwards Advanced signal processing techniques for pitch synchronous sinusoidal speech coders

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application
J2X1 Appeal (before the patent court)

Free format text: APPEAL AGAINST DECISION TO DECLINE REFUSAL

G160 Decision to publish patent application
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20020105

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee