KR100227950B1 - 음성 신호 처리 장치 - Google Patents

음성 신호 처리 장치 Download PDF

Info

Publication number
KR100227950B1
KR100227950B1 KR1019920016889A KR920016889A KR100227950B1 KR 100227950 B1 KR100227950 B1 KR 100227950B1 KR 1019920016889 A KR1019920016889 A KR 1019920016889A KR 920016889 A KR920016889 A KR 920016889A KR 100227950 B1 KR100227950 B1 KR 100227950B1
Authority
KR
South Korea
Prior art keywords
signal
speech signal
moment
speech
window
Prior art date
Application number
KR1019920016889A
Other languages
English (en)
Other versions
KR930006632A (ko
Inventor
슈 마 창
프란시스쿠스 빌렘스 레오나르두스
Original Assignee
요트.게.아. 롤페즈
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 요트.게.아. 롤페즈, 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 요트.게.아. 롤페즈
Publication of KR930006632A publication Critical patent/KR930006632A/ko
Application granted granted Critical
Publication of KR100227950B1 publication Critical patent/KR100227950B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Filters That Use Time-Delay Elements (AREA)

Abstract

인간 음성의 정상생성에서 성대의 폐쇄 순간은 적절히 규정된 순간에서 일반적으로 발생한다. 이 순간은 관측된 지연 성대 여기 신호와 성문 동기 처리 혹은 음성 합성과 같은 음성 처리를 위해 사용된다. 관측된 음성 신호로부터 성문 폐쇄의 순간을 검출하도록 관측된 음성 신호는 하이 패스 필터되고, 하이 패스 필터된 신호에서 피크의 수 및 진폭의 순간적인 국부집합 성문 폐쇄의 가능한 순간에 의해 결정된다. 성문 폐쇄의 순간은 집합이 최대값이되는 순간으로써 결정된다.

Description

음성 신호 처리 장치
제1도는 종래의 음성 생성의 모델 도시도.
제2도는 프레임당 음성분석을 하기위한 장치 도시도.
제3도는 음성 신호를 처리하여 얻어진 음성 신호, 전기성분 신호 및 세가지 신호의 파형도.
제4도는 처리 결과의 다른 예 도시도.
제5도는 처리 결과의 또 다른 예 도시도.
제6도는 처리 결과의 또 다른 예 도시도.
제7도는 음성 신호의 분석에 의해 성문 폐쇄의 순간을 검출하기 위한 본 발명에 따른 일실시예의 검출기 도시도.
제8도는 성문 폐쇄의 순간을 검출하기 위한 임계화 동작의 결과 도시도.
* 도면의 주요부분에 대한 부호의 설명
20 : 입력 21 : 처리 회로
22 : 프레임 시작 신호 23 : 내부프레임 위치 포인터
24 : 성문 폐쇄 검출 회로 25 : 클럭
26 : 카운터 70 : 하이패스필터
72 : 신호 변환기 74 : 평균화수단
76 : 임계 검출 회로 78 : 부가 평균화 회로
79 : 선택 수단
본 발명은 음성 신호의 시간종속세기의 특정 피크값을 결정함으로써 성문 폐쇄 순간의 시퀀스를 선택적으로 검출하기 위한 검출 수단을 포함하는 음성신호처리장치에 관한 것이다.
성문 폐쇄 즉, 성대의 폐쇄는 일반적으로 인간의 음성 생성 과정에서 한순간에 발생한다. 이러한 순간이 발생하는 정보는 많은 음성 처리 응용에 사용될 수 있다. 예를들면 음성 분석에서 신호의 처리는 성문 폐쇄의 각 순간에 각각의 같은 고정된 일시적인 관계에서 연속적인 시간 프레임에서 종종 수행된다. 이 방법에서, 신호를 따른 성문 폐쇄의 효과는 시간 프레임에 다소 독립적이고, 프레임간의 차이는 주로 성도의 시간 변수의 변화에 기인한다. 다른 응용예에 있어서, 성문여기신호열은 합성어를 생성하기 위해 성도를 모델링하는 합성 필터를 통해 공급된다. 양질의 음성을 생산하기 위해 실제 음성으로부터 이끌어낸 성문여기는 성문여기신호를 발생하기 위해 사용된다.
이러한 응용에 대해 실제로 수신된 인간의 음성신호로부터 성문 폐쇄의 순간과 일치하는 것이 바람직하다. 이러한 순간 또는 이순간과 고정된 위상 관계에 있는 최적의 순간을 찾기위한 장치는 US특허 제 3,940,565호로부터 공지되어 있다. 이 공지에 따라서 성문 폐쇄의 순간은 신호에서 최대 전폭의 순간으로 인지한다. 이를 검출하기 위해서 수신된 음성 신호는 피크 검출기로 공급되고 결과 피크 신호가 충분히 클때 이 검출기는 성문 폐쇄 신호로 플립플롭을 트리거한다.
이 방법의 단점은 모든 음성 신호에서 성문 폐쇄가 최대 피크 또는 단일 피크에 조차도 대응하지 않는다는 것이다. 목소리로 나타낸 신호에 있어서, 잘못된 검출을 발생시키는 한 기간에 걸쳐 분포된 몇몇 피크값이 있다. 또한 각 성문 폐쇄의 순간을 둘러싸는 비교적 큰 몇몇 피크값이 있고, 그것은 한 피크에서부터 다른 피크로의 최대 점프로써 검출된 순간에서 지터를 일으킨다. 게다가 비음성 신호에서 성문 폐쇄의 순간은 존재하지 않지만 불규칙하게 일정 간격을 갖는 많은 피크가 있고, 그것은 잘못된 검출을 야기시킨다.
본 발명의 목적은 복잡한 처리 조작을 요구하지 않고 강한 성문 폐쇄 검출을 향상시키기 위한 것이다.
실시예에 있어서, 본 발명은 장치가 설정된 주파수 아래의 특정한 단편의 약한 강조를 통해 필터된 신호를 음성 신호로부터 형성하기 위한 필터링 수단, 필터링 수단은 연속적인 시간 윈도우에서 평균화를 통해 음성 신호를 상기 시간 종속세기를 나타내는 평균의 시간 스트림을 발생시키기 위한 평균화 수단으로 필터된 신호를 공급하기 위해 배열되는 것을 특징으로 하기 때문에 목적을 실현한다.
이 장치에 있어서, 실제 음성 신호는 먼저, 성문 폐쇄의 반복을 이상 주파수를 매우 강조하는 하이패스 및 밴드패스 필터를 사용하여 필터된다. 필터링은 주로 성문 폐쇄후 성도에서 울림에 기인한 보다 긴 기간의 신호 발생에 의하여 성문 폐쇄의 짧은 기간의 결과를 강조할 것이다. 그러나, 그자체에서 필터링은 성문 폐쇄의 순간에 대응하는 단일피크로 항상 상승하지는 않을것이다. 반면에, 각 노이즈 피크의 분포는 증가할 것이고, 더구나 성문 폐쇄 자체의 영향은 몇몇 피크에 걸쳐 종종 분포되고, 영향은 단기간의 반향 발생에의해 더욱 악화될 수 있다.
성문 폐쇄의 순간 가까이에 일반적으로 큰 피크 또는 많은 작은 피크가 있고, 그것의 모두는 큰 국부신호밀도 즉, 전체 피크수/크기 카운트에 대응한다는 것이 발견된다. 따라서, 단지 피크 신호에 대한 검출 수단을 포함하는 대신에 장치는 윈도우의 순간으로부터 분포를 평균화함에 의해 신호 세기를 결정하는 평균화 수단을 포함한다. 계속해서 각 성문 폐쇄의 순간은 실제 세기에서 단일 피크에 대응할 것이고, 예를들어 피크값에 도달되었을때의 순간 혹은 피크의 중심은 음성 신호의 세목에 독립적인 성문폐쇄의 순간과 시간 관계를 가질 것이다.
본 발명에 따른 장치의 일실시예에 있어서, 필터링 수단은 값 변환을 세기 신호로 필터된 신호를 정류하기 위한 정류 수단을 경유하여 평균화 수단으로 필터된 신호를 공급하기 위해 배열되는 것을 특징으로 한다. 정류화에의해 필터된 신호로부터의 세기 신호의 경우에 AC 신호의 진폭에 반응하는 DC 성분을 갖는 신호를 얻기위한 과정을 의미한다. 각 정류값 변환의 간단한 예는 그것의 각각의 절대값으로 필터된 신호값의 변환이다. 일반적으로, 반대부호의 값이 정확하게 반전된 값을 변함없이 발생하지 않는 어떤 변환이 정류화로써 간주되고, 연속적으로 보다 큰 진폭을 갖는 제공된 값이 적어도 몇몇의 갑 범위내에서 연속적으로 보다 큰 진폭을 갖는 변환된 값으로 변환된다. 이 상황에서 실예의 정류화 변환은 신호의 지수, 그것의 절대값의 어떤 전력 또는 그것의 선형 결합으로 된다.
본 발명에 따른 일실시예의 장치는 변환이 필터된 신호값의 제곱화를 포함하는 것을 특징으로 한다. 이 방법에서 세기 신호의 DC 성분 즉, 실제 세기는 신호의 에너지 밀도를 표시하고, 그것은 피크 진폭이 통계상 정상적으로 최적의 검출을 야기시킨다.
본 발명에 따른 일실시예의 장치에 있어서, 상기 평균화에서 세기 신호는 윈도우의 중심으로부터 설정된 거리까지 시간 거리의 함수로써 일정하게 남아있는 부가 계수와함께 각 윈도우에 부가되고, 설정된 거리로부터 윈도우의 엣지에서 영으로 반복적으로 감소한다. 윈도우의 엣지에서 점차적으로 감소하는 부가 계수의 세트는 필터된 신호에서의 피크에 기인하는 불시의 원조의 개시를 경감하고, 이것이 성문 폐쇄의 한 순간에 대해 몇몇의 피크를 포함한다면 이것은 필터된 신호에서 분할 피크에 영향을 덜받는 실제 세기에서 피크의 개시를 만든다.
윈도우의 정확한 범위는 결정적이지 않다. 그러나, 윈도우가 성문 폐쇄의 하나의 연속적인 순간을 보다 더 포함할 정도로 넓다면 단일 성문 폐쇄의 순간에 속하지 않는 평균으로 분포되어 지고, 더 나쁜 신호대 잡음비가 일반적으로 세기에서 발생할 것이다. 성문 폐쇄의 인접한 순간으로부터 분포의 겹쳐짐을 피하기 위해 범위는 성문 폐쇄의 인접한 순간 사이 시간 간격보다 더 짧게 만들어지고, 남성의 목소리에 대한 그것은 8 내지 10 msec의 범위에 있고 여성의 목소리에 대한 그것은 4 내지 5msec의 범위에 있다. 매우 작은 범위는 멀더플 검출의 발생을 초래하고 범위로써 감소된 그것이 증가된다. 실제 음성 신호의 질에 의존하는 1msec 이상의 최소 범위는 실용적으로 발견되고, 3msec의 범위는 남성 및 여성의 목소리 모두에 대해 양호한 교환이다.
장치의 일실시예에서 그것은 음성 신호의 피치에 따라 윈도우의 순간적인 폭을 세팅하기 위한 폭 세팅 수단을 포함하는 것을 특징으로 한다. 폭 세팅 수단은 이전의 피치의 추정치를 즉, 성문 폐쇄의 인접한 순간 사이 거리를 이거리 아래로 윈도우의 순간 범위를 제한하기 위해 사용한다. 이전의 추정치는 예를들어 보다 쉽게 검출된 성문 폐쇄도 순간 사이 간격 길이의 평균 또는 분리한 피치 추정치 피트백함에 의해 또는 사용자의 컨트롤 선택기등을 사용함에 의한 몇몇 방법중 어떤 방법으로 얻어진다. 최상위 피치 차이는 남성 및 여성의 목소리 사이이므로 남성/여성 목소리 선택 버튼은 윈도우에 대해 두 범위중 하나로부터 선택하기 위해 사용된다. 따라서, 본 발명에 따른 장치의 일실시예는 세팅 수단이 순간폭을 제1 또는 제2범위로 세팅하기 위해 배열되고 제1범위가 제1 및 5밀리초 사이에 놓이고 제2범위가 5 및 10밀리초 사이에 놓이는 것을 특징으로 한다.
본 발명에 따른 장치의 일실시예의 있어서, 필터링 수단은 사실상 무자기로 1KHz 이상의 음성 신호의 부가 스펙트럼비를 필터된 신호로 카피한다. 이것은 필터링 수단을 쉽게 증가시킨다. 예를들면 실제 음성 신호가 샘플된 신호일때, 10킬로샘플/초를 가진 샘플(In)은 샘플시간 인덱스 "n"에 의해 식별되고, 표현식은 Sn = In - 0.9 In-1필터신호 Sn을 생산하는 만족한 방법을 제공한다.
성문 폐쇄 순간의 검출은 국부적으로 최대 세기값을 찾아냄으로써 또는 실제 세기가 임계값을 넘었을 때를 검출하므로써 쉽게 또는 피크의 중심 위치를 측정하므로써 수행된다. 본 발명에 따른 장치의 일실시예에 있어서 검출수단은 - 세기 신호의 평균 DC 성분을 결정하기 위해 윈도우의 폭보다 더 넓은 순간 범위에 걸쳐 평균화된 부가 평균화 수단 상기 평균화 수단이 공급하고, 시간 종속세기가 특정 피크에 대응하는 초과량인 설정된 인자 이상으로 평균 DC 성분을 초과하는지의 여부를 결정하기 위한 임계 수단을 포함한다. 이 방법에서 임계값도 자동적으로 세트되고 신호의 특성의 변화를 억제한다. 설정된 인자가 충분하게 하이로 세트될때, 비음성화 신호는 성문 폐쇄의 어떤 순간의 검출을 이끌지 않는다.
본 발명에 따른 장치의 일실시예에 있어서, 검출 수단은 실제 음성 신호의 분석동안의 프레임의 위치를 제어하기 위해 프레임당 음성 분석 수단의 합성 입력을 공급한다.
본 발명에 따른 장치의 일실시예에 있어서, 검출 수단은 합성 음성 신호를 형성하기 위해 성도 시뮬레이션 수단의 여기 입력을 공급한다.
제1도는 음성화된 인간 음성의 실질 생산을 위한 종래의 모델을 나타낸다. 이 모델에 따라서 성대(10)는 국부적인 기간의 여기 순서를 생성하고 그것은 (12)를 통해 성도(14)로 공급되고, 그것은 여기의 순서에 따라 선형 필터 동작에 영향을 받는다. 여기 주파수의 재현은 음성 신호의 "피치"가 일반적으로 100 Hz 내지 250 Hz의 범위에서이다. 여기의 순서는 이 주파수에 대응하는 간격에 의해 분리된 스펙트럼 피크를 가지며 피크의 크기는 주파수와 함께 천천히 변화하고 KHz 범위로 단지 없어진다. 한편 성도의 선형 필터링은 종종 뚜렷한 피크와 함께 1 KHz 이하에 강한 주파수 종속을 가지며, 따라서 특히 보다 낮은 주파수에서 출력(16)에서의 음성 신호의 스펙트럼 형태가 성도에 의해 결정된다.
성대(10)에 의해 생산된 실제 여기는 소위 성문 폐쇄의 순간을 잘 규정하도록 조사된다. 성도 필터(14)가 울림을 통해 그 자체에 의해 출력 신호를 성장시키도록 남겨둔후 성대를 폐쇄하는 기간의 순간이다. 성문 폐쇄 순간의 검출은 전자 음성 처리에서 다양한 목적을 위해 사용된다.
이 순간의 사용의 일예에 있어서, 음성은 선형 필터에 의해 수행된 여기 발생 회로(10)와 제1도와 같은 전자를 사용하여 합성된다. 양질의 합성어를 생산하기 위해 여기 발생 회로는 일련의 여기와 정상상태의 불규칙성을 발생하도록 배열되고 이 목적을 위해 성문 폐쇄의 관측된 순간이 사용된다.
다른 실시예에 있어서 음성 분석 즉, 음성의 분해는 프레임을 근거로하여 프레임상에서 수행되고, 프레임은 두 시점 사이에 음성 신호부분이며, 이 시점은 성문 폐쇄의 순간에 의해 합성된다. 제2도는 이 원리에 따라 작동하는 음성 분석 장치의 일예를 도시한다. 입력(20)에서 음성 신호가 수신된다. 그것은 처리 회로(21)에서 처리되고 그것은 음성 신호로부터 떨어져서 프레임 시작 신호(22) 내부 프레임 위치 포인터(23)를 또한 수신한다. 처리 신호에 의해 처리는 주기적이고, 이 기간은 리셋 입력에 의해 리셋되고 이 기간내의 위치는 위치 포인터로부터 결정된다. 리셋 입력은 성문 폐쇄 검출 회로(24)에 의해 제어되고, 그것은 입력(20)에서 수신된 음성 신호의 분석에 의해 성문 폐쇄의 순간을 검출한다. 성문 폐쇄 검출 회로(24)는 클럭(25)에 의해 구동되는 카운터(26) 또한 리셋하고, 전형적으로 장치는 내부 프레임 포인터를 발생한다. 프레임 처리에 의한 프레임의 하나의 장점은 프레임에서 성문 여기의 위상과 위치 사이에 고정된 관계가 있으며, 그것에 의해 성대의 많은 여기 효과는 고려된 특정 윈도우에 독립적이다. 따라서 윈도우 사이의 신호 변화는 성도의 효과에 의해 억제된다.
제3도는 전기 생리학의 측정에 의해 획득된 전기 성문 파형(32)의 일예를 도시하며, 음성 신호(30)는 그것으로부터 생산되고 처리의 결과(34, 36, 38)는 음성신호로부터 생산된다. 전기 성문 파형(32)은 주기적인 순간(즉, 33)에서 매우 강한 도함수를 갖는다. 성문 폐쇄의 순간이 있고, 그것은 음성 신호(30)를 형성하는 순간을 결정하는 본 발명의 목적이다. 목적에 도달하는 제1단계로써 음성 신호(30)는 선형 하이 패스 필터에 의해 필터된 신호로 변환된다. 선형 동작이 신호에 적용되는 정도가 결과에 대해 미미한것 같이 그것은 성도 필터(14)를 전기 성문 파형의 하이 패스 필터된 버젼으로 적용하는 결과로서 하이 패스 필터링 및 성도 필터(14)의 조합된 효과를 고려한다. 이 버젼은 성문 폐쇄(33)의 순간에 급격한 피크와 함께 시간의 대부분의 상수값을 가진다. 피크 사이에 하이 패스 필터된 음성 신호의 성장은 성도 필터(14)에 의해 단지 결정되고, 그것은 연속적인 하이 패스 필터된 신호값이 보다 많거나 적은 시간에 일정한 예상 계수와 함께 이전의 값으로부터 선형적으로 예상할 수 있는 것이며, 피크에서, 이 예상은 부정확하게 될것이다. 성문 폐쇄의 순간의 검출은 선형 예상에서 일어나는 편차의 양을 분석함으로써 달성된다. 이 목적을 위해 실제 예상 계수를 결정할 필요는 없다. 신호 샘플의 수정 행렬 "R"의 분석은 충분하다. 이 수정 행렬 "R"은 연속적인 음성 샘플 Si의 항목으로 규정한다.
Rij = ∑n=l---m Si+n Sj+n
행렬 지수(i, j)는 "P"샘플의 설정된 범위에 걸쳐 작동한다. 이 범위의 길이는 행렬의 등급이라 불리우고, 시간에서 범위의 위치에 대한 참조는 분석의 순간이라 불리운다. 계수"n"은 수정값이 결정되는 분석 간격의 길이라 불리운다. 음성 샘플"S"는 이 선행자로부터 선행적으로 예상할 수 있고 행렬(R)은 영과 동일한 적어도 하나의 고유값을 가질것이다. 일반적으로 R의 모든 고유값은 실수이고 영보다 크거나 같으며, 음성 샘플"S"가 정확하게 노이즈에 의해 선형이라고 예상할수 없거나 제1도에서 표시된 모형에서 부정확할때 R의 최소 고유값은 적어도 영 근처일것이다.
하나는 예를들면 행렬식 값을 구함으로써 그것이 고유값의 생산과 동일하고 (최소 고유값이 영에 가깝다면 작아지게 된다) 혹은 다른예에서 최소 고유값을 결정함으로써 선형 속성으로부터 편향의 정도를 검출하도록 수정 행렬(R)의 이 특성을 사용할 수 있다. 행렬식(36) 및 최소 고유값(38)의 대수는 그것이 결정되는 시간에서의 순간과 대비하여 제3도에 표시된다. 그것은 필터된 값"S"을 얻기 위하여 다음의 하이 패스 필터로 샘플된 값을 근거로하여 10KHz의 속도로 필터된 음성 신호"I"을 샘플링함으로써 결정된다.
Sn = In - 0.9In-1
제3도에서 얻어진 분석 간격 길이는 m=30 샘플이고 행렬의 등급은 P=10 이다. 행렬식(36) 및 최소 고유값(38)의 대수 모두는 전기 성문 파형부분(32)과 급격한 경사지인 성문 폐쇄의 순간에서 표시된 피크를 나타낸다.
그러나, 행렬식인지 행렬의 최소 고유값인지의 결정은 실제 계산량을 요구한다. 성문 폐쇄의 순간의 유사점과 적어도 확실한 바와같은 검출은 수정 행렬(R)의 대각선 성분의 합을 구함으로써 달성될수 있다는 것을 우리는 발견한다. 즉, 그것의 자취, 그것은 그것의 고유값의 합과 동일하고, 실험은 수정행렬의 고유값이 성문 폐쇄의 순간의 근처에 표시된 피크를 나타낸다는 것을 보여준다. 그러나, 자취의 평가는 최소 고유값의 행렬식을 결정하는것 보다 매우 간단한 조정이고, 그것은 신호값의 제곱의 부가된 합으로 감소되고, 부가 계수는 시간의 함수로써 대칭 사다리꼴을 가지며, 그 형태는 m+p의 기저폭과 m-p의 탑폭(Top width)을 갖는다.
수정 행렬의 기록 평가의 결과는 제3도의 세번째 곡선(34)에서 분석의 순간과 대비하여 좌표상에 표시된다. 또한, 이 곡선은 성문 폐쇄의 순간의 가까이에 표시된 피크값을 나타낸다는 것을 도시한다. 처리 결과의 부가적인 예는 제4도, 제5도 및 제6도에 주어지고, 그것은 다양한 음성 신호(40, 50, 60), 최소 고유값의 평가결과(46, 56, 66), 행렬식의 대수(48, 58, 68) 및 분석의 순간의 함수로써 수정 행렬의 기록(44, 54, 64)를 나타낸다. 또한, 제4도는 하이 패스 필터로 필터링한 신호(40)의 결과(42)를 포함한다. 그것은 제3도에서 성문 폐쇄의 순간이 최대 음성 신호 진폭과 일치하고, 제5도에서 그것이 최대 신호 미분계수와 일치한다는 것에 주목된다. 이것은 항상 이 경우에 의한 것은 아니며, 많은 음성 신호에서 신호든지 그것의 미분계수 또는 둘다에서 몇몇 피크가 있고, 성문 폐쇄의 순간은 종종 이 피크와 일치하지 않으며, 제4도 및 제6도는 이것의 실례를 제공한다. 제6도에서, 최대 피크는 고주파 성분을 거의 혹은 전혀 가리지 않으며 보다큰 검출 신호(64)로 상승하지 않는다. 제4도에서, 성문 폐쇄의 각각의 순간의 가까이에 하이 패스 필터된 신호에서 세개의 피크가 있고, 최대 진폭은 제1 제2 혹은 제3 피크에서 다양하게 발생한다. 이 경우에 단지 최대 검출은 성문 폐쇄의 순간의 검출에서 위상지터를 이끄는데 지나지 않고, 반면에 기록 신호(44)는 확실한 검출 신호를 제공한다는 것이 명백할 것이다.
그러므로, 수정 행렬의 기록은 성문 폐쇄의 순간을 표시하는 계산적으로 간단하고 확실한 방법이라는 것이 명백하다. 성문 폐쇄의 순간을 검출하는 실예의 장치가 제7도에 도시된다. 여기에서 입력에 도달된 음성 신호는 하이 패스 필터(70)에서 필터되고, 그후 신호변환기(72)에서 제곱하고 계속해서 그것은 평균화수단(74)에 따라 필터되고, 그것은 윈도우와 정형된 사다리꼴형 펄스 응답에 신호를 부가한다(수정 행렬에 대한 식의 분석은 이것이 기록 행렬식과 동일하다는 것을 나타낸다). 오히려, 임펄스 응답의 범위는 연속적인 성문 폐쇄의 순간사이 거리보다 더 적다. 적분기(74)다음, 신호는 성문 폐쇄를 지시하는 바와같은 최대 출력 신호를 선택하는 임계 검출 회로(76)에서 임계값이 되지만 입력 음성 신호에 관한 시간지연과 함께 평균화 수단(74)의 임펄스 응답에 기인한다. 제7도에 도시된 실시예에서, 임계값은 부가 평균화 회로(78)를 경유하여 임계화 회로로 공급되고, 그것은 평균화 수단(74)의 윈도우보다 더 넓은 간격에 걸쳐 평균 변환된 신호 진폭을 결정한다.
회로의 출력은 부가 평균화(78)의 결과 (82)와함께 평균화 수단(74)의 출력(80)이 도시된 제8도에 예시되고, 부가 평균화(84)와함께 임계화된다.
제7도에 도시된 장치의 유효성은 상기에서 상술된 수리해석을 참조하지 않고도 또한 이해될 수 있다. 성문 폐쇄의 순간 근처 제1도에 점(12)에서 여기 신호는 강한 고주파 성분을 포함한다. 하이 패스 필터(70)를 사용함으로써 이 성분은 강조된다. 그다음 그것은 정류기(72)에서 그것을 제곱화함으로써 정류되고 따라서 그것의 밀도 혹은 신호 에너지는 성문 폐쇄의 순간에서 최대 출력을 얻는 평균화 회로(74)에서 측정된다.
본 발명의 장치의 효과의 이해로부터 동일한 효과를 갖는 장치에서 수의 변화는 쉽게 조정된다. 함께 다시 시작하도록 하이 패스 필터(70)는 주로 성문 폐쇄의 순간 근처의 여기 신호의 급격한 변화의 탓으로된 보다 높은 주파수 성분을 선택적으로 통과시키는 어떤 필터(밴드 패스 필터같은)와 대치된다.
더구나, 신호의 제곱화에 사용된 수리적 해석에서 비선형 변환과 대치되는 정류기(72)는 예를들면 그와 불평등 전력으로 되거나 필터된 신호의 성분과 같다. 단지 조건은 비선형 동작이 AC 신호로부터 DC 바이어스를 발생한다는 것이고 그것은 AC 진폭이 성장되는 바와같이 성장한다. 이에 대해 필요 충분 조건은 비선형 동작이 단지 변화하기 쉽지 않고 규칙적이며 진폭과함께 성장한다는 것이다. 비선형 변환은 변환함수(제곱화 같은)의 실제 계산을 수행함에 의해 수행될수 있지만, 많은 경우에 입력값의 열에 대해 반전된 값을 포함하는 조사 테이블이 사용될 수 있다. 평균화 수단(74)의 기능은 성문 폐쇄의 순간 둘레로부터 분포를 모으고, 다른 순간 둘레에 모아진 분포로부터 이 모집을 구별하기 위한 것이다. 이 목적을 위해 평균화는 성문 폐쇄의 순간들 사이 완전한 거리보다 더 적게 확장되고, 평균은 부가되고, 최대 부가는 분석하에서 순간을 폐쇄한 순간이 주어지는 것을 충족시킨다.
윈도우의 최대 범위는 유리하게 추정되어야만 한다. 이것은 정상 목소리에 의해 발생하는 최소 거리를 택함에 의해 한번만 될수 있고, 그것은 약 3 msec 이다. 선택적으로 하나는 예를들어 성문 폐쇄의 순간 사이의 명백한 거리로부터 피트백을 사용함에 의해 독립적인 피치 추정값을 사용하여(그 피치는 성문 폐쇄의 평균 주파수이다) 적분기 윈도우 길이를 스피커에 적응시키기 위해 선택수단(79)을 제공한다. 다른 가능성은 선택수단(79)에서 남성/여성 스위치 버튼을 사용하고, 그것은 사용자로 하여금 전형적인 여성의 목소리(4 msec 이상 성문 폐쇄의 순간사이 거리) 또는 남성의 목소리(8 msec 이상)에 대응하는 필터 범위를 선택할수 있다.
수정 행렬의 성도를 사용하여 구동된 평균화 수단의 사다리꼴의 부가 윤곽은 결정적이지 않고, 단면도에서 변화는 수용할수 있고, 제공된 그것은 사실상 모두 같은 부호를 갖는 부가값을 가지며 윈도우의 중심위치에서부터 진폭에서 감소한다. 윈도우의 폭은 평균화 수단(74)의 지연시간을 규정하고 일반적으로 평균화 수단(74)의 출력에서 피크는 윈도우 폭의 반과 동일한 간격에 의해 성문 폐쇄의 순간 고려하여 지연될 것이다.
마침내, 적분기 신호로부터 성문 폐쇄의 순간의 여기는 또한 변화될수 있다. 예를들면, 하나는 고정된 임계값 또는 제7도에서와 같은 평균 임계값을 사용하지만 평균은 임계값을 다소 엄중하게 만들기 위하여 설정된 인자에 의해 증가시킨다. 더구나, 임계화대신에 즉, 하나는 가능한한 임계화와 결합하여 영대신에 이끌어낼수 있는 최대값을 선택한다. 비록 상기 상술된 바와같은 장치가 분리성분, 샘플된 신호처리화에 사용된다하더라도 본 발명은 이것에 한정되지 않고, 연속적으로(비샘플된 신호) 동일하게 적용될수 있고 또는 처리화는 몇몇 처리 동작을 실행하는 단일 컴퓨터에 의해 수행될 수 있다.

Claims (10)

  1. 시간 종속 세기의 음성 신호의 특정 피크를 결정함에 의해 성분 폐쇄의 순간의 시퀀스를 선택적으로 검출하기 위한 검출 수단을 포함하는 음성 신호 처리 장치에 있어서, 상기 장치는 설정된 주파수 아래의 스펙트럼비의 약한 강조를 통해 음성 신호로부터 필터된 신호를 형성하기 위한 필터링 수단, 필터링 수단이 필터된 신호를 공급하기 위해 배열되고, 연속적인 시간 윈도우에서 평균화를 통해 음성 신호의 상기 시간 종속 세기를 표시하는 평균의 시간 스트림을 발생시키기 위한 평균화 수단을 포함하는 것을 특징으로 하는 음성 신호 처리 장치.
  2. 제1항에 있어서, 필터링 수단이 필터된 신호를 정류화 수단을 경유하여 평균화 수단으로 공급하고, 필터된 신호를 각각의 값 변화를 통해 세기 신호로 정류하기 위해 배열되는 것을 특징으로 하는 음성 신호 처리 장치.
  3. 제2항에 있어서, 변환이 필터된 신호값의 제곱화를 포함하는 것을 특징으로 하는 음성 신호 처리 장치.
  4. 제2항에 있어서, 상기 평균화에서 세기 신호는 윈도우의 중심으로부터 설정된 거리까지 시간 거리의 함수로써 일정하게 남아있는 계수를 부가함과 동시에 윈도우의 각각에 부가되고, 윈도우의 엣지에서 설정된 거리로부터 영으로 점차로 감소되는 것을 특징으로 하는 음성신호 처리 장치.
  5. 제1항, 제2항, 제3항, 또는 제4항중 어느 한 항에 있어서, 음성 신호의 피치에 따라 윈도우의 순간적인 폭을 세팅하기 위한 폭세팅 수단을 포함하는 것을 특징으로 하는 음성 신호 처리 장치.
  6. 제5항에 있어서, 세팅 수단은 순간적인 폭을 제1 또는 제2범위로 세팅하기 위해 배열되고, 제1범위는 1 및 5밀리초 사이에 놓이고 제2범위는 5 및 10밀리초 사이에 놓이는 것을 특징으로 하는 음성 신호 처리 장치.
  7. 제1항 내지 제4항 중 어느 한 항에 있어서, 필터링 수단은 사실상 무자기로 1KHz 이상의 음성 신호의 부가 스펙트럼비를 필터된 신호로 카피하는 것을 특징으로 하는 음성 신호 처리 장치.
  8. 제1항 내지 제4항중 어느 한 항에 있어서, 검출 수단은 - 세기 신호의 평균 DC 성분을 결정하기 위해 윈도우의 폭보다 더 넓은 순간 범위에 걸쳐 평균화된 부가 평균화 수단, 상기 평균화 수단이 공급하고, - 시간 종속 세기가 특정 피크에 대응하는 초과량인 설정된 인자 이상으로 평균 DC 성분을 초과하는지의 여부를 결정하기 위한 임계 수단을 포함하는 것을 특징으로 하는 음성 신호 처리 장치.
  9. 제1항 내지 제4항중 어느 한 항에 있어서, 검출 수단은 실제 음성 신호의 분석 동안에 프레임의 위치를 제어하기 위해 프레임당 음성 분석 수단의 합성 입력을 공급하는 것을 특징으로 하는 음성 신호 처리 장치.
  10. 제1항 내지 제4항중 어느 한 항에 있어서, 검출 수단은 합성된 음성신호를 형성하기 위해 성도 시뮬레이션 수단의 여기 입력을 공급하는 것을 특징으로 하는 음성 신호 처리 장치.
KR1019920016889A 1991-09-20 1992-09-17 음성 신호 처리 장치 KR100227950B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP91202437 1991-09-20
EP91202437.9 1991-09-20

Publications (2)

Publication Number Publication Date
KR930006632A KR930006632A (ko) 1993-04-21
KR100227950B1 true KR100227950B1 (ko) 1999-11-01

Family

ID=8207888

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019920016889A KR100227950B1 (ko) 1991-09-20 1992-09-17 음성 신호 처리 장치

Country Status (5)

Country Link
US (1) US6470308B1 (ko)
EP (1) EP0533257B1 (ko)
JP (1) JPH05265479A (ko)
KR (1) KR100227950B1 (ko)
DE (1) DE69203186T2 (ko)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6490562B1 (en) 1997-04-09 2002-12-03 Matsushita Electric Industrial Co., Ltd. Method and system for analyzing voices
US20030088417A1 (en) * 2001-09-19 2003-05-08 Takahiro Kamai Speech analysis method and speech synthesis system
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
US20050096900A1 (en) * 2003-10-31 2005-05-05 Bossemeyer Robert W. Locating and confirming glottal events within human speech signals
EP1628288A1 (en) * 2004-08-19 2006-02-22 Vrije Universiteit Brussel Method and system for sound synthesis
US7565292B2 (en) * 2004-09-17 2009-07-21 Micriosoft Corporation Quantitative model for formant dynamics and contextually assimilated reduction in fluent speech
US7565284B2 (en) * 2004-11-05 2009-07-21 Microsoft Corporation Acoustic models with structured hidden dynamics with integration over many possible hidden trajectories
US7519531B2 (en) * 2005-03-30 2009-04-14 Microsoft Corporation Speaker adaptive learning of resonance targets in a hidden trajectory model of speech coarticulation
US8251924B2 (en) * 2006-07-07 2012-08-28 Ambient Corporation Neural translator
DK2242045T3 (da) 2009-04-16 2012-09-24 Univ Mons Talesyntese og kodningsfremgangsmåder
US9082416B2 (en) * 2010-09-16 2015-07-14 Qualcomm Incorporated Estimating a pitch lag
KR20120056661A (ko) * 2010-11-25 2012-06-04 한국전자통신연구원 음성 신호 전처리 장치 및 방법
US10453479B2 (en) * 2011-09-23 2019-10-22 Lessac Technologies, Inc. Methods for aligning expressive speech utterances with text and systems therefor
US11443761B2 (en) 2018-09-01 2022-09-13 Indian Institute Of Technology Bombay Real-time pitch tracking by detection of glottal excitation epochs in speech signal using Hilbert envelope

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3381091A (en) * 1965-06-01 1968-04-30 Bell Telephone Labor Inc Apparatus for determining the periodicity and aperiodicity of a complex wave
US3511932A (en) * 1967-08-29 1970-05-12 Bell Telephone Labor Inc Self-oscillating vocal tract excitation source
US3770892A (en) * 1972-05-26 1973-11-06 Ibm Connected word recognition system
US3940565A (en) * 1973-07-27 1976-02-24 Klaus Wilhelm Lindenberg Time domain speech recognition system
US4561102A (en) * 1982-09-20 1985-12-24 At&T Bell Laboratories Pitch detector for speech analysis
GB2182795B (en) * 1985-11-12 1988-10-05 Nat Res Dev Apparatus and methods for speech analysis
US4862503A (en) * 1988-01-19 1989-08-29 Syracuse University Voice parameter extractor using oral airflow
JP2504171B2 (ja) * 1989-03-16 1996-06-05 日本電気株式会社 声門波形に基づく話者識別装置
DE69228211T2 (de) * 1991-08-09 1999-07-08 Koninklijke Philips Electronics N.V., Eindhoven Verfahren und Apparat zur Handhabung von Höhe und Dauer eines physikalischen Audiosignals

Also Published As

Publication number Publication date
JPH05265479A (ja) 1993-10-15
KR930006632A (ko) 1993-04-21
EP0533257A2 (en) 1993-03-24
DE69203186T2 (de) 1996-02-01
US6470308B1 (en) 2002-10-22
EP0533257B1 (en) 1995-06-28
EP0533257A3 (en) 1993-06-09
DE69203186D1 (de) 1995-08-03

Similar Documents

Publication Publication Date Title
KR100227950B1 (ko) 음성 신호 처리 장치
Talkin et al. A robust algorithm for pitch tracking (RAPT)
Gonzalez et al. PEFAC-A pitch estimation algorithm robust to high levels of noise
US7124075B2 (en) Methods and apparatus for pitch determination
Brookes et al. A quantitative assessment of group delay methods for identifying glottal closures in voiced speech
US20060053003A1 (en) Acoustic interval detection method and device
Kawahara et al. An instantaneous-frequency-based pitch extraction method for high-quality speech transformation: revised TEMPO in the STRAIGHT-suite
US9454976B2 (en) Efficient discrimination of voiced and unvoiced sounds
Liu et al. Fundamental frequency estimation based on the joint time-frequency analysis of harmonic spectral structure
US3549806A (en) Fundamental pitch frequency signal extraction system for complex signals
US8086449B2 (en) Vocal fry detecting apparatus
US5809453A (en) Methods and apparatus for detecting harmonic structure in a waveform
Lagrange et al. Using linear prediction to enhance the tracking of partials [musical audio processing]
US11443761B2 (en) Real-time pitch tracking by detection of glottal excitation epochs in speech signal using Hilbert envelope
US7233894B2 (en) Low-frequency band noise detection
Kodukula Significance of excitation source information for speech analysis
US5208861A (en) Pitch extraction apparatus for an acoustic signal waveform
Miller Performance characteristics of an experimental harmonic identification pitch extraction (HIPEX) system
Schroeder Parameter estimation in speech: a lesson in unorthodoxy
CN111755028A (zh) 一种基于基音特征的近场遥控器语音端点检测方法及系统
Mnasri et al. A novel pitch detection algorithm based on instantaneous frequency
Dasgupta et al. Detection of Glottal Excitation Epochs in Speech Signal Using Hilbert Envelope.
Czyzewski et al. New algorithms for wow and flutter detection and compensation in audio
JPH1097288A (ja) 背景雑音除去装置及び音声認識装置
d’Alessandro et al. Phase-based methods for voice source analysis

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20040803

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee