KR19990077910A

KR19990077910A - 노이즈 상태 음성 검출 시스템

Info

Publication number: KR19990077910A
Application number: KR1019990008735A
Authority: KR
Inventors: 이지하오; 장-클로드중쿼
Original assignee: 모리시타 요이찌; 마쯔시다덴기산교 가부시키가이샤
Priority date: 1998-03-24
Filing date: 1999-03-16
Publication date: 1999-10-25
Also published as: CN1113306C; ATE267443T1; KR100330478B1; ES2221312T3; DE69917361D1; DE69917361T2; EP0945854A3; EP0945854A2; JPH11327582A; US6480823B1; CN1242553A; EP0945854B1; TW436759B

Abstract

입력 신호는 주파수 영역으로 전송된 후 상이한 주파수 범위에 대응하는 대역으로 분할된다. 적응성 임계값은 각각의 주파수 대역으로부터 데이터에 인가된다. 따라서 대화 신호의 존재 여부를 위해 단기간의 대역-제한 에너지가 실험된다. 적응성 임계값은 각각의 주파수 대역내에서의 에너지 가변성과 평균값을 나타내는 장기간 데이터를 축적하는 히스토그램 데이터 구조를 사용하여 각각의 신호 통로에 대해 독립적으로 업데이트된다. 엔드포인트 검출은 임계값 비교의 결과에 따라 대화 부재상태로부터 대화 존재상태로 전이되고 또한 이와 역방향으로도 절환되는 상태 장치에 의해 실행된다. 부분적 대화 검출 시스템은 입력 신호가 절단되는 경우를 취급한다.

Description

노이즈 상태 음성 검출 시스템{SPEECH DETECTION SYSTEM FOR NOISY CONDITIONS}

본 발명은 대화 처리 및 대화 인식 시스템에 관한 것으로서, 특히 입력 신호내에서 대화의 시작과 종료를 검출하는 검출 시스템에 관한 것이다.

대화 인식이나 기타 다른 목적을 위한 자동 대화 처리는 현재 컴퓨터가 실행할 수 있는 가장 도전적인 과제중 하나이다. 예를 들어, 대화 인식은 가변성이 민감한 매우 복잡한 패턴-매칭 기법을 사용한다. 소비자용으로는, 인식 시스템은 각각의 상이한 스피커 범위를 취급할 필요가 있으며, 광범위하게 변화되는 환경 조건을 작동시킬 필요가 있다. 외부 신호와 소음의 존재는 인식의 품질과 대화처리 성능을 상당히 저하시킬 수 있다.

대부분의 대화인식 자동 시스템은 사운드의 패턴을 모델링하고 이러한 패턴을 음운(phonome)과 문자와 글자를 인식하는데 사용하므로써 작동된다. 정밀한 인식을 위해, 실제 대화를 따라가거나 선행하는 외부 사운드(노이즈)를 포함하는 것이 매우 중요하다. 개선을 위한 방에 있는 경우라도 대화의 시작과 종료를 검출하는데는 공지의 기법이 사용된다.

본 발명은 유입 신호들을 상이한 주파수 범위를 나타내는 주파수 대역으로 분할한다. 각각의 대역내의 단기 에너지는 복수개의 임계값과 비교되며, 그 비교 결과는 적어도 하나의 대역의 대역-제한 신호 에너지가 그 관련의 적어도 하나의 임계값을 초과했을 때 "대화 부재" 상태로부터 "대화 존재" 상태로 절환하는 상태 장치(state machine)를 구동시키는데 사용된다. 또한, 상기 상태 장치는 적어도 하나의 대역에 대한 대역-제한 신호 에너지가 그 관련의 적어도 하나의 임계값 이하일 때 "대화 존재" 상태로부터 "대화 부재" 상태로 절환하는 상태 장치(state machine)로 절환한다. 이러한 시스템은 실질적인 대화를 시작하기 전에 가정된 "침묵 세그먼트(silent segment)"에 기초한 부분 대화 검출기구를 포함한다.

히스토그램 데이터 구조는 에너지의 평균값과 가변값에 관한 데이터를 주파수 대역내에 저장하며, 이러한 정보는 적응성 임계값을 조정하는데 사용된다. 주파수 대역은 노이즈 특성에 기초하여 할당된다. 히스토그램 표시는 대화 신호, 침묵 및 노이즈 사이에 강력한 식별을 제공한다. 대화 신호내에서는 전형적으로 침묵 부분(배경 노이즈만을 갖고 있다)이 우세하며, 히스토그램에 강하게 반영된다. 비교적 일정한 배경 노이즈는 히스토그램상에 현저한 스파이크를 나타낸다.

상기 시스템은 노이즈 상태에서 대화를 검출하는데 사용되며, 대화의 시작이 음절 생략을 통해 손실되는 상태를 취급하는 것처럼 대화의 시작과 마지막을 검출할 것이다.

본 발명의 기타 다른 목적과 특징 및 장점은 첨부된 도면을 참조한 하기의 상세한 설명에 의해 보다 명확하게 이해될 것이다.

도 1 은 양호한 2대역 실시예에서 대화 검출 시스템의 블럭도.

도 2 는 적응성 임계값을 조정하는데 사용되는 시스템의 상세한 블럭도.

도 3 은 부분적인 대화 검출 시스템의 상세한 블럭도.

도 4 는 본 발명의 대화 신호 상태 장치를 도시한 도면.

도 5 는 본 발명을 이해하는데 유용한, 예시적인 히스토그램을 도시한 그래프.

도 6 은 대화 검출을 위해 신호 에너지를 비교하는데 사용되는 복수개의 임계값을 도시한 파동형태의 다이아그램.

도 7 은 강한 노이즈 펄스의 오검출을 피하는데 사용되는 대화 시작 지연 검출기구를 도시한 다이아그램.

도 8 은 연속적인 대화중 정지를 허용하는데 사용되는 대화 종료 지연 결정기구를 도시한 파동형태의 다이아그램.

도 9a 는 부분적인 대화 검출기구의 특징을 도시한 파동형태의 다이아그램.

도 9b 는 부분적인 대화 검출기구의 다른 특징을 도시한 파동형태의 다이아그램.

도 10 은 대화 존재상태에 대응하는 최종 범위를 선택하기 위해 복합 대역 임계값 분석이 비교되는 방법을 도시한 파동형태의 블럭도.

도 11 은 강한 노이즈의 존재시 S 임계값의 사용을 도시하는 파동형태의 블럭도.

도 12 는 배경 노이즈 레벨에 적용될 때 적응성 임계값의 성능을 도시한 도면.

[도면의 주요부분에 대한 부호의 설명]

22 : 해밍 윈도우 24 : 컨버터

26, 28 : 통로 50 : 버퍼

본 발명은 입력 신호를 각각 상이한 주파수 대역을 나타내는 복수개의 신호 통로로 분할시킨다. 도 1 은 2개의 대역을 채용한 본 발명의 실시예로서, 상기 2개의 대역중 하나의 대역은 입력 신호의 전체 주파수 스펙트럼에 대응하며, 다른 대역은 전체 주파수 스펙트럼의 고주파 서브세트에 대응한다. 도시된 실시예는 이동차량내에서나 시끄러운 사무실처럼 신호-노이즈 비율(SNR)이 낮은 입력 신호를 검사하는데 특히 적합하다. 이러한 공통적인 환경에서, 노이즈 에너지의 대부분은 2,000 Hz로 분포된다.

2대역 시스템이 도시되었지만, 본 발명은 다른 복합 대역 장치에도 용이하게 사용될 수 있다. 일반적으로, 각각의 대역은 신호(대화)를 노이즈로부터 격리시키도록 고안된 상이한 주파수 범위를 커버한다. 현존의 장치는 디지탈이지만, 아날로그 장치도 사용될 수 있다.

도 1 에 있어서, 노이즈 뿐만 아니라 허용가능한 대화 신호를 포함하는 입력 신호는 도면부호 20 으로 도시되어 있다. 입력 신호는 입력신호 데이터를 프레임으로 재분할하기 위해 해밍 윈도우(22)를 통해 디지탈화되어 처리된다. 양호한 실시예는 설정된 샘플링 비율(이 경우, 8,000Hz)인 10ms를 사용하여, 프레임당 80 디지탈 샘플을 제공하게 된다. 도시된 시스템은 300Hz 내지 3400Hz 의 범위로 펼쳐진 주파수를 갖는 입력 신호에 따라 작동되도록 설계된다. 따라서, 상부 주파수 상한치(2×4,000 = 8,000)의 샘플링 비율이 선택된다. 만일 입력 신호의 정보 이송부에서 상이한 주파수 내용이 발견된다면, 샘플링 비율과 주파수 대역은 적절히 조정될 수 있다.

해밍 윈도우(22)의 출력은 설정된 크기의 프레임으로 배치되고 입력 신호(대화 + 노이즈)를 나타내는 디지팔 샘플의 시컨스이다. 이러한 프레임은 패스트 퓨리에 트랜스폼(FFT) 컨버터(24)로 이송되는데, 상기 컨버터는 입력 신호 데이터를 시간 영역으로부터 주파수 영역으로 이송한다. 이때, 신호는 다수의 통로 즉, 제 1 통로(26)와 제 2 통로(28)로 분기된다. 제 1 통로는 입력 신호의 모든 주파수를 포함하는 주파수 대역에 대응하며, 제 2 통로(28)는 입력 신호의 완전 스펙트럼의 고주파 서브세트에 대응한다. 주파수 영역 내용은 디지탈 데이터에 의해 표시되기 때문에, 주파수 대역 분기는 총합 모듈(30, 32)에 의해 달성된다.

상기 총합 모듈(30)은 10-108 범위에서 스펙트럼 성분을 총합하며, 총합 모듈(32)은 64-108 범위에서 총합한다. 이러한 방식으로, 총합 모듈(30)은 입력 신호에서 모든 주파수 대역을 선택하며, 모듈(32)은 단지 고주파 대역만을 선택한다. 이 경우, 모듈(32)은 모듈(30)에 의해 선택된 대역의 서브세트를 추출한다. 이것은 이동 차량이나 시끄러운 사무실 등에서 찾아볼 수 있는 형태의 시끄러운 입력 신호내에서의 대화 내용을 검출하기 위한 양호한 배치이다. 다른 노이즈 상태는 다른 주파수 대역-분기 배치를 지시한다. 예를 들어 복수개의 신호 통로는 각각의 비중첩성 주파수 대역과 중첩성 주파수 대역을 커버하도록 형성된다.

총합 모듈(30, 32)은 주파수 성분을 하나의 프레임에 한번에 총합한다. 따라서, 모듈(30, 32)의 최종 출력은 신호내에서의 주파수 대역-한계 단기 에너지를 나타낸다. 필요할 경우, 이러한 노출되지 않은 데이터는 예를 들어 필터(34, 36)처럼 부드러운 필터를 통과한다. 양호한 실시예에 따르면, 양쪽에서 부드러운 필터로서 3탭 애버리지가 사용된다.

하기에 상세히 서술되는 바와 같이, 대화 검출은 복수개의 주파수 대역-한계 단기 에너지와 복수개의 임계값과의 비교에 기초한다. 이러한 임계값은 예비대화 침묵부(시스템이 작동중이고 스피커가 스피킹을 시작하기 전에 제공된 것으로 가정)에 관련된 에너지의 가변성과 장기간의 평균값에 기초하여 업데이트된다. 실행은 적응성 임계값을 발생시키는데 히스토그램 데이터 구조를 사용한다. 도 1 에 있어서, 복합 블럭(38, 40)은 신호 통로(26, 28)에 대한 적응성 임계값 업데이트 모듈을 나타낸다. 이러한 모듈에 대한 상세한 내용은 도 2 를 참조로 서술될 것이다.

분리된 신호 통로가 적응성 임계값 업데이트 모듈(38, 40)을 통해 패스트 퓨리에 이송 모듈(24)의 하류에 유지된다 하더라도, 입력신호에서 대화가 있는지의 여부에 대한 최종 결정은 신호 통로를 고려한 것에 기인한다. 따라서, 대화 상태 검출 모듈(42)과 그 관련의 부분 대화 검출 모듈(44)은 통로(26, 28)로부터 신호 에너지 데이터를 고려한다. 대화 상태 모듈(42)은 그 상세한 내용이 도 4 에 도시된 상태 장치를 사용한다. 부분 대화 검출 모듈은 도 3 에 상세히 도시되어 있다.

도 2 를 참조로 적응성 임계값 업데이트 모듈(38)이 서술될 것이다. 양호한 실시예는 각각의 에너지 대역에 대해 3개의 상이한 임계값을 사용한다. 따라서, 도시된 실시예에는 전부 6개의 임계값이 있다. 각각의 임계값이 목표는 파동 형태의 다이아그램을 고려하고 이에 관련된 서술내용을 검토하므로써 명확하게 된다. 각각의 에너지 대역에 대해, 3개의 임계값은 Threshold, WThreshold, SThreshold 이다. 상기 Threshold 는 대화의 시적을 검출하는데 사용되는 기본적인 임계값이다. WThreshold 는 대화의 종료를 검출하기 위한 약한 임계값이다. SThreshold 는 대화 검출 결정의 가변성을 평가하는 강한 임계값이다. 이러한 임계값들은 다음 식으로 표시된다.

Threshold = 노이즈＿레벨 + 오프셋

WThreshold = 노이즈＿레벨 + 오프셋^※R1;(R1=0.2..1, 0,5 가 양호하다)

SThreshold = 노이즈＿레벨 + 오프셋^※R2;(R1=1..4, 2 가 양호하다)

<<상기 노이즈＿레벨 은 장기간 평균값 즉, 히스토그램에서 모든 지나간 입력 에너지의 최대값이다>>

오프셋 = 노이즈＿레벨^※R3 + 가변성^※R4;(R3=0.2..1, 0.5 가 양호하며, R4=2..4, 4 가 양호하다)

<<가변성은 단기 가변성 즉, 지나간 입력 프레임 M 의 가변성이다>>

도 6 은 예시적인 신호상에 중첩된 3개의 임계값의 관계를 도시하고 있다. SThreshold 는 Threshold 보다 크며, WThreshold 는 일반적으로 Threshold 보다 작다. 이러한 임계값들은 입력 신호의 예비 대화 침묵부내에 함유된 모든 지나간 입력 에너지의 최대값을 결정하기 위해 히스토그램 데이터 구조를 사용하는 노이즈 레벨에 기초하고 있다. 도 5 는 예시적인 노이즈 레벨을 나타내는 파동형태에 중첩된 예시적인 히스토그램을 도시하고 있다. 히스토그램은 회수를 "카운트"로 기록하며, 예비 대화 침묵부는 설정된 노이즈 레벨 에너지를 포함하고 있다. 따라서, 히스토그램은 카운트의 수(y 축상에서)를 에너지 레벨(x 축상에서)의 함수로 계산한다. 도 5 에 도시된 실시예에서는 대부분의 공통(최고 카운트) 노이즈 레벨 에너지가 Ea의 에너지값을 갖는다. 상기 값 Ea 는 설정된 노이즈 레벨 에너지에 대응한다.

히스토그램(도 5)에 기록된 노이즈 레벨 에너지 데이터는 입력 신호의 예비대화 침묵부로부터 추출된다. 이에 대해, 입력 신호를 공급하는 오디오 채널은 라이브이며, 실제 대화를 재개하기 전에 대화 검출 시스템에 데이터를 전송한다. 따라서, 이러한 예비 대화 침묵 영역에서, 시스템은 주위 노이즈 레벨 자체의 에너지 특성을 효과적으로 샘플링한다.

양호한 실시예는 컴퓨터 메모리 요구사항을 감소시키기 위해 고정된 크기의 히스토그램을 사용한다. 적절한 형태의 히스토그램 데이터 구조는 정밀한 판단(작은 히스토그램 단계를 수반)하고자 하는 희망과 광범위한 동적 범위(넓은 히스토그램 단계를 수반) 사이의 트레이드오프를 제공한다. 정밀한 판단(작은 히스토그램 단계)과 광범위한 동적 범위(넓은 히스토그램 단계) 사이의 충돌을 어드레스하기 위해, 현재의 시스템은 실제 작동 상태에 기초한 히스토그램 단계를 조정한다. 조정 히스토그램 단계 크기에 사용된 알고리즘은 M 이 단계 크기(각각의 히스토그램단계에서 에너지값 범위를 나타내는)인 하기의 의사코드(pseudocode)에 서술되어 있다.

적응성 히스토그램 단계를 위한 의사코드

초기 상태후:

버퍼내에서 지나간 프레임의 연산 수단

M = 상술한 수단의 10 회

만일(M<최소값＿히스토그램＿단계) 이라면

M = 최소값＿히스토그램＿단계

종료

상술의 의사코드에서, 히스토그램 단계(M)는 초기화 상태에서 버퍼되는 시작에서 가정된 침묵부의 수단에 기초한다. 상기 수단은 실제 배경 노이즈 상태를 도시하는 것으로 가정한다. 히스토그램 단계는 하부 경계로서 최소값＿히스토그램＿단계에 한정된다. 이러한 히스토그램 단계는 이러한 순간후에 고정된다.

히스토그램은 각각의 프레임에 대해 새로운 값을 삽입하므로써 업데이트된다. 느린 변화 배경 노이즈를 적용하기 위해, 망각 요소(현재의 실행 0.90 에서)가 모든 10 프레임에 도입된다.

히스토그램응 업데이트하는 의사코드

만일(값<히스토그램＿크기)이라면

{

//망각 요소에 의해 히스토그램을 업데이트

만일(프레임＿인＿히스토그램%10==0)이라면

{

(I=0;I<히스토그램＿크기;I++)에 대해

히스토그램[I]^※= 히스토그램＿망각＿요소;

}

//새로운 값의 삽입에 의해 히스토그램 업데이트

히스토그램[값 + M/2)/M]+ = 1

히스토그램[값 - M/2)/M]+ = 1

}

도 2 에는 적응성 임계값 업데이팅 기구의 기본적인 블럭 다이아그램이 도시되어 있다. 이러한 블럭 다이아그램은 모듈(38, 40)(도 1)에 의해 형성된 작동을 도시한다. 단기(전류 데이터) 에너지는 업데이트 버퍼(50)에 저장되며, 상술한 바와 같이 히스토그램 데이터 구조를 업데이트하기 위해 모듈(52)에도 사용된다.

그후, 업데이트 버퍼는 버퍼(50)에 저장된 데이터의 지나간 프레임에 대한 가변성을 연산하는 모듈(54)에 의해 검사된다.

반면에, 모듈(56)은 히스토그램내의 최대 에너지값[즉, 도 5 에서 값(Ea)]을 인식하고 이를 임계값 업데이트 모듈(58)에 공급한다. 임계값 업데이트 모듈은 주 임계값(Threshold)을 복구하기 위해 모듈(54)로부터의 정지 데이터(가변성)과 최대 에너지값을 사용한다. 상술한 바와 같이, Threshold 는 노이즈 레벨에 설정된 오프셋을 더한 것과 동일하다. 상기 오프셋은 히스토그램에서의 최대값에 의해 결정된 가변성과 모듈(54)에 의해 제공된 가변성에 의해 결정되는 노이즈 레벨에 기초한다. 나머지 임계값인 WThreshold 과 SThreshold 는 상술한 식에 따른 Threshold로부터 연산된다.

정상 작동에 있어서, 임계값은 예비대화 영역내에서 노이즈 레벨에 대한 추적을 조정한다. 도 12 에는 이러한 개념이 도시되어 있다. 도 12 에 있어서, 예비대화 영역은 도면부호 100 으로 도시되어 있으며, 대화의 시작은 도면부호 200 으로 도시되어 있다. 이러한 파동 형태에 따라, Threshold 가 중첩된다. 상기 임계값 레벨은 예비대화 영역내의 노이즈 레벨에 오프셋을 더한 것을 추적한다. 따라서, 주어진 대화 세그먼트에 적용할 수 있는 Threshold(SThreshold 뿐만 아니라 WThreshold)는 대화 시작전에 즉시 실행되는 임계값이다.

도 1 을 참조하여, 대화 상태 검출과 부분적인 대화 검출 모듈(42, 44)이 서술될 것이다. 데이터의 하나의 프레임에 기초하여 대화 존재/대화 부재를 결정하는 대신에, 상기 결정은 전류 프레임과 상기 프레임을 따르는 작은 프레임을 더한 것에 기초하여 이루어진다. 대화 검출의 시작에 있어서, 전류 프레임(룩 어헤드)을 따르는 부가적인 프레임을 고려하는 것은 전기 펄스와 같은 짧고 강한 노이즈 플러스의 존재하에서의 잘못된 검출을 피할 수 있다. 대화 검출의 종료에 있어서, 프레임 룩 어헤드는 연속적인 대화 신호에서 중단이나 짧은 침묵이 대화 종료의 옴검출을 제공하는 것을 방지한다. 이러한 지연된 결정이나 룩 어헤드 전략은 데이터를 업데이트 버퍼(50)(도 2)에 버퍼링하고 하기의 의사코드에 의해 상술한 처리를 가하므로써 실행된다.

시작＿대화 테스트:

시작 지연 결정 = 부정확

프레임을 따르는 루프 M(M = 3; 30ms)

만일 (에너지＿전부) 또는 (에너지＿HPF) >Threshold 라면

시작 지연 결정 = 정확 이다.

대화 테스트 종료:

종료 지연 결정 = 부정확

프레임을 따르는 루프 N(N = 30; 300 ms)

만일 (에너지＿전부) 와 (에너지＿HPF) < Threshold 라면

종료 지연 결정 = 정확 이다.

루프의 종료

도 7 은 시작＿대화 테스트에서 30 ms 가 임계값 이상의 노이즈 스파이크(110)의 오검출을 피하는 방법을 도시하고 있다. 도 8 은 종료＿대화 테스트를 지연시키는 300 ms 가 대화 신호에서의 짧은 펄스(120)가 대화 상태의 종료를 트리거하는 것을 방지하는 방법을 도시하고 있다.

상술한 의사코드는 2개의 플래그 즉, 시작 지연 결정 플래그와 종료 지연 결정 플래그를 세팅하고 있다. 이러한 플래그들은 도 4 에 도시된 대화 신호 상태 장치에 의해 사용된다. 대화의 시작은 제 3 프레임(M = 3)에 대응하는 30ms 를 사용하는 것을 인식해야 한다. 이것은 짧은 노이즈 스파이크로 인한 오검출을 스크린하는데 적합하다. 종료는 연결된 대화 내부에서 발생되는 정상적인 중단을 적절히 다루는 것으로 판명된 300ms 의 긴 지연을 사용한다. 상기 300ms 지연은 30 프레임(N =30)에 대응한다. 대화 신호의 쵸핑이나 클리핑에 기인한 에러를 피하기 위해, 데이터는 시작이나 종료를 위해 검출된 대화부분에 기초한 부가적인 프레임으로 패딩된다.

대화 검출 알고리즘의 시작은 적어도 주어진 최소 길이의 예비 대화 침묵부분이 존재하는 것으로 가정한다. 실제로, 이러한 가정이 유효할 때, 즉 입력 신호가 신호 탈락이나 회로 절환 결함으로 인하여 클리핑되는 경우가 있을 때는 가정한 "침묵 세그먼트"가 축소되거나 제거되는 때가 있다. 이러한 일이 발생되었을 때는 임계값이 음성 신호가 없는 것으로 가정한 노이즈 레벨 에너지에 기초하기 때문에 임계값은 부정확하게 된다. 또한, 입력 신호가 침묵 세그먼트가 없는 포인트에 클리핑되었을 때, 대화 검출 시스템은 입력 신호를 대화를 내장한 것으로 인식할 수 없어 입력 상태에서 대화의 손실을 초래하고 이는 일련의 대화 처리를 소용없게 한다.

부분적인 대화 상태를 피하기 위해, 도 3 에 도시된 바와 같이 거절 전략이 사용된다. 도 3 은 부분 대화 검출 모듈(44)(도 1)에 의해 사용된 메카니즘을 도시하고 있다. 상기 부분적인 대화 검출 메카니즘은 적응성 임계값 레벨로 급작스러운 점프가 있는 지를 결정하기 위해 임계값(Threshold)을 모니터하므로써 작동된다. 점프 검출 모듈(60)은 일련의 프레임 위에서 임계값에서의 변화를 표시하는 값을 먼저 축적하므로써 이와 같은 분석을 실행한다. 이러한 단계는 축적된 임계값 변화량(Δ)을 발생시키는 모듈(62)에 의해 실행된다. 상기 축적된 임계값 변화량(Δ)은 모듈(64)에서의 설정된 절대값(Athrd)와 비교되며, 상기 Δ 가 Athrd 보다 크거나 작은지의 여부에 따라 브랜치(66, 또는 68)를 통해 처리가 실행된다. 만일 그렇지 않다면, 모듈(70)이 실행되고 이에 따라 모듈(72)도 실행된다. 모듈(70, 72)은 분리된 평균 임계값을 유지한다. 모듈(70)은 검출된 점프 및 모듈(72)이 점프후의 임계값에 대응하는 Threshold(2)을 유지하며고 업데이트하기 전의 임계값에 대응하는 임계값(T1)을 유지하고 업데이트한다. 이와 같은 2개의 임계값의 비율(T1/T2)은 모듈(74)에서 제 3 임계값(Rthrd)과 비교된다. 만일 그 비율이 제 3 임계값보다 크다면, 밸리드스피치 플래그(ValidSpeech flag)가 세팅된다. 상기 밸리드스피치 플래그는 도 4 의 대화 신호상태 장치에 사용된다.

도 9a 및 도 9b 는 작동시의 부분대화 검출기구를 도시하고 있다. 도 9a 는 "예" 브랜치(68)(도 3)를 취한 상태에 대응하며, 도 9b 는 "아니오" 브랜치(66)를 취한 상태에 대응한다. 도 9a 에서는 임계값에 150 내지 160 의 점프가 있음을 인식해야 한다. 도시된 실시예에서, 이러한 점프는 절대값(Athrd)보다 크다. 도 9b 에서, 152 내지 162 의 임계값내의 점프는 Athrd 보다 크지 않은 점프를 나타낸다. 도 9a 및 도 9b 에서, 점프 위치는 점선(170)으로 도시되었다. 점프 위치전의 평균 임계값은 T1 으로 도시되었고, 점프 위치후의 평균 임계값은 T2 로 표시되었다. 상기 비율(T1/T2)은 비율 임계값(Rthrd)[도 3 에서 블럭(74)]과 비교된다. 밸리드스피치는 하기에 서술되는 바와 같이 예비대화 영역에서의 스트레이 노이즈로부터 판별된다. 만일 임계값에서의 점프가 Athrd 보다 작거나 T1/T2 가 Rthrd 보다 작다면, 임계 점프에 대해 책임이 있는 신호가 노이즈로 인식된다. 한편, 만일 T1/T2 가 Rthrd 보다 크다면, 임계 점프에 대해 책임이 있는 신호는 부분 대화로 처리되어, 임계값을 업데이트하는데 사용되지 않는다.

도 4 에서는 초기화 상태(310)에서 도면부호 300 으로 도시된 바와 같이 대화 신호 상태 장치가 시작된다. 그후, 침묵 상태에서 실행된 단계가 대화 상태(330)로의 전이를 표시할 때까지 유지되는 침묵 상태(320)로 진행된다. 일단 대화 상태(330)에서, 상태 장치는 이러한 상태가 대화 상태(330) 블럭내에 도시된 단계에 의해 도시된 상태로 만날 때 침묵 상태(320)로 복귀전이될 것이다.

초기화 상태(310)에서, 데이터의 프레임은 버퍼(50)(도 2)에 저장되며, 히스토그램 단계 크기는 업데이트된다. 양호한 실시예는 공칭 단계 크기 M = 20 으로 작동이 시작된다. 이러한 단계 크기는 제공된 의사코드에 의해 서술된 바와 같이 초기화 상태중 적용된다. 초기화 상태에서, 히스토그램 데이터 구조는 초기 작동으로부터 이미 저장된 데이터를 제거하도록 초기화된다. 이러한 단계가 실행된 후, 상태 장치는 침묵 상태(320)로 전이된다.

침묵 상태에서, 각각의 주파수 대역-한계 단기 에너지값은 기본 임계값인 Threshold 와 비교된다. 상술한 바와 같이, 각각의 신호 통로는 그 자체의 임계값 세트를 갖고 있다. 도 4 에서, 신호 통로(26)(도 1)에 적용가능한 임계값은 Threshold＿ALL 로 표시되며, 신호 통로(28)에 적용가능한 임계값은 Threshold＿HPF 로 표시된다. 대화 상태(330)에 적용되는 다른 임계값에도 이와 유사한 표기법이 사용된다.

만일 단기 에너지값중 하나가 그 임계값을 초과한다면, 시작 지연 결정 플래그가 테스트된다. 만일 상기 플래그가 TRUE 로 세팅되었다면, 상술한 바와 같이 대화 메시지의 시작이 복귀되며, 상태 장치는 대화 상태(330)로 전이된다. 그렇지 않을 경우, 상태 장치는 침묵 상태로 존재하게 되며, 히스토그램 데이터 구조는 업데이트된다.

상술한 실시예는 과거 데이터의 효과가 시간에 따라 기화되도록 0.99 의 망각 요소를 사용하여 히스토그램을 업데이트한다. 이것은 현존 프레임 에너지와 연관된 카운트 데이터를 부가하기 전에 현재값을 히스토그램에 0.99 를 곱하므로써 이루어진다. 이러한 방식으로, 역사적인 데이터가 시간에 따라 점진적으로 감소된다.

대화 상태(330)내의 처리는 다른 세트의 임계값이 사용된다고 하더라도 유사한 라인을 따라 진행된다. 대화 상태는 신호 통로(26, 28)의 각각의 에너지를 WThreshold 와 비교한다. 만일 상기 두개의 신호 통로가 WThreshold 보다 높다면, 이와 유사한 비교가 SThreshold 에 대해서도 이루어진다. 만일 두개의 신호 통로의 에너지가 SThreshold 보다 높다면, 밸리드스피치 플래그는 TRUE 로 세팅된다. 상기 플래그는 일련의 비교 단계에서 사용된다.

만일 종료 지연 결정 플래그가 상술한 바와 같이 TRUE 로 이미 세팅되었다면, 또한 밸리드스피치 플래그가 TRUE 로 세팅되었다면, 대화 종료 메시지가 복귀되어 상태 장치는 침묵 상태(320)로 복귀전이된다. 한편, 만일 밸리드스피치 플래그가 TRUE 로 세팅되지 않았다면, 이전의 대화 검출을 취소하고, 상태 장치는 침묵 상태(320)로 복귀전이된다.

도 10 및 도 11 은 각종 레벨이 상태 장치 작동에 영향을 미치는 방법을 나타내고 있다. 도 10 은 상기 신호 통로들의 동시 작동과,모든 주파수 대역, 대역＿ALL, 고주파 대역, 대역＿HPF 를 비교하고 있다. 신호 파동 형태는 상이한 주파수 내용을 포함하고 있기 때문에 서로 상이한 것임을 인식해야 한다. 도시된 실시예에서, 검출 대화로서 인식된 최종 범위는 b1 에서 임계값을 횡단하는 모든 주파수 대역에 의해 발생되는 대화의 시작에 대응하며, 대화의 종료는 e2 에서의 고주파 대역의 횡단에 대응한다. 물론 상이한 입력 파동형태는 도 4 에 도시된 알고리즘에 따라 상이한 결과를 낳게 된다.

도 11 은 강한 노이즈 레벨이 존재할 때 밸리브스피치의 존재를 확인하기 위해 강한 임계값(SThreshold)이 사용되는 방법을 도시하고 있다. 도시된 바와 같이, SThreshold 이하로 떨어지는 강한 노이즈 레벨은 FALSE 로 세팅되는 밸리드스피치 플래그에 대응하는 영역(R)에 책임이 있다.

상술한 바와 같이, 본 발명은 입력 신호내에서 대화의 시작과 종료를 검출하며, 시끄러운 환경에서 사용자가 만나게 되는 수많은 어려움을 극복한 시스템을 제공한다. 본 발명은 양호한 실시예를 참조로 서술되었기에 이에 한정되지 않으며, 본 기술분야의 숙련자라면 첨부된 청구범위로부터의 일탈없이 본 발명에 다양한 변형과 수정이 가해질 수 있음을 인식해야 한다.

Claims

대화 신호의 존재 여부를 결정하기 위해 입력 신호를 검사하는 대화 검출 시스템에 있어서,

상기 입력 신호를 복수개의 주파수 대역으로 분기하기 위한 주파수 대역 분기기와,

각각의 주파수 대역이 그 대역과 연관된 적어도 하나의 임계값과 비교되도록 상기 복수개의 주파수 대역의 대역-제한 신호 에너지를 복수개의 임계값과 비교하기 위한 에너지 비교기 시스템과,

상기 에너지 비교기 시스템에 연결된 대화 신호 상태 장치를 포함하며,

상기 각각의 대역은 상이한 주파수 범위에 대응하는 대역-제한 신호 에너지를 나타내며, 상기 대화 신호 상태 장치는 상기 적어도 하나의 대역의 대역-제한 신호 에너지가 그 연관의 임계값중 적어도 하나의 위에 있을 때는 대화 부재상태로부터 대화 존재상태로 절환하고, 상기 적어도 하나의 대역의 대역-제한 신호 에너지가 그 연관의 임계값중 적어도 하나의 아래에 있을 때는 대화 존재상태로부터 대화 부재상태로 절환하는 것을 특징으로 하는 노이즈 상태용 음성 검출 시스템.
제 1 항에 있어서, 적어도 하나의 주파수 대역내에서 에너지를 표시하는 시간적 데이터를 축적하기 위해 히스토그램 데이터 구조를 사용하는 적응성 임계값 업데이트 시스템을 부가로 포함하는 것을 특징으로 하는 노이즈 상태용 음성 검출 시스템.
제 1 항에 있어서, 상기 주파수 대역과 관련된 분리된 적응성 임계값 업데이트 시스템을 부가로 포함하는 것을 특징으로 하는 노이즈 상태용 음성 검출 시스템.
제 1 항에 있어서, 상기 주파수 대역내에서 에너지의 가변성과 수단에 기초하여 상기 복수개의 임계값을 수정하는 적응성 임계값 업데이트 시스템을 부가로 포함하는 것을 특징으로 하는 노이즈 상태용 음성 검출 시스템.
제 1 항에 있어서, 상기 복수개의 임계값중 적어도 하나의 임계값의 변화율로 설정된 점프에 응답하는 부분 대화 검출 시스템을 부가로 포함하며, 상기 부분 대화 검출 시스템은 상기 하나의 임계값의 평균값의 점프 전과 점프 후의 비율이 설정된 값을 초과할 때 상기 상태 장치가 대화 존재상태로 절환되는 것을 방지하는 것을 특징으로 하는 노이즈 상태용 음성 검출 시스템.
제 1 항에 있어서, 노이즈 플로어 이상으로 설정된 오프셋으로서의 제 1 임계값과, 상기 제 1 임계값보다 작으며 제 1 임계값의 설정된 퍼센트로서의 제 2 임계값과, 상기 제 1 임계값보다 크며 제 1 임계값의 설정된 배수의 제 3 임계값을 포함하는 복합 임계값 시스템을 부가로 포함하며,

상기 제 1 임계값은 대화 부재상태로부터 대화 존재상태로의 절환을 제어하며, 상기 제 2 및 제 3 임계값은 대화 존재상태로부터 대화 부재상태로의 절환을 제어하는 것을 특징으로 하는 노이즈 상태용 음성 검출 시스템.
제 6 항에 있어서, 상기 상태 장치는 적어도 하나의 대역에 대한 대역-제한 신호 에너지가 상기 제 2 임계값보다 낮을 경우 또한 상기 적어도 하나의 대역에 대한 대역-제한 신호 에너지가 상기 제 3 임계값보다 낮을 경우 대화 존재상태로부터 대화 부재상태로 절환하는 것을 특징으로 하는 노이즈 상태용 음성 검출 시스템.
제 1 항에 있어서,

상기 복수개의 주파수 대역중 적어도 하나의 대역-제한 신호 에너지가 상기 설정시간 증분을 통해 적어도 하나의 임계값을 초과하지 않을 때, 입력 신호의 설정시간 증분을 표시하는 데이터를 저장하고 상태 장치가 대화 부재상태로부터 대화 존재상태로 절환되는 것을 방지하는 지연 결정 버퍼를 부가로 포함하는 것을 특징으로 하는 노이즈 상태용 음성 검출 시스템.
입력 신호에서 대화 신호의 존재 여부를 결정하는 방법에 있어서,

상기 입력 신호를 상이한 주파수 범위에 대응하는 대역-제한 신호 에너지를 표시하는 복수개의 주파수 대역으로 분할하는 단계와,

각각의 주파수 대역이 상기 대역과 관련된 적어도 하나의 임계값과 비교될 수 있도록 상기 복수개의 주파수 대역의 대역-제한 신호 에너지를 복수개의 임계값과 비교하는 단계와,

상기 적어도 하나의 대역의 대역-제한 신호 에너지가 적어도 하나의 그 관련의 임계값보다 높을 때 대화 존재상태가 존재하는 것을 결정하는 단계와, 상기 적어도 하나의 대역의 대역-제한 신호 에너지가 적어도 하나의 그 관련의 임계값보다 낮을 때 대화 존재상태가 존재하는 것을 결정하는 단계를 포함하는 것을 특징으로 하는 입력 신호에서 대화 신호의 존재 여부를 결정하는 방법.
제 9 항에 있어서, 상기 적어도 하나의 주파수 대역내에서의 에너지를 표시하는 시간적 데이터를 축적하는 히스토그램을 사용하여 상기 복수개의 임계값중 적어도 하나의 임계값을 형성하는 단계를 부가로 포함하는 것을 특징으로 하는 입력 신호에서 대화 신호의 존재 여부를 결정하는 방법.
제 9 항에 있어서, 상기 복수개의 임계값중 적어도 하나를 각각의 주파수 대역을 위해 분리가능하게 업데이트하는 단계를 부가로 포함하는 것을 특징으로 하는 입력 신호에서 대화 신호의 존재 여부를 결정하는 방법.
제 9 항에 있어서, 상기 각각의 주파수 대역내에서 에너지의 가변성과 평균값에 기초하여 상기 복수개의 임계값을 교정하는 단계를 부가로 포함하는 것을 특징으로 하는 입력 신호에서 대화 신호의 존재 여부를 결정하는 방법.
제 9 항에 있어서, 상기 복수개의 임계값중 적어도 하나의 변화율로 설정된 점프를 검출하고, 상기 하나의 임계값의 평균값의 점프 후와 점프 전의 비율이 설정된 값을 초과할 때 상기 대화 존재상태가 존재하지 않는 것을 결정하는 단계를 부가로 포함하는 것을 특징으로 하는 입력 신호에서 대화 신호의 존재 여부를 결정하는 방법.
제 9 항에 있어서, 노이즈 플로어 이상으로 설정된 오프셋으로서의 제 1 임계값과, 상기 제 1 임계값보다 작으며 제 1 임계값의 설정된 퍼센트로서의 제 2 임계값과, 상기 제 1 임계값보다 크며 제 1 임계값의 설정된 배수의 제 3 임계값을 한정하는 단계와, 상기 제 1 임계값에 기초하여 존재하는 대화 존재상태를 결정하는 단계와, 상기 제 2 및 제 3 임계값에 기초하여 존재하는 대화 부재상태를 결정하는 단계를 부가로 포함하는 것을 특징으로 하는 입력 신호에서 대화 신호의 존재 여부를 결정하는 방법.
제 14 항에 있어서, 상기 대화 부재상태는 상기 대역중 적어도 하나의 대역-제한 신호 에너지가 상기 제 2 임계값보다 크고 상기 대역중 적어도 하나의 대역-제한 신호 에너지가 상기 제 3 임계값보다 클 때 존재하도록 결정되는 것을 특징으로 하는 입력 신호에서 대화 신호의 존재 여부를 결정하는 방법.
제 9 항에 있어서,

상기 복수개의 주파수 대역중 적어도 하나의 대역-제한 신호 에너지가 설정된 시간 증가분을 통해 적어도 하나의 임계값을 초과하지 않을 때 상기 대화 존재상태가 존재하지 않는 것을 결정하는 단계를 부가로 포함하는 것을 특징으로 하는 입력 신호에서 대화 신호의 존재 여부를 결정하는 방법.