KR100349656B1

KR100349656B1 - 다수의 하위 음성검출 시스템을 이용한 음성검출 장치 및그 방법

Info

Publication number: KR100349656B1
Application number: KR1020000079046A
Authority: KR
Inventors: 김승희; 이영직
Original assignee: 한국전자통신연구원
Priority date: 2000-12-20
Filing date: 2000-12-20
Publication date: 2002-08-24
Also published as: KR20020049764A

Abstract

본 발명은 다수의 하위 음성검출 시스템을 이용한 음성검출 장치 및 그 방법에 관한 것으로, 음성을 입력으로 사용하는 시스템에서 실시간 처리의 제약없이 음성부분을 검출하기 위하여, 여러 개의 독립적인 하위음성검출시스템에서 구한 시작점과 끝점의 가중평균값을 구함으로써, 최종적인 음성의 시작점과 끝점을 검출하기 위한 다수의 하위 음성검출 시스템을 이용한 음성검출 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하기 위하여, 외부로부터 전달되는 음성 입력신호를 입력받기 위한 음성신호 입력수단; 상기 음성신호 입력수단을 통해 전달된 음성 입력신호에 대해 독립적으로 음성의 시작점과 끝점을 검출하기 위한 다수의 검출수단; 상기 다수의 검출수단을 통해 각각 구해진 검출결과들을 조합하여 가중 평균값을 구하기 위한 검출결과 조합수단; 및 상기 검출결과 조합수단을 통해 전달된 음성의 시작점 및 끝점에 대한 검출 결과를 출력하기 위한 검출결과 출력수단을 포함하며, 다수의 하위 음성검출 시스템을 이용한 음성검출 장치 등에 이용됨.

Description

다수의 하위 음성검출 시스템을 이용한 음성검출 장치 및 그 방법{Apparatus and method for speech detection using multiple sub-detection system}

본 발명은 다수의 하위 음성검출 시스템을 이용한 음성검출 기술에 관한 것으로, 특히 다수의 하위 음성검출 시스템들이 독립적으로 구한 음성의 시작점과 끝점에 대해 각 시스템별로 가중치를 달리하여 가중평균값을 구함으로써, 최종적인 음성의 시작점과 끝점을 검출하기 위한 다수의 하위 음성검출 시스템을 이용한 음성검출 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.

본 발명은 음성인식(Speech Recognition), 음성합성(Speech Synthesis), 음성코딩(Speech Coding) 등 음성을 사용하는 모든 분야에 속한다. 이들 분야에서는 음성이 포함된 신호에서 음성부분만을 정확히 검출해내는 것이 대단히 중요한 일이다.

일반적으로 실제 환경에서 음성인식기의 오동작을 유발시키는 주된 요인 중 하나는 음성검출기가 잘못된 음성검출결과를 출력하는 것이다. 즉, 비음성이 음성의 영역에 포함되거나 음성영역이 잘려나갈 경우 필연적으로 인식기를 통해 오인식 결과를 출력하게 되는 것이다.

그 동안 음성검출을 위한 많은 방법들이 제안되었다. 이들 방법들은 제각기 장점을 가지고는 있지만 어느 하나의 방법만으로 뛰어난 성능을 발휘하지는 못했다. 여러 개의 하위 시스템들을 사용하는 방법들도 제시되었으나, 이는 매 순간순간 각 시스템들의 결과를 이용하여 판단을 내리는 것일 뿐, 각 시스템의 최종 검출결과를 이용하는 것은 아니었다.

따라서, 종래의 방법들에서는 여러 시스템을 이용하더라도 각 시스템들의 성능의 합을 이끌어내지는 못하였을 뿐만 아니라 실시간 처리라는 제약에 묶여서 다양한 시스템을 이용하지 못하게 되는 문제점이 있었다.

본 발명은, 상기한 바와 같은 문제점을 해결하기 위하여 제안된 것으로, 음성을 입력으로 사용하는 시스템에서 실시간 처리의 제약없이 음성부분을 검출하기 위하여, 여러 개의 독립적인 하위음성검출시스템에서 구한 시작점과 끝점의 가중평균값을 구함으로써, 최종적인 음성의 시작점과 끝점을 검출하기 위한 다수의 하위 음성검출 시스템을 이용한 음성검출 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.

도 1 은 본 발명이 적용되는 음성검출부를 포함한 일반적인 음성인식시스템의 구성예시도.

도 2 는 본 발명에 따른 다수의 하위 음성검출 시스템을 이용한 음성검출 장치의 일실시예 구성도.

도 3 은 본 발명에 따른 다수의 하위 음성검출 시스템을 이용한 음성검출 방법에 대한 일실시예 흐름도.

도 4 는 본 발명에 따른 다수의 하위 음성검출 시스템을 이용한 음성검출 방법에서 하위 각 음성검출 시스템별 가중치를 결정하기 위한 훈련과정에 대한 일실시예 흐름도.

* 도면의 주요 부분에 대한 부호의 설명

11 : 음성 입력부 12 : 음성검출부

13 : 인식부 21 : 신호 입력부

22 : 음성검출기 23 : 검출결과 조합부

24 : 검출결과 출력부

상기 목적을 달성하기 위한 본 발명은, 다수의 하위 음성검출 시스템을 이용한 음성검출 장치에 있어서, 외부로부터 전달되는 음성 입력신호를 입력받기 위한 음성신호 입력수단; 상기 음성신호 입력수단을 통해 전달된 음성 입력신호에 대해 독립적으로 음성의 시작점과 끝점을 검출하기 위한 다수의 검출수단; 상기 다수의 검출수단을 통해 각각 구해진 검출결과들을 조합하여 가중 평균값을 구하기 위한 검출결과 조합수단; 및 상기 검출결과 조합수단을 통해 전달된 음성의 시작점 및 끝점에 대한 검출 결과를 출력하기 위한 검출결과 출력수단을 포함하여 이루어진 것을 특징으로 한다.

또한, 본 발명은, 다수의 하위 음성검출 시스템을 이용한 음성검출 장치에 적용되는 음성검출 방법에 있어서, 외부로부터 전달되는 음성 입력신호를 입력받는 제 1 단계; 상기 입력된 음성 입력신호에 대해 독립적으로 음성의 시작점과 끝점을 검출하는 제 2 단계; 상기 각각 구해진 검출결과들을 조합하여 가중 평균값을 구하는 제 3 단계; 및 상기 구해진 가중평균값을 전체 시스템이 구한 음성의 시작점 및 끝점으로 하여 출력하는 제 4 단계를 포함하여 이루어진 것을 특징으로 한다.

또한, 본 발명은, 프로세서를 구비한 다수의 하위 음성검출 시스템을 이용한 음성검출 장치에, 외부로부터 전달되는 음성 입력신호를 입력받는 제 1 기능; 상기 입력된 음성 입력신호에 대해 독립적으로 음성의 시작점과 끝점을 검출하는 제 2 기능; 상기 각각 구해진 검출결과들을 조합하여 가중 평균값을 구하는 제 3 기능; 및 상기 구해진 가중평균값을 전체 시스템이 구한 음성의 시작점 및 끝점으로 하여 출력하는 제 4 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.

본 발명은 제각기 독립적으로 동작하는 음성검출시스템들의 결과를 조합하되, 각각의 시스템에 가중치를 두어 최종결과를 얻는다. 가중치는 훈련과정에서 최적의 음성검출성능을 내도록 결정된다.

본 발명은 독립적으로 동작하는 여러 음성 검출시스템들의 결과를 모아 최적의 검출성능을 나타내도록 조합함으로써, 기발표된 음성검출시스템의 검출성능보다 우수한 검출성능을 얻을 수 있는 특징이 있다. 즉, 본 발명에서는 실시간 처리를 목표로 하지 않고 우선 여러 하위 음성검출 시스템들이 독립적으로 음성의 시작점을 검출한다. 다음으로 검출된 여러 개의 시작점들에 대해 가중평균을 구한다. 이때, 각 검출시스템별 가중치는 훈련과정에서 결정한다. 끝점에 대해서도 동일한 과정을 거친다. 가중평균하여 구한 시작점과 끝점이 전체 음성검출시스템에서 구한 시작점과 끝점이 된다.

상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.

도 1 은 본 발명이 적용되는 음성검출부를 포함한 일반적인 음성인식시스템의 구성예시도이다.

도 1에 도시된 바와 같이, 음성입력부(11)는 마이크로부터의 입력신호 또는 파일형태로 저장된 신호를 읽어 들여 음성검출부(12)와 인식부(13)로 전달한다.

그러면, 음성검출부(12)는 전달된 입력신호에서 음성부분을 검출한 후, 검출된 음성부분의 시작시간과 끝시간정보를 인식부(13)로 전달한다.

이어서, 인식부(13)는 음성검출부(12)로부터 전달된 검출결과를 이용하여 음성입력부(11)에서 전달된 입력신호 중 음성부분에 대해서만 인식을 수행하고, 인식결과를 출력한다.

도 2 는 본 발명에 따른 다수의 하위 음성검출 시스템을 이용한 음성검출 장치의 일실시예 구성도이다.

도 2에 도시된 바와 같이, 본 발명에 따른 다수의 하위 음성검출 시스템을 이용한 음성검출 장치는, 음성 입력부로부터 전달되는 음성 입력신호를 입력받기 위한 신호 입력부(21)와, 신호 입력부(21)를 통해 전달된 음성 입력신호에 대해 독립적으로 음성의 시작점과 끝점을 검출하기 위한 음성검출기(22)와, 음성검출기(22)를 통해 각각 구해진 검출결과들을 조합하여 가중 평균값을 구하기 위한 검출결과 조합부(23)와, 검출결과 조합부(23)를 통해 전달된 음성의 시작점 및 끝점에 대한 검출 결과를 출력하기 위한 검출결과 출력부(24)를 구비한다.

상기한 바와 같은 구조를 갖는 본 발명의 음성검출 장치의 동작 과정을 상세하게 설명하면 다음과 같다.

먼저, 음성 입력부로부터 전달된 입력신호는 검출기(22)로 전달된다. 도 2에서는 다수 개의 음성 검출기(221~22N)를 사용한 예를 도시했으나, 실제 적용시 사용되는 음성검출기의 종류와 숫자에는 제약이 없으며, 기발표된 어떤 종류의 음성검출기도 사용 가능하다. 일실시예로 다음의 리스트에 있는 검출시스템들을 사용할 수 있다.

첫 번째, 음성검출기 1(221)은 음성검출을 위한 특징벡터로 켑스트럼을 사용하며, 입력음성 앞부분을 비음성이라고 가정하여 이 부분에 대한 평균값을 구한다. 매 프레임마다 비음성부분의 켑스트럼 값과의 차이를 구하여 차이값이 정해진 문턱값을 넘게 되면 음성, 그렇지 않으면 비음성부분이라고 간주한다.

두 번째, 음성검출기 2(222)는 정규화된 에너지와 영교차율을 음성검출을 위한 파라메터로 사용한다. 이때, 에너지와 영교차율이 문턱값을 넘게 되면 음성, 그렇지 않으면 비음성이라고 판단한다.

세 번째, 음성검출기 3(223)은 비음성부분과 음성부분에 대하여 미리 통계학적인 모델을 생성하여 입력음성에 대해 매 프레임마다 비음성부분에 대한 모델과 음성부분에 대한 모델의 확률값을 구하여 음성구간을 검출한다.

네 번째, 음성검출기 4(224)는 정규화된 멜켑스트럼 계수(Mel-Frequency Cepstral Coefficient)중 1차값(C1)을 사용하여 음성부분을 검출한다. C1값이 미리 정해진 문턱값을 넘으면 음성부분이라고 판단한다.

이렇게, 다수 개의 음성 검출기(221~22N)는 음성 입력부로부터 입력되는 음성 신호를 독립적으로 검출한다. 다수 개의 음성 검출기(221~22N)로부터 각각 검출된 결과인 음성의 시작점과 끝점에 대한 시간정보는 검출결과 조합부(23)로 전달된다. 검출결과 조합부(23)는 전달된 검출결과들에 대해 다음의 [수학식 1] 및 [수학식 2]에 의하여 가중평균값을 구하게 된다. 이렇게 구해진 가중평균값은 전체 음성검출 시스템이 검출한 최종적인 음성부분의 시작점과 끝점에 대한 시간정보가 된다.

여기서, S와 E는 전체 검출시스템의 최종결과로 출력되는 음성부분의 시작점(시간)과 끝점이다.

는 최종적으로 음성의 시작점을 구하기 위해 각각의 검출기들의 검출결과들을 조합하는 과정에서 i번째 검출기에 대해 적용하는 가중치이며,는 최종적으로 음성의 끝점을 구하기 위해 각각의 검출기들의 검출결과들을 조합하는 과정에서 i번째 검출기에 대해 적용하는 가중치이고, 이 가중치들은 별도의 훈련과정에서 결정된다.

및는 i번째 검출기에서 구한 시작점과 끝점이다.

도 3 은 본 발명에 따른 다수의 하위 음성검출 시스템을 이용한 음성검출 방법에 대한 일실시예 흐름도이다.

도 3에 도시된 바와 같이, 음성입력부로부터 음성 입력신호를 입력받아(301)각 음성검출기를 통해 독립적으로 음성의 시작점을 검출하기 시작하며(302), 시작점을 검출한 음성검출기는 이어서 끝점을 검출하기 시작한다(303).

이어서, 모든 검출기에서 음성의 시작부분이 검출되었는지를 확인하여(304) 모든 검출기에서 음성의 시작부분이 검출되었으면 개별 검출 결과를 조합하여 최종 음성 시작점을 출력하고(305), 검출되지 않았으면 모든 음성검출기에서 음성의 시작부분이 검출되었는지를 확인하는 과정(303)을 반복 수행한다. 이때, 시작부분 검출 과정이 종료되면 상기의 [수학식 1] 및 [수학식 2]에 의해 최종적으로 음성의 시작점을 구하여 출력한다.

이후, 모든 음성검출기에서 음성의 끝부분이 검출되었는지를 확인하여(306) 끝부분이 검출되었으면 개별 검출 결과를 조합하여 최종 음성 끝점을 출력하고(307), 검출되지 않았으면 모든 음성 검출기에서 음성의 끝부분이 검출되었는지를 확인하는 과정(306)을 반복 수행한다. 이때, 끝부분 검출 과정이 종료되면 상기의 [수학식 1] 및 [수학식 2]에 의해 최종적으로 음성의 끝점을 구하여 출력한다.

도 4 는 본 발명에 따른 다수의 하위 음성검출 시스템을 이용한 음성검출 방법에서 하위 각 음성검출 시스템별 가중치를 결정하기 위한 훈련과정에 대한 일실시예 흐름도이다.

도 4에 도시된 바와 같이, 가중치를 결정하기 위한 훈련과정에 사용되는 음성데이터는 수작업으로 음성부의 시작점과 끝점이 검출되어 있는 상태이다. 훈련용 음성 데이터를 입력받은(401) 각 검출기는 각 검출기별로 독립적으로 음성검출을수행하고(402) 수행된 결과를 각각 저장한다(403).

이어서, 모든 훈련용 데이터에 대해 음성 검출 과정이 종료되었는지를 확인하여(404) 끝났으면 저장된 검출 결과와 레이블 데이터(Label data), 즉 수작업으로 구해진 검출결과를 이용하여 아래의 [수학식 3] 및 [수학식 4]에 의해 각 검출기별 가중치를 결정하게 된다(44).

여기서,는 본 발명이 적용되는 음성검출시스템이 최종적으로 음성의 시작점을 구하기 위해 각 검출기의 검출결과들을 조합하는 과정(305)에서 i번째 검출기에 대해 적용하는 가중치이고,는 최종적으로 음성의 끝점을 구하기 위해 각 검출기의 검출결과들을 조합하는 과정(307)에서 i번째 검출기에 대해 적용하는 가중치이다.

는 훈련과정에서 j번째 입력음성에 대해 i번째 검출기에서 구한 음성의 시작점이고,는 훈련과정에서 j번째 입력음성에 대해 i번째 검출기에서 구한 음성의 끝점이다.

는 훈련과정에서 j번째 입력음성에 대해 수작업으로 구한 음성의 시작점이고,는 훈련과정에서 j번째 입력음성에 대해 수작업으로 구한 음성의 끝점이다.

여기서, N은 하위 음성검출기의 총 개수이며, M은 훈련용 데이터의 크기(발화의 개수)이다.

상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다.

이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.

상기한 바와 같은 본 발명은, 독립적으로 동작하는 음성검출 시스템들의 결과를 조합하되, 각각의 시스템에 가중치를 두어 최종결과를 얻게 되며, 가중치는훈련과정에서 구하며 최적의 음성검출성능을 내도록 구해진다. 따라서, 본 발명은 독립적으로 동작하는 여러 음성 검출시스템들의 결과를 모아 최적의 검출성능을 나타내도록 조합함으로써, 기발표된 음성검출시스템의 검출성능보다 우수한 검출성능을 얻을 수 있는 효과가 있다.

Claims

다수의 하위 음성검출 시스템을 이용한 음성검출 장치에 있어서,

외부로부터 전달되는 음성 입력신호를 입력받기 위한 음성신호 입력수단;

상기 음성신호 입력수단을 통해 전달된 음성 입력신호에 대해 독립적으로 음성의 시작점과 끝점을 검출하기 위한 다수의 검출수단;

상기 다수의 검출수단을 통해 각각 구해진 검출결과들을 조합하여 가중 평균값을 구하기 위한 검출결과 조합수단; 및

상기 검출결과 조합수단을 통해 전달된 음성의 시작점 및 끝점에 대한 검출 결과를 출력하기 위한 검출결과 출력수단

을 포함하는 다수의 하위 음성검출 시스템을 이용한 음성검출 장치.
제 1 항에 있어서,

상기 가중 평균값은,

하기의 수학식에 의하여 구해지고, 전체 음성검출 시스템이 검출한 최종적인 음성부분의 시작점과 끝점에 대한 시간정보인 것을 특징으로 하는 다수의 하위 음성검출 시스템을 이용한 음성검출 장치.

,

(여기서, S와 E는 전체 검출시스템의 최종결과로 출력되는 음성부분의 시작점(시간)과 끝점이고,는 음성검출시스템이 최종적으로 음성의 시작점을 구하기 위해 각 검출기들의 검출결과를 조합하는 과정에서 i번째 검출기에 대해 적용하는 가중치이며,는 최종적으로 음성의 끝점을 구하기 위해 각 검출기들의 검출결과를 조합하는 과정에서 i번째 검출기에 대해 적용하는 가중치이고,및는 입력음성에 대해 i번째 검출기에서 구한 시작점과 끝점임)
제 1 항 또는 제 2 항에 있어서,

상기 가중치는,

하기의 수학식에 의해 각 검출기별로 구하되, 훈련용 데이터로부터 구하는 과정에서 결정되는 것을 특징으로 하는 다수의 하위 음성검출 시스템을 이용한 음성검출 장치.

,

(여기서,는 음성검출 시스템이 최종적으로 음성의 시작점을 구하기 위해 각 검출기들의 검출결과를 조합하는 과정에서 i번째 검출기에 대해 적용하는 가중치이고,는 최종적으로 음성의 끝점을 구하기 위해 각 검출기들의 검출결과를 조합하는 과정에서 i번째 검출기에 대해 적용하는 가중치이며,는 훈련과정에서 j번째 입력음성에 대해 i번째 검출기에서 구한 음성의 시작점이고,는 훈련과정에서 j번째 입력음성에 대해 i번째 검출기에서 구한 음성의 끝점이며,는 훈련과정에서 j번째 입력음성에 대해 수작업으로 구한 음성의 시작점이고,는 훈련과정에서 j번째 입력음성에 대해 수작업으로 구한 음성의 끝점이며, N은 하위 음성검출기의 총 개수이고, M은 훈련용 데이터의 크기(발화의 개수)임)
다수의 하위 음성검출 시스템을 이용한 음성검출 장치에 적용되는 음성검출 방법에 있어서,

외부로부터 전달되는 음성 입력신호를 입력받는 제 1 단계;

상기 입력된 음성 입력신호에 대해 독립적으로 음성의 시작점과 끝점을 검출하는 제 2 단계;

상기 각각 구해진 검출결과들을 조합하여 가중 평균값을 구하는 제 3 단계; 및

상기 구해진 가중평균값을 전체 시스템이 구한 음성의 시작점 및 끝점으로 하여 출력하는 제 4 단계

를 포함하는 다수의 하위 음성검출 시스템을 이용한 음성검출 방법.
제 4 항에 있어서,

상기 가중 평균값은,

하기의 수학식에 의하여 구해지고, 전체 음성검출 시스템이 검출한 최종적인 음성부분의 시작점과 끝점에 대한 시간정보인 것을 특징으로 하는 다수의 하위 음성검출 시스템을 이용한 음성검출 방법.

,

(여기서, S와 E는 전체 검출시스템의 최종결과로 출력되는 음성부분의 시작점(시간)과 끝점이고,는 음성검출 시스템이 최종적으로 음성의 시작점을 구하기 위해 각 검출기들의 검출결과를 조합하는 과정에서 i번째 검출기에 대해 적용하는 가중치이며,는 최종적으로 음성의 끝점을 구하기 위해 각 검출기들의검출결과를 조합하는 과정에서 i번째 검출기에 대해 적용하는 가중치이고,및는 i번째 검출기에서 구한 시작점과 끝점임)
제 4 항 또는 제 5 항에 있어서,

상기 가중치는,

하기의 수학식에 의해 각 검출기별로 구하되, 훈련용 데이터로부터 구하는 과정을 통해 결정되는 것을 특징으로 하는 다수의 하위 음성검출 시스템을 이용한 음성검출 방법.

,

(여기서,는 음성검출 시스템이 최종적으로 음성의 시작점을 구하기 위해 각 검출기들의 검출결과를 조합하는 과정에서 i번째 검출기에 대해 적용하는 가중치이고,는 최종적으로 음성의 끝점을 구하기 위해 각 검출기들의 검출결과를 조합하는 과정에서 i번째 검출기에 대해 적용하는 가중치이며,는 훈련과정에서 j번째 입력음성에 대해 i번째 검출기에서 구한 음성의 시작점이고,는 훈련과정에서 j번째 입력음성에 대해 i번째 검출기에서 구한 음성의 끝점이며,는 훈련과정에서 j번째 입력음성에 대해 수작업으로 구한 음성의 시작점이고,는 훈련과정에서 j번째 입력음성에 대해 수작업으로 구한 음성의 끝점이며, N은 하위 음성검출기의 총 개수이고, M은 훈련용 데이터의 크기(발화의 개수)임)
프로세서를 구비한 다수의 하위 음성검출 시스템을 이용한 음성검출 장치에,

외부로부터 전달되는 음성 입력신호를 입력받는 제 1 기능;

상기 입력된 음성 입력신호에 대해 독립적으로 음성의 시작점과 끝점을 검출하는 제 2 기능;

상기 각각 구해진 검출결과들을 조합하여 가중 평균값을 구하는 제 3 기능; 및

상기 구해진 가중평균값을 전체 시스템이 구한 음성의 시작점 및 끝점으로 하여 출력하는 제 4 기능

을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.