KR100523905B1

KR100523905B1 - 이중화된 검출조건을 이용한 음성 추출 방법

Info

Publication number: KR100523905B1
Application number: KR10-2003-0018283A
Authority: KR
Inventors: 전호현
Original assignee: 주식회사 케이티
Priority date: 2003-03-24
Filing date: 2003-03-24
Publication date: 2005-10-25
Also published as: KR20040083717A

Abstract

1. 청구범위에 기재된 발명이 속하는 기술분야

본 발명은, 이중화된 검출조건을 이용한 음성 추출 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것임.

2. 발명이 해결하려고 하는 기술적 과제

본 발명은, 음성인식시스템의 음성추출장치 등에서 비음성 구간의 평균 에너지 기준값에 따른 시작점 기준값과 최적 필터 창함수(Optimal Filter Windowing) 특성에 따른 끝점 기준값에 의하여 시작점과 끝점의 검출조건을 이중화하여 음성을 추출하기 위한 이중화된 검출조건을 이용한 음성 추출 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있음.

3. 발명의 해결 방법의 요지

본 발명은, 이중화된 검출조건을 이용한 음성 추출 방법에 있어서, 초기 비음성 구간의 평균 에너지 기준값을 이용하여 시작점 기준값을 설정하는 제 1 단계; 상기 시작점 기준값에 따른 시작점 검출 조건을 만족하는 프레임이 존재하는지 감시하여 시작점을 검출하는 제 2 단계; 에너지 하한값과 에너지 상한값을 조정하는 제 3 단계; 음성 구간에서 음성 신호 프레임들의 일정 구간마다 디지털 신호의 윤곽(Edge)에 대한 자기 상관 함수를 계산하면 소정의 값을 출력하고, 비음성 구간에서 디지털 신호의 윤곽(Edge)에 대한 자기 상관 함수를 계산하면 극소값(이상적으로 0)을 출력하는 최적 필터 창함수(Optimal Filter Windowing) 특성을 이용하여 상기 극소값을 출력하는 시점을 끝점 기준값으로 설정하는 제 4 단계; 상기 설정한 끝점 기준값에 따른 끝점 검출 조건을 만족하는 프레임이 존재하는지 감시하여 끝점을 검출하는 제 5 단계; 및 상기 시작점부터 상기 끝점까지의 음성 신호를 추출하여 출력하는 제 6 단계를 포함함.

4. 발명의 중요한 용도

본 발명은 음성인식시스템 등에 이용됨.

Description

이중화된 검출조건을 이용한 음성 추출 방법{Dual Speech Detection Method of The Startpoint and The Endpoint in Speech Recognition}

본 발명은, 이중화된 검출조건을 이용한 음성 추출 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.

음성인식이란 인간의 음성에 포함되어 있는 언어정보를 추출하는 방법으로서 마이크, 헤드셋, 전화기 등을 통하여 입력된 음성의 특징을 분석하여 특정한 동작을 수행하는 기술을 말한다. 이와 같은 음성인식기술은 실생활과 밀접한 관련이 있는 분야, 즉 홈 오토메이션, 음성인식 장난감, 음성인식 어학 학습기, 음성인식 브라우저, 음성인식 게임, 음성인식 휴대통신단말기, 음성인식 가전제품, 증권거래, 및 자동안내시스템 등 여러 분야에 걸쳐서 폭 넓게 활용되고 있다.

일반적으로, 음성인식은 크게 마이크, 헤드셋, 전화기 등을 통하여 음성을 입력받는 음성입력과정, 입력받은 음성에서 잡음을 제외한 음성만을 추출해내는 음성추출과정, 일종의 음성압축으로서 인간의 발성기관을 모델링하여 필터계수를 찾아내는 음성특징추출과정, 및 인식 알고리즘을 이용하여 음성을 인식하여 인식/오인식을 결정하는 음성인식과정을 거친다.

이 때, 비음성(잡음, 에코)이 포함된 음성 신호에서 음성만을 추출하는 음성추출과정은 입력받은 음성 데이터의 초기 일정 구간의 프레임을 비음성 신호 특성을 가진 것으로 가정하여 에너지 평균값을 계산함으로써 에너지 기준값을 설정하고, 이와 같이 설정된 에너지 기준값을 이용하여 음성을 추출하게 된다. 이와 같이 비음성 신호의 에너지 평균값을 계산하여 에너지 기준값을 설정하는 이유는 비교적 음성 구간의 프레임 에너지가 비음성 신호보다 큰 특성이 있기 때문이다.

그리고, 비음성에는 잡음과 에코가 포함되는데, 먼저 잡음은 발화자의 주변 환경에서 생길 수 있는 자동차 소음, 음악소리, 전화망에서 생길 수 있는 잡음 신호 등을 의미하며, 에코는 음성인식을 이용한 응용서비스의 시나리오 안내멘트의 음성이 통신회로를 통하여 반향하는 신호를 의미한다.

한편, 이와 같이 비음성 신호의 에너지 평균값을 계산하여 얻어진 에너지 기준값(에너지 하한값, 에너지 상한값)은 시작점 및 끝점 검출시 기준값이 되는데, 상기 에너지 기준값(에너지 하한값, 에너지 상한값)은 처리 중에 약간의 조정이 있지만, 기본적으로 시작점과 끝점을 검출하는데 단일 검출 조건으로 사용되는 기준값이다. 즉, 입력된 음성 데이터가 시작점 결정조건을 만족하면 해당 프레임을 시작점으로 검출하고, 끝점 결정조건을 만족하면 해당 프레임을 끝점으로 검출하여 상기 시작점 프레임부터 끝점 프레임까지를 음성으로 추출하게 된다.

그런데, 시작점 및 끝점의 검출 조건을 설정하는 데 있어서, 비음성으로 간주되는 초기 일정구간의 프레임이 잡음 등으로 인하여 높게 설정이 된다면, 음성 인식율이 저하되고, 그에 따라 음성인식 성능의 저하를 초래하게 된다. 이와 같은 문제점을 개선하기 위하여 음성 추출 전에 비음성을 제거하는 필터를 두어 전처리를 하면 어느 정도 개선이 될 수 있다.

그러나, 비음성 중에서 에코는 일반적인 잡음과는 달리 음성 신호의 특성을 가지고 있으므로, 비음성 제거 필터를 두어 처리하더라도 제거되지 않고 남아있게 된다. 이와 같이 잔존하는 에코는 비교적 높은 에너지 기준 값을 가지고 있으므로 시작점 및 끝점 검출 조건에 사용되는 기준값이 높게 설정되게 된다. 따라서, 음성의 끝부분의 프레임 에너지는 일반적으로 낮기 때문에, 단일 검출값을 사용하게 되면 높게 설정된 기준값으로 인하여 끝점 추출시 음성이 손실되는 문제점이 있었다.

본 발명은, 상기와 같은 문제점을 해결하기 위하여 제안된 것으로, 음성인식시스템의 음성추출장치 등에서 비음성 구간의 평균 에너지 기준값에 따른 시작점 기준값과 최적 필터 창함수(Optimal Filter Windowing) 특성에 따른 끝점 기준값에 의하여 시작점과 끝점의 검출조건을 이중화하여 음성을 추출하기 위한 이중화된 검출조건을 이용한 음성 추출 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.

상기의 목적을 달성하기 위한 본 발명은, 이중화된 검출조건을 이용한 음성 추출 방법에 있어서, 초기 비음성 구간의 평균 에너지 기준값을 이용하여 시작점 기준값을 설정하는 제 1 단계; 상기 시작점 기준값에 따른 시작점 검출 조건을 만족하는 프레임이 존재하는지 감시하여 시작점을 검출하는 제 2 단계; 에너지 하한값과 에너지 상한값을 조정하는 제 3 단계; 음성 구간에서 음성 신호 프레임들의 일정 구간마다 디지털 신호의 윤곽(Edge)에 대한 자기 상관 함수를 계산하면 소정의 값을 출력하고, 비음성 구간에서 디지털 신호의 윤곽(Edge)에 대한 자기 상관 함수를 계산하면 극소값(이상적으로 0)을 출력하는 최적 필터 창함수(Optimal Filter Windowing) 특성을 이용하여 상기 극소값을 출력하는 시점을 끝점 기준값으로 설정하는 제 4 단계; 상기 설정한 끝점 기준값에 따른 끝점 검출 조건을 만족하는 프레임이 존재하는지 감시하여 끝점을 검출하는 제 5 단계; 및 상기 시작점부터 상기 끝점까지의 음성 신호를 추출하여 출력하는 제 6 단계를 포함한다.

한편, 본 발명은, 프로세서를 구비한 음성추출장치에, 초기 비음성 구간의 평균 에너지 기준값을 이용하여 시작점 기준값을 설정하는 제 1 기능; 상기 시작점 기준값에 따른 시작점 검출 조건을 만족하는 프레임이 존재하는지 감시하여 시작점을 검출하는 제 2 기능; 에너지 하한값과 에너지 상한값을 조정하는 제 3 기능; 음성 구간에서 음성 신호 프레임들의 일정 구간마다 디지털 신호의 윤곽(Edge)에 대한 자기 상관 함수를 계산하면 소정의 값을 출력하고, 비음성 구간에서 디지털 신호의 윤곽(Edge)에 대한 자기 상관 함수를 계산하면 극소값(이상적으로 0)을 출력하는 최적 필터 창함수(Optimal Filter Windowing) 특성을 이용하여 상기 극소값을 출력하는 시점을 끝점 기준값으로 설정하는 제 4 기능; 상기 설정한 끝점 기준값에 따른 끝점 검출 조건을 만족하는 프레임이 존재하는지 감시하여 끝점을 검출하는 제 5 기능; 및 상기 시작점부터 상기 끝점까지의 음성 신호를 추출하여 출력하는 제 6 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.

상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명하기로 한다.

도 1은 본 발명이 적용되는 음성인식시스템의 일실시예 구성도이다.

도 1에 도시된 바와 같이, 본 발명이 적용되는 음성인식시스템(10)은, 외부로부터 음성을 입력받기 위한 음성입력부(11), 상기 음성입력부(11)로부터 입력받은 아나로그 음성 신호를 디지털 음성 신호로 변환시키기 위한 A/D 변환부(12), 상기 A/D 변환부(12)에서 변환된 디지털 음성 신호를 입력받아 잡음 및 에코 등의 비음성을 제거하여 음성 신호를 추출하기 위한 음성추출부(13) 및 상기 음성추출부(13)에서 추출된 음성 신호를 입력받아 음성특징을 추출하고 음성인식 알고리즘에 의하여 음성을 인식하기 위한 음성인식부(14)를 포함한다. 이 때, 본 발명에 따른 음성 추출 방법은 상기 음성추출부(13)에서 수행된다.

도 2는 본 발명에 따른 이중화된 검출조건을 이용한 음성 추출 방법에 대한 일실시예 흐름도이다.

먼저, 디지털 신호로 변환된 음성 신호를 입력받아 비음성 구간의 평균 에너지 기준값을 이용하여 시작점 기준값, 즉 에너지 하한값과 에너지 상한값을 설정한다(201). 그리고, 상기 시작점 기준값에 따른 시작점 검출 조건을 만족하는 프레임이 존재하는지 감시하여 시작점을 검출하고, 에너지 하한값과 에너지 상한값을 낮게 조정한다(202). 왜냐하면, 일단 시작점이 검출되면 음성인식시스템에서 제공되는 응용서비스는 안내멘트를 중단하게 되고, 그에 따라 끝점을 검출하는 과정에서는 일반적으로 에코의 영향은 거의 없으므로 에너지 하한값과 에너지 상한값이 낮게 조정되어야 한다. 이 때, 에너지 하한값과 에너지 상한값을 조정하는 과정은 이후의 끝점 기준값 설정 과정(203) 이후에 수행해도 된다.

이후, 최적 필터 창함수(Optimal Filter Windowing) 특성에 따른 끝점 기준값을 설정하고(203), 이후 상기 끝점 기준값에 따른 끝점 검출 조건을 만족하는 프레임이 존재하는지 감시하여 끝점을 검출한다(204). 이 때, 최적 필터 창함수(Optimal Filter Windowing) 특성에 따른 끝점 검출은 필터 크기만큼의 프레임들에 대하여 끝점이 검출될 때까지 연속적으로 수행된다.

상기 "204" 과정에서 끝점이 검출되면, 상기 시작점부터 상기 끝점까지의 음성 신호를 추출한다(205).

한편, 끝점 기준값을 설정하는데 이용되는 최적 필터(Optimal Filter) 창함수는 "Maria Petrou & Josef Kittler"에 의해 제안된 것으로, 시간적으로 입력되는 신호에서 특정 대상물의 윤곽(Edge)선이 적합하게 모델링되며, 영점을 중심으로 대칭되는 대표적인 기함수 특성을 가지고 있다. 이와 같은 최적 필터 창함수(Optimal Filter Windowing) 특성은 2차원 이미지 처리분야에서 널리 사용되는 알고리즘으로, 주로 배경에서 목표물의 윤곽(Edge)선을 검출하는데 사용된다. 후술하는 설명에서 최적 필터(Optimal Filter) 창함수에 대하여 보다 상세히 살펴보기로 한다.

먼저, [수학식 1]과 [수학식 2]는 최적 필터(Optimal Filter) 창함수를 나타낸다.

(단, A, Ki : 필터의 파라미터 s : 양수값)

위의 [수학식 1]은 필터의 좌 반구간을 표현하고 있으며, 필터의 우 반구간은 식 f(x)를 원점 대칭으로 배치하면 얻는다. [수학식 2]는 최적 필터(Optimal Filter) 함수를 표현하고 있는데, 상기 최적 필터(Optimal Filter)의 크기는 (2w-1)이 된다. 일반적으로 2차원 이미지에 활용되는 최적 필터(Optimal Filter) 창함수를 시간적으로 입력되는 1차원 음성 신호의 끝점 추출에 적용하면 정확한 음성을 추출하여 음성 손실을 최소화함으로써 음성인식시스템의 성능을 개선할 수 있다.

즉, 시작점이 검출되면 음성인식시스템에서 제공되는 응용서비스에서 안내멘트를 중단하므로 끝점을 검출하는 과정에서는 일반적으로 에코의 영향은 거의 없다. 따라서, 음성이 존재하는 구간에서 음성 신호 프레임들의 일정 구간마다 디지털 신호의 윤곽(Edge)에 대한 자기 상관 함수를 계산하는 최적 필터 창함수(Optimal Filter Windowing)를 적용하면 비교적 큰 값(소정의 값)이 출력되고, 비음성이 존재하는 구간에서 최적 필터 창함수(Optimal Filter Windowing)를 적용하면 기함수 특성으로 인하여 아주 낮은 값(극소값)이 출력된다. 다시 말해서, 이상적으로 크기가 균일하게 입력되는 신호에 대하여 최적 필터 창함수(Optimal Filter Windowing)를 적용하면 결과값은 0이 된다. 이와 같은 원리로 음성의 윤곽(Edge)선을 추정하여 끝점을 추출하게 되면, 종래에 시작점과 단일 검출 조건으로 끝점을 추출하는 방법보다 훨씬 정확성이 높다.

도 3은 본 발명의 일실시예에 따른 이중화된 검출조건을 이용한 음성 추출 방법에 대한 구체적인 일예시도이다.

우선, 각 스테이트에서의 비교 조건을 살펴보면, 스테이트1(S1)은 음성신호데이터의 프레임카운터(Env_Count)값이 미리 설정된 프레임 길이(ENV_LEN)값보다 작은지를 비교한다. 스테이트2(S2)는 입력된 음성단위프레임의 에너지가 기준값으로 설정된 에너지 하한값(ThreshEL)보다 작은지를 비교한다. 그리고, 스테이트3(S3)과 스테이트4(S4)에서는 입력된 음성단위프레임의 에너지가 기준값으로 설정된 에너지 상한값(ThreshEH)보다 큰지를 비교한다. 마지막으로, 스테이트5(S5)는 음성단위프레임의 영교차율(ZCR : Zero Crossing Rate) 값이 미리 설정된 영교차율(ZCR : Zero Crossing Rate) 값보다 작은지를 비교한다. 이 때, 영교차율(ZCR)이란 인접한 신호의 부호가 서로 다른 횟수를 말하며, 이는 그 신호의 주파수 정보를 포함한 값으로서, 일반적으로 유성음에서는 낮은값, 무성음에서는 높은 값을 가진다. 이하의 설명에서 본 발명의 일실시예에 따른 이중화된 검출조건을 이용한 음성 추출 방법에 대한 구체적인 실시예를 살펴보기로 한다.

먼저, 음성추출부(13)가 음성신호데이터를 입력받아(301) 비음성 특성구간의 평균 에너지 기준값을 기반으로 시작점 기준값을 설정한다(302). 그리고, 스테이트2(S1)에서 입력받은 음성신호데이터의 단위프레임에너지가 기준값으로 설정된 에너지 하한값(TreshEL)보다 작은지 비교하여, 단위프레임에너지가 에너지 하한값(TreshEL)보다 작고 시작점이 존재하면 최적 필터 창함수(Optimal Filter Windowing) 특성에 따라 끝점 검출 기준값을 설정하고, 그에 따른 끝점 결정 조건을 만족하는 끝점을 검출하여 음성신호 추출을 완료한다(303 내지 306). 한편, 스테이트4(S4)에서 입력된 음성단위프레임의 에너지가 기준값으로 설정된 에너지 상한값(ThreshEH)보다 크고, 상기 시작점 기준값에 의한 시작점 검출조건을 만족하면 상기 음성단위프레임을 시작점으로 검출하고 에너지 상한값(ThreshEH)과 에너지 하한값(ThreshEL)을 낮게 조정한다(308 내지 311). 이 때, 보조조건(313)이란 음성단위프레임의 영교차율(ZCR : Zero Crossing Rate) 값이 미리 설정된 영교차율(ZCR : Zero Crossing Rate) 값보다 작은지를 비교하는 것이다.

상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다. 이러한 과정은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있으므로 더 이상 상세히 설명하지 않기로 한다.

이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.

상기와 같이 본 발명은, 종래에 시작점과 동일한 단일 검출값을 사용하여 끝점을 추출하는 방법과 달리, 시작점과 끝점의 검출조건이 이중화된 음성 추출 방법을 제공함으로써 끝점의 음성 손실을 막을 수 있으며, 그에 따라 음성인식처리 성능을 향상시킬 수 있는 효과가 있다.

또한, 본 발명은, 일단 시작점이 검출되면 에너지 하한값과 에너지 상한값을 낮게 조정하여 음성인식시스템에서 제공되는 안내멘트에 의한 에코의 영향을 없애므로 보다 정확하게 음성을 추출할 수 있는 효과가 있다.

도 1은 본 발명이 적용되는 음성인식시스템의 일실시예 구성도,

도 2는 본 발명에 따른 이중화된 검출조건을 이용한 음성 추출 방법에 대한 일실시예 흐름도,

도 3은 본 발명에 따른 이중화된 검출조건을 이용한 음성 추출 방법에 대한 구체적인 일예시도이다.

* 도면의 주요 부분에 대한 부호 설명

10 : 음성인식시스템 11 : 음성입력부

12 : A/D 변환부 13 : 음성추출부

14 : 음성인식부

Claims

이중화된 검출조건을 이용한 음성 추출 방법에 있어서,

초기 비음성 구간의 평균 에너지 기준값을 이용하여 시작점 기준값을 설정하는 제 1 단계;

상기 시작점 기준값에 따른 시작점 검출 조건을 만족하는 프레임이 존재하는지 감시하여 시작점을 검출하는 제 2 단계;

에너지 하한값과 에너지 상한값을 조정하는 제 3 단계;

음성 구간에서 음성 신호 프레임들의 일정 구간마다 디지털 신호의 윤곽(Edge)에 대한 자기 상관 함수를 계산하면 소정의 값을 출력하고, 비음성 구간에서 디지털 신호의 윤곽(Edge)에 대한 자기 상관 함수를 계산하면 극소값(이상적으로 0)을 출력하는 최적 필터 창함수(Optimal Filter Windowing) 특성을 이용하여 상기 극소값을 출력하는 시점을 끝점 기준값으로 설정하는 제 4 단계;

상기 설정한 끝점 기준값에 따른 끝점 검출 조건을 만족하는 프레임이 존재하는지 감시하여 끝점을 검출하는 제 5 단계; 및

상기 시작점부터 상기 끝점까지의 음성 신호를 추출하여 출력하는 제 6 단계

를 포함하는 이중화된 검출조건을 이용한 음성 추출 방법.
제 1 항에 있어서,

상기 제 5 단계는,

음성 구간에서 음성 신호 프레임들의 일정 구간마다 디지털 신호의 윤곽(Edge)에 대한 자기 상관 함수를 계산하면 소정의 값을 출력하고, 비음성 구간에서 디지털 신호의 윤곽(Edge)에 대한 자기 상관 함수를 계산하면 극소값(이상적으로 0)을 출력하는 최적 필터 창함수(Optimal Filter Windowing) 특성을 이용하여 필터 크기만큼씩의 프레임들에 대하여 끝점이 검출될 때까지 연속적으로 반복하여 수행하는 것을 특징으로 하는 이중화된 검출조건을 이용한 음성 추출 방법.
프로세서를 구비한 음성추출장치에,

초기 비음성 구간의 평균 에너지 기준값을 이용하여 시작점 기준값을 설정하는 제 1 기능;

상기 시작점 기준값에 따른 시작점 검출 조건을 만족하는 프레임이 존재하는지 감시하여 시작점을 검출하는 제 2 기능;

에너지 하한값과 에너지 상한값을 조정하는 제 3 기능;

음성 구간에서 음성 신호 프레임들의 일정 구간마다 디지털 신호의 윤곽(Edge)에 대한 자기 상관 함수를 계산하면 소정의 값을 출력하고, 비음성 구간에서 디지털 신호의 윤곽(Edge)에 대한 자기 상관 함수를 계산하면 극소값(이상적으로 0)을 출력하는 최적 필터 창함수(Optimal Filter Windowing) 특성을 이용하여 상기 극소값을 출력하는 시점을 끝점 기준값으로 설정하는 제 4 기능;

상기 설정한 끝점 기준값에 따른 끝점 검출 조건을 만족하는 프레임이 존재하는지 감시하여 끝점을 검출하는 제 5 기능; 및

상기 시작점부터 상기 끝점까지의 음성 신호를 추출하여 출력하는 제 6 기능

을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.