KR100280873B1

KR100280873B1 - 음성인식 시스템

Info

Publication number: KR100280873B1
Application number: KR1019970035170A
Authority: KR
Inventors: 유하진
Original assignee: 구자홍; 엘지전자주식회사
Priority date: 1997-07-25
Filing date: 1997-07-25
Publication date: 2001-02-01
Also published as: KR19990011915A

Abstract

본 발명은 달리는 혼동되기 쉬운 숫자를 정확하게 인식할 수 있는 음성인식 시스템에 관한 것으로, 본 발명에 따른 음성인식 시스템은 숫자에 대한 음성신호를 입력하는 수단과, 음성신호를 일정한 크기의 프레임들로 분할하는 구간분할수단과, 구간분할수단으로부터의 음성신호 프레임들 각각에 대한 포만트 주파수들을 추출하고 추출된 포만트 주파수 중 가장 낮은 두 개의 제1 및 제2 포만트를 출력하는 포만트추출수단과, 포만트추출수단에 의해 추출되어진 제1 및 제2 포만트들에 의해 음성신호의 프레임에 대한 주파수 평면 상의 위치를 결정 ·도식하는 주파수 위치 도식수단과, 주파수 위치 도식수단으로부터의 출력신호에 근거하여 음성신호의 숫자별 주파수 평면 상의 위치들에 대한 발생빈도를 산출하고 그 발생빈도에 의존하여 그래프 형태의 단어별 표준패턴들을 발생하는 표준패턴발생수단과, 표준패턴발생수단에 의해 발생된 숫자별 표준패턴들을 저장하기 위한 메모리와, 주파수 위치 도식수단으로부터의 출력신호에 의하여 메모리에 저장된 숫자별 표준패턴들 각각에 대한 점수를 산출하고 그 산출된 점수들중 가장 큰 값을 가지는 표준패턴에 대한 숫자를 출력하는 음성매칭수단과, 주파수 위치 도식수단을 상기 표준패턴발생수단 및 음성 매칭수단에 선택적으로 접속시키는 절환수단을 구비한다.

Description

음성인식 시스템

본 발명은 한 단어씩 구분 발성된 한국어 숫자음 인식기에 관한 것으로, 특히 포만트 주파수 평면을 이용하여 모음을 판별하는 음성인식 시스템에 관한 것이다.

차량용 휴대 전화기는 교통체증이 심한 우리나라에서 긴급한 상황을 전할 수 있어 편리하게 사용되고 있다. 그런데 주행중인 차안에서는 운전자는 다이얼 버튼을 누르기가 힘들어 교통사고의 위험이 따르게 된다. 따라서 주행중인 차안에서 음성으로 다이얼을 할 수 있다면 사고의 위험을 줄이며 대단히 편리할 것이다.

여기에서 사용되는 음성인식기를 각 전화기마다 부착하면 그 비용이 크게 되므로, 음성인식기는 교환기에 설치하고, 사용자가 발성한 전화번호를 교환기에 보내어 인식하여 다이얼링을 하게 된다. 휴대 전환기에서는 사용할 수 있는 음성의 주파수 대역폭이 제한되므로 전화기를 통하여 전달된 음성은 음질이 저하되며, 따라서 인식 성능이 저하된다. 특히 우리나라의 숫자는 모두 단음절로 구성되어 있으므로, 5와 9, 1과 2 등 서로 유사한 숫자에 대해서는 구별이 어렵게 된다.

현재 음성인식방법으로서는 HMM(Hidden Markov Model)이 가장 많이 사용되고 있으나, 이것은 학습자료가 녹음된 환경에서만 높은 성능을 나타내며, 달리는 차안에서와 같이 주변 잡음이나 전화기의 변화 등 다양한 환경하에서는 그 성능이 낮아지게 된다. 특히 5와 9두 가지 숫자는 서로 오인식 되는 경우가 많다. 따라서 혼동되기 쉬운 숫자에 대해서는 별도의 처리를 함으로써 인식률 저하를 막아야 할 필요가 있다.

따라서, 본 발명의 목적은 달리는 차안 등 잡음이 심한 환경에서 발성된 혼동되기 쉬운 숫자를 정확하게 인식할 수 있는 음성인식시스템을 제공함에 있다.

본 발명의 다른 목적은 음성을 인식하는데 소요되는 시간을 최소화 할 수 있는 음성인식시스템을 제공함에 있다.

제1도는 본 발명의 바람직한 실시예에 따른 음성인식시스템의 블럭도.

제2도는 히스토그램의 일 예를 도시하는 도면.

* 도면의 주요부분에 대한 부호의 설명

10 : 음성입력부 12 : 음성구간추출부

14 : 포만트추출부 16 : 주파수위치도식부

18 : 선택스위치 20 : 히스토그램작성부

22 : 메모리 24 : 매칭부

상기 목적을 달성하기 위한 본 발명에 따른 음성인식 시스템은 숫자에 대한 음성신호를 입력하는 수단과, 음성신호를 일정한 크기의 프레임들로 분할하는 구간 분할수단과, 구간분할수단으로부터의 음성신호 프레임들 각각에 대한 포만트 주파수들을 추출하고 추출된 포만트 주파수 중 가장 낮은 두 개의 제1 및 제2 포만트를 출력하는 포만트추출수단과, 포만트추출수단에 의해 추출되어진 제1 및 제2 포만트들에 의해 음성신호의 프레임에 대한 주파수 평면 상의 위치를 결정 ·도식하는 주파수 위치 도식수단과, 주파수 위치 도식수단으로부터의 출력신호에 근거하여 음성신호의 숫자별 주파수 평면 상의 위치들에 대한 발생빈도를 산출하고 그 발생빈도에 의존하여 그래프 형태의 단어별 표준패턴들을 발생하는 표준패턴발생수단과, 표준패턴발생수단에 의해 발생된 숫자별 표준패턴들을 저장하기 위한 메모리와, 주파수 위치 도식수단으로부터의 출력신호에 의하여 메모리에 저장된 숫자별 표준패턴들 각각에 대한 점수를 산출하고 그 산출된 점수들중 가장 큰 값을 가지는 표준패턴에 대한 숫자를 출력하는 음성매칭수단과, 주파수 위치 도식수단을 상기 표준패턴 발생수단 및 음성매칭수단에 선택적으로 접속시키는 절환수단을 구비한다.

이하, 본 발명의 바람직한 실시예를 첨부한 제1도를 참조하여 상세히 설명하기로 한다.

제1도를 참조하면, 본 발명의 실시예에 따른 음성인식시스템은 음성입력부(10)에 직렬 접속되어진 음성구간추출부(12), 포만트추출부(14) 및 주파수위치검출부(16)를 구비한다. 음성입력부(10)는 휴대전화기(도시하지 않음)로부터 대기를 경유하여 전송되어진 고주파신호로부터 기저대역신호를 복원한다. 음성입력부(10)에 의해 수신되어진 기저대역신호는 음성구간추출부(12)에 공급된다. 이를 위하여, 음성입력부(10)는 고주파신호 수신장치들을 구비한다. 음성구간추출부(12)는 음성입력부(10)로부터의 기저대역신호중 음성정보가 포함되어진 음성구간을 추출한다. 이를 위해, 음성구간추출부(12)는 기저대역신호를 일정한 시간간격의 프레임 단위로 분할하고 그 분할된 프레임단위의 기저대역신호에 음성정보가 포함되어 있는가를 판단한다. 음성구간추출부(12)는 음성정보가 포함된 프레임단위의 기저대역신호 (이하, “프레임음성신호”라 함)들만을 포만트추출부(14)에 공급한다. 포만트추출부(14)는 모든 프레임음성신호에 대하여 포만트(formant) 주파수들을 추출한다. 이 포만트 주파수는 인간의 성도 특성을 나타내며, 음성 인식에서 모음을 구별하는데 많이 사용된다. 포만트 주파수 중 가장 낮을 두 개의 주파수를 제1 및 제2 포만트라고 한다. 주파수위치도식부(16)는 포만트추출부(14)로부터의 제1 및 제2 포만트에 의해 주파수평면상의 임의의 위치에 한점(P(F1,F2))을 표시한다. 주파수평면은 제1 포만트주퐈수(F1)과 제2 포만트주파수(F2)에 의해 형성되며, 이 주파수평면상에 제1 포만트와 제2 포만트에 해당하는 위치에 한점(P(F1,F2))을 표시한다.

음성인식시스템은 포만트위치도식부(16)의 출력신호를 히스토그램작성부(20)와 매칭부(24)쪽으로 절환하는 선택스위치(18)를 추가로 구비한다. 선택스위치(18)는 운용자의 선택에 따라 포만트위치도식부(16)를 히스토그램작성부(20) 또는 매칭부(24)에 접속시킨다. 이를 상세히 하면, 선택스위치(18)는 휴대전화기 가입자가 자신의 음성을 학습시키고자 하는 경우에 포만트위치도식부(16)를 히스토그램작성부(20)에 접속시키는 반면에 휴대전화기 가입자의 음성을 인식하고자 하는 경우에는 포만트위치도식부(16)을 매칭부(24)에 연결시킨다. 히스토그램작성부(20)는 포만트위치도식부(16)로부터 선택스위치(18)를 경유하여 입력되는 도식화된 위치신호에 의해 주파수평면상의 위치들(즉, 점들) 각각에 대한 출현빈도를 산출한다. 그리고 그 산출된 주파수평면상의 위치들 각각에 대한 출현빈도를 그래프의 형태의 히스토그램을 작성한다. 이 히스토그램을 제2도를 참조하여 상세히 살펴보기로 한다.

제2도는 숫자음 “5”에 대한 히스토그램의 예를 도시한다. 제2도에서, 가로축 및 세로축은 로그스케일로 표현되는 주파수이고 이 가로축 및 세로축에 의해 형성되는 주파수평면내의 점들은 그 위치에서의 출현빈도를 나타낸다. 이 히스토그램은 표준패턴으로서 메모리(22)에 저장되게 된다. 따라서, 메모리(22)에는 숫자음들(0 내지 9) 각각에 대한 히스토그램들이 저장되게 된다. 그리고 메모리(22)에는 숫자들(0 내지9)들이 저장되어 있다.

다시 제1도로 되돌아가면, 매칭부(24)는 선택스위치(18)를 경유하여 포만트위치도식부(16)으로부터의 도식화된 위치신호에 의해 주파수평면상의 점들의 열을 산출한다. 그리고 각 점들 각각에 대한 표준패턴 별로 점수를 산출한 다음 표준패턴 별로 점들의 열의 총점(S_i)을 식1 과 같이 산출한다.

[식 1]

Si = ∑_jH_ij(F1,F1)/∑_j(1 - H_ij(F1,F2))

여기서, H_ij(F1,F2)는 i번째 점(P_i(F1,F2))에 대한 j번째 표준패턴에서의 출현갯수이다. 다음으로, 매칭부(24)는 표준패턴 별 총점들 중 가장 큰 값을 가지는 표준패턴을 검출하고 그 검출된 표준패턴에 대판 숫자를 인식된 결과로서 출력하게 된다.

이상에서와 같이 본 발명은 간단하고 빠른 처리로 모음을 인식하여 혼동하기 쉬운 두 개의 숫자(예를 들면, 5와 9)를 구별할 수 있으므로 구분단어 인식기의 인식률을 향상시킬 수 있다. 또한 모든 프레임이 하나의 주파수평면에 포함되므로 끝점검출 알고리즘의 오류로 인한 인식률 저하를 막을 수 있다. 따라서 기존의 단어 인식기가 가지는 취약점을 해결할 수 있으므로 전화 음성 다이얼링 시스템 등의 실용화를 앞당길 수 있다.

Claims

숫자에 대한 음성신호를 입력하는 수단과, 음성신호를 일정한 크기의 프레임들로 분할하는 구간분할수단과, 상기 구간분할수단으로부터의 음성신호 프레임들 각각에 대한 포만트 주파수들을 추출하고 추출된 포만트 주파수 중 가장 낮은 두 개의 제1 및 제2 포만트를 출력하는 포만트추출수단과, 상기 포만트추출수단에 의해 추출되어진 제1 및 제2 포만트들에 의해 음성신호의 프레임에 대한 주파수 평면 상의 위치를 결정 ·도식하는 주파수 위치 도식수단과, 상기 주파수 위치 도식수단으로부터의 출력신호에 근거하여 음성신호의 숫자별 주파수 평면 상의 위치들에 대한 발생빈도를 산출하고 그 발생빈도에 의존하여 그래프 형태의 단어별 표준패턴들을 발생하는 표준패턴발생수단과, 상기 표준패턴발생수단에 의해 발생된 숫자별 표준패턴들을 저장하기 위한 메모리와, 상기 주파수 위치 도식수단으로부터의 출력신호에 의하여 상기 메모리에 저장된 숫자별 표준패턴들 각각에 대한 점수를 산출하고 그 산출된 점수들중 가장 큰 값을 가지는 표준패턴에 대한 숫자를 출력하는 음성매칭수단과, 상기 주파수 위치 도식수단을 상기 표준패턴발생수단 및 음성매칭수단에 선택적으로 접속시키는 절환수단을 구비하는 것을 특징으로 하는 음성인식시스템.