KR100202425B1

KR100202425B1 - 가전제품의 리모콘 명령어를 인식하기 위한 음성 인식 시스템

Info

Publication number: KR100202425B1
Application number: KR1019920015484A
Authority: KR
Inventors: 정호선; 이수용
Original assignee: 정호선
Priority date: 1992-08-27
Filing date: 1992-08-27
Publication date: 1999-06-15
Also published as: JPH06161496A; FR2695246B1; DE4328752A1; DE4328752B4; FR2695246A1; US5471557A

Abstract

본 발명은 음성 인식 시스템의 텔레비젼과 비디오 테이프 레코더의 리모콘 음성을 인식하는 음성 인식 시스템에 관한 것이다. 상기 시스템은 가전제품의 리모콘 명령어를 인식하기 위한 음성 인식 시스템에 있어서, 사용자에 의해서 입력되는 음성을 입력하기 위한 마이크로폰; 상기 마이크로폰을 통해서 입력되는 음성신호가 소정시간 주기 내에서 복수개의 데이터로 나뉘어지는 음성분석수단; 상기 음성분석수단으로부터의 복수개 데이터가 각가 인가되는 복수개의 필터를 구비하고, 상기 복수개의 필터들 중에서 인접한 두 필터의 출력을 차례로 비교한 값에 따라서 이진화를 수행하여 이진화 데이터를 출력하기 위한 이진화수단; 및 각각의 신경회로망이 적어도 하나의 층으로 된 부신경회로망을 가지는 복수층의 신경회로망을 구비하고, 상기 이진화수단에서 출력된 이진화 데이터를 상기 각 층의 신경회로망을 통한 학습에 따라서 그 결과를 통합하여 출력하는 다층 신경회로망을 포함하는 것을 특징으로 하여 음성의 특성을 뚜렷하게 표현함으로써 음성 인식률을 높일 수 있는 장점이 있다.

Description

가전제품의 리모콘 명령어를 인식하기 위한 음성 인식 시스템

제1도는 본 발명에 따른 다층 신경회로망을 사용한 가전제품의 리모콘 명령어 인식 시스템을 나타내는 도면이다.

제2도는 본 발명의 인식실험에 사용된 인식 대상 단어를 나타내는 도면이다.

제3도는 인식 대상 단어 전원의 음성 구간 검출 후의 데이터를 나타내는 도면이다.

제4a-4c도는 본 발명에 따른 이진화 방법을 설명하기 위한 도면이다.

제5a도는 제4a도에 나타낸 방법에 의해서 상기 제3도에 나타낸 데이터의 이진화를 수행한 결과를 나타내는 표이다.

제5b도는 제4c도에 나타낸 방법에 의해서 상기 제3도에 나타낸 데이터의 이진화를 수행한 결과를 나타내는 표이다.

제6도는 본 발명에 따른 음성 구간 검출되고 시간축, 정규화한 데이터가 처리되는 과정을 나타내는 도면이다.

제7도는 본 발명에 따른 음성 인식 시스템의 인식률을 향상시키기 위한 방법을 나타내는 도면이다.

제8도는 소프트웨어로 TV와 VTR명령어들을 시뮬레이션한 결과를 나타내는 도면이다.

본 발명은 음성 인식 시스템에 관한 것으로, 특히 가전제품의 리모콘 명령어를 인식하는 음성 인식 시스템에 관한 것이다.

현재 대부분의 음성 인식 시스템은 인간이 자연스럽게 발음한 음성을 인식하고, 음성 특성의 다양한 변화를 수용하기 위해 엄청난 계산을 필요로 하였기 때문에 그 실용성이나 타당성이 문제가 있고, 실시간의 음성인식이 어려운 문제점이 있었다.

이러한 음성인식과 같은 패턴인식의 일반적인 문제를 해결할 수 있는 방법으로 제시되고 있는 것이 신경회로망 모델이다.

음성인식과 같은 패턴 인식 분야에서 여러 가지의 신경망 모델이 제안되어 왔으며, 그 중 다층 퍼셉트론(multi layer perceptron)이 널리 이용되어 왔다. 하지만, 학습시에 오류값이 점점 줄어들다가 다시 오류값이 증가하는 국부적인 최소화(local minima)에 빠져 그 값을 실제적인 값으로 판단하는 경우가 있고, 학습시간이 길다는 단점이 있다. 또한, 하드웨어의 구성이 현재의 기술로서는 어렵기 때문에 실제 응용 분야로의 실현이 어려웠다. 본 발명의 발명자에 의해서 제안된 다층 신경회로망은 이러한 단점을 극복하기 위한 것으로서 문자 인식, 음성 인식 등의 주로 패턴 인식 분야에의 적용이 기대되고 있다.

본 발명의 목적은 오류를 최소화할 수 있는 다층 신경회로망을 이용한 가전제품의 리모콘 명령어를 마이크로폰을 통하여 입력하여 인식하는 음성 인식 시스템을 제공하는데 있다.

이와 같은 목적을 달성하기 위하여 본 발명은, 가전제품의 리모콘 명령어를 인식하기 위한 음성 인식 시스템에 있어서, 사용자에 의해서 입력되는 음성을 입력하기 위한 마이크로폰; 상기 마이크로폰을 통해서 입력되는 음성신호가 소정시간 주기 내에서 복수개의 데이터로 나뉘어지는 음성분석수단; 상기 음성분석수단으로 부터의 복수개 데이터가 각각 인가되는 복수개의 필터를 구비하고, 상기 복수개의 필터들 중에서 인접한 두 필터의 출력을 차례로 비교한 값에 따라서 이진화를 수행하여 이진화 데이터를 출력하기 위한 이진화수단; 및 각각의 신경회로망이 적어도 하나의 층으로 된 부신경회로망을 가지는 복수층의 신경회로망을 구비하고, 상기 이진화수단에서 출력된 이진화 데이터를 상기 각 층의 신경회로망을 통한 학습에 따라서 그 결과를 통합하여 출력하는 다층 신경회로망을 포함하는 것을 특징으로 한다.

첨부된 도면을 참고로 하여 본 발명에 따른 음성 인식 시스템을 설명하기 전에 본 발명에 적용되는 다층 신경회로망의 학습 알고리즘을 설명하면 다음과 같다.

단계 1. 모든 노드간의 가중치를 초기화한다.

단계 2. 입력과 이에 대응하는 출력의 쌍을 입출력에 제시한다.

단계 3. 각 노드에서 입력의 가중치 합을 구하고 하드 리미트 비선형 함수에 의해 출력을 발생한다.

f_h: 하드 리미트 함수

Xi : i번째 입력

Wji : i번째 노드에서 j번째 노드로 연결된 가중치

OUTj : j번째 노드의 출력값

단계 4. 출력 노드에서의 출력을 원하는 출력값과 비교하여 오차를 계산하고, 오차값에 따른 가중치 변화분을 저장한다.

Wji = (Dj - Oj)...............(3)

Wji : 가중치의 변화량

Dj : j번째 노드의 원하는 출력값

Oj : j번째 노드의 출력값

단계 5. 단계 2에서 단계 4까지의 과정을 모든 입력에 대해 수행하고 모든 출력값이 원하는 값과 같으면 학습을 끝내고 그렇지 않으면 이때의 가중치 변화분의 합을 각각의 가중치에 더한다.

W_(T-1)ji: 변경되기 전의 가중치

Wji : 변경된 후의 가중치

단계 6. 일정횟수 반복 후, 원하는 결과가 나오지 않을 때는 층(layer)을 증가시킨 후 앞의 층에서의 출력과 원래의 입력을 새로운 입력으로 하여 단계 2부터 반복한다.

즉, 상기 다층 신경회로망의 학습 알고리즘은, 시냅스(synapse)들의 가중치는 하드웨어 구현을 고려하여 정수값을 가지게 하고, 하드리미트함수(hard-limit function)를 뉴런(neuron)에서의 전달함수로 이용하여 이진수의 입출력을 갖도록 하며, 만일 앞 층(layer)에서의 학습이 성공하지 못하면 층을 증가하여 출력값과 원하는 출력값이 동일할 때까지 학습을 수행하는 규칙을 가지고 있다.

도시된 바와 같이, 음성을 입력하기 위한 마이크로폰(200), 마이크로폰(200)을 통한 음성의 특징을 추출하기 위한 음성분석기(210), 음성분석기(210)를 통과한 음성의 음성구간을 검출하고 시간축 정규화 및 이진화를 수행하는 이진화수단(220), 이진화수단(220)의 이진화 데이터를 입력하여 학습을 수행하고 그 결과(240)를 출력하는 다층 신경회로망(230)으로 구성되어 있다.

본 발명에 따른 리모콘은 인식된 음성에 대응하는 리모콘 출력신호를 발생하여 가전제품을 동작시키게 된다. 또한, 이와 같이 인식된 음성신호는 화면상에 나타나게 된다.

제2도는 본 발명의 실험에 사용된 인식 대상 단어를 나타내는 도면이다.

도시된 바와같이, 인식대상 단어는 TV와 VTR명령어 23개와 숫자음 영에서 구까지를 사용하였다.

제3도는 인식 대상 단어 전원의 음성 구간 검출후의 데이터를 나타내는 도면이다.

본 발명에서는 16채널 대역 필터 뱅크의 출력을 이용하였기 때문에 음성 구간이 상기 16채널의 필터를 통하여 출력되는 16개의 주파수 대역(F1-F6)으로 나뉘어서 나타내어진다. 음성 데이터의 분석 주기는 16ms로 설정하고 분석이 완료된 데이터에서 음성 구간 검출은 한 프레임의 에너지가 정해 놓은 문턱치보다 큰 연속적인 프레임들을 음성 구간으로 설정하였다.

음성 구간 검출된 데이터의 시간축 정규화는 같은 단어라도 발성길이가 다르므로 2-3음절 단어의 평균치인 30프레임으로 시간축 정규화를 하였다. 이때 정규화는 기준 프레임보다 큰 단어일 때는 비례적으로 프레임을 삭제하고, 작을 경우에는 비례적으로 그 전 프레임을 복사하는 방법을 사용하였다.

제4a도는 이웃한 두 필터의 출력을 비교하여 그 크기가 증가하면, 1의 값을 그렇지 않으면 0의 값을 할당하는 방법을 적용한 것을 나타낸 도면이다.

제4b도는 한 필터를 중심으로 이웃한 양쪽 필터가 중심필터의 값보다 작을 때 1을 할당하고, 그렇지 않으면 0을 할당하는 방법을 적용한 것을 나타낸 도면이다.

제4c도는 음성 구간으로 분리된 데이터에서 일정한 비율로 정규화한 다음 정해진 문턱값보다 클 때 1을 할당하고 그렇지 않으면 0을 할당하는 방법을 적용한 것을 나타낸 도면이다.

제5a도는 제4a도에 나타내 방법에 의해서 상기 제3도에 나타낸 데이터의 이진화를 수행한 결과를 나타내는 표이다.

상기 제5a, 5b도에 나타낸 이진화의 결과들은 다층 신경회로망의 입력으로 사용된다.

다층 신경회로망은 상기 이진화된 값들을 입력하여 상기 알고리즘을 수행하게 된다.

제6도는 본 발명에 따른 음성 구간 검출되고 시간축 정규화한 데이터가 처리되는 과정을 나타내는 도면이다.

도시된 바와 같이, 상기 음성 구간 검출되고 시간축 정규화한 데이터는 상술한 세가지 방법에 의한 이진화 회로(300)에 의해서 이진화가 되고, 상기 이진화된 데이터는 각각의 다층 신경회로망(310)에 의해서 학습이 수행되며, 상기 학습에 의해서 얻어진 데이터는 각각의 최대값 출력회로(320)에의해서 최대값이 출력되고, 상기 최대값 출력회로(320)의 결과를 종합하여 인식회로(330)에서 최종적인 인식값이 출력된다.

즉, 이와 같은 방법을 사용한 이유는 각기 다른 이진화 방법으로 음성의 특성을 뚜렷하게 표현할 수 있으며, 더욱 좋은 인식률을 얻기 위한 것이다.

또한, 본 발명에서는 더 좋은 학습 결과를 얻기 위한 방법을 제시한다.

제7도는 본 발명에서 제시하는 더 좋은 학습 방법을 나타내는 도면이다.

도시된 바와 같이, 하나의 다층 신경회로망에 소정 개수의 부회로망들을 구비하고, 그 부회로망들 또한 그들의 부회로망을 가지는 방법으로 인식률을 높이기 위하여 사용된다.

이진화된 신호를 입력하여 학습을 수행하는 신경회로망들(400)고, 신경회로망들(400)에 연결된 부회로망들(410)로 구성되어 있다. 그리고 상기 부회로망들은 그들의 부회로망을 가질 수 있다.

즉, 신경회로망에서 판단이 애매한 출력들은 부회로망(410)에서 학습이 되어 최종 결과를 출력하게 되고, 부회로망(410)에서도 판단이 애매한 출력들은 다시 그 다음의 부회로망에서 학습이 되는 방법으로 그 학습을 수행한다.

예를 들면, 숫자 인식에 있어서, 만일 일과 칠, 삼과 '8, 육과 구가 그 음성을 인식하기가 어려운 숫자라고 하면, 그들 숫자에 대하여 한번 더 학습을 수행하는 것이다.

즉, 상기 방법은 학습의 인식률을 증가시키기 위하여 본 발명에서 제안되는 것이다.

제8도는 소프트웨어로 TV와 VTR명령어들을 시뮬레이션한 결과를 나타내는 도면으로서 바람직하게는 컴퓨터 모니터에 나타나는 화면이다.

즉, 한 사람의 화자에 의해 발음된 각 모듈당 약 300개의 데이터를 다층 신경회로망의 학습데이터로 사용하였고, 총 10개의 모듈로 시스템을 구성하였다. 인식에 걸리는 시간은 약 0.2초로 실시간 시스템을 구성할 수 있었다. 학습 후, 학습 데이터는 100%의 인식률을 보였고, 시험 데이터에 대해서는 90% 이상의 높은 인식률을 나타내었다.

따라서, 본 발명에 따른 음성 인식 시스템과 음성 인식 방법은 음성의 인식률을 높일 수 있는 장점이 있다.

Claims

가전제품의 리모콘 명령어를 인식하기 위한 음성 인식 시스템에 있어서, 사용자에 의해서 입력되는 음성을 입력하기 위한 마이크로폰; 상기 마이크로폰을 통해서 입력되는 음성신호가 소정시간 주기 내에서 복수 개의 데이터로 나늬어지는 음성분석수단; 상기 음성분석수단으로부터의 복수개의 데이터가 각각 인가 되는 복수개의 필터를 구비하고, 상기 복수개의 필터들 중에서 인접한 두 필터의 출력을 차례로 비교한 값에 따라서 이진화를 수행하여 이진화 데이터를 출력하기 위한 이진화수단; 및 각각의 신경회로망이 적어도 하나의 층으로 된 부신경회로망을 가지는 복수층의 신경회로망을 구비하고, 상기 이진화수단에서 출력된 이진화 데이터를 상기 각 층의 신경회로망을 통한 학습에 따라서 그 결과를 통합하여 출력하는 다층 신경회로망을 포함하는 것을 특징으로 하는 음성 인식 시스템.
제1항에 있어서, 상기 이진화수단은, 상기 복수개 데이터가 각각 인가되는 복수개의 필터를 구비하고, 상기 복수개의 필터중에서 인접한 두 필터의 출력을 차례로 비교하여 그 크기가 증가하면, 제1상태의 값을 그렇지 않으면, 제2상태의 값을 할당하는 제1수단; 상기 복수개 필터 중에서 한 필터를 중심으로 인접된 양쪽 필터가 중심 필터의 값보다 작을 때, 제1상태의 값을 할당하고 그렇지 않으면, 제2상태의 값을 할당하는 제2수단; 및 상기 필터의 출력을 일정 비율로 정규화한 다음 정해진 문턱값보다 클 때, 제1상태의 값을 할당하고 그렇지 않으면, 제2상태의 값을 할당하는 제3수단을 포함하는 것을 특징으로 하는 음성 인식 시스템.
제1항에 있어서, 상기 다층 신경회로망은, 모든 노드간의 가중치를 초기화하고, 입력과 이에 대응하는 출력의 쌍을 입출력에 제시하여, 각 노드에서 입력의 가중치의 합을 구하고, 하드 리미트 비선형 함수에 의해 출력을 발생하며, 출력노드에서 출력을 원하는 출력값과 비교하여 오차를 계산하고, 오차값에 따른 가중치의 변화분을 저장하고, 상기 과정을 모든 입력에 대해 수행하고 모든 출력값이 원하는 값과 같으면, 학습을 끝내고 그렇지 않으면 이때의 가중치 변화분의 합을 각각의 가중치에 더하며, 상기 과정을 일정 획수 반복후 , 원하는 결과가 나오지 않을 때는 층을 증가시킨 후, 앞의 층에서의 출력과 원래의 입력을 새로운 입력으로 하여 상기 과정을 반복하는 것을 특징으로 하는 음성 인식 시스템.