KR0185755B1

KR0185755B1 - 신경회로망을 이용한 음성인식 시스템

Info

Publication number: KR0185755B1
Application number: KR1019940001995A
Authority: KR
Inventors: 정호선; 고재평
Original assignee: 정호선
Priority date: 1994-02-03
Filing date: 1994-02-03
Publication date: 1999-05-15
Also published as: KR950025560A

Abstract

본 발명은 신경회로망을 이용한 음성 인식시스템을 공개한다. 그 시스템은 음성을 입력하기 위한 음성입력수단, 상기 음성입력수단으로부터 입력된 음성을 분석하기 위한 음성 분석수단, 상기 음성분석된 결과를 입력하기 위한 입력수단, 음성인식 결과를 출력하기 위한 음성출력수단, 데이터의 리드와 라이트를 제어하기 위한 제어수단을 구비하는 음성인식시스템에 있어서, 상기 제어수단에 의하여 제어되고, 상기 음성 입력수단을 통한 상기 음성 분석 결과 데이터를 저장하기 위한 제1저장수단; 상기 제어수단에 의하여 제어되고, 학습된 가중치 데이터가 저장되어 있는 제2저장수단; 및 상기 제어수단에 의하여 제어되고, 상기 제1저장수단에 저장된 결과를 저장된 프로그램에 의해서 정규화하고 이진화하며, 상기 제1저장수단에 저장한 후, 상기 제1저장수단의 이진화된 데이터를 입력하고 상기 제2저장수단에 저장된 가중치 데이터를 입력하여 학습을 수행하여 최종적인 음성인식 결과를 상기 음성출력수단으로 출력하기 위한 제3저장수단을 포함하는 것을 특징으로 한다. 따라서, 컴퓨터를 사용하지 않고 간단하게 음성인식 시스템을 구성할 수 있다.

Description

신경회로망을 이용한 음성인식 시스템

제1도는 본 발명의 음성인식 시스템에 사용될 신경회로망의 모델을 나타내는 도.

제2도는 일반적인 음성인식 시스템의 블럭도.

제3도는 본 발명의 음성인식 시스템의 블럭도.

제4도는 본 발명의 음성인식 시스템에 사용되는 메모리의 메모리 맵을 나타내는 것 도.

제5도는 음성분석 데이터의 추출과정을 나타내는 것.

제6도는 본 발명의 음성인식 과정을 나타내는 흐름도.

제7도는 본 발명에 사용된 실시예의 음성합성 시스템의 블록도.

본 발명은 음성인식 시스템에 관한 것으로, 특히 신경회로망을 이용한 음성인식 시스템에 관한 것이다.

대화형 장난감은 음성을 인식하기 위한 음성인식 시스템과 인식된 음성을 합성하기 위한 음성합성 시스템으로 이루어지게 된다. 그런데, 음성합성 시스템은 일반적으로 사용되는 방법을 이용하여 인식된 음성을 쉽게 합성할 수 있다. 그러나, 음성인식 시스템은 일반적으로 사람들의 음성의 특징을 추출하여 음성의 인식을 수행하게 되지만 모든 사람들의 음성을 정화하게 인식하기가 여전히 어려운 문제이다. 인식에서의 이러한 문제를 해결할 수 있는 것이 바로 신경회로망이다.

본 발명의 발명자에 의해서 기출원된 입력구동 다층신경회로망(IDMLP; Input Driven Multi-Layer Perceptron)은 입력에서의 모든 뉴련들이 출력층과 마찬가지로 완전하게 모든 은닉층의 신경망들에 연결되는 것을 제외하고는 다층 신경망(MLP; Multi-Layer Perceptron)의 구성과 동일하다.

본 발명의 목적은 입력구동 다층신경회로망을 이용한 대화형 장난감을 제공하는데 있다.

이와 같은 목적을 달성하기 위한 본 발명의 신경회로망을 이용한 음성인식 시스템은 음성을 입력하기 위한 음성입력수단, 사익 음성입력수단으로부터 입력된 음성을 분석하기 위한 음성 분석수단, 상기 음성분석된 결과를 입력하기 위한 입력수단, 음성인식 결과를 출력하기 위한 음성출력수단, 데이터의 리드와 라이트를 제어하기 위한 제어수단을 구비하는 음성인식시스템에 있어서, 상기 제어수단에 의하여 제어되고, 상기 음성 입력수단을 통한 상기 음성 분석 결과 데이터를 저장하기 위한 제1저장수단; 상기 제어수단에 의하여 제어되고, 학습된 가중치 데이터가 저장되어 있는 제2저장수단; 및 상기 제어수단에 의하여 제어되고, 상기 제1저장수단에 저장된 결과를 저장된 프로그램에 의해서 정규화하고 이진화하며, 상기 제1저장수단에 저장한 후, 상기 제1저장수단의 이진화된 데이터를 입력하고 상기 제2저장수단에 저장된 가중치 데이터를 입력하여 학습을 수행하여 최종적인 음성인식 결과를 상기 음성출력수단으로 출력하기 위한 제3저장수단을 포함하는 것을 특징으로 한다.

첨부된 도면을 참고로 하여 본 발명의 대화형 장난감을 설명하기 전에 음성인식 시스템을 위하여 사용될 다층신경회로망을 설명하면 다음과 같다.

제1도는 본 발명의 음성인식 시스템에 사용될 입력구동 다층 신경회로망의 모델을 나타내는 것이다.

제1도에 있어서, 데이터를 입력하기 위한 입력층(1), 상기 입력층(1)으로부터의 신호와 이전층의 출력신호를 입력하여 학습을 수행하는 은닉층(2), 및 입력층(1)으로부터의 신호와 은닉층(2)의 출력신호를 입력하여 학습을 수행하고 최종적인 결과를 출력하기 위한 출력층(3)으로 구성되어 있다.

먼저, 주어진 2진 훈련 패턴에 대하여, 은닉층의 수는 미리 정의되지 않는다. 마치 은닉층이 요구되지 않는 것처럼 단지 입력과 출력만을 가지고 시작한다. 만일 은닉층이 없이 주어진 패턴들을 분류하는 것이 불가능한 것이 발견되면, 출력층의 수와 같은 뉴런들의 수를 가지는 층이 출력층의 위에 발생한다. 그런데, 이전 출력층은 제1은닉층이 된다. 출력층에서의 뉴런들은 완전하게 출력층내의 뉴런들에 연결된다. 부가적인 층에도 불구하고, 만일 학습주기 후에(또는, 소정의 반복회수 후에)망이 주어진 패턴들을 분류하지 못한다면, 또 다른 층이 이전 망의 위에 더해진다. 이때, 망은 두 개의 은닉층을 가진다. 이전망의 출력층은 제2은닉층이 된다. 분명하게, 제2은닉층은 제1은닉층과 동일한 수의 뉴런을 가진다. 이것은 출력들의 수와 동일하다. 그러나, 새롭게 더해진 층 내에서 뉴런들은 완전하게 제2은닉층과 입력층내의 모든 뉴런들에 연결된다. 그렇지 않고, 만일 은닉층의 망과 패턴을 분류하는 것이 불가능하다는 것이 발견된다면, 동일한 방법으로 제3은닉층을 발생한다. 제3은닉층내의 뉴런들은 유사하게 제2은닉층과 입력층내의 뉴런들에 연결된다. 이 과정은 모든 훈련 패턴들이 정확하게 분류될 때까지 계속한다.

상기 다층신경회로망의 학습과정을 설명하면 다음과 같다.

1. 단일층 내에서 모든 가중치를 작은값으로 초기화한다.

2. 망에 훈련 패턴을 제시한다. 출력층의 뉴런으로부터 출력을 얻고 제시된 훈련패턴에 대하여 실제적인 출력과 원하는 출력을 비교함에 의해서 에러값을 얻는다. 이것은 다음식에 의해서 얻어질 수 있다.

여기에서, W_ij는 k번째 위상에서 출력층의 j번째 뉴런과 입력층의 I번째 뉴런사이의 연결가중치이다. T_ij는 k번째 위상에서 출력층의 j번째 뉴런과 이전층의 I번째 뉴런사이의 연결가중치이다. X_j는 j번째 입력이고 Y_j는 이전층으로부터의 출력이다. 모든 j에 대하여 Y_j1은 0이다.

3a. 만일 모든 error_i이 0이라면, 단계2부터 수행한다.

3b. 만일 error_i가 0이 아니고 OUT_i가 0이면, 가중치를 1씩 증가한다. 만일 error_i가 0이 아니고 OUT_i가 1이면 가중치를 1씩 감소한다. 가중치는 즉시 변경되지 않으나 저장한다.

4. 마지막 훈련 패턴이 망에 제시될 때까지 단계2부터 수행한다.

5a. 만일, 모든 훈련패턴에 대하여 error_i이 0이면, 학습을 중단한다.

5b. 반복 후에 에러값이 0이 아니면, 아래의 식에 따라 단계3에서 저장된 가중치로 수정하라. 만일 반복 횟수가 어떤값보다 크다면, 망 위의 또 다른 층을 덧붙이고 단계2부터 수행한다.

이 학습 과정에서 외부의 파라메타는 하나의 뉴런에 모든 연결 가중치의 대수적인 합에 대한 상한값이다. W_SUM과 반복수는 다른 층을 더하기 전에 허락된다. 만일 훈련된 망이 소프트웨어로 사용된다면, W_SUM은 특정화되지 않는다.

제2도는 일반적인 음성인식 시스템의 블럭도이다.

제2도에 있어서, 음성인식 시스템은 인간의 불협화음에 의해서 발생되는 공기압 변화를 전기적인 신호로 변환하는 변환기(10), 상기 변환기(10)에 의해서 발생되는 여러 가지 전기적인 신호로부터 필요한 특징을 추출하는 전처리수단(20), 상기 필요한 특징에 따라 음성을 분류하는 분류수단(30)으로 이루어진다. 여기에서 변환기(10)의 종류로는 콘덴서 마이크로폰, 동적 마이크로폰 등이 있다.

전기적인 신호로 변환된 음성을 디지털 값으로 나타내는 방법은 신호파형을 디지털 값으로 나타내는 파형 코딩방법과 신호의 특성을 파라메타로 나타내는 파라메트릭 표현방법으로 이루어진다. 후자는 주로 음성인식에서 사용되고 음성인식의 특징에 의해서 필터 뱅크출력이 주로 사용된다.

음성을 인식하는데 대부분의 시간을 요구하는 전처리과정은 하드웨어에 의해서 형성되고 그래서 실시간 음성인식 시스템을 구성한다.

그래서 7채널 대역 필터의 출력을 하드웨어로 얻어지고 그래서, 요구되는 시간은 실시간 음성인식 시스템에 사용될 수 있도록 하기 위하여 감소된다. 아래의 표는 필터뱅크 출력의 7대역 필터의 주파수 특성을 나타내는 것이다.

제3도는 본 발명의 신경회로망을 이용한 음성인식 시스템의 블록도이다.

제3도에 있어서, 음성인식 시스템은 제어수단(100), 디코더(101,102), 제1메모리(103), 제2메모리(104), 제3메모리(105), OR게이트들(106,107), 버퍼(108), 타이밍 제어수단(109), 음성입력수단(110), 음성출력수단(111), 클럭 발생수단(112), 및 리세트 회로(113)로 구성되어 있다.

상기 구성의 동작을 설명하면 다음과 같다.

음성입력수단(110)을 통하여 7대역 필터 주파수에 의해서 음성분석된 결과를 버퍼(108)와 데이터 버스를 통하여 제3메모리(105)에 저장된다. 저장된 데이터는 제1메모리(103)에 저장된 프로그램에 의해서 시간축 정규화되고 이진화된다. 이진화된 데이터는 데이터 버스를 통하여 제3메모리(105)에 저장된다. 또한, 제1메모리(103)는 상기 이진화된 데이터를 입력데이타로 하고 입력데이타에 대응하는 가중치 데이터가 저장된 제2메모리(104)로부터 가중치 데이터를 입력하여 인식과정을 수행하고 난 후 인식된 결과 데이터를 출력한다. 인식결과 데이터는 데이터 버스와 버퍼(108)를 통하여 음성합성수단에 연결되는 음성출력수단(111)을 통하여 출력된다. 음성출력수단(111)은 음성 인식시스템에 결합되어야 할 필요는 없고 음성 합성수단에 결합되어도 상관없다. OR게이트들(106, 107)은 버퍼(108)와 제1, 제2 제3메모리(103, 104, 105)와 타이밍 제어수단(109)의 리드와 라이트를 제어하게 된다. 디코더(101)는 제 1, 제2, 제3메모리(103, 104, 105)를 선택하기 위한 인에이블 신호를 발생하고 디코더(102)는 타이밍 제어수단(109), 음성 입,출력수단(110, 111)을 선택하기 위한 인에이블 신호를 발생한다. 타이밍 제어수단(109)은 각 부의 동작 타이밍을 제어한다. 제어수단(100)의 어드레스 신호(A13-A15)는 디코더(101)의 입력으로 사용되고 어드레스 신호(A2-A4, A7)는 디코더(102)의 입력으로 사용된다. 그리고 리드, 라이트신호(/RD, /WR)와 입, 출력 요청신호(/IORQ)는 OR게이트들(106, 107)의 입력으로 사용된다. 그래서 제어수단(100)은 각 부를 제어하게 된다.

제4도는 제3도에 나타낸 제1, 제2, 제3메모리들의 메모리 맵을 나타내는 것이다.

제4도에 있어서, 메모리 어드레스(0000H - 1FFFH)는 제1메모리 영역으로 모니터 프로그램이 저장되어 있고, 메모리 어드레스(2000H - 3FFFH)는 가중치 데이터가 저장되어 있고, 메모리 어드레스(4000H - 5FFFH)는 일시적인 순시 데이터가 저장된 영역으로 어드레스(4000H - 4FFFH)는 이진화된 데이터가 저장되는 영역이고 어드레스(5000H - 5FFFH)에는 분석된 데이터가 입력되는 영역이다.

제5도는 본 발명의 음성 분석데이타를 추출하는 과정을 나타내는 것이다.

마이크로폰을 통하여 음성을 입력한다(제200단계). 시스템을 초기화한다(제201단계). 채널 데이터를 설정한다(제202단계). 음성 입력수단이 인에이블 되었는가를 판단한다(제203단계). 음성입력수단이 인에이블 되었으면, 음성 분석결과를 출력하고 상기 제202단계로 진행한다(제204단계).

제6도는 본 발명의 음성인식 시스템의 음성인식 과정을 나타내는 동작 흐름도이다.

음성 분석 데이터를 임력한다(제300단계). 데이터를 제3메모리(105)에 저장한다(제301단계). 음성 구간을 검출한다(제302단계). 제1메모리(103) 저장된 프로그램에 의해서 시간축 정규화를 수행한다(제303단계). 그리고, 제1메모리(103)에 저장된 프로그램에 의해서 이진화를 수행한다(제304단계). 이진화된 결과와 제2메모리(104)에 저장된 가중치 데이터를 입력하여 제1메모리(103)의 다층 신경회로망에 의해 학습된 결과에 따라서 음성을 인식한다(제305단계). 음성인식 결과를 출력한다(제306단계).

제7도는 본 발명의 실시예의 음성합성 시스템의 블록도이다.

제7도에 있어서, 음성합성 시스템은 Z80시스템(400), 음성 합성기(401), 저역 통과 필터(402), 파워 증폭기(403), 및 스피커(404)로 구성되어 있다.

음성합성 시스템은 제7도에 나타낸 것과 같은 시스템을 사용하지 않고 일반적인 음성합성 시스템을 사용하여도 상관없다.

따라서, 본 발명의 음성인식 시스템은 대화형 장난감의 음성인식을 위하여 사용될 수 있다.

즉, 제3도에 나타낸 것과 같은 시스템을 채용하면 모든 음성의 인신이 가능하게 된다.

본 발명의 음성 인식 시스템은 컴퓨터를 사용하지 않으므로 시스템이 작아지게 되고, 신경회로망을 사용함으로써 정확한 음성인식이 가능하다.

Claims

음성을 입력하기 위한 음성입력수단, 상기 음성입력수단으로부터 입력된 음성을 분석하기 위한 음성 분석수단, 상기 음성분석된 결과를 입력하기 위한 입력수단, 음성인식 결과를 출력하기 위한 음성출력수단, 데이터의 리드와 라이트를 제어하기 위한 제어수단을 구비하는 음성인식시스템에 있어서, 상기 제어수단에 의하여 제어되고, 상기 음성 입력수단을 통한 상기 음성 분석 결과 데이터를 저장하기 위한 제1저장수단; 상기 제어수단에 의하여 제어되고, 학습된 가중치 데이터가 저장되어 있는 제2저장수단; 및 상기 제어수단에 의하여 제어되고, 상기 제1저장수단에 저장된 결과를 저장된 프로그램에 의해서 정규화하고 이진화하며, 상기 제1저장수단에 저장한 후, 상기 제1저장수단의 이진화된 데이터를 입력하고 상기 제2저장수단에 저장된 가중치 데이터를 입력하여 학습을 수행하여 최종적인 음성인식 결과를 상기 음성출력수단으로 출력하기 위한 제3저장수단을 포함하는 것을 특징으로 하는 음성인식 시스템.