KR20000058531A

KR20000058531A - 음성합성 및 음성인식 기술을 이용한 언어 학습 및 훈련기능을 가진 완구의 제어방법

Info

Publication number: KR20000058531A
Application number: KR1020000032027A
Authority: KR
Inventors: 김성석
Original assignee: 김성석
Priority date: 2000-06-10
Filing date: 2000-06-10
Publication date: 2000-10-05

Abstract

본 발명은 유아 및 언어장애(이하, 사용자)를 가진 어린이를 주 대상으로 음성합성과 음성인식 기술을 이용하여 언어를 학습하고, 훈련하는 기능을 가진 완구의 제어방법에 관한 것으로, 더욱 상세하게는 완구의 전원 스위치를 켤 때마다 무작위 순서로 말하는 단어를 사용자가 따라서 말하고 이를 인식하여 인식된 결과, 즉 사용자가 말한 발음의 정확도(완구가 알아듣지 못함, 겨우 알아들음, 알아들음, 매우 잘 알아들음)에 따라 완구의 동작 또는 표정을 달리하는 완구의 제어방법에 관한 것이다.

본 발명의 목적은 "단어선택" → "음성 출력" → "따라서 말하기" → "음성 인식" → "발음의 정확도 평가" → "발음의 정확도에 따라 4 종류의 동작 또는 표정 짓기"의 과정을 반복함으로써 언어를 학습하고 훈련하는 교육 효과와 완구의 특성을 살리는 새로운 형태의 완구를 개발하는데 있다.

이를 위하여 본 발명은 도 1에서와 같이 완구의 전원 스위치를 켜면 단어사전으로부터 무작위로 단어를 선택하는 단계(1), 선택된 단어를 아날로그 음성으로 출력하는 단계(2), 출력된 음성을 따라 발성한 아날로그 입력신호를 전처리하는 단계(3), 아날로그 신호를 디지털 신호로 변환하는 단계(4), 음성구간을 검출하는 단계(5), 인지선형예측분석을 통하여 음성신호의 특징을 추출하는 단계(6), 학습을 통하여 음성인식모델(다층 퍼셉트론 신경회로망)을 구성하는 단계(7), 사용자 환경에서 음성이 감지되었을 때 이를 학습된 다층 퍼셉트론 신경회로망과 패턴정합을 수행하는 단계(8), 패턴정합의 결과에 따라 발음의 정확도를 판별하는 단계(9), 그리고 판별된 결과에 따라 제어신호를 발생하는 단계(10)로 구성된다.

이러한 본 발명의 효과는 음성합성과 음성인식 기술에 의하여 도 3에서 기술한 방법으로 언어를 학습하고 훈련하는 알고리즘을 완구에 적용한 것에 특징이 있으며, 이러한 특징을 지닌 완구는 유아 및 언어장애를 가진 어린이에게 즐거움과 행복감을 줄 수 있다.

Description

음성합성 및 음성인식 기술을 이용한 언어 학습 및 훈련 기능을 가진 완구의 제어방법{Toy with a capability of language learning and training using speech synthesis and speech recognition technologies}

본 발명은 유아 및 언어장애(이하, 사용자)를 가진 어린이를 주 대상으로 음성합성과 음성인식 기술을 이용하여 언어를 학습하고, 훈련하는 기능을 가진 완구의 제어방법에 관한 것으로, 더욱 상세하게는 완구의 전원 스위치를 켤때마다 무작위 순서로 말하는 단어를 사용자가 따라서 말하고 이를 인식하여 인식된 결과, 즉 사용자가 말한 발음의 정확도(완구가 알아듣지 못함, 겨우 알아들음, 알아들음, 매우 잘 알아들음)에 따라 완구의 동작 또는 표정을 달리하는 완구의 제어방법에 관한 것이다.

본 발명에 사용되는 기술은 음성합성과 음성인식 기술이다. 완구에 널리 사용되는 음성합성은 녹음된 음성데이터를 메모리에 저장한 후에 디지털 음성데이터를 D/A변환기(Digital-to-Analog Converter, DAC)를 통하여 아날로그 음성데이터로 변환한 다음, 이를 스피커를 통해 출력하는 방법을 채택하고 있다.

음성인식 방법은 일반적으로 도 2에서와 같이 마이크를 통하여 입력된 신호를 전처리기(1)를 통과한 후에 디지털신호로 변환한다(2). 그 다음 묵음 또는 배경 잡음으로부터 음성구간을 검출하고(3), 검출된 음성구간에 대한 음성의 특징을 추출한다(4). 그리고 음성패턴을 학습하여 음성인식모델(5)을 구성하고, 사용자 환경에서 음성이 검출되었을 때 이 음성패턴을 음성인식모델과 패턴정합(6)을 수행하여 가장 근접한 모델의 계수로 음성을 최종 인식하게 된다.

통상적으로 사용되는 음성인식 알고리즘에는 DTW(Dynamic Time Warping), 은닉마르코프모델(Hidden Markov Model, HMM), 신경회로망(Neural Network, NN) 등이 있으며, 최근에는 HMM과 NN의 장점을 결합한 NN-HMM의 복합형(Hybrid)이 많이 연구되고 있다.

현재까지 음성합성 및 음성인식 기술을 사용한 완구에는 녹음된 음성만을 단순히 출력해 주는 완구, 음성을 인식하여 음성명령에 따라 동작하는 완구, 질의한 음성을 인식하고 질의에 대한 약속된 응답을 음성으로 출력해 주는 대화형 완구 등이 출원된 바 있다. 그러나 유아 또는 언어장애를 가진 어린이를 대상으로 언어를 학습하고 훈련하는 기능을 가진 완구는 출원된 바 없으며, 따라서 이러한 종류의 완구를 개발하는 것이 필요하다.

본 발명은 상기와 같이, 언어를 학습하고 훈련하는 알고리즘을 완구에 적용하여 "흥미"와 "교육" 기능이 융합된 새로운 형태의 완구를 개발하는데 목적이 있다.

이와 같은 목적을 달성하기 위하여 본 발명에서 고안한 언어 학습 및 훈련 알고리즘을 나타내는 도 3을 설명하면 다음과 같다.

먼저 단어사전에서 단어를 무작위로 선택하여(1) 음성으로 출력하고(2), 출력된 음성을 따라서 말한다(3). 그 다음 음성이 검출되면 음성인식을 수행하고(4), 음성이 검출되지 않은 상태에서 10초가 지속되면 단어사전에서 새로운 단어를 무작위로 선택하여 음성으로 다시 출력한다(5). 다음, 음성인식의 수행 결과에 따라 발음의 정확도를 4단계(완구가 알아듣지 못함[a], 겨우 알아들음[b], 알아들음[c], 매우 잘 알아들음[d])로 평가하고(6), 평가된 결과에 따라 4가지 유형으로 완구의 표정이나 동작을 짓게 한다(7). 만일 (6)에서 [a]로 평가되면 (2)로 돌아가서 동일한 단어를 음성으로 다시 출력하고(8), [b]∼[d]로 평가된 경우에는 (1)로 돌아가서 새로운 단어를 선택하여 이러한 과정을 반복한다.

이와 같은 기능을 가진 완구를 만들기 위하여 사용되는 음성합성과 음성인식 기술은 다음과 같다.

음성합성 기술은 완구에 널리 사용되는 방법으로, 녹음한 음성데이터를 메모리에 저장하고 저장된 디지털 음성신호를 D/A 변환기(Digital-to-Analog Converter, DAC)를 통하여 아날로그 음성신호로 변환한 다음, 이를 스피커를 통해 출력하는 방법을 채택한다.

음성인식 기술은 단순한 하드웨어시스템으로 실시간 동작을 꾀하기 위하여 다층 퍼셉트론(Multi-Layer Perceptron, MLP) 신경회로망을 음성인식 알고리즘으로 사용한다.

도 1은 본 발명의 음성합성 및 음성인식 기술을 이용한 언어 학습 및 훈련 기능을 가진 완구의 모듈별 기능을 나타낸 블록 다이어그램

도 2는 일반적인 음성인식 방법의 과정을 나타낸 블록 다이어그램

도 3은 본 발명에서 고안한 언어 학습 및 훈련 알고리즘을 도시한 흐름도

도 4는 본 발명에서 음성인식모델로 사용한 다층 퍼셉트론 신경회로망의 구조도

이하 첨부된 도면에 의해 본 발명의 단계별 구성과 작용을 상세히 설명하면 다음과 같다.

도 1은 본 발명의 음성합성 및 음성인식 기술을 이용한 언어 학습 및 훈련 기능을 가진 완구의 제어방법의 전 과정을 도식한 블록 다이어그램이다. 도1에서 완구의 전원 스위치를 켜면, (1)의 단어선택에서는 단어사전으로부터 무작위로 단어를 하나 선택한다.

(2)의 음성출력에서는 메모리에 저장되어 있는 단어의 디지털 음성신호를 D/A 변환기(Digital-to-Analog Converter, DAC)를 통하여 아날로그 음성신호로 변환한 다음, 이를 스피커를 통해 출력한다. 그 다음, 마이크를 통하여 음성이 입력되기를 기다린다.

(3)의 전처리에서는 입력장치 마이크의 잡음 요소를 억제하는 잡음억제회로, 입력신호를 증폭하는 증폭회로, 그리고 신호의 저주파 성분은 통과시키고 고주파 성분은 차단하는 저역통과필터(Low Pass Filter) 회로로 구성되어 있다.

(4)의 A/D 변환기(Analog-to-Digital Converter)는 (3)을 통과한 아날로그 신호를 디지털신호로 변환하는 장치로 본 발명에서는 12bit A/D 변환기를 사용한다.

(5)의 음성구간 검출기는 (4)를 통과한 디지털 음성신호를 묵음 또는 배경 잡음으로부터 음성의 시작점과 끝점을 구하여 음성구간만을 검출한다. 본 발명에서는 음성의 단구간 에너지와 영교차율(Zero Crossing Rate)을 이용하여 음성구간을 검출하는 통상의 방법을 사용한다.

(6)의 인지선형예측분석(Perceptual Linear Prediction, PLP)은 인간의 청각 스펙트럼을 모사하고, 음성 정보를 압축하는 효과를 보이는 음성신호 분석기술로 스펙트럴 분석, Critical-band spectral resolution, Equal-loudness pre-emphasis, Intensity-loudness power law, 그리고 Autoregressive modeling 과정으로 구성되어 있다. 인지선형예측분석의 보다 상세한 내용은 아래 학술논문지¹⁾에 실려있다. 본 발명에서는 이러한 인지선형분석기술을 이용하여 음성의 특징(feature)을 추출한다.

¹⁾Journal of the Acoustic Society of America, 87, 4, 1990년 4월, Acoustic Society of America, USA, H. Hermansky, "Perceptual Linear Predictive(PLP) analysis of spech", pp.1738-1752.

(7)과 (8)을 포함하는 다층 프셉트론 신경회로망은 본 발명에서 음성인식 알고리즘으로 사용된다. 다층 퍼셉트론은 도 2의 일반적인 음성인식 방법의 과정에서 음성인식모델의 학습(5)과 패턴정합(6)의 2 과정을 포함한다.

(7)의 학습은 본 발명의 완구를 임의의 사용자가 사용할 수 있도록 음성(엄마, 아빠, 언니, 누나, 할머니, 할아버지, 눈, 코, 입, father, mother, eye, mouth, nose 등)을 다수의 사람과 다양한 환경에서 녹취하여 음성 데이터베이스를 구축하고, 이 음성 데이터베이스를 이용하여 (3)∼(6) 과정을 통하여 얻은 음성특징을 다층 퍼셉트론 신경회로망에 학습한다.

(8)의 시험은 본 발명 완구의 실제 사용 환경에서 음성인식을 수행하는 과정이다. 즉, 사용자 환경에서 (3)∼(6) 과정을 통하여 얻은 음성 정보를 다층 퍼셉트론 신경회로망에 인가하고 패턴매칭을 수행하여 입력 음성을 인식한다.

(9)의 발음의 정확도 평가는 다층 퍼셉트론 신경회로망의 출력 값[0.0∼1.0]에 따라 발음의 정확도를 4단계(완구가 알아듣지 못함[a], 겨우 알아들음[b], 알아들음[c], 매우 잘 알아들음[d])로 구분하여 평가한다.

(10)의 출력신호 발생은 (9)에서 평가한 발음의 정확도에 따라 4가지 유형으로 완구의 표정이나 동작을 짓게 하는 제어신호를 발생한다.

이하 다층 퍼셉트론 신경회로망의 구조와 학습 방법을 설명하면 다음과 같다. 다층 퍼셉트론의 구조는 도 4와 같다. 다층 퍼셉트론은 입력층(input layer)과 은닉층(hidden layer), 그리고 출력층(output layer)으로 구성된 다층 전향 연결구조의 신경회로망이다. 각 층간의 노드들은 전향적으로 상호 완전결합(fully connected)되어 있다.

다층 퍼셉트론의 학습에는, 대표적인 지도학습(supervised learning) 방법인 오류 역전파 (Error Back-Propagation, EBP) 학습 알고리즘을 사용된다. EBP 학습 알고리즘을 설명하면 다음과 같다.

이상에서 상술한 바와 같이 본 발명은, 음성합성과 음성인식 기술에 의하여 도 3에서 기술한 알고리즘으로 언어를 학습하고 훈련하는 수단을 완구에 적용한 것과, 다층 퍼셉트론 신경회로망을 음성인식 알고리즘으로 사용한 것에 특징이 있다. 이러한 특징을 지닌 완구는 유아 및 언어장애를 가진 어린이에게 "놀이"와 "교육"의 두 가지 효과를 동시에 준다.

Claims

도 3의 언어(한글 및 영어) 학습 및 훈련 알고리즘
제 1항의 방법으로 제조된 언어 학습 및 훈련 기능을 가진 완구
제 1항의 방법으로 만든 언어 학습 및 훈련용 웹 콘텐츠(web contents)