KR20000058531A - 음성합성 및 음성인식 기술을 이용한 언어 학습 및 훈련기능을 가진 완구의 제어방법 - Google Patents

음성합성 및 음성인식 기술을 이용한 언어 학습 및 훈련기능을 가진 완구의 제어방법 Download PDF

Info

Publication number
KR20000058531A
KR20000058531A KR1020000032027A KR20000032027A KR20000058531A KR 20000058531 A KR20000058531 A KR 20000058531A KR 1020000032027 A KR1020000032027 A KR 1020000032027A KR 20000032027 A KR20000032027 A KR 20000032027A KR 20000058531 A KR20000058531 A KR 20000058531A
Authority
KR
South Korea
Prior art keywords
voice
toy
speech
detected
signal
Prior art date
Application number
KR1020000032027A
Other languages
English (en)
Inventor
김성석
Original Assignee
김성석
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김성석 filed Critical 김성석
Priority to KR1020000032027A priority Critical patent/KR20000058531A/ko
Publication of KR20000058531A publication Critical patent/KR20000058531A/ko

Links

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/04Electrically-operated educational appliances with audible presentation of the material to be studied
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/081Search algorithms, e.g. Baum-Welch or Viterbi

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Toys (AREA)

Abstract

본 발명은 유아 및 언어장애(이하, 사용자)를 가진 어린이를 주 대상으로 음성합성과 음성인식 기술을 이용하여 언어를 학습하고, 훈련하는 기능을 가진 완구의 제어방법에 관한 것으로, 더욱 상세하게는 완구의 전원 스위치를 켤 때마다 무작위 순서로 말하는 단어를 사용자가 따라서 말하고 이를 인식하여 인식된 결과, 즉 사용자가 말한 발음의 정확도(완구가 알아듣지 못함, 겨우 알아들음, 알아들음, 매우 잘 알아들음)에 따라 완구의 동작 또는 표정을 달리하는 완구의 제어방법에 관한 것이다.
본 발명의 목적은 "단어선택" → "음성 출력" → "따라서 말하기" → "음성 인식" → "발음의 정확도 평가" → "발음의 정확도에 따라 4 종류의 동작 또는 표정 짓기"의 과정을 반복함으로써 언어를 학습하고 훈련하는 교육 효과와 완구의 특성을 살리는 새로운 형태의 완구를 개발하는데 있다.
이를 위하여 본 발명은 도 1에서와 같이 완구의 전원 스위치를 켜면 단어사전으로부터 무작위로 단어를 선택하는 단계(1), 선택된 단어를 아날로그 음성으로 출력하는 단계(2), 출력된 음성을 따라 발성한 아날로그 입력신호를 전처리하는 단계(3), 아날로그 신호를 디지털 신호로 변환하는 단계(4), 음성구간을 검출하는 단계(5), 인지선형예측분석을 통하여 음성신호의 특징을 추출하는 단계(6), 학습을 통하여 음성인식모델(다층 퍼셉트론 신경회로망)을 구성하는 단계(7), 사용자 환경에서 음성이 감지되었을 때 이를 학습된 다층 퍼셉트론 신경회로망과 패턴정합을 수행하는 단계(8), 패턴정합의 결과에 따라 발음의 정확도를 판별하는 단계(9), 그리고 판별된 결과에 따라 제어신호를 발생하는 단계(10)로 구성된다.
이러한 본 발명의 효과는 음성합성과 음성인식 기술에 의하여 도 3에서 기술한 방법으로 언어를 학습하고 훈련하는 알고리즘을 완구에 적용한 것에 특징이 있으며, 이러한 특징을 지닌 완구는 유아 및 언어장애를 가진 어린이에게 즐거움과 행복감을 줄 수 있다.

Description

음성합성 및 음성인식 기술을 이용한 언어 학습 및 훈련 기능을 가진 완구의 제어방법{Toy with a capability of language learning and training using speech synthesis and speech recognition technologies}
본 발명은 유아 및 언어장애(이하, 사용자)를 가진 어린이를 주 대상으로 음성합성과 음성인식 기술을 이용하여 언어를 학습하고, 훈련하는 기능을 가진 완구의 제어방법에 관한 것으로, 더욱 상세하게는 완구의 전원 스위치를 켤때마다 무작위 순서로 말하는 단어를 사용자가 따라서 말하고 이를 인식하여 인식된 결과, 즉 사용자가 말한 발음의 정확도(완구가 알아듣지 못함, 겨우 알아들음, 알아들음, 매우 잘 알아들음)에 따라 완구의 동작 또는 표정을 달리하는 완구의 제어방법에 관한 것이다.
본 발명에 사용되는 기술은 음성합성과 음성인식 기술이다. 완구에 널리 사용되는 음성합성은 녹음된 음성데이터를 메모리에 저장한 후에 디지털 음성데이터를 D/A변환기(Digital-to-Analog Converter, DAC)를 통하여 아날로그 음성데이터로 변환한 다음, 이를 스피커를 통해 출력하는 방법을 채택하고 있다.
음성인식 방법은 일반적으로 도 2에서와 같이 마이크를 통하여 입력된 신호를 전처리기(1)를 통과한 후에 디지털신호로 변환한다(2). 그 다음 묵음 또는 배경 잡음으로부터 음성구간을 검출하고(3), 검출된 음성구간에 대한 음성의 특징을 추출한다(4). 그리고 음성패턴을 학습하여 음성인식모델(5)을 구성하고, 사용자 환경에서 음성이 검출되었을 때 이 음성패턴을 음성인식모델과 패턴정합(6)을 수행하여 가장 근접한 모델의 계수로 음성을 최종 인식하게 된다.
통상적으로 사용되는 음성인식 알고리즘에는 DTW(Dynamic Time Warping), 은닉마르코프모델(Hidden Markov Model, HMM), 신경회로망(Neural Network, NN) 등이 있으며, 최근에는 HMM과 NN의 장점을 결합한 NN-HMM의 복합형(Hybrid)이 많이 연구되고 있다.
현재까지 음성합성 및 음성인식 기술을 사용한 완구에는 녹음된 음성만을 단순히 출력해 주는 완구, 음성을 인식하여 음성명령에 따라 동작하는 완구, 질의한 음성을 인식하고 질의에 대한 약속된 응답을 음성으로 출력해 주는 대화형 완구 등이 출원된 바 있다. 그러나 유아 또는 언어장애를 가진 어린이를 대상으로 언어를 학습하고 훈련하는 기능을 가진 완구는 출원된 바 없으며, 따라서 이러한 종류의 완구를 개발하는 것이 필요하다.
본 발명은 상기와 같이, 언어를 학습하고 훈련하는 알고리즘을 완구에 적용하여 "흥미"와 "교육" 기능이 융합된 새로운 형태의 완구를 개발하는데 목적이 있다.
이와 같은 목적을 달성하기 위하여 본 발명에서 고안한 언어 학습 및 훈련 알고리즘을 나타내는 도 3을 설명하면 다음과 같다.
먼저 단어사전에서 단어를 무작위로 선택하여(1) 음성으로 출력하고(2), 출력된 음성을 따라서 말한다(3). 그 다음 음성이 검출되면 음성인식을 수행하고(4), 음성이 검출되지 않은 상태에서 10초가 지속되면 단어사전에서 새로운 단어를 무작위로 선택하여 음성으로 다시 출력한다(5). 다음, 음성인식의 수행 결과에 따라 발음의 정확도를 4단계(완구가 알아듣지 못함[a], 겨우 알아들음[b], 알아들음[c], 매우 잘 알아들음[d])로 평가하고(6), 평가된 결과에 따라 4가지 유형으로 완구의 표정이나 동작을 짓게 한다(7). 만일 (6)에서 [a]로 평가되면 (2)로 돌아가서 동일한 단어를 음성으로 다시 출력하고(8), [b]∼[d]로 평가된 경우에는 (1)로 돌아가서 새로운 단어를 선택하여 이러한 과정을 반복한다.
이와 같은 기능을 가진 완구를 만들기 위하여 사용되는 음성합성과 음성인식 기술은 다음과 같다.
음성합성 기술은 완구에 널리 사용되는 방법으로, 녹음한 음성데이터를 메모리에 저장하고 저장된 디지털 음성신호를 D/A 변환기(Digital-to-Analog Converter, DAC)를 통하여 아날로그 음성신호로 변환한 다음, 이를 스피커를 통해 출력하는 방법을 채택한다.
음성인식 기술은 단순한 하드웨어시스템으로 실시간 동작을 꾀하기 위하여 다층 퍼셉트론(Multi-Layer Perceptron, MLP) 신경회로망을 음성인식 알고리즘으로 사용한다.
도 1은 본 발명의 음성합성 및 음성인식 기술을 이용한 언어 학습 및 훈련 기능을 가진 완구의 모듈별 기능을 나타낸 블록 다이어그램
도 2는 일반적인 음성인식 방법의 과정을 나타낸 블록 다이어그램
도 3은 본 발명에서 고안한 언어 학습 및 훈련 알고리즘을 도시한 흐름도
도 4는 본 발명에서 음성인식모델로 사용한 다층 퍼셉트론 신경회로망의 구조도
이하 첨부된 도면에 의해 본 발명의 단계별 구성과 작용을 상세히 설명하면 다음과 같다.
도 1은 본 발명의 음성합성 및 음성인식 기술을 이용한 언어 학습 및 훈련 기능을 가진 완구의 제어방법의 전 과정을 도식한 블록 다이어그램이다. 도1에서 완구의 전원 스위치를 켜면, (1)의 단어선택에서는 단어사전으로부터 무작위로 단어를 하나 선택한다.
(2)의 음성출력에서는 메모리에 저장되어 있는 단어의 디지털 음성신호를 D/A 변환기(Digital-to-Analog Converter, DAC)를 통하여 아날로그 음성신호로 변환한 다음, 이를 스피커를 통해 출력한다. 그 다음, 마이크를 통하여 음성이 입력되기를 기다린다.
(3)의 전처리에서는 입력장치 마이크의 잡음 요소를 억제하는 잡음억제회로, 입력신호를 증폭하는 증폭회로, 그리고 신호의 저주파 성분은 통과시키고 고주파 성분은 차단하는 저역통과필터(Low Pass Filter) 회로로 구성되어 있다.
(4)의 A/D 변환기(Analog-to-Digital Converter)는 (3)을 통과한 아날로그 신호를 디지털신호로 변환하는 장치로 본 발명에서는 12bit A/D 변환기를 사용한다.
(5)의 음성구간 검출기는 (4)를 통과한 디지털 음성신호를 묵음 또는 배경 잡음으로부터 음성의 시작점과 끝점을 구하여 음성구간만을 검출한다. 본 발명에서는 음성의 단구간 에너지와 영교차율(Zero Crossing Rate)을 이용하여 음성구간을 검출하는 통상의 방법을 사용한다.
(6)의 인지선형예측분석(Perceptual Linear Prediction, PLP)은 인간의 청각 스펙트럼을 모사하고, 음성 정보를 압축하는 효과를 보이는 음성신호 분석기술로 스펙트럴 분석, Critical-band spectral resolution, Equal-loudness pre-emphasis, Intensity-loudness power law, 그리고 Autoregressive modeling 과정으로 구성되어 있다. 인지선형예측분석의 보다 상세한 내용은 아래 학술논문지1)에 실려있다. 본 발명에서는 이러한 인지선형분석기술을 이용하여 음성의 특징(feature)을 추출한다.
1)Journal of the Acoustic Society of America, 87, 4, 1990년 4월, Acoustic Society of America, USA, H. Hermansky, "Perceptual Linear Predictive(PLP) analysis of spech", pp.1738-1752.
(7)과 (8)을 포함하는 다층 프셉트론 신경회로망은 본 발명에서 음성인식 알고리즘으로 사용된다. 다층 퍼셉트론은 도 2의 일반적인 음성인식 방법의 과정에서 음성인식모델의 학습(5)과 패턴정합(6)의 2 과정을 포함한다.
(7)의 학습은 본 발명의 완구를 임의의 사용자가 사용할 수 있도록 음성(엄마, 아빠, 언니, 누나, 할머니, 할아버지, 눈, 코, 입, father, mother, eye, mouth, nose 등)을 다수의 사람과 다양한 환경에서 녹취하여 음성 데이터베이스를 구축하고, 이 음성 데이터베이스를 이용하여 (3)∼(6) 과정을 통하여 얻은 음성특징을 다층 퍼셉트론 신경회로망에 학습한다.
(8)의 시험은 본 발명 완구의 실제 사용 환경에서 음성인식을 수행하는 과정이다. 즉, 사용자 환경에서 (3)∼(6) 과정을 통하여 얻은 음성 정보를 다층 퍼셉트론 신경회로망에 인가하고 패턴매칭을 수행하여 입력 음성을 인식한다.
(9)의 발음의 정확도 평가는 다층 퍼셉트론 신경회로망의 출력 값[0.0∼1.0]에 따라 발음의 정확도를 4단계(완구가 알아듣지 못함[a], 겨우 알아들음[b], 알아들음[c], 매우 잘 알아들음[d])로 구분하여 평가한다.
(10)의 출력신호 발생은 (9)에서 평가한 발음의 정확도에 따라 4가지 유형으로 완구의 표정이나 동작을 짓게 하는 제어신호를 발생한다.
이하 다층 퍼셉트론 신경회로망의 구조와 학습 방법을 설명하면 다음과 같다. 다층 퍼셉트론의 구조는 도 4와 같다. 다층 퍼셉트론은 입력층(input layer)과 은닉층(hidden layer), 그리고 출력층(output layer)으로 구성된 다층 전향 연결구조의 신경회로망이다. 각 층간의 노드들은 전향적으로 상호 완전결합(fully connected)되어 있다.
다층 퍼셉트론의 학습에는, 대표적인 지도학습(supervised learning) 방법인 오류 역전파 (Error Back-Propagation, EBP) 학습 알고리즘을 사용된다. EBP 학습 알고리즘을 설명하면 다음과 같다.
이상에서 상술한 바와 같이 본 발명은, 음성합성과 음성인식 기술에 의하여 도 3에서 기술한 알고리즘으로 언어를 학습하고 훈련하는 수단을 완구에 적용한 것과, 다층 퍼셉트론 신경회로망을 음성인식 알고리즘으로 사용한 것에 특징이 있다. 이러한 특징을 지닌 완구는 유아 및 언어장애를 가진 어린이에게 "놀이"와 "교육"의 두 가지 효과를 동시에 준다.

Claims (3)

  1. 도 3의 언어(한글 및 영어) 학습 및 훈련 알고리즘
  2. 제 1항의 방법으로 제조된 언어 학습 및 훈련 기능을 가진 완구
  3. 제 1항의 방법으로 만든 언어 학습 및 훈련용 웹 콘텐츠(web contents)
KR1020000032027A 2000-06-10 2000-06-10 음성합성 및 음성인식 기술을 이용한 언어 학습 및 훈련기능을 가진 완구의 제어방법 KR20000058531A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020000032027A KR20000058531A (ko) 2000-06-10 2000-06-10 음성합성 및 음성인식 기술을 이용한 언어 학습 및 훈련기능을 가진 완구의 제어방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020000032027A KR20000058531A (ko) 2000-06-10 2000-06-10 음성합성 및 음성인식 기술을 이용한 언어 학습 및 훈련기능을 가진 완구의 제어방법

Publications (1)

Publication Number Publication Date
KR20000058531A true KR20000058531A (ko) 2000-10-05

Family

ID=19671653

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020000032027A KR20000058531A (ko) 2000-06-10 2000-06-10 음성합성 및 음성인식 기술을 이용한 언어 학습 및 훈련기능을 가진 완구의 제어방법

Country Status (1)

Country Link
KR (1) KR20000058531A (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030055072A (ko) * 2001-12-24 2003-07-02 류명순 천재아 계발을 겸한 문자 자동 암기 기록 매체
KR20040021092A (ko) * 2002-09-02 2004-03-10 에스엘투(주) 음성인식을 이용한 유아교육장치 및 그 방법
KR20040038512A (ko) * 2002-11-01 2004-05-08 (주) 리빙토이 컴퓨터와 대화가 가능한 인형시스템을 이용하는 언어 학습시스템 및 그 시스템을 이용하는 언어 학습 방법
KR101591883B1 (ko) * 2014-09-02 2016-02-19 포항공과대학교 산학협력단 하드웨어 기반의 신경망을 이용한 사용자 적응형 언어 보조기기

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0535710A (ja) * 1991-08-01 1993-02-12 Ricoh Co Ltd ニユーラルネツトワークの学習方法および学習装置
KR960025319A (ko) * 1994-12-28 1996-07-20 박정옥 음성인식시스템에 있어서 자동 학습 훈련장치
KR19980014494A (ko) * 1996-08-13 1998-05-25 구자홍 음성인식용 신경회로망 장치
US5809461A (en) * 1992-03-30 1998-09-15 Seiko Epson Corporation Speech recognition apparatus using neural network and learning method therefor
JPH1152993A (ja) * 1997-07-31 1999-02-26 Seiko Epson Corp 音声認識用ニューラルネットワークの学習方法
KR20010104847A (ko) * 2000-05-16 2001-11-28 구자홍 웹 서버를 이용한 성장형 완구 관리 방법 및 시스템
KR20010107035A (ko) * 2000-05-24 2001-12-07 서주철 음성인식 및 음성합성을 이용한 인터넷영어학습 서비스방법
KR20010106696A (ko) * 2000-05-23 2001-12-07 김경징 표준 발음법 분석에 기반한 음성 인식/합성 시스템 및 방법

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0535710A (ja) * 1991-08-01 1993-02-12 Ricoh Co Ltd ニユーラルネツトワークの学習方法および学習装置
US5809461A (en) * 1992-03-30 1998-09-15 Seiko Epson Corporation Speech recognition apparatus using neural network and learning method therefor
KR960025319A (ko) * 1994-12-28 1996-07-20 박정옥 음성인식시스템에 있어서 자동 학습 훈련장치
KR19980014494A (ko) * 1996-08-13 1998-05-25 구자홍 음성인식용 신경회로망 장치
JPH1152993A (ja) * 1997-07-31 1999-02-26 Seiko Epson Corp 音声認識用ニューラルネットワークの学習方法
KR20010104847A (ko) * 2000-05-16 2001-11-28 구자홍 웹 서버를 이용한 성장형 완구 관리 방법 및 시스템
KR20010106696A (ko) * 2000-05-23 2001-12-07 김경징 표준 발음법 분석에 기반한 음성 인식/합성 시스템 및 방법
KR20010107035A (ko) * 2000-05-24 2001-12-07 서주철 음성인식 및 음성합성을 이용한 인터넷영어학습 서비스방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030055072A (ko) * 2001-12-24 2003-07-02 류명순 천재아 계발을 겸한 문자 자동 암기 기록 매체
KR20040021092A (ko) * 2002-09-02 2004-03-10 에스엘투(주) 음성인식을 이용한 유아교육장치 및 그 방법
KR20040038512A (ko) * 2002-11-01 2004-05-08 (주) 리빙토이 컴퓨터와 대화가 가능한 인형시스템을 이용하는 언어 학습시스템 및 그 시스템을 이용하는 언어 학습 방법
KR101591883B1 (ko) * 2014-09-02 2016-02-19 포항공과대학교 산학협력단 하드웨어 기반의 신경망을 이용한 사용자 적응형 언어 보조기기

Similar Documents

Publication Publication Date Title
Rosen et al. Automatic speech recognition and a review of its functioning with dysarthric speech
Johnson The auditory/perceptual basis for speech segmentation
US5679001A (en) Children's speech training aid
Kandali et al. Emotion recognition from Assamese speeches using MFCC features and GMM classifier
Bose et al. Deep learning for audio signal classification
Qian et al. Bidirectional LSTM-RNN for Improving Automated Assessment of Non-Native Children's Speech.
US11302329B1 (en) Acoustic event detection
CN111009235A (zh) 一种基于cldnn+ctc声学模型的语音识别方法
Shastri et al. Syllable detection and segmentation using temporal flow neural networks
Russell et al. The STAR system: an interactive pronunciation tutor for young children
Polur et al. Investigation of an HMM/ANN hybrid structure in pattern recognition application using cepstral analysis of dysarthric (distorted) speech signals
Kinkiri et al. Speaker identification: variations of a human voice
Evanini et al. Improving DNN-based automatic recognition of non-native children's speech with adult speech
Johnson et al. LPC augment: an LPC-based ASR data augmentation algorithm for low and zero-resource children’s dialects
KR20000058531A (ko) 음성합성 및 음성인식 기술을 이용한 언어 학습 및 훈련기능을 가진 완구의 제어방법
Bojanić et al. Application of neural networks in emotional speech recognition
CN111009236A (zh) 一种基于dblstm+ctc声学模型的语音识别方法
Abaskohi et al. Automatic speech recognition for speech assessment of persian preschool children
Hacioglu et al. A distributed architecture for robust automatic speech recognition
Patil et al. A review on emotional speech recognition: resources, features, and classifiers
Hornstein et al. A unified approach to speech production and recognition based on articulatory motor representations
Pap et al. Artificial intelligence voice assistant implementation possibilities in interactive toy for preschool age children
Agarwalla et al. Composite feature set for mood recognition in dialectal assamese speech
Ting et al. Speaker-independent phonation recognition for Malay Plosives using neural networks
Andayani Investigating the Impacts of LSTM-Transformer on Classification Performance of Speech Emotion Recognition

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application