KR19990044575A

KR19990044575A - 대화형 언어훈련용 장치

Info

Publication number: KR19990044575A
Application number: KR1019980701824A
Authority: KR
Inventors: 쥬브 쉬피로
Original assignee: 쉬피로 지이브; 디지스피치 (이스라엘) 리미티드
Priority date: 1996-07-11
Filing date: 1997-05-04
Publication date: 1999-06-25
Also published as: AU2403297A; BR9702341A; CN1197525A; JPH11513144A; WO1998002862A1; EP0852782A4; US5766015A; IL123556A0; EP0852782A1

Abstract

본 발명은, 사용자에 의한 기대음성응답을 끌어내기 위한 트리거 발생기와; 각각이 수용가능한 발음을 갖춘 제1의 다수의 참조기대응답과, 각각이 다른 발음오류를 갖춘 제2의 다수의 참조기대응답을 포함하고 있는 다양한 참조기대응답을 구비하고 있는 기대음성응답 참조 라이브러리; 사용자에 의해 제공된 기대음성응답과 참조기대응답간의 관계를 나타내는 음성응답 채첨기; 사용자에 의해 제공된 기대음성응답내의 발음오류를 사용자에게 표시하는 사용자 궤환 인터페이스(12, 14, 16)를 포함하는 대화형 언어훈련용 장치를 제공하기 위한 것이다. 본 발명은 또한, 적어도 제1 및 제2언어의 스피치 요소를 포함하는 적어도 하나 이상의 데이터베이스와, 인식되어야 할 발성된 스피치를 수신하는 위한 수신기, 상기 발성된 스피치의 특징을 적어도 제1, 제2언어의 상기 스피치 요소들의 특징의 결합과 비교하는 비교기를 포함하는 스피치 인식장치를 개시한다. 여기에서 어떤 경우에는 스피치 요소의 결합이 단일의 스피치 요소를 포함할 수 있다. 또한, 본 발명에서는 스피치를 인식하는 방법이 개시된다.

Description

대화형 언어훈련용 장치

언어를 가르치기 위한 컴퓨터화된 시스템은 주지되어 있는 바, 그 한 예가 미국특허 제5,487,671호에 개시되어 있고, 그 발명자중 한 사람이 본 발명의 발명자로서, 특히 언어를 가르치기 위한 컴퓨터화된 시스템은 사용자의 언어와 참조(Reference)간의 표시를 제공한다.

상기한 것과 실질적으로 동일한 특징을 가진 물품은 "런 투 스피크 잉글리쉬(Learn to Speak English)"라는 상표로서 "더 러닝 컴퍼니(The Learning Company)"로부터 상업적으로 구매할 수 있다.

이러한 분야의 물품은 하이퍼글롯(HyperGlot), 벌리츠(Berlitz), 시라큐스 랭귀지 시스템즈 마인드스케이프 글로벌 랭귀지 및 로세타 스톤 랭귀지 라이브러리(Syracuse Language Systems Mindscape Global Language and Rosetta Stone Language Library)로부터 상업적으로 구매할 수 있다.

음소에 기초하는 스피치 인식용의 컴퓨터화된 시스템은 주지되어 있는 바, 이것도 상업적으로 구매할 수 있다. 이러한 시스템의 예로는 다음과 같은 것이 있다.

즉, IBM에 의해 상품화된, "학생과 가정사용자 및 소규모 비지네스를 위한 간단한 말하기 - IBM음성형";

IBM에 의해 상품화된, "전문가 및 비지네스용의 IBM 음성형";

미국 매사츄세츠 뉴튼의 드래곤 시스템즈에 의해 상품화된 "텔 투 미(Tell To Me)";

벨기에 레퍼의 런아웃 앤드 호스피 스피치 프로덕츠 엔.브이.에 의해 상품화된 "ASR-1500" 등이 있다.

본 발명은 교육 시스템에서의 응용기술을 갖춘 스피치 인식 시스템에 관한 것으로, 특히 음소(Phoneme)에 기초한 스피치 인식(Speech recognition)을 제공하는 컴퓨터화된 시스템과 언어교육방법에 관한 것이다.

도 1은 본 발명의 바람직한 실시예에 따라 구성되어 동작하는 대화형 언어교육 시스템을 일반화하여 도시한 도면,

도 2는 언어교육동안의 도 1에 도시된 시스템의 동작을 일반화한 기능 블록도,

도 3은 본 발명의 바람직한 한 실시예에 따른 음성참조 라이브러리의 발생동안의 도 1에 도시된 시스템의 동작을 일반화한 기능 블록도,

도 4는 본 발명의 바람직한 다른 실시예에 따른 음성참조 라이브러리의 발생동안의 도 1에 도시된 시스템의 동작을 일반화한 기능 블록도,

도 5A 및 5B는 공히 도 2에 도시된 일반화된 기능 블록도에 따른 언어교육동안의 시스템의 동작을 설명하는 일반화된 플로우 차트를 구성하는 도면,

도 6A, 6B 및 6C는 공히 도 3의 일반화된 기능 블록도에 따른 언어교육용 음성참조 라이브러리의 발생동안의 시스템의 동작의 한 방법을 설명하는 일반화된 플로우 차트를 구성하는 도면,

도 7은 도 4의 일반화된 기능 블록도에 따른 언어교육용 음성참조 라이브러리의 발생동안의 시스템의 동작을 설명하는 일반화된 플로우 차트,

도 8은 도 4에서 채용된 형태의 음성적 템플레이트 데이터베이스의 창작을 간단하게 설명한 도면,

도 9는 라벨화된 스피치 파형을 간단하게 설명한 도면,

도 10은 본 발명의 바람직한 실시예에 따른 다중 언어 음성적 데이터베이스의 창작을 설명하는 도면,

도 11은 음소를 채용하는 스피치 인식을 설명하기 위한 도면,

도 12는 여러가지 언어의 음소를 채용하는 스피치 인식을 설명하는 도면이다.

본 발명은 사용자에게 발음오류의 형태나 사용자가 만드는 오류를 표시해 주는 언어교육용의 더욱 개선된 컴퓨터화된 시스템을 제공하기 위한 것이다.

본 발명의 바람직한 실시예에 따르면,

사용자에 의한 기대음성응답(expected audio response)을 끌어내기 위한 트리거 발생기와;

각각이 수용가능한 발음을 갖춘 제1의 다수의 참조기대응답(reference expected response)과, 각각이 다른 발음오류를 갖춘 제2의 다수의 참조기대응답을 포함하고 있는 다양한 참조기대응답을 포함하고 있는 기대음성응답 참조 라이브러리(expected audio response reference library);

사용자에 의해 제공된 기대음성응답과 참조기대응답간의 관계를 나타내는 음성응답 채첨기;

사용자에 의해 제공된 기대음성응답내의 발음오류를 사용자에게 표시하는 사용자 궤환 인터페이스를 포함하는 대화형 언어훈련용 장치가 제공된다.

바람직하게, 사용자 궤환 인터페이스는 또한 발음오류를 어떻게 극복할 것인 가를 사용자에게 지시한다.

본 발명의 바람직한 실시예에 따르면, 사용자 궤환 인터페이스는 각각의 기대음성응답에 즉시 뒤따라서 사용자에게 각각의 발음오류를 나타내 준다.

바람직하게, 궤환 인터페이스는 발음오류의 음성 및 시각표시를 제공한다.

본 발명의 바람직한 실시예에 따르면, 음성표본 발생기는 기대음성응답이 음성표본의 반복이 되도록 동작한다.

이와는 달리, 상기 음성표본 발생기는 기대음성응답이 음성표본의 반복 이외의 다른 것이 되도록 동작한다.

이와는 또 달리, 음성표본 발생기는 기대음성응답이 하나 이상의 가능한 기대음성응답들중에서 선택될 수 있는 음성표본이 되도록 동작한다.

바람직하게, 트리거 발생기는 음성표본을 사용자에게 재생시켜주기 위한 음성표본 발생기를 구비하고 있다.

이와는 달리, 또는 부가적으로, 트리거 발생기는 시각적인 트리거 출력을 사용자에게 제공하기 위한 시각 트리거 발생기를 구비하고 있다.

바람직하게, 기대음성응답 라이브러리는 기대음성응답 참조 데이터베이스를 구비하고 있다.

본 발명의 바람직한 실시예에 따르면, 기대음성응답 참조 데이터베이스는 다양한 템플레이트를 갖추고 있으며 발성자에 대해 독립적인 것이다.

또한, 본 발명의 바람직한 실시예에 따르면,

사용자에 의한 기대음성응답을 끌어내는 단계와;

각각이 수용가능한 발음을 갖춘 제1의 다수의 참조기대응답과, 각각이 다른 발음오류를 갖춘 제2의 다수의 참조기대응답을 포함하고 있는 다양한 참조기대응답을 구비하고 있는 기대음성응답 참조 라이브러리를 제공하는 단계;

사용자에 의해 제공된 기대음성응답과 참조기대응답간의 관계를 표시하는 단계;

사용자에 의해 제공된 기대음성응답내의 발음오류를 사용자에게 표시하는 단계를 구비한 대화형 언어훈련방법이 제공된다.

더욱이 본 발명의 바람직한 실시예에 따르면, 본 발명의 방법은 또한 발음오류를 어떻게 극복할 것인 가를 사용자에게 지시하는 단계를 포함한다.

더욱이 본 발명의 바람직한 실시예에 따르면, 본 발명의 방법은 또한 각각의 기대음성응답에 즉시 뒤따라서 사용자에게 각각의 발음오류를 표시해 주는 단계를 포함한다.

더욱이 본 발명의 바람직한 실시예에 따르면, 본 발명의 방법은 또한 상기 발음오류의 음성 및 시각표시를 사용자에게 제공하는 단계를 포함한다.

더욱이 본 발명의 바람직한 실시예에 따르면, 본 발명의 방법은 또한기대음성응답이 상기 음성표본의 반복이 되도록 하는 단계를 포함한다.

이와는 달리, 본 발명의 방법은 또한 기대음성응답이 음성표본의 반복 이외의 다른 것이 되도록 하는 단계를 포함한다.

부가적으로 본 발명의 바람직한 실시예에 따르면, 기대음성응답은 하나 이상의 가능한 기대음성응답들중에서 선택될 수 있는 음성표본이다.

더욱이 본 발명의 바람직한 실시예에 따르면, 음성응답을 끌어내는 단계는 음성표본을 사용자에게 재생시켜주는 단계를 포함한다.

더욱이 본 발명의 바람직한 실시예에 따르면, 상기 끌어내는 단계는 사용자에게 시각적인 트리거 출력을 제공하는 단계를 구비하고 있다.

또한, 본 발명의 바람직한 실시예에 따르면, 적어도 제1, 제2언어의 스피치 요소를 포함하는 적어도 하나 이상의 데이터베이스와, 인식되어질 발성된 스피치를 수신하기 위한 수신기, 발성된 스피치의 특징을 적어도 제1, 제2언어의 스피치 요소의 특징들의 결합과 비교하는 비교기를 갖추고 있는 스피치 인식장치가 제공된다. 여기에서 어떤 경우에는 스피치 요소의 특징의 결합이 단일의 스피치 요소의 특징을 포함할 수 있다. 또한, 스피치 요소의 특징은 스피치 요소 신호를 포함할 수 있다.

또한, 본 발명의 바람직한 실시예에 따르면, 사용자에 의한 기대음성응답을 끌어내기 위한 트리거 발생기와; 적어도 제1, 제2언어의 스피치 요소를 갖추고 있는 적어도 하나 이상의 데이터베이스와, 인식되어질 발성된 스피치를 수신하는 수신기, 상기 발성된 스피치의 특징을 적어도 제1, 제2언어의 상기 스피치 요소의 특징들의 결합과 비교하는 비교기를 포함하고서, 사용자에 의해 발성된 기대음성응답을 수신하는 스피치 인식장치; 사용자에 의해 발성된 기대음성응답내의 오류를 사용자에게 표시하는 사용자 궤환 인터페이스를 포함하는 언어교육 시스템이 제공된다.

더욱이, 본 발명의 바람직한 실시예에 따르면, 스피치 요소는 적어도 음소, 2중 음(Diphone) 및 음소간의 변화중의 하나를 포함한다.

더욱이, 본 발명의 바람직한 실시예에 따르면, 언어교육 시스템은 또한 구 템프레이트(Phrase Template)를 발생시키기 위해 동작하는 템플레이트 발생기를 포함한다.

더욱이, 부가적으로, 본 발명의 바람직한 실시예에 따르면, 언어교육 시스템은 수신기에 의해 수신되어진 발성된 스피치의 특징을 추출하기 위해 동작하는 특징 추출기를 또한 포함한다.

또한, 본 발명의 바람직한 실시예에 따르면, 적어도 제1, 제2언어의 스피치 요소를 갖춘 적어도 하나 이상의 데이터베이스를 제공하는 단계와, 인식되어질 발성된 스피치를 수신하는 단계, 발성된 스피치의 특징을 적어도 제1, 제2언어의 스피치 요소의 특징들의 결합과 비교하는 단계를 포함하는 스피치 인식방법이 제공된다. 여기에서 어떤 경우에는 스피치 요소의 특징의 결합이 단일의 스피치 요소의 특징을 포함할 수 있다. 또한, 스피치 요소의 특징은 스피치 요소 신호를 포함할 수 있다.

더욱이 본 발명의 바람직한 실시예에 따르면, 발성된 스피치는 제2언어의 토박이 발성자인 사용자에 의해 제1언어로 발성되고, 여기에서 적어도 하나 이상의 데이터베이스는 제1, 제2언어 모두의 스피치 요소를 포함한다.

더욱이 본 발명의 바람직한 실시예에 따르면, 적어도 제1, 제2언어는 각기 다른 국가의 언어를 포함한다.

더욱이 부가적으로 본 발명의 바람직한 실시예에 따르면, 적어도 제1, 제2언어는 단일 국가 언어의 각기 다른 사투리를 포함한다.

도 1은 본 발명의 바람직한 실시예에 따라 구성되어 동작하는 대화형 언어교육 시스템을 일반화하여 도시한 도면이고, 도 2는 언어교육동안의 도 1에 도시된 시스템의 동작을 일반화한 기능 블록도이다.

도 1의 시스템은 이 명세서에서 참조로 사용될 공개된 미국 특허 5,487,671호에 설명된 스피치 교육용의 컴퓨터화된 시스템과 많은 유사점을 갖고 있다.

후에 상세히 설명되겠지만, 본 발명의 시스템은 다른 발음오류를 가지는 각각의 참조기대응답으로 작동하고 사용자에 의해 제공되는 기대음성응답과 발음오류를 가지는 참조기대응답간의 관계를 표시하는 음성응답 채점기를 포함한다는 점에서 미국 특허 5,487,671호와 다르다.

도 1과 도 2의 시스템은 본 발명의 바람직한 실시예에 따라 스피치 인식기능들을 통합시킨다.

도 1과 도 2의 시스템은 기존의 개인용 컴퓨터, 바람직하게는 예컨대, 33 MHZ나 그 이상에서, 최소한 8MB의 기억장치 용량을 갖고, MS-DOS 6.0이상의 운영체계를 운영하는 인텔 80486 CPU를 사용하는 IBM PC나 그와 견줄만한 것에 기초를 둔다. 개인용 컴퓨터(10)는 보조적인 음성 모듈(12)을 장착하고 있다. 예컨대, 적절한 음성 모듈(12)은 디지스피치사(Digispeech, Inc.)가 제조하고 캘리포니아 마운틴 뷰 소재의 DSP 솔루션즈 주식회사(SOLUTIONS Inc)에 의해 유통되는 디지스피치 플러스 음성 어댑터(DS311)이다. 헤드셋(14)는 바람직하게 음성 모듈(12)과 연결된다.

일반적으로 개인용 컴퓨터(10)와 음성 모듈(12)은 다음의 기능을 제공하기 위해 적당한 소프트웨어를 제공받는 바,

즉, 사용자에 의한 기대음성응답을 끌어내기 위한 트리거 발생기. 이 트리거 발생기는 사용자에게 음성표본을 재생시켜 주기 위한 음성표본 발생기를 바람직하게 구비하지만, 이와는 달리, 혹은 부가적으로 사용자에게 시각적 트리거 출력을 제공하기 위한 시각적 트리거 발생기를 구비한다.;

다양한 참조기대응답을 포함하고 있되, 다양한 참조기대응답은 수용가능한 발음을 갖춘 제1의 다수의 참조기대응답과, 각각이 다른 발음오류를 갖는 제2의 다수의 참조기대응답을 포함하고 있는 기대음성응답 참조 라이브러리. 여기에서, 상기 제2의 다수의 참조 기대응답은 갖가지 언어의 음소로부터 구성된 응답을 포함할 수 있고 일반적으로 스피치 인식에서 응용 기술을 가질 수 있다. ;

사용자에 의해 제공된 기대음성응답과 참조기대응답간의 관계를 나타내는 음성응답 채점기 ;

사용자에 의해 제공되는 기대음성응답내의 발음오류를 사용자에게 표시하는 사용자 궤환 인터페이스등을 제공받는다.

상기 사용자 궤환 인터페이스는 바람직하게는 음성 모듈(12)과 헤드셋(14)을 통하여 음성 궤환을 제공한다. 부가적으로, 도 1과 2에서 보듯이 디스플레이(16)는, 예컨대, 도 1에 도시된 것처럼 시각적인 방법으로 사용자에게 발음오류를 표시하기 위해 제공된다.

본 발명의 바람직한 실시예에 따라, 총 6개의 다른 데이터베이스들이 채용된다. 발명의 간편하고 쉬운 이해를 위해, 6개의 데이터베이스가 발명의 어디에서 창작되고 사용되는가를 이하에서 간략하게 설명한다.

A. 중간 음성표본 데이터베이스 : 이 데이터베이스는 다양한 지리적 혈통, 다양한 연령, 성의 분포를 포함하는 다수의 토박이 발성자들에 의해 발생되는 데이터베이스이다. 다수의 토박이 발성자들은 다양한 다른 언어를 구사하는 발성자를 포함할 수 있다. 각각의 발성자들은 다수의 미리 정해진 구(Phrase)를 발성한다. 미리 정해진 다수의 구 각각에 대해, 각각의 발성자는 구를 정확히 발음하고 또한 이 구를 여러번 부정확하게 반복하는데, 각각의 경우는 미리 정해진 다수의 발음오류들 중 다른 하나를 갖고 있다. 바람직하게 이 데이터베이스는 향상된 통계적인 기초를 제공하기 위해 각각의 발성자에 대해 상기 발음된 구의 각각에 대한 녹음을 포함하고 있다.

B. 기대음성응답 참조 데이터베이스 : 이것은 녹음된 스피치보다는 템플레이트(Template)를 포함하고 있는 데이터베이스이다.

다양한 형태의 템플레이트가 제공될 수 있다. 단어에 기초하는 스피치 인식용의 뎀플레이트의 한 형태는 이하 설명되는 방법에 의해 데이터베이스 A로부터 나올 수 있다. 음소에 기초하는 스피치 인식용의 다른 형태의 템플레이트는 구를 함께 표현하는 스피치 요소 특징의 다양한 결합을 구비한다.

단어에 기초하는 스피치 인식용의 뎀플레이트는, 위에서 참조한 다수의 토박이 발성자 발음을 나타내기 위해, 발음된 구 각각의 스피치 매개변수를 추출하고 그것들을 통계적으로 결합시킴으로써 중간 음성 표본 데이터베이스 A에서 나올 수 있다.

따라서 각각의 템플레이트는 한 집단의 토박이 발성자 발음의 통계적 결합을 나타낸다.

단일 템플레이트는 중간 음성 표본 데이터베이스 A에 녹음되어 있는 모든 토박이 발성자의 발음을 커버하기 위해 만들어지거나, 다수의 템플레이트는 단일 템플레이트가 토박이 발성자의 전 범위를 정확하게 표현하지 않을 때 이용될 수 있다. 예컨대, 하나의 템플레이트는 남성이나 여성을 표현할 수 있다. 이와는 달리, 또는 부가적으로, 하나하나의 템플레이트는 다른 언어의 음소를 각각 포함할 수 있다.

본 발명의 바람직한 실시예에 따라, 기대음성응답 참조 데이터베이스 B는 위에서 참조한 기대음성응답 참조 라이브러리를 구성한다. 이것은 발성자에 대해 독립적인 데이터베이스이다.

다양한 형태의 템플레이트가 제공될 수 있다. 단어에 기초하는 스피치 인식용의 뎀플레이트의 한 형태는 위에서 설명한 방법으로 데이터베이스 A에서 나올 수 있다. 음소에 기초하는 스피치 인식용의 다른 형태의 템플레이트는 구를 함께 나타내는 스피치요소 특징의 다양한 결합을 구비하고 있다.

C. 음성적 데이터베이스 : 이것은 주어진 언어에 대해 상업적으로 구매할 수 있는 음소의 스피치 매개변수의 데이터베이스이다. 이러한 데이터베이스는 예컨대, AT & T, 미국 콜로라도 볼더의 스피치 시스템 주식회사(Speech System Incorporated), 그리고 벨기에 레퍼의 런 아웃 앤드 호스피 스피치 프로덕츠 엔.브이.(Lernout & Hauspie Speech Products N.V.)로부터 구매할 수 있다. 각각 다른 언어의 음소의 매개변수를 각각 포함하고 있는 다양한 음성적 데이터베이스가 제공될 수 있는 바, 집단적으로 음성적 데이터베이스라고 일컫는다.

D. 사용자 후속 데이터베이스 : 이것은 녹음된 사용자 응답들의 집합이다.

E. 기대 음성표본 데이터베이스 : 이것은 다수의 구를 정확히 발음한 각각의 훈련받은 발성자의 녹음된 집합이다.

F. 참조 음성표본 데이터베이스 : 이것은 다수의 구 각각을 부정확하게 여러번 발음하는 훈련된 발성자 각자를 녹음한 것들의 집합인데, 매 번 미리 정해진 다수의 발음오류중 다른 하나를 갖고 있다.

참조로, 도 2는 언어교육동안 도 1에 도시된 시스템 동작의 일반화된 기능 블록도이다.

기대 음성표본 데이터베이스 E에 저장된 음성표본은 사용자에 의한 음성응답을 끌어내기 위해 음성 모듈(14; 도 1)을 통해 사용자에게 재생된다. 헤드셋(14)의 일반적인 부분인 마이크로폰(20)은 사용자의 음성응답을 녹음하기 위해 사용되는데, 이 응답은 사용자 후속 데이터베이스 D에 저장된다. 음성표본은 발성된 구를 일반적으로 포함한다. 구는 하나 이상의 단어를 포함할 수 있다. 대신에 혹은 추가로, 사용자에 의한 기대음성응답을 사용자에게 끌어내기 위해 사용자에게 시각적 트리거 출력을 제공하기 위한 시각적 트리거가 제공될 수 있다.

발성된 구 요소는 사용자의 음성응답으로부터 추출되고 참조 구 매개변수와 비교되는데, 이것은 사용자 음성응답의 발성된 구 매개변수와, 기대음성응답 참조 데이터베이스 B에 저장된 대응되는 정확하거나 부정확한 구사이의 참조 구 매개변수간의 부합 가능성을 측정하기 위한 것이다.

참조 구 매개변수가 반드시 단어 혹은 단어의 결합으로 구성되는 것은 아니다. 대신에, 스피치 인식에 기초하는 음소가 진행될 때 참조 구 매개변수는 스피치 요소 특징의 다양한 결합으로 구성될 수 있다.

가능성 측정의 결과는 사용자의 음성응답에 가장 가까운 구의 선택이나 부합되지 않는다는 실패의 표시이다. 부합되는 구를 확인하고 이것이 정확한 것인지 아닌지를 나타내는 음성이나 시각적 궤환 표시가 사용자에게 제공된다. 바람직하게, 사용자의 응답은 교육과정 중 부합된 단 하나 혹은 여러 구로부터 한 단어, 여러개의 단어, 단일 문장, 혹은 여러 문장을 포함할 수 있다. 식별된 오류를 극복하는 방법으로서 추가적인 교육 정보가 음성-시각적 방법으로 또한 제공된다. 헤드셋(14; 도 1)의 부분을 구성하고 있는 헤드폰(22)과 디스플레이(16)가 이러한 목적으로 바람직하게 채용된다.

도 3은 본 발명의 바람직한 실시예에 따른 기대음성응답 참조 데이터베이스 B의 발생동안 도 1에 도시된 시스템의 동작을 일반화한 기능 블록도이다. 여기에, 마이크로폰(30)은 다양한 지리적 혈통, 다양한 연령, 성의 분포를 포함하는 다수의 토박이 발성자에 의해 발성된 구를 녹음하려고 사용된다.

각각의 발성자는 다수의 미리 정해진 구를 발성한다. 미리 정해진 다수의 구에 대해, 각각의 발성자는 구를 정확히 발음하고 또한 이 구를 여러번 부정확하게 발음하는데, 각각의 경우는 미리 정해진 다른 발음오류들 중 하나를 갖고 있다. 이 녹음된 것들은 중간 음성표본 데이터베이스에 보관된다. 바람직하게, 이 데이터베이스는 향상된 통계적인 베이스를 제공하기 위해, 각각의 발성자에 대해 각각의 상기 발음된 구들의 각각의 다수의 녹음된 것을 포함하고 있다.

단어에 기초하는 스피치 인식이 제공됐을 때, 기대음성응답 참조 데이터베이스를 구축하기 위해 발음된 구 매개변수는 추출되어 기대음성응답 참조 데이터베이스 B에 저장되어 있는 구 매개변수와 합쳐진다. 이 데이터베이스는 다양한 참조기대응답을 포함하고 있되, 다양한 참조기대응답이 수용가능한 발음을 갖춘 제1의 다수의 참조기대응답과, 각각이 다른 발음오류를 갖는 제2의 다수의 참조기대응답을 갖추고 있다.

각각의 구는 다수의 M명 각각의 발성자에 의해 N번 정확하게 녹음된다. 부가적으로, M명 각각의 발성자에 의해 다른 발음오류를 포함하고 있는 L개의 다른 형태로 N번 녹음된다.

도 4는 본 발명의 바람직한 실시예에 따른 음성참조 라이브러리 발생동안의 도 1에 도시된 시스템 동작을 일반화한 기능 블록도이다. 여기서, 기대음성응답 참조 데이터베이스 B는, 음성적 언어 녹음을 만들려고 사용되는 텍스트와 음성적 언어 파일들을 발생시킴으로서 컴퓨터에 의해 발생되는 것이다. 음성적 언어는 기대음성응답 참조 데이터베이스 B를 구성하는 구 템플레이트를 발생시키기 위해 음소 데이터베이스 C와 함께 사용된다.

도 4의 실시예에서, 구 템플레이트는 일반적으로 단어나 단어의 결합이라기보다는 음소, 2중 음 및 음소간의 변화같은 스피치 요소의 특징들의 결합이다. 음소에 기초하는 스피치 인식에서, 인식되어진 스피치의 특징은 최적의 부합을 찾기 위해 이러한 결합들과 비교된다.

도 5A와 5B는 도 2에 도시된 일반화된 기능 블록도에 따른 언어교육동안의 시스템의 동작을 설명하는 일반화된 플로우 차트를 함께 구성한다. 일단 플로우 차트에서 식별된 최초의 준비가 완료되고 데이터베이스 E로부터 듣게 될 목소리의 형태가 선택된 후에, 레슨이 선택되고 사용자는 선택된 소리를 정확히 발음하는 방법에 대한 설명을 제공받는다. 각각의 선택된 소리에 있어서 참조 음성표본 데이터베이스 E로부터의 참조 음성표본은 사용자에 의한 기대음성응답을 끌어낼 목적으로 사용자를 위해 재생된다.

사용자의 응답은 녹음되고 본 발명의 참조로 사용되는 미국 특허 5,487,671호에 설명된 학생 응답표본 녹음기에 의한 기대음성응답 참조 데이터베이스 B에 포함된 참조기대응답과 비교된다.

만약, 정확한 응답에 최적의 부합이 되면, 긍정적 궤환이 사용자에게 제공되고, 레슨은 다음의 음성표본으로 진행된다.

만약 발음오류를 갖는 참조기대응답에 최적의 부합이 되면, 적절한 궤환이 사용자에게 제공된다. 이 궤환은 오류에 대한 설명과 그것을 고치는 방법과 참조기대응답의 재생을 바람직하게 포함한다. 본 발명의 바람직한 실시예에 따라, 잘못 발음된 구는 사용자에게 참조 음성표본 데이터베이스 F로부터 재생된다.

사용자 후속 데이터베이스 D는 사용자 진행을 표시하기 위해 시스템 궤환안에 포함되어 있는 가장 최근의 것이나 보다 앞선 사용자 응답을 재생하거나 다른 목적을 위해 사용될 수 있다.

도 6A, 도 6B 및 도 6C는 도 3의 일반화된 기능 블록도에 따른 언어교육용 음성참조 라이브러리 발생동안의 시스템의 동작을 도시한 일반화된 플로우 차트를 함께 구성한다.

일단 플로우 차트에서 표시된 최초의 준비가 완료되면 훈련된 발성자는 정확한 구와 다수의 부정확한 구를 발음하는데, 다른 발음오류를 각각 갖는 참조기대응답을 제공하기 위해 발음에서 하나 이상의 오류가 있다는 것을 제외하고는 이 발성자의 발음은 정확한 구와 유사하다. 그러한 각각의 정확하고 부정확한 구들이 녹음된다. 본 발명의 바람직한 실시예에 따라, 중간 음성표본 데이터베이스 A는 다양한 녹음을 포함한다. 도 3에서 설명했듯이, 데이터베이스 A는 단어에 기초하는 스피치 인식용으로 도 6C의 기대음성응답 참조 데이터베이스 B를 만들기 위해 사용된다.

도 7은 도 4의 일반화된 기능 블록도에 따른 언어교육용 음성참조 라이브러리 발생동안의 시스템 동작을 일반화하여 도시화한 플로우 차트이다. 여기에서, 분명한 텍스트와 음성적 언어를 등록하고 이 텍스트를 표시되는 음소 언어로 전환하기 위해 컴퓨터가 채용된다. 위에서 설명한 형태의 음소 데이터베이스 C를 사용하는 구 템플레이트가 발생된다. 구 템플레이트는 그후 기대음성응답 참조 데이터베이스 B에 저장된다. 이러한 과정은 시스템에서 사용되고 있는 각각의 구 템플레이트에 대해 진행된다.

구 템플레이트는 일반적으로 단어나 단어의 조합이라기보다는 음소, 2중 음 및 음소간의 변화같은 스피치 요소의 특징들의 결합이다. 음소에 기초하는 스피치 인식에서, 인식되는 스피치의 특징은 최적의 부합을 찾기 위해 이러한 결합들과 비교가 된다.

도 8과 도 9는 본 발명의 바람직한 실시예에 따라, 도 4와 도 7에서 채용된 형태의 음성적 데이터베이스 C의 창작을 도시한 것이다. 도 9에서 예로서 도시된 형태의 라벨화된 데이터베이스(50)는 e-mail주소가 online-service＠1dc.upenn.edu인 펜실베니아 대학의 언어학 데이터 콘소시움(Linguistic Data Consortium)으로부터 구할 수 있는 TIMIT 청각-음성의 연속 스피치 언어자료(Aucostic-Phonetic Continuous Speech Corpora) 에서 얻을 수 있다. 또한, e-mail 주소가 sales＠entropic. com인 엔트로픽 케임브리지 리서치 연구소로부터 구할 수 있는 HTK(Hidden Markov Model Toolkit)같은 상업적으로 구매할 수 있는 소프트웨어에서 전형적으로 실시되는 템플레이트 구축기(52)는 데이터베이스(50)상에서 동작하여 음소 데이터베이스 C를 제공한다. 도 8의 기술은 다양한 언어에 응용할 수 있다.

음성적 데이터베이스(58)가 다중 언어로부터의 음소를 구비할 때 음성적 데이터베이스 C는 도 10에 도시된 것처럼 다수의 음성적 데이터베이스(54, 56)를 결합함으로써 구체화된다. 습득되거나 말하여지는 언어나 사용자의 모국어의 음소를 포함하고 있는 음성적 데이터베이스(54, 56)는 향상된 스피치 인식을 제공하기 위해 결합될 수도 있다는 것이 이 발명의 독특한 특징이다.

도 11은 음소를 채용하는 스피치 인식을 도시한 것이다. 도시된 예에서, 기대되는 단어는 'tomato'이다. 기대되는 대안 발음의 망이 만들어진다. 여기서, 발성자는 첫 "o"를 "O","OW","U"로 발음할 수 있고, "O"발음은 정확한 것으로 간주된다.

유사하게, 사용자는 "a"를 "A" 혹은 "EY"로 발음할 수 있고, "EY" 발음은 정확한 것으로 간주된다.

도 11은 스피치 인식을 위해 사용되는 모든 음소들이 단일 언어에 속하는 것을 특징으로 한다.

도 12는 여러가지 언어의 음소를 채용하는 스피치 인식을 도시한 것이다. 본 예는 토박이 일본인 발성자에 의해 발음되는 영어를 인식하기 위해 설계됐다. 여기서, 기대되는 단어는 "Los Angeles"의 "Los"이다. 여기서 발성자는 "L"을 "L"(원안의 "L"), 영어 "R"(원안의 "R"), 혹은 일본어의 "R"(네모안의 "R")로 발음할 수 있다.

도 12는 스피치 인식을 위해 사용되는 모든 음소들이 단일언어에 속하지 않는다는 것을 특징으로 한다. 도 12의 예에서, 음소의 일부는 영어 음소(원안의 글자)이고 음소의 다른 일부는 일본어 음소(네모안의 글자)이다.

언어교육을 위해 도 12의 스피치 인식 기술을 사용할 때, 토박이 일본인의 특징적인 잘못된 발음이 시스템에 의해 인식되고, 필요한 교육 궤환이 사용자에게 제공된다. 도 12의 스피치 인식 기술이 다른 스피치 인식 응용 기술에 사용될 때, 영어 발음이 완벽하지 않은 토박이 일본인 발성자에 의해 발성된 영어가 인식되도록 한다.

본 기술에 통상의 기술을 가진 자라면 이상에서 특정하여 설명한 것에만 본 발명을 제한하지는 않을 것이다. 오히려 본 발명의 범위는 이상에서 설명된 다양한 특징과 요소의 결합 및 부속적인 결합과 함께 그것들의 분명한 변형과 확장을 포함하는 것이다.

본 발명에 따른 대화현 언어훈련용 장치는, 음소에 기초한 스피치 인식을 제공하는 각종의 컴퓨터화된 시스템과 언어교육방법 등에 적용할 수있다.

Claims

사용자에 의한 기대음성응답을 끌어내기 위한 트리거 발생기와;

각각이 수용가능한 발음을 갖춘 제1의 다수의 참조기대응답과, 각각이 다른 발음오류를 갖춘 제2의 다수의 참조기대응답을 포함하고 있는 다양한 참조기대응답을 구비하고 있는 기대음성응답 참조 라이브러리;

사용자에 의해 제공된 기대음성응답과 참조기대응답간의 관계를 나타내는 음성응답 채첨기;

사용자에 의해 제공된 기대음성응답내의 발음오류를 사용자에게 표시해 주는 사용자 궤환 인터페이스를 구비하여 구성된 대화형 언어훈련용 장치.
제1항에 있어서, 상기 사용자 궤환 인터페이스는 또한 발음오류를 어떻게 극복할 것인가를 사용자에게 지시하는 것을 특징으로 하는 장치.
제1항에 있어서, 상기 사용자 궤환 인터페이스는 각각의 기대음성응답에 즉시 뒤따라서 사용자에게 각각의 발음오류를 표시해 주는 것을 특징으로 하는 장치.
제1항에 있어서, 상기 사용자 궤환 인터페이스는 상기 발음오류의 음성 및 시각표시를 제공하는 것을 특징으로 하는 장치.
제1항에 있어서, 음성표본 발생기는 기대음성응답이 상기 음성표본의 반복이 되도록 동작하는 것을 특징으로 하는 장치.
제1항에 있어서, 음성표본 발생기는 기대음성응답이 상기 음성표본의 반복 이외의 다른 것이 되도록 동작하는 것을 특징으로 하는 장치.
제1항에 있어서, 음성표본 발생기는 기대음성응답이 하나 이상의 가능한 기대음성응답들 중에서 선택될 수 있는 음성표본이 되도록 동작하는 것을 특징으로 하는 장치.
제1항에 있어서, 상기 트리거 발생기는 음성표본을 사용자에게 재생시켜주기 위한 음성표본 발생기를 구비하고 있는 것을 특징으로 하는 장치.
제1항에 있어서, 상기 트리거 발생기는 시각적 트리거 출력을 사용자에게 제공하기 위한 시각 트리거 발생기를 구비하고 있는 것을 특징으로 하는 장치.
제1항에 있어서, 상기 기대음성응답 라이브러리는 기대음성응답 참조 데이터베이스를 구비하고 있는 것을 특징으로 하는 장치.
제10항에 있어서, 상기 기대음성응답 참조 데이터베이스는 다양한 템플레이트를 갖추고 있는 것을 특징으로 하는 장치.
제10항에 있어서, 상기 기대음성응답 참조 데이터베이스는 발성자에 대해 독립적인 것을 특징으로 하는 장치.
제11항에 있어서, 상기 기대음성응답 참조 데이터베이스는 발성자에 대해 독립적인 것을 특징으로 하는 장치.
사용자에 의한 기대음성응답을 끌어내는 단계와;

각각이 수용가능한 발음을 갖춘 제1의 다수의 참조기대응답과, 각각이 다른 발음오류를 갖춘 제2의 다수의 참조기대응답을 포함하고 있는 다양한 참조기대응답을 구비하고 있는 기대음성응답 참조 라이브러리를 제공하는 단계;

사용자에 의해 제공된 기대음성응답과 참조기대응답간의 관계를 표시하는 단계;

사용자에 의해 제공된 기대음성응답내의 발음오류를 사용자에게 표시하는 단계를 구비한 대화형 언어훈련방법.
제14항에 있어서, 발음오류를 어떻게 극복할 것인 가를 사용자에게 지시하는 단계를 또한 구비하고 있는 것을 특징으로 하는 방법.
제14항에 있어서, 각각의 기대음성응답에 즉시 뒤따라서 사용자에게 각각의 발음오류를 표시해 주는 단계를 또한 구비하고 있는 것을 특징으로 하는 방법.
제14항에 있어서, 상기 발음오류의 음성 및 시각적 표시를 사용자에게 제공하는 단계를 또한 구비하고 있는 것을 특징으로 하는 방법.
제14항에 있어서, 상기 기대음성응답이 음성표본의 반복인 것을 특징으로 하는 방법.
제14항에 있어서, 상기 기대음성응답이 음성표본의 반복 이외의 다른 것임을 특징으로 하는 방법.
제14항에 있어서, 상기 기대음성응답이 하나 이상의 가능한 기대음성응답들중에서 선택될 수 있는 음성표본인 것을 특징으로 하는 방법.
제14항에 있어서, 상기 음성응답을 끌어내는 단계는 음성표본을 사용자에게 재생시켜주는 단계를 포함하는 것을 특징으로 하는 방법.
제14항에 있어서, 상기 끌어내는 단계는 사용자에게 시각적인 트리거 출력을 제공하는 단계를 구비하고 있는 것을 특징으로 하는 방법.
적어도 제1, 제2언어의 스피치 요소를 포함하는 적어도 하나 이상의 데이터베이스와;

인식되어질 발성된 스피치를 수신하기 위한 수신기;

상기 발성된 스피치의 특징을 적어도 제1, 제2언어의 스피치 요소의 특징들의 결합과 비교하는 비교기를 구비하고 있는 스피치 인식장치.
사용자에 의한 기대음성응답을 끌어내기 위한 트리거 발생기와;

적어도 제1, 제2언어의 스피치 요소를 갖추고 있는 적어도 하나 이상의 데이터베이스와, 인식되어질 발성된 스피치를 수신하는 수신기, 상기 발성된 스피치의 특징을 적어도 제1, 제2언어의 상기 스피치 요소의 특징들의 결합과 비교하는 비교기를 포함하고서, 사용자에 의해 발성된 기대음성응답을 수신하는 스피치 인식장치;

사용자에 의해 발성된 기대음성응답내의 오류를 사용자에게 표시하는 사용자 궤환 인터페이스를 구비하고 있는 언어교육 시스템.
제24항에 있어서, 상기 스피치 요소는 음소, 2중 음 및 음소간의 변화중의 적어도 하나를 구비하고 있는 것을 특징으로 하는 언어교육 시스템.
제24항에 있어서, 구 템프레이트(Phrase Template)를 발생시키기 위해 동작하는 템플레이트 발생기를 또한 구비하고 있는 것을 특징으로 하는 언어교육 시스템.
제24항에 있어서, 상기 수신기에 의해 수신되어진 발성된 스피치의 특징을 추출하기 위해 동작하는 특징 추출기를 또한 구비하고 있는 것을 특징으로 하는 언어교육 시스템.
적어도 제1, 제2언어의 스피치 요소를 포함하는 적어도 하나 이상의 데이터베이스를 제공하는 단계와;

인식되어질 발성된 스피치를 수신하는 단계; 및

발성된 스피치의 특징을 적어도 제1, 제2언어의 스피치 요소의 특징들의 결합과 비교하는 단계를 구비하고 있는 스피치 인식방법.
제28항에 있어서, 발성된 스피치는 제2언어의 토박이 발성자인 사용자에 의해 제1언어로 발성되고, 여기에서 적어도 하나 이상의 데이터베이스는 제1, 제2언어 양쪽의 스피치 요소를 포함하는 것을 특징으로 하는 스피치 인식방법.
제28항에 있어서, 상기 적어도 제1, 제2언어는 각기 다른 국가의 언어를 구비하고 있는 것을 특징으로 하는 방법.
제28항에 있어서, 상기 적어도 제1, 제2언어는 단일 국가 언어의 각기 다른 사투리를 구비하고 있는 것을 특징으로 하는 방법.