KR19990044575A - 대화형 언어훈련용 장치 - Google Patents

대화형 언어훈련용 장치 Download PDF

Info

Publication number
KR19990044575A
KR19990044575A KR1019980701824A KR19980701824A KR19990044575A KR 19990044575 A KR19990044575 A KR 19990044575A KR 1019980701824 A KR1019980701824 A KR 1019980701824A KR 19980701824 A KR19980701824 A KR 19980701824A KR 19990044575 A KR19990044575 A KR 19990044575A
Authority
KR
South Korea
Prior art keywords
speech
user
expected
response
language
Prior art date
Application number
KR1019980701824A
Other languages
English (en)
Inventor
쥬브 쉬피로
Original Assignee
쉬피로 지이브
디지스피치 (이스라엘) 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 쉬피로 지이브, 디지스피치 (이스라엘) 리미티드 filed Critical 쉬피로 지이브
Publication of KR19990044575A publication Critical patent/KR19990044575A/ko

Links

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B7/00Electrically-operated teaching apparatus or devices working with questions and answers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/04Speaking
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • G09B5/065Combinations of audio and video presentations, e.g. videotapes, videodiscs, television systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Educational Administration (AREA)
  • General Physics & Mathematics (AREA)
  • Educational Technology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

본 발명은, 사용자에 의한 기대음성응답을 끌어내기 위한 트리거 발생기와; 각각이 수용가능한 발음을 갖춘 제1의 다수의 참조기대응답과, 각각이 다른 발음오류를 갖춘 제2의 다수의 참조기대응답을 포함하고 있는 다양한 참조기대응답을 구비하고 있는 기대음성응답 참조 라이브러리; 사용자에 의해 제공된 기대음성응답과 참조기대응답간의 관계를 나타내는 음성응답 채첨기; 사용자에 의해 제공된 기대음성응답내의 발음오류를 사용자에게 표시하는 사용자 궤환 인터페이스(12, 14, 16)를 포함하는 대화형 언어훈련용 장치를 제공하기 위한 것이다. 본 발명은 또한, 적어도 제1 및 제2언어의 스피치 요소를 포함하는 적어도 하나 이상의 데이터베이스와, 인식되어야 할 발성된 스피치를 수신하는 위한 수신기, 상기 발성된 스피치의 특징을 적어도 제1, 제2언어의 상기 스피치 요소들의 특징의 결합과 비교하는 비교기를 포함하는 스피치 인식장치를 개시한다. 여기에서 어떤 경우에는 스피치 요소의 결합이 단일의 스피치 요소를 포함할 수 있다. 또한, 본 발명에서는 스피치를 인식하는 방법이 개시된다.

Description

대화형 언어훈련용 장치
언어를 가르치기 위한 컴퓨터화된 시스템은 주지되어 있는 바, 그 한 예가 미국특허 제5,487,671호에 개시되어 있고, 그 발명자중 한 사람이 본 발명의 발명자로서, 특히 언어를 가르치기 위한 컴퓨터화된 시스템은 사용자의 언어와 참조(Reference)간의 표시를 제공한다.
상기한 것과 실질적으로 동일한 특징을 가진 물품은 "런 투 스피크 잉글리쉬(Learn to Speak English)"라는 상표로서 "더 러닝 컴퍼니(The Learning Company)"로부터 상업적으로 구매할 수 있다.
이러한 분야의 물품은 하이퍼글롯(HyperGlot), 벌리츠(Berlitz), 시라큐스 랭귀지 시스템즈 마인드스케이프 글로벌 랭귀지 및 로세타 스톤 랭귀지 라이브러리(Syracuse Language Systems Mindscape Global Language and Rosetta Stone Language Library)로부터 상업적으로 구매할 수 있다.
음소에 기초하는 스피치 인식용의 컴퓨터화된 시스템은 주지되어 있는 바, 이것도 상업적으로 구매할 수 있다. 이러한 시스템의 예로는 다음과 같은 것이 있다.
즉, IBM에 의해 상품화된, "학생과 가정사용자 및 소규모 비지네스를 위한 간단한 말하기 - IBM음성형";
IBM에 의해 상품화된, "전문가 및 비지네스용의 IBM 음성형";
미국 매사츄세츠 뉴튼의 드래곤 시스템즈에 의해 상품화된 "텔 투 미(Tell To Me)";
벨기에 레퍼의 런아웃 앤드 호스피 스피치 프로덕츠 엔.브이.에 의해 상품화된 "ASR-1500" 등이 있다.
본 발명은 교육 시스템에서의 응용기술을 갖춘 스피치 인식 시스템에 관한 것으로, 특히 음소(Phoneme)에 기초한 스피치 인식(Speech recognition)을 제공하는 컴퓨터화된 시스템과 언어교육방법에 관한 것이다.
도 1은 본 발명의 바람직한 실시예에 따라 구성되어 동작하는 대화형 언어교육 시스템을 일반화하여 도시한 도면,
도 2는 언어교육동안의 도 1에 도시된 시스템의 동작을 일반화한 기능 블록도,
도 3은 본 발명의 바람직한 한 실시예에 따른 음성참조 라이브러리의 발생동안의 도 1에 도시된 시스템의 동작을 일반화한 기능 블록도,
도 4는 본 발명의 바람직한 다른 실시예에 따른 음성참조 라이브러리의 발생동안의 도 1에 도시된 시스템의 동작을 일반화한 기능 블록도,
도 5A 및 5B는 공히 도 2에 도시된 일반화된 기능 블록도에 따른 언어교육동안의 시스템의 동작을 설명하는 일반화된 플로우 차트를 구성하는 도면,
도 6A, 6B 및 6C는 공히 도 3의 일반화된 기능 블록도에 따른 언어교육용 음성참조 라이브러리의 발생동안의 시스템의 동작의 한 방법을 설명하는 일반화된 플로우 차트를 구성하는 도면,
도 7은 도 4의 일반화된 기능 블록도에 따른 언어교육용 음성참조 라이브러리의 발생동안의 시스템의 동작을 설명하는 일반화된 플로우 차트,
도 8은 도 4에서 채용된 형태의 음성적 템플레이트 데이터베이스의 창작을 간단하게 설명한 도면,
도 9는 라벨화된 스피치 파형을 간단하게 설명한 도면,
도 10은 본 발명의 바람직한 실시예에 따른 다중 언어 음성적 데이터베이스의 창작을 설명하는 도면,
도 11은 음소를 채용하는 스피치 인식을 설명하기 위한 도면,
도 12는 여러가지 언어의 음소를 채용하는 스피치 인식을 설명하는 도면이다.
본 발명은 사용자에게 발음오류의 형태나 사용자가 만드는 오류를 표시해 주는 언어교육용의 더욱 개선된 컴퓨터화된 시스템을 제공하기 위한 것이다.
본 발명의 바람직한 실시예에 따르면,
사용자에 의한 기대음성응답(expected audio response)을 끌어내기 위한 트리거 발생기와;
각각이 수용가능한 발음을 갖춘 제1의 다수의 참조기대응답(reference expected response)과, 각각이 다른 발음오류를 갖춘 제2의 다수의 참조기대응답을 포함하고 있는 다양한 참조기대응답을 포함하고 있는 기대음성응답 참조 라이브러리(expected audio response reference library);
사용자에 의해 제공된 기대음성응답과 참조기대응답간의 관계를 나타내는 음성응답 채첨기;
사용자에 의해 제공된 기대음성응답내의 발음오류를 사용자에게 표시하는 사용자 궤환 인터페이스를 포함하는 대화형 언어훈련용 장치가 제공된다.
바람직하게, 사용자 궤환 인터페이스는 또한 발음오류를 어떻게 극복할 것인 가를 사용자에게 지시한다.
본 발명의 바람직한 실시예에 따르면, 사용자 궤환 인터페이스는 각각의 기대음성응답에 즉시 뒤따라서 사용자에게 각각의 발음오류를 나타내 준다.
바람직하게, 궤환 인터페이스는 발음오류의 음성 및 시각표시를 제공한다.
본 발명의 바람직한 실시예에 따르면, 음성표본 발생기는 기대음성응답이 음성표본의 반복이 되도록 동작한다.
이와는 달리, 상기 음성표본 발생기는 기대음성응답이 음성표본의 반복 이외의 다른 것이 되도록 동작한다.
이와는 또 달리, 음성표본 발생기는 기대음성응답이 하나 이상의 가능한 기대음성응답들중에서 선택될 수 있는 음성표본이 되도록 동작한다.
바람직하게, 트리거 발생기는 음성표본을 사용자에게 재생시켜주기 위한 음성표본 발생기를 구비하고 있다.
이와는 달리, 또는 부가적으로, 트리거 발생기는 시각적인 트리거 출력을 사용자에게 제공하기 위한 시각 트리거 발생기를 구비하고 있다.
바람직하게, 기대음성응답 라이브러리는 기대음성응답 참조 데이터베이스를 구비하고 있다.
본 발명의 바람직한 실시예에 따르면, 기대음성응답 참조 데이터베이스는 다양한 템플레이트를 갖추고 있으며 발성자에 대해 독립적인 것이다.
또한, 본 발명의 바람직한 실시예에 따르면,
사용자에 의한 기대음성응답을 끌어내는 단계와;
각각이 수용가능한 발음을 갖춘 제1의 다수의 참조기대응답과, 각각이 다른 발음오류를 갖춘 제2의 다수의 참조기대응답을 포함하고 있는 다양한 참조기대응답을 구비하고 있는 기대음성응답 참조 라이브러리를 제공하는 단계;
사용자에 의해 제공된 기대음성응답과 참조기대응답간의 관계를 표시하는 단계;
사용자에 의해 제공된 기대음성응답내의 발음오류를 사용자에게 표시하는 단계를 구비한 대화형 언어훈련방법이 제공된다.
더욱이 본 발명의 바람직한 실시예에 따르면, 본 발명의 방법은 또한 발음오류를 어떻게 극복할 것인 가를 사용자에게 지시하는 단계를 포함한다.
더욱이 본 발명의 바람직한 실시예에 따르면, 본 발명의 방법은 또한 각각의 기대음성응답에 즉시 뒤따라서 사용자에게 각각의 발음오류를 표시해 주는 단계를 포함한다.
더욱이 본 발명의 바람직한 실시예에 따르면, 본 발명의 방법은 또한 상기 발음오류의 음성 및 시각표시를 사용자에게 제공하는 단계를 포함한다.
더욱이 본 발명의 바람직한 실시예에 따르면, 본 발명의 방법은 또한기대음성응답이 상기 음성표본의 반복이 되도록 하는 단계를 포함한다.
이와는 달리, 본 발명의 방법은 또한 기대음성응답이 음성표본의 반복 이외의 다른 것이 되도록 하는 단계를 포함한다.
부가적으로 본 발명의 바람직한 실시예에 따르면, 기대음성응답은 하나 이상의 가능한 기대음성응답들중에서 선택될 수 있는 음성표본이다.
더욱이 본 발명의 바람직한 실시예에 따르면, 음성응답을 끌어내는 단계는 음성표본을 사용자에게 재생시켜주는 단계를 포함한다.
더욱이 본 발명의 바람직한 실시예에 따르면, 상기 끌어내는 단계는 사용자에게 시각적인 트리거 출력을 제공하는 단계를 구비하고 있다.
또한, 본 발명의 바람직한 실시예에 따르면, 적어도 제1, 제2언어의 스피치 요소를 포함하는 적어도 하나 이상의 데이터베이스와, 인식되어질 발성된 스피치를 수신하기 위한 수신기, 발성된 스피치의 특징을 적어도 제1, 제2언어의 스피치 요소의 특징들의 결합과 비교하는 비교기를 갖추고 있는 스피치 인식장치가 제공된다. 여기에서 어떤 경우에는 스피치 요소의 특징의 결합이 단일의 스피치 요소의 특징을 포함할 수 있다. 또한, 스피치 요소의 특징은 스피치 요소 신호를 포함할 수 있다.
또한, 본 발명의 바람직한 실시예에 따르면, 사용자에 의한 기대음성응답을 끌어내기 위한 트리거 발생기와; 적어도 제1, 제2언어의 스피치 요소를 갖추고 있는 적어도 하나 이상의 데이터베이스와, 인식되어질 발성된 스피치를 수신하는 수신기, 상기 발성된 스피치의 특징을 적어도 제1, 제2언어의 상기 스피치 요소의 특징들의 결합과 비교하는 비교기를 포함하고서, 사용자에 의해 발성된 기대음성응답을 수신하는 스피치 인식장치; 사용자에 의해 발성된 기대음성응답내의 오류를 사용자에게 표시하는 사용자 궤환 인터페이스를 포함하는 언어교육 시스템이 제공된다.
더욱이, 본 발명의 바람직한 실시예에 따르면, 스피치 요소는 적어도 음소, 2중 음(Diphone) 및 음소간의 변화중의 하나를 포함한다.
더욱이, 본 발명의 바람직한 실시예에 따르면, 언어교육 시스템은 또한 구 템프레이트(Phrase Template)를 발생시키기 위해 동작하는 템플레이트 발생기를 포함한다.
더욱이, 부가적으로, 본 발명의 바람직한 실시예에 따르면, 언어교육 시스템은 수신기에 의해 수신되어진 발성된 스피치의 특징을 추출하기 위해 동작하는 특징 추출기를 또한 포함한다.
또한, 본 발명의 바람직한 실시예에 따르면, 적어도 제1, 제2언어의 스피치 요소를 갖춘 적어도 하나 이상의 데이터베이스를 제공하는 단계와, 인식되어질 발성된 스피치를 수신하는 단계, 발성된 스피치의 특징을 적어도 제1, 제2언어의 스피치 요소의 특징들의 결합과 비교하는 단계를 포함하는 스피치 인식방법이 제공된다. 여기에서 어떤 경우에는 스피치 요소의 특징의 결합이 단일의 스피치 요소의 특징을 포함할 수 있다. 또한, 스피치 요소의 특징은 스피치 요소 신호를 포함할 수 있다.
더욱이 본 발명의 바람직한 실시예에 따르면, 발성된 스피치는 제2언어의 토박이 발성자인 사용자에 의해 제1언어로 발성되고, 여기에서 적어도 하나 이상의 데이터베이스는 제1, 제2언어 모두의 스피치 요소를 포함한다.
더욱이 본 발명의 바람직한 실시예에 따르면, 적어도 제1, 제2언어는 각기 다른 국가의 언어를 포함한다.
더욱이 부가적으로 본 발명의 바람직한 실시예에 따르면, 적어도 제1, 제2언어는 단일 국가 언어의 각기 다른 사투리를 포함한다.
도 1은 본 발명의 바람직한 실시예에 따라 구성되어 동작하는 대화형 언어교육 시스템을 일반화하여 도시한 도면이고, 도 2는 언어교육동안의 도 1에 도시된 시스템의 동작을 일반화한 기능 블록도이다.
도 1의 시스템은 이 명세서에서 참조로 사용될 공개된 미국 특허 5,487,671호에 설명된 스피치 교육용의 컴퓨터화된 시스템과 많은 유사점을 갖고 있다.
후에 상세히 설명되겠지만, 본 발명의 시스템은 다른 발음오류를 가지는 각각의 참조기대응답으로 작동하고 사용자에 의해 제공되는 기대음성응답과 발음오류를 가지는 참조기대응답간의 관계를 표시하는 음성응답 채점기를 포함한다는 점에서 미국 특허 5,487,671호와 다르다.
도 1과 도 2의 시스템은 본 발명의 바람직한 실시예에 따라 스피치 인식기능들을 통합시킨다.
도 1과 도 2의 시스템은 기존의 개인용 컴퓨터, 바람직하게는 예컨대, 33 MHZ나 그 이상에서, 최소한 8MB의 기억장치 용량을 갖고, MS-DOS 6.0이상의 운영체계를 운영하는 인텔 80486 CPU를 사용하는 IBM PC나 그와 견줄만한 것에 기초를 둔다. 개인용 컴퓨터(10)는 보조적인 음성 모듈(12)을 장착하고 있다. 예컨대, 적절한 음성 모듈(12)은 디지스피치사(Digispeech, Inc.)가 제조하고 캘리포니아 마운틴 뷰 소재의 DSP 솔루션즈 주식회사(SOLUTIONS Inc)에 의해 유통되는 디지스피치 플러스 음성 어댑터(DS311)이다. 헤드셋(14)는 바람직하게 음성 모듈(12)과 연결된다.
일반적으로 개인용 컴퓨터(10)와 음성 모듈(12)은 다음의 기능을 제공하기 위해 적당한 소프트웨어를 제공받는 바,
즉, 사용자에 의한 기대음성응답을 끌어내기 위한 트리거 발생기. 이 트리거 발생기는 사용자에게 음성표본을 재생시켜 주기 위한 음성표본 발생기를 바람직하게 구비하지만, 이와는 달리, 혹은 부가적으로 사용자에게 시각적 트리거 출력을 제공하기 위한 시각적 트리거 발생기를 구비한다.;
다양한 참조기대응답을 포함하고 있되, 다양한 참조기대응답은 수용가능한 발음을 갖춘 제1의 다수의 참조기대응답과, 각각이 다른 발음오류를 갖는 제2의 다수의 참조기대응답을 포함하고 있는 기대음성응답 참조 라이브러리. 여기에서, 상기 제2의 다수의 참조 기대응답은 갖가지 언어의 음소로부터 구성된 응답을 포함할 수 있고 일반적으로 스피치 인식에서 응용 기술을 가질 수 있다. ;
사용자에 의해 제공된 기대음성응답과 참조기대응답간의 관계를 나타내는 음성응답 채점기 ;
사용자에 의해 제공되는 기대음성응답내의 발음오류를 사용자에게 표시하는 사용자 궤환 인터페이스등을 제공받는다.
상기 사용자 궤환 인터페이스는 바람직하게는 음성 모듈(12)과 헤드셋(14)을 통하여 음성 궤환을 제공한다. 부가적으로, 도 1과 2에서 보듯이 디스플레이(16)는, 예컨대, 도 1에 도시된 것처럼 시각적인 방법으로 사용자에게 발음오류를 표시하기 위해 제공된다.
본 발명의 바람직한 실시예에 따라, 총 6개의 다른 데이터베이스들이 채용된다. 발명의 간편하고 쉬운 이해를 위해, 6개의 데이터베이스가 발명의 어디에서 창작되고 사용되는가를 이하에서 간략하게 설명한다.
A. 중간 음성표본 데이터베이스 : 이 데이터베이스는 다양한 지리적 혈통, 다양한 연령, 성의 분포를 포함하는 다수의 토박이 발성자들에 의해 발생되는 데이터베이스이다. 다수의 토박이 발성자들은 다양한 다른 언어를 구사하는 발성자를 포함할 수 있다. 각각의 발성자들은 다수의 미리 정해진 구(Phrase)를 발성한다. 미리 정해진 다수의 구 각각에 대해, 각각의 발성자는 구를 정확히 발음하고 또한 이 구를 여러번 부정확하게 반복하는데, 각각의 경우는 미리 정해진 다수의 발음오류들 중 다른 하나를 갖고 있다. 바람직하게 이 데이터베이스는 향상된 통계적인 기초를 제공하기 위해 각각의 발성자에 대해 상기 발음된 구의 각각에 대한 녹음을 포함하고 있다.
B. 기대음성응답 참조 데이터베이스 : 이것은 녹음된 스피치보다는 템플레이트(Template)를 포함하고 있는 데이터베이스이다.
다양한 형태의 템플레이트가 제공될 수 있다. 단어에 기초하는 스피치 인식용의 뎀플레이트의 한 형태는 이하 설명되는 방법에 의해 데이터베이스 A로부터 나올 수 있다. 음소에 기초하는 스피치 인식용의 다른 형태의 템플레이트는 구를 함께 표현하는 스피치 요소 특징의 다양한 결합을 구비한다.
단어에 기초하는 스피치 인식용의 뎀플레이트는, 위에서 참조한 다수의 토박이 발성자 발음을 나타내기 위해, 발음된 구 각각의 스피치 매개변수를 추출하고 그것들을 통계적으로 결합시킴으로써 중간 음성 표본 데이터베이스 A에서 나올 수 있다.
따라서 각각의 템플레이트는 한 집단의 토박이 발성자 발음의 통계적 결합을 나타낸다.
단일 템플레이트는 중간 음성 표본 데이터베이스 A에 녹음되어 있는 모든 토박이 발성자의 발음을 커버하기 위해 만들어지거나, 다수의 템플레이트는 단일 템플레이트가 토박이 발성자의 전 범위를 정확하게 표현하지 않을 때 이용될 수 있다. 예컨대, 하나의 템플레이트는 남성이나 여성을 표현할 수 있다. 이와는 달리, 또는 부가적으로, 하나하나의 템플레이트는 다른 언어의 음소를 각각 포함할 수 있다.
본 발명의 바람직한 실시예에 따라, 기대음성응답 참조 데이터베이스 B는 위에서 참조한 기대음성응답 참조 라이브러리를 구성한다. 이것은 발성자에 대해 독립적인 데이터베이스이다.
다양한 형태의 템플레이트가 제공될 수 있다. 단어에 기초하는 스피치 인식용의 뎀플레이트의 한 형태는 위에서 설명한 방법으로 데이터베이스 A에서 나올 수 있다. 음소에 기초하는 스피치 인식용의 다른 형태의 템플레이트는 구를 함께 나타내는 스피치요소 특징의 다양한 결합을 구비하고 있다.
C. 음성적 데이터베이스 : 이것은 주어진 언어에 대해 상업적으로 구매할 수 있는 음소의 스피치 매개변수의 데이터베이스이다. 이러한 데이터베이스는 예컨대, AT & T, 미국 콜로라도 볼더의 스피치 시스템 주식회사(Speech System Incorporated), 그리고 벨기에 레퍼의 런 아웃 앤드 호스피 스피치 프로덕츠 엔.브이.(Lernout & Hauspie Speech Products N.V.)로부터 구매할 수 있다. 각각 다른 언어의 음소의 매개변수를 각각 포함하고 있는 다양한 음성적 데이터베이스가 제공될 수 있는 바, 집단적으로 음성적 데이터베이스라고 일컫는다.
D. 사용자 후속 데이터베이스 : 이것은 녹음된 사용자 응답들의 집합이다.
E. 기대 음성표본 데이터베이스 : 이것은 다수의 구를 정확히 발음한 각각의 훈련받은 발성자의 녹음된 집합이다.
F. 참조 음성표본 데이터베이스 : 이것은 다수의 구 각각을 부정확하게 여러번 발음하는 훈련된 발성자 각자를 녹음한 것들의 집합인데, 매 번 미리 정해진 다수의 발음오류중 다른 하나를 갖고 있다.
참조로, 도 2는 언어교육동안 도 1에 도시된 시스템 동작의 일반화된 기능 블록도이다.
기대 음성표본 데이터베이스 E에 저장된 음성표본은 사용자에 의한 음성응답을 끌어내기 위해 음성 모듈(14; 도 1)을 통해 사용자에게 재생된다. 헤드셋(14)의 일반적인 부분인 마이크로폰(20)은 사용자의 음성응답을 녹음하기 위해 사용되는데, 이 응답은 사용자 후속 데이터베이스 D에 저장된다. 음성표본은 발성된 구를 일반적으로 포함한다. 구는 하나 이상의 단어를 포함할 수 있다. 대신에 혹은 추가로, 사용자에 의한 기대음성응답을 사용자에게 끌어내기 위해 사용자에게 시각적 트리거 출력을 제공하기 위한 시각적 트리거가 제공될 수 있다.
발성된 구 요소는 사용자의 음성응답으로부터 추출되고 참조 구 매개변수와 비교되는데, 이것은 사용자 음성응답의 발성된 구 매개변수와, 기대음성응답 참조 데이터베이스 B에 저장된 대응되는 정확하거나 부정확한 구사이의 참조 구 매개변수간의 부합 가능성을 측정하기 위한 것이다.
참조 구 매개변수가 반드시 단어 혹은 단어의 결합으로 구성되는 것은 아니다. 대신에, 스피치 인식에 기초하는 음소가 진행될 때 참조 구 매개변수는 스피치 요소 특징의 다양한 결합으로 구성될 수 있다.
가능성 측정의 결과는 사용자의 음성응답에 가장 가까운 구의 선택이나 부합되지 않는다는 실패의 표시이다. 부합되는 구를 확인하고 이것이 정확한 것인지 아닌지를 나타내는 음성이나 시각적 궤환 표시가 사용자에게 제공된다. 바람직하게, 사용자의 응답은 교육과정 중 부합된 단 하나 혹은 여러 구로부터 한 단어, 여러개의 단어, 단일 문장, 혹은 여러 문장을 포함할 수 있다. 식별된 오류를 극복하는 방법으로서 추가적인 교육 정보가 음성-시각적 방법으로 또한 제공된다. 헤드셋(14; 도 1)의 부분을 구성하고 있는 헤드폰(22)과 디스플레이(16)가 이러한 목적으로 바람직하게 채용된다.
도 3은 본 발명의 바람직한 실시예에 따른 기대음성응답 참조 데이터베이스 B의 발생동안 도 1에 도시된 시스템의 동작을 일반화한 기능 블록도이다. 여기에, 마이크로폰(30)은 다양한 지리적 혈통, 다양한 연령, 성의 분포를 포함하는 다수의 토박이 발성자에 의해 발성된 구를 녹음하려고 사용된다.
각각의 발성자는 다수의 미리 정해진 구를 발성한다. 미리 정해진 다수의 구에 대해, 각각의 발성자는 구를 정확히 발음하고 또한 이 구를 여러번 부정확하게 발음하는데, 각각의 경우는 미리 정해진 다른 발음오류들 중 하나를 갖고 있다. 이 녹음된 것들은 중간 음성표본 데이터베이스에 보관된다. 바람직하게, 이 데이터베이스는 향상된 통계적인 베이스를 제공하기 위해, 각각의 발성자에 대해 각각의 상기 발음된 구들의 각각의 다수의 녹음된 것을 포함하고 있다.
단어에 기초하는 스피치 인식이 제공됐을 때, 기대음성응답 참조 데이터베이스를 구축하기 위해 발음된 구 매개변수는 추출되어 기대음성응답 참조 데이터베이스 B에 저장되어 있는 구 매개변수와 합쳐진다. 이 데이터베이스는 다양한 참조기대응답을 포함하고 있되, 다양한 참조기대응답이 수용가능한 발음을 갖춘 제1의 다수의 참조기대응답과, 각각이 다른 발음오류를 갖는 제2의 다수의 참조기대응답을 갖추고 있다.
각각의 구는 다수의 M명 각각의 발성자에 의해 N번 정확하게 녹음된다. 부가적으로, M명 각각의 발성자에 의해 다른 발음오류를 포함하고 있는 L개의 다른 형태로 N번 녹음된다.
도 4는 본 발명의 바람직한 실시예에 따른 음성참조 라이브러리 발생동안의 도 1에 도시된 시스템 동작을 일반화한 기능 블록도이다. 여기서, 기대음성응답 참조 데이터베이스 B는, 음성적 언어 녹음을 만들려고 사용되는 텍스트와 음성적 언어 파일들을 발생시킴으로서 컴퓨터에 의해 발생되는 것이다. 음성적 언어는 기대음성응답 참조 데이터베이스 B를 구성하는 구 템플레이트를 발생시키기 위해 음소 데이터베이스 C와 함께 사용된다.
도 4의 실시예에서, 구 템플레이트는 일반적으로 단어나 단어의 결합이라기보다는 음소, 2중 음 및 음소간의 변화같은 스피치 요소의 특징들의 결합이다. 음소에 기초하는 스피치 인식에서, 인식되어진 스피치의 특징은 최적의 부합을 찾기 위해 이러한 결합들과 비교된다.
도 5A와 5B는 도 2에 도시된 일반화된 기능 블록도에 따른 언어교육동안의 시스템의 동작을 설명하는 일반화된 플로우 차트를 함께 구성한다. 일단 플로우 차트에서 식별된 최초의 준비가 완료되고 데이터베이스 E로부터 듣게 될 목소리의 형태가 선택된 후에, 레슨이 선택되고 사용자는 선택된 소리를 정확히 발음하는 방법에 대한 설명을 제공받는다. 각각의 선택된 소리에 있어서 참조 음성표본 데이터베이스 E로부터의 참조 음성표본은 사용자에 의한 기대음성응답을 끌어낼 목적으로 사용자를 위해 재생된다.
사용자의 응답은 녹음되고 본 발명의 참조로 사용되는 미국 특허 5,487,671호에 설명된 학생 응답표본 녹음기에 의한 기대음성응답 참조 데이터베이스 B에 포함된 참조기대응답과 비교된다.
만약, 정확한 응답에 최적의 부합이 되면, 긍정적 궤환이 사용자에게 제공되고, 레슨은 다음의 음성표본으로 진행된다.
만약 발음오류를 갖는 참조기대응답에 최적의 부합이 되면, 적절한 궤환이 사용자에게 제공된다. 이 궤환은 오류에 대한 설명과 그것을 고치는 방법과 참조기대응답의 재생을 바람직하게 포함한다. 본 발명의 바람직한 실시예에 따라, 잘못 발음된 구는 사용자에게 참조 음성표본 데이터베이스 F로부터 재생된다.
사용자 후속 데이터베이스 D는 사용자 진행을 표시하기 위해 시스템 궤환안에 포함되어 있는 가장 최근의 것이나 보다 앞선 사용자 응답을 재생하거나 다른 목적을 위해 사용될 수 있다.
도 6A, 도 6B 및 도 6C는 도 3의 일반화된 기능 블록도에 따른 언어교육용 음성참조 라이브러리 발생동안의 시스템의 동작을 도시한 일반화된 플로우 차트를 함께 구성한다.
일단 플로우 차트에서 표시된 최초의 준비가 완료되면 훈련된 발성자는 정확한 구와 다수의 부정확한 구를 발음하는데, 다른 발음오류를 각각 갖는 참조기대응답을 제공하기 위해 발음에서 하나 이상의 오류가 있다는 것을 제외하고는 이 발성자의 발음은 정확한 구와 유사하다. 그러한 각각의 정확하고 부정확한 구들이 녹음된다. 본 발명의 바람직한 실시예에 따라, 중간 음성표본 데이터베이스 A는 다양한 녹음을 포함한다. 도 3에서 설명했듯이, 데이터베이스 A는 단어에 기초하는 스피치 인식용으로 도 6C의 기대음성응답 참조 데이터베이스 B를 만들기 위해 사용된다.
도 7은 도 4의 일반화된 기능 블록도에 따른 언어교육용 음성참조 라이브러리 발생동안의 시스템 동작을 일반화하여 도시화한 플로우 차트이다. 여기에서, 분명한 텍스트와 음성적 언어를 등록하고 이 텍스트를 표시되는 음소 언어로 전환하기 위해 컴퓨터가 채용된다. 위에서 설명한 형태의 음소 데이터베이스 C를 사용하는 구 템플레이트가 발생된다. 구 템플레이트는 그후 기대음성응답 참조 데이터베이스 B에 저장된다. 이러한 과정은 시스템에서 사용되고 있는 각각의 구 템플레이트에 대해 진행된다.
구 템플레이트는 일반적으로 단어나 단어의 조합이라기보다는 음소, 2중 음 및 음소간의 변화같은 스피치 요소의 특징들의 결합이다. 음소에 기초하는 스피치 인식에서, 인식되는 스피치의 특징은 최적의 부합을 찾기 위해 이러한 결합들과 비교가 된다.
도 8과 도 9는 본 발명의 바람직한 실시예에 따라, 도 4와 도 7에서 채용된 형태의 음성적 데이터베이스 C의 창작을 도시한 것이다. 도 9에서 예로서 도시된 형태의 라벨화된 데이터베이스(50)는 e-mail주소가 online-service@1dc.upenn.edu인 펜실베니아 대학의 언어학 데이터 콘소시움(Linguistic Data Consortium)으로부터 구할 수 있는 TIMIT 청각-음성의 연속 스피치 언어자료(Aucostic-Phonetic Continuous Speech Corpora) 에서 얻을 수 있다. 또한, e-mail 주소가 sales@entropic. com인 엔트로픽 케임브리지 리서치 연구소로부터 구할 수 있는 HTK(Hidden Markov Model Toolkit)같은 상업적으로 구매할 수 있는 소프트웨어에서 전형적으로 실시되는 템플레이트 구축기(52)는 데이터베이스(50)상에서 동작하여 음소 데이터베이스 C를 제공한다. 도 8의 기술은 다양한 언어에 응용할 수 있다.
음성적 데이터베이스(58)가 다중 언어로부터의 음소를 구비할 때 음성적 데이터베이스 C는 도 10에 도시된 것처럼 다수의 음성적 데이터베이스(54, 56)를 결합함으로써 구체화된다. 습득되거나 말하여지는 언어나 사용자의 모국어의 음소를 포함하고 있는 음성적 데이터베이스(54, 56)는 향상된 스피치 인식을 제공하기 위해 결합될 수도 있다는 것이 이 발명의 독특한 특징이다.
도 11은 음소를 채용하는 스피치 인식을 도시한 것이다. 도시된 예에서, 기대되는 단어는 'tomato'이다. 기대되는 대안 발음의 망이 만들어진다. 여기서, 발성자는 첫 "o"를 "O","OW","U"로 발음할 수 있고, "O"발음은 정확한 것으로 간주된다.
유사하게, 사용자는 "a"를 "A" 혹은 "EY"로 발음할 수 있고, "EY" 발음은 정확한 것으로 간주된다.
도 11은 스피치 인식을 위해 사용되는 모든 음소들이 단일 언어에 속하는 것을 특징으로 한다.
도 12는 여러가지 언어의 음소를 채용하는 스피치 인식을 도시한 것이다. 본 예는 토박이 일본인 발성자에 의해 발음되는 영어를 인식하기 위해 설계됐다. 여기서, 기대되는 단어는 "Los Angeles"의 "Los"이다. 여기서 발성자는 "L"을 "L"(원안의 "L"), 영어 "R"(원안의 "R"), 혹은 일본어의 "R"(네모안의 "R")로 발음할 수 있다.
도 12는 스피치 인식을 위해 사용되는 모든 음소들이 단일언어에 속하지 않는다는 것을 특징으로 한다. 도 12의 예에서, 음소의 일부는 영어 음소(원안의 글자)이고 음소의 다른 일부는 일본어 음소(네모안의 글자)이다.
언어교육을 위해 도 12의 스피치 인식 기술을 사용할 때, 토박이 일본인의 특징적인 잘못된 발음이 시스템에 의해 인식되고, 필요한 교육 궤환이 사용자에게 제공된다. 도 12의 스피치 인식 기술이 다른 스피치 인식 응용 기술에 사용될 때, 영어 발음이 완벽하지 않은 토박이 일본인 발성자에 의해 발성된 영어가 인식되도록 한다.
본 기술에 통상의 기술을 가진 자라면 이상에서 특정하여 설명한 것에만 본 발명을 제한하지는 않을 것이다. 오히려 본 발명의 범위는 이상에서 설명된 다양한 특징과 요소의 결합 및 부속적인 결합과 함께 그것들의 분명한 변형과 확장을 포함하는 것이다.
본 발명에 따른 대화현 언어훈련용 장치는, 음소에 기초한 스피치 인식을 제공하는 각종의 컴퓨터화된 시스템과 언어교육방법 등에 적용할 수있다.

Claims (31)

  1. 사용자에 의한 기대음성응답을 끌어내기 위한 트리거 발생기와;
    각각이 수용가능한 발음을 갖춘 제1의 다수의 참조기대응답과, 각각이 다른 발음오류를 갖춘 제2의 다수의 참조기대응답을 포함하고 있는 다양한 참조기대응답을 구비하고 있는 기대음성응답 참조 라이브러리;
    사용자에 의해 제공된 기대음성응답과 참조기대응답간의 관계를 나타내는 음성응답 채첨기;
    사용자에 의해 제공된 기대음성응답내의 발음오류를 사용자에게 표시해 주는 사용자 궤환 인터페이스를 구비하여 구성된 대화형 언어훈련용 장치.
  2. 제1항에 있어서, 상기 사용자 궤환 인터페이스는 또한 발음오류를 어떻게 극복할 것인가를 사용자에게 지시하는 것을 특징으로 하는 장치.
  3. 제1항에 있어서, 상기 사용자 궤환 인터페이스는 각각의 기대음성응답에 즉시 뒤따라서 사용자에게 각각의 발음오류를 표시해 주는 것을 특징으로 하는 장치.
  4. 제1항에 있어서, 상기 사용자 궤환 인터페이스는 상기 발음오류의 음성 및 시각표시를 제공하는 것을 특징으로 하는 장치.
  5. 제1항에 있어서, 음성표본 발생기는 기대음성응답이 상기 음성표본의 반복이 되도록 동작하는 것을 특징으로 하는 장치.
  6. 제1항에 있어서, 음성표본 발생기는 기대음성응답이 상기 음성표본의 반복 이외의 다른 것이 되도록 동작하는 것을 특징으로 하는 장치.
  7. 제1항에 있어서, 음성표본 발생기는 기대음성응답이 하나 이상의 가능한 기대음성응답들 중에서 선택될 수 있는 음성표본이 되도록 동작하는 것을 특징으로 하는 장치.
  8. 제1항에 있어서, 상기 트리거 발생기는 음성표본을 사용자에게 재생시켜주기 위한 음성표본 발생기를 구비하고 있는 것을 특징으로 하는 장치.
  9. 제1항에 있어서, 상기 트리거 발생기는 시각적 트리거 출력을 사용자에게 제공하기 위한 시각 트리거 발생기를 구비하고 있는 것을 특징으로 하는 장치.
  10. 제1항에 있어서, 상기 기대음성응답 라이브러리는 기대음성응답 참조 데이터베이스를 구비하고 있는 것을 특징으로 하는 장치.
  11. 제10항에 있어서, 상기 기대음성응답 참조 데이터베이스는 다양한 템플레이트를 갖추고 있는 것을 특징으로 하는 장치.
  12. 제10항에 있어서, 상기 기대음성응답 참조 데이터베이스는 발성자에 대해 독립적인 것을 특징으로 하는 장치.
  13. 제11항에 있어서, 상기 기대음성응답 참조 데이터베이스는 발성자에 대해 독립적인 것을 특징으로 하는 장치.
  14. 사용자에 의한 기대음성응답을 끌어내는 단계와;
    각각이 수용가능한 발음을 갖춘 제1의 다수의 참조기대응답과, 각각이 다른 발음오류를 갖춘 제2의 다수의 참조기대응답을 포함하고 있는 다양한 참조기대응답을 구비하고 있는 기대음성응답 참조 라이브러리를 제공하는 단계;
    사용자에 의해 제공된 기대음성응답과 참조기대응답간의 관계를 표시하는 단계;
    사용자에 의해 제공된 기대음성응답내의 발음오류를 사용자에게 표시하는 단계를 구비한 대화형 언어훈련방법.
  15. 제14항에 있어서, 발음오류를 어떻게 극복할 것인 가를 사용자에게 지시하는 단계를 또한 구비하고 있는 것을 특징으로 하는 방법.
  16. 제14항에 있어서, 각각의 기대음성응답에 즉시 뒤따라서 사용자에게 각각의 발음오류를 표시해 주는 단계를 또한 구비하고 있는 것을 특징으로 하는 방법.
  17. 제14항에 있어서, 상기 발음오류의 음성 및 시각적 표시를 사용자에게 제공하는 단계를 또한 구비하고 있는 것을 특징으로 하는 방법.
  18. 제14항에 있어서, 상기 기대음성응답이 음성표본의 반복인 것을 특징으로 하는 방법.
  19. 제14항에 있어서, 상기 기대음성응답이 음성표본의 반복 이외의 다른 것임을 특징으로 하는 방법.
  20. 제14항에 있어서, 상기 기대음성응답이 하나 이상의 가능한 기대음성응답들중에서 선택될 수 있는 음성표본인 것을 특징으로 하는 방법.
  21. 제14항에 있어서, 상기 음성응답을 끌어내는 단계는 음성표본을 사용자에게 재생시켜주는 단계를 포함하는 것을 특징으로 하는 방법.
  22. 제14항에 있어서, 상기 끌어내는 단계는 사용자에게 시각적인 트리거 출력을 제공하는 단계를 구비하고 있는 것을 특징으로 하는 방법.
  23. 적어도 제1, 제2언어의 스피치 요소를 포함하는 적어도 하나 이상의 데이터베이스와;
    인식되어질 발성된 스피치를 수신하기 위한 수신기;
    상기 발성된 스피치의 특징을 적어도 제1, 제2언어의 스피치 요소의 특징들의 결합과 비교하는 비교기를 구비하고 있는 스피치 인식장치.
  24. 사용자에 의한 기대음성응답을 끌어내기 위한 트리거 발생기와;
    적어도 제1, 제2언어의 스피치 요소를 갖추고 있는 적어도 하나 이상의 데이터베이스와, 인식되어질 발성된 스피치를 수신하는 수신기, 상기 발성된 스피치의 특징을 적어도 제1, 제2언어의 상기 스피치 요소의 특징들의 결합과 비교하는 비교기를 포함하고서, 사용자에 의해 발성된 기대음성응답을 수신하는 스피치 인식장치;
    사용자에 의해 발성된 기대음성응답내의 오류를 사용자에게 표시하는 사용자 궤환 인터페이스를 구비하고 있는 언어교육 시스템.
  25. 제24항에 있어서, 상기 스피치 요소는 음소, 2중 음 및 음소간의 변화중의 적어도 하나를 구비하고 있는 것을 특징으로 하는 언어교육 시스템.
  26. 제24항에 있어서, 구 템프레이트(Phrase Template)를 발생시키기 위해 동작하는 템플레이트 발생기를 또한 구비하고 있는 것을 특징으로 하는 언어교육 시스템.
  27. 제24항에 있어서, 상기 수신기에 의해 수신되어진 발성된 스피치의 특징을 추출하기 위해 동작하는 특징 추출기를 또한 구비하고 있는 것을 특징으로 하는 언어교육 시스템.
  28. 적어도 제1, 제2언어의 스피치 요소를 포함하는 적어도 하나 이상의 데이터베이스를 제공하는 단계와;
    인식되어질 발성된 스피치를 수신하는 단계; 및
    발성된 스피치의 특징을 적어도 제1, 제2언어의 스피치 요소의 특징들의 결합과 비교하는 단계를 구비하고 있는 스피치 인식방법.
  29. 제28항에 있어서, 발성된 스피치는 제2언어의 토박이 발성자인 사용자에 의해 제1언어로 발성되고, 여기에서 적어도 하나 이상의 데이터베이스는 제1, 제2언어 양쪽의 스피치 요소를 포함하는 것을 특징으로 하는 스피치 인식방법.
  30. 제28항에 있어서, 상기 적어도 제1, 제2언어는 각기 다른 국가의 언어를 구비하고 있는 것을 특징으로 하는 방법.
  31. 제28항에 있어서, 상기 적어도 제1, 제2언어는 단일 국가 언어의 각기 다른 사투리를 구비하고 있는 것을 특징으로 하는 방법.
KR1019980701824A 1996-07-11 1997-05-04 대화형 언어훈련용 장치 KR19990044575A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US8/678229 1996-07-11
US08/678,229 US5766015A (en) 1996-07-11 1996-07-11 Apparatus for interactive language training

Publications (1)

Publication Number Publication Date
KR19990044575A true KR19990044575A (ko) 1999-06-25

Family

ID=24721939

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980701824A KR19990044575A (ko) 1996-07-11 1997-05-04 대화형 언어훈련용 장치

Country Status (9)

Country Link
US (1) US5766015A (ko)
EP (1) EP0852782A4 (ko)
JP (1) JPH11513144A (ko)
KR (1) KR19990044575A (ko)
CN (1) CN1197525A (ko)
AU (1) AU2403297A (ko)
BR (1) BR9702341A (ko)
IL (1) IL123556A0 (ko)
WO (1) WO1998002862A1 (ko)

Families Citing this family (80)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6283760B1 (en) 1994-10-21 2001-09-04 Carl Wakamoto Learning and entertainment device, method and system and storage media therefor
US6109923A (en) 1995-05-24 2000-08-29 Syracuase Language Systems Method and apparatus for teaching prosodic features of speech
US6961700B2 (en) 1996-09-24 2005-11-01 Allvoice Computing Plc Method and apparatus for processing the output of a speech recognition engine
US6022221A (en) * 1997-03-21 2000-02-08 Boon; John F. Method and system for short- to long-term memory bridge
US20040219494A1 (en) * 1997-03-21 2004-11-04 Boon John F. Authoring tool and method of use
US6017219A (en) * 1997-06-18 2000-01-25 International Business Machines Corporation System and method for interactive reading and language instruction
JP4267101B2 (ja) 1997-11-17 2009-05-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声識別装置、発音矯正装置およびこれらの方法
US6019607A (en) * 1997-12-17 2000-02-01 Jenkins; William M. Method and apparatus for training of sensory and perceptual systems in LLI systems
US5927988A (en) * 1997-12-17 1999-07-27 Jenkins; William M. Method and apparatus for training of sensory and perceptual systems in LLI subjects
US6134529A (en) * 1998-02-09 2000-10-17 Syracuse Language Systems, Inc. Speech recognition apparatus and method for learning
US7203649B1 (en) * 1998-04-15 2007-04-10 Unisys Corporation Aphasia therapy system
US6077080A (en) * 1998-10-06 2000-06-20 Rai; Shogen Alphabet image reading method
FR2790586B1 (fr) * 1999-03-05 2001-05-18 Auralog Procede et dispositif de reconnaissance vocale
US6468084B1 (en) * 1999-08-13 2002-10-22 Beacon Literacy, Llc System and method for literacy development
WO2001024139A1 (fr) * 1999-09-27 2001-04-05 Kojima Co., Ltd. Systeme d'evaluation de la prononciation
EP1091336A1 (de) * 1999-10-06 2001-04-11 Ascom AG Verfahren zur Erkennung und Korrektur von Fehlern in gesprochener Sprache und Vorrichtung zur Durchführung des Verfahrens
US6302695B1 (en) * 1999-11-09 2001-10-16 Minds And Technologies, Inc. Method and apparatus for language training
JP3520022B2 (ja) 2000-01-14 2004-04-19 株式会社国際電気通信基礎技術研究所 外国語学習装置、外国語学習方法および媒体
KR20010088140A (ko) * 2000-03-10 2001-09-26 백승헌 외국어 학습을 위한 문장의 화면출력장치 및 방법
US6847931B2 (en) 2002-01-29 2005-01-25 Lessac Technology, Inc. Expressive parsing in computerized conversion of text to speech
US7280964B2 (en) * 2000-04-21 2007-10-09 Lessac Technologies, Inc. Method of recognizing spoken language with recognition of language color
US6865533B2 (en) * 2000-04-21 2005-03-08 Lessac Technology Inc. Text to speech
US6963841B2 (en) * 2000-04-21 2005-11-08 Lessac Technology, Inc. Speech training method with alternative proper pronunciation database
US6705869B2 (en) 2000-06-02 2004-03-16 Darren Schwartz Method and system for interactive communication skill training
AU2002239627A1 (en) * 2000-12-18 2002-07-01 Digispeech Marketing Ltd. Spoken language teaching system based on language unit segmentation
US7203840B2 (en) * 2000-12-18 2007-04-10 Burlingtonspeech Limited Access control for interactive learning system
AU2002231045A1 (en) * 2000-12-18 2002-07-01 Digispeech Marketing Ltd. Method of providing language instruction and a language instruction system
US7996321B2 (en) * 2000-12-18 2011-08-09 Burlington English Ltd. Method and apparatus for access control to language learning system
US6435876B1 (en) * 2001-01-02 2002-08-20 Intel Corporation Interactive learning of a foreign language
US20020115044A1 (en) * 2001-01-10 2002-08-22 Zeev Shpiro System and method for computer-assisted language instruction
US6882707B2 (en) * 2001-02-21 2005-04-19 Ultratec, Inc. Method and apparatus for training a call assistant for relay re-voicing
US7881441B2 (en) * 2005-06-29 2011-02-01 Ultratec, Inc. Device independent text captioned telephone service
US8416925B2 (en) 2005-06-29 2013-04-09 Ultratec, Inc. Device independent text captioned telephone service
US6953343B2 (en) 2002-02-06 2005-10-11 Ordinate Corporation Automatic reading system and methods
TW556152B (en) * 2002-05-29 2003-10-01 Labs Inc L Interface of automatically labeling phonic symbols for correcting user's pronunciation, and systems and methods
US7219059B2 (en) * 2002-07-03 2007-05-15 Lucent Technologies Inc. Automatic pronunciation scoring for language learning
JP2004053652A (ja) * 2002-07-16 2004-02-19 Asahi Kasei Corp 発音判定システム、システム管理用サーバ及びプログラム
US7752045B2 (en) * 2002-10-07 2010-07-06 Carnegie Mellon University Systems and methods for comparing speech elements
WO2004061796A1 (en) * 2002-12-31 2004-07-22 Burlingtonspeech Limited Comprehensive spoken language learning system
US7407384B2 (en) * 2003-05-29 2008-08-05 Robert Bosch Gmbh System, method and device for language education through a voice portal server
US7502731B2 (en) * 2003-08-11 2009-03-10 Sony Corporation System and method for performing speech recognition by utilizing a multi-language dictionary
US7524191B2 (en) * 2003-09-02 2009-04-28 Rosetta Stone Ltd. System and method for language instruction
US8515024B2 (en) 2010-01-13 2013-08-20 Ultratec, Inc. Captioned telephone service
GB2448635B (en) * 2004-02-18 2009-02-11 Ultratec Inc Captioned telephone service
WO2005091247A1 (en) * 2004-03-22 2005-09-29 Lava Consulting Pty Ltd A method of teaching
US20050212753A1 (en) * 2004-03-23 2005-09-29 Marvit David L Motion controlled remote controller
US7903084B2 (en) * 2004-03-23 2011-03-08 Fujitsu Limited Selective engagement of motion input modes
US7301529B2 (en) * 2004-03-23 2007-11-27 Fujitsu Limited Context dependent gesture response
US7365736B2 (en) * 2004-03-23 2008-04-29 Fujitsu Limited Customizable gesture mappings for motion controlled handheld devices
US7365737B2 (en) * 2004-03-23 2008-04-29 Fujitsu Limited Non-uniform gesture precision
US7301526B2 (en) 2004-03-23 2007-11-27 Fujitsu Limited Dynamic adaptation of gestures for motion controlled handheld devices
US7365735B2 (en) * 2004-03-23 2008-04-29 Fujitsu Limited Translation controlled cursor
US7301528B2 (en) * 2004-03-23 2007-11-27 Fujitsu Limited Distinguishing tilt and translation motion components in handheld devices
US7301527B2 (en) * 2004-03-23 2007-11-27 Fujitsu Limited Feedback based user interface for motion controlled handheld devices
US20050212760A1 (en) * 2004-03-23 2005-09-29 Marvit David L Gesture based user interface supporting preexisting symbols
US7280096B2 (en) * 2004-03-23 2007-10-09 Fujitsu Limited Motion sensor engagement for a handheld device
US20060008781A1 (en) * 2004-07-06 2006-01-12 Ordinate Corporation System and method for measuring reading skills
NZ534092A (en) * 2004-07-12 2007-03-30 Kings College Trustees Computer generated interactive environment with characters for learning a language
US20100099065A1 (en) * 2004-12-23 2010-04-22 Carl Isamu Wakamoto Interactive cinematic system for bonus features for movies, tv contents, anime and cartoons, music videos, language training, entertainment and social networking
US11258900B2 (en) 2005-06-29 2022-02-22 Ultratec, Inc. Device independent text captioned telephone service
JP5318572B2 (ja) * 2005-07-15 2013-10-16 モエ,リチャード,エイ 音声発音教育装置並びに音声発音教育方法および音声発音教育プログラム
WO2007016509A1 (en) * 2005-08-01 2007-02-08 Kazuaki Uekawa A system of sound representation and pronunciation techniques for english and other european languages
US7657221B2 (en) * 2005-09-12 2010-02-02 Northwest Educational Software, Inc. Virtual oral recitation examination apparatus, system and method
JP2009128675A (ja) * 2007-11-26 2009-06-11 Toshiba Corp 音声を認識する装置、方法およびプログラム
US8340968B1 (en) * 2008-01-09 2012-12-25 Lockheed Martin Corporation System and method for training diction
GB2458461A (en) * 2008-03-17 2009-09-23 Kai Yu Spoken language learning system
US8064817B1 (en) * 2008-06-02 2011-11-22 Jakob Ziv-El Multimode recording and transmitting apparatus and its use in an interactive group response system
TW201019288A (en) * 2008-11-13 2010-05-16 Ind Tech Res Inst System and method for conversation practice in simulated situations
CN101510423B (zh) * 2009-03-31 2011-06-15 北京志诚卓盛科技发展有限公司 一种分层次、交互式发音质量评估与诊断系统
US20110189646A1 (en) * 2010-02-01 2011-08-04 Amos Benninga Pedagogical system method and apparatus
US10019995B1 (en) * 2011-03-01 2018-07-10 Alice J. Stiebel Methods and systems for language learning based on a series of pitch patterns
US8805673B1 (en) 2011-07-14 2014-08-12 Globalenglish Corporation System and method for sharing region specific pronunciations of phrases
JP6267636B2 (ja) * 2012-06-18 2018-01-24 エイディシーテクノロジー株式会社 音声応答装置
US10026329B2 (en) 2012-11-26 2018-07-17 ISSLA Enterprises, LLC Intralingual supertitling in language acquisition
CN104880683B (zh) * 2014-02-28 2018-02-13 西门子(深圳)磁共振有限公司 一种磁共振成像系统的匀场片的检测装置、方法和系统
EP2924676A1 (en) * 2014-03-25 2015-09-30 Oticon A/s Hearing-based adaptive training systems
CN105825853A (zh) * 2015-01-07 2016-08-03 中兴通讯股份有限公司 语音识别设备语音切换方法及装置
CN107945621A (zh) * 2017-11-13 2018-04-20 董国玉 一种便于交流的数学公式记忆装置
CN108877808B (zh) * 2018-07-24 2020-12-25 广东小天才科技有限公司 一种防误触的语音唤醒方法及家教设备
CN113920803B (zh) * 2020-07-10 2024-05-10 上海流利说信息技术有限公司 一种错误反馈方法、装置、设备及可读存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8817705D0 (en) * 1988-07-25 1988-09-01 British Telecomm Optical communications system
US5393236A (en) * 1992-09-25 1995-02-28 Northeastern University Interactive speech pronunciation apparatus and method
GB9223066D0 (en) * 1992-11-04 1992-12-16 Secr Defence Children's speech training aid
US5428707A (en) * 1992-11-13 1995-06-27 Dragon Systems, Inc. Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance
US5487671A (en) * 1993-01-21 1996-01-30 Dsp Solutions (International) Computerized system for teaching speech

Also Published As

Publication number Publication date
AU2403297A (en) 1998-02-09
BR9702341A (pt) 2000-10-24
CN1197525A (zh) 1998-10-28
JPH11513144A (ja) 1999-11-09
WO1998002862A1 (en) 1998-01-22
EP0852782A4 (en) 1998-12-23
US5766015A (en) 1998-06-16
IL123556A0 (en) 1998-10-30
EP0852782A1 (en) 1998-07-15

Similar Documents

Publication Publication Date Title
KR19990044575A (ko) 대화형 언어훈련용 장치
US6424935B1 (en) Two-way speech recognition and dialect system
US7280964B2 (en) Method of recognizing spoken language with recognition of language color
US7143033B2 (en) Automatic multi-language phonetic transcribing system
Kasuriya et al. Thai speech corpus for Thai speech recognition
WO2004063902B1 (en) Speech training method with color instruction
Zechner et al. Towards automatic scoring of non-native spontaneous speech
Demenko et al. JURISDIC: Polish Speech Database for Taking Dictation of Legal Texts.
Proença et al. The LetsRead corpus of Portuguese children reading aloud for performance evaluation
Thatphithakkul et al. LOTUS-BI: A Thai-English code-mixing speech corpus
Janyoi et al. An Isarn dialect HMM-based text-to-speech system
Rai et al. An efficient online examination system using speech recognition
Precoda Non-mainstream languages and speech recognition: Some challenges
Marasek et al. Multi-level annotation in SpeeCon Polish speech database
Bertenstam et al. The waxholm application database.
Minematsu et al. CART-based factor analysis of intelligibility reduction in Japanese English.
Kane et al. Introducing difficulty-levels in pronunciation learning.
Black et al. Rapid development of speech-to-speech translation systems.
Ha et al. Common Errors in Pronunciation of Non-English Majored Students at the University of Transport and Communication Ho Chi Minh Campus
Szymański et al. First evaluation of Polish LVCSR acoustic models obtained from the JURISDIC database
Catanghal et al. Computer Discriminative Acoustic Tool for Reading Enhancement and Diagnostic: Development and Pilot Test
Arianingsih et al. An Error Analysis of the Perception Based on Accent in Japanese
Kirschning et al. Verification of correct pronunciation of Mexican Spanish using speech technology
Malaay et al. Design and Evaluation of a Reading Miscue Detector for a Computer-Aided Ilocano Language Learning System
Demenko et al. LVCSR speech database-JURISDIC

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid