KR20090119043A - 대화형 언어 학습 장치 - Google Patents

대화형 언어 학습 장치 Download PDF

Info

Publication number
KR20090119043A
KR20090119043A KR1020080044849A KR20080044849A KR20090119043A KR 20090119043 A KR20090119043 A KR 20090119043A KR 1020080044849 A KR1020080044849 A KR 1020080044849A KR 20080044849 A KR20080044849 A KR 20080044849A KR 20090119043 A KR20090119043 A KR 20090119043A
Authority
KR
South Korea
Prior art keywords
sentence
voice signal
correct
sentences
words
Prior art date
Application number
KR1020080044849A
Other languages
English (en)
Other versions
KR100979561B1 (ko
Inventor
유우영
윤현
Original Assignee
유우영
윤현
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 유우영, 윤현 filed Critical 유우영
Priority to KR1020080044849A priority Critical patent/KR100979561B1/ko
Publication of KR20090119043A publication Critical patent/KR20090119043A/ko
Application granted granted Critical
Publication of KR100979561B1 publication Critical patent/KR100979561B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B7/00Electrically-operated teaching apparatus or devices working with questions and answers
    • G09B7/02Electrically-operated teaching apparatus or devices working with questions and answers of the type wherein the student is expected to construct an answer to the question which is presented or wherein the machine gives an answer to the question presented by a student
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

본 발명은 음성 인식 방법 및 그 방법을 이용한 대화형 언어 학습 장치에 관한 것으로, 보다 구체적으로 입력된 음성 신호를 어절 단위로 분석하여 입력된 음성 신호에 존재하는 어절 수를 분석하고, 분석한 어절 수에 매칭되는 문장을 입력된 음성 신호로 인식하는 방법 및 장치에 관한 것이다.
본 발명에 따른 언어 학습 장치는 입력된 사용자 음성 신호에 존재하는 어절 수를 분석하고 분석한 어절 수에 매칭된 문장을 입력된 사용자 음성으로 인식함으로써, 음성 인식 오류로 인한 언어 학습의 중단없이 계속하여 대화형 언어 학습을 진행할 수 있다. 또한 본 발명에 따른 언어 학습 장치는 입력된 사용자 음성 신호에 존재하는 어절 수의 분석과 사용자의 음성 신호에 존재하는 단어들의 음성 인식을 병행함으로써, 입력된 사용자 음성 신호를 정확하게 인식할 수 있다.
음성 인식, 어절 분석, 언어 학습기, 대화형

Description

대화형 언어 학습 장치{Interactive language learning apparatus}
본 발명은 음성 인식 방법 및 그 방법을 이용한 대화형 언어 학습 장치에 관한 것으로, 보다 구체적으로 입력된 음성 신호를 어절 단위로 분석하여 입력된 음성 신호에 존재하는 어절 수를 분석하고, 분석한 어절 수에 매칭되는 문장을 입력된 음성 신호로 인식하는 방법 및 장치에 관한 것이다.
음성은 인간이 사용하는 가장 보편적이고 편리한 정보전달의 수단이다. 음성에 의해 표현되는 말은 인간과 인간 사이의 의사소통의 수단으로서 뿐만 아니라 인간의 음성을 이용하여 다양한 장치를 동작시키는 수단으로서도 중요한 역활을 수행한다. 음성 인식이란 인간과 장치를 서로 인터페이스 시켜주기 위한 기술로서, 최근 컴퓨터 성능의 발전, 다양한 미디어의 개발, 신호 및 정보 처리 기술의 발전으로 그 필요성이 더 대두되고 있다.
음성 인식은 입력된 음성 신호의 파형 패턴이 주어졌을 때 이를 기준 패턴과 비교하여 가장 유사한 패턴을 분류하는 것이다. 입력된 음성 신호의 파형 패턴과 가장 유사한 기준 패턴을 분류하는 작업은 크게 기준 패턴을 생성하는 학습 단계와 학습 단계에서 생성된 기준 패턴을 이용하여 입력된 음성 신호를 인식하는 단계로 요약될 수 있다.
먼저 도 1을 참고로 학습 단계를 보다 구체적으로 참고로 살펴보면, 아날로그의 음성 신호가 입력되면(S1) 입력된 아날로그의 음성 신호를 디지털로 변환한다(S3). 변환된 음성 신호를 소정 시간 간격으로 나누어 각 시간 간격에서 특징 벡터를 추출한다(S5). 추출한 특징 벡터는 입력된 음성 신호의 파형 패턴과 기준 패턴의 중요한 특성 차에 민감하고 주변 환경 변화에 민감하지 않아야 한다.
입력된 음성 신호로부터 추출한 특징 벡터들을 N개의 코드 벡터와 비교하여 가장 근접한 코드 벡터 값으로 양자화하여(S7), 음성 신호 인식을 위한 기준 패턴을 생성한다(S9). N개의 다차원 코드 벡터들로 이루어지는 코드북(Code Book)을 구성한 후, 입력된 음성 신호로부터 추출한 특징 벡터들을 N 개의 코드 벡터들과 비교하여 가장 근접한 코드 벡터 값으로 양자화한다.
도 2를 참고로 학습 단계를 통해 생성된 기준 패턴을 이용하여 입력된 음성 신호를 인식하는 단계를 보다 구체적으로 살펴보면, 아날로그의 음성 신호가 입력되면(S11) 입력된 아날로그의 음성 신호를 디지털로 변환한다(S13). 변환된 음성 신호를 소정 시간 간격으로 나누어 각 시간 간격에서 특징 벡터를 추출한다(S15). 입력된 음성 신호로부터 추출한 특징 벡터들을 N개의 코드 벡터와 비교하여 가장 근접한 코드 벡터 값으로 양자화한다(S17).
양자화된 입력 음성 신호의 특징 벡터들과 생성된 기준 패턴의 유사도를 측정하여 입력된 음성 신호를 인식한다(S19). 양자화된 입력 음성 신호의 특징 벡터들과 생성된 기준 패턴의 유사도를 측정하기 위하여, 동적 프로그래밍(Dynamic)을 이용한 패턴 정합(Pattern Matching) 방식, 히든 마르코드 모델(Hiddern Markov Model, HMM)과 같은 통계적인 모델링 방법을 이용한 패턴 정합 방식, 인간 두뇌의 패턴 정합 능력을 적용하여 패턴 정합을 수행하는 신경 회로망(Neutral Network) 방식, 사람들이 음성에서 배운 규칙을 기계에 적용하여 패턴 정합을 수행하는 지식기반 시스템(Knowledge Based System) 방식 등이 사용된다.
이러한 음성 인식 기술을 적용한 일 예가 디지털 언어 학습 장치이다. 디지털 언어 학습 장치란 영어. 일본어, 중국어 등과 같은 다양한 언어들을 효율적으로 학습하기 위한 보조 장치로서, 저장된 학습 컨텐츠를 단순히 재생하거나 사용자의 입력 음성을 인식하여 사용자와 언어 학습 장치가 저장된 학습 컨텐츠에 따라 특정 언어로 대화를 수행하도록 제어한다.
위에서 설명한 음성 인식 기술을 이용한 종래 언어 학습 장치는 입력되는 사용자의 음성을 단어 또는 문장 단위로 인식하여 대화를 수행한다. 그러나 종래 언어 학습 장치에서 음성 인식에 기초하여 대화형 언어 학습을 수행하는 경우, 음성 인식 에러율이 높음으로 인하여 사용자의 답변을 인식하지 못하거나 잘못 인식하여 사용자의 답변과 상관없는 응답을 하는 등 사용자와 언어 학습 장치 사이에서 계속적인 대화형 언어 학습을 수행하기 곤란하다는 문제점이 발생한다.
따라서 본 발명이 이루고자 하는 목적은 음성 신호에 존재하는 어절 수를 카운트하고 카운트한 어절 수에 기초하여 음성 신호를 인식하는 방법을 제공하는 것이다.
본 발명이 이루고자 하는 다른 목적은 사용자의 음성 신호에 존재하는 어절 수를 카운트하고 카운트한 어절 수에 기초하여 대화형 언어 학습을 수행하는 언어 학습 장치를 제공하는 것이다.
본 발명이 이루고자 하는 또 다른 목적은 사용자의 음성 신호에 존재하는 어절 수의 분석과 사용자의 음성 신호에 존재하는 단어들의 음성 인식을 병행하여 정확하게 사용자의 음성 신호를 인식할 수 있는 언어 학습 장치를 제공하는 것이다.
본 발명에 따른 음성 인식 방법은 입력된 음성 신호를 분석하여 상기 입력된 음성 신호에 존재하는 어절 수를 카운트하고 카운트한 어절 수에 매칭되어 있는 문 장이 존재하는지 검색하는 단계와, 검색한 문장을 구성하는 단어들과 입력된 음성 신호의 유사도를 비교하여 입력된 음성 신호에서 검색한 문장을 구성하는 단어들과 일치하는 적어도 하나의 단어가 존재하는지 판단하는 단계와, 입력된 음성 신호에서 검색한 문장을 구성하는 단어들과 일치하는 적어도 하나의 단어가 존재하는 경우 입력된 음성 신호를 검색한 문장으로 인식하는 단계를 포함하는 것을 특징으로 한다.
본 발명에 따른 언어 학습 장치는 입력된 사용자 음성 신호를 분석하여 입력된 사용자 음성 신호에 존재하는 어절 수를 카운트하는 어절 인식부와, 제1 대화 레벨에서 카운트한 어절 수에 매칭되어 있는 정답 문장이 존재하는지 검색하는 문장 검색부와, 카운트한 어절 수에 매칭되어 있는 정답 문장이 검색되는 경우 검색된 정답 문장에 매칭되어 있는 제2 대화 레벨의 질문 문장을 출력하도록 제어하는 제어부를 포함하는 것을 특징으로 한다.
바람직하게, 본 발명에 따른 대화형 언어 학습 장치는 검색한 정답 문장을 구성하는 단어들과 입력된 음성 신호의 유사도를 비교하여 입력된 음성 신호에서 검색한 정답 문장의 단어와 일치하는 적어도 하나 이상의 단어가 존재하는지 판단하는 단어 인식부를 더 포함한다. 제어부는 입력된 음성 신호에서 검색한 정답 문장을 구성하는 단어들과 일치하는 적어도 하나 이상의 단어가 존재하는 경우, 검색한 정답 문장에 매칭되어 있는 제2 대화 레벨의 질문 문장을 출력하도록 제어하는 것을 특징으로 한다.
본 발명에 따른 대화형 언어 학습 장치는 종래 언어 학습 장치와 비교하여 아래와 같은 다양한 효과를 가진다.
첫째 본 발명에 따른 언어 학습 장치는 입력된 사용자 음성 신호에 존재하는 어절 수를 카운트하고 카운트한 어절 수에 매칭된 문장을 입력된 사용자 음성으로 인식함으로써, 음성 인식 오류로 인한 언어 학습의 중단없이 계속하여 대화형 언어 학습을 진행할 수 있다.
둘째, 본 발명에 따른 언어 학습 장치는 입력된 사용자 음성 신호에 존재하는 어절 수의 분석과 사용자의 음성 신호에 존재하는 단어들의 음성 인식을 병행함으로써, 입력된 사용자 음성 신호를 정확하게 인식할 수 있다.
셋째, 본 발명에 따른 언어 학습 장치는 각 대화레벨에 따른 다양한 정답 문장을 구비함으로써, 사용자로 하여금 동일 의미의 다양한 언어 표현을 학습시키도록 한다.
넷째, 본 발명에 따른 언어 학습 장치는 각 대화레벨에 따른 다양한 질문 문장을 구비함으로써, 사용자로 하여금 다양한 상황에 따른 언어 표현을 학습시키도록 한다.
다섯째, 본 발명에 따른 언어 학습 장치는 사용자 인터페이스를 통해 사용자가 학습하고자 하는 정답 문장 또는 질문 문장을 직접 입력시킴으로써, 언어 학습에 사용자를 적극적으로 참여시켜 언어 학습의 재미를 부여하며 기존에 입력된 정형화된 표현뿐만 아니라 사용자가 기억하고자 하는 다양한 표현을 학습시킬 수 있다.
여섯째, 본 발명에 따른 언어 학습 장치는 각 대화레벨별 다양한 정답 문장 중 사용자의 사용 빈도가 적은 정답 문장을 사용하도록 유도함으로써, 사용자가 다양한 언어 표현을 학습하도록 도와준다.
이하 첨부한 도면을 참고로 본 발명에 따른 음성 인식 방법 및 그 방법을 이용한 언어 학습 장치에 대해 보다 구체적으로 설명한다.
도 3은 본 발명의 일 실시예에 따라 대화 모드에서 사용자의 음성을 인식하는 방법을 설명하기 위한 흐름도이다.
도 3을 참고로 살펴보면, 대화 모드에서 사용자 음성 신호가 입력된다(S20). 입력된 사용자 음성 신호는 하나의 문장을 구성하는 아날로그 음성 신호로서 아날로그-디지털 컨버터를 통해 디지털 음성 신호로 변환된다. 여기서 대화 모드란 일방의 질문 문장에 응답하여 상대방이 답변 문장을 입력하는 모드를 의미한다.
입력된 음성 신호를 분석하여 입력된 음성 신호에 존재하는 휴지 횟수를 판단하고 판단한 휴지 횟수에 기초하여 입력된 음성 신호를 구성하는 어절 수를 카운트한다(S21). 어절이란 하나의 문장에서 띄어쓰기 단위와 일치하며 통상적으로 사용자가 문장을 음성으로 발음시 앞뒤로는 휴지를 두어 발음되는 문장의 단위 구분이다. 예를 들어, "Hello. May I talk to Jane?"의 문장에서 Hello, May, I, talk, to, Jane 각각은 문장을 구성하는 어절들이며, "何時でよろしいですか?(=몇시에 만날까요?)."의 문장에서 何時で, よろしいですか 각각은 문장을 구성하는 어절들이다.
도 6을 참고로 입력된 사용자 음성 신호에서 카운트되는 어절 수의 일 예를 살펴보면, 사용자 음성 신호(S)는 시간 축 상에서 변화하는 세기(dB)의 음성 파형으로 입력된다. 사용자 음성 신호(S) 중 사용자가 발음하는 부분에서는 높은 세기의 음성 파형으로 입력되며 발음을 중단하는 일부 구간에서는 낮은 세기의 음성 파형으로 입력된다. 따라서 입력되는 사용자 음성 신호(S)에서 제1 임계값(TH1) 이상의 세기로 음성 파형이 입력되다 제2 임계값(TH2) 이하의 세기로 음성 파형이 입력되는 횟수, 즉 휴지 횟수를 카운트하여 사용자 음성 신호(S)에 존재하는 어절 수를 카운트한다. 도 6에 도시되어 있는 사용자 음성 신호(S)에는 총 3개의 휴지 횟수가 존재하며 사용자 음성 신호(S)에 존재하는 어절 수는 3개로 카운트된다.
카운트한 어절 수에 매칭되는 질문 문장 또는 답변 문장이 저장된 문장들 중에 존재하는지 검색한다(S23). 검색한 문장을 입력된 사용자 음성 신호에 매칭되는 문장으로 인식한다(S25).
도 4는 본 발명의 다른 실시예에 따라 대화 모드에서 사용자의 음성을 인식하는 방법을 설명하기 위한 흐름도이다.
도 4를 참고로 살펴보면, 대화 모드에서 사용자 음성 신호가 입력되고(S30), 입력된 음성 신호의 휴지 횟수를 판단하여 입력된 음성 신호에 존재하는 어절 수를 카운트한다(S21). 카운트한 어절 수에 매칭되는 질문 문장 또는 답변 문장이 저장된 문장들 중에 존재하는지 검색한다(S33).
학습 단계와 인식 단계를 이용하여 검색한 문장을 구성하는 단어들의 음성 신호와 입력된 사용자 음성 신호의 유사도를 비교하여 단어 단위로 사용자 음성 신 호를 음성 인식한다(S35). 사람들의 대화 중에 많이 사용하는 기본적인 단어들은 한정되어 있으며, 한정된 단어만으로 구성된 어휘 사전을 작성한다. 본 발명이 적용되는 분야에 따라 어휘 사전을 구성하는 단어의 수는 다르게 적용될 수 있으며 이는 본 발명의 범위에 속한다. 검색한 문장을 구성하는 단어들 중 작성한 어휘 사전에 존재하는 단어들의 음성신호와 사용자 음성 신호의 유사성을 비교하여 단어 단위로 사용자의 음성 신호를 음성 인식한다. 예를 들어, 카운트한 어절 수에 매칭된 문장이 "Hello. May I talk to Jane?"이며 어휘 사전에 존재하는 한정된 단어들 중 talk라는 단어가 포함되어 있는 경우, 사용자 음성 신호에 talk라는 단어가 존재하는지 음성 인식을 수행한다.
검색한 문장을 구성하는 단어들 중 어휘 사전에 존재하는 단어들과 사용자 음성 신호를 단어 단위로 음성 인식하여 일치하는 단어가 존재하는지 판단하여(S37), 검색한 문장을 사용자 음성 신호에 매칭된 문장으로 인식한다(S39).
도 5는 도 3에서 설명한 사용자 음성 인식 방법을 적용한 대화형 학습 장치(100)의 일 실시예를 도시하고 있다.
도 5를 참고로 살펴보면, 어절 인식부(110)는 입력된 사용자 음성 신호(S)를 분석하여 사용자 음성 신호(S)에 포함된 휴지 횟수를 판단하고 판단한 휴지 횟수에 기초하여 사용자 음성 신호(S)를 구성하는 어절 수를 카운트한다. 문장 검색부(120)는 저장부(130)에 저장된, 소정 대화레벨에 상응하는 다수의 정답 문장들 중 카운트한 어절 수에 매칭된 정답 문장이 존재하는지 검색한다.
도 8과 도 9를 참고로, 저장부(130)에 저장되어 있는 각 대화 레벨의 정답 문장과 질문 문장의 구성을 살펴보면, 대화 레벨1에는 학습기에서 제공하는 질문 문장(학습기1)에 대하여 사용자가 응답하여야 하는 다수의 정답 문장들(사용자 1-a, 사용자 1-b, 사용자 1-c)이 저장되어 있으며, 대화 레벨2에는 학습기에서 제공하는 질문 문장(학습기2)에 대하여 사용자가 응답하여야 하는 다수의 정답 문장들(사용자 2-a, 사용자 2-b, 사용자 2-c, 사용자 2-d)이 저장되어 있다.
한편, 대화 레벨3에는 학습기에서 제공하는 다수의 질문 문장들(학습기 3-가, 학습기 3-나)과 질문 문장들(학습기 3-가, 학습기 3-나) 각각에 대하여 사용자가 응답하여야 하는 다수의 정답 문장들 그룹(사용자 3-a, 사용자 3-b, 사용자 3-c와 사용자 3-a', 사용자 3-b', 사용자 3-c')이 저장되어 있다. 이와 동일한 방식으로 대화 레벨n에는 다수의 질문 문장들(학습기 n-가 내지 학습기 n-m)과 질문 문장들(학습기 n-가 내지 학습기 n-m) 각각에 대하여 사용자가 응답하여야 하는 다수의 정답 문장들 그룹(사용자 3-a, 사용자 3-b, 사용자 3-c 내지 사용자 3-an', 사용자 3-bn', 사용자 3-cn')이 저장되어 있다.
도 9는 전화 통화 상황을 학습하기 위한 컨텐츠에서 저장부(130)에 저장된 정답 문장과 질문 응답의 구성 예를 도시하고 있다.
다시 도 5를 참고로 본 발명의 일 실시예에 따른 언어 학습 장치에 대해 살펴보면, 제어부(140)는 검색된 정답 문장에 매칭되어 있는 다음 대화 레벨의 질문 문장을 저장부(130)에서 검색하여 스피커(150) 또는 디스플레이(160) 등과 같은 출력부를 통해 출력한다.
다음 대화 레벨에 다수의 질문 문장들이 존재하는 경우, 제어부(140)는 다수의 질문 문장들 중 임의의 질문 문장을 랜덤하게 선택하여 출력할 수 있다. 제어부(140)는 출력된 다음 대화 레벨의 질문 문장에 대한 다수의 정답 문장들 중 카운트된 사용자 음성 신호의 어절 수에 매칭된 정답 문장을 검색하도록 문장 검색부(120)를 제어함으로써, 대화 모드로 다음 대화 레벨을 계속하여 진행시킨다.
제어부(140)는 각 대화 레벨에 해당하는 다수의 정답 문장들 중 검색된 각 정답 문장의 사용 빈도를 계산하여 저장부(130)에 저장하며, 제어부(140)는 사용 빈도가 높은 정답 문장이 반복하여 검색되는 경우 사용 빈도가 적은 정답 문장이 검색되도록 유도하기 위한 메시지를 생성하여 스피커(150) 또는 디스플레이(160)로 출력한다.
한편, 본 발명의 일 실시예에 따른 언어 학습 장치는 사용자가 각 대화 레벨에 저장되는 사용자의 질문 문장 또는 정답 문장을 직접 입력하기 위한 사용자 인터페이스부(170)와 입력된 사용자의 텍스트 질문 문장 또는 정답 문장을 음성 데이터로 변환하고 변환된 음성 데이터를 저장부(130)에 저장하는 음성 변환부(180)를 더 구비한다. 따라서 사용자는 자신이 익히고자 하는 질문 문장 또는 정답 문장을 사용자 인터페이스(170)와 음성 변환부(180)를 통해 저장부(130)에 저장하여 새로운 표현 문장을 학습할 수 있다.
음성변환부(180)는 단위 음절의 데이터베이스, 입력된 텍스트에 상응하는 단위음절을 판단하는 음절판단부, 판단된 음절을 단위 음절의 데이터베이스에서 검색하여 합성하는 음절 합성부를 구비하고 있다. 음성변환부(180)의 일 예로 TTS(Text To Speech) 모듈이 사용될 수 있으나 이에 한정되는 것은 아니다.
도 10은 도 4에서 설명한 사용자 음성 인식 방법을 적용한 대화형 학습 장치(200)의 일 실시예를 도시하고 있다.
도 10을 참고로 살펴보면, 어절 인식부(210)는 입력된 사용자 음성 신호(S)를 분석하여 사용자 음성 신호(S)에 포함된 휴지 횟수를 판단하고 판단한 휴지 횟수에 기초하여 사용자 음성 신호(S)를 구성하는 어절 수를 카운트한다. 문장 검색부(220)는 저장부(240)에 저장된, 소정 대화레벨에 상응하는 다수의 정답 문장들 중 카운트한 어절 수에 매칭된 정답 문장이 존재하는지 검색한다.
단어 인식부(230)는 문장 검색부(220)에서 검색한 정답 문장을 구성하는 단어들 중 작성한 어휘 사전에 존재하는 단어들의 음성 신호와 사용자 음성 신호의 유사성을 비교하여 단어 단위로 사용자의 음성 신호를 음성 인식하고, 사용자 음성 신호에서 검색한 정답 문장을 구성하는 단어들 중 일치하는 단어가 존재하는지 판단한다. 제어부(250)는 사용자 음성 신호에서 검색한 정답 문장을 구성하는 단어들 중 일치하는 단어가 존재하는 경우, 정답 문장에 매칭되어 있는 다음 대화 레벨의 질문 문장을 저장부(240)에서 검색하여 스피커(260) 또는 디스플레이(270) 등과 같은 출력부를 통해 출력한다.
도 10에서 설명한 어절 인식부(210), 문장 검색부(220), 저장부(240), 제어부(250), 스피커(260), 디스플레이(270), 사용자 인터페이스부(280), 음성 변환부(290)의 동작은 도 5에서 설명한 어절 인식부(110), 문장 검색부(120), 저장부(130), 제어부(140), 스피커(150), 디스플레이(160), 사용자 인터페이스부(170), 음성 변환부(180)와 동일하다. 따라서 어절 인식부(210), 문장 검색부(220), 저장부(240), 제어부(250), 스피커(260), 디스플레이(270), 사용자 인터페이스부(280), 음성 변환부(290)의 구체적인 동작은 어절 인식부(110), 문장 검색부(120), 저장부(130), 제어부(140), 스피커(150), 디스플레이(160), 사용자 인터페이스부(170), 음성 변환부(180)를 참고로 설명된다.
도 7은 도 5와 도 10을 참고로 설명한 본 발명의 일 실시예에 따른 언어 학습 장치에서, 사용자가 디스플레이(160, 270)에 디스플레이된 학습 컨텐츠를 선택하기 위한 화면의 일 예를 도시하고 있다. 사용자는 사용자 인터페이스부(170, 280)을 통해 다양한 학습 컨텐츠들(전화통화, 인사, 공항, 백화점, 음식점) 중 하나의 컨텐츠를 선택하여 학습할 수 있다.
저장부(130, 240)에는 다양한 학습 컨텐츠에 대한 학습 자료가 도 8에 도시되어 있는 것과 같이 순차적인 대화 레벨로 질문 문장과 정답 문장으로 구분되어 저장되어 있다.
도 11은 각 대화 레벨에서 사용 빈도가 적은 정답 문장이 검색되도록 유도하기 위한 메시지의 일 예를 도시하고 있다.
제어부(140, 250)는 각 대화 레벨에 해당하는 다수의 정답 문장들 중 검색된 각 정답 문장의 사용 빈도를 계산하여 저장부(130, 240)에 저장하며, 제어부(140, 250)는 사용 빈도가 높은 정답 문장이 반복하여 검색되는 경우 사용 빈도가 낮은 정답 문장이 검색되도록 유도하기 위한 메시지를 생성하여 디스플레이(160, 270)로 출력한다.
도 11(a)를 참고로, 사용 빈도가 높은 정답 문장(Where is he ?)이 계속하여 검색되는 경우, 제어부(140, 250)는 사용 빈도가 낮은 정답 문장(Do you know when he will be back?)을 검색된 정답 문장과 병기하여 출력한다.
도 11(b)를 참고로, 사용 빈도가 높은 정답 문장(Where is he ?)이 계속하여 검색되는 경우, 제어부(140, 250)는 사용 빈도가 낮은 정답 문장의 어절 수를 검색된 정답 문장과 병기하여 사용 빈도가 낮은 정답 문장이 입력되도록 유도한다.
한편, 상술한 본 발명의 일 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터로 읽을 수 있는 기록 매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.
상기 컴퓨터로 읽을 수 있는 기록 매체는 마그네틱 저장 매체(예를 들어, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들어, 시디롬, 디브이디 등) 및 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)와 같은 저장 매체를 포함한다.
본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다.
예를 들어, 이상에서는 영어, 일어에 대한 언어 학습 장치를 예로 들어 설명하였으나, 입력된 사용자 음성 신호에서 어절 수, 즉 휴지 횟수를 카운트할 수 있는 모든 언어의 학습 장치에 동일하게 구현될 수 있다. 또한, 도 3과 도 4에서 설명한 음성 인식 방법은 언어 학습 장치에 적용될 수 있을 뿐만 아니라 도 3과 도4 에서 설명한 음성 인식 방법을 이용하는 다양한 장치에 사용될 수 있다.
따라서, 위에서 설명한 본 발명의 다양한 실시예는 본 발명의 권리범위를 정함에 있어 하나의 참고가 될 뿐이며, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.
도 1은 종래 음성 인식을 위한 학습 단계를 설명하기 위한 흐름도이다.
도 2는 종래 학습 단계를 통해 생성한 기준 모델을 이용하여 음성 인식하는 단계를 설명하기 위한 흐름도이다.
도 3은 본 발명의 일 실시예에 따라 대화 모드에서 사용자의 음성을 인식하는 방법을 설명하기 위한 흐름도이다.
도 4는 본 발명의 다른 실시예에 따라 대화 모드에서 사용자의 음성을 인식하는 방법을 설명하기 위한 흐름도이다.
도 5는 본 발명의 일 실시예에 따른 대화형 학습 장치(100)의 기능 블록도를 도시하고 있다.
도 6은 입력된 사용자 음성 신호에서 카운트되는 어절 수의 일 예를 설명하기 위한 도면이다.
도 7은 사용자가 디스플레이(160, 270)에 디스플레이된 학습 컨텐츠를 선택하기 위한 화면의 일 예를 도시하고 있다.
도 8은 저장부에 저장되어 있는 각 대화 레벨의 정답 문장과 질문 문장의 구성 예를 도시하고 있다.
도 9는 전화 통화의 학습 컨텐츠에 따른 각 대화 레벨의 정답 문장과 질문 문장의 구성 예를 도시하고 있다.
도 10은 본 발명의 다른 실시예에 따른 대화형 학습 장치(200)의 다른 실시예를 도시하고 있다.
도 11은 각 대화 레벨에서 사용 빈도가 적은 정답 문장이 검색되도록 유도하기 위한 메시지의 일 예를 도시하고 있다.
<도면의 주요 부분에 대한 설명>
110, 210: 어절 인식부
120, 220: 문장 검색부 230: 단어 인식부
130, 240: 저장부
140, 250: 제어부
150, 260: 스피커
160, 270: 디스플레이
170, 280: 사용자 인터페이스부
180, 290: 음성 변환부

Claims (10)

  1. 입력된 사용자 음성 신호를 인식하여 대화를 진행하는 대화형 언어 학습 장치에 있어서,
    제1 대화 레벨에서 상기 입력된 사용자 음성 신호를 분석하여 상기 입력된 사용자 음성 신호에 존재하는 어절 수를 카운트하는 어절 인식부;
    제1 대화 레벨에서 상기 카운트한 어절 수에 매칭되어 있는 정답 문장이 존재하는지 검색하는 문장 검색부;
    상기 카운트한 어절 수에 매칭되어 있는 정답 문장이 검색되는 경우, 상기 검색된 정답 문장에 매칭되어 있는 제2 대화 레벨의 질문 문장을 출력하도록 제어하는 제어부를 포함하는 것을 특징으로 하는 대화형 언어 학습 장치.
  2. 제 1 항에 있어서, 상기 어절 인식부는
    상기 입력된 사용자 음성 신호에서 휴지 구간을 검색하여 어절 수를 카운트하는 것을 특징으로 하는 대화형 언어 학습 장치.
  3. 제 2 항에 있어서,
    상기 제1 대화 레벨에서 서로 다른 어절 수로 구성된 다수의 정답 문장들이 존재하며,
    상기 문장 검색부는 상기 다수의 정답 문장들 중 상기 카운트한 어절 수에 일치하는 정답 문장을 검색하는 것을 특징으로 하는 대화형 언어 학습 장치.
  4. 제 2 항에 있어서,
    상기 검색된 정답 문자에 매칭되어 있는 다수의 제2 대화 레벨의 질문 문장들이 존재하며,
    상기 제어부는 상기 다수의 제2 대화 레벨의 질문 문장들 중 어느 하나의 질문 문장을 무작위로 출력하는 것을 특징으로 하는 대화형 언어 학습 장치.
  5. 제 3 항 또는 제 3 항에 있어서, 상기 대화형 언어 학습 장치는
    상기 검색한 정답 문장을 구성하는 단어들의 음성 신호와 상기 입력된 사용자 음성 신호의 유사도를 비교하여 상기 입력된 사용자 음성 신호에서 상기 검색한 정답 문장을 구성하는 단어와 일치하는 적어도 하나의 단어가 존재하는지 판단하는 단어 인식부를 더 포함하며,
    상기 제어부는 상기 입력된 사용자 음성 신호에서 상기 검색한 정답 문장을 구성하는 단어들과 일치하는 적어도 하나의 단어가 존재하는 경우, 상기 검색한 정답 문장에 매칭되어 있는 제2 대화 레벨의 질문 문장을 출력하도록 제어하는 것을 특징으로 하는 대화형 언어 학습 장치.
  6. 제 5 항에 있어서, 상기 단어 인식부는
    빈번하게 사용되는 단어들로만 구성된 어휘 사전을 이용하여 상기 입력된 사 용자 음성 신호에서 상기 검색한 문장을 구성하는 단어들과 일치하는 적어도 하나의 단어가 존재하는지 판단하는 것을 특징으로 하는 대화형 언어 학습 장치.
  7. 제 5 항에 있어서, 상기 대화형 언어 학습 장치는
    상기 제1 대화 레벨에서 상기 다수 정답 문장들 중 정답 문장으로 검색되는 비율을 각 정답 문장별로 저장되어 있으며,
    상기 제어부는 비율이 가장 높은 정답 문장을 제외한 다른 정답 문장의 사용자 음성 신호가 입력되도록 유도하는 것을 특징으로 하는 대화형 언어 학습 장치.
  8. 제 7 항에 있어서, 상기 제어부는
    비율이 가장 높은 정답 문장의 사용자 음성 신호가 입력되는 경우, 상기 비율이 가장 높은 정답 문장 이외의 다른 정답 문장을 상기 비율이 가장 높은 정답 문장과 함께 출력하도록 제어하는 것을 특징으로 하는 대화형 언어 학습 장치.
  9. 제 7 항에 있어서, 상기 제어부는
    비율이 가장 높은 정답 문장의 사용자 음성 신호가 입력되는 경우, 상기 비율이 가장 높은 정답 문장을 제외한 다른 정답 문장의 어절 수를 출력하도록 제어하는 것을 특징으로 하는 대화형 언어 학습 장치.
  10. 제 7 항에 있어서, 상기 대화형 언어 학습 장치는
    사용자가 직접 상기 각 대화 레벨에 매칭되는 사용자의 질문 문장 또는 정답 문장을 입력하기 위한 사용자 인터페이스부;
    상기 입력된 사용자의 질문 문장 또는 정답 문장을 음성 신호로 변환하고 상기 변환된 음성신호를 상기 저장부에 저장하는 음성 변환부를 더 포함하는 것을 특징으로 하는 대화형 언어 학습 장치.
KR1020080044849A 2008-05-15 2008-05-15 대화형 언어 학습 장치 KR100979561B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080044849A KR100979561B1 (ko) 2008-05-15 2008-05-15 대화형 언어 학습 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080044849A KR100979561B1 (ko) 2008-05-15 2008-05-15 대화형 언어 학습 장치

Publications (2)

Publication Number Publication Date
KR20090119043A true KR20090119043A (ko) 2009-11-19
KR100979561B1 KR100979561B1 (ko) 2010-09-02

Family

ID=41602789

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080044849A KR100979561B1 (ko) 2008-05-15 2008-05-15 대화형 언어 학습 장치

Country Status (1)

Country Link
KR (1) KR100979561B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014129772A1 (ko) * 2013-02-20 2014-08-28 (주)에스디이아이티연구소 쓰기 말하기 원리를 적용한 영어 기반 문자 소통 시스템 및 그 방법
KR101581816B1 (ko) 2014-10-14 2016-01-05 서강대학교산학협력단 기계학습을 이용한 음성인식방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100287228B1 (ko) * 1999-02-13 2001-04-16 이경목 상호 대화식 언어 학습방법
JP3911246B2 (ja) * 2003-03-04 2007-05-09 株式会社国際電気通信基礎技術研究所 音声認識装置、及びコンピュータプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014129772A1 (ko) * 2013-02-20 2014-08-28 (주)에스디이아이티연구소 쓰기 말하기 원리를 적용한 영어 기반 문자 소통 시스템 및 그 방법
KR101581816B1 (ko) 2014-10-14 2016-01-05 서강대학교산학협력단 기계학습을 이용한 음성인식방법
US9390710B2 (en) 2014-10-14 2016-07-12 Sogang University Research Foundation Method for reranking speech recognition results

Also Published As

Publication number Publication date
KR100979561B1 (ko) 2010-09-02

Similar Documents

Publication Publication Date Title
CN111833853B (zh) 语音处理方法及装置、电子设备、计算机可读存储介质
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
CN110797010A (zh) 基于人工智能的问答评分方法、装置、设备及存储介质
CN109256152A (zh) 语音评分方法及装置、电子设备、存储介质
US8306822B2 (en) Automatic reading tutoring using dynamically built language model
Griol et al. An architecture to develop multimodal educative applications with chatbots
Michael Automated Speech Recognition in language learning: Potential models, benefits and impact
Delgado et al. Spoken, multilingual and multimodal dialogue systems: development and assessment
CN110503956A (zh) 语音识别方法、装置、介质及电子设备
JP7166580B2 (ja) 言語学習方法
KR100593589B1 (ko) 음성인식을 이용한 다국어 통역/학습 장치 및 방법
KR100979561B1 (ko) 대화형 언어 학습 장치
Delmonte Exploring speech technologies for language learning
Jackson Automatic speech recognition: Human computer interface for kinyarwanda language
CN112017668B (zh) 一种基于实时情感检测的智能语音对话方法、装置和系统
Wu et al. Efficient personalized mispronunciation detection of Taiwanese-accented English speech based on unsupervised model adaptation and dynamic sentence selection
Wik Designing a virtual language tutor
Shivakumar et al. AI-ENABLED LANGUAGE SPEAKING COACHING FOR DUAL LANGUAGE LEARNERS.
Bang et al. An automatic feedback system for English speaking integrating pronunciation and prosody assessments
KR101765880B1 (ko) 볼 입력 장치를 사용한 언어 학습 게임 시스템 및 방법
KR101983031B1 (ko) 언어 교육 방법 및 언어 교육 시스템
Rudrappa et al. KHiTE: Multilingual Speech Acquisition to Monolingual Text Translation
Elfahal Automatic recognition and identification for mixed sudanese arabic–english languages speech
Zhang et al. Multi‐Feature Intelligent Oral English Error Correction Based on Few‐Shot Learning Technology
Rakov Analyzing Prosody With Legendre Polynomial Coefficients

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130827

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20150206

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20150827

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20160829

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20170824

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20190830

Year of fee payment: 10