KR102536736B1 - 언어 학습 시스템 및 방법 - Google Patents

언어 학습 시스템 및 방법 Download PDF

Info

Publication number
KR102536736B1
KR102536736B1 KR1020200166942A KR20200166942A KR102536736B1 KR 102536736 B1 KR102536736 B1 KR 102536736B1 KR 1020200166942 A KR1020200166942 A KR 1020200166942A KR 20200166942 A KR20200166942 A KR 20200166942A KR 102536736 B1 KR102536736 B1 KR 102536736B1
Authority
KR
South Korea
Prior art keywords
sentence
score
learning
phoneme sequence
language
Prior art date
Application number
KR1020200166942A
Other languages
English (en)
Other versions
KR20220077726A (ko
Inventor
구형일
김용균
신동원
Original Assignee
아주대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아주대학교산학협력단 filed Critical 아주대학교산학협력단
Priority to KR1020200166942A priority Critical patent/KR102536736B1/ko
Publication of KR20220077726A publication Critical patent/KR20220077726A/ko
Application granted granted Critical
Publication of KR102536736B1 publication Critical patent/KR102536736B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/12Score normalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Educational Technology (AREA)
  • Tourism & Hospitality (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Educational Administration (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Computational Linguistics (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Machine Translation (AREA)

Abstract

본 개시의 기술적 사상에 의한 일 양태에 따른 언어 학습 시스템은, 음성 데이터에 기초하여, 상기 음성 데이터에 포함된 문장의 음소 시퀀스를 인식하는 음소 시퀀스 인식 모듈, 상기 인식된 음소 시퀀스에 기초하여 상기 문장의 난이도를 나타내는 스코어를 추정하도록 학습된 스코어 추정 네트워크를 포함하는 스코어 추정 모듈, 상기 스코어 추정 네트워크의 학습을 수행하는 네트워크 학습 모듈, 및 문장 쌍들 각각의 상대적 스코어 정보를 저장하고, 상기 상대적 스코어 정보를 상기 스코어 추정 네트워크의 학습을 위한 정답 데이터로서 상기 네트워크 학습 모듈로 제공하는 문장 쌍 데이터베이스를 포함한다.

Description

언어 학습 시스템 및 방법{SYSEM AND METHOD FOR LEARNING LANGUAGES}
본 개시(disclosure)의 기술적 사상은 사용자의 언어 학습을 위한 시스템 및 방법에 관한 것이다.
다양한 국적의 사람들과의 교류나 협업이 활발해지는 현대 사회에서, 외국어의 구사 능력이 중요해지고 있다. 이에 따라 사람들은 다양한 외국어 학습 방법이나 학습 기기들을 이용하여 외국어를 학습하고 있다.
종래의 외국어 학습 방법들은, 사용자 개인의 외국어 구사 수준을 반영하기 보다는 기 분류되는 학습 레벨들에 기초하여 구분된 교재들이나 학습 도구를 이용하여 이루어지는 것이 대부분이다. 이에 따라, 사용자의 외국어 구사 수준, 특히 부족한 부분에 대한 학습이 집중적으로 이루어지기 어려운 문제점이 존재한다.
이러한 종래의 외국어 학습 방법들의 한계로 인해, 외국어 학습에 투자되는 시간 및 비용 대비 외국어 구사 능력의 향상도가 현저히 낮은 바, 외국어 학습의 효율성 및 능률을 향상시킬 수 있는 방안이 요구된다.
본 발명이 해결하고자 하는 일 과제는, 언어 학습을 위해 제공되는 음성들에 포함된 문장의 스코어에 기반하여, 사용자 개인의 수준에 따른 최적의 언어 학습을 제공할 수 있는 방법을 구현하는 것이다.
본 발명이 해결하고자 하는 일 과제는, 언어 학습을 위해 제공되는 음성들의 스코어를 추정하는 네트워크에 대한 효율적인 학습 방법을 제공하는 것이다.
상기와 같은 목적을 달성하기 위하여, 본 개시의 기술적 사상에 의한 일 양태(aspect)에 따른 언어 학습 시스템은, 음성 데이터에 기초하여, 상기 음성 데이터에 포함된 문장의 음소 시퀀스를 인식하는 음소 시퀀스 인식 모듈, 상기 인식된 음소 시퀀스에 기초하여 상기 문장의 난이도를 나타내는 스코어를 추정하도록 학습된 스코어 추정 네트워크를 포함하는 스코어 추정 모듈, 상기 스코어 추정 네트워크의 학습을 수행하는 네트워크 학습 모듈, 및 문장 쌍들 각각의 상대적 스코어 정보를 저장하고, 상기 상대적 스코어 정보를 상기 스코어 추정 네트워크의 학습을 위한 정답 데이터로서 상기 네트워크 학습 모듈로 제공하는 문장 쌍 데이터베이스를 포함한다.
일 실시 예에 따라, 상기 문장 쌍들 각각의 상대적 스코어 정보는 문장 쌍의 스코어 대소 관계를 나타내는 정보를 포함할 수 있다.
일 실시 예에 따라, 상기 음소 시퀀스 인식 모듈 및 상기 스코어 추정 모듈은, 제1 문장을 포함하는 제1 음성 데이터로부터 제1 스코어를 추정하고, 제2 문장을 포함하는 제2 음성 데이터로부터 제2 스코어를 추정하고, 상기 네트워크 학습 모듈은, 상기 문장 쌍 데이터베이스에 포함된 상기 문장 쌍들 각각의 상대적 스코어 정보 중, 상기 제1 문장과 상기 제2 문장의 상대적 스코어 정보를 상기 정답 데이터로서 획득하고, 추정된 제1 스코어 및 제2 스코어와, 획득된 상기 정답 데이터에 기초하여 상기 스코어 추정 네트워크의 학습을 제어할 수 있다.
일 실시 예에 따라, 상기 문장 쌍들 각각의 상대적 스코어 정보는, 적어도 하나의 사용자의 언어 학습 결과에 포함되는 정답 문장과 오답 문장의 정보에 기초하여 생성될 수 있다.
일 실시 예에 따라, 상기 언어 학습 시스템은 상기 문장 및 상기 스코어 추정 모듈에 의해 추정된 스코어를 포함하는 정보를 저장하는 문장 스코어 데이터베이스를 더 포함할 수 있다.
일 실시 예에 따라, 상기 언어 학습 시스템은 제1 문장을 포함하는 음성 데이터에 기초한 입력 텍스트를 수신하고, 상기 제1 문장과 상기 입력 텍스트의 비교 결과, 및 상기 제1 문장의 스코어에 기초하여, 상기 문장 스코어 데이터베이스에 저장된 제2 문장을 선택할 수 있다.
일 실시 예에 따라, 상기 언어 학습 시스템은 비교 결과 상기 제1 문장과 상기 입력 텍스트가 일치하는 경우, 상기 문장 스코어 데이터베이스에 저장된 문장들 중, 상기 제1 문장의 스코어보다 높은 스코어를 갖는 문장을 상기 제2 문장으로 선택하고, 상기 제1 문장과 상기 입력 텍스트가 일치하지 않는 경우, 상기 문장 스코어 데이터베이스에 저장된 문장들 중, 상기 제1 문장의 스코어보다 낮은 스코어를 갖는 문장을 상기 제2 문장으로 선택할 수 있다.
일 실시 예에 따라, 상기 언어 학습 시스템은 비교 결과 상기 제1 문장과 상기 입력 텍스트가 일치하지 않는 경우, 일치하지 않는 부분의 음소 또는 음소 시퀀스에 기초하여 상기 문장 스코어 데이터베이스에 저장된 문장들 중 상기 제2 문장을 선택할 수 있다.
본 개시의 기술적 사상에 의한 일 양태에 따른 언어 학습 방법은, 음성 데이터에 기초하여, 상기 음성 데이터에 포함된 문장의 음소 시퀀스를 인식하는 단계; 입력된 음소 시퀀스에 기초하여, 음소 시퀀스에 대응하는 문장의 난이도를 나타내는 스코어를 추정하도록 학습된 스코어 추정 네트워크로, 상기 인식된 음소 시퀀스를 입력하는 단계; 상기 스코어 추정 네트워크로부터, 상기 인식된 음소 시퀀스에 기초한 상기 문장의 스코어를 포함하는 추정 결과를 획득하는 단계; 및 상기 음성 데이터에 포함된 문장 및 상기 추정 결과에 포함된 스코어를 포함하는 정보를 문장 스코어 데이터베이스에 저장하는 단계를 포함한다.
본 개시의 실시 예에 따른 언어 학습 방법은 출력된 음성에 포함된 문장과 상기 음성에 기초하여 입력되는 텍스트 간의 일치 여부, 및 상기 문장의 스코어 정보에 기초하여 사용자의 학습 수준에 적합한 문장을 선택 및 출력하는 형태의 언어 학습을 제공할 수 있다. 이러한 언어 학습이 반복 수행될수록, 사용자의 학습 수준에 보다 적합한 문장들이 선택될 수 있으므로, 사용자에 대한 언어 학습 효율성 및 능률이 극대화될 수 있다.
또한, 상기 언어 학습 방법은 문장의 스코어를 딥러닝 기반의 스코어 추정 네트워크를 통해 추정하여 관리함으로써, 다양한 문장들의 스코어(난이도)를 보다 정확하게 구분하여 관리할 수 있다.
뿐만 아니라, 상기 스코어 추정 네트워크의 학습이 두 개의 문장 간의 상대적 스코어 정보에 기초하여 수행되도록 구현됨으로써, 하나의 문장에 대한 스코어 정보를 이용한 학습에 비해 학습 정확도를 보다 향상시킬 수 있다.
본 개시의 기술적 사상에 따른 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 개시에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도 1은 본 개시의 예시적 실시 예에 따른 언어 학습 방법을 수행하는 시스템의 개략적인 블록도이다.
도 2는 본 개시의 언어 학습 방법과 관련하여, 언어 학습을 위한 음성에 포함되는 문장의 스코어를 추정 및 관리하는 방법을 설명하기 위한 플로우차트이다.
도 3은 입력된 음성 데이터로부터 음소 시퀀스를 인식하는 동작을 나타내는 일 예시도이다.
도 4는 인식된 음소 시퀀스를 이용하여, 입력된 음성 데이터에 포함된 문장의 스코어를 추정하는 동작을 나타내는 일 예시도이다.
도 5는 도 4에 도시된 스코어 추정 네트워크의 구조를 나타내는 예시도이다.
도 6은 본 개시의 언어 학습 방법과 관련하여, 음성에 포함되는 문장의 스코어를 추정하는 네트워크의 학습 방법을 설명하기 위한 플로우차트이다.
도 7 내지 도 9는, 도 6의 학습 방법과 관련된 구체적인 실시 예를 나타내는 도면들이다.
도 10은, 본 개시의 예시적 실시 예에 따른 언어 학습 방법을 설명하기 위한 플로우차트이다.
도 11은 본 개시의 예시적 실시 예에 따른 언어 학습 방법을 수행하는 디바이스의 개략적인 블록도이다.
본 개시의 기술적 사상에 따른 예시적인 실시 예들은 당해 기술 분야에서 통상의 지식을 가진 자에게 본 개시의 기술적 사상을 더욱 완전하게 설명하기 위하여 제공되는 것으로, 아래의 실시 예들은 여러 가지 다른 형태로 변형될 수 있으며, 본 개시의 기술적 사상의 범위가 아래의 실시 예들로 한정되는 것은 아니다. 오히려, 이들 실시 예들은 본 개시를 더욱 충실하고 완전하게 하며 당업자에게 본 발명의 기술적 사상을 완전하게 전달하기 위하여 제공되는 것이다.
본 개시에서 제1, 제2 등의 용어가 다양한 부재, 영역, 층들, 부위 및/또는 구성 요소들을 설명하기 위하여 사용되지만, 이들 부재, 부품, 영역, 층들, 부위 및/또는 구성 요소들은 이들 용어에 의해 한정되어서는 안 됨은 자명하다. 이들 용어는 특정 순서나 상하, 또는 우열을 의미하지 않으며, 하나의 부재, 영역, 부위, 또는 구성 요소를 다른 부재, 영역, 부위 또는 구성 요소와 구별하기 위하여만 사용된다. 따라서, 이하 상술할 제1 부재, 영역, 부위 또는 구성 요소는 본 개시의 기술적 사상의 가르침으로부터 벗어나지 않고서도 제2 부재, 영역, 부위 또는 구성 요소를 지칭할 수 있다. 예를 들면, 본 개시의 권리 범위로부터 이탈되지 않은 채 제1 구성 요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.
달리 정의되지 않는 한, 여기에 사용되는 모든 용어들은 기술 용어와 과학 용어를 포함하여 본 개시의 개념이 속하는 기술 분야에서 통상의 지식을 가진 자가 공통적으로 이해하고 있는 바와 동일한 의미를 지닌다. 또한, 통상적으로 사용되는, 사전에 정의된 바와 같은 용어들은 관련되는 기술의 맥락에서 이들이 의미하는 바와 일관되는 의미를 갖는 것으로 해석되어야 하며, 여기에 명시적으로 정의하지 않는 한 과도하게 형식적인 의미로 해석되어서는 아니 될 것이다.
어떤 실시 예가 달리 구현 가능한 경우에 특정한 공정 순서는 설명되는 순서와 다르게 수행될 수도 있다. 예를 들면, 연속하여 설명되는 두 공정이 실질적으로 동시에 수행될 수도 있고, 설명되는 순서와 반대의 순서로 수행될 수도 있다.
첨부한 도면에 있어서, 예를 들면, 제조 기술 및/또는 공차에 따라, 도시된 형상의 변형들이 예상될 수 있다. 따라서, 본 개시의 기술적 사상에 의한 실시 예들은 본 개시에 도시된 영역의 특정 형상에 제한된 것으로 해석되어서는 아니 되며, 예를 들면, 제조 과정에서 초래되는 형상의 변화를 포함하여야 한다. 도면 상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고, 이들에 대한 중복된 설명은 생략한다.
여기에서 사용된 '및/또는' 용어는 언급된 부재들의 각각 및 하나 이상의 모든 조합을 포함한다.
이하에서는 첨부한 도면들을 참조하여 본 개시의 기술적 사상에 의한 실시 예들에 대해 상세히 설명한다.
도 1은 본 개시의 예시적 실시 예에 따른 언어 학습 방법을 수행하는 시스템의 개략적인 블록도이다.
도 1을 참조하면, 본 개시의 실시 예에 따른 언어 학습 방법이 구현되는 시스템(100; 언어 학습 시스템)은, 언어 학습을 위한 음성(음성 데이터)에 포함되는 문장들을 난이도(스코어)에 따라 관리하고, 사용자의 학습 수준에 적합한 문장들을 제공함으로써 학습 효율성 및 능률을 향상시키도록 구현될 수 있다.
이러한 시스템(100)은 적어도 하나의 컴퓨팅 장치를 포함할 수 있다. 예컨대 적어도 하나의 컴퓨팅 장치는 사용자의 단말기와 연결되는 서버나 데이터 센터 등을 포함하거나, 사용자의 단말기를 포함할 수도 있다. 예컨대, 상기 적어도 하나의 컴퓨팅 장치 각각은 프로세서, 메모리, 통신 인터페이스, 입력부, 및/또는 출력부 등을 포함하는 하드웨어 기반의 장치에 해당한다. 이 경우, 시스템(100)에 포함되는 모듈들은 하드웨어, 소프트웨어, 또는 이들의 조합으로 구현될 수 있으며, 상기 적어도 하나의 컴퓨팅 장치에 통합 또는 분할되어 구현될 수 있다.
본 개시의 일 실시 예에 따른 시스템(100)은 음소 시퀀스 인식 모듈(110), 스코어 추정 모듈(120), 학습 문장 추천 모듈(130), 네트워크 학습 모듈(140), 및 데이터베이스(150)를 포함할 수 있다.
음소 시퀀스 인식 모듈(110)은, 언어 학습을 위한 음성(음성 데이터)에 포함된 문장의 음소 시퀀스를 인식할 수 있다. 본 명세서에서 설명하는 문장은 주어와 동사 등으로 구성되는 완전한 문장 뿐만 아니라, 단어나 구(phrase) 등까지도 포괄하는 개념으로 이해할 수 있다.
일 실시 예에 따라, 시스템(100)은 통신 인터페이스나 입력 수단(마이크로폰 등)을 통해 상기 언어 학습을 위한 음성 데이터를 획득할 수 있다. 일 실시 예에 따라, 시스템(100)은 데이터베이스(150)로부터 음성 데이터를 획득할 수도 있다.
일 실시 예에 따라, 음소 시퀀스 인식 모듈(110)은 입력된 음성 데이터로부터 특징을 추출하는 특징 추출기(112; 도 3 참조)와, 딥러닝 기반으로 학습되고, 추출된 특징에 기초하여 음소 시퀀스를 인식하는 음소 시퀀스 인식 네트워크(114; 도 3 참조)를 포함할 수 있다. 음소 시퀀스 인식 모듈(110)이 음소 시퀀스를 인식하는 구체적인 동작에 대해서는 추후 도 3을 통해 설명하기로 한다.
스코어 추정 모듈(120)은, 음소 시퀀스 인식 모듈(110)에 의해 인식된 음소 시퀀스에 기초하여, 상기 입력된 음성 데이터에 포함된 문장에 대한 난이도(스코어)를 추정할 수 있다.
한편, 스코어 추정 모듈(120)은 딥러닝 기반으로 학습된 스코어 추정 네트워크(122; 도 4 참조)를 포함할 수 있다. 스코어 추정 네트워크(122)는 상기 음소 시퀀스로부터 문장의 스코어를 추정하고, 추정 결과를 출력할 수 있다. 스코어 추정 네트워크(122)는 신경망(neural network) 구조를 포함할 수 있다. 예컨대, 스코어 추정 네트워크(122)는 시계열 형태의 데이터인 음소 시퀀스를 보다 효과적으로 분석하기 위한 순환 구조를 갖는 신경망을 포함할 수 있다. 구체적으로, 스코어 추정 네트워크(122)는 순환 신경망(Recurrent Neural Network (RNN)), 장단기 기억 메모리(Long Short-Term Memory (LSTM)), 또는 게이트 순환 유닛(Gate Recurrent Unit (GRU)) 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
시스템(100)은 스코어 추정 모듈(120)에 의해 추정된 스코어에 기초하여 데이터베이스(150)의 문장 스코어 DB(152)를 업데이트할 수 있다. 예컨대, 문장 스코어 DB(152)에 상기 음성 데이터에 포함된 문장 및 스코어를 포함하는 데이터(레코드)가 존재하지 않는 경우, 시스템(100)은 상기 문장 및 추정된 스코어를 포함하는 데이터를 문장 스코어 DB(152)에 추가할 수 있다. 반면, 문장 스코어 DB(152)에 상기 문장 및 스코어를 포함하는 데이터가 존재하는 경우, 시스템(100)은 새롭게 추정된 스코어를 반영하여 상기 데이터를 업데이트(새로운 스코어로 변경, 또는 기존 스코어와 새로운 스코어의 평균값으로 변경 등)할 수 있다.
학습 문장 추천 모듈(130)은, 사용자의 언어 학습 시, 사용자의 학습 수준에 적합한 문장을 선택하고, 선택된 문장을 포함하는 음성 데이터를 제공할 수 있다. 학습 문장 추천 모듈(130)의 구체적인 동작에 대해서는 추후 도 10을 통해 설명하기로 한다.
네트워크 학습 모듈(140)은, 스코어 추정 모듈(120)에 포함된 스코어 추정 네트워크(122)의 학습을 수행할 수 있다. 예컨대, 네트워크 학습 모듈(140)은 지도 학습(supervised learning) 기법에 기초하여 스코어 추정 네트워크(122)의 학습을 수행할 수 있으나, 이에 한정되는 것은 아니다. 본 개시의 실시 예에 따르면, 네트워크 학습 모듈(140)은 문장들 간의 상대적인 스코어(난이도)에 대한 정보를 갖는 문장 쌍 DB(154)를 구축하고, 구축된 문장 쌍 DB(154)를 이용하여 스코어 추정 네트워크(122)의 학습을 수행할 수 있다. 스코어 추정 네트워크(122)의 학습과 관련된 구체적인 내용은 추후 도 6 내지 도 9를 통해 설명하기로 한다.
한편, 음소 시퀀스 인식 모듈(110)에 포함된 음소 시퀀스 인식 네트워크(114)은 기 학습된 상태로 제공되고, 별도의 추가적인 학습이 수행되지 않을 수 있다. 추가적인 학습이 수행되지 않음에 따라, 음소 시퀀스 인식 네트워크(114)에 포함된 신경망의 노드들 간의 가중치(weight)는 고정될 수 있다. 다만, 실시 예에 따라서는 시스템(100)은 음소 시퀀스 인식 네트워크(114)에 대한 학습 동작까지도 수행할 수 있다.
데이터베이스(150)는 문장들 각각의 스코어에 대한 정보를 저장 및 관리하기 위한 문장 스코어 DB(152), 및 스코어 추정 네트워크(122)의 학습을 위한 문장들 간의 상대적인 스코어에 대한 정보를 저장 및 관리하기 위한 문장 쌍 DB(154)를 포함할 수 있다. 각 DB의 예들에 대해서는 추후 도 4 및 도 8a 내지 도 8c를 통해 설명하기로 한다.
한편, 본 명세서에서 사용되는 '학습'은 러닝(learning), 훈련(또는 트레이닝(training))과 동일한 의미일 수 있으며, 학습을 수행한다는 의미는 네트워크가 학습을 수행하거나, 네트워크를 학습시키는 의미 모두를 포함할 수 있다.
도 2는 본 개시의 언어 학습 방법과 관련하여, 언어 학습을 위한 음성에 포함되는 문장의 스코어를 추정 및 관리하는 방법을 설명하기 위한 플로우차트이다. 도 3은 입력된 음성 데이터로부터 음소 시퀀스를 인식하는 동작을 나타내는 일 예시도이다. 도 4는 인식된 음소 시퀀스를 이용하여, 입력된 음성 데이터에 포함된 문장의 스코어를 추정하는 동작을 나타내는 일 예시도이다. 도 5는 도 4에 도시된 스코어 추정 네트워크의 구조를 나타내는 예시도이다.
도 2를 참조하면, 본 개시의 실시 예에 따른 언어 학습 방법(스코어 추정 방법)은, 언어 학습을 위한 문장을 포함하는 음성 데이터를 획득하는 단계(S200), 및 획득된 음성 데이터로부터 음소 시퀀스를 인식하는 단계(S210)를 포함할 수 있다.
도 1에서 상술한 바와 같이, 시스템(100)은 통신 인터페이스나 입력 수단(마이크로폰 등)을 통해 상기 음성 데이터를 획득하거나, 데이터베이스(150)의 문장 스코어 DB(152) 또는 문장 쌍 DB(154)로부터 상기 음성 데이터를 획득할 수도 있다.
도 3을 함께 참조하면, 시스템(100)의 음소 시퀀스 인식 모듈(110)은 문장(302)을 포함하는 음성 데이터(300)로부터, 문장(302)의 음소 시퀀스(310)를 인식할 수 있다. 실시 예에 따라, 음소 시퀀스 인식 모듈(110)로 입력되는 음성 데이터(300)는 기 설정된 길이(시간)를 갖거나, 슬라이딩 윈도우(sliding window) 등에 의해 상기 기 설정된 길이 단위로 입력될 수 있다.
구체적으로, 음소 시퀀스 인식 모듈(110)은 음성 데이터(300)로부터 음소 시퀀스의 인식을 위한 특징을 추출하는 특징 추출기(112)를 포함할 수 있다. 예컨대, 특징 추출기(112)는 상기 추출되는 특징에 기초하여, 파형(waveform) 형태의 음성 데이터(300)를 스펙트럼도(spectrogram) 등과 같이 시각 또는 그래픽 형태로 변환할 수 있다.
음소 시퀀스 인식 네트워크(112)는, 특징 추출기(112)에 의해 추출된 특징에 기초하여, 문장(302)의 음소 시퀀스(310)를 인식할 수 있다. 특징 추출기(112)가 음성 데이터(300)를 스펙트럼도 등의 시각 또는 그래픽 형태로 변환하는 경우, 음소 시퀀스 인식 네트워크(112)는 콘볼루션 신경망(Convolutional Neural Network (CNN))으로 구현될 수 있다. 음소 시퀀스 인식 네트워크(112)는 상기 변환된 데이터에 기초하여 음소 시퀀스(310)를 인식하고, 인식된 음소 시퀀스(310)를 출력할 수 있다.
다시 도 2를 참조하면, 본 개시의 실시 예에 따른 언어 학습 방법(스코어 추정 방법)은 인식된 음소 시퀀스에 대한 스코어를 추정하는 단계(S220), 및 추정된 스코어에 기초하여 데이터베이스를 업데이트하는 단계(S230)를 포함할 수 있다.
도 4 및 도 5를 함께 참조하면, 시스템(100)은 인식된 음소 시퀀스(310)를 스코어 추정 모듈(120)로 입력하여, 음소 시퀀스(310)에 대응하는 문장의 스코어(난이도)를 추정할 수 있다. 도 1에서 상술한 바와 같이, 스코어 추정 모듈(120)은 딥러닝 기반의 스코어 추정 네트워크(122)를 포함할 수 있다. 스코어 추정 네트워크(122)는 입력된 음소 시퀀스(310)로부터, 음소 시퀀스(310) 또는 문장(302)의 스코어(난이도)를 추정하고, 추정된 스코어(400)를 출력할 수 있다. 일 실시 예에 따라, 스코어(400)는 문장(302)의 학습 난이도를 나타내는 값으로서, 스코어가 높을수록 문장(300)의 학습 난이도가 높음을 의미할 수 있다.
문장(302)을 포함하는 음성 데이터(300)는 시계열 데이터에 해당하는 바, 음소 시퀀스(310) 또한 시계열 데이터에 해당할 수 있다. 이러한 시계열 데이터의 특징을 정확히 분석하기 위해서는 각 시점의 데이터 변화뿐만 아니라 이전 시점의 데이터까지도 함께 고려하여야 한다. 이에 기초하여, 스코어 추정 네트워크(122)는 상술한 바와 같이 RNN, LSTM, 및 GRU 등으로 구현될 수 있다.
도 5에는 스코어 추정 네트워크(122)가 LSTM으로 구현되는 실시 예가 도시되어 있다. 음소 시퀀스(310)에 포함된 음소들 각각은 LSTM 계층(122a)에 입력되고, LSTM 계층(122a) 각각은 입력된 음소에 기초한 은닉 상태(hidden state)를 출력할 수 있다. 또한, 이전 LSTM 계층으로부터 출력되는 은닉 상태는 다음 LSTM 계층으로 전달되어, 다음 LSTM 계층은 이전 은닉 상태를 반영하여 입력된 음소에 기초한 은닉 상태를 출력하게 된다.
한편, 본 개시의 실시 예에 따른 스코어 추정 네트워크(122)는 어텐션 계층(attention layer)(122b)을 더 포함할 수 있다. 어텐션 계층(122b)은 LSTM 계층(122a)의 출력(은닉 상태)들 각각에 대해, 스코어의 추정 시 음소들 각각의 중요도에 따라 서로 다른 가중치를 부여하고, 가중치가 부여된 은닉 상태들을 출력할 수 있다. 밀집 계층(dense layer)(122c)은, 어텐션 계층(122b)의 출력들에 기초하여 최종적으로 추정되는 스코어(400)를 출력할 수 있다. 즉, 스코어 추정 네트워크(122)는 음소들 각각의 중요도를 반영하여 스코어(400)를 추정함으로써 보다 정확하고 세분화된 스코어의 추정을 수행할 수 있다.
도 4를 계속 참조하면, 시스템(100)은 추정된 스코어(400)에 기초하여 데이터베이스(150)의 문장 스코어 DB(152)를 업데이트할 수 있다. 예컨대, 입력된 문장(302)이 문장 스코어 DB(152)의 '문장 8'과 대응하는 경우, 시스템(100)은 추정된 스코어(400)에 기초하여 '문장 8'의 스코어를 업데이트할 수 있다. 일례로, 시스템(100)은 추정된 스코어(400)와 기 저장된 스코어의 평균값을 이용하여 '문장 8'의 스코어를 업데이트하거나, '문장 8'의 스코어를 추정된 스코어(400)로 변경할 수 있다.
도시되지는 않았으나, 입력된 문장(302)에 대응하는 문장의 정보가 문장 스코어 DB(152)에 존재하지 않는 경우, 시스템(100)은 입력된 문장(302) 및 추정된 스코어(400)를 포함하는 레코드를 문장 스코어 DB(152)에 추가할 수도 있다.
도 2 내지 도 5의 실시 예에 따르면, 언어 학습 방법은 딥러닝 기반의 음소 시퀀스 인식 네트워크와 스코어 추정 네트워크를 활용하여 음성 데이터에 포함되는 문장의 난이도(스코어)를 보다 정확히 추정할 수 있다. 또한, 언어 학습 방법은 음소 시퀀스에 포함되는 음소들 각각의 중요도를 고려함으로써, 문장들에 대해 보다 세분화된 스코어의 추정이 가능해질 수 있다.
도 6은 본 개시의 언어 학습 방법과 관련하여, 음성에 포함되는 문장의 스코어를 추정하는 네트워크의 학습 방법을 설명하기 위한 플로우차트이다. 도 7 내지 도 9는, 도 6의 학습 방법과 관련된 구체적인 실시 예를 나타내는 도면들이다.
도 6을 참조하면, 언어 학습 방법(스코어 추정 네트워크(122)의 학습 방법)은, 제1 문장을 포함하는 제1 음성 데이터의 제1 스코어를 추정하는 단계(S600)와, 제2 문장을 포함하는 제2 음성 데이터의 제2 스코어를 추정하는 단계(S610)를 포함할 수 있다.
도 2 내지 도 5에서 상술한 바와 같이, 시스템(100)은 제1 문장을 포함하는 제1 음성 데이터와, 제2 문장을 포함하는 제2 음성 데이터 각각에 대해, 음소 시퀀스 인식 모듈(100) 및 스코어 추정 모듈(120)을 통해 스코어를 추정할 수 있다. 상기 제1 스코어는 제1 문장에 대해 추정된 스코어에 해당하고, 상기 제2 스코어는 제2 문장에 대해 추정된 스코어에 해당할 수 있다.
언어 학습 방법은 제1 문장과 제2 문장의 상대적 스코어 정보를 획득하는 단계(S620), 및 추정된 제1 스코어 및 제2 스코어와, 획득된 상대적 스코어 정보에 기초하여 스코어 추정 네트워크(122)의 학습을 수행하는 단계(S630)를 포함할 수 있다.
제1 문장과 제2 문장의 상대적 스코어 정보는, 제1 문장의 스코어와 제2 문장의 스코어 간의 대소 관계를 나타낼 수 있다. 실시 예에 따라, 상기 상대적 스코어 정보는 데이터베이스(150)의 문장 쌍 DB(154)로부터 획득될 수 있다.
본 개시의 실시 예에 따르면, 문장 쌍 DB(154)는 사용자들의 언어 학습 결과에 기초하여 구축될 수 있다. 문장 쌍 DB(154)의 구축과 관련하여 도 7 내지 도 8c를 참조하여 설명한다.
도 7을 참조하면, 사용자들(유저 A 내지 유저 D) 각각은 복수의 문장들에 기초하여 언어 학습을 수행할 수 있다. 예컨대, 상기 언어 학습은 상기 복수의 문장들 각각을 포함하는 음성 데이터에 대한 받아쓰기(dictation) 학습일 수 있다.
시스템(100)은 사용자들 각각의 언어 학습 결과를 획득할 수 있다. 예컨대 유저 A의 언어 학습 결과는, '문장 1' 및 '문장 2'에 대한 받아쓰기 결과는 정답이고, '문장 4', '문장 5', 및 '문장 6'에 대한 받아쓰기 결과는 오답임을 나타내는 정보를 포함할 수 있다. 유사하게, 시스템(100)은 유저 B 내지 유저 D 각각의 언어 학습 결과를 획득할 수 있다.
도 8a의 테이블(800)을 참조하면, 시스템(100)은 획득된 사용자들 각각의 언어 학습 결과에 기초하여, 문장들 간의 상대적인 스코어(난이도)를 정의할 수 있다. 일례로, 시스템(100)은 정답에 해당하는 문장들 중 어느 하나와, 오답에 해당하는 문장들 중 어느 하나를 포함하는 서로 다른 문장 쌍들을 생성하고, 생성된 문장 쌍들 각각에 포함된 정답 문장(A)과 오답 문장(B) 사이의 상대적 스코어 정보를 생성할 수 있다. 이 때, 상기 상대적 스코어 정보는 도 8a에 도시된 바와 같이 정답 문장(A)의 스코어보다 오답 문장(B)의 스코어가 높음(A<B)을 의미하는 정보를 포함할 수 있다.
도 8b를 참조하면, 도 8a에 따라 생성된 테이블(800) 중에는 중복되는 레코드(801, 802)가 존재할 수 있다. 시스템(100)은 중복된 레코드(801, 802)에 기초하여 재정의된 테이블(810)을 생성하고, 생성된 테이블(810)은 중복 횟수를 나타내는 필드를 포함할 수 있다.
한편, 도 8c를 참조하면, 테이블(810 또는 800) 중에는 상대적 스코어 정보가 일치하지 않는 레코드들(811, 812)이 존재할 수 있다. 이는 사용자별로 문장에 대해 느끼는 난이도가 다를 수 있기 때문이다. 제1 레코드(811)에 포함된 상대적 스코어 정보는 '문장 5'의 스코어가 '문장 4'의 스코어보다 높음을 나타내나, 제2 레코드(812)에 포함된 상대적 스코어 정보는 '문장 4'의 스코어가 '문장 5'의 스코어보다 높음을 나타낼 수 있다.
시스템(100)은 상대적 스코어 정보가 일치하지 않는 레코드들(811, 812)을 처리하고, 처리 결과에 기초한 테이블(820)을 생성할 수 있다. 예컨대, 도 8c에 도시된 바와 같이 제1 레코드(811)와 제2 레코드(812) 각각의 상대적 스코어 정보가 다른 경우, 시스템(100)은 제1 레코드(811)와 제2 레코드(812)에 포함된 문장들의 스코어가 동일함을 나타내는 상대적 스코어 정보를 갖는 레코드(821)를 생성할 수 있다. 또는, 시스템(100)은 상대적 스코어 정보가 일치하지 않는 레코드들의 중복 횟수에 기초하여, 어느 하나의 상대적 스코어 정보를 선택할 수도 있다. 예컨대, 중복 횟수의 차이가 기 설정된 차이보다 큰 경우, 시스템(100)은 중복 횟수가 작은 레코드를 노이즈로 판단하여 삭제할 수도 있다.
도 7 내지 도 8c를 통해 설명한 처리 동작들에 따라, 문장 쌍 DB(154)가 구축될 수 있다. 즉, 문장 쌍 DB(154)는 다양한 사용자들의 언어 학습 결과에 기초하여 구축되고, 스코어 추정 네트워크(122)의 학습을 위한 정답 데이터(ground truth)로서 활용될 수 있다.
도 9를 참조하면, 시스템(100)은 제1 문장(Sentence A)에 대해 추정된 제1 스코어(Score A), 제2 문장(Sentence B)에 대해 추정된 제2 스코어(Score B), 및 정답 데이터(Ground Truth)에 기초하여 스코어 추정 네트워크(122)의 학습을 수행할 수 있다.
구체적으로, 시스템(100)은 문장 쌍 DB(154)의 레코드들 중, 제1 문장 제1 문장(Sentence A)과 제2 문장(Sentence B)의 상대적 스코어 정보를 포함하는 레코드를 탐색할 수 있다. 시스템(100)은 탐색된 레코드에 포함된 상대적 스코어 정보를 정답 데이터(Ground Truth)로서 획득할 수 있다.
스코어 추정 네트워크(122)의 학습을 위한 목적함수는, 제1 문장과 제2 문장 중 정답 데이터(Ground Truth)에 따라 상대적으로 낮은 스코어를 갖는 문장의 스코어가 낮아지도록 설계될 수 있다. 또는, 상기 목적함수는 제1 문장과 제2 문장 중 정답 데이터(Ground Truth)에 따라 상대적으로 높은 스코어를 갖는 문장의 스코어가 높아지도록 설계될 수 있다. 일례로, 상기 목적함수는 제1 스코어와 제2 스코어의 차이가 증가하는 pairwise ranking loss 기법에 따라 설계될 수 있으나, 이에 한정되는 것은 아니다.
예컨대, 제1 스코어(Score A)와 제2 스코어(Score B)가 동일하고, 정답 데이터(Ground Truth)는 제1 문장의 스코어가 제2 문장의 스코어보다 낮음을 나타낼 경우, 시스템(100)은 제1 스코어(Score A)가 낮아지도록(또는 제2 스코어(Score B)가 높아지도록) 스코어 추정 네트워크(122)의 학습을 수행할 수 있다. 스코어 추정 네트워크(122)의 학습은, 상기 목적함수에 따라 스코어 추정 네트워크(122)에 포함된 신경망의 노드들 간의 가중치(weight)를 변경하는 것을 의미할 수 있다.
도 6 내지 도 9에 도시된 실시 예에 따르면, 스코어 추정 네트워크(122)의 학습이 두 개의 문장 간의 상대적 스코어 정보에 기초하여 수행되도록 구현됨으로써, 하나의 문장에 대한 스코어 정보를 이용한 학습에 비해 학습 정확도를 보다 향상시킬 수 있다.
이하, 도 10을 참조하여 본 개시의 실시 예에 따른 언어 학습 방법을 설명한다.
도 10은, 본 개시의 예시적 실시 예에 따른 언어 학습 방법을 설명하기 위한 플로우차트이다.
도 10을 참조하면, 언어 학습 방법은 제1 문장을 포함하는 음성 데이터를 출력하는 단계(S1000), 및 출력된 음성 데이터에 기초한 입력 텍스트를 수신하는 단계(S1010)를 포함할 수 있다.
시스템(100)은 상기 음성 데이터를 스피커 등의 출력 수단(미도시)을 통해 직접 출력하거나, 상기 음성 데이터를 통신 인터페이스(미도시)를 통해 사용자의 단말기 등으로 전송하여, 상기 단말기의 스피커 등을 통해 출력하도록 유도할 수도 있다.
시스템(100)은 시스템(100) 또는 단말기 등을 통해 출력된 음성 데이터에 기초하여 사용자(학습자)로부터 입력되는 입력 텍스트를 수신할 수 있다. 예컨대 상기 입력 텍스트는 상기 사용자가 상기 음성 데이터에 기초하여 출력된 음성을 듣고, 음성에 포함되는 상기 제1 문장을 텍스트로 입력함에 따라 생성될 수 있다. 상기 입력 텍스트는 상기 제1 문장과 동일(정답) 또는 상이(오답)할 수 있다. 상기 입력 텍스트는 시스템(100)에 포함된 입력 수단(키보드, 마우스, 터치 스크린 등)을 통해 수신되거나, 통신 인터페이스를 통해 단말기 등으로부터 수신될 수도 있다.
상기 언어 학습 방법은, 상기 제1 문장과 수신된 입력 텍스트를 비교하는 단계(S1020), 비교 결과와 제1 문장의 스코어에 기초하여, 문장 스코어 DB(152)에 저장된 제2 문장을 선택하는 단계(S1030), 및 선택된 제2 문장을 포함하는 음성 데이터를 출력하는 단계(S1040)를 포함할 수 있다.
시스템(100)은 상기 제1 문장과 수신된 입력 텍스트를 비교함으로써, 상기 입력 텍스트에 대한 정답 여부를 확인할 수 있다. 시스템(100)은 정답 여부의 확인 결과에 기초하여, 다음 출력할 문장을 선택(추천)할 수 있다.
구체적으로, 상기 제1 문장과 상기 입력 텍스트가 동일(정답)한 경우, 시스템(100)은 문장 스코어 DB(152)에 저장된 문장들 중, 상기 제1 문장의 스코어와 동일한 스코어(또는 소정 차이 미만의 스코어)를 갖거나, 상기 제1 문장의 스코어보다 높은 스코어를 갖는 제2 문장을 선택할 수 있다.
반면, 상기 제1 문장과 상기 입력 텍스트가 상이(오답)한 경우, 시스템(100)은 문장 스코어 DB(152)에 저장된 문장들 중, 상기 제1 문장의 스코어보다 낮은 스코어를 갖는 제2 문장을 선택할 수 있다. 일 실시 예에 따라, 시스템(100)은 문장 스코어 DB(152)에 저장된 문장들 중 상기 제1 문장의 스코어와 유사한 스코어(소정 차이 미만의 스코어)를 갖는 제2 문장을 선택할 수 있다. 일 실시 예에 따라, 시스템(100)은 상기 제1 문장과 유사한 속도를 갖는 문장을 탐색(예컨대 DTW(Dynamic Time Warping) 기법 등을 활용)하여 탐색된 문장을 상기 제2 문장으로 선택할 수도 있다. 일 실시 예에 따라, 시스템(100)은 구체적인 오답 부분을 검출하고, 검출된 오답 부분의 음소 또는 음소 시퀀스와 동일 또는 유사한 음소 또는 음소 시퀀스를 갖는 문장을 탐색하여 제2 문장으로 선택할 수도 있다.
시스템(100)은 선택된 제2 문장을 포함하는 음성 데이터를 출력하고, 이 후 S1010 단계 내지 S1040 단계를 소정 횟수 동안 반복 수행함으로써, 사용자에게 언어 학습을 제공할 수 있다. 상기 언어 학습이 반복 수행될수록, 사용자의 학습 수준에 보다 적합한 문장들이 선택될 수 있으므로, 사용자에 대한 언어 학습 효율성 및 능률이 극대화될 수 있다.
도 11은 본 개시의 예시적 실시 예에 따른 언어 학습 방법을 수행하는 디바이스의 개략적인 블록도이다.
도 11을 참조하면, 본 개시의 실시 예에 따른 디바이스(1100)는 도 1에서 상술한 시스템(100)을 구성하는 적어도 하나의 컴퓨팅 장치 중 어느 하나에 대응할 수 있다. 이 경우, 디바이스(1100)는 도 2 내지 도 10에서 상술한 실시 예들에 따른 음소 시퀀스 인식 동작, 스코어 추정 동작, 데이터베이스 구축 및 관리 동작, 네트워크 학습 동작, 및 언어 학습 동작 중 적어도 하나를 수행할 수 있다.
이러한 디바이스(1100)는 프로세서(1110) 및 메모리(1120)를 포함할 수 있다. 다만, 디바이스(1100)의 구성 요소가 전술한 예에 한정되는 것은 아니다. 예를 들어, 디바이스(1100)는 전술한 구성 요소들보다 더 많은 구성 요소를 포함할 수 있다. 또한, 프로세서(1110)는 적어도 하나일 수 있으며, 메모리(1120) 또한 적어도 하나일 수 있다. 또한, 프로세서(1110) 및 메모리(1120) 중 둘 이상이 하나의 칩으로 결합된 형태일 수도 있다.
일 실시 예에 따라, 프로세서(1110)는 상술한 음소 시퀀스 인식 모듈(110), 스코어 추정 모듈(120), 학습 문장 추천 모듈(130), 및 네트워크 학습 모듈(140) 중 적어도 하나에 대응하거나, 상기 모듈들 중 적어도 하나를 실행 또는 제어할 수 있다. 한편, 디바이스(1100)는 상기 모듈들과 관련된 하드웨어 기반의 구성을 더 포함할 수 있다. 예컨대 디바이스(1100)는 음성 데이터의 출력을 위한 출력 수단(스피커 등), 출력된 음성 데이터에 기초한 입력 텍스트를 수신하기 위한 입력 수단(키보드, 마우스, 터치 스크린 등), 및/또는 네트워크를 통한 데이터나 정보의 송수신을 위한 통신 인터페이스를 더 포함할 수 있다.
이러한 프로세서(1110)는 CPU, AP(application processor), 집적 회로, 마이크로컴퓨터, ASIC(application specific integrated circuit), FPGA(field programmable gate array), 및/또는 NPU(neural processing unit) 등의 하드웨어를 포함할 수 있다.
본 개시의 일 실시 예에 따르면, 메모리(1120)는 디바이스(1100)의 동작에 필요한 프로그램 및 데이터를 저장할 수 있다.
또한, 메모리(1120)는 프로세서(1110)를 통해 생성되거나 획득된 데이터 중 적어도 하나를 저장할 수 있다. 실시 예에 따라, 메모리(1120)는 음소 시퀀스 인식 모듈(110), 스코어 추정 모듈(120), 학습 문장 추천 모듈(130), 및 네트워크 학습 모듈(140)과 관련된 데이터, 명령어, 알고리즘 등을 저장할 수 있다.
메모리(1120)는 롬(ROM), 램(RAM), 플래시 메모리, SSD, HDD 등의 저장 매체 또는 저장 매체들의 조합으로 구성될 수 있다.
상기한 실시 예들의 설명은 본 개시의 더욱 철저한 이해를 위하여 도면을 참조로 예를 든 것들에 불과하므로, 본 개시의 기술적 사상을 한정하는 의미로 해석되어서는 안될 것이다.
또한, 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 본 개시의 기본적 원리를 벗어나지 않는 범위 내에서 다양한 변화와 변경이 가능함은 명백하다 할 것이다.

Claims (15)

  1. 음성 데이터에 기초하여, 상기 음성 데이터에 포함된 문장의 음소 시퀀스를 인식하는 음소 시퀀스 인식 모듈;
    상기 인식된 음소 시퀀스에 기초하여 상기 문장의 난이도를 나타내는 스코어를 추정하도록 학습된 스코어 추정 네트워크를 포함하는 스코어 추정 모듈;
    상기 스코어 추정 네트워크의 학습을 수행하는 네트워크 학습 모듈; 및
    문장 쌍들 각각의 상대적 스코어 정보를 저장하고, 상기 상대적 스코어 정보를 상기 스코어 추정 네트워크의 학습을 위한 정답 데이터로서 상기 네트워크 학습 모듈로 제공하는 문장 쌍 데이터베이스를 포함하는,
    언어 학습 시스템.
  2. 제1항에 있어서,
    상기 문장 쌍들 각각의 상대적 스코어 정보는,
    문장 쌍의 스코어 대소 관계를 나타내는 정보를 포함하는,
    언어 학습 시스템.
  3. 제2항에 있어서,
    상기 음소 시퀀스 인식 모듈 및 상기 스코어 추정 모듈은,
    제1 문장을 포함하는 제1 음성 데이터로부터 제1 스코어를 추정하고,
    제2 문장을 포함하는 제2 음성 데이터로부터 제2 스코어를 추정하고,
    상기 네트워크 학습 모듈은,
    상기 문장 쌍 데이터베이스에 포함된 상기 문장 쌍들 각각의 상대적 스코어 정보 중, 상기 제1 문장과 상기 제2 문장의 상대적 스코어 정보를 상기 정답 데이터로서 획득하고,
    추정된 제1 스코어 및 제2 스코어와, 획득된 상기 정답 데이터에 기초하여 상기 스코어 추정 네트워크의 학습을 제어하는,
    언어 학습 시스템.
  4. 제2항에 있어서,
    상기 문장 쌍들 각각의 상대적 스코어 정보는,
    적어도 하나의 사용자의 언어 학습 결과에 포함되는 정답 문장과 오답 문장의 정보에 기초하여 생성되는,
    언어 학습 시스템.
  5. 제1항에 있어서,
    상기 문장 및 상기 스코어 추정 모듈에 의해 추정된 스코어를 포함하는 정보를 저장하는 문장 스코어 데이터베이스를 더 포함하는,
    언어 학습 시스템.
  6. 제5항에 있어서,
    상기 언어 학습 시스템은,
    제1 문장을 포함하는 음성 데이터에 기초한 입력 텍스트를 수신하고,
    상기 제1 문장과 상기 입력 텍스트의 비교 결과, 및 상기 제1 문장의 스코어에 기초하여, 상기 문장 스코어 데이터베이스에 저장된 제2 문장을 선택하는,
    언어 학습 시스템.
  7. 제6항에 있어서,
    상기 언어 학습 시스템은,
    비교 결과 상기 제1 문장과 상기 입력 텍스트가 일치하는 경우, 상기 문장 스코어 데이터베이스에 저장된 문장들 중, 상기 제1 문장의 스코어보다 높은 스코어를 갖는 문장을 상기 제2 문장으로 선택하고,
    상기 제1 문장과 상기 입력 텍스트가 일치하지 않는 경우, 상기 문장 스코어 데이터베이스에 저장된 문장들 중, 상기 제1 문장의 스코어보다 낮은 스코어를 갖는 문장을 상기 제2 문장으로 선택하는,
    언어 학습 시스템.
  8. 제6항에 있어서,
    상기 언어 학습 시스템은,
    비교 결과 상기 제1 문장과 상기 입력 텍스트가 일치하지 않는 경우, 일치하지 않는 부분의 음소 또는 음소 시퀀스에 기초하여 상기 문장 스코어 데이터베이스에 저장된 문장들 중 상기 제2 문장을 선택하는,
    언어 학습 시스템.
  9. 적어도 하나의 컴퓨팅 장치에서 제공하는 언어 학습 방법에 있어서,
    음성 데이터에 기초하여, 상기 음성 데이터에 포함된 문장의 음소 시퀀스를 인식하는 단계;
    입력된 음소 시퀀스에 기초하여, 음소 시퀀스에 대응하는 문장의 난이도를 나타내는 스코어를 추정하도록 학습된 스코어 추정 네트워크로, 상기 인식된 음소 시퀀스를 입력하는 단계;
    상기 스코어 추정 네트워크로부터, 상기 인식된 음소 시퀀스에 기초한 상기 문장의 스코어를 포함하는 추정 결과를 획득하는 단계; 및
    상기 음성 데이터에 포함된 문장 및 상기 추정 결과에 포함된 스코어를 포함하는 정보를 문장 스코어 데이터베이스에 저장하는 단계를 포함하는,
    언어 학습 방법.
  10. 제9항에 있어서,
    문장 쌍들 각각의 상대적 스코어 정보를 이용하여 상기 스코어 추정 네트워크의 학습을 수행하는 단계를 더 포함하고,
    상기 문장 쌍들 각각의 상대적 스코어 정보는 문장 쌍의 스코어 대소 관계를 나타내는 정보를 포함하는,
    언어 학습 방법.
  11. 제10항에 있어서,
    상기 스코어 추정 네트워크의 학습을 수행하는 단계는,
    상기 스코어 추정 네트워크를 이용하여, 제1 문장을 포함하는 제1 음성 데이터로부터 제1 스코어를 추정하는 단계;
    상기 스코어 추정 네트워크를 이용하여, 제2 문장을 포함하는 제2 음성 데이터로부터 제2 스코어를 추정하는 단계;
    상기 문장 쌍들 각각의 상대적 스코어 정보 중, 상기 제1 문장과 상기 제2 문장의 상대적 스코어 정보를 정답 데이터로서 획득하는 단계; 및
    추정된 제1 스코어 및 제2 스코어와, 획득된 정답 데이터에 기초하여 상기 스코어 추정 네트워크의 학습을 수행하는 단계를 포함하는,
    언어 학습 방법.
  12. 제10항에 있어서,
    상기 문장 쌍들 각각의 상대적 스코어 정보는,
    적어도 하나의 사용자의 언어 학습 결과에 포함되는 정답 문장과 오답 문장의 정보에 기초하여 생성되는,
    언어 학습 방법.
  13. 제9항에 있어서,
    상기 문장 스코어 데이터베이스에 저장된 문장들을 이용한 언어 학습을 제공하는 단계를 더 포함하고,
    상기 언어 학습을 제공하는 단계는,
    상기 문장 스코어 데이터베이스에 저장된 문장들 중 제1 문장을 포함하는 음성 데이터의 출력에 기초한 입력 텍스트를 수신하는 단계; 및
    상기 제1 문장과 상기 입력 텍스트의 비교 결과, 및 상기 제1 문장의 스코어에 기초하여, 상기 문장 스코어 데이터베이스에 저장된 제2 문장을 선택하는 단계를 포함하는,
    언어 학습 방법.
  14. 제13항에 있어서,
    상기 제2 문장을 선택하는 단계는,
    비교 결과 상기 제1 문장과 상기 입력 텍스트가 일치하는 경우, 상기 문장 스코어 데이터베이스에 저장된 문장들 중 상기 제1 문장의 스코어보다 높은 스코어를 갖는 상기 제2 문장을 선택하는 단계; 및
    비교 결과 상기 제1 문장과 상기 입력 텍스트가 일치하지 않는 경우, 상기 문장 스코어 데이터베이스에 저장된 문장들 중 상기 제1 문장의 스코어보다 낮은 스코어를 갖는 상기 제2 문장을 선택하는 단계를 포함하는,
    언어 학습 방법.
  15. 제13항에 있어서,
    상기 제2 문장을 선택하는 단계는,
    비교 결과 상기 제1 문장과 상기 입력 텍스트가 일치하지 않는 경우, 일치하지 않는 부분의 음소 또는 음소 시퀀스에 기초하여 상기 문장 스코어 데이터베이스에 저장된 상기 제2 문장을 선택하는 단계를 포함하는,
    언어 학습 방법.
KR1020200166942A 2020-12-02 2020-12-02 언어 학습 시스템 및 방법 KR102536736B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200166942A KR102536736B1 (ko) 2020-12-02 2020-12-02 언어 학습 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200166942A KR102536736B1 (ko) 2020-12-02 2020-12-02 언어 학습 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20220077726A KR20220077726A (ko) 2022-06-09
KR102536736B1 true KR102536736B1 (ko) 2023-05-26

Family

ID=81986124

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200166942A KR102536736B1 (ko) 2020-12-02 2020-12-02 언어 학습 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR102536736B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016042158A (ja) * 2014-08-18 2016-03-31 公立大学法人秋田県立大学 外国語の難易度判定装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160054126A (ko) * 2014-11-05 2016-05-16 경북대학교 산학협력단 외국어 학습 제공 장치 및 그 방법, 이를 수행하기 위한 기록매체

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016042158A (ja) * 2014-08-18 2016-03-31 公立大学法人秋田県立大学 外国語の難易度判定装置

Also Published As

Publication number Publication date
KR20220077726A (ko) 2022-06-09

Similar Documents

Publication Publication Date Title
JP6538779B2 (ja) 音声対話システム、音声対話方法、および音声対話システムを適合させる方法
KR102026396B1 (ko) 화자 검증을 위한 신경망들
US10176804B2 (en) Analyzing textual data
US10235994B2 (en) Modular deep learning model
EP3770905A1 (en) Speech recognition method, apparatus and device, and storage medium
US5212730A (en) Voice recognition of proper names using text-derived recognition models
KR102447513B1 (ko) 점증적 대화지식 자가학습 기반 대화장치 및 그 방법
US7885817B2 (en) Easy generation and automatic training of spoken dialog systems using text-to-speech
US11282501B2 (en) Speech recognition method and apparatus
CN111145733B (zh) 语音识别方法、装置、计算机设备和计算机可读存储介质
US8738378B2 (en) Speech recognizer, speech recognition method, and speech recognition program
JP2019159654A (ja) 時系列情報の学習システム、方法およびニューラルネットワークモデル
Gorin et al. An experiment in spoken language acquisition
KR102120751B1 (ko) 대화 이해 ai 시스템에 의하여, 머신러닝을 대화 관리 기술에 적용한 하이브리드 계층적 대화 흐름 모델을 기초로 답변을 제공하는 방법 및 컴퓨터 판독가능 기록 매체
US11043215B2 (en) Method and system for generating textual representation of user spoken utterance
Chakraborty et al. Knowledge-based framework for intelligent emotion recognition in spontaneous speech
JP6605105B1 (ja) 文章記号挿入装置及びその方法
US11615787B2 (en) Dialogue system and method of controlling the same
KR102536736B1 (ko) 언어 학습 시스템 및 방법
US20240005912A1 (en) Acoustic model for multilingual speech recognition
CN111429886B (zh) 一种语音识别方法及系统
Chakraborty et al. Spontaneous speech emotion recognition using prior knowledge
CN110021295B (zh) 用于识别由语音识别系统生成的错误转录的方法和系统
KR100979561B1 (ko) 대화형 언어 학습 장치
KR102591045B1 (ko) 발음 교정 시스템 및 이의 수행 방법

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant