KR102479023B1

KR102479023B1 - 외국어 학습 서비스 제공 장치, 방법 및 프로그램

Info

Publication number: KR102479023B1
Application number: KR1020210191513A
Authority: KR
Inventors: 오미진
Original assignee: 주식회사 루덴키즈
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-12-20

Abstract

본 발명의 실시예에 따르면, 외국어 학습 서비스를 제공하기 위한 장치가 제공된다. 상기 장치는, 단어학습모드 또는 문장학습모드의 선택에 대한 모드입력신호를 수신하고, 복수의 학습영상들 중 어느 하나의 학습영상에 선택에 대한 영상입력신호를 수신하는 영상 선택부; 상기 영상 선택부에 상기 단어학습모드를 선택한 상기 모드입력신호가 수신된 경우, 상기 영상입력신호에 따른 상기 학습영상과 대응하는 복수의 단어재생구간들 중 어느 하나의 단어재생구간의 선택에 대한 단어입력신호를 수신하고, 상기 학습영상 중 상기 단어입력신호에 따른 상기 단어재생구간과 대응하는 부분인 제1 단어학습영상을 재생하며, 상기 제1 단어학습영상에서 소리가 제거된 제2 단어학습영상을 재생하고, 상기 제2 단어학습영상이 재생되는 동안 수신된 사용자 음성에 기초하여 상기 단어재생구간에 대한 제1 평균평가점수를 산출하는 단어 학습부; 및 상기 영상 선택부에 상기 문장학습모드를 선택한 상기 모드입력신호가 수신된 경우, 상기 단어재생구간들과 대응하여 산출된 상기 제1 평균평가점수들에 기초하여 상기 문장학습모드의 수행여부를 결정하는 문장 학습부를 포함할 수 있다.

Description

외국어 학습 서비스 제공 장치, 방법 및 프로그램{APPARATUS, METHOD AND PROGRAM FOR PROVIDING FOREIGN LANGUAGE LEARNING SERVICE}

본 발명은 외국어 학습 서비스 제공 장치, 방법 및 프로그램에 관한 것이다.

본 명세서에서 달리 표시되지 않는 한, 이 섹션에 설명되는 내용들은 이 출원의 청구항들에 대한 종래 기술이 아니며, 이 섹션에 포함된다고 하여 종래 기술이라고 인정되는 것은 아니다.

외국어의 중요성이 대두됨에 따라 외국어 교육에 대한 수요 역시 폭발적으로 증가하고 있다. 이에 따라, 외국어를 효과적으로 학습시킬 수 있는 기술에 대한 연구가 활발이 이루어지고 있다.

외국어를 통한 커뮤니케이션에는 억양 및 강세가 중요한 부분을 차지하므로, 외국어의 억양 및 강세를 효과적으로 학습시키는 기술의 필요성이 대두되고 있다.

본 발명은, 학습영상에 포함된 단어들 및 문장들에 대한 순차적인 학습 서비스를 제공할 수 있는 외국어 학습 서비스 제공 장치, 방법 및 프로그램을 제공하는 것을 일 목적으로 한다.

또한, 본 발명은, 학습이 완료된 학습영상에 대한 사용자의 학습정보에 기초하여 다른 학습영상을 추천할 수 있는 외국어 학습 서비스 제공 장치, 방법 및 프로그램을 제공하는 것을 다른 목적으로 한다.

상기 목적을 달성하기 위한 본 발명의 일 측면은, 외국어 학습 서비스를 제공하기 위한 장치가 제공된다.

상기 장치는, 단어학습모드 또는 문장학습모드의 선택에 대한 모드입력신호를 수신하고, 복수의 학습영상들 중 어느 하나의 학습영상에 선택에 대한 영상입력신호를 수신하는 영상 선택부; 상기 영상 선택부에 상기 단어학습모드를 선택한 상기 모드입력신호가 수신된 경우, 상기 영상입력신호에 따른 상기 학습영상과 대응하는 복수의 단어재생구간들 중 어느 하나의 단어재생구간의 선택에 대한 단어입력신호를 수신하고, 상기 학습영상 중 상기 단어입력신호에 따른 상기 단어재생구간과 대응하는 부분인 제1 단어학습영상을 재생하며, 상기 제1 단어학습영상에서 소리가 제거된 제2 단어학습영상을 재생하고, 상기 제2 단어학습영상이 재생되는 동안 수신된 사용자 음성에 기초하여 상기 단어재생구간에 대한 제1 평균평가점수를 산출하는 단어 학습부; 및 상기 영상 선택부에 상기 문장학습모드를 선택한 상기 모드입력신호가 수신된 경우, 상기 단어재생구간들과 대응하여 산출된 상기 제1 평균평가점수들에 기초하여 상기 문장학습모드의 수행여부를 결정하는 문장 학습부를 포함할 수 있다.

또한, 상기 단어 학습부는, 데이터베이스에서 상기 단어재생구간에서 재생되는 단어, 상기 단어재생구간에서 재생되는 소리에 기초하여 생성된 제1 디지털신호, 상기 단어재생구간에서 재생되는 소리에 기초하여 생성된 제1 억양패턴그래프를 검색하고, 상기 사용자 음성을 기 학습된 번역모델에 입력하고 상기 번역모델로부터 상기 사용자 음성과 대응하는 텍스트를 획득하며, 상기 단어와 상기 텍스트를 비교하여 상기 사용자 음성에 대한 발음점수를 산출하고, 상기 사용자 음성의 시간에 따른 크기에 대한 아날로그신호를 생성하고, 상기 아날로그신호를 제2 디지털신호로 변환하며, 상기 제1 디지털신호 및 상기 제2 디지털신호를 비교하여 상기 사용자 음성에 대한 강세점수를 산출하며, 상기 사용자 음성의 주파수를 기 설정된 단위시간 간격으로 분류하고, 상기 단위시간 동안의 상기 주파수의 평균을 복수의 음정들과 대응하여 기 설정된 복수의 주파수범위들 중 어느 하나와 매칭하여 상기 사용자 음성의 상기 단위시간에 따른 상기 음정에 대한 제2 억양패턴그래프를 생성하며, 상기 제1 억양패턴그래프와 상기 제2 억양패턴그래프를 비교하여 상기 사용자 음성에 대한 억양점수를 산출하고, 상기 발음점수, 상기 강세점수 및 상기 억양점수의 평균값에 기초하여 평가점수를 산출하며, 상기 평가점수에 기초하여 상기 제1 평균평가점수를 산출할 수 있다.

또한, 상기 문장 학습부는, 상기 단어재생구간들과 대응하는 상기 평균평가점수들의 평균값이 기 설정된 기준값 이상인 경우, 상기 영상입력신호에 따른 상기 학습영상과 대응하는 복수의 문장재생구간들 중 어느 하나의 문장재생구간의 선택에 대한 문장입력신호를 수신하고, 상기 학습영상 중 상기 문장입력신호에 따른 상기 문장재생구간과 대응하는 부분인 제1 문장학습영상을 재생하며, 상기 제1 문장학습영상에서 소리가 제거된 제2 문장학습영상을 재생하고, 상기 제2 문장학습영상이 재생되는 동안 수신된 사용자 음성에 기초하여 상기 문장재생구간에 대한 제2 평균평가점수를 산출할 수 있다.

또한, 상기 문장 학습부는, 데이터베이스에서 상기 문장재생구간에서 재생되는 문장, 상기 문장재생구간에서 재생되는 소리에 기초하여 생성된 제1 디지털신호, 상기 문장재생구간에서 재생되는 소리에 기초하여 생성된 제1 억양패턴그래프를 검색하고, 상기 사용자 음성을 기 학습된 번역모델에 입력하고 상기 번역모델로부터 상기 사용자 음성과 대응하는 텍스트를 획득하며, 상기 문장과 상기 텍스트를 비교하여 상기 사용자 음성에 대한 발음점수를 산출하고, 상기 사용자 음성의 시간에 따른 크기에 대한 아날로그신호를 생성하고, 상기 아날로그신호를 제2 디지털신호로 변환하며, 상기 제1 디지털신호 및 상기 제2 디지털신호를 비교하여 상기 사용자 음성에 대한 강세점수를 산출하며, 상기 사용자 음성의 주파수를 기 설정된 단위시간 간격으로 분류하고, 상기 단위시간 동안의 상기 주파수의 평균을 복수의 음정들과 대응하여 기 설정된 복수의 주파수범위들 중 어느 하나와 매칭하여 상기 사용자 음성의 상기 단위시간에 따른 상기 음정에 대한 제2 억양패턴그래프를 생성하며, 상기 제1 억양패턴그래프와 상기 제2 억양패턴그래프를 비교하여 상기 사용자 음성에 대한 억양점수를 산출하고, 상기 발음점수, 상기 강세점수 및 상기 억양점수의 평균값에 기초하여 평가점수를 산출하며, 상기 평가점수에 기초하여 상기 제2 평균평가점수를 산출할 수 있다.

또한, 상기 장치는, 상기 문장재생구간들과 대응하는 상기 제2 평균평가점수들 모두가 기 설정된 기준 평균평가점수 이상인 상기 학습영상을 학습영상추천을 위한 기준영상으로 결정하는 영상 추천부를 더 포함할 수 있다.

또한, 상기 영상 추천부는, 상기 기준영상의 상기 문장재생구간들 중 상기 강세점수가 기 설정된 기준 강세점수 이상인 상기 문장재생구간들을 선별하고, 상기 데이터베이스에서 선별된 상기 문장재생구간들에서 재생되는 복수의 문장들을 검색하며, 상기 문장들로부터 상기 문장들에 포함된 복수의 제1 단어들을 획득하고,

상기 데이터베이스에서 상기 학습영상들 각각에서 재생되는 복수의 제2 단어들을 검색하며, 상기 학습영상들 각각의 상기 제2 단어들과 상기 제1 단어들을 비교하여 상기 학습영상들 각각과 상기 기준영상 사이의 매칭도를 산출하고, 상기 학습영상들 중 상기 매칭도가 가장 높은 학습영상을 추천영상으로 결정할 수 있다.

본 발명의 일 실시예에 따르면, 학습영상에 포함된 단어들에 대한 평가점수가 기 설정된 기준 이상인 경우에 문장들에 대한 학습 서비스가 사용자에게 제공되므로, 사용자는 사용자의 학습수준에 맞추어 점진적으로 학습을 수행할 수 있다.

또한, 본 발명의 다른 실시예에 따르면, 사용자가 원활하게 강세를 따라할 수 있는 단어들이 상대적으로 많이 포함된 학습영상이 추천되므로, 사용자의 학습효율이 향상될 수 있다.

또한, 본 발명의 또 다른 실시예에 다르면, 사용자가 원활하게 억양을 따라할 수 있는 문장들이 상대적으로 많이 포함된 학습영상이 추천되므로, 사용자의 학습효율이 향상될 수 있다.

도 1은 일 실시예에 따른 외국어 학습 서비스를 제공하기 위한 시스템에 대한 개요도이다.
도 2는 도 1에 따른 서비스 제공 장치의 기능적 모듈을 예시적으로 나타낸 블록도이다.
도 3은 도 2에 따른 영상 선택부가 학습영상을 선택하는 과정을 개념적으로 나타내는 도면이다.
도 4는 도 2에 따른 단어 학습부가 단어 학습 서비스를 제공하는 과정을 도시하는 흐름도이다.
도 5는 도 2에 단어 학습부가 단어 학습 서비스를 제공하는 과정을 도시하는 흐름도이다.
도 6은 도 2에 따른 문장 학습부가 문장 학습 서비스를 제공하는 과정을 도시하는 흐름도이다.
도 7은 도 2에 따른 영상 추천부가 학습영상 추천 서비스를 제공하는 과정을 도시하는 흐름도이다.
도 8은 도 2에 따른 영상 추천부가 학습영상 추천 서비스를 제공하는 과정을 도시하는 흐름도이다.
도 9는 도 1에 따른 서비스 제공 장치의 하드웨어 구성을 예시적으로 나타낸 도면이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

본 명세서에서 사용되는 "외국어"라는 용어는, 사용자의 모국어 이외의 언어들을 의미할 수 있다. 예를 들어, 사용자의 모국어가 한국어인 경우, 영어 및 태국어 등이 외국어에 해당될 수 있다.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 일 실시예에 따른 외국어 학습 서비스를 제공하기 위한 시스템에 대한 개요도이다.

도 1을 참조하면, 외국어 학습 서비스를 제공하기 위한 시스템은, 서비스 제공 장치(100) 및 리모컨(200)을 포함한다.

서비스 제공 장치(100)는, 서비스 제공 장치(100)를 이용하는 사용자에게 외국어 학습을 위한 학습모드 및 학습영상을 선택할 수 있는 기능을 제공할 수 있다. 서비스 제공 장치(100)는, 사용자가 학습모드로 단어학습 또는 문장학습 선택할 수 있는 사용자 인터페이스(User Interface)를 제공할 수 있다. 서비스 제공 장치(100)는, 사용자가 복수의 학습영상들 중 어느 하나를 선택할 수 있는 사용자 인터페이스(User Interface)를 제공할 수 있다.

또한, 서비스 제공 장치(100)는, 사용자에 의해 단어학습이 선택된 경우, 선택된 학습영상에 포함된 단어들을 학습할 수 있는 기능을 제공할 수 있다.

또한, 서비스 제공 장치(100)는, 사용자에 의해 문장학습이 선택된 경우, 선택된 학습영상에 포함된 문장들을 학습할 수 있는 기능을 제공할 수 있다.

또한, 서비스 제공 장치(100)는, 사용자의 학습결과에 기초하여 사용자에게 추천할 학습영상을 결정할 수 있다.

도 2는 도 1에 따른 서비스 제공 장치(100)의 기능적 모듈을 예시적으로 나타낸 블록도이다.

도 2를 참조하면, 서비스 제공 장치(100)는, 영상 선택부(101)를 포함한다.

영상 선택부(101)는, 사용자가 선택할 수 있는 복수의 학습모드들과 사용자가 선택할 수 있는 복수의 학습영상들에 대한 정보를 사용자에게 제공할 수 있다. 일 실시예에서, 영상 선택부(101)는, 사용자가 선택할 수 있는 복수의 학습모드들과 사용자가 선택할 수 있는 복수의 학습영상들을 기 설정된 출력 인터페이스 장치를 통해 사용자에게 디스플레이한다. 일 실시예에서, 기 설정된 출력 인터페이스 장치는 서비스 제공 장치(100)와 결합 또는 분리되어 있는 디스플레이 장치일 수 있다.

도 3은 도 2에 따른 영상 선택부(101)가 학습영상을 선택하는 과정을 개념적으로 나타내는 도면이다.

영상 선택부(101)는 선택 가능한 학습모드인 단어 학습모드와 문장 학습모드를 출력 인터페이스 장치를 통해 디스플레이한다. 또한, 영상 선택부(101)는 사용자가 선택 가능한 복수의 학습영상들을 출력 인터페이스 장치를 통해 디스플레이한다.

또한, 영상 선택부(101)는 학습모드 선택에 대한 제1 입력신호 및 학습영상 선택에 대한 제2 입력신호를 수신한다.

일 실시예에서, 서비스 제공 장치(100)는, 제1 입력신호 및 제2 입력신호의 입력을 위한 입력 인터페이스 장치를 구비할 수 있다.

일 실시예에서, 제1 입력신호 및 제2 입력신호는 리모컨(200)에 입력될 수 있으며, 영상 선택부(101)는 리모컨으로부터 입력된 제1 입력신호 및 제2 입력신호를 수신할 수 있다.

다시 도 2를 참조하면, 서비스 제공 장치(100)는, 단어 학습부(102)를 포함한다.

제1 입력신호가 단어 학습모드인 경우, 단어 학습부(102)는 제2 입력신호와 대응하는 학습영상에 대한 단어 학습 서비스를 사용자에게 제공할 수 있다.

도 4는 도 2에 따른 단어 학습부(102)가 단어 학습 서비스를 제공하는 과정을 도시하는 흐름도이다. 도 5는 도 2에 단어 학습부(102)가 단어 학습 서비스를 제공하는 과정을 도시하는 흐름도이다.

먼저, 단어 학습부(102)는, 제2 입력신호에 따라 선택된 학습영상의 전체 재생구간에서 단어가 재생되는 복수의 단어재생구간들을 출력 인터페이스 장치를 통해 디스플레이한다(S110).

서비스 제공 장치(100)의 데이터베이스에는 학습영상, 학습영상의 전체 재생구간에서 단어가 재생되는 복수의 단어재생구간들, 복수의 단어재생구간들에서 재생되는 복수의 단어들이 매칭되어 저장된다. 단어 학습부(102)는, 데이터베이스에서 제2 입력신호에 따른 학습영상과 매칭되는 단어재생구간들 및 단어들을 검색하고, 검색된 단어재생구간들을 재생되는 단어와 함께 출력 인터페이스 장치를 통해 디스플레이한다.

또한, 단어 학습부(102)는, 단어재생구간들 중 어느 하나의 단어재생구간의 선택에 대한 제3 입력신호를 수신한다(S120).

일 실시예에서, 사용자는 디스플레이되는 복수의 단어재생구간들 중 어느 하나의 단어재생구간의 선택에 대한 제3 입력신호를 리모컨(200)을 통해 입력할 수 있다. 리모컨(200)은 입력된 제3 입력신호를 단어 학습부(102)에 제공할 수 있다.

일 실시예에서, 사용자는 디스플레이되는 복수의 단어재생구간들 중 어느 하나의 단어재생구간의 선택에 대한 제3 입력신호를 서비스 제공 장치(100)의 입력 인터페이스 장치를 통해 입력할 수 있다.

또한, 단어 학습부(102)는, 제2 입력신호에 의해 선택된 학습영상 중 제3 입력신호에 의해 선택된 단어재생구간과 대응하는 부분인 단어 학습영상을 출력 인터페이스 장치를 통해 재생한다(S130).

단어 학습부(102)는, 제3 입력신호에 의해 선택된 단어재생구간과 대응하는 강세패턴영상 및 억양패턴영상을 검색하고, 검색된 강세패턴영상 및 억양패턴영상을 출력 인터페이스 장치를 통해 재생할 수 있다.

일 실시예에서, 서비스 제공 장치(100)의 데이터베이스에는 복수의 단어재생구간들 및 단어재생구간들과 대응하는 복수의 강세패턴영상들 및 복수의 억양패턴영상들이 매칭되어 저장될 수 있다.

일 실시예에서, 강세패턴영상은, 단어재생구간에서 재생되는 소리의 크기에 대한 아날로그신호가 변환된 디지털신호에 기초하여 생성된 영상일 수 있다. 일 실시예에서, 크기에 대한 아날로그신호는 시간을 x축, 소리의 크기를 y축으로 하는 신호일 수 있다. 예를 들어, 언어가 3개의 강세로 분류되는 경우, 단어재생구간에서 재생되는 소리의 크기에 대한 아날로그신호는 3개의 구간으로 분류된 디지털신호로 변환될 수 있고, 강세패턴영상은 디지털신호의 각각의 구간과 대응하는 크기의 도형을 보여주는 영상일 수 있다. 구체적으로, 아날로그 신호가, 제1 구간, 제1 구간보다 큰 제2 구간, 제2 구간보다 큰 제3 구간으로 분류된 디지털신호로 변환된 경우, 강세패턴영상은 제1 구간, 제2 구간 및 제3 구간과 대응하는 제1 도형, 제2 도형 및 제3 도형이 디지털신호와 대응하여 나타나는 영상일 수 있다.

일 실시예에서, 억양패턴영상은, 단어재생구간에서 재생되는 소리의 주파수를 기 설정된 단위시간 간격으로 분류하고, 단위시간 동안의 평균주파수와 대응하는 음정에 대한 그래프인 억양패턴그래프를 나타내는 영상일 수 있다. 일 실시예에서, 복수의 음정들이 기 설정된 주파수범위들과 대응되어 설정되고, 단위시간 동안의 평균주파수가 속하는 주파수범위와 대응하는 음정이 단위시간 동안의 평균주파수와 대응하는 음정으로 선택될 수 있다.

단어 학습영상에 대한 재생이 완료되면, 단어 학습부(102)는, 소리가 제거된 단어 학습영상을 출력 인터페이스 장치를 통해 재생한다(S140).

또한, 단어 학습부(102)는, 소리가 제거된 단어 학습영상이 재생되는 동안 입력 인터페이스 장치를 통해 사용자의 음성을 수신한다(S150).

일 실시예에서, 서비스 제공 장치(100)는, 마이크 형태의 입력 인터페이스 장치를 구비할 수 있다. 또한, 마이크 형태의 입력 인터페이스 장치가 서비스 제공 장치(100)와 별도로 구비되어 서비스 제공 장치(100)와 정보통신 가능하게 연결될 수 있다.

사용자의 음성이 수신되면, 단어 학습부(102)는, 수신된 음성과 대응하는 평가점수를 산출한다(S160).

일 실시예에서, 단어 학습부(102)는, 발음점수, 강세점수 및 억양점수의 평균값을 수신된 음성과 대응하는 평가점수로 결정할 수 있다.

단어 학습부(102)는, 수신된 음성을 기 학습된 번역모델에 입력하고, 번역모델로부터 획득된 텍스트를 단어재생구간에서 재생되는 단어와 비교하여 발음점수를 산출할 수 있다. 일 실시예에서, 복수의 말뭉치들로 구성된 코퍼스를 학습데이터로 시퀀스-투-시퀀스(seq2seq) 모델을 기계학습시켜 번역모델을 생성할 수 있다. 일 실시예에서, 단어 학습부(102)는, 단어재생구간에서 재생되는 단어의 자음 또는 모음과 동일한 위치에서 일치하는 텍스트의 자음 또는 모음의 개수에 기초하여, 획득된 텍스트의 발음점수를 산출할 수 있다. 예를 들어, 단어가 "Game"인데 획득된 텍스트가 "Same"인 경우 전체 4개의 자음 또는 모음 중 3개가 일치하므로, 단어 학습부(102)는 획득된 텍스트의 발음정확도를 75% 로 판단하여 100점 만점에 75점의 발음점수를 부여할 수 있다.

단어 학습부(102)는, 수신된 사용자의 음성의 크기에 대한 아날로그신호를 생성하고, 생성된 아날로그신호를 디지털신호로 변환하고, 변환된 디지털신호와 대응하는 강세패턴영상을 생성할 수 있다. 예를 들어, 언어가 3개의 강세로 분류되는 경우, 수신된 사용자의 소리의 크기에 대한 아날로그신호는 3개의 구간으로 분류된 디지털신호로 변환될 수 있고, 강세패턴영상은 디지털신호의 각각의 구간과 대응하는 크기의 도형을 보여주는 영상일 수 있다. 구체적으로, 아날로그 신호가, 제1 구간, 제1 구간보다 큰 제2 구간, 제2 구간보다 큰 제3 구간으로 분류된 디지털신호로 변환된 경우, 강세패턴영상은 제1 구간, 제2 구간 및 제3 구간과 대응하는 제1 도형, 제2 도형 및 제3 도형이 디지털신호와 대응하여 나타나는 영상일 수 있다. 단어 학습부(102)는, 단어재생구간과 대응하는 디지털신호와 수신된 사용자의 음성과 대응하는 디지털신호를 비교하여 강세점수를 산출할 수 있다. 예를 들어, 단어 학습부(102)는, 수신된 사용자의 음성과 대응하는 디지털신호의 재생시간이 단어재생구간과 대응하는 디지털신호의 재생시간과 동일하도록 수신된 사용자의 음성과 대응하는 디지털신호를 압축할 수 있다. 수신된 사용자의 음성과 대응하는 디지털신호의 재생시간이 2초이고, 단어재생구간과 대응하는 디지털신호의 재생시간이 1.8초인 경우, 단어 학습부(102)는, 수신된 사용자의 음성과 대응하는 디지털신호의 재생시간이 1.8초가 되도록 압축시킬 수 있다. 단어 학습부(102)는, 압축된 디지털신호의 전체 재생시간 대비 단어재생구간과 대응하는 디지털신호와 일치하는 시간의 비율에 기초하여 강세점수를 산출할 수 있다. 1.8초 중 1.7초가 일치하는 경우 압축된 디지털신호의 전체 재생시간 대비 단어재생구간과 대응하는 디지털신호와 일치하는 시간의 비율이 0.94이므로, 단어 학습부(102)는, 100점 만점에 94점의 강세점수를 부여할 수 있다.

단어 학습부(102)는, 수신된 사용자의 음성의 주파수를 기 설정된 단위시간 간격으로 분류하고, 단위시간 동안의 평균주파수와 대응하는 음정에 대한 그래프인 억양패턴그래프를 나타내는 억양패턴영상을 생성할 수 있다. 일 실시예에서, 복수의 음정들이 기 설정된 주파수범위들과 대응되어 설정되고, 단위시간 동안의 평균주파수가 속하는 주파수범위와 대응하는 음정이 단위시간 동안의 평균주파수와 대응하는 음정으로 선택될 수 있다. 단어 학습부(102)는, 단어재생구간과 대응하는 억양패턴그래프와 사용자의 음성과 대응하는 억양패턴그래프를 비교하여 억양점수를 산출할 수 있다.

일 실시예에서, 문장 학습부(103)는, 문장재생구간과 대응하는 억양패턴그래프를 구성하는 복수의 제1 좌표들과 사용자의 음성과 대응하는 억양패턴그래프를 구성하는 복수의 제2 좌표들을 비교하여 억양점수를 산출할 수 있다. 문장재생구간이 재생되는 총 시간인 제1 시간이 14초이고, 기 설정된 단위시간이 0.1초인 경우, 총 140개의 제1 좌표들이 생성될 수 있다. 또한, 사용자의 음성이 인식된 시간인 제2 시간이 총 13초인 경우, 문장 학습부(103)는, 기 설정된 단위시간에 제1 시간 대비 제2 시간의 비율을 곱하여 기 설정된 단위시간을 보정할 수 있다. 즉, 0.1초에 13/14를 곱한 시간이 보정된 단위시간으로 결정될 수 있다. 제2 시간을 보정된 단위시간으로 분할하는 경우 140개의 제2 좌표들이 생성될 수 있다. 또한, 문장 학습부(103)는, 제2 좌표들의 평균음정 대비 제1 좌표들의 평균음정의 비율을 제2 좌표들의 음정에 곱하여 제2 좌표들의 음정을 보정할 수 있다. 또한, 문장 학습부(103)는, 제1 좌표들의 음정들과 제2 좌표들의 보정된 음정들의 오차들에 기초하여 억양점수를 산출할 수 있다. 오차들의 합이 상대적으로 작을수록 억양점수가 높게 산출될 수 있다.

단어 학습부(102)는, 발음점수, 강세점수 및 억양점수의 평균값을 평가점수로 결정하고, 발음점수, 강세점수, 억양점수 및 평가점수를 단어재생구간과 매칭하여 데이터베이스에 저장할 수 있다.

또한, 단어 학습부(102)는, 번역모델에서 획득된 텍스트를 소리가 제거된 단어 학습영상과 함께 출력 인터페이스 장치를 통해 재생할 수 있다

또한, 단어 학습부(102)는, 단어재생구간과 대응하는 강세패턴영상과 수신된 사용자의 음성과 대응하는 강세패턴영상을 중첩하여 출력 인터페이스 장치를 통해 재생할 수 있다.

또한, 단어 학습부(102)는, 단어재생구간과 대응하는 억영패턴영상과 수신된 사용자의 음성과 대응하는 억양패턴영상을 중첩하여 출력 인터페이스 장치를 통해 재생할 수 있다.

또한, 단어 학습부(102)는, 발음점수, 강세점수, 억양점수 및 평가점수를 출력 인터페이스 장치를 통해 디스플레이할 수 있다.

단어 학습부(102)는, 평가점수가 산출된 횟수가 기 설정된 기준횟수 이상인지 판단한다(S170). 단어 학습부(102)는, 데이터베이스에서 단어재생구간과 매칭되는 평가점수들을 검색할 수 있으며, 이를 통해 평가점수가 산출된 횟수를 획득할 수 있다.

평가점수가 산출된 횟수가 기 설정된 기준횟수 이상인 경우, 단어 학습부(102)는, 데이터베이스에 저장된 시간이 빠른 순서대로 기 설정된 기준개수의 평가점수들의 평균값을 단어재생구간과 대응하는 평균평가점수로 결정한다(S180).

단어 학습부(102)는, 결정된 평균평가점수를 단어재생구간과 매칭하여 데이터베이스에 저장한다.

평가점수가 산출된 횟수가 기 설정된 기준횟수 미만인 경우, 단어 학습부(102)는, 상술한 S130단계, S140단계, S150단계, S160단계를 반복하여 수행한다.

상술한 과정을 통해, 단어 학습부(102)는, 선택된 학습영상에 포함된 모든 단어재생구간들 각각에 대한 평균평가점수를 산출할 수 있다.

다시 도 2를 참조하면, 서비스 제공 장치(100)는 문장 학습부(103)를 포함한다.

도 6은 도 2에 따른 문장 학습부(103)가 문장 학습 서비스를 제공하는 과정을 도시하는 흐름도이다.

제1 입력신호가 문장 학습모드인 경우, 단어 학습부(102)는 제2 입력신호와 대응하는 학습영상에 대한 문장 학습 서비스를 사용자에게 제공할 수 있다.

일 실시예에서, 제1 입력신호가 문장 학습모드인 경우, 문장 학습부(103)는, 데이터베이스에서 제2 입력신호와 대응하는 학습영상의 단어재생구간들과 대응하는 평균평가점수들을 검색하고, 전체 평균평가점수들의 평균값이 기 설정된 기준값과 비교할 수 있다. 전체 평균평가점수들의 평균값이 기 설정된 기준값 미만인 경우, 문장 학습부(103)는, 제2 입력신호와 대응하는 학습영상에 대해 단어 학습모드를 수행할 것을 나타내는 문장을 출력 인터페이스 장치를 통해 디스플레이할 수 있다.

일 실시예에서, 제1 입력신호가 문장 학습모드인 경우, 문장 학습부(103)는, 데이터베이스에서 제2 입력신호와 대응하는 학습영상의 단어재생구간들과 대응하는 평균평가점수들을 검색하고, 전체 평균평가점수들 중 평균평가점수가 기 설정된 기준점수 이상인 평균평가점수들의 개수를 카운팅한다. 카운팅된 개수가 기 설정된 기준개수 미만인 경우, 문장 학습부(103)는, 제2 입력신호와 대응하는 학습영상에 대해 단어 학습모드를 수행할 것을 나타내는 문장을 출력 인터페이스 장치를 통해 디스플레이할 수 있다.

문장 학습부(103)는, 제2 입력신호에 따라 선택된 학습영상의 전체 재생구간에서 문장이 재생되는 복수의 문장재생구간들을 출력 인터페이스 장치를 통해 디스플레이한다(S210).

서비스 제공 장치(100)의 데이터베이스에는 학습영상, 학습영상의 전체 재생구간에서 문장이 재생되는 복수의 문장재생구간들, 복수의 문장재생구간들에서 재생되는 복수의 문장들이 매칭되어 저장된다. 문장 학습부(103)는, 데이터베이스에서 제2 입력신호에 따른 학습영상과 매칭되는 문장재생구간들 및 문장들을 검색하고, 검색된 문장재생구간들을 재생되는 문장과 함께 출력 인터페이스 장치를 통해 디스플레이한다.

또한, 문장 학습부(103)는, 문장재생구간들 중 어느 하나의 문장재생구간의 선택에 대한 제3 입력신호를 수신한다(S220).

일 실시예에서, 사용자는 디스플레이되는 복수의 문장재생구간들 중 어느 하나의 문장재생구간의 선택에 대한 제3 입력신호를 리모컨(200)을 통해 입력할 수 있다. 리모컨(200)은 입력된 제3 입력신호를 문장 학습부(103)에 제공할 수 있다.

일 실시예에서, 사용자는 디스플레이되는 복수의 문장재생구간들 중 어느 하나의 문장재생구간의 선택에 대한 제3 입력신호를 서비스 제공 장치(100)의 입력 인터페이스 장치를 통해 입력할 수 있다.

또한, 문장 학습부(103)는, 제2 입력신호에 의해 선택된 학습영상 중 제3 입력신호에 의해 선택된 문장재생구간과 대응하는 부분인 문장 학습영상을 출력 인터페이스 장치를 통해 재생한다(S230).

문장 학습부(103)는, 제3 입력신호에 의해 선택된 문장재생구간과 대응하는 강세패턴영상 및 억양패턴영상을 검색하고, 검색된 강세패턴영상 및 억양패턴영상을 출력 인터페이스 장치를 통해 재생할 수 있다.

일 실시예에서, 서비스 제공 장치(100)의 데이터베이스에는 복수의 문장재생구간들 및 문장재생구간들과 대응하는 복수의 강세패턴영상들 및 복수의 억양패턴영상들이 매칭되어 저장될 수 있다.

일 실시예에서, 강세패턴영상은, 문장재생구간에서 재생되는 소리의 크기에 대한 아날로그신호가 변환된 디지털신호에 기초하여 생성된 영상일 수 있다. 일 실시예에서, 크기에 대한 아날로그신호는 시간을 x축, 소리의 크기를 y축으로 하는 신호일 수 있다. 예를 들어, 언어가 3개의 강세로 분류되는 경우, 문장재생구간에서 재생되는 소리의 크기에 대한 아날로그신호는 3개의 구간으로 분류된 디지털신호로 변환될 수 있고, 강세패턴영상은 디지털신호의 각각의 구간과 대응하는 크기의 도형을 보여주는 영상일 수 있다. 구체적으로, 아날로그 신호가, 제1 구간, 제1 구간보다 큰 제2 구간, 제2 구간보다 큰 제3 구간으로 분류된 디지털신호로 변환된 경우, 강세패턴영상은 제1 구간, 제2 구간 및 제3 구간과 대응하는 제1 도형, 제2 도형 및 제3 도형이 디지털신호와 대응하여 나타나는 영상일 수 있다.

일 실시예에서, 억양패턴영상은, 문장재생구간에서 재생되는 소리의 주파수를 기 설정된 단위시간 간격으로 분류하고, 단위시간 동안의 평균주파수와 대응하는 음정에 대한 그래프인 억양패턴그래프를 나타내는 영상일 수 있다. 일 실시예에서, 복수의 음정들이 기 설정된 주파수범위들과 대응되어 설정되고, 단위시간 동안의 평균주파수가 속하는 주파수범위와 대응하는 음정이 단위시간 동안의 평균주파수와 대응하는 음정으로 선택될 수 있다.

문장 학습영상에 대한 재생이 완료되면, 문장 학습부(103)는, 소리가 제거된 문장 학습영상을 출력 인터페이스 장치를 통해 재생한다(S240).

또한, 문장 학습부(103)는, 소리가 제거된 문장 학습영상이 재생되는 동안 입력 인터페이스 장치를 통해 사용자의 음성을 수신한다(S250).

사용자의 음성이 수신되면, 문장 학습부(103)는, 수신된 음성과 대응하는 평가점수를 산출한다(S260).

일 실시예에서, 문장 학습부(103)는, 발음점수, 강세점수 및 억양점수의 평균값을 수신된 음성과 대응하는 평가점수로 결정할 수 있다.

문장 학습부(103)는, 수신된 음성을 기 학습된 번역모델에 입력하고, 번역모델로부터 획득된 텍스트를 문장재생구간에서 재생되는 문장과 비교하여 발음점수를 산출할 수 있다. 일 실시예에서, 복수의 말뭉치들로 구성된 코퍼스를 학습데이터로 시퀀스-투-시퀀스(seq2seq) 모델을 기계학습시켜 번역모델을 생성할 수 있다. 일 실시예에서, 문장 학습부(103)는, 문장재생구간에서 재생되는 문장의 자음 또는 모음과 동일한 위치에서 일치하는 텍스트의 자음 또는 모음의 개수에 기초하여, 획득된 텍스트의 발음점수를 산출할 수 있다.

문장 학습부(103)는, 수신된 사용자의 음성의 크기에 대한 아날로그신호를 생성하고, 생성된 아날로그신호를 디지털신호로 변환하고, 변환된 디지털신호와 대응하는 강세패턴영상을 생성할 수 있다. 예를 들어, 언어가 3개의 강세로 분류되는 경우, 수신된 사용자의 소리의 크기에 대한 아날로그신호는 3개의 구간으로 분류된 디지털신호로 변환될 수 있고, 강세패턴영상은 디지털신호의 각각의 구간과 대응하는 크기의 도형을 보여주는 영상일 수 있다. 구체적으로, 아날로그 신호가, 제1 구간, 제1 구간보다 큰 제2 구간, 제2 구간보다 큰 제3 구간으로 분류된 디지털신호로 변환된 경우, 강세패턴영상은 제1 구간, 제2 구간 및 제3 구간과 대응하는 제1 도형, 제2 도형 및 제3 도형이 디지털신호와 대응하여 나타나는 영상일 수 있다. 문장 학습부(103)는, 문장재생구간과 대응하는 디지털신호와 수신된 사용자의 음성과 대응하는 디지털신호를 비교하여 강세점수를 산출할 수 있다.

문장 학습부(103)는, 수신된 사용자의 음성의 주파수를 기 설정된 단위시간 간격으로 분류하고, 단위시간 동안의 평균주파수와 대응하는 음정에 대한 그래프인 억양패턴그래프를 나타내는 억양패턴영상을 생성할 수 있다. 일 실시예에서, 복수의 음정들이 기 설정된 주파수범위들과 대응되어 설정되고, 단위시간 동안의 평균주파수가 속하는 주파수범위와 대응하는 음정이 단위시간 동안의 평균주파수와 대응하는 음정으로 선택될 수 있다. 문장 학습부(103)는, 문장재생구간과 대응하는 억양패턴그래프와 사용자의 음성과 대응하는 억양패턴그래프를 비교하여 억양점수를 산출할 수 있다.

문장 학습부(103)는, 발음점수, 강세점수 및 억양점수의 평균값을 평가점수로 결정하고, 발음점수, 강세점수, 억양점수 및 평가점수를 문장재생구간과 매칭하여 데이터베이스에 저장할 수 있다.

또한, 문장 학습부(103)는, 번역모델에서 획득된 텍스트를 소리가 제거된 문장 학습영상과 함께 출력 인터페이스 장치를 통해 재생할 수 있다

또한, 문장 학습부(103)는, 문장재생구간과 대응하는 강세패턴영상과 수신된 사용자의 음성과 대응하는 강세패턴영상을 중첩하여 출력 인터페이스 장치를 통해 재생할 수 있다.

또한, 문장 학습부(103)는, 문장재생구간과 대응하는 억영패턴영상과 수신된 사용자의 음성과 대응하는 억양패턴영상을 중첩하여 출력 인터페이스 장치를 통해 재생할 수 있다.

또한, 문장 학습부(103)는, 발음점수, 강세점수, 억양점수 및 평가점수를 출력 인터페이스 장치를 통해 디스플레이할 수 있다.

문장 학습부(103)는, 평가점수가 산출된 횟수가 기 설정된 기준횟수 이상인지 판단한다(S270). 문장 학습부(103)는, 데이터베이스에서 문장재생구간과 매칭되는 평가점수들을 검색할 수 있으며, 이를 통해 평가점수가 산출된 횟수를 획득할 수 있다.

평가점수가 산출된 횟수가 기 설정된 기준횟수 이상인 경우, 문장 학습부(103)는, 데이터베이스에 저장된 시간이 빠른 순서대로 기 설정된 기준개수의 평가점수들의 평균값을 문장재생구간과 대응하는 평균평가점수로 결정한다(S280).

문장 학습부(103)는, 결정된 평균평가점수를 문장재생구간과 매칭하여 데이터베이스에 저장한다.

평가점수가 산출된 횟수가 기 설정된 기준횟수 미만인 경우, 문장 학습부(103)는, 상술한 S230단계, S240단계, S250단계, S260단계를 반복하여 수행한다.

상술한 과정을 통해, 문장 학습부(103)는, 선택된 학습영상에 포함된 모든 문장재생구간들 각각에 대한 평균평가점수를 산출할 수 있다.

다시 도 2를 참조하면, 서비스 제공 장치(100)는 영상 추천부(104)를 포함한다.

도 7은 도 2에 따른 영상 추천부(104)가 학습영상 추천 서비스를 제공하는 과정을 도시하는 흐름도이다.

영상 추천부(104)는, 복수의 문장재생구간들과 대응하는 평균평가점수들 모두가 기 설정된 기준점수 이상인 학습영상을 학습영상추천을 위한 기준영상으로 결정한다(S410).

일 실시예에서, 영상 추천부(104)는, 데이터베이스에서 학습영상과 대응하는 복수의 문장재생구간들을 검색하고, 복수의 문장재생구간들과 대응하는 복수의 평균평가점수들을 검색할 수 있다. 복수의 평균평가점수들 모두가 기 설정된 기준점수 이상인 경우, 영상 추천부(104)는 학습영상을 학습영상추천을 위한 기준영상으로 결정할 수 있다.

일 실시예에서, 문장 학습부(103)는, 복수의 문장재생구간들 중 평균평가점수가 기 설정된 기준점수 이상이고, 연속되는 복수의 문장재생구간들을 연결하여 하나의 문장재생구간으로 설정할 수 있다. 예를 들어, 학습영상의 전체 재생구간 중 0~4초의 문장재생구간 및 4~7초의 문장재생구간의 평균평가점수가 모두 기 설정된 기준점수 이상인 경우, 문장 학습부(103)는, 두개의 문장재생구간을 하나로 합쳐 0~7초의 문장재생구간을 새롭게 설정할 수 있다. 반복되는 학습을 통해, 학습영상의 전체 재생구간이 하나의 문장재생구간으로 설정될 수 있다. 이 경우, 영상 추천부(104)는, 전체 재생구간이 하나의 문장재생구간으로 설정된 학습영상을 기준영상으로 결정할 수 있다.

또한, 영상 추천부(104)는, 기준영상의 복수의 문장재생구간들 중 강세점수가 기 설정된 기준점수 이상인 문장재생구간들을 선별한다(S420).

영상 추천부(104)는, 데이터베이스에서 기준영상과 대응하는 복수의 문장재생구간들을 검색하고, 복수의 문장재생구간들과 대응하는 복수의 강세점수들을 검색한다. 영상 추천부(104)는, 복수의 문장재생구간들 중 강세점수가 기 설정된 기준점수 이상인 문장재생구간들을 선별한다.

또한, 영상 추천부(104)는, 기준영상 중 선별된 문장재생구간들과 대응하는 부분에서 재생되는 복수의 단어들을 선별한다(S430).

데이터베이스에는 문장재생구간과 문장이 매칭되어 저장되며, 영상 추천부(104)는 데이터베이스에서 선별된 문장재생구간들과 대응하는 문장들을 검색하고, 검색된 문장들에 포함된 복수의 단어들을 획득할 수 있다.

또한, 영상 추천부(104)는, 복수의 학습영상들 각각에 포함된 복수의 단어들과 획득된 복수의 단어들을 비교하여 복수의 학습영상들 각각과 기준영상 사이의 매칭도를 산출한다(S440).

데이터베이스에는 학습영상과 학습영상의 복수의 단어재생구간들이 매칭되어 저장되고, 복수의 단어재생구간들 및 복수의 단어재생구간들과 대응하는 복수의 단어들이 매칭되어 저장된다.

영상 추천부(104)는, 데이터베이스에서 학습영상과 대응하는 복수의 단어재생구간들을 검색하고, 복수의 단어재생구간들과 대응하는 복수의 단어들을 검색하여 학습영상에 포함된 복수의 단어들을 결정할 수 있다. 영상 추천부(104)는, 학습영상에 포함된 복수의 단어들과 선별된 문장재생구간들로부터 획득된 복수의 단어들을 비교하여 학습영상과 기준영상 사이의 매칭도를 산출할 수 있다. 일 실시예에서, 영상 추천부(104)는, 선별된 문장재생구간들로부터 획득된 복수의 단어들과 동일한 단어의 개수를 매칭도로 결정할 수 있다.

또한, 영상 추천부(104)는, 복수의 학습영상들 중 기준영상과의 매칭도가 가장 높은 학습영상을 추천영상으로 결정한다(S450).

영상 추천부(104)는, 기준영상에 대한 추천영상을 출력 인터페이스 장치를 통해 사용자에게 디스플레이할 수 있다.

도 8은 도 2에 따른 영상 추천부(104)가 학습영상 추천 서비스를 제공하는 과정을 도시하는 흐름도이다.

영상 추천부(104)는, 복수의 문장재생구간들과 대응하는 평균평가점수들 모두가 기 설정된 기준점수 이상인 학습영상을 학습영상추천을 위한 기준영상으로 결정한다(S510).

또한, 영상 추천부(104)는, 기준영상의 복수의 문장재생구간들 중 억양점수가 기 설정된 기준점수 이상인 문장재생구간들을 선별한다(S520).

영상 추천부(104)는, 데이터베이스에서 기준영상과 대응하는 복수의 문장재생구간들을 검색하고, 복수의 문장재생구간들과 대응하는 복수의 억양점수들을 검색한다. 영상 추천부(104)는, 복수의 문장재생구간들 중 억양점수가 기 설정된 기준점수 이상인 문장재생구간들을 선별한다.

또한, 영상 추천부(104)는, 복수의 학습영상들 각각의 억양패턴그래프와 선별된 문장재생구간들 각각의 억양패턴그래프를 비교하여 복수의 학습영상들 각각과 기준영상 사이의 매칭도를 산출한다(S530).

일 실시예에서, 문장 학습부(103)는, 학습영상에 포함된 문쟁재생구간의 억양패턴그래프를 구성하는 복수의 제1 좌표들과 기준영상에서 선별된 문장재생구간의 억양패턴그래프를 구성하는 복수의 제2 좌표들을 비교하여 매칭도 점수를 산출할 수 있다. 학습영상에 포함된 문장재생구간이 재생되는 총 시간인 제1 시간이 14초이고, 기 설정된 단위시간이 0.1초인 경우, 총 140개의 제1 좌표들이 생성될 수 있다. 또한, 기준영상에서 선별된 문장재생구간이 재생되는 시간인 제2 시간이 총 13초인 경우, 문장 학습부(103)는, 기 설정된 단위시간에 제1 시간 대비 제2 시간의 비율을 곱하여 기 설정된 단위시간을 보정할 수 있다. 즉, 0.1초에 13/14를 곱한 시간이 보정된 단위시간으로 결정될 수 있다. 제2 시간을 보정된 단위시간으로 분할하는 경우 140개의 제2 좌표들이 생성될 수 있다. 또한, 문장 학습부(103)는, 제2 좌표들의 평균음정 대비 제1 좌표들의 평균음정의 비율을 제2 좌표들의 음정에 곱하여 제2 좌표들의 음정을 보정할 수 있다. 또한, 문장 학습부(103)는, 제1 좌표들의 음정들과 제2 좌표들의 보정된 음정들의 오차들에 기초하여 매칭도 점수를 산출할 수 있다. 오차들의 합이 상대적으로 작을수록 매칭도 점수가 높게 산출될 수 있다.

일 실시예에서, 문장 학습부(103)는, 학습영상에 포함된 문장재생구간들인 제1 문장재생구간들 중 기준영상에서 선별된 문장재생구간들 중 어느 하나와의 매칭도 점수가 기 설정된 기준점수 이상인 제1 문장재생구간들의 개수에 기초하여 매칭도를 산출할 수 있다. 일 실시예에서, 상기 개수가 상대적으로 많을수록 매칭도가 높게 산출될 수 있다.

또한, 영상 추천부(104)는, 복수의 학습영상들 중 기준영상과의 매칭도가 가장 높은 학습영상을 추천영상으로 결정한다(S550).

도 9는 도 1에 따른 서비스 제공 장치(100)의 하드웨어 구성을 예시적으로 나타낸 도면이다.

도 9를 참조하면, 서비스 제공 장치(100)는, 적어도 하나의 프로세서(110) 및 상기 적어도 하나의 프로세서(110)가 적어도 하나의 동작(operation)을 수행하도록 지시하는 명령어들(instructions)을 저장하는 메모리(memory)를 포함할 수 있다.

상기 적어도 하나의 동작은 전술한 서비스 제공 장치(100)의 구성부들(101~104)이나 기타 기능 또는 동작 방법을 포함할 수 있다.

여기서 적어도 하나의 프로세서(110)는 중앙 처리 장치(central processing unit, CPU), 그래픽 처리 장치(graphics processing unit, GPU), 또는 본 발명의 실시예들에 따른 방법들이 수행되는 전용의 프로세서를 의미할 수 있다. 메모리(120) 및 저장 장치(160) 각각은 휘발성 저장 매체 및 비휘발성 저장 매체 중에서 적어도 하나로 구성될 수 있다.

예를 들어, 메모리(120)는 읽기 전용 메모리(read only memory, ROM) 및 랜덤 액세스 메모리(random access memory, RAM) 중 하나일 수 있고, 저장 장치(160)는, 플래시메모리(flash-memory), 하드디스크 드라이브(HDD), 솔리드 스테이트 드라이브(SSD), 또는 각종 메모리 카드(예를 들어, micro SD 카드) 등일 수 있다.

또한, 장치(100)는, 무선 네트워크를 통해 통신을 수행하는 송수신 장치(transceiver)(130)를 포함할 수 있다. 또한, 장치(100)는 입력 인터페이스 장치(140), 출력 인터페이스 장치(150), 저장 장치(160) 등을 더 포함할 수 있다. 장치(100)에 포함된 각각의 구성 요소들은 버스(bus, 170)에 의해 연결되어 서로 통신을 수행할 수 있다.

장치(100)의 예를 들면, 통신 가능한 데스크탑 컴퓨터(desktop computer), 랩탑 컴퓨터(laptop computer), 노트북(notebook), 스마트폰(smart phone), 태블릿 PC(tablet PC), 모바일폰(mobile phone), 스마트 워치(smart watch), 스마트 글래스(smart glass), e-book 리더기, PMP(portable multimedia player), 휴대용 게임기, 네비게이션(navigation) 장치, 디지털 카메라(digital camera), DMB(digital multimedia broadcasting) 재생기, 디지털 음성 녹음기(digital audio recorder), 디지털 음성 재생기(digital audio player), 디지털 동영상 녹화기(digital video recorder), 디지털 동영상 재생기(digital video player), PDA(Personal Digital Assistant) 등일 수 있다.

본 발명에 따른 방법들은 다양한 컴퓨터 수단을 통해 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 본 발명을 위해 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터 판독 가능 매체의 예에는 롬(ROM), 램(RAM), 플래시 메모리(flash memory) 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 프로그램 명령의 예에는 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 적어도 하나의 소프트웨어 모듈로 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

또한, 상술한 방법 또는 장치는 그 구성이나 기능의 전부 또는 일부가 결합되어 구현되거나, 분리되어 구현될 수 있다.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims

외국어 학습 서비스를 제공하기 위한 장치로서,
단어학습모드 또는 문장학습모드의 선택에 대한 모드입력신호를 수신하고, 복수의 학습영상들 중 어느 하나의 학습영상에 선택에 대한 영상입력신호를 수신하는 영상 선택부;
상기 영상 선택부에 상기 단어학습모드를 선택한 상기 모드입력신호가 수신된 경우, 상기 영상입력신호에 따른 상기 학습영상과 대응하는 복수의 단어재생구간들 중 어느 하나의 단어재생구간의 선택에 대한 단어입력신호를 수신하고, 상기 학습영상 중 상기 단어입력신호에 따른 상기 단어재생구간과 대응하는 부분인 제1 단어학습영상을 재생하며, 상기 제1 단어학습영상에서 소리가 제거된 제2 단어학습영상을 재생하고, 상기 제2 단어학습영상이 재생되는 동안 수신된 사용자 음성에 기초하여 상기 단어재생구간에 대한 제1 평균평가점수를 산출하는 단어 학습부; 및
상기 영상 선택부에 상기 문장학습모드를 선택한 상기 모드입력신호가 수신된 경우, 상기 단어재생구간들과 대응하여 산출된 상기 제1 평균평가점수들에 기초하여 상기 문장학습모드의 수행여부를 결정하는 문장 학습부를 포함하고,
상기 문장 학습부는,
상기 단어재생구간들과 대응하는 상기 평균평가점수들의 평균값이 기 설정된 기준값 이상인 경우, 상기 영상입력신호에 따른 상기 학습영상과 대응하는 복수의 문장재생구간들 중 어느 하나의 문장재생구간의 선택에 대한 문장입력신호를 수신하고, 상기 학습영상 중 상기 문장입력신호에 따른 상기 문장재생구간과 대응하는 부분인 제1 문장학습영상을 재생하며, 상기 제1 문장학습영상에서 소리가 제거된 제2 문장학습영상을 재생하고, 상기 제2 문장학습영상이 재생되는 동안 수신된 사용자 음성에 기초하여 상기 문장재생구간에 대한 제2 평균평가점수를 산출하는,
장치.
제1항에 있어서,
상기 단어 학습부는,
데이터베이스에서 상기 단어재생구간에서 재생되는 단어, 상기 단어재생구간에서 재생되는 소리에 기초하여 생성된 제1 디지털신호, 상기 단어재생구간에서 재생되는 소리에 기초하여 생성된 제1 억양패턴그래프를 검색하고,
상기 사용자 음성을 기 학습된 번역모델에 입력하고 상기 번역모델로부터 상기 사용자 음성과 대응하는 텍스트를 획득하며, 상기 단어와 상기 텍스트를 비교하여 상기 사용자 음성에 대한 발음점수를 산출하고,
상기 사용자 음성의 시간에 따른 크기에 대한 아날로그신호를 생성하고, 상기 아날로그신호를 제2 디지털신호로 변환하며, 상기 제1 디지털신호 및 상기 제2 디지털신호를 비교하여 상기 사용자 음성에 대한 강세점수를 산출하며,
상기 사용자 음성의 주파수를 기 설정된 단위시간 간격으로 분류하고, 상기 단위시간 동안의 상기 주파수의 평균을 복수의 음정들과 대응하여 기 설정된 복수의 주파수범위들 중 어느 하나와 매칭하여 상기 사용자 음성의 상기 단위시간에 따른 상기 음정에 대한 제2 억양패턴그래프를 생성하며, 상기 제1 억양패턴그래프와 상기 제2 억양패턴그래프를 비교하여 상기 사용자 음성에 대한 억양점수를 산출하고,
상기 발음점수, 상기 강세점수 및 상기 억양점수의 평균값에 기초하여 평가점수를 산출하며, 상기 평가점수에 기초하여 상기 제1 평균평가점수를 산출하는,
장치.
삭제
제1항에 있어서,
상기 문장 학습부는,
데이터베이스에서 상기 문장재생구간에서 재생되는 문장, 상기 문장재생구간에서 재생되는 소리에 기초하여 생성된 제1 디지털신호, 상기 문장재생구간에서 재생되는 소리에 기초하여 생성된 제1 억양패턴그래프를 검색하고,
상기 사용자 음성을 기 학습된 번역모델에 입력하고 상기 번역모델로부터 상기 사용자 음성과 대응하는 텍스트를 획득하며, 상기 문장과 상기 텍스트를 비교하여 상기 사용자 음성에 대한 발음점수를 산출하고,
상기 사용자 음성의 시간에 따른 크기에 대한 아날로그신호를 생성하고, 상기 아날로그신호를 제2 디지털신호로 변환하며, 상기 제1 디지털신호 및 상기 제2 디지털신호를 비교하여 상기 사용자 음성에 대한 강세점수를 산출하며,
상기 사용자 음성의 주파수를 기 설정된 단위시간 간격으로 분류하고, 상기 단위시간 동안의 상기 주파수의 평균을 복수의 음정들과 대응하여 기 설정된 복수의 주파수범위들 중 어느 하나와 매칭하여 상기 사용자 음성의 상기 단위시간에 따른 상기 음정에 대한 제2 억양패턴그래프를 생성하며, 상기 제1 억양패턴그래프와 상기 제2 억양패턴그래프를 비교하여 상기 사용자 음성에 대한 억양점수를 산출하고,
상기 발음점수, 상기 강세점수 및 상기 억양점수의 평균값에 기초하여 평가점수를 산출하며, 상기 평가점수에 기초하여 상기 제2 평균평가점수를 산출하는,
장치.
제4항에 있어서,
상기 문장재생구간들과 대응하는 상기 제2 평균평가점수들 모두가 기 설정된 기준 평균평가점수 이상인 상기 학습영상을 학습영상추천을 위한 기준영상으로 결정하는 영상 추천부를 더 포함하고,
상기 영상 추천부는,
상기 기준영상의 상기 문장재생구간들 중 상기 강세점수가 기 설정된 기준 강세점수 이상인 상기 문장재생구간들을 선별하고,
상기 데이터베이스에서 선별된 상기 문장재생구간들에서 재생되는 복수의 문장들을 검색하며,
상기 문장들로부터 상기 문장들에 포함된 복수의 제1 단어들을 획득하고,
상기 데이터베이스에서 상기 학습영상들 각각에서 재생되는 복수의 제2 단어들을 검색하며,
상기 학습영상들 각각의 상기 제2 단어들과 상기 제1 단어들을 비교하여 상기 학습영상들 각각과 상기 기준영상 사이의 매칭도를 산출하고,
상기 학습영상들 중 상기 매칭도가 가장 높은 학습영상을 추천영상으로 결정하는,
장치.