KR100978223B1

KR100978223B1 - 어학학습 컨텐츠 생성방법

Info

Publication number: KR100978223B1
Application number: KR1020090119791A
Authority: KR
Inventors: 유대언
Original assignee: 윤여훈; 김건오
Priority date: 2009-12-04
Filing date: 2009-12-04
Publication date: 2010-08-26

Abstract

본 발명의 일실시예에 따른 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법은, 제1 언어로 구현되는 전자문서에 기록된 하나 이상의 문장이 포함하는 하나 이상의 단어 각각에 대하여 단어빈도(word　frequency)를 연산하는 단계; 상기 제1 언어로 구현되는 상기 하나 이상의 단어 각각에 대하여, 상기 각 단어가 상기 제1 언어에서 제2 언어로 번역된 번역단어를 생성하는 단계; 상기 하나 이상의 단어 각각에 대응하고 상기 제1 언어로 구현되는 예문을 생성하는 단계; 및 상기 하나 이상의 단어 각각에 대응하여 상기 생성된 상기 단어빈도, 상기 번역단어, 및 상기 예문을 포함하는 어학학습 컨텐츠를 생성하는 단계를 포함한다.

어학, 학습, 컨텐츠, n-gram, collocation, 사전

Description

어학학습 컨텐츠 생성방법{METHOD OF BUILDING EDUCATIONAL CONTENTS FOR FOREIGN LANGUAGES}

본 발명은 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법에 관한 것으로, 더욱 상세하게는 대규모의 전자문서가 포함하는 단어들에 대하여 단어의 빈도 정보, 엔그램(n-gram) 정보, 연어 정보, 단어의 난이도와 문장 길이를 고려한 예문을 포함하는 어학학습 컨텐츠를 생성함으로써, 기존의 어학 사전이나 단어장이 제공하고 못하고 있는 각종 어학정보를 과학적으로 제공할 수 있는 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법에 관한 것이다.

우리가 어학을 학습하는데 있어서, 도움을 주는 도구들은 여러 가지가 있다. 가장 많이 활용되는 것은 어학사전이다. 또한, 기존의 어학 학습 교재는 대부분 어학 사전이 제공하는 정보를 기초로 구성되어 있다. 하지만, 어학 사전이 어학 학습에 필요한 모든 정보를 제공하는 것은 아니다.

어학 사전이나 단어장이 갖는 가장 큰 문제는 모국어와 외국어 사이의 의미 단위 차이에 있다고 볼 수 있다. 예를 들어, “accost”라는 단어는 “다가가서 말을 걸다”라는 의미의 영어 단어인데, 우리 한국인은 “accost-다가가서 말을 걸다 ”라고 단어를 숙지할 경우, 영어 문장을 해석할 때는 “accost”를 “다가가서 말을 걸다”라고 의미를 알아낼 수 있다. 하지만, 한국인의 경우, “다가가서 말을 걸다”를 한 단어로 표현해본 경험이 없기 때문에, 영어로 “다가가서 말을 걸다”라는 말을 해야 할 상황이 되어서는 “다가가다-approach”와 “말을 걸다-have talk with”로 풀어서 이야기를 하게 된다. 이런 의미 단위의 차이를 극복하기 위해서는 “모국어(뜻)-외국어(단어)”로 구성된 어학 학습 자료가 필요하다.

어학 사전 및 단어장이 제공하는 정보는 모든 정보가 동등한 위치를 가지고 있다. 외국인이 어학 학습을 하는데 있어서, 어학 사전의 어떤 정보를 먼저 학습해야 하는지에 대한 정보는 전무하다. 어떤 단어가 더 중요한지, 그 단어가 얼마만큼 많이 사용되는지, 해당 단어의 어떤 뜻이 더 많이 사용되는지에 대해서는 그 어떤 정보도 제공하지 못하고 있다는 문제가 있다. 간혹 사전이 제공하는 ‘*’로 이루어진 중요도 정보는 어학 시험에 많이 나오는 기준으로 사전 편찬자들이 임의적으로 설정한 것이며, 전혀 과학적이지 못하다. 그리고 그 중요도의 기준도 애매모호하다.

어학 사전 및 단어장이 제공하는 정보는 해당 단어가 어떤 의미로 사용되는지가 나오지만, 그 단어를 어떻게 사용해야 하는지에 대한 용례는 없다. 예를 들면, “reduce”, “lessen”, “diminish”, “curtail”은 모두 한국어의 “줄이다”에 대응이 된다. 어학 사전이나 단어장은 각각의 단어의 뜻이 “줄이다”라는 한국말과 같다는 정보만을 제공한다. 하지만, 이 단어들이 어떻게 사용되는지에 대한 정보는 전무하다. “sentence(문장)”을 줄일 때는 “curtail”만을 써야 하고, “체중(weight)”를 줄일 때는, “lose(잃다)”를 써야 한다. 이렇듯, 각 단어의 용법은 주변에 어떤 단어들과 어떤 형태를 갖고 같이 나타나는지에 의해 결정된다. 어학 사전이나 단어장은 이런 단어들의 사용법을 예문을 통해 간접적으로 보여주고는 있지만, 예문은 실제 용례의 극소수에 지나지 않아 그 용법을 파악하기가 쉽지 않다. 따라서, 용법을 실제적으로 제공할 수 있는 방법이 필요하다. 단어의 용법은 n-gram, 연어 정보를 통해 직접적으로 파악할 수 있다.

어학 사전과 단어장이 제공하는 예문은 전체 사용자를 대상으로 하고 있으므로, 그 예문을 구성하는 단어들의 난이도를 고려하고 있지 못하다. 즉, 한 단어의 뜻을 알기 위해 어학 사전을 찾아보았는데, 그 어학 사전이 제공하는 예문을 통해 또 모르는 단어가 출현할 가능성이 크다는 것이다. 따라서, 예문을 구성하는 난이도를 고려하여 예문이 제공될 필요가 있다. 이 뿐만이 아니라, 어학 사전의 예문의 길이는 임의적이다. 이런 어학 사전의 예문 길이는 단어의 난이도에 따라 달라져야 한다. 단어의 난이도가 낮은 단어를 습득하려는 사람의 경우, 문장 이해도가 떨어지므로, 당연히 길이가 짧은 문장을 제공해야 하며, 고 난이도의 단어를 습득하려는 사람에게는 긴 문장을 예문으로 제공해야 한다.

본 발명은 상기와 같은 종래 기술을 개선하기 위해 안출된 것으로서, 대규모의 전자문서가 포함하는 단어들에 대하여 단어의 빈도 정보, 엔그램(n-gram) 정보, 연어 정보, 단어의 난이도와 문장 길이를 고려한 예문을 포함하는 어학학습 컨텐츠를 생성함으로써, 기존의 어학 사전이나 단어장이 제공하고 못하고 있는 각종 어학정보를 과학적으로 제공할 수 있는 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법을 제공하는 것을 목적으로 한다.

상기의 목적을 이루고 종래기술의 문제점을 해결하기 위하여, 본 발명의 일실시예에 따른 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법은, 제1 언어로 구현되는 전자문서에 기록된 하나 이상의 문장이 포함하는 하나 이상의 단어 각각에 대하여 단어빈도(word　frequency)를 연산하는 단계; 상기 제1 언어로 구현되는 상기 하나 이상의 단어 각각에 대하여, 상기 각 단어가 상기 제1 언어에서 제2 언어로 번역된 번역단어를 생성하는 단계; 상기 하나 이상의 단어 각각에 대응하고 상기 제1 언어로 구현되는 예문을 생성하는 단계; 및 상기 하나 이상의 단어 각각에 대응하여 상기 생성된 상기 단어빈도, 상기 번역단어, 및 상기 예문을 포함하는 어학학습 컨텐츠를 생성하는 단계를 포함한다.

본 발명의 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법에 따르면, 단 어의 빈도에 따른 난이도와 문장 길이를 고려한 예문을 각 단어에 대응하여 생성함으로써 학습자가 단어 별 수준학습을 수행할 수 있도록 하는 효과를 얻을 수 있다.

또한, 본 발명의 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법에 따르면, 단어 별 n-gram 정보를 발생확률과 함께 생성함으로써 학습자가 단어를 chunk 단위로 학습할 수 있도록 하는 효과를 얻을 수 있다.

또한, 본 발명의 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법에 따르면, 각 단어에 대응하는 연어 정보를 생성함으로써 각 단어가 한 문장 내에 어떠한 단어들과 필연적으로 같이 쓰이지는지를 학습자가 인지할 수 있도록 하는 효과를 얻을 수 있다.

또한, 본 발명의 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법에 따르면, 외국어에 대하여 번역된 모국어를 학습자에게 우선 노출시킴으로써, 학습 자가 의미 단위의 차이를 극복하고, 모국어 중심의 사고를 외국어로 빨리 전환할 수 있도록 하는 효과를 얻을 수 있다.

또한, 본 발명의 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법에 따르면, 단어의 빈도에 대한 정보를 통해 학습자가 해당 단어가 실제 얼마나 빈번하게 사용되고 있는지를 인지할 수 있도록 하는 효과를 얻을 수 있다.

또한, 본 발명의 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법에 따르면, 학습자가 어학학습을 하고자 하는 전자문서만으로도 상기 전자문서에 대한 맞춤식 어학교재를 보다 간편하게 생성할 수 있도록 하는 효과를 얻을 수 있다.

이하에서는 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명한다.

도 1은 본 발명의 일실시예에 따른 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법의 흐름을 도시한 순서도이다.

본 발명의 일실시예에 따르면, 상기 어학학습 컨텐츠 생성방법은 어학학습 컨텐츠 서버를 통해 구현될 수 있다. 상기 어학학습 컨텐츠 서버는 어학교재를 생성하는 업체의 전용서버로 구현될 수 있다. 또한, 상기 어학학습 컨텐츠 서버는 상기 어학학습 컨텐츠 생성방법에 대한 알고리즘을 포함하는 소프트웨어가 설치된 PC 등의 학습자 단말기를 통해 구현될 수도 있다. 이러한 경우, 학습자는 자신이 어학학습 컨텐츠를 생성하고자 하는 문서를 전자문서의 형태로 변환한 후 자신의 PC 등을 통해 본 발명에 따른 어학학습 컨텐츠를 직접 생성할 수도 있다.

본 발명의 일실시예에 따르면, 상기 어학학습 컨텐츠 서버는 제1 언어로 구현되는 전자문서에 기록된 하나 이상의 문장이 포함하는 하나 이상의 단어 각각에 대하여 단어빈도(word frequency)를 연산한다(단계(110)). 단계(110)의 단어빈도 연산에 대해서는 도 2를 참조하여 상세히 설명한다.

도 2는 본 발명의 일실시예에 따른 단어빈도 연산방법의 흐름을 도시한 순서도이다.

상기 어학학습 컨텐츠 서버는 상기 전자문서에 기록된 총 단어의 개수를 중복기재를 포함하여 연산한다(단계(211)). 즉, 상기 어학학습 컨텐츠 서버는 상기 전자문서에 기록된 단어의 총 개수를 특정단어가 중복하여 나타나더라도 별개의 단어로 인식하여 단어의 총 개수를 연산할 수 있다. 예를 들어, 전자문서에 "the"라 는 단어만 총 10번 기재되어 있는 경우, 상기 전자문서의 총 단어 개수를 10개로 연산할 수 있다.

상기 어학학습 컨텐츠 서버는 상기 하나 이상의 단어 중 제1 단어가 상기 전자문서에 중복되어 기록된 회수를 연산한다(단계(212)). 이후, 상기 어학학습 컨텐츠 서버는 상기 총 단어의 개수 및 상기 제1 단어의 중복기재회수를 통해 상기 제1 단어에 대한 단어빈도를 연산한다(단계(213)). 즉, 상기 어학학습 컨텐츠 서버는 상기 제1 단어의 중복기재회수를 상기 총 단어개수로 나누어 상기 제1 단어에 대한 단어빈도를 연산할 수 있다. 상기 어학학습 컨텐츠 서버는 상기 제1 단어뿐만 아니라, 상기 전자문서가 포함하는 중복기재를 제외한 모든 단어에 대하여 각각 단어빈도를 연산할 수 있다.

다시 도 1을 참조하면, 상기 어학학습 컨텐츠 서버는 상기 제1 언어로 구현되는 상기 하나 이상의 단어 각각에 대하여, 상기 각 단어가 상기 제1 언어에서 제2 언어로 번역된 번역단어를 생성한다(단계(120)).

즉, 상기 어학학습 컨텐츠 서버는 상기 제1 언어로 구현되는 하나 이상의 단어 및 상기 제2 언어로 구현되는 하나 이상의 단어가 각각 상대의 언어로 번역 가능하도록 매핑된 사전 데이터베이스를 유지하고, 상기 사전데이터베이스를 통해 상기 각 단어가 상기 제1 언어에서 상기 제2 언어로 번역된 상기 번역단어를 생성할 수 있다.

또한, 상기 어학학습 컨텐츠 서버는 상기 제1 언어로 구현되는 상기 각 단어를 포함하는 번역 인터페이스를 관리자에게 디스플레이하고, 상기 관리자로부터 상 기 번역 인터페이스를 통해 상기 각 단어가 상기 제2 언어로 번역된 번역단어를 입력받음으로써, 상기 각 단어가 상기 제1 언어에서 상기 제2 언어로 번역된 상기 번역단어를 생성할 수도 있다.

상기 어학학습 컨텐츠 서버는 상기 하나 이상의 단어 각각에 대한 하나 이상의 엔그램(n-gram) 정보를 생성한다(단계(130)). 상기 엔그램(n-gram) 정보의 생성에 대해서는 도 3을 참조하여 보다 상세히 설명한다.

도 3은 본 발명의 일실시예에 따른 단어에 대한 엔그램(n-gram) 정보 생성방법의 흐름을 도시한 순서도이다.

본 발명의 일실시예에 따르면, 상기 어학학습 컨텐츠 서버는 상기 전자문서에 기록된 하나 이상의 문장이 포함하는 하나 이상의 단어 각각에 품사(POS: Part Of Speech)를 태깅(Tagging)한다(단계(311)).

단계(311)에서, 상기 어학학습 컨텐츠 서버는 문장의 형태소(Morpheme)를 분석하여 상기 문장이 포함하는 각 단어의 품사를 태깅할 수 있다. 품사 태깅은 문장 내에서 단어가 사용된 문맥에 따라 각 단어에 올바른 품사 정보를 할당하는 과정을 의미한다. 품사 태깅은 일반적으로 어휘 모호성으로 인한 구문 분석 단계에서의 과다한 부담을 줄이기 위한 전처리 과정으로 사용될 수 있다.

품사 태깅 방법으로는 자연어 처리 분야에서 일반적으로 사용되고 있는 규칙 기반 품사 태깅 방법 및 통계 기반 품사 태깅 방법이 있다. 통계 기반 접근 방법은 실세계 자연어 용례들과 부속 정보를 포함하는 대량의 원시(raw) 또는 태깅된(tagged) 말뭉치(corpus)를 분석하고, 자연어에 대한 통계 정보를 추출하여 얻은 확률(probability) 또는 불확실성(uncertainty)을 이용하여 어휘적 모호성 문제를 확률적으로 해결하는 방법을 의미한다.

한편, 규칙 기반 접근 방법은 품사 태깅에 적용되는 공통적인 원리나 결정적인 규칙을 찾아내고, 이를 이용하여 어휘적 모호성을 결정적으로 해결하는 방법을 의미한다. 상기 어학학습 컨텐츠 서버는 상기 규칙 기반 접근 방법 및 통계 기반 접근 방법과 당업계에서 사용될 수 있는 품사 태깅 방법을 모두 포함하여 상기 품사를 태깅할 수 있다.

상기 어학학습 컨텐츠 서버는 상기 각 단어에 태깅된 품사를 이용하여, 상기 하나 이상의 단어 각각에 대한 하나 이상의 엔그램(n-gram)을 상기 전자문서로부터 독출한다(단계(312)). 상기 어학학습 컨텐츠 서버는 상기 독출된 상기 엔그램(n-gram)의 총 개수를 중복기재를 포함하여 연산한다(단계(313)).

상기 어학학습 컨텐츠 서버는 상기 각 엔그램(n-gram)이 상기 전자문서에 중복되어 기재된 회수를 연산한다(단계(314)). 상기 어학학습 컨텐츠 서버는 상기 엔그램(n-gram)의 총 개수 및 상기 각 엔그램(n-gram)의 중복기재회수를 통해 상기 각 엔그램(n-gram)에 대한 발생확률을 연산한다(단계(315)). 상기 어학학습 컨텐츠 서버는 상기 각 엔그렘의 중복기재회수를 상기 엔그램의 총 개수로 나눈값을 통해 상기 각 엔그램에 대한 발생확률을 연산할 수 있다.

상기 어학학습 컨텐츠 서버는 상기 하나 이상의 엔그램(n-gram) 및 상기 각 엔그램(n-gram)에 대응하는 발생확률을 포함하는 엔그램(n-gram) 정보를 생성한다(단계(316)).

다시 도 1을 참조하면, 상기 어학학습 컨텐츠 서버는 상기 하나 이상의 단어 각각에 대한 하나 이상의 연어(collocation) 정보를 생성한다(단계(140)). 상기 연어 정보의 생성방법에 대해서는 도 4를 참조하여 보다 상세히 설명한다.

도 4는 본 발명의 일실시예에 따른 연어 정보 생성방법의 흐름을 도시한 순서도이다.

본 발명의 일실시예에 따르면, 상기 어학학습 컨텐츠 서버는 상기 전자문서에서 제1 단어에 대응하여 출현한 하나 이상의 서브단어를 독출한다(단계(411)). 상기 어학학습 컨텐츠 서버는 상기 제1 단어에 대응하여 독출한 상기 서브단어의 총 개수를 중복기재를 포함하여 연산한다(단계(412)).

상기 어학학습 컨텐츠 서버는 상기 하나 이상의 서브단어 중 제1 서브단어가 상기 제1 단어에 대응하여 출현한 회수를 연산한다(단계(413)). 상기 어학학습 컨텐츠 서버는 상기 서브단어의 총 개수 및 상기 제1 서브단어의 출현회수를 통해 상기 제1 단어에 대한 상기 제1 서브단어의 공기확률을 연산한다(단계(414)). 상기 어학학습 컨텐츠 서버는 상기 제1 서브단어의 출현회수를 상기 서브단어의 총 개수로 나눈값을 통해 상기 제1 서브단어의 공기확률을 연산할 수 있다.

상기 어학학습 컨텐츠 서버는 상기 제1 서브단어 및 상기 제1 서브단어의 공기확률을 포함하는 상기 제1 단어에 대한 연어 정보를 생성한다(단계(415)).

또한, 본 발명의 다른 실시예에 따르면, 상기 어학학습 컨텐츠 서버는 하나 이상의 단어 및 상기 각 언어에 대응하는 하나 이상의 서브단어가 서로 대응하여 연어(collocation)가 된 하나 이상의 어구가 기록된 연어 데이터베이스를 유지하고, 상기 연어 데이터베이스를 통해 상기 연어 정보를 생성할 수도 있다.

다시 도 1을 참조하면, 상기 어학학습 컨텐츠 서버는 상기 하나 이상의 단어 각각에 대응하고 상기 제1 언어로 구현되는 예문을 생성한다(단계(150)). 상기 예문생성방법에 대해서는 도 5를 참조하여 보다 상세히 설명한다.

도 5는 본 발명의 일실시예에 따른 예문생성방법의 흐름을 도시한 순서도이다.

본 발명의 일실시예에 따르면, 상기 어학학습 컨텐츠 서버는 상기 하나 이상의 단어 중 제1 단어가 포함된 하나 이상의 문장을 상기 전자문서로부터 독출한다(단계(511)). 상기 어학학습 컨텐츠 서버는 상기 독출한 상기 각 문장이 포함하는 각 단어의 단어빈도가 제 1단어의 단어 빈도와 비슷한 수준으로 등장하도록 평균과 분산의 확률분포 곡선을 이용하여 문장을 구성하는 단어마다 가중치를 연산한다(단계(512)).

상기 어학학습 컨텐츠 서버는 상기 하나 이상의 문장 중, 상기 제1 단어의 단어빈도에 대하여 선정된(predetermined) 범위의 빈도를 갖는 단어들로만 구성된 하나 이상의 문장을 선택한다(단계(513)). 예를 들어, 상기 제1 단어의 단어빈도가 0.5인 경우, 상기 어학학습 컨텐츠 서버는 단어빈도가 0.4 내지 0.6의 범위 내에 속하는 단어들로만 이루어진 하나 이상의 문장을 선택할 수 있다.

상기 어학학습 컨텐츠 서버는 상기 선택된 상기 하나 이상의 문장을 문장 길이에 따라 소팅(sorting)하고, 상기 제1 단어의 단어빈도가 고빈도인 경우 상기 소팅된 상기 하나 이상의 문장 중 길이가 짧은 범위에 속하는 하나 이상의 문장을 선 택하며, 상기 제1 단어의 단어빈도가 저빈도인 경우 상기 소팅된 상기 하나 이상의 문장 중 길이가 긴 범위에 속하는 하나 이상의 문장을 선택한다(단계(514)). 즉, 상기 어학학습 컨텐츠 서버는 상기 제1 단어의 단어빈도가 고빈도인 경우, 상기 제1 단어를 난이도가 낮은 쉬운 단어로 판단하여 학습자의 학습수준을 고려한 짧은 길이의 문장을 예문으로 선택할 수 있다. 또한, 상기 어학학습 컨텐츠 서버는 상기 제1 단어의 단어빈도가 저빈도인 경우, 상기 난이도가 높은 어려운 단어로 판단하여 학습자의 학습수준을 고려한 긴 길이의 문장을 예문으로 선택할 수 있다.

상기 어학학습 컨텐츠 서버는 상기 선택한 상기 하나 이상의 문장을 통해 상기 제1 단어에 대응하는 예문을 생성한다(단계(515)).

또한, 본 발명의 다른 실시예에 따르면, 상기 어학학습 컨텐츠 서버는 상기 전자문서에 기록된 하나 이상의 문장이 포함하는 상기 하나 이상의 단어 각각에 품사(POS: Part Of Speech)를 태깅(Tagging)하고, 상기 하나 이상의 단어 중 제1 단어에의 단어빈도에 대하여 선정된 범위 내의 단어빈도를 갖는 하나 이상의 단어를 선택하며, 상기 선택된 하나 이상의 단어의 각 품사 태깅 및 상기 제1 단어의 품사 태깅을 이용하여 하나 이상의 예문을 생성할 수 있다.

예를 들어, 상기 어학학습 컨텐츠 서버는 제1 언어가 영어이고 상기 제1 단어의 품사가 타동사이며 단어빈도가 0.5 인 경우, 대명사 중 단어빈도가 0.4 내지 0.6의 범위에 속하는 대명사를 주어로 선택하고, 명사 중 단어빈도가 0.4 내지 0.6의 범위에 속하는 명사를 목적으로 선택하여, 상기 제1 단어가 포함되는 3형식의 문장을 예문으로 생성할 수 있다.

또한, 상기 어학학습 컨텐츠 서버는 사용자의 수준을 고려하여 문장의 길이를 조절할 수 있다. 즉, 고빈도 어휘에 대해서는 문장 파악력이 약한 사용자를 위하여 길이가 짧은 문장을 선택할 수 있고, 저빈도 어휘에 대해서는 문장 파악력이 강한 사용자를 위하여 길이가 긴 문장을 선택할 수 있다. 또한, 주어진 전자화된 말뭉치에 제1 단어가 나타나는 모든 문장에 대하여 평균 문장 길이를 계산하고, 길이가 짧은 문장은 평균 문장 길이보다 짧게, 길이가 긴 문장은 평균 문장 길이보다 길게 할 수 있다.

다시 도 1을 참조하면, 상기 어학학습 컨텐츠 서버는 상기 하나 이상의 단어 각각에 대응하여 상기 생성된 상기 단어빈도, 상기 번역단어, 상기 엔그램 정보, 상기 연어 정보, 및 상기 예문을 포함하는 어학학습 컨텐츠를 생성한다(단계(160).

도 6은 본 발명의 일실시예에 따라 생성된 어학학습 컨텐츠의 일례를 도시한 도면이다.

본 발명의 일실시예에 따라 생성된 어학학습 컨텐츠는 도 6에 도시된 바와 같이, 단어빈도, 번역단어, 단어, 예문, 엔그램(n-gram), 연어 등의 정보를 포함할 수 있다. 예를 들어, "the"라는 단어에 대응하여, "0.045976"이라는 단어빈도 정보가 상기 어학학습 컨텐츠에 기록될 수 있다. 또한, "the"라는 단어에 대응하여, "정관사) 그, 한정적으로 사용"이라는 번역단어 정보가 기록될 수 있고, "This is the world. The number of students is up to 90."라는 예문이 기록될 수 있으며, "of the(13%) in the(12%) to the(11%) on the(10%) for the(9%) and the(8%) with the(7%)"라는 2gram 정보가 기록될 수 있다. 이외에도 "the"라는 단어에 대응하여, 도 6에 도시된 바와 같이, 3gram 정보, 4gram 정보, 5gram 정보가 엔그램 정보로 각각 더 기록될 수 있다.

또한, "the"라는 단어에 대응하여, "same(10%) government(8%) first(7%) most(6%) USA(5%) House(4%) UK(3%) best(2%) next(1%) Minister(0.1%) world(0.01%)"가 연어 정보로 기록될 수 있다.

또한, 본 발명의 일실시예에 따르면, 상기 어학학습 컨텐츠는 상기 제2 언어로 번역된 번역단어가 상기 제1 언어의 단어보다 우선하여 사용자에게 노출되도록 구현될 수 있다. 즉, 도 6에 도시된 바와 같이, 학습자의 모국어가 제1 언어이고 외국어가 제2 언어인 경우, 상기 제1 언어의 단어가 번역된 제2 언어의 번역단어가 상기 학습자에게 먼저 노출되도록 상기 어학학습 컨텐츠의 내용이 구성될 수 있다.

본 발명에 따른 어학학습 컨텐츠 생성방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.

도 1은 본 발명의 일실시예에 따른 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법의 흐름을 도시한 순서도.

도 2는 본 발명의 일실시예에 따른 단어빈도 연산방법의 흐름을 도시한 순서도.

도 3은 본 발명의 일실시예에 따른 단어에 대한 엔그램(n-gram) 정보 생성방법의 흐름을 도시한 순서도.

도 4는 본 발명의 일실시예에 따른 연어정보 생성방법의 흐름을 도시한 순서도.

도 5는 본 발명의 일실시예에 따른 예문생성방법의 흐름을 도시한 순서도.

도 6은 본 발명의 일실시예에 따라 생성된 어학학습 컨텐츠의 일례를 도시한 도면.

<도면의 주요 부분에 대한 부호의 설명>

단계(110): 단어빈도 연산단계

단계(120): 번역단어 생성단계

단계(130): 엔그램 정보 생성단계

단계(140): 연어 정보 생성단계

단계(150): 예문생성 단계

단계(160: 어학학습 컨텐츠 생성단계

Claims

어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법에 있어서,

상기 어학학습 컨텐츠 서버가 제1 언어로 구현되는 전자문서에 기록된 하나 이상의 문장이 포함하는 하나 이상의 단어 각각에 대하여 단어빈도(word　frequency)를 연산하는 단계;

상기 어학학습 컨텐츠 서버가 상기 하나 이상의 단어 각각에 대응하고 상기 제1 언어로 구현되는 예문을 생성하는 단계;

상기 어학학습 컨텐츠 서버가 상기 하나 이상의 단어 각각에 대한 하나 이상의 엔그램(n-gram) 정보를 생성하는 단계; 및

상기 어학학습 컨텐츠 서버가 상기 하나 이상의 단어 각각에 대응하여 상기 생성된 상기 단어빈도, 상기 예문, 및 상기 엔그램 정보를 포함하는 어학학습 컨텐츠를 생성하는 단계

를 포함하는 것을 특징으로 하는 어학학습 컨텐츠 서버의 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법.
제1항에 있어서,

상기 어학학습 컨텐츠 서버가 제1 언어로 구현되는 전자문서에 기록된 하나 이상의 문장이 포함하는 하나 이상의 단어 각각에 대하여 단어빈도(word　frequency)를 연산하는 단계는,

상기 어학학습 컨텐츠 서버가 상기 전자문서에 기록된 총 단어의 개수를 중복기재를 포함하여 연산하는 단계;

상기 어학학습 컨텐츠 서버가 상기 하나 이상의 단어 중 제1 단어가 상기 전자문서에 중복되어 기록된 회수를 연산하는 단계; 및

상기 어학학습 컨텐츠 서버가 상기 총 단어의 개수 및 상기 제1 단어의 중복기재회수를 통해 상기 제1 단어에 대한 단어빈도를 연산하는 단계

를 포함하는 것을 특징으로 하는 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법.
제1항에 있어서,

상기 어학학습 컨텐츠 서버가 제1 언어로 구현되는 하나 이상의 단어 및 제2 언어로 구현되는 하나 이상의 단어가 각각 상대의 언어로 번역 가능하도록 매핑된 사전 데이터베이스를 유지하는 단계;

상기 어학학습 컨텐츠 서버가 상기 사전데이터베이스를 통해 상기 각 단어가 상기 제1 언어에서 상기 제2 언어로 번역된 번역단어를 생성하는 단계; 및

상기 어학학습 컨텐츠 서버가 상기 어학학습 컨텐츠가 상기 각 단어가 상기 제1 언어에서 제2 언어로 번역된 번역단어를 포함하도록 상기 어학학습 컨텐츠를 갱신하는 단계

를 더 포함하는 것을 특징으로 하는 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법.
제1항에 있어서,

상기 어학학습 컨텐츠 서버가 제1 언어로 구현되는 상기 각 단어를 포함하는 번역 인터페이스를 관리자에게 디스플레이하는 단계;

상기 어학학습 컨텐츠 서버가 상기 관리자로부터 상기 각 단어가 제2 언어로 번역된 번역단어를 입력받아, 상기 각 단어가 상기 제1 언어에서 상기 제2 언어로 번역된 번역단어를 생성하는 단계; 및

상기 어학학습 컨텐츠 서버가 상기 어학학습 컨텐츠가 상기 각 단어가 상기 제1 언어에서 제2 언어로 번역된 번역단어를 포함하도록 상기 어학학습 컨텐츠를 갱신하는 단계

를 더 포함하는 것을 특징으로 하는 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법.
삭제
제1항에 있어서,

상기 어학학습 컨텐츠 서버가 상기 하나 이상의 단어 각각에 대한 하나 이상의 엔그램(n-gram) 정보를 생성하는 단계는,

상기 어학학습 컨텐츠 서버가 상기 전자문서에 기록된 하나 이상의 문장이 포함하는 하나 이상의 단어 각각에 품사(POS: Part Of Speech)를 태깅(Tagging)하는 단계;

상기 어학학습 컨텐츠 서버가 상기 각 단어에 태깅된 품사를 이용하여, 상기 하나 이상의 단어 각각에 대한 하나 이상의 엔그램(n-gram)을 상기 전자문서로부터 독출하는 단계;

상기 어학학습 컨텐츠 서버가 상기 독출된 상기 엔그램(n-gram)의 총 개수를 중복기재를 포함하여 연산하는 단계;

상기 어학학습 컨텐츠 서버가 상기 각 엔그램(n-gram)이 상기 전자문서에 중복되어 기재된 회수를 연산하는 단계;

상기 어학학습 컨텐츠 서버가 상기 엔그램(n-gram)의 총 개수 및 상기 각 엔그램(n-gram)의 중복기재회수를 통해 상기 각 엔그램(n-gram)에 대한 발생확률을 연산하는 단계; 및

상기 어학학습 컨텐츠 서버가 상기 하나 이상의 엔그램(n-gram) 및 상기 각 엔그램(n-gram)에 대응하는 발생확률을 포함하는 엔그램(n-gram) 정보를 생성하는 단계

를 포함하는 것을 특징으로 하는 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법.
제1항에 있어서,

상기 어학학습 컨텐츠 서버가 상기 하나 이상의 단어 각각에 대한 하나 이상의 연어(collocation) 정보를 생성하는 단계; 및

상기 어학학습 컨텐츠 서버가 상기 어학학습 컨텐츠가 상기 하나 이상의 연어 정보를 포함하도록 상기 어학학습 컨텐츠를 갱신하는 단계

를 더 포함하는 것을 특징으로 하는 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법.
제7항에 있어서,

상기 어학학습 컨텐츠 서버가 상기 하나 이상의 단어 각각에 대한 하나 이상의 연어(collocation) 정보를 생성하는 단계는,

상기 어학학습 컨텐츠 서버가 상기 전자문서에서 제1 단어에 대응하여 출현하는 하나 이상의 서브단어를 독출하는 단계;

상기 어학학습 컨텐츠 서버가 상기 제1 단어에 대응하여 독출한 상기 서브단어의 총 개수를 중복기재를 포함하여 연산하는 단계;

상기 어학학습 컨텐츠 서버가 상기 하나 이상의 서브단어 중 제1 서브단어가 상기 제1 단어에 대응하여 출현한 회수를 연산하는 단계

상기 어학학습 컨텐츠 서버가 상기 서브단어의 총 개수 및 상기 제1 서브단어의 출현회수를 통해 상기 제1 단어에 대한 상기 제1 서브단어의 공기확률을 연산하는 단계; 및

상기 어학학습 컨텐츠 서버가 상기 제1 서브단어 및 상기 제1 서브단어의 공기확률을 포함하는 상기 제1 단어에 대한 연어 정보를 생성하는 단계

를 포함하는 것을 특징으로 하는 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법.
제7항에 있어서,

상기 어학학습 컨텐츠 서버가 상기 하나 이상의 단어 각각에 대한 하나 이상의 연어(collocation) 정보를 생성하는 단계는,

상기 어학학습 컨텐츠 서버가 하나 이상의 단어 및 상기 각 언어에 대응하는 하나 이상의 서브단어가 서로 대응하여 출현(collocation)한 하나 이상의 어구가 기록된 연어 데이터베이스를 유지하는 단계; 및

상기 어학학습 컨텐츠 서버가 상기 연어 데이터베이스를 통해 상기 연어 정보를 생성하는 단계

를 포함하는 것을 특징으로 하는 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법.
제1항에 있어서,

상기 어학학습 컨텐츠 서버가 상기 하나 이상의 단어 각각에 대응하고 상기 제1 언어로 구현되는 예문을 생성하는 단계는,

상기 어학학습 컨텐츠 서버가 상기 하나 이상의 단어 중 제1 단어가 포함된 하나 이상의 문장을 상기 전자문서로부터 독출하는 단계;

상기 어학학습 컨텐츠 서버가 상기 독출한 상기 각 문장이 포함하는 각 단어의 단어빈도에 대한 가중치 연산을 통해 상기 각 문장의 단어빈도를 유지하는 단계;

상기 어학학습 컨텐츠 서버가 상기 하나 이상의 문장 중, 상기 제1 단어의 단어빈도에 대하여 선정된(predetermined) 범위 내의 단어빈도를 갖는 단어로만 구성된 하나 이상의 문장을 선택하는 단계;

상기 어학학습 컨텐츠 서버가 상기 선택된 상기 하나 이상의 문장을 문장 길이에 따라 소팅(sorting)하고, 상기 제1 단어의 단어빈도가 고빈도인 경우 상기 소팅된 상기 하나 이상의 문장 중 길이가 짧은 범위에 속하는 하나 이상의 문장을 선택하며, 상기 제1 단어의 단어빈도가 저빈도인 경우 상기 소팅된 상기 하나 이상의 문장 중 길이가 긴 범위에 속하는 하나 이상의 문장을 선택하는 단계; 및

상기 어학학습 컨텐츠 서버가 상기 선택한 상기 하나 이상의 문장을 통해 상기 제1 단어에 대응하는 예문을 생성하는 단계

를 포함하는 것을 특징으로 하는 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법.
제1항에 있어서,

상기 어학학습 컨텐츠 서버가 상기 하나 이상의 단어 각각에 대응하고 상기 제1 언어로 구현되는 예문을 생성하는 단계는,

상기 어학학습 컨텐츠 서버가 상기 전자문서에 기록된 하나 이상의 문장이 포함하는 상기 하나 이상의 단어 각각에 품사(POS: Part Of Speech)를 태깅(Tagging)하는 단계;

상기 어학학습 컨텐츠 서버가 상기 하나 이상의 단어 중 제1 단어에의 단어빈도에 대하여 선정된 범위 내의 단어빈도를 갖는 하나 이상의 단어를 선택하는 단계; 및

상기 어학학습 컨텐츠 서버가 상기 선택된 하나 이상의 단어의 각 품사 태깅 및 상기 제1 단어의 품사 태깅을 이용하여 하나 이상의 예문을 생성하는 단계

를 포함하는 것을 특징으로 하는 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법.
제3항 및 제4항 중 어느 한 항에 있어서,

상기 어학학습 컨텐츠는 상기 제2 언어로 번역된 번역단어가 상기 제1 언어의 단어보다 우선하여 사용자에게 노출되도록 구현되는 것을 특징으로 하는 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법.
제1항 내지 제4항과, 제6항 내지 제11항 중 어느 한 항의 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.