KR100978223B1 - 어학학습 컨텐츠 생성방법 - Google Patents

어학학습 컨텐츠 생성방법 Download PDF

Info

Publication number
KR100978223B1
KR100978223B1 KR1020090119791A KR20090119791A KR100978223B1 KR 100978223 B1 KR100978223 B1 KR 100978223B1 KR 1020090119791 A KR1020090119791 A KR 1020090119791A KR 20090119791 A KR20090119791 A KR 20090119791A KR 100978223 B1 KR100978223 B1 KR 100978223B1
Authority
KR
South Korea
Prior art keywords
learning content
language learning
word
content server
language
Prior art date
Application number
KR1020090119791A
Other languages
English (en)
Inventor
유대언
Original Assignee
윤여훈
김건오
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 윤여훈, 김건오 filed Critical 윤여훈
Priority to KR1020090119791A priority Critical patent/KR100978223B1/ko
Application granted granted Critical
Publication of KR100978223B1 publication Critical patent/KR100978223B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

본 발명의 일실시예에 따른 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법은, 제1 언어로 구현되는 전자문서에 기록된 하나 이상의 문장이 포함하는 하나 이상의 단어 각각에 대하여 단어빈도(word frequency)를 연산하는 단계; 상기 제1 언어로 구현되는 상기 하나 이상의 단어 각각에 대하여, 상기 각 단어가 상기 제1 언어에서 제2 언어로 번역된 번역단어를 생성하는 단계; 상기 하나 이상의 단어 각각에 대응하고 상기 제1 언어로 구현되는 예문을 생성하는 단계; 및 상기 하나 이상의 단어 각각에 대응하여 상기 생성된 상기 단어빈도, 상기 번역단어, 및 상기 예문을 포함하는 어학학습 컨텐츠를 생성하는 단계를 포함한다.
어학, 학습, 컨텐츠, n-gram, collocation, 사전

Description

어학학습 컨텐츠 생성방법{METHOD OF BUILDING EDUCATIONAL CONTENTS FOR FOREIGN LANGUAGES}
본 발명은 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법에 관한 것으로, 더욱 상세하게는 대규모의 전자문서가 포함하는 단어들에 대하여 단어의 빈도 정보, 엔그램(n-gram) 정보, 연어 정보, 단어의 난이도와 문장 길이를 고려한 예문을 포함하는 어학학습 컨텐츠를 생성함으로써, 기존의 어학 사전이나 단어장이 제공하고 못하고 있는 각종 어학정보를 과학적으로 제공할 수 있는 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법에 관한 것이다.
우리가 어학을 학습하는데 있어서, 도움을 주는 도구들은 여러 가지가 있다. 가장 많이 활용되는 것은 어학사전이다. 또한, 기존의 어학 학습 교재는 대부분 어학 사전이 제공하는 정보를 기초로 구성되어 있다. 하지만, 어학 사전이 어학 학습에 필요한 모든 정보를 제공하는 것은 아니다.
어학 사전이나 단어장이 갖는 가장 큰 문제는 모국어와 외국어 사이의 의미 단위 차이에 있다고 볼 수 있다. 예를 들어, “accost”라는 단어는 “다가가서 말을 걸다”라는 의미의 영어 단어인데, 우리 한국인은 “accost-다가가서 말을 걸다 ”라고 단어를 숙지할 경우, 영어 문장을 해석할 때는 “accost”를 “다가가서 말을 걸다”라고 의미를 알아낼 수 있다. 하지만, 한국인의 경우, “다가가서 말을 걸다”를 한 단어로 표현해본 경험이 없기 때문에, 영어로 “다가가서 말을 걸다”라는 말을 해야 할 상황이 되어서는 “다가가다-approach”와 “말을 걸다-have talk with”로 풀어서 이야기를 하게 된다. 이런 의미 단위의 차이를 극복하기 위해서는 “모국어(뜻)-외국어(단어)”로 구성된 어학 학습 자료가 필요하다.
어학 사전 및 단어장이 제공하는 정보는 모든 정보가 동등한 위치를 가지고 있다. 외국인이 어학 학습을 하는데 있어서, 어학 사전의 어떤 정보를 먼저 학습해야 하는지에 대한 정보는 전무하다. 어떤 단어가 더 중요한지, 그 단어가 얼마만큼 많이 사용되는지, 해당 단어의 어떤 뜻이 더 많이 사용되는지에 대해서는 그 어떤 정보도 제공하지 못하고 있다는 문제가 있다. 간혹 사전이 제공하는 ‘*’로 이루어진 중요도 정보는 어학 시험에 많이 나오는 기준으로 사전 편찬자들이 임의적으로 설정한 것이며, 전혀 과학적이지 못하다. 그리고 그 중요도의 기준도 애매모호하다.
어학 사전 및 단어장이 제공하는 정보는 해당 단어가 어떤 의미로 사용되는지가 나오지만, 그 단어를 어떻게 사용해야 하는지에 대한 용례는 없다. 예를 들면, “reduce”, “lessen”, “diminish”, “curtail”은 모두 한국어의 “줄이다”에 대응이 된다. 어학 사전이나 단어장은 각각의 단어의 뜻이 “줄이다”라는 한국말과 같다는 정보만을 제공한다. 하지만, 이 단어들이 어떻게 사용되는지에 대한 정보는 전무하다. “sentence(문장)”을 줄일 때는 “curtail”만을 써야 하고, “체중(weight)”를 줄일 때는, “lose(잃다)”를 써야 한다. 이렇듯, 각 단어의 용법은 주변에 어떤 단어들과 어떤 형태를 갖고 같이 나타나는지에 의해 결정된다. 어학 사전이나 단어장은 이런 단어들의 사용법을 예문을 통해 간접적으로 보여주고는 있지만, 예문은 실제 용례의 극소수에 지나지 않아 그 용법을 파악하기가 쉽지 않다. 따라서, 용법을 실제적으로 제공할 수 있는 방법이 필요하다. 단어의 용법은 n-gram, 연어 정보를 통해 직접적으로 파악할 수 있다.
어학 사전과 단어장이 제공하는 예문은 전체 사용자를 대상으로 하고 있으므로, 그 예문을 구성하는 단어들의 난이도를 고려하고 있지 못하다. 즉, 한 단어의 뜻을 알기 위해 어학 사전을 찾아보았는데, 그 어학 사전이 제공하는 예문을 통해 또 모르는 단어가 출현할 가능성이 크다는 것이다. 따라서, 예문을 구성하는 난이도를 고려하여 예문이 제공될 필요가 있다. 이 뿐만이 아니라, 어학 사전의 예문의 길이는 임의적이다. 이런 어학 사전의 예문 길이는 단어의 난이도에 따라 달라져야 한다. 단어의 난이도가 낮은 단어를 습득하려는 사람의 경우, 문장 이해도가 떨어지므로, 당연히 길이가 짧은 문장을 제공해야 하며, 고 난이도의 단어를 습득하려는 사람에게는 긴 문장을 예문으로 제공해야 한다.
본 발명은 상기와 같은 종래 기술을 개선하기 위해 안출된 것으로서, 대규모의 전자문서가 포함하는 단어들에 대하여 단어의 빈도 정보, 엔그램(n-gram) 정보, 연어 정보, 단어의 난이도와 문장 길이를 고려한 예문을 포함하는 어학학습 컨텐츠를 생성함으로써, 기존의 어학 사전이나 단어장이 제공하고 못하고 있는 각종 어학정보를 과학적으로 제공할 수 있는 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법을 제공하는 것을 목적으로 한다.
상기의 목적을 이루고 종래기술의 문제점을 해결하기 위하여, 본 발명의 일실시예에 따른 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법은, 제1 언어로 구현되는 전자문서에 기록된 하나 이상의 문장이 포함하는 하나 이상의 단어 각각에 대하여 단어빈도(word frequency)를 연산하는 단계; 상기 제1 언어로 구현되는 상기 하나 이상의 단어 각각에 대하여, 상기 각 단어가 상기 제1 언어에서 제2 언어로 번역된 번역단어를 생성하는 단계; 상기 하나 이상의 단어 각각에 대응하고 상기 제1 언어로 구현되는 예문을 생성하는 단계; 및 상기 하나 이상의 단어 각각에 대응하여 상기 생성된 상기 단어빈도, 상기 번역단어, 및 상기 예문을 포함하는 어학학습 컨텐츠를 생성하는 단계를 포함한다.
본 발명의 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법에 따르면, 단 어의 빈도에 따른 난이도와 문장 길이를 고려한 예문을 각 단어에 대응하여 생성함으로써 학습자가 단어 별 수준학습을 수행할 수 있도록 하는 효과를 얻을 수 있다.
또한, 본 발명의 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법에 따르면, 단어 별 n-gram 정보를 발생확률과 함께 생성함으로써 학습자가 단어를 chunk 단위로 학습할 수 있도록 하는 효과를 얻을 수 있다.
또한, 본 발명의 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법에 따르면, 각 단어에 대응하는 연어 정보를 생성함으로써 각 단어가 한 문장 내에 어떠한 단어들과 필연적으로 같이 쓰이지는지를 학습자가 인지할 수 있도록 하는 효과를 얻을 수 있다.
또한, 본 발명의 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법에 따르면, 외국어에 대하여 번역된 모국어를 학습자에게 우선 노출시킴으로써, 학습 자가 의미 단위의 차이를 극복하고, 모국어 중심의 사고를 외국어로 빨리 전환할 수 있도록 하는 효과를 얻을 수 있다.
또한, 본 발명의 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법에 따르면, 단어의 빈도에 대한 정보를 통해 학습자가 해당 단어가 실제 얼마나 빈번하게 사용되고 있는지를 인지할 수 있도록 하는 효과를 얻을 수 있다.
또한, 본 발명의 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법에 따르면, 학습자가 어학학습을 하고자 하는 전자문서만으로도 상기 전자문서에 대한 맞춤식 어학교재를 보다 간편하게 생성할 수 있도록 하는 효과를 얻을 수 있다.
이하에서는 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명한다.
도 1은 본 발명의 일실시예에 따른 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법의 흐름을 도시한 순서도이다.
본 발명의 일실시예에 따르면, 상기 어학학습 컨텐츠 생성방법은 어학학습 컨텐츠 서버를 통해 구현될 수 있다. 상기 어학학습 컨텐츠 서버는 어학교재를 생성하는 업체의 전용서버로 구현될 수 있다. 또한, 상기 어학학습 컨텐츠 서버는 상기 어학학습 컨텐츠 생성방법에 대한 알고리즘을 포함하는 소프트웨어가 설치된 PC 등의 학습자 단말기를 통해 구현될 수도 있다. 이러한 경우, 학습자는 자신이 어학학습 컨텐츠를 생성하고자 하는 문서를 전자문서의 형태로 변환한 후 자신의 PC 등을 통해 본 발명에 따른 어학학습 컨텐츠를 직접 생성할 수도 있다.
본 발명의 일실시예에 따르면, 상기 어학학습 컨텐츠 서버는 제1 언어로 구현되는 전자문서에 기록된 하나 이상의 문장이 포함하는 하나 이상의 단어 각각에 대하여 단어빈도(word frequency)를 연산한다(단계(110)). 단계(110)의 단어빈도 연산에 대해서는 도 2를 참조하여 상세히 설명한다.
도 2는 본 발명의 일실시예에 따른 단어빈도 연산방법의 흐름을 도시한 순서도이다.
상기 어학학습 컨텐츠 서버는 상기 전자문서에 기록된 총 단어의 개수를 중복기재를 포함하여 연산한다(단계(211)). 즉, 상기 어학학습 컨텐츠 서버는 상기 전자문서에 기록된 단어의 총 개수를 특정단어가 중복하여 나타나더라도 별개의 단어로 인식하여 단어의 총 개수를 연산할 수 있다. 예를 들어, 전자문서에 "the"라 는 단어만 총 10번 기재되어 있는 경우, 상기 전자문서의 총 단어 개수를 10개로 연산할 수 있다.
상기 어학학습 컨텐츠 서버는 상기 하나 이상의 단어 중 제1 단어가 상기 전자문서에 중복되어 기록된 회수를 연산한다(단계(212)). 이후, 상기 어학학습 컨텐츠 서버는 상기 총 단어의 개수 및 상기 제1 단어의 중복기재회수를 통해 상기 제1 단어에 대한 단어빈도를 연산한다(단계(213)). 즉, 상기 어학학습 컨텐츠 서버는 상기 제1 단어의 중복기재회수를 상기 총 단어개수로 나누어 상기 제1 단어에 대한 단어빈도를 연산할 수 있다. 상기 어학학습 컨텐츠 서버는 상기 제1 단어뿐만 아니라, 상기 전자문서가 포함하는 중복기재를 제외한 모든 단어에 대하여 각각 단어빈도를 연산할 수 있다.
다시 도 1을 참조하면, 상기 어학학습 컨텐츠 서버는 상기 제1 언어로 구현되는 상기 하나 이상의 단어 각각에 대하여, 상기 각 단어가 상기 제1 언어에서 제2 언어로 번역된 번역단어를 생성한다(단계(120)).
즉, 상기 어학학습 컨텐츠 서버는 상기 제1 언어로 구현되는 하나 이상의 단어 및 상기 제2 언어로 구현되는 하나 이상의 단어가 각각 상대의 언어로 번역 가능하도록 매핑된 사전 데이터베이스를 유지하고, 상기 사전데이터베이스를 통해 상기 각 단어가 상기 제1 언어에서 상기 제2 언어로 번역된 상기 번역단어를 생성할 수 있다.
또한, 상기 어학학습 컨텐츠 서버는 상기 제1 언어로 구현되는 상기 각 단어를 포함하는 번역 인터페이스를 관리자에게 디스플레이하고, 상기 관리자로부터 상 기 번역 인터페이스를 통해 상기 각 단어가 상기 제2 언어로 번역된 번역단어를 입력받음으로써, 상기 각 단어가 상기 제1 언어에서 상기 제2 언어로 번역된 상기 번역단어를 생성할 수도 있다.
상기 어학학습 컨텐츠 서버는 상기 하나 이상의 단어 각각에 대한 하나 이상의 엔그램(n-gram) 정보를 생성한다(단계(130)). 상기 엔그램(n-gram) 정보의 생성에 대해서는 도 3을 참조하여 보다 상세히 설명한다.
도 3은 본 발명의 일실시예에 따른 단어에 대한 엔그램(n-gram) 정보 생성방법의 흐름을 도시한 순서도이다.
본 발명의 일실시예에 따르면, 상기 어학학습 컨텐츠 서버는 상기 전자문서에 기록된 하나 이상의 문장이 포함하는 하나 이상의 단어 각각에 품사(POS: Part Of Speech)를 태깅(Tagging)한다(단계(311)).
단계(311)에서, 상기 어학학습 컨텐츠 서버는 문장의 형태소(Morpheme)를 분석하여 상기 문장이 포함하는 각 단어의 품사를 태깅할 수 있다. 품사 태깅은 문장 내에서 단어가 사용된 문맥에 따라 각 단어에 올바른 품사 정보를 할당하는 과정을 의미한다. 품사 태깅은 일반적으로 어휘 모호성으로 인한 구문 분석 단계에서의 과다한 부담을 줄이기 위한 전처리 과정으로 사용될 수 있다.
품사 태깅 방법으로는 자연어 처리 분야에서 일반적으로 사용되고 있는 규칙 기반 품사 태깅 방법 및 통계 기반 품사 태깅 방법이 있다. 통계 기반 접근 방법은 실세계 자연어 용례들과 부속 정보를 포함하는 대량의 원시(raw) 또는 태깅된(tagged) 말뭉치(corpus)를 분석하고, 자연어에 대한 통계 정보를 추출하여 얻은 확률(probability) 또는 불확실성(uncertainty)을 이용하여 어휘적 모호성 문제를 확률적으로 해결하는 방법을 의미한다.
한편, 규칙 기반 접근 방법은 품사 태깅에 적용되는 공통적인 원리나 결정적인 규칙을 찾아내고, 이를 이용하여 어휘적 모호성을 결정적으로 해결하는 방법을 의미한다. 상기 어학학습 컨텐츠 서버는 상기 규칙 기반 접근 방법 및 통계 기반 접근 방법과 당업계에서 사용될 수 있는 품사 태깅 방법을 모두 포함하여 상기 품사를 태깅할 수 있다.
상기 어학학습 컨텐츠 서버는 상기 각 단어에 태깅된 품사를 이용하여, 상기 하나 이상의 단어 각각에 대한 하나 이상의 엔그램(n-gram)을 상기 전자문서로부터 독출한다(단계(312)). 상기 어학학습 컨텐츠 서버는 상기 독출된 상기 엔그램(n-gram)의 총 개수를 중복기재를 포함하여 연산한다(단계(313)).
상기 어학학습 컨텐츠 서버는 상기 각 엔그램(n-gram)이 상기 전자문서에 중복되어 기재된 회수를 연산한다(단계(314)). 상기 어학학습 컨텐츠 서버는 상기 엔그램(n-gram)의 총 개수 및 상기 각 엔그램(n-gram)의 중복기재회수를 통해 상기 각 엔그램(n-gram)에 대한 발생확률을 연산한다(단계(315)). 상기 어학학습 컨텐츠 서버는 상기 각 엔그렘의 중복기재회수를 상기 엔그램의 총 개수로 나눈값을 통해 상기 각 엔그램에 대한 발생확률을 연산할 수 있다.
상기 어학학습 컨텐츠 서버는 상기 하나 이상의 엔그램(n-gram) 및 상기 각 엔그램(n-gram)에 대응하는 발생확률을 포함하는 엔그램(n-gram) 정보를 생성한다(단계(316)).
다시 도 1을 참조하면, 상기 어학학습 컨텐츠 서버는 상기 하나 이상의 단어 각각에 대한 하나 이상의 연어(collocation) 정보를 생성한다(단계(140)). 상기 연어 정보의 생성방법에 대해서는 도 4를 참조하여 보다 상세히 설명한다.
도 4는 본 발명의 일실시예에 따른 연어 정보 생성방법의 흐름을 도시한 순서도이다.
본 발명의 일실시예에 따르면, 상기 어학학습 컨텐츠 서버는 상기 전자문서에서 제1 단어에 대응하여 출현한 하나 이상의 서브단어를 독출한다(단계(411)). 상기 어학학습 컨텐츠 서버는 상기 제1 단어에 대응하여 독출한 상기 서브단어의 총 개수를 중복기재를 포함하여 연산한다(단계(412)).
상기 어학학습 컨텐츠 서버는 상기 하나 이상의 서브단어 중 제1 서브단어가 상기 제1 단어에 대응하여 출현한 회수를 연산한다(단계(413)). 상기 어학학습 컨텐츠 서버는 상기 서브단어의 총 개수 및 상기 제1 서브단어의 출현회수를 통해 상기 제1 단어에 대한 상기 제1 서브단어의 공기확률을 연산한다(단계(414)). 상기 어학학습 컨텐츠 서버는 상기 제1 서브단어의 출현회수를 상기 서브단어의 총 개수로 나눈값을 통해 상기 제1 서브단어의 공기확률을 연산할 수 있다.
상기 어학학습 컨텐츠 서버는 상기 제1 서브단어 및 상기 제1 서브단어의 공기확률을 포함하는 상기 제1 단어에 대한 연어 정보를 생성한다(단계(415)).
또한, 본 발명의 다른 실시예에 따르면, 상기 어학학습 컨텐츠 서버는 하나 이상의 단어 및 상기 각 언어에 대응하는 하나 이상의 서브단어가 서로 대응하여 연어(collocation)가 된 하나 이상의 어구가 기록된 연어 데이터베이스를 유지하고, 상기 연어 데이터베이스를 통해 상기 연어 정보를 생성할 수도 있다.
다시 도 1을 참조하면, 상기 어학학습 컨텐츠 서버는 상기 하나 이상의 단어 각각에 대응하고 상기 제1 언어로 구현되는 예문을 생성한다(단계(150)). 상기 예문생성방법에 대해서는 도 5를 참조하여 보다 상세히 설명한다.
도 5는 본 발명의 일실시예에 따른 예문생성방법의 흐름을 도시한 순서도이다.
본 발명의 일실시예에 따르면, 상기 어학학습 컨텐츠 서버는 상기 하나 이상의 단어 중 제1 단어가 포함된 하나 이상의 문장을 상기 전자문서로부터 독출한다(단계(511)). 상기 어학학습 컨텐츠 서버는 상기 독출한 상기 각 문장이 포함하는 각 단어의 단어빈도가 제 1단어의 단어 빈도와 비슷한 수준으로 등장하도록 평균과 분산의 확률분포 곡선을 이용하여 문장을 구성하는 단어마다 가중치를 연산한다(단계(512)).
상기 어학학습 컨텐츠 서버는 상기 하나 이상의 문장 중, 상기 제1 단어의 단어빈도에 대하여 선정된(predetermined) 범위의 빈도를 갖는 단어들로만 구성된 하나 이상의 문장을 선택한다(단계(513)). 예를 들어, 상기 제1 단어의 단어빈도가 0.5인 경우, 상기 어학학습 컨텐츠 서버는 단어빈도가 0.4 내지 0.6의 범위 내에 속하는 단어들로만 이루어진 하나 이상의 문장을 선택할 수 있다.
상기 어학학습 컨텐츠 서버는 상기 선택된 상기 하나 이상의 문장을 문장 길이에 따라 소팅(sorting)하고, 상기 제1 단어의 단어빈도가 고빈도인 경우 상기 소팅된 상기 하나 이상의 문장 중 길이가 짧은 범위에 속하는 하나 이상의 문장을 선 택하며, 상기 제1 단어의 단어빈도가 저빈도인 경우 상기 소팅된 상기 하나 이상의 문장 중 길이가 긴 범위에 속하는 하나 이상의 문장을 선택한다(단계(514)). 즉, 상기 어학학습 컨텐츠 서버는 상기 제1 단어의 단어빈도가 고빈도인 경우, 상기 제1 단어를 난이도가 낮은 쉬운 단어로 판단하여 학습자의 학습수준을 고려한 짧은 길이의 문장을 예문으로 선택할 수 있다. 또한, 상기 어학학습 컨텐츠 서버는 상기 제1 단어의 단어빈도가 저빈도인 경우, 상기 난이도가 높은 어려운 단어로 판단하여 학습자의 학습수준을 고려한 긴 길이의 문장을 예문으로 선택할 수 있다.
상기 어학학습 컨텐츠 서버는 상기 선택한 상기 하나 이상의 문장을 통해 상기 제1 단어에 대응하는 예문을 생성한다(단계(515)).
또한, 본 발명의 다른 실시예에 따르면, 상기 어학학습 컨텐츠 서버는 상기 전자문서에 기록된 하나 이상의 문장이 포함하는 상기 하나 이상의 단어 각각에 품사(POS: Part Of Speech)를 태깅(Tagging)하고, 상기 하나 이상의 단어 중 제1 단어에의 단어빈도에 대하여 선정된 범위 내의 단어빈도를 갖는 하나 이상의 단어를 선택하며, 상기 선택된 하나 이상의 단어의 각 품사 태깅 및 상기 제1 단어의 품사 태깅을 이용하여 하나 이상의 예문을 생성할 수 있다.
예를 들어, 상기 어학학습 컨텐츠 서버는 제1 언어가 영어이고 상기 제1 단어의 품사가 타동사이며 단어빈도가 0.5 인 경우, 대명사 중 단어빈도가 0.4 내지 0.6의 범위에 속하는 대명사를 주어로 선택하고, 명사 중 단어빈도가 0.4 내지 0.6의 범위에 속하는 명사를 목적으로 선택하여, 상기 제1 단어가 포함되는 3형식의 문장을 예문으로 생성할 수 있다.
또한, 상기 어학학습 컨텐츠 서버는 사용자의 수준을 고려하여 문장의 길이를 조절할 수 있다. 즉, 고빈도 어휘에 대해서는 문장 파악력이 약한 사용자를 위하여 길이가 짧은 문장을 선택할 수 있고, 저빈도 어휘에 대해서는 문장 파악력이 강한 사용자를 위하여 길이가 긴 문장을 선택할 수 있다. 또한, 주어진 전자화된 말뭉치에 제1 단어가 나타나는 모든 문장에 대하여 평균 문장 길이를 계산하고, 길이가 짧은 문장은 평균 문장 길이보다 짧게, 길이가 긴 문장은 평균 문장 길이보다 길게 할 수 있다.
다시 도 1을 참조하면, 상기 어학학습 컨텐츠 서버는 상기 하나 이상의 단어 각각에 대응하여 상기 생성된 상기 단어빈도, 상기 번역단어, 상기 엔그램 정보, 상기 연어 정보, 및 상기 예문을 포함하는 어학학습 컨텐츠를 생성한다(단계(160).
도 6은 본 발명의 일실시예에 따라 생성된 어학학습 컨텐츠의 일례를 도시한 도면이다.
본 발명의 일실시예에 따라 생성된 어학학습 컨텐츠는 도 6에 도시된 바와 같이, 단어빈도, 번역단어, 단어, 예문, 엔그램(n-gram), 연어 등의 정보를 포함할 수 있다. 예를 들어, "the"라는 단어에 대응하여, "0.045976"이라는 단어빈도 정보가 상기 어학학습 컨텐츠에 기록될 수 있다. 또한, "the"라는 단어에 대응하여, "정관사) 그, 한정적으로 사용"이라는 번역단어 정보가 기록될 수 있고, "This is the world. The number of students is up to 90."라는 예문이 기록될 수 있으며, "of the(13%) in the(12%) to the(11%) on the(10%) for the(9%) and the(8%) with the(7%)"라는 2gram 정보가 기록될 수 있다. 이외에도 "the"라는 단어에 대응하여, 도 6에 도시된 바와 같이, 3gram 정보, 4gram 정보, 5gram 정보가 엔그램 정보로 각각 더 기록될 수 있다.
또한, "the"라는 단어에 대응하여, "same(10%) government(8%) first(7%) most(6%) USA(5%) House(4%) UK(3%) best(2%) next(1%) Minister(0.1%) world(0.01%)"가 연어 정보로 기록될 수 있다.
또한, 본 발명의 일실시예에 따르면, 상기 어학학습 컨텐츠는 상기 제2 언어로 번역된 번역단어가 상기 제1 언어의 단어보다 우선하여 사용자에게 노출되도록 구현될 수 있다. 즉, 도 6에 도시된 바와 같이, 학습자의 모국어가 제1 언어이고 외국어가 제2 언어인 경우, 상기 제1 언어의 단어가 번역된 제2 언어의 번역단어가 상기 학습자에게 먼저 노출되도록 상기 어학학습 컨텐츠의 내용이 구성될 수 있다.
본 발명에 따른 어학학습 컨텐츠 생성방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.
도 1은 본 발명의 일실시예에 따른 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법의 흐름을 도시한 순서도.
도 2는 본 발명의 일실시예에 따른 단어빈도 연산방법의 흐름을 도시한 순서도.
도 3은 본 발명의 일실시예에 따른 단어에 대한 엔그램(n-gram) 정보 생성방법의 흐름을 도시한 순서도.
도 4는 본 발명의 일실시예에 따른 연어정보 생성방법의 흐름을 도시한 순서도.
도 5는 본 발명의 일실시예에 따른 예문생성방법의 흐름을 도시한 순서도.
도 6은 본 발명의 일실시예에 따라 생성된 어학학습 컨텐츠의 일례를 도시한 도면.
<도면의 주요 부분에 대한 부호의 설명>
단계(110): 단어빈도 연산단계
단계(120): 번역단어 생성단계
단계(130): 엔그램 정보 생성단계
단계(140): 연어 정보 생성단계
단계(150): 예문생성 단계
단계(160: 어학학습 컨텐츠 생성단계

Claims (13)

  1. 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법에 있어서,
    상기 어학학습 컨텐츠 서버가 제1 언어로 구현되는 전자문서에 기록된 하나 이상의 문장이 포함하는 하나 이상의 단어 각각에 대하여 단어빈도(word frequency)를 연산하는 단계;
    상기 어학학습 컨텐츠 서버가 상기 하나 이상의 단어 각각에 대응하고 상기 제1 언어로 구현되는 예문을 생성하는 단계;
    상기 어학학습 컨텐츠 서버가 상기 하나 이상의 단어 각각에 대한 하나 이상의 엔그램(n-gram) 정보를 생성하는 단계; 및
    상기 어학학습 컨텐츠 서버가 상기 하나 이상의 단어 각각에 대응하여 상기 생성된 상기 단어빈도, 상기 예문, 및 상기 엔그램 정보를 포함하는 어학학습 컨텐츠를 생성하는 단계
    를 포함하는 것을 특징으로 하는 어학학습 컨텐츠 서버의 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법.
  2. 제1항에 있어서,
    상기 어학학습 컨텐츠 서버가 제1 언어로 구현되는 전자문서에 기록된 하나 이상의 문장이 포함하는 하나 이상의 단어 각각에 대하여 단어빈도(word frequency)를 연산하는 단계는,
    상기 어학학습 컨텐츠 서버가 상기 전자문서에 기록된 총 단어의 개수를 중복기재를 포함하여 연산하는 단계;
    상기 어학학습 컨텐츠 서버가 상기 하나 이상의 단어 중 제1 단어가 상기 전자문서에 중복되어 기록된 회수를 연산하는 단계; 및
    상기 어학학습 컨텐츠 서버가 상기 총 단어의 개수 및 상기 제1 단어의 중복기재회수를 통해 상기 제1 단어에 대한 단어빈도를 연산하는 단계
    를 포함하는 것을 특징으로 하는 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법.
  3. 제1항에 있어서,
    상기 어학학습 컨텐츠 서버가 제1 언어로 구현되는 하나 이상의 단어 및 제2 언어로 구현되는 하나 이상의 단어가 각각 상대의 언어로 번역 가능하도록 매핑된 사전 데이터베이스를 유지하는 단계;
    상기 어학학습 컨텐츠 서버가 상기 사전데이터베이스를 통해 상기 각 단어가 상기 제1 언어에서 상기 제2 언어로 번역된 번역단어를 생성하는 단계; 및
    상기 어학학습 컨텐츠 서버가 상기 어학학습 컨텐츠가 상기 각 단어가 상기 제1 언어에서 제2 언어로 번역된 번역단어를 포함하도록 상기 어학학습 컨텐츠를 갱신하는 단계
    를 더 포함하는 것을 특징으로 하는 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법.
  4. 제1항에 있어서,
    상기 어학학습 컨텐츠 서버가 제1 언어로 구현되는 상기 각 단어를 포함하는 번역 인터페이스를 관리자에게 디스플레이하는 단계;
    상기 어학학습 컨텐츠 서버가 상기 관리자로부터 상기 각 단어가 제2 언어로 번역된 번역단어를 입력받아, 상기 각 단어가 상기 제1 언어에서 상기 제2 언어로 번역된 번역단어를 생성하는 단계; 및
    상기 어학학습 컨텐츠 서버가 상기 어학학습 컨텐츠가 상기 각 단어가 상기 제1 언어에서 제2 언어로 번역된 번역단어를 포함하도록 상기 어학학습 컨텐츠를 갱신하는 단계
    를 더 포함하는 것을 특징으로 하는 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법.
  5. 삭제
  6. 제1항에 있어서,
    상기 어학학습 컨텐츠 서버가 상기 하나 이상의 단어 각각에 대한 하나 이상의 엔그램(n-gram) 정보를 생성하는 단계는,
    상기 어학학습 컨텐츠 서버가 상기 전자문서에 기록된 하나 이상의 문장이 포함하는 하나 이상의 단어 각각에 품사(POS: Part Of Speech)를 태깅(Tagging)하는 단계;
    상기 어학학습 컨텐츠 서버가 상기 각 단어에 태깅된 품사를 이용하여, 상기 하나 이상의 단어 각각에 대한 하나 이상의 엔그램(n-gram)을 상기 전자문서로부터 독출하는 단계;
    상기 어학학습 컨텐츠 서버가 상기 독출된 상기 엔그램(n-gram)의 총 개수를 중복기재를 포함하여 연산하는 단계;
    상기 어학학습 컨텐츠 서버가 상기 각 엔그램(n-gram)이 상기 전자문서에 중복되어 기재된 회수를 연산하는 단계;
    상기 어학학습 컨텐츠 서버가 상기 엔그램(n-gram)의 총 개수 및 상기 각 엔그램(n-gram)의 중복기재회수를 통해 상기 각 엔그램(n-gram)에 대한 발생확률을 연산하는 단계; 및
    상기 어학학습 컨텐츠 서버가 상기 하나 이상의 엔그램(n-gram) 및 상기 각 엔그램(n-gram)에 대응하는 발생확률을 포함하는 엔그램(n-gram) 정보를 생성하는 단계
    를 포함하는 것을 특징으로 하는 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법.
  7. 제1항에 있어서,
    상기 어학학습 컨텐츠 서버가 상기 하나 이상의 단어 각각에 대한 하나 이상의 연어(collocation) 정보를 생성하는 단계; 및
    상기 어학학습 컨텐츠 서버가 상기 어학학습 컨텐츠가 상기 하나 이상의 연어 정보를 포함하도록 상기 어학학습 컨텐츠를 갱신하는 단계
    를 더 포함하는 것을 특징으로 하는 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법.
  8. 제7항에 있어서,
    상기 어학학습 컨텐츠 서버가 상기 하나 이상의 단어 각각에 대한 하나 이상의 연어(collocation) 정보를 생성하는 단계는,
    상기 어학학습 컨텐츠 서버가 상기 전자문서에서 제1 단어에 대응하여 출현하는 하나 이상의 서브단어를 독출하는 단계;
    상기 어학학습 컨텐츠 서버가 상기 제1 단어에 대응하여 독출한 상기 서브단어의 총 개수를 중복기재를 포함하여 연산하는 단계;
    상기 어학학습 컨텐츠 서버가 상기 하나 이상의 서브단어 중 제1 서브단어가 상기 제1 단어에 대응하여 출현한 회수를 연산하는 단계
    상기 어학학습 컨텐츠 서버가 상기 서브단어의 총 개수 및 상기 제1 서브단어의 출현회수를 통해 상기 제1 단어에 대한 상기 제1 서브단어의 공기확률을 연산하는 단계; 및
    상기 어학학습 컨텐츠 서버가 상기 제1 서브단어 및 상기 제1 서브단어의 공기확률을 포함하는 상기 제1 단어에 대한 연어 정보를 생성하는 단계
    를 포함하는 것을 특징으로 하는 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법.
  9. 제7항에 있어서,
    상기 어학학습 컨텐츠 서버가 상기 하나 이상의 단어 각각에 대한 하나 이상의 연어(collocation) 정보를 생성하는 단계는,
    상기 어학학습 컨텐츠 서버가 하나 이상의 단어 및 상기 각 언어에 대응하는 하나 이상의 서브단어가 서로 대응하여 출현(collocation)한 하나 이상의 어구가 기록된 연어 데이터베이스를 유지하는 단계; 및
    상기 어학학습 컨텐츠 서버가 상기 연어 데이터베이스를 통해 상기 연어 정보를 생성하는 단계
    를 포함하는 것을 특징으로 하는 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법.
  10. 제1항에 있어서,
    상기 어학학습 컨텐츠 서버가 상기 하나 이상의 단어 각각에 대응하고 상기 제1 언어로 구현되는 예문을 생성하는 단계는,
    상기 어학학습 컨텐츠 서버가 상기 하나 이상의 단어 중 제1 단어가 포함된 하나 이상의 문장을 상기 전자문서로부터 독출하는 단계;
    상기 어학학습 컨텐츠 서버가 상기 독출한 상기 각 문장이 포함하는 각 단어의 단어빈도에 대한 가중치 연산을 통해 상기 각 문장의 단어빈도를 유지하는 단계;
    상기 어학학습 컨텐츠 서버가 상기 하나 이상의 문장 중, 상기 제1 단어의 단어빈도에 대하여 선정된(predetermined) 범위 내의 단어빈도를 갖는 단어로만 구성된 하나 이상의 문장을 선택하는 단계;
    상기 어학학습 컨텐츠 서버가 상기 선택된 상기 하나 이상의 문장을 문장 길이에 따라 소팅(sorting)하고, 상기 제1 단어의 단어빈도가 고빈도인 경우 상기 소팅된 상기 하나 이상의 문장 중 길이가 짧은 범위에 속하는 하나 이상의 문장을 선택하며, 상기 제1 단어의 단어빈도가 저빈도인 경우 상기 소팅된 상기 하나 이상의 문장 중 길이가 긴 범위에 속하는 하나 이상의 문장을 선택하는 단계; 및
    상기 어학학습 컨텐츠 서버가 상기 선택한 상기 하나 이상의 문장을 통해 상기 제1 단어에 대응하는 예문을 생성하는 단계
    를 포함하는 것을 특징으로 하는 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법.
  11. 제1항에 있어서,
    상기 어학학습 컨텐츠 서버가 상기 하나 이상의 단어 각각에 대응하고 상기 제1 언어로 구현되는 예문을 생성하는 단계는,
    상기 어학학습 컨텐츠 서버가 상기 전자문서에 기록된 하나 이상의 문장이 포함하는 상기 하나 이상의 단어 각각에 품사(POS: Part Of Speech)를 태깅(Tagging)하는 단계;
    상기 어학학습 컨텐츠 서버가 상기 하나 이상의 단어 중 제1 단어에의 단어빈도에 대하여 선정된 범위 내의 단어빈도를 갖는 하나 이상의 단어를 선택하는 단계; 및
    상기 어학학습 컨텐츠 서버가 상기 선택된 하나 이상의 단어의 각 품사 태깅 및 상기 제1 단어의 품사 태깅을 이용하여 하나 이상의 예문을 생성하는 단계
    를 포함하는 것을 특징으로 하는 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법.
  12. 제3항 및 제4항 중 어느 한 항에 있어서,
    상기 어학학습 컨텐츠는 상기 제2 언어로 번역된 번역단어가 상기 제1 언어의 단어보다 우선하여 사용자에게 노출되도록 구현되는 것을 특징으로 하는 어학학습 컨텐츠 서버의 어학학습 컨텐츠 생성방법.
  13. 제1항 내지 제4항과, 제6항 내지 제11항 중 어느 한 항의 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
KR1020090119791A 2009-12-04 2009-12-04 어학학습 컨텐츠 생성방법 KR100978223B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090119791A KR100978223B1 (ko) 2009-12-04 2009-12-04 어학학습 컨텐츠 생성방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090119791A KR100978223B1 (ko) 2009-12-04 2009-12-04 어학학습 컨텐츠 생성방법

Publications (1)

Publication Number Publication Date
KR100978223B1 true KR100978223B1 (ko) 2010-08-26

Family

ID=42760059

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090119791A KR100978223B1 (ko) 2009-12-04 2009-12-04 어학학습 컨텐츠 생성방법

Country Status (1)

Country Link
KR (1) KR100978223B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013062302A1 (ko) * 2011-10-26 2013-05-02 에스케이텔레콤 주식회사 작문 자동 평가를 위한 예제기반 오류 검출 시스템, 이를 위한 방법 및 이를 위한 오류 검출 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040106656A (ko) * 2003-06-11 2004-12-18 한대희 외국어 예문 검색 서비스 제공 장치 및 그 방법
KR20090061531A (ko) * 2007-12-11 2009-06-16 한국전자통신연구원 자동번역 시스템에서의 영어 어휘 패턴 구축 방법 및 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040106656A (ko) * 2003-06-11 2004-12-18 한대희 외국어 예문 검색 서비스 제공 장치 및 그 방법
KR20090061531A (ko) * 2007-12-11 2009-06-16 한국전자통신연구원 자동번역 시스템에서의 영어 어휘 패턴 구축 방법 및 장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013062302A1 (ko) * 2011-10-26 2013-05-02 에스케이텔레콤 주식회사 작문 자동 평가를 위한 예제기반 오류 검출 시스템, 이를 위한 방법 및 이를 위한 오류 검출 장치
US9542383B2 (en) 2011-10-26 2017-01-10 Sk Telecom Co., Ltd. Example-based error detection system for automatic evaluation of writing, method for same, and error detection apparatus for same

Similar Documents

Publication Publication Date Title
Habash et al. MADA+ TOKAN: A toolkit for Arabic tokenization, diacritization, morphological disambiguation, POS tagging, stemming and lemmatization
US11386270B2 (en) Automatically identifying multi-word expressions
Konkol et al. Named entity recognition for highly inflectional languages: effects of various lemmatization and stemming approaches
Wintner Morphological processing of semitic languages
Jacksi et al. The Kurdish Language corpus: state of the art
Koleva et al. An automatic part-of-speech tagger for Middle Low German
Imperial et al. Application of Lexical Features Towards Improvement of Filipino Readability Identification of Children's Literature
Jamro Sindhi language processing: A survey
Melero et al. Holaaa!! writin like u talk is kewl but kinda hard 4 NLP
Nguyen et al. Deep learning approach for vietnamese consonant misspell correction
Dutta Word-level language identification using subword embeddings for code-mixed Bangla-English social media data
Khorjuvenkar et al. Parts of speech tagging for Konkani language
Rajan et al. Survey of nlp resources in low-resource languages nepali, sindhi and konkani
Bagchi et al. Bangla spelling error detection and correction using n-gram model
Trye et al. A hybrid architecture for labelling bilingual māori-english tweets
Elsheikh Timeline of the development of Arabic PoS taggers and Morphological analysers
KR100978223B1 (ko) 어학학습 컨텐츠 생성방법
Alfaidi et al. Exploring the performance of farasa and CAMeL taggers for arabic dialect tweets.
Khoufi et al. Chunking Arabic texts using conditional random fields
Behera Odia parts of speech tagging corpora: suitability of statistical models
Al-Arfaj et al. Arabic NLP tools for ontology construction from Arabic text: An overview
Fashwan et al. A rule based method for adding case ending diacritics for modern standard Arabic texts
Shaaban Automatic Diacritics Restoration for Arabic Text
Padma et al. Morpheme based parts of speech tagger for Kannada language
Angle et al. Kannada morpheme segmentation using machine learning

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
N231 Notification of change of applicant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130820

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee