WO2021182828A1 - 기계학습, 자연어처리 및 패턴기반 참조 라이브러리 기반 탐색 언어학습 시스템 및 방법 - Google Patents

기계학습, 자연어처리 및 패턴기반 참조 라이브러리 기반 탐색 언어학습 시스템 및 방법 Download PDF

Info

Publication number
WO2021182828A1
WO2021182828A1 PCT/KR2021/002856 KR2021002856W WO2021182828A1 WO 2021182828 A1 WO2021182828 A1 WO 2021182828A1 KR 2021002856 W KR2021002856 W KR 2021002856W WO 2021182828 A1 WO2021182828 A1 WO 2021182828A1
Authority
WO
WIPO (PCT)
Prior art keywords
pattern
language
library
learning
reference library
Prior art date
Application number
PCT/KR2021/002856
Other languages
English (en)
French (fr)
Inventor
유환수
웨인라이트존
Original Assignee
주식회사 미리내
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020200137119A external-priority patent/KR20210113551A/ko
Application filed by 주식회사 미리내 filed Critical 주식회사 미리내
Priority to US17/909,511 priority Critical patent/US20230112674A1/en
Publication of WO2021182828A1 publication Critical patent/WO2021182828A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages

Definitions

  • the present invention relates to a machine learning, natural language processing, and pattern-based reference library-based search language learning system and method, and more particularly, to a computer-based system designed as a learning aid for an individual learning a foreign language or a student using a native language.
  • a self-learning mode that enables navigation, instances generated for a target language are analyzed by artificial intelligence (AI) and natural language processing components, and then automatically maps to appropriate entries in an associated reference library, wherein the user
  • AI artificial intelligence
  • It relates to a machine learning, natural language processing, and pattern-based reference library-based search language learning system and method that enables to search for parts-of-speech, word meaning, syntactic structure, grammar, and idiom patterns used in a corresponding language instance.
  • the present invention includes the contents of US Provisional Application No. 62986757 (March 08, 2020) (Exploratory language-learning system based on ML, NLP and a pattern-based reference library).
  • the present invention has been proposed in view of the above-described conventional situation, and an object of the present invention is a computer-based system designed as a learning aid for individuals learning a foreign language or a student using a native language, enabling search, and a target language.
  • a self-learning mode in which instances generated for It is to provide a machine learning, natural language processing, and pattern-based reference library-based search language learning system and method to search for semantic, syntactic structure, grammar, and idiom patterns.
  • a machine learning, natural language processing and pattern-based reference library-based search language learning system includes an input means for collecting or inputting instances generated in a language;
  • a morphological analyzer for generating linguistic units, words, stems, affixes, and phonetic symbol input characters and part-of-speech in the sentence input through the input means;
  • a lexical pattern matcher that processes the contents processed by the word type analyzer with reference to a reference library
  • a phrase-structure parser for recognizing larger phrases and clause structures by processing the phrase structure processed by the vocabulary pattern matcher
  • a self-learning mode that enables navigation, instances generated for a target language are analyzed by artificial intelligence (AI) and natural language processing components, and then automatically maps to appropriate entries in an associated reference library, wherein the user It has the effect of allowing you to explore the parts-of-speech, word meaning, syntax structure, grammar, and idiom patterns used in the corresponding language instance.
  • AI artificial intelligence
  • FIG. 1 is a functional explanatory diagram schematically illustrating a learning process in a machine learning, natural language processing, and pattern-based reference library-based search language learning system according to the present invention.
  • a machine learning, natural language processing and pattern-based reference library-based search language learning system includes an input means for collecting or inputting instances generated in a language;
  • a morphological analyzer for generating linguistic units, words, stems, affixes, and phonetic symbol input characters and part-of-speech in the sentence input through the input means;
  • a lexical pattern matcher that processes the contents processed by the word type analyzer with reference to a reference library
  • a phrase-structure parser for recognizing a larger phrase and clause structure by processing the phrase structure processed by the vocabulary pattern matcher
  • a first step of confirming whether the text to be searched for from the user is input
  • the morpheme analyzer processes the input sentence and generates a breakdown of the sentence in the second step
  • the third step is to isolate and label the various kinds of affixes, separate the stem of the verb, and assign the appropriate part-of-speech to every morpheme;
  • the lexical pass is the fifth stage of generating potential complex morpheme structures, such as auxiliary verb patterns,
  • a sixth step in which syntactic parsing (parsing) is applied to the annotated modified morphological structure
  • a seventh step (the parsing step) of identifying larger and possibly overlapping syntax and clause structures
  • a language learning method through machine learning, natural language processing, and pattern-based reference library-based search language learning system, characterized in that it includes an eighth step in which another pass of a pattern-matcher is applied.
  • the parsing step is characterized in that it is performed using a computer language parsing method such as a standard NLP or chunking grammar or a recursive-descent parser.
  • results are presented graphically, in a progressive, interactive form, allowing the user to drill-down to the parts of the analysis that are of most interest to the user.
  • FIG. 1 is a functional explanatory diagram schematically illustrating a learning process in a machine learning, natural language processing, and pattern-based reference library-based search language learning system according to the present invention.
  • the present invention is a computer-based system designed as a learning aid for an individual learning a foreign language or a student using a native language.
  • a self-learning mode that enables navigation and automatically maps instances generated for a target language to appropriate entries in an associated reference library, where instances generated for the target language are analyzed by artificial intelligence (AI) and natural language processing components.
  • AI artificial intelligence
  • the user can explore the parts-of-speech, word meaning, syntax structure, grammar, and idiom patterns used in the corresponding language instance.
  • the reference library can contain extensive material for each element of the target language, including usage notes, use of alternative examples, links to externally referenced sites, and book citations. It is indexed by morphological and syntactic patterns found by Machine Learning (ML) and Natural Language Processing (NLP) components, enabling a form of bottom-up learning, and organically generated text driving learning and discovery processes to be structured, It is structured in a way that extends the usual top-down approach of courseware and instructional curricula.
  • ML Machine Learning
  • NLP Natural Language Processing
  • the invention presented here covers all combinations of target and learner languages by including properly trained analyzers, parsers and library items, and multiple learner languages of a particular target language simply by duplicating reference material in each learner language. can be applied.
  • Reference versions of the target language itself can be used by native speakers of the target language in schools and other educational contexts.
  • An embodiment of the present invention includes the following components; Other embodiments are possible as described in the embodiment section below.
  • An input system for collecting or inputting instances generated in a language
  • a morphological analyzer that reduces the form of input characters such as linguistic units, words, stems, affixes, and phonetic symbols and generates parts of speech
  • a phrase-structure parser that recognizes larger phrases and clause structures in the sentence reduction.
  • a pattern-matching system that finds reference library items in which a pattern exists in analysis and parsing (parsing) of the searched instance
  • a presentation system that allows users to view and navigate related reference materials.
  • the machine learning, natural language processing and pattern-based reference library-based search language learning system is an input means for collecting or inputting instances generated in a language, and a sentence input through the input means is linguistic unit, word, stem , a morphological analyzer (10) that reduces the morphology of input characters for affixes and phonetic symbols and generates parts of speech (10),
  • a library pattern-matcher 40 that processes the syntax structure processed through the syntax structure parser 30 with reference to the reference library
  • a reference explorer 60 through which the user can view and navigate related reference materials.
  • the input means is a means for enabling the display of a specific language programmatically or hardware in a specific video (streaming or not limited thereto) (device) or a video clip that provides a service for outputting movies, plays, and various images It may be an input device that is operable in relation to the output of the text screen.
  • the present invention is not limited thereto, and it may be an input device that is connected to a device outputting an image separately as an external input device and operates by overlaying text on the image or displaying the text at a specific position on the screen. This input device may be operated in conjunction with the language learning system according to the present invention.
  • Step 1 the user inputs the text they want to search for.
  • the student is learning Korean and inputs the sentence “I can ride a bicycle” in Korean.
  • Step the morpheme analyzer processes the input sentence and generates a breakdown of the sentence.
  • 3 Step separate and label various kinds of affixes, separate stems of verbs, and assign appropriate parts-of-speech to all morphemes.
  • Current stemmers are generally deep neural networks, and the present invention allows the use of existing analyzers or new analyzers specially trained for this purpose. This is covered in more detail in the Typhoon section below.
  • Step 4 an initial "lexical" pass of the pattern-matcher is formed for the morpheme-based pattern of the library.
  • These annotations and translations are passed to the reference explorer, but can also be an important aid to the next syntactic parser step.
  • Syntax parsing (parsing) is applied to step 6, annotated modified morphology, and identifies larger and more likely nested syntactic and clause structures, as shown in step 7.
  • This parsing step is performed using a standard NLP or chunking grammar or a computer language parsing method such as a recursive-descent parser.
  • the present invention allows the use of such parsing techniques.
  • step 4 or step 6 may be omitted, but not both.
  • Step 8 another pass of the pattern-matcher is applied, which includes patterns referencing syntactic structures and morpheme structures. It attaches another set of annotations to the morpheme and parsing structure, and reassociates that set of annotations to all referenced items in the library, in preparation for display and navigation in the reference finder.
  • Step 9 all analysis and pattern matching results can be reviewed by the user.
  • the results are presented graphically, in a progressive interactive form, allowing the user to drill-down to the part of the analysis that interests them most (relevant text or icons, etc. to find more information). Click to search as if through a hole).
  • the presentation system may store the analysis and navigation state of some or all of the input text so that the user can continue learning at a later time.
  • some elements of the analysis may experience long latency (translations and word lookups from external services), in which case the entire analysis may be partially passed to a 9-step display system, providing an immediate display (display).
  • display For this purpose, low-latency elements are presented, and longer-latency elements are presented asynchronously, which can be displayed as they become available.
  • Speech analyzers perform a well-known task in the field of natural language processing, which has several implementations.
  • the most popular approach is to use a deep neural-net model trained on a corpus of existing morphological parsing.
  • morphological analyzers are not perfect.
  • State-of-the-art convolutional neural network (CNN) based analyzers range from 97% to 98%, typically requiring the use of error-correction or accommodation schemes. Since the morphological analysis errors generated in the present invention can be captured as transformation patterns in the pattern library, this kind of error correction becomes part of the morphological transformations dealt with in step 4 of the operation overview above.
  • CNN convolutional neural network
  • the present invention uses a state-of-the-art analyzer in a new approach to language learning, rather than adding an existing language analyzer construction technique.
  • syntax parsing is a well-known component of natural language processing and computer language implementations, such as chunking grammars, declarative (/declarative) parser generators, or ad-hoc recursive descent. It can be used as a general approach to implement such a component as a hoc recursive-descent parser.
  • An ad-hoc recursive-descent parser has the advantage of accommodating context-sensitive parsing, which may be necessary for some grammars, in the context of natural language parsing.
  • parsing is primarily for educational purposes, often simpler, and coarser structures are easier for students to understand. Its other purpose is to aid in grammar or idiom pattern recognition, so only the syntactic constructs necessary for that purpose are required for the parser to recognize.
  • the pattern-based reference library is a key component of the present invention, and has several aspects and possible embodiments that are novel and worth developing within the present invention.
  • the structure of the text being studied is linked with the items that are transformed or explained in the library in a way that distinguishes patterns in the morphology and syntactic structure of the text.
  • This pattern definition and matching is the core mechanism of the present invention, and it accommodates any schema that does it reliably and efficiently.
  • An embodiment encodes the morphology of some text into a single string, and the pattern of the library item is expressed as regular-expressions for the token of the corresponding string.
  • a generalized pattern recognizing the form 'd/could' can be a regular expression:
  • the patterns that distinguish each construct of pedagogical value in the target language can be constructed in a number of ways.
  • the pattern is hand-coded by a grammar and education expert of the target language.
  • an expert uses examples of text containing instances of a particular pattern and guides the learning of that pattern.
  • many examples of text containing instances of patterns are used to train a neural network-based regular expression generator for the pattern.
  • the pedagogical structure of the original sentence may be directly discovered by a specially trained neural network in another embodiment of the reference library indexing scheme.
  • the training data is a corpus constituting text component sentences labeled with direct links to reference library items.
  • a two-step approach is also possible, where a guided set of patterns or a manual set of patterns is used to generate a large corpus labeled with library item indexes, resulting in a trained neural network that performs significantly better than bulk regular expression searches. way is possible
  • the stemmers, syntax parsers and pattern sets are specific to each target language (the language being studied) and are developed once for that language.
  • One embodiment of a reference library where all descriptions, labeling, and translations are organized in terms of vectors, partitioned by learner language (the student's native or fluent language) so that the same library and target language component can easily support multiple learner languages. .
  • the reference library will contain most or all of the useful standard vocabulary, syntax and grammatical structures of the target language.
  • the library may be extended to include patterns and descriptions for idioms or slang phrases, since the presence of these forms in instances generated from the language is a common source of difficulty for language learners.
  • the same mechanisms used to define, recognize, and describe grammatical patterns can be used for idiomatic forms.
  • sentence-level patterns that are generally well-known equivalents among general expressions between the two languages.
  • the general form “I hope X” is a common character equivalent to "If X, it will be good” in Korean in English, such as "I hope you can come” (“If X, it will be good”)
  • sentence-level patterns can also be defined and recognized by the mechanism of the present invention, and thus will be added to a reference library in some embodiments.
  • a particularly useful educational component of a learning tool is that it provides many examples of the use of constructs (words) being learned.
  • One embodiment of this system automatically discovers such examples in an existing corpus of the target language using pattern definitions.
  • Another useful element in a network-connected embodiment of the present invention is to provide a link within a referenced library item to an external source of additional educational or background information.
  • This includes links to relevant pages on traditional learning sites, or even Youtube videos or online reference books or cultural or historical sites.
  • Embodiments of the invention that support external references may include links and other citations of this kind that may be deemed useful.
  • a reference library containing the standard vocabulary, syntax, and grammatical structures of a language is a relatively limited training and is similar to that required to create a grammar textbook for a language. Extending the library to include other material such as idioms, slang, sentence patterns, extensive examples, and xref links becomes more of a task that can be gradually implemented over time.
  • a possible embodiment of the present invention includes a crowdsourcing system that invites contributions to the library from all users with typical crowdsourcing controls over the quality and content found in other crowdsourced content services such as Wikipedia or Widictionary.
  • An intermediate embodiment of this idea includes a generic open-text-feedback system that is reviewed and curated by language-education experts of the service to extract and enter the library.
  • Crowdsourcing techniques may also be used in embodiments of the present invention to source the learner language reference material translations mentioned in the Multi-Learner Languages section above.
  • a self-learning mode that enables navigation, instances generated for a target language are analyzed by artificial intelligence (AI) and natural language processing components, and then automatically maps to appropriate entries in an associated reference library, wherein the user It allows you to explore the parts-of-speech, word meaning, syntactic structure, grammar, and idiom patterns used in a given language instance.
  • AI artificial intelligence

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Tourism & Hospitality (AREA)
  • Software Systems (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Mathematical Physics (AREA)
  • Economics (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Evolutionary Computation (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 기계학습, 자연어처리 및 패턴기반 참조 라이브러리 기반 탐색 언어학습 시스템에 관한 것으로, 언어에서 발생된 인스턴스를 수집하거나 입력하기 위한 입력시스템(input system), 언어적 단위, 단어, 어간, 접사, 발음기호 등 입력문자의 어형 축소와 품사를 생성하는 어형 분석기(morphological analyzer), 상기 어형 축소에서 더 큰 구문 및 절 구조를 인식하는 구문구조 파서(phrase-structure parser), 어형 및 구문구조 패턴에 의해 색인된 참조 라이브러리(reference library), 탐색한 인스턴스의 분석 및 파싱(구문분석)에서 패턴이 존재하고 있는 참조 라이브러리 항목을 찾아 주는 패턴매칭 시스템(pattern-matching system), 및 사용자가 관련 참조 자료를 보고 탐색할 수 있는 프레젠테이션 시스템(presentation system)을 포함한다.

Description

기계학습, 자연어처리 및 패턴기반 참조 라이브러리 기반 탐색 언어학습 시스템 및 방법
본 발명은 기계학습, 자연어처리 및 패턴기반 참조 라이브러리 기반 탐색 언어학습 시스템 및 방법에 관한 것으로, 더욱 상세하게는, 외국어를 배우는 개인이나 모국어를 사용하는 학생을 위한 학습 보조도구로 설계된 컴퓨터기반 시스템으로서, 탐색을 가능하게 하고, 타겟 언어에 대해 발생된 인스턴스가 인공지능(AI)과 자연어 처리 컴포넌트에 의하여 분석되고, 그리고나서 연계되는 참조 라이브러리의 적절한 항목에 자동으로 매핑하는 자가 학습 모드로서, 사용자가 해당 언어 인스턴스에서 사용되는 품사, 단어 의미, 구문 구조, 문법 및 관용구 패턴을 탐색할 수 있도록 하는 기계학습, 자연어처리 및 패턴기반 참조 라이브러리 기반 탐색 언어학습 시스템 및 방법에 관한 것이다.
본 발명은 미국 가출원 제62986757호(2020년03월08일)(Exploratory language-learning system based on ML, NLP and a pattern-based reference library)의 내용을 포함하고 있는 것이다.
인터넷 서비스의 발달로 다른 나라의 동영상 컨텐츠를 개인 단말기기 혹은 전자장치를 이용하여 즐기는 인구가 늘고 있다.
특히 K-POP의 영향으로 영어권 국가에서 한국어 가요영상 뿐만 아니라고 영화등 다양한 영상컨텐츠를 시청하는 경우가 늘고 있다.
그런데, 예를 들어 영어를 사용하는 Viki등의 동영상 시청프로그램을 사용하여 한국어 영상을 시청하면서 자막을 통해 서비스되는 한국어를 학습하거나 해당 한국어의 영어를 찾아보고자 할 때 그에 대응하는 즉각적인 서비스가 되지 않고 있는 실정이다.
[선행기술문헌]
대한민국 특허 등록번호 제10-1578991호(2015년12월14일 등록)(발명의 명칭:
DOM기반 동형을 이용하여 웹브라우징 연산을 메모라이징)
본 발명은 상술한 종래의 실정을 감안하여 제안된 것으로서, 본 발명의 목적은 외국어를 배우는 개인이나 모국어를 사용하는 학생을 위한 학습 보조도구로 설계된 컴퓨터기반 시스템으로서, 탐색을 가능하게 하고, 타겟 언어에 대해 발생된 인스턴스가 인공지능(AI)과 자연어 처리 컴포넌트에 의하여 분석되고, 그리고나서 연계되는 참조 라이브러리의 적절한 항목에 자동으로 매핑하는 자가 학습 모드로서, 사용자가 해당 언어 인스턴스에서 사용되는 품사, 단어 의미, 구문 구조, 문법 및 관용구 패턴을 탐색할 수 있도록 하는 기계학습, 자연어처리 및 패턴기반 참조 라이브러리 기반 탐색 언어학습 시스템 및 방법을 제공하는 것이다.
본 발명의 실시예에 따른 기계학습, 자연어처리 및 패턴기반 참조 라이브러리 기반 탐색 언어학습 시스템은 언어에서 발생된 인스턴스를 수집하거나 입력하기 위한 입력수단,
상기 입력수단을 통해 입력된 문장을 언어적 단위, 단어, 어간, 접사 및 발음기호 입력문자의 어형 축소와 품사를 생성하는 어형 분석기(morphological analyzer),
어형 및 구문구조 패턴에 의해 색인된 참조 라이브러리(reference library),
상기 어형 분석기에 의해 처리된 내용을 참조 라이브러리를 참조로 하여 처리하는 어휘 패턴 매칭기(lexical pattern match),
상기 어휘 패턴 매칭기에서 처리된 어형 구조를 구문 구조를 처리하여 더 큰 구문 및 절 구조를 인식하는 구문구조 파서(phrase-structure parser),
상기 구문구조 파서를 통해 처리된 구문 구조를 상기 참조 라이브러리를 참조로 하여 처리하는 라이브러리 패턴매칭기(library pattern-match), 및
사용자가 관련 참조 자료를 보고 탐색할 수 있는 참조 익스플로러(reference explorer)를 포함한다.
상술한 바와 같이, 본 발명에 따른 기계학습, 자연어처리 및 패턴기반 참조 라이브러리 기반 탐색 언어학습 시스템 및 방법에 의하면, 외국어를 배우는 개인이나 모국어를 사용하는 학생을 위한 학습 보조도구로 설계된 컴퓨터기반 시스템으로서, 탐색을 가능하게 하고, 타겟 언어에 대해 발생된 인스턴스가 인공지능(AI)과 자연어 처리 컴포넌트에 의하여 분석되고, 그리고나서 연계되는 참조 라이브러리의 적절한 항목에 자동으로 매핑하는 자가 학습 모드로서, 사용자가 해당 언어 인스턴스에서 사용되는 품사, 단어 의미, 구문 구조, 문법 및 관용구 패턴을 탐색할 수 있도록 하는 효과가 있다.
도 1은 본 발명에 따른 기계학습, 자연어처리 및 패턴기반 참조 라이브러리 기반 탐색 언어학습 시스템에서의 학습 과정을 개략적으로 설명하는 기능 설명도이다.
본 발명의 실시예에 따른 기계학습, 자연어처리 및 패턴기반 참조 라이브러리 기반 탐색 언어학습 시스템은 언어에서 발생된 인스턴스를 수집하거나 입력하기 위한 입력수단,
상기 입력수단을 통해 입력된 문장을 언어적 단위, 단어, 어간, 접사 및 발음기호 입력문자의 어형 축소와 품사를 생성하는 어형 분석기(morphological analyzer),
어형 및 구문구조 패턴에 의해 색인된 참조 라이브러리(reference library),
상기 어형 분석기에 의해 처리된 내용을 참조 라이브러리를 참조로 하여 처리하는 어휘 패턴 매칭기(lexical pattern match),
상기 어휘 패턴 매칭기에서 처리된 어형 구조를 구문 구조를 처리하여 더 큰 구문 및 절 구조를 인식하는 구문구조 파서(phrase-structure parser),
상기 구문구조 파서를 통해 처리된 구문 구조를 상기 참조 라이브러리를 참조로 하여 처리하는 라이브러리 패턴매칭기(library pattern-match), 및
사용자가 관련 참조 자료를 보고 탐색할 수 있는 참조 익스플로러(reference explorer)를 포함한다.
본 발명의 다른 측면에 따르면, 사용자로부터 탐색하려는 텍스트가 입력되었는지를 확인하는 제1 단계,
형태소 분석기는 입력된 문장을 처리하고 문장의 어형 분류(breakdown) 생성하는 제2 단계,
다양한 종류의 접사(affixes)들을 분리하고 라벨을 붙이며, 동사의 어간을 분리하고, 모든 형태소에 적절한 품사를 할당하는 제3 단계,
패턴 일치장치(pattern-matcher)가 초기 "어휘(lexical)" 패스(pass)를 라이브러리의 형태소기반 패턴에 대하여 형성하는 제4 단계,
어휘 패스는 조동사 패턴과 같은 잠재적인 복합 형태소 구조를 생성하는 제 5단계,
주석이 달린 변형된 어형 구조에 구문구조 파싱(구문분석)이 적용되는 제 6 단계,
보다 크고 중첩될 수 있는 구문 및 절 구조를 식별하는 제 7 단계(파싱 단계), 및
패턴 일치장치(pattern-matcher)의 다른 패스가 적용되는 제 8 단계를 포함하는 것을 특징으로 하는 기계학습, 자연어처리 및 패턴기반 참조 라이브러리 기반 탐색 언어학습 시스템을 통한 언어학습 방법이 제공된다.
또한, 상기 파싱단계는 표준 NLP 또는 청킹(chunking) 문법 또는 재귀하강(recursive-descent) 파서와 같은 컴퓨터언어 파싱 방법을 이용하여 수행되는 것을 특징으로 한다.
또한, 구문 구조와 형태소 구조를 참조하는 패턴을 포함하고, 형태소와 파싱 구조에 다른 주석 세트를 첨부하고, 참조 탐색기에서 표시와 탐색을 대비하여, 라이브러리의 모든 참조 항목에 그 주석세트를 다시 연결하는 것을 특징으로 한다.
또한, 결과는 그래픽으로, 점차적인 대화형 형태로 제공되어, 사용자가 가장 관심있는 분석 부분으로 드릴 다운(drill-down)되도록 하는 것을 특징으로 한다.
이하, 본 발명에 따른 기계학습, 자연어처리 및 패턴기반 참조 라이브러리 기반 탐색 언어학습 시스템 및 방법을 첨부도면을 참조로 상세히 설명한다.
도 1은 본 발명에 따른 기계학습, 자연어처리 및 패턴기반 참조 라이브러리 기반 탐색 언어학습 시스템에서의 학습 과정을 개략적으로 설명하는 기능 설명도이다.
도 1을 참조하면, 본 발명은 외국어를 배우는 개인이나 모국어를 사용하는 학생을 위한 학습 보조도구로 설계된 컴퓨터기반 시스템이다. 본 발명에 따르면, 탐색을 가능하게 하고, 타겟 언어에 대해 발생된 인스턴스가 인공지능(AI)과 자연어 처리 컴포넌트에 의하여 분석되고, 그리고 나서 연계되는 참조 라이브러리의 적절한 항목에 자동으로 매핑하는 자가 학습 모드로서, 사용자가 해당 언어 인스턴스에서 사용되는 품사, 단어 의미, 구문 구조, 문법 및 관용구 패턴을 탐색할 수 있도록 한다.
참조 라이브러리에는 타겟 언어의 각 요소에 대한 광범위한 자료가 포함될 수 있는데, 이용 노트, 대체 예제 사용, 외부 참조 사이트 링크, 도서 인용 등이 이에 포함된다. 그것은 ML(Machine Learning) 및 NLP(Natural Language Processing) 컴포넌트가 찾은 어형 및 구문 패턴에 의해 색인되고, 상향식 학습의 한 형태가 가능하게 하며, 유기적으로 생성된 텍스트가 학습 및 디스커버리 프로세스를 구동하여, 구조화된 교육용 프로그램(courseware) 및 수업 커리큘럼의 일반적인 하향식 접근 방식을 확장하는 방식으로 구성된다.
여기에 제시된 발명은 적절하게 학습된 분석기, 파서(parser) 및 라이브러리 항목, 각 학습자 언어로 참조 자료를 복제하는 것만으로 특정 타겟 언어의 여러 학습자 언어를 포함함으로써, 타겟 언어와 학습자 언어의 모든 조합에 적용될 수 있다. 타겟 언어 자체의 참고 자료 버전은 학교 및 기타 교육적인 컨텍스트에서 타겟 언어 원어민이 사용할 수 있다.
작동 원리
본 발명의 일 실시 예는 다음 컴포넌트를 포함한다; 아래의 실시 예 부분에서 설명된 바와 같이 다른 실시 예가 가능하다.
1. 언어에서 발생된 인스턴스를 수집하거나 입력하기 위한 입력시스템(input system)
2. 언어적 단위, 단어, 어간, 접사, 발음기호 등 입력문자의 어형 축소와 품사를 생성하는 어형 분석기(morphological analyzer)
3. 상기 어형 축소에서 더 큰 구문 및 절 구조를 인식하는 구문구조 파서(phrase-structure parser)
4. 어형 및 구문구조 패턴에 의해 색인된 참조 라이브러리(reference library)
5. 탐색한 인스턴스의 분석 및 파싱(구문분석)에서 패턴이 존재하고 있는 참조 라이브러리 항목을 찾아 주는 패턴매칭 시스템(pattern-matching system)
6. 사용자가 관련 참조 자료를 보고 탐색할 수 있는 프레젠테이션 시스템(presentation system).
도 1에서, 기계학습, 자연어처리 및 패턴기반 참조 라이브러리 기반 탐색 언어학습 시스템은 언어에서 발생된 인스턴스를 수집하거나 입력하기 위한 입력수단, 상기 입력수단을 통해 입력된 문장을 언어적 단위, 단어, 어간, 접사 및 발음기호 입력문자의 어형 축소와 품사를 생성하는 어형 분석기(morphological analyzer)(10),
어형 및 구문구조 패턴에 의해 색인된 참조 라이브러리(reference library)(50),
상기 어형 분석기에 의해 처리된 내용을 참조 라이브러리를 참조로 하여 처리하는 어형 패턴 매칭기(lexical pattern match)(20),
상기 어형 패턴 매칭기(20)에서 처리된 어형 구조를 구문 구조를 처리하여 더 큰 구문 및 절 구조를 인식하는 구문구조 파서(phrase-structure parser)(30),
상기 구문구조 파서(30)를 통해 처리된 구문 구조를 상기 참조 라이브러리를 참조로 하여 처리하는 라이브러리 패턴매칭기(library pattern-match)(40), 및
사용자가 관련 참조 자료를 보고 탐색할 수 있는 참조 익스플로러(reference explorer)(60)를 포함한다.
상기 입력수단은 특정한 영상(스트리밍 혹은 이에 제한되지 않음)(장치)내에 프로그래밍적으로 혹은 하드웨어적으로 특정언어의 표시가 가능하도록 하는 수단 혹은 영화나 연극 및 각종 영상을 출력하는 서비스를 제공하는 영상속에서 문자화면의 출력과 연관되어 작동가능한 입력장치 일 수 있다. 그러나 이에 제한되지 않으며, 별도로 영상을 출력하는 장치에 외부 입력장치로 연결되어 영상에 문자를 오버레이 방식 혹은 화면내 특정위치에 표시하는 방식으로 작동되는 입력장치일 수도 있다. 이 입력장치는 본 발명에 따른 언어학습시스템과 연동되어 작동될 수 있다.
이러한 컴포넌트는 도 1과 같이 작동한다.
①단계, 사용자는 탐색하려는 텍스트를 입력한다. 위의 예에서 학생은 한국어를 학습 중이고, 한국어로 “나는 자전거를 탈 수 있다(I can ride a bicycle)”이라는 문장을 입력한다.
② 단계, 형태소 분석기는 입력된 문장을 처리하고 문장의 어형 분류(breakdown) 생성한다. ③ 단계, 다양한 종류의 접사(affixes)들을 분리하고 라벨을 붙이며, 동사의 어간을 분리하고, 모든 형태소에 적절한 품사를 할당한다. 현재 형태소 분석기는 일반적으로 심층(deep) 신경망(neural network)이며, 본 발명은 기존 분석기 또는 이러한 목적을 위해 특별히 학습된 새 분석기의 사용을 허용한다. 이것은 아래의 어형 분석기 부분에서 더 자세히 다룬다.
④ 단계, 패턴 일치장치(pattern-matcher)의 초기 "어휘(lexical)" 패스(pass)는 라이브러리의 형태소기반 패턴에 대하여 형성된다. 일치된 패턴은 형태소 구조에 주석을 달고 변형할 수 있으며, ⑤에서의 “ㄹ 수있”(= 할 수 있(can do)) 조동사 패턴과 같은 잠재적인 복합 형태소 구조를 생성한다. 이러한 주석 및 변환은 참조 탐색기로 전달되지만, 다음 구문구조 파서(Parser) 단계에 중요한 도움이 될 수도 있다.
⑥ 단계, 주석이 달린 변형된 어형 구조에 구문구조 파싱(구문분석)이 적용되고, ⑦ 단계에서 보이는 것처럼, 보다 크고 중첩될 수 있는 구문 및 절 구조를 식별한다. 이 파싱 단계는 표준 NLP 또는 청킹(chunking) 문법 또는 재귀하강(recursive-descent) 파서와 같은 컴퓨터언어 파싱 방법을 이용하여 수행한다. 본 발명은 이러한 파싱 기술의 사용을 허용한다. 본 발명의 일부 실시 예는, 일반성을 잃지 않고, ④ 단계 또는 ⑥ 단계를 생략할 수 있지만 둘 다 모두 생략할 수는 없다.
⑧ 단계, 패턴 일치장치(pattern-matcher)의 다른 패스가 적용되는데, 이때 구문 구조와 형태소 구조를 참조하는 패턴을 포함한다. 이는 형태소와 파싱 구조에 다른 주석 세트를 첨부하고, 참조 탐색기에서 표시와 탐색을 대비하여, 라이브러리의 모든 참조 항목에 그 주석세트를 다시 연결한다.
⑨ 단계, 모든 분석 및 패턴 매칭 결과를 사용자가 검토할 수 있다. 본 발명의 일 실시 예에서, 결과는 그래픽으로, 점차적인 대화형 형태로 제공되어, 사용자가 가장 관심있는 분석의 부분으로 드릴 다운(drill-down)(더 많은 정보를 찾기 위해 관련 텍스트나 아이콘등을 클릭하여 마치 뚫고 들어가듯이 검색하는 것) 되도록 한다. 프리젠테이션 시스템은 사용자가 추후에 계속 학습할 수 있도록, 입력된 텍스트의 일부 또는 전부의 분석 및 탐색 상태를 저장할 수 있다.
다른 실시 예에서, 분석의 일부 요소는 긴 대기시간이 발생할 수 있고(외부 서비스에서 번역 및 단어 조회), 이 경우 전체 분석은 ⑨ 단계 디스플레이 시스템에 부분적으로 전달될 수 있으며, 즉각적인 디스플레이(표시)를 위해 대기시간이 짧은 요소가 제공되고, 대기시간이 보다 긴 요소(longer-latency)는 비동기식으로 제공되는데, 그 요소들이 이용가능할 때 디스플레이될 수 있다.
실시 예
본 발명의 다양한 요소는 다수의 실시 예에 존재할 수 있다. 아래는 그 중 일부를 더 자세히 제시한 것이다.
어형 분석기(The morphological analyzer)
어형 분석기는 자연어처리 분야에서 잘 알려진 작업을 수행하며, 이는 여러 구현 방식이 있다. 현재 가장 인기있는 접근 방식은 기존 어형 파싱의 말뭉치(corpuse)에 대해 학습된 심층(deep) 신경망(neural-net) 모델을 사용하는 것이다. 다양한 언어로 사용할 수 있는 기존 모델이 있거나, 새로운 모델을 학습시킬 수 있다.
대부분의 어형 분석기는 완벽하지 않다. CNN(Convolutional Neural Network)기반 분석기의 최신 기술은 97%~98%범위로, 일반적으로 오류 수정(error-correction) 또는 조정 스키마(accommodation schemes)를 사용해야 한다. 본 발명에서 발생되는 어형 분석 오류는 패턴 라이브러리에서 변형 패턴으로 캡처될 수 있으므로(captured), 이러한 종류의 오류 수정은 상기 작동 개요의 ④ 단계에서 다루어진 어형구조 변환에서 일부분이 된다.
본 발명은 기존의 어형 분석기 구성 기술을 추가하는 것이 아니라, 언어 학습에 대한 새로운 접근 방식에서 최첨단(state-of-the-art) 분석기를 사용한다.
구문구조 파서(Phrase-structure parser)
어형 분석기 컴포넌트와 유사한 방식으로, 구문구조 파싱(parsing)은 자연어 처리 및 컴퓨터 언어 구현의 잘 알려진 요소이며, 청킹 문법, 평서문의(/선언적) 파서 생성기(declarative parser generators) 또는 애드혹 재귀하강(ad-hoc recursive-descent) 파서와 같은 이러한 컴포넌트를 구현하는데 일반적 접근 방식으로 사용할 수 있다.
애드혹 재귀하강(ad-hoc recursive-descent) 파서는 자연어 파싱의 컨텍스트에서, 일부 문법에 필요할 수 있는 컨텍스트(context-sensitive)에 민감한 파싱을 수용하는 이점이 있다.
또한, 인코딩한 학습 데이터가 주어지면, 어형 구조분해 및 구문 구조화를 모두 인식하고 출력하기 위한 신경망 기반 분석기를 학습시킬 수 있다.
광범위하고 완전한 구문구조 파싱은 이 응용프로그램(application)에서 필수적인 것은 아니며, 파싱은 주로 교육적 목적을 가지고 있고, 종종 더 간단하며, 거친 구조는 학생들이 이해하기 더 쉽다. 다른 목적은 문법 또는 관용구 패턴인식을 돕는 것이므로, 파서가 인식할 수 있게 해당 목적에 필수적인 구문구조만 필요하다.
패턴 기반 참조 라이브러리(Pattern-based reference library)
패턴기반 참조 라이브러리는 본 발명의 핵심 컴포넌트이며, 본 발명 내에서 새로우며 전개할 만한 가치가 있는 여러 측면 및 가능한 실시 예를 갖는다.
패턴 스키마(Pattern schemes)
학습중인 텍스트의 구조는 해당 텍스트의 어형과 구문 구조에서 패턴을 구별하는 방식으로 라이브러리내 변형 또는 설명하는 항목과 연계된다. 이러한 패턴 정의 및 매칭은 본 발명의 핵심 메커니즘이며, 이를 안정적이고 효율적으로 수행하는 모든 스키마를 수용한다.
일 실시 예는 일부 텍스트의 어형구조를 단일 문자열로 인코딩하고, 라이브러리 항목의 패턴은 해당 문자열의 토큰에 대한 정규식(regular-expressions)으로 표현된다. 예를 들면, 위 다이어그램의 샘플 한국어 문장의 형태소 구조(=“나는 자전거를 탈 수있 다”)는 다음과 같이 나타낼 수 있다.:
;저: NP;는: J X;자전거: NNG;를: J KO;타: VV;ㄹ: ETM;수: NNB;있: VV;어요: EF;
형태소 + 품사의 쌍으로 구성되어 세미콜론으로 분리된 시퀀스(sequence), 품사는 NLP에서 사용되는 공통 태그 코드로, NP = 고유 명사, NNG = 일반 명사, VV = 동사 등.
그리고 나서, ‘ㄹ /을 수 있다’ 형식을 인식하는 일반화된 패턴은 정규식이 될 수 있다:
( ( [ ^: ] +) : V[ A- Z] +) (ㄹ|을) : ETM;수: NNB;있: VV
의존명사 ‘수’ 앞에 ‘ㄹ’ 또는 ‘을’ 파티클(particles)(불변화사)이 앞에 오는 모든 동사와 조동사 ‘있다’의 모든 활용동사(conjugation)를 일치시킨다.
패턴 라이브러리 수가 증가함에 따라, 모든 패턴의 순차적인 테스트는 계산상 거부될 수 있으므로 검색 최적화가 필요하다. 최적화의 간단한 실시 예는 공통 접두사(prefixes)에 대한 모든 패턴의 트리 코딩(trie-coding)이 될 수 있다.(트리는 명령 트리 데이터 구조(ordered tree data structure)를 말한다.)
안내 및 샘플학습된 패턴 (Guided- and sample-trained patterns)
타겟 언어에서 교육학적인 가치의 각 구성을 구별하는 패턴은 여러 가지 방법으로 구성될 수 있다. 일 실시 예에서, 패턴은 타겟 언어의 문법 및 교육 전문가에 의해 수작업으로 코딩된다(hand-coded). 또 다른 경우에는, 전문가가 특정 패턴의 사례를 포함하는 텍스트의 예를 사용하고 해당 패턴의 학습을 가이드한다. 또 다른 실시 예에서, 패턴의 인스턴스를 포함하는 텍스트의 많은 예시들이 패턴에 대한 신경망기반 정규식 생성기를 학습시키는 데 사용된다.
직접 신경망 구조 인식(Direct neural-net structure recognition)
원본 문장의 교육학적 구조는 참조 라이브러리 인덱싱 스키마의 또 다른 실시 예에서 특별히 학습된 신경망에 의해 직접 발견될 수도 있다. 이 경우, 학습 데이터는 참조 라이브러리 항목에 대하여 직접 링크로 레이블이 지정된 텍스트 컴포넌트 문장을 구성하는 하나의 말뭉치(corpus)이다. 두 단계 접근 방식도 가능하여, 가이드된 세트의 패턴 또는 수동 세트의 패턴이 라이브러리 항목 인덱스로 레이블이 지정된 큰 말뭉치를 생성하기 위해 이용되는 방식, 대량의 정규식 검색보다 훨씬 성능이 좋은 훈련된 신경망을 생성하는 방식이 가능하다.
다중 학습자 언어(Multiple learner languages)
형태소 분석기, 구문 파서 및 패턴세트는 각 타겟언어(학습중인 언어)에 따라 다르며 해당 언어에 대해 한 번 개발된다. 모든 설명, 라벨링 및 번역이 벡터(vectors)의 식으로 구성된 참조 라이브러리의 일 실시 예로, 학습자 언어(학생의 모국어 또는 유창한 언어)별로 분할됨으로써 동일한 라이브러리 및 타겟언어 컴포넌트가 다중 학습자 언어를 쉽게 지원할 수 있다.
관용구 및 문장 패턴 및 형식 문법(Idiom and sentence patterns as well as formal grammar)
본 발명의 일부 실시 예에서 참조 라이브러리는 타겟 언어의 유용한 표준 어휘, 구문 및 문법 구조의 대부분 또는 전부를 포함할 것이다. 다른 실시 예에서, 라이브러리는 관용구 또는 속어 구문에 대한 패턴 및 설명을 포함하도록 확장될 수 있는데, 언어로부터 생성된 인스턴스에서 이러한 형태의 존재는 언어 학습자에게 공통적인 어려움의 근원이 되기 때문이다. 문법 패턴을 정의, 인식 및 설명하는데 이용하는 동일한 메커니즘은 관용적 형식에 사용될 수 있다.
또한, 두 언어 사이의 일반적인 표현 중 일반적으로 잘 알려진 등가물(equivalent)인 문장레벨의 패턴들이 있다. 예를 들어, "I hope X"라는 일반적인 형식은, "I hope you can come” 처럼, 영어에서는 한국어로 "만약 X이면 좋을 것이다"(“If X, it will be good”)에 상당하는 공통 문자 형식을 가진다. 이러한 문장레벨 패턴은 또한 본 발명의 메커니즘에 의해 정의되고 인식될 수 있으며, 따라서 일부 실시 예에서 참조 라이브러리에도 추가될 것이다.
NLP에서 발견된 예제 사용(NLP-discovered example uses)
여기 설명한 것처럼 학습 도구에서 특히 유용한 교육적 요소는 학습중인 구성체(construct,단어들)의 사용에 대한 많은 예제를 제공하는 것이다. 이 시스템의 일 실시 예는 패턴 정의를 사용하여 타겟 언어의 기존 말뭉치에서 이러한 예제를 자동으로 발견한다.
외부 참조 (External references)
본 발명의 네트워크 연결 실시 예에서 다른 유용한 요소는 추가 교육 또는 배경 정보의 외부 소스에 대하여 참조 라이브러리 항목 내에 링크를 제공하는 것이다. 여기에는 전통적 학습 사이트의 관련 페이지 링크가 포함되며, 또는 Youtube 비디오 또는 온라인 참고 서적 또는 문화적 또는 역사적 사이트도 포함된다. 외부 참조를 지원하는 본 발명의 실시 예는 유용한 것으로 간주 될 수 있는 이러한 종류의 링크 및 다른 인용을 포함할 수 있다.
크라우드 소싱(Crowd-sourcing)
언어의 표준 어휘, 구문 및 문법 구조를 포함하는 참조 라이브러리의 구성은 상대적으로 제한된 훈련이며, 언어에 대한 문법 교과서를 만드는 데 필요한 것과 유사하다. 관용구, 속어, 문장 패턴, 광범위한 예제 및 외부 참조 링크와 같은 다른 자료를 포함하도록 라이브러리를 확장하는 것은 시간이 지남에 따라 점진적으로 구현될 수 있는 보다 많은 작업이 된다.
본 발명의 가능한 실시 예는 Wikipedia 또는 Wiktionary와 같은 다른 크라우드 소싱 콘텐츠 서비스에서 발견되는 품질 및 콘텐츠에 대한 전형적인 크라우드 소싱 제어와 함께 모든 사용자로부터 라이브러리에 대한 기여를 초대하는 크라우드 소싱 시스템을 포함한다. 이러한 아이디어의 중간적인(intermediate) 실시예는 라이브러리를 추출하고(extract) 라이브러리에 진입하기 위해(enter) 서비스의 언어-교육 전문가들에 의해 검토되고 준비된(curated) 일반적인 오픈-텍스트-피드백 시스템을 포함한다
크라우드 소싱 기술은 또한, 위의 다중 학습자 언어 섹션에서 언급된 학습자 언어 참조 자료 번역을 소싱하기 위해 본 발명의 실시 예에 사용될 수 있다.
본 발명의 기술 사상은 상기 바람직한 실시 예에 따라 구체적으로 기술되었으나, 상기한 실시 예는 그 설명을 위한 것이며 그 제한을 위한 것이 아님을 주의하여야 한다. 또한, 본 발명의 기술 분야의 통상의 전문가라면 본 발명의 기술 사상의 범위 내에서 다양한 실시 예가 가능함을 이해할 수 있을 것이다.
상술한 바와 같이, 본 발명에 따른 기계학습, 자연어처리 및 패턴기반 참조 라이브러리 기반 탐색 언어학습 시스템 및 방법에 의하면, 외국어를 배우는 개인이나 모국어를 사용하는 학생을 위한 학습 보조도구로 설계된 컴퓨터기반 시스템으로서, 탐색을 가능하게 하고, 타겟 언어에 대해 발생된 인스턴스가 인공지능(AI)과 자연어 처리 컴포넌트에 의하여 분석되고, 그리고나서 연계되는 참조 라이브러리의 적절한 항목에 자동으로 매핑하는 자가 학습 모드로서, 사용자가 해당 언어 인스턴스에서 사용되는 품사, 단어 의미, 구문 구조, 문법 및 관용구 패턴을 탐색할 수 있도록 한다.

Claims (5)

  1. 언어에서 발생된 인스턴스를 수집하거나 입력하기 위한 입력수단,
    상기 입력수단을 통해 입력된 문장을 언어적 단위, 단어, 어간, 접사 및 발음기호 입력문자의 어형 축소와 품사를 생성하는 어형 분석기(morphological analyzer),
    어형 및 구문구조 패턴에 의해 색인된 참조 라이브러리(reference library),
    상기 어형 분석기에 의해 처리된 내용을 참조 라이브러리를 참조로 하여 처리하는 어휘 패턴 매칭기(lexical pattern match),
    상기 어휘 패턴 매칭기에서 처리된 어형 구조를 구문 구조를 처리하여 더 큰 구문 및 절 구조를 인식하는 구문구조 파서(phrase-structure parser),
    상기 구문구조 파서를 통해 처리된 구문 구조를 상기 참조 라이브러리를 참조로 하여 처리하는 라이브러리 패턴매칭기(library pattern-match), 및
    사용자가 관련 참조 자료를 보고 탐색할 수 있는 참조 익스플로러(reference explorer)를 포함하는 기계학습, 자연어처리 및 패턴기반 참조 라이브러리 기반 탐색 언어학습 시스템.
  2. 사용자로부터 탐색하려는 텍스트가 입력되었는지를 확인하는 제1 단계,
    형태소 분석기는 입력된 문장을 처리하고 문장의 어형 분류(breakdown) 생성하는 제2 단계,
    다양한 종류의 접사(affixes)들을 분리하고 라벨을 붙이며, 동사의 어간을 분리하고, 모든 형태소에 적절한 품사를 할당하는 제3 단계,
    패턴 일치장치(pattern-matcher)가 초기 "어휘(lexical)" 패스(pass)를 라이브러리의 형태소기반 패턴에 대하여 형성하는 제4 단계,
    어휘 패스는 조동사 패턴과 같은 잠재적인 복합 형태소 구조를 생성하는 제 5단계,
    주석이 달린 변형된 어형 구조에 구문구조 파싱(구문분석)이 적용되는 제 6 단계,
    보다 크고 중첩될 수 있는 구문 및 절 구조를 식별하는 제 7 단계(파싱 단계), 및
    패턴 일치장치(pattern-matcher)의 다른 패스가 적용되는 제 8 단계를 포함하는 것을 특징으로 하는 기계학습, 자연어처리 및 패턴기반 참조 라이브러리 기반 탐색 언어학습 시스템을 통한 언어학습 방법.
  3. 제 2 항에 있어서, 상기 파싱단계는 표준 NLP 또는 청킹(chunking) 문법 또는 재귀하강(recursive-descent) 파서와 같은 컴퓨터언어 파싱 방법을 이용하여 수행되는 것을 특징으로 하는 기계학습, 자연어처리 및 패턴기반 참조 라이브러리 기반 탐색 언어학습 시스템을 통한 언어학습 방법.
  4. 제 2 항에 있어서, 구문 구조와 형태소 구조를 참조하는 패턴을 포함하고, 형태소와 파싱 구조에 다른 주석 세트를 첨부하고, 참조 탐색기에서 표시와 탐색을 대비하여, 라이브러리의 모든 참조 항목에 그 주석세트를 다시 연결하는 것을 특징으로 하는 기계학습, 자연어처리 및 패턴기반 참조 라이브러리 기반 탐색 언어학습 시스템을 통한 언어학습 방법.
  5. 제 2 항에 있어서, 결과는 그래픽으로, 점차적인 대화형 형태로 제공되어, 사용자가 가장 관심있는 분석 부분으로 드릴 다운(drill-down)되도록 하는 것을 특징으로 하는 기계학습, 자연어처리 및 패턴기반 참조 라이브러리 기반 탐색 언어학습 시스템을 통한 언어학습 방법.
PCT/KR2021/002856 2020-03-08 2021-03-08 기계학습, 자연어처리 및 패턴기반 참조 라이브러리 기반 탐색 언어학습 시스템 및 방법 WO2021182828A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/909,511 US20230112674A1 (en) 2020-03-08 2021-03-08 Exploratory language-learning system based on ml, nlp and pattern-based reference library

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202062986757P 2020-03-08 2020-03-08
US62/986,757 2020-03-08
KR1020200137119A KR20210113551A (ko) 2020-03-08 2020-10-21 기계학습, 자연어처리 및 패턴기반 참조 라이브러리 기반 탐색 언어학습 시스템 및 방법
KR10-2020-0137119 2020-10-21

Publications (1)

Publication Number Publication Date
WO2021182828A1 true WO2021182828A1 (ko) 2021-09-16

Family

ID=77670861

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/002856 WO2021182828A1 (ko) 2020-03-08 2021-03-08 기계학습, 자연어처리 및 패턴기반 참조 라이브러리 기반 탐색 언어학습 시스템 및 방법

Country Status (1)

Country Link
WO (1) WO2021182828A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100413784B1 (ko) * 1997-04-29 2004-02-14 삼성전자주식회사 절단위 분할기를 갖춘 영한 번역 장치 및 그영어 해석 방법
KR20050027298A (ko) * 2003-09-15 2005-03-21 한국전자통신연구원 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드자동 번역 장치 및 방법과 그 프로그램을 기록한 컴퓨터로읽을 수 있는 기록매체
KR20110027361A (ko) * 2009-09-10 2011-03-16 한국전자통신연구원 구조화된 번역 메모리 기반의 자동 번역 시스템 및 자동 번역 방법
KR20110112192A (ko) * 2010-04-06 2011-10-12 삼성전자주식회사 구문 분석 및 계층적 어구 모델 기반 기계 번역 시스템 및 방법
JP2012018633A (ja) * 2010-07-09 2012-01-26 Toshiba Tec Corp 語句解説装置、語句解説方法、翻訳制御装置および翻訳制御方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100413784B1 (ko) * 1997-04-29 2004-02-14 삼성전자주식회사 절단위 분할기를 갖춘 영한 번역 장치 및 그영어 해석 방법
KR20050027298A (ko) * 2003-09-15 2005-03-21 한국전자통신연구원 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드자동 번역 장치 및 방법과 그 프로그램을 기록한 컴퓨터로읽을 수 있는 기록매체
KR20110027361A (ko) * 2009-09-10 2011-03-16 한국전자통신연구원 구조화된 번역 메모리 기반의 자동 번역 시스템 및 자동 번역 방법
KR20110112192A (ko) * 2010-04-06 2011-10-12 삼성전자주식회사 구문 분석 및 계층적 어구 모델 기반 기계 번역 시스템 및 방법
JP2012018633A (ja) * 2010-07-09 2012-01-26 Toshiba Tec Corp 語句解説装置、語句解説方法、翻訳制御装置および翻訳制御方法

Similar Documents

Publication Publication Date Title
Greenbaum et al. The international corpus of English (ICE) project
Shaalan 1 An intelligent computer assisted language learning system for Arabic learners
WO2018151464A1 (ko) 음성 인식을 이용한 코딩시스템 및 코딩방법
WO2014025135A1 (ko) 문법 오류 검출 방법, 이를 위한 오류검출장치 및 이 방법이 기록된 컴퓨터로 판독 가능한 기록매체
WO2013036051A2 (ko) 외국어 문장 학습 장치 및 이를 이용한 학습 방법
Levin et al. ALICE-chan: A case study in ICALL theory and practice
WO2022060060A1 (ko) 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법, 그 컴퓨터 프로그램 및 그 장치
WO2021182828A1 (ko) 기계학습, 자연어처리 및 패턴기반 참조 라이브러리 기반 탐색 언어학습 시스템 및 방법
Lawson Collecting, aligning and analysing parallel corpora
Farrar et al. An ontology for linguistic annotation
WO2022177372A1 (ko) 인공지능을 이용하여 튜터링 서비스를 제공하기 위한 시스템 및 그에 관한 방법
Bhagat et al. Wordprep: Word-based preposition prediction tool
US20230112674A1 (en) Exploratory language-learning system based on ml, nlp and pattern-based reference library
KR20210113551A (ko) 기계학습, 자연어처리 및 패턴기반 참조 라이브러리 기반 탐색 언어학습 시스템 및 방법
Peters et al. Translation Studies
WO2024025184A1 (ko) 동사의 문형별 및 단어의 품사별 영어 해석편 제공시스템 및 그것을 기록한 매체
Bekmanova et al. A New Approach to Developing a Terminological Dictionary of School Subjects in the Kazakh Language
Kameyama Information extraction across linguistic barriers
Adelia et al. The analysis of errors made by the third year students of English Department in translating narrative text
JP4007630B2 (ja) 対訳例文登録装置
WO2020158991A1 (ko) 단어의 컨셉 메이커를 이용한 언어 학습 시스템
WO2023163265A1 (ko) Ai 기반의 질의 응답 챗봇을 이용한 언어 학습 시스템
WO2022060061A1 (ko) 딥러닝 기반의 단어 의미 명확화 모델을 이용한 어휘 문제 자동 생성 방법, 그 컴퓨터 프로그램 및 그 서버 장치
Eyes et al. Progress in UCREL research: Improving corpus annotation practices
Cruz-Lara et al. Immersive 3D environments and multilinguality: Some non-intrusive and dynamic e-learning-oriented scenarios based on textual information

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21767984

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21767984

Country of ref document: EP

Kind code of ref document: A1