KR102507925B1 - Method for Korean correction service and apparatus for performing the method - Google Patents

Method for Korean correction service and apparatus for performing the method Download PDF

Info

Publication number
KR102507925B1
KR102507925B1 KR1020220078913A KR20220078913A KR102507925B1 KR 102507925 B1 KR102507925 B1 KR 102507925B1 KR 1020220078913 A KR1020220078913 A KR 1020220078913A KR 20220078913 A KR20220078913 A KR 20220078913A KR 102507925 B1 KR102507925 B1 KR 102507925B1
Authority
KR
South Korea
Prior art keywords
data set
data
error
generation method
set generation
Prior art date
Application number
KR1020220078913A
Other languages
Korean (ko)
Inventor
이종윤
김현영
Original Assignee
주식회사 보인정보기술
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 보인정보기술 filed Critical 주식회사 보인정보기술
Priority to KR1020220078913A priority Critical patent/KR102507925B1/en
Application granted granted Critical
Publication of KR102507925B1 publication Critical patent/KR102507925B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/02Electrically-operated educational appliances with visual presentation of the material to be studied, e.g. using film strip
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/08Electrically-operated educational appliances providing for individual presentation of information to a plurality of student stations
    • G09B5/14Electrically-operated educational appliances providing for individual presentation of information to a plurality of student stations with provision for individual teacher-student communication

Abstract

The present invention relates to a method for providing a Korean language correction service and a device for performing the method. The method for providing a Korean language correction service comprises the steps of: a data center collecting original texts and generating erroneous sentences for the original texts to generate a learning data set; a grammar error detection/grammar error correction (GED/GEC) service engine performing grammar correction learning for extracting grammatical errors based on the learning data set; and a Korean language correction service platform providing part providing a grammar error correction service, a semantic word recommendation service, an erratum correction service or a punctuation correction service based on the GED/GEC service engine. Therefore, accuracy in the vocabulary command of a user can be improved.

Description

한국어 교정 서비스 제공 방법 및 이러한 방법을 수행하는 장치{Method for Korean correction service and apparatus for performing the method}Method for providing Korean correction service and apparatus for performing the method {Method for Korean correction service and apparatus for performing the method}

본 발명은 한국어 교정 서비스 제공 방법 및 이러한 방법을 수행하는 장치에 관한 것이다. 보다 상세하게는 온라인 환경 내 어떠한 환경에서든 올바른 문장을 쓰고 읽을 수 있도록 지원 가능한 학습 도구를 제공하는 한국어 교정 서비스 제공 방법 및 이러한 방법을 수행하는 장치에 관한 것이다.The present invention relates to a method for providing a Korean language correction service and an apparatus for performing the method. More specifically, it relates to a method for providing a Korean language correction service that provides supportable learning tools so that correct sentences can be written and read in any environment within an online environment, and a device for performing the method.

각종 온라인 영상 매체 및 플랫폼의 등장으로 인해, 미디어 환경에 쉽게 노출된 학생들은 독서보다 미디어 영상 시청을 통해 정보를 습득하는 것에 익숙해져 있으며, 이는 곧 문해력 저하 문제를 불러온다.Due to the emergence of various online video media and platforms, students who are easily exposed to the media environment are accustomed to acquiring information through watching media videos rather than reading, which leads to problems in literacy.

현재 전국 각지 교육청과 기관등 국가적 차원에서 문해력 증진을 위한 정책 수립 및 학습 도구 도입 중이며, 문해력 증진의 핵심은 읽기/쓰기 능력 강화로 명시하였다.Currently, education offices and institutions across the country are establishing policies and introducing learning tools to promote literacy at the national level, and the core of literacy promotion has been specified as strengthening reading/writing skills.

온라인 학습에 적응된 Z세대의 읽기 및 쓰기 능력 강화를 위해 온라인 환경 내 어떠한 환경에서든 올바른 문장을 쓰고 읽을 수 있도록 지원이 가능한 학습 도구가 필요하며, 이를 통해 올바른 문장 쓰기/읽기를 생활화하여 문해력 증진에 도움이 될 수 있다.In order to strengthen the reading and writing skills of Generation Z adapted to online learning, learning tools that can support writing and reading correct sentences in any environment in the online environment are needed. This can help.

전세계 한국어 사용 인구는 약 8,100만여 명이며 전세계 언어 중 모어 사용자 수에 따른 한국어의 순위는 14위이고, 해외에서 운영 중인 한국어 보급 기관의 수는 약 2천여 개이며 등록된 수강생 수는 25만명 정도이다.The global population of Korean speakers is about 81 million, and Korean ranks 14th according to the number of native speakers among all languages in the world. .

교육부가 발표한 ‘2021 해외 한국어 교육 지원 사업 기본계획’에 따르면, 정부 예산 약 236억을 투입하여 해외 현지 한국어 교육 교재 및 교원을 증진할 계획이며 ‘해외 초·중등학교 한국어 교육과정‘을 개발을 통해 한국어 교육의 체계적인 확대를 추진하고자 한다. 하지만, 한국어의 언어적 특성(어순/문장구조/문법/발음/동음이의어) 상 외국인들에게 가장 어려운 언어 중 하나로 손꼽히며, 한국어 자가평가/학습 도구 부족으로 인해 한국어 교육에 대한 접근성 문제를 야기한다.According to the '2021 Overseas Korean Language Education Support Project Basic Plan' announced by the Ministry of Education, the government plans to invest about 23.6 billion won to promote Korean language education textbooks and teachers abroad, and to develop 'Overseas Korean language curriculum for elementary and secondary schools'. Through this, we plan to promote systematic expansion of Korean language education. However, due to the linguistic characteristics of Korean (word order/sentence structure/grammar/pronunciation/homonyms), it is considered one of the most difficult languages for foreigners, and the lack of Korean self-assessment/learning tools causes problems with accessibility to Korean education. .

이를 위해 인공지능 언어모델을 활용하여 다양한 문서의 질의응답시스템, 번역시스템, 요약시스템 등에 대한 연구가 이루어지고 있다. 데이터 구축에서 아직도 종이형태로 보관된 문서가 많아서 특히 도서관에서는 매년 100억단위 이상 문서 디지털화(digitalization)를 위한 DB 사업을 진행한다. 국내 외 OCR 프로그램의 성능은 여전히 한글/영문/한자/특수문자 등이 혼합된 문서의 OCR 성능은 70~80% 수준이다.To this end, research is being conducted on question-answering systems, translation systems, summary systems, etc. of various documents using artificial intelligence language models. In data construction, there are still many documents stored in paper form, especially in libraries, which carry out a DB project for digitalization of more than 10 billion documents every year. As for the performance of domestic and foreign OCR programs, the OCR performance of documents mixed with Korean/English/Chinese characters/special characters is still around 70-80%.

따라서, GEC 기술을 통한 OCR 후처리 (POST-OCR)" 공정이 필수이고 문법 및 의미 기반 한국어 문장 오류 탐지 및 문장 오류 교정(Grammar Error Detection + Grammar Error Correction) 시스템에 대한 개발을 통해 이러한 한국어 교육에 대한 접근성을 높일 수 있는 연구가 필요하다.Therefore, the OCR post-processing (POST-OCR) process through GEC technology is essential, and the development of a grammar and semantic-based Korean sentence error detection and sentence error correction (Grammar Error Detection + Grammar Error Correction) system is essential for Korean language education. Research is needed to increase accessibility.

본 발명은 상술한 문제점을 모두 해결하는 것을 그 목적으로 한다.The object of the present invention is to solve all of the above problems.

또한, 본 발명은, 문법 및 의미 기반 한국어 문장 오류 탐지 및 교정 시스템을 기반으로 사용자의 정확한 어휘 구사를 돕는 것을 목적으로 한다.In addition, an object of the present invention is to help users use accurate vocabulary based on a system for detecting and correcting Korean sentence errors based on grammar and semantics.

또한, 본 발명은, 상황에 적합한 문장 구사 능력 및 단어 구사 능력과 언어의 요소에 따라 정확하고 효과적인 표현할 수 있는 문법 능력을 기를 수 있도록 하는 것을 목적으로 한다.In addition, an object of the present invention is to develop grammatical ability that can express accurately and effectively according to the ability to use sentences and words appropriate to the situation and the elements of language.

상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다.Representative configurations of the present invention for achieving the above object are as follows.

본 발명의 일 실시예에 따르면, 한국어 교정 서비스 제공 방법은 데이터 센터가 원문을 수집하고 상기 원문에 대한 오류 문장을 생성하여 학습 데이터 셋을 생성하는 단계, GED/GEC(grammar error detection/grammar error correction) 서비스 엔진이 상기 학습 데이터 셋을 기반으로 문법적 오류를 추출하기 위한 문법 교정 학습을 수행하는 단계와 한국어 교정 서비스 플랫폼 제공부가 상기 GED/GEC 서비스 엔진을 기반으로 문법 오류 교정 서비스, 의미적 단어 추천 서비스, 오탈자 교정 서비스 또는 문장 부호 교정 서비스를 제공하는 단계를 포함하는 것을 포함할 수 있다.According to an embodiment of the present invention, a method for providing Korean language correction service includes the steps of a data center collecting original text and generating an error sentence for the original text to generate a training data set, GED/GEC (grammar error detection/grammar error correction) ) The service engine performs grammar correction learning to extract grammatical errors based on the learning data set, and the Korean correction service platform provider provides grammatical error correction service and semantic word recommendation service based on the GED / GEC service engine , providing a typo correction service or a punctuation mark correction service.

한편, 상기 GED/GEC 서비스 엔진은 데이터 노이징부를 포함하고, 상기 데이터 노이징부는 복수의 데이터 셋 생성 모듈을 포함하고, 상기 복수의 데이터 셋 생성 모듈 각각은 상기 원문을 기초로 상기 원문에 대한 상기 오류 문장을 생성하도록 구현될 수 있다.Meanwhile, the GED/GEC service engine includes a data noising unit, the data noising unit includes a plurality of data set generating modules, and each of the plurality of data set generating modules generates the above information for the original text based on the original text. It can be implemented to generate an error statement.

또한, 상기 GED/GEC 서비스 엔진은 변환 인코더를 포함하고, 상기 변환 인코더는 상기 원문의 분석 단위와 상기 오류 문장의 분석 단위에 매칭된 태그를 기반으로 상기 원문과 상기 오류 문장 간의 관계를 정의하고 매핑하여 학습을 수행할 수 있다.In addition, the GED/GEC service engine includes a transform encoder, and the transform encoder defines and maps a relationship between the original text and the erroneous sentence based on a tag matched to the analysis unit of the original text and the analysis unit of the erroneous sentence. learning can be performed.

본 발명의 다른 실시예에 따르면, 한국어 교정 서비스를 제공하는 한국어 교정 시스템은 원문을 수집하고 상기 원문에 대한 오류 문장을 생성하여 학습 데이터 셋을 생성하도록 구현되는 데이터 센터, 상기 학습 데이터 셋을 기반으로 문법적 오류를 추출하기 위한 문법 교정 학습을 수행하도록 구현되는 GED/GEC(grammar error detection/grammar error correction) 서비스 엔진과 상기 GED/GEC 서비스 엔진을 기반으로 문법 오류 교정 서비스, 의미적 단어 추천 서비스, 오탈자 교정 서비스 또는 문장 부호 교정 서비스를 제공하도록 구현되는 한국어 교정 서비스 플랫폼 제공부를 포함할 수 있다.According to another embodiment of the present invention, a Korean language correction system providing a Korean language correction service includes a data center implemented to collect original texts and generate error sentences for the original texts to generate a learning data set, based on the learning data set GED/GEC (grammar error detection/grammar error correction) service engine implemented to perform grammar correction learning to extract grammatical errors and grammar error correction service based on the GED/GEC service engine, semantic word recommendation service, misspelling A Korean correction service platform providing unit implemented to provide a correction service or a punctuation mark correction service may be included.

한편, 상기 GED/GEC 서비스 엔진은 데이터 노이징부를 포함하고, 상기 데이터 노이징부는 복수의 데이터 셋 생성 모듈을 포함하고, 상기 복수의 데이터 셋 생성 모듈 각각은 상기 원문을 기초로 상기 원문에 대한 상기 오류 문장을 생성하도록 구현될 수 있다.Meanwhile, the GED/GEC service engine includes a data noising unit, the data noising unit includes a plurality of data set generating modules, and each of the plurality of data set generating modules generates the above information about the original text based on the original text. It can be implemented to generate an error statement.

또한, 상기 GED/GEC 서비스 엔진은 변환 인코더를 포함하고, 상기 변환 인코더는 상기 원문의 분석 단위와 상기 오류 문장의 분석 단위에 매칭된 태그를 기반으로 상기 원문과 상기 오류 문장 간의 관계를 정의하고 매핑하여 학습을 수행할 수 있다.In addition, the GED/GEC service engine includes a transform encoder, and the transform encoder defines and maps a relationship between the original text and the erroneous sentence based on a tag matched to the analysis unit of the original text and the analysis unit of the erroneous sentence. learning can be performed.

본 발명에 의하면, 문법 및 의미 기반 한국어 문장오류 탐지 및 교정 시스템을 기반으로 사용자의 정확한 어휘 구사 능력이 향상될 수 있다.According to the present invention, the user's ability to use accurate vocabulary can be improved based on the system for detecting and correcting Korean sentence errors based on grammar and semantics.

또한, 본 발명에 의하면, 상황에 적합한 문장/단어 구사 능력과 언어의 요소에 따라 정확하고 효과적인 표현할 수 있는 문법 능력이 배양될 수 있다.In addition, according to the present invention, the ability to use sentences/words appropriate to the situation and the grammatical ability to express accurately and effectively according to language elements can be cultivated.

도 1은 본 발명의 실시예에 따른 한국어 교정 시스템을 나타낸 개념도이다.
도 2는 본 발명의 실시예에 따른 데이터 센터의 동작을 나타낸 개념도이다.
도 3은 본 발명의 실시예에 따른 GED/GEC 서비스 엔진의 동작을 나타낸 개념도이다.
도 4는 본 발명의 실시예에 따른 GED/GEC 서비스 엔진의 동작을 나타낸 개념도이다.
도 5는 본 발명의 실시예에 따른 데이터 셋 생성 모듈의 동작을 나타낸 개념도이다.
도 6은 본 발명의 실시예에 따른 데이터 셋 생성 모듈의 동작을 나타낸 개념도이다.
1 is a conceptual diagram showing a Korean language correction system according to an embodiment of the present invention.
2 is a conceptual diagram illustrating the operation of a data center according to an embodiment of the present invention.
3 is a conceptual diagram illustrating the operation of a GED/GEC service engine according to an embodiment of the present invention.
4 is a conceptual diagram illustrating the operation of a GED/GEC service engine according to an embodiment of the present invention.
5 is a conceptual diagram illustrating the operation of a data set generation module according to an embodiment of the present invention.
6 is a conceptual diagram illustrating the operation of a data set generation module according to an embodiment of the present invention.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이러한 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 본 명세서에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 정신과 범위를 벗어나지 않으면서 일 실시예로부터 다른 실시예로 변경되어 구현될 수 있다. 또한, 각각의 실시예 내의 개별 구성요소의 위치 또는 배치도 본 발명의 정신과 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 행하여 지는 것이 아니며, 본 발명의 범위는 특허청구범위의 청구항들이 청구하는 범위 및 그와 균등한 모든 범위를 포괄하는 것으로 받아들여져야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 구성요소를 나타낸다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS The detailed description of the present invention which follows refers to the accompanying drawings which illustrate, by way of illustration, specific embodiments in which the present invention may be practiced. These embodiments are described in sufficient detail to enable any person skilled in the art to practice the present invention. It should be understood that the various embodiments of the present invention are different from each other but are not necessarily mutually exclusive. For example, specific shapes, structures, and characteristics described herein may be implemented from one embodiment to another without departing from the spirit and scope of the present invention. It should also be understood that the location or arrangement of individual components within each embodiment may be changed without departing from the spirit and scope of the present invention. Therefore, the detailed description to be described later is not performed in a limiting sense, and the scope of the present invention should be taken as encompassing the scope claimed by the claims and all scopes equivalent thereto. Like reference numbers in the drawings indicate the same or similar elements throughout the various aspects.

이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 여러 바람직한 실시예에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.Hereinafter, various preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings in order to enable those skilled in the art to easily practice the present invention.

도 1은 본 발명의 실시예에 따른 한국어 교정 시스템을 나타낸 개념도이다.1 is a conceptual diagram showing a Korean language correction system according to an embodiment of the present invention.

도 1에서는 기존의 한국어 맞춤법 교정을 넘어 문장 내 오류의 문법적 교정 및 의미적 교정이 가능한 한국어 교정 시스템이 개시된다.In FIG. 1, a Korean language correction system capable of grammatical and semantic correction of errors in a sentence beyond the existing Korean spelling correction is disclosed.

도 1을 참조하면, 한국어 교정 시스템은 데이터 센터(100), GED/GEC(grammar error detection/grammar error correction) 서비스 엔진(120) 및 한국어 교정 서비스 플랫폼 제공부(140)를 포함할 수 있다. Referring to FIG. 1 , the Korean language correction system may include a data center 100, a grammar error detection/grammar error correction (GED/GEC) service engine 120, and a Korean language correction service platform provider 140.

데이터 센터(100)는 AI(artificial intelligence) 허브와 연결되어, 원문 및 오류 문장을 수집하기 위해 구현될 수 있다. 또한, 데이터 센터(100)는 데이터 노이징(noising) 기법을 이용한 합성(synthetic) 데이터셋 구축하기 위해 구현될 수 있다.The data center 100 may be implemented to collect original text and erroneous sentences by being connected to an artificial intelligence (AI) hub. In addition, the data center 100 may be implemented to construct a synthetic dataset using a data-noising technique.

또한, 데이터 센터(100)는 데이터 집합(set) 생성 모듈을 기반으로 오류 문장을 생성할 수도 있다. 구체적으로 데이터 집합 생성 모듈은 자체 정의된 오류 생성 규칙을 주어진 문장에 적용하여 원문에 대응되는 오류 문장을 생성하거나 띄어쓰기 오류를 주어진 문장에 랜덤하게 적용하여 원문에 대응되는 오류 문장을 생성할 수 있다.Also, the data center 100 may generate an error sentence based on a data set generation module. Specifically, the data set generation module may generate an error sentence corresponding to the original text by applying a self-defined error generation rule to a given sentence, or generate an error sentence corresponding to the original text by randomly applying space errors to the given sentence.

데이터 센터(100)에 의해 수집된 자료는 GED/GEC 서비스 엔진(120)의 학습을 위해 활용될 수 있다.Data collected by the data center 100 may be used for learning of the GED/GEC service engine 120 .

GED/GEC 서비스 엔진(120)은 사용자에 의해 입력된 오류 문장에 대한 교정 서비스를 제공할 수 있다.The GED/GEC service engine 120 may provide a correction service for an erroneous sentence input by a user.

GED/GEC 서비스 엔진(120)은 시퀀스 태깅(sequence tagging) 기법을 이용한 변환 인코더(transformer encoder) 기반 GED/GEC 모델일 수 있다.The GED/GEC service engine 120 may be a GED/GEC model based on a transformer encoder using a sequence tagging technique.

또한, GED/GEC 서비스 엔진(120)은 워드 임베딩 모델을 기반으로 한 의미적 단어 추천 서비스를 제공할 수 있다.In addition, the GED/GEC service engine 120 may provide a semantic word recommendation service based on a word embedding model.

명사, 동사, 부사, 형용사 등으로 분리된 단어에 대한 철자, G2P(Grapheme To Phoneme), 소리 규칙, 줄임말 등의 오류 발생 규칙이 자체 정의 코드값(tag)으로 분류되고, 분류된 오류 발생 규칙이 수집된 한국어 학습용 로우(Raw) 데이터에 적용될 수 있다.Error occurrence rules such as spelling of words separated into nouns, verbs, adverbs, and adjectives, G2P (Grapheme To Phoneme), sound rules, and abbreviations are classified as self-defined code values (tags), and the classified error occurrence rules are It can be applied to the collected raw data for learning Korean.

자체 정의 코드값(tag)이 태그(tag) 사전으로 정의되고, 태그 사전을 기준으로 원문의 단어와 오류 문장의 단어 간의 관계를 정의하고 태그 매핑하여 학습 데이터셋을 생성하는 에노테이터(annotator)가 생성될 수 있다.A self-defined code value (tag) is defined as a tag dictionary, and an annotator that creates a training dataset by defining the relationship between words in the original text and words in the error sentence based on the tag dictionary and mapping the tags can be created

에노테이터를 통해 생성된 학습 데이터를 이용하여 변환 인코더 모델에 대한 학습이 진행될 수 있다. 변환 인코더 위에 리니어 레이어(linear layer)와 소프트맥스 레이어(softmax layer)를 쌓아 입력 토큰(문장) 각각에 대한 오류 태그값이 예측될 수 있다.Learning of the transform encoder model may be performed using training data generated through the annotator. An error tag value for each input token (sentence) can be predicted by stacking a linear layer and a softmax layer on top of the transform encoder.

한국어 교정 서비스 플랫폼 제공부(140)는 한국어 교정 서비스를 제공하기 위해 구현될 수 있다.한국어 교정 서비스는 문법 오류 교정 서비스, 의미적 단어 추천 서비스, 오탈자 교정 서비스 및 문장 부호 교정 서비스를 포함할 수 있다.The Korean language correction service platform providing unit 140 may be implemented to provide a Korean language correction service. The Korean language correction service may include a grammatical error correction service, a semantic word recommendation service, a typo correction service, and a punctuation mark correction service. .

이하, 본 발명의 실시예에서는 각 구성부의 구체적인 동작이 개시된다.Hereinafter, in the embodiment of the present invention, specific operations of each component are disclosed.

도 2는 본 발명의 실시예에 따른 데이터 센터의 동작을 나타낸 개념도이다.2 is a conceptual diagram illustrating the operation of a data center according to an embodiment of the present invention.

도 2에서는 데이터 센터에서 GED/GEC 서비스 엔진의 학습을 위한 데이터를 수집하고 생성하는 방법이 개시된다.2 discloses a method of collecting and generating data for learning of a GED/GEC service engine in a data center.

도 2를 참조하면, 데이터 센터는 트레이닝 데이터 집합부(230), 원문 저장부(210), 크로울링(crawling) 엔진부(200), 데이터노이징부(220)를 포함할 수 있다.Referring to FIG. 2 , the data center may include a training data collection unit 230, an original text storage unit 210, a crawling engine unit 200, and a data noise unit 220.

트레이닝 데이터 집합부(230)는 원문과 원문에 대한 오류 문장을 포함하는 데이터 세트일 수 있다. 원문에 대한 오류 문장은 데이터 노이징부(220)를 기반으로 생성되어 트레이닝 데이터 집합부(230)에 저장될 수 있다. 트레이닝 데이터 집합부(230)에 저장된 원문과 오류 문장을 포함하는 데이터 세트는 GED/GEC 서비스 엔진으로 전달될 수 있다.The training data set unit 230 may be a data set including an original text and erroneous sentences for the original text. Error sentences for the original text may be generated based on the data noise unit 220 and stored in the training data set unit 230 . A data set including the original text and erroneous sentences stored in the training data set unit 230 may be transferred to the GED/GEC service engine.

원문 저장부는 원문을 저장하고, 데이터 노이징부(220) 및 GED/GEC 서비스 엔진으로 원문을 전달하기 위해 구현될 수 있다. 원문 저장부는 크로울링 엔진부로부터 원문을 수신할 수 있다. The original text storage unit may be implemented to store the original text and transmit the original text to the data noising unit 220 and the GED/GEC service engine. The original text storage unit may receive the original text from the crawling engine unit.

크로울링(crawling) 엔진부(200)는 외부 서버로부터 크로울링을 통해 원문을 수집하기 위해 구현될 수 있다. 웹 상에 존재하는 다양한 문서(뉴스, 위키피디아 등)을 통해 학습을 위한 원문 정보가 수집될 수 있다.Crawling engine unit 200 may be implemented to collect the original text from an external server through crawling. Original information for learning may be collected through various documents (news, Wikipedia, etc.) existing on the web.

데이터 노이징부(220)는 오류 문장 생성을 위해 구현될 수 있고, 데이터 노이징 기법을 이용한 합성 데이터셋이 구축될 수 있다.The data noising unit 220 may be implemented to generate erroneous sentences, and a synthetic dataset using a data noising technique may be constructed.

데이터 노이징부(220)는 G2PK 파이썬(python) 모듈을 이용한 제1 데이터셋 생성 모듈(250), 자체 정의된 오류 생성 규칙을 주어진 문장에 적용하는 제2 데이터셋 생성 모듈(260), 띄어쓰기 오류를 주어진 문장에 랜덤하게 적용하는 제3 데이터셋 생성 모듈(270)을 포함할 수 있다.The data noise unit 220 includes a first dataset generation module 250 using the G2PK Python module, a second dataset generation module 260 that applies a self-defined error generation rule to a given sentence, and spacing errors. It may include a third dataset generation module 270 that randomly applies to a given sentence.

크로울링 엔진부(200)에서 수집된 원문 데이터는 노이징 모듈을 통과하여 원문/오류 문장을 한 쌍으로 하는 학습 데이터 셋으로 생성될 수 있다.Original text data collected by the crawling engine unit 200 may be generated as a learning data set in which original text/error sentences are paired by passing through a noise module.

데이터 센터는 두가지 방식으로 학습 데이터 셋을 생성할 수 있다. 제1 학습 데이터 셋 생성 방식은 로우 데이터를 오류 데이터(또는 오류 문장)로 정의한 후, 오류 교정 데이터(오류 교정 문장)를 생성하는 방식이다. 제2 학습 데이터 셋 생성 방식은 로우 데이터를 오류없는 데이터로 정의한 후, 오류 데이터(또는 오류 문장)를 생성하는 방식이다.A data center can create a training data set in two ways. The first learning data set generation method is a method of defining raw data as error data (or error sentences) and then generating error correction data (error correction sentences). The second learning data set generation method is a method of generating error data (or error sentences) after defining raw data as error-free data.

본 발명에서는 제1 학습 데이터 셋 생성 방식과 제2 학습 데이터 셋 생성 방식은 데이터의 소스에 따라 서로 다르게 설정될 수 있다. 크로울링 엔진부에 의해 크로울링을 수행하는 데이터 소스에 대하여 기존의 GED/GEC 서비스 엔진의 판단 결과를 기반으로 만약 GED/GEC 서비스 엔진의 판단 결과, 오류율이 임계 퍼센트 이상인 경우, 해당 데이터 소스는 제1 학습 데이터 셋 생성 방식으로 학습 데이터 셋을 생성할 수 있다. 반대로, GED/GEC 서비스 엔진의 판단 결과, 오류율이 임계 퍼센트 미만인 경우, 해당 데이터 소스는 제2 학습 데이터 셋 생성 방식으로 학습 데이터 셋을 생성할 수 있다.In the present invention, the first learning data set generation method and the second training data set generation method may be set differently according to data sources. Based on the judgment result of the existing GED / GEC service engine for the data source crawling by the crawling engine unit, if the error rate is greater than the critical percentage as a result of the judgment of the GED / GEC service engine, the data source is 1 A training data set can be created using the learning data set creation method. Conversely, as a result of the determination of the GED/GEC service engine, when the error rate is less than the critical percentage, the corresponding data source may generate a training data set using the second training data set generation method.

오류율은 적응적으로 변화될 수 있다. 예를 들어, 최신 데이터에 대한 가중치를 조금 더 부여하여 데이터 누적 결과 발생된 오류율이 결정될 수 있다. 데이터의 신규 생성률을 고려하여 데이터 분할 기간을 설정할 수 있다. 신규 생성률이 클수록 데이터 분할 기간은 짧게 결정될 수 있다. 복수의 데이터 분할 기간에 수집된 데이터 중 최근 데이터 분할 기간에 수집된 데이터일수록 높은 가중치를 두어 오류율이 결정될 수 있다. 즉, 데이터가 상대적으로 많이 크로울링되어 들어오는 경우, 데이터 분할 기간을 상대적으로 짧게 설정하고, 반대로, 데이터가 상대적으로 적게 크로울링되어 들어오는 경우, 데이터 분할 기간을 상대적으로 길게 설정할 수 있다.The error rate can be adaptively changed. For example, an error rate generated as a result of data accumulation may be determined by assigning a little more weight to the latest data. A data division period may be set in consideration of a new generation rate of data. As the new generation rate increases, the data division period may be determined to be shorter. An error rate may be determined by assigning a higher weight to data collected in a recent data partitioning period among data collected in a plurality of data partitioning periods. That is, when data is crawled relatively much, the data division period can be set relatively short, and conversely, when data is crawled relatively little, the data division period can be set relatively long.

또한, 본 발명의 실시예에 따르면, 특정 데이터 소스에 대한 제1 학습 데이터 셋 생성 방식 또는 제2 학습 데이터 셋 생성 방식의 선택은 데이터가 임계 데이터양 이상으로 누적된 경우에 수행될 수 있다. 만약, 특정 데이터 소스에서 누적된 데이터양이 임계 데이터양 미만인 경우에는 제1학습 데이터 셋 생성 방식과 제2 학습 데이터 셋 생성 방식이 동시에 동일한 데이터에 적용하여 데이터 셋을 생성할 수 있다.Also, according to an embodiment of the present invention, selection of a first training data set generation method or a second training data set generation method for a specific data source may be performed when data is accumulated to a threshold amount of data or more. If the amount of data accumulated in a specific data source is less than the threshold data amount, the first training data set generation method and the second training data set generation method may be simultaneously applied to the same data to generate a data set.

제1 학습 데이터 셋 생성 방식과 제2 학습 데이터 셋 생성 방식이 동시에 사용되는 경우, 제1 학습 데이터 셋 생성 방식을 기반으로 한 GED/GEC 서비스 엔진의 판단 결과의 제1 오류율과 제2 학습 데이터 셋 생성 방식을 기반으로 GED/GEC 서비스 엔진의 판단 결과의 제2 오류율이 결정될 수 있다.When the first training data set generation method and the second training data set generation method are used simultaneously, the first error rate and the second training data set of the judgment result of the GED/GEC service engine based on the first training data set generation method A second error rate of the determination result of the GED/GEC service engine may be determined based on the generation method.

제1 오류율과 제2 오류율의 차이값이 임계값 이상으로 벌어지는 경우, 더 작은 오류율을 가지는 제1 학습 데이터 셋 생성 방식 또는 제2 학습 데이터 셋 생성 방식이 선택되고, 이후는 선택된 방식이 메인 생성 방식으로 결정되어 활용될 수 있다.When the difference between the first error rate and the second error rate exceeds the threshold value, the first training data set generation method or the second training data set generation method having a smaller error rate is selected, and thereafter, the selected method is the main generation method can be determined and used.

또한, 본 발명의 실시예에 따르면, 제2 학습 데이터 셋 생성 방식에서 오류 데이터를 생성시 원문 상에서 오류 발생 위치, 오류 발생 개수를 서로 다르게 정의하여 학습 데이터 셋을 생성할 수 있다.In addition, according to an embodiment of the present invention, when error data is generated in the second learning data set generation method, the learning data set may be created by defining the location of error occurrence and the number of occurrences of errors differently in the original text.

데이터 노이징부(220)는 오류 문장을 생성시 문장의 길이, 문장에 위치한 문법적 품사의 종류에 기초하여 오류 발생 개수를 결정하고, 문장을 그룹핑하여 오류 발생 위치를 결정할 수 있다. 보다 구체적으로 문장의 길이가 상대적으로 길수록 오류 발생 개수를 상대적으로 증가시키고, 품사 중 오류가 많이 발생하는 품사(예를 들어 변형이 많은 동사, 조사 등)는 상대적으로 우선 순위를 설정하여 오류를 발생시킬 수 있다. 또한 오류의 발생 위치를 결정하기 위해 문장을 구성하는 복수의 품사는 명사, 동사를 기준으로 하위 문장 단위로 그룹핑될 수 있다. 그룹핑된 하위 문장 그룹 중 중 오류가 많이 발생하는 품사를 상대적으로 많이 포함한 하위 문장 그룹이 오류 발생 위치로 결정될 수 있다. 하위 문장 그룹을 설정시 명사, 동사를 기준으로 앞, 뒤에 위치한 다른 품사를 1차적으로 그룹핑하여 1차 그룹을 생성하고, 이후, 나머지 품사는 가장 가까운 1차 그룹에 포함시키는 방식으로 하위 문장 그룹이 결정될 수 있다.When generating an erroneous sentence, the data noising unit 220 may determine the number of errors based on the length of the sentence and the type of grammatical parts of speech located in the sentence, and group the sentences to determine the location of the error occurrence. More specifically, as the length of the sentence is relatively long, the number of errors is relatively increased, and among parts of speech, parts of speech with a lot of errors (for example, verbs with many variations, postpositions, etc.) are relatively prioritized to generate errors. can make it In addition, in order to determine the position of occurrence of an error, a plurality of parts of speech constituting a sentence may be grouped into sub-sentence units based on nouns and verbs. Among the grouped sub-sentence groups, a sub-sentence group including a relatively large number of parts of speech with frequent errors may be determined as an error occurrence position. When setting a subsentence group, the first group is created by grouping other parts of speech located before and after the noun and verb first, and then the rest of the parts of speech are included in the nearest first group, so that the subsentence group is can be determined

도 3은 본 발명의 실시예에 따른 GED/GEC 서비스 엔진의 동작을 나타낸 개념도이다.3 is a conceptual diagram illustrating the operation of a GED/GEC service engine according to an embodiment of the present invention.

도 3에서는 GED/GEC 서비스 엔진에서 데이터 센터에서 전달된 데이터를 기반으로 한 학습을 수행하는 방법이 개시된다.3 discloses a method for performing learning based on data transferred from a data center in a GED/GEC service engine.

도 3을 참조하면, GED/GEC 서비스 엔진은 통과하여 원문/오류 문장을 한 쌍으로 하는 학습 데이터 셋을 수신할 수 있다.Referring to FIG. 3 , the GED/GEC service engine may receive a training data set paired with original/erroneous sentences.

GED/GEC 서비스 엔진은 전처리를 통해 시퀀스 태깅 기반 학습 데이터 셋을 생성하기 위한 전처리를 수행할 수 있다.The GED/GEC service engine may perform pre-processing to generate a sequence tagging-based learning data set through pre-processing.

전처리부(300)는 원문 데이터, 오류 문장 데이터 및 변환 데이터를 생성할 수 있다. 변환 데이터는 원문의 문장과 오류 문장의 분석 단위에 대하여 명사, 동사, 부사, 형용사 등으로 분리하여 철자, G2P(Grapheme To Phoneme), 소리 규칙, 줄임말 등의 자체 정의 태그값을 부여 할 수 있다.The pre-processing unit 300 may generate original text data, erroneous sentence data, and converted data. Conversion data can be divided into nouns, verbs, adverbs, and adjectives for analysis units of original sentences and error sentences, and can be assigned self-defined tag values such as spelling, G2P (Grapheme To Phoneme), sound rules, and abbreviations.

예를 들어, $KEEP, $NOUN_xxxx, $VB_xxx, $ADV_xxx, $ADJ_xxxx 등과 같이 분석 단위에 대하여 분석 단위의 품사, 해당 품사에서 발생된 오류 타입에 대한 정보를 태깅할 수 있다.For example, for analysis units such as $KEEP, $NOUN_xxxx, $VB_xxx, $ADV_xxx, $ADJ_xxxx, etc., the part of analysis of the unit of analysis and information about the error type generated in the corresponding part of speech may be tagged.

전처리된 학습 데이터 셋은 변환 인코더(Transformer-based encoder)(350)를 기반으로 태그를 기반으로 원문의 분석 단위(예를 들어, 단어)와 오류 문장의 분석 단위(예를 들어, 단어) 간의 관계를 정의하고 매핑하여 학습을 수행할 수 있다. 이러한 학습 과정을 통해 변환 인코더(350)는 입력 문장(입력 토큰)에 대한 오류 태그값에 대한 예측을 수행할 수 있다.The preprocessed training data set is based on the transformer-based encoder 350, based on the tag, the relationship between the analysis unit (e.g., word) of the original text and the analysis unit (e.g., word) of the error sentence Learning can be performed by defining and mapping. Through this learning process, the transform encoder 350 may predict an error tag value for an input sentence (input token).

즉, 변환 인코더(350)는 원문의 분석 단위와 오류 문장의 분석 단위에 매칭된 태그를 기반으로 원문과 오류 문장 간의 관계를 정의하고 매핑하여 학습을 수행할 수 있다.That is, the conversion encoder 350 may perform learning by defining and mapping a relationship between the original text and the erroneous sentence based on a tag matched to the analysis unit of the original text and the analysis unit of the erroneous sentence.

도면에 개시된 바와 같이 구지->굳이($ADV_G2P)는 부사로서 실제 발음을 그대로 사용하여 발생된 문법적 오류, 그렇게까지->그렇게까지($KEEP)는 오류가 없는 부분 등과 같이 분석 단위인 단어의 품사와 문법적 오류의 발생 이유에 대한 정보가 태깅될 수 있다.As disclosed in the drawing, Guji->God ($ADV_G2P) is an adverb, which is a part of speech that is an analysis unit, such as grammatical errors caused by using actual pronunciation as it is, and so far->so ($KEEP) error-free parts. and information on the reason for occurrence of grammatical errors may be tagged.

변환 인코더(350)를 통해 GED는 문법적 오류를 탐지하고, GEC는 문법적 오류에 대한 교정을 하기 위해 구현되고, GED와 GEC를 기반으로 교정된 문장이 출력될 수 있다.Through the conversion encoder 350, GED detects grammatical errors, GEC is implemented to correct grammatical errors, and corrected sentences based on GED and GEC may be output.

도 4는 본 발명의 실시예에 따른 GED/GEC 서비스 엔진의 동작을 나타낸 개념도이다.4 is a conceptual diagram illustrating the operation of a GED/GEC service engine according to an embodiment of the present invention.

도 4에서는 GED/GEC 서비스 엔진에서 데이터 센터에서 전달된 데이터를 기반으로 한 학습을 수행하되, 변환 기반 GED/GEC 엔진과 지식 기반 GED/GEC 엔진을 사용한 교정 방법이 개시된다.In FIG. 4, a GED/GEC service engine performs learning based on data transmitted from a data center, and a calibration method using a conversion-based GED/GEC engine and a knowledge-based GED/GEC engine is disclosed.

도 4를 참조하면, GED/GEC 서비스 엔진은 추가로 수집된 실제 오류 문장을 포함하는 학습 데이터를 이용하여 파인 튜닝(fine-tuning)을 진행하고, 파인 튜닝을 기반으로 한 GED/GEC 예측 모델의 고도화가 수행될 수 있다.Referring to FIG. 4, the GED/GEC service engine performs fine-tuning using training data including additionally collected actual error sentences, and the GED/GEC prediction model based on the fine-tuning Upgrading can be done.

(1) 변환 기반 예측 모델(400)(1) Transformation-based predictive model (400)

변환 기반 예측 모델(400)은 도 3에서 개시된 변환 인코더 기반의 예측 모델일 수 있다. 한 쌍의 원문/오류 단어 사이에 2개 이상의 태그 변환이 발생할 가능성이 있다. 따라서, 변환 모델의 예측 결과값을 다시 예측 모델로 투입하는 반복 태깅 방법이 적용될 수 있다.The transform-based prediction model 400 may be a transform encoder-based prediction model disclosed in FIG. 3 . There is a possibility of more than one tag conversion occurring between a pair of source/erroneous words. Accordingly, an iterative tagging method may be applied in which the prediction result value of the conversion model is input back to the prediction model.

(2) 지식 기반 예측 모델(420)(2) knowledge-based prediction model (420)

지식 기반 예측 모델(420)은 변환 기반 예측 모델에서 인지하지 못하는, 오류 규칙을 지식화하여 이를 기반으로 오류 탐지 및 오류 교정을 수행할 수 있다.The knowledge-based prediction model 420 can perform error detection and error correction based on knowledge of error rules that are not recognized by the transformation-based prediction model.

또한, GED/GEC 서비스 엔진은 단어 추천 시스템을 포함할 수 있다. 단어 추천 시스템은 수집된 로우 데이터셋을 이용하여 변환기(transformer) 기반 센텐스 임베딩(sentence embedding)을 통한 단어의 의미적 유사성을 측정하여 최적의 단어를 제시하는 단어 추천 시스템이다. 단어 추천 시스템은 가장유사한 N개의단어를 제시하도록 구현될 수 있다.Also, the GED/GEC service engine may include a word recommendation system. A word recommendation system is a word recommendation system that proposes an optimal word by measuring the semantic similarity of words through transformer-based sentence embedding using a collected raw dataset. A word recommendation system may be implemented to suggest N most similar words.

사용자는 REST API를 통해 GED/GEC 서비스 엔진에 접속하여 한국어 교정 서비스 플랫폼 제공부 상에서 교정 서비스를 제공받을 수 있다.Users can access the GED/GEC service engine through the REST API and receive correction services on the Korean correction service platform provider.

도 5는 본 발명의 실시예에 따른 데이터 셋 생성 모듈의 동작을 나타낸 개념도이다.5 is a conceptual diagram illustrating the operation of a data set generation module according to an embodiment of the present invention.

도 5에서는 데이터 셋 생성 모듈이 오류 생성 규칙에 따라 오류 문장을 생성하기 위한 방법이 개시된다.5 discloses a method for the data set generation module to generate an error sentence according to an error generation rule.

도 5를 참조하면, 제2 데이터셋 생성 모듈은 자체 정의된 오류 생성 규칙을 주어진 문장에 적용하여 오류 문장을 생성하기 위해 구현된다.Referring to FIG. 5 , a second dataset generation module is implemented to generate an error sentence by applying a self-defined error generation rule to a given sentence.

제2 데이터셋 생성 모듈은 오류 생성 규칙을 적용하기 위해 사용자들이 발생시킬 가능성이 존재하는 문법적 오류에 대한 오류 생성 규칙을 정의해야 한다. The second dataset generation module must define error generation rules for grammatical errors that users may generate in order to apply the error generation rules.

제2 데이터셋 생성 모듈에 의해 정의되는 오류 생성 규칙은 n개의 별도의 오류 생성 규칙으로 정의되고, n개의 오류 생성 규칙 각각은 오류 문장에서의 오류 정도에 따라 복수의 오류 발생 레벨을 설정하여 오류 문장을 발생시킬 수 있다.The error generation rule defined by the second dataset generation module is defined as n separate error generation rules, and each of the n error generation rules sets a plurality of error generation levels according to the degree of error in the error sentence. can cause

n개의 오류 생성 규칙 각각은 국가별로 설정될 수 있다. 서로 다른 국가에서 한국어를 학습시 서로 다른 국가 각각의 언어의 문법적인 습관으로 인해 오류가 상이하게 발생될 수 있다.따라서, n개의 오류 생성 규칙 각각은 언어권을 고려하여 서로 다르게 정의될 수 있다.Each of the n error generating rules may be set for each country. When learning Korean in different countries, errors may occur differently due to grammatical habits of each language in different countries. Therefore, each of the n error generation rules may be defined differently in consideration of the language region.

예를 들어, 제1 오류 생성 규칙은 내국인(한국인)을 위한 오류 생성 규칙이고, 제2 오류 생성 규칙은 중국인의 한국어 학습을 위한 오류 생성 규칙이고, 제3 오류 생성 규칙은 일본인의 한국어 학습을 위한 오류 생성 규칙이고, 제4 오류 생성 규칙은 미국의 한국어 학습을 위한 오류 생성 규칙일 수 있다.For example, the first error generating rule is an error generating rule for Koreans (Koreans), the second error generating rule is an error generating rule for learning Korean for Chinese people, and the third error generating rule is for Japanese people learning Korean. This is an error generating rule, and the fourth error generating rule may be an error generating rule for learning Korean in the United States.

이러한 방식으로 제n 오류 생성 규칙이 정의된 후, 제n 오류 생성 규칙 각각에서 발생되는 오류의 정도를 조절하여 계층적으로 n개의 오류 발생 레벨이 정의될 수 있다.After the n-th error generation rule is defined in this way, n error generation levels may be hierarchically defined by adjusting the degree of errors generated in each of the n-th error generation rules.

예를 들어, 내국인을 위한 제1 오류 생성 규칙은 10개의 제1 오류 발생 레벨 내지 제10 오류 발생 레벨로 정의되고, 제1 오류 발생 레벨에서 제10 오류 발생 레벨로 갈수록 더 작은 오류가 발생되도록 정의될 수 있다. 즉, 제1 오류 발생 레벨을 기반으로 생성된 오류 문장은 초등학교 1학년이 발생시킬 수 있는 오류 문장의 수준이라면, 제10 오류 발생 레벨을 기반으로 생성된 오류 문장은 대학생이 발생시킬 수 있는 오류 문장의 수준일 수 있다.For example, the first error generation rule for Koreans is defined as 10 first error occurrence levels to 10th error occurrence levels, and smaller errors occur from the first error occurrence level to the 10th error occurrence level. It can be. That is, if the error sentence generated based on the first error occurrence level is the level of an error sentence that a first grader of elementary school can generate, the error sentence generated based on the tenth error occurrence level is an error sentence that a college student can generate. may be the level of

이러한 방식으로 사용자 정보를 기반으로 오류 생성 규칙과 오류 발생 레벨이 결정되고, 이를 기반으로 사용자의 교육 레벨에 따라 서로 다른 교육 데이터가 한국어 학습을 위해 생성되어 제공될 수 있다.In this way, error generation rules and error occurrence levels are determined based on user information, and based on this, different education data according to the user's education level can be generated and provided for Korean language learning.

이러한 오류 생성 규칙 및 오류 발생 레벨을 결정하기 위해 사용자 정보(국적, 학력 등)를 기반으로 생성된 오류 문장들이 입력되고, 이를 기반으로 오류 생성 규칙 및 오류 발생 레벨이 개별적으로 설정될 수 있다.In order to determine these error generation rules and error generation levels, error sentences generated based on user information (nationality, education, etc.) are input, and based on these, error generation rules and error generation levels may be individually set.

또한, 이러한 오류 생성 규칙 및 오류 발생 레벨을 기반으로 보다 빠른 한국어 교정 서비스가 제공될 수 있다. 보다 구체적으로 사용자의 교육 레벨을 기반으로 사용자의 교육 레벨에서 많이 발생하는 오류에 대해서 먼저 오류 검출을 수행함으로써 특정 교육 레벨에서 발생하지 않을 가능성이 높은 오류에 대한 판단은 후순위로 미루어보다 빠른 오류 검출 서비스가 제공될 수 있다.In addition, a faster Korean language correction service can be provided based on these error generation rules and error generation levels. More specifically, based on the user's education level, error detection is performed first for errors that occur frequently in the user's education level, and errors that are highly unlikely to occur at a specific education level are judged in a later order to provide a faster error detection service. may be provided.

즉, 한국어 교정 서비스가 제공시 사용자의 교육 레벨에 따라 검증하는 오류 검출 규칙이 서로 다른 우선 순위로 설정되어 검증될 수 있다. 이를 기반으로 오류에 대한 탐지가 더욱 빠르게 수행될 수 있다.That is, when the Korean language correction service is provided, error detection rules verified according to the user's education level may be set to different priorities and verified. Based on this, error detection can be performed more quickly.

또한, 본 발명의 띄어 쓰기 규칙에 따라 띄어쓰기 오류를 주어진 문장에 적용하기 위한 제3 데이터 셋 생성 모듈도 마찬가지로 n개의 오류 생성 규칙 및 n' 개의 오류 발생 레벨이 별도로 정의될 수 있다.Also, in the third data set generating module for applying spacing errors to given sentences according to the spacing rules of the present invention, n error generation rules and n' error generation levels may be separately defined.

도 6은 본 발명의 실시예에 따른 데이터 셋 생성 모듈의 동작을 나타낸 개념도이다.6 is a conceptual diagram illustrating the operation of a data set generation module according to an embodiment of the present invention.

도 6에서는 데이터 셋 생성 모듈에서 오류 발생 레벨 및 오류 생성 규칙 간의 통합 방법이 개시된다.6 discloses an integration method between error generation levels and error generation rules in the data set generation module.

도 6을 참조하면, 제2 데이터 셋 생성 모듈, 제3 데이터 셋 생성 모듈 각각에서 n개의 오류 생성 규칙 및 n개의 오류 발생 레벨 간의 비교를 통한 통합 처리 방법이 개시된다. 설명의 편의상 제2 데이터 셋 생성 모듈을 가정하여 설명하나, 제3 데이터 셋 생성 모듈에도 동일하게 적용될 수 있다.Referring to FIG. 6 , an integrated processing method through comparison between n error generation rules and n error occurrence levels in each of a second data set generation module and a third data set generation module is disclosed. For convenience of description, the second data set generation module is assumed, but the same may be applied to the third data set generation module.

규칙 통합 및/또는 레벨 통합은 유사한 레벨 간의 공통된 오류 규칙이 임계 비율 이상인 경우 수행될 수 있다. 예를 들어, 제1 오류 생성 규칙(610)에 포함되는 복수의 오류 생성 규칙과 제5 오류 생성 규칙(650)에 포함되는 복수의 오류 생성 규칙 간의 유사도가 임계 유사도 이상인 경우, 오류 생성 규칙 간의 통합이 이루어질 수 있다.Rule integration and/or level integration may be performed when the number of common error rules between similar levels is greater than or equal to a threshold ratio. For example, when the similarity between the plurality of error generating rules included in the first error generating rule 610 and the plurality of error generating rules included in the fifth error generating rule 650 is greater than or equal to the threshold similarity, the error generating rules are integrated. this can be done

1차적으로 오류 생성 규칙 간의 통합이 이루어진 이후, 2차적으로 오류 발생 레벨간의 유사도를 기반으로 오류 발생 레벨 간의 통합이 이루어질 수 있다. 예를 들어, 서로 다른 오류 생성 규칙 각각의 복수의 오류 발생 레벨 간의 비교를 통해 오류 발생 레벨 간에 유사한 오류 생성 규칙을 가지는 오류 발생 레벨은 통합될 수 있다.After firstly integrating between error generating rules, integration between error generating levels may be secondarily performed based on similarities between error generating levels. For example, error generation levels having similar error generation rules between error generation levels may be integrated through comparison between a plurality of error generation levels of different error generation rules.

구체적으로 제1 오류 생성 규칙(610)과 제5 오류 생성 규칙(650)이 통합된 경우, 제1 오류 생성 규칙(610)에 포함되는 복수의 오류 발생 레벨과 제5 오류 생성 규칙(650)에 포함되는 복수의 오류 발생 레벨 간의 비교가 수행될 수 있다.Specifically, when the first error generation rule 610 and the fifth error generation rule 650 are integrated, the plurality of error generation levels included in the first error generation rule 610 and the fifth error generation rule 650 A comparison between a plurality of included error occurrence levels may be performed.

제1 오류 생성 규칙(610)에 포함되는 복수의 오류 발생 레벨과 제5 오류 생성 규칙(650)에 포함되는 복수의 오류 발생 레벨 간의 비교를 기반으로 오류 발생 레벨 간의 통합이 이루어질 수 있다. 예를 들어, 제1 오류 생성 규칙(610)의 제2 오류 발생 레벨(620)과, 제5 오류 생성 규칙(650)의 제3 오류 발생 레벨(630) 간의 통합이 이루어지고 하나의 오류 발생 레벨로서 통합되어 관리될 수 있다.Integration between error generation levels may be performed based on a comparison between the plurality of error generation levels included in the first error generation rule 610 and the plurality of error generation levels included in the fifth error generation rule 650 . For example, integration between the second error generation level 620 of the first error generation rule 610 and the third error generation level 630 of the fifth error generation rule 650 is performed and one error generation level is formed. can be integrated and managed.

이러한 방식으로 오류 생성 규칙과 오류 발생 레벨을 통합화하여 관리함으로써 학습 데이터의 확보가 용이하도록 하고, 이러한 오류 발생 레벨에 대응되는 한국어 교육을 위한 교육 데이터의 생성이 용이하도록 할 수 있다.In this way, by integrating and managing error generation rules and error occurrence levels, it is possible to easily secure learning data and to easily generate educational data for Korean language education corresponding to such error occurrence levels.

이상 설명된 본 발명에 따른 실시예는 다양한 컴퓨터 구성요소를 통하여 실행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위하여 하나 이상의 소프트웨어 모듈로 변경될 수 있으며, 그 역도 마찬가지이다.Embodiments according to the present invention described above may be implemented in the form of program instructions that can be executed through various computer components and recorded on a computer-readable recording medium. The computer readable recording medium may include program instructions, data files, data structures, etc. alone or in combination. Program instructions recorded on the computer-readable recording medium may be specially designed and configured for the present invention, or may be known and usable to those skilled in the art of computer software. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks and magnetic tapes, optical recording media such as CD-ROMs and DVDs, and magneto-optical media such as floptical disks. medium), and hardware devices specially configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. Examples of program instructions include high-level language codes that can be executed by a computer using an interpreter or the like as well as machine language codes generated by a compiler. A hardware device may be modified with one or more software modules to perform processing according to the present invention and vice versa.

이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항과 한정된 실시예 및 도면에 의하여 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위하여 제공된 것일 뿐, 본 발명이 상기 실시예에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정과 변경을 꾀할 수 있다.Although the present invention has been described above with specific details such as specific components and limited embodiments and drawings, these are only provided to help a more general understanding of the present invention, and the present invention is not limited to the above embodiments, and the present invention Those with ordinary knowledge in the technical field to which the invention belongs may seek various modifications and changes from these descriptions.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.Therefore, the spirit of the present invention should not be limited to the above-described embodiments and should not be determined, and all scopes equivalent to or equivalently changed from the claims as well as the claims described below are within the scope of the spirit of the present invention. will be said to belong to

Claims (6)

한국어 교정 서비스 제공 방법은,
데이터 센터가 원문을 수집하고 상기 원문에 대한 오류 문장을 생성하여 학습 데이터 셋을 생성하는 단계;
GED/GEC(grammar error detection/grammar error correction) 서비스 엔진이 상기 학습 데이터 셋을 기반으로 문법적 오류를 추출하기 위한 문법 교정 학습을 수행하는 단계;
한국어 교정 서비스 플랫폼 제공부가 상기 GED/GEC 서비스 엔진을 기반으로 문법 오류 교정 서비스, 의미적 단어 추천 서비스, 오탈자 교정 서비스 또는 문장 부호 교정 서비스를 제공하는 단계를 포함하되,
상기 GED/GEC 서비스 엔진은 데이터 노이징부를 포함하고,
상기 데이터 노이징부는 복수의 데이터 셋 생성 모듈을 포함하고,
상기 복수의 데이터 셋 생성 모듈 각각은 상기 원문을 기초로 상기 원문에 대한 상기 오류 문장을 생성하도록 구현되고,
상기 학습 데이터 셋은 제1 학습 데이터 셋 생성 방식 및 제2 학습 데이터 셋 생성 방식을 기반으로 생성되고,
상기 제1 학습 데이터 셋 생성 방식은 로우 데이터를 오류 데이터로 정의한 후, 오류 교정 데이터를 생성하는 방식이고,
상기 제2 학습 데이터 셋 생성 방식은 로우 데이터를 오류없는 데이터로 정의한 후, 오류 데이터를 생성하는 방식이고,
상기 제1 학습 데이터 셋 생성 방식과 상기 제2 학습 데이터 셋 생성 방식은 데이터 소스에 따라 서로 다르게 설정되고,
크로울링 엔진부에 의해 크로울링된 상기 데이터 소스에 대하여 상기 GED/GEC 서비스 엔진의 기존 판단 결과를 기반으로 오류율이 임계 퍼센트 이상인 경우, 상기 데이터 소스는 상기 제1 학습 데이터 셋 생성 방식으로 학습 데이터 셋을 생성하고, 상기 오류율이 상기 임계 퍼센트 미만인 경우, 상기 데이터 소스는 상기 제2 학습 데이터 셋 생성 방식으로 학습 데이터 셋을 생성하는 것을 특징으로 하는 한국어 교정 서비스 제공 방법.
How to provide Korean language correction service,
generating a training data set by a data center collecting original texts and generating erroneous sentences for the original texts;
performing, by a grammar error detection/grammar error correction (GED/GEC) service engine, grammar correction learning to extract grammatical errors based on the training data set;
A Korean correction service platform providing unit providing a grammatical error correction service, a semantic word recommendation service, a typo correction service, or a punctuation mark correction service based on the GED / GEC service engine,
The GED / GEC service engine includes a data noise unit,
The data noising unit includes a plurality of data set generating modules,
Each of the plurality of data set generating modules is implemented to generate the error sentence for the original text based on the original text,
The learning data set is generated based on a first learning data set generation method and a second learning data set generation method;
The first learning data set generation method is a method of defining raw data as error data and then generating error correction data;
The second learning data set generation method is a method of generating error data after defining raw data as error-free data,
The first learning data set generation method and the second learning data set generation method are set differently according to data sources,
For the data source crawled by the crawling engine unit, if the error rate is greater than or equal to a critical percentage based on the existing determination result of the GED/GEC service engine, the data source generates a learning data set using the first learning data set generation method. And if the error rate is less than the critical percentage, the data source generates a learning data set using the second learning data set generation method.
제1항에 있어서,
상기 데이터 소스에 대한 상기 제1 학습 데이터 셋 생성 방식 또는 상기 제2 학습 데이터 셋 생성 방식의 선택은 상기 데이터 소스의 데이터가 임계 데이터양 이상으로 누적된 경우에 수행되고,
상기 데이터 소스에서 누적된 데이터양이 상기 임계 데이터양 미만인 경우에는 상기 제1 학습 데이터 셋 생성 방식과 상기 제2 학습 데이터 셋 생성 방식이 동시에 동일한 데이터에 적용되어 데이터 셋이 생성되고,
상기 제1 학습 데이터 셋 생성 방식과 상기 제2 학습 데이터 셋 생성 방식이 동시에 사용되는 경우, 상기 제1 학습 데이터 셋 생성 방식을 기반으로 한 상기 GED/GEC 서비스 엔진의 판단 결과에 대한 제1 오류율과 상기 제2 학습 데이터 셋 생성 방식을 기반으로 상기 GED/GEC 서비스 엔진의 판단 결과에 대한 제2 오류율이 결정되고,
상기 제1 오류율과 상기 제2 오류율의 차이값이 임계값 이상으로 벌어지는 경우, 더 작은 오류율을 가지는 상기 제1 학습 데이터 셋 생성 방식 또는 상기 제2 학습 데이터 셋 생성 방식이 선택되어 이후 선택된 데이터 셋 생성 방식이 메인 생성 방식으로 결정되는 것을 특징으로 하는 한국어 교정 서비스 제공 방법.
According to claim 1,
Selection of the first learning data set generation method or the second training data set generation method for the data source is performed when the data of the data source is accumulated to a threshold amount of data or more,
When the amount of data accumulated in the data source is less than the threshold data amount, the first training data set generation method and the second training data set generation method are simultaneously applied to the same data to create a data set;
When the first learning data set generation method and the second learning data set generation method are simultaneously used, a first error rate for a determination result of the GED/GEC service engine based on the first learning data set generation method and A second error rate for the determination result of the GED/GEC service engine is determined based on the second learning data set generation method,
When the difference between the first error rate and the second error rate exceeds a threshold value, the first training data set generation method or the second training data set generation method having a smaller error rate is selected, and then the selected data set is generated A method for providing Korean language correction service, characterized in that the method is determined by the main generation method.
제2항에 있어서,
상기 데이터 노이징부는 오류 문장을 생성시 문장의 길이, 문장에 위치한 문법적 품사의 종류에 기초하여 오류 발생 개수를 결정하고,
상기 데이터 노이징부는 문장을 그룹핑하여 오류 발생 위치를 결정하고,
상기 데이터 노이징부는 문장의 길이가 상대적으로 길수록 오류 발생 개수를 상대적으로 증가시키고,
상기 데이터 노이징부는 품사 중 오류가 많이 발생하는 품사는 상대적으로 우선 순위를 설정하여 오류를 발생시키고,
상기 데이터 노이징부는 오류의 발생 위치를 결정하기 위해 문장을 구성하는 복수의 품사는 명사, 동사를 기준으로 하위 문장 단위로 그룹핑하고,
상기 데이터 노이징부는 그룹핑된 하위 문장 그룹 중 오류가 많이 발생하는 품사를 상대적으로 많이 포함한 하위 문장 그룹을 상기 오류 발생 위치로 결정하는 것을 특징으로 하는 방법.
According to claim 2,
When generating an erroneous sentence, the data noise unit determines the number of errors based on the length of the sentence and the type of grammatical parts of speech located in the sentence;
The data noise unit groups sentences to determine an error occurrence position,
The data noise unit relatively increases the number of errors occurring as the length of the sentence is relatively long,
The data noise unit causes an error by setting a relatively high priority for parts of speech that have a lot of errors among parts of speech,
The data noising unit groups a plurality of parts of speech constituting a sentence into sub-sentence units based on nouns and verbs in order to determine the location of the error occurrence,
The method of claim 1 , wherein the data noise unit determines a sub-sentence group including a relatively large number of part-of-speech errors among the grouped sub-sentence groups as the location of occurrence of the error.
한국어 교정 서비스를 제공하는 한국어 교정 시스템은,
원문을 수집하고 상기 원문에 대한 오류 문장을 생성하여 학습 데이터 셋을 생성하도록 구현되는 데이터 센터;
상기 학습 데이터 셋을 기반으로 문법적 오류를 추출하기 위한 문법 교정 학습을 수행하도록 구현되는 GED/GEC(grammar error detection/grammar error correction) 서비스 엔진;
상기 GED/GEC 서비스 엔진을 기반으로 문법 오류 교정 서비스, 의미적 단어 추천 서비스, 오탈자 교정 서비스 또는 문장 부호 교정 서비스를 제공하도록 구현되는 한국어 교정 서비스 플랫폼 제공부를 포함하되,
상기 GED/GEC 서비스 엔진은 데이터 노이징부를 포함하고,
상기 데이터 노이징부는 복수의 데이터 셋 생성 모듈을 포함하고,
상기 복수의 데이터 셋 생성 모듈 각각은 상기 원문을 기초로 상기 원문에 대한 상기 오류 문장을 생성하도록 구현되고,
상기 학습 데이터 셋은 제1 학습 데이터 셋 생성 방식 및 제2 학습 데이터 셋 생성 방식을 기반으로 생성되고,
상기 제1 학습 데이터 셋 생성 방식은 로우 데이터를 오류 데이터로 정의한 후, 오류 교정 데이터를 생성하는 방식이고,
상기 제2 학습 데이터 셋 생성 방식은 로우 데이터를 오류없는 데이터로 정의한 후, 오류 데이터를 생성하는 방식이고,
상기 제1 학습 데이터 셋 생성 방식과 상기 제2 학습 데이터 셋 생성 방식은 데이터 소스에 따라 서로 다르게 설정되고,
크로울링 엔진부에 의해 크로울링된 상기 데이터 소스에 대하여 상기 GED/GEC 서비스 엔진의 기존 판단 결과를 기반으로 오류율이 임계 퍼센트 이상인 경우, 상기 데이터 소스는 상기 제1 학습 데이터 셋 생성 방식으로 학습 데이터 셋을 생성하고, 상기 오류율이 상기 임계 퍼센트 미만인 경우, 상기 데이터 소스는 상기 제2 학습 데이터 셋 생성 방식으로 학습 데이터 셋을 생성하는 것을 특징으로 하는 한국어 교정 시스템.
The Korean proofreading system, which provides Korean proofreading services,
a data center configured to collect original texts and generate erroneous sentences for the original texts to generate a training data set;
a grammar error detection/grammar error correction (GED/GEC) service engine implemented to perform grammar correction learning for extracting grammatical errors based on the training data set;
A Korean correction service platform providing unit implemented to provide a grammatical error correction service, a semantic word recommendation service, a typo correction service, or a punctuation mark correction service based on the GED / GEC service engine,
The GED / GEC service engine includes a data noise unit,
The data noising unit includes a plurality of data set generating modules,
Each of the plurality of data set generating modules is implemented to generate the error sentence for the original text based on the original text,
The learning data set is generated based on a first learning data set generation method and a second learning data set generation method;
The first learning data set generation method is a method of defining raw data as error data and then generating error correction data;
The second learning data set generation method is a method of generating error data after defining raw data as error-free data,
The first learning data set generation method and the second learning data set generation method are set differently according to data sources,
For the data source crawled by the crawling engine unit, if the error rate is greater than or equal to a critical percentage based on the existing determination result of the GED/GEC service engine, the data source generates a learning data set using the first learning data set generation method. And when the error rate is less than the critical percentage, the data source generates a learning data set using the second learning data set generation method.
제4항에 있어서,
상기 데이터 소스에 대한 상기 제1 학습 데이터 셋 생성 방식 또는 상기 제2 학습 데이터 셋 생성 방식의 선택은 상기 데이터 소스의 데이터가 임계 데이터양 이상으로 누적된 경우에 수행되고,
상기 데이터 소스에서 누적된 데이터양이 상기 임계 데이터양 미만인 경우에는 상기 제1 학습 데이터 셋 생성 방식과 상기 제2 학습 데이터 셋 생성 방식이 동시에 동일한 데이터에 적용되어 데이터 셋이 생성되고,
상기 제1 학습 데이터 셋 생성 방식과 상기 제2 학습 데이터 셋 생성 방식이 동시에 사용되는 경우, 상기 제1 학습 데이터 셋 생성 방식을 기반으로 한 상기 GED/GEC 서비스 엔진의 판단 결과에 대한 제1 오류율과 상기 제2 학습 데이터 셋 생성 방식을 기반으로 상기 GED/GEC 서비스 엔진의 판단 결과에 대한 제2 오류율이 결정되고,
상기 제1 오류율과 상기 제2 오류율의 차이값이 임계값 이상으로 벌어지는 경우, 더 작은 오류율을 가지는 상기 제1 학습 데이터 셋 생성 방식 또는 상기 제2 학습 데이터 셋 생성 방식이 선택되어 이후 선택된 데이터 셋 생성 방식이 메인 생성 방식으로 결정되는 것을 특징으로 하는 한국어 교정 시스템.
According to claim 4,
Selection of the first learning data set generation method or the second training data set generation method for the data source is performed when the data of the data source is accumulated to a threshold amount of data or more,
When the amount of data accumulated in the data source is less than the threshold data amount, the first training data set generation method and the second training data set generation method are simultaneously applied to the same data to create a data set;
When the first learning data set generation method and the second learning data set generation method are simultaneously used, a first error rate for a determination result of the GED/GEC service engine based on the first learning data set generation method and A second error rate for the determination result of the GED/GEC service engine is determined based on the second learning data set generation method,
When the difference between the first error rate and the second error rate exceeds a threshold value, the first training data set generation method or the second training data set generation method having a smaller error rate is selected, and then the selected data set is generated A Korean correction system, characterized in that the method is determined by the main generation method.
제5항에 있어서,
상기 데이터 노이징부는 오류 문장을 생성시 문장의 길이, 문장에 위치한 문법적 품사의 종류에 기초하여 오류 발생 개수를 결정하고,
상기 데이터 노이징부는 문장을 그룹핑하여 오류 발생 위치를 결정하고,
상기 데이터 노이징부는 문장의 길이가 상대적으로 길수록 오류 발생 개수를 상대적으로 증가시키고,
상기 데이터 노이징부는 품사 중 오류가 많이 발생하는 품사는 상대적으로 우선 순위를 설정하여 오류를 발생시키고,
상기 데이터 노이징부는 오류의 발생 위치를 결정하기 위해 문장을 구성하는 복수의 품사는 명사, 동사를 기준으로 하위 문장 단위로 그룹핑하고,
상기 데이터 노이징부는 그룹핑된 하위 문장 그룹 중 오류가 많이 발생하는 품사를 상대적으로 많이 포함한 하위 문장 그룹을 상기 오류 발생 위치로 결정하는 것을 특징으로 하는 한국어 교정 시스템.
According to claim 5,
When generating an erroneous sentence, the data noise unit determines the number of errors based on the length of the sentence and the type of grammatical parts of speech located in the sentence;
The data noise unit groups sentences to determine an error occurrence position,
The data noise unit relatively increases the number of errors occurring as the length of the sentence is relatively long,
The data noise unit causes an error by setting a relatively high priority for parts of speech that have a lot of errors among parts of speech,
The data noising unit groups a plurality of parts of speech constituting a sentence into sub-sentence units based on nouns and verbs in order to determine the location of the error occurrence,
The Korean language correction system, characterized in that the data noise unit determines a sub-sentence group containing a relatively large number of parts of speech in which errors occur among the grouped sub-sentence groups as the error occurrence position.
KR1020220078913A 2022-06-28 2022-06-28 Method for Korean correction service and apparatus for performing the method KR102507925B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220078913A KR102507925B1 (en) 2022-06-28 2022-06-28 Method for Korean correction service and apparatus for performing the method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220078913A KR102507925B1 (en) 2022-06-28 2022-06-28 Method for Korean correction service and apparatus for performing the method

Publications (1)

Publication Number Publication Date
KR102507925B1 true KR102507925B1 (en) 2023-03-10

Family

ID=85570513

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220078913A KR102507925B1 (en) 2022-06-28 2022-06-28 Method for Korean correction service and apparatus for performing the method

Country Status (1)

Country Link
KR (1) KR102507925B1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180113849A (en) * 2017-04-07 2018-10-17 주식회사 카카오 Method for semantic rules generation and semantic error correction based on mass data, and error correction system implementing the method
KR102313561B1 (en) * 2020-11-23 2021-10-18 주식회사 보인정보기술 Method And Apparatus for Providing Untact Language Assessment by Using Virtual Tutor Robot
KR20220084915A (en) * 2020-12-14 2022-06-21 박지우 System for providing cloud based grammar checker service

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180113849A (en) * 2017-04-07 2018-10-17 주식회사 카카오 Method for semantic rules generation and semantic error correction based on mass data, and error correction system implementing the method
KR102313561B1 (en) * 2020-11-23 2021-10-18 주식회사 보인정보기술 Method And Apparatus for Providing Untact Language Assessment by Using Virtual Tutor Robot
KR20220084915A (en) * 2020-12-14 2022-06-21 박지우 System for providing cloud based grammar checker service

Similar Documents

Publication Publication Date Title
Zitouni Natural language processing of semitic languages
Hana et al. Error-tagged learner corpus of Czech
Alkhatib et al. Deep learning for Arabic error detection and correction
Petersen et al. Natural Language Processing Tools for Reading Level Assessment and Text Simplication for Bilingual Education
CN113449514A (en) Text error correction method and device suitable for specific vertical field
Rozovskaya et al. Adapting to learner errors with minimal supervision
Bhattacharyya et al. Indic language computing
US20220189333A1 (en) Method of generating book database for reading evaluation
KR102251554B1 (en) Method for generating educational foreign language text by adjusting text difficulty
Tran et al. Hierarchical transformer encoders for vietnamese spelling correction
CN116861242A (en) Language perception multi-language pre-training and fine tuning method based on language discrimination prompt
Hadi et al. THE USE OF TRANSLATION IDEOLOGY AND TECHNIQUES IN INDONESIAN VERSION OF AGATHA CHRISTIE’S ENDLESS NIGHT NOVEL
KR20100138194A (en) System and method for recommendding japanese language automatically using tranformatiom of romaji
KR102507925B1 (en) Method for Korean correction service and apparatus for performing the method
Alkahtani Building and verifying parallel corpora between Arabic and English
Turner et al. Language modeling for determiner selection
Katic et al. An analysis of dissertation abstracts written by non-native English speakers at a Serbian university: Differences and similarities across disciplines
Helgadóttir et al. Correcting Errors in a New Gold Standard for Tagging Icelandic Text.
Chakraborty et al. A bengali-sylheti rule-based dialect translation system: Proposal and preliminary system
Pilán et al. Exploring word embeddings and phonological similarity for the unsupervised correction of language learner errors
CN113822053A (en) Grammar error detection method and device, electronic equipment and storage medium
Fashwan et al. A rule based method for adding case ending diacritics for modern standard Arabic texts
Esmail et al. How much does lookahead matter for disambiguation? partial arabic diacritization case study
Hassan et al. Natural language understanding of map navigation queries in Roman Urdu by joint entity and intent determination
Aichaoui et al. SPIRAL: SP ell I ng e R ror Parallel Corpus for A rabic L anguage

Legal Events

Date Code Title Description
GRNT Written decision to grant