KR100798752B1 - Apparatus for and method of korean orthography - Google Patents

Apparatus for and method of korean orthography Download PDF

Info

Publication number
KR100798752B1
KR100798752B1 KR1020070063152A KR20070063152A KR100798752B1 KR 100798752 B1 KR100798752 B1 KR 100798752B1 KR 1020070063152 A KR1020070063152 A KR 1020070063152A KR 20070063152 A KR20070063152 A KR 20070063152A KR 100798752 B1 KR100798752 B1 KR 100798752B1
Authority
KR
South Korea
Prior art keywords
word
dictionary
target
rule
error
Prior art date
Application number
KR1020070063152A
Other languages
Korean (ko)
Inventor
권혁철
Original Assignee
(주)나라인포테크
권혁철
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)나라인포테크, 권혁철 filed Critical (주)나라인포테크
Priority to KR1020070063152A priority Critical patent/KR100798752B1/en
Application granted granted Critical
Publication of KR100798752B1 publication Critical patent/KR100798752B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

A device and a method for checking Hangul orthography are provided to present a replaceable word spacing nouns when a general rule is not applied to a complex noun, and recognize an idiomatic part-of-speed comparing the multi-word as one checking target while checking Korean orthography. A general dictionary analyzer(10) stores the target word by dividing the inputted word into each morpheme and compares the target word with a general dictionary(12). The general dictionary analyzer stores a corrected replaceable word to a buffer if an error is found the target word, and stores an ID number when a style error is found. A complex noun analyzer(20) memorizes spacing positions between the words if the target word does not follow the rule of a complex noun restriction rule dictionary(22). A multi-word analyzer(30) recognizes the multi-word as one morpheme if the target word is matched with a start word of a multi-word dictionary(32). A meaning/style analyzer(40) generates a rule list by searching a correction rule from a meaning/style correction rule dictionary(42) if the ID number is stored in the target word, and generates/stores the replaceable word by selecting one rule based on the word before/after the target word.

Description

한국어 맞춤법 검사기 및 검사방법 {APPARATUS FOR AND METHOD OF KOREAN ORTHOGRAPHY}Korean spell checker and test method {APPARATUS FOR AND METHOD OF KOREAN ORTHOGRAPHY}

도 1 - 종래의 오류의심어절에 대한 교정어절정보를 제공하는 시스템1-a system for providing corrected word information for the conventional error suspect clause

도 2 - 본 발명의 바람직한 실시 예에 따른 한국어 맞춤법 검사기의 블럭 도.2-block diagram of a Korean spelling checker in accordance with a preferred embodiment of the present invention.

도 3 - 본 발명의 바람직한 실시 예에 따른 의미문체 분석기의 블럭도.3 is a block diagram of a semantic analyzer according to a preferred embodiment of the present invention.

도 4 - 본 발명의 바람직한 실시 예에 따른 한국어 맞춤법 검사방법의 순서 흐름도.4-flowchart of a Korean spelling checking method according to a preferred embodiment of the present invention.

** 도면의 주요 부분에 대한 부호의 설명 **** Description of symbols for the main parts of the drawing **

10 : 일반사전 분석기 12 : 일반사전10: general dictionary analyzer 12: general dictionary

14 : 의미문체 오류 판별 20 : 복합명사 분석기14: Determining Semantic Style Error 20: Complex Noun Analyzer

22 : 복합명사 제약규칙사전 30 : 다수어절 분석기22: compound noun constraint rule dictionary 30: multiword analyzer

32 : 다수어절 사전 40 : 의미문체 분석기32: multiple word dictionary 40: semantic grammar analyzer

42 : 의미문체 교정규칙사전 S10: 텍스트 입력단계42: Dictionary of semantic correction rules S10: text input step

S20: 어절 추출단계 S30: 일반사전 분석단계S20: extract word step S30: general dictionary analysis step

S40: 복합명사 분석단계 S42: 제약규칙 판별단계S40: compound noun analysis step S42: constraint rule determination step

S44: 명사간 띄어쓰기 저장 단계 S50: 다수어절 분석단계S44: Spacing between nouns S50: Multiword analysis step

S52: 다수어절 사전 검색 단계 S54: 다수어절 대체어 판별단계S52: Multiple word dictionary search step S54: Multiple word alternative word determination step

S60: 의미문체 분석단계 S62: 교정규칙 리스트단계S60: semantic style analysis step S62: correction rule list step

S64: 의미문체 대체어 판별단계 S70: 형태소 판별단계S64: Step for determining semantic substitute word S70: Step for determining morpheme

S72: 교정루틴단계 S80: 표시단계S72: calibration routine step S80: display step

S90: 표시단계 S100: 버퍼어절 판별단계S90: Display step S100: Buffer word discrimination step

본 발명은 한국어 맞춤법 검사기 및 검사방법에 관한 것으로, 보다 상세하게는 복합명사와 다수어절 및 의미와 문체상 오류가 있는 어절을 검사하는 한국어 맞춤법 검사기 및 검사방법에 관한 것이다.The present invention relates to a Korean spelling checker and a test method, and more particularly, to a Korean spelling checker and a test method for checking a compound noun, a multiple word clause, and a word having a meaning and stylistic error.

일반적으로 맞춤법 검사기란 좁게는 단순한 철자 및 문법의 교정에 필요한 정보를 제공하는 것을 말하며, 좀더 넓은 범위로는 문서, 혹은 문장의 효과적인 작성을 지원하기 위해서 문체상 오류를 검사하는 기능을 하며, 또한, 순화 용어를 제공하고, 구두점 등 문장부호의 사용에 대한 적합성을 알려주며, 오류에 대한 학습 정보와, 오류의 빈도나 강도에 따른 교정된 정보를 제공하고, 단어의 사용 용례 등을 함께 제공하는 것을 말한다.In general, the spell checker narrowly refers to providing information necessary for simple spelling and grammar correction, and to a broader extent, it checks for stylistic errors to support the effective writing of a document or sentence. It provides the terms of punctuation, informs the suitability of punctuation such as punctuation marks, provides learning information about errors, corrected information according to the frequency and intensity of errors, and provides usage examples of words. .

현대 사회에서 컴퓨터에 의한 문서 편집, 탁상출판(DTP), 전자서식(CTS) 등 그밖에 여러 워드 작성기는 문서 작성과 편집에 드는 시간과 노력을 줄여 주었으며, 문서의 질적 향상을 가져왔다. In today's society, many word writers, such as computer-based text editing, desktop publishing (DTP), and electronic forms (CTS), have reduced the time and effort required to create and edit documents, resulting in improved document quality.

그러나 작성한 문서에 대한 퇴고는 아직 수작업에 의존하고 있으며, 이에 따라서 퇴고 작업이 문서 작성에 병목 현상을 초래하고 있다. 또한 철자가 틀리거나 잘못 입력된 자료는 문서 검색과 보관 및 문서의 처리에 큰 어려움을 준다. 따라서 자동 퇴고 시스템의 경제적, 사회적 활용성과 필요성은 날로 증대되고 있다.However, the retirement of written documents is still dependent on manual work, and the retirement work becomes a bottleneck in the preparation of documents. Misspelled or mistyped materials also make it difficult to retrieve, archive, and process documents. Therefore, the economic and social utility and necessity of automatic retirement systems are increasing day by day.

통상적으로 맞춤법 검사방법은 정제할 문장을 형태소로 분석하여 대상 형태소만 검사하는 방법이 많이 이용되고 있으나, 이렇게 형태소 분석만으로 맞춤법을 검사하는 방법은 다수어절로 이루어진 단어는 맞춤법 검사 대상으로 고려할 수 없다는 문제점이 있다.In general, the spell checking method is a method that checks only the target morpheme by analyzing the sentence to be purified as a morpheme, but the method of checking the spelling only by the morpheme analysis cannot consider a word composed of multiple words as the target of the spell check. There is this.

한편, 맞춤법 검사와 관련된 종래 기술로는 1997년 12월 10일을 출원일자로 한 대한민국특허청 공개번호 제0048708호로 공개된 "맞춤법 검사방법"과, 2005년 04월 25일을 출원일자로 한 대한민국특허청 공개번호 제0111920호로 공개된 "오류의심어절 판별 및 교정정보 제공시스템 및 그 구현방법"이 개시되어 있다.On the other hand, the prior art related to the spell check is a "spell check method" published by the Republic of Korea Patent Office Publication No. 0048708 dated December 10, 1997 and the Republic of Korea Patent Office filed April 25, 2005 Disclosed is a system for providing an error suspected phrase discrimination and correction information and its implementation method disclosed in Korean Patent No. 01111920.

개시된 선행기술에 대하여 상세하게 살펴보면, "맞춤법 검사방법"은 종래의 한글과 외국어가 혼용되거나, 괄호가 쓰이는 경우에 맞춤법을 정확하게 수행할 수 없는 곤란한 점을 극복하여, 자립 형태소에 붙는 조사중에 그 자립형태소의 종성 유무에 따라 그 형태가 변화하는 조사를 검사하는 방법으로, 이 선행기술에 의하면 자립 형태소에 따른 조사교정은 가능하지만, 단지 자립형태소에 붙는 조사의 맞춤법만 검증하므로, 다수어절로 이루어진 단어와, 복합명사를 맞춤법의 검사대상으로 하지 못하는 문제점이 있다.Looking in detail with respect to the disclosed prior art, the "spell check method" overcomes the difficulty of accurately performing the spelling when the conventional Hangul and foreign languages are mixed, or parentheses are used, the self-reliance during the investigation attached to the independence morpheme A method that examines surveys whose form changes depending on the presence or absence of morphemes. According to this prior art, survey correction can be made according to independent morphemes, but only the spelling of surveys attached to independent morphemes is verified. There is a problem in that compound nouns cannot be spelled out.

다음으로, 도 1은 종래의 오류의심어절 판별 및 교정정보 제공시스템 및 그 구현방법의 구성을 나타낸 블럭도이다. Next, FIG. 1 is a block diagram showing a configuration of a conventional error heartbeat determination and correction information providing system and an implementation method thereof.

도 1을 참고하면, 철자 오류가 존재하는 어절 및 문맥에 부적절하게 사용된 어절을 발견하는 오류 의심어절 탐지방법과 적절한 교정 정보를 제공하며, 워드프로세서 등 각종 응용 프로그램들이 호출하여 사용할 수 있는 프로그램 모듈의 구현방법을 고안한 것으로, 입력받은 문맥글에서 후보어절을 추출하고, 상기 후보어절을 오류정보 데이터베이스(2)에서 검색하여, 오류어절임을 표시하는 정보가 있는 경우에 상기 어절을 오류의심어절로 판정하는 오류의심어절 판별 모듈(1)과, 상기 오류정보 데이터베이스(2)에 저장된 어절들이 바르게 사용된 글의 용례를 저장한 어절용례 데이터베이스(4)에서 적합한 글의 용례를 추출하는 용례추출모듈(3)과, 상기 교정어절 및 교정어절이 사용된 글의 용례가 저장된 교정어절 데이터베이스(6)와 상기 교정어절 데이터베이스(6)에서 교정어절을 획득하는 교정어절 추출모듈(5)로 이루어져 오류의심어절을 판별하여 교정하는 장점이 있는 반면에, 의미 문체상 오류가 있는 경우에 앞, 뒤 어절에 맞는 적절한 대체어를 제시하지 못하는 문제점이 있다.Referring to FIG. 1, a program module for detecting a suspicious word that detects a word in which a spelling error exists and a word inappropriately used in a context, and providing appropriate correction information, and can be called and used by various applications such as a word processor. In the present invention, the candidate phrase is extracted from the input context text, the candidate phrase is searched in the error information database (2), and when there is information indicating an error phrase, the phrase is an error suspect phrase. An example extraction module for extracting an example of an appropriate article from an error suspect word determination module 1 for determining and a word example database 4 for storing an example of a sentence in which the words stored in the error information database 2 are correctly used ( 3) and a correction word database (6) storing the correction word and a usage example of the sentence using the correction word and the correction word word. While there is an advantage in that it consists of the correction word extraction module (5) which obtains the correction clause in the database (6), while it has the advantage of discriminating and correcting the error clause, the proper substitution for the front and rear words in the case of a semantic grammatical error. There is a problem that can not be presented.

본 발명은 전술한 문제점을 해결하기 위하여 안출된 것으로서, 복합 명사에 일반적인 규칙을 적용하여 규칙에 적용되지 않을 때에는 명사 사이를 띄어쓰기한 대체어를 제시하는 한국어 맞춤법 검사기 및 검사방법을 제공하는 데 그 목적이 있다. SUMMARY OF THE INVENTION The present invention has been made to solve the above problems, and provides a Korean spelling checker and a method of checking a substitute word between nouns by applying a general rule to a compound noun and applying a space between nouns. There is this.

또한, 본 발명은 맞춤법 검사시에 다수어절로 이루어진 관용적인 품사를 하 나의 검사대상으로 인식하는 한국어 맞춤법 검사기 및 검사방법을 제공하는 데 다른 목적이 있다.Another object of the present invention is to provide a Korean spell checker and a method for recognizing an idiomatic part-of-speech consisting of multiple words when checking a spell.

그리고, 본 발명은 문맥의 흐름에서 의미상 오류가 있는 경우, 미리 구축된 교정규칙중 대상어절의 앞, 뒤 어절을 판단기준으로 대체어를 생성하여 제시하는 한국어 맞춤법 검사기 및 검사방법을 제공하는데 또 다른 목적이 있다.In addition, the present invention provides a Korean spelling checker and method for generating and presenting a substitute word based on a criterion before and after a target word among pre-established correction rules when there is a semantic error in the flow of context. There is another purpose.

상기와 같은 목적을 달성하기 위한 본 발명은 오류를 교정한 대체어를 제공하는 한국어 맞춤법 검사기는 입력된 어절을 형태소로 구분하여 대상어절을 버퍼에 저장 후, 품사사전과 오용어사전과 어미조사사전 및 전문용어사전으로 이루어진 일반사전과 비교하여, 오류가 있으면 교정된 대체어를 버퍼에 저장하고, 대상어절이 문체상 오류의 가능성이 있으면 식별번호를 저장하는 일반사전 분석기와; 상기 대상어절이 복합명사와 관련된 규칙으로 이루어진 복합명사 제약규칙 사전과 비교하여, 상기 규칙과 맞지 않으면 단어 사이에 띄어쓸 위치를 기억하는 복합명사 분석기와; 상기 대상어절이 다수어절 사전의 시작어절과 비교하여 일치하면, 상기 다수어절을 하나의 형태소로 인식하는 다수어절 분석기와; 상기 대상어절에 식별번호가 저장되어 있으면 의미문체 교정규칙 사전에서 색인으로 하는 교정규칙을 검색하여 규칙 리스트를 생성하고, 상기 대상어절의 앞, 뒤 어절을 기준으로 상기 규칙 리스트 중 하나의 규칙을 선택하여 대체어를 생성하고 저장하는 의미문체 분석기;를 포함하여 이루어진 것을 특징으로 한다.In order to achieve the above object, the present invention provides a spelling checker for Korean that provides an alternative word corrected by grammatically dividing the input word into morphemes and storing the target word in a buffer. And a general dictionary analyzer for storing a corrected substitute word in a buffer when there is an error, and storing an identification number if there is a possibility of a stylistic error in comparison with a general dictionary consisting of a terminology dictionary; A compound noun analyzer for storing a space to be spaced between words if the target word is not matched with the rule, compared to a compound noun constraint rule dictionary composed of rules related to compound nouns; A multiple word analyzer that recognizes the majority word as one morpheme if the target word matches the starting phrase of the multiple word dictionary; If an identification number is stored in the target word, a rule list is generated by searching the correction rule indexed from the semantic correction rule rule dictionary, and one of the rule lists is selected based on the front and rear words of the target word. And a semantic parser for generating and storing substitute words.

또한, 본 발명에 따른 한국어 맞춤법 검사방법은 오류를 정제할 텍스트가 입 력되는 텍스트 입력단계와 ; 상기 텍스트를 어절로 분리한 대상어절을 버퍼에 저장하는 어절 추출단계와; 상기 대상어절을 형태소로 분석한 후, 품사사전과 오용어사전과 어미조사사전 및 전문용어사전으로 이루어진 일반사전과 비교하여, 오류가 있으면 교정된 대체어를 저장하고, 문체상 오류의 가능성이 있으면 식별번호를 저장하는 일반사전 분석단계와; 상기 대상어절이 복합명사 제약규칙 사전과 일치하지 않으면, 단어 사이에 띄어쓸 위치를 저장하는 복합명사 분석단계와; 상기 대상어절이 다수어절 사전의 시작어절과 비교하여 일치하면, 다수어절을 하나의 형태소로 인식하는 다수어절 분석단계와; 상기 대상어절을 의미문체 교정규칙 사전에서 색인으로 하는 교정규칙을 검색하여 규칙 리스트를 생성하고, 상기 대상어절의 앞, 뒤 어절을 기준으로 상기 규칙 리스트 중 하나의 규칙을 선택하여 대체어를 생성하고 저장하는 의미문체 분석단계와; 상기 대상어절의 형태소가 없으면, 띄어쓰기 및 음소대치를 적용하는 교정루틴 단계로 넘어가고, 형태소가 있으면 대체어 판별단계로 넘어가는 형태소 판별단계와; 상기 대상어절의 대체어가 없으면, 버퍼어절 판별단계로 가고, 대체어가 있으면 표시단계로 가는 대체어 판별단계와; 상기 대상어절의 대체어가 있으면, 도움말과 함께 화면에 출력하는 표시 단계; 및 버퍼에 저장된 상기 대상어절 이후에 오는 다음어절이 있으면 상기 대상어절을 다음어절로 전환하고, 저장된 다음어절이 없으면 맞춤법 검사를 끝내는 버퍼어절 판별단계;를 포함하여 이루어진 것을 특징으로 한다.In addition, the Korean spelling checking method according to the present invention includes a text input step of inputting text to refine the error; A word extraction step of storing a target word obtained by separating the text into a word in a buffer; After analyzing the target phrase in morpheme, compared with the general dictionary consisting of a part-of-speech dictionary, a glossary dictionary, a parent research dictionary, and a terminology dictionary, if there is an error, the corrected substitute word is stored, General dictionary analysis step of storing the identification number; A compound noun analysis step for storing a space to be spaced between words if the target word does not match a compound noun constraint rule dictionary; A multiple word analysis step of recognizing the majority word as one morpheme if the target word matches the starting phrase of the multiple word dictionary; Generate a rule list by retrieving the correction rule indexing the target word in the semantic correction rule dictionary, and selecting a rule from the list of rules based on the front and rear words of the target word to generate a substitute word. A semantic sentence analysis step of storing; If there is no morpheme of the target phrase, a morpheme discrimination step is passed to a correction routine for applying spacing and phoneme substitution, and if there is a morpheme, the process proceeds to a substitute word discrimination step; A substitute word discrimination step, if there is no substitute word for the target word, go to a buffer word clause determination step, and go to a display step if there is a substitute word; A display step of outputting on the screen together with help if there is a substitute word of the target word; And a buffer word determining step of converting the target word to the next word if there is a next word that comes after the target word stored in a buffer, and ending a spell check if there is no stored next word.

여기서, 상기 일반사전 분석단계는, 축약된 대상어절을 프로그램 코드로 풀어져 형태소로 분석하는 것이 바람직하다.Here, in the general dictionary analysis step, it is preferable that the abbreviated target phrase is solved by a morpheme by decompressing the program code.

여기서, 상기 다수어절 분석단계는, 사용자가 입력시킨 어절의 개수로 이루어진 다수어절을 다수어절 사전에서 검색하는 것이 바람직하다.In the multi-word analysis step, the multi-word phrase consisting of the number of words input by the user is preferably searched in the multi-word dictionary.

그리고, 상기 의미문체 분석단계는, 상기 대상어절이 다양한 품사로 변환되어 문체상 규칙이 저장된 의미문체 교정규칙 사전이 적용되는 것이 바람직하다.The semantic sentence analysis step may include applying a semantic correction rule dictionary in which the target word is converted into various parts of speech and stored in a stylistic rule.

이하, 첨부된 도면을 참조하여 본 발명을 설명하기로 한다.Hereinafter, with reference to the accompanying drawings will be described the present invention.

도 2는 본 발명의 바람직한 실시예에 따른 한국어 맞춤법 검사기의 블럭 도이다.2 is a block diagram of a Korean spelling checker according to a preferred embodiment of the present invention.

도 2에서 도시된 바와 같이, 일반사전 분석기(10)와, 복합명사 분석기(20)와, 다수어절 분석기(30) 및 의미문체 분석기(40)로 이루어져 있다.As shown in FIG. 2, the general dictionary analyzer 10, the compound noun analyzer 20, the multiple word analyzer 30, and the semantic style analyzer 40 are included.

여기서 일반적으로 입력과정에 해당되는 탭이나 엔터, 스페이스 바와 같은 신호로 분석할 텍스트가 입력되고, 상기 텍스트를 빈칸이나 숫자, 괄호 등을 기준으로 어절을 나누어 대상어절을 생성하는 것은 이미 공지되어 있으므로 자세한 기술은 생략한다.In general, since text to be analyzed is input as a signal such as a tap, enter, or space bar corresponding to an input process, and it is already known to generate a target word by dividing the word based on a space, a number, parentheses, etc. The description is omitted.

상기 일반사전 분석기(10)는 입력된 텍스트를 형태소로 분석한 대상어절을 버퍼에 저장하고, 대상어절을 품사사전, 오용어사전, 어미조사사전 및 전문용어 사전 등과 같은 일반사전(12)을 참고로 하여, 대상어절에 오류가 있는지 검사를 하고, 오류가 있으면, 상기 일반사전(12)을 참고로 하여, 대체어를 생성하고 저장한다. The general dictionary analyzer 10 stores the target word in which the input text is morphologically analyzed in a buffer, and refers to the general dictionary 12 such as a part-of-speech dictionary, a misuse dictionary, a ending dictionary, and a terminology dictionary. As a result, the target word is checked for an error, and if there is an error, a general word is generated and stored with reference to the general dictionary 12.

그리고, 품사에 따른 분류를 위한 특정 번호를 대상어절에 저장한 후, 상기 품사를 성질별로 그룹화하여 그룹번호를 저장한다. 상기 그룹번호는 후술할 복합명사 분석기(20)에서 사용하기 위한 것으로, 구체적인 그룹화의 실시 예로는 '하다 명사'그룹과 '동물'그룹 등으로 분류하여 각각에 번호를 저장하여 후술할 복합명사 제약 규칙사전에 적용할 수 있다. 이러한 그룹화는 상기 실시 예에만 국한시키는 것은 아니며, 특정한 사전을 이용하는 등 다양한 실시예가 가능하다.After storing a specific number for classification according to the parts of speech in the target word, the parts of speech are grouped by property to store a group number. The group number is for use in the compound noun analyzer 20 to be described later. An embodiment of a specific grouping is classified into a 'Hada noun' group and an 'animal' group, and the like is stored in each of the compound noun constraint rules to be described later. It can be applied in advance. This grouping is not limited to the above embodiments, and various embodiments are possible, such as using a specific dictionary.

또한, 후술할 의미문체 분석기(40)의 적용여부를 판별하기 위해 의미문체 교정규칙에 대상 어절이 색인으로 검색되는지 확인하여 의미문체상에 오류 가능성이 있으면 식별번호를 대상어절에 첨가하여 저장한다. Also, in order to determine whether the semantic analyzer 40 to be described later is applied, the semantic correction rule checks whether a target word is searched by an index, and if there is an error in the semantic sentence, an identification number is added to the target word and stored.

상기 복합명사 분석기(20)는 형태소 분석결과에 따라 복합명사가 될 수 있는 가능성을 판단하는 복합명사 제약규칙 사전(22)을 통해 대상어절이 복합명사 가능성이 없으면 명사 사이를 띄어쓰기할 자리를 기억하고, 후술할 표시단계(S90)에서 띄어쓰기가 들어간 대체어를 생성하고 저장한다. 그리고 대상어절이 복합명사 제약규칙 사전(22)에 의해 올바른 복합명사인 경우는 명사 간에 띄어쓰기 없이 다음 단계로 넘어가도록 한다.The compound noun analyzer 20 stores a space for spacing between nouns if the target phrase does not have a compound noun through a compound noun constraint rule dictionary 22 that determines the possibility of a compound noun according to the morphological analysis result. In the display step S90 to be described later, a substitute word containing a space is generated and stored. If the target phrase is a correct compound noun by the compound noun constraint rule dictionary 22, the next step is performed without spacing between nouns.

예를 들면, '처리과정'과 같은 단어는 '처리(하다 명사) + 과정'으로 복합명사가 될 수 있다. 그러나, '코끼리과정'의 경우는 '코끼리(동물) + 과정'으로 복합명사가 될 수 없도록 규칙으로 제약해 두었기 때문에 복합명사의 제약규칙에 맞지 않는 경우는 명사와 명사 사이의 띄어 쓸 위치를 지정해 놓고, 후술할 표시단계(S90)에서 대체어를 생성한다. For example, a word such as 'processing' can be a compound noun with 'processing (Hada noun) + process'. However, in the case of 'elephant process', the rule is restricted to 'no elephant (animal) + process' so that it can't be a compound noun. In the display step S90 to be described later, a substitute word is generated.

상기 다수어절 분석기(30)는 외국 사람의 이름, 관용적 표기, 띄어쓰기 오류 나, 기타 처리가 어려운 다수어절을 하나의 검사대상으로 처리한다. 이러한 관용적 다수어절을 판별하기 위해서는 다수어절 사전(32)을 이용하여 대상어절이 다수어절 사전(32)의 시작어절인지 검색한다. 이때, 이에 해당되는 다수어절을 발견하면 버퍼에 이 다수어절을 대체어로 저장하고, 표시단계(S90)로 이동하여, 대체어와 도움말을 출력하고, 이와 관련된 대체어가 없으면 의미문체 분석단계(S60)로 이동한다. The multiple word analyzer 30 processes a foreign person's name, idiomatic notation, a spacing error, or other difficult multiple word phrases as one test object. In order to discriminate such idiomatic majority words, the multiple word dictionary 32 is used to search whether the target word is the start word of the multiple word dictionary 32. At this time, if a majority word is found, the majority word is stored in a buffer as a substitute word, the display proceeds to step S90, the substitute word and the help are output, and if there is no substitute word related to the semantic sentence analysis step S60. Move.

이러한 상기 다수어절 분석기(30)를 통해 각각의 어절을 놓고 분석을 했을 때는 분석이 안 되는 것들이 여러 어절이 모여서 하나의 의미가 있는 단어일 경우에는 다수어절에 의한 분석으로 형태소 분석의 정확도를 높일 수 있다. 이에 대한 구체적인 예를 들면, '오사마 빈 라덴'과 같은 경우, 다수어절 사전(32)을 통해 '오사마'의 시작어절을 색인으로 하는 다수어절 사전(32)를 검색하여, 이에 해당하는 '오사마 빈 라덴'이라는 다수어절을 발견하면 이를 한 형태소로 취급하여 맞춤법 검사시에 오류를 표시하지 않는다. 또한, 다수어절 오용어를 통한 교정의 예시로는 '마이클 조단'의 시작어절인 '마이클'로 상기 다수어절 사전(32)를 검색하여 이와 관련된 다수어절인 '마이클 조든'을 대체어로 생성하여 버퍼에 저장한 뒤, 표시단계(S90)로 이동하여, '마이클 조든'을 대체어와 이와 관련된 도움말도 함께 출력한다. 이와 같이 다수어절 분석기(30)을 통해 오류어절에 대해서 교정을 할 수 있으므로 맞춤법 검사의 재현율(주어진 말뭉치에서 오류어절을 찾아 내는 확률/예: 어떤문장에서 10개의 오류가 있는데 맞춤법 검사기가 그중에서 9개를 잡아낸다면 재현율은 90%임)을 높이게 된다.When the analysis of each word through the multiple word analyzer 30 is not the ones that can not be analyzed when several words are gathered to have a single meaning, the accuracy of the morpheme analysis can be increased by the analysis by the multiple words. have. For example, in the case of 'Osama bin Laden', the multi-word dictionary 32 is searched through the multi-word dictionary 32, which indexes the beginning phrase of 'Osama', and corresponds to the corresponding 'Osama bin'. If it finds a multiword clause, it is treated as a morpheme and does not indicate an error when checking spelling. In addition, as an example of the correction through the multiple word misuse, the multi-word dictionary 32 is searched with 'Michael', which is the beginning word of 'Michael Jordan', and a multi-word word related to 'Michael Jordan' is generated as a substitute for the buffer. After storing in the display, go to the display step (S90), and replaces the word 'Michael Jordan' with the related help. As such, the multiword analyzer 30 can correct the error word, so that the reproducibility of the spell check (probability of finding an error word in a given corpus / example: there are 10 errors in a sentence. If the dog is caught, the recall rate is 90%).

상기 의미문체 분석기(40)는 의미문체 교정규칙 사전(42)에서 검색하여 규칙 리스트를 작성하고, 대상어절을 기준으로 상기 대상어절의 앞, 뒤 어절의 관계와 가장 잘 어울리는 규칙을 선택하여, 의미적인 오류나 문체적인 오류를 검사하고 정정한다. 이에 대한 보다 상세한 설명을 도 3을 참고로 하여 설명하기로 한다.The semantic style analyzer 40 searches the semantic correction rule dictionary 42 to create a rule list, and selects a rule that best matches the relationship between the front and rear words of the target word based on the target word. Check and correct natural or literal errors. A more detailed description thereof will be described with reference to FIG. 3.

도 3은 본 발명의 바람직한 실시예에 따른 의미문체 분석기(40)의 블럭도이다.3 is a block diagram of a semantic analyzer 40 according to a preferred embodiment of the present invention.

도 3에서 도시된 바와 같이, 본 의미문체 분석기(40)에서 의미와 문체상 오류의 가능성이 있는 경우 상기 대상어절에 저장된 식별번호의 유무를 판별하여, 상기 식별번호가 있는 경우, 이에 해당되는 교정규칙을 의미문체 교정규칙 사전에서 검색하여 적용할 규칙 리스트를 작성하며, 이때, 상기 식별번호가 없는 경우는 상기 의미문체 분석기(40)를 실행하지 않으므로 맞춤법 검사의 시간을 절약할 수 있다. As shown in FIG. 3, in the present semantic stylus analyzer 40, if there is a possibility of meaning and stylistic error, the presence or absence of an identification number stored in the target word is determined. The rule is searched for in the semantic correction rule dictionary to create a rule list to be applied. In this case, if the identification number is not present, the semantic sentence analyzer 40 is not executed, thus saving time of the spell check.

그리고, 작성된 규칙 리스트에 부분문장 분석기술을 적용하는 것이 가능하며, 상기 부분문장 분석 기술은 대상어절의 전, 후에 부사가 존재하거나, 대상어절이 다른 품사로 전환되어 있더라도 상기 대상어절을 색인으로 하는 규칙이 있으면, 규칙을 확장하여 적용할 규칙 리스트를 작성하는 것을 말한다. In addition, it is possible to apply the partial sentence analysis technique to the created rule list, and the partial sentence analysis technique uses the target phrase as an index even if an adverb exists before or after the target word or if the target word is converted to a different part of speech. If there are rules, it means creating a list of rules to extend the rules.

이렇게 규칙확장을 통해 작성된 규칙 리스트에서 대상어절의 앞, 뒤 어절을 최종적으로 비교하여 적용될 수 있는 대상어절의 오류를 교정할 수 있는 가장 관련된 규칙을 판별하여 하나의 규칙을 선택한 후, 선택된 규칙에 따른 대체어를 생성한다.In the rule list created by the rule expansion, the front and rear words of the target word are finally compared to determine the most relevant rule that can correct the error of the target word that can be applied, select one rule, and then Generate a substitute.

이에 대하여 일반사전 분석기(10)와 의미문체 분석기(40)를 거친 구체적인 예를 살펴보면, '으쓱한 골목길'인 경우, 상기 일반사전 분석기(10)에서 형태소 분석을 할 때 '으쓱한'을 형태소 분석하여 '으쓱하 +ㄴ'로 분해한 뒤, '으쓱하'의 품사가 동사이므로 동사임을 표시하는 특정번호를 할당한다. Referring to a specific example through the general dictionary analyzer 10 and the semantic style analyzer 40, in the case of 'the ugly alley', when the morpheme analysis is performed in the general dictionary analyzer 10, the morphological analysis is performed. And then decompose it into 'Eoha + b' and assign a specific number to indicate that it is a verb because the part of 'Eajiha' is a verb.

그리고, 의미문체 교정규칙 사전(42)에서 '으쓱하'를 색인으로 검색이 되어 '으쓱하'에 관련된 규칙이 있으면, 의미문체 가능성이 있는 것이므로 식별번호를 '으쓱하'에 저장한 후, 의미문체 분석기(40)에서는 상기 식별번호가 있는 '으쓱하'를 색인으로 하는 규칙을 추출하여 규칙 리스트를 만든다. 상기 규칙 리스트 중에 검사대상인 '으쓱한 골목길'의 뒤에 오는 '골목길'이 '으쓱한 골목길'을 '으슥한 골목길'로 대체하는 규칙에 일치하므로 대체어인 '으쓱한 골목길'을 생성하여 저장한다.In addition, if a rule related to 'Ughha' is searched in the index of the semantic correction rule dictionary 42, and there is a rule related to 'Ughha', there is a possibility of semantic writing. The stylistic analyzer 40 extracts a rule having an index of 'Yuhha' with the identification number to create a rule list. In the rule list, the 'alley road' following the 'shrugged alley', which is the subject of inspection, matches the rule of replacing 'shrugged alley' with 'shrugged alley', and thus generates and stores a substitute word 'shrugged alley'.

도 4는 본 발명의 바람직한 실시예에 따른 한국어 맞춤법 검사방법의 순서 흐름도이다. 도 4를 참조하여 본 발명의 구성은 텍스트 입력단계(S10), 어절 추출단계(S20), 일반사전 분석단계(S30), 복합명사 분석단계(S40), 다수어절 분석단계(S50), 의미문체 분석단계(S60), 형태소 판별단계(S70), 대체어 판별단계(S80)와 표시단계(S90) 및 버퍼어절 판별단계(S100)로 이루어져 있다.4 is a flowchart illustrating a method of checking spelling of Korean according to a preferred embodiment of the present invention. The configuration of the present invention with reference to Figure 4 is a text input step (S10), word extraction step (S20), general dictionary analysis step (S30), compound noun analysis step (S40), multiword analysis step (S50), semantic style Analysis step (S60), morpheme determination step (S70), alternative word determination step (S80) and display step (S90) and buffer word clause determination step (S100).

상기 텍스트 입력단계(S10)는 스페이스바, 텝, 또는 엔터 등과 같은 키보드의 신호에 의해 다수의 텍스트를 입력받는다.In the text input step S10, a plurality of texts are input by a signal of a keyboard such as a space bar, a tap, or an enter.

상기 어절 추출단계(S20)는 입력된 어절을 괄호, 빈칸, 특수문자, 숫자를 구분자로 하여 어절을 분리하여 추출한 후, 여러 개의 대상어절을 버퍼에 저장한다.The word extracting step (S20) extracts the word by separating the input word using parentheses, spaces, special characters, and numbers as delimiters, and stores several target words in a buffer.

상기 일반사전 분석단계(S30)는, 대상어절의 형태소 분석을 하여, 상술한 일반사전(12)과 비교하여 대상어절에 오류를 정정한 대체어가 있으면 버퍼에 저장을 하고, 이와 함께 대상어절에 의미문체상 오류가 있는지의 가능성을 판단한다.The general dictionary analysis step (S30), the morphological analysis of the target word, compared to the above-described general dictionary 12, if there is a substitute word correcting the error in the target word is stored in the buffer, and with the meaning in the target word Determine the possibility of stylistic errors.

상기 형태소 분석시에는 품사별로 대상어절을 분류하여 특정번호를 대상어절에 저장하고, 이러한 품사의 특정 그룹별로 그룹번호를 지정하여 후술할 복합명사 분석단계(S40)에서 사용할 수 있도록 한다. 그리고 대상어절에 의미문체상 오류의 가능성은 의미문체 교정규칙 사전(42)를 검색하여 이에 관련된 색인이 있으면 식별번호를 대상어절에 저장하여 식별번호가 있는 경우는 후술할 의미문체 분석단계(S60)를 거치게 되며, 식별번호가 없는 경우는 의미문체 분석단계(S60)의 단계를 생략하여 맞춤법 검사 시간을 단축시킬 수 있도록 한다.In the morphological analysis, the target phrases are classified for each part of speech, and a specific number is stored in the target phrase, and a group number is assigned for each specific group of parts of speech so that it can be used in a compound noun analysis step S40 to be described later. The possibility of an error in the semantic stylistic in the target word is searched in the semantic correction rule dictionary 42 and if there is an index associated with it, the identification number is stored in the target word, and if there is an identification number, the semantic sentence analysis step (S60) will be described later. In the case where there is no identification number, it is possible to reduce the spell check time by omitting the step of the semantic character analysis step (S60).

상기 복합명사 분석단계(S40)는 복합명사 제약규칙 사전(22)에 해당되는 규칙이 있으면 해당 복합명사 제약규칙을 검색하는 단계(S42)를 거치고, 상기 제약규칙에 따라 복합명사가 되지 못하는 경우는 명사 간에 띄어쓸 자리를 저장하여 후술할 표시단계(S80)에서 명사 사이에 띄어쓰기를 한 대체어를 생성하여 출력하게 한다. 여기서 복합명사 제약규칙(22)은 다음과 같은 구체적인 규칙이 미리 정해져 있으며, 이외의 다른 복합명사의 다양한 규칙이 가능하다.The compound noun analysis step (S40), if there is a rule corresponding to the compound noun constraint rule dictionary 22 goes through the step of searching for the compound noun constraint rule (S42), if the compound noun according to the constraint rules The spaces to be spaced between nouns are stored to generate and output alternate words with spaces between nouns in a display step S80 to be described later. Herein, the compound noun constraint 22 is defined in the following specific rules, and various other rules of compound nouns are possible.

1) (신체, 운동, 질병) + '공장' 불가 (ex) 농구공장 -> 농구 공장1) (body, exercise, illness) + 'no factory' (ex) basketball factory-> basketball factory

2) (동물, 식물) + '화방' 불가 (ex) 호랑이화방 -> 호랑이 화방2) (Animals, Plants) + 'No Garden' (ex) Tiger Garden-> Tiger Garden

3) 회사 + (탈것, 기계, 신체일부, 운동경기, 질병, 음식, 옷) 불가 3) Company + (no vehicles, machines, parts of the body, sports, illness, food, clothes)

ex) 회사비행기 -> 회사 비행기ex) Company plane-> company plane

상기 다수어절 분석단계(S50)는 구축된 다수어절 사전(32)을 바탕으로 다수어절 오용어와 대상어절을 비교하여, 대상어절이 다수어절 사전(32)의 다수어절 오용어의 시작되는 어절인지를 판별하는 검색단계(S52)를 거친다. 여기서, 상기 다수어절 오용어의 시작어절과 대상어절이 일치하면, 다수어절 사전(32)으로 연결되는 포인터를 대상어절에 기록해 둔다. The multiple word analysis step (S50) compares the multiple word misuse word and the target word based on the constructed multiple word dictionary (32), and whether the target word is the beginning word of the multiple word misuse word of the multiple word dictionary (32). The search step (S52) is determined to determine. Here, if the start phrase and the target phrase of the majority word misuse word coincide, a pointer to the majority word dictionary 32 is recorded in the target word.

따라서, 맞춤법 검사시에 다수어절 사전(32)을 통한 검사를 거쳐 상기 다수어절을 하나의 검사대상으로 인식하게 된다. 이렇게 하여 의미문체의 오류를 정정한 대체어가 생성되면 표시단계(S90)로 넘어가고, 의미문체 대체어가 없으면 의미문체 분석단계(S60)로 넘어가도록 하는 다수어절 대체어 판별단계(S54)를 거치게 된다.Accordingly, the multi-word phrase is recognized as one test subject through the multi-word dictionary 32 during the spell check. In this way, if a substitute word correcting an error of the semantic sentence is generated, the process proceeds to the display step (S90). .

또한, 상기 다수어절 분석단계(S50)는 대상어절을 몇 어절까지 확인할 것인지 사용자가 입력한 수만큼 다수어절 사전(32)로부터 정보를 받아온 뒤, 그 개수로 이루어진 다수어절을 다수어절 사전(32)에서 비교검색하여, 다수어절 사전(32)의 시작어절과 대상어절이 일치할 경우는 형태소 분석 시에 상기 다수어절을 일체로 하여 하나의 검사대상으로 반영한다. In addition, the multi-word analysis step (S50) receives information from the multi-word dictionary 32 as many times as the user inputs the number of words to check the target word, the multi-word dictionary consisting of the number of words multi-word dictionary 32 In the comparative search, when the start phrase and the target phrase of the multiple word dictionary 32 coincide with each other, the multiple words are integrally reflected as one test object in the morpheme analysis.

상기 의미문체 분석단계(S60)는, 상기 일반사전 분석단계(S30)에서 의미문체 오류가능성이 있는 식별번호가 있으면, 형태소를 분석한 대상어절이 의미문체 교정규칙 사전에서 색인으로 검색되는 모든 규칙을 모아서, 규칙 리스트를 작성하는 단계(S62)를 거친다. 여기서 상기 규칙 리스트에서 대상어절의 앞, 뒤 어절을 참고로 하여, 적용할 수 있는 교정규칙을 선택하여 대체어가 생성되는지 판별하는 단 계(S64)를 거쳐 대체어가 있으면 표시단계(S80)로 이동하고, 대체어가 없으면 버퍼어절 판별단계(S100)로 이동한다.The semantic sentence analysis step (S60), if there is an identification number likely to be a semantic sentence error in the general dictionary analysis step (S30), all the rules that are searched in the index from the semantic correction rule dictionary index to the target phrase analysis Gather, step S62 of creating a rule list. Here, by referring to the front and rear words of the target word in the rule list, through the step (S64) of determining whether a replacement word is generated by selecting the applicable correction rule, the display moves to the display step (S80). If there is no substitute word, go to the buffer word clause determination step (S100).

이 검사과정에서 패턴에 따른 부분문장 분석기술이 적용되는데, 이 기술은 더욱 확장된 범위에서 의미 관계를 판단하기 위해 사용된다. 상기 부분문장 분석기술은 각 어절의 형태소 분석 결과를 바탕으로 주어, 술어, 목적어, 부사, 관형사 등으로 사용 가능성 여부를 확인하고, 그에 따라 확장하여 적용 가능한 규칙의 목록을 내부 루틴에서 추가적으로 생성한다. In this process, partial sentence analysis techniques are applied according to patterns, which are used to determine semantic relations in a broader range. The partial sentence analysis technique is based on the results of morphological analysis of each word, and checks whether or not it can be used as a predicate, an object, an adverb, a tubular adjective, and the like, and expands accordingly to further generate a list of applicable rules in an internal routine.

예를 들면, '엉킨 피', '피를 엉키게 하다', '엉키게 된 피'와 같이 관형사, 부사와 같이 품사가 바뀐 경우에도 '엉키->엉기'로 정정되는 규칙을 적용하여 대체어를 생성하게 된다.For example, if a part of speech such as an adjective or an adverb such as 'tangled blood', 'tangled blood', or 'tangled blood' is changed, a rule that is corrected to 'tangky-> tangling' is applied. Will generate

상기 형태소 판별단계(S70)는, 대상어절의 형태소가 없는 경우, 띄어쓰기나 음소대치 등과 같은 검사를 통해 의미상 문체가 적절한지 분석하는 교정루틴 단계(S72)를 거친다. 상기 음소대치는 어법에 맞지 않는 어절이 입력되었을 때, 자음 또는 모음을 대치하여 의미상 적합한 어절이 있는지 찾아서 대체어를 생성하는 것이다. 이때, 여러가지 자음과 모음을 대체하여 대상어절에 적용시킨 후, 의미상 오류가 없는 대체어가 없으면, 오류 어절임을 표시한 후, 버퍼에 저장된 다음 어절을 검사하기 위해 버퍼어절 판별단계(S100)로 넘어가고, 대체어가 있으면 이를 버퍼에 저장하고 표시단계(S90)로 이동하여 대체어와 이와 관련된 도움말을 출력한다.The morpheme determination step (S70), if there is no morpheme of the target word, go through a correction routine step (S72) of analyzing whether the stylistic is appropriate through a test such as spacing or phoneme replacement. The phoneme substitution is to replace the consonants or vowels when a word that does not fit the phrase is found to generate a substitute word by searching for a suitable word in meaning. At this time, after replacing various consonants and vowels and applying them to the target word, if there is no substitute word with no semantic error, it is indicated as an error word, and then goes to the buffer word determination step (S100) to check the next word stored in the buffer. If there is a substitute word, it is stored in the buffer and the display moves to the display step S90 to output the substitute word and the related help.

상기 대체어 판별단계(S80)는 상술한 일반사전 검색단계(S30)에 의한 대체어나 복합명사 분석단계(S40), 분석교정루틴 단계(S72) 등과 같은 여러 단계에서 저 장된 대체어가 존재하는 경우 표시단계(S90)로 이동하고, 대상어절에 오류가 없이 올바른 표현이면 대체어가 없는 경우이므로 검사할 다음 어절이 버퍼에 있는 판별하는 버퍼어절 판별단계(S100)로 이동한다.The alternative word determination step (S80) is displayed when there is a substitute word stored in various steps such as the alternative word or the compound noun analysis step (S40), the analysis correction routine step (S72), etc. according to the general dictionary search step (S30) described above. In step S90, if there is no substitute word when the target word is correct without error, then the next word to be checked is moved to the buffer word determination step (S100).

상기 표시단계(S90)는, 대체어와 이와 관련된 도움말을 생성하여 화면에 표시하며, 대체어의 문체상 오류의 강도가 약하면 상기 대체어와 도움말을 추천하여 사용자가 선택할 수 있도록 하고, 대체어의 문체상 오류의 강도가 강하면, 상기 대체어와 도움말을 대체하도록 강력하게 제안하여 사용자에게 문체상 오류의 강도에 대한 정보를 알려주도록 한다.In the displaying step (S90), a substitute word and a help related thereto are generated and displayed on the screen, and if the strength of the stylistic error of the substitute word is weak, the user may select the substitute word and the help word so that the user can select it. If the strength of the error is strong, it is strongly suggested to replace the substitute word and the help to inform the user about the strength of the stylistic error.

이하, 표를 통해 본 발명의 동작 흐름을 상세히 설명하기로 한다.Hereinafter, the operation flow of the present invention through the table will be described in detail.

1단계Stage 1 어제 사용한 실타래가 쬐매 얽혔다.The thread I used yesterday was entangled. 2단계Tier 2 어제yesterday 사용한Used 실타래가Thread 쪼매Smash 얽혔다Entangled 3단계Tier 3 어제yesterday 사용하Using N 실타래Thread end 쪼매Smash 얽히Intertwined Was All 4단계4 steps 조금a little 얽히 Intertwined Was All 5단계5 steps 엉켰Tangled All

표 1은 본 발명의 바람직한 실시예에 따른 한국어 맞춤법 검사 방법을 5단계로 나타내었다.Table 1 shows the Korean spelling check method according to a preferred embodiment of the present invention in five steps.

1단계의 텍스트 입력단계(S10)에서는 표 1에서 나타낸 바와 같이 "어제 사용한 실타래가 쪼매 얽혔다."라는 문장을 입력받는다.In the text input step (S10) of the first step, as shown in Table 1, the sentence "the thread used yesterday was entangled."

2단계의 어절 추출단계(S20)에서는 '어제', '사용한', '실타래가', '쪼매', '얽혔다.'로 분리하여 추출할 수 있다.In the word extraction step (S20) of the second step, it can be separated and extracted as 'yesterday', 'used', 'thread', 'splitting', 'entangled'.

3단계의 일반사전 분석단계(S30)에서는 '쪼매'라는 오용어를 '조금'이라는 대체어를 생성하여 버퍼에 저장한 후, 표시단계(S90)에서 대체어와 이와 관련된 도움말을 화면에 표시한다. 그리고, 버퍼어절 판별단계(S100)에서 버퍼에 어절이 남아있으면, 어절 추출단계(S20)로 돌아가서 다음 어절인 '얽혔다'를 대상어절로 검사한다.In step 3, the general dictionary analysis step (S30) generates a substitute word 'a little' and stores it in a buffer, and then displays the substitute word and related help in the display step (S90). In the buffer word determination step (S100), if a word remains in the buffer, the processor returns to the word extraction step (S20) and checks the next word, “tangled,” as the target word.

다음으로 4단계의 일반사전 분석단계(S30)에서 '얽혔다'를 형태소로 분석하고, 의미상 문체오류 가능성 유무를 검사하기 위해 '얽히'를 의미문체 교정규칙 사전(42)에서 색인으로 하는 규칙이 있는지 검사한 후, 규칙이 있으면 식별번호를 저장한다. Next, in the general dictionary analysis step (S30) of step 4, the rule of `` tangled '' in the morphological analysis, and `` tangled '' in the semantic grammar correction rule dictionary (42) to check whether there is a stylistic error possibility If there is a rule, the identification number is stored.

마지막으로 5단계에서는 의미문체 분석단계(S60)에서 '얽히'를 색인으로 하는 의미문체 교정규칙 사전(42)에서 규칙 리스트를 작성한 후, '얽히'의 앞, 뒤 어절을 검색하여 알맞은 규칙을 선택한다.Finally, in step 5, a list of rules is created in the semantic correction rule dictionary 42, which indexes 'entangled' in the semantic sentence analysis step (S60), and then the appropriate rule is selected by searching the words before and after the 'entangled'. do.

상기 규칙 리스트 작성에 대한 구체적 예를 들어 살펴보면, '얽혔다'의 어절에 적용 가능한 규칙으로 다음과 같은 세 가지 규칙을 의미문체 교정규칙 사전(42)에서 검색하여 표 2에서 리스트로 작성할 수 있다.As a specific example of the rule list creation, the following three rules can be searched in the semantic style correction rule dictionary 42 as a rule applicable to the word “entangled”, and can be created as a list in Table 2.

규칙 1Rule 1 얽혀 붙다.Entangle ->-> 엉겨 붙다.Tangle 규칙 2Rule 2 실타래/줄/생각 이 얽히다.Threads / lines / thinks are entangled. ->-> 실타래/줄 생각 이 엉키다.The thread / line thought is tangled. 규칙 3Rule three 두부/피/기름 이 얽히다.Tofu / blood / oil are entangled. ->-> 두부/피/기름 이 엉기다.Tofu / blood / oil tangle

표 2는 '얽히'를 색인으로 하는 규칙 리스트를 나타낸다.Table 2 shows a list of rules indexed 'entangled'.

표 2를 참고하면, 대상 어절에 총 3가지 규칙을 적용시켜 나갔을 때, 규칙 2에서 '실타래/줄/생각 이 얽히다 -> 실타래/줄/생각 이 엉키다'의 '실타래'가 대상어절의 앞 어절과 일치하여, 적용가능한 규칙이므로, 이와 관련된 제약 조건을 대상어절에 적용할 수 있다.Referring to Table 2, when a total of three rules were applied to the target word, the 'thread' of 'thread / line / think is entangled-> thread / line / think is entangled' in rule 2 In conformity with, the applicable constraints can be applied to the target clause.

실제 문장에서 '조금'은 부사로써, 색인의 품사가 바뀌거나, 부사가 들어가더라도 색인과 관련된 규칙을 적용시킬 수 있는 부분문장 분석 기술의 확장된 범위에 포함되어 상기 규칙 2를 대상어절에 적용할 수 있다. 적용 가능한 규칙을 발견하였으므로, 이에 따라 '어제 사용한 실타래가 조금 엉켰다'라는 대체어를 버퍼에 저장한다. In the actual sentence, 'a little' is an adverb, which is included in the extended range of partial sentence analysis technology that can apply the index-related part even if the part of the index is changed or the adverb is entered. Can be. Since we found an applicable rule, we stored a substitute in the buffer that the thread we used yesterday is a bit tangled.

표시단계(S90)에서는 버퍼에 저장된 대체어인 '어제 사용한 실타래가 조금 엉켰다'라는 대체어와 이에 해당되는 도움말을 화면에 표시하도록 하고, 버퍼어절 판별단계(S100)에서 버퍼에 남은 어절이 있는지 검사하여 남은 어절이 없으면 맞춤법 검사의 한 과정을 마치게 된다.In the display step (S90) to display a substitute word stored in the buffer, the word used yesterday a little tangled, and the corresponding help on the screen, and in the buffer word determination step (S100) to check whether there are remaining words in the buffer If there are no remaining words, you're done with a spell check.

상기와 같은 구성에 의한 본 발명은, 의미상 부적절하게 복합명사 형태로 이루어진 어절은 명사 사이를 띄어쓰도록 한 대체어를 제시하는 효과가 있다.According to the present invention having the configuration described above, a word having a form of a compound noun in an improper sense has an effect of suggesting a substitute word for spacing between nouns.

또한, 본 발명은 다수어절로 이루어진 관용적인 품사도 맞춤법 검사시에 인식 대상으로 하는 효과가 있다.In addition, the present invention has the effect of recognizing a conventional part-of-speech consisting of a large number of words at the time of spell check.

또한, 본 발명은 문맥의 흐름에서 의미상 오류가 있는 어절을 대상어절의 앞, 뒤 어절에 알맞는 대체어를 제시하는 효과가 있다.In addition, the present invention has the effect of presenting a substitute word suitable for a word before and after a target word having a semantically erroneous word in the flow of context.

Claims (5)

오류를 교정한 대체어를 제공하는 한국어 맞춤법 검사기에 있어서,In the Korean spell checker that provides error-corrected alternatives, 입력된 어절을 형태소로 구분하여 대상어절을 버퍼에 저장 후, 품사사전과 오용어사전과 어미조사사전 및 전문용어사전으로 이루어진 일반사전(12)과 비교하여, 오류가 있으면 교정된 대체어를 버퍼에 저장하고, 대상어절이 문체상 오류의 가능성이 있으면 식별번호를 저장하는 일반사전 분석기(10)와;After dividing the input word into morphemes, the target word is stored in a buffer, and then compared with the general dictionary (12) consisting of a part-of-speech dictionary, a glossary dictionary, a ending search dictionary and a terminology dictionary, and if there is an error, A general dictionary analyzer 10 for storing the identification number if the target phrase has a stylistic error; 상기 대상어절이 복합명사와 관련된 규칙으로 이루어진 복합명사 제약규칙 사전(22)과 비교하여, 상기 규칙과 맞지 않으면 단어 사이에 띄어쓸 위치를 기억하는 복합명사 분석기(20)와;A compound noun analyzer (20) for storing positions to be spaced between words if the target phrase does not match the rule, compared with the compound noun constraint rule dictionary (22) consisting of rules related to compound nouns; 상기 대상어절이 다수어절 사전(32)의 시작어절과 비교하여 일치하면, 상기 다수어절을 하나의 형태소로 인식하는 다수어절 분석기(30); 및A multiple word analyzer (30) for recognizing the majority word as one morpheme if the target word matches the starting phrase of the multiple word dictionary (32); And 상기 대상어절에 식별번호가 저장되어 있으면 의미문체 교정규칙 사전(42)에서 색인으로 하는 교정규칙을 검색하여 규칙 리스트를 생성하고, 상기 대상어절의 앞, 뒤 어절을 기준으로 상기 규칙 리스트 중 하나의 규칙을 선택하여 대체어를 생성하고 저장하는 의미문체 분석기(40);를 포함하여 이루어진 것을 특징으로 하는 한국어 맞춤법 검사기.If the identification number is stored in the target phrase, the correction rule is searched in the semantic style correction rule dictionary 42 to generate a rule list, and one of the rule list is based on the front and rear words of the target phrase. Korean spelling checker comprising a; semantic parser 40 for generating and storing alternative words by selecting a rule. 오류를 교정한 대체어를 제공하는 한국어 맞춤법 검사 방법에 있어서,In the Korean spelling checker providing a corrected alternative, 오류를 정제할 텍스트가 입력되는 텍스트 입력단계(S10);A text input step (S10) in which text for refining an error is input; 상기 텍스트를 어절로 분리한 대상어절을 버퍼에 저장하는 어절 추출단계(S20);A word extracting step (S20) of storing a target word obtained by separating the text into words in a buffer; 상기 대상어절을 형태소로 분석한 후, 품사사전과 오용어사전과 어미조사사전 및 전문용어사전으로 이루어진 일반사전과 비교하여, 오류가 있으면 교정된 대체어를 저장하고, 문체상 오류의 가능성이 있으면 식별번호를 저장하는 일반사전 분석단계(S30);After analyzing the target phrase in morpheme, compared with the general dictionary consisting of a part-of-speech dictionary, a glossary dictionary, a parent research dictionary, and a terminology dictionary, if there is an error, the corrected substitute word is stored, and if there is a possibility of stylistic error General dictionary analysis step of storing the identification number (S30); 상기 대상어절이 복합명사 제약규칙 사전(22)과 일치하지 않으면, 단어 사이에 띄어쓸 위치를 저장하는 복합명사 분석단계(S40);If the target phrase does not match the compound noun constraint rule dictionary (22), compound noun analysis step of storing a space to be spaced between words (S40); 상기 대상어절이 다수어절 사전(32)의 시작어절과 비교하여 일치하면, 다수어절을 하나의 형태소로 인식하는 다수어절 분석단계(S50);A multiple word analysis step (S50) of recognizing the majority word as one morpheme if the target word is matched with the start phrase of the multiple word dictionary 32; 상기 대상어절을 의미문체 교정규칙사전(42)에서 색인으로 하는 규칙을 검색하여 규칙 리스트를 생성하고, 상기 대상어절의 앞, 뒤 어절을 기준으로 상기 규칙 리스트 중 하나의 규칙을 선택하여 대체어를 생성하고 저장하는 의미문체 분석단계(S60);A rule list is generated by searching a rule indexing the target word in the semantic correction rule dictionary 42, and a substitute word is selected by selecting one of the rule lists based on the front and rear words of the target word. Generating and storing semantic analysis step (S60); 상기 대상어절의 형태소가 없으면, 띄어쓰기 및 음소대치를 적용하는 교정루틴 단계(S72)로 넘어가고, 형태소가 있으면 대체어 판별단계(S80)로 넘어가는 형태소 판별단계(S70);If there is no morpheme of the target phrase, the morpheme determination step (S70) is passed to the correction routine step (S72) for applying spacing and phoneme substitution, and if the morpheme is present, the substitute word determination step (S80); 상기 대상어절의 대체어가 없으면, 버퍼어절 판별단계(S100)로 가고, 대체어가 있으면 표시단계(S90)로 가는 대체어 판별단계(S80);If there is no substitute word for the target word, go to the buffer word determination step (S100), and if there is a substitute word, go to the display step (S90); 상기 대상어절의 대체어가 있으면, 도움말과 함께 화면에 출력하는 표시 단 계(S90); 및If there is a substitute word for the target word, a display step of outputting the screen with help (S90); And 버퍼에 저장된 상기 대상어절 이후에 오는 다음어절이 있으면 상기 대상어절을 다음어절로 전환하고, 저장된 다음어절이 없으면 맞춤법 검사를 끝내는 버퍼어절 판별단계(S100);를 포함하여 이루어진 것을 특징으로 하는 한국어 맞춤법 검사방법.Korean word spelling comprising a buffer word determination step of converting the target word to the next word if there is a next word that comes after the target word stored in a buffer, and ending the spell check if there is no stored next word; method of inspection. 제2항에 있어서, 상기 일반사전 분석단계(S30)는,According to claim 2, The general dictionary analysis step (S30), 축약된 대상어절을 프로그램 코드로 풀어져 형태소로 분석하는 것을 특징으로 하는 한국어 맞춤법 검사방법.Korean spelling check method characterized in that the abbreviated target phrases are analyzed by morphemes decoded by the program code. 제2항에 있어서, 상기 다수어절 분석단계(S50)는,According to claim 2, The multiple word analysis step (S50), 사용자가 입력시킨 어절의 개수로 이루어진 다수어절을 다수어절 사전(32)에서 검색하는 것을 특징으로 하는 한국어 맞춤법 검사방법.Korean spelling check method characterized in that for searching the majority word consisting of the number of words input by the user in the multiple word dictionary (32). 제2항 내지 제4항 중 어느 한 항에 있어서, 상기 의미문체 분석단계(S60)는,The method of any one of claims 2 to 4, wherein the semantic style analysis step (S60), 상기 대상어절이 다양한 품사로 변환되어 문체상 규칙이 저장된 의미문체 교정규칙 사전(42)이 적용되는 것을 특징으로 하는 한국어 맞춤법 검사방법.The method of spelling Korean, characterized in that the target word phrase is converted into a variety of parts of speech and the stylistic correction rule dictionary (42) in which the stylistic rules are stored.
KR1020070063152A 2007-06-26 2007-06-26 Apparatus for and method of korean orthography KR100798752B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070063152A KR100798752B1 (en) 2007-06-26 2007-06-26 Apparatus for and method of korean orthography

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070063152A KR100798752B1 (en) 2007-06-26 2007-06-26 Apparatus for and method of korean orthography

Publications (1)

Publication Number Publication Date
KR100798752B1 true KR100798752B1 (en) 2008-01-28

Family

ID=39219543

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070063152A KR100798752B1 (en) 2007-06-26 2007-06-26 Apparatus for and method of korean orthography

Country Status (1)

Country Link
KR (1) KR100798752B1 (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101291229B1 (en) * 2011-05-16 2013-07-31 주식회사 이씨글로벌 Method for Displaying Proofreading Marks
KR101451108B1 (en) * 2013-10-31 2014-10-16 숭실대학교산학협력단 Method and apparatus for extracting alternative words
KR101491581B1 (en) 2008-04-07 2015-02-24 삼성전자주식회사 Correction System for spelling error and method thereof
KR101747924B1 (en) * 2016-04-28 2017-06-27 (주)기술공감 Method of correcting korean utterance and apparatus perfroming the same
KR101812755B1 (en) * 2016-06-10 2017-12-27 주식회사 아이디엘 System for analyzing test result of the examination of korean spelling
KR20190032911A (en) * 2017-09-20 2019-03-28 장창영 Apparatus and method for analyzing sentence habit
KR20210076877A (en) * 2019-12-16 2021-06-24 부산대학교 산학협력단 System and Method for Spell Checking using User Information

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000039406A (en) * 1998-12-12 2000-07-05 이계철 Method for indexing compound noun with complement-predicate relation through part sentence structure analysis
KR20060095415A (en) * 2005-02-28 2006-08-31 봉래 박 System of automatically displaying lexical information

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000039406A (en) * 1998-12-12 2000-07-05 이계철 Method for indexing compound noun with complement-predicate relation through part sentence structure analysis
KR20060095415A (en) * 2005-02-28 2006-08-31 봉래 박 System of automatically displaying lexical information

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
논문

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101491581B1 (en) 2008-04-07 2015-02-24 삼성전자주식회사 Correction System for spelling error and method thereof
KR101291229B1 (en) * 2011-05-16 2013-07-31 주식회사 이씨글로벌 Method for Displaying Proofreading Marks
KR101451108B1 (en) * 2013-10-31 2014-10-16 숭실대학교산학협력단 Method and apparatus for extracting alternative words
KR101747924B1 (en) * 2016-04-28 2017-06-27 (주)기술공감 Method of correcting korean utterance and apparatus perfroming the same
KR101812755B1 (en) * 2016-06-10 2017-12-27 주식회사 아이디엘 System for analyzing test result of the examination of korean spelling
KR20190032911A (en) * 2017-09-20 2019-03-28 장창영 Apparatus and method for analyzing sentence habit
KR102008145B1 (en) 2017-09-20 2019-08-07 장창영 Apparatus and method for analyzing sentence habit
KR20210076877A (en) * 2019-12-16 2021-06-24 부산대학교 산학협력단 System and Method for Spell Checking using User Information
KR102604758B1 (en) * 2019-12-16 2023-11-22 부산대학교 산학협력단 System and Method for Spell Checking using User Information

Similar Documents

Publication Publication Date Title
Kukich Techniques for automatically correcting words in text
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US6424983B1 (en) Spelling and grammar checking system
US5680628A (en) Method and apparatus for automated search and retrieval process
KR100798752B1 (en) Apparatus for and method of korean orthography
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPH07325828A (en) Grammar checking system
Volk et al. Strategies for reducing and correcting OCR errors
JPH07325824A (en) Grammar checking system
Liyanapathirana et al. Sinspell: A comprehensive spelling checker for sinhala
Tufiş et al. DIAC+: A professional diacritics recovering system
Daðason Post-correction of Icelandic OCR text
Sifat et al. Synthetic error dataset generation mimicking bengali writing pattern
Altarawneh Spelling detection errors techniques in NLP: A survey
Barari et al. CloniZER spell checker adaptive language independent spell checker
JP2007122660A (en) Document data processor and document data processing program
Gao et al. A Corpus-Based Computational Study on Translators' Styles Based on Three Chinese Translations of the Old Man and the Sea
QasemiZadeh et al. Adaptive language independent spell checking using intelligent traverse on a tree
Pradhan et al. Design of Odia Spell Checker with word Prediction
Bhowmik et al. Development of A Word Based Spell Checker for Bangla Language
Liu et al. Professor or screaming beast? Detecting words misuse in Chinese
Hoyos PLPrepare: A Grammar Checker for Challenging Cases
JPH0469768A (en) Document improvement supporting method
JP3139624B2 (en) Morphological analyzer
Roh et al. Recognizing coordinate structures for machine translation of English patent documents

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Publication of correction
FPAY Annual fee payment

Payment date: 20130117

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20140117

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20150119

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20160120

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20170116

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20180116

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20190122

Year of fee payment: 12