KR101158331B1 - Checking meth0d for consistent word spacing - Google Patents

Checking meth0d for consistent word spacing Download PDF

Info

Publication number
KR101158331B1
KR101158331B1 KR1020100077309A KR20100077309A KR101158331B1 KR 101158331 B1 KR101158331 B1 KR 101158331B1 KR 1020100077309 A KR1020100077309 A KR 1020100077309A KR 20100077309 A KR20100077309 A KR 20100077309A KR 101158331 B1 KR101158331 B1 KR 101158331B1
Authority
KR
South Korea
Prior art keywords
spacing
words
word
same
syllable
Prior art date
Application number
KR1020100077309A
Other languages
Korean (ko)
Other versions
KR20120015071A (en
Inventor
이재성
Original Assignee
충북대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 충북대학교 산학협력단 filed Critical 충북대학교 산학협력단
Priority to KR1020100077309A priority Critical patent/KR101158331B1/en
Publication of KR20120015071A publication Critical patent/KR20120015071A/en
Application granted granted Critical
Publication of KR101158331B1 publication Critical patent/KR101158331B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/134Hyperlinking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 띄어쓰기 검사 방법에 관한 것으로서, 구체적으로는 음절 정보와 형태소 정보를 이용하여 비일관적으로 띄어쓰기 수행된 부분을 쉽게 검사할 수 있도록 한 자동 띄어쓰기 방법에 관한 것이다. 이와 같은 본 발명은 문서내에 비일관적으로 띄어쓰기된 부분을 검사하는 띄어쓰기 검사 방법에 있어서, 문서내의 빈칸(공백)을 중심으로 좌우 어절의 일정부분을 추출하여 띄어쓴 어절(A형 목표 문자열)을 확인할 수 있도록 탐색키를 구축하는 단계; 상기 구축된 탐색키를 이용하여 부분 문자열 검색에 의해 붙여쓴 어절(B형 목표 문자열)들을 추출하는 단계; 및 상기 탐색키에 대응하여 띄어쓴 어절과 추출된 붙여쓴 어절을 비일관적 띄어쓰기 어절로 표시하는 단계를 포함하되, 상기 추출하는 단계는, 상기 탐색키에 완전히 일치하는 붙여쓴 어절들을 추출하는 어휘일치 모델, 상기 탐색키의 마지막 음절에 대해 동일어간 음절후보도 일치하는 것으로 처리하여 붙여쓴 어절들을 추출하는 동일어간 음절후보 일치 모델 또는 상기 동일어간 음절후보 일치 모델을 통해 검색된 결과를 다시 형태소 분석하여 기본 형태소가 같은 붙여쓴 어절들을 추출하는 형태소 일치 모델 중 어느 하나의 모델을 수행하는 것을 특징으로 한다.BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a spacing test method, and more particularly, to an automatic spacing method for easily checking a portion of a spacing performed inconsistently using syllable information and morpheme information. As described above, the present invention provides a spacing check method for checking a portion of a document that is inconsistently spaced in a document, and extracts a portion of left and right words centered on a blank (blank) in a document to form a spacing word (type A target string). Constructing a navigation key to confirm; Extracting words (type B target strings) pasted by substring search using the constructed search key; And displaying the spacing word and the extracted paste word corresponding to the search key as an inconsistent spacing word, wherein the extracting includes: a vocabulary for extracting a paste word that completely matches the search key; By morphologically analyzing the results retrieved through the matching model, the same syllable candidate matching model which extracts the pasted words by processing the same syllable candidate for the last syllable of the search key, or the same syllable candidate matching model. It is characterized in that any one of the morpheme matching models for extracting the same pasted phrases is performed.

Description

띄어쓰기 일관성 검사 방법{CHECKING METH0D FOR CONSISTENT WORD SPACING}How to check for space spacing consistency {CHECKING METH0D FOR CONSISTENT WORD SPACING}

본 발명은 띄어쓰기 일관성 검사 방법에 관한 것으로서, 구체적으로는 음절 정보와 형태소 정보를 이용하여 비일관적으로 띄어쓰기 수행된 부분을 쉽게 검사할 수 있도록 한 띄어쓰기 일관성 검사 방법에 관한 것이다.
The present invention relates to a spacing coherence checking method, and more particularly, to a spacing coherence checking method that makes it possible to easily check a portion of a spacing performed inconsistently using syllable information and morpheme information.

자동 띄어쓰기란 하나의 문장 내에서 잘못 띄어 쓴 어절들을 올바르게 복원하는 과정을 의미하는 것으로서, 특히 한국어에 있어서는 글의 가독성을 위해서뿐만 아니라 정확한 의미를 전달하기 위해서 매우 중요한 것이라 할 수 있지만, 인터넷 상의 문서나 인터넷 사용자들이 작성한 글에는 띄어쓰기에 있어 많은 오류가 존재한다. 이러한 띄어쓰기 오류의 대부분은 의도하지 않은 실수나 정확한 맞춤법에 대한 무지로 인해 발생한다.Automatic spacing refers to the process of correctly restoring misplaced words in a sentence. Especially in Korean, it is very important not only for readability but also to convey accurate meaning. There are many errors in spacing in articles written by Internet users. Most of these spacing errors are caused by unintended mistakes or ignorance of correct spelling.

한국어 문장에서 띄어쓰기는 가독성을 높여주며, 의미 전달을 명확히 할 수 있도록 한다. 올바른 띄어쓰기를 위해 국립국어원에서는 한글 맞춤법을 정하고 이를 모든 저자들이 지키도록 하고 있다.Spacing in Korean sentences improves readability and clarifies meaning. For proper spacing, the National Institute of Korean Language sets Hangul spelling and keeps all authors.

그러나, 띄어쓰기 규칙의 일부에서는 복수 규칙을 허용하고 있고, 이 때문에 같은 어절이나 단어에 대해 띄어쓰기의 일관성이 없는 경우가 있다. However, some of the spacing rules allow multiple rules, which may result in inconsistent spacing for the same word or word.

다음은 한글 맞춤법의 띄어쓰기 규칙 중 복수 규칙을 허용하는 경우이다.The following is a case of allowing multiple rules among the spacing rules of Korean spelling.

제47항 : 보조용언은 띄어 씀을 원칙으로 하되, 경우에 따라 붙여 씀도 허용한다.Article 47: Supplementary verbs shall be written in principle, but may be added in some cases.

제48항 : 성과 이름, 성과 호 등은 붙여 쓰고, 이에 덧붙는 호칭어, 관직명 등은 띄어 쓴다. 다만, 성과 이름, 성과 호를 분명히 구분할 필요가 있을 경우에는 띄어 쓸 수 있다.Article 48: The first and last names, first and last names shall be pasted, and additional names, office names, etc. shall be used. However, if it is necessary to clearly distinguish the first and last names, the last name may be used.

제49항 : 성명 이외의 고유 명사는 단어별로 띄어 씀을 원칙으로 하되, 단위별로 띄어 쓸 수 있다.Section 49: Proper nouns other than names are to be written word by word, but may be written unit by word.

제50항 : 전문 용어는 단어별로 띄어 씀을 원칙으로 하되, 붙여 쓸 수 있다.
Article 50: The terminology should be written in words, but can be pasted.

이러한 복수 규칙은 맞춤법상 두 가지를 모두 맞는 것으로 처리하지만, 한 문서에서 같은 의미의 어절이나 단어에 대해 서로 다른 띄어쓰기를 하는 것은 문서 교정 원칙상 잘못된 것이기 때문에 문서 출판시 일관성이 유지되도록 수정한다. This plural rule treats both spellings as correct, but because different spacing for the same word or word in the same document is wrong in principle of document correction, it is modified to maintain consistency when publishing the document.

예를 들어, 한 문서에서 같은 단어에 대해 ‘문서교정시스템’, ‘문서 교정 시스템’, ‘문서교정 시스템’ 등과 같이 다양한 띄어쓰기를 하는 경우, 이를 수정하여 하나의 통일된 띄어쓰기 형태로 표시한다. For example, if a word is written in a document such as 'document correction system', 'document correction system', 'document correction system', and so on, it is corrected and displayed in one unified space form.

이러한 비일관적인 띄어쓰기는 실제 많이 일어나며, 이를 위한 교정 작업은 저술이나 텍스트 콘텐츠 작성시 매우 번거로운 작업 중의 하나이다. Such inconsistent spacing actually occurs a lot, and corrective work for this is one of very troublesome tasks when writing or writing text contents.

또한, 자동 번역 시스템이나 정보검색 시스템 등에서 대부분 띄어쓰기 단위로 번역 단위나 색인어를 선택하므로, 띄어쓰기 일관성은 자연언어 처리 프로그램의 성능에도 영향을 줄 수 있다. In addition, since a translation unit or an index word is mostly selected as a spacing unit in an automatic translation system or an information retrieval system, spacing consistency may affect the performance of a natural language processing program.

예를 들어, 두 단어로 구성된 복합어일 경우, 일관성 있게 붙여 쓰거나 띄어 쓰면 문서 내에서 일정하게 1개의 번역어 혹은 색인어로 사용되지만, 비일관적으로 사용되면 붙여 쓴 경우와 띄어 쓴 경우가 서로 다르게 번역되거나 색인되어 검색될 수 있다. For example, a compound word composed of two words is consistently used as a translation or index in the document when pasted or spaced consistently, but when used inconsistently, the pasted and spaced words are translated differently or Can be indexed and searched.

특히 통계적 번역 시스템에서의 자동 정렬이나 정보검색 시스템에서의 단어 유사도 계산시에 잘못된 통계 정보를 만들어 낼 수 있다. In particular, incorrect statistical information can be generated in automatic sorting in statistical translation systems or word similarity calculation in IR systems.

따라서, 입력 문서의 정규화를 위해 띄어쓰기 일관성이 활용될 수도 있다.Thus, spacing consistency may be utilized for normalization of the input document.

현재 시장에서 유통되는 한국어 워드프로세서들은 대개 띄어쓰기 자동 교정을 지원하고 있지만, 띄어쓰기 일관성에 대한 처리는 하고 있지 않다. Korean word processors currently on the market usually support automatic spacing but do not address spacing consistency.

또한, 학계에서도 자동 띄어쓰기에 대한 연구는 많이 진행되었지만, 띄어쓰기 일관성 관점에서 이루어진 연구는 현재까지 찾아 볼 수 없다. In addition, although many researches on automatic spacing have been conducted in academia, no research has been conducted in terms of spacing consistency.

띄어쓰기 시스템은 철자 교정의 하나로 띄어쓰기 교정을 하기 위해 만들어진 교정 시스템과, 띄어쓰기가 거의 이루어지지 않은 문서를 전체적으로 붙여 쓴 다음, 다시 규칙에 따라 띄어 쓰는 자동 띄어쓰기 시스템이 있다. The spacing system is one of spelling corrections, and there is an automatic spacing system which is used to make a spacing correction, and pastes a document that is hardly spaced, and then respaces according to the rules.

우선 교정 시스템은 주로 두 어절 사이의 띄어쓰기를 교정하기 위한 방법을 중심으로 개발되었다.First of all, the calibration system was mainly developed to correct the spacing between two words.

그리고 자동 띄어쓰기 시스템은 세 어절 이상의 여러 어절 혹은 문장 전체의 띄어쓰기를 자동으로 하기 위한 방법으로 개발되었다. And the automatic spacing system was developed as a way to automatically space between three or more words or whole sentences.

이러한 두 가지 시스템 모두 규칙에 의한 방법과 통계를 이용한 방법, 그리고 이 둘을 합하여 복합적으로 이용하는 방법이 있다. Both of these systems are based on rules, statistics, and a combination of both.

우선 규칙에 의한 방법은 한 어절 혹은 두 어절에 대해 형태소 분석을 한 후, 미리 규칙으로 만들어 놓은 붙띄오류(붙여 쓸 것을 띄어 쓴 오류)와 띄붙오류(띄어 쓸 것을 붙여 쓴 오류) 유형을 분석하여 이를 근거로 올바른 띄어쓰기를 제시한다. The rule-based method first analyzes one word or two words, and then analyzes the types of misses (prefixes) and spaces (prefixes). Provide correct spacing as a basis.

이때 만약 형태소 분석에 실패할 경우, 그 어절을 분리하여 복합어로 분리하거나 부분 문자열에 대한 형태소 분석을 시도하여 오류 유형을 분석한다. At this time, if the morphological analysis fails, the error type is analyzed by separating the word into a compound word or by attempting a morphological analysis on the substring.

그러나, 전술한 규칙에 의한 방법은 형태소 분석기의 한계가 그대로 영향을 미치는 문제점이 있다. 즉, 형태소 분석기 자체의 오류와 미등록어에 대한 처리 한계 등이 성능 향상의 한계가 된다.However, the method according to the above rule has a problem that the limitations of the morpheme analyzer remain intact. In other words, errors in the morpheme analyzer itself and processing limitations on unregistered words become limits of performance improvement.

다음으로 통계에 의한 방법은 과도한 형태소 분석을 피하기 위해 통계 정보를 이용하여 대략 어절을 분리하는 방법이다. 이를 위해 단어 내와 단어 경계에서 음절 사이의 분리 횟수나 어절 사이의 분리 횟수를 통계적으로 계산하여 분리에 이용하거나, 조사, 어미 등의 음절 특성을 이용하여 어절을 분리한다. 대부분의 통계적 방법은 통계자료의 부족 등으로 정확성의 한계가 있기 때문에 복합적 방법의 전단계로 활용한다. 복합적 방법에서는 통계적 방법으로 분리된 어절이 올바른지를 형태소 분석을 통해 검증하여 정확도를 높인다.Next, the statistical method is to divide words by using statistical information to avoid excessive morphological analysis. To this end, the number of divisions between syllables and the number of divisions between words within words and word boundaries are statistically calculated and used for separation, or words are separated using syllable characteristics such as survey and ending. Most statistical methods are used as a preliminary step in complex methods because of the lack of accuracy due to lack of statistical data. In the complex method, the accuracy of the word separated by the statistical method is verified through morphological analysis.

띄어쓰기 교정 시스템은 잘못 띄어 쓴 부분을 교정하는 것이기 때문에 복수 규칙을 허용하며, 따라서 일관적인 띄어쓰기에 대해서 처리를 하지 않는다. The spacing correction system allows multiple rules because it corrects incorrect spacing and therefore does not handle consistent spacing.

또한 대부분의 자동 띄어쓰기 시스템은 모든 단어를 붙여 쓴 후, 시스템이 자동으로 띄어 써 주기 때문에 일관성 있는 띄어쓰기를 하는데 사용할 수도 있다고 생각할 수 있다. 그러나 현재 이런 시스템들의 성능은 대개 어절 정확도가 93% 정도로 아직 완벽하지 않아 많은 오류가 그대로 포함될 수 있다. 더구나 저자가 의도적으로 띄어 쓰거나 붙여 쓴 것을 무시하고 시스템이 규칙이나 통계 정보로 잘못 판단하여 교정할 수 있다. You can also think that most automatic spacing systems can be used for consistent spacing because all the words are pasted and the system automatically spaces them. However, at present the performance of these systems is usually not as perfect as word accuracy, which is 93%, so many errors can still be included. In addition, the author may ignore intentional spacing or pasting, and the system may misjudge the rule or statistical information and correct it.

따라서, 자동 띄어쓰기 처리 후 사람의 개입이 필요하지만, 자동 띄어쓰기 시스템은 비일관적으로 쓴 단어들을 전체적으로 점검할 수 있는 방법은 제공하고 있지 않다.Therefore, although human intervention is required after the automatic spacing process, the automatic spacing system does not provide a method for checking the inconsistent words entirely.

본 발명은 상기와 같은 문제점을 감안하여 안출된 것으로, 음절 정보와 형태소 정보를 이용하여 비일관적으로 띄어쓰기 수행된 부분을 쉽게 검사할 수 있도록 한 띄어쓰기 일관성 검사 방법을 제공함에 그 목적이 있다.The present invention has been made in view of the above problems, and an object of the present invention is to provide a spacing consistency checking method for easily checking a portion of a spacing that is performed inconsistently using syllable information and morpheme information.

본 발명의 다른 목적은 어휘 수준의 띄어쓰기 일관성 검사를 수행하여 비일관적으로 띄어쓰기가 수행된 부분을 검사하여 이를 표시할 수 있도록 한 띄어쓰기 일관성 검사 방법을 제공함에 있다.Another object of the present invention is to provide a spacing consistency checking method for performing a spacing consistency check at a lexical level to display and display a portion in which spacing is performed inconsistently.

본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해되어질 수 있을 것이다.
The objects of the present invention are not limited to the above-mentioned objects, and other objects not mentioned can be clearly understood by those skilled in the art from the following description.

상기와 같은 목적을 달성하기 위한 본 발명의 일면에 따른 띄어쓰기 일관성 검사 방법은, 문서내에 비일관적으로 띄어쓰기된 부분을 검사하는 띄어쓰기 검사 방법에 있어서, 문서내의 빈칸(공백)을 중심으로 좌우 어절의 일정부분을 추출하여 띄어쓴 어절(A형 목표 문자열)을 확인할 수 있도록 탐색키를 구축하는 단계; 상기 구축된 탐색키를 이용하여 부분 문자열 검색에 의해 붙여쓴 어절(B형 목표 문자열)들을 추출하는 단계; 및 상기 탐색키에 대응하여 띄어쓴 어절과 추출된 붙여쓴 어절을 비일관적 띄어쓰기 어절로 표시하는 단계를 포함하되, 상기 추출하는 단계는, 상기 탐색키에 완전히 일치하는 붙여쓴 어절들을 추출하는 어휘일치 모델, 상기 탐색키의 마지막 음절에 대해 동일어간 음절후보도 일치하는 것으로 처리하여 붙여쓴 어절들을 추출하는 동일어간 음절후보 일치 모델 또는 상기 동일어간 음절후보 일치 모델을 통해 검색된 결과를 다시 형태소 분석하여 기본 형태소가 같은 붙여쓴 어절들을 추출하는 형태소 일치 모델 중 어느 하나의 모델을 수행하는 것을 특징으로 한다.In the spacing consistency checking method according to an aspect of the present invention for achieving the above object, in the spacing check method for checking a portion inconsistent spacing in the document, the left and right words around the blank (blank) in the document Constructing a search key to extract a predetermined portion and identify a spaced word (type A target string); Extracting words (type B target strings) pasted by substring search using the constructed search key; And displaying the spacing word and the extracted paste word corresponding to the search key as an inconsistent spacing word, wherein the extracting includes: a vocabulary for extracting a paste word that completely matches the search key; By morphologically analyzing the results retrieved through the matching model, the same syllable candidate matching model which extracts the pasted words by processing the same syllable candidate for the last syllable of the search key, or the same syllable candidate matching model. It is characterized in that any one of the morpheme matching models for extracting the same pasted phrases is performed.

여기서, 상기 좌우 어절의 일정부분은, 좌측의 어절 전체와 우측 어절의 첫 글자인 것을 특징으로 한다.Here, the predetermined part of the left and right words, it is characterized in that the first word of the whole word and the right word of the left word.

여기서, 상기 붙여쓴 어절이 추출되지 않으면, 비일관적 띄어쓰기의 대상에서 그 탐색키로 찾은 어절들을 제거하는 단계를 더 포함하는 것을 특징으로 한다.Here, if the pasted word is not extracted, the method may further include removing the words found by the search key from the object of inconsistent spacing.

여기서, 상기 동일어간 음절후보 일치 모델은, 탐색키의 마지막 음절과 대상 문자열에서 비교되는 음절이 같은 동일어간 음절후보(어간이지만 활용형으로 나타날 수 있는 음절들)에 속할 경우 문자열이 일치하는 것으로 처리하는 것을 특징으로 한다.In this case, the same syllable candidate matching model, if the last syllable of the search key and the syllable compared in the target string belong to the same syllable candidate (syllables that are stemmed but may appear as utilization types), the string is treated as a match. It is characterized by.

여기서, 상기 형태소 일치 모델은, 활용형태를 고려하여 띄어쓴 어절과 붙여쓴 어절의 형태소 분석 결과에 따라 품사와 어휘수준을 동시에 비교하고, 그 비교결과 형태소가 명사나 동사와 같은 품사일 경우, 어휘까지도 같아야 두 어절이 동일한 것으로 판별하고, 상기 형태소 분석 결과에 따라 상기 명사나 동사 이외의 형태소인 경우, 품사가 같으면 두 어절이 같은 형태소인 것으로 판별하며, 상기 형태소 분석 결과가 여러가지 후보로 나올 경우, 그중 어느 하나의 후보와 일치해도 의미소가 같은 어절로 편별하는 것을 특징으로 한다.Here, the morpheme matching model compares the parts of speech and the lexical level at the same time according to the results of morphological analysis of the written word and the attached word in consideration of the utilization form, and when the morpheme is a part of speech such as a noun or a verb, If the two words are determined to be the same, and the morphemes other than the noun or the verb are determined according to the morphological analysis result, if the parts of speech are the same, the two words are determined to be the same morpheme. Even if it matches any one of the candidates, the semantic is distinguished by the same word.

여기서, 상기 비일관적 띄어쓰기 어절로 표시된 특정 어절의 해당 텍스트 위치로 하이퍼 링크를 연결하여 편집할 수 있도록 서비스하는 단계를 더 포함하는 것을 특징으로 한다.The method may further include providing a service for editing by connecting a hyperlink to a corresponding text position of a specific word displayed as the inconsistent spacing word.

본 발명의 다른 면에 따른 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체는, 문서내에 비일관적으로 띄어쓰기된 부분을 검사하는 컴퓨터에, 문서내의 빈칸(공백)을 중심으로 좌우 어절의 일정부분을 추출하여 띄어쓴 어절(A형 목표 문자열)을 확인할 수 있도록 탐색키를 구축하는 단계; 상기 구축된 탐색키를 이용하여 부분 문자열 검색에 의해 붙여쓴 어절(B형 목표 문자열)들을 추출하는 단계; 및 상기 탐색키에 대응하여 띄어쓴 어절과 추출된 붙여쓴 어절을 비일관적 띄어쓰기 어절로 표시하는 단계를 포함하되, 상기 추출하는 단계는, 상기 탐색키에 완전히 일치하는 붙여쓴 어절들을 추출하는 어휘일치 모델, 상기 탐색키의 마지막 음절에 대해 동일어간 음절후보도 일치하는 것으로 처리하여 붙여쓴 어절들을 추출하는 동일어간 음절후보 일치 모델 또는 상기 동일어간 음절후보 일치 모델을 통해 검색된 결과를 다시 형태소 분석하여 기본 형태소가 같은 붙여쓴 어절들을 추출하는 형태소 일치 모델 중 어느 하나의 모델을 실행시키기 위한 프로그램을 기록한 것을 특징으로 한다.
A computer-readable recording medium having recorded thereon a program according to another aspect of the present invention is a computer that checks a portion of spaces written inconsistently in a document, and extracts a predetermined portion of left and right words centered on blank spaces in the document. Constructing a search key to check a spaced word (type A target string); Extracting words (type B target strings) pasted by substring search using the constructed search key; And displaying the spacing word and the extracted paste word corresponding to the search key as an inconsistent spacing word, wherein the extracting includes: a vocabulary for extracting a paste word that completely matches the search key; By morphologically analyzing the results retrieved through the matching model, the same syllable candidate matching model which extracts the pasted words by processing the same syllable candidate for the last syllable of the search key, or the same syllable candidate matching model. A program for executing one of the morpheme matching models for extracting the same pasted phrases is recorded.

전술한 과제해결 수단에 의해 본 발명은 음절 정보와 형태소 정보를 이용하여 띄어쓰기를 효과적으로 검사할 수 있도록 하는 효과가 있다.The present invention has the effect of effectively checking the spacing using syllable information and morpheme information.

또한 어휘 수준의 띄어쓰기 일관성 검사를 수행하여 비일관적으로 띄어쓰기가 수행된 부분을 검사하여 이를 표시할 수 있도록 함으로써, 사용자(저자)가 쉽게 비일관성 띄어쓰기의 가능성이 있는 부분을 확인할 수 있으며, 사용자가 표현하고자 하는 의미가 전달될 수 있도록 그에 대응하는 띄어쓰기로 쉽게 해당 문장을 수정할 수 있도록 하는 효과가 있다.In addition, by performing a lexical-level spacing consistency check, the user can check the areas where spacing has been performed inconsistently and display them, so that the user (the author) can easily identify the parts that may be inconsistent spacing. There is an effect that the sentence can be easily modified by the corresponding spacing so that the meaning to be expressed can be transmitted.

또한 비일관적인 띄어쓰기 후보들을 간단한 문자열 비교 방법으로 우선 검색하고, 그 검색된 후보들만을 대상으로 형태소 분석을 수행함으로써, 보다 정확하게 비일관적으로 띄어쓰기가 수행된 부분을 검색할 수 있는 효과가 있다.In addition, by searching for inconsistent spacing candidates first by a simple string comparison method, and performing morphological analysis only on the retrieved candidates, there is an effect of searching for a portion where spacing has been performed more accurately.

또한 어휘 및 형태소 정보를 이용하여 가능성이 높은 부분만을 선별하여 띄어쓰기를 검사할 수 있는 함으로써, 띄어쓰기 검사를 사용자의 검사 요구에 대응하여 유연하게 수행할 수 있도록 하는 효과가 있다.
In addition, by using only vocabulary and morpheme information, it is possible to select only the parts with high possibility to check the spacing, so that the spacing test can be flexibly performed in response to the inspection request of the user.

도 1은 본 발명에 따른 띄어쓰기 일관성 검사 방법을 설명하기 위해 예시도.
도 2는 본 발명의 실시예에 따라 포스트 파일의 예를 보인 예시도.
도 3a 및 도 3b는 본 발명의 실시예에 따른 띄어쓰기 일관성 검사 방법을 보인 흐름도.
도 4는 본 발명의 실시예에 따른 띄어쓰기 일관성 검사 방법에 의해 표시되는 화면을 보인 예시도.
1 is an exemplary view for explaining a spacing consistency checking method according to the present invention.
2 is an exemplary view showing an example of a post file according to an embodiment of the present invention.
3A and 3B are flowcharts illustrating a spacing consistency checking method according to an embodiment of the present invention.
4 is an exemplary view showing a screen displayed by the spacing consistency check method according to an embodiment of the present invention.

본 발명의 실시예에 따른 띄어쓰기 검사 방법은 효율적인 탐색을 위해 비일관적 띄어쓰기 후보들을 간단한 문자열 비교 방법으로 먼저 찾아내고, 이 후보들만을 대상으로 형태소 분석을 하는 효율적인 방법의 기술적 구성을 제안한다.According to an embodiment of the present invention, a spacing check method according to an embodiment of the present invention first proposes an inconsistent spacing candidate by a simple string comparison method, and then proposes a technical configuration of an efficient method of morphological analysis of only these candidates.

이때 본 발명에서는 문자열 비교 방법으로 1. 어휘 일치 모델, 2. 동일어간 음절후보 일치 모델, 3. 형태소 일치 모델을 제안한다. 여기서 어휘 일치 모델은 탐색키에 완전 일치하는 목표 문자열을 찾는 방법을 의미한다. 또한 동일어간 음절후보 일치 모델은 탐색키의 마지막 음절에 대해 동일어간 음절후보도 일치하는 것으로 처리하여 목표 문자열을 찾는 방법을 의미한다. 또한 형태소 일치 모델은 동일어간 음절후보 일치 모델에 의해 찾은 결과를 다시 형태소 분석하여 기본 형태소가 같은 목표 문자열을 찾는 방법을 의미한다. At this time, the present invention proposes a lexical matching model, a syllable candidate matching model, and a morpheme matching model. Here, the lexical matching model means how to find the target string that matches the search key. In addition, the syllable candidate matching model between the same words means a method of finding a target string by treating the syllable candidate between the same words with respect to the last syllable of the search key. In addition, the morpheme matching model means a method of morphological analysis of the results found by the syllable candidate matching model between identical words to find a target string having the same basic morpheme.

하기에서는 이러한 의미로 어휘일치 모델, 동일어간 음절후보 일치 모델 및 형태소 일치 모델의 용어를 사용할 것이다.In the following description, terms of a lexical matching model, a syllable candidate between identical words, and a morpheme matching model will be used.

본 발명의 띄어쓰기 일관성 검사 방법은 컴퓨터 혹은 휴대용 단말기에 내장되어, 장치적인 구성중 마이크로 프로세서(메인 콘트롤러)의 전반적인 제어하에 비일관적으로 띄어쓰기가 수행되어진 부분을 검색하여 이를 화면상에 표시하는 기술을 요지로 한다. 이때 띄어쓰기를 검사하는 각 과정(단계)은 마이크로 프로세서에 의해 수행된다.The spacing coherence checking method of the present invention is a technology built in a computer or a portable terminal and searches for a portion in which a spacing is performed inconsistently under a general control of a microprocessor (main controller) of the device configuration and displays it on the screen. Make a point. At this time, each process (step) of checking a space is performed by a microprocessor.

또한 본 발명은 이러한 띄어쓰기 일관성 검사 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 대해서도 제안한다.The present invention also proposes a computer-readable recording medium having recorded thereon a program for realizing the spacing consistency checking method.

하기의 설명에서 본 발명의 띄어쓰기 검사 방법의 특정 상세들이 본 발명의 보다 전반적인 이해를 제공하기 위해 나타나 있는데, 이들 특정 상세들 없이 또한 이들의 변형에 의해서도 본 발명이 용이하게 실시될 수 있다는 것은 이 기술분야에서 통상의 지식을 가진 자에게 자명할 것이다.In the following description, specific details of the spacing test method of the present invention are presented to provide a more general understanding of the present invention. It is to be understood that the present invention may be readily implemented without these specific details and by modification thereof. It will be apparent to those of ordinary skill in the field.

이하, 본 발명에 따른 바람직한 실시 예를 첨부된 도면을 참조하여 상세히 설명하되, 본 발명에 따른 동작 및 작용을 이해하는데 필요한 부분을 중심으로 설명한다.Hereinafter, preferred embodiments according to the present invention will be described in detail with reference to the accompanying drawings, with reference to the parts necessary for understanding the operation and operation according to the present invention.

우선 본 발명에 따른 띄어쓰기 일관성 검사 방법은 크게 1. 어휘 수준, 2. 유형 수준, 3. 의미 수준의 3단계 처리 수준을 제안하되, 실용적으로 사용가능한 어휘 수준에 대해 중점적으로 후술하도록 한다.
First, the spacing consistency checking method according to the present invention proposes a three-step processing level of 1. vocabulary level, 2. type level, and 3. semantic level, and focuses on the practically usable vocabulary level.

1. 어휘 수준의 일관성 검사1. Consistency check at lexical level

어휘 수준에서의 일관성 검사는 기본 어휘가 같은 어절들이 문서 내에서 한 가지 띄어쓰기 형태로 통일하여 사용되는지를 검사하는 것을 의미한다. 여기에서 기본 어휘가 같다는 것은 어미 변화나 조사 등은 제외하고 명사나 용언의 어휘가 같다는 것을 뜻한다. Consistency checking at the lexical level means checking that words with the same basic vocabulary are uniformly used in a single space in the document. Here, the same basic vocabulary means that the nouns and verbs have the same vocabulary except for ending changes and investigations.

다음은 본 발명에 따른 자동 띄어쓰기 방법의 이해를 돕기 위한 [예 1]의 구문이 된다. The following is the syntax of [Example 1] to help understand the automatic spacing method according to the present invention.

[예 1][Example 1]

(1) 컴퓨터 과학은(1) computer science

(2) 컴퓨터과학에서(2) in computer science

(3) 정보 과학은(3) information science

(4) 꺼져 가는(4) going out

(5) 꺼져간(5) turned off

(6) 살아가고
(6) living

상기 [예 1]에서 (1)과 (2)는 첫 단어가 ‘컴퓨터’로 같으며, 뒤의 단어 ‘과학’도 같다. 따라서 ‘과학’ 단어와 그 앞의 단어를 일관성 있게 띄어 써야 한다. In [Example 1], (1) and (2) have the same first word as "computer" and the same word "science". Therefore, the word "science" and the word before it should be used consistently.

하지만, [예 1]의 (2)와 (3)의 경우, 첫 어절이 서로 다르므로 ‘과학’ 단어와 그 앞의 단어들이 반드시 일관성 있게 띄어 쓸 필요는 없다. However, in (2) and (3) of [Example 1], since the first word is different, the word "science" and the words before it are not necessarily used consistently.

또한 [예 1]의 (4)와 (5)의 경우는 ‘꺼져 가다’에서 어미 변화가 된 것으로 기본 어휘가 같고, 본용언과 보조용언 사이에 띄어쓰기 일관성이 없으므로 이를 통일해야 한다. 여기에서 띄어쓰기의 옳고 그름은 판별하지 않고, 띄어쓰기의 일관성만을 검사하도록 한다.Also, in case of (4) and (5) of [Example 1], it is changed from 'to go off', and the basic vocabulary is the same, and there is no spacing consistency between the main and auxiliary verbs. Here, the correctness and wrongness of spacing are not determined, only the consistency of spacing is checked.

즉, [예 1]의 (4)는 '꺼져' 라는 본용언 다음에 '가는' 이라는 보조용언을 띄어쓰기 하였고, [예 1]의 (5)는 '꺼져' 라는 본용언 다음에 '간' 이라는 보조용언을 띄어쓰지 않고, 붙여쓴 경우로 기본 어휘가 동일한 경우임에도 불구하고 일관성이 결여되어, 일관성을 갖고 띄어쓰기를 통일시킨다.
In other words, (4) in [Example 1] puts an auxiliary verb of 'going' after the main verb of 'get off', and (5) of [Example 1] adds an auxiliary verb of 'liver' after the main verb of 'off' In the case of pasting without a space, even if the basic vocabulary is the same, there is a lack of consistency, so that the space is consistent and unified.

2. 유형 수준의 일관성 검사2. Type-level consistency check

유형 수준의 띄어쓰기 일관성 검사는 같은 유형의 어휘들로 만들어진 어절들이 문서 내에서 통일된 띄어쓰기 형태로 사용되는지를 검사하는 것을 의미한다. Type-level spacing consistency checking means checking that words made with the same type of vocabulary are used in a unified spacing form in a document.

예를 들어, 상기 [예 1]의 (2)와 (3)에서 사용된 ‘컴퓨터’와 ‘정보’는 똑같이 과학의 한 종류를 나타내는 어휘들이 ‘과학’과 함께 쓰인 복합어이다. For example, the words "computer" and "information" used in (2) and (3) of [Example 1] are compound words in which vocabularies representing a kind of science are used together with "science."

이 경우, 유형 수준에서 일관성이 있으려면 띄어쓰기 여부를 일치시켜야 한다. 하지만, 이런 복합어의 경우는 띄어쓰기 규칙상 단어가 합성어일 경우 붙여 쓰고, 합성어가 아닐 경우 띄어 쓴다. In this case, to be consistent at the type level, the spacing must match. However, in the case of such compound words, if the word is a compound word according to the spacing rules, the word is pasted.

즉, ‘컴퓨터과학’이 합성어라면 붙여쓰고, ‘정보 과학’이 합성어가 아니라면 띄어써야 한다. In other words, if 'computer science' is a compound word, paste it. If 'information science' is not a compound word, use it.

또한, 상기 [예 1]의 (4)와 (6)에서처럼 '가다’는 같은 보조 용언의 경우도 두 가지가 서로 다르게 띄어 쓰고 있다. 따라서, 같은 유형의 띄어쓰기 일관성에 문제가 있지만, 각 어휘별 합성어 여부에 따라 다르게 처리해야 한다.In addition, as in (4) and (6) of the [Example 1], the two words are used differently in the case of the same auxiliary verb. Therefore, there is a problem in the spacing consistency of the same type, but it must be handled differently depending on whether each vocabulary is a compound word.

복합어의 띄어쓰기는 각각의 경우마다 합성어 여부가 다르기 때문에 대개 그 기준을 표준국어대사전에 합성어로 등재되었는가의 여부에 따라 결정한다. 하지만, 현재 표준국어대사전에 등재된 합성어 목록도 계속 바뀌고 있으며, 경우에 따라 국어학 혹은 언어학 관점에서도 합성어인지 아닌지에 대한 의견이 분분한 경우가 있어 이를 유형 수준의 띄어쓰기 일관성 검사에 적용하기에는 아직 어려운 점이 있다.
Since the spacing of compound words differs from case to case in each case, the criteria are usually determined by whether the standard word is listed as a compound word in the standard Korean dictionary. However, the list of compound words listed in the Korean Standard Dictionary is constantly changing, and in some cases, opinions on whether or not it is a compound word from the point of view of Korean linguistics or linguistics are still difficult to apply to the type-level spacing consistency test.

3. 의미 수준의 일관성 검사3. Consistency Level Consistency Check

의미 수준의 띄어쓰기 일관성 검사는 문맥상 의미를 파악하여 띄어쓰기 검사를 하는 것을 의미한다. The semantic level spacing consistency check means to check the contextual meaning of the spacing.

즉, 저자가 의도적으로 그 의미를 다르게 하기 위해 띄어 쓰거나 붙여 쓰는 경우, 이를 파악하여 처리함에 있어 합성어의 경우, 두 단어가 모여 새로운 의미의 단어를 형성하므로 붙여 쓰고, 이를 띄어 쓴 경우와 구분한다. In other words, if the author intentionally puts or pastes to change the meaning differently, in the case of compound words in grasping and processing them, two words gather together to form a word with a new meaning, so it is distinguished from the case where it is written.

예를 들어 ‘큰아버지’처럼 붙여 쓴 경우는 아버지의 형님이란 뜻이지만, ‘큰 아버지’라고 띄어 쓴 경우 키가 크거나 몸집이 큰 아버지를 의미한다. For example, ‘great father’ means dad's brother, but ‘great father’ means dad who is tall or tall.

따라서, 의도적으로 그 의미를 명확히 하기 위해 띄어 쓴 경우와 그렇지 않은 경우를 파악하기 위해서도 같은 의미의 어절들에 대해서는 띄어쓰기 일관성을 유지해야 한다. 이러한 경우는 앞뒤 문맥을 파악하여 처리해야 한다. 하지만 이 경우도 현재의 자연언어 처리 기술 수준이 전체 문맥 파악을 제대로 할 수준이 아니므로 처리하기 어려운 점이 있다.Therefore, in order to identify cases where they are intentionally used to clarify their meanings and those which do not, they must maintain the spacing consistency for the same meaning. In these cases, you need to understand the context before and after. However, even in this case, it is difficult to handle the current natural language processing technology because it is not a level to grasp the entire context.

이에, 본 발명에 따른 띄어쓰기 일관성 검사는 전술한 내용중에 어휘 수준을 이용하여 일관성 있게 띄어쓰기가 수행될 수 있도록 비일관적으로 띄어쓰기가 수행된 부분을 검사하는 방법에 대해서 상세히 기술하도록 한다.
Accordingly, the spacing coherence check according to the present invention will be described in detail with respect to a method of checking a portion in which spacing is performed inconsistently so that spacing can be performed consistently using a lexical level.

4. 어휘 수준 띄어쓰기 일관성 검사 모델 4. Vocabulary Level Spacing Consistency Checking Model

4.1. 4.1. 탐색키를Navigation keys 이용한 후보군 추출 Candidate group extraction

상기 [예1]의 (1)과 (2)의 경우처럼 복합어가 비일관적으로 띄어쓴 경우를 찾기 위해서는 우선 명사 부분을 분리하고 이 명사들이 붙여 쓴 경우와 띄어 쓴 경우를 찾아야 한다.In order to find a case where a compound word is inconsistently spaced as in (1) and (2) of [Example 1], the noun part must first be separated, and the cases where the nouns are pasted and spaced are found.

이를 위해서는 모든 어절을 형태소 분석하고, 이 형태소들을 기준으로 각 경우를 찾을 수 있다. To do this, we can morphologically analyze every word and find each case based on these morphemes.

하지만, 이 경우, 비일관적인 띄어쓰기의 가능성이 없는 어절들도 모두 포함하여 형태소 분석을 하게 되어 비효율적이다.However, in this case, it is inefficient because morphological analysis is included including all the words which have no possibility of inconsistent spacing.

본 발명에서는 효율적인 탐색을 위해 비일관적 띄어쓰기 후보들을 간단한 문자열 비교 방법으로 먼저 찾아내고, 찾아낸 후보들만을 대상으로 형태소 분석을 하는 효율적인 방법을 제안한다. 이러한 방법은 기본적으로 빈칸을 중심으로 좌우 어절의 일부를 추출하여 탐색키로 사용한다.The present invention proposes an efficient method of finding inconsistent spacing candidates first by a simple string comparison method and performing morphological analysis on only those candidates for efficient searching. This method basically extracts a part of left and right words around a blank and uses it as a search key.

탐색키로 찾아낸 후보군은 비일관적으로 띄어 쓴 모든 어절을 포함해야 한다. 이를 위해 탐색키는 여러 가지로 정의하여 사용할 수 있다. 본 발명에서는 바람직하게 탐색키를 빈칸 앞쪽의 어절과 뒤쪽 어절의 첫 글자로 정하였다.Candidates found with the search key should contain all inconsistent words. To do this, there are several navigation keys. In the present invention, the search key is preferably set as the first letter of the word before the blank and the word after the blank.

즉, 상기 [예1]의 (1) 내지 (6)에서 보듯이 띄어쓰기의 비일관성이 나타나는 복합어나 보조용언을 사용한 경우, 대개 앞 어절은 변화가 없는 반면 뒷 어절의 한 글자는 대개 같고 그 이후는 어미나 조사 등이 붙어 변화할 수 있기 때문이다. In other words, as shown in (1) to (6) in [Example 1], when a compound word or auxiliary word that exhibits inconsistency in spacing is used, the first word is usually unchanged while the first word is usually the same and thereafter. The reason is that it may change due to affinity or irradiation.

물론 뒷 어절의 한 글자도 (5)의 예처럼 변화할 수 있기 때문에 이를 고려하여 3가지 모델을 다음 절에 제안한다.Of course, since one letter of the back word can be changed as in the example of (5), three models are proposed in the next section.

탐색하는 문자열을 목표 문자열이라 하고, 띄어 쓴 문자열을 A형 목표 문자열, 붙여 쓴 문자열을 B형 목표 문자열이라고 할 경우, 상기 [예1]의 (4), (5)에 대한 탐색키는 도 1과 같이 정의된다.When the searched string is called a target string, and the spaced string is a type A target string and the pasted string is a type B target string, the search keys for (4) and (5) in [Example 1] are shown in FIG. Is defined as:

즉, A형 목표 문자열로서 '꺼져 가는', 탐색키로서 '꺼져가', B형 목표 문자열로서 '꺼져간'으로 정의된다.That is, it is defined as 'off' as a type A target string, 'off' as a search key, and 'off' as a type B target string.

탐색키는 기본적으로 띄어 쓴 어절에서 추출하므로 문서를 읽는 첫 번째 패스때 띄어 쓴 어절(A형 목표 문자열)로부터 가능한 모든 종류의 탐색키를 구축한다. 이러한 탐색키를 이용하여 두 번째 패스때 부분 문자열 검색으로 붙여쓴 어절(B형 목표 문자열)들을 추출한다. 만약 붙여쓴 어절이 발견되지 않으면, 비일관적 띄어쓰기의 대상에서 그 탐색키로 찾은 어절들을 제거한다. 이러한 방법에 의해 도 2와 같은 포스트 파일형태로 획득할 수 있다.
Search keys are basically extracted from spaced words, so you build all kinds of search keys that are possible from spaced words (type A target strings) in the first pass of your document. These search keys are used to extract words (type B target strings) pasted by substring search on the second pass. If the pasted word is not found, the word found by the search key is removed from the object of inconsistent spacing. By this method it can be obtained in the form of a post file as shown in FIG.

4.2. 제안 모델4.2. Proposed model

모델은 탐색키를 이용하여 검색하는 방법과 후처리 방법에 따라 3가지로 나누었다. 첫 번째는 ‘어휘 일치 모델’이며 T1으로 약칭한다. 이 모델은 탐색키와 완전 일치를 하는 부분 문자열만을 찾는 단순한 모델이며, 다른 모델과의 비교를 위해 사용한다. The model is divided into three types according to the search method and the post-processing method using search keys. The first is a lexical matching model, abbreviated as T1. This model is a simple model that finds only substrings that match the search key exactly, and is used for comparison with other models.

두 번째는 ‘동일어간 음절후보 일치 모델’로 Tc로 약칭하며, T1모델을 보완하기 위해 만든 모델이다. 명사의 경우와 다르게 보조용언 어간의 경우, 어절의 앞 음절이 어미 변화에 따라 바뀔 수 있다. 이러한 경우는 정확한 음절 일치만을 허용하는 T1모델로는 찾을 수 없다. (4)와 (5)에서처럼 보조용언의 활용형태를 고려하여 검색문자열과 비교하여야 한다. 즉, 보조용언 어간 ‘간’이 ‘가’의 활용형태임을 파악하여 ‘꺼져가’ 가 ‘꺼져간’과도 일치되는 것으로 처리해야 한다. The second is the 'Same Syllable Candidate Matching Model', abbreviated as Tc and is a model created to complement the T1 model. In the case of supplemental verbs, unlike in the case of nouns, the syllables in the beginning of a word may change as the ending changes. This is not the case with the T1 model, which allows only exact syllable matching. As in (4) and (5), it should be compared with the search string in consideration of the usage of auxiliary words. In other words, the sub-language stem liver should be identified as a form of 'ga' and should be treated as 'going away'.

보조용언의 종류는 국립국어원, "한국어 학습 자료," 국립국어원 홈페이지 공개자료실 http://www.korean.go.kr에 의하면 아래의 [표 1]과 같이 33종류가 있다. According to the National Institute of Korean Language, "Korean Language Learning Materials," the National Institute of Korean Language's website, http://www.korean.go.kr, there are 33 kinds of auxiliary words.

가다go 들다Hold 싶어지다Want to 가지다have 듯싶다Seem 아니하다No 갖다have 듯하다look like 않다not 계시다be there 만하다be worth 오다come 나가다go out 말다roll 있다have 나다It's me 먹다eat 주다give 내다Pay 못하다Can not do it 죽다die 놓다put 버리다Abandon 척하다Pretend 달다Sweet 보다see 체하다pretend 두다put 뻔하다Obvious 치우다clean up 드리다give 싶다want 하다Do

이러한 보조용언의 어간은 어미 변화에 의해 바뀌기는 하지만 변화되는 음절의 개수가 한정적이다. Although the stems of these supplementary words are changed by the mother's change, the number of syllables is limited.

본 발명에서는 이들 중 어미 변화에 의해 보조용언의 첫 음절이 바뀌는 경우를 조사하여 아래의 [표 2]와 같이 정리하였다. In the present invention, the case of changing the first syllable of the auxiliary words by the change of the ending of these words was examined and summarized as shown in Table 2 below.

보조용언Auxiliary words 동일어간 음절후보Syllable Candidates 가다, 가지다, 갖다Go, have, have 가, 간, 갈, 감, 갑, 갔, 갖Go, Live, Go, Persimmon, Gap, Gone 나다It's me 나, 난, 날, 남, 납, 났Me, I, Me, M, Lead, Woke 내다Pay 내, 낸, 낼, 냄, 냅, 냈Mine, embellish, snatch, sniff, synapse, snuggle 달다Sweet 달, 다, 단, 담, 답Moon, multi, sweet, fence, answer 두다put 두, 둔, 둘, 둠, 둡, 뒀Two, dull, two, dum, dum, put 들다Hold 들, 든, 드, 듬, 듭Guys, whatever, hard, petting, knot 말다roll 말, 만, 마, 맙Say, only, do, thank you 보다see 보, 본, 볼, 봄, 봅, 봤Boy, seen, seen, spring, bob, saw 오다come 오, 온, 올, 옴, 옵, 왔Oh, come, come, ohm, opt, come 주다give 주, 준, 줄, 줌, 줍, 줬Share, gave, give, zoom, picked up 하다Do 하, 한, 할, 함, 합, 했Ha, han, do, ha, sum, did

상기 [표 2]에 나타난 바와 같이, 같은 어간이지만 활용형으로 나타날 수 있는 음절들을 ‘동일어간 음절후보’라고 정의한다. 또한 이를 이용하여 탐색키의 마지막 음절과 대상 문자열에서 비교되는 음절이 같은 동일어간 음절후보에 속할 경우 문자열이 일치한 것으로 처리한다.As shown in [Table 2], the syllables that can appear in the same stem but the utilization type are defined as 'same syllable candidates'. Also, if the last syllable of the search key and the syllable compared in the target string belong to the same syllable candidate, the string is treated as a match.

세 번째 모델은 ‘형태소 일치 모델’이며 Tm으로 약칭한다. 이 모델은 Tc모델에서 후보로 찾은 어절들에 대해서 형태소 분석을 하고 이를 근거로 비일관적 띄어쓰기 어절을 찾아낸다.The third model is the 'morphological match model', abbreviated Tm. This model morphologically analyzes the candidate words found in the Tc model and finds inconsistent spacing words based on them.

예를 들어, 하기의 [예 2]의 (1)과 (2)의 경우를 모두 비일관성 후보로 추출한다. 따라서, ‘부품은’을 올바르게 분석하고 명사 부분인 ‘부품’을 분리하여 [예 2]의 (2)에 기재된 조사의 '부터’와 다른 것으로 처리해야 한다. 이를 위해서 형태소 분석이 필요하다.For example, all of the cases (1) and (2) below [Example 2] are extracted as inconsistency candidates. Therefore, "parts" must be correctly analyzed and the noun part "parts" must be separated and treated differently from "from" the investigation described in (2) of [Example 2]. This requires morphological analysis.

[예 2][Example 2]

(1) 메모리용 부품은 (1) Memory parts

(2) 메모리용부터
(2) From memory

또한 활용형태를 고려하여 검색하는 Tc 모델의 경우, 하기의 [예 3]의 (1)과 (2)에 나타난 ‘간’과 ‘가’를 동일어간 음절 후보로 처리하여 잘못된 결과를 출력할 수 있다. 이를 해결하기 위해서도 앞 어절과 뒤 어절에 대해 형태소 분석을 하여 보조용언과 다른 품사를 구분해 내야 한다. In addition, in the case of the Tc model that is searched in consideration of the utilization form, an incorrect result may be output by treating 'liver' and 'ga' shown in (1) and (2) of [Example 3] below as syllable candidates of the same language. have. In order to solve this problem, it is necessary to morphologically analyze the preceding word and the next word to distinguish the auxiliary verb from other parts of speech.

[예 3]Example 3

(1) 레지스터 간(1) between registers

(2) 레지스터가
(2) registers

비교 대상이 되는 두 어절에 대한 형태소 분석 결과는 품사와 어휘수준에서 동시에 비교한다.The results of morphological analysis on the two words to be compared are compared at the parts of speech and lexical level.

즉, 형태소가 명사나 동사와 같은 품사일 경우에는 어휘까지도 같아야 하며, 그 이외의 형태소들은 품사가 같으면 두 어절이 같은 것으로 판별한다. 또, 형태소 분석의 결과가 여러 가지 후보로 나올 경우, 그 중 하나의 후보와만 일치해도 의미소가 같은 어절로 판별한다. In other words, if the morpheme is a part-of-speech such as a noun or a verb, the vocabulary should be the same. If the other morphemes are the same, the two words are determined to be the same. Moreover, when the result of morphological analysis comes out with various candidates, even if it matches only one candidate, the semantic is discriminated with the same word.

예를 들어, 아래 [예 4]의 (1)과 (2)는 ‘버스위의’ 와 ‘버스 위로’를 형태소 분석하여 띄어쓰기 일관성을 검사한 것이다. For example, (1) and (2) in [Example 4] below are stemming the 'above the bus' and 'above the bus' to check the spacing consistency.

[예 4]Example 4

Figure 112010051636062-pat00001

Figure 112010051636062-pat00001

두 경우를 모두 붙여 써서 형태소 분석을 하여 두개의 문법 요소로 분리된 것을 보여준다.Stemming by using both cases shows that two grammatical elements are separated.

첫번째 요소는 둘다 '버스위/N' 라는 명사(N)로 분석되고 어휘도 같으며, 두 번째 요소는 어휘는 다르지만 모두 조사(j)이므로 이 어절은 같은 종류의 어절로 판별한다. Both of the first elements are analyzed as nouns (N) on the bus and have the same vocabulary. The second element is different from the vocabulary but is examined (j).

따라서, 이 어절을 띄어쓰기 일관성이 없는 어절로 표시한다.Therefore, the word is expressed as a word with inconsistent spacing.

(3)과 (4)의 경우도, 보조용언 ‘보다’ 가 ‘본다’ 와 ‘보기로’로 어미가 변화되어 사용되었지만, 본용언과 보조용언의 동사 어간(V)이 일치하므로 어미(e)의 어휘 변화에 관계없이 같은 종류의 어절로 판별하여 띄어쓰기 일관성이 없음을 지적한다. Also, in the case of (3) and (4), the ending verb is changed to 'see' and 'to see', but the verb stem (V) of the main verb and the auxiliary verb coincides with the ending (e). Regardless of the vocabulary changes, the same type of word is used to indicate that the spacing is inconsistent.

(5)와 (6)은 ‘메모리용이라는’ 과 ‘메모리 용량이라도’ 의 두 어절에 대한 띄어쓰기 일관성 검사이다. 이 경우, 명사 부분이 어휘가 다르므로 다른 종류의 어절로 판별하여 띄어쓰기 일관성의 비교 대상에서 제외한다.(5) and (6) are spacing consistency checks for two words, "for memory" and "even for memory." In this case, since the nouns have different vocabularies, they are discriminated by different kinds of words and excluded from the comparison of spacing consistency.

전술한 3가지 모델을 다시 정리하면 다음과 같다.The above three models are summarized as follows.

어휘 일치 모델(T1)은 탐색키에 완전 일치하는 목표 문자열을 찾는 것을 의미하고, 동일어간 음절후보 일치 모델(Tc)은 탐색키의 마지막 음절에 대해 동일어간 음절후보도 일치하는 것으로 처리하여 목표 문자열을 찾는 것을 의미하며, 형태소 일치 모델(Tm)은 모델 Tc로 찾은 결과를 다시 형태소 분석하여 기본 형태소가 같은 목표 문자열을 찾는 것을 의미한다.The lexical matching model (T1) means finding a target string that perfectly matches the search key, and the syllable candidate matching model (Tc) treats the same syllable candidate for the last syllable of the search key as the target string. The morpheme matching model (Tm) means morphological analysis of the results found by the model Tc to find a target string having the same basic morpheme.

도 3a 및 도 3b는 본 발명의 실시예에 따른 띄어쓰기 검사 방법을 보인 흐름도이다. 여기서 도 3a 및 도 3b는 문서내에 비일관적으로 띄어쓰기된 부분을 검사하는 띄어쓰기 검사 방법을 제시하고 있다.3A and 3B are flowcharts illustrating a spacing test method according to an exemplary embodiment of the present invention. Here, FIGS. 3A and 3B illustrate a spacing test method for checking a portion of spaces inconsistently spaced in a document.

도 3a 및 도 3b를 참조하면, 우선, 문서내의 빈칸(공백)을 중심으로 좌우 어절의 일정부분을 추출하여 띄어쓴 어절(A형 목표 문자열)을 확인할 수 있도록 탐색키를 구축한다(S310). Referring to FIGS. 3A and 3B, first, a search key is constructed to extract a predetermined portion of left and right words centered on a blank space (blank) in a document to identify a spaced word (type A target string) (S310).

상기 구축된 탐색키를 이용하여 부분 문자열 검색에 의해 붙여쓴 어절(B형 목표 문자열)들을 추출한다(S320).By using the constructed search key, the words (type B target strings) pasted by the substring search are extracted (S320).

상기 탐색키에 대응하여 띄어쓴 어절과 추출된 붙여쓴 어절을 비일관적 띄어쓰기 어절로 표시한다(S330).In response to the search key, the spacing word and the extracted paste word are displayed as inconsistent spacing words (S330).

전술한 320단계(S320)에 의해 일관성을 비교해야 하는 대상을 추출하는 모델(방법)은 다음과 같으며, 후술되는 321단계(S321) 내지 325단계(S325) 중 어느 하나의 모델을 수행한다.The model (method) of extracting an object to which consistency is compared by the above-described step S320 is as follows, and any one of steps 321 (S321) to 325 (S325) described below is performed.

즉, 어휘 일치 모델(T1)을 실행하는 경우, 탐색키에 완전히 일치하는 붙여쓴 어절들을 추출한다(S321).That is, when executing the lexical matching model (T1), the pasted words that completely match the search key is extracted (S321).

그러나, 동일어간 음절후보 일치 모델(Tc)을 실행하는 경우, 탐색키의 마지막 음절에 대해 동일어간 음절후보도 일치하는 것으로 처리하여 붙여쓴 어절들을 추출한다(S323). 여기서 동일어간 음절후보 일치 모델은 어휘 일치 모델을 보완하기 위한 모델이다.However, when executing the syllable candidate matching model Tc between the same words, the extracted syllables are extracted by processing the same syllable candidates as the same for the last syllable of the search key (S323). Here, the syllable candidate matching model between the same words is a model to complement the lexical matching model.

그러나, 형태소 일치 모델(Tm)을 실행하는 경우, 동일어간 음절후보 일치 모델을 통해 찾은 결과를 다시 형태소 분석하여 기본 형태소가 같은 붙여쓴 어절들을 추출한다(S325). 여기서 형태소 일치 모델은 가장 정확한 결과를 추출할 수 있는 모델이다.
However, when the morpheme matching model (Tm) is executed, the results found through the syllable candidate matching model between the same words are morphologically analyzed to extract words with the same basic morphemes (S325). Here, the morpheme matching model is a model that can extract the most accurate result.

5. 실험 및 평가5. Experiment and Evaluation

5.1. 실험5.1. Experiment

실험을 위해 국립국어원에서 구축한 말뭉치 중 일부를 분야별로 뽑고, 또 학회 논문지에 실린 최근의 논문 중 임의로 5편을 뽑아 텍스트 파일로 변환하여 하기의 [표 3]과 같이 테스트 문서 집합을 만들었다. 실험의 편의상 책이나 소설 및 논문의 크기를 약 5,000어절 전후의 단편집 혹은 단편 소설로 선정했다. Some of the corpus constructed by the National Institute of Korean Language for the experiment were selected by field, and five randomly selected papers among recent papers published in the Journal of the Society were converted into text files to create a test document set as shown in Table 3 below. For the convenience of experiments, the size of books, novels and papers were selected as short stories or short stories around 5,000 words.

또한 가능하면 다양한 분야(기록, 교육, 인문, 과학, 예술 등)와 다양한 저자의 책이나 소설로 선정했다. 작문은 대학생들의 비교적 짧은 작문들이며, 뉴스기사도 신문에 난 짧은 기사를 모아 총 어절수가 25,000개 정도가 되도록 했다. If possible, they were selected as books or novels from various fields (records, education, humanities, science, art, etc.) and various authors. Writing is a relatively short writing by college students, and news articles have also gathered short articles from newspapers, totaling about 25,000 words.

어절수Word count 문서수Document Count 문서당 평균 어절수Average word count per document book 2680426804 55 53615361 작문writing 2480224802 3939 636636 뉴스 기사News articles 2483624836 100100 248248 소설novel 2591525915 55 51835183 논문Paper 2588825888 55 51785178 synthesis 128245128245 154154 833(평균)833 (average)

실험은 앞 장에서 설명한 3가지 모델을 구현하고 이에 대해 평가했다. 이 중 어휘 일치 모델(Tm)은 공개적으로 사용가능한 형태소 분석기를 사용하였으며, 이러한 어휘 일치 모델을 수행한 결과는 도 4와 같다. 도 4에서 '/' 는 줄바꿈 표시를 의미한다.The experiment implemented and evaluated the three models described in the previous chapter. The lexical matching model (Tm) is a publicly available morpheme analyzer, the results of performing this lexical matching model is shown in FIG. In FIG. 4, '/' means line break display.

도 4에서 보듯이, 비일관적으로 나타난 띄어쓰기 부분을 중심으로 좌우 문맥 정보와 파일 이름을 표시하여 사용자가 최종 판단을 할 수 있도록 했다. 각각의 한 줄은 ‘비일관적 띄어쓰기의 사례(이하, '사례' 로 표기함)’로 정의하며, 같은 띄어쓰기가 요구되는 사례들은 점선으로 구분하였고, 이렇게 구분된 집합을 ‘비일관적 띄어쓰기 그룹’(이하, ‘그룹’으로 표기함)으로 정의한다. As shown in FIG. 4, the left and right context information and the file name are displayed based on the inconsistency of the spacing so that the user can make a final judgment. Each line is defined as 'inconsistent spacing' (hereinafter referred to as 'case'), and cases requiring the same spacing are separated by dotted lines. It is defined as' (hereinafter referred to as' group ').

도 4는 ‘기업 간’과 ‘기업간’, ‘품질 요구사항’과 ‘품질요구사항’ 등이 일관성 없이 띄어 쓴 사례를 찾아낸 것을 보여준다. 이 프로그램이 더 유용하게 사용될 수 있도록 하려면 각 사례에 실제 나타난 텍스트 위치로 하이퍼 링크를 연결하여 편집이 쉽도록 개선할 수도 있다.
4 shows an example of inconsistent spacing between 'business' and 'business', 'quality requirements' and 'quality requirements'. To make this program even more useful, you can make it easier to edit by linking hyperlinks to the text locations that actually appear in each case.

5.2. 평가5.2. evaluation

평가를 위해 테스트 문서 집합에 대해 정답 사례 집합을 수작업으로 작성하였다. 정답 사례 집합 작성시 동일어간 음절후보 일치 모델(Tc)을 이용하였다. For evaluation purposes, a set of answer cases were manually created for a set of test documents. The syllable candidate congruence model (Tc) between the same words was used when preparing the correct case set.

즉, 이론적으로 동일어간 음절후보 일치 모델은 모든 가능한 비일관적인 띄어쓰기 사례를 추출할 수 있으므로, 동일어간 음절후보 일치 모델에서 찾아 낸 비일관적인 띄어쓰기 중 올바른 것을 수작업으로 선택하고 그룹별로 정리하여 정답 사례 집합을 작성했다.That is, the theoretical syllable candidate matching model can theoretically extract all possible inconsistent spacing cases. Therefore, the correct among the inconsistent spacing found in the same syllable candidate matching model is manually selected and grouped by group. I created a set.

하기의 [표 4]는 실험 결과 찾아낸 비일관적 띄어쓰기 오류 수를 분야별로 정리한 것이다. Table 4 below summarizes the number of inconsistent spacing errors found by the field.

문서당 평균 어절수Average word count per document 오류사례수Error cases 문서당 오류 사례수Error cases per document 오류 사례당 어절수Word Count per Error Case 오류 그룹수Error group count book 53615361 497497 9999 5454 109109 작문writing 636636 140140 44 177177 4444 뉴스 기사News articles 248248 350350 44 7171 125125 소설novel 51835183 655655 131131 4040 181181 논문Paper 51785178 881881 176176 2020 107107 평균Average 833+ 833 + 505505 8383 7474 113113

테스트 문서 전체 분야의 띄어쓰기 오류 사례는 평균 74 어절당 1개이었다. The average number of spacing errors in all areas of the test document averaged 1 per 74 words.

일반적으로 긴 문서에서 비일관적인 띄어쓰기가 나타날 가능성이 높다고 볼 수 있다. Generally speaking, inconsistent spacing is likely to occur in long documents.

상기 [표 4]에서 보듯이, 실제 문서 길이가 긴 책, 소설 및 논문류에서 비일관적 띄어쓰기가 많이 나왔다. 논문류에서 29어절당 1개씩 오류가 나타나 테스트 분야 중 가장 높은 오류율을 보였다. 예외적으로 뉴스기사류의 경우, 짧은 글임에도 비일관적인 띄어쓰기가 비교적 많았다. As shown in [Table 4], a lot of inconsistent spacing appeared in books, novels and papers with a long actual document length. In papers, one error per 29 phrases was found, showing the highest error rate among the test areas. Exceptionally, news articles were relatively inconsistent in spacing even in short articles.

모델 평가는 크게 사례와 그룹에 대한 결과로 나누어 수행했다. Model evaluation was largely divided into case and group results.

전술한 바와 같이, 사례는 비일관적으로 띄어 쓴 어절을 포함한 각각의 부분 문자열을 나타내며, 그룹은 서로 상충되는 띄어쓰기를 하고 있는 각 사례들의 집합을 나타낸다. 이 둘의 평가는 다시 각각에 대한 정확률과 재현율 및 F값으로 나누어 계산하였다. 사례에 대한 정확률과 재현율은 하기의 [수학식 1], [수학식 2]를 이용하고, 그룹에 대한 정확률과 재현율은 하기의 [수학식 3], [수학식 4]를 이용한다. F값은 정확률과 재현율의 평가 비중에 따라 다르게 계산할 수 있는데, 이 평가에서는 두 비중을 같게 하여 [수학식 5]와 같이 계산하였다. 이러한 [수학식 5]를 이용하여 사례 F값과 그룹 F값을 각각 계산할 수 있다.As described above, instances represent each substring including inconsistent words, and groups represent sets of cases with conflicting spacing. The evaluation of the two was again calculated by dividing the accuracy, recall and F value for each. For the accuracy and reproducibility of the case using the following [Equation 1], [Equation 2], the accuracy and reproducibility for the group using the following [Equation 3], [Equation 4]. The F value can be calculated differently according to the evaluation ratio of the accuracy rate and the reproducibility rate. Equation 5 can be used to calculate the case F value and the group F value, respectively.

Figure 112010051636062-pat00002
Figure 112010051636062-pat00002

Figure 112010051636062-pat00003
Figure 112010051636062-pat00003

Figure 112010051636062-pat00004
Figure 112010051636062-pat00004

Figure 112010051636062-pat00005
Figure 112010051636062-pat00005

Figure 112010051636062-pat00006
Figure 112010051636062-pat00006

그룹 평가식의 [수학식 3]과 [수학식 4] 중 ‘출력 중 정답과 일치하는 그룹 개수’는 정답 그룹에 나타난 모든 사례가 출력 그룹에 포함되어야 개수에 포함한다. In [Equation 3] and [Equation 4] of the group evaluation equation, 'the number of groups that match the correct answer in the output' is included in the count when all cases appearing in the correct answer group are included in the output group.

예를 들어, 아래의 [예 5]와 같이 사례 a, b, c, d, e가 원소인 그룹 A1, A2, B, C, D가 있다고 하자. For example, suppose there are groups A1, A2, B, C, and D, in which cases a, b, c, d, and e are elements as shown in Example 5 below.

집합 A1, A2가 정답 그룹일 경우, B는 정답과 일치하는 그룹이고, C와 D는 일치하지 않는 그룹이다. B의 경우, 일치하지 않는 사례 ‘f’가 포함되어 있기는 하지만, 검토를 하여 비일관적인 띄어쓰기를 모두 수정할 수 있다. When the sets A1 and A2 are the correct answer groups, B is the group that matches the correct answer, and C and D are the groups that do not match. In case B, a mismatched case “f” is included, but it can be reviewed to correct any inconsistency.

하지만, C는 사례 ‘a’가 누락되어 일관적인 띄어쓰기 교정을 못할 가능성이 있다. 이를 미그룹 오류라고 정의한다.However, C may be missing a case 'a', which may prevent consistent spacing correction. This is defined as an ungroup error.

또한 D는 A1과 A2의 두 그룹으로 나뉘어져야 하는데 나뉘어지지 않아 사례수가 많아지거나 혼합된 그룹수가 많을 경우, 수작업으로도 검토가 어려워질 수 있어 이를 오류로 처리한다. 이 경우를 과그룹 오류라고 정의한다.In addition, D should be divided into two groups, A1 and A2. If the number of cases is not divided, or the number of mixed groups is large, it may be difficult to review by hand, which is treated as an error. This case is defined as an overgroup error.

[예 5]Example 5

A1 = {a, b, c}A1 = {a, b, c}

A2 = {d, e}A2 = {d, e}

B = {a, b, c, f}B = {a, b, c, f}

C = {b, c}C = {b, c}

D = {a, b, c, d, e}
D = {a, b, c, d, e}

띄어쓰기 일관성은 한 문서 내에서의 일관성만을 검사하였으며, 각 실험모델의 평가 결과는 하기의 [표 5]와 같다. The spacing consistency was checked only for consistency in one document, and the evaluation results of each experimental model are shown in Table 5 below.


사례case 그룹group
재현율Recall 정확률Accuracy F값F value 재현율Recall 정확률Accuracy F값F value T1T1 95.895.8 70.970.9 81.281.2 92.592.5 68.568.5 78.578.5 TcTc 100.0100.0 67.467.4 80.080.0 99.699.6 67.567.5 80.080.0 TmTm 93.293.2 93.293.2 93.293.2 86.086.0 86.086.0 86.086.0

사례에 대한 평가 결과를 보면 어휘 일치 모델(T1)은 동일어간 음절후보 일치 모델(Tc)보다 재현율은 낮지만, 정확률이 약간 더 높아 F값이 동일어간 음절후보 일치 모델(Tc)보다 약간 높았다. 형태소 일치 모델(Tm)은 재현율은 93.2%로 음절후보 일치 모델에 비해 상대적으로 낮지만, 정확률이 93.2%로 비교적 높아 F값은 93.2%이며, 이는 81.2%와 80.0%를 보인 다른 모델에 비해 현저하게 우수한 것이다. The results of the evaluation of the case showed that the lexical matching model (T1) had a lower reproducibility than the identical syllable candidate model (Tc), but the F value was slightly higher than that of the same syllable candidate model (Tc). The morphological match model (Tm) has a 93.2% recall, which is relatively lower than the syllable candidate model, but its accuracy is 93.2%, which is 93.2%, which is more significant than other models with 81.2% and 80.0%. Would be excellent.

즉, 단순한 음절 정보만을 사용한 어휘 일치 모델, 동일어간 음절후보 일치 모델보다, 형태소 정보를 사용한 형태소 일치 모델이 훨씬 우수함을 알 수 있다. In other words, it can be seen that the morpheme matching model using morpheme information is much better than the lexical matching model using only syllable information and the syllable candidate matching model between identical words.

그룹에 대한 평가 결과도 대체적으로 사례 평가 결과와 유사했지만, 사례 평가와 다르게 동일어간 음절후보 일치 모델의 F값이 어휘 일치 모델의 F값보다 높았다. 이는 어휘 일치 모델이 같은 그룹에 속한 ‘비일관적 띄어쓰기 사례’들을 다른 그룹으로 나누어 넣은 경우가 많아 그룹 재현율이 상대적으로 낮게 나왔기 때문이다. 또, 여기에서 동일어간 음절후보 일치모델의 그룹 재현율이 100%가 아닌 이유는 과그룹 오류가 포함되었기 때문이다. 이는 사실상 수작업을 통해 모든 그룹을 찾을 수는 있음을 나타낸다. The evaluation results of the group were generally similar to the case evaluation results, but unlike the case evaluation, the F value of the same syllable candidate model was higher than that of the lexical agreement model. This is because the group repetition rate is relatively low because the lexical matching model often divides 'inconsistent spacing cases' belonging to the same group into different groups. In addition, the reason why the group reproducibility of the same syllable candidate model is not 100% is that the overgroup error is included. This means that you can actually find all groups by hand.

각 모델은 그 필요에 따라 선택해서 사용할 수 있다. Each model can be selected and used according to its needs.

즉, 동일어간 음절후보 일치 모델은 재현율이 높으므로, 모든 경우의 띄어쓰기 일관성 오류를 검사하고자 할 때 사용자의 시간이 걸리더라도 사용할 수 있다. 반면에 Tm모델은 정확률이 상대적으로 높아, 적은 노력으로 비일관적 띄어쓰기를 수정하고자 할 때 사용할 수 있을 것이다.That is, since the syllable candidate matching model between the same words has a high reproducibility, it can be used even if the user's time is required to check the spacing coherence error in all cases. On the other hand, the Tm model has a relatively high accuracy and can be used to correct inconsistent spacing with little effort.

또한 동일어간 음절후보 일치 모델은 형태소 일치 모델의 전단계로 형태소 분석 대상수를 줄여주는 모델이다. 실제 실험 데이터의 총어절수는 128,245개이었고, 동일어간 음절후보 일치 모델이 비일관성 후보로 제시한 사례수는 3,792개에 불과해 형태소 분석 대상 어절수를 원어절수의 3%로 줄여 주어 형태소 일치 모델이 보다 효율적으로 처리할 수 있었다.
In addition, the syllable candidate matching model between the same words is a model that reduces the number of morphological analysis targets as a previous step of the morpheme matching model. The total number of experimental words in the experimental data was 128,245, and the number of cases of inconsistent candidates suggested by the syllable candidate model was the same as 3,792 cases. It could be processed more efficiently.

5.3. 오류 분석5.3. Error analysis

실험에 사용한 데이터 중 각 분야별로 일부를 뽑아 대략 Tm모델의 오류 유형을 분석해 본 결과, 찾아 내야 할 것을 못 찾아 낸 오류(누락 오류)가 80%, 틀리게 찾아 낸 오류(거짓추출 오류)가 20%정도이었다. After analyzing some of the data types used in the experiment and analyzing the error type of the Tm model, 80% of the errors (missing errors) that could not be found and 20% of the wrong errors (false extraction errors) were found. It was about.

누락 오류는 소설류 등에서 사용한 비표준어인 구어체 등을 형태소 분석기가 분석하지 못해서 추출하는 경우가 누락 오류의 50% 정도이고 그 외는 형태소 분석기 자체의 오류에 의한 것 등이다. Missing errors are about 50% of missing errors extracted by colloquial, which is a non-standard language used in novels, etc., and others are caused by errors in the stemming itself.

거짓추출 오류로는 붙여 쓰면 다른 의미로 바뀌는 경우에 주로 나타났다. 현재 형태소 일치 모델에서는 두 어절이 의미소가 같은지를 검사하기 위해 띄어 쓴 어절을 붙여 쓴 다음 형태소 분석을 하고 비교한다. 예를 들면 ‘나 이 머리 좀 봐’에서 ‘나’와 ‘이’는 각각 대명사와 관형사로 분석될 수 있으나, 둘을 붙이면 명사 ‘나이’로 바뀐다. 따라서 ‘나이가’라는 명사가 포함된 어절과 일치하여 잘못 추출하였다. False extraction errors were mainly caused by pasting into a different meaning. In the current morpheme matching model, two words are added with a spaced word to check whether they are identical, and then morphologically analyzed and compared. For example, in 'Look at my head', 'na' and '이' can be analyzed as pronouns and tubular pronouns, respectively. Therefore, it was extracted incorrectly by matching the word that contained the noun “naiga”.

일반적으로 비일관적인 띄어쓰기는 복수 띄어쓰기 규칙을 허용하는 복합어 및 보조용언에서 나타난다. 하지만, 실제 텍스트에 나타난 비일관적 오류를 보면 띄어쓰기 규칙이 틀린 오류나 명사 뒤에 ‘하다’ 나 ‘되다’ 등이 붙어 동사로 품사전성이 된 경우에 비일관적으로 띄어쓴 경우, ‘그때’, ‘이날’과 같이 준합성어로 붙여써도 되고, 분리하여 띄어 써도 되는 경우 등이 나타나고 있다. In general, inconsistent spacing occurs in compound words and auxiliary words that allow multiple spacing rules. However, if you look at the inconsistency in the actual text, if the spacing rule is incorrect or noun is followed by 'have' or 'become' and becomes a part-prescriptive verb with a verb, then 'then', ' On this day, the case may be added as a quasi-synthetic word or may be used separately.

한편 본 발명의 상세한 설명에서는 구체적인 실시예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 안되며 후술하는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.
While the present invention has been described in connection with what is presently considered to be the most practical and preferred embodiment, it is to be understood that the invention is not limited to the disclosed embodiments, but is capable of various modifications within the scope of the invention. Therefore, the scope of the present invention should not be limited by the illustrated embodiments, but should be determined by the scope of the appended claims and equivalents thereof.

Claims (8)

문서내에 비일관적으로 띄어쓰기된 부분을 검사하는 띄어쓰기 검사 방법에 있어서,
문서내의 빈칸(공백)을 중심으로 좌우 어절의 일정부분을 추출하여 띄어쓴 어절(A형 목표 문자열)을 확인할 수 있도록 탐색키를 구축하는 단계;
상기 구축된 탐색키를 이용하여 부분 문자열 검색에 의해 붙여쓴 어절(B형 목표 문자열)들을 추출하는 단계; 및
상기 탐색키에 대응하여 띄어쓴 어절과 추출된 붙여쓴 어절을 비일관적 띄어쓰기 어절로 표시하는 단계를 포함하되,
상기 추출하는 단계는, 상기 탐색키에 완전히 일치하는 붙여쓴 어절들을 추출하는 어휘일치 모델, 상기 탐색키의 마지막 음절에 대해 동일어간 음절후보도 일치하는 것으로 처리하여 붙여쓴 어절들을 추출하는 동일어간 음절후보 일치 모델 또는 상기 동일어간 음절후보 일치 모델을 통해 검색된 결과를 다시 형태소 분석하여 기본 형태소가 같은 붙여쓴 어절들을 추출하는 형태소 일치 모델 중 어느 하나의 모델을 수행하는 것을 특징으로 하는 띄어쓰기 일관성 검사 방법.
In the spacing method of checking for inconsistent spacing in a document,
Constructing a search key so that a predetermined portion of left and right words is extracted based on a blank space in the document to identify a spaced word (type A target string);
Extracting words (type B target strings) pasted by substring search using the constructed search key; And
Including a spacing word and the extracted pasted word corresponding to the search key as an inconsistent spacing word,
The extracting may include: a lexical coincidence model extracting pasted words that completely match the search key, and extracting pasted words by processing the same syllable candidates for the last syllable of the search key. Spacing consistency check method characterized in that for performing the morphological analysis of the result retrieved through the candidate matching model or the syllable candidate matching model between the same words to extract the pasted words with the same basic morpheme.
제1 항에 있어서, 상기 좌우 어절의 일정부분은,
좌측의 어절과 우측 어절의 첫 글자인 것을 특징으로 하는 띄어쓰기 일관성 검사 방법.
The method of claim 1, wherein the predetermined portion of the left and right words,
Spacing consistency check method characterized in that the first letter of the left word and the right word.
제1 항에 있어서, 상기 붙여쓴 어절이 추출되지 않으면, 비일관적 띄어쓰기의 대상에서 그 탐색키로 찾은 어절들을 제거하는 단계를 더 포함하는 것을 특징으로 하는 띄어쓰기 일관성 검사 방법.
The method of claim 1, further comprising removing the words found by the search key from the subject of the inconsistent spacing if the pasted word is not extracted.
제1 항에 있어서, 상기 동일어간 음절후보 일치 모델은,
탐색키의 마지막 음절과 대상 문자열에서 비교되는 음절이 같은 동일어간 음절후보(어간이지만 활용형으로 나타날 수 있는 음절들)에 속할 경우 문자열이 일치하는 것으로 처리하는 것을 특징으로 하는 띄어쓰기 일관성 검사 방법.
The method of claim 1, wherein the same syllable candidate model
If the last syllable of the search key and the syllable to be compared in the target string belong to the same syllable candidate (syllable but syllables that can appear as utilization), the spacing consistency check method is treated as a match.
제4 항에 있어서, 상기 동일어간 음절후보는,
아래의 표 6과 같이 같은 어간이지만 활용형으로 나타날 수 있는 음절들인 것을 특징으로 하는 띄어쓰기 일관성 검사 방법.
보조용언 동일어간 음절후보 가다, 가지다, 갖다 가, 간, 갈, 감, 갑, 갔, 갖 나다 나, 난, 날, 남, 납, 났 내다 내, 낸, 낼, 냄, 냅, 냈 달다 달, 다, 단, 담, 답 두다 두, 둔, 둘, 둠, 둡, 뒀 들다 들, 든, 드, 듬, 듭 말다 말, 만, 마, 맙 보다 보, 본, 볼, 봄, 봅, 봤 오다 오, 온, 올, 옴, 옵, 왔 주다 주, 준, 줄, 줌, 줍, 줬 하다 하, 한, 할, 함, 합, 했

The method of claim 4, wherein the same syllable candidate
Spacing consistency check method, characterized in that the same stem as shown in Table 6 below, but may appear as a conjugation type.
Auxiliary words Syllable Candidates Go, have, have Go, Live, Go, Persimmon, Gap, Gone It's me Me, I, Me, M, Lead, Woke Pay Mine, embellish, snatch, sniff, synapse, snuggle Sweet Moon, multi, sweet, fence, answer put Two, dull, two, dum, dum, put Hold Guys, whatever, hard, petting, knot roll Say, only, do, thank you see Boy, seen, seen, spring, bob, saw come Oh, come, come, ohm, opt, come give Share, gave, give, zoom, picked up Do Ha, han, do, ha, sum, did

제1 항에 있어서, 상기 형태소 일치 모델은,
활용형태를 고려하여 띄어쓴 어절과 붙여쓴 어절의 형태소 분석 결과에 따라 품사와 어휘수준을 동시에 비교하고, 그 비교결과 형태소가 명사나 동사와 같은 품사일 경우, 어휘까지도 같아야 두 어절이 동일한 것으로 판별하고,
상기 형태소 분석 결과에 따라 상기 명사나 동사 이외의 형태소인 경우, 품사가 같으면 두 어절이 같은 형태소인 것으로 판별하며,
상기 형태소 분석 결과가 여러가지 후보로 나올경우, 그중 어느 하나의 후보와 일치해도 의미소가 같은 어절로 편별하는 것을 특징으로 하는 띄어쓰기 일관성 검사 방법.
The method of claim 1, wherein the morpheme matching model,
In accordance with the results of morphological analysis of the written and pasted words, the parts of speech and the lexical level are compared at the same time, and if the morphemes are the same parts of nouns or verbs, the words must be the same. and,
In the case of morphemes other than the nouns and verbs according to the morphological analysis, if the parts of speech are the same, two words are determined to be the same morpheme.
And if the morphological analysis results in a variety of candidates, even if one of the candidates matches, the semantic is distinguished by the same word.
제1 항에 있어서, 상기 비일관적 띄어쓰기 어절로 표시된 특정 어절의 해당 텍스트 위치로 하이퍼 링크를 연결하여 편집할 수 있도록 서비스하는 단계를 더 포함하는 것을 특징으로 하는 띄어쓰기 일관성 검사 방법.
The method of claim 1, further comprising: providing a hyperlink to edit a text link corresponding to a specific word marked as the inconsistent spacing word.
문서내에 비일관적으로 띄어쓰기된 부분을 검사하는 컴퓨터에,
문서내의 빈칸(공백)을 중심으로 좌우 어절의 일정부분을 추출하여 띄어쓴 어절(A형 목표 문자열)을 확인할 수 있도록 탐색키를 구축하는 단계;
상기 구축된 탐색키를 이용하여 부분 문자열 검색에 의해 붙여쓴 어절(B형 목표 문자열)들을 추출하는 단계; 및
상기 탐색키에 대응하여 띄어쓴 어절과 추출된 붙여쓴 어절을 비일관적 띄어쓰기 어절로 표시하는 단계를 포함하되,
상기 추출하는 단계는, 상기 탐색키에 완전히 일치하는 붙여쓴 어절들을 추출하는 어휘일치 모델, 상기 탐색키의 마지막 음절에 대해 동일어간 음절후보도 일치하는 것으로 처리하여 붙여쓴 어절들을 추출하는 동일어간 음절후보 일치 모델 또는 상기 동일어간 음절후보 일치 모델을 통해 검색된 결과를 다시 형태소 분석하여 기본 형태소가 같은 붙여쓴 어절들을 추출하는 형태소 일치 모델 중 어느 하나의 모델을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
On computers that check for inconsistent spaces in documents,
Constructing a search key so that a predetermined portion of left and right words is extracted based on a blank space in the document to identify a spaced word (type A target string);
Extracting words (type B target strings) pasted by substring search using the constructed search key; And
Including a spacing word and the extracted pasted word corresponding to the search key as an inconsistent spacing word,
The extracting may include: a lexical coincidence model extracting pasted words that completely match the search key, and extracting pasted words by processing the same syllable candidates for the last syllable of the search key. A computer-readable program that records a program for executing one of the morphological matching models extracting pasted words having the same basic morpheme by morphologically analyzing the results searched through the candidate matching model or the syllable candidate matching model between the same words. Record carrier.
KR1020100077309A 2010-08-11 2010-08-11 Checking meth0d for consistent word spacing KR101158331B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100077309A KR101158331B1 (en) 2010-08-11 2010-08-11 Checking meth0d for consistent word spacing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100077309A KR101158331B1 (en) 2010-08-11 2010-08-11 Checking meth0d for consistent word spacing

Publications (2)

Publication Number Publication Date
KR20120015071A KR20120015071A (en) 2012-02-21
KR101158331B1 true KR101158331B1 (en) 2012-07-03

Family

ID=45837923

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100077309A KR101158331B1 (en) 2010-08-11 2010-08-11 Checking meth0d for consistent word spacing

Country Status (1)

Country Link
KR (1) KR101158331B1 (en)

Also Published As

Publication number Publication date
KR20120015071A (en) 2012-02-21

Similar Documents

Publication Publication Date Title
Derczynski et al. Microblog-genre noise and impact on semantic annotation accuracy
JP5362353B2 (en) Handle collocation errors in documents
US20160155058A1 (en) Non-factoid question-answering system and method
CN109460552B (en) Method and equipment for automatically detecting Chinese language diseases based on rules and corpus
KR101500617B1 (en) Method and system for Context-sensitive Spelling Correction Rules using Korean WordNet
US10606903B2 (en) Multi-dimensional query based extraction of polarity-aware content
US20110040553A1 (en) Natural language processing
Mosavi Miangah FarsiSpell: A spell-checking system for Persian using a large monolingual corpus
Khairova et al. The Aligned Kazakh-Russian Parallel Corpus Focused on the Criminal Theme.
Garg et al. Maulik: A plagiarism detection tool for hindi documents
Arslan DeASCIIfication approach to handle diacritics in Turkish information retrieval
De Wilde et al. Semantic enrichment of a multilingual archive with linked open data
Graën Exploiting alignment in multiparallel corpora for applications in linguistics and language learning
Baron Dealing with spelling variation in Early Modern English texts
JP2014219872A (en) Utterance selecting device, method and program, and dialog device and method
Duran et al. Some issues on the normalization of a corpus of products reviews in Portuguese
Nagy et al. Noun compound and named entity recognition and their usability in keyphrase extraction
KR101052004B1 (en) Translation service provision method and system
Kulick Simultaneous tokenization and part-of-speech tagging for Arabic without a morphological analyzer
Grønvik et al. What should the electronic dictionary do for you–and how?
KR101158331B1 (en) Checking meth0d for consistent word spacing
Luong et al. Word graph-based multi-sentence compression: Re-ranking candidates using frequent words
Biswas et al. Development of a Bangla sense annotated corpus for word sense disambiguation
Volk The automatic resolution of prepositional phrase attachment ambiguities in German
Rajalingam A rule based iterative affix stripping stemming algorithm for Tamil

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150615

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160613

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee