KR102171373B1 - Apparatus for korean morphemic analysis and method for the same - Google Patents

Apparatus for korean morphemic analysis and method for the same Download PDF

Info

Publication number
KR102171373B1
KR102171373B1 KR1020180173254A KR20180173254A KR102171373B1 KR 102171373 B1 KR102171373 B1 KR 102171373B1 KR 1020180173254 A KR1020180173254 A KR 1020180173254A KR 20180173254 A KR20180173254 A KR 20180173254A KR 102171373 B1 KR102171373 B1 KR 102171373B1
Authority
KR
South Korea
Prior art keywords
speech
determination function
morpheme
database
analysis
Prior art date
Application number
KR1020180173254A
Other languages
Korean (ko)
Other versions
KR20200082559A (en
Inventor
권오병
최석재
Original Assignee
경희대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경희대학교 산학협력단 filed Critical 경희대학교 산학협력단
Priority to KR1020180173254A priority Critical patent/KR102171373B1/en
Publication of KR20200082559A publication Critical patent/KR20200082559A/en
Application granted granted Critical
Publication of KR102171373B1 publication Critical patent/KR102171373B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

한글 형태소 분석 장치 및 방법에 관한 것으로, 한글 형태소 분석 장치는, 형태소 분석 데이터베이스 및 상기 형태소 분석 데이터베이스를 기반으로 분석 대상 어절이 동음이품사인지 여부를 판단하고, 상기 분석 대상 어절이 동음이품사인 경우, 복수 품사 판정 함수를 기반으로 상기 분석 대상 어절에 대응하는 적어도 하나의 품사를 결정하는 프로세서를 포함할 수 있다.It relates to a Hangul morpheme analysis apparatus and method, wherein the Hangul morpheme analysis apparatus determines whether or not a word to be analyzed is a homophonic participant based on a morpheme analysis database and the morpheme analysis database, and when the analysis target word is a homophone And a processor that determines at least one part-of-speech corresponding to the word to be analyzed based on the multiple part-of-speech determination function.

Description

한글 형태소 분석 장치 및 방법{APPARATUS FOR KOREAN MORPHEMIC ANALYSIS AND METHOD FOR THE SAME}Hangul morpheme analysis apparatus and method {APPARATUS FOR KOREAN MORPHEMIC ANALYSIS AND METHOD FOR THE SAME}

한글 형태소 분석 장치 및 방법에 관한 것이다.It relates to a Hangul morpheme analysis apparatus and method.

텍스트 분석은, 다양한 분야에서 이용되고 있다. 텍스트 분석은 각종 텍스트(예를 들어, 문학 작품, 소셜 네트워크 서비스 등의 게시물, 기사, 답글, 후기 및/또는 상품 평 등)의 내용을 분석하고, 이를 기반으로 텍스트 자체로부터 가치 있는 정보를 추출하거나 통계적 처리를 수행하여 통계적 분석 결과를 획득하는 것을 의미한다. 예를 들어, 기업 또는 공공기관에서는 소비자나 국민의 인식이나 여론 등을 인터넷 상에서 작성된 문장들을 통해 확인하기 위해 텍스트 분석을 이용하고 있다. 이에 다라 텍스트 분석을 전문적으로 하는 사이트가 생겨나고 있고, 각 기업이나 공공기관의 사이트 내에도 텍스트 분석의 결과를 포함하려는 시도가 늘고 있다.Text analysis is used in various fields. Text analysis analyzes the contents of various texts (e.g., posts, articles, replies, reviews and/or product evaluations such as literary works, social network services, etc.), and extracts valuable information from the text itself based on this It means performing statistical processing to obtain statistical analysis results. For example, companies or public institutions use text analysis to check consumer or public perceptions or public opinion through sentences written on the Internet. As a result, sites specializing in text analysis are emerging, and attempts to include the results of text analysis in the sites of each company or public institution are increasing.

이와 같은 텍스트 분석의 핵심은 형태소 분석의 성능에 달려 있다. 형태소 분석 결과에 따라서 텍스트의 의미가 상이하게 될 수 있기 때문이다. 다시 말해서, 형태소 분석이 적절하게 수행되지 않는 경우, 원래의 의도와는 상이한 다른 의도의 문장으로 해석될 수도 있기 때문에, 분석의 정확성 및 일관성이 저하될 수 있다. The key to text analysis like this depends on the performance of morpheme analysis. This is because the meaning of the text may be different depending on the result of morpheme analysis. In other words, if the morpheme analysis is not properly performed, since it may be interpreted as a sentence with different intentions from the original intention, accuracy and consistency of the analysis may deteriorate.

한국어는 형태소 분석이 매우 어려운 언어에 속한다. 이는 교착어의 특성에서 기인한다. 교착어는 실질 형태소에 형식 형태소가 부가된 언어로, 두 개 이상의 형태소가 하나의 음절에 융합되기 때문에 형태소 분리의 난이도가 높고, 또한 실질 형태소와 형식 형태소의 의미 영역이 상이하기 ?문에 형태는 동일하나 그 의미는 상이한 동음이의어가 빈번히 발생하는 문제점이 존재한다. 특히, 동음이의어 중에서 그 외형적 형태는 동일하나 품사가 상이한 동음이품사는, 형태소 분석의 어려움을 더욱 증가시켜 형태소 분석 프로그램의 성능을 저하시키는 주요 원인이 되고 있다. 그러므로, 이와 같은 문장 내의 동음이품사의 효과적인 추출 및 처리는, 형태소 분석 및 전체 문장 분석의 정확성을 높이기 위해 필수적으로 요구될 수밖에 없다.Korean is one of the languages that morpheme analysis is very difficult. This is due to the nature of the agglutinating language. Agglutination is a language in which formal morphemes are added to real morphemes. Since two or more morphemes are fused into one syllable, the difficulty of separating morphemes is high, and the meaning domains of real morphemes and formal morphemes are different? However, there is a problem that different homophones frequently occur. In particular, among homophones, homophones having the same external form but different parts of speech are a major cause of deteriorating the performance of the morpheme analysis program by further increasing the difficulty of morpheme analysis. Therefore, effective extraction and processing of homophones in sentences such as this is inevitably required to increase the accuracy of morpheme analysis and overall sentence analysis.

동음이품사에 해당하는 단어나 형태소의 품사를 효율적으로 적절하게 결정함으로써, 텍스트를 보다 정확하게 분석하여 텍스트에 대한 분석 성능의 향상을 도모할 수 있는 한글 형태소 분석 장치 및 방법을 제공하는 것을 해결하고자 하는 과제로 한다.By efficiently and appropriately determining the part of speech of a word or morpheme corresponding to a homoemic part of speech, it is intended to solve the problem of providing a Hangul morpheme analysis device and method that can improve the analysis performance of the text by analyzing the text more accurately. Make it an assignment.

상술한 과제를 해결하기 위하여 한글 형태소 분석 장치, 시스템 및 방법이 제공된다.In order to solve the above-described problems, a Hangul morpheme analysis apparatus, system, and method are provided.

한글 형태소 분석 장치는, 형태소 분석 데이터베이스 및 상기 형태소 분석 데이터베이스를 기반으로 분석 대상 어절이 동음이품사인지 여부를 판단하고, 상기 분석 대상 어절이 동음이품사인 경우, 단일 판정 함수 및 복수 품사 판정 함수 중 어느 하나를 기반으로 상기 분석 대상 어절에 대응하는 적어도 하나의 품사를 결정하는 프로세서를 포함할 수 있다.Based on the morpheme analysis database and the morpheme analysis database, the Hangul morpheme analysis apparatus determines whether or not a word to be analyzed is a homophonetic part of speech, and when the word to be analyzed is a homophonic part-of-speech, among a single judgment function and a multiple part of speech judgment function It may include a processor that determines at least one part-of-speech corresponding to the word to be analyzed based on any one.

상기 프로세서는, 상기 분석 대상 어절이 동음이품사가 아니라고 판단되면, 상기 분석 대상 어절에 대한 일반적인 형태소 분석을 수행할 수 있다.When it is determined that the analysis target word is not a homophonic part of the word, the processor may perform a general morpheme analysis of the analysis target word.

상기 형태소 분석 데이터베이스는, 복수 품사로 활용될 수 있는 적어도 하나의 어근으로 구축된 복수 품사 어근 데이터베이스 및 복수 품사로 활용될 수 있는 적어도 하나의 어미로 구축된 복수 품사 어미 데이터베이스를 포함할 수 있다.The morpheme analysis database may include a multi-part-of-speech root database constructed with at least one root that can be used as a plurality of parts of speech, and a multi-part-of-speech ending database constructed with at least one ending that can be used as a plurality of parts of speech.

상기 프로세서는, 상기 분석 대상 어절 내에서 추출된 어느 하나의 형태소가 상기 복수 품사 어근 데이터베이스에 존재하고, 다른 하나의 형태소가 상기 복수 품사 어미 데이터베이스에 존재하면, 단일 품사 판정 함수를 기반으로 상기 분석 대상 어절의 적어도 하나의 형태소의 품사를 판단할 수 있다.The processor, if any one morpheme extracted from the analysis target word exists in the plural part-of-speech root database, and the other morpheme exists in the multiple part-of-speech mother database, the analysis target is based on a single part-of-speech determination function. Part of speech of at least one morpheme of a word can be determined.

상기 단일 품사 판정 함수는, 일반 명사 판정 함수, 고유 명사 판정 함수, 의존 명사 판정 함수, 수사 판정 함수, 일반 동사 판정 함수, 형용사 판정 함수, 보조 동사 판정 함수 및 어근 판정 함수 중 적어도 하나를 포함할 수 있다.The single part of speech determination function may include at least one of a general noun determination function, a proper noun determination function, a dependent noun determination function, a rhetorical determination function, a general verb determination function, an adjective determination function, an auxiliary verb determination function, and a root determination function. have.

상기 형태소 분석 데이터베이스는, 동음이품사에 대한 적어도 하나의 유형을 포함하는 동음이품사 유형 데이터베이스를 더 포함할 수도 있다.The morpheme analysis database may further include a homophone type database including at least one type of a homogeneous product.

상기 프로세서는, 상기 분석 대상 어절 내에서 추출된 적어도 하나의 형태소가 복수 품사 어근 데이터베이스 및 복수 품사 어미 데이터베이스에 존재하지 않는 경우, 상기 동음이품사 유형 데이터베이스를 열람할 수 있다.When the at least one morpheme extracted from the analysis target word does not exist in the multi-part-of-speech root database and the multi-part-of-speech ending database, the processor may browse the homoeum non-part of speech type database.

상기 프로세서는, 상기 적어도 하나의 형태소가 상기 동음이품사 유형 데이터베이스의 열람 결과를 기반으로, 상기 복수 품사 판정 함수를 기반으로 상기 적어도 하나의 형태소의 품사를 판단할 수 있다.The processor may determine the part-of-speech of the at least one morpheme based on the multi-part-of-speech determination function based on a result of the at least one morpheme reading the homophoneic part-of-speech type database.

상기 복수 품사 판정 함수는, 서로 상이한 단일 품사 판정 함수를 적어도 둘 이상 조합하여 획득된 것일 수 있다.The multiple part-of-speech determination function may be obtained by combining at least two or more different single part-of-speech determination functions.

상기 서로 상이한 품사 판정 함수는, 동사 판정 함수, 명사 판정 함수 및 어근 판정 함수 중 적어도 둘을 포함할 수 있다.The different parts of speech determination functions may include at least two of a verb determination function, a noun determination function, and a root determination function.

한글 형태소 분석 방법은, 문장이 입력되는 단계, 문장으로부터 어절을 분리하는 단계, 분석 대상 어절이 동음이품사인지 여부를 형태소 분석 데이터베이스를 기반으로 판단하는 단계 및 상기 분석 대상 어절이 동음이품사이면, 단일 판정 함수 및 복수 품사 판정 함수 중 어느 하나를 기반으로 상기 분석 대상 어절에 대응하는 적어도 하나의 품사를 결정하는 단계를 포함할 수 있다.The Hangul morpheme analysis method includes a step of inputting a sentence, separating a word from the sentence, determining whether or not the word to be analyzed is a homophone, based on a morpheme analysis database, and if the word to be analyzed is a homophone, It may include the step of determining at least one part-of-speech corresponding to the word to be analyzed based on any one of a single determination function and a plurality of parts of speech determination functions.

한글 형태소 분석 방법은, 상기 분석 대상 어절이 동음이품사가 아니라고 판단되면, 상기 분석 대상 어절에 대한 일반적인 형태소 분석을 수행하는 단계를 더 포함할 수 있다.The Hangul morpheme analysis method may further include performing a general morpheme analysis on the analyzed word when it is determined that the analysis target word is not a homophonetic binary part of speech.

상기 형태소 분석 데이터베이스는, 복수 품사로 활용될 수 있는 적어도 하나의 어근으로 구축된 복수 품사 어근 데이터베이스 및 복수 품사로 활용될 수 있는 적어도 하나의 어미로 구축된 복수 품사 어미 데이터베이스를 포함할 수 있다.The morpheme analysis database may include a multi-part-of-speech root database constructed with at least one root that can be used as a plurality of parts of speech, and a multi-part-of-speech ending database constructed with at least one ending that can be used as a plurality of parts of speech.

상기 분석 대상 어절이 동음이품사이면, 단일 판정 함수 및 복수 품사 판정 함수 중 어느 하나를 기반으로 상기 분석 대상 어절에 대응하는 적어도 하나의 품사를 결정하는 단계는, 상기 분석 대상 어절 내에서 추출된 어느 하나의 형태소가 상기 복수 품사 어근 데이터베이스에 존재하고, 다른 하나의 형태소가 상기 복수 품사 어미 데이터베이스에 존재하면, 단일 품사 판정 함수를 기반으로 상기 분석 대상 어절의 적어도 하나의 형태소의 품사를 판단하는 단계를 포함할 수 있다.If the analysis target word is a homophonetic part of speech, determining at least one part of speech corresponding to the analysis target word based on any one of a single determination function and a plurality of parts of speech determination function includes: If one morpheme exists in the plural part-of-speech root database and the other morpheme exists in the plural part-of-speech mother database, determining the part-of-speech of at least one morpheme of the word to be analyzed based on a single part of speech determination function Can include.

상기 단일 품사 판정 함수는, 일반 명사 판정 함수, 고유 명사 판정 함수, 의존 명사 판정 함수, 수사 판정 함수, 일반 동사 판정 함수, 형용사 판정 함수, 보조 동사 판정 함수 및 어근 판정 함수 중 적어도 하나를 포함할 수 있다.The single part of speech determination function may include at least one of a general noun determination function, a proper noun determination function, a dependent noun determination function, a rhetorical determination function, a general verb determination function, an adjective determination function, an auxiliary verb determination function, and a root determination function. have.

상기 형태소 분석 데이터베이스는, 동음이품사에 대한 적어도 하나의 유형을 포함하는 동음이품사 유형 데이터베이스를 더 포함할 수 있다.The morpheme analysis database may further include a homophone type database including at least one type of a homophone type database.

상기 분석 대상 어절이 동음이품사이면, 단일 판정 함수 및 복수 품사 판정 함수 중 어느 하나를 기반으로 상기 분석 대상 어절에 대응하는 적어도 하나의 품사를 결정하는 단계는, 상기 분석 대상 어절 내에서 추출된 적어도 하나의 형태소가 복수 품사 어근 데이터베이스 및 복수 품사 어미 데이터베이스에 존재하지 않는 경우, 상기 동음이품사 유형 데이터베이스를 열람하는 단계를 포함할 수 있다.If the analysis target word is a homophonetic part of speech, determining at least one part of speech corresponding to the analysis target word based on any one of a single determination function and a plurality of parts of speech determination function includes at least one extracted from the analysis target word. If one morpheme does not exist in the plural part-of-speech root database and the plural part-of-speech ending database, the step of reading the homoemic part-of-speech type database may be included.

상기 분석 대상 어절이 동음이품사이면, 단일 판정 함수 및 복수 품사 판정 함수 중 어느 하나를 기반으로 상기 분석 대상 어절에 대응하는 적어도 하나의 품사를 결정하는 단계는, 상기 적어도 하나의 형태소가 상기 동음이품사 유형 데이터베이스의 열람 결과를 기반으로 상기 복수 품사 판정 함수를 기반으로 상기 적어도 하나의 형태소의 품사를 판단하는 단계를 더 포함할 수 있다.If the analysis target word is a homophonic part of speech, determining at least one part of speech corresponding to the analysis target word based on any one of a single determination function and a plurality of parts of speech determination function, wherein the at least one morpheme is the homophone The method may further include determining a part-of-speech of the at least one morpheme based on the multiple part-of-speech determination function based on a result of reading the part-of-speech type database.

상기 복수 품사 판정 함수는, 서로 상이한 단일 품사 판정 함수를 적어도 둘 이상 조합하여 획득된 것일 수 있다.The multiple part-of-speech determination function may be obtained by combining at least two or more different single part-of-speech determination functions.

상기 서로 상이한 품사 판정 함수는, 동사 판정 함수, 명사 판정 함수 및 어근 판정 함수 중 적어도 둘을 포함할 수 있다. The different parts of speech determination functions may include at least two of a verb determination function, a noun determination function, and a root determination function.

한글 형태소 분석 시스템은, 분석 대상 어절을 포함하는 문장이 입력되는 단말 장치 및 상기 문장을 수신하고, 상기 문장으로부터 상기 분석 대상 어절을 획득하고, 형태소 분석 데이터베이스를 기반으로 상기 분석 대상 어절이 동음이품사인지 여부를 판단하고, 상기 분석 대상 어절이 동음이품사인 경우, 단일 판정 함수 및 복수 품사 판정 함수 중 어느 하나를 기반으로 상기 분석 대상 어절에 대응하는 적어도 하나의 품사를 결정하는 한글 형태소 분석 장치를 포함할 수 있다.The Hangul morpheme analysis system includes a terminal device into which a sentence including an analysis target word is input and the sentence is received, the analysis target word is obtained from the sentence, and the analysis target word is homophoneized based on the morpheme analysis database. A Hangul morpheme analysis device that determines whether or not, and determines at least one part-of-speech corresponding to the word to be analyzed based on any one of a single decision function and a multiple part-of-speech decision function when the analysis target word is a homophonetic part of speech. Can include.

상술한 한글 형태소 분석 장치 및 방법에 의하면, 동음이품사에 해당하는 단어나 형태소의 품사를 간단하고 효율적이면서도 적절하게 결정할 수 있게 되고, 이에 따라 문자나 음성 등의 형태의 전체 텍스트를 보다 정확하게 분석할 수 있게 되어, 텍스트에 대한 분석 성능의 향상을 도모할 수 있게 된다.According to the above-described Hangul morpheme analysis apparatus and method, it is possible to simply, efficiently and appropriately determine the part-of-speech of a word or morpheme corresponding to a homophonetic part of speech, and accordingly, the entire text in the form of letters or voices can be more accurately analyzed. As a result, it is possible to improve the analysis performance for text.

상술한 한글 형태소 분석 장치 및 방법에 의하면, 형태소 분석이 매우 어려운 교착어(일례로 한국어)의 텍스트를 분석함에 있어서, 그의 형태소 분석을 보다 정확하고 용이하게 수행할 수 있게 되는 효과도 얻을 수 있다.According to the above-described Hangul morpheme analysis apparatus and method, it is possible to obtain an effect of more accurately and easily performing the morpheme analysis of the text of an awkward language (for example, Korean) that is very difficult to analyze the morpheme.

상술한 한글 형태소 분석 장치 및 방법은, 기사, 게시물, 댓글, 후기 및/또는 상품 평 등의 분석 시, 각 분야의 한글 말뭉치의 도구로 이용될 수 있거나, 및/또는 공공 기관이나 기업 등이 여론 조사나 평가 등을 수행하는 경우에 있어서 텍스트 분석의 핵심 알고리즘으로 이용될 수도 있는 등 다양한 텍스트 분석 시스템이나 프로그램에 적용 가능한 장점도 존재한다.The above-described Hangul morpheme analysis apparatus and method can be used as a tool for the Hangul corpus in each field when analyzing articles, posts, comments, reviews and/or product evaluation, and/or public institutions or companies There is also an advantage that can be applied to various text analysis systems or programs, such as being able to be used as a core algorithm for text analysis in the case of conducting research or evaluation.

도 1은 한글 형태소 분석 시스템의 일 실시예에 대한 도면이다.
도 2는 한글 형태소 분석 장치의 일 실시예에 대한 블록도이다.
도 3은 동음이품사 처리부의 일 실시예에 대한 블록도이다.
도 4는 단일 품사 판정 함수의 일례에 대한 프로그램 코드를 도시한 도면이다.
도 5는 한글 형태소 분석을 설명하기 위한 도표이다.
도 6은 복수 품사 판정 함수의 어느 하나의 일례에 대한 프로그램 코드를 도시한 도면이다.
도 7은 단일 품사 판정 함수의 연결의 일례를 설명하기 위한 도면이다.
도 8은 단일 품사 판정 함수의 연결의 일례에 대응하는 프로그램 코드를 도시한 도면이다.
도 9는 복수 품사 판정 함수의 일례를 설명하기 위한 도면이다.
도 10은 복수 품사 판정 함수의 일례에 대응하는 프로그램 코드를 도시한 도면이다.
도 11은 동사-일반 명사 함수의 일례에 대한 프로그램 코드를 도시한 도면이다.
도 12는 한글 형태소 분석 방법의 일 실시예에 대한 흐름도이다.
1 is a diagram of an embodiment of a Hangul morpheme analysis system.
2 is a block diagram of an apparatus for analyzing a Hangul morpheme according to an embodiment.
3 is a block diagram of an embodiment of a Dongeum Ipposa processing unit.
4 is a diagram showing a program code for an example of a single part of speech determination function.
5 is a diagram for explaining Hangul morpheme analysis.
6 is a diagram showing a program code for an example of a plurality of parts of speech determination function.
7 is a diagram for explaining an example of connection of a single part of speech determination function.
8 is a diagram illustrating a program code corresponding to an example of connection of a single part of speech determination function.
9 is a diagram for explaining an example of a multiple part of speech determination function.
10 is a diagram showing a program code corresponding to an example of a multiple part of speech determination function.
11 is a diagram showing a program code for an example of a verb-general noun function.
12 is a flowchart of an embodiment of a method for analyzing Korean morphemes.

이하 명세서 전체에서 동일 참조 부호는 특별한 사정이 없는 한 동일 구성요소를 지칭한다. 이하에서 사용되는 '부'가 부가된 용어는, 소프트웨어 또는 하드웨어로 구현될 수 있으며, 실시예에 따라 '부'가 하나의 부품으로 구현되거나, 하나의 '부'가 복수의 부품들로 구현되는 것도 가능하다.In the following specification, the same reference numerals refer to the same elements unless otherwise specified. The term "unit" used below may be implemented as software or hardware, and according to an embodiment, the term "unit" is implemented as one part, or one "unit" is implemented as a plurality of parts. It is also possible.

명세서 전체에서 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 어떤 부분과 다른 부분에 따라서 물리적 연결을 의미할 수도 있고, 또는 전기적으로 연결된 것을 의미할 수도 있다. 또한, 어떤 부분이 다른 부분을 포함한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 부분 이외의 또 다른 부분을 제외하는 것이 아니며, 설계자의 선택에 따라서 또 다른 부분을 더 포함할 수 있음을 의미한다.When a part is said to be connected to another part throughout the specification, it may mean a physical connection depending on the part and another part, or may mean electrically connected. In addition, when a part includes another part, this does not exclude another part other than the other part unless otherwise stated, and it means that another part may be included further according to the designer's choice. do.

제 1 이나 제 2 등의 용어는 하나의 부분을 다른 부분으로부터 구별하기 위해 사용되는 것으로, 특별한 기재가 없는 이상 이들이 순차적인 표현을 의미하는 것은 아니다. 또한, 단수의 표현은 문맥상 명백하게 예외가 있지 않는 한, 복수의 표현을 포함할 수 있다.Terms such as first and second are used to distinguish one part from another, and unless otherwise specified, they do not mean sequential expressions. In addition, expressions in the singular may include plural expressions unless there is a clear exception in context.

이하 도 1 내지 도 12를 참조하여, 한글 형태소 분석 장치 및 이를 포함하는 한글 형태소 분석 시스템의 일 실시예에 대해서 설명하도록 한다.Hereinafter, an embodiment of a Hangul morpheme analysis apparatus and a Hangul morpheme analysis system including the same will be described with reference to FIGS. 1 to 12.

도 1은 한글 형태소 분석 시스템의 일 실시예에 대한 도면이다.1 is a diagram of an embodiment of a Hangul morpheme analysis system.

도 1에 도시된 바를 참조하면, 한글 형태소 분석 시스템(1)은, 일 실시예에 있어서, 한글 형태소 분석 장치(100)를 포함할 수 있다. 한글 형태소 분석 장치(100)는, 사용자 또는 다른 컴퓨팅 장치(예를 들어, 단말 장치(20)나 다른 서버 장치 등)로부터 입력되는 문장으로부터 한글 형태소 분석을 수행할 수 있도록 마련된다.Referring to FIG. 1, the Hangul morpheme analysis system 1 may include a Hangul morpheme analysis apparatus 100 according to an exemplary embodiment. The Hangul morpheme analysis apparatus 100 is provided to perform a Hangul morpheme analysis from a sentence input from a user or another computing device (eg, the terminal device 20 or another server device).

한글 형태소 분석 장치(100)는, 하나의 컴퓨팅 장치(예를 들어, 서버 장치)를 기반으로 구현될 수도 있고, 또는 둘 이상의 컴퓨팅 장치를 이용하여 구현될 수도 있다. 둘 이상의 컴퓨팅 장치를 이용하는 경우, 둘 이상의 컴퓨팅 장치는 직접적으로 또는 외부의 네트워크(9)를 통하여 상호 통신 가능하게 연결되어 있을 수 있다. 또한, 둘 이상의 컴퓨팅 장치를 이용하는 경우, 실시예에 따라서, 적어도 하나의 컴퓨팅 장치(들)는, 형태소 분석 데이터베이스(도 2의 111)를 저장하고, 다른 적어도 하나의 컴퓨팅 장치(들)는 프로세서(도 2의 130)의 동작을 수행하도록 설계되는 것도 가능하다.The Hangul morpheme analysis apparatus 100 may be implemented based on one computing device (eg, a server device), or may be implemented using two or more computing devices. In the case of using two or more computing devices, the two or more computing devices may be connected to each other to be communicatively connected directly or through an external network 9. In addition, when using two or more computing devices, according to an embodiment, at least one computing device(s) stores a morpheme analysis database (111 in FIG. 2), and the other at least one computing device(s) is a processor ( It is also possible to be designed to perform the operation 130 of FIG.

한글 형태소 분석 장치(100)는, 네트워크(9)에 접속하여 텍스트 또는 음성 형태의 적어도 하나의 문장(상황에 따라서 복수의 단어로 구성될 수도 있고, 또는 하나의 단어로만 구성될 수도 있다. 이하 동일하다)을 수신할 수도 있고, 또는 사용자로부터 직접 텍스트 또는 음성 형태의 적어도 하나의 문장을 입력 받을 수도 있다.The Korean morpheme analysis apparatus 100 connects to the network 9 and connects to at least one sentence in the form of text or voice (may be composed of a plurality of words or may be composed of only one word depending on the situation. Hada), or at least one sentence in the form of text or voice may be directly input from the user.

실시예에 따라서, 한글 형태소 분석 시스템(1)은, 적어도 하나의 단말 장치(10)를 더 포함할 수도 있다. 적어도 하나의 단말 장치(10)는, 예를 들어, 텍스트나 음성 형태의 문장을 입력 받거나 및/또는 한글 형태소 분석 결과를 수신하고 이를 외부로 출력할 수도 있다.According to an embodiment, the Hangul morpheme analysis system 1 may further include at least one terminal device 10. The at least one terminal device 10 may receive, for example, a sentence in text or voice form and/or a result of analyzing a Hangul morpheme and output it to the outside.

단말 장치(10)는, 유선 통신 네트워크, 무선 통신 네트워크 또는 이들의 조합을 기반으로 한글 형태소 분석 장치(100)와, 상호 통신을 수행할 수 있다. 여기서, 유선 통신 네트워크는, 케이블을 이용하여 구축 가능하며, 케이블은, 예를 들어, 페어 케이블, 동축 케이블, 광섬유 케이블 또는 이더넷 케이블 등을 이용하여 구현된 것일 수 있다. 무선 통신 네트워크는 근거리 통신 네트워크 및 원거리 통신 네트워크 중 적어도 하나를 이용하여 구현된 것일 수 있다. 근거리 통신 네트워크는, 예를 들어, 와이 파이(Wi-Fi), 와이파이 다이렉트(Wi-Fi Direct), 지그비(zigbee), 블루투스(Bluetooth), 저전력 블루투스(Bluetooth Low Energy), 캔(CAN) 통신 및/또는 엔에프씨(NFC, Near Field Communication) 등을 이용하여 구현된 것일 수 있다. 원거리 통신 네트워크는, 유선 통신 네트워크예를 들어, 3GPP, 3GPP2 또는 와이맥스 계열 등의 이동 통신 표준을 기반으로 구현된 것일 수 있다.The terminal device 10 may perform mutual communication with the Korean morpheme analysis apparatus 100 based on a wired communication network, a wireless communication network, or a combination thereof. Here, the wired communication network may be constructed using a cable, and the cable may be implemented using, for example, a pair cable, a coaxial cable, an optical fiber cable or an Ethernet cable. The wireless communication network may be implemented using at least one of a short-range communication network and a long-distance communication network. The short-range communication network is, for example, Wi-Fi, Wi-Fi Direct, zigbee, Bluetooth, Bluetooth Low Energy, CAN communication, and / Or it may be implemented using NFC (Near Field Communication). The telecommunication network may be implemented based on a mobile communication standard such as a wired communication network, for example, 3GPP, 3GPP2, or WiMAX series.

단말 장치(10)는 셀룰러 폰, 스마트 폰, 태블릿 피씨, 데스크톱 컴퓨터, 랩톱 컴퓨터, 스마트 시계, 두부 장착형 디스플레이(HMD, Head Mounted Display) 장치, 디지털 텔레비전, 셋톱 박스, 내비게이션 장치, 휴대용 게임기, 개인용 디지털 보조기(PDA, Personal Digital Assistant), 전자 칠판, 전자 광고판 및/또는 음향 재생 장치 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.The terminal device 10 includes a cellular phone, a smart phone, a tablet PC, a desktop computer, a laptop computer, a smart watch, a head mounted display (HMD) device, a digital television, a set-top box, a navigation device, a portable game machine, a personal digital device. It may include a personal digital assistant (PDA), an electronic blackboard, an electronic billboard, and/or a sound reproduction device, but is not limited thereto.

이하 한글 형태소 분석 장치(100)에 대해 보다 상세히 설명한다.Hereinafter, the Hangul morpheme analysis apparatus 100 will be described in more detail.

도 2는 한글 형태소 분석 장치의 일 실시예에 대한 블록도이다.2 is a block diagram of an apparatus for analyzing a Hangul morpheme according to an embodiment.

도 2에 도시된 바를 참조하면, 한글 형태소 분석 장치(100)는, 일 실시예에 의하면, 저장부(110) 및 프로세서(130)를 포함할 수 있으며, 실시예에 따라서 입출력부(101)나 통신부(109)를 더 포함할 수도 있다.Referring to FIG. 2, the Korean morpheme analysis apparatus 100 may include a storage unit 110 and a processor 130, according to an embodiment, and the input/output unit 101 or It may further include a communication unit 109.

입출력부(101)는 외부로부터 문장 등이나 각종 데이터를 입력 받거나 및/또는 출력할 수 있도록 마련된다. 입출력부(101)는 입력부(102) 및 출력부(103) 중 적어도 하나를 포함 가능하다. 입력부(102)는, 사용자 등으로부터 문장 등을 입력받을 수 있도록 마련되며, 예를 들어, 키보드, 키패드, 터치스크린, 터치패드, 트랙볼, 트랙패드, 마우스 장치, 마이크로 폰, 스타일러스 팬, 데이터 입력 단자 및/또는 동작 감지 센서 등을 포함할 수 있다. 출력부(103)는 사용자에게 한글 형태소의 분석 결과를 시각적 및/또는 청각적으로 제공 가능하도록 마련된다. 출력부(103)는, 예를 들어, 디스플레이 패널, 조명 장치, 데이터 출력 단자 및/또는 스피커 장치 등을 포함할 수 있다.The input/output unit 101 is provided to receive and/or output a sentence or various data from the outside. The input/output unit 101 may include at least one of the input unit 102 and the output unit 103. The input unit 102 is provided to receive a sentence, etc. from a user, for example, a keyboard, a keypad, a touch screen, a touch pad, a trackball, a track pad, a mouse device, a microphone, a stylus fan, a data input terminal And/or a motion detection sensor. The output unit 103 is provided to visually and/or audibly provide the analysis result of the Hangul morpheme to the user. The output unit 103 may include, for example, a display panel, a lighting device, a data output terminal, and/or a speaker device.

통신부(109)는 통신 네트워크(9)에 접속하여 한글 형태소 분석 장치(100) 내의 다른 장치(100A, 100B 등) 및/또는 외부의 다른 장치(예를 들어, 단말 장치(10), 또는 외부의 서버 장치(미도시) 등)로 데이터를 전송하거나 및/또는 외부의 다른 장치로부터 데이터를 수신할 수 있도록 마련된다. 예를 들어, 통신부(109)는 단말 장치(10)로부터 문장을 소정의 형태(예를 들어, 텍스트 형태)로 수신할 수도 있다.The communication unit 109 connects to the communication network 9 to access other devices (100A, 100B, etc.) in the Korean morpheme analysis device 100 and/or other external devices (for example, the terminal device 10, or an external device). It is provided to transmit data to a server device (not shown), and/or receive data from an external device. For example, the communication unit 109 may receive a sentence from the terminal device 10 in a predetermined form (eg, in text form).

입출력부(101) 및/또는 통신부(109)는, 프로세서(130)와 전기적으로 연결되어, 프로세서(130)로 데이터를 전송하거나 또는 프로세서(130)로부터 데이터를 수신한다. 필요에 따라서, 입출력부(101) 및/또는 통신부(109)는 저장부(110)와도 전기적으로 연결되어 있을 수도 있다.The input/output unit 101 and/or the communication unit 109 are electrically connected to the processor 130 and transmit data to the processor 130 or receive data from the processor 130. If necessary, the input/output unit 101 and/or the communication unit 109 may be electrically connected to the storage unit 110 as well.

저장부(110)는, 한글 형태소 분석 장치(100)의 동작에 필요한 각종 데이터나 애플리케이션을 저장할 수 있다. 예를 들어, 저장부(110)는, 형태소 처리, 동음이품사 판정 및 처리 및/또는 결과 처리 등과 관련된 적어도 하나의 애플리케이션(프로그램이나 앱 등으로 지칭 가능하다)을 저장할 수 있다. 여기서, 저장부(110)에 저장된 애플리케이션은, 설계자에 의해 미리 작성되어 저장부(110)에 저장된 것일 수도 있고, 또는 유선 또는 무선 통신 네트워크(9)를 통해 접속 가능한 전자 소프트웨어 유통망을 통하여 획득 또는 갱신된 것일 수도 있다.The storage unit 110 may store various types of data or applications required for the operation of the Korean morpheme analysis apparatus 100. For example, the storage unit 110 may store at least one application (which may be referred to as a program or an app) related to morpheme processing, homophony determination and processing, and/or result processing. Here, the application stored in the storage unit 110 may be previously created by the designer and stored in the storage unit 110, or obtained or updated through an electronic software distribution network accessible through a wired or wireless communication network 9 It may have been.

일 실시예에 의하면, 저장부(110)는 형태소 분석 데이터베이스(111)를 저장할 수도 있다. 형태소 분석 데이터베이스(111)는 프로세서(130)에 의해 호출되어 동음이품사의 판정이나, 동음이품사의 처리 등에 이용될 수 있다. According to an embodiment, the storage unit 110 may store the morpheme analysis database 111. The morpheme analysis database 111 may be called by the processor 130 to be used for determination of a homophone or a process for a homophone.

형태소 분석 데이터베이스(111)는, 예를 들어, 도 2에 도시된 바와 같이 복수 품사 어근 데이터베이스(113), 복수 품사 어미 데이터베이스(115) 및 동음이품사 유형 데이터베이스 중 적어도 하나를 포함할 수 있다.The morpheme analysis database 111 may include, for example, at least one of a plurality of parts-of-speech root database 113, a plurality of parts-of-speech ending database 115, and a homoemic part-of-speech type database, as illustrated in FIG. 2.

복수 품사 어근 데이터베이스(113)는, 복수 품사를 가지는 어근(들)로 구축될 것일 수 있다. 복수 품사를 가지는 어근은, 문장 내에서 둘 이상의 품사로 해석될 수 있는 어근을 의미하며, 보다 상세하게는 [고려]와 같이 하나의 문장 내에서 명사(나라 이름) 및 동사(생각하다) 중 어느 하나로 이용될 수 있는 어근을 의미한다. 이러한 복수 품사를 가지는 어근으로는, 예를 들어, 가, 가까이, 강하, 견고, 경미, 그립, 꼬꼬, 내일, 너덧, 노래, 다행이, 대한, 도연, 매회, 모모, 반하, 사서, 사신도, 사실, 아연, 앞서, 잠깐, 있, 잉, 자, 자라, 지인, 차지, 참고, 타, 터, 피디, 한적, 할, 할거 화하 또는 희구 등이 존재한다. 이들 외에도 다양한 복수 품사를 가지는 어근이 존재한다. 이와 같은 복수 품사를 가지는 어근은 대략 1,690개 정도로 추산된다. The multiple part-of-speech root database 113 may be constructed with root(s) having multiple parts of speech. A root with plural parts of speech means a root that can be interpreted as two or more parts of speech in a sentence, and more specifically, any of a noun (country name) or a verb (think) within one sentence, such as [Koryo]. It means a root that can be used as one. Roots with such multiple parts of speech include, for example, Ga, Close, Strong, Strong, Gyeongmi, Grip, Coko, Tomorrow, Singing, Song, Glad, Daehan, Doyeon, Everytime, Momo, Banha, Librarian, Sasindo, In fact, there are Zinc, Ahead, Wait, Be, Ying, Ja, Zara, Acquaintances, Chae, Reference, Other, Ter, P.D., Hanjeok, Hal, Halgeo, Hwaha or Heegu. In addition to these, there are roots that have various parts of speech. It is estimated that about 1,690 roots have such multiple parts of speech.

복수 품사 어근 데이터베이스(113)는, 이와 같은 복수 품사를 가지는 어근을 하나 이상 포함하여 구축될 수 있다. 복수 품사 어근 데이터베이스(113)는 추산되는 모든 복수 품사를 가지는 어근을 포함할 수도 있고, 또는 이들 중의 일부의 어근만을 포함할 수도 있다.The multiple part-of-speech root database 113 may be constructed including one or more roots having such a plurality of parts of speech. The multiple part-of-speech root database 113 may include roots having all the estimated multiple parts of speech, or may include only some roots of these.

일 실시예에 의하면, 복수 품사 어근 데이터베이스(113)에 저장되는 어근은 체언, 부사, 감탄사, 관형사 또는 일부 어근과 같이 어형 변화를 하지 않는 용언을 포함하도록 마련된 것일 수도 있다. According to an embodiment, the roots stored in the plural part-of-speech root database 113 may be provided to include verbs that do not change their form, such as body language, adverb, interjection, tubular sentence, or some roots.

복수 품사 어미 데이터베이스(115)는, 복수 품사를 가지는 어미(들)로 구축된 것일 수 있다. 복수 품사를 가지는 어미는, 문장 내에서 둘 이상의 품사로 판단될 수 있는 어미를 의미한다. 상세하게는 [가]와 같이 조사(-가), 명사(거리), 의문문 어미(-가?) 또는 동사(이동하다) 등과 같이 둘 이상의 품사로 해석될 수 있는 어미를 의미한다. The multiple part-of-speech ending database 115 may be constructed with ending(s) having multiple parts of speech. A ending having multiple parts of speech means a ending that can be judged as two or more parts of speech in a sentence. Specifically, it means a ending that can be interpreted as two or more parts of speech, such as investigation (-a), noun (distance), questionable ending (-ga?) or verb (to move), as in [A].

일 실시예에 의하면, 복수 품사 어미 데이터베이스(115)에 저장되는 어미는, 접사를 포함할 수 있으며, 실시예에 따라서 접사가 부가된 어형 변화가 발생하는 어근을 포함할 수도 있다.According to an embodiment, a ending stored in the multiple part-of-speech ending database 115 may include an affix, and may include a root in which affixed word form change occurs according to an embodiment.

복수 품사 어미 데이터베이스(115)에 저장되는 복수 품사를 가지는 어미는, 예를 들어, 가, 가지, 구간에, 구만, 나, 나는, 나니까, 났, 났다, 되셨습니다. 든, 만은, 만의, 시기에, 아사는, 아이가, 아이고, 우세요, 우실까, 울수록, 은, 을, 이가, 준, 준거야, 준다, 준다고, 준다구, 준다나봐, 준다냐, 준다는, 준다는데, 준다니, 준다니까, 준다니요, 준다던데, 준다데, 준다며, 준다면, 준다면서, 준다지만, 준다지요, 준다해도, 준단, 준단다, 준담, 준답니까, 준답니다, 준대, 준대니, 준대도, 준대요, 준대유, 준들, 준디야, 줄, 줄강, 줄걸, 줄게, 줄게요, 줄까, 줄까봐, 줄까요, 줄께, 줄께요, 줄는지, 줄달음친, 줄라, 줄라구, 줄라꼬, 줄라면, 줄란다, 줄랍니까, 줄래, 줄래도, 줄래요, 줄려고, 줄밖에, 줄뿐더러, 줄수록, 줄지, 줍니까, 줍니다 또는 줍디다 등을 포함할 수 있다. 이들 외에도 다양한 복수 품사를 가지는 어미가 존재한다. 이와 같은 복수 품사를 가지는 어미는 대략 265개로 추산된다. Mothers having multiple parts of speech stored in the multiple part-of-speech mother database 115 are, for example, Ga, Branch, in the section, Guman, Me, I, because I am, I, I, and I. All, man-eun, man-in, envy, asa, child, oh, cry, shall we cry, the more we cry, the more we cry, the more, eun, yiga, jun, gave, give, give, give, give, give, give, give , Giving, giving, giving, giving, giving, giving, giving, giving, if giving, giving, giving, but giving, even if giving, Jundan, giving, Jundam, Junda, giving, Junda , Joon-Dani, Joon-dae-do, Joon-dae-yo, Joon-dae-yu, Joon-deul, Joon-d-ya, Joule, Joulgang, Jool-gul, I will give, I’ll give, I’ll give, I’ll give, I’ll give, I’ll give, I’ll give Can include, give, give, give, give, give, give, give, give, give, give, give, etc. In addition to these, there are mothers with various parts of speech. It is estimated that approximately 265 endings have such multiple parts of speech.

상술한 복수 품사 어근 데이터베이스(113) 및 복수 품사 어미 데이터베이스(115)는 프로세서(113)의 동음이품사 판정부(133)에 의해 각각 호출될 수 있으며, 동음이품사의 판단을 위해 이용될 수 있다.The above-described plural part-of-speech root database 113 and the plural part-of-speech ending database 115 may be called by the homophonic part-of-speech determination unit 133 of the processor 113, respectively, and may be used for the determination of a homophonic part of speech .

동음이품사 유형 데이터베이스(117)는, 동음이품사를 갖는 단어나 형태소 등의 유형으로 구축된 것일 수 있다. 예를 들어, 하나의 형태소는 문장 내에서 명사로 또는 동사로 이용될 수 있으며, 이는 명사-동사 유형으로 데이터베이스(117)에 저장된다. 이 경우, 동음이품사를 갖는 단어나 형태소는, 두 종류의 품사로 이용될 수 있는 경우도 있고, 또는 셋 이상의 품사로 이용될 수 있는 경우도 있다. 이와 같은 유형의 개수는 대략 78개로 추산된다.The homoeum i-Pomsa type database 117 may be constructed in the form of words or morphemes having homoeum i-Pomsa. For example, one morpheme may be used as a noun or a verb in a sentence, which is stored in the database 117 as a noun-verb type. In this case, a word or morpheme having a homoemic two parts of speech may be used as two types of parts of speech, or may be used as three or more parts of speech. The number of these types is estimated to be approximately 78.

구체적으로 예를 들어, 동음이품사 유형 데이터베이스(117)에 저장되는 유형은, 명사-감탄사, 명사-부사, 명사-관형사, 명사-의존명사, 명사-대명사, 명사-수사, 명사-형용사, 명사-동사, 명사-보조 용언, 명사-어근, 고유명사-감탄사, 고유명사-어근, 고유명사-관형사, 고유명사-부사, 고유명사-형용사, 고유명사-동사, 대명사-동사, 대명사-동사-부사, 대명사-어근, 수사-어근, 형용사-부사, 형용사-어근, 동사-부사, 동사-형용사, 동사-보조 용언, 동사-어근, 어근-부사, 감탄사-어근, 관형사-수사, 관형사-어근, 의존명사-부사, 의존명사-관형사, 의존명사-동사, 의존명사-어근, 명사-부사-어근, 명사-의존명사-부사, 명사-의존명사-부사, 명사-의존명사-관형사, 명사-의존명사-대명사, 명사-의존명사-형용사, 명사-의존명사-동사, 명사-의존명사-어근, 명사-대명사-부사, 명사-대명사-관형사, 명사-대명사-수사, 명사-대명사-형용사, 명사-대명사-동사, 명사-대명사-어근, 명사-형용사-어근, 명사-동사-어근, 명사-동사-부사, 명사-동사-형용사, 명사-동사-보조 용언, 명사-어근-부사, 대명사-부사-어근, 대명사-동사-형용사, 대명사-동사-보조 용언, 대명사-동사-어근, 대명사-어근-부사, 동사-형용사-부사, 동사-형용사-보조 용언, 동사-보조 용언-부사, 동사-어근-부사, 명사-의존명사-부사-동사, 명사-의존명사-관형사-동사, 명사-의존명사-대명사-관형사, 명사-의존명사-대명사-동사, 명사-의존명사-형용사-보조 용언, 명사-의존명사-동사-형용사, 명사-의존명사-동사-보조 용언, 명사-의존명사-동사-어근, 명사-대명사-동사-어근, 명사-의존명사-대명사-관형사-어근, 명사-의존명사-대명사-동사-보조 용언, 명사-의존명사-대명사-동사-어근, 명사-의존명사-동사-형용사-보조 용언, 명사-의존명사-대명사-관형사-동사-보조 용언 및/또는 명사-의존명사-대명사-동사-형용사-어근 등을 포함할 수 있다. 실시예에 따라서, 동음이품사 유형 데이터베이스(117)는, 이들 유형 중 일부만을 포함할 수도 있고, 또는 이들 외에 다른 유형이 더 부가하여 포함할 수도 있다.Specifically, for example, the types stored in the homoemic participant type database 117 are nouns-interjections, nouns-adverbs, nouns-tubular criminals, nouns-dependent nouns, nouns-pronouns, nouns-rheutics, nouns-adjectives, nouns -Verbs, nouns-auxiliary verbs, nouns-roots, proper nouns-interjection, proper nouns-roots, proper nouns-subjectives, proper nouns-adverbs, proper nouns-adjectives, proper nouns-verbs, pronouns-verbs, pronouns-verbs- Adverbs, pronouns-root, rhetoric-root, adjective-adverb, adjective-root, verb-adverb, verb-adjective, verb-auxiliary verb, verb-root, root-adverb, interjection-root, tube detective-rhetoric, tube detective-root , Dependent noun-adverb, dependent noun-tubular criminal, dependent noun-verb, dependent noun-root, noun-adverb-root, noun-dependent noun-adverb, noun-dependent noun-adverb, noun-dependent noun-tubular criminal, noun- Dependent noun-pronoun, noun-dependent noun-adjective, noun-dependent noun-verb, noun-dependent noun-root, noun-pronoun-adverb, noun-pronoun-tubular detective, noun-pronoun-rheumatic, noun-pronoun-adjective, Noun-pronoun-verb, noun-pronoun-root, noun-adjective-root, noun-verb-root, noun-verb-adverb, noun-verb-adjective, noun-verb-auxiliary verb, noun-root-adverb, pronoun -Adverbs-root, pronoun-verb-adjective, pronoun-verb-auxiliary verb, pronoun-verb-root, pronoun-root-adverb, verb-adjective-adverb, verb-adjective-auxiliary verb, verb-auxiliary verb-adverb, Verb-root-adverb, noun-dependent noun-adverb-verb, noun-dependent noun-tubular criminal-verb, noun-dependent noun-pronoun-tubular criminal, noun-dependent noun-pronoun-verb, noun-dependent noun-adjective-auxiliary Pronouns, nouns-dependent nouns-verbs-adjectives, nouns-dependent nouns-verbs-auxiliary verbs, nouns-dependent nouns-verbs-roots, nouns-pronouns-verbs-roots, nouns-dependent nouns-pronouns-dictum-roots, nouns -Dependent noun-pronoun-verb-auxiliary verb, noun-dependent noun-pronoun-verb-root, noun-dependent noun-verb-adjective-auxiliary verb, noun-dependent noun-pronoun-tubular criminal-verb-auxiliary verb and/or Can include noun-dependent noun-pronoun-verb-adjective-root, etc. Depending on the embodiment, the homoeum I-POS type database 117 may include only some of these types, or may include other types in addition to these types.

이와 같은 동음이품사 유형 데이터베이스(117)는, 프로세서(130)의 동음이품사 처리부(137)에 의해 호출될 수 있으며, 동음이품사의 처리를 위해 이용될 수 있다.The Dongeum IpoSa type database 117 may be called by the Dongeum Ipumsa processing unit 137 of the processor 130, and may be used for processing of the Dongeum Ipumsa.

상술한 저장부(110)는, 실시예에 따라서, 주기억장치 및 보조기억장치 중 적어도 하나를 포함할 수 있다. 주기억장치는 롬(ROM) 및/또는 램(RAM)과 같은 반도체 저장 매체를 이용하여 구현된 것일 수 있다. 롬은, 예를 들어, 통상적인 롬, 이프롬(EPROM), 이이프롬(EEPROM) 및/또는 마스크롬(MASK-ROM) 등을 포함할 수 있다. 램은 예를 들어, 디램(DRAM) 및/또는 에스램(SRAM) 등을 포함할 수 있다. 보조기억장치는, 플래시 메모리 장치, SD(Secure Digital) 카드, 솔리드 스테이트 드라이브(SSD, Solid State Drive), 하드 디스크 드라이브(HDD, Hard Disc Drive), 자기 드럼, 컴팩트 디스크(CD), 디브이디(DVD) 또는 레이저 디스크 등과 같은 광 기록 매체(optical media), 자기 테이프, 광자기 디스크 및/또는 플로피 디스크 등과 같이 데이터를 영구적 또는 반영구적으로 저장 가능한 적어도 하나의 저장 매체를 이용하여 구현될 수 있다.The storage unit 110 described above may include at least one of a main memory device and an auxiliary memory device according to an embodiment. The main memory device may be implemented using a semiconductor storage medium such as ROM and/or RAM. The ROM may include, for example, a conventional ROM, EPROM, EEPROM, and/or MASK-ROM. The RAM may include, for example, DRAM and/or SRAM. Auxiliary storage devices include flash memory devices, SD (Secure Digital) cards, solid state drives (SSDs, Solid State Drives), hard disk drives (HDDs, Hard Disc Drives), magnetic drums, compact disks (CDs), DVDs ) Or an optical media such as a laser disk, a magnetic tape, a magneto-optical disk, and/or a floppy disk, and at least one storage medium capable of permanently or semi-permanently storing data.

프로세서(130)는, 한글 형태소 분석 장치(100)의 동작에 필요한 각종 연산, 판단, 처리 및/또는 제어 동작 등을 수행할 수 있다. 프로세서(130)는, 이와 같은 동작의 수행을 위해 저장부(110)에 저장된 애플리케이션을 구동시킬 수도 있다. The processor 130 may perform various operations, judgments, processing, and/or control operations required for the operation of the Hangul morpheme analysis apparatus 100. The processor 130 may drive an application stored in the storage unit 110 to perform such an operation.

이와 같은 프로세서(130)는, 예를 들어, 중앙 처리 장치(CPU, Central Processing Unit), 마이크로 컨트롤러 유닛(MCU, Micro Controller Unit), 마이컴(Micom, Micro Processor), 애플리케이션 프로세서(AP, Application Processor), 전자 제어 유닛(ECU, Electronic Controlling Unit) 및/또는 각종 연산 처리 및 제어 신호의 생성이 가능한 다른 전자 장치 등을 포함할 수 있다. 이들 장치는 예를 들어 하나 또는 둘 이상의 반도체 칩 및 관련 부품을 이용하여 구현 가능하다.Such a processor 130 is, for example, a central processing unit (CPU, Central Processing Unit), a microcontroller unit (MCU, Micro Controller Unit), a Micom (Micro Processor), an application processor (AP, Application Processor). , An electronic control unit (ECU) and/or other electronic devices capable of processing various operations and generating control signals. These devices can be implemented using, for example, one or more semiconductor chips and related components.

도 2에 도시된 바를 참조하면, 프로세서(130)는, 어절 분리부(131), 동음이품사 판정부(133), 일반 형태소 처리부(135), 동음이품사 처리부(137) 및 결과 획득 및 처리부(139)를 포함할 수 있다. 어절 분리부(131), 동음이품사 판정부(133), 일반 형태소 처리부(135), 동음이품사 처리부(137) 및 결과 획득 및 처리부(139) 중 일부는, 필요에 따라 생략될 수도 있다. 또한, 이들(131 내지 139)은, 실시예에 따라서, 물리적으로 구분되는 것일 수도 있고, 논리적으로 구분되는 것일 수도 있다.Referring to FIG. 2, the processor 130 includes a word separation unit 131, a homophonic part-of-satellite determination unit 133, a general morpheme processing part 135, a disequilibrium part-of-satellite processor 137, and a result acquisition and processing unit. (139) may be included. Some of the word separating unit 131, the homophoneous part of the word determination unit 133, the general morpheme processing unit 135, the disproportionate part of the word processing unit 137, and the result acquisition and processing unit 139 may be omitted as necessary. In addition, these 131 to 139 may be physically or logically classified according to an embodiment.

어절 분리부(131)는, 문장에서 어절을 분리할 수 있다. 어절은 문장 성분의 최소 단위로, 하나 또는 둘 이상의 단어나 형태소로 이루어진다. 어절은, 입력부(102)로부터 입력되거나 및/또는 통신부(109)로부터 수신된 것일 수 있다. 이 경우, 저장부(110)는 입력 및/또는 수신된 문장을 먼저 저장하고, 동음이품사 처리 명령 등의 입력에 응하여 어절 분리부(131)는 저장부(110)에 저장된 문장을 호출하고 호출한 문장에 대한 어절 분리를 수행할 수도 있다. 문장에서 분리된 하나 또는 둘 이상의 어절은 동음이품사 판정부(133)로 전달될 수 있다.The word separation unit 131 may separate a word from a sentence. A word is the smallest unit of a sentence component and consists of one or more words or morphemes. The word may be input from the input unit 102 and/or received from the communication unit 109. In this case, the storage unit 110 first stores the input and/or received sentences, and the word separation unit 131 calls and calls the sentence stored in the storage unit 110 in response to an input such as a homoemic part of speech processing command. Word separation can also be performed on a sentence. One or two or more words separated from the sentence may be transmitted to the homophonetic part-of-speech determination unit 133.

동음이품사 판정부(133)는, 어절이 동음이품사에 해당하는지 여부를 판단하거나, 또는 어절로부터 형태소(실질 형태소 또는 형식 형태소를 포함할 수 있다)를 추출한 후 추출한 형태소의 동음이품사 여부를 판단할 수 있다.The homoeum i-Pomsa determination unit 133 determines whether a word corresponds to a homoeum i-Pomsa, or extracts a morpheme (which may include a real morpheme or a formal morpheme) from the word, and then determines whether the extracted morpheme is a homoemic part of the body. I can judge.

일 실시예에 의하면, 동음이품사 판정부(133)는, 형태소 분석 데이터베이스(111)를 기반으로 어절이 동음이품사에 해당하는지 여부를 판정할 수도 있다. 예를 들어, 동음이품사 판정부(133)는 형태소 분석 데이터베이스(111)의 데이터베이스(113, 115, 117) 중에서 복수 품사 어근 데이터베이스(113) 및/또는 복수 품사 어미 데이터베이스(115)를 이용하여 어절이 동음이품사에 해당하는지를 판단할 수 있다.According to an embodiment, the homoemic part of the word determination unit 133 may determine whether a word corresponds to a homogeneous part of the word based on the morpheme analysis database 111. For example, the homophonetic part-of-speech determination unit 133 uses the plural part-of-speech root database 113 and/or the plural part-of-speech ending database 115 among databases 113, 115, and 117 of the morpheme analysis database 111 It is possible to determine whether this homogeneity corresponds to the POS.

구체적으로 예를 들어, 동음이품사 판정부(133)는, 먼저 복수 품사 어근 데이터베이스(113)를 참조하여, 수신한 어절이나, 어절의 어근에 대응하는 형태소에 대응하는 데이터(단어나 형태소 등)가 복수 품사 어근 데이터베이스(113)에 존재하는지 여부를 판단하고, 순차적으로 복수 품사 어미 데이터베이스(115)를 참조하여, 수신한 어절이나 어절 내의 어미에 대응하는 형태소에 대응하는 데이터가 복수 품사 어미 데이터베이스(115)에 존재하는지 여부를 판단하여 어절이 동음이품사에 해당하는지 여부를 판정할 수도 있다. 이 경우, 동음이품사 판정부(133)는, 어절, 어근 및 어미 중 적어도 하나가 복수 품사 어근 데이터베이스(113) 또는 복수 품사 어근 데이터베이스(113)에 존재하는 경우, 어절이 동음이품사에 해당한다고 판단할 수 있다.Specifically, for example, the homophonetic heterogeneous part of speech determination unit 133 first refers to the plural part-of-speech root database 113, and data corresponding to the received word or morpheme corresponding to the root of the word (word, morpheme, etc.) It is determined whether or not is present in the plural part-of-speech root database 113, and by sequentially referring to the plural part-of-speech ending database 115, data corresponding to the received word or morpheme corresponding to the ending in the word is a plurality of parts of speech ending database ( 115), it is also possible to determine whether or not the word corresponds to a homogeneous part of the word. In this case, when at least one of a word, a root, and a ending exists in the multiple part-of-speech root database 113 or the multiple part-of-speech root database 113, the homoemic heterogeneous part-of-speech determination unit 133 says that the word corresponds to the same-eum-different part of speech. I can judge.

만약 어절 또는 이에 포함된 형태소가 동음이품사에 해당되지 않는다고 판단되면, 어절 또는 형태소는 일반 형태소 처리부(135)로 전달되고, 통상적인 형태소 분석 방법에 따라 어절 또는 형태소는 분석된다. 즉, 동음이품사가 아니라는 것을 전제로 종래 알려진 분석 방법 중 적어도 하나에 따라 어쩔 또는 형태소 분석이 수행된다. If it is determined that a word or a morpheme included therein does not correspond to a homoemic part of the word, the word or morpheme is transmitted to the general morpheme processing unit 135, and the word or morpheme is analyzed according to a conventional morpheme analysis method. That is, on the premise that it is not a homogeneous part-of-sight, an unavoidable or morpheme analysis is performed according to at least one of conventionally known analysis methods.

반대로 만약 어절 또는 이에 포함된 형태소가 동음이품사라고 판단되면, 어절 또는 이에 포함된 형태소는 동음이품사 처리부(137)로 전달되고, 동음이품사 처리부(137)는 어절 또는 형태소에 대한 분석을 수행할 수 있다.On the contrary, if it is determined that a word or a morpheme included therein is a homoeum-ipomsa, the word or a morpheme included therein is transferred to the homoeum-ip-of-sa processing unit 137, and the homoeum-iso-Pomsa processing unit 137 performs an analysis on the word or morpheme. can do.

도 3은 동음이품사 처리부의 일 실시예에 대한 블록도이다.3 is a block diagram of an embodiment of a Dongeum Ipposa processing unit.

도 3에 도시된 바에 의하면, 동음이품사 처리부(137)는, 일 실시예에 있어서, 복수 품사 어근 데이터베이스(113)를 확인하고(137a), 복수 품사 어미 데이터베이스(115)를 확인한 후(137b), 확인 결과를 기반으로 단일 품사 판정 함수를 이용하여 형태소 분석을 수행하거나(137c) 또는 동음이품사 유형 데이터베이스(117)를 확인할 수 있다(137d). 동음이품사 유형 데이터베이스(117)를 확인하는 경우(137d)에는, 동음이품사 처리부(137)는 동음이품사 유형 데이터베이스(117)에 대한 확인 결과를 기반으로 복수 품사 판정 함수를 이용하여 형태소 분석을 수행할 수 있다(137e)As shown in FIG. 3, after checking the multiple part-of-speech root database 113 (137a), and checking the multiple part-of-speech mother database 115 (137b), in one embodiment, , Based on the confirmation result, a morpheme analysis may be performed using a single part-of-speech determination function (137c) or a homophoneic part-of-speech type database 117 may be checked (137d). In the case of checking the homoeum two parts of speech type database 117 (137d), the homoeum two parts of speech processing unit 137 performs a morpheme analysis using a plurality of parts of speech determination function based on the confirmation result of the homoeum two parts of speech type database 117 Can perform (137e)

보다 구체적으로 동음이품사 처리부(137)는 어절로부터 어근을 추출하고 추출된 어근이 복수 품사 어근 데이터베이스(113)에 존재하는지 여부를 판단할 수 있다(137a). 이 경우, 동음이품사 처리부(137)는 어절의 첫 부분(한글 기재 방법에 의하면 좌측 부분)에서부터 순차적으로 읽으면서 어근을 추출할 수도 있다. 만약 어근이 복수 품사 어근 데이터베이스(113)에 존재하지 않는다면, 동음이품사 처리부(137)는 동음이품사 유형 데이터베이스(117)를 확인하도록 한다. More specifically, the homoeum-iponics processing unit 137 may extract a root from the word and determine whether the extracted root exists in the multiple part-of-speech root database 113 (137a). In this case, the homoeum-ipomsa processing unit 137 may extract the root by sequentially reading from the first part of the word (the left part according to the Hangul description method). If the root of the word does not exist in the multiple part-of-speech root database 113, the homoeum-ip-of-satellite processing unit 137 checks the homoeum-ip-of-sa-type database 117.

반대로 만약 어근이 복수 품사 어근 데이터베이스(113)에 존재하면, 동음이품사 처리부(137)는 복수 품사 어미 데이터베이스(115)의 확인을 수행할 수 있다(137b). 상세하게는 동음이품사 처리부(137)는 어절로부터 어미를 추출하고 추출된 어미가 복수 품사 어미 데이터베이스(115)에 존재하는지 여부를 판단할 수 있다(137b). 이 경우, 동음이품사 처리부(137)는 어절의 마지막 부분(한글 기재 방법에 의하면 우측 말단 부분)에서부터 어절의 처음 부분에 대한 방향(한글 기재 방법에 의하면, 좌측 방향)으로 읽어가면서 어미를 추출할 수도 있다. 만약 어미가 복수 품사 어미 데이터베이스(115)에 부재한다면, 동음이품사 처리부(137)는 동음이품사 유형 데이터베이스(117)를 확인하도록 한다.On the contrary, if the root exists in the multiple part-of-speech root database 113, the homoeum 2 part-of-speech processing unit 137 may check the multiple part-of-speech ending database 115 (137b). In detail, the homoeum two parts of speech processing unit 137 may extract a ending from a word and determine whether the extracted ending exists in the multiple part of speech ending database 115 (137b). In this case, the homoeum two parts processing unit 137 extracts the ending while reading from the last part of the word (the right end part according to the Hangul writing method) to the first part of the word (the leftward direction according to the Hangul writing method). May be. If the mother does not exist in the multiple part-of-speech mother database 115, the homoeum I-POS processing unit 137 checks the dong-eum I-POS type database 117.

반대로 만약 어미가 복수 품사 어미 데이터베이스(115)에 존재하면, 동음이품사 처리부(137)는 단일 품사 판정 함수를 이용하여 형태소 분석을 수행한다(137c). On the contrary, if the ending is present in the multiple part-of-speech ending database 115, the homophonic part-of-speech processing unit 137 performs morpheme analysis using a single part-of-speech determination function (137c).

도 3에는 복수 품사 어근 데이터베이스(113)의 확인(137a) 후에 복수 품사 어미 데이터베이스(115)가 확인되는 실시예에 대해서만 도시되어 있으나, 복수 품사 어근 데이터베이스(113)의 확인 과정(137a) 및 복수 품사 어미 데이터베이스(115)의 확인 과정(137b)는, 도 3에 도시된 것과는 반대의 순서로 진행될 수도 있다. 또한, 실시예에 따라서, 복수 품사 어근 데이터베이스(113)의 확인 과정(137a)과 복수 품사 어미 데이터베이스(115)의 확인 과정(137b)은 동시에 수행되는 것도 가능하다.3 is only shown for an embodiment in which the multi-part-of-speech root database 115 is checked after the multi-part-of-speech root database 113 is checked (137a), but the verification process (137a) of the multi-part-of-speech root database 113 and the multi-parts of speech The confirmation process 137b of the mother database 115 may be performed in an order opposite to that shown in FIG. 3. In addition, according to an embodiment, the verification process 137a of the multiple POS root database 113 and the verification process 137b of the multiple POS mother database 115 may be performed simultaneously.

단일 품사 판정 함수는, 특정한 품사(예를 들어, 명사, 대명사, 수사, 동사, 형용사, 관형사, 부사, 조사 또는 감탄사 등)을 판정할 수 있는 함수를 의미한다. 단일 품사 판정 함수는, 어절, 단어 또는 형태소가 입력된 경우, 어절, 단어 또는 형태소가 특정한 품사(예를 들어 명사 등)에 해당하는지 여부를 판단하고, 판단 결과를 출력할 수 있다. 이 경우, 단일 품사 판정 함수는, 참(True) 또는 거짓(False)를 출력하여 어절, 단어 또는 형태소가 특정한 품사에 해당하는지 여부를 판단할 수 있다. 단일 품사 판정 함수는, 판정 대상이 되는 품사에 따라서 다양하게 결정될 수 있다. 예를 들어, 단일 품사 판정 함수는, 일반명사 판정 함수, 고유명사 판정 함수, 의존명사 판정 함수, 수사 판정 함수, 일반동사 판정 함수, 형용사 판정 함수, 보조 동사 판정 함수 및/또는 어근 판정 함수 등을 포함할 수 있다. The single part-of-speech determination function refers to a function capable of determining a specific part of speech (for example, a noun, pronoun, rhetoric, verb, adjective, coronal sentence, adverb, investigation, or interjection). When a word, word, or morpheme is input, the single part-of-speech determination function may determine whether the word, word, or morpheme corresponds to a specific part of speech (for example, a noun, etc.), and output a determination result. In this case, the single part-of-speech determination function may output True or False to determine whether a word, word, or morpheme corresponds to a specific part of speech. The single part-of-speech determination function can be variously determined according to the part of speech to be determined. For example, the single part-of-speech determination function includes a general noun determination function, a proper noun determination function, a dependent noun determination function, a rhetorical determination function, a general verb determination function, an adjective determination function, an auxiliary verb determination function, and/or a root determination function. Can include.

도 4는 단일 품사 판정 함수의 일례에 대한 프로그램 코드를 도시한 것으로, 일반 명사 판정 함수의 일례를 도시한 것이다.4 shows a program code for an example of a single part of speech determination function, and illustrates an example of a general noun determination function.

도 4에 도시된 바에 의하면, 단일 품사 판정 함수(p1)는, 현재 검사 대상 형태소의 한 어절 앞에 특정 품사가 존재하는지를 여부를 판단할 수 있다(p11). 이 경우, 현재의 어절 앞에 형용사가 존재하면, 현재의 형태소를 명사로 판정하도록 설계될 수 있다. 맑은 예쁜 고운 집과 같이 형용사 뒤에 형용사가 올 수 있으므로 반드시 이와 같은 판정이 올바른 것은 아니다. 그러나, 이와 같은 판단은, 특정 형태가 명사라고 의심될 때 사용하는 것이므로 이 규칙을 사용하는 상황에서는 대체적으로 오분석이 발생하진 않는다. As illustrated in FIG. 4, the single part-of-speech determination function p1 may determine whether a specific part-of-speech exists in front of one word of the current morpheme to be examined (p11). In this case, if an adjective exists in front of the current word, it can be designed to determine the current morpheme as a noun. Such a judgment is not necessarily correct because adjectives can come after adjectives, such as in a clean, pretty and fine house. However, since this judgment is used when it is suspected that a specific form is a noun, misanalysis generally does not occur in situations where this rule is used.

또한, 단일 품사 판정 함수(p1)는, 현재 어절이 제1 문자열(w11, words)에 포함된 어휘로 끝나는지를 판단할 수도 있다(p12). 대체적으로 명사는 조사를 취하므로 이를 기반으로 판단을 수행하는 것이 불합리한 것은 아니다. 다만, [는]은 보조사(예를 들어, 특허는 등)로도 이용되고 어미(예를 들어, 가는 등)로도 이용 가능하여 형태소 분석에 있어서 오류를 발생시킬 수도 있으므로, 제1 문자열(w11)은 오직 조사로만 이용되는 경우만으로 포함하도록 설계될 수도 있다.In addition, the single part-of-speech determination function p1 may determine whether the current word ends with a vocabulary included in the first character string w11 (words) (p12). In general, nouns take investigations, so it is not unreasonable to make judgments based on them. However, since [silver] can be used as an auxiliary (for example, a patent, etc.) and as a ending (for example, thin, etc.), it may cause an error in morpheme analysis, so the first character string w11 It may be designed to include only cases that are used for investigation only.

또한, 단일 품사 판정 함수(p1)는, 현재 어절이 제2 문자열(w12, words2)에 포함된 어휘로 끝나는지 여부도 판단할 수 있다. 특정한 형태소(예를 들어, [만큼]이나 [처럼] 등)들은 오로지 그 앞에 명사만을 취할 수 있으므로, 이를 기반으로도 일반 명사를 판정할 수 있다. In addition, the single part-of-speech determination function p1 may also determine whether the current word ends with a vocabulary included in the second character string w12 and words2. Certain morphemes (eg, [as much] or [like]) can only take nouns in front of them, so a general noun can be determined based on this.

한편, 도 3에 도시된 바와 같이, 만약 어근이 복수 품사 어근 데이터베이스(113)에 존재하지 않거나 또는 어미가 복수 품사 어미 데이터베이스(115)에 존재하지 않으면, 동음이품사 처리부(137)는 동음이품사 유형 데이터베이스(117)를 확인할 수 있다(137d). 이 경우, 동음이품사 처리부(137)는, 동음이품사 유형 데이터베이스(117)로부터 적어도 하나의 동음이품사 유형을 추출하고, 추출된 동음이품사 유형을 기반으로 복수 품사 판정 함수를 이용하여 형태소 분석을 수행할 수 있다(137e). On the other hand, as shown in Figure 3, if the root does not exist in the plural part-of-speech root database 113 or if the ending does not exist in the plural part-of-speech ending database 115, the homophones processing unit 137 is The type database 117 can be checked (137d). In this case, the homoeum two parts of speech processing unit 137 extracts at least one homoemic two parts of speech type from the homoeum two parts of speech type database 117, and analyzes the morpheme using a plurality of parts of speech determination function based on the extracted homoemic two parts of speech type Can be performed (137e).

도 5는 한글 형태소 분석을 설명하기 위한 도표이다.5 is a diagram for explaining Hangul morpheme analysis.

예를 들어, 도 5에 도시된 바를 참조하면, [강하]라는 형태소는 문장의 맥락에 따라서 적어도 네 개의 의미를 가질 수 있다. 구체적으로 [언덕에서 넓은 강하를 바라보았다]라는 문장(이하 제1 문장) 내에서는 [강하]는 강과 하천을 의미하는 명사이고, [낙하산을 타고 하늘로부터의 강하를 경험하였다]라는 문장(이하 제2 문장) 내에서 [강하]는 내려감(하강)을 의미하는 명사이다. 또한, [그는 매우 강하다]라는 문장(이하 제3 문장)에서는 [강하]는 힘이 셈을 의미하는 형용사로 쓰인 것이고, [절벽 아래로 강하하였다]라는 문장(이하 제4 문장)에서는 내려가다(하강하다)는 의미의 어근으로 쓰인 것이다. 이와 같이 하나의 문장 내의 맥락에 따라서 동일한 형태소는 서로 유사하거나 또는 상이한 의미를 갖는 것으로 판단될 수 있으며, 또한 서로 상이한 품사로 판단될 수도 있다.For example, referring to the bar shown in FIG. 5, the morpheme of [fall] may have at least four meanings according to the context of a sentence. Specifically, in the sentence [I looked at a wide descent from a hill] (hereinafter, the first sentence), [descent] is a noun meaning river and river, and the sentence [I experienced a descent from the sky on a parachute] (hereinafter referred to as the first sentence). In sentence 2), [descend] is a noun that means to descend (fall). In addition, in the sentence [He is very strong] (hereinafter, the third sentence), [descend] is used as an adjective that means force is counting, and in the sentence [he descended below the cliff] (hereinafter, the fourth sentence) goes down ( Descend) is used as the root of meaning. As described above, the same morpheme may be determined to have similar or different meanings, depending on the context within a sentence, and may also be determined as different parts of speech.

이 경우 제1 문장 및 제2 문장과 같이 [강하]가 명사로 사용된 경우에는 보통 조사와 같이 나타나는 경우가 많은 편이고, 제3 문장과 같이 형용사로 이용되는 경우에는 통상 어미 [-다]와 함께 쓰이는 경우가 많은 편이다. 또한, 제4 문장에서와 같이 어근으로 쓰이는 경우에는, 어근의 뒤에 [-하다]/[-되다]/[-거리다]가 부가되는 경우가 많다. 이러한 점을 고려하면 [강하]의 품사를 적절하게 판단하여, 부가적인 정보(즉, [강하]의 품사 등에 대한 정보)를 텍스트에 부가할 수 있게 된다. 이와 같이 소정의 형태소에 소정의 형태소에 대응하는 품사 등을 부가하는 것을 품사 태깅이라고 한다.In this case, when [descend] is used as a noun as in the first sentence and the second sentence, it often appears as an investigation, and if it is used as an adjective as in the third sentence, it is usually accompanied by the ending [-c]. It is often used. In addition, when used as a root as in the fourth sentence, there are many cases where [-hada]/[-become]/[-georida] is added after the root. Considering this point, it is possible to appropriately determine the part of speech of [Descent] and add additional information (ie, information about the part of speech of [Descent]) to the text. In this way, adding a part-of-speech corresponding to a certain morpheme to a certain morpheme is called part-of-speech tagging.

도 6은 복수 품사 판정 함수의 어느 하나의 일례에 대한 프로그램 코드를 도시한 도면이다.6 is a diagram showing a program code for an example of a plurality of parts of speech determination function.

이와 같이 하나의 단어 또는 형태소가 복수의 품사로 이용될 수 있는 경우, 하나의 단어 또는 형태소에 대한 품사 태깅을 구현하기 위해서, 복수 품사 판정 함수가 필요하다. 복수 품사 판정 함수는 복수의 품사로 이용될 수 있는 단어 또는 형태소의 품사를 어느 하나로 결정할 수 있는 함수를 의미한다.As described above, when one word or morpheme can be used as a plurality of parts of speech, in order to implement part-of-speech tagging for one word or morpheme, a multiple part of speech determination function is required. The multiple part-of-speech determination function refers to a function capable of determining one of a word or morpheme that can be used as a plurality of parts of speech.

복수 품사 판정 함수는, 도 6에 도시된 바와 같이, 프로그램 코드(p2)로 작성되어 구현될 수 있다. 예를 들어, [강하]라고 정의된 복수 품사 판정 함수는, 어절이나 형태소 내에서의 [강하]라는 단어의 품사를 결정하도록 구현된다. 보다 상세하게 예를 들어, [강하]라고 정의된 복수 품사 판정 함수는, 현재 분석 대상이 되는 어절(이하 분석 대상 어절)이 변수로 입력되도록 마련되며, 변수로 입력된 분석 대상 어절이 [이니], [이다] 또는 [인] 등을 포함하거나(p21) 또는 [이], [가] 또는 [을] 등을 포함하는 경우(p22)에는 어절이나 형태소 내에서의 [강하]의 품사를 명사로 판단하도록 하고, 분석 대상 어절이 [다], [며] 또는 [어서] 등을 포함하는 경우(p23)에는 [강하]의 품사를 형용사로 판단하도록 하며, 분석 대상 어절이 [하], [할] 또는 [하니 등을 포함하는 경우(p24)에는 [강하]의 품사를 어근으로 판단하도록 설계된 것일 수 있다.As shown in FIG. 6, the multiple part of speech determination function may be written and implemented in program code p2. For example, a multi-part-of-speech determination function defined as [fall] is implemented to determine the part of speech of the word [fall] within a word or morpheme. In more detail, for example, the multi-part-of-speech judgment function defined as [Descent] is provided so that the word to be analyzed (hereinafter, the word to be analyzed) is input as a variable, and the word to be analyzed is [i] , [Is] or [in], etc. (p21), or [i], [a] or [b], etc. (p22), the part-of-speech of [descending] within a word or morpheme is used as a noun. If the words to be analyzed include [C], [Shou], or [Come] (p23), the part of speech of [Descent] should be judged as an adjective. ] Or [Hani, etc.] (p24) may be designed to determine the part of speech of [Descent] as a root.

도 7은 단일 품사 판정 함수의 연결의 일례를 설명하기 위한 도면이고, 도 8은 단일 품사 판정 함수의 연결의 일례에 대응하는 프로그램 코드를 도시한 도면이다.7 is a diagram for explaining an example of connection of a single part of speech determination function, and FIG. 8 is a diagram illustrating a program code corresponding to an example of connection of a single part of speech determination function.

그러나 가능한 모든 단어(예를 들어, [강하] 이외에 복수 품사 어근 데이터베이스(113)에 포함된 단어 등)에 대해 프로그램 코드를 구축하는 것은, 그 데이터 양이 방대해지고 이에 따라 성능이 저하되며, 갱신 시 코드의 일관성 유지 역시 어려워 진다. 그러므로, 도 7 및 도 8에 도시된 바와 같이, 단일 품사 함수를 구축한 후 구축된 각각의 단일 품사 함수를 연결하여 특정 품사의 판정을 수행하면, 데이터 양의 절감, 코드의 간결화 및 갱신 시 코드의 일관성 유지 등을 이룰 수 있게 된다.However, building the program code for all possible words (for example, words included in the multi-part-of-speech root database 113 in addition to [Descent]) increases the amount of data and reduces performance accordingly. Maintaining code consistency also becomes difficult. Therefore, as shown in Figs. 7 and 8, if a single part of speech function is constructed and then each of the constructed single parts of speech functions are connected to determine a specific part of speech, the amount of data is reduced, the code is simplified, and the code is updated. It is possible to achieve consistency of

구체적으로 도 7에 도시된 바와 같이, 복수의 품사 각각에 대한 단일 품사 판정 함수(p3a, p3b, p3c)은 상호 연결되어 이용될 수 있다. 여기서, 단일 품사 판정 함수(p3a, p3b, p3c)는 일반명사 판정 함수, 고유명사 판정 함수, 의존명사 판정 함수, 수사 판정 함수, 일반동사 판정 함수, 형용사 판정 함수, 보조 동사 판정 함수 및 어근 판정 함수 중 적어도 둘을 포함할 수 있다. Specifically, as shown in FIG. 7, a single part-of-speech determination function p3a, p3b, and p3c for each of a plurality of parts of speech may be interconnected and used. Here, the single part of speech judgment function (p3a, p3b, p3c) is a general noun judgment function, a proper noun judgment function, a dependent noun judgment function, a rhetoric judgment function, a general verb judgment function, an adjective judgment function, an auxiliary verb judgment function, and a root judgment function. It may include at least two of.

구체적으로 예를 들어, 동음이품사에 속하는 단어 A(W11)의 품사 판정을 위해 동사 판정 함수(p3a) 및 명사 판정 함수(p3b)가 연결되어 사용된다. 다시 말해서, 동사 판정 함수(p3a) 및 명사 판정 함수(p3b)는 연결되어 하나의 함수로 구현될 수 있으며, 단어 A(w11)는 이들(p3a, p3b)이 연결된 함수에 대입되어 동사 또는 명사로 판단되고, 이에 따른 판단 결과(R11)가 획득된다. 동일하게 명사 판정 함수(p3b) 및 어근 판정 함수(p3c)도 서로 연결되어 하나의 함수로 구현될 수 있으며, 이는 다른 동음이품사에 속하는 단어 B(w11)를 명사 또는 어근으로 판단하기 위해 이용될 수 있다(R12).Specifically, for example, the verb determination function p3a and the noun determination function p3b are connected and used to determine the part-of-speech of the word A (W11) belonging to the homophonetic part of speech. In other words, the verb judgment function (p3a) and the noun judgment function (p3b) can be connected and implemented as a single function, and the word A (w11) is substituted into the function to which these (p3a, p3b) are connected to be used as a verb or a noun. Is determined, and a determination result R11 is obtained accordingly. Similarly, the noun determination function (p3b) and the root determination function (p3c) can be connected to each other and implemented as a single function, which can be used to determine the word B (w11) belonging to different homophones as a noun or root. Can (R12).

이와 같이 복수의 단일 품사 판정 함수(p3a, p3b, p3c) 중 적어도 둘을 상호 연결하여 사용하는 경우, 프로그램 코드(p3)는 도 8에 도시된 바와 같이 작성될 수 있다. 이 경우, 프로그램 코드(p3)는, 도 6에 도시된 프로그램 코드(p2)와 비교하였을 때, 명사 판단과 관련된 부분(P21, P22)이 모듈화되어 상대적으로 간략하게 작성되게 된다(P31).When at least two of the plurality of single parts of speech determination functions p3a, p3b, and p3c are interconnected and used, the program code p3 may be written as shown in FIG. 8. In this case, when compared with the program code p2 shown in FIG. 6, the program code p3 is relatively simplified by modularizing the parts P21 and P22 related to the noun determination (P31).

도 9는 복수 품사 판정 함수의 일례를 설명하기 위한 도면이다.9 is a diagram for explaining an example of a multiple part of speech determination function.

도 7 및 도 9에 도시된 바와 같이, 각각의 단어에 대한 단일 품사 함수들을 연결하여 사용하면 코드의 양이 획기적으로 감소할 뿐만 아니라 코드의 일관성과 관리의 용이성을 기대할 수 있게 된다. 그러나, 함수화해야 할 동음이품사의 개수는 다량이기 때문에 여전히 작성할 코드는 짧지 않다. 예를 들어, 명사, 형용사 및 어근으로 사용되는 단어들은 모두 [강하]에서 사용되었던 코드를 동일하게 반복해서 사용해야 하는 문제점이 존재한다.As shown in FIGS. 7 and 9, when single parts of speech functions for each word are connected and used, the amount of code is drastically reduced, and consistency and ease of management of the code can be expected. However, since the number of homophones to be functionalized is large, the code to be written is still not short. For example, words used as nouns, adjectives, and roots all have a problem that the same code used in [Descent] must be used repeatedly.

따라서 코드의 양 감소, 작업의 자동화 및 이에 따른 코드의 일관성 유지를 위해, 도 9에 도시된 바와 같이, 둘 또는 그 이상의 단일 품사 판정 함수(f1 내지 f3)를 상호 연결하여, 적어도 하나의 복수 품사 판정 함수(f12, f23, f123 등)를 구현할 수 있다.Therefore, in order to reduce the amount of code, automate tasks, and maintain the consistency of the code accordingly, as shown in FIG. 9, by interconnecting two or more single part-of-speech determination functions f1 to f3, at least one multiple part of speech Decision functions (f12, f23, f123, etc.) can be implemented.

구체적으로 품사 A(예를 들어, 동사)에 대한 판정 함수(f1, 이하 품사 A 판정 함수)와, 품사 B(예를 들어, 명사)에 대한 판정 함수(f2, 이하 품사 B 판정 함수)와, 품사 C(예를 들어, 어근)에 대한 판정 함수(f3, 이하 품사 C 판정 함수)가 주어진 경우, 이를 기반으로 복수의 품사를 판정할 수 있는 함수를 설계하여 구축할 수 있다. 예를 들어, 품사 A 판정 함수(f1)와 품사 B 판정 함수(f2)를 조합 및 연결하여 품사 A-B 판정 함수(f12, 예를 들어, 동사-명사 판정 함수)를 획득하거나, 품사 B 판정 함수(f2)와 품사 C 판정 함수(f3)를 조합 및 연결하여 품사 B-C 판정 함수(f23, 예를 들어, 명사-어근 판정 함수)를 획득할 수 있다. 뿐만 아니라, 품사 A 판정 함수(f1), 품사 B 판정 함수(f2) 및 품사 C 판정 함수(f3) 모두를 연결하여 조합함으로써 품사 A-B-C 판정 함수(f123, 예를 들어, 동사-명사-어근 판정 함수)를 획득할 수도 있다. 이들 판정 함수(f12, f23, f123 등) 중 적어도 하나는, 설계자의 선택이나 사용자의 조작 등에 따라서, 복수의 품사로 이용될 수 있는 적어도 하나의 단어(예를 들어, 단어 A(w1), 단어 B(w2) 및 단어 C(w3) 등)에 각각 적용될 수 있으며, 이에 따라 적어도 하나의 단어(w1, w2, w3)의 품사가 결정될 수 있게 된다.Specifically, a judgment function (f1, hereinafter part of speech A judgment function) for part of speech A (for example, a verb), a judgment function (f2, hereinafter part of speech B judgment function) for part of speech B (for example, noun), and When a determination function (f3, hereinafter, a part of speech C determination function) for a part of speech C (for example, a root) is given, a function capable of determining a plurality of parts of speech may be designed and constructed based on this. For example, a part-of-speech A decision function (f1) and a part-of-speech B decision function (f2) are combined and connected to obtain a part-of-speech AB decision function (f12, for example, a verb-noun decision function), or a part of speech B decision function ( By combining and connecting f2) and the part-of-speech C determination function f3, a part-of-speech BC determination function f23 (eg, a noun-root determination function) may be obtained. In addition, the part-of-speech ABC determination function (f123, for example, verb-noun-root determination function) by combining and combining all of the parts of speech A determination function (f1), the part of speech B determination function (f2), and the part of speech C determination function (f3) ) Can also be obtained. At least one of these judgment functions (f12, f23, f123, etc.) is at least one word that can be used as a plurality of parts of speech (e.g., word A(w1), word B(w2) and the word C(w3), etc.) may be applied respectively, and accordingly, the part-of-speech of at least one word (w1, w2, w3) may be determined.

도 10은 복수 품사 판정 함수의 일례에 대응하는 프로그램 코드를 도시한 도면이다.10 is a diagram showing a program code corresponding to an example of a multiple part of speech determination function.

이와 같은 복수의 단일 품사 판정 함수(f1 내지 f3)를 조합하여 적어도 하나의 복수 품사 판정 함수(f12, f23, f123)를 구현하면, 도 6 또는 도 7에 도시된 [강하]의 품사를 판단하기 위한 함수는 도 10에 도시된 바와 같이 더욱 간단하고 단순한 형태의 프로그램(p4)으로 작성될 수 있다. 이 경우, 한 줄의 간단한 함수 호출 명령문(p41, 예를 들어, 동사-명사-어근 판정 함수(f123)의 호출 명령문)만으로도 전후 맥락에 따라 품사가 분석될 수 있게 된다. 예를 들어, 강하가 명사, 형용사 및 어근 중 어느 하나로 분석될 수 있게 된다. 이에 따라 코드의 간결화와 일관성 유지가 더욱 효과적으로 구현될 수 있게 된다. When at least one multi-part-of-speech determination function f12, f23, and f123 is implemented by combining a plurality of single part-of-speech determination functions f1 to f3 as described above, determining the part-of-speech of [falling] shown in FIG. 6 or 7 As shown in FIG. 10, the function for may be written in a simpler and simpler program p4. In this case, a single line of simple function call statements (p41, for example, a call statement of the verb-noun-root determination function f123) can analyze parts of speech according to the context. For example, descent can be analyzed as one of a noun, an adjective, and a root. Accordingly, conciseness and consistency of code can be implemented more effectively.

도 11은 동사-일반 명사 함수의 일례에 대한 프로그램 코드를 도시한 도면이다.11 is a diagram showing a program code for an example of a verb-general noun function.

도 10에 도시된 프로그램 코드(p4)는, 예를 들어, 도 11에 도시된 바와 같은 동사-일반 명사 함수(P5)를 호출할 수도 있다. 이 경우, 호출되는 동사-일반 명사 함수(P5)는, 예를 들어, 여러 판정 함수(p51 내지 p55)를 조합하여 구현된 것일 수 있다. 보다 구체적으로 동사-일반 명사 함수(P5)는 의존 명사 판정 함수(p51), 일반 동사 판정 함수(p52), 형용사 판정 함수(p53), 일반 명사 판정 함수(p54) 및/또는 기타 판정 함수(p55)를 포함할 수 있으며, 이들(p51 내지 p55)을 순차적으로 조합하여 구현된 것일 수 있다.The program code p4 shown in FIG. 10 may call a verb-general noun function P5 as shown in FIG. 11, for example. In this case, the called verb-general noun function P5 may be implemented by combining several decision functions p51 to p55, for example. More specifically, the verb-general noun function (P5) is a dependent noun determination function (p51), a general verb determination function (p52), an adjective determination function (p53), a general noun determination function (p54), and/or other determination functions (p55). ) May be included, and may be implemented by sequentially combining these (p51 to p55).

구체적으로 분석 대상 어절 또는 이에 포함된 형태소의 품사가 명사인지 여부를 판정하기 위해, 의존 명사 함수(p51)가 이용될 수 있다. 의존 명사 함수(p51)는, 현재 분석 대상이 되는 어절(또는 형태소 등) 또는 분석 대상 어절의 전단의 어절(또는 형태소 등)에 수사(숫자)가 존재하는지 여부를 확인할 수 있다. 숫자는 한글, 한자, 알파벳 또는 아라비아어 등으로 표현된 것일 수 있다. 명사 또는 동사 중 어느 하나로 결정해야 하는 경우에 있어서, 분석 대상이 되는 어절 앞의 어절에 수사가 존재한다면, 분석 대상이 되는 어절 명사일 가능성이 매우 높다. 의존 명사 함수(p51)는 이와 같이 거의 확실시되는 경우를 우선적으로 처리한다.In more detail, the dependent noun function p51 may be used to determine whether the part of speech of a word to be analyzed or a morpheme included therein is a noun. The dependent noun function p51 may check whether a rhetoric (number) exists in a word (or morpheme, etc.) to be analyzed currently or a word (or morpheme, etc.) of a front end of the word to be analyzed. The number may be expressed in Korean, Chinese characters, alphabets, or Arabic. In the case of having to decide on either a noun or a verb, if there is a rhetoric in the word preceding the word to be analyzed, it is very likely that it is the subject to be analyzed. The dependent noun function p51 preferentially processes the case where it is almost certain in this way.

또한, 분석 대상 어절 또는 이에 포함된 형태소의 품사가 동사인지 여부를 판정하기 위해 동사 판정 함수(p52)와 형용사 판정 함수(p53)를 이용될 수 있다. 동사 여부의 판정은, 명사 판정 함수(p54)를 이용한 명사 여부의 판정에 대해 선행하여 처리되도록 코딩될 수도 있다. 왜냐하면, 동사 또는 명사로 판정해야 하는 상황에서는 동사가 그 특징이 상대적으로 더 분명하기 때문이다. 구체적으로 예를 들어, [종이를 떼다]란 문장의 경우, 명사 여부를 먼저 판단하게 되면, [떼]가 명사로 판단될 가능성이 높아진다. 명사는 종결 어미 [-다]와 잘 결합되기 때문이다(예를 들어, 그는 의사[다]). 그러나, 동사는 그 앞에 목적어나 부사어를 갖는 특징을 가지므로, 분석 대상 어절의 앞의 어절에 목적어나 부사어가 존재하는지 여부를 먼저 확인하면, [종이를 떼다]의 [떼]는 동사로 적절하게 판정될 수 있게 된다. 동사의 판정은, 단일 품사 판정 함수인 동사 판정 함수(p52)을 기반으로 수행될 수 있다. 형용사도 동일하게 그 앞에 부사어가 올 수 있으므로, 명사에 대해 선행하여 판정될 수 있다. 형용사의 판정 역시 형용사 판정 함수(p53)를 이용하여 수행될 수 있다.In addition, a verb determination function p52 and an adjective determination function p53 may be used to determine whether the part of speech of a word to be analyzed or a morpheme included therein is a verb. The determination of whether or not to be a verb may be coded to be processed prior to the determination of whether or not to be a noun using the noun determination function p54. This is because the characteristics of verbs are relatively clearer in situations in which verbs or nouns must be judged. Specifically, in the case of the sentence [Take off the paper], if you first determine whether or not it is a noun, there is a high likelihood that [they] will be judged as a noun. This is because nouns are well combined with the terminating ending [-c] (for example, he is a doctor[da]). However, since verbs have the characteristic of having an object or adverb before it, if you first check whether an object or adverb is present in the word before the word to be analyzed, then [Flock] in [Tear Off Paper] is appropriately used as a verb. Can be determined. Verb determination may be performed based on a verb determination function p52 which is a single part of speech determination function. Adjectives can also be preceded by an adverb, so they can be judged in advance of a noun. Determination of adjectives may also be performed using the adjective determination function p53.

순차적으로 명사 판정 함수(p54)를 이용하여 명사인지 여부가 확인될 수 있다. 명사 판정 함수(p54)는, 도 6에 도시된 바와 같이, 특정 품사 또는 특정 형태가 함께 오는 형태를 가지고 있으므로, 이를 기반으로 판단할 수 있다.Whether or not it is a noun may be checked sequentially using the noun determination function p54. The noun determination function p54, as illustrated in FIG. 6, has a form in which a specific part of speech or a specific form comes together, and thus can be determined based on this.

또한, 동사-일반 명사 함수(P5)는, 분석 대상 어절 내의 단어나 형태소의 길이가 분석 대상 어절의 길이와 동일한지 여부를 판단하기 위한 함수(p55)를 포함할 수도 있다. 만약 어절 내에 단어나 형태소가 혼자 존재한다면(다시 말해서, 어절이 하나의 단어 또는 하나의 형태소만을 갖는다면), 이와 같은 단어나 형태소는 통상 명사에 해당하지, 동사에 해당하는 경우는 극히 드물거나 없다. 그러므로, 명사 및 동사 양자로 판단될 수 있는 경우에 있어서, 동사-일반 명사 함수(P5)는 단어나 형태소의 길이와 어절의 길이를 비교하고, 만약 그 길이가 동일하면 명사로 판단하고, 그렇지 않으면 동사로 판단하도록 한다. 이에 따라, 동음이품사에 해당하는 단어나 형태소가 동사 및 명사 중 어느 하나로 판단될 수 있게 된다.In addition, the verb-general noun function P5 may include a function p55 for determining whether the length of the word or morpheme in the word to be analyzed is the same as the length of the word to be analyzed. If a word or morpheme exists alone in a word (in other words, if the word has only one word or only one morpheme), then such a word or morpheme is usually a noun, very rarely or not a verb. . Therefore, in cases where both nouns and verbs can be judged, the verb-general noun function (P5) compares the length of a word or morpheme with the length of a word, and if the length is the same, it is judged as a noun, otherwise Try to judge by verb. Accordingly, a word or morpheme that corresponds to a homoeum-ipomsa can be determined as either a verb or a noun.

결과 획득 및 처리부(139)는, 일반 형태소 처리부(135) 및 동음이품사 처리부(137) 중 적어도 하나로부터 처리 결과를 전달받아, 입력된 문장의 어절에 대한 최종적인 분석 결과를 획득한다. 예를 들어, 만약 일반 형태소 처리부(135) 및 동음이품사 처리부(137)가 품사의 판단 결과만을 획득하는 경우, 결과 획득 및 처리부(139)는 획득한 품사 판단 결과를 기반으로 각 어절에 대해 품사 태깅을 수행할 수도 있다. 또한, 결과 획득 및 처리부(139)는 분석 결과를 단말 장치(10) 등으로 전송하거나, 분석 결과를 저장부(110)로 전달하여 저장되도록 하거나, 및/또는 분석 결과가 출력부(103)를 통해 외부로 출력되도록 제어할 수도 있다. 이외에도 결과 획득 및 처리부(139)는 설계자의 임의적 선택에 따라 분석 결과를 기반으로 각종 연산 처리 및/또는 제어 동작을 수행할 수도 있다.The result acquisition and processing unit 139 receives a processing result from at least one of the general morpheme processing unit 135 and the homoemic part of the speech processing unit 137, and obtains a final analysis result of the word of the input sentence. For example, if the general morpheme processing unit 135 and the homogeneous part-of-speech processing unit 137 acquire only the result of the determination of part of speech, the result acquisition and processing unit 139 is based on the obtained part of speech determination result, for each word. You can also do tagging. In addition, the result acquisition and processing unit 139 transmits the analysis result to the terminal device 10 or the like, or transmits the analysis result to the storage unit 110 to be stored, and/or the analysis result is transmitted to the output unit 103. It can also be controlled to be output to the outside through. In addition, the result acquisition and processing unit 139 may perform various arithmetic processing and/or control operations based on the analysis result according to the designer's arbitrary selection.

이하 도 12를 참조하여 한글 형태소 분석 방법의 일 실시예에 대해서 설명하도록 한다.Hereinafter, an embodiment of a method for analyzing Korean morphemes will be described with reference to FIG. 12.

도 12는 한글 형태소 분석 방법의 일 실시예에 대한 흐름도이다.12 is a flowchart of an embodiment of a method for analyzing Korean morphemes.

도 12에 도시된 한글 형태소 분석 방법의 일 실시예에 따르면, 먼저 한글 형태소 분석 장치 또는 이와 통신 가능하게 연결된 단말 장치에 문장이 입력된다(151). 이와 같은 문장의 입력은 사용자에 의해 직접 수행되는 것일 수도 있고, 및/또는 다른 컴퓨터 장치 등에 의해 수행되는 것일 수도 있다. 또한, 문장의 입력은 텍스트의 형태로 입력될 수도 있고, 음성 등의 형태로 입력될 수도 있다. 음성 등의 형태로 문장이 입력된 경우, 음성 형태의 문장은 텍스트로의 변환 과정을 더 거칠 수 있다.According to an embodiment of the Hangul morpheme analysis method shown in FIG. 12, first, a sentence is input to a Hangul morpheme analysis apparatus or a terminal device communicatively connected thereto (151). The input of such a sentence may be performed directly by the user and/or may be performed by another computer device. In addition, the input of the sentence may be input in the form of text or voice. When a sentence is input in the form of voice or the like, the sentence in the voice form may undergo a conversion process to text.

한글 형태소 분석 장치는, 직접 입력 받거나 단말 장치로부터 전송된 문장으로부터 어절을 분리할 수 있다(152). 실시예에 따라서 단말 장치가 문장으로부터 어절을 분리할 수도 있다. 이 경우, 한글 형태소 분석 장치는 어절을 수신하게 된다.The Hangul morpheme analysis apparatus may separate a word from a sentence directly input or transmitted from a terminal device (152). Depending on the embodiment, the terminal device may separate words from sentences. In this case, the Hangul morpheme analysis device receives the word.

한글 형태소 분석 장치는 어절, 어절 내의 단어 또는 어절 내의 형태소가 동음이품사에 해당하는지 여부를 판단할 수 있다(153). 동음이품사에 대한 판단은, 예를 들어, 형태소 분석 데이터베이스를 이용하여 수행될 수도 있으며, 보다 구체적으로는 복수 품사 어근 데이터베이스 및/또는 복수 품사 어미 데이터베이스를 이용하여 수행될 수도 있다.The Hangul morpheme analysis apparatus may determine whether a word in a word, a word in a word, or a morpheme in a word corresponds to a homophonetic part of the word (153). The determination of the homoeum two parts of speech may be performed using, for example, a morpheme analysis database, and more specifically, may be performed using a multiple part-of-speech root database and/or a multiple part-of-speech ending database.

만약 동음이품사에 해당하지 않는다고 판단되면(153의 아니오), 한글 형태소 분석 장치는, 어절, 어절 내의 단어 또는 어절 내의 형태소에 대해 통상 알려진 일반적인 형태소 분석을 수행하게 된다(154).If it is determined that the homophone does not correspond to the part of the word (No in 153), the Hangul morpheme analysis device performs a commonly known general morpheme analysis on a word, a word within a word, or a morpheme within a word (154).

반대로 만약 동음이품사에 해당한다고 판단되면(153의 예), 한글 형태소 분석 장치는 동음이품사 분석을 진행할 수 있다(155). 이 경우, 한글 형태소 분석 장치는, 형태소 분석 데이터베이스를 이용하여 동음이품사에 대한 분석을 진행하는 것도 가능하다. 여기서, 형태소 분석 데이터베이스는, 예를 들어, 복수 품사 어근 데이터베이스, 복수 품사 어미 데이터베이스 및/또는 동음이품사 유형 데이터베이스를 포함할 수 있다.On the contrary, if it is determined that it corresponds to a homophoneous part of the story (example of 153), the Hangul morpheme analysis device may proceed with the analysis of the same sound part of the part (155). In this case, the Hangul morpheme analysis apparatus may perform an analysis on the homophones by using the morpheme analysis database. Here, the morpheme analysis database may include, for example, a multi-part-of-speech root database, a multi-part-of-speech ending database, and/or a homophonetic two-parts type database.

일 실시예에 의하면, 동음이품사 분석을 수행하기 위하여, 먼저 어절의 어근 등에 대응되는 데이터가 복수 품사 어근 데이터베이스에 존재하는지 여부가 판단될 수 있다. 만약 어절의 어근 등에 대응되는 데이터가 복수 품사 어근 데이터베이스로부터 검색되면, 어절의 어미 등에 대응되는 데이터가 복수 품사 어미 데이터베이스에 존재하는지 여부가 판단될 수 있다. 만약 어미 등에 대응되는 데이터가 복수 품사 어미 데이터베이스로부터 획득 가능하면, 단일 품사 판정 함수를 이용하여 동음이품사에 해당하는 어절이나 형태소에 대한 형태소 분석이 수행되게 된다. 실시예에 따라서, 어미 등에 대응되는 데이터가 복수 품사 어미 데이터베이스로부터 검출되는지 여부에 대한 판단은, 어근 등에 대응되는 데이터가 복수 품사 어근 데이터베이스로부터 검출되는 여부의 판단에 선행하여 수행되는 것도 가능하다. 또한, 이 둘은 동시에 수행될 수도 있다.According to an embodiment, in order to perform a homophonetic part-of-speech analysis, first, it may be determined whether data corresponding to a root of a word exists in a multi-part-of-speech root database. If data corresponding to the root of a word or the like is retrieved from the multi-part-of-speech root database, it may be determined whether data corresponding to the ending of the word or the like exists in the multi-part-of-speech ending database. If data corresponding to a ending or the like can be obtained from a multiple part-of-speech ending database, a morpheme analysis is performed on a word or morpheme corresponding to a homophonic part-of-speech using a single part of speech determination function. According to an exemplary embodiment, the determination as to whether data corresponding to a ending or the like is detected from the multi-part-of-speech mother database may be performed prior to determining whether data corresponding to a root or the like is detected from the multi-part-of-speech root database. Also, both may be performed simultaneously.

또한, 만약 어절의 어근 등에 대응되는 데이터가 복수 품사 어근 데이터베이스에 존재하지 않거나, 및/또는 어미 등에 대응되는 데이터가 복수 품사 어미 데이터베이스에 존재하지 않는 경우에는, 복수 품사 판정 함수를 이용하여 동음이품사에 해당하는 어절이나 형태소에 대한 형태소 분석이 수행될 수 있다. 이 경우, 동음이품사 유형 데이터베이스가 먼저 열람될 수 있으며, 열람 결과에 따라서 동음이품사의 유형이 적어도 하나 확인되고, 확인된 동음이품사의 유형을 기반으로 복수 품사 판정 함수를 이용한 형태소 분석이 수행될 수도 있다.In addition, if the data corresponding to the root of a word does not exist in the multi-part-of-speech root database, and/or data corresponding to the ending, etc. does not exist in the multi-part-of-speech ending database, the homophonic two parts of speech determination function is used. A morpheme analysis may be performed for a word or morpheme corresponding to. In this case, the homoeum heterophasic type database may be searched first, and at least one type of homoemic heterophony is identified according to the search result, and a morpheme analysis using a multi-part of speech determination function is performed based on the identified type of homoemic heterophony. It could be.

순차적으로 일반적인 형태소 분석 수행(154) 또는 동음이품사 분석 수행(155)에 따른 분석 결과가 획득된다(156). 분석 결과는 일반적인 형태소 분석 수행(154) 또는 동음이품사 분석 수행(155)이 종료된 이후에 획득될 수도 있다. 또한, 분석 결과는, 일반적인 형태소 분석 수행 과정(154) 또는 동음이품사 분석 수행 과정(155)에서 실시간으로 획득될 수도 있다. 획득된 분석 결과는, 분석 결과의 이용 목적 등에 따라서 추가적으로 가공 또는 변형될 수도 있다. 또한, 단말 장치로 전송되거나 또는 한글 형태소 분석 장치에 연결된 스피커나 모니터 장치 등을 통하여 사용자 등에게 제공될 수도 있다.An analysis result according to performing a general morpheme analysis (154) or a homoemic part-of-satellite analysis (155) is sequentially obtained (156). The analysis result may be obtained after the general morpheme analysis 154 or the homoemic part-of-sight analysis 155 is finished. In addition, the analysis result may be obtained in real time in the process of performing a general morpheme analysis 154 or a process 155 of performing a homophonetic analysis. The obtained analysis result may be additionally processed or transformed according to the purpose of using the analysis result. In addition, it may be transmitted to a terminal device or provided to a user through a speaker or a monitor device connected to the Hangul morpheme analysis device.

상술한 실시예에 따른 한글 형태소 분석 방법은, 컴퓨터 장치에 의해 구동될 수 있는 프로그램의 형태로 구현될 수 있다. 여기서 프로그램은, 프로그램 명령, 데이터 파일 및 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 프로그램은 기계어 코드나 고급 언어 코드를 이용하여 설계 및 제작된 것일 수 있다. 프로그램은 상술한 방법을 구현하기 위하여 특별히 설계된 것일 수도 있고, 컴퓨터 소프트웨어 분야에서 통상의 기술자에게 기 공지되어 사용 가능한 각종 함수나 정의를 이용하여 구현된 것일 수도 있다. 또한, 여기서, 컴퓨터 장치는, 프로그램의 기능을 실현 가능하게 하는 프로세서나 메모리 등을 포함하여 구현된 것일 수 있으며, 필요에 따라 통신 장치를 더 포함할 수도 있다.The Hangul morpheme analysis method according to the above-described embodiment may be implemented in the form of a program that can be driven by a computer device. Here, the program may include a program command, a data file, a data structure, or the like alone or in combination. The program may be designed and produced using machine code or high-level language code. The program may be specially designed to implement the above-described method, or may be implemented using various functions or definitions previously known to and available to those skilled in the computer software field. In addition, here, the computer device may be implemented including a processor or a memory that enables the function of a program to be realized, and may further include a communication device if necessary.

상술한 한글 형태소 분석 방법을 구현하기 위한 프로그램은, 컴퓨터에 의해 판독 가능한 기록 매체에 기록될 수 있다. 컴퓨터에 의해 판독 가능한 기록 매체는, 예를 들어, 하드 디스크나 플로피 디스크와 같은 자기 디스크 저장 매체, 자기 테이프, 콤팩트 디스크나 디브이디와 같은 광 기록 매체, 플롭티컬 디스크와 같은 자기-광 기록 매체 및 롬, 램 또는 플래시 메모리 등과 같은 반도체 저장 장치 등 컴퓨터 등의 호출에 따라 실행되는 특정 프로그램을 저장 가능한 다양한 종류의 하드웨어 장치를 포함할 수 있다. A program for implementing the above-described method for analyzing Korean morphemes may be recorded in a recording medium readable by a computer. The computer-readable recording medium includes, for example, a magnetic disk storage medium such as a hard disk or a floppy disk, a magnetic tape, an optical recording medium such as a compact disk or a DVD, a magnetic-optical recording medium such as a floppy disk, and a ROM. , A semiconductor storage device such as RAM or flash memory, etc., may include various types of hardware devices capable of storing a specific program executed according to a call from a computer.

이상 한글 형태소 분석 장치, 시스템 및 방법의 여러 실시예에 대해 설명하였으나, 한글 형태소 분석 장치, 시스템 및 방법은 오직 상술한 실시예에 한정되는 것은 아니다. 해당 기술 분야에서 통상의 지식을 가진 자가 상술한 실시예를 기초로 수정 및 변형하여 구현 가능한 다양한 장치, 시스템 또는 방법 역시 상술한 한글 형태소 분석 장치, 시스템 또는 방법의 일 실시예가 될 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성 요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나 다른 구성 요소 또는 균등물에 의하여 대치되거나 또는 치환되더라도, 이는 상술한 한글 형태소 분석 장치, 시스템 및 방법의 일 실시예가 될 수 있다.Although various embodiments of the Hangul morpheme analysis apparatus, system, and method have been described above, the Hangul morpheme analysis apparatus, system, and method are not limited to the above-described embodiments. Various devices, systems, or methods that can be implemented by modifying and modifying based on the above-described embodiment by a person of ordinary skill in the art may also be an embodiment of the aforementioned Hangul morpheme analysis device, system, or method. For example, the described techniques are performed in an order different from the described method, and/or components such as systems, structures, devices, circuits, etc. described are combined or combined in a form different from the described method, or other components or Even if it is substituted or substituted by an equivalent, this may be an embodiment of the apparatus, system, and method for analyzing the Hangul morpheme described above.

10: 단말 장치 100: 한글 형태소 분석 장치
101: 입출력부 109: 통신부
110: 저장부 111: 형태소 분석 데이터베이스
113: 복수 품사 어근 데이터베이스
115: 복수 품사 어미 데이터베이스
117: 동음이품사 유형 데이터베이스
130: 프로세서 131: 어절 분리부
133: 동음이품사판정부 135: 일반 형태소 처리부
137: 동음이품사 처리부 139: 결과 획득 및 처리부
10: terminal device 100: Hangul morpheme analysis device
101: input/output unit 109: communication unit
110: storage unit 111: morpheme analysis database
113: Multiple Part of Speech Roots Database
115: multiple parts of speech mother database
117: Dongeum Part-Time Type Database
130: processor 131: word separation unit
133: Hom Eum Transplantation Judgment 135: General Morphological Processing Department
137: homoeum transfer part processing unit 139: result acquisition and processing unit

Claims (21)

형태소 분석 데이터베이스; 및
상기 형태소 분석 데이터베이스를 기반으로 분석 대상 어절이 동음이품사인지 여부를 판단하고, 상기 분석 대상 어절이 동음이품사인 경우, 단일 품사 판정 함수 및 복수 품사 판정 함수 중 어느 하나를 기반으로 상기 분석 대상 어절에 대응하는 적어도 하나의 품사를 결정하는 프로세서;를 포함하고,
상기 형태소 분석 데이터베이스는,
복수 품사로 활용될 수 있는 적어도 하나의 어근으로 구축된 복수 품사 어근 데이터베이스; 및
복수 품사로 활용될 수 있는 적어도 하나의 어미로 구축된 복수 품사 어미 데이터베이스;를 포함하며,
상기 프로세서는,
상기 분석 대상 어절 내에서 추출된 어느 하나의 형태소가 상기 복수 품사 어근 데이터베이스에 존재하고, 다른 하나의 형태소가 상기 복수 품사 어미 데이터베이스에 존재하면, 단일 품사 판정 함수를 기반으로 상기 분석 대상 어절의 적어도 하나의 형태소의 품사를 판단하는 한글 형태소 분석 장치.
Morpheme analysis database; And
Based on the morpheme analysis database, it is determined whether or not the word to be analyzed is a homophonic part-of-speech, and when the word to be analyzed is a homophonic part-of-speech, the analysis target word is based on any one of a single part of speech determination function and a multiple part of speech determination function Includes; a processor for determining at least one part of speech corresponding to,
The morpheme analysis database,
A multi-part-of-speech root database constructed with at least one root that can be used as a plurality of parts of speech; And
Includes; a plurality of parts of speech ending database constructed with at least one ending that can be used as a plurality of parts of speech,
The processor,
If any one morpheme extracted from the analysis target word exists in the plural part-of-speech root database, and the other morpheme exists in the multiple part-of-speech ending database, at least one of the analysis target word is based on a single part-of-speech decision function Hangul morpheme analysis device that judges the part of speech of morphemes of.
제1항에 있어서,
상기 프로세서는, 상기 분석 대상 어절이 동음이품사가 아니라고 판단되면, 상기 분석 대상 어절에 대한 일반적인 형태소 분석을 수행하는 한글 형태소 분석 장치.
The method of claim 1,
The processor, when it is determined that the analysis target word is not a homophonetic part-of-sight, performs a general morpheme analysis on the analysis target word.
삭제delete 삭제delete 제1항에 있어서,
상기 단일 품사 판정 함수는, 일반 명사 판정 함수, 고유 명사 판정 함수, 의존 명사 판정 함수, 수사 판정 함수, 일반 동사 판정 함수, 형용사 판정 함수, 보조 동사 판정 함수 및 어근 판정 함수 중 적어도 하나를 포함하는 한글 형태소 분석 장치.
The method of claim 1,
The single part of speech determination function includes at least one of a general noun determination function, a proper noun determination function, a dependent noun determination function, a rhetorical determination function, a general verb determination function, an adjective determination function, an auxiliary verb determination function, and a root determination function. Morphological analysis device.
제1항에 있어서,
상기 형태소 분석 데이터베이스는,
동음이품사에 대한 적어도 하나의 유형을 포함하는 동음이품사 유형 데이터베이스;를 더 포함하는 한글 형태소 분석 장치.
The method of claim 1,
The morpheme analysis database,
Hangeul morpheme analysis apparatus further comprising a; homoeum i-Pomsa type database including at least one type of homoeum i-Pomsa.
제6항에 있어서,
상기 프로세서는, 상기 분석 대상 어절 내에서 추출된 적어도 하나의 형태소가 복수 품사 어근 데이터베이스 및 복수 품사 어미 데이터베이스에 존재하지 않는 경우, 상기 동음이품사 유형 데이터베이스를 열람하는 한글 형태소 분석 장치.
The method of claim 6,
The processor, when at least one morpheme extracted from the analysis target word does not exist in the multi-part-of-speech root database and the multi-part-of-speech ending database, the Hangul morpheme analysis apparatus for reading the homophoneic two-parts type database.
제7항에 있어서,
상기 프로세서는, 상기 적어도 하나의 형태소가 상기 동음이품사 유형 데이터베이스의 열람 결과를 기반으로 상기 복수 품사 판정 함수를 기반으로 상기 적어도 하나의 형태소의 품사를 판단하는 한글 형태소 분석 장치.
The method of claim 7,
The processor, the Hangul morpheme analysis apparatus, wherein the at least one morpheme determines the part of speech of the at least one morpheme based on the plurality of parts-of-speech determination function based on a result of reading the homophoneic part-of-speech type database.
제8항에 있어서,
상기 복수 품사 판정 함수는, 서로 상이한 단일 품사 판정 함수를 적어도 둘 이상 조합하여 획득된 것인 한글 형태소 분석 장치.
The method of claim 8,
The plurality of parts-of-speech determination functions are obtained by combining at least two or more different single part-of-speech determination functions.
제9항에 있어서,
상기 서로 상이한 품사 판정 함수는, 동사 판정 함수, 명사 판정 함수 및 어근 판정 함수 중 적어도 둘을 포함하는 한글 형태소 분석 장치.
The method of claim 9,
The different parts of speech determination functions include at least two of a verb determination function, a noun determination function, and a root determination function.
한글 형태소 분석 장치에 의해서 수행되는 한글 형태소 분석 방법으로서,
문장이 입력되는 단계;
문장으로부터 어절을 분리하는 단계;
분석 대상 어절이 동음이품사인지 여부를 형태소 분석 데이터베이스를 기반으로 판단하는 단계; 및
상기 분석 대상 어절이 동음이품사이면, 단일 품사 판정 함수 및 복수 품사 판정 함수 중 어느 하나를 기반으로 상기 분석 대상 어절에 대응하는 적어도 하나의 품사를 결정하는 단계;를 포함하고,
상기 형태소 분석 데이터베이스는,
복수 품사로 활용될 수 있는 적어도 하나의 어근으로 구축된 복수 품사 어근 데이터베이스; 및
복수 품사로 활용될 수 있는 적어도 하나의 어미로 구축된 복수 품사 어미 데이터베이스;를 포함하며,
상기 분석 대상 어절이 동음이품사이면, 단일 판정 함수 및 복수 품사 판정 함수 중 어느 하나를 기반으로 상기 분석 대상 어절에 대응하는 적어도 하나의 품사를 결정하는 단계는,
상기 분석 대상 어절 내에서 추출된 어느 하나의 형태소가 상기 복수 품사 어근 데이터베이스에 존재하고, 다른 하나의 형태소가 상기 복수 품사 어미 데이터베이스에 존재하면, 단일 품사 판정 함수를 기반으로 상기 분석 대상 어절의 적어도 하나의 형태소의 품사를 판단하는 단계;를 포함하는 한글 형태소 분석 방법.
As a Hangul morpheme analysis method performed by a Hangul morpheme analysis device,
Inputting a sentence;
Separating a word from a sentence;
Determining whether or not the analysis target word is a homoeum part of speech based on a morpheme analysis database; And
If the analysis target word is a homophonic part of speech, determining at least one part of speech corresponding to the analysis target word based on any one of a single part of speech determination function and a plurality of parts of speech determination function; and
The morpheme analysis database,
A multi-part-of-speech root database constructed with at least one root that can be used as a plurality of parts of speech; And
Includes; a plurality of parts of speech ending database constructed with at least one ending that can be used as a plurality of parts of speech,
If the analysis target word is a homophonic part of speech, determining at least one part of speech corresponding to the analysis target word based on any one of a single determination function and a plurality of parts of speech determination function,
If any one morpheme extracted from the analysis target word exists in the plural part-of-speech root database, and the other morpheme exists in the multiple part-of-speech ending database, at least one of the analysis target word is based on a single part-of-speech decision function Hangul morpheme analysis method comprising a; determining the part of speech of the morpheme of.
제11항에 있어서,
상기 분석 대상 어절이 동음이품사가 아니라고 판단되면, 상기 분석 대상 어절에 대한 일반적인 형태소 분석을 수행하는 단계;를 더 포함하는 한글 형태소 분석 방법.
The method of claim 11,
If it is determined that the analysis target word is not a homophonetic part of the word, performing a general morpheme analysis on the analysis target word; Hangul morpheme analysis method further comprising.
삭제delete 삭제delete 제11항에 있어서,
상기 단일 품사 판정 함수는, 일반 명사 판정 함수, 고유 명사 판정 함수, 의존 명사 판정 함수, 수사 판정 함수, 일반 동사 판정 함수, 형용사 판정 함수, 보조 동사 판정 함수 및 어근 판정 함수 중 적어도 하나를 포함하는 한글 형태소 분석 방법.
The method of claim 11,
The single part of speech determination function includes at least one of a general noun determination function, a proper noun determination function, a dependent noun determination function, a rhetorical determination function, a general verb determination function, an adjective determination function, an auxiliary verb determination function, and a root determination function. Morphological analysis method.
제11항에 있어서,
상기 형태소 분석 데이터베이스는,
동음이품사에 대한 적어도 하나의 유형을 포함하는 동음이품사 유형 데이터베이스;를 더 포함하는 한글 형태소 분석 방법.
The method of claim 11,
The morpheme analysis database,
A method for analyzing Korean morphemes further comprising a homoeum iPomsa type database including at least one type of homoeum iPomsa.
제16항에 있어서,
상기 분석 대상 어절이 동음이품사이면, 단일 판정 함수 및 복수 품사 판정 함수 중 어느 하나를 기반으로 상기 분석 대상 어절에 대응하는 적어도 하나의 품사를 결정하는 단계는,
상기 분석 대상 어절 내에서 추출된 적어도 하나의 형태소가 복수 품사 어근 데이터베이스 및 복수 품사 어미 데이터베이스에 존재하지 않는 경우, 상기 동음이품사 유형 데이터베이스를 열람하는 단계;를 포함하는 한글 형태소 분석 방법.
The method of claim 16,
If the analysis target word is a homophonic part of speech, determining at least one part of speech corresponding to the analysis target word based on any one of a single determination function and a plurality of parts of speech determination function,
When at least one morpheme extracted from the analysis target word does not exist in the multi-part-of-speech root database and the multi-part-of-speech ending database, reading the homophoneic two-parts type database; and Hangul morpheme analysis method comprising:
제17항에 있어서,
상기 분석 대상 어절이 동음이품사이면, 단일 판정 함수 및 복수 품사 판정 함수 중 어느 하나를 기반으로 상기 분석 대상 어절에 대응하는 적어도 하나의 품사를 결정하는 단계는,
상기 적어도 하나의 형태소가 상기 동음이품사 유형 데이터베이스의 열람 결과를 기반으로 상기 복수 품사 판정 함수를 기반으로 상기 적어도 하나의 형태소의 품사를 판단하는 단계;를 더 포함하는 한글 형태소 분석 방법.
The method of claim 17,
If the analysis target word is a homophonic part of speech, determining at least one part of speech corresponding to the analysis target word based on any one of a single determination function and a plurality of parts of speech determination function,
The method of analyzing Korean morphemes further comprising: determining, by the at least one morpheme, the part-of-speech of the at least one morpheme based on the plurality of parts-of-speech determination function based on a result of browsing the homophoneic part-of-speech type database.
제18항에 있어서,
상기 복수 품사 판정 함수는, 서로 상이한 단일 품사 판정 함수를 적어도 둘 이상 조합하여 획득된 것인 한글 형태소 분석 방법.
The method of claim 18,
The plurality of parts-of-speech determination functions are obtained by combining at least two or more different single part-of-speech determination functions.
제19항에 있어서,
상기 서로 상이한 품사 판정 함수는, 동사 판정 함수, 명사 판정 함수 및 어근 판정 함수 중 적어도 둘을 포함하는 한글 형태소 분석 방법.
The method of claim 19,
The different parts of speech determination functions include at least two of a verb determination function, a noun determination function, and a root determination function.
삭제delete
KR1020180173254A 2018-12-31 2018-12-31 Apparatus for korean morphemic analysis and method for the same KR102171373B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180173254A KR102171373B1 (en) 2018-12-31 2018-12-31 Apparatus for korean morphemic analysis and method for the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180173254A KR102171373B1 (en) 2018-12-31 2018-12-31 Apparatus for korean morphemic analysis and method for the same

Publications (2)

Publication Number Publication Date
KR20200082559A KR20200082559A (en) 2020-07-08
KR102171373B1 true KR102171373B1 (en) 2020-10-28

Family

ID=71600650

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180173254A KR102171373B1 (en) 2018-12-31 2018-12-31 Apparatus for korean morphemic analysis and method for the same

Country Status (1)

Country Link
KR (1) KR102171373B1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101508070B1 (en) 2013-12-17 2015-04-07 울산대학교 산학협력단 Method for word sense diambiguration of polysemy predicates using UWordMap

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990053161A (en) * 1997-12-23 1999-07-15 정선종 Search Method of Related Verbs for Semantic Information Retrieval
KR20010057781A (en) * 1999-12-23 2001-07-05 오길록 Apparatus for analysing multi-word morpheme and method using the same
KR101079869B1 (en) * 2009-01-12 2011-11-04 울산대학교 산학협력단 Method for tagging part of speech and homograph, terminal device using the same

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101508070B1 (en) 2013-12-17 2015-04-07 울산대학교 산학협력단 Method for word sense diambiguration of polysemy predicates using UWordMap

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
김준수 외 2명, ‘가중치를 이용한 통계 기반 한국어 동형이의어 분별 모델’, 한국정보과학회논문지: 소프트웨어 및 응용 제30권 제11호, pp. 1112-1123, 2003.12
정해강 외, 용어 사전의 특성이 문서 분류 정확도에 미치는 영향 연구, 대한경영정보학회 경영과정보연구 37권4호 pp.41-62 (2018.12)

Also Published As

Publication number Publication date
KR20200082559A (en) 2020-07-08

Similar Documents

Publication Publication Date Title
Jain et al. Sarcasm detection in mash-up language using soft-attention based bi-directional LSTM and feature-rich CNN
KR102577514B1 (en) Method, apparatus for text generation, device and storage medium
Ghosh et al. Fracking sarcasm using neural network
Tabassum et al. A survey on text pre-processing & feature extraction techniques in natural language processing
US9262411B2 (en) Socially derived translation profiles to enhance translation quality of social content using a machine translation
US20140316764A1 (en) Clarifying natural language input using targeted questions
Arumugam et al. Hands-On Natural Language Processing with Python: A practical guide to applying deep learning architectures to your NLP applications
Vinnarasu et al. Speech to text conversion and summarization for effective understanding and documentation
Jamatia et al. Deep learning-based language identification in English-Hindi-Bengali code-mixed social media corpora
Priyadarshi et al. Towards the first Maithili part of speech tagger: Resource creation and system development
Karanikolas et al. Large Language Models versus Natural Language Understanding and Generation
US20220365956A1 (en) Method and apparatus for generating patent summary information, and electronic device and medium
CN110348007A (en) A kind of text similarity determines method and device
Pérez-Rosas et al. Sentiment analysis of online spoken reviews.
CN114722832A (en) Abstract extraction method, device, equipment and storage medium
KR102108129B1 (en) Apparatus for interpreting meaning of text emoticon, and recording medium therefor
Mahata et al. JUNLP@ Dravidian-CodeMix-FIRE2020: Sentiment classification of code-mixed tweets using bi-directional RNN and language tags
Le et al. UQAM-NTL: Named entity recognition in Twitter messages
KR101072100B1 (en) Document processing apparatus and method for extraction of expression and description
Priyadarshi et al. A study on the performance of recurrent neural network based models in Maithili part of speech tagging
KR102171373B1 (en) Apparatus for korean morphemic analysis and method for the same
Londhe et al. Challenges in multilingual and mixed script sentiment analysis
Raring et al. Semantic relations between text segments for semantic storytelling: Annotation tool-dataset-evaluation
Madasamy et al. Transfer learning based code-mixed part-of-speech tagging using character level representations for Indian languages
Rofiq Indonesian news extractive text summarization using latent semantic analysis

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant