KR20140049148A - Method for part-of-speech tagging based on morpheme segmentation and apparatus thereof - Google Patents

Method for part-of-speech tagging based on morpheme segmentation and apparatus thereof Download PDF

Info

Publication number
KR20140049148A
KR20140049148A KR1020120114533A KR20120114533A KR20140049148A KR 20140049148 A KR20140049148 A KR 20140049148A KR 1020120114533 A KR1020120114533 A KR 1020120114533A KR 20120114533 A KR20120114533 A KR 20120114533A KR 20140049148 A KR20140049148 A KR 20140049148A
Authority
KR
South Korea
Prior art keywords
morpheme
speech tagging
model
division
morphological
Prior art date
Application number
KR1020120114533A
Other languages
Korean (ko)
Inventor
나승훈
김창현
양성일
황금하
김운
서영애
신종훈
최승권
권오욱
이기영
노윤형
박은진
정상근
김영길
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020120114533A priority Critical patent/KR20140049148A/en
Publication of KR20140049148A publication Critical patent/KR20140049148A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Abstract

Disclosed are a word class tagging method based on morpheme separation and a device thereof. According to one embodiment of the present invention, the word class tagging method includes: a step of performing morpheme separation for a predetermined raw corpus; a step of searching for one or more documents similar to input text based on the result of the morpheme separation; a step of performing domain adaptation of a morpheme separation model and a word class tagging model using the searched similar documents; and a step of tagging word classes to the input text using the morpheme separation model and the word class tagging model to which domain adaptation is performed. The searching step uses a search database which is built by processing a group of documents in which the raw corpus is separated by morpheme based on the result of the morpheme separation or uses a plurality of clusters acquired by clustering the documents in which the raw corpus is separated by morpheme based on the result of the morpheme separation. By doing so, even if the word spacing among morphemes of the raw corpus is not clear, it is possible to perform domain adaptation of morpheme separation and word class tagging and to remove limitation of linguistic expandability. [Reference numerals] (AA) Start; (BB) End; (S110) Perform morpheme separation for a large-volume raw corpus; (S120) Search for documents similar to input text based on the morpheme separation result; (S130) Perform domain adaptation of a morpheme separation model and a word class tagging model using the searched similar documents; (S140) Tag word classes to the input text using the morpheme separation model and the word class tagging model to which domain adaptation is performed

Description

형태소 분할에 기반한 품사 태깅 방법 및 그 장치 {Method for part-of-speech tagging based on morpheme segmentation and apparatus thereof}Part-of-speech tagging based on morpheme segmentation and its apparatus {Method for part-of-speech tagging based on morpheme segmentation and apparatus

본 발명은 형태소 분할에 기반한 품사 태깅에 관한 것으로서, 보다 상세하게는 분할 및 태깅되지 않은 대규모 원시 코퍼스(large-scale raw corpus)만을 활용하여, 띄어쓰기가 명확하지 않은 한국어나 중국어 등에서도 적용할 수 있도록, 다국어 형태소 분할과 품사 태깅 모델에 대한 도메인 적응화 방안을 제공할 수 있는 형태소 분할에 기반한 품사 태깅 방법 및 그 장치에 관한 것이다.The present invention relates to a part-of-speech tagging based on morphological division, and more specifically, by using only large-scale raw corpus that is not segmented and tagged, so that it can be applied to Korean or Chinese, which are not clearly defined. The present invention relates to a part-of-speech tagging method and apparatus therefor that can provide a domain adaptation scheme for a multilingual morpheme segmentation and part-of-speech tagging model.

현재 가장 많이 활용되는 품사 태깅 방법은 통계와 사전에 기반한 접근법으로, 품사 태깅된 코퍼스로부터 학습된 확률 정보와 이와 별도로 수동으로 기 구축된 어휘 사전으로 구성된다. 다양한 도메인의 문장들을 효과적으로 처리하도록 하기 위해서, 종래 일 실시예 기술에 따른 품사 태깅 방법은 a) 부가적인 대량의 품사 부착 코퍼스를 사용하거나, b) 기 구축된 어휘 사전을 확장하는 방식들이 대표적이다.The most commonly used part-of-speech tagging method is a statistical and dictionary-based approach, which consists of probabilistic information learned from the part-of-speech tagged corpus and a manually-built lexical dictionary. In order to effectively process sentences in various domains, the conventional part-of-speech tagging method according to the prior art technique is a) using a large amount of additional parts-of-speech corpus, or b) extending an existing lexical dictionary.

그러나, 이러한 종래 방식들은, 어휘 사전이 규모화됨에 따라 분석 후보로서 가능한 형태소의 수를 증가시켜 결과적으로 형태소 분할/품사 태깅 애매성을 크게 높이게 된다. However, these conventional approaches increase the number of possible morphemes as candidates for analysis as the lexical dictionary scales, resulting in greatly increased morphological segmentation / part-of-speech tagging ambiguity.

이러한 문제를 해소하기 위해, 종래 시스템들은 품사 태깅의 "도메인 적응화 방법"을 제안하였는데, 여기서 도메인 적응화 방법이란 본래의 태깅 모델을 그대로 사용하지 않고, 입력문의 도메인에 적합하도록 확률 모델을 수정하여, 태깅상 발생하는 형태소 애매성을 줄이는 방법으로, a) HMM(Hidden Markov Model) 태깅 모델을 대규모 원시 코퍼스에 부트스트래핑하는 방식, b) 문서 기반 로컬 HMM 모델 적응화 방법들이 제안되었다.In order to solve this problem, conventional systems have proposed a "domain adaptation method" of part-of-speech tagging, where the domain adaptation method does not use the original tagging model as it is, but modifies the probabilistic model to fit the domain of the input statement. As a way to reduce the morphological ambiguity that occurs, a) a method of bootstrapping a Hidden Markov Model (HMM) tagging model into a large primitive corpus, and b) a document-based local HMM model adaptation method have been proposed.

그러나, 이런 종래 방식들은 모두 단어간 띄어쓰기가 명확한 영어권 언어에 국한되어 있어, 다른 언어로의 확장성을 갖지 못하는 문제점이 있다. 특히, 한국어나 중국어 등과 같은 언어들의 경우에는 형태소간의 띄어쓰기가 명확하지 않아 형태소 분할 문제가 내포되어 있다.
However, all of these conventional methods are limited to English-speaking languages with clear spacing between words, and thus there is a problem in that they cannot be extended to other languages. In particular, in the case of languages such as Korean or Chinese, the spacing between morphemes is not clear, which implies a morphological division problem.

따라서, 품사 태깅 뿐만 아니라 형태소 분할까지 모두 포괄할 수 있는 방법의 필요성이 대두된다.Therefore, there is a need for a method that can cover not only part-of-speech tagging but also morphological division.

한국등록특허 제0784730호 (등록일 2007.12.05)Korean Registered Patent No. 0784730 (Registration date 2007.12.05) 한국공개특허 제2011-0018140호 (공개일 2011.02.23)Korean Laid-Open Patent No. 2011-0018140 (published 2011.02.23)

상기와 같은 문제점을 해결하기 위하여 창안된 본 발명의 실시예에 따른 목적은, 기계 학습 기반 형태소 분할 방법을 도입함으로써, 대상 원시 코퍼스에 형태소간 띄어쓰기가 명확하지 않은 언어에 대해서도 형태소 분할 및 품사 태깅의 도메인 적응화가 가능한 형태소 분할에 기반한 품사 태깅 방법 및 그 장치를 제공하는데 있다.An object of the present invention, which was devised to solve the above problems, is to introduce a machine learning-based morpheme segmentation method, thereby enabling morphological segmentation and part-of-speech tagging even in languages where morphological spacing is not obvious in the target primitive corpus. The present invention provides a part-of-speech tagging method and an apparatus based on morpheme partitioning capable of domain adaptation.

또한, 본 발명은 형태소 분할 및 품사 태깅의 도메인 적응화를 가능하게 함으로써, 언어적 확장성의 한계를 해결할 수 있는 형태소 분할에 기반한 품사 태깅 방법 및 그 장치를 제공하는데 있다.Another object of the present invention is to provide a method and apparatus for tagging part-of-speech based on morphological division that can solve the limitation of linguistic extensibility by enabling domain adaptation of morphological division and part-of-speech tagging.

상기 목적을 달성하기 위한, 본 발명의 일 실시예에 따른 품사 태깅 방법은 미리 결정된 원시 코퍼스(raw corpus)에 대하여 형태소 분할을 수행하는 단계; 상기 수행된 상기 형태소 분할의 결과에 기초하여 입력문에 대한 적어도 하나 이상의 유사 문서를 검색하는 단계; 상기 검색된 상기 유사 문서를 이용하여 형태소 분할 모델 및 품사 태깅 모델에 대한 도메인 적응화를 수행하는 단계; 및 상기 도메인 적응화된 상기 형태소 분할 모델 및 상기 품사 태깅 모델을 이용하여 상기 입력문을 품사 태깅하는 단계를 포함한다.To achieve the above object, a part-of-speech tagging method according to an embodiment of the present invention comprises the steps of: performing morphological division on a predetermined raw corpus; Retrieving at least one similar document for an input statement based on the result of the morphological division performed; Performing domain adaptation on a morpheme division model and a part-of-speech tagging model using the retrieved similar document; And part-of-speech tagging the input statement using the domain-adapted morpheme division model and the part-of-speech tagging model.

상기 검색하는 단계는 상기 형태소 분할의 결과에 기초하여 상기 원시 코퍼스에 대해 형태소 분할된 문서 집합을 처리하여 색인 데이터베이스를 구축하는 단계; 상기 입력문에 대한 형태소 분할을 수행하여 질의어를 생성하는 단계; 및 상기 생성된 상기 질의어를 이용한 상기 색인 데이터베이스 검색을 통하여 상기 유사 문서를 검색하는 단계를 포함할 수 있다.The retrieving may include: processing a set of stemmed documents for the raw corpus based on the result of the stemming to build an index database; Generating a query by performing a morpheme division on the input statement; And searching for the similar document through the index database search using the generated query.

상기 생성하는 단계는 상기 입력문에 대한 형태소 분할을 수행하여 형태소 격자(lattice) 구조를 획득하고, 상기 획득된 상기 형태소 격자 구조를 변환하여 상기 질의어를 생성할 수 있다.The generating may include obtaining a morpheme lattice structure by performing morpheme division on the input statement, and generating the query word by converting the obtained morpheme lattice structure.

상기 형태소 분할을 수행하는 단계는 분할 정보가 포함된 상기 원시 코퍼스에 대하여 CRF(conditional random field)를 포함하는 기계 학습 방식에 기반하여 상기 형태소 분할을 수행할 수 있다.The morpheme division may be performed based on a machine learning method including a conditional random field (CRF) for the raw corpus including the segmentation information.

상기 도메인 적응화를 수행하는 단계는 상기 검색된 상기 유사 문서를 참조하여 상기 형태소 분할 모델과 상기 품사 태깅 모델 각각에서 적용되는 확률 정보를 업데이트함으로써, 상기 도메인 적응화를 수행할 수 있다.In performing the domain adaptation, the domain adaptation may be performed by updating probability information applied to each of the morpheme division model and the part-of-speech tagging model with reference to the searched similar document.

상기 형태소 분할 모델과 상기 품사 태깅 모델은 HMM(Hidden Markov Model)을 이용할 수 있다.The morpheme division model and the part-of-speech tagging model may use a Hidden Markov Model (HMM).

상기 검색하는 단계는 상기 형태소 분할의 결과에 기초하여 상기 원시 코퍼스에 대해 형태소 분할된 문서 집합을 클러스터링을 수행하여 복수의 클러스터들을 획득하는 단계; 상기 입력문에 대한 형태소 분할을 수행하는 단계; 및 상기 복수의 클러스터들 중 상기 형태소 분할된 상기 입력문에 대응하는 클러스터를 상기 유사 문서로 검색하는 단계를 포함할 수 있다.
The retrieving may include clustering the stemmed document set for the raw corpus based on a result of the stemming to obtain a plurality of clusters; Performing stemming for the input statement; And retrieving a cluster corresponding to the stemmed input sentence among the plurality of clusters as the similar document.

본 발명의 일 실시예에 따른 품사 태깅 장치는 미리 결정된 원시 코퍼스(raw corpus)에 대하여 형태소 분할을 수행하는 형태소 분할부; 상기 수행된 상기 형태소 분할의 결과에 기초하여 입력문에 대한 적어도 하나 이상의 유사 문서를 검색하는 검색부; 상기 검색된 상기 유사 문서를 이용하여 형태소 분할 모델 및 품사 태깅 모델에 대한 도메인 적응화를 수행하는 도메인 적응화부; 및 상기 도메인 적응화된 상기 형태소 분할 모델 및 상기 품사 태깅 모델을 이용하여 상기 입력문을 품사 태깅하는 품사 태깅부를 포함한다.A part-of-speech tagging apparatus according to an embodiment of the present invention includes a morpheme division unit that performs morphological division on a predetermined raw corpus; A retrieving unit for retrieving at least one or more similar documents for an input sentence based on the result of the morphological division performed; A domain adaptor for performing domain adaptation on the morpheme division model and the part-of-speech tagging model using the retrieved similar document; And a part-of-speech tagging part for tagging the input sentence using the domain-adapted morpheme division model and the part-of-speech tagging model.

나아가, 본 발명은 상기 형태소 분할의 결과에 기초하여 상기 원시 코퍼스에 대해 형태소 분할된 문서 집합을 처리하여 색인 데이터베이스를 구축하는 데이터베이스 구축부를 더 포함하고, 상기 검색부는 상기 입력문에 대한 형태소 분할을 수행하여 질의어를 생성하고, 상기 생성된 상기 질의어를 이용한 상기 색인 데이터베이스 검색을 통하여 상기 유사 문서를 검색할 수 있다.Furthermore, the present invention further includes a database construction unit for processing an morphologically segmented document set for the raw corpus based on the result of the morphological segmentation and constructing an index database, wherein the searcher performs morphological segmentation on the input statement. The query may be generated, and the similar document may be searched through the index database search using the generated query.

더 나아가, 본 발명은 상기 형태소 분할의 결과에 기초하여 상기 원시 코퍼스에 대해 형태소 분할된 문서 집합을 클러스터링을 수행하여 복수의 클러스터들을 획득하는 획득부를 더 포함하고, 상기 검색부는 상기 입력문에 대한 형태소 분할을 수행하고, 상기 복수의 클러스터들 중 상기 형태소 분할된 상기 입력문에 대응하는 클러스터를 상기 유사 문서로 검색할 수 있다.Furthermore, the present invention further includes an acquisition unit for clustering the stemmed document set for the raw corpus based on the result of the morphological division to obtain a plurality of clusters, wherein the search unit is a stemmer for the input sentence. Partitioning may be performed, and a cluster corresponding to the stemmed partitioned input statement among the plurality of clusters may be searched as the similar document.

본 발명에 따르면, 대규모 원시 코퍼스로부터 형태소 분할을 수행하여, 제시된 입력문과 가장 유사한 문서 집합을 검색하고 이로부터 형태소 분할/태깅 모델을 도메인 적응화함으로써, 종래 영어권에 국한된 도메인 적응화 방법의 한계를 뛰어 넘어, 형태소간의 경계가 불명확한 한국어, 중국어 등과 다른 언어에 대해서도 도메인 적응화 방법을 적용할 수 있다.According to the present invention, by performing a morphological segmentation from a large-scale primitive corpus, by searching the document set most similar to the proposed input sentence and domain adaptation of the morphological segmentation / tagging model therefrom, beyond the limitation of the domain adaptation method limited to the conventional English-speaking language, The domain adaptation method can be applied to other languages such as Korean, Chinese, etc., where the boundary between morphemes is unclear.

따라서, 본 발명은 다국어 확장성을 크게 높임으로써, 기계 번역 등과 다국어 분석이 필요한 실질적인 다국어 관련 응용으로까지 품사 태깅의 도메인 적응화 적용 범위를 넓힐 수 있다.Accordingly, the present invention can greatly broaden the multilingual scalability, thereby broadening the domain adaptation application range of part-of-speech tagging to practical multilingual-related applications requiring multilingual analysis such as machine translation.

도 1은 본 발명의 일 실시예에 따른 형태소 분할에 기반한 품사 태깅 방법에 대한 동작 흐름도를 나타낸 것이다.
도 2는 도 1에 도시된 단계 S120에 대한 일 실시예 동작 흐름도를 나타낸 것이다.
도 3은 "에어컨 온도"의 입력문에 대한 형태소 분할 결과를 나타낸 것이다.
도 4는 도 1에 도시된 단계 S120에 대한 다른 일 실시예 동작 흐름도를 나타낸 것이다.
도 5는 본 발명의 일 실시예에 따른 형태소 분할에 기반한 품사 태깅 장치에 대한 구성을 나타낸 것이다.
도 6은 본 발명의 다른 일 실시예에 따른 형태소 분할에 기반한 품사 태깅 장치에 대한 구성을 나타낸 것이다.
1 is a flowchart illustrating an operation of a part-of-speech tagging method based on morpheme division according to an embodiment of the present invention.
Fig. 2 shows an operational flow diagram of an embodiment of step S120 shown in Fig.
3 shows the morphological division results for the input statement of "air conditioner temperature".
4 is a flowchart illustrating another embodiment of operation S120 of FIG. 1.
5 illustrates a configuration of a part-of-speech tagging apparatus based on morpheme division according to an embodiment of the present invention.
6 is a block diagram of a part-of-speech tagging apparatus based on morpheme division according to another embodiment of the present invention.

상기 목적 외에 본 발명의 다른 목적 및 특징들은 첨부 도면을 참조한 실시 예에 대한 설명을 통하여 명백히 드러나게 될 것이다.Other objects and features of the present invention will become apparent from the following description of embodiments with reference to the accompanying drawings.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terminology used in this application is used only to describe a specific embodiment and is not intended to limit the invention. Singular expressions include plural expressions unless the context clearly indicates otherwise. In the present application, the term "comprising" or " comprising " is intended to specify the presence of stated features, integers, steps, operations, elements, parts or combinations thereof, , But do not preclude the presence or addition of one or more other features, elements, components, components, or combinations thereof.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless defined otherwise, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs. Terms such as those defined in commonly used dictionaries should be interpreted as having a meaning consistent with the meaning in the context of the relevant art and are to be interpreted in an ideal or overly formal sense unless explicitly defined in the present application Do not.

본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
Preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. In the following description of the present invention, a detailed description of known functions and configurations incorporated herein will be omitted when it may make the subject matter of the present invention rather unclear.

이하에서는, 본 발명의 일 실시 예에 따른 형태소 분할에 기반한 품사 태깅 방법 및 그 장치를 첨부된 도 1 내지 도 6을 참조하여 상세히 설명한다.
Hereinafter, a part-of-speech tagging method and apparatus thereof based on morpheme division according to an embodiment of the present invention will be described in detail with reference to FIGS. 1 to 6.

도 1은 본 발명의 일 실시예에 따른 형태소 분할에 기반한 품사 태깅 방법에 대한 동작 흐름도를 나타낸 것이다.1 is a flowchart illustrating an operation of a part-of-speech tagging method based on morpheme division according to an embodiment of the present invention.

도 1을 참조하면, 본 발명에 따른 품사 태깅 방법은 품사 태깅과 독립적으로 개발된 형태소 분할 모듈을 수행하여 웹이나 블로그, 각종 신문 기사 등으로 구성된 대규모 원시 코퍼스에 대한 형태소 분할을 수행한다(S110).Referring to FIG. 1, the part-of-speech tagging method according to the present invention performs a morpheme splitting module developed independently of a part-of-speech tagging to perform morphological splitting on a large-scale raw corpus composed of a web, a blog, and various newspaper articles (S110). .

이 때, 코퍼스 전처리를 위해 사용되는 형태소 분할 방법은 수동으로 구축된 분할정보가 부착된 코퍼스에서 CRF(conditional random field)와 같은 기계 학습(machine learning) 방식에 기반하여 획득될 수 있다.In this case, the morpheme segmentation method used for corpus preprocessing may be obtained based on a machine learning scheme such as a conditional random field (CRF) in a corpus to which segment information is manually constructed.

여기서, CRF 결과는 각각의 음절마다 분할, 계속의 두 상태 중 하나로 분류될 수 있으며, "분할"의 경우에는 다음 음절부터 새로운 형태소가 시작된다는 것을 의미하고, "계속"의 경우에는 다음 음절이 현재 형태소에 포함된다는 것을 의미할 수 있다.Here, the CRF result may be classified into one of two states of each syllable divided and continued. In the case of "dividing", it means that the new morpheme starts from the next syllable, and in the case of "continuous", the next syllable is present. It may mean that it is included in the morpheme.

CRF 방식을 적용할 때 사용되는 자질로는 기초 사전 정보, 앞뒤 좌우 음절(character) 정보 등이 활용될 수 있으며, 아래 <표 1>은 형태소 분할 과정에서 활용되는 자질 예를 나타낸 것이다.As the qualities used when applying the CRF method, basic dictionary information, front and rear left and right syllables (character) information, etc. may be used. <Table 1> below shows examples of qualities used in the morphological division process.

CRF 자질 종류CRF Qualification Types 자질 값 의미Qualitative Value Meaning C0 C 0 현재 음절Current syllable C0C1 C 0 C 1 현재 음절과 다음 음절로 구성된 바이그램A bigram consisting of the current syllable and the next syllable C-1C0 C -1 C 0 이전 음절과 현재 음절로 구성된 바이그램A bigram consisting of the previous syllable and the current syllable C-2C-1C0 C -2 C -1 C 0 이전 두음절과 현재 음절로 구성된 트라이그램Trigram of previous two syllables and current syllable C0C1C2 C 0 C 1 C 2 현재 음절과 다음 두음절로 구성된 트라이그램Trigram with current syllable and next two syllables IsSuffixLexicon(C0)IsSuffixLexicon (C 0 ) 사전에 C0을 suffix로 하는 어휘가 있는가? Is there a vocabulary for C 0 as suffix? IsSuffixLexicon(C-1C0)IsSuffixLexicon (C -1 C 0 ) 사전에 C-1C0을 suffix로 하는 어휘가 있는가?Is there a vocabulary with suffix C -1 C 0 in the dictionary? IsPrefixLexicon(C0)IsPrefixLexicon (C 0 ) 사전에 C0을 prefix로 하는 어휘가 있는가? Is there a vocabulary with C 0 prefix in the dictionary? IsPrefixLexicon(C0C1)IsPrefixLexicon (C 0 C 1 ) 사전에 C0C1을 prefix로 하는 어휘가 있는가?Is there a vocabulary prefixed with C 0 C 1 in the dictionary?

이후, 단계 S110에 의해 수행된 형태소 분할 결과에 기초하여 주어진 입력문에 대한 적어도 하나 이상의 유사 문서를 검색한다(S120).Thereafter, at least one or more similar documents for a given input sentence are searched based on the result of the morpheme division performed by step S110 (S120).

이 때, 유사 문서 검색은 입력문을 형태소 분할을 통해 형태소 격자 구조를 획득하고, 획득된 형태소 격자 구조를 이용하여 입력문과 가장 관련도가 높은 상위 N 개의 문서를 검색할 수 있다.In this case, the similar document search may obtain a morpheme lattice structure through morphological division of the input sentence, and search the top N documents most relevant to the input sentence using the obtained morpheme lattice structure.

검색된 적어도 하나 이상의 유사 문서의 정보들을 취합하여 형태소 분할 모델 및 품사 태깅 모델의 도메인 적응화를 수행한다(S130).In operation S130, domain information of the morpheme split model and the part-of-speech tagging model are collected by collecting the retrieved information of at least one similar document.

여기서, 형태소 분할 모델 및 품사 태깅 모델은 HMM(Hidden Markov Model)을 이용할 수 있다.Here, the morpheme division model and the part-of-speech tagging model may use a Hidden Markov Model (HMM).

단계 S130의 형태소 분할 모델 및 품사 태깅 모델의 도메인 적응화 방법은 각각의 모델에서 적용되는 확률 정보를 N-best 검색 문서를 참조하여 업데이트 함으로써 수행될 수 있다.The domain adaptation method of the morpheme division model and the part-of-speech tagging model of step S130 may be performed by updating the probability information applied in each model with reference to the N-best search document.

이하, 형태소 분할 모델 및 품사 태깅 모델로 HMM을 이용하는 경우의 도메인 적응화 방법의 한 예를 설명한다. 논의의 단순화를 위해, 바이그램 전이 확률에 기반한 HMM을 구성하면 다음과 같다.
Hereinafter, an example of a domain adaptation method in the case of using HMM as a morpheme division model and a part-of-speech tagging model will be described. For the sake of simplicity, the construction of the HMM based on the bigram transition probability is as follows.

[수학식 1][Equation 1]

Figure pat00001
Figure pat00001

여기서, T는 태그열 t1, ..., tn을 의미하고, W는 형태소열 w1, ..., wn을 의미하고, P(t|t')은 전이확률을 의미하고, P(w|t)는 어휘 확률을 의미한다.Here, T means tag sequences t1, ..., tn, W means morpheme sequences w1, ..., wn, P (t | t ') means transition probability, and P (w | t) means lexical probability.

상기, 두 가지 확률 중 어휘 확률 P(w|t)은 아래 <수학식 2>와 같이 근사화될 수 있다.
The lexical probability P (w | t) of the two probabilities may be approximated as in Equation 2 below.

[수학식 2]&Quot; (2) &quot;

Figure pat00002

Figure pat00002

여기서, P(w)는 형태소 w 에 대한 사전(prior) 확률을 의미하고, P0(w|t)는 도메인 적응화 전에 사용되었던 어휘 확률을 의미하고, λ는 두 확률 정보에 대한 혼합비를 결정하는 파라미터를 의미한다.Where P (w) is the prior probability for morpheme w, P 0 (w | t) is the lexical probability that was used before domain adaptation, and λ is the mixture ratio for the two probability information. Means a parameter.

형태소 분할 및 품사 태깅을 위해 HMM을 사용하는 경우 형태소 분할을 결정하는 가장 핵심부는 어휘 확률 P(w|t)이다. 따라서, 형태소 분할 모델의 도메인 적응화는 사전 확률인 P(w)를 주어진 N 개의 유사 문서를 참조하여 수정하는 것이 핵심으로, P(w)의 도메인 적응화 모델은 아래 <수학식 3>과 같이 정의될 수 있다.
When using HMM for morphological segmentation and part-of-speech tagging, the key to determining morphological segmentation is the lexical probability P (w | t). Therefore, the domain adaptation of the morphological segmentation model is to modify the prior probability P (w) by referring to the given N similar documents, and the domain adaptation model of P (w) is defined as Equation 3 below. Can be.

[수학식 3]&Quot; (3) &quot;

Figure pat00003

Figure pat00003

여기서, 격자 형태소 분할 결과를 가정하기 때문에, 빈도수는 일반적으로 이진수가 아닌 실수가 된다. Here, since the grid morpheme division results are assumed, the frequency is generally a real number rather than a binary number.

사전 확률 P(w)가 계산되면, 어휘 확률의 나머지 부분인 P0(w|t)와 전이 확률 P0(t|t')를 적응화하는 단계를 수행한다. 이 과정에서는 사전 확률 P(w)를 고정시키고, N 개의 검색 문서의 생성 개연성이 최대가 되도록, EM(Expectation Maximization) 알고리즘을 수행함으로써 어휘 확률의 나머지 부분인 P0(w|t)와 전이 확률 P0(t|t')이 얻어질 수 있으며, 이 기술 분야에 종사하는 당업자에게 이미 알려진 부트스트래핑 방식 등을 이용하여 얻어질 수 있다.
When the prior probability P (w) is calculated, the step of adapting P 0 (w | t) and the transition probability P0 (t | t '), which are the remainder of the lexical probability, is performed. In this process, P 0 (w | t) and the transition probability, the remainder of the lexical probability, are fixed by fixing the prior probability P (w) and performing an Expectation Maximization (EM) algorithm to maximize the probability of generating N search documents. P0 (t | t ') may be obtained, and may be obtained using bootstrapping schemes or the like already known to those skilled in the art.

앞서 기술한 바와 같이, 형태소 분할 및 품사 태깅 도메인 적응화 절차는 다음과 같이 요약할 수 있다.As described above, the morphological division and part-of-speech tagging domain adaptation procedure can be summarized as follows.

1) P0(w|t) 학습: 주어진 품사 태깅된 코퍼스로부터 학습1) P 0 (w | t) learning: learning from a given part-of-speech tagged corpus

2) 유사 문서 검색: 주어진 입력문에 대해서 N 개의 유사 문서 검색2) Similar Document Search: Search N similar documents for a given input statement

3) 형태소 분할 모델 도메인 적응화: N 개의 유사 문서로부터 상술한 수학식3에 따라 사전 확률 P(w) 변경3) Morphological Segmentation Model Domain Adaptation: Changing the prior probability P (w) from N similar documents according to Equation 3 above

4) 태깅 모델 적응화: P(w)을 고정시킨 후, 이로부터 초기 모델을 구성하여, N 개의 검색 문서의 생성 개연성이 최대가 되도록 부트스트래핑 (또는 EM 알고리즘)을 적용하여 P0(w|t), P(t|t')를 변경
4) Tagging Model Adaptation: After fixing P (w), we construct an initial model from it, applying bootstrapping (or EM algorithm) to maximize the probability of generating N search documents, so that P 0 (w | t ), Change P (t | t ')

상술한 도메인 적응화 과정은 HMM을 형태소 분할 모델 및 품사 태깅 모델로 고려했을 때의 사례이며, CRF 등과 같은 분류적(discriminative) 분할 및 태깅 모델 등에서도 유사한 적응화 방법이 유도될 수 있다.
The above-described domain adaptation process is an example of considering the HMM as a morpheme division model and a part-of-speech tagging model, and similar adaptation methods can be derived from a classification division and tagging model such as CRF.

도메인 적응화가 수행되면 도메인 적응화된 형태소 분할 모델 및 품사 태깅 모델을 이용하여 입력문의 품사 태깅을 수행한다(S140).When domain adaptation is performed, the part-of-speech tagging of the input statement is performed using the domain-adapted morpheme division model and the part-of-speech tagging model (S140).

이 때, 입력문의 품사 태깅은 학습된 어휘 확률 P(w), P(w|t) 및 전이 확률 P(t|t')로부터 수행될 수 있다.
At this time, the part-of-speech tagging of the input statement may be performed from the learned lexical probabilities P (w), P (w | t) and transition probabilities P (t | t ').

이와 같이, 본 발명에 따른 품사 태깅 방법은 대규모 원시 코퍼스로부터 형태소 분할을 수행하여, 제시된 입력문과 가장 유사한 문서 집합을 검색하고 이로부터 형태소 분할 모델 및 품사 태깅 모델을 도메인 적응화함으로써, 형태소간의 경계가 불명확한 한국어, 중국어 등과 다른 언어에 대해서도 도메인 적응화 방법을 적용할 수 있고, 이를 통해 다국어 확장성을 크게 높일 수 있다.As described above, the part-of-speech tagging method according to the present invention performs morphological segmentation from a large-scale primitive corpus, retrieves a document set most similar to a given input sentence, and domain-adapts the morphological segmentation model and the part-of-speech tagging model therefrom, thereby making the boundary between morphemes unclear. The domain adaptation method can be applied to Korean, Chinese, and other languages, which can greatly increase multilingual scalability.

또한, 본 발명은 기계 번역 등과 다국어 분석이 필요한 실질적인 다국어 관련 응용으로까지 품사 태깅의 도메인 적응화 적용 범위를 넓힐 수 있다.In addition, the present invention can extend the domain adaptation application range of part-of-speech tagging to practical multilingual-related applications requiring multilingual analysis such as machine translation.

추가로 본 발명은 형태소 분할 결과로서 1-best가 아닌 격자(lattice) 결과를 사용하기 때문에, 본 발명에서 제시하는 도메인 특화 방법이 형태소 분할의 오류에 민감하지 않고 강건한 특성을 지니도록 다양한 분할 결과를 동시에 고려할 수 있다.
In addition, since the present invention uses a lattice result that is not 1-best as a result of morpheme splitting, the domain-specific method proposed in the present invention is not susceptible to errors of morphological splitting and thus has various robustness results. Can be considered at the same time.

도 3은 "에어컨 온도"의 입력문에 대한 형태소 분할 결과를 나타낸 것이다.3 shows the morphological division results for the input statement of "air conditioner temperature".

도 3을 참조하면, 도 3에 도시된 각 정점은 입력문의 각 음절의 위치를 가리키며, 특히 가장 좌측의 노드는 특수 노드로 문장의 시작 상태를 의미한다. Referring to FIG. 3, each vertex shown in FIG. 3 indicates a position of each syllable of an input sentence. In particular, the leftmost node is a special node and represents a start state of a sentence.

여기서, 두 정점간을 연결하는 에지(edge)의 레이블(label)은 w:p로 도시될 수 있으며, w는 정점 내의 음절들의 형태소 분할 결과를 지칭하며, p는 해당 분할 결과 w에 대한 가중치로 두 정점간 음절들이 w로 분할될 사후 확률(posterior probability)과 비례한다. Here, the label of the edge connecting the two vertices may be shown as w: p, w is the stemming result of the syllables of the syllables in the vertex, p is a weight for the split result w The syllables between the two vertices are proportional to the posterior probability of dividing by w.

상술한 바와 같이 격자 구조를 활용하게 되면, 단순 1-best 또는 k-best 형태소 분할 결과보다 더 다양한 후보들을 참조하게 되어, 분할 오류에 강건한 도메인 적응화 방법이 디자인될 수 있으며, 1-best 결과만을 참조하는 방식은 격자 구조의 특수한 경우로 간주될 수 있다.
By utilizing the lattice structure as described above, it is possible to design a domain adaptation method that is robust to segmentation error by referring to more candidates than the simple 1-best or k-best morpheme segmentation results. The way of doing this can be regarded as a special case of the lattice structure.

도 2는 도 1에 도시된 단계 S120에 대한 일 실시예 동작 흐름도를 나타낸 것이다.2 is a flowchart illustrating an embodiment of operation S120 of FIG. 1.

도 2를 참조하면, 유사 문서를 검색하는 단계(S120)는 형태소 분할 단계(S110)에 의한 대규모 원시코퍼스에 대해 형태소 분할된 문서 집합을 처리하여 색인 데이터베이스를 구축한다(S210).Referring to FIG. 2, in the step S120 of retrieving a similar document, an index database is constructed by processing a set of stemmed documents for a large raw corpus by the stemming step S110 (S210).

이후, 주어진 입력문에 대해서, 마찬가지로 형태소 분할을 통해 형태소 격자 구조를 획득하고, 획득된 입력문에 대한 형태소 격자 구조를 질의어로 생성한다(S220).Subsequently, for a given input statement, a morpheme lattice structure is obtained through morphological division, and a morpheme lattice structure for the obtained input statement is generated as a query word (S220).

입력문에 대한 질의어가 생성되면, 생성된 질의어를 이용한 정보 검색의 유사 문서 검색 기법을 활용하여 기 구축된 색인 데이터베이스로부터 입력문과 가장 관련도가 높은 상위 N 개의 유사 문서를 검색 또는 획득한다(S230).
When a query for the input statement is generated, the top N similar documents most relevant to the input statement are searched or obtained from an existing index database using a similar document search technique of information retrieval using the generated query (S230). .

추가로, 유사 문서 검색을 수행하는 단계(S120)로서 원시 코퍼스 전체를 클러스터링하여 입력문을 분류해내는 방법으로 대체할 수 있으며, 그 과정의 예를 도 4를 참조하여 설명한다.
In addition, as a step of performing a similar document search (S120), the entire raw corpus may be clustered and replaced with a method of classifying input statements. An example of the process will be described with reference to FIG. 4.

도 4는 도 1에 도시된 단계 S120에 대한 다른 일 실시예 동작 흐름도를 나타낸 것이다.4 is a flowchart illustrating another embodiment of operation S120 of FIG. 1.

도 4를 참조하면, 유사 문서를 검색하는 단계(S120)는 형태소 분할 단계(S110)에 의한 대규모 원시코퍼스에 대해 형태소 분할된 문서 집합에 대해 문서 클러스터링을 수행하여 복수 예를 들어, K 개의 클러스터들을 획득한다(S410).Referring to FIG. 4, the step S120 of retrieving similar documents may include document clustering on a stem set of documents that have been stemmed for a large-scale raw corpus by the stemming step S110. Acquire (S410).

이후, 주어진 입력문에 대해서, 마찬가지로 형태소 분할을 수행하여 형태소 격자 구조를 획득하고, 입력문에 대해 분할된 형태소 분석 결과를 바탕으로 복수의 클러스터들에 대해 문서 분류를 적용하여 분할된 입력문에 대응하는 클러스터를 결정함으로써, 결정된 클러스터내의 모든 문서 집합을 N 개의 유사 문서로 대체 또는 검색한다(S420, S430).
Subsequently, for a given input statement, morphological division is performed to obtain a morphological lattice structure, and the document classification is applied to a plurality of clusters based on the divided morphological analysis results for the input statement to correspond to the divided input statement. By determining a cluster to replace, all document sets in the determined cluster are replaced or searched with N similar documents (S420 and S430).

도 5는 본 발명의 일 실시예에 따른 형태소 분할에 기반한 품사 태깅 장치에 대한 구성을 나타낸 것이다.5 illustrates a configuration of a part-of-speech tagging apparatus based on morpheme division according to an embodiment of the present invention.

도 5를 참조하면, 품사 태깅 장치(500)는 형태소 분할부(510), 데이터베이스 구축부(520), 검색부(530), 도메인 적응화부(540) 및 품사 태깅부(550)를 포함한다.Referring to FIG. 5, the part-of-speech tagging apparatus 500 includes a morpheme division unit 510, a database construction unit 520, a search unit 530, a domain adaptation unit 540, and a part-of-speech tagging unit 550.

형태소 분할부(510)는 미리 결정된 대규모 원시 코퍼스에 대하여 형태소 분할을 수행한다.The morpheme division unit 510 performs morphological division on a predetermined large-scale raw corpus.

이 때, 형태소 분할부(510)는 분할 정보가 포함된 원시 코퍼스에 대하여 CRF(conditional random field)를 포함하는 기계 학습 방식에 기반하여 형태소 분할을 수행할 수 있다.In this case, the morpheme division unit 510 may perform morphological division based on a machine learning method including a conditional random field (CRF) with respect to the raw corpus including the partition information.

데이터베이스 구축부(520)는 형태소 분할의 결과에 기초하여 원시 코퍼스에 대해 형태소 분할된 문서 집합을 처리하여 색인 데이터베이스를 구축한다.The database building unit 520 builds an index database by processing the stemmed document set for the raw corpus based on the result of the stemming.

검색부(530)는 대규모 원시 코퍼스에 대한 형태소 분할의 결과에 기초하여 입력문와 관련도가 높은 적어도 하나 이상의 유사 문서를 검색한다.The search unit 530 searches for at least one or more similar documents highly related to the input sentence based on the result of the morpheme splitting for the large-scale raw corpus.

이 때, 검색부(530)는 입력문에 대한 형태소 분할을 수행하여 질의어를 생성하고, 생성된 질의어를 이용한 색인 데이터베이스 검색을 통하여 입력문과 관련도가 높은 적어도 하나 이상의 유사 문서를 검색할 수 있다.In this case, the search unit 530 may generate a query by performing morphological partitioning on the input statement, and search at least one or more similar documents highly related to the input statement by searching the index database using the generated query.

도메인 적응화부(540)는 검색된 적어도 하나 이상의 유사 문서를 이용하여 형태소 분할 모델 및 품사 태깅 모델에 대한 도메인 적응화를 수행한다.The domain adaptation unit 540 performs domain adaptation on the morpheme split model and the part-of-speech tagging model using the retrieved at least one similar document.

이 때, 도메인 적응화부(540)는 검색된 유사 문서를 참조하여 형태소 분할 모델과 품사 태깅 모델 각각에서 적용되는 확률 정보를 업데이트함으로써, 도메인 적응화를 수행할 수 있으며, 형태소 분할 모델과 품사 태깅 모델은 HMM(Hidden Markov Model)을 이용할 수 있다.In this case, the domain adaptor 540 may perform domain adaptation by updating probability information applied to each of the morpheme split model and the part-of-speech tagging model with reference to the retrieved similar document, and the morpheme split model and the part-of-speech tagging model may be HMM. (Hidden Markov Model) is available.

품사 태깅부(550)는 도메인 적응화된 형태소 분할 모델 및 품사 태깅 모델을 이용하여 입력문을 품사 태깅한다.
The part-of-speech tagging unit 550 parts-tagging an input statement using a domain-adapted morpheme division model and a part-of-speech tagging model.

도 6은 본 발명의 다른 일 실시예에 따른 형태소 분할에 기반한 품사 태깅 장치에 대한 구성을 나타낸 것이다.6 is a block diagram of a part-of-speech tagging apparatus based on morpheme division according to another embodiment of the present invention.

도 6을 참조하면, 품사 태깅 장치(600)는 형태소 분할부(610), 획득부(620), 검색부(630), 도메인 적응화부(640) 및 품사 태깅부(650)를 포함한다.Referring to FIG. 6, the part-of-speech tagging device 600 includes a morpheme division unit 610, an acquisition unit 620, a search unit 630, a domain adaptation unit 640, and a part-of-speech tagging unit 650.

형태소 분할부(610)는 미리 결정된 대규모 원시 코퍼스에 대하여 형태소 분할을 수행한다.The morpheme division unit 610 performs morphological division on a predetermined large-scale raw corpus.

이 때, 형태소 분할부(610)는 분할 정보가 포함된 원시 코퍼스에 대하여 CRF(conditional random field)를 포함하는 기계 학습 방식에 기반하여 형태소 분할을 수행할 수 있다.In this case, the morpheme division unit 610 may perform morphological division based on a machine learning method including a conditional random field (CRF) with respect to the raw corpus including the partition information.

획득부(620)는 형태소 분할의 결과에 기초하여 원시 코퍼스에 대해 형태소 분할된 문서 집합을 클러스터링을 수행하여 복수의 클러스터들을 획득한다.The acquirer 620 obtains a plurality of clusters by clustering the stemmed document set for the raw corpus based on the result of the stemming.

검색부(630)는 대규모 원시 코퍼스에 대한 형태소 분할의 결과에 기초하여 입력문와 관련도가 높은 적어도 하나 이상의 유사 문서를 검색한다.The search unit 630 searches for at least one or more similar documents highly related to the input sentence based on the result of the morpheme splitting for the large-scale raw corpus.

이 때, 검색부(630)는 주어진 입력문에 대해서, 형태소 분할을 수행하여 형태소 격자 구조를 획득하고, 입력문에 대해 분할된 형태소 분석 결과를 바탕으로 복수의 클러스터들에 대해 문서 분류를 적용하여 분할된 입력문에 대응하는 클러스터를 결정함으로써, 결정된 클러스터내의 모든 문서 집합을 N 개의 유사 문서로 검색할 수 있다.In this case, the search unit 630 obtains a morpheme lattice structure by performing a morpheme division on a given input statement, and applies a document classification to a plurality of clusters based on the result of the morpheme analysis split for the input statement. By determining the cluster corresponding to the divided input statement, all document sets in the determined cluster can be retrieved as N similar documents.

도메인 적응화부(640)는 검색된 적어도 하나 이상의 유사 문서를 이용하여 형태소 분할 모델 및 품사 태깅 모델에 대한 도메인 적응화를 수행한다.The domain adaptation unit 640 performs domain adaptation on the morpheme split model and the part-of-speech tagging model using the retrieved at least one similar document.

이 때, 도메인 적응화부(640)는 검색된 유사 문서를 참조하여 형태소 분할 모델과 품사 태깅 모델 각각에서 적용되는 확률 정보를 업데이트함으로써, 도메인 적응화를 수행할 수 있으며, 형태소 분할 모델과 품사 태깅 모델은 HMM(Hidden Markov Model)을 이용할 수 있다.In this case, the domain adaptor 640 may perform domain adaptation by updating probability information applied to each of the morpheme split model and the part-of-speech tagging model with reference to the retrieved similar document, and the morpheme split model and the part-of-speech tagging model may be HMM. (Hidden Markov Model) is available.

품사 태깅부(650)는 도메인 적응화된 형태소 분할 모델 및 품사 태깅 모델을 이용하여 입력문을 품사 태깅한다.
The part-of-speech tagging unit 650 tags the input statement using the domain-adapted morpheme division model and the part-of-speech tagging model.

본 발명의 일 실시예에 따른 품사 태깅 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
The part-of-speech tagging method according to an embodiment of the present invention may be implemented in the form of program instructions that may be executed by various computer means and may be recorded in a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, and the like, alone or in combination. The program instructions recorded on the medium may be those specially designed and constructed for the present invention or may be available to those skilled in the art of computer software. Examples of computer-readable media include magnetic media such as hard disks, floppy disks and magnetic tape; optical media such as CD-ROMs and DVDs; magnetic media such as floppy disks; Magneto-optical media, and hardware devices specifically configured to store and execute program instructions such as ROM, RAM, flash memory, and the like. Examples of program instructions include machine language code such as those produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.

이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. In the present invention as described above has been described by the specific embodiments, such as specific components and limited embodiments and drawings, but this is provided to help a more general understanding of the present invention, the present invention is not limited to the above embodiments. For those skilled in the art, various modifications and variations are possible from these descriptions.

따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.Accordingly, the spirit of the present invention should not be construed as being limited to the embodiments described, and all of the equivalents or equivalents of the claims, as well as the following claims, belong to the scope of the present invention .

Claims (14)

미리 결정된 원시 코퍼스(raw corpus)에 대하여 형태소 분할을 수행하는 단계;
상기 수행된 상기 형태소 분할의 결과에 기초하여 입력문에 대한 적어도 하나 이상의 유사 문서를 검색하는 단계;
상기 검색된 상기 유사 문서를 이용하여 형태소 분할 모델 및 품사 태깅 모델에 대한 도메인 적응화를 수행하는 단계; 및
상기 도메인 적응화된 상기 형태소 분할 모델 및 상기 품사 태깅 모델을 이용하여 상기 입력문을 품사 태깅하는 단계
를 포함하는 품사 태깅 방법.
Performing morphological splitting on a predetermined raw corpus;
Retrieving at least one similar document for an input statement based on the result of the morphological division performed;
Performing domain adaptation on a morpheme division model and a part-of-speech tagging model using the retrieved similar document; And
Part-of-speech tagging of the input statement using the domain-adapted morpheme split model and the part-of-speech tagging model
Part of speech tagging method comprising a.
제1항에 있어서,
상기 검색하는 단계는
상기 형태소 분할의 결과에 기초하여 상기 원시 코퍼스에 대해 형태소 분할된 문서 집합을 처리하여 색인 데이터베이스를 구축하는 단계;
상기 입력문에 대한 형태소 분할을 수행하여 질의어를 생성하는 단계; 및
상기 생성된 상기 질의어를 이용한 상기 색인 데이터베이스 검색을 통하여 상기 유사 문서를 검색하는 단계
를 포함하는 것을 특징으로 하는 품사 태깅 방법.
The method of claim 1,
The searching step
Processing the stemmed document set for the raw corpus based on the result of the stemming to build an index database;
Generating a query by performing a morpheme division on the input statement; And
Searching for the similar document through the index database search using the generated query word
Part of speech tagging method comprising a.
제2항에 있어서,
상기 생성하는 단계는
상기 입력문에 대한 형태소 분할을 수행하여 형태소 격자(lattice) 구조를 획득하고, 상기 획득된 상기 형태소 격자 구조를 변환하여 상기 질의어를 생성하는 것을 특징으로 하는 품사 태깅 방법.
3. The method of claim 2,
The generating step
A part-of-speech tagging method comprising: obtaining a morpheme lattice structure by performing morpheme division on the input statement, and generating the query word by converting the obtained morpheme lattice structure.
제1항에 있어서,
상기 형태소 분할을 수행하는 단계는
분할 정보가 포함된 상기 원시 코퍼스에 대하여 CRF(conditional random field)를 포함하는 기계 학습 방식에 기반하여 상기 형태소 분할을 수행하는 것을 특징으로 하는 품사 태깅 방법.
The method of claim 1,
The step of performing morphological division
The part-of-speech tagging method according to claim 1, wherein the morphological division is performed on the raw corpus including partition information based on a machine learning method including a conditional random field (CRF).
제1항에 있어서,
상기 도메인 적응화를 수행하는 단계는
상기 검색된 상기 유사 문서를 참조하여 상기 형태소 분할 모델과 상기 품사 태깅 모델 각각에서 적용되는 확률 정보를 업데이트함으로써, 상기 도메인 적응화를 수행하는 것을 특징으로 하는 품사 태깅 방법.
The method of claim 1,
Performing the domain adaptation
The part-of-speech tagging method of claim 1, wherein the domain adaptation is performed by updating probability information applied to each of the morpheme division model and the part-of-speech tagging model with reference to the retrieved similar document.
제1항에 있어서,
상기 형태소 분할 모델과 상기 품사 태깅 모델은
HMM(Hidden Markov Model)을 이용하는 것을 특징으로 하는 품사 태깅 방법.
The method of claim 1,
The morpheme division model and the part-of-speech tagging model
Part-of-speech tagging method using HMM (Hidden Markov Model).
제1항에 있어서,
상기 검색하는 단계는
상기 형태소 분할의 결과에 기초하여 상기 원시 코퍼스에 대해 형태소 분할된 문서 집합을 클러스터링을 수행하여 복수의 클러스터들을 획득하는 단계;
상기 입력문에 대한 형태소 분할을 수행하는 단계; 및
상기 복수의 클러스터들 중 상기 형태소 분할된 상기 입력문에 대응하는 클러스터를 상기 유사 문서로 검색하는 단계
를 포함하는 것을 특징으로 하는 품사 태깅 방법.
The method of claim 1,
The searching step
Clustering the stemmed document set for the raw corpus based on the result of the stemming to obtain a plurality of clusters;
Performing stemming for the input statement; And
Retrieving a cluster corresponding to the stemmed input sentence among the plurality of clusters as the similar document;
Part of speech tagging method comprising a.
미리 결정된 원시 코퍼스(raw corpus)에 대하여 형태소 분할을 수행하는 형태소 분할부;
상기 수행된 상기 형태소 분할의 결과에 기초하여 입력문에 대한 적어도 하나 이상의 유사 문서를 검색하는 검색부;
상기 검색된 상기 유사 문서를 이용하여 형태소 분할 모델 및 품사 태깅 모델에 대한 도메인 적응화를 수행하는 도메인 적응화부; 및
상기 도메인 적응화된 상기 형태소 분할 모델 및 상기 품사 태깅 모델을 이용하여 상기 입력문을 품사 태깅하는 품사 태깅부
를 포함하는 품사 태깅 장치.
A morpheme division unit that performs morphological division on a predetermined raw corpus;
A retrieving unit for retrieving at least one or more similar documents for an input sentence based on the result of the morphological division performed;
A domain adaptor for performing domain adaptation on the morpheme division model and the part-of-speech tagging model using the retrieved similar document; And
A part-of-speech tagging part for tagging the input sentence using the domain-adapted morpheme division model and the part-of-speech tagging model
Part of speech tagging device comprising a.
제8항에 있어서,
상기 형태소 분할의 결과에 기초하여 상기 원시 코퍼스에 대해 형태소 분할된 문서 집합을 처리하여 색인 데이터베이스를 구축하는 데이터베이스 구축부
를 더 포함하고,
상기 검색부는
상기 입력문에 대한 형태소 분할을 수행하여 질의어를 생성하고, 상기 생성된 상기 질의어를 이용한 상기 색인 데이터베이스 검색을 통하여 상기 유사 문서를 검색하는 것을 특징으로 하는 품사 태깅 장치.
9. The method of claim 8,
A database construction unit for processing an morpheme-divided document set for the raw corpus based on the result of the morphological division to construct an index database
Further comprising:
The search unit
A part-of-speech tagging device, characterized in that to generate a query by performing morphological partitioning on the input statement, and to search the similar document by searching the index database using the generated query.
제9항에 있어서,
상기 검색부는
상기 입력문에 대한 형태소 분할을 수행하여 형태소 격자(lattice) 구조를 획득하고, 상기 획득된 상기 형태소 격자 구조를 변환하여 상기 질의어를 생성하는 것을 특징으로 하는 품사 태깅 장치.
10. The method of claim 9,
The search unit
A part-of-speech tagging device, characterized in that to obtain a morpheme lattice structure by performing morpheme division on the input statement, and convert the obtained morpheme lattice structure to generate the query word.
제8항에 있어서,
상기 형태소 분할부는
분할 정보가 포함된 상기 원시 코퍼스에 대하여 CRF(conditional random field)를 포함하는 기계 학습 방식에 기반하여 상기 형태소 분할을 수행하는 것을 특징으로 하는 품사 태깅 장치.
9. The method of claim 8,
The morpheme division
The part-of-speech tagging apparatus according to claim 1, wherein the morphological division is performed on the raw corpus including partition information based on a machine learning method including a conditional random field (CRF).
제8항에 있어서,
상기 도메인 적응화부는
상기 검색된 상기 유사 문서를 참조하여 상기 형태소 분할 모델과 상기 품사 태깅 모델 각각에서 적용되는 확률 정보를 업데이트함으로써, 상기 도메인 적응화를 수행하는 것을 특징으로 하는 품사 태깅 장치.
9. The method of claim 8,
The domain adaptation unit
The part-of-speech tagging apparatus according to the retrieved similar document, wherein the domain adaptation is performed by updating probability information applied to each of the morpheme division model and the part-of-speech tagging model.
제8항에 있어서,
상기 형태소 분할 모델과 상기 품사 태깅 모델은
HMM(Hidden Markov Model)을 이용하는 것을 특징으로 하는 품사 태깅 장치.
9. The method of claim 8,
The morpheme division model and the part-of-speech tagging model
Part-of-speech tagging device, using HMM (Hidden Markov Model).
제8항에 있어서,
상기 형태소 분할의 결과에 기초하여 상기 원시 코퍼스에 대해 형태소 분할된 문서 집합을 클러스터링을 수행하여 복수의 클러스터들을 획득하는 획득부
를 더 포함하고,
상기 검색부는
상기 입력문에 대한 형태소 분할을 수행하고, 상기 복수의 클러스터들 중 상기 형태소 분할된 상기 입력문에 대응하는 클러스터를 상기 유사 문서로 검색하는 것을 특징으로 하는 품사 태깅 장치.
9. The method of claim 8,
An acquisition unit for clustering the stemmed document set for the raw corpus based on a result of the morphological division to obtain a plurality of clusters
Further comprising:
The search unit
A part-of-speech tagging apparatus, wherein the morpheme division is performed on the input sentence, and a cluster corresponding to the morphologically divided input sentence among the plurality of clusters is searched as the similar document.
KR1020120114533A 2012-10-16 2012-10-16 Method for part-of-speech tagging based on morpheme segmentation and apparatus thereof KR20140049148A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120114533A KR20140049148A (en) 2012-10-16 2012-10-16 Method for part-of-speech tagging based on morpheme segmentation and apparatus thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120114533A KR20140049148A (en) 2012-10-16 2012-10-16 Method for part-of-speech tagging based on morpheme segmentation and apparatus thereof

Publications (1)

Publication Number Publication Date
KR20140049148A true KR20140049148A (en) 2014-04-25

Family

ID=50654813

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120114533A KR20140049148A (en) 2012-10-16 2012-10-16 Method for part-of-speech tagging based on morpheme segmentation and apparatus thereof

Country Status (1)

Country Link
KR (1) KR20140049148A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919545A (en) * 2015-12-25 2017-07-04 皇家飞利浦有限公司 Method and apparatus for processing document
KR20220090332A (en) * 2020-12-22 2022-06-29 연세대학교 원주산학협력단 Method and apparatus for determining whether to expose personal information using cdm packets

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919545A (en) * 2015-12-25 2017-07-04 皇家飞利浦有限公司 Method and apparatus for processing document
KR20220090332A (en) * 2020-12-22 2022-06-29 연세대학교 원주산학협력단 Method and apparatus for determining whether to expose personal information using cdm packets

Similar Documents

Publication Publication Date Title
US7478033B2 (en) Systems and methods for translating Chinese pinyin to Chinese characters
Karimi et al. Machine transliteration survey
Azmi et al. A survey of automatic Arabic diacritization techniques
Nothman et al. Learning multilingual named entity recognition from Wikipedia
Bod An all-subtrees approach to unsupervised parsing
KR100734741B1 (en) Recognizing words and their parts of speech in one or more natural languages
Chen et al. Chinese named entity recognition with conditional random fields
US9110980B2 (en) Searching and matching of data
KR100318762B1 (en) Phonetic distance method for similarity comparison of foreign words
AU2023248112A1 (en) Method and system for key phrase extraction and generation from text
WO2008107305A2 (en) Search-based word segmentation method and device for language without word boundary tag
WO2000062193A1 (en) System for chinese tokenization and named entity recognition
JP2011505638A (en) CJK name detection
JP2005505869A (en) Identifying character strings
Bangalore et al. Statistical machine translation through global lexical selection and sentence reconstruction
Zu et al. Resume information extraction with a novel text block segmentation algorithm
CN100429648C (en) Automatic segmentation of texts comprising chunsk without separators
Prabhakar et al. Machine transliteration and transliterated text retrieval: a survey
Kübler et al. Part of speech tagging for Arabic
WO2019064137A1 (en) Extraction of expression for natural language processing
Kuo et al. A phonetic similarity model for automatic extraction of transliteration pairs
JP5770753B2 (en) CJK name detection
Wang et al. Improving handwritten Chinese text recognition by unsupervised language model adaptation
Zhang et al. Tracing a loose wordhood for Chinese input method engine
KR20140049148A (en) Method for part-of-speech tagging based on morpheme segmentation and apparatus thereof

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination