KR20140079545A - Method for Multi-language Morphological Analysis and Part-of-Speech Tagging based on conventional decoding scheme - Google Patents

Method for Multi-language Morphological Analysis and Part-of-Speech Tagging based on conventional decoding scheme Download PDF

Info

Publication number
KR20140079545A
KR20140079545A KR1020120146912A KR20120146912A KR20140079545A KR 20140079545 A KR20140079545 A KR 20140079545A KR 1020120146912 A KR1020120146912 A KR 1020120146912A KR 20120146912 A KR20120146912 A KR 20120146912A KR 20140079545 A KR20140079545 A KR 20140079545A
Authority
KR
South Korea
Prior art keywords
tag
tagging
phrase
morpheme
speech
Prior art date
Application number
KR1020120146912A
Other languages
Korean (ko)
Inventor
나승훈
김창현
양성일
서영애
이기영
정상근
권오욱
황금하
신종훈
노윤형
최승권
김운
박은진
김영길
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020120146912A priority Critical patent/KR20140079545A/en
Publication of KR20140079545A publication Critical patent/KR20140079545A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

The present invention relates to a method for part-of-speech tagging and, more specifically, to a method for multi-language morphological analysis and part-of-speech tagging based on a phrase-based decoding mode. According to the configuration of the present invention, tagging ambiguity can be significantly reduced by taking phrases in part-of-speech tagging units without selecting words with high tagging ambiguity in tagging units and, additionally, various qualities can be effectively used by generalizing an existing word-based HMM model and proposing a robust probabilistic framework using a phrase-based decoding algorithm.

Description

디코딩 방식에 기반한 다국어 형태소 분석 및 품사 태깅 방법{Method for Multi-language Morphological Analysis and Part-of-Speech Tagging based on conventional decoding scheme}TECHNICAL FIELD [0001] The present invention relates to a multilingual morphological analysis and part-tagging method based on decoding,

본 발명은 품사 태깅 방법에 관한 것으로서, 더 상세하게는 구 기반 디코딩 방식에 기반한 다국어 형태소 분석 및 품사 태깅 방법에 관한 것이다.More particularly, the present invention relates to a multi-lingual morpheme analysis and part-of-speech tagging method based on a phrase-based decoding method.

또한, 본 발명은 태깅 애매성이 높은 단어를 태깅 단위로 취하지 않고, 구를 품사 태깅 단위로 취함으로써, 태깅 애매성을 현저히 줄일 수 있는 잠재성을 가진다. In addition, the present invention has the potential to significantly reduce the tagging ambiguity by taking a word having high ambiguity of tagging as a tagging unit instead of taking it as a tagging unit.

또한, 본 발명은 기존의 단어기반 HMM모델을 일반화시켜, 구 기반 디코딩 알고리즘을 활용하는 강건한 확률적 프레임워크를 제시함으로써, 다양한 자질들을 효과적으로 활용할 수 있다.In addition, the present invention generalizes the existing word-based HMM model, suggests a robust stochastic framework that utilizes the phrase-based decoding algorithm, and can utilize various qualities effectively.

현재의 가장 많이 활용되는 품사 태깅 방법은 통계와 사전에 기반한 접근법으로, 품사 태깅된 코퍼스로부터 학습된 확률 정보 및 이와 별도로 수동으로 기 구축된 어휘 사전으로 구성된다.The most popular part - of - speech tagging method is a statistical and dictionary - based approach. It consists of probabilistic information learned from partly tagged corpus and a manually constructed prefix dictionary.

이러한 일반적인 품사 태깅 방법은 대부분이 단어 기반(word-based) 접근법인데, 개별 단어 (word) 또는 형태소(morpheme) 마다 품사를 부착할 수 있게 하는 방식이다.Most of these general word-based tagging approaches are word-based approaches, which allow to attach parts of speech to individual words or morpheme.

그러나, 이러한 단어 기반 방식에서는 단어 단위로 태깅이 이루어지기 때문에, 단어의 애매성이 높은 경우 품사 태깅 애매성을 크게 높여, 결과적으로 품사 태거의 성능을 크게 저하시킬 수 있게 된다. However, in this word-based method, since tagging is performed on a word-by-word basis, when the ambiguity of the word is high, the tagging ambiguity of the part-speech is greatly increased, and consequently, the performance of the part-speech tagging can be greatly reduced.

이러한 문제를 해소하기 위해, 기존 한국어 분석에서는 단어보다 긴 어절이나 부분어절에 대해 기분석 사전을 구축하여, 입력문이 주어질 때 각 어절별로 기분석 사전의 분석 후보 결과를 조합하는 방식으로 품사 태깅을 수행하는 방식을 제안했다. In order to solve this problem, in the existing Korean analysis, a preliminary analysis dictionary for a long word or a partial word is constructed, and when the input statement is given, I suggested how to do it.

그러나, 이러한 어절 또는 부분어절 기반 방식들은 1) 기분석 결과를 조합하여 최적이 분석 결과를 찾는 과정에서, 음성인식 및 통계 기반 번역에서 활용되는 디코더와 같은 통합된 확률적 프레임워크를 정의하지 못하여, 최적 분석 결과를 탐색하는 과정이 수학적으로 간결하지 않고, 휴리스틱적이며, 다양한 자질을 효과적으로 통합하지 못하고 있는 단점이 있다. However, such a word-based or partial-word-based approach fails to define an integrated probabilistic framework such as a decoder used in speech recognition and statistics-based translation in the process of finding the optimal analysis result by combining the results of previous analysis, There is a disadvantage in that the process of searching for optimal analysis results is not mathematically simple, heuristic, and can not effectively integrate various qualities.

게다가, 2) 어절 및 부분어절의 경계를 넘어서는 다어절로의 확장방식이 분명하지 않다는 단점이 있다.In addition, there is a disadvantage that it is not clear how to extend to the multi - word beyond the boundary of the word and the partial word.

또한, 3) 적용 언어가 한국어에 국한되어 있어 다국어 확장성이 부족하다는 한계도 있다. Also, there are limitations in that multilingual scalability is lacking because the applied language is limited to Korean.

1.한국등록특허 제10-0282610호1. Korean Patent No. 10-0282610

1.신준철, 옥철영 “기분석 부분 어절 사전을 활용한 한국어 형태소 분석기”, 정보과학회 논문지, vol 39/5, pp 415-2424, 2012.51. Shin, Joon-Cheol, and Oh, Chul-Young "Korean morphological analyzer using partial-phrase dictionary", Journal of Korean Information Science Society, vol 39/5, pp 415-2424, 2012.5

본 발명은 배경기술에서 기술된 문제점을 해소하기 위해 제안된 것으로서, 품사 태깅의 효율성 측면과 다국어 확장성 측면에서의 일반적인 방식의 기술적 한계를 극복하는 디코딩 방식에 기반한 다국어 형태소 분석 및 품사 태깅 방법을 제공하는데 그 목적이 있다.The present invention has been proposed in order to solve the problems described in the background art, and provides a multilingual morpheme analysis and part-of-speech tagging method based on a decoding method that overcomes technical limitations of a general method in terms of efficiency of parts tagging and multilingual scalability It has its purpose.

또한, 본 발명은 배경기술에서 전술한 단어 기반 그리고 어절/부분어절 기분석 기반 분석 방식의 문제점을 해결하기 위해, 인접한 여러 단어를 하나의 구 (phrase)가 될 수 있다고 간주, 구 전체를 하나의 단위로서 태깅하는 구 기반 (phrase-based) 품사 태깅 방법을 제공하는데 다른 목적이 있다. In order to solve the problems of the above-described word-based and word-based / partial-word-based analysis methods, the present invention considers that adjacent words can be a phrase, There is another purpose of providing a phrase-based part-of-speech tagging method of tagging as a unit.

본 발명은 위에서 제시된 과제를 달성하기 위해, 배경기술에서 전술한 단어 기반 그리고 어절/부분어절 기분석 기반 분석 방식의 문제점을 해결하면서, 인접한 여러 단어를 하나의 구 (phrase)가 될 수 있다고 간주, 구 전체를 하나의 단위로서 태깅하는 구 기반 (phrase-based) 품사 태깅 방법을 제공한다.In order to solve the above problems, the present invention solves the problems of the above-described word-based and word-based and partial-phrase-based analysis methods, The present invention provides a phrase-based part-of-speech tagging method for tagging a whole phrase as a unit.

상기 구기반 품사 태깅 방법은, 품사 부착 코퍼스로부터 구와 대응 분석 결과 쌍을 추출하여 태그 변환 모델을 구축하는 태그 변환 모델 구축 단계;The phrase-based tagging method includes a tag conversion model construction step of extracting a pair of sphere and corresponding analysis result from a corpus with part speech and constructing a tag conversion model;

상기 품사 부착 코퍼스로부터 형태소열과 태그열을 추출하여 형태소 및 태그 언어 모델을 구축하는 형태소 및 태그 언어 모델 구축 단계; 및Constructing a morpheme and a tag language model by extracting a morpheme column and a tag row from the corpus with part speech and constructing a morpheme and a tag language model; And

입력문에 대해서 상기 태그 변환 모델 및 형태소 및 태그 언어 모델을 이용하여 디코딩을 수행하여 최적의 분석 결과를 결정하는 단계를 구성하는 단계;Performing decoding on the input statement using the tag conversion model, the morpheme, and the tag language model to determine an optimal analysis result;

를 포함하는 것을 특징으로 할 수 있다.And a control unit.

본 발명의 구성에 따르면, 태깅 애매성이 높은 단어를 태깅 단위로 취하지 않고, 구를 품사 태깅 단위로 취함으로써, 태깅 애매성을 현저히 줄일 수 있는 잠재성을 가진다. According to the constitution of the present invention, the tagging ambiguity can be significantly reduced by taking the phrases having a high ambiguity of tagging as a per-tagging unit instead of taking them as a unit of tagging.

또한, 본 발명의 다른 효과로서는, 기존의 단어기반 HMM모델을 일반화시켜, 구 기반 디코딩 알고리즘을 활용하는 강건한 확률적 프레임워크를 제시함으로써, 다양한 자질들을 효과적으로 활용할 수 있는 이점이 있다는 점을 들 수 있다.Another advantage of the present invention is that the existing word-based HMM model is generalized, and a robust probabilistic framework utilizing the phrase-based decoding algorithm is presented, which can advantageously utilize various qualities effectively .

또한, 본 발명의 또 다른 효과로서는, 한국어, 영어, 중국어 등의 모든 언어에 적용될 수 있는 다국어 확장성을 갖는다는 점을 들 수 있다.In addition, another effect of the present invention is that it has multi-language scalability that can be applied to all languages such as Korean, English, and Chinese.

도 1은 본 발명의 일실시예에 따른 구기반 디코딩 방식의 한 예를 보여주는 순서도이다.
도 2는 본 발명의 일실시예에 따른 입력문의 예 “집에 들어갈래”에 대한 구기반 디코딩 과정을 도식화하여 보여주는 예이다.
1 is a flowchart illustrating an example of a phrase-based decoding scheme according to an embodiment of the present invention.
FIG. 2 shows an example of a phrase-based decoding process for an example of an input inquiry " go home " according to an embodiment of the present invention.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는바, 특정 실시예들을 도면에 예시하고 상세한 설명에 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.While the invention is susceptible to various modifications and alternative forms, specific embodiments thereof are shown by way of example in the drawings and will herein be described in detail. It is to be understood, however, that the invention is not to be limited to the specific embodiments, but includes all modifications, equivalents, and alternatives falling within the spirit and scope of the invention.

각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용한다.Like reference numerals are used for similar elements in describing each drawing.

제 1, 제 2등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. The terms first, second, etc. may be used to describe various components, but the components should not be limited by the terms. The terms are used only for the purpose of distinguishing one component from another.

예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제 1 구성요소는 제 2 구성요소로 명명될 수 있고, 유사하게 제 2 구성요소도 제 1 구성요소로 명명될 수 있다. "및/또는" 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.For example, without departing from the scope of the present invention, the first component may be referred to as a second component, and similarly, the second component may also be referred to as a first component. The term "and / or" includes any combination of a plurality of related listed items or any of a plurality of related listed items.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미가 있다. Unless otherwise defined, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs.

일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않아야 한다.Terms such as those defined in commonly used dictionaries are to be interpreted as having a meaning consistent with the contextual meaning of the related art and are to be interpreted as either ideal or overly formal in the sense of the present application Should not.

이하 첨부된 도면을 참조하여, 본 발명의 일실시예에 따른 디코딩 방식에 기반한 다국어 형태소 분석 및 품사 태깅 방법을 상세하게 설명하기로 한다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Reference will now be made in detail to the preferred embodiments of the present invention, examples of which are illustrated in the accompanying drawings, wherein like reference numerals refer to the like elements throughout.

부연하면, 본 발명의 일실시예에서는 한국어 및 영어에 대해, 품사 부착된 코퍼스로부터 구기반 품사 태깅 모델을 학습하고, 입력문에 구기반 디코딩을 수행하는 과정을 일례를 들어 설명하기로 한다.
Further, in one embodiment of the present invention, a process of learning a phrase-based tagging model from corpus attached to a part of speech and performing phrase-based decoding on an input statement will be described with an example.

도 1은 본 발명의 일실시예에 따른 구기반 디코딩 방식의 한 예를 보여주는 순서도이다. 도 1을 참조하면, 본 발명의 일실시예는 크게 1) 품사 부착 코퍼스로부터 구와 대응 분석 결과 쌍을 추출하여 구기반 태그 변환 모델을 학습하는 단계, 2) 품사 부착 코퍼스로부터 형태소열과 태그열을 추출하여 형태소 및 태그 언어 모델을 학습하는 단계, 3) 입력문에 대해서 구기반 디코딩을 수행하여 최적의 분석 결과를 결정하는 단계를 구성하는 3단계를 갖는다. 1 is a flowchart illustrating an example of a phrase-based decoding scheme according to an embodiment of the present invention. Referring to FIG. 1, an embodiment of the present invention includes the steps of 1) extracting pairs of corresponding analysis results from corpus with part of speech, and learning a phrase-based tag conversion model, 2) extracting morphological and tag sequences from part- Learning the morpheme and tag language model; and 3) performing the phrase-based decoding on the input statement to determine the optimal analysis result.

먼저, 품사 부착 코퍼스(101)에 대해, 구와 분석결과 쌍을 추출하고, 얻어진 구와 분석 결과로부터 구기반 태그 변환 모델을 구축한다(단계 102,104).First, a phrase and an analysis result pair are extracted for a partly-attached corpus 101, and a phrase-based tag conversion model is constructed from the obtained phrase and analysis result (steps 102 and 104).

일반적으로 품사 부착 코퍼스(101)는 자연언어처리나 정보 검색, 언어관련 정보 처리의 중요한 기초 자료이다. 이를 구축하기 위해서는 일반적으로 형태소 분석, 자동 품사 태깅, 수동 또는 자동 오류 수정의 단계를 거친다. In general, the corpus 101 with part-speech is an important basic data for natural language processing, information retrieval, and language-related information processing. To do this, you usually go through the steps of morphological analysis, automatic part-tagging, manual or automatic error correction.

그리고, 이와 함께, 동일 품사 부착 코퍼스(101)로부터, 단어와 태그열을 추출하고, 이로부터 단어 및 태그 언어 모델을 구축한다(단계 103,105). At the same time, words and tag sequences are extracted from the corpus 101 with the same part-of-speech, and word and tag language models are constructed therefrom (steps 103 and 105).

이렇게 학습단계가 마무리된 이후, 입력문이 입력되면(106), 앞서 학습된 변환 모델 및 태그 언어 모델을 참조하여, 구기반 품사 태깅 디코더를 수행한다(단계 S106,107).After the learning step is completed, if an input statement is input (106), the phrase-based part tagging decoder is executed referring to the conversion model and the tag language model learned previously (steps S106 and S107).

이러한 태킹 디코더에 의해 최종적으로 품사 태깅 결과를 얻는다(단계 108). Finally, the speech tagging result is obtained by the tagging decoder (step 108).

여기서, 코퍼스로부터 구와 태그분석결과 쌍을 추출하는 과정(단계 102)은 주어진 문장에 최대 maxPhraseLength의 길이로 제한된 모든 가능한 n-gram 단어열 (영어의 경우) 또는 n-character 음절열 (한국어의 경우)이 구후보가 된다.Here, the process of extracting the phrases and the pair of tag analysis results from the corpus (step 102) includes all possible n-gram word strings (for English) or n-character syllable strings (for Korean) limited to the maximum maxPhraseLength length in a given sentence, This candidate becomes a candidate.

maxPhraseLength는 단어열의 경우 최대 단어의 수가 되고, 음절열의 경우는 최대 음절 길이가 된다. 예를 들어, 한국어 어절 “집에 들어갈래”경우, 다음표에 도시된 음절열이 구후보가 될 수 있다 (부분집합만 기술).maxPhraseLength is the maximum number of words in a word string, and the maximum syllable length in a syllable string. For example, in the case of the Korean word "go home", the syllable column shown in the following table can be the old candidate (only the subset is described).

음절열 (구)Syllable column (phrase) 분석 결과 후보 (부분 집합)Analysis result candidate (subset) 집에At home 집/NNG+에/JKB, 집/NNB+에/JKB, 집/NNP+에/JKBHouse / NNG + to / JKB, house / NNB + to / JKB, house / NNP + to / JKB House 집/NNG, 집/VV, 집/NNBHome / NNG, Home / VV, Home / NNB on 에/JKB, 에/NNG, 에/ICTo / JKB, to / NNG, to / IC 집에_들At home 집/NNG+에/JKB_들/VV, 집/NNG+에/JKB_듣/VVHouse / NNG + to / JKB_sl / VV, house / to NNG + / JKB_ hear / VV 들어갈Get in 들어가/VV+ㄹ/ETMEnter / VV + d / ETM 갈래prong 갈래/NNG, 가/VV+ㄹ래/EF, 가/VV+ㄹ래/ECForward / NNG, E / VV + EA / EF, E / VV + EA / EC field 들/XSN, 들/VV, 듣/VV/ XSN, S / VV, H / VV 집에_들어갈Get into the house 집/NNG+에/JKB_들어가/VV+ㄹ/ETMHome / NNG + to / JKB_int / VV + / ETM Ra 래/EF, 래/ECR / EF, R / EC 어갈래Go 어/EC+가/VX+ㄹ/ETM, 어/EC+가/VV+ㄹ/ETMEC / VX + / ETM, EC / EC + / VV + / ETM Go 가/VV+ㄹ/ETM, 갈/NNA, / VV + d / ETM, go / NNA, 들어갈래I'm coming in. 들어가/VV+ㄹ래/ECEnter / VV + KIRA / EC

또한, 영어의 경우에 “good book for natural language processing”문장을 예로 들면 다음표와 도시된 바와 같이 음절열이 구 후보가 될 수 있다 (부분집합만 기술).For example, in the case of English, a syllable column can be a candidate for a syllable, as shown in the following table (only a subset is described), as an example of a "good book for natural language processing" sentence.

phrase 분석 결과 후보 (부분 집합)Analysis result candidate (subset) goodgood good/RB, good/NN, good/RB, good/JJgood / RB, good / NN, good / RB, good / JJ bookbook book/NN, book/VBbook / NN, book / VB good bookgood book good/JJ book/NNgood / JJ book / NN natural natural natural/JJ, natural/NNnatural / JJ, natural / NN natural language processingnatural language processing natural/JJ language/NN processing/NNnatural / JJ language / NN processing / NN language processing언어 처리 language/NN processing/NNlanguage / NN processing / NN book for natural language processingbook for natural language processing book/NN for/IN language/NN processing/NNbook / NN for / IN language / NN processing / NN

한편, 품사 부착 코퍼스(101)로부터 형태소 및 태그열을 추출하는 과정(단계 103)은 주어진 품사 부착된 문장에서 나타난 형태소와 태그들을 순서대로 나열하여 과정이다. Meanwhile, the process of extracting the morpheme and the tag sequence from the corpus 101 with part-of-speech (step 103) is a process of sequentially arranging the morpheme and tags appearing in a sentence with a given part-of-speech.

예를 들어, 위의 한국어 “집에 들어갈래”에 대해 정답 분석 결과가 “집/NNG+에/JKB 들어가/VV+ㄹ래/EC”로 주어진 경우, 추출된 형태소열과 태그 열은 다음 표와 같다. For example, if the correct answer analysis result for the above Korean "go home" is given as "house / NNG + / JKB / VV + 래 RA / EC", the extracted morpheme and tag sequences are shown in the following table.

Type Type 추출된 순서열Extracted sequence column 형태소열 Morpheme column 집 에 들어가 ㄹ래Go home 태그열Tag column NNG JKB VV ECNNG JKB VV EC

그리고, 위의 영어 “good book for natural language processing”에?대해, 정답 분석 결과가 “good/JJ book/NN for/IN natural/JJ language/NN processing/NN”로 주어진 경우, 추출된 형태소열과 태그열은 다음 표와 같다.If the correct answer analysis result is given as "good / JJ book / NN for / IN natural / JJ language / NN processing / NN" for the above "good book for natural language processing" The columns are shown in the following table.

Type Type 추출된 순서열Extracted sequence column 형태소열 (단어열) Morphological column (word column) good book for natural language processinggood book for natural language processing 태그열Tag column JJ NN IN JJ NN NNJJ NN IN JJ NN

추출된 구, 분석 결과 쌍으로부터 구기반 태그 변환 모델 구축과정(단계 104)은 기존의 HMM(H idden Markov Model) 의 단어기반 전이확률 계산 과정을 구기반 방식으로 일반화된 형태가 되는데, 구를

Figure pat00001
라 하고, 대응하는 태그 분석 결과를
Figure pat00002
이라고 할 때, 구 기반 변환 확률
Figure pat00003
은 다음식과 같이 계산된다.The spout, building parsed based tags from the resulting pair conversion process model (step 104) there is a form of words based obtain the transition probability calculation process based on generalized manner of conventional HMM (H idden Markov Model), to obtain
Figure pat00001
And the corresponding tag analysis result
Figure pat00002
, The phrase-based conversion probability
Figure pat00003
Is calculated as follows.

Figure pat00004
Figure pat00004

여기서,

Figure pat00005
는 품사 부착 코퍼스(101) 에서 구
Figure pat00006
의 분석 태그가
Figure pat00007
인 빈도수를,
Figure pat00008
는 코퍼스 상 분석 태그가
Figure pat00009
인 빈도수를 가리킨다. here,
Figure pat00005
In the corpus 101 with part speech,
Figure pat00006
Analysis tag of
Figure pat00007
However,
Figure pat00008
The corpus analysis tag
Figure pat00009
Quot;

각각의 구 태그 변환 모델은 이후 입력문에 대해 고속의 참조가 가능하도록, 구를 키로 하여 인덱스 역파일을 별도로 구축한다. Each old tag conversion model constructs an index inverse file separately, so that a fast reference can be made to the input text thereafter.

한편, 추출된 형태소열 및/또는 태그열로부터 단어 및/또는 태그 언어 모델을 구축하는 과정(단계 105)은 일반적인 통계 기반 기계 번역 및 음성 인식에서 광범위하게 적용된 스무딩(smoothing) 기법을 이용하여 언어 모델을 구축한다.On the other hand, the process of constructing a word and / or tag language model from the extracted morpheme and / or tag sequence (step 105) may be performed using a smoothing technique widely applied in general statistical machine translation and speech recognition, .

보다 자세히 정의하자면, “태그 언어 모델”은 임의의 태그열

Figure pat00010
에 확률 값
Figure pat00011
을, “형태소 언어 모델”은 임의의 형태소열
Figure pat00012
에 확률값
Figure pat00013
을 계산하는 모델이다.In more detail, the " tag language model "
Figure pat00010
Probability value
Figure pat00011
, &Quot; morpheme language model " is an arbitrary morpheme column
Figure pat00012
Probability
Figure pat00013
.

구기반 품사 태깅 디코더는 앞의 과정(단계 104 및 단계 105)를 통해 얻어진 변환 모델, 언어 모델을 이용하여, 주어진 입력문에 대한 가장 높은 확률을 갖는 분석 결과를 탐색하는 과정의 예를 설명한다.The phrase-based tagging decoder explains an example of a process of searching for an analysis result having the highest probability for a given input statement using a conversion model and a language model obtained through the above-described process (steps 104 and 105).

도 2는 본 발명의 일실시예에 따른 입력문의 예 “집에 들어갈래”에 대한 구기반 디코딩 과정을 도식화하여 보여주는 예이다. 도 2를 참조하면, 사각형 박스(200)안의 내용은 해당 음절열에 대한 분석 결과 차트를 나타내며, 사각형 박스간 연결되는 에지(edge)(210)는 인접 차트간의 조합 가능한 경로를 가리킨다. Fig. 2 is an example showing a sphere-based decoding process for an example of an input inquiry " Go home " according to an embodiment of the present invention. Referring to FIG. 2, the contents in the square box 200 show an analysis result chart for the syllable column, and an edge 210 connected between the square boxes indicates a combinable path between adjacent charts.

보다 구체적으로 말하면, 구기반 품사 태깅 방법은 다음식의 최적화 문제를 푸는 알고리즘이라 볼 수 있다.More specifically, the phrase-based tagging method can be considered as an algorithm to solve the optimization problem of the following.

Figure pat00014
Figure pat00014

수학식 2는 태그 언어 모델만 사용한 최적화 예로,

Figure pat00015
는 태그 언어 모델을 이용하여 계산되고,
Figure pat00016
는 임의의 “태그 분석 결과”
Figure pat00017
에서 임의의 “구 분할 결과”
Figure pat00018
의 변환 확률로, 다음식과 같이 정의된다. Equation (2) is an optimization example using only a tag language model,
Figure pat00015
Is calculated using the tag language model,
Figure pat00016
Quot; tag analysis result "
Figure pat00017
Quot; segmentation result "
Figure pat00018
And is defined as the following equation.

Figure pat00019
Figure pat00019

이때,

Figure pat00020
는 구기반 태그 변환 확률로, 앞서 정의된 수학식 1을 이용하여 계산된다.
At this time,
Figure pat00020
Is calculated using Equation (1) defined above with the phrase-based tag conversion probability.

덧붙여, 수학식 2를 확장하여 “형태소 언어 모델”을 추가한 예는 다음식과 같다. In addition, an example of adding the " morpheme language model " by expanding Equation (2) is as follows.

Figure pat00021
Figure pat00021

여기서

Figure pat00022
은 태그 분석 결과
Figure pat00023
에 대응되는 형태소열을 가리키며,
Figure pat00024
는 태그/형태소 언어 모델 각각의 확률 자질에 대한 가중치를 의미한다.here
Figure pat00022
Tag analysis result
Figure pat00023
≪ / RTI >< RTI ID = 0.0 >
Figure pat00024
Is a weight for each probability property of each tag / morpheme language model.

본 발명에서의 구는 언어학(linguistics)에서 사용하는 구의 개념을 따르지 않고 통계 기반 번역 사용되는 구와 유사한 시스템적인 개념으로서, 개별 언어마다 다르게 정의된다. The phrases in the present invention are systematic concepts similar to phrases used in statistics-based translation instead of the phrases used in linguistics, and are defined differently for individual languages.

본 발명의 예시에서, 영어나 불어와 같은 언어의 경우에는 임의의 단어열을, 한국어 및 중국어 등의 언어에서는 임의의 연속된 (띄어쓰기 포함된) 음절열을 구로 정의한다. In the example of the present invention, an arbitrary word sequence is defined for a language such as English or French, and an arbitrary continuous syllable string (including a space) is defined for a language such as Korean and Chinese.

특히 한국어에서는 임의의 음절열을 구로 취하기 때문에, 다중 어절이 하나의 구로 간주되어 한 단위로 동시에 태깅될 수 있어, 종래의 어절 기반 태깅 방법보다 일반적이다.
Especially in Korean, since the arbitrary syllable string is taken as a syllable, multiple syllables can be regarded as one syllable and can be simultaneously tagged in one unit, which is more common than the conventional word-based tagging method.

특히, 본 발명에 따른 디코딩 방식에 기반한 다국어 형태소 분석 및 품사 태깅 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. In particular, the multilingual morphological analysis and part-of-speech tagging method based on the decoding method according to the present invention can be implemented in a form of a program command that can be executed through various computer means and recorded in a computer readable medium. The computer-readable medium may include program instructions, data files, data structures, and the like, alone or in combination.

상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. The program instructions recorded on the medium may be those specially designed and constructed for the present invention or may be available to those skilled in the art of computer software. Examples of computer-readable media include magnetic media such as hard disks, floppy disks and magnetic tape; optical media such as CD-ROMs and DVDs; magnetic media such as floppy disks; Magneto-optical media, and hardware devices specifically configured to store and execute program instructions such as ROM, RAM, flash memory, and the like.

상기 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The medium may be a transmission medium such as an optical or metal line, a wave guide, or the like, including a carrier wave for transmitting a signal designating a program command, a data structure, or the like. Examples of program instructions include machine language code such as those produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.

101: 품사 부착 코퍼스
102: 구, 분석 결과쌍 추출 단계
103: 형태소 및 태그열 추출 단계
104: 구기반 태그 변환 모델 구축 단계
105: 형태소 및 태그언어 모델 구축 단계
106: 입력문 입력 단계
107: 구기반 품사 태깅 단계
108: 태깅 결과 단계
101: Corpus with parts
102: Sphere, analysis result pair extraction step
103: Morphological and tag column extraction step
104: Steps of building old-based tag conversion model
105: Construction of morpheme and tag language model
106: Entry step of input statement
107: Sphere-based tagging stage
108: Tagging result step

Claims (1)

품사 부착 코퍼스로부터 구와 대응 분석 결과 쌍을 추출하여 태그 변환 모델을 구축하는 태그 변환 모델 구축 단계;
상기 품사 부착 코퍼스로부터 형태소열과 태그열을 추출하여 형태소 및 태그 언어 모델을 구축하는 형태소 및 태그 언어 모델 구축 단계; 및
입력문에 대해서 상기 태그 변환 모델 및 형태소 및 태그 언어 모델을 이용하여 디코딩을 수행하여 최적의 분석 결과를 결정하는 단계를 구성하는 단계;
를 포함하는 것을 특징으로 하는 디코딩 방식에 기반한 다국어 형태소 분석 및 품사 태깅 방법.
A tag conversion model construction step of extracting a pair of corresponding analysis result pairs from a partly attached corpus and constructing a tag conversion model;
Constructing a morpheme and a tag language model by extracting a morpheme column and a tag row from the corpus with part speech and constructing a morpheme and a tag language model; And
Performing decoding on the input statement using the tag conversion model, the morpheme, and the tag language model to determine an optimal analysis result;
And a multilingual morpheme analysis and part-of-speech tagging method based on a decoding method.
KR1020120146912A 2012-12-14 2012-12-14 Method for Multi-language Morphological Analysis and Part-of-Speech Tagging based on conventional decoding scheme KR20140079545A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120146912A KR20140079545A (en) 2012-12-14 2012-12-14 Method for Multi-language Morphological Analysis and Part-of-Speech Tagging based on conventional decoding scheme

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120146912A KR20140079545A (en) 2012-12-14 2012-12-14 Method for Multi-language Morphological Analysis and Part-of-Speech Tagging based on conventional decoding scheme

Publications (1)

Publication Number Publication Date
KR20140079545A true KR20140079545A (en) 2014-06-27

Family

ID=51130582

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120146912A KR20140079545A (en) 2012-12-14 2012-12-14 Method for Multi-language Morphological Analysis and Part-of-Speech Tagging based on conventional decoding scheme

Country Status (1)

Country Link
KR (1) KR20140079545A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444676A (en) * 2018-12-28 2020-07-24 北京深知无限人工智能研究院有限公司 Part-of-speech tagging method, device, equipment and storage medium
CN112528671A (en) * 2020-12-02 2021-03-19 北京小米松果电子有限公司 Semantic analysis method, semantic analysis device and storage medium
KR20230015798A (en) * 2021-07-23 2023-01-31 한국전력공사 Method for generating library for word embedding

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444676A (en) * 2018-12-28 2020-07-24 北京深知无限人工智能研究院有限公司 Part-of-speech tagging method, device, equipment and storage medium
CN112528671A (en) * 2020-12-02 2021-03-19 北京小米松果电子有限公司 Semantic analysis method, semantic analysis device and storage medium
KR20230015798A (en) * 2021-07-23 2023-01-31 한국전력공사 Method for generating library for word embedding

Similar Documents

Publication Publication Date Title
KR101762866B1 (en) Statistical translation apparatus by separating syntactic translation model from lexical translation model and statistical translation method
Schuster et al. Japanese and korean voice search
US20190272318A1 (en) Use of small unit language model for training large unit language models
US9460080B2 (en) Modifying a tokenizer based on pseudo data for natural language processing
Ney et al. Algorithms for statistical translation of spoken language
US8332205B2 (en) Mining transliterations for out-of-vocabulary query terms
US6311152B1 (en) System for chinese tokenization and named entity recognition
KR20110004625A (en) System and method for transforming vernacular pronunciation with respect to hanja using statistical method
US8874433B2 (en) Syntax-based augmentation of statistical machine translation phrase tables
JP2009533728A (en) Machine translation method and system
Arisoy et al. Syntactic and sub-lexical features for Turkish discriminative language models
Arisoy et al. Discriminative language modeling with linguistic and statistically derived features
CN109408628A (en) A kind of method and relevant device parsing semantic structure of sentences
JP2006338261A (en) Translation device, translation method and translation program
CN101470701A (en) Text analyzer supporting semantic rule based on finite state machine and method thereof
KR20140079545A (en) Method for Multi-language Morphological Analysis and Part-of-Speech Tagging based on conventional decoding scheme
KR20120045906A (en) Apparatus and method for correcting error of corpus
Stepanov et al. Language style and domain adaptation for cross-language SLU porting
Ali An unsupervised parts-of-speech tagger for the bangla language
Iosif et al. Speech understanding for spoken dialogue systems: From corpus harvesting to grammar rule induction
Jabaian et al. A unified framework for translation and understanding allowing discriminative joint decoding for multilingual speech semantic interpretation
Foster et al. TransType: text prediction for translators
US9311302B2 (en) Method, system and medium for character conversion between different regional versions of a language especially between simplified chinese and traditional chinese
JP5544518B2 (en) Machine translation apparatus, machine translation method, and program thereof
KR100463376B1 (en) A Translation Engine Apparatus for Translating from Source Language to Target Language and Translation Method thereof

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination