KR20100072730A - 상호 정보를 이용한 형태소 품사 태깅 장치 및 방법 - Google Patents

상호 정보를 이용한 형태소 품사 태깅 장치 및 방법 Download PDF

Info

Publication number
KR20100072730A
KR20100072730A KR1020080131220A KR20080131220A KR20100072730A KR 20100072730 A KR20100072730 A KR 20100072730A KR 1020080131220 A KR1020080131220 A KR 1020080131220A KR 20080131220 A KR20080131220 A KR 20080131220A KR 20100072730 A KR20100072730 A KR 20100072730A
Authority
KR
South Korea
Prior art keywords
mutual information
speech
morphemes
information
morpheme
Prior art date
Application number
KR1020080131220A
Other languages
English (en)
Other versions
KR101092356B1 (ko
Inventor
김정세
이수종
이일빈
윤승
박준
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020080131220A priority Critical patent/KR101092356B1/ko
Publication of KR20100072730A publication Critical patent/KR20100072730A/ko
Application granted granted Critical
Publication of KR101092356B1 publication Critical patent/KR101092356B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Operations Research (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 상호 정보를 이용한 형태소 품사 태깅 기술에 관한 것으로, 텍스트 코퍼스와 그 텍스트에 대한 형태소 품사 태깅된 DB를 이용하여 형태소 간에 순서정보를 가진 상호 정보를 구축하고, 입력문장에 대해 형태소 해석을 한 후, 그 결과인 형태소 리스트들에 대해 형태소 간의 상호 정보를 계산하고, 그 결과를 기존의 형태소 품사 태깅 방법, 즉 통계 기반 태깅 방법과 조합하여 최적의 품사 태깅 결과를 출력할 수 있도록 하는 것을 특징으로 한다. 본 발명에 의하면, 형태소 품사 태깅된 DB를 이용하여 형태소 간에 순서정보를 가진 상호 정보를 구축하고, 입력문장에 대해 형태소 해석 리스트에 기 구축된 상호 정보를 계산하고, 기존의 형태소 품사 태깅 방법과 조합함으로써, 형태소 품사 태깅의 정확도를 높일 수 있다.
텍스트 코퍼스, 형태소 품사 태깅, 상호 정보

Description

상호 정보를 이용한 형태소 품사 태깅 장치 및 방법{APPARATUS AND METHOD FOR TAGGING MORPHEME PART-OF-SPEECH BY USING MUTUAL INFORMATION}
본 발명은 자연어 처리 과정에서 사용되는 형태소 품사 태깅 기술에 관한 것으로서, 특히 텍스트 코퍼스와 그 텍스트에 대한 형태소 품사 태깅된 DB를 이용하여 형태소 간에 순서정보를 가진 상호 정보를 구축하고 구축된 상호 정보를 형태소 품사 태깅 시에 적용하여 높은 정확도의 품사 태깅 결과를 출력하는데 적합한 상호 정보를 이용한 형태소 품사 태깅 장치 및 방법에 관한 것이다.
본 발명은 지식경제부 및 정보통신연구진흥원의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2008-S-019-01, 과제명: 휴대형 한/영 자동통역 기술 개발].
일반적으로 품사 태깅이란, 문장 내에서 단어가 사용된 문맥에 따라서 각 단어의 올바른 품사 정보를 할당하는 과정을 말한다. 품사 태깅은 어휘적 모호성으로 인한 구문 분석 단계에서의 과다한 부담을 줄이기 위한 전처리 과정에서 사용되며, 정보 검색 시스템에서 높은 재현율 및 정확도를 갖는 색인어와 검색어 추출을 위해 사용될 수 있다. 또한 기계 번역, 언어 정보 획득 도구, 철자검사, 사전 구축 등 자연어 처리의 제반 분야에서 필수적인 과정으로 인식되고 있다.
이러한, 품사 태깅을 위한 일반적인 방법으로는 크게 통계 기반 접근 방법(satistical approach)과 규칙 기반 접근 방법(rule-based approach), 그리고 통계 기반 접근 방법과 규칙 기반 접근 방법을 통합한 통합 접근 방법(hybrid approach)으로 구분할 수 있다.
통계 기반 품사 태깅 방법은 실세계의 자연어 용례들과 부속 정보를 포함하는 원시 또는 태깅된 코퍼스를 분석하고 자연어에 대한 통계 정보를 추출하여 얻는 확률을 이용하여 자연어 처리의 중의성 문제를 확률적으로 해결하는 방법이다. 이 방법은 거의 모든 언어 현상에 적용할 수 있지만, 실세계 언어 현상을 충분히 대표할 수 있는 양과 질의 코퍼스가 존재하지 않아 데이터 부족 문제로 인해 정확도가 저하된다.
이러한, 통계 기반 품사 태깅 방법은 크게 어휘 확률만을 이용하는 방법, HMM(Hidden Markov Model)의 자율 학습을 이용하는 방법, N-gram의 문맥 확률과 어휘 확률을 이용하는 방법으로 분류할 수 있고, 이 밖에도 신경망을 이용하는 방법, 퍼지망(fuzzy network)을 이용하는 방법 등이 있다.
규칙 기반 품사 태깅 방법은 자연어에 적용되는 공통적인 원리나 결정적인 규칙을 찾아내고, 이를 이용하여 자연어 처리의 중의성 문제를 해결하는 방법으로, 지식 기반 방법(knowledge-based approach) 또는 제약 기반 접근 방법(constraint-based approach)이라고도 한다. 이 방법은 일관성 있는 결정적 규칙을 얻기가 어렵 고 많은 규칙들을 잘 제어하기가 쉽지 않아 일반적으로 견고하지 못하지만, 규칙이 적용될 수 있는 현상에 대해서는 높은 정확도를 보인다. 최근에는 사용 가능해진 대량의 원시 코퍼스 및 태깅된 코퍼스의 구축과 컴퓨터 성능 향상에 힘입어 태깅 규칙을 자동으로 학습하고자 하는 연구가 활발히 진행되고 있다.
즉, 통합 품사 태깅 방법은 대량의 데이터에서 추출한 확률 및 통계 정보와 언어 지식을 모두 이용함으로써 통계 기반 접근 방법과 규칙 기반 접근 방법의 장단점을 상호 보완하고자 하는 방법이다.
여기서, 통계 기반 품사 태깅 방법에서는 주로 아래와 같은 공식을 은닉 마르코프 모델(HMM)을 사용하며, <수학식 1>과 같다.
Figure 112008087908903-PAT00001
여기서 P는 최적의 품사열, W i i번째의 단어, P i 는W i 의 태그를 나타낸다.
이러한, 통계 기반 품사 태깅 방법의 문제점은 형태소들 간의 접속정보의 부재로 인해 오류가 발생한다는 것이다. 이에 이를 해결하고자 형태소 분석 출력 시 규칙을 이용한 긍정언어지식과 부정언어지식을 적용함으로써 어휘적 모호성을 해소하는 모호성 해소기를 포함하였으며, 규칙으로 모호성이 제거된 결과를 통계기반 품사 태거에 사용하고, 그 후 수정언어지식(규칙틀)을 이용하여 보정하였다.
상기한 바와 같이 동작하는 종래 기술에 의한 품사 태깅 방법 중 규칙 기반 품사 태깅 방법에 있어서는, 언어지식을 전문가가 구축함으로써 언어지식 획득이 어렵다는 단점이 있으며, 서로 다른 규칙들에 대한 충돌발생 시 이를 해소하기가 어렵다는 문제점이 있었다.
이에 본 발명은, 기존의 통계기반 품사 태깅 방법에 상호 정보를 조합하여 형태소 품사 태깅의 성능을 높일 수 있는 상호 정보를 이용한 형태소 품사 태깅 장치 및 방법을 제공한다.
또한 본 발명은, 텍스트 코퍼스와 그 텍스트에 대한 형태소 품사 태깅된 DB를 이용하여 형태소 간에 순서정보를 가진 상호 정보를 구축하고 구축된 상호 정보를 형태소 품사 태깅 시에 적용할 수 있는 상호 정보를 이용한 형태소 품사 태깅 장치 및 방법을 제공한다.
또한 본 발명은, 텍스트 코퍼스와 그 텍스트에 대한 형태소 품사 태깅된 DB를 이용하여 형태소간에 순서정보를 가진 상호 정보를 구축하고, 입력된 문장에 대해서 형태소 해석을 한 다음, 그 결과인 형태소 리스트들에 대해 상호 정보를 계산하고, 기존의 형태소 품사 태깅 방법과 조합하여 형태소 품사 태깅을 수행할 수 있는 상호 정보를 이용한 형태소 품사 태깅 장치 및 방법을 제공한다.
본 발명의 일 실시예 장치는, 텍스트 코퍼스와 그 텍스트에 대한 형태소 품 사 태깅된 DB를 이용하여 형태소 간에 순서정보를 가진 상호 정보를 구축하는 상호 정보 구축부와, 상기 구축된 상호 정보와, 형태소 해석을 위한 형태소 사전과 품사 접속 정보 및 품사 태깅을 위한 품사 n-gram 정보가 저장되어 있는 데이터 저장부와, 품사 태깅을 수행할 문장을 입력 받는 문장 입력부와, 상기 입력 받은 문장을 상기 데이터 저장부의 형태소 사전과 품사 접속 정보를 이용하여 분석 가능한 형태소들의 리스트를 출력하는 형태소 해석부와, 상기 형태소들의 리스트에 대해 형태소 간의 상호 정보를 구하는 상호 정보 계산부와, 상기 데이터 저장부의 품사 n-gram 정보를 이용하여 상기 형태소들의 리스트에 대해 품사 천이 확률값을 계산하는 n-gram 계산부와, 상기 상호 정보 계산부의 결과와 n-gram 계산부의 결과를 토대로 판단되는 형태소 해석 결과를 선택하는 품사 태깅부를 포함한다.
본 발명의 일 실시예 방법은, 텍스트 코퍼스와 그 텍스트에 대한 형태소 품사 태깅된 DB를 이용하여 형태소 간에 순서정보를 가진 상호 정보를 구축하는 과정과, 품사 태깅을 수행할 문장을 입력 받는 과정과, 상기 입력 받은 문장을 상기 구축된 상호 정보와, 형태소 해석을 위한 형태소 사전과 품사 접속 정보 및 품사 태깅을 위한 품사 n-gram 정보가 저장되어 있는 데이터 저장부의 형태소 사전과 품사 접속 정보를 이용하여 분석 가능한 형태소들의 리스트를 출력하는 과정과, 상기 형태소들의 리스트에 대해 형태소 간의 상호 정보를 구하는 과정과, 상기 데이터 저장부의 품사 n-gram 정보를 이용하여 상기 형태소들의 리스트에 대해 품사 천이 확률값을 계산하는 과정과, 상기 구해진 상호 정보와 상기 계산된 품사 천이 확률값을 토대로 판단되는 형태소 해석 결과를 선택하는 과정을 포함한다.
본 발명에 있어서, 개시되는 발명 중 대표적인 것에 의하여 얻어지는 효과를 간단히 설명하면 다음과 같다.
본 발명은, 형태소 품사 태깅된 DB를 이용하여 형태소 간에 순서정보를 가진 상호 정보를 구축하고, 입력문장에 대해 형태소 해석 리스트에 기 구축된 상호 정보를 계산하고, 기존의 통계기반 품사 태깅 방법과 조합함으로써, 형태소 품사 태깅의 정확도를 높일 수 있으며, 이를 통해 음성 합성이나 음성인식, 다국어 번역기와 같은 자연어 처리 시스템에서 효율적으로 사용될 수 있는 효과가 있다.
이하 첨부된 도면을 참조하여 본 발명의 동작 원리를 상세히 설명한다. 하기에서 본 발명을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
본 발명은 기존의 통계기반 품사 태깅 방법에 상호 정보를 조합하여 형태소 품사 태깅의 성능을 높이기 위한 것으로서, 텍스트 코퍼스와 그 텍스트에 대한 형태소 품사 태깅된 DB를 이용하여 형태소 간에 순서정보를 가진 상호 정보를 구축하 고, 입력된 문장에 대해서 형태소 해석을 한 다음, 그 결과인 형태소 리스트들에 대해 상호 정보를 계산하고, 기존의 형태소 품사 태깅 방법과 조합하여 형태소 품사 태깅을 수행하는 것이다.
여기서, 상호 정보(MI)는 두 단어에 대한 응집도를 계산하는 것으로 단어 x와 y가 같이 나올 확률에 x와 y가 독립적으로 나올 확률로 나눈 것이다. N은 총 단어의 개수다.
Figure 112008087908903-PAT00002
여기서, P(x)=freq(x)/N, P(x,y)=freq(x,y)/N, N=total_word 임.
상호 정보값의 의미는 다음과 같다.
- MI(x,y) >> 0 : x와 y는 밀접한 상관관계를 가지고 있으며 함께 사용되는 경우가 많다.
- MI(x,y)
Figure 112008087908903-PAT00003
0 : x와 y는 아무 관계가 없다.
- MI(x,y)<< 0 : x와 y는 함께 쓰이기보다는 x가 쓰여지면 y가 쓰이지 않는다.
이러한 상호 정보는 정보검색에서의 문서의 순위조정이나 문서분류에 주로 사용되며, 형태소 분석 시의 복합명사의 추출이나 분리, 자동 띄어쓰기에도 상호 정보가 사용된다. 일반적으로 상호 정보를 구할 때, 단어 x와 y에 대해서는 나타나는 순서에 관계가 없지만, 본 발명에서는 순서 정보를 추가하여 구현한다. 즉 MI(x,y)의 값과 MI(y,x)의 결과값이 다르며, 이는 형태소 해석이 명사 조사 순으로 해석이 진행되지만, 조사 명사 순으로 해석될 수는 없기 때문이다.
도 1은 본 발명의 실시예에 따른 품사 태깅 장치의 구조를 도시한 블록도이다.
도 1을 참조하면, 상호 정보를 이용한 품사 태깅 장치(100)는 텍스트 코퍼스 및 형태소 품사 태깅된 DB(102), 상호 정보 구축부(104), 데이터 저장부(106), 문장 입력부(108), 형태소 해석부(110), 상호 정보 계산부(112), n-gram 계산부(114), 품사 태깅부(116), 품사 태깅 결과 출력부(118) 등을 포함한다.
구체적으로 텍스트 코퍼스 및 형태소 품사 태깅된 DB(102)는 텍스트 코퍼스 와 그 텍스트 코퍼스에서 각각의 텍스트에 대한 형태소 품사 태깅 데이터를 저장하고 있는 것으로서, 여기서 텍스트 코퍼스(corpus)란 언제든지 재사용이 가능하도록 부가적인 정보화 다큐먼트가 갖추어져 있으며, 컴퓨터로 읽을 수 있는 형태로 구성된 텍스트 자료의 모음 즉, 말뭉치를 의미할 수 있다.
상호 정보 구축부(104)는 텍스트 코퍼스 및 형태소 품사 태깅된 DB(102)를 이용하여 형태소 간에 순서정보를 가진 상호 정보를 구축하는 것으로서, 상호 정보 구축부(104)의 동작 방식에 대해서는 도2를 참조하여 상세히 설명하도록 한다.
데이터 저장부(106)는 상호 정보 구축부(104)로부터 전달된 상호 정보와, 형태소 해석을 위한 형태소 사전과, 품사 접속 정보 및 품사 태깅을 위한 품사 n- gram 정보 사전 등이 저장되어 있으며, 데이터 저장부(106)에 저장되어 있는 정보는 형태소 해석부(110), 상호 정보 계산부(112) 및 n-gram 계산부(114)로 제공된다.
여기서, 형태소 사전은, 형태소, 형태소의 범주, 연결 형태에 대한 빈도 정보 등이 포함될 수 있다. 그리고 품사 접속 정보는 품사들간의 연결 가능한 정보를 나열한 정보로, 예를 들어, 명사 뒤에는 명사가 올 수 있고 어미나 조사가 올 수 있고, 동사 뒤에는 어미가 오며, 형용사 뒤에는 어미가 오고, 어미 뒤에는 어미가 올 수 있다 등의 정보를 나열한 리스트를 의미하며, 이와 같은 품사 접속 정보에 따라 결합 가능한 형태소 간의 리스트가 출력된다.
또한, 품사 엔그램(n-gram) 정보는 과거의 n-1개의 단어로부터 다음에 나타날 단어의 확률을 정의하는 것으로서, 흔히 사용되는 n-gram은 바이그램(n=2)과 트라이그램(n=3)이 있다.
문장 입력부(108)는 품사 태깅을 수행할 문장을 입력 받으며, 이때 문장 입력 방법은 다양한 형태로 구현될 수 있는데, 이미 만들어져 있는 텍스트 형식으로 입력될 수도 있고 키보드를 통하여 사용자로부터 실제 문장을 입력 받을 수도 있다,
형태소 해석부(110)는 문장 입력부(108)를 통해 입력 받은 문장을 데이터 저장부(106)의 형태소 사전과 품사 접속 정보를 이용하여 분석 가능한 모든 형태소들의 리스트를 출력한다.
상호 정보 계산부(112)는 형태소 해석부(110)의 형태소 해석 결과인 형태소 리스트들에 대해 형태소 간의 상호 정보를 구하고, n-gram 계산부(114)는 통계기반 품사 태깅 방법인 데이터 저장부(106)의 품사 n-gram 정보를 이용하여 형태소 해석부(110)의 형태소 해석 결과에 대해 품사 천이 확률값을 계산한다.
그리고 품사 태깅부(116)는 상호 정보 계산부(112)의 결과와 n-gram 계산부(114)의 결과, 즉 통계기반 품사 천이 확률값을 더해서 최적으로 판단되는 형태소 해석 결과를 선택하게 되며, 품사 태깅 결과 출력부(118)는 품사 태깅부(116)에서의 품사 태깅 결과를 모니터나 기타 출력 장치로 출력하는 기능을 수행한다.
도 2는 본 발명의 실시예에 따른 상호 정보 구축부에서 형태소 간의 상호 정보 구축 절차를 도시한 흐름도이다.
도 2를 참조하면, 텍스트 코퍼스와 그 텍스트에 대한 형태소 품사 태깅된 DB를 이용하여 상호 정보를 구축하는 상호 정보 구축부(104)의 동작 절차로서, 202단계에서는 텍스트 코퍼스와 그 텍스트에 대한 형태소 품사 태깅된 DB를 이용하여 텍스트 코퍼스에 대해 형태소 해석을 한 형태소 리스트들을 출력하고, 204단계에서는 출력된 형태소 리스트들에 대해서 인접한 형태소들에 대한 리스트를 추출하며, 206단계에서는 출력된 형태소 리스트들에서 키워드들을 찾아, 208단계에서 키워드와 다음 키워드의 형태소에 대해서도 리스트를 추출한다.
이후 210단계에서는 텍스트 코퍼스에 대해 형태소 해석을 한 형태소 리스트와, 형태소 리스트들에 대해서 인접한 형태소들에 대한 리스트와, 키워드와 다음 키워드의 형태소에 대한 리스트와 같이 각각의 추출된 리스트들을 모두 합하여 형태소 품사 태깅된 DB의 빈도를 활용하여 상호정보를 구축한다.
여기서 키워드는 조사나 어미를 제외한 명사, 용언, 등이다. 또한, 일반적인 상호정보 구축 시 freq(x,y)와 freq(y,x)를 합친 정보를 사용하나, 본 발명의 실시예에서는 이를 구분하여 freq(x,y) 정보만을 사용한다. 즉, 형태소 해석의 결과에 상호정보를 적용할 때 단어 x, 단어 y 순서가 아닌 단어 y, 단어 x순서로 많이 나왔다고 해서 x, y순서로 해석될 가능이 높은 것은 아니기 때문에 단어 x와 단어 y가 순차적으로 같이 나왔을 경우로 한정하여 상호 정보를 구축한다.
"팔이 아파요"에 대한 문장을 예를 들어 상호정보를 구축하는 방법을 설명하면 아래와 같다.
"팔이 아파요"에 대한 형태소 해석을 하면 아래 예1과 예2)와 예3으로 해석이 된다.
예 1) 팔/명사 이/조사 아파/동사 요/종결어미
A. (팔/명사, 이/조사), (이/조사, 아파/동사) (아파/동사, 요/종결어미)
B. 팔/명사 아파/동사
C. (팔/명사, 아파/동사)
예 2) 팔/숫자 이/조사 아파/동사 요/종결어미
A. (팔/숫자, 이/조사), (이/조사, 아파/동사) (아파/동사, 요/종결어미)
B. 팔/숫자 아파/동사
C. (팔/숫자, 아파/동사)
예 3) 팔/숫자 이/숫자 아파/동사 요/종결어미
A. (팔/숫자, 이/숫자), (이/숫자, 아파/동사) (아파/동사, 요/종결어미)
B. 팔/숫자 이/숫자 아파/동사
C. (팔/숫자, 이/숫자), (이/숫자, 아파/동사)
해석된 형태소 리스트들에 대해 인접한 형태소들에 대한 리스트를 추출하면 예1)의 A, 예2)의 A, 예3)의 A가 추출이 되고, 형태소 리스트들에서 키워드들을 찾으면 예1)의 B, 예2)의 B, 예3)의 B가 찾아진다. 다음으로 인접 키워드 간의 리스트를 추출하면 예1)의 C, 예2)의 C, 예3)의 C가 된다. 예1)의 A, 예2)의 A, 예3)의 A와 예1)의 C, 예2)의 C, 예3)의 C를 모두 합쳐서 형태소 품사 태깅된 DB의 빈도를 이용하여 상호정보를 구축하면 아래 상호정보 구축 결과와 같다.
- 상호정보 구축결과 : MI("팔/명사", "이/조사"), MI("이/조사" , "아파/동사"), MI("아파/동사", "요/종결어미"), MI("팔/명사", "아파/동사"), MI("팔/숫자", "이/조사"), MI("팔/숫자", "아파/동사"), MI("팔/숫자", "이/숫자"), MI("이/숫자", "아파/동사")
도 3은 본 발명의 실시예에 따른 품사 태깅 절차를 도시한 흐름도이다.
도 3을 참조하면, 품사 태깅 장치(100)에서의 품사 태깅 절차를 나타낸 것으로서, 300단계에서는 문장 입력부(108)를 통해 품사 태깅을 수행할 문장을 입력 받는다. 이때, 문자 입력 방법은 이미 만들어져 있는 텍스트 파일 형식으로 입력될 수도 있고, 컴퓨팅 장치의 입력부를 통하여 사용자로부터 직접 입력될 수도 있다.
302단계에서 형태소 해석부(110)는 문장 입력부(108)로부터 전달 받은 문장에 대해서 데이터 저장부(106)의 형태소 사전과 품사 접속 정보를 이용하여 형태소 해석을 수행하여 결합 가능한 형태소 리스트를 출력한다.
형태소 해석 방법으로 음절기반 태뷸러(Tabular) 파싱법 외에 헤드-테일(Head-tail) 구분법과, 태뷸러(Tabular) 파싱법, 최장 일치법, 최단 일치법, 음절 단위 분석법 등이 사용될 수 있으며, 품사 접속 정보를 이용하여 형태소들간의 결합이 가능한가를 확인하고, 품사 접속 정보에 따라 결합 가능한 형태소 간의 리스트가 출력된다.
다음으로 304단계에서 상호 정보 계산부(112)는 해석된 형태소 리스트들에 대해 인접한 형태소 간의 상호정보를 계산한다. 이에306단계에서 인접 형태소 x, y의 상호정보MI(x,y)에 대해 기 설정된 값(예컨대 적정값)을 초과하는지를 판단하여 초과하지 못하면, 308단계로 진행하여 잘못 해석된 것으로 파악하여 상호정보 계산을 멈추고 그 리스트에 대해서는 그 이후로 사용하지 않는다.
이후 다시 304단계로 복귀하여 해석된 형태소 리스트들에 대해 제외된 인접한 형태소 외에 다른 인접한 형태소와의 상호정보 계산을 수행하여 306단계에서 인접 형태소 x, y의 상호정보MI(x,y)에 대해 기 설정된 값을 초과하는 경우에는 310단계로 진행하여 데이터 저장부(106)에 저장된 상호정보에서 키워드 정보를 추출하여, 인접 키워드 간의 상호정보를 계산한다.
312단계에서 n-gram 계산부(114)는 상호 정보 계산부(112)를 통해 상호정보 계산을 끝낸 형태소 해석 리스트들에 대해 품사 n-gram정보를 이용하여 품사 천이 확률을 계산한다.
그리고 314단계에서 품사 태깅부(116)는 품사 n-gram정보를 이용한 계산결과와 상호정보 계산 결과를 더해서 최적으로 판단되는 형태소 해석 결과로서, 형태소 품사를 결정하고, 316단계에서는 품사 태깅 결과 출력부(118)를 통해 결정된 품사 태깅 결과를 출력하게 된다.
한편, 품사 태깅부(116)에서는 하기 <수학식 3>에서와 같이 기존의 형태소 태깅 방법, 즉 통계 기반 품사 태깅 방법에서 상호정보를 더해서 최적으로 판단되는 형태소 해석 결과를 선택하게 한다.
Figure 112008087908903-PAT00004
여기서, N은 상호정보를 적용한 횟수, C는 상수로 상호 정보를 얼마나 활용할 것인지를 결정한다.
"사탕 하나요"의 예를 들면 이는 아래 1,2,3번의 형태소 해석 결과가 나오며 각각의 해석결과마다 상호정보는 1A, 2A, 3A가 나온다.
1. 사탕/명사 하/동사 나요/종결어미
A. MI("사탕/명사", "하/동사")와 MI("하/동사", "나요/종결어미")
2. 사탕/명사 하나/고유명사 요/종결어미
B. MI("사탕/명사", "하나/고유명사")와 MI("하나/숫자" "요/종결어미")
3. 사탕/명사 하나/숫자 요/종결어미
C. MI("사탕/명사", "하나/숫자")와 MI("하나/숫자" "요/종결어미")
통계기반 품사 태깅에서 사용하는 품사 n-gram만을 이용하면 명사, 동사, 종 결어미 순서의 품사 tri-gram 값이 명사, 숫자, 종결어미 순서의 품사 tri-gram 값보다 높아 항상 1번으로 품사 태깅이 된다. 그러나 1번의 상호정보 중 첫번째와 2번의 첫번째는 MI(x,y) < 0일 확률이 높아 3번의 상호정보 계산결과가 상대적으로 높게 나타날 것이다. 이것을 조합하면 명사, 숫자, 종결어미 순서의 품사 tri-gram 값이 비록 낮더라도 상호정보 결과값이 보정해줌으로써 3번으로 품사 태깅 결과를 출력하게 된다.
이상 설명한 바와 같이, 본 발명은 기존의 통계기반 품사 태깅 방법에 상호 정보를 조합하여 형태소 품사 태깅의 성능을 높이기 위한 것으로서, 텍스트 코퍼스와 그 텍스트에 대한 형태소 품사 태깅된 DB를 이용하여 형태소간에 순서정보를 가진 상호 정보를 구축하고, 입력된 문장에 대해서 형태소 해석을 한 다음, 그 결과인 형태소 리스트들에 대해 상호 정보를 계산하고, 기존의 형태소 품사 태깅 방법과 조합하여 형태소 품사 태깅을 수행한다.
또한, 본 발명에 의한 상호 정보를 이용한 형태소 품사 태깅 방법은 컴퓨터 프로그램으로 작성 가능하다. 이 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 또한, 해당 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 정보저장매체(computer readable media)에 저장되고, 컴퓨터에 의하여 읽혀지고 실행됨으로써 비접촉 환경 계측 방법을 구현한다. 정보저장매체는 자기 기록매체, 광 기록매체 및 캐리어 웨이브 매체를 포함한다.
한편 본 발명의 상세한 설명에서는 구체적인실시예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시예에 국한되지 않으며, 후술되는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.
도 1은 본 발명의 실시예에 따른 품사 태깅 장치의 구조를 도시한 블록도,
도 2는 본 발명의 실시예에 따른 상호 정보 구축부에서 형태소 간의 상호 정보 구축 절차를 도시한 흐름도,
도 3은 본 발명의 실시예에 따른 품사 태깅 절차를 도시한 흐름도.
< 도면의 주요 부분에 대한 부호 설명 >
100 : 품사 태깅 장치 102 : 텍스트 코퍼스 및 형태소 품사 태깅된 DB
104 : 상호 정보 구축부 106 : 데이터 저장부
108 : 문장 입력부 110 : 형태소 해석부
112 : 상호 정보 계산부 114 : n-gram 계산부
116 : 품사 태깅부 118 : 품사태깅결과 출력부

Claims (10)

  1. 텍스트 코퍼스와 그 텍스트에 대한 형태소 품사 태깅된 DB를 이용하여 형태소 간에 순서정보를 가진 상호 정보를 구축하는 상호 정보 구축부와,
    상기 구축된 상호 정보와, 형태소 해석을 위한 형태소 사전과 품사 접속 정보 및 품사 태깅을 위한 품사 n-gram 정보가 저장되어 있는 데이터 저장부와,
    품사 태깅을 수행할 문장을 입력 받는 문장 입력부와,
    상기 입력 받은 문장을 상기 데이터 저장부의 형태소 사전과 품사 접속 정보를 이용하여 분석 가능한 형태소들의 리스트를 출력하는 형태소 해석부와,
    상기 형태소들의 리스트에 대해 형태소 간의 상호 정보를 구하는 상호 정보 계산부와,
    상기 데이터 저장부의 품사 n-gram 정보를 이용하여 상기 형태소들의 리스트에 대해 품사 천이 확률값을 계산하는 n-gram 계산부와,
    상기 상호 정보 계산부의 결과와 n-gram 계산부의 결과를 토대로 판단되는 형태소 해석 결과를 선택하는 품사 태깅부
    를 포함하는 상호 정보를 이용한 형태소 품사 태깅 장치.
  2. 제 1항에 있어서,
    상기 품사 태깅 장치는,
    상기 품사 태깅 결과를 출력하는 품사 태깅 결과 출력부를 더 포함하는 것을 특징으로 하는 상호 정보를 이용한 형태소 품사 태깅 장치.
  3. 제 1항에 있어서,
    상기 상호 정보 구축부는,
    상기 텍스트 코퍼스에 대해 형태소 해석을 한 리스트들을 출력하여, 출력된 형태소 리스트들에 대해서 인접한 형태소들에 대한 리스트를 추출하고,
    상기 형태소 리스트들에서 키워드들을 찾아, 키워드와 다음 키워드의 형태소에 대해서도 리스트를 추출하고,
    각각의 추출된 리스트를 합하여 상기 형태소 품사 태깅된 DB의 빈도를 활용하여 상기 상호 정보를 구축하는 것을 특징으로 하는 상호 정보를 이용한 형태소 품사 태깅 장치.
  4. 제 3항에 있어서,
    상기 상호 정보는,
    단어 x와 단어 y가 같이 나올 확률에 단어 x와 단어 y가 독립으로 나올 확률로 나눈 것으로서, 상기 단어 x와 단어 y가 같이 나올 확률은 단어 x와 단어 y가 순차적으로 같이 나오는 경우인 것을 특징으로 하는 상호 정보를 이용한 형태소 품사 태깅 장치.
  5. 제 1항에 있어서,
    상기 상호 정보 계산부는,
    상기 형태소들의 리스트에 대해 인접한 형태소 간의 상호 정보를 계산하고,
    상기 형태소들의 리스트에 대해 인접 키워드 간의 상호 정보를 계산하
    는 것을 특징으로 하는 상호 정보를 이용한 형태소 품사 태깅 장치.
  6. 텍스트 코퍼스와 그 텍스트에 대한 형태소 품사 태깅된 DB를 이용하여 형태소 간에 순서정보를 가진 상호 정보를 구축하는 과정과,
    품사 태깅을 수행할 문장을 입력 받는 과정과,
    상기 입력 받은 문장을 상기 구축된 상호 정보와, 형태소 해석을 위한 형태소 사전과 품사 접속 정보 및 품사 태깅을 위한 품사 n-gram 정보가 저장되어 있는 데이터 저장부의 형태소 사전과 품사 접속 정보를 이용하여 분석 가능한 형태소들의 리스트를 출력하는 과정과,
    상기 형태소들의 리스트에 대해 형태소 간의 상호 정보를 구하는 과정과,
    상기 데이터 저장부의 품사 n-gram 정보를 이용하여 상기 형태소들의 리스트에 대해 품사 천이 확률값을 계산하는 과정과,
    상기 구해진 상호 정보와 상기 계산된 품사 천이 확률값을 토대로 판단되는 형태소 해석 결과를 선택하는 과정
    을 포함하는 상호 정보를 이용한 형태소 품사 태깅 방법.
  7. 제 6항에 있어서,
    상기 품사 태깅 방법은,
    상기 품사 태깅 결과를 출력 장치로 출력하는 과정
    을 더 포함하는 것을 특징으로 하는 상호 정보를 이용한 형태소 품사 태깅 방법.
  8. 제 6항에 있어서,
    상기 상호 정보의 구축 과정은,
    상기 텍스트 코퍼스에 대해 형태소 해석을 한 리스트들을 출력하여, 출력된 형태소 리스트들에 대해서 인접한 형태소들에 대한 리스트를 추출하는 과정과,
    상기 형태소 리스트들에서 키워드들을 찾아, 키워드와 다음 키워드의 형태소에 대해서도 리스트를 추출하는 과정과,
    각각의 추출된 리스트를 합하여 상기 형태소 품사 태깅된 DB의 빈도 정보를 통해 상기 상호 정보를 구축하는 과정
    을 포함하는 것을 특징으로 하는 상호 정보를 이용한 형태소 품사 태깅 방법.
  9. 제 8항에 있어서,
    상기 상호 정보는,
    단어 x와 단어 y가 같이 나올 확률에 단어 x와 단어 y가 독립으로 나올 확률로 나눈 것으로서, 상기 단어 x와 단어 y가 같이 나올 확률은 단어 x와 단어 y가 순차적으로 같이 나오는 경우인 것을 특징으로 하는 상호 정보를 이용한 형태소 품사 태깅 방법.
  10. 제 6항에 있어서,
    상기 형태소 간의 상호 정보를 구하는 과정은,
    상기 형태소들의 리스트에 대해 인접한 형태소 간의 상호 정보를 계산하는 과정과,
    상기 형태소들의 리스트에 대해 인접 키워드 간의 상호 정보를 계산하는 과정
    을 포함하는 것을 특징으로 하는 상호 정보를 이용한 형태소 품사 태깅 방법.
KR1020080131220A 2008-12-22 2008-12-22 상호 정보를 이용한 형태소 품사 태깅 장치 및 방법 KR101092356B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080131220A KR101092356B1 (ko) 2008-12-22 2008-12-22 상호 정보를 이용한 형태소 품사 태깅 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080131220A KR101092356B1 (ko) 2008-12-22 2008-12-22 상호 정보를 이용한 형태소 품사 태깅 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20100072730A true KR20100072730A (ko) 2010-07-01
KR101092356B1 KR101092356B1 (ko) 2011-12-09

Family

ID=42635849

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080131220A KR101092356B1 (ko) 2008-12-22 2008-12-22 상호 정보를 이용한 형태소 품사 태깅 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101092356B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013081301A1 (ko) * 2011-11-29 2013-06-06 에스케이텔레콤 주식회사 작문 자동 평가를 위해 샬로우 파서를 이용한 문장 자동 평가 장치, 이를 위한 오류 검출 장치 및 이를 위한 방법
KR20200013298A (ko) * 2018-07-30 2020-02-07 주식회사 한글과컴퓨터 형태소 분석을 활용하여 문서를 관리하는 장치 및 이의 동작 방법

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220014749A (ko) * 2020-07-29 2022-02-07 삼성전자주식회사 제공되는 컨텐츠를 기반으로 검색어를 추천하는 전자 장치 및 그 제어 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3768205B2 (ja) * 2003-05-30 2006-04-19 沖電気工業株式会社 形態素解析装置、形態素解析方法及び形態素解析プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013081301A1 (ko) * 2011-11-29 2013-06-06 에스케이텔레콤 주식회사 작문 자동 평가를 위해 샬로우 파서를 이용한 문장 자동 평가 장치, 이를 위한 오류 검출 장치 및 이를 위한 방법
US9336199B2 (en) 2011-11-29 2016-05-10 Sk Telecom Co., Ltd. Automatic sentence evaluation device using shallow parser to automatically evaluate sentence, and error detection apparatus and method of the same
KR20200013298A (ko) * 2018-07-30 2020-02-07 주식회사 한글과컴퓨터 형태소 분석을 활용하여 문서를 관리하는 장치 및 이의 동작 방법

Also Published As

Publication number Publication date
KR101092356B1 (ko) 2011-12-09

Similar Documents

Publication Publication Date Title
Kim et al. Two-stage multi-intent detection for spoken language understanding
KR102033435B1 (ko) 자연어 질의응답 시스템과 방법 및 패러프라이즈 모듈
KR100515641B1 (ko) 모빌적 형상 개념을 기초로 한 구문 분석방법 및 이를이용한 자연어 검색 방법
KR101031970B1 (ko) 구문들 사이의 번역 관계를 학습하기 위한 통계적 방법
US20170039188A1 (en) Cognitive System with Ingestion of Natural Language Documents with Embedded Code
WO2012039686A1 (en) Methods and systems for automated text correction
WO2010046782A2 (en) Hybrid machine translation
CA2853627C (en) Automatic creation of clinical study reports
Shiwen et al. Rule-based machine translation
CN111382571A (zh) 一种信息抽取方法、系统、服务器和存储介质
Unnikrishnan et al. A novel approach for English to South Dravidian language statistical machine translation system
Korpusik et al. Data collection and language understanding of food descriptions
Fuchs Natural language processing for building code interpretation: systematic literature review report
Rathod et al. Survey of various POS tagging techniques for Indian regional languages
Wong et al. isentenizer-: Multilingual sentence boundary detection model
KR101092356B1 (ko) 상호 정보를 이용한 형태소 품사 태깅 장치 및 방법
Godard Unsupervised word discovery for computational language documentation
Khorjuvenkar et al. Parts of speech tagging for Konkani language
Srinivasagan et al. An automated system for tamil named entity recognition using hybrid approach
CN115034209A (zh) 文本分析方法、装置、电子设备以及存储介质
Govilkar et al. Part of speech tagger for Marathi language
Lee Natural Language Processing: A Textbook with Python Implementation
US20060190244A1 (en) System and method for text analysis
di Buono et al. Decision making support systems for the Archaeological domain: A Natural Language Processing proposal
Sankaravelayuthan et al. A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee