KR20050039379A

KR20050039379A - 대표 형태소 어휘 문맥에 기반한 통계적 태깅 오류 정정장치 및 그 방법

Info

Publication number: KR20050039379A
Application number: KR1020030074832A
Authority: KR
Inventors: 김영길; 양성일; 홍문표; 박상규
Original assignee: 한국전자통신연구원
Priority date: 2003-10-24
Filing date: 2003-10-24
Publication date: 2005-04-29
Also published as: KR100496873B1

Abstract

본 발명은 기존의 품사문맥 또는 어절어휘 규칙에 의한 태깅과는 달리 분석대상 어절 주변의 대표 형태소 어휘문맥 정보에 기반하여 통계적 방법으로 대상어절의 태깅 오류를 정정하는 대표 형태소 어휘문맥에 기반한 통계적 태깅 오류 정정 장치 및 방법에 관한 것이다.

본 발명은 원시문장에 대해 품사문맥을 기반으로 형태소 분석 및 태깅을 하는 단계와, 각 형태소 어휘에 대해 대표어휘를 결정하고 분석대상 어절에 대한 대표 형태소 어휘문맥들을 생성하는 단계와, 통계정보를 참조하여 분석대상 어절의 각 형태소 후보에 대해 어절분석 확률과 대표 형태소 어휘문맥들의 확률을 산출하고, 이들을 결합하여 그 결과값이 가장 큰 후보를 최적 형태소후보로 선정하는 단계와, 최적 형태소후보로서 품사문맥 기반의 태깅 오류를 정정하는 단계로 이루어진다.

Description

대표 형태소 어휘 문맥에 기반한 통계적 태깅 오류 정정 장치 및 그 방법{A device for statistically correcting tagging errors based on representative lexical morpheme context and the method}

본 발명은 형태소 태깅의 오류 정정에 관한 것이며, 보다 상세히는 기존의 품사 문맥 또는 어절 어휘 규칙에 의한 태깅과는 달리 분석대상 어절 주변의 대표 형태소 어휘 문맥 정보에 기반하여 통계적 방법으로 대상어절의 태깅 오류를 정정함으로써 정확한 형태소 태깅을 보장하는 태깅오류 정정 장치 및 그 방법에 관한 것이다.

각종 정보검색 및 질의응답 시스템과 자동 번역 시스템 등에는 문장에 대한 형태소 분석 및 품사 태깅이 필수적으로 요구되는데, 종래의 일반적인 형태소 품사 태깅 장치는 주변 단어들의 어휘, 품사, 의미 및 문맥적인 공기 관계가 복합적으로 고려되지 않고 단순히 품사열 정보에만 의존하기 때문에 그 정확성이 크게 떨어지는 문제점이 있다.

이러한 종래 품사 태깅장치의 문제점을 해결하기 위해서, 최근 주변 어휘 규칙을 반영할 수 있는 어휘 문맥 정보를 추가 적용하는 혼합형 태깅에 대한 연구가 활발히 진행되고 있으며 규칙 정보와 통계 정보의 상호 보완적 특성을 이용한 혼합형 방법들이 제안되고 있다.

이러한 어휘 문맥을 사용하는 일례로, 좌우 어절 문맥 규칙에 의한 품사 태깅 방안 및 규칙 추출 방법이 제시된 바 있다. 또한, 수동적인 어절 규칙의 한계를 극복하기 위하여 품사 태깅된 코퍼스에서 좌우 어절 규칙을 자동 획득하는 방법이 제시되기도 하였다.

하지만, 상기한 종래의 방법들은 좌우 어절에 의한 문맥 규칙에 의해 품사 태거의 성능을 향상시킬 수는 있지만 지속적인 성능 향상을 위해서는 비용과 시간이 많이 드는 대량의 품사 태깅 정보가 요구되므로 실용화 기술로서는 부족한 면이 있다. 즉, 주변 어절 어휘가 정확하게 매칭되어야 하기 때문에 자료 부족 문제가 심각하게 발생하고 이를 극복하기 위해서는 고비용이 소요되는 대량의 태깅된 데이터가 필요하게 된다.

따라서, 실제 발생하는 다의 또는 중의적 언어현상에 대해 품사 문맥만에 의한 분석상 오류를 최소화하기 위해서는 주변 문맥을 사용하는 것이 필수적이지만 비용 등을 절감하기 위해서는 그 커버리지(Coverage)를 높일 수 있는 방안이 최우선적으로 고려되어야 한다.

본 발명은 상술한 종래의 문제점을 해결하기 위한 것으로서, 본 발명의 목적은 주변 어휘 정보 및 좌우 어절내의 대표형태소 단위의 통계적 문맥 정보를 통해 형태소 분석 및 태깅상의 오류를 정정함으로써 태깅의 정확성을 높일 뿐만 아니라 어휘 문맥의 커버리지를 크게 향상시킬 수 있으며, 그 결과 고품질의 언어분석이 필수적으로 요구되는 다양한 언어정보처리 응용 시스템의 성능을 크게 향상시킬 수 있는 대표 형태소 어휘 문맥에 기반한 통계적 태깅 오류 정정 장치 및 그 방법을 제공하는데 있다.

상기 본 발명의 목적을 달성하기 위한 대표 형태소 어휘 문맥에 기반한 통계적 태깅 오류 정정 장치는, 원시문장에 대한 품사문맥 기반의 형태소 분석 및 태깅 결과로부터 분석대상 어절에 대한 형태소 어휘문맥들을 추출하는 형태소 어휘문맥 추출수단; 학습된 통계정보를 참조하여 분석대상 어절의 각 형태소 후보에 대해 어절분석 확률과 형태소 어휘문맥들의 확률을 산출하고, 이들의 결합 값이 가장 큰 후보를 최적 형태소후보로서 선정하는 최적 형태소후보 선정수단; 및 상기 선정된 최적 형태소후보로 분석대상 어절의 태깅정보를 정정하는 형태소 태깅오류 정정수단;으로 구성된다.

상기 형태소 어휘문맥 추출수단은 품사문맥 기반 형태소 분석결과의 각 형태소에 대해 그 대표어휘로 형태소 어휘를 정규화한 후, 분석대상 어절 및 그 주변 어절의 대표 형태소 어휘로 분석대상 어절에 대한 형태소 어휘문맥을 구성하는 것이 바람직하다.

또한, 상기 본 발명의 목적을 달성하기 위한 대표 형태소 어휘 문맥에 기반한 통계적 태깅 오류 정정 방법은, 원시문장에 대해 품사문맥을 기반으로 형태소 분석 및 태깅을 하는 단계; 각 형태소 어휘에 대해 대표어휘를 결정하고, 상기 형태소 분석 및 태깅 결과로부터 분석대상 어절에 대한 대표 형태소 어휘문맥들을 추출하는 단계; 이미 학습된 통계정보를 참조하여 분석대상 어절의 각 형태소 후보에 대해 어절분석 확률과 대표 형태소 어휘문맥들의 확률을 산출하고, 이들의 결합 값이 가장 큰 후보를 최적 형태소후보로 선정하는 단계; 및 상기 선정된 최적 형태소후보로 상기 품사문맥 기반의 태깅 오류를 정정하는 단계;로 이루어진다.

이하, 본 발명에 따른 실시예를 첨부한 도면을 참조하여 상세히 설명하기로 한다.

상기 설명한 바와 같이 분석대상 어절의 좌우 어절문맥을 사용할 경우는 품사 태깅된 말뭉치(Corpus)가 제한적이기 때문에 데이터 희귀성 문제를 야기시키게 된다. 따라서 그 적용성(coverage)을 높이는 방법으로서 형태소어휘 단위의 문맥 정보를 고려할 수 있다. 형태소어휘 문맥 정보의 윈도우 사이즈를 크게 할수록 정확성은 올라가지만 이 또한 데이터 부족 현상이 발생하게 된다.

따라서, 본 발명은 좌우 어절의 대표 형태소어휘와 분석어절의 어휘 문맥을 반영하는 n-gram(n=4,3,2,1) 형태소어휘 문맥 정보를 사용한다.

이에 대하여 다음의 예시문을 통해 설명하도록 한다.

[입력 예문] "유세에 온 힘을"

[형태소 태깅 정보]

유세[보통명사]+에[부사격조사]

온[성상관형사]

힘[보통명사]+를[목적격조사]

[형태소어휘 문맥 정보]

1-gram(온) => 성상관형사

2-gram(에, 온), 2-gram(온, 힘) => 성상관형사

3-gram(유세, 에, 온) => 성상관형사

3-gram(에, 온, 힘) => 성상관형사

4-gram(유세, 에, 온, 힘) => 성상관형사

위의 예에서, 좌우 어절 "유세에"와 "힘을"의 어절문맥 정보를 통해 "온"이 관형사임을 알 수 있지만, 3-gram(에, 온, 힘) 또는 2-gram(온, 힘)의 형태소어휘 문맥에 의해서도 비교적 정확한 형태소 태깅을 수행할 수 있다. 따라서, 좌우 어절의 일부 형태소 어휘 문맥 정보에 의해 형태소 품사 태깅의 적용성(Coverage) 및 정확성을 높일 수 있다.

여기에서, 3-gram과 4-gram에서 뒤 어절의 기능어 부분을 포함시키지 않은 이유는 형태소 태깅 오류를 분석해 본 결과 용언 또는 명사와 관련된 오류에 있어서 분석 어절의 형태소 결합에 영향을 미치는 문맥은 앞 어절의 형태소 헤드 어휘와 기능어 어휘 그리고 뒤 어절의 헤드 어휘임을 알 수 있었다.

한편, 하나의 문장(S)은 다음과 같이 n개의 어절(word phrase)로 구성되고 각 어절은 형태소(morphological unit)들의 나열로 분석될 수 있다.

S=w₁ w₂ ... w_i-1 w_i w_i+1 ...w_n,

where w_i-1 = m_i-1,h + m_i-1,f, w_i+1 = m_i+1,h + m_i+1,f

m_i-1,h : w_i-1 어절의 헤드 어휘

m_i-1,f : w_i-1 어절의 대표 기능어

여기에서, m_i-1,h 는 i-1번째 어절 w_i-1 (= m_i-1,1 + m_i-1,2+ ... + m_i-1,p)가 p개의 형태소 열로 구성되어 있을 때 그 중 헤드 어휘를 나타낸다. 예를 들어 "선거유세에 온 힘을 ...."과 같은 문장에서 분석어절 "온"의 앞 어절에서 복합명사 "선거유세"의 헤드어휘 m_i-1,h는 "유세"가 되며 대표 기능어 m_i-1,f는 부사격 조사 "에"가 된다. 또한 "10명 중의"에서 분석어절 "중의"의 앞 어절 "10명"에서 "명"이 헤드어휘 m_i-1,h가 되고 대표 기능어 m_i-1,f는 NULL값이 된다. 이때, 헤드 어휘의 적용성(Coverage)을 높이기 위해서 접미사 및 접두사를 제거하거나 용언의 어간어휘를 사용한다.

그리고, 어절의 대표 기능어는 복합 조사 및 복합 어미 등의 대표형을 취함으로써 그 적용성을 높인다. 예를 들어, "도시에서는 보기 힘든 장면"과 "도시에서 보기 힘든 장면"의 경우 분석어절 "보기"의 앞 어절의 대표 기능어 m_i-1,f가 "에서"로 대표격을 사용함으로써 그 적용성을 높일 수 있다.

이때, 분석대상 어절 w_i에 대한 형태소 태깅 결과 다음과 같이 k개의 후보가 가능하다고 가정하면,

w_i = c₁ | c₂ |... | c_j ... | c_k

형태소분석 후보에 대한 결정 요소로는, 크게 어절빈도가 최대인 후보로 결정하는 어절분석 확률 P(c_j|w_i)와, 어휘문맥 정보의 최대치 MAX(P(c_j|m _i-1,h, m_i-1,f, w_i, m_i+1,h))인 c_j를 분석 후보로 결정하는 어휘문맥 정보의 2가지가 된다. 여기에 가중치를 적용하면 다음의 수학식 1과 같이 확률 모델식으로 표현된 어휘문맥 태깅 함수 T(m_i-1,h, m_i-1,f, w_i, m_i+1,h)를 얻을 수 있다.

위 식에서 ε는 데이터 부족 현상을 보완하기 위한 어절분석 확률값에 대한 Smoothing 인자이며, α, β₁, β₂, γ₁, γ₂는 각 문맥정보의 가중치를 나타낸다.

문맥정보 가중치는 매칭되는 문맥의 길이와 및 형태소 대표어 또는 기능어간의 매칭 중요도 차이에 의해 그 값이 차이가 난다. 통계치의 γ₂가 γ₁보다 문맥 가중치가 높은 이유는 품사 태깅을 위한 분석 어절과의 문맥 범위는 같지만 γ₂는 문맥 형태소로 실질 형태소가 γ₁는 형식 형태소가 문맥 정보로 사용되기 때문이다. 즉, 매칭되는 문맥 어휘가 길고 실질 형태소인 대표 형태소가 포함될수록 문맥 가중치는 높아진다.

또한, 문맥 가중치 α, β₁, β₂, γ₁, γ₂의 값은 태깅된 말뭉치의 적용 범위 등을 고려하여 실험적으로 그 값이 결정될 수 있겠지만, 이 가중치의 차이가 클수록 최장 문맥 및 실질 형태소 문맥에 우선권을 주게 된다. 본 발명에서는, 바람직한 실시예로서, n-gram간의 가중치 차이가 10배가 되도록, α=100, β₁ = 50, β₂ = 10, γ₁= 5, γ₂ = 1 , 그리고 형태소 문맥 정보 차이에 의한 100배의 가중치 차이를 보정해 줄 수 있게 ε을 0.01로 설정하였다. 이 가중치들은 학습 태깅 데이터의 적용성 및 확률 분포 등을 고려하여 실험적으로 변경될 수 있다.

한편, 도 1은 본 발명에 따른 형태소 어휘문맥 정보에 기반한 통계적 태깅오류 정정 장치의 구성 및 처리과정을 보여주는 도면이다.

도 1을 참조하면, 본 발명의 태깅오류 정정장치는, 형태소 분석부(101), 품사문맥 기반 태깅부(102), 형태소 어휘 정규화부(103), 형태소 어휘문맥 추출부(104), 최적 형태소후보 선택부(105), 및 형태소 후보 비교 및 오류 정정부(106,107)로 구성되고, 형태소 접속 규칙 테이블(108), 품사문맥 통계정보 DB(109), 형태소 대표값 DB(110), 형태소 어절분석 통계정보 DB(111), 형태소 어휘문맥 통계정보 DB(112) 등을 참조하여 형태소 분석 및 태깅상의 오류를 정정하게 된다.

상기 형태소 분석부(101)는 품사들간의 접속가능 여부를 나타내는 상기 형태소 접속 규칙 테이블(108)을 참조하여 원시문장을 형태소 단위로 분석한다. 또한, 상기 품사문맥 기반 태깅부(102)는 상기 품사문맥 통계정보 DB(109)를 참조하여 상기 형태소 분석 결과에 대해 품사문맥을 기반으로 태깅을 수행한다.

상기 형태소 어휘 정규화부(103)는 상기 형태소 대표값 DB(110)를 참조하여 상기 형태소 분석 결과의 각 형태소에 대한 대표값(즉, 상기 헤드 어휘 또는 대표 기능어)을 결정한다. 상기 형태소 대표값 DB(110)에는 조사, 어미, 용언 등의 품사별로 각 형태소 어휘에 대한 대표어휘 정보를 갖는다.

상기 형태소 어휘문맥 추출부(104)는 분석대상 어절의 좌우 어절에 대해 상기 결정된 형태소 대표어휘와 분석대상 어절을 통해 형태소 어휘문맥을 추출한다. 즉, 앞 어절의 헤드 어휘 및 대표 기능어와, 뒤 어절의 헤드 어휘, 및 분석대상 어절을 통해 상기 설명된 바와 같이 n-gram(n=4,3,2,1) 형태소어휘 문맥을 구성한다.

그리고, 상기 최적 형태소후보 선택부(105)는 상기 형태소 어절분석 통계정보 DB(111) 및 상기 형태소 어휘문맥 통계정보 DB(112)를 참조하여 분석대상 어절의 각 형태소 분석 후보별로 어절분석 확률값 P(c_j|w_i) 및 상기 추출된 형태소어휘 문맥에 대한 확률값(P(c_j|m_i-1,h, m_i-1,f, w_i, m_i+1,h) 등)을 확인한 후, 상기 수학식 1에 제시된 바와 같이 각 어휘문맥에 소정의 가중치를 적용하고 이들을 1차 결합하여 각 형태소 후보에 대한 형태소 어휘문맥 태깅 함수값을 출력하여, 그 출력값이 가장 큰 후보를 분석대상 어절에 대한 최적 형태소후보로서 선택한다.

이와 같이 형태소 어휘문맥을 기반으로 태깅한 결과 최적 형태소후보가 선택되면, 형태소후보 비교부(106)는 상기 품사문맥 기반 태깅부(102)에 의한 태깅 결과와 상기 선택된 최적 형태소후보를 비교하여 그 동일 여부를 판단하고, 이때 동일하지 않을 경우 형태소 오류 정정부(107)는 상기 최적 형태소후보로 대상어절의 태깅정보를 정정한다.

도 2는 입력 예문에 대한 형태소 분석 후보별 어휘문맥 태깅 함수값 및 최적 형태소후보 선정예를 도시하고 있다.

도 2를 참조하면, 먼저 " 선거 유세에 온 힘을 기울였습니다."라는 입력 예문과, 품사문맥에 기반한 형태소 분석 및 품사 태깅 결과가 예시되어 있다. 여기에서 형태소 태깅이 상당히 힘든 어절 중 하나인 "온"은 "오[너라불규칙동사]+??[관형사형전성어미]"으로 형태소 분석 및 태깅되어 있으며, 이는 잘못된 것으로서 수정될 필요가 있다.

도 2의 아래쪽에는 이와 같은 태깅 오류를 정정하는 과정이 예시되어 있다.

분석대상 어절 "온"에 대해 C₁ = 오[너라불규칙동사]+??[관형사형전성어미]와, C₂ = 온[성상관형사]의 2개 형태소 분석 후보가 파악된다.

그리고, 각 후보별 각 어휘문맥 확률값과 어절분석 확률값에 소정의 가중치를 부여하여 상기 수학식 1에 적용함으로써, 형태소 어휘문맥 태깅 함수값 T(C₁)=0.653 과 T(C₂)=3.263을 얻게 된다. 이로써, 태깅후보 C₂를 대상어절에 대한 최적 형태소후보로 선정하게 되고, 상기 오분석된 태깅결과를 올바르게 정정할 수 있다.

상기와 같은 본 발명의 대표 형태소 어휘 문맥에 기반한 통계적 태깅 오류 정정 방법은 컴퓨터로 읽을 수 있는 기록매체에 저장될 수 있다. 이러한 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있도록 프로그램 및 데이터가 저장되는 모든 종류의 기록매체를 포함한다. 그 예로는, 롬(Read Only Memory), 램(Random Access Memory), CD(Compact Disk)-Rom, DVD(Digital Video Disk)-Rom, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있으며, 또한, 이러한 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

상술한 바와 같이 본 발명에 따른 대표 형태소 어휘 문맥에 기반한 통계적 태깅 오류 정정 장치 및 그 방법은, 정확도가 떨어지는 기존의 품사 문맥 방식에 비해 형태소 태깅의 정확성을 크게 향상시킬 수 있으며 주변의 대표 형태소 어휘문맥을 이용함으로써 품사 태그 코퍼스를 용이하게 보충할 수 있게 되어 그 커버리지를 지속적으로 올릴 수 있다. 결과적으로 각종 정보검색시스템의 검색 성능 및 정확성을 향상시킬 수 있고, 자동 번역시스템의 언어분석 정확도를 향상시켜 전체 번역성능을 향상시킬 수 있다.

이상에서 설명한 것은 본 발명에 따른 대표 형태소 어휘 문맥에 기반한 통계적 태깅오류 정정 장치 및 그 방법을 실시하기 위한 하나의 실시예에 불과한 것으로서, 본 발명은 상기한 실시예에 한정되지 않고, 이하의 특허청구의 범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변경 실시가 가능한 범위까지 본 발명의 기술적 정신이 있다고 할 것이다.

도 1은 본 발명에 따른 형태소 어휘 문맥 정보에 기반한 통계적 태깅 오류 정정 장치의 구성 및 처리과정을 보여주는 도면.

도 2는 본 발명에 따른 형태소 태깅오류 정정 과정을 보여주는 예시도.

<도면의 주요부분에 대한 부호의 설명>

101: 형태소 분석부 102: 품사문맥 기반 태깅부

103: 형태소 어휘 정규화부 104: 형태소 어휘문맥 추출부

105: 최적 형태소후보 선택부 106: 형태소 후보 비교부

107: 형태소 오류 정정부

Claims

원시문장에 대한 품사문맥 기반의 형태소 분석 및 태깅 결과로부터 분석대상 어절에 대한 형태소 어휘문맥들을 추출하는 형태소 어휘문맥 추출수단;

학습된 통계정보를 참조하여 분석대상 어절의 각 형태소 후보에 대해 어절분석 확률과 형태소 어휘문맥들의 확률을 산출하고, 이들의 결합 값이 가장 큰 후보를 최적 형태소후보로서 선정하는 최적 형태소후보 선정수단; 및

상기 선정된 최적 형태소후보로 분석대상 어절의 태깅정보를 정정하는 형태소 태깅오류 정정수단;으로 구성되는 것을 특징으로 하는 대표 형태소 어휘 문맥에 기반한 통계적 태깅오류 정정 장치.
제 1항에 있어서, 상기 어휘문맥 추출 수단은,

품사문맥 기반 형태소 분석결과의 각 형태소에 대해 그 대표어휘로 형태소 어휘를 정규화한 후, 분석대상 어절 및 그 주변 어절의 대표 형태소 어휘로 분석대상 어절에 대한 형태소 어휘문맥을 구성하는 것을 특징으로 하는 대표 형태소 어휘 문맥에 기반한 통계적 태깅오류 정정 장치.
제 2항에 있어서, 상기 어휘문맥 추출 수단은, 주변의 대표어휘로 형태소 어휘문맥을 구성함에 있어,

분석대상 어절에 대해, 그 앞 어절의 헤드 어휘 및 대표 기능어와, 그 뒤 어절의 헤드 어휘를 주변 대표어휘로 하고,

분석대상 어절에 1, 2, 또는 3개의 주변 대표어휘를 조합하여 형태소 어휘문맥을 구성하는 것을 특징으로 하는 대표 형태소 어휘 문맥에 기반한 통계적 태깅오류 정정 장치.
제 3항에 있어서, 상기 어휘문맥 추출 수단은, 대표어휘의 커버리지를 높이기 위하여,

실질 형태소에 대해서는 접미사 또는 접두사를 제거하거나 용언의 어간어휘를 사용하여 그 형태소의 헤드 어휘를 결정하고, 형식 형태소에 대해서는 복합 조사 또는 복합 어미의 대표형을 취하여 그 형태소의 대표 기능어를 결정하는 것을 특징으로 하는 대표 형태소 어휘 문맥에 기반한 통계적 태깅오류 정정 장치.
제 1항에 있어서, 상기 최적 형태소후보 선정수단은,

분석대상 어절의 품사문맥 기반 각 형태소 분석 후보에 대해, 이미 학습된 어절분석 통계정보와 형태소 어휘문맥 통계정보를 참조하여 어절분석 확률 및 형태소 어휘문맥 확률을 산출한 후, 어절분석 확률에 대한 보완인자 및 각 어휘문맥 확률에 대한 가중치를 부여하고 이들을 1차 결합하여 그 결과 값이 가장 큰 후보를 최적 형태소후보로 선정하는 것을 특징으로 하는 대표 형태소 어휘 문맥에 기반한 통계적 태깅오류 정정 장치.
제 5항에 있어서, 상기 최적 형태소후보 선정수단은, 각 어휘문맥 확률에 가중치를 부여함에 있어,

어휘문맥의 구성 어휘 수가 많고 형식 형태소에 비해 실질 형태소의 대표어휘를 포함할 경우 그 가중치를 높게 부여하는 것을 특징으로 하는 대표 형태소 어휘 문맥에 기반한 통계적 태깅오류 정정 장치.
제 5항 또는 제 6항에 있어서, 상기 최적 형태소후보 선정수단은,

다음의 수학식에 따라, 분석대상 어절의 각 형태소 분석후보에 대해 어절분석 확률 및 형태소 어휘문맥 확률의 보완인자 및 가중치를 부여하고 이들 결합하여 최적 형태소후보를 선정하는 것을 특징으로 하는 대표 형태소 어휘 문맥에 기반한 통계적 태깅오류 정정 장치.

[수학식]

여기에서, w_i는 분석대상 어절이고, c_j는 형태소 분석 후보로서 (w_i = c₁ | c₂ |... | c_j ... | c_k),

m_i-1,h ; 앞 어절의 헤드 어휘, m_i-1,f ; 앞 어절의 대표 기능어, m_i+1,h ; 뒤 어절의 헤드 어휘,

P(c_j|w_i); 어절 w_i에 대한 형태소 후보 c_j의 어절분석 확률,

P(c_j|m_i-1,h, m_i-1,f, w_i, m_i+1,h) 등; 형태소 후보 c_j의 각 어휘문맥 확률,

ε; 어절분석 확률에 대한 보완인자,

α, β₁, β₂, γ₁, γ₂ ; 각 어휘문맥 확률에 대한 가중치.
제 1항에 있어서, 상기 형태소 태깅오류 정정수단은,

품사문맥에 기반한 태깅 결과와 상기 선정된 최적 형태소후보를 비교하여 그 동일 여부를 판단하고, 동일하지 않을 경우 상기 최적 형태소후보로 분석대상 어절의 태깅정보를 정정하는 것을 특징으로 하는 대표 형태소 어휘 문맥에 기반한 통계적 태깅오류 정정 장치.
(a) 원시문장에 대해 품사문맥을 기반으로 형태소 분석 및 태깅을 하는 단계;

(b) 각 형태소 어휘에 대해 대표어휘를 결정하고, 상기 형태소 분석 및 태깅 결과로부터 분석대상 어절에 대한 대표 형태소 어휘문맥들을 추출하는 단계;

(c) 이미 학습된 통계정보를 참조하여 분석대상 어절의 각 형태소 후보에 대해 어절분석 확률과 대표 형태소 어휘문맥들의 확률을 산출하고, 이들의 결합 값이 가장 큰 후보를 최적 형태소후보로 선정하는 단계; 및

(d) 상기 선정된 최적 형태소후보로 상기 품사문맥 기반의 태깅 오류를 정정하는 단계;로 이루어지는 것을 특징으로 하는 대표 형태소 어휘 문맥에 기반한 통계적 태깅오류 정정 방법.
제 9항에 있어서, 상기 (b) 단계는, 분석대상 어절 및 그 주변 어절의 대표 형태소 어휘로 분석대상 어절에 대한 대표 형태소 어휘문맥을 구성하며,

앞 어절의 헤드 어휘 및 대표 기능어와 그 뒤 어절의 헤드 어휘로 되는 주변 대표어휘를, 분석대상 어절을 중심으로 1, 2, 또는 3개 조합하여 대표 형태소 어휘문맥들을 생성하는 것을 특징으로 하는 대표 형태소 어휘 문맥에 기반한 통계적 태깅오류 정정 방법.
제 9항에 있어서, 상기 (c)단계는,

다음의 수학식에 따라, 분석대상 어절의 각 형태소 분석후보에 대해 어절분석 확률 및 대표 형태소 어휘문맥 확률의 보완인자 및 가중치를 부여하고 이들 결합하여 그 결과 값이 가장 큰 후보를 최적 형태소후보를 선정하는 것을 특징으로 하는 대표 형태소 어휘 문맥에 기반한 통계적 태깅오류 정정 방법.

[수학식]

여기에서, w_i는 분석대상 어절이고, c_j는 형태소 분석 후보로서 (w_i = c₁ | c₂ |... | c_j ... | c_k),

m_i-1,h ; 앞 어절의 헤드 어휘, m_i-1,f ; 앞 어절의 대표 기능어, m_i+1,h ; 뒤 어절의 헤드 어휘,

P(c_j|w_i); 어절 w_i에 대한 형태소 후보 c_j의 어절분석 확률,

P(c_j|m_i-1,h, m_i-1,f, w_i, m_i+1,h) 등; 형태소 후보 c_j의 각 어휘문맥 확률,

ε; 어절분석 확률에 대한 보완인자,

α, β₁, β₂, γ₁, γ₂ ; 각 어휘문맥 확률에 대한 가중치.
제 11항에 있어서, 상기 (c)단계는, 각 대표 형태소 어휘문맥 확률에 가중치를 부여함에 있어,

어휘문맥의 구성 어휘 수가 많고 형식 형태소에 비해 실질 형태소의 대표어휘를 포함할 경우 그 가중치를 높게 부여하는 것을 특징으로 하는 대표 형태소 어휘 문맥에 기반한 통계적 태깅오류 정정 방법.