KR20050039379A - 대표 형태소 어휘 문맥에 기반한 통계적 태깅 오류 정정장치 및 그 방법 - Google Patents

대표 형태소 어휘 문맥에 기반한 통계적 태깅 오류 정정장치 및 그 방법 Download PDF

Info

Publication number
KR20050039379A
KR20050039379A KR1020030074832A KR20030074832A KR20050039379A KR 20050039379 A KR20050039379 A KR 20050039379A KR 1020030074832 A KR1020030074832 A KR 1020030074832A KR 20030074832 A KR20030074832 A KR 20030074832A KR 20050039379 A KR20050039379 A KR 20050039379A
Authority
KR
South Korea
Prior art keywords
morpheme
vocabulary
word
representative
context
Prior art date
Application number
KR1020030074832A
Other languages
English (en)
Other versions
KR100496873B1 (ko
Inventor
김영길
양성일
홍문표
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR10-2003-0074832A priority Critical patent/KR100496873B1/ko
Publication of KR20050039379A publication Critical patent/KR20050039379A/ko
Application granted granted Critical
Publication of KR100496873B1 publication Critical patent/KR100496873B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Algebra (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 기존의 품사문맥 또는 어절어휘 규칙에 의한 태깅과는 달리 분석대상 어절 주변의 대표 형태소 어휘문맥 정보에 기반하여 통계적 방법으로 대상어절의 태깅 오류를 정정하는 대표 형태소 어휘문맥에 기반한 통계적 태깅 오류 정정 장치 및 방법에 관한 것이다.
본 발명은 원시문장에 대해 품사문맥을 기반으로 형태소 분석 및 태깅을 하는 단계와, 각 형태소 어휘에 대해 대표어휘를 결정하고 분석대상 어절에 대한 대표 형태소 어휘문맥들을 생성하는 단계와, 통계정보를 참조하여 분석대상 어절의 각 형태소 후보에 대해 어절분석 확률과 대표 형태소 어휘문맥들의 확률을 산출하고, 이들을 결합하여 그 결과값이 가장 큰 후보를 최적 형태소후보로 선정하는 단계와, 최적 형태소후보로서 품사문맥 기반의 태깅 오류를 정정하는 단계로 이루어진다.

Description

대표 형태소 어휘 문맥에 기반한 통계적 태깅 오류 정정 장치 및 그 방법{A device for statistically correcting tagging errors based on representative lexical morpheme context and the method}
본 발명은 형태소 태깅의 오류 정정에 관한 것이며, 보다 상세히는 기존의 품사 문맥 또는 어절 어휘 규칙에 의한 태깅과는 달리 분석대상 어절 주변의 대표 형태소 어휘 문맥 정보에 기반하여 통계적 방법으로 대상어절의 태깅 오류를 정정함으로써 정확한 형태소 태깅을 보장하는 태깅오류 정정 장치 및 그 방법에 관한 것이다.
각종 정보검색 및 질의응답 시스템과 자동 번역 시스템 등에는 문장에 대한 형태소 분석 및 품사 태깅이 필수적으로 요구되는데, 종래의 일반적인 형태소 품사 태깅 장치는 주변 단어들의 어휘, 품사, 의미 및 문맥적인 공기 관계가 복합적으로 고려되지 않고 단순히 품사열 정보에만 의존하기 때문에 그 정확성이 크게 떨어지는 문제점이 있다.
이러한 종래 품사 태깅장치의 문제점을 해결하기 위해서, 최근 주변 어휘 규칙을 반영할 수 있는 어휘 문맥 정보를 추가 적용하는 혼합형 태깅에 대한 연구가 활발히 진행되고 있으며 규칙 정보와 통계 정보의 상호 보완적 특성을 이용한 혼합형 방법들이 제안되고 있다.
이러한 어휘 문맥을 사용하는 일례로, 좌우 어절 문맥 규칙에 의한 품사 태깅 방안 및 규칙 추출 방법이 제시된 바 있다. 또한, 수동적인 어절 규칙의 한계를 극복하기 위하여 품사 태깅된 코퍼스에서 좌우 어절 규칙을 자동 획득하는 방법이 제시되기도 하였다.
하지만, 상기한 종래의 방법들은 좌우 어절에 의한 문맥 규칙에 의해 품사 태거의 성능을 향상시킬 수는 있지만 지속적인 성능 향상을 위해서는 비용과 시간이 많이 드는 대량의 품사 태깅 정보가 요구되므로 실용화 기술로서는 부족한 면이 있다. 즉, 주변 어절 어휘가 정확하게 매칭되어야 하기 때문에 자료 부족 문제가 심각하게 발생하고 이를 극복하기 위해서는 고비용이 소요되는 대량의 태깅된 데이터가 필요하게 된다.
따라서, 실제 발생하는 다의 또는 중의적 언어현상에 대해 품사 문맥만에 의한 분석상 오류를 최소화하기 위해서는 주변 문맥을 사용하는 것이 필수적이지만 비용 등을 절감하기 위해서는 그 커버리지(Coverage)를 높일 수 있는 방안이 최우선적으로 고려되어야 한다.
본 발명은 상술한 종래의 문제점을 해결하기 위한 것으로서, 본 발명의 목적은 주변 어휘 정보 및 좌우 어절내의 대표형태소 단위의 통계적 문맥 정보를 통해 형태소 분석 및 태깅상의 오류를 정정함으로써 태깅의 정확성을 높일 뿐만 아니라 어휘 문맥의 커버리지를 크게 향상시킬 수 있으며, 그 결과 고품질의 언어분석이 필수적으로 요구되는 다양한 언어정보처리 응용 시스템의 성능을 크게 향상시킬 수 있는 대표 형태소 어휘 문맥에 기반한 통계적 태깅 오류 정정 장치 및 그 방법을 제공하는데 있다.
상기 본 발명의 목적을 달성하기 위한 대표 형태소 어휘 문맥에 기반한 통계적 태깅 오류 정정 장치는, 원시문장에 대한 품사문맥 기반의 형태소 분석 및 태깅 결과로부터 분석대상 어절에 대한 형태소 어휘문맥들을 추출하는 형태소 어휘문맥 추출수단; 학습된 통계정보를 참조하여 분석대상 어절의 각 형태소 후보에 대해 어절분석 확률과 형태소 어휘문맥들의 확률을 산출하고, 이들의 결합 값이 가장 큰 후보를 최적 형태소후보로서 선정하는 최적 형태소후보 선정수단; 및 상기 선정된 최적 형태소후보로 분석대상 어절의 태깅정보를 정정하는 형태소 태깅오류 정정수단;으로 구성된다.
상기 형태소 어휘문맥 추출수단은 품사문맥 기반 형태소 분석결과의 각 형태소에 대해 그 대표어휘로 형태소 어휘를 정규화한 후, 분석대상 어절 및 그 주변 어절의 대표 형태소 어휘로 분석대상 어절에 대한 형태소 어휘문맥을 구성하는 것이 바람직하다.
또한, 상기 본 발명의 목적을 달성하기 위한 대표 형태소 어휘 문맥에 기반한 통계적 태깅 오류 정정 방법은, 원시문장에 대해 품사문맥을 기반으로 형태소 분석 및 태깅을 하는 단계; 각 형태소 어휘에 대해 대표어휘를 결정하고, 상기 형태소 분석 및 태깅 결과로부터 분석대상 어절에 대한 대표 형태소 어휘문맥들을 추출하는 단계; 이미 학습된 통계정보를 참조하여 분석대상 어절의 각 형태소 후보에 대해 어절분석 확률과 대표 형태소 어휘문맥들의 확률을 산출하고, 이들의 결합 값이 가장 큰 후보를 최적 형태소후보로 선정하는 단계; 및 상기 선정된 최적 형태소후보로 상기 품사문맥 기반의 태깅 오류를 정정하는 단계;로 이루어진다.
이하, 본 발명에 따른 실시예를 첨부한 도면을 참조하여 상세히 설명하기로 한다.
상기 설명한 바와 같이 분석대상 어절의 좌우 어절문맥을 사용할 경우는 품사 태깅된 말뭉치(Corpus)가 제한적이기 때문에 데이터 희귀성 문제를 야기시키게 된다. 따라서 그 적용성(coverage)을 높이는 방법으로서 형태소어휘 단위의 문맥 정보를 고려할 수 있다. 형태소어휘 문맥 정보의 윈도우 사이즈를 크게 할수록 정확성은 올라가지만 이 또한 데이터 부족 현상이 발생하게 된다.
따라서, 본 발명은 좌우 어절의 대표 형태소어휘와 분석어절의 어휘 문맥을 반영하는 n-gram(n=4,3,2,1) 형태소어휘 문맥 정보를 사용한다.
이에 대하여 다음의 예시문을 통해 설명하도록 한다.
[입력 예문] "유세에 온 힘을"
[형태소 태깅 정보]
유세[보통명사]+에[부사격조사]
온[성상관형사]
힘[보통명사]+를[목적격조사]
[형태소어휘 문맥 정보]
1-gram(온) => 성상관형사
2-gram(에, 온), 2-gram(온, 힘) => 성상관형사
3-gram(유세, 에, 온) => 성상관형사
3-gram(에, 온, 힘) => 성상관형사
4-gram(유세, 에, 온, 힘) => 성상관형사
위의 예에서, 좌우 어절 "유세에"와 "힘을"의 어절문맥 정보를 통해 "온"이 관형사임을 알 수 있지만, 3-gram(에, 온, 힘) 또는 2-gram(온, 힘)의 형태소어휘 문맥에 의해서도 비교적 정확한 형태소 태깅을 수행할 수 있다. 따라서, 좌우 어절의 일부 형태소 어휘 문맥 정보에 의해 형태소 품사 태깅의 적용성(Coverage) 및 정확성을 높일 수 있다.
여기에서, 3-gram과 4-gram에서 뒤 어절의 기능어 부분을 포함시키지 않은 이유는 형태소 태깅 오류를 분석해 본 결과 용언 또는 명사와 관련된 오류에 있어서 분석 어절의 형태소 결합에 영향을 미치는 문맥은 앞 어절의 형태소 헤드 어휘와 기능어 어휘 그리고 뒤 어절의 헤드 어휘임을 알 수 있었다.
한편, 하나의 문장(S)은 다음과 같이 n개의 어절(word phrase)로 구성되고 각 어절은 형태소(morphological unit)들의 나열로 분석될 수 있다.
S=w1 w2 ... wi-1 wi wi+1 ...wn,
where wi-1 = mi-1,h + mi-1,f, wi+1 = mi+1,h + mi+1,f
mi-1,h : wi-1 어절의 헤드 어휘
mi-1,f : wi-1 어절의 대표 기능어
여기에서, mi-1,h 는 i-1번째 어절 wi-1 (= mi-1,1 + mi-1,2+ ... + mi-1,p)가 p개의 형태소 열로 구성되어 있을 때 그 중 헤드 어휘를 나타낸다. 예를 들어 "선거유세에 온 힘을 ...."과 같은 문장에서 분석어절 "온"의 앞 어절에서 복합명사 "선거유세"의 헤드어휘 mi-1,h는 "유세"가 되며 대표 기능어 mi-1,f는 부사격 조사 "에"가 된다. 또한 "10명 중의"에서 분석어절 "중의"의 앞 어절 "10명"에서 "명"이 헤드어휘 mi-1,h가 되고 대표 기능어 mi-1,f는 NULL값이 된다. 이때, 헤드 어휘의 적용성(Coverage)을 높이기 위해서 접미사 및 접두사를 제거하거나 용언의 어간어휘를 사용한다.
그리고, 어절의 대표 기능어는 복합 조사 및 복합 어미 등의 대표형을 취함으로써 그 적용성을 높인다. 예를 들어, "도시에서는 보기 힘든 장면"과 "도시에서 보기 힘든 장면"의 경우 분석어절 "보기"의 앞 어절의 대표 기능어 mi-1,f가 "에서"로 대표격을 사용함으로써 그 적용성을 높일 수 있다.
이때, 분석대상 어절 wi에 대한 형태소 태깅 결과 다음과 같이 k개의 후보가 가능하다고 가정하면,
wi = c1 | c2 |... | cj ... | ck
형태소분석 후보에 대한 결정 요소로는, 크게 어절빈도가 최대인 후보로 결정하는 어절분석 확률 P(cj|wi)와, 어휘문맥 정보의 최대치 MAX(P(cj|m i-1,h, mi-1,f, wi, mi+1,h))인 cj를 분석 후보로 결정하는 어휘문맥 정보의 2가지가 된다. 여기에 가중치를 적용하면 다음의 수학식 1과 같이 확률 모델식으로 표현된 어휘문맥 태깅 함수 T(mi-1,h, mi-1,f, wi, mi+1,h)를 얻을 수 있다.
위 식에서 ε는 데이터 부족 현상을 보완하기 위한 어절분석 확률값에 대한 Smoothing 인자이며, α, β1, β2, γ1, γ2는 각 문맥정보의 가중치를 나타낸다.
문맥정보 가중치는 매칭되는 문맥의 길이와 및 형태소 대표어 또는 기능어간의 매칭 중요도 차이에 의해 그 값이 차이가 난다. 통계치의 γ2가 γ1보다 문맥 가중치가 높은 이유는 품사 태깅을 위한 분석 어절과의 문맥 범위는 같지만 γ2는 문맥 형태소로 실질 형태소가 γ1는 형식 형태소가 문맥 정보로 사용되기 때문이다. 즉, 매칭되는 문맥 어휘가 길고 실질 형태소인 대표 형태소가 포함될수록 문맥 가중치는 높아진다.
또한, 문맥 가중치 α, β1, β2, γ1, γ2의 값은 태깅된 말뭉치의 적용 범위 등을 고려하여 실험적으로 그 값이 결정될 수 있겠지만, 이 가중치의 차이가 클수록 최장 문맥 및 실질 형태소 문맥에 우선권을 주게 된다. 본 발명에서는, 바람직한 실시예로서, n-gram간의 가중치 차이가 10배가 되도록, α=100, β1 = 50, β2 = 10, γ1= 5, γ2 = 1 , 그리고 형태소 문맥 정보 차이에 의한 100배의 가중치 차이를 보정해 줄 수 있게 ε을 0.01로 설정하였다. 이 가중치들은 학습 태깅 데이터의 적용성 및 확률 분포 등을 고려하여 실험적으로 변경될 수 있다.
한편, 도 1은 본 발명에 따른 형태소 어휘문맥 정보에 기반한 통계적 태깅오류 정정 장치의 구성 및 처리과정을 보여주는 도면이다.
도 1을 참조하면, 본 발명의 태깅오류 정정장치는, 형태소 분석부(101), 품사문맥 기반 태깅부(102), 형태소 어휘 정규화부(103), 형태소 어휘문맥 추출부(104), 최적 형태소후보 선택부(105), 및 형태소 후보 비교 및 오류 정정부(106,107)로 구성되고, 형태소 접속 규칙 테이블(108), 품사문맥 통계정보 DB(109), 형태소 대표값 DB(110), 형태소 어절분석 통계정보 DB(111), 형태소 어휘문맥 통계정보 DB(112) 등을 참조하여 형태소 분석 및 태깅상의 오류를 정정하게 된다.
상기 형태소 분석부(101)는 품사들간의 접속가능 여부를 나타내는 상기 형태소 접속 규칙 테이블(108)을 참조하여 원시문장을 형태소 단위로 분석한다. 또한, 상기 품사문맥 기반 태깅부(102)는 상기 품사문맥 통계정보 DB(109)를 참조하여 상기 형태소 분석 결과에 대해 품사문맥을 기반으로 태깅을 수행한다.
상기 형태소 어휘 정규화부(103)는 상기 형태소 대표값 DB(110)를 참조하여 상기 형태소 분석 결과의 각 형태소에 대한 대표값(즉, 상기 헤드 어휘 또는 대표 기능어)을 결정한다. 상기 형태소 대표값 DB(110)에는 조사, 어미, 용언 등의 품사별로 각 형태소 어휘에 대한 대표어휘 정보를 갖는다.
상기 형태소 어휘문맥 추출부(104)는 분석대상 어절의 좌우 어절에 대해 상기 결정된 형태소 대표어휘와 분석대상 어절을 통해 형태소 어휘문맥을 추출한다. 즉, 앞 어절의 헤드 어휘 및 대표 기능어와, 뒤 어절의 헤드 어휘, 및 분석대상 어절을 통해 상기 설명된 바와 같이 n-gram(n=4,3,2,1) 형태소어휘 문맥을 구성한다.
그리고, 상기 최적 형태소후보 선택부(105)는 상기 형태소 어절분석 통계정보 DB(111) 및 상기 형태소 어휘문맥 통계정보 DB(112)를 참조하여 분석대상 어절의 각 형태소 분석 후보별로 어절분석 확률값 P(cj|wi) 및 상기 추출된 형태소어휘 문맥에 대한 확률값(P(cj|mi-1,h, mi-1,f, wi, mi+1,h ) 등)을 확인한 후, 상기 수학식 1에 제시된 바와 같이 각 어휘문맥에 소정의 가중치를 적용하고 이들을 1차 결합하여 각 형태소 후보에 대한 형태소 어휘문맥 태깅 함수값을 출력하여, 그 출력값이 가장 큰 후보를 분석대상 어절에 대한 최적 형태소후보로서 선택한다.
이와 같이 형태소 어휘문맥을 기반으로 태깅한 결과 최적 형태소후보가 선택되면, 형태소후보 비교부(106)는 상기 품사문맥 기반 태깅부(102)에 의한 태깅 결과와 상기 선택된 최적 형태소후보를 비교하여 그 동일 여부를 판단하고, 이때 동일하지 않을 경우 형태소 오류 정정부(107)는 상기 최적 형태소후보로 대상어절의 태깅정보를 정정한다.
도 2는 입력 예문에 대한 형태소 분석 후보별 어휘문맥 태깅 함수값 및 최적 형태소후보 선정예를 도시하고 있다.
도 2를 참조하면, 먼저 " 선거 유세에 온 힘을 기울였습니다."라는 입력 예문과, 품사문맥에 기반한 형태소 분석 및 품사 태깅 결과가 예시되어 있다. 여기에서 형태소 태깅이 상당히 힘든 어절 중 하나인 "온"은 "오[너라불규칙동사]+??[관형사형전성어미]"으로 형태소 분석 및 태깅되어 있으며, 이는 잘못된 것으로서 수정될 필요가 있다.
도 2의 아래쪽에는 이와 같은 태깅 오류를 정정하는 과정이 예시되어 있다.
분석대상 어절 "온"에 대해 C1 = 오[너라불규칙동사]+??[관형사형전성어미]와, C2 = 온[성상관형사]의 2개 형태소 분석 후보가 파악된다.
그리고, 각 후보별 각 어휘문맥 확률값과 어절분석 확률값에 소정의 가중치를 부여하여 상기 수학식 1에 적용함으로써, 형태소 어휘문맥 태깅 함수값 T(C1)=0.653 과 T(C2)=3.263을 얻게 된다. 이로써, 태깅후보 C2를 대상어절에 대한 최적 형태소후보로 선정하게 되고, 상기 오분석된 태깅결과를 올바르게 정정할 수 있다.
상기와 같은 본 발명의 대표 형태소 어휘 문맥에 기반한 통계적 태깅 오류 정정 방법은 컴퓨터로 읽을 수 있는 기록매체에 저장될 수 있다. 이러한 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있도록 프로그램 및 데이터가 저장되는 모든 종류의 기록매체를 포함한다. 그 예로는, 롬(Read Only Memory), 램(Random Access Memory), CD(Compact Disk)-Rom, DVD(Digital Video Disk)-Rom, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있으며, 또한, 이러한 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
상술한 바와 같이 본 발명에 따른 대표 형태소 어휘 문맥에 기반한 통계적 태깅 오류 정정 장치 및 그 방법은, 정확도가 떨어지는 기존의 품사 문맥 방식에 비해 형태소 태깅의 정확성을 크게 향상시킬 수 있으며 주변의 대표 형태소 어휘문맥을 이용함으로써 품사 태그 코퍼스를 용이하게 보충할 수 있게 되어 그 커버리지를 지속적으로 올릴 수 있다. 결과적으로 각종 정보검색시스템의 검색 성능 및 정확성을 향상시킬 수 있고, 자동 번역시스템의 언어분석 정확도를 향상시켜 전체 번역성능을 향상시킬 수 있다.
이상에서 설명한 것은 본 발명에 따른 대표 형태소 어휘 문맥에 기반한 통계적 태깅오류 정정 장치 및 그 방법을 실시하기 위한 하나의 실시예에 불과한 것으로서, 본 발명은 상기한 실시예에 한정되지 않고, 이하의 특허청구의 범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변경 실시가 가능한 범위까지 본 발명의 기술적 정신이 있다고 할 것이다.
도 1은 본 발명에 따른 형태소 어휘 문맥 정보에 기반한 통계적 태깅 오류 정정 장치의 구성 및 처리과정을 보여주는 도면.
도 2는 본 발명에 따른 형태소 태깅오류 정정 과정을 보여주는 예시도.
<도면의 주요부분에 대한 부호의 설명>
101: 형태소 분석부 102: 품사문맥 기반 태깅부
103: 형태소 어휘 정규화부 104: 형태소 어휘문맥 추출부
105: 최적 형태소후보 선택부 106: 형태소 후보 비교부
107: 형태소 오류 정정부

Claims (12)

  1. 원시문장에 대한 품사문맥 기반의 형태소 분석 및 태깅 결과로부터 분석대상 어절에 대한 형태소 어휘문맥들을 추출하는 형태소 어휘문맥 추출수단;
    학습된 통계정보를 참조하여 분석대상 어절의 각 형태소 후보에 대해 어절분석 확률과 형태소 어휘문맥들의 확률을 산출하고, 이들의 결합 값이 가장 큰 후보를 최적 형태소후보로서 선정하는 최적 형태소후보 선정수단; 및
    상기 선정된 최적 형태소후보로 분석대상 어절의 태깅정보를 정정하는 형태소 태깅오류 정정수단;으로 구성되는 것을 특징으로 하는 대표 형태소 어휘 문맥에 기반한 통계적 태깅오류 정정 장치.
  2. 제 1항에 있어서, 상기 어휘문맥 추출 수단은,
    품사문맥 기반 형태소 분석결과의 각 형태소에 대해 그 대표어휘로 형태소 어휘를 정규화한 후, 분석대상 어절 및 그 주변 어절의 대표 형태소 어휘로 분석대상 어절에 대한 형태소 어휘문맥을 구성하는 것을 특징으로 하는 대표 형태소 어휘 문맥에 기반한 통계적 태깅오류 정정 장치.
  3. 제 2항에 있어서, 상기 어휘문맥 추출 수단은, 주변의 대표어휘로 형태소 어휘문맥을 구성함에 있어,
    분석대상 어절에 대해, 그 앞 어절의 헤드 어휘 및 대표 기능어와, 그 뒤 어절의 헤드 어휘를 주변 대표어휘로 하고,
    분석대상 어절에 1, 2, 또는 3개의 주변 대표어휘를 조합하여 형태소 어휘문맥을 구성하는 것을 특징으로 하는 대표 형태소 어휘 문맥에 기반한 통계적 태깅오류 정정 장치.
  4. 제 3항에 있어서, 상기 어휘문맥 추출 수단은, 대표어휘의 커버리지를 높이기 위하여,
    실질 형태소에 대해서는 접미사 또는 접두사를 제거하거나 용언의 어간어휘를 사용하여 그 형태소의 헤드 어휘를 결정하고, 형식 형태소에 대해서는 복합 조사 또는 복합 어미의 대표형을 취하여 그 형태소의 대표 기능어를 결정하는 것을 특징으로 하는 대표 형태소 어휘 문맥에 기반한 통계적 태깅오류 정정 장치.
  5. 제 1항에 있어서, 상기 최적 형태소후보 선정수단은,
    분석대상 어절의 품사문맥 기반 각 형태소 분석 후보에 대해, 이미 학습된 어절분석 통계정보와 형태소 어휘문맥 통계정보를 참조하여 어절분석 확률 및 형태소 어휘문맥 확률을 산출한 후, 어절분석 확률에 대한 보완인자 및 각 어휘문맥 확률에 대한 가중치를 부여하고 이들을 1차 결합하여 그 결과 값이 가장 큰 후보를 최적 형태소후보로 선정하는 것을 특징으로 하는 대표 형태소 어휘 문맥에 기반한 통계적 태깅오류 정정 장치.
  6. 제 5항에 있어서, 상기 최적 형태소후보 선정수단은, 각 어휘문맥 확률에 가중치를 부여함에 있어,
    어휘문맥의 구성 어휘 수가 많고 형식 형태소에 비해 실질 형태소의 대표어휘를 포함할 경우 그 가중치를 높게 부여하는 것을 특징으로 하는 대표 형태소 어휘 문맥에 기반한 통계적 태깅오류 정정 장치.
  7. 제 5항 또는 제 6항에 있어서, 상기 최적 형태소후보 선정수단은,
    다음의 수학식에 따라, 분석대상 어절의 각 형태소 분석후보에 대해 어절분석 확률 및 형태소 어휘문맥 확률의 보완인자 및 가중치를 부여하고 이들 결합하여 최적 형태소후보를 선정하는 것을 특징으로 하는 대표 형태소 어휘 문맥에 기반한 통계적 태깅오류 정정 장치.
    [수학식]
    여기에서, wi 는 분석대상 어절이고, cj 는 형태소 분석 후보로서 (wi = c1 | c2 |... | cj ... | ck ),
    mi-1,h ; 앞 어절의 헤드 어휘, mi-1,f ; 앞 어절의 대표 기능어, mi+1,h ; 뒤 어절의 헤드 어휘,
    P(cj|wi); 어절 wi 에 대한 형태소 후보 cj 의 어절분석 확률,
    P(cj|mi-1,h, mi-1,f, wi, mi+1,h) 등; 형태소 후보 cj 의 각 어휘문맥 확률,
    ε; 어절분석 확률에 대한 보완인자,
    α, β1, β2, γ1, γ2 ; 각 어휘문맥 확률에 대한 가중치.
  8. 제 1항에 있어서, 상기 형태소 태깅오류 정정수단은,
    품사문맥에 기반한 태깅 결과와 상기 선정된 최적 형태소후보를 비교하여 그 동일 여부를 판단하고, 동일하지 않을 경우 상기 최적 형태소후보로 분석대상 어절의 태깅정보를 정정하는 것을 특징으로 하는 대표 형태소 어휘 문맥에 기반한 통계적 태깅오류 정정 장치.
  9. (a) 원시문장에 대해 품사문맥을 기반으로 형태소 분석 및 태깅을 하는 단계;
    (b) 각 형태소 어휘에 대해 대표어휘를 결정하고, 상기 형태소 분석 및 태깅 결과로부터 분석대상 어절에 대한 대표 형태소 어휘문맥들을 추출하는 단계;
    (c) 이미 학습된 통계정보를 참조하여 분석대상 어절의 각 형태소 후보에 대해 어절분석 확률과 대표 형태소 어휘문맥들의 확률을 산출하고, 이들의 결합 값이 가장 큰 후보를 최적 형태소후보로 선정하는 단계; 및
    (d) 상기 선정된 최적 형태소후보로 상기 품사문맥 기반의 태깅 오류를 정정하는 단계;로 이루어지는 것을 특징으로 하는 대표 형태소 어휘 문맥에 기반한 통계적 태깅오류 정정 방법.
  10. 제 9항에 있어서, 상기 (b) 단계는, 분석대상 어절 및 그 주변 어절의 대표 형태소 어휘로 분석대상 어절에 대한 대표 형태소 어휘문맥을 구성하며,
    앞 어절의 헤드 어휘 및 대표 기능어와 그 뒤 어절의 헤드 어휘로 되는 주변 대표어휘를, 분석대상 어절을 중심으로 1, 2, 또는 3개 조합하여 대표 형태소 어휘문맥들을 생성하는 것을 특징으로 하는 대표 형태소 어휘 문맥에 기반한 통계적 태깅오류 정정 방법.
  11. 제 9항에 있어서, 상기 (c)단계는,
    다음의 수학식에 따라, 분석대상 어절의 각 형태소 분석후보에 대해 어절분석 확률 및 대표 형태소 어휘문맥 확률의 보완인자 및 가중치를 부여하고 이들 결합하여 그 결과 값이 가장 큰 후보를 최적 형태소후보를 선정하는 것을 특징으로 하는 대표 형태소 어휘 문맥에 기반한 통계적 태깅오류 정정 방법.
    [수학식]
    여기에서, wi 는 분석대상 어절이고, cj 는 형태소 분석 후보로서 (wi = c1 | c2 |... | cj ... | ck ),
    mi-1,h ; 앞 어절의 헤드 어휘, mi-1,f ; 앞 어절의 대표 기능어, mi+1,h ; 뒤 어절의 헤드 어휘,
    P(cj|wi); 어절 wi 에 대한 형태소 후보 cj 의 어절분석 확률,
    P(cj|mi-1,h, mi-1,f, wi, mi+1,h) 등; 형태소 후보 cj 의 각 어휘문맥 확률,
    ε; 어절분석 확률에 대한 보완인자,
    α, β1, β2, γ1, γ2 ; 각 어휘문맥 확률에 대한 가중치.
  12. 제 11항에 있어서, 상기 (c)단계는, 각 대표 형태소 어휘문맥 확률에 가중치를 부여함에 있어,
    어휘문맥의 구성 어휘 수가 많고 형식 형태소에 비해 실질 형태소의 대표어휘를 포함할 경우 그 가중치를 높게 부여하는 것을 특징으로 하는 대표 형태소 어휘 문맥에 기반한 통계적 태깅오류 정정 방법.
KR10-2003-0074832A 2003-10-24 2003-10-24 대표 형태소 어휘 문맥에 기반한 통계적 태깅 오류 정정장치 및 그 방법 KR100496873B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2003-0074832A KR100496873B1 (ko) 2003-10-24 2003-10-24 대표 형태소 어휘 문맥에 기반한 통계적 태깅 오류 정정장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2003-0074832A KR100496873B1 (ko) 2003-10-24 2003-10-24 대표 형태소 어휘 문맥에 기반한 통계적 태깅 오류 정정장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20050039379A true KR20050039379A (ko) 2005-04-29
KR100496873B1 KR100496873B1 (ko) 2005-06-22

Family

ID=37241620

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2003-0074832A KR100496873B1 (ko) 2003-10-24 2003-10-24 대표 형태소 어휘 문맥에 기반한 통계적 태깅 오류 정정장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR100496873B1 (ko)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100755678B1 (ko) * 2005-10-28 2007-09-05 삼성전자주식회사 개체명 검출 장치 및 방법
KR100784730B1 (ko) * 2005-12-08 2007-12-12 한국전자통신연구원 태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한통계적 hmm 품사 태깅 장치 및 방법
KR100882766B1 (ko) * 2005-09-21 2009-02-09 오끼 덴끼 고오교 가부시끼가이샤 형태소 해석 장치, 형태소 해석 방법 및 형태소 해석프로그램
KR100911372B1 (ko) * 2006-12-05 2009-08-10 한국전자통신연구원 통계적 기계번역 시스템에서 단어 및 구문들간의 번역관계를 자율적으로 학습하기 위한 장치 및 그 방법
US7725408B2 (en) 2005-12-09 2010-05-25 Electronics And Telecommunications Research Institute Apparatus and method for constructing learning data
KR101250900B1 (ko) * 2009-08-17 2013-04-04 한국전자통신연구원 문서정보 학습기반 통계적 hmm 품사 태깅 장치 및 그 방법
WO2014025135A1 (ko) * 2012-08-10 2014-02-13 에스케이텔레콤 주식회사 문법 오류 검출 방법, 이를 위한 오류검출장치 및 이 방법이 기록된 컴퓨터로 판독 가능한 기록매체
WO2014030834A1 (ko) * 2012-08-23 2014-02-27 에스케이텔레콤 주식회사 문법의 오류 검출 방법, 이를 위한 오류검출장치 및 이 방법이 기록된 컴퓨터로 판독 가능한 기록매체
WO2018088664A1 (ko) * 2016-11-10 2018-05-17 창원대학교 산학협력단 러프 셋을 이용한 형태소 품사 태깅 코퍼스 오류 자동 검출 장치 및 그 방법

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101495240B1 (ko) 2013-07-12 2015-02-25 부산대학교 산학협력단 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 장치 및 방법
KR101500617B1 (ko) * 2013-08-07 2015-03-10 부산대학교 산학협력단 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법
KR101573854B1 (ko) * 2014-07-15 2015-12-02 부산대학교 산학협력단 관계어 기반 확률추정 방법을 이용한 통계적 문맥의존 철자오류 교정 장치 및 방법
KR102166102B1 (ko) * 2014-12-05 2020-10-15 에스케이텔레콤 주식회사 개인 정보 보호를 위한 장치 및 기록 매체

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100882766B1 (ko) * 2005-09-21 2009-02-09 오끼 덴끼 고오교 가부시끼가이샤 형태소 해석 장치, 형태소 해석 방법 및 형태소 해석프로그램
US8655646B2 (en) 2005-10-28 2014-02-18 Samsung Electronics Co., Ltd. Apparatus and method for detecting named entity
KR100755678B1 (ko) * 2005-10-28 2007-09-05 삼성전자주식회사 개체명 검출 장치 및 방법
KR100784730B1 (ko) * 2005-12-08 2007-12-12 한국전자통신연구원 태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한통계적 hmm 품사 태깅 장치 및 방법
US7725408B2 (en) 2005-12-09 2010-05-25 Electronics And Telecommunications Research Institute Apparatus and method for constructing learning data
KR100911372B1 (ko) * 2006-12-05 2009-08-10 한국전자통신연구원 통계적 기계번역 시스템에서 단어 및 구문들간의 번역관계를 자율적으로 학습하기 위한 장치 및 그 방법
KR101250900B1 (ko) * 2009-08-17 2013-04-04 한국전자통신연구원 문서정보 학습기반 통계적 hmm 품사 태깅 장치 및 그 방법
WO2014025135A1 (ko) * 2012-08-10 2014-02-13 에스케이텔레콤 주식회사 문법 오류 검출 방법, 이를 위한 오류검출장치 및 이 방법이 기록된 컴퓨터로 판독 가능한 기록매체
KR20140021838A (ko) * 2012-08-10 2014-02-21 에스케이텔레콤 주식회사 문법 오류 검출 방법 및 이를 위한 오류검출장치
US9575955B2 (en) 2012-08-10 2017-02-21 Sk Telecom Co., Ltd. Method of detecting grammatical error, error detecting apparatus for the method, and computer-readable recording medium storing the method
WO2014030834A1 (ko) * 2012-08-23 2014-02-27 에스케이텔레콤 주식회사 문법의 오류 검출 방법, 이를 위한 오류검출장치 및 이 방법이 기록된 컴퓨터로 판독 가능한 기록매체
KR20140026703A (ko) * 2012-08-23 2014-03-06 에스케이텔레콤 주식회사 문법의 오류 검출 방법 및 이를 위한 장치
US9600469B2 (en) 2012-08-23 2017-03-21 Sk Telecom Co., Ltd. Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
WO2018088664A1 (ko) * 2016-11-10 2018-05-17 창원대학교 산학협력단 러프 셋을 이용한 형태소 품사 태깅 코퍼스 오류 자동 검출 장치 및 그 방법
US11074406B2 (en) 2016-11-10 2021-07-27 Changwon National University Industry University Cooperation Foundation Device for automatically detecting morpheme part of speech tagging corpus error by using rough sets, and method therefor

Also Published As

Publication number Publication date
KR100496873B1 (ko) 2005-06-22

Similar Documents

Publication Publication Date Title
US6983239B1 (en) Method and apparatus for embedding grammars in a natural language understanding (NLU) statistical parser
US9460080B2 (en) Modifying a tokenizer based on pseudo data for natural language processing
KR100734741B1 (ko) 단어 인식 방법 및 시스템 및 컴퓨터 프로그램 메모리저장 디바이스
US7552051B2 (en) Method and apparatus for mapping multiword expressions to identifiers using finite-state networks
US20060031061A1 (en) Performing machine translation using a unified language model and translation model
US6349282B1 (en) Compound words in speech recognition systems
US8370130B2 (en) Speech understanding system using an example-based semantic representation pattern
US8566076B2 (en) System and method for applying bridging models for robust and efficient speech to speech translation
US20060095250A1 (en) Parser for natural language processing
US20070005345A1 (en) Generating Chinese language couplets
KR20120018687A (ko) 토큰 분리 및 번역 과정을 통합한 통합 디코딩 장치 및 그 방법
KR100496873B1 (ko) 대표 형태소 어휘 문맥에 기반한 통계적 태깅 오류 정정장치 및 그 방법
KR102026967B1 (ko) n-gram 데이터 및 언어 분석에 기반한 문법 오류 교정장치 및 방법
Arısoy et al. A unified language model for large vocabulary continuous speech recognition of Turkish
US20210133394A1 (en) Experiential parser
Palmer et al. Information extraction from broadcast news speech data
Iosif et al. Speech understanding for spoken dialogue systems: From corpus harvesting to grammar rule induction
Tanigaki et al. A hierarchical language model incorporating class-dependent word models for OOV words recognition
Palmer et al. Robust information extraction from automatically generated speech transcriptions
Misu et al. Dialogue strategy to clarify user’s queries for document retrieval system with speech interface
Wang et al. Structure alignment using bilingual chunking
KR101753708B1 (ko) 통계적 기계 번역에서 명사구 대역 쌍 추출 장치 및 방법
Maučec et al. Modelling highly inflected Slovenian language
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
Eineborg et al. ILP in part-of-speech tagging—an overview

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20110609

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee