KR100725723B1 - 연결어미 제약을 이용한 한국어 주어의 생략 성분 복원방법 및 장치 - Google Patents

연결어미 제약을 이용한 한국어 주어의 생략 성분 복원방법 및 장치 Download PDF

Info

Publication number
KR100725723B1
KR100725723B1 KR1020060043308A KR20060043308A KR100725723B1 KR 100725723 B1 KR100725723 B1 KR 100725723B1 KR 1020060043308 A KR1020060043308 A KR 1020060043308A KR 20060043308 A KR20060043308 A KR 20060043308A KR 100725723 B1 KR100725723 B1 KR 100725723B1
Authority
KR
South Korea
Prior art keywords
candidate
subject
selection value
component
predecessor
Prior art date
Application number
KR1020060043308A
Other languages
English (en)
Inventor
서영애
김영길
김창현
양성일
홍문표
류철
최승권
이기영
권오욱
노윤형
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Application granted granted Critical
Publication of KR100725723B1 publication Critical patent/KR100725723B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 주어가 생략된 한국어 문장에 대해 생략된 원래의 주어 성분을 복원하는 방법에 관한 것으로, 휴리스틱(heuristic) 규칙, 명사와 용언간의 공기정보 및 연결어미의 동일/비동일 주어 제약 확률을 기반으로 한국어 문장에서 생략된 주어 성분에 대응하는 선행사를 결정하여 생략된 주어 성분을 복원하는 것을 특징으로 한다.
본 발명에 따르면 종래의 방법에 비해 한국어 문장에서 생략된 주어 성분을 올바르게 복원할 수 있으므로, 이에 따라 한국어 문장에 대한 정확한 대역문 생성이 가능하게 되어 자동번역 시스템이나 질의응답 시스템 및 문서요약 시스템의 성능을 향상시킬 수 있는 효과가 있다.
주어 생략, 생략 복원, 조응 현상, 영형 대명사

Description

연결어미 제약을 이용한 한국어 주어의 생략 성분 복원 방법 및 장치{Method and apparatus for recovering omitted component of korean subject using conjunctive ending restriction}
도 1은 본 발명이 적용되는 한영 자동 번역 시스템을 개략적으로 나타낸 도면이다.
도 2는 도 1에 있어서 생략 주어 성분 복원기의 개략적인 구성도이다.
도 3은 본 발명에 따른 한국어 주어의 생략 성분 복원 방법을 나타낸 흐름도이다.
* 도면의 주요 부분에 대한 부호의 설명
100 : 한영 자동 번역 시스템 110 : 형태소 분석기
120 : 구문 분석기 130 : 대역문 생성기
140 : 형태소 생성기 150 : 생략 주어 성분 복원기
151 : 선행사 후보 추출부 153 : 휴리스틱 기반 선택값 계산부
155 : 공기정보 기반 선택값 계산부 157 : 연결어미 기반 선택값 계산부
159 : 생략 주어 성분 결정부
본 발명은 주어가 생략된 한국어 문장에 대해 생략된 원래의 주어 성분을 복원하는 방법 및 장치에 관한 것으로, 특히 주어 성분이 생략된 한국어 문장에서 생략된 주어의 선행사가 무엇인지를 찾아내어 자동 번역시 주어가 복원된 영어 대역문을 생성할 수 있는 방법 및 장치에 관한 것이다.
한국어의 대표적인 언어 특성은 생략이 많다는 것으로, 한국어는 생략 현상이 비교적 자유롭게 허용되는 언어 유형에 속한다. 특히, 주어의 경우는 상당 부분이 생략되며, 어떤 경우는 이러한 주어의 생략이 주어를 표현하는 것보다 더 자연스럽게 느껴질 정도이다.
한 시간 분량의 라디오 대담 프로그램을 녹취하여 획득한 자료를 중심으로 조사한 연구에 따르면, 우리말 대화체에서 문장의 필수논항은 약 30% 가량이 생략되는데, 특히 주어 논항은 실현되는 것보다 생략되는 것이 자연스러우며, 생략된 필수 논항 중 주어 논항의 생략이 가장 빈번하다는 결과가 나와 있다.
또한, 상기 연구 자료에서 본용언이 타동사인 경우 주어와 목적어가 동시에 생략되는 경우보다는 목적어는 실현되고 주어가 생략되는 경우가 현저하게 많다고 조사되었다.
반면, 영어는 주어가 생략될 경우 비문이 된다. 즉, 한국어에서는 "어제 친구를 만났다."와 같은 문장에서 주어가 생략이 되어도 자연스러운 한국어 문장이 되지만, 영어에서는 "Yesterday, met the friend"과 같이 주어를 기술하지 않은 문장은 비문이 되므로, 한영 자동 번역 시스템에서 생략된 주어를 복원하지 않게 되 면 비문이 생성되어 정확한 번역 결과를 얻을 수가 없게 된다.
따라서, 생략된 한국어의 주어 성분을 복원해야만 올바른 영어 문장 번역이 가능하며, 이에 따라 질의응답 시스템이나 문서 요약 시스템 등에서 신속하고 정확하게 영어 대역문을 생성할 수 있게 된다.
이와 같은 생략 성분을 복원하기 위한 기술로서, 휴리스틱(heuristic) 알고리즘에 기반한 생략 성분 복원 방법이 있는데, 이 방법은 Mitkov가 제안한 근접성, 평행성 등의 형태소 및 구문 정보를 이용하여 휴리스틱 규칙을 기반으로 생략 성분의 선행사를 찾는 방법이다.
그러나, 휴리스틱 알고리즘에 기반한 생략 성분 복원 방법은 각 언어에 적합한 휴리스틱 규칙을 추출함으로써 비교적 손쉽게 처리가 가능한 장점은 있으나, 형태소 및 구문 정보에만 의존하고 있어 정확성이 떨어지며, 새로운 규칙을 추가하는 것이 어렵다는 문제점을 갖고 있다.
이러한 문제점을 해결하기 위한 방법으로, 확률정보를 이용한 생략 성분 복원 방법이 있는데, 이 방법은 대부분 조응 정보가 표시된 코퍼스에서 조응 처리를 위한 확률 정보를 별도로 추출하여 이에 기반하여 선행사를 찾는 방법으로, 통계 자료를 뽑기 위한 데이터의 구축이 어렵다는 문제점을 갖고 있다.
한편, 생략 성분 복원을 위해 상기 두가지 방법 모두를 이용할 수도 있는데, 이들 방법은 모두 주어가 생략된 용언구/절과 선행사 또는 선행사 후보를 포함하고 있는 용언구/절간의 의미 관계를 고려하지 않고 있으므로, 선행사 결정의 정확률이 떨어진다는 공통적인 문제점이 있다.
즉, 근접성이나 평행성 등의 형태적/구문적 조건이 동일하고 코퍼스에서 추출된 확률 정보가 동일하더라도, 두 용언구/절간의 의미적 연결 관계가 다르면 생략된 주어가 다를 수 있는데, 기존의 방법들은 두 용언구/절간의 의미적 연결 관계를 고려하지 않고 있으므로, 생략 성분을 정확하게 복원할 수 없다는 문제점이 있다.
본 발명은 상기한 문제점들을 해결하기 위해 안출된 것으로, 본 발명의 목적은 한국어 문장 내에서 생략된 주어 성분에 대해 올바른 선행사를 복원함으로써 한영 자동 번역시 주어가 복원된 영어 대역문의 생성을 가능하게 하는 것이다.
상기 목적을 달성하기 위하여 본 발명에 따른 연결어미 제약을 이용한 한국어 주어의 생략 성분 복원 방법은, (a) 한국어 문장의 형태소 및 구문 분석 결과를 기반으로 생략 주어 성분에 대한 선행사 후보들을 추출하는 단계; (b) 휴리스틱(heuristic) 규칙에 의해 상기 선행사 후보들에 대한 선택값을 계산하는 단계; (c) '명사-격조사-용언'형태의 공기정보를 이용하여 상기 선행사 후보들에 대한 선택값을 계산하는 단계; (d) 연결어미의 동일/비동일 주어 제약 확률을 이용하여 상기 선행사 후보들에 대한 선택값을 계산하는 단계; 및 (e) 상기 (b), (c) 및 (d) 단계에서 계산된 선택값을 이용하여 선행사 후보에 대한 최종 선택값을 구하여 최종 선택값이 가장 높은 선행사 후보를 생략 주어 성분으로 결정하는 단계를 포함하는 것을 특징으로 한다.
한편, 상기 목적을 달성하기 위하여 본 발명에 따른 연결어미 제약을 이용한 한국어 주어의 생략 성분 복원 장치는, 입력된 한국어 문장에 대한 형태소 분석 결과 및 구문 분석 결과를 기반으로 생략 주어 성분에 대한 하나 이상의 선행사 후보들을 추출하는 선행사 후보 추출부; 휴리스틱(heuristic) 규칙에 의해 상기 선행사 후보들에 대한 선택값을 계산하는 휴리스틱 기반 선택값 계산부; '명사-격조사-용언'형태의 공기정보를 이용하여 상기 선행사 후보들에 대한 선택값을 계산하는 공기정보 기반 선택값 계산부; 연결어미의 동일/비동일 주어 제약 확률을 이용하여 상기 선행사 후보들에 대한 선택값을 계산하는 연결어미 기반 선택값 계산부; 및 상기 휴리스틱 기반 선택값 계산부, 상기 공기정보 기반 선택값 계산부 및 상기 연결어미 기반 선택값 계산부를 통해 계산된 선택값을 이용하여 최종 선택값이 가장 높은 선행사 후보를 생략 주어 성분에 대한 선행사로 결정하는 생략 주어 성분 결정부를 포함하는 것을 특징으로 한다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세히 설명한다.
도 1은 본 발명이 적용되는 한영 자동 번역 시스템을 개략적으로 나타낸 도면이다.
도 1에 도시된 바와 같이, 본 발명이 적용되는 한영 자동 번역 시스템(100)은, 한국어 문장을 입력받아 이를 형태소 분석하는 형태소 분석기(110)와, 형태소 분석 결과를 입력받아 이를 구문 분석하는 구문 분석기(120)와, 구문 분석 결과를 이용하여 한국어 동사구들의 영어 대역표현을 생성하는 대역문 생성기(130)와, 대 역문 생성기(130)를 통해 생성된 영어 대역표현을 기반으로 영어 어휘 형태소를 생성하여 최종 영어 문장을 생성하는 형태소 생성기(140)와, 한국어 문장에서 생략된 주어 성분을 복원하는 생략 주어 성분 복원기(150)로 구성된다.
여기에서, 상기 생략 주어 성분 복원기(150)는 본 발명에 따른 한국어 주어의 생략 성분 복원 장치가 한영 자동 번역 시스템(100)에 모듈화된 것으로 이해될 수 있으며, 이에 따라 본 실시예에 있어서 상기 생략 주어 성분 복원기(150)와 본 발명에 따른 한국어 주어의 생략 성분 복원 장치는 동일한 의미로 이해될 수 있다.
상기와 같이 구성된 한영 자동 번역 시스템(100)에 있어서, 상기 생략 주어 성분 복원기(150)는 입력된 한국어 문장에서 주어가 생략되어 있는 경우 생략된 주어 성분에 대해 올바른 선행사를 복원함으로써, 한영 자동 번역시 한국어 문장에 대한 정확한 대역문 생성할 수 있도록 하기 위한 것으로, 이하 도 2를 참조하여 상기 생략 주어 성분 복원기(150)의 동작에 대하여 더 자세히 설명하면 다음과 같다.
도 2는 도 1에 있어서 생략 주어 성분 복원기(150)의 개략적인 구성도이다.
도 2에 도시된 바와 같이, 생략 주어 성분 복원기(150)는, 선행사 후보 추출부(151), 휴리스틱 기반 선택값 계산부(153), 공기정보 기반 선택값 계산부(155), 연결어미 기반 선택값 계산부(157) 및 생략 주어 성분 결정부(159)로 구성되어 있으며, 상기 선행사 후보 추출부(151)를 통해 추출된 선행사 후보들에 대하여 상기 휴리스틱 기반 선택값 계산부(153), 공기정보 기반 선택값 계산부(155) 및 연결어미 기반 선택값 계산부(157)에 의해 각 선행사 후보들에 대한 선택값을 계산한 후, 상기 생략 주어 성분 결정부(159)에서 상기 계산된 선택값들을 기반으로 최종 선택 값이 가장 높은 선행사 후보를 생략 주어 성분에 대한 선행사로 결정하도록 구성되어 있다.
상기 선행사 후보 추출부(151)는 입력된 한국어 문장에 대한 형태소 분석 결과 및 구문 분석 결과를 기반으로 생략 주어 성분에 대한 하나 이상의 선행사 후보들을 추출하는데, 상기 선행사 후보 추출 방법에 관하여는 이하 도 3에 관한 설명에서 자세히 설명하기로 한다.
상기 휴리스틱 기반 선택값 계산부(153)는 휴리스틱 규칙에 따라 상기 추출된 선행사 후보들에 대한 선택값을 계산하고, 상기 공기정보 기반 선택값 계산부(155)는 명사와 용언간의 공기정보를 이용하여 상기 추출된 선행사 후보들에 대한 선택값을 계산하며, 상기 연결어미 기반 선택값 계산부(157)는 연결어미의 제약 정보를 이용하여 상기 추출된 선행사 후보들에 대한 선택값을 계산하는데, 상기 각각의 선택값 계산 방법에 관하여는 이하 도 3에 관한 설명에서 자세히 설명하기로 한다.
상기 생략 주어 성분 결정부(159)는 상기 계산된 선택값들에 가중치를 부여하여 가장 높은 선택값을 가지는 선행사 후보를 생략 주어 성분에 대한 선행사로 결정한다.
이하, 본 발명에 따른 한국어 주어의 생략 성분 복원 방법에 대하여 첨부된 도면을 참조하여 상세히 설명한다.
도 3은 본 발명에 따른 한국어 주어의 생략 성분 복원 방법을 나타낸 흐름도이다.
우선, 입력된 한국어 문장에서 주어가 생략된 것이 확인되면, 상기 생략 주어 성분 복원기(150)의 선행사 후보 추출부(151)는 입력된 한국어 문장에 대한 형태소 분석 결과 및 구문 분석 결과를 기반으로 생략 주어 성분에 대한 하나 이상의 선행사 후보들을 추출하는데(S310), 선행사 후보 추출은 다음의 규칙으로 이루어진다.
<선행사 후보 추출 규칙>
(1) 생략 현상이 발생한 문장에 대해서는 생략 현상의 앞에 위치한 체언을 후보로 취한다.
(2) 선행사 후보가 생략 성분이 발생한 용언의 논항이면 후보에서 제외한다.
(3) 생략 현상이 선행사를 수식하는 용언절에 속하면 후보에서 제외한다.
그 다음, 상기와 같은 과정을 통해 선행사 후보들이 추출되면, 상기 생략 주어 성분 복원기(150)의 휴리스틱 기반 선택값 계산부(153)는 휴리스틱 규칙에 따라 각 선행사 후보에 대한 선택값을 계산한다(S320).
여기에서, 상기 휴리스틱 규칙이란 선행사와 조응사간의 구문적 유사성, 병렬성, 거리 인접성, 명확성, 빈도수 등에 기반한 것으로, 휴리스틱 규칙에 따라 각 선행사 후보에 대한 선택값을 계산하는 방법은 다음과 같다.
<휴리스틱 규칙에 따른 각 선행사 후보에 대한 선택값 계산>
(1) 생략 성분과 동일한 지배소 어휘를 가지는 선행사 후보인 경우 선택값을 1 증가시킨다.
(2) 생략 성분과 동일한 지배소 품사를 가지는 선행사 후보인 경우 선택값을 1 증가시킨다.
(3) 생략 성분과 동일한 격을 가지는 선행사 후보인 경우 선택값을 1 증가시킨다.
(4) 선행사 후보가 주제이거나 강조된 경우 선택값을 1 증가시킨다.
그 다음, 상기와 같이 휴리스틱 규칙에 따라 각 선행사 후보에 대한 선택값이 계산되면, 상기 생략 주어 성분 복원기(150)의 공기정보 기반 선택값 계산부(155)는 "명사-격조사-용언" 형태의 공기정보를 이용하여 선행사 후보의 선택값을 계산한다(S330).
여기에서, "명사-격조사-용언" 형태의 공기정보는 형태소 분석 결과가 태깅된 코퍼스나 구문구조 부착 코퍼스로부터 추출함으로써 구축가능한 것으로, 이 공기정보는 주어가 생략되어 주어 성분을 복원하고자 하는 경우 선행사 후보가 용언과 주어 성분으로 자주 사용되는지를 파악하기 위한 정보이며, '선행사 후보-주격조사-용언'의 공기정보 빈도수를 해당 용언이 주어를 취한 빈도수로 나눠 선행사 후보가 해당 용언의 주어로 사용되는 확률값을 계산하며, 계산된 확률값을 선행사 후보의 선택값으로 결정한다.
그 다음, 상기와 같이 명사와 용언간의 공기정보를 이용하여 각 선행사 후보에 대한 선택값이 계산되면, 연결어미 정보를 이용하여 각 선행사 후보에 대한 선택값을 계산하는데(S340), 연결어미 정보를 이용하여 선택값을 계산하는 이유는, 두 용언간의 의미적 관계를 파악하여 생략 주어 성분 복원의 정확률을 높이기 위해서이며, 이를 위해 본 발명에서는 연결어미의 '동일 주어 제약' 및 '비동일 주어 제약' 정보를 이용한다.
상기 연결 어미의 '동일 주어 제약' 및 '비동일 주어 제약'이란 어떤 한국어 연결어미는 동일한 주어를 가지는 경향이 높거나, 동일하지 않은 주어를 가지는 경향이 높다는 것이다.
특히 생략된 주어 성분의 복원에 있어서, 이전 문장의 주어는 생략된 주어 의 선행사가 될 가능성이 높기 때문에, 이와 같은 제약 정보는 생략 주어 성분 복원의 정확률을 높이는데 중요한 역할을 하는 것으로 볼 수 있으며, 이에 따라 본 발명에서는 두 용언간의 의미적 제약을 반영하기 위해 연결어미의 '동일 주어 제약' 및 '비동일 주어 제약' 정보를 이용함으로써 생략 주어 성분 복원의 정확률을 높일 수 있도록 한다.
다음의 예 1에는 연결 어미의 '동일 주어 제약' 및 '비동일 주어 제약'을 몇 가지 어미를 예로 들어 설명하면 다음과 같다.
< 예 1 >
(가) 불안감이 다시 [그 음산한 날개를 펴고] 그들의 머리 위를 뒤엎었다.
(나) 중학교 졸업반인 원이네 작은 형의 말에 우리는 [눈을 똥그랗게 치뜨고] 물었다.
(다) 영희가 [밥을 먹으면서] 신문을 읽었다.
(라) 눈썹이 [휘날리게] 뛰어갔다.
(마) 그 여자는 [손이 커서] 싫다.
(바) 그 여자는 [밥을 많이 먹어서] 배가 부르다.
상기 (가)와 (나)의 예문에서와 같이 양태를 나타내는 연결어미 '고'의 경우는 동일 주어 접속문에 자주 사용되는데, 이는 양태를 나타내는 연결어미 '고'가 동일 주어 제약 가지는 경향을 보이기 때문이다.
즉, (가)의 문장에서 용언 "펴고"의 주어인 "불안감"이 "뒤엎었다"의 생략된 주어의 선행사이고, (나)의 문장에서는 '치뜨고'의 주어인 '우리는'이 '물었다'의 생략된 주어의 선행사이며, 이와 같이 양태를 나타내는 '고' 절의 주어는 주절의 주어와 일치하며, 그 안에 독자적인 주어를 가질 수 없다.
또한, (다)의 예문에서와 같이 연결 어미 '면서'의 경우도 동일 주어 접속문에 자주 사용되는 경향이 있다. '먹으면서'의 주어인 '영희가' 가 '읽었다'의 생략된 주어의 선행사이다.
또한, (라)의 예문에서와 같이 '게'와 같은 부사형 어미의 경우는 '비동일 주어 제약'이 더 크게 작용하는데, (라)의 문장에서 "휘날리게"의 주어인 '눈썹이'가 "뛰어갔다"의 생략된 주어가 아닌 것을 알 수 있다.
또한, (마)의 예문에서와 같이 연결어미 '어서'의 경우도 '비동일 주어 제약'이 더 크게 작용하는데, (마)의 문장에서 '커서'의 주어인 '그 여자'가 '싫다'의 생략된 주어가 아닌 것을 알 수 있다.
물론 이러한 제약은 그러한 경향이 강하다는 뜻이지 반드시 그러한 것은 아니다.
한편, (바)의 예문에서는 '먹어서'의 주어인 '그 여자'가 '부르다'의 주어로 사용된 경우이다. 이와 같은 경우 연결어미의 '동일/비동일 주어 제약'만으로는 생 략된 주어 성분을 복원할 수 없으며, 근본적으로 두 용언구/절, 즉, "밥을 많이 먹어서"와 "배가 부르다"간의 의미적 연결 관계를 보다 상세히 고려하여 생략된 주어 성분을 복원해야 한다.
즉, (바)의 문장의 경우 '어서'는 비동일 주어 제약이 높지만, "먹(용언)-어서(연결어미)-부르다(용언)" 에 대해서는 동일 주어일 확률이 높다는 것을 이용하여 연결어미의 동일/비동일 주어 제약을 벗어나는 경우에 대해서도 올바른 주어 복원 처리를 할 수 있도록 해야 한다.
이를 위해, 본 발명에서는 다음과 같이 조응정보가 표시된 코퍼스로부터 '용언-연결어미-용언'형태에 대한 동일/비동일 주어 제약에 대한 확률값을 계산하여 이를 생략된 주어 성분 복원에 이용하는데, 이에 대하여 더 자세히 설명하면 다음과 같다.
상기 (바) 문장의 "먹(용언)-어서(연결어미)-부르다(용언)" 에 있어서, "먹(용언)"을 제외하고 "어서" 와 "부르다" 에 대한 주어가 동일한 빈도수를 "어서"의 발생빈도수로 나눈 값이 "어서"의 동일 주어 제약에 대한 확률값(P1)이 되고, "먹어서" 와 "부르다" 에 대한 주어가 동일한 빈도수를 "먹어서 부르다"의 발생빈도수로 나눈 값이 "먹어서"의 동일 주어 제약에 대한 확률값(P2)이 된다.
"어서"의 동일 주어 제약에 대한 확률값(P1)과 "먹어서"의 동일 주어 제약에 대한 확률값(P2)을 계산해보면, "먹어서"의 동일 주어 제약에 대한 확률값(P2)이 0.5 이상의 값을 갖게 되는데, 이는 '어서'는 동일 주어일 확률이 낮지만, "먹어서 부르다" 에 대해서는 동일 주어일 확률이 높기 때문이며, 이에 따라 연결어미 "먹 어서"의 동일 주어 제약에 대한 확률값(P2)이 생략된 주어 성분을 복원하기 위한 선행사 후보 "그녀가" 에 대한 선택값으로 결정된다.
즉, '용언-연결어미-용언'형태를 가진 용언구에 있어서, 용언의 어휘를 고려하지 않은 상태에서 연결어미가 동일 주어를 가질 확률을 계산해본 다음, 용언의 어휘를 고려한 상태에서 연결어미가 동일 주어를 가질 확률을 계산해보면, 둘 중 하나의 확률값은 0.5 이상의 값을 갖게 되는데, 이에 따라 '용언-연결어미-용언'형태를 가진 용언구가 동일 주어를 가질 확률이 높은지 아니면 비동일 주어를 가질 확률이 높은지 알 수 있게 된다.
여기에서, 용언의 어휘를 고려하지 않은 상태에서 연결어미가 동일 주어를 가질 확률값은 해당 연결어미가 동일 주어를 가진 빈도수를 해당 연결어미의 발생빈도수로 나눈 값이며, 용언의 어휘를 고려한 상태에서 연결어미가 동일 주어를 가질 확률값은 두 용언이 해당 연결어미로 연결되고 동일 주어를 가진 빈도수를 두 용언이 해당 연결어미로 연결되어 발생한 빈도수로 나눈 값이다.
상기 확률값이 0.5 이상이면 선행사 후보가 주어와 연결관계가 있는 것을 의미하고, 0.5 이하이면 선행사 후보와 주어가 연결관계가 없는 것을 의미하며, 따라서 연결어미의 동일/비동일 주어 제약에 대한 확률값은 생략된 주어 성분을 복원하기 위한 선행사 후보에 대한 선택값으로 사용된다.
다시 말해서, 주어를 복원하고자 하는 용언과 연결 관계가 있는 용언구/절의 주어가 선행사 후보인 경우, 동일/비동일 주어 제약에 대한 확률 정보를 이용하여 선택값을 계산하는데, 주어를 복원하고자 하는 용언과 연결 관계가 없거나 선행사 가 주어가 아닌 경우 선택값은 0이 된다.
그 다음, 상기 휴리스틱 규칙에 따라 계산된 선행사 후보의 선택값을 v1, 명사와 용언간의 공기정보에 의한 선행사 후보의 선택값을 v2, 연결어미 정보에 의한 선행사 후보의 선택값을 v3라 하고, 각 선택값들에 대한 가중치를 w1, w2, w3라 하면, 상기 생략 주어 성분 복원기(150)의 생략 주어 성분 결정부(159)는 상기 각 선택값들에 가중치를 부여하여 계산된 최종 선택값(S)이 가장 높은 선행사 후보를 생략 주어 성분에 대한 선행사로 결정하는데(S350), 선행사 후보에 대한 최종 선택값(S)의 계산식은 하기의 수학식 1과 같이 주어진다.
w1*v1 + w2*v2 + w3*v3 = S
상기한 바와 같이, 주어가 생략된 한국어 문장에 대해서 형태소/구문 정보에 기반한 휴리스틱 규칙과, 코퍼스로부터 추출한 '명사-격조사-용언" 형태의 공기정보와, 연결어미에 대한 동일/비동일 주어 제약 정보를 이용하여 생략된 주어 성분을 정확하게 복원할 수 있으며, 이에 따라 한영 자동 번역시 주어가 복원된 영어 대역문을 생성할 수 있다.
한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.
상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 씨디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 저장매체를 포함한다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았으며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
상기한 바와 같이, 본 발명에 따르면 종래의 방법에 비해 한국어 문장에서 생략된 주어 성분을 올바르게 복원할 수 있으므로, 이에 따라 한국어 문장에 대한 정확한 대역문 생성이 가능하게 되어 자동번역 시스템이나 질의응답 시스템 및 문서요약 시스템의 성능을 향상시킬 수 있는 효과가 있다.

Claims (11)

  1. (a) 한국어 문장의 형태소 및 구문 분석 결과를 기반으로 생략 주어 성분에 대한 선행사 후보들을 추출하는 단계;
    (b) 휴리스틱(heuristic) 규칙에 의해 상기 선행사 후보들에 대한 선택값을 계산하는 단계;
    (c) '명사-격조사-용언'형태의 공기정보를 이용하여 상기 선행사 후보들에 대한 선택값을 계산하는 단계;
    (d) 연결어미의 동일/비동일 주어 제약 확률을 이용하여 상기 선행사 후보들에 대한 선택값을 계산하는 단계; 및
    (e) 상기 (b), (c) 및 (d) 단계에서 계산된 선택값을 이용하여 선행사 후보에 대한 최종 선택값을 구하여 최종 선택값이 가장 높은 선행사 후보를 생략 주어 성분으로 결정하는 단계를 포함하는 것을 특징으로 하는 연결어미 제약을 이용한 한국어 주어의 생략 성분 복원 방법.
  2. 제 1항에 있어서, 상기 (a) 단계는,
    생략 현상이 발생한 문장에 대해서는 생략 현상의 앞에 위치한 체언을 후보로 취하는 단계;
    선행사 후보가 생략 성분이 발생한 용언의 논항이면 후보에서 제외하는 단계; 및
    생략 현상이 선행사를 수식하는 용언절에 속하면 후보에서 제외하는 단계를 포함하는 것을 특징으로 하는 연결어미 제약을 이용한 한국어 주어의 생략 성분 복원 방법.
  3. 제 1항에 있어서, 상기 (b) 단계는,
    생략 성분과 동일한 지배소 어휘를 가지는 선행사 후보인 경우 선택값을 증가시키는 단계;
    생략 성분과 동일한 지배소 품사를 가지는 선행사 후보인 경우 선택값을 증가시키는 단계;
    생략 성분과 동일한 격을 가지는 선행사 후보인 경우 선택값을 증가시키는 단계; 및
    선행사 후보가 주제이거나 강조된 경우 선택값을 증가시키는 단계를 포함하는 것을 특징으로 하는 연결어미 제약을 이용한 한국어 주어의 생략 성분 복원 방법.
  4. 제 1항에 있어서, 상기 (c) 단계는,
    '선행사 후보-주격조사-용언'형태의 공기정보를 이용하여 해당 선행사 후보가 해당 용언의 주어로 사용되는 확률값을 계산하는 제 1단계; 및
    상기 계산된 확률값을 선행사 후보에 대한 선택값으로 결정하는 제 2단계를 포함하는 것을 특징으로 하는 연결어미 제약을 이용한 한국어 주어의 생략 성분 복 원 방법.
  5. 제 4항에 있어서, 상기 제 1단계에서,
    상기 해당 선행사 후보가 해당 용언의 주어로 사용되는 확률값은,
    '선행사 후보-주격조사-용언'의 공기정보 빈도수를 해당 용언이 주어를 취한 빈도수로 나눈 값인 것을 특징으로 하는 연결어미 제약을 이용한 한국어 주어의 생략 성분 복원 방법.
  6. 제 1항에 있어서, 상기 (d) 단계는,
    '용언-연결어미-용언'에 대한 동일 주어 제약 확률값을 계산하는 제 1단계; 및
    상기 계산된 확률값을 선행사 후보에 대한 선택값으로 결정하는 제 2단계를 포함하는 것을 특징으로 하는 연결어미 제약을 이용한 한국어 주어의 생략 성분 복원 방법.
  7. 제 6항에 있어서, 상기 제 1단계에서,
    상기 '용언-연결어미-용언'에 대한 동일 주어 제약 확률값은,
    상기 두 용언이 해당 연결어미로 연결되고 동일 주어를 가진 빈도수를 상기 두 용언이 해당 연결어미로 연결되어 발생한 빈도수로 나눈 값인 것을 특징으로 하는 연결어미 제약을 이용한 한국어 주어의 생략 성분 복원 방법.
  8. 제 1항에 있어서, 상기 (e) 단계에서,
    상기 선행사 후보에 대한 최종 선택값(S)을 구하는 계산식은,
    w1*v1 + w2*v2 + w3*v3 = S
    (여기에서, v1 : 상기 휴리스틱 규칙에 의해 계산된 선행사 후보의 선택값, v2 : 상기 '명사-격조사-용언'형태의 공기정보를 이용하여 계산된 선행사 후보의 선택값, v3 : 상기 연결어미의 동일/비동일 주어 제약 확률을 이용하여 계산된 선행사 후보의 선택값, w1, w2, w3는 상기 v1, v2, v3에 대한 가중치값)
    인 것을 특징으로 하는 연결어미 제약을 이용한 한국어 주어의 생략 성분 복원 방법.
  9. 입력된 한국어 문장에 대한 형태소 분석 결과 및 구문 분석 결과를 기반으로 생략 주어 성분에 대한 하나 이상의 선행사 후보들을 추출하는 선행사 후보 추출부;
    휴리스틱(heuristic) 규칙에 의해 상기 선행사 후보들에 대한 선택값을 계산하는 휴리스틱 기반 선택값 계산부;
    '명사-격조사-용언'형태의 공기정보를 이용하여 상기 선행사 후보들에 대한 선택값을 계산하는 공기정보 기반 선택값 계산부;
    연결어미의 동일/비동일 주어 제약 확률을 이용하여 상기 선행사 후보들에 대한 선택값을 계산하는 연결어미 기반 선택값 계산부; 및
    상기 휴리스틱 기반 선택값 계산부, 상기 공기정보 기반 선택값 계산부 및 상기 연결어미 기반 선택값 계산부를 통해 계산된 선택값을 이용하여 최종 선택값이 가장 높은 선행사 후보를 생략 주어 성분에 대한 선행사로 결정하는 생략 주어 성분 결정부를 포함하는 것을 특징으로 하는 연결어미 제약을 이용한 한국어 주어의 생략 성분 복원 장치.
  10. 제 9항에 있어서, 상기 연결어미 기반 선택값 계산부는,
    '용언-연결어미-용언'에 대한 동일 주어 제약 확률값을 계산하여 상기 계산된 확률값을 선행사 후보에 대한 선택값으로 결정하는 것을 특징으로 하는 연결어미 제약을 이용한 한국어 주어의 생략 성분 복원 장치.
  11. 제 10항에 있어서, 상기 '용언-연결어미-용언'에 대한 동일 주어 제약 확률값은,
    상기 두 용언이 해당 연결어미로 연결되고 동일 주어를 가진 빈도수를 상기 두 용언이 해당 연결어미로 연결되어 발생한 빈도수로 나눈 값인 것을 특징으로 하는 연결어미 제약을 이용한 한국어 주어의 생략 성분 복원 장치.
KR1020060043308A 2005-12-09 2006-05-15 연결어미 제약을 이용한 한국어 주어의 생략 성분 복원방법 및 장치 KR100725723B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20050120908 2005-12-09
KR1020050120908 2005-12-09

Publications (1)

Publication Number Publication Date
KR100725723B1 true KR100725723B1 (ko) 2007-06-08

Family

ID=38358557

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060043308A KR100725723B1 (ko) 2005-12-09 2006-05-15 연결어미 제약을 이용한 한국어 주어의 생략 성분 복원방법 및 장치

Country Status (1)

Country Link
KR (1) KR100725723B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100805191B1 (ko) 2006-09-20 2008-02-21 한국전자통신연구원 한국어 문장에서의 생략 성분 복원 방법 및 장치
KR100918842B1 (ko) * 2007-12-14 2009-09-28 한국전자통신연구원 대용어 참조해결 장치 및 그 방법
KR101104114B1 (ko) 2009-12-03 2012-01-13 한국과학기술정보연구원 대용어 참조해소 시스템 및 대용어 참조해소 방법
KR101983477B1 (ko) * 2017-11-28 2019-05-29 한국과학기술원 단락 기반 핵심 개체 식별을 이용한 한국어 주어의 생략 성분 복원 방법 및 시스템
KR20190064910A (ko) * 2017-12-01 2019-06-11 한국전자통신연구원 언어모델에 기반한 한국어 생략 성분 복원 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010063791A (ko) * 1999-12-24 2001-07-09 오길록 영어 용언구의 연결정보 결정 장치 및 그 방법
KR100641053B1 (ko) * 2005-10-06 2006-11-02 한국전자통신연구원 생략된 문장성분 복원 장치 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010063791A (ko) * 1999-12-24 2001-07-09 오길록 영어 용언구의 연결정보 결정 장치 및 그 방법
KR100641053B1 (ko) * 2005-10-06 2006-11-02 한국전자통신연구원 생략된 문장성분 복원 장치 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
한국어 복합문에서의 제로 대용어 처리를 위한 분해 알고리즘과 복원규칙(한국정보과학회논문지:소프트웨어및응용, 2002, 29(10), pp.736-746)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100805191B1 (ko) 2006-09-20 2008-02-21 한국전자통신연구원 한국어 문장에서의 생략 성분 복원 방법 및 장치
KR100918842B1 (ko) * 2007-12-14 2009-09-28 한국전자통신연구원 대용어 참조해결 장치 및 그 방법
KR101104114B1 (ko) 2009-12-03 2012-01-13 한국과학기술정보연구원 대용어 참조해소 시스템 및 대용어 참조해소 방법
KR101983477B1 (ko) * 2017-11-28 2019-05-29 한국과학기술원 단락 기반 핵심 개체 식별을 이용한 한국어 주어의 생략 성분 복원 방법 및 시스템
KR20190064910A (ko) * 2017-12-01 2019-06-11 한국전자통신연구원 언어모델에 기반한 한국어 생략 성분 복원 방법
KR102157390B1 (ko) 2017-12-01 2020-09-18 한국전자통신연구원 언어모델에 기반한 한국어 생략 성분 복원 방법

Similar Documents

Publication Publication Date Title
Higashinaka et al. Towards an open-domain conversational system fully based on natural language processing
Subramaniam et al. A survey of types of text noise and techniques to handle noisy text
US9798720B2 (en) Hybrid machine translation
Le-Hong et al. An empirical study of maximum entropy approach for part-of-speech tagging of Vietnamese texts
US9600469B2 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
Lin et al. Common sense beyond english: Evaluating and improving multilingual language models for commonsense reasoning
Hardmeier Discourse in statistical machine translation. a survey and a case study
Abid et al. Urdu word sense disambiguation using machine learning approach
KR100725723B1 (ko) 연결어미 제약을 이용한 한국어 주어의 생략 성분 복원방법 및 장치
Alam et al. A review of bangla natural language processing tasks and the utility of transformer models
Yulianti et al. Normalisation of Indonesian-English code-mixed text and its effect on emotion classification
Das et al. Identifying emotional expressions, intensities and sentence level emotion tags using a supervised framework
Chen et al. ATP: AMRize then parse! enhancing AMR parsing with PseudoAMRs
Motlani et al. A finite-state morphological analyser for Sindhi
Gerlach Improving statistical machine translation of informal language: a rule-based pre-editing approach for French forums
Gris et al. Evaluating OpenAI's Whisper ASR for Punctuation Prediction and Topic Modeling of life histories of the Museum of the Person
Humayoun et al. CORPURES: Benchmark corpus for urdu extractive summaries and experiments using supervised learning
KR20190021015A (ko) 패러프레이징을 이용한 감정 사전 구축 및 이를 이용한 텍스트 상의 감정 구조 인식 시스템 및 방법
Dhanwal et al. An annotated dataset of discourse modes in Hindi stories
Liyanage et al. A computational grammar of Sinhala
Izumi et al. Standardizing complex functional expressions in Japanese predicates: Applying theoretically-based paraphrasing rules
Olayiwola et al. Development of an automatic grammar checker for Yorùbá word processing using Government and Binding Theory
Mathew et al. Paraphrase identification of Malayalam sentences-an experience
Mukund et al. Using sequence kernels to identify opinion entities in Urdu
Al-Arfaj et al. Arabic NLP tools for ontology construction from Arabic text: An overview

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20110511

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee