KR20100072841A

KR20100072841A - 대용어 복원 방법

Info

Publication number: KR20100072841A
Application number: KR1020080131368A
Authority: KR
Inventors: 이창기; 윤여찬; 최미란; 장명길
Original assignee: 한국전자통신연구원
Priority date: 2008-12-22
Filing date: 2008-12-22
Publication date: 2010-07-01
Also published as: KR101092355B1

Abstract

본 발명은 대명사 혹은 명사 등으로 이루어진 대용어가 실제로 의미하는 것을 찾는 방법에 관한 것으로, 이를 위하여 입력 텍스트로부터 형태소 분석을 통한 개체명 인식 결과, 형태소 분석 및 구문 분석을 이용하여 대용어를 인식함과 더불어 개체명 인식 결과 또는 구문 분석 결과를 적어도 하나 이상의 선행어 후보를 생성하고, 선행어 후보를 이용하여 대용어를 복원한다.

이와 같이, 본 발명은 한국어 대용어 인식에 있어서 대명사 및 명사 대용어 및 생략된 대용어(영형 대용어)를 포함하여 대용어를 인식할 수 있을 뿐만 아니라 선행어 후보 생성 시에 명사구로 이루어진 선행어와 개체명으로 이루어진 선행어를 후보로 생성함으로써, 대용어가 실제 가리키는 의미를 정확하게 파악할 수 있다.

대용어, 생략, 한국어, 선행어, 형태소

Description

대용어 복원 방법{A METHOD FOR RESTORING NAMED ENTITY}

본 발명은 대용어 복원에 관한 것으로, 더욱 상세하게는 입력 텍스트에 대해서 형태소 분석, 개체명 인식 및 구문 분석을 수행하여 대용어를 인식함과 더불어 선행어 후보를 생성하고, 인식된 대용어가 실제 가리키는 선행어를 찾아주는 대용어 복원 방법에 관한 것이다.

본 발명은 지식 경제부 및 정보통신연구진흥원의 IT 신성장동력핵심기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호:2006-S-034-03, 과제명: 국가 IT온톨로지 인프라 기술개발].

한국어는 문장 성분의 생략이 자주 일어나며, 특허 주어 성분의 생략이 매우 빈번하다. 이러한 현상은 자연 언어 처리 시스템의 성능 저하의 한 원인이 된다. 한영 자동번역 시스템의 경우에 주어의 생략을 예로 들면, 주어가 생략된 한국어 문장을 주어 복원 과정을 거치지 않고 그대로 영어 문장으로 번역할 경우 주어가 기술되지 않은 비문으로 번역된다. 따라서, 생략된 한국어의 주어 성분을 복원함 으로써, 번역된 영어 문장에서 주어를 기술하여 주어야 올바른 영어 문장 번역이 가능하다.

생략 성분의 복원과 관련된 종래 기술들에 대해 설명하면 아래와 같다.

첫 번째로, 언어학적 지식에 기반한 규칙 기반의 처리 시스템이다. 이는 언어의 근접성, 평행성 등의 형태소 및 구문 정보를 이용한 규칙을 기반으로 하여 생략 성분의 선행자를 찾는 방법과 조응 현상을 이론적으로 설명한 중심화 이론 등에 기반하여 선행사를 찾는 방법으로 구분할 수 있다. 이러한 시스템은 특별한 언어 자원이 필요하지 않아 비교적 손쉽게 구현이 가능하며, 시스템 구축에 드는 비용에 비해 시스템의 성능이 비교적 좋다는 장점이 있다.

다른 방법으로, 코퍼스(corpus)에 기반한 정보를 이용하는 방법이다. 이는 조응 정보가 표시된 코퍼스(anaphora-annotated corpus) 또는 원시 코퍼스 등을 이용하여 생략 성분 복원을 위한 확률 정보를 추출하고, 이를 기반으로 선행사를 찾는 방법이다.

또 다른 방법으로, 입력 텍스트에 대한 구문 분석된 결과를 토대로 문장 성분 생략의 발생 여부를 파악하고, 생략 성분에 대한 선행사 후보를 파악하고, 산행사 후보들간에 우선 순위를 결정한 후 선행사를 결정하는 방법이 있다.

종래의 방법들은 생략된 성분의 복원만을 기술하고 있을 뿐 올바른 번역에 필요한 대명사 및 명사로 이루어진 대용어에 대한 해결 방안이 없다는 단점이 있다.

본 발명은 입력 텍스트에 대해 형태소 분석, 개체명 인식, 구문 분석을 수행하여 대용어뿐만 아니라 대용어가 생략된 경우 생략된 대용어를 복원하는 영형 대용어를 인식하고, 구문 분석 결과와 개체명 인식 결과로부터 대용어의 선행어 후보를 생성한 후 대용어와 선행어 후보들을 이용하여 대용어가 실제로 가리키는 선행어를 찾아준다.

본 발명에 따른 대용어 복원 방법은, 입력 텍스트로부터 형태소 분석을 통해 개체명을 인식하는 단계와, 상기 형태소 분석 및 상기 개체명 인식 결과와 구문 분석을 이용하여 대용어를 인식하는 단계와, 상기 개체명 인식 결과 또는 상기 구문 분석 결과를 적어도 하나 이상의 선행어 후보를 생성하는 단계와, 상기 선행어 후보를 이용하여 상기 대용어를 복원하는 단계를 포함한다.

본 발명에서의 상기 선행어 후보를 생성하는 단계는, 상기 형태소 분석을 통해 개체명 인식이 되는지를 판단하는 단계와, 상기 판단 결과, 상기 개체명 인식이 되지 않을 경우 상기 구문 분석 결과를 이용하여 상기 선행어 후보를 생성하는 단계와, 상기 판단 결과, 상기 개체명이 인식되는 경우 상기 개체명 인식 결과 및 상기 구문 분석 결과를 이용하여 상기 선행어 후보를 생성하는 단계를 포함한다.

본 발명은 상기 구문 분석 결과를 이용하여 명사구로 이루어진 상기 선행어 후보를 생성하고, 상기 선행어 후보에 대응되는 명사구에 의미 태깅을 수행하는 것이 바람직하다.

본 발명에서 상기 대용어를 복원하는 단계는, 상기 인식된 대용어와 상기 선행어 후보를 이용하여 대용어-선행어 후보로 이루어진 후보 리스트를 생성하는 단계와, 상기 후보 리스트의 상기 대용어-선행어 후보들 중 어느 하나를 선택하는 단계와, 상기 선택된 대용어-선행어 후보의 대용어를 상기 선택된 대용어-선행어의 선행어 후보로 변경시키는 단계를 포함한다.

본 발명에서 상기 대용어-선행어 후보들 중 어느 하나를 선택하는 단계는, 상기 후보 리스트 내 각각의 대용어-선행어 후보에 구문 정보, 의미 태킹 또는 개체명 인식 정보를 적용하여 자질을 생성하는 단계와, 기 생성된 대용어 참조 해결 모델을 이용하여 상기 대용어-선행어 후보들의 상기 자질에 대응되는 점수를 각각 계산하는 단계와, 상기 계산된 각 점수를 토대로 상기 대용어-선행어 후보들 중 어느 하나를 선택하는 단계를 포함한다.

본 발명에서 대용어는, 상기 대용어가 생략된 영형 대용어 또는 대명사 및 명사로 이루어진 대용어인 것이 바람직하며, 상기 영형 대용어가 존재할 경우 상기 구문 분석 결과를 토대로 상기 영형 대용어를 임의의 대용어로 복원하여 인식하는 것이 바람직하다.

본 발명은 한국어 대용어 인식에 있어서 대명사 및 명사 대용어 및 생략된 대용어(영형 대용어)를 포함하여 대용어를 인식할 수 있을 뿐만 아니라 선행어 후보 생성 시에 명사구로 이루어진 선행어와 개체명으로 이루어진 선행어를 후보로 생성함으로써, 대용어가 실제 가리키는 의미를 정확하게 파악할 수 있다.

이하, 본 발명의 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 아울러 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.

도 1은 본 발명의 실시 예에 따른 문장에서의 대용어 복원 장치를 도시한 블록도이다.

도 1을 참조하면, 대용어 복원 장치는 객체명 인식부(100), 구분 분석부(110), 선행어 후보 생성부(120), 대용어 인식부(130), 데이터베이스(140) 및 대용어 복원부(150)를 포함한다.

객체명 인식부(100)는 입력 텍스트로부터 형태소 분석을 통해 개체명을 인식하는데, 즉 입력 텍스트의 각 단어들에 대한 형태소 분석을 실시하여 OPL(Organization Person Location)의 개체명을 인식한다.

구분 분석부(110)는 개체명 인식 결과를 이용하여 구문 분석 수행한 후 그 결과를 선행어 후보 생성부(120) 및 대용어 인식부(130)에 제공하는데, 즉 개체명 인식 결과를 이용하여 입력 텍스트 내의 명사구를 추출한 후 선행어 후보 생성부(120) 및 대용어 인식부(130)에 제공한다.

선행어 후보 생성부(120)는 객체명 인식부(100)에서 인식된 개체명 또는 구분 분석부(110)에서 제공받은 명사구 정보를 이용하여 선행어 후보를 생성하는데, 즉 구문 분석 결과를 토대로 제공받은 명사구의 중심어에 대해서 의미 태깅을 실시하고, 객체명 인식부(100)에서 인식된 개체명으로 이루어진 선행어 후보를 생성한다.

대용어 인식부(130)는 구문 분석 결과를 이용하여 명사 및 대명사 등으로 이루어진 대용어와 생략된 대용어, 즉 입력 텍스트 내 문장에서 생략된 명사 및 대명사 등으로 이루어진 생략된 대용어를 임의의 대용어로 복원한 후 이를 대용어 복원부(150)에 제공한다.

데이터베이스(140)에는 통계 기반으로 생성된 대용어 참조 해결 모델이 저장되어 있다.

대용어 복원부(150)는 인식된 대용어와 선행어 후보를 이용하여 대용어가 실제 가리키는 명사구 혹은 개체명에 해당되는 선행어 후보를 찾아 대용어를 복원시킨다. 즉, 대용어 복원부(150)는 대용어와 선행어 후보를 이용하여 대용어-선행어 후보로 이루어진 후보 리스트를 생성한 후 각각의 대용어-선행어 후보에 구문 정보 및 의미 태깅, 개체명 인식 정보 등을 적용하여 자질을 생성하고, 데이터베이스(140)에 저장된 대용어 참조 해결 모델을 이용하여 각각의 대용어-선행어 후보들의 점수를 각각 계산하여 가장 높은 점수를 갖는 대용어-선행어 후보를 선택함으로써, 대용어의 선행어를 결정한다.

상기와 같은 구성을 갖는 대용어 복원 장치가 대용어를 인식하고 이를 복원 하는 과정에 대해 도 2를 참조하여 설명한다.

도 2는 본 발명의 실시 예에 따라 대용어를 복원하는 과정을 도시한 흐름도이다.

먼저, 도 2를 참조하면, 입력 텍스트가 입력됨에 따라 객체명 인식부(100)는 형태소 분석을 통해 개체명을 인식한다(S200). 예를 들어, 객체명 인식부(100)는 "삼성전자(회장 이건희)는 DMB 기술을 개발하였다. 또한 CPU 기술도 보유하고 있다. 이 회사는 수원에 있다."와 같은 입력 텍스트가 입력됨에 따라 입력 텍스트에 대한 형태소 분석으로 통해 OPL에 대한 개체명을 인식, 즉 "<삼성전자:ORG>(회장 <이건희:PER>)는 DMB 기술을 개발하였다. 또한 CPU 기술도 보유하고 있다. 이 회사는 <수원:LOC>에 있다."와 같이 개체명을 인식한다.

그런 다음, 구분 분석부(110)는 형태소 분석 및 객체명 인식 결과를 토대로 구분 분석을 실시한 후 구분 분석 결과를 대용어 인식부(130)에 제공한다. 대용어 인식부(130)는 구분 분석 결과를 토대로 명사 및 대명사로 이루어진 대용어를 인식함과 더불어 대용어가 생략된 부분을 찾아 생략된 대용어(영형 대용어)를 복원시키는데(S202), 즉 상기의 입력 텍스트에서 "이 회사"라는 대용어를 인식함과 더불어 생략된 대용어인 "이 회사"를 복원한 후 이를 대용어 복원부(150)에 제공한다. 즉 상기 입력 텍스트의 구문 분석 결과 토대로 "삼성전자:ORG>(회장 <이건희:PER>)는 DMB 기술을 개발하였다. 또한 <생략된 대용어 복원:이 회사는> CPU 기술도 보유하고 있다. <이 회사:대용어>는 <수원:LOC>에 있다."와 같은 대용어를 인식함과 더불어 영형 대용어를 복원시킨다.

한편, 선행어 후보 생성부(120)는 객체명 인식부(100)에서 인식된 개체명을 이용하여 선행어 후보를 생성함과 더불어 구문 분석 결과를 토대로 인시된 명사구의 중심어 대해서 의미 태깅을 수행하여 선행어 후보를 생성(S204)하고, 생성된 선행어 후보들을 대용어 복원부(150)에 제공한다.

이후, 대용어 복원부(150)는 대용어와 선행어 후보를 이용하여 대용어-선행어 후보로 이루어진 후보 리스트를 생성하는데, 즉 "이 회사-삼성전자, 이 회사-이건희, 이 회사- 수원" 등과 같은 후보 리스트를 생성한다(S206).

그리고 나서, 대용어 복원부(150)는 후보 리스트의 각 대용어-선행어 후보의 구문 정보, 의미 태깅, 및 개체명 인식 정보 등을 이용하여 자질을 생성하고(S208), 데이터베이스(140)에 저장된 대용어 참조 해결 모델을 이용하여 각각의 대용어-선행어 후보들의 점수를 계산하여 가장 높은 점수를 갖는 대용어-선행어 후보를 선택한다(S210). 그런 다음, 대용어 복원부(150)는 선택된 대용어-선행어 후보를 이용하여 선택된 대용어의 선행어로 상기 선택된 대용어-선행어 후보의 선행어 후보를 결정하여 대용어를 복원시킨다(S212). 즉, 상기 입력 텍스트인 "삼성전자(회장 이건희)는 DMB 기술을 개발하였다. 또한 CPU 기술도 보유하고 있다. 이 회사는 수원에 있다."는 "<삼성전자:ORG>(회장 <이건희:PER>)는 DMB 기술을 개발하였다. 또한 <삼성전자:ORG>는 CPU 기술도 보유하고 있다. <삼성전자:ORG>는 <수원:LOC>에 있다."로 복원된다.

본 발명에서는 개체명이 인식되는 경우에 대해 설명하였지만, 개체명 인식부()에서 개체명이 인식되지 않을 경우 구문 분석 결과를 토대로 입력 텍스트에서 획득한 명사구의 중심어에 대한 의미 태깅을 수행하여 선행어 후보를 찾을 수 있는데, 이에 대한 설명은 아래와 같다.

먼저, "지식마이닝연구팀에서는 새로 Web QA 과제를 수행하고 있다. 이 프로젝트는 올해 3월에 시작되었다."와 같은 입력 텍스트가 입력되고, 개체명 인식이 되지 않으면, 구문 분석 결과, 즉 "<지식마이닝연구팀에서는:명사구> <새로:부사구> <Web QA 과제를:명사구> <수행하고 있다:동사구>. <이 프로젝트는:명사구> <올해 3월에:부사구> <시작되었다:동사구>." 추출된 명사구인 Web QA 과제의 중심어에 대해 의미 태깅을 수행하여 선행어 후보를 생성한 후 의미 태깅된 선행어 후보를 대용어 복원부(150)에 제공한다.

한편, 대용어 인식부(130)는 상기 입력 텍스트에서 "이 프로젝트"라는 대용어를 인식하고, 대용어 복원부(150)는 의미 태깅된 선행어 후보와 대용어 인식부(130)에서 인식된 대용어를 이용하여 S206, S208, S210, S212 단계를 수행함으로써, 대용어를 복원한다. 즉, "지식마이닝연구팀에서는 새로 Web QA 과제를 수행하고 있다. 이 프로젝트는 올해 3월에 시작되었다." 입력 텍스트를 "지식마이닝연구팀에서는 새로 Web QA 과제를 수행하고 있다. Web QA 과제는 올해 3월에 시작되었다."와 같이 복원시킨다.

본 발명의 실시 예에 따른 대용어 복원 장치는 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 하드 디스크, 플로피 디스크, 플래쉬 메모리, 광 데이타 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들면 인터넷을 통한 전송)의 형태로 구현되는 것도 포함된다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다. 본 발명에 의한 폰트 롬 데이터구조도 컴퓨터로 읽을 수 있는 ROM, RAM, CD-ROM, 자기 테이프, 하드 디스크, 플로피 디스크, 플래쉬 메모리, 광 데이터 저장 장치등과 같은 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다.

지금까지 본 발명의 바람직한 실시예에 국한하여 설명하였으나 본 발명의 기술이 당업자에 의하여 용이하게 변형 실시될 가능성이 자명하다. 이러한 변형된 실시 예들은 본 발명의 특허청구범위에 기재된 기술사상에 포함된다고 하여야 할 것이다.

도 1은 본 발명에 따른 대용어 복원 장치를 도시한 블록도이며,

도 2는 본 발명의 실시 예에 따라 대용어를 인식하고, 이를 복원하는 과정을 도시한 흐름도이다.

＜도면의 주요부분에 대한 부호의 설명＞

100 : 개체명 인식부 110 : 구문 분석부

120 : 선행어 후보 생성부 130 : 대용어 인식부

140 : 데이터베이스 150 : 대용어 복원부

Claims

입력 텍스트로부터 형태소 분석을 통해 개체명을 인식하는 단계와,

상기 형태소 분석 및 상기 개체명 인식 결과와 구문 분석을 이용하여 대용어를 인식하는 단계와,

상기 개체명 인식 결과 또는 상기 구문 분석 결과를 적어도 하나 이상의 선행어 후보를 생성하는 단계와,

상기 선행어 후보를 이용하여 상기 대용어를 복원하는 단계

를 포함하는 대용어 복원 방법.
제 1 항에 있어서,

상기 선행어 후보를 생성하는 단계는,

상기 형태소 분석을 통해 개체명 인식이 되는지를 판단하는 단계와,

상기 판단 결과, 상기 개체명 인식이 되지 않을 경우 상기 구문 분석 결과를 이용하여 상기 선행어 후보를 생성하는 단계와,

상기 판단 결과, 상기 개체명이 인식되는 경우 상기 개체명 인식 결과 및 상기 구문 분석 결과를 이용하여 상기 선행어 후보를 생성하는 단계

를 포함하는 대용어 복원 방법.
제 2 항에 있어서,

상기 구문 분석 결과를 이용하여 명사구로 이루어진 상기 선행어 후보를 생성하고, 상기 선행어 후보에 대응되는 명사구에 의미 태깅을 수행하는 것을 특징으로 하는 대용어 복원 방법.
제 1 항에 있어서,

상기 복원하는 단계는,

상기 인식된 대용어와 상기 선행어 후보를 이용하여 대용어-선행어 후보로 이루어진 후보 리스트를 생성하는 단계와,

상기 후보 리스트의 상기 대용어-선행어 후보들 중 어느 하나를 선택하는 단계와,

상기 선택된 대용어-선행어 후보의 대용어를 상기 선택된 대용어-선행어의 선행어 후보로 변경시키는 단계

를 포함하는 대용어 복원 방법.
제 4 항에 있어서,

상기 대용어-선행어 후보들 중 어느 하나를 선택하는 단계는,

상기 후보 리스트 내 각각의 대용어-선행어 후보에 구문 정보, 의미 태킹 또는 개체명 인식 정보를 적용하여 자질을 생성하는 단계와,

기 생성된 대용어 참조 해결 모델을 이용하여 상기 대용어-선행어 후보들의 상기 자질에 대응되는 점수를 각각 계산하는 단계와,

상기 계산된 각 점수를 토대로 상기 대용어-선행어 후보들 중 어느 하나를 선택하는 단계

를 포함하는 대용어 복원 방법.
제 1 항에 있어서,

상기 대용어는, 상기 대용어가 생략된 영형 대용어 또는 대명사 및 명사로 이루어진 대용어인 것을 특징으로 하는 대용어 복원 방법.
제 6 항에 있어서,

상기 영형 대용어가 존재할 경우 상기 구문 분석 결과를 토대로 상기 영형 대용어를 임의의 대용어로 복원하여 인식하는 것을 특징으로 하는 대용어 복원 방법.