KR20160061866A

KR20160061866A - 개체간 암묵적 관계 추론을 통한 정보 추출 증강 시스템 및 이를 이용한 정보 추출 방법

Info

Publication number: KR20160061866A
Application number: KR1020150109432A
Authority: KR
Inventors: 맹성현; 김진호; 류지희
Original assignee: 한국과학기술원
Priority date: 2014-11-24
Filing date: 2015-08-03
Publication date: 2016-06-01
Also published as: KR101686067B1

Abstract

정보 추출 시스템이 개체간 암묵적 관계 추론을 통해 정보를 추출하기 위하여, 텍스트 또는 구조화된 데이터베이스로부터 추출된 정보 튜플에 포함되어 있는 개체를 병합하거나 분류한 후, 정보 튜플에 포함되어 있는 관계명을 군집화하여 그래프의 구조 정보로 저장한다. 추출한 정보 튜플 중 임의의 대상 개체와 대상 개체와 관계를 가지는 것으로 여겨지는 복수의 후보 개체들을 개체쌍으로 추출하고, 추출한 개체쌍에서 최종 정보 튜플을 추출한 후 관계명을 부여한다.

Description

개체간 암묵적 관계 추론을 통한 정보 추출 증강 시스템 및 이를 이용한 정보 추출 방법{System and method for discovering implicit relationships to augment web-scale knowledge base constructed from the web}

본 발명은 개체간 암묵적 관계 추론을 통한 정보 추출 증강 시스템 및 이를 이용한 정보 추출 방법에 관한 것이다.

2013년 말 기준 웹 서비스를 제공하는 웹사이트의 수는 7억 개를 이미 넘어섰고, 그 안에 포함된 수많은 개별 웹페이지 역시 500억 개를 훌쩍 넘어섰다. 이렇게 폭발적으로 증가하는 웹페이지는 대부분 비정형 텍스트 데이터, 즉 자연언어로 기술된 웹 문서이며, 학계와 산업계 등에서는 오래 전부터 이러한 웹 문서를 기계가 자동으로 읽고 해석할 수 있는 기술에 많은 관심을 가지고 꾸준히 연구해왔다.

정보 추출(Information Extraction)은 컴퓨터 과학의 세부 분야로서, 비정형 데이터로부터 구조화된 정보를 추출하여 기계가 자동으로 지식을 습득하게 만드는 것을 목표로 한다. 2000년대 초반까지의 정보 추출 기술은 수작업으로 만든 추출 규칙 또는 학습 예시를 이용하여, 사전 정의된 관계에 해당하는 대량의 예시 또는 특정 질의에 대한 답을 추출하는 데 초점이 맞춰졌다. 예를 들어 웹 문서로부터 패턴을 통해(저자 또는 저서) 형태의 튜플을 대량으로 추출하거나, 특정 서적에 대해 각 사이트에서 자동으로 가격을 가져오는 등의 연구가 해당된다.

이후 2000년대 중반 기존 정보 추출의 흐름과는 다른 개방형 정보 추출(OIE: Open Information Extraction)의 패러다임이 제시되면서, 문서 및 문장 내에 존재하는 가능한 모든 정보를 "(개체1, 관계명, 개체2)"의 튜플 형태로 추출하는 연구가 활발히 이루어지고 있다.

이러한 OIE 패러다임은 다양한 장점을 보유하고 있지만 특정 문장 내에서 표현된 정보만을 추출할 수 있다는 한계를 지닌다. OIE 시스템은 패러다임의 특성상 문서에서 수많은 정보 튜플을 추출할 수 있는데, 사람의 경우 몇 가지 연관된 튜플들을 읽는 것만으로 새로운 정보를 유추할 수 있다. 예를 들어, "(Seoul, is the capital of, Korea)", "(Seoul, is located on, The han river)"의 두 튜플이 있을 때, 사람은 이로부터 "(The han river, is located in, Korea)"라는 새로운 지식을 유추할 수 있으나, 종래의 정보 추출 시스템으로는 새로운 지식을 유추하기 어렵다는 문제점이 있다.

따라서, 본 발명은 OIE로부터 추출된 튜플 집합으로부터 개체간 암묵적 관계 추론을 통해 기존 문서 내에 명시적으로 기술되지 않은 새로운 정보 튜플을 생성하여 정보추출 결과를 증강시키는 기술을 제공한다.

상기 본 발명의 기술적 과제를 달성하기 위한 본 발명의 하나의 특징인 개체간 암묵적 관계 추론을 통해 정보를 추출하는 시스템은,

텍스트 또는 구조화된 데이터베이스로부터 추출된 정보 튜플에 포함된 개체를 병합하거나 분류하고, 상기 정보 튜플에 포함되어 있는 관계명을 군집화하며, 상기 병합하거나 분류한 개체를 그래프의 노드로 설정하여 그래프의 구조 정보로 저장하는 의미 저장부; 정보 튜플 중 임의의 대상 개체와 상기 대상 개체와 관계를 가지는 복수의 후보 개체들을 개체쌍으로 추출하는 개체쌍 추출부; 및 상기 개체쌍 추출부에서 추출한 복수의 개체쌍에서 최종 튜플을 추출하고, 상기 추출한 최종 튜플에 상기 의미 저장부에 저장되어 있는 그래프의 연결 구조 정보를 활용하여 관계명을 부여하는 관계명 부여부를 포함한다.

상기 본 발명의 기술적 과제를 달성하기 위한 본 발명의 또 다른 특징인 정보 추출 시스템이 개체간 암묵적 관계 추론을 통해 정보를 추출하는 방법은,

텍스트 또는 구조화된 데이터베이스로부터 추출된 정보 튜플에 포함되어 있는 개체를 병합하거나 분류하고, 상기 정보 튜플에 포함되어 있는 관계명을 군집화하여 그래프의 구조 정보로 저장하는 단계; 상기 추출한 정보 튜플 중 임의의 대상 개체와 상기 대상 개체와 관계를 가지는 것으로 여겨지는 복수의 후보 개체들을 개체쌍으로 추출하는 단계; 및 상기 추출한 개체쌍에서 최종 정보 튜플을 추출하고, 상기 추출한 최종 정보 튜플에 관계명을 부여하는 단계를 포함한다.

본 발명에 따르면 추가적인 텍스트 수집 및 처리 비용 없이, 주어진 지식베이스에서 새로운 지식을 유추하여 지식베이스를 확장할 수 있다.

또한, 지식 베이스를 확장함에 있어, 지식베이스 내의 고유한 개체 및 관계명을 늘리지 않고도 지식 베이스를 확장시킬 수 있어, 지식베이스의 밀집도를 향상시킬 수 있다.

또한, 개체간 관계 정보를 풍부하게 확장함으로써 텍스트 기반 추론의 정확도를 향상시킬 수 있다.

도 1은 본 발명의 실시예에 따른 정보 추출 증강 시스템의 구조도이다.
도 2는 본 발명의 실시예에 따른 정보 추출 방법에 대한 흐름도이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

이하 도면을 참조로 하여 개체간 암묵적 관계 추론을 통한 정보 추출 증강 시스템 및 이를 이용한 정보 추출 방법에 대해 설명한다.

도 1은 본 발명의 실시예에 따른 정보 추출 증강 시스템의 구조도이다.

도 1에 도시된 바와 같이, 본 발명의 실시예에 따른 정보 추출 증강 시스템(100)은 전처리부(110), 개체쌍 추출부(130), 관계명 부여부(140) 및 의미 저장부(120)를 포함한다.

전처리부(110)는 문서 내 텍스트들 또는 구조화된 데이터베이스로부터 추출된 정보 튜플을 가공한다. 정보 튜플은 입력된 문서나 문장 내에 존재하는 모든 정보들(예를 들어, 개체, 관계명 등)을 '(개체1, 관계명, 개체2)'의 형태로 형성하는 것을 의미한다. 여기서 개체는 개념(concept)을 제외한 자연에 존재하는 사람, 동물, 조직, 건물, 장소, 물건 등의 구체물을 의미하고, 관계명은 개체와 개체 사이의 관계가 어떤 관계인지를 정의하는 것을 의미한다.

전처리부(110)는 모든 관계명을 대상으로 특수 문자나 무의미한 불용어(stopword)들을 제거한다. 또한, 전처리부(110)는 POS(Part of Speech) 태깅을 통해 관계명에 포함된 무의미한 관사와 조동사를 제거한다.

전처리부(110)가 튜플을 제거하거나 불용어들을 제거하는 방법 또는 POS 태깅 방법은 여러 방법을 통해 수행할 수 있으므로, 본 발명의 실시예에서는 상세한 설명을 생략한다.

의미 저장부(120)는 전처리부(110)에서 가공하고 추출한 정보 튜플에 포함되어 있는 개체들을 개체의 출현 빈도에 따라 병합하고, 개체 범주를 결정하고 동일한 범주의 개체를 군집화하기 위하여 분류한다. 그리고, 의미 저장부(120)는 정보 튜플에 포함되어 있는 복수의 관계명 중, 유사한 의미의 관계명을 하나로 군집화한다.

또한, 의미 저장부(120)는 개체 병합/분류 및 관계명 군집화를 거친 정보 튜플의 개체를 그래프의 노드(node)로 설정하고, 튜플의 두 개체에 그래프의 변(edge)으로 설정하여 그래프의 구조 정보로 저장한다. 여기서 그래프라 함은 문장이나 단어의 의미, 개념간의 연상 관계, 지식 등을 표현하는 연결 구조로, 어떤 개념의 표현과 링크(link), 즉 다른 노드와의 관계를 사용하여 표현하는 것으로, 그래프에 대해서는 이미 알려진 사항으로 본 발명의 실시예에서는 상세한 설명을 생략한다.

의미 저장부(120)는 그래프의 구조 정보 이외에도 연결 요소(connected components) 정보를 저장하여, 이후 관계명 부여부(140)에서 최종 튜플에 관계명을 부여할 때 연결 요소 정보를 제공하기도 한다.

여기서 의미 저장부(120)가 정보 튜플을 그래프의 구조 정보로 저장하는 과정에서 발생하는 개체간 분포 유사도 계산, 코사인 유사도, 관계명간 분포 유사도 계산 방법 등에 대해서는 이후 상세히 설명한다.

개체쌍 추출부(130)는 의미 저장부(120)에서 그래프의 구조 정보를 토대로 전처리부(110)에서 가공된 정보 튜플에서 연관성이 높은 것으로 여겨지는 개체쌍을 추출한다. 개체쌍 추출부(130)가 정보 튜플에서 개체쌍을 추출하기 위해 본 발명의 실시예에서는 의미 저장부(120)에서 두 개체간 최단 경로에 있어 각 개체와 최단 경로상의 개체간의 의미적 연관도 점수를 기반으로 개체쌍을 추출하는 것을 예로 하여 설명한다. 여기서 개체간의 의미적 연관도 점수는 의미 저장부(120)에서 부여된 개체간 가중치, 개체를 연결하는 중개 개체의 출현 빈도, 대상 개체들의 중요도를 결합하여 계산하는 것을 예로 하여 설명한다.

관계명 부여부(140)는 개체쌍 추출부(130)에서 추출한 복수의 개체쌍에서 최종 튜플을 추출하고, 추출한 튜플에 관계명을 부여한다. 즉, 관계명 부여부(140)는 추출하고자 하는 최종 튜플의 그래프상 최단 경로를 파악하고, 최단 경로상의 중개 개체 및 관계명을 저장한다.

또한, 관계명 부여부(140)는 특정 대상 개체와 복수의 후보 개체 그리고, 저장한 중개 개체와 제1 관계명과 제2 관계명을 기반으로, 제1 관계명과 제2 관계명을 요소로 가지는 그래프의 연결 요소를 추출하고, 추출한 그래프의 연결 요소로부터 특정 대상 개체와 후보 개체 사이의 관계명을 부여하고, 미리 설정한 제약 조건을 통과한 관계명 후보군만을 최종 튜플로 추출한다. 관계명 부여부(140)가 관계명을 부여하는 방법은 이후 상세히 설명한다.

이상에서 설명한 정보 추출 시스템(100)을 이용하여 정보를 추출하는 방법에 대해 도 2를 참조로 설명한다.

도 2는 본 발명의 실시예에 따른 정보 추출 방법에 대한 흐름도이다.

도 2에 도시된 바와 같이, 전처리부(110)는 외부로부터 적어도 하나 이상의 문장이 포함되어 있는 문서가 입력되면, 문서 또는 데이터베이스로부터 복수의 튜플을 추출한다(S100). 복수의 튜플을 추출하기 위해, 전처리부(110)는 먼저 문장 내에 존재하는 모든 정보들을 '(개체1, 관계명, 개체2)'의 튜플 형태로 형성하여 복수의 튜플을 생성한다.

그리고 복수의 튜플에 포함되어 있는 복수의 관계명 중 특수 문자가 포함되어 있는 관계명이나 불용어가 있는 경우에는 해당 관계명은 삭제한다. 그리고 전처리부(110)는 POS(Part of Speech) 태깅을 통해 관계명에 포함된 관사와 조동사를 제거한다.

이상의 절차를 통해 전처리부(110)가 문서로부터 복수의 정보 튜플을 가공하면, 의미 저장부(120)는 정보 튜플의 개체를 병합하거나 분류한다(S120). 의미 저장부(120)가 개체를 병합하는 방법으로는 여러 방법을 이용할 수 있으며, 본 발명의 실시예에서는 전처리부(110)에서 특수 문자 및 정관사가 제거된 정보 튜플들 중에, 동일한 개체쌍이 원본에 존재할 경우 더 낮은 출현빈도를 가진 개체를 더 높은 출현빈도를 가진 개체로 병합하는 것을 예로 하여 설명한다.

또한, 의미 저장부(120)는 각 개체간 분포 유사도(Distributional Similarity)를 기반으로 유사도를 측정하고, 해당 유사도 값이 미리 설정한 임계치 값인 θ₁ 이상일 경우 동일한 개체로 간주한다.

본 발명의 실시예에서는 임계치 값인 θ₁이 0과 1 사이의 값을 가지는 것을 예로 하여 설명한다.

여기서 개체간 분포 유사도는 각 개체와 결합된 관계명의 단어 리스트를 기반으로 생성된 벡터의 코사인 유사도(Cosine Similarity)를 기반으로 계산된다. 코사인 유사도를 적용하는 벡터의 차원은 전체 관계명에서 등장한 모든 고유 단어의 수와 같으며, 개별 단어에 대한 단어 빈도 즉, 벡터의 가중치(Vector weight)는 수학식 1과 같이 결정된다.

여기서, p(Word|Argument)는 특정 개체가 주어졌을 때 등장하는 관계명 단어의 확률을 의미하고, p(Word)는 개체에 상관없이 해당 관계명 단어가 주어진 지식베이스에서 단어가 등장하는 확률을 의미한다.

이상에서와 같이 의미 저장부(120)가 개체를 병합한 후에는, 병합한 개체들을 분류하는 작업을 수행한다. 이는 개체의 범주를 결정하고 동일한 범주의 개체를 군집화하기 위한 것이다.

이를 위해 의미 저장부(120)는 정보 추출 시스템(100)과 연결되어 있는 외부 지식베이스의 검색을 수행하고, 해당 지식베이스에서의 두 개체의 주요 범주가 일치할 경우 두 개체의 범주를 배정하고 동일한 개체로 군집화한다. 여기서 지식베이스는 어느 하나의 시스템으로 한정하지 않는다.

만약 지식베이스를 통해서 결정되지 않은 개체가 발생하는 경우, 지식베이스에서 해당 개체를 설명하는 관계명 문장을 통해 개체의 범주를 결정한다. 먼저 (개체₁, 관계명, 개체₂)로 구성된 튜플에서 관계명이 [be동사+*+명사]로 구성되어 있다고 가정하면, '명사'에 해당하는 단어를 개체₁의 범주로 결정한다.

하지만 관계명이 'member of' 또는 'part of'라는 문구를 포함하고 있을 경우에는, 개체₂를 개체₁의 범주로 결정한다. 모든 개체의 범주가 결정된 후, 하나의 개체만을 포함하고 있는 범주는 오류의 가능성을 생각하여 삭제한다.

개체를 분류한 뒤에 의미 저장부(120)는 관계명을 군집화한다. 관계명 군집화는 유사한 의미의 관계명을 하나로 군집화하기 위한 절차이다. 복수의 관계명에 대해 각 관계명간 분포 유사도를 기반으로 유사도를 측정하고, 측정한 유사도 값을 기반으로 군집화 알고리즘을 통해 군집화한다.

본 발명의 실시예에서는 군집화 알고리즘으로 어느 하나의 알고리즘을 한정하여 설명하지 않는다. 그리고 상기에서 설명한 개체 분류와 달리, 관계명 군집화 단계에서는 개체1의 집합과 개체2의 집합을 통합한 개체_all 집합을 활용한다.

관계명간 분포 유사도는 각 관계명과 결합된 개체 리스트를 기반으로 생성한 벡터의 코사인 유사도를 기반으로 계산된다. 벡터의 차원은 전체 튜플에서 등장한 모든 고유한 개체의 수와 같으며, 개별 개체에 대한 벡터의 가중치는 다음 수학식 2와 같이 결정된다.

여기서 p(Argument | Relation Phrase)는 특정 관계명이 주어졌을 때 특정 개체가 등장할 확률을 의미하고, p(Argument)는 관계명에 상관없이 특정 개체가 해당 지식베이스에서 등장할 확률을 의미한다.

이상에서와 같이 개체 병합/분류 및 관계명 군집화 절차가 완료되면, 의미 저장부(120)는 정보 튜플의 개체를 그래프의 노드(node)로 설정하고, 튜플의 두 개체에 그래프의 변을 설정한다. 여기서 그래프라 함은 문장이나 단어의 의미, 개념간의 연상 관계, 지식 등을 표현하는 연결 구조로, 어떤 개념의 표현과 링크(link), 즉 다른 노드와의 관계를 사용하여 표현하는 것으로, 그래프에 대해서는 이미 알려진 사항으로 본 발명의 실시예에서는 상세한 설명을 생략한다.

그리고 변의 명칭 및 방향은 튜플의 관계명과 동일하게 설정하며, 변의 가중치는 다음 수학식 3과 같이 계산한다. 변의 가중치가 0보다 낮을 경우 0으로 치환한다.

이상에서 설정한 그래프의 구조정보 및 전체 정보 튜플의 각종 통계량을 기반으로, 개체쌍 추출부(130)는 정보 튜플에서 개체쌍을 추출한다(S120).

이를 위해, 개체쌍 추출부(130)는 특정 대상 개체와 암묵적 관계에 있는 후보 개체군을 추출하고, 각 후보 개체에 연관도 점수를 부여한다. 암묵적 후보 개체군은 해당 개체로부터 그래프 구조상 2 단계 떨어져있으며, 해당 개체와 직접적으로 연결된 변을 가지고 있지 않은 개체의 집합을 의미한다.

대상 개체(Entity_Target)와 암묵적 후보 개체(Entity_Candidate)와의 연관도를 측정하기 위해, 개체쌍 추출부(130)는 정규화된 근접성(Normalized Closeness)와 고유값(Distinct)을 측정하며, 근접성은 수학식 4, 정규화된 근접성은 수학식5, 고유값은 수학식 6, 최종 연관도 점수는 수학식 7과 같이 결정된다. 암묵적 개체쌍 추출시에는 보다 많은 후보 개체군을 추출하기 위해 변의 방향성은 고려하지 않는다.

여기서, CN(Common Neighbors)은 그래프에서 대상 개체와 후보 개체 사이의 최단경로에 놓여진 중개 개체의 집합을 의미하며, V_i는 CN에 속한 하나의 중개 개체를 의미한다. W(·) 함수는 두 개체 사이의 변의 가중치를 의미한다.

여기서 α값은 CN의 개수가 정규화된 근접성에 미치는 영향에 대한 가중치를 의미하며, α값의 조정에 따라 그래프상에서 인접 노드가 많은 노드에 대한 가중치를 조정할 수 있다.

대상 개체와 암묵적 후보 개체와의 연관도는 최종적으로 수학식 7과 같이 계산된다.

이상에서와 같이 의미 저장부(120)에 저장된 그래프의 구조정보를 기반으로 개체쌍 추출부(130)가 개체쌍을 추출하면, 관계명 부여부(140)는 추출된 개체쌍에 가장 적절한 관계명을 부여한다(S130). 관계명 부여부(140)는 의미 저장부(120)에 저장되어 있는 그래프의 연결 구조(connected components)를 활용한다. 그래프의 연결 구조는 (노드A → 노드B → 노드A) 또는 (노드A → 노드B → 노드C → 노드A) 등 다양한 종류가 있으나, 본 발명의 실시에에서는 노드를 3개 가지고 있는 연결 구조만 한정하여 사용한다.

관계명 부여부(140)는 원본 지식베이스에서 연결된 관계명이 존재하지 않으나 실제 연관성이 있는 암묵적 개체쌍의 그래프상 최단 경로를 먼저 파악하고, 최단 경로상의 중개 개체 및 관계명을 저장한다. 이후 관계명 부여부(140)는 의미 저장부(120)에 저장되어 있는 다양한 그래프의 연결 구조 중 (대상 개체-관계명A-중개 개체), (중개 개체-관계명B-후보 개체)의 정보를 기반으로, (관계명A-관계명B)를 요소로 가지고 있는 그래프의 연결 구조를 추출한다. 추출된 연결 구조로부터 두 개체간의 관계명 부여 절차는 다음과 같은 순서로 이루어진다.

1) (관계명 A-관계명 B-관계명 C)로 이루어진 연결 구조에서 관계명 C를 (대상 개체, 후보 개체) 사이의 관계명 후보군으로 추출한다.

2) 관계명 후보군이 존재하지 않을 경우, 상기 생성한 관계명 군집정보를 활용하여 관계명 A 및 관계명 B와 가장 유사도 점수가 높은 관계명 A' 및 관계명 B'을 새롭게 설정하고, (관계명 A'-관계명 B')을 요소로 가지고 있는 그래프의 연결 구조를 추출한다. 그래프의 연결 구조가 존재하지 않을 경우 지속적으로 θ₃ 이상의 값을 가지고 있는 관계명 A" 및 B"까지 활용하여 탐색한다.

3) 관계명 후보군이 존재할 경우, 관계명의 신뢰도 점수(Confidence Score)를 측정하여 해당 점수가 가장 높은 관계명을 부여한다.

관계명 부여부(140)가 관계명 후보군을 추출할 때, 정확도를 향상하기 위하여 연결 구조의 일치 여부를 판단한다. 일치 여부를 판단할 때 몇 가지 제약조건을 설정하고 설정한 제약조건을 모두 통과한 후보군만을 추출한다. 여기서 설정한 제약조건은 다음과 같다.

1) 연결 구조의 방향성: (관계명A-관계명B)의 방향과 다를 경우, 해당 연결 구조는 고려하지 않음

2) 연결 구조 유사도 점수: 해당 연결 구조와 암묵적 개체쌍의 그래프상 최단 경로와 유사도를 측정하여, 유사도가 낮을 경우 해당 연결 구조는 고려하지 않음.

여기서 연결 구조 유사도 점수는 다음 수학식 8과 같이 계산된다.

여기서 근접성(Closeness)은 두 개체간 연관도로, 다음 수학식 9와 같이 계산된다.

여기서 edge weight(e_i, e_j)는 두 암묵적 개체가 그래프 상에서 연결되어 있을 때의 가중치를 의미한다. Log(RS(e_i, e_j))는 수학식 7에서의 개체간 암묵적 연관도 점수에 로그값을 취한 것을 의미한다.

3) 관계명 공통 점수: 관계명 C가 관계명 A 및 관계명 B보다 공통 점수가 낮을 경우, 해당 연결 구조는 고려하지 않음.

여기서 관계명의 공통 점수는 수학식 10과 이후 나타낼 수학식 12의 합으로 계산된다.

여기서, C(r,E₁)과 C(r, E₂)는 다음 수학식 11과 같이 계산된다. |r|은 해당 관계명이 지식베이스에서 등장한 횟수를 의미한다.

C(r, E_k)는 해당 관계명과 함께 등장하는 개체들간의 연관도 점수를 모두 합산한 것을 의미한다. 개체들간의 연관도 점수는 상기 수학식 9에 따른다.

여기서 PMI(e₁, r)은 개체 e₁과 관계명 r이 함께 등장하는 PMI(Pointwise Mutual Information) 값을 의미한다.

4) 개체 범주: 찾고자 하는 관계명의 개체 범주와 추출한 연결 구조가 가지고 있는 개체 범주가 서로 일치하지 않을 경우, 해당 연결 구조는 고려하지 않음

관계명 부여부(140)가 추출한 최종 튜플의 신뢰도 점수는 다음 수학식 13과 같이 계산한다.

여기에서 Commonality(r)은 상기 수학식 10 및 수학식 12를 통해 측정한 관계명 r의 공통점수를 의미한다. Cohesion(r|e₁, e₂)는 개체 e₁, e₂와 관계명 r의 언어적 연관성을 측정하는 것으로, 수학식 14와 같이 계산된다. CC Similarity(r)은 상기에서 측정한 관계명 r의 연결 구조 유사도 점수를 의미한다. Cosine Similarity(r)은 관계명 r이 가지는 대표성 값을 측정하는 것으로 이후 상세 기술한다. Length(r)은 관계명 r이 가지고 있는 단어의 개수를 의미한다.

여기에서 p(r|e₁)은 개체 e₁이 등장했을 때 관계명 r이 나타나는 조건부 확률을 의미한다. p(r|e₁)이 변형되어 나타나는 p(w|e₁)은 개체 e₁이 등장했을 때 관계명 r에 속하는 단어 w가 등장하는 조건부 확률을 의미하며, 수학식 15와 같이 계산된다.

IDF(w)는 수학식 16과 같이 계산된다.

|e₁t with w|는 단어 w와 개체 e₁을 포함하고 있는 튜플의 개수를 의미한다. |E₁|는 지식베이스에서 관계명의 왼쪽에 등장하는 전체 e₁의 총 개수를 의미한다. 가중치 a는 IDF값의 상대적 비중을 조절하기 위한 가중치로, 본 발명의 실시예에서는 0.2로 설정되는 것을 예로 하여 설명한다.

코사인 유사도인 Cosine Similarity(r)은 관계명 r이 가지는 대표성 값을 측정하는 것이다. 질의로 주어진 암묵적 개체쌍에 대해 관계명 후보군으로 추출된 r로 구성된 집합 R에 대해, 개별 r이 집합 R에 대해 가질 수 있는 대표성을 측정한다. 이를 위해, 각각의 r과 집합 R은 단어 단위로 분해되어 지식베이스에 등장하는 모든 관계명 단어를 구성요소로 갖는 벡터로 표현된다. r의 단어 벡터 표현을 위해, 먼저 지식베이스에서 관계명 r이 나타난 개체쌍 (e_i, e_j)에서 동일하게 등장한 r'을 전체 수집하여 단어 단위로 분해하여 벡터로 변환한다. 해당 벡터의 자질은 수학식 17과 같다.

Term Frequency(w)는 단어 w가 집합 R 또는 전체 지식베이스에서 등장한 횟수를 의미한다. IDF(w)는 상기에서 측정한 단어 w의 Inverse Document Frequency 값을 의미한다.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims

개체간 암묵적 관계 추론을 통해 정보를 추출하는 시스템에 있어서,
텍스트 또는 구조화된 데이터베이스로부터 추출된 정보 튜플에 포함된 개체를 병합하거나 분류하고, 상기 정보 튜플에 포함되어 있는 관계명을 군집화하며, 상기 병합하거나 분류한 개체를 그래프의 노드로 설정하여 그래프의 구조 정보로 저장하는 의미 저장부;
정보 튜플 중 임의의 대상 개체와 상기 대상 개체와 관계를 가지는 복수의 후보 개체들을 개체쌍으로 추출하는 개체쌍 추출부; 및
상기 개체쌍 추출부에서 추출한 복수의 개체쌍에서 최종 튜플을 추출하고, 상기 추출한 최종 튜플에 상기 의미 저장부에 저장되어 있는 그래프의 연결 구조 정보를 활용하여 관계명을 부여하는 관계명 부여부
를 포함하는 정보 추출 시스템.
제1항에 있어서,
상기 관계명 부여부는,
추출하고자 하는 최종 튜플의 그래프상 최단 경로를 파악하고, 최단 경로상의 중개 개체 및 관계명을 저장하며,
상기 임의의 대상 개체와 복수의 후보 개체 그리고, 저장한 중개 개체와 제1 관계명과 제2 관계명을 기반으로, 제1 관계명과 제2 관계명을 요소로 가지는 그래프 연결 구조를 추출하고,
추출한 그래프 연결 구조로부터 상기 임의의 대상 개체와 후보 개체 사이의 관계명을 부여하고,
미리 설정한 제약 조건을 통과한 관계명 후보군만을 최종 튜플로 추출하는 정보 추출 시스템.
정보 추출 시스템이 개체간 암묵적 관계 추론을 통해 정보를 추출하는 방법에 있어서,
텍스트 또는 구조화된 데이터베이스로부터 추출된 정보 튜플에 포함되어 있는 개체를 병합하거나 분류하고, 상기 정보 튜플에 포함되어 있는 관계명을 군집화하여 그래프의 구조 정보로 저장하는 단계;
상기 추출한 정보 튜플 중 임의의 대상 개체와 상기 대상 개체와 관계를 가지는 것으로 여겨지는 복수의 후보 개체들을 개체쌍으로 추출하는 단계; 및
상기 추출한 개체쌍에서 최종 정보 튜플을 추출하고, 상기 추출한 최종 정보 튜플에 관계명을 부여하는 단계
를 포함하는 정보 추출 방법.
제3항에 있어서,
상기 그래프의 구조 정보로 저장하는 단계는,
상기 정보 튜플에 포함되어 있는 복수의 개체 중, 개체의 출현 빈도에 따라 개체들을 병합하고, 분포 유사도(distributional similarity)를 기반으로 개체간 유사도를 측정하는 단계;
개체 범주를 결정하고 동일한 범주의 개체를 군집화하기 위하여, 개체를 분류하는 단계;
상기 정보 튜플에 포함되어 있는 복수의 관계명 간의 분포 유사도를 기반으로 관계명간 유사도를 측정하고, 측정한 유사도를 토대로 복수의 관계명을 군집화하는 단계; 및
개체가 병합되고 분류되며 관계명이 군집화된 정보 퓨틀의 개체를 그래프의 노드로 설정하고, 정보 튜플의 두 개체에 그래프의 변을 설정하여 그래프의 구조 정보로 저장하는 단계
를 포함하는 정보 추출 방법.
제4항에 있어서,
상기 개체간 유사도는 개체와 결합된 관계명의 단어 리스트를 기반으로 생성한 벡터의 코사인 유사도를 토대로 계산하고,
상기 그래프의 변에 대한 명칭과 방향은 상기 정보 튜플의 관계명과 동일하게 설정하는 정보 추출 방법.
제3항에 있어서,
상기 복수의 후보 개체들을 개체쌍으로 추출하는 단계는,
상기 복수의 정보 튜플에 포함되어 있는 복수의 개체 중 임의의 대상 개체와 관계가 있는 것으로 여겨져 추출한 복수의 후보 개체에 연관도 점수를 부여하는 단계; 및
상기 임의의 대상 개체와 상기 복수의 후보 개체 사이의 연관도를 측정하기 위해 정규화된 근접성(Normalized Closeness)와 고유값(Distinct)을 측정하여, 상기 임의의 대상 개체와 복수의 후보 개체와의 연관도를 계산하는 단계
를 포함하는 정보 추출 방법.
제3항에 있어서,
상기 추출한 최종 정보 튜플에 관계명을 부여하는 단계는,
상기 추출한 개체쌍에 대하여 의미 네트워크상 최단 경로를 확인하는 단계;
상기 확인한 최단 경로상의 중개 개체와 관계명을 저장하는 단계;
임의의 대상 개체와 복수의 후보 개체 그리고, 저장되어 있는 중개 개체와 제1 관계명과 제2 관계명을 기반으로, 상기 제1 관계명과 제2 관계명을 요소로 가지는 의미 네트워크 연결 구조를 추출하는 단계;
상기 추출한 의미 네트워크 연결 구조로부터 상기 임의의 대상 개체와 후보 개체 사이의 관계명을 부여하는 단계; 및
상기 부여한 관계명을 보유한 정보 튜플을 최종 튜플로 추출하는 단계
를 포함하는 정보 추출 방법.
제7항에 있어서,
상기 네트워크 연결구조를 추출하는 단계는,
연결 구조의 방향성을 측정하는 단계;
해당 연결 구조와 암묵적 개체쌍의 그래프상 최단 경로와 유사도를 측정하는 단계;
연결구조에 포함된 관계명 공통 점수를 비교하는 단계; 및
찾고자 하는 관계명의 개체 범주와 추출한 연결 구조가 가지고 있는 개체 범주를 비교하는 단계
를 포함하는 정보 추출 방법.
제8항에 있어서,
상기 연결구조 유사도 점수는 찾고자 하는 개체쌍이 포함된 최단경로와 관련된 연결구조 사이의 개체간 연관도 점수를 토대로 계산되는 정보 추출 방법.
제8항에 있어서,
상기 공통 점수는 임의의 관계명이 가지고 있는 평균 PMI(Pointwise Mutual Information) 값과 임의의 관계명과 함께 등장하는 개체 집합의 근접성의 합계를 토대로 계산되는 정보 추출 방법.
제8항에 있어서,
상기 개체 범주는 해당 개체명과 함께 등장하는 관계명의 패턴 분석을 통해 추출하는 정보 추출 방법.
제7항에 있어서,
상기 관계명을 부여하는 단계는,
제1 관계명, 제2 관계명 및 제3 관계명으로 이루어진 그래프 연결 구조에서, 상기 제3 관계명을 상기 임의의 대상 개체와 후보 개체 사이의 관계명 후보군으로 추출하는 단계;
관계명 후보군이 없는 경우, 상기 제1 관계명 및 제2 관계명과 유사도 점수가 높은 제4 관계명 및 제5 관계명을 설정하고, 설정한 제4 관계명과 제5 관계명을 요소로 가지는 그래프 연결 구조를 추출하는 단계; 및
추출한 관계명 후보군이 복수인 경우, 복수의 관계명에 대한 신뢰도 점수를 각각 측정하고, 가장 높은 신뢰도 점수를 갖는 관계명을 상기 임의의 대상 개체와 후보 개체 사이의 관계명으로 부여하는 단계
를 포함하는 정보 추출 방법.
제7항에 있어서,
상기 최종 튜플로 추출하는 단계는,
상기 추출한 최종 튜플의 신뢰도 점수를 계산하는 단계
를 포함하며,
상기 신뢰도 점수는 관계명의 공통 점수, 관계명과 개체쌍의 언어적 연관성, 상기 관계명의 연결 구조 유사도 점수, 상기 관계명이 가지는 대표성 값 및 상기 관계명이 가지는 단어의 수를 토대로 계산하는 정보 추출 방법.