KR101306667B1

KR101306667B1 - 지식 그래프 정제 장치 및 방법

Info

Publication number: KR101306667B1
Application number: KR1020090121578A
Authority: KR
Inventors: 류법모; 장명길; 김현기; 황이규; 임수종; 허정; 이충희; 오효정; 이창기; 최미란; 윤여찬
Original assignee: 한국전자통신연구원
Priority date: 2009-12-09
Filing date: 2009-12-09
Publication date: 2013-09-10
Also published as: US8407253B2; US20110137919A1; KR20110064833A

Abstract

본 발명은 지식 그래프 정제 장치 및 방법에 관한 것으로, 엔티티 사이의 관계 리스트를 단순히 엔티티의 이름을 기준으로 지식 그래프로 통합하는데 그치지 않고, 엔티티 사이의 의미적 유사도를 계산하여 의미적으로 유사한 엔티티를 통합함으로써, 중복된 엔티티를 제거하여 지식 그래프의 구조를 단순화시킬 수 있으며, 통계 정보와 의미 관계 유형의 제약 조건을 이용하여 의미적으로 오류가 있는 관계를 제거함으로써, 엔티티 사이의 관계 추출 단계에서는 발견하기 어려운 관계 오류를 그래프 단위의 제약 조건을 이용하여 제거하여 지식 그래프의 오류를 줄일 수 으며, 질의 응답 시스템 등 지식 그래프 기반의 응용 프로그램 개발 시에 시스템의 정확도 및 효율성을 향상시키는 이점이 있다.

비구조 문서, 구조 문서, 관계 추출, 관계 통합, 지식 그래프

Description

지식 그래프 정제 장치 및 방법{APPARATUS AND METHOD FOR KNOWLEDGE GRAPH STABILIZATION}

본 발명은 지식 그래프(knowledge graph) 정제 장치 및 방법에 관한 것으로서, 더욱 상세하게는 비구조 및 구조 문서로부터 추출한 다수의 개체 간 의미 관계를 그래프 분석과 통계 정보를 이용하여 지식 그래프로 통합하고 정제하는 지식 그래프 정제 장치 및 방법에 관한 것이다.

본 발명은 지식경제부의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호 : 2008-S-020-02, 과제명 : 웹 QA 기술개발].

종래 기술에 따라 구조 및 비구조 문서에서 추출한 관계를 기반으로 하여 지식 그래프를 생성하는 기술을 살펴보면 다음과 같다.

첫 번째, 지식을 온톨로지 형식으로 모델링하는 기술이 있다. 이러한 종래 기술은 서로 다른 종류의 중요성(centrality) 계산 방법을 제안하고 각 방법이 어 떻게 온톨로지의 핵심 내용과 구조를 설명하는지를 설명하며, 단순한 중요성 정도(degree centrality)부터 복잡한 형태의 고유벡터 중요성(eigenvector centrality)을 설명한다. 이러한 종래 기술은 지식 베이스인 온톨로지의 네트워크 구조의 특징을 통계적으로 분석하는 방법을 제시한 것이다.

두 번째, 도메인 지식의 계층화를 통한 온톨로지 인스턴스의 속성정보 추출 기술이 있다. 온톨로지의 인스턴스를 구성하는 속성을 기존 웹 문서의 구조정보로부터 추출하는 알고리즘이다. 특히, 속성 정보로 구성하는 도메인 지식을 계층화함으로써 속성 추출 알고리즘을 개선하고, 추출 결과의 품질을 향상시켰다. 이러한 종래 기술은 구조화된 문서에서 지식 베이스 정보를 추출하는 것이다.

세 번째, 자연 언어로 된 텍스트에서 온톨로지를 개발하기 위하여 컴퓨터들에 의해 사용되는 기술이 있다. 텍스트 데이터를 수신하고, 수신된 데이터의 문법 분석을 통해 텍스트로부터 신택스(syntax) 및 유의어들(meaningful words)을 추출하며, 텍스트의 유의어들 각각에 대하여 단어의 정의문을 전자사전에서 탐색하고, 정의문의 신택스 및 유의어들을 추출하며, 정의의 신택스 및 유의어들에 기초하여 정의의 기본 어휘 그래프를 생성하고, 텍스트의 적어도 하나의 세만틱 그래프(semantic graph)를 생성하기 위해서, 텍스트의 신택스의 함수로서 생성된 기본 어휘 그래프들 중 적어도 두 개를 병합한다. 이러한 텍스트 온톨로지 개발 기술은 문서에서 나타나는 단어들 사이의 관계를 직접적으로 추출하지 않고, 단어 단위의 그래프를 통합하는 과정을 통하여 단어 사이의 관계를 표현한다. 또한 추출한 관계들을 지식 그래프로 통합할 때, 엔티티의 어휘 유사도를 이용한다.

네 번째, 백과사전 질의응답 시스템의 지식베이스 반자동 구축 기술이 있다. 지식 베이스의 구조를 설계함에 있어 백과사전의 내용을 기반으로 개념 중심의 체계적인 템플릿을 설계하고, 백과사전의 개요 정보 및 본문으로부터 표제어와 관련된 중요한 사실 정보를 자동으로 추출하여 질의응답시스템의 지식베이스를 반자동으로 구축하는 것이다. 각 표제어에 대해 다수의 템플릿들과 관련 속성들로 지식 베이스 구조를 설계하고, 백과사전의 개요정보로부터 표제어와 그 속성이름 및 속성값들을 추출하며, 문장분석을 통해 얻어지는 어절단위 토큰열의 의존관계를 기반으로 백과사전의 본문으로부터 그 표제어에 대한 속성이름 및 속성값들을 추출하고, 각 표제어 별로 추출된 구조정보 및 비 구조정보를 지식 베이스의 해당 템플릿 및 해당 속성에 저장하여 지식 베이스를 구축한다. 이러한 종래 기술은 백과사전 엔트리에서 엔트리 이름에 대한 다양한 자질 값을 백과사전 엔트리 본문에서 추출하여 개요 정보를 생성하는 것이다.

다섯 번째, 비구조 웹문서로부터 온톨로지를 자동으로 구축하기 위한 기술이 있다. 비구조 웹문서로부터 다수의 개념 간의 관계를 추출하여 온톨로지를 자동으로 구축하기 위한 것이며, 인터넷 상에 존재하는 비구조 웹문서 및 데이터베이스의 다양한 정보로부터 패턴 자동 학습 및 패턴 자동 확장 방법을 통해 다수의 개념 간의 관계로 구성된 온톨로지의 인스턴스를 자동 추출함으로써 온톨로지를 구축 및 관리하기 위해 필요한 비용을 줄이며, 온톨로지 구축을 위한 정보 추출 성능을 지속적으로 향상시킨다.

여섯 번째, 텍스트에서 용어와 용어 사이의 관계를 추출하여 지식 그래프를 생성하는 기술이 있다. 또한 각 관계에 확률값을 제공한다. 지식 그래프와 SDAs(structured digital abstracts)는 텍스트의 디지털화된 요약을 제공한다. 자동으로 지식 그래프를 위한 용어, 관계를 추출하며, 지식 그래프를 구성하고 시각화하기 위한 다양한 방법과 시스템을 포함한다. 이와 같은 그래프와 요약은 전자 의료 기록 검색 시스템을 위한 의미 기반 검색, 신문, 경제, 역사와 같은 특정 도메인에 특화된 검색, 그리고 일반적인 인터넷 검색 등 다양한 응용 시스템에서 제한적이지만 유용하게 사용될 수 있다. 이러한 종래 기술은 텍스트에서 엔티티 사이의 관계를 추출하여, 그래프 구조로 표현하는 것이다.

일곱 번째, 정책(policy)을 해석하기 위한 도메인 전문적인 온톨로지를 구축하는 기술이 있다. 정책과 관련이 있다고 판단되는 구(phrase)를 입력으로 받는다. 구에서 의미 불완전 용어(indefinite term)를 인식(identify)한다. 구에서 추출한 다수의 의미 불완전 용어를 이용하여 인터넷 검색을 수행한다. 의미 불완전 용어에 대한 다수의 잠재적인 대체 용어(replacement terms)가 인터넷 검색에서 추출된다. 다수의 잠재적인 대체 용어의 빈도수를 기반으로 의미 불완전 용어에 대한 문맥 특화된 온톨로지를 생성한다. 정책은 의미 불완전 용어를 해석하기 위한 도메인 전문적인 온톨로지를 접근함으로써 해석된다. 의미 불완전 용어는 의미 불완전 용어를 다수의 문맥을 위한 온톨로지에 포함된 다수의 잠재적인 대체 용어에 대응(mapping)시킴으로서 의미가 결정되고, 온톨로지로부터 의미 불완전 용어의 해석을 기반으로 정책을 생성한다.

지금까지 설명한 바와 같은 종래 기술에 따른 온톨로지 구축 기술들은, 대상 텍스트를 특정 도메인으로 한정하거나 텍스트를 백과사전 엔트리나 웹 페이지의 테이블과 같은 구조정보로 한정하거나, 방법론적인 면에서 추출한 관계를 개체의 어휘 유사도를 이용하여 단순히 통합하거나, 온톨로지의 그래프 구조를 통계적으로 분석하는 수준에 머물고 있는 문제점이 있었다.

본 발명은 이와 같은 종래 기술의 문제점을 해결하기 위해 제안한 것으로서, 비구조 및 구조 문서에서 추출한 개체간 관계를 통합하여 정보의 손실을 최소화하면서 간결한 구조의 지식 그래프로 변환시킬 수 있는 지식 그래프 정제 장치 및 방법을 제공한다.

아울러, 지식 그래프 구조에서 추가적인 정제 방법을 통하여 관계 추출 과정의 오류를 제거하는 지식 그래프 정제 장치 및 방법을 제공한다.

본 발명의 제 1 관점으로서 지식 그래프 정제 방법은, 입력으로 주어진 엔티티 사이의 의미 관계 리스트에서 상기 엔티티의 이름과 유형을 기반으로 하여 동일한 엔티티들을 한 개의 노드로 표현한 지식 그래프를 생성하는 단계와, 상기 지식 그래프에서 상기 엔티티에 연결된 관계 유형과 상대방 엔티티의 비교를 통해 동일 엔티티 유형의 모든 가능한 엔티티 쌍 사이의 의미적 유사도를 계산하는 단계와, 계산한 상기 의미적 유사도를 기준으로 하여 상기 지식 그래프에서 의미적으로 유사한 상기 엔티티 쌍에서 대표 엔티티를 선택하여 나머지 엔티티를 상기 대표 엔티티에 통합하는 단계와, 그래프 분석과 통계 정보를 이용하여 상기 엔티티 간의 관계 가중치를 계산하여 상기 지식 그래프에 추가하는 단계를 포함할 수 있다.

여기서, 상기 지식 그래프 정제 방법은, 상기 관계 가중치와 기 설정된 의미 관계 유형의 제약 조건을 기반으로 하여 상기 지식 그래프에서 오류가 있는 의미 관계를 제거하는 단계를 더 포함할 수 있다.

상기 지식 그래프를 생성하는 단계는, 상기 의미 관계 리스트에서 상기 동일한 엔티티들을 통합하여 상기 지식 그래프를 생성하는 단계와, 생성한 상기 지식 그래프에서 각 의미 관계의 날짜를 이용하여 동일 의미 관계의 최초 날짜와 마지막 날짜를 관계 노드에 표현하는 단계와, 상기 의미 관계 리스트에서 동일한 의미 관계의 가중치 합을 계산하여 상기 지식 그래프에 표현하는 단계를 포함할 수 있다.

상기 의미적 유사도를 계산하는 단계는, 상기 엔티티 쌍을 특정 관계 유형 단위로 유사도를 계산하는 단계와, 상기 관계 유형 단위로 상기 엔티티의 유사도를 통합하여 계산하는 단계를 포함할 수 있다.

상기 대표 엔티티에 통합하는 단계는, 상기 엔티티 쌍의 상대적 포함 관계를 이용하여 상기 대표 엔티티를 선정하는 단계와, 상기 대표 엔티티를 중심으로 상기 엔티티 쌍에 관련된 관계를 통합하는 단계를 포함할 수 있다.

상기 대표 엔티티를 선정하는 단계는, 상기 상대적 포함 관계의 정도가 낮은 엔티티를 상기 대표 엔티티로 선정할 수 있다.

상기 지식 그래프에 추가하는 단계는, 상기 엔티티 사이의 관계 점수를 이용한 HITS(Hyperlink-Induced Topic Search) 알고리즘을 적용하여 상기 엔티티의 허브 점수와 권한 점수를 계산하는 단계와, 계산한 상기 허브 점수와 권한 점수를 이용하여 상기 엔티티 사이의 관계 점수를 계산하는 단계를 포함할 수 있다.

상기 엔티티의 허브 점수와 권한 점수를 계산하는 단계는, 모든 상기 의미 관계가 주어에서 목적어 방향으로 방향성이 있다고 정의할 수 있다.

상기 오류가 있는 의미 관계를 제거하는 단계는, 상기 지식 그래프에서 상기 관계 가중치와 상기 의미 관계 유형의 엔티티 카디날리티를 기반으로 하여 상기 오류가 있는 의미 관계를 제거할 수 있다.

상기 오류가 있는 의미 관계를 제거하는 단계는, 상기 지식 그래프에서 상기 관계 가중치와 상기 의미 관계 유형의 엔티티 카디날리티 및 상기 의미 관계의 시간 정보를 기반으로 하여 상기 오류가 있는 의미 관계를 제거할 수 있다.

본 발명의 제 2 관점으로서 지식 그래프 정제 방법은, 입력으로 주어진 엔티티 사이의 의미 관계 리스트에서 상기 엔티티의 이름과 유형을 기반으로 하여 동일한 엔티티들을 한 개의 노드로 표현한 지식 그래프를 생성하는 지식 그래프 생성부와, 상기 지식 그래프에서 상기 엔티티에 연결된 관계 유형과 상대방 엔티티의 비교를 통해 동일 엔티티 유형의 모든 가능한 엔티티 쌍 사이의 의미적 유사도를 계산하는 엔티티 유사도 계산부와, 계산한 상기 의미적 유사도를 기준으로 하여 상기 지식 그래프에서 의미적으로 유사한 상기 엔티티 쌍에서 대표 엔티티를 선택하여 나머지 엔티티를 상기 대표 엔티티에 통합하는 동일 엔티티 통합부와, 그래프 분석과 통계 정보를 이용하여 상기 엔티티 간의 관계 가중치를 계산하여 상기 지식 그래프에 추가하는 관계 가중치 계산부를 포함할 수 있다.

여기서, 상기 지식 그래프 정제 장치는, 상기 관계 가중치와 기 설정된 의미 관계 유형의 제약 조건을 기반으로 하여 상기 지식 그래프에서 오류가 있는 의미 관계를 제거하는 관계 오류 제거부를 더 포함할 수 있다.

상기 지식 그래프 생성부는, 상기 의미 관계 리스트에서 상기 동일한 엔티티들을 통합하여 상기 지식 그래프를 생성하고, 생성한 상기 지식 그래프에서 각 의미 관계의 날짜를 이용하여 동일 의미 관계의 최초 날짜와 마지막 날짜를 관계 노드에 표현하며, 상기 의미 관계 리스트에서 동일한 의미 관계의 가중치 합을 계산하여 상기 지식 그래프에 표현할 수 있다.

상기 엔티티 유사도 계산부는, 상기 엔티티 쌍을 특정 관계 유형 단위로 유사도를 계산하고, 상기 관계 유형 단위로 상기 엔티티의 유사도를 통합하여 계산할 수 있다.

상기 동일 엔티티 통합부는, 상기 엔티티 쌍의 상대적 포함 관계를 이용하여 상기 대표 엔티티를 선정하고, 상기 대표 엔티티를 중심으로 상기 엔티티 쌍에 관련된 관계를 통합할 수 있다.

상기 동일 엔티티 통합부는, 상기 상대적 포함 관계의 정도가 낮은 엔티티를 상기 대표 엔티티로 선정할 수 있다.

상기 관계 가중치 계산부는, 상기 엔티티 사이의 관계 점수를 이용한 HITS 알고리즘을 적용하여 상기 엔티티의 허브 점수와 권한 점수를 계산하고, 계산한 상기 허브 점수와 권한 점수를 이용하여 상기 엔티티 사이의 관계 점수를 계산할 수 있다.

상기 관계 가중치 계산부는, 모든 상기 의미 관계가 주어에서 목적어 방향으로 방향성이 있다고 정의할 수 있다.

상기 관계 오류 제거부는, 상기 지식 그래프에서 상기 관계 가중치와 상기 의미 관계 유형의 엔티티 카디날리티를 기반으로 하여 상기 오류가 있는 의미 관계를 제거할 수 있다.

상기 관계 오류 제거부는, 상기 지식 그래프에서 상기 관계 가중치와 상기 의미 관계 유형의 엔티티 카디날리티 및 상기 의미 관계의 시간 정보를 기반으로 하여 상기 오류가 있는 의미 관계를 제거할 수 있다.

본 발명의 실시예에 의하면, 엔티티 사이의 관계 리스트를 단순히 엔티티의 이름을 기준으로 지식 그래프로 통합하는데 그치지 않고, 엔티티 사이의 의미적 유사도를 계산하여 의미적으로 유사한 엔티티를 통합함으로써, 중복된 엔티티를 제거하여 지식 그래프의 구조를 단순화시킬 수 있다.

아울러, 통계 정보와 의미 관계 유형의 제약 조건을 이용하여 의미적으로 오류가 있는 관계를 제거함으로써, 엔티티 사이의 관계 추출 단계에서는 발견하기 어 려운 관계 오류를 그래프 단위의 제약 조건을 이용하여 제거하여 지식 그래프의 오류를 줄일 수 있다.

따라서, 질의 응답 시스템 등 지식 그래프 기반의 응용 프로그램 개발 시에 시스템의 정확도 및 효율성을 향상시키는 효과가 있다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 컴퓨터 프로그램 인스트럭션들은 범 용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.

또한, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행 되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.

도 1은 본 발명의 실시예에 따른 통계와 그래프 분석에 기반한 지식 그래프 정제 장치의 블록 구성도이다.

이에 나타낸 바와 같이 본 발명의 실시예에 따른 지식 그래프 정제 장치는, 지식 그래프 생성부(110), 엔티티 유사도 계산부(120), 동일 엔티티 통합부(130), 관계 가중치 계산부(140), 관계 오류 제거부(150), 관계 제약조건 저장부(160) 등을 포함하여 구성된다.

지식 그래프 생성부(110)는 입력으로 주어진 엔티티 사이의 의미 관계 리스트에서 엔티티의 이름과 유형을 기반으로 하여 동일한 엔티티들을 한 개의 노드로 표현한 지식 그래프를 생성한다. 이를 위해, 의미 관계 리스트에서 동일한 엔티티들을 통합하여 지식 그래프를 생성하고, 생성한 지식 그래프에서 각 의미 관계의 날짜를 이용하여 동일 의미 관계의 최초 날짜와 마지막 날짜를 관계 노드에 표현하며, 의미 관계 리스트에서 동일한 의미 관계의 가중치 합을 계산하여 지식 그래프에 표현한다.

엔티티 유사도 계산부(120)는 지식 그래프에서 엔티티에 연결된 관계 유형과 상대방 엔티티의 비교를 통해 동일 엔티티 유형의 모든 가능한 엔티티 쌍 사이의 의미적 유사도를 계산한다. 이를 위해, 엔티티 쌍을 특정 관계 유형 단위로 유사도를 계산하고, 관계 유형 단위로 엔티티의 유사도를 통합하여 계산한다.

동일 엔티티 통합부(130)는 계산한 의미적 유사도를 기준으로 하여 지식 그래프에서 의미적으로 유사한 엔티티 쌍에서 대표 엔티티를 선택하여 나머지 엔티티를 대표 엔티티에 통합한다. 이를 위해, 엔티티 쌍의 상대적 포함 관계를 이용하여 대표 엔티티를 선정하고, 대표 엔티티를 중심으로 엔티티 쌍에 관련된 관계를 통합한다. 여기서, 상대적 포함 관계의 정도가 낮은 엔티티를 대표 엔티티로 선정한다.

관계 가중치 계산부(140)는 그래프 분석과 통계 정보를 이용하여 엔티티 간의 관계 가중치를 계산하여 지식 그래프에 추가한다. 이를 위해, 엔티티 사이의 관계 점수를 이용한 HITS 알고리즘을 적용하여 엔티티의 허브(Hub) 점수와 권한(Authority) 점수를 계산하고, 계산한 허브 점수와 권한 점수를 이용하여 엔티티 사이의 관계 점수를 계산한다. 이때, 모든 의미 관계가 주어에서 목적어 방향으로 방향성이 있다고 정의한다.

관계 오류 제거부(150)는 관계 가중치와 관계 제약 조건 저장부(160)에 기 설정된 의미 관계 유형의 제약 조건을 기반으로 하여 지식 그래프에서 오류가 있는 의미 관계를 제거한다. 이를 위해, 첫 번째로, 지식 그래프에서 관계 가중치와 의미 관계 유형의 엔티티 카디날리티를 기반으로 하여 오류가 있는 의미 관계를 제거한다. 두 번째로, 지식 그래프에서 관계 가중치와 의미 관계 유형의 엔티티 카디날리티 및 의미 관계의 시간 정보를 기반으로 하여 오류가 있는 의미 관계를 제거할 수 있다. 이러한 첫 번째와 두 번째의 오류 제거 과정을 어느 하나만 택일하여 수행할 수도 있고, 두 과정을 모두 수행할 수도 있다.

이하에서는 도 2 내지 도 10을 참조하여 본 발명의 실시예에 따른 지식 그래프 정제 장치에 의한 지식 그래프 정제 방법에 대해 설명하기로 한다.

앞으로의 설명을 위하여 엔티티 집합 E, 관계 유형 집합 R을 아래의 수학식 1과 같이 정의한다. e _i는 한 개의 엔티티를 나타내고, 엔티티 이름과 엔티티 유형 정보를 포함한다. 예에서 엔티티 e는 엔티티 유형이 'OGG_BUSINESS' (기업)인 '엔씨개발사'라는 이름을 가진 엔티티를 표현하고 있다. 엔티티 집합 E에 포함된 모든 엔티티의 의미는 해당 네임스페이스에서 유일하다는 가정을 한다. 즉 서로 다른 의미를 나타내는 엔티티가 같은 이름으로 표현되는 경우는 없다. R은 의미 관계 유형의 집합이고, 하나의 의미 관계 유형 r_j는 '관계 이름', '주어'(subject), '목적어'(object)로 올 수 있는 엔티티의 유형, 주어와 목적어의 최대 카디날리티(maximum cardinality) 정보를 표현한다. 엔티티의 최대 카디날리티는 주어진 관계 유형에서 한 개의 주어 엔티티에 대하여 목적어로 나타날 수 있는 엔티티의 최대 개수 또는 그 반대로 한 개의 목적어 엔티티에 대하여 주어로 나타날 수 있는 엔티티의 최대 개수를 표현한다. 본 발명에서는 카디날리티 정보를 1, N, N_{TIME_UNIQUE}세 가지로 표현한다. "1"은 한 개의 엔티티만 허용한다는 뜻이고, "N"은 복수 개의 엔티티를 허용한 다는 뜻이며, "N_{TIME_UNIQUE}"복수 개의 엔티티를 허용하지만 동일한 시간에는 1개만 허용한다는 것을 의미한다. 예를 들어 "has_ceo" 관계에서 '주어'의 엔티티 유형은 'OGG_BUSINESS' (기업)이고, '목적어'의 엔티티 유형은 'PERSON'이며, 한 개의 기업은 여러 명의 소유주가 있을 수 있지만, 한 순간에는 한 명이 고, 즉 동시에 여러 명의 소유주가 있을 수 없으며, 한 사람은 여러 개의 기업을 경영할 수 있다는 사실을 |e _subj|=N,|e _obj|=N_{_TIME_UNIQUE}이라고 표현한다. 또한 "has_product" 관계에서 '주어'의 엔티티 유형은 'OGG_BUSINESS'이고, '목적어'의 엔티티 유형은 "PRODUCT"이며, 한 개의 기업은 여러 개의 제품을 생산할 수 있고, 한 개의 제품은 한 개의 기업에서만 생산할 수 있다는 사실을 |e _subj|=1,|e _obj|=N이라고 표현한다.

또한, 개별 의미 관계 집합 SR을 아래의 수학식 2와 같이 정의한다. 한 개의 sr_i는 의미관계 유형r에 실제 엔티티가 맵핑된 형태이다. sr _i는 "주어" (e _subj),"목적어" (e _obj)에 해당하는 두 개의 엔티티와 두 엔티티의 의미적 관계를 표현하는 "의미관계 유형" (r _j)세 개의 기본 구성요소와 의미관계 가중치 (rel_weight), 날짜 (date)로 구성된다. 의미관계 가중치에는 관계 추출 단계에서 부여한 값으로, 0에 서 1사이로 정규화하여 할당된다. 의미 관계 가중치는 관계 추출 방법에 따라서 서로 다른 값을 가질 수 있다. 날짜는 해당 의미 관계가 참(TRUE)인 날짜를 나타내며, 정확한 날짜 정보를 찾을 수 없는 경우는 관계를 추출한 문서를 생성한 날짜를 지정한다. 관계를 추출한 문서가 신문기사인 경우 해당 기사의 날짜를 지정한다. 예에서 "엔씨개발사"라는 기업(OGG_BUSINESS)과 "프로그램2"라는 제품(PRODUCT) 사이에 "has_product"라는 의미관계를 가지며, 가중치는 0.0839이고, 관계를 추출한 문서의 생성일은 "2007/12/06"이다. 동일한 문서에서 또는 서로 다른 문서에서 동일한 의미 관계가 여러 번 추출될 수 있다. 즉, 의미 관계 리스트에는 동일한 의미 관계가 여러 번 나타날 수 있다. 따라서 동일한 의미 관계가 서로 다른 가중치와 날짜 정보를 가질 수 있다.

도 2는 본 발명의 실시예에 따른 통계와 그래프 분석에 기반한 지식 그래프 정제 장치를 구성하는 지식 그래프 생성부(110)가 수행하는 본 발명의 실시예에 따른 지식 그래프 정제 방법 중의 일부를 설명하기 위한 흐름도이고, 도 3은 지식 그래프 생성부(110)의 결과물인 초기 지식 그래프의 일예이다.

지식 그래프 생성부(110)는 의미 관계 리스트 SR을 입력으로 받아서 초기 지식 그래프를 생성한다. "엔티티 이름, 유형 기반 그래프 생성"(S201) 단계에서는 엔티티의 이름과 유형을 기준으로 의미 관계 리스트를 통합하여 지식 그래프로 변환한다. 동일한 엔티티는 하나의 엔티티로 통합하며, 동일한 엔티티에 대한 동일한 의미관계는 한 개만 표현한다. 의미 관계에서 주어, 목적어를 구분하기 위하여 화살표를 주어에서 목적어 방향으로 표현한다. "의미 관계 날짜 정보 부여"(S203) 단계에서는 동일한 의미 관계가 1개 이상 SR에 포함되어 있는 경우, 가장 앞선 날짜(FIRST_DATE)와 마지막 날짜(LAST_DATE)를 관계 노드에 표현한다. "의미 관계 가중치 계산"(S205) 단계에서는 동일한 의미 관계가 1개 이상 SR에 포함되어 있는 경우, 동일한 의미 관계의 가중치 합(REL_WEIGHT)을 표현한다.

도 3에서 원은 엔티티를 표현하고, 네모는 엔티티 사이의 의미관계를 표현한다. 엔티티 "엔씨개발사:OGG_BUSINESS"는 "프로그램1:PRODUCT", "프로그램2:PRODUCT"와 "has_product"관계를 가진다. (has_product, 엔씨개발사:OGG_BUSINESS, 프로그램2:PRODUCT)의 가중치가 (has_product, 엔씨개발사:OGG_BUSINESS, 프로그램1:PRODUCT)의 가중치보다 높은 것은 "엔씨개발사"의 여러 제품 중에서 "프로그램2"가 더 대표적이라는 것을 뜻한다. "NC개발사:OGG_BUSINESS"는 "엔씨개발사:OGG_BUSINESS"와 동일한 의미를 가진 엔티티이지 만 서로 다른 표현으로 사용되기 때문에 별도의 엔티티로 표현한다. 이후에, 엔티티 유사도 계산부(120)와 동일 엔티티 통합부(130)에서 서로 같은 엔티티로 인식하고 통합을 수행한다.

도 4는 본 발명의 실시예에 따른 통계와 그래프 분석에 기반한 지식 그래프 정제 장치를 구성하는 엔티티 유사도 계산부(120)가 수행하는 본 발명의 실시예에 따른 지식 그래프 정제 방법 중의 일부를 설명하기 위한 흐름도이다.

엔티티 유사도 계산부(120)는 동일 엔티티 유형의 모든 가능한 엔티티 쌍을 비교하는 데 있어서, "관계 유형 단위 엔티티 유사도 계산"(S301) 단계에서는 아래의 수학식 3을 적용하여 비교 대상 두 엔티티에 연계된 모든 관계 유형 단위로 엔티티의 유사도 rsim(e ₁,e ₂,r)을 계산한다. 이 수학식 3은 두 엔티티의 관계 유형 r로 연결된 엔티티 중 공통적인 것이 많은 경우 높은 점수를 얻게 된다.

"통합 엔티티 유사도 계산"(S303) 단계에서는 아래의 수학식 4를 사용하여 관계 단위의 유사도의 평균값으로 엔티티 사이의 유사도 esim(e ₁,e ₂,r)를 계산한다. 이 수학식 4에서는 두 엔티티가 공통으로 가지는 관계 유형의 개수가 많고, 각 관계 유형별로 공통적인 엔티티와 많이 연결된 경우 높은 점수를 얻게 된다.

도 3에서 "엔씨개발사:OGG_BUSINESS"와 "NC개발사:OGG_BUSINESS" 는 모두 "has_ceo"와 "has_product" 관계 유형을 이용하여 다른 엔티티와 관계를 가지고 있다. 다른 점은 "엔씨개발사:OGG_BUSINESS"가 "has_product"의 목적어로 "프로그램1:PRODUCT"을 추가로 가지며, "has_ceo"의 목적어로 "LEE"PERSON"을 추가로 가진다. 수학식 3, 수학식 4를 이용하여 두 엔티티의 유사도를 계산하면 다음의 수학식 5와 같다.

도 3에서 "NC개발사:OGG_BUSINESS"와 "에이쓰리보안그룹:OGG_BUSINESS" 유사도를 수학식 3, 수학식 4를 이용하여 계산하면 다음의 수학식 6과 같다.

도 5는 본 발명의 실시예에 따른 통계와 그래프 분석에 기반한 지식 그래프 정제 장치를 구성하는 동일 엔티티 통합부(130)가 수행하는 본 발명의 실시예에 따른 지식 그래프 정제 방법 중의 일부를 설명하기 위한 흐름도이고, 도 6은 동일 엔티티 통합부(130)의 결과물인 통합된 지식 그래프의 일예이다.

동일 엔티티 통합부(130)는 엔티티 유사도 계산부(120)에 의해 계산된 엔티티 유사도 중에서 임계치를 넘는 엔티티 쌍을 지식 그래프에서 하나의 엔티티 노드로 통합한다. "대표 엔티티 선정"(S401) 단계에서는 통합 대상인 두 엔티티 e₁, e ₂ 중에서 상대적 포함관계(subsumption)의 정도가 낮은 엔티티를 대표 엔티티로 지정한다. 두 엔티티 사이의 상대적 포함관계 척도 subsume(e ₁,e ₂)는 e₁이 e₂에 의미적으로 포함되는 정도를 표현하고 아래의 수학식 7을 이용하여 계산한다. 이 수학식 7에서는 각각의 관계 유형 단위로 e₁에 연결된 엔티티 중에서, e ₂와도 연결된 엔티티의 비율 r_subsume(e ₁,e ₂ ,r)을 계산한 후, 평균값을 e₁이 e₂에 대한 상대적 포함관계의 정도로 정의한다. subsume(e ₁,e ₂)이 큰 경우는 e₁에 연결된 엔티티 중 다수가 e₂에서도 동일한 관계 유형으로 연결된 것을 의미한다. subsume(e ₁,e ₂)이 subsume(e ₂,e ₁)보다 큰 경우 e₂를 대표 엔티티로 지정하고, e ₁을 종속 엔티티로 지정한다.

수학식 7을 이용하여 도 3에서 "엔씨개발사:OGG_BUSINESS", "NC개발사:OGG_BUSINESS"의 상대적인 포함관계 정도를 계산하면 다음의 수학식 8과 같다. 이 결과에서 "엔씨개발사:OGG_BUSINESS"가 "NC개발사:OGG_BUSINESS"에 포함되는 정도는 0.5이고, 반대로 "NC개발사:OGG_BUSINESS"가 "엔씨개발사:OGG_BUSINESS"에 포함되는 정도는 1.0 이다. "엔씨개발사:OGG_BUSINESS"를 대표 엔티티로 "NC개발 사:OGG_BUSINESS"를 종속 엔티티로 지정한다.

"대표 엔티티 중심의 엔티티, 관계 통합"(S403)" 단계에서는 지식 그래프에서 대표 엔티티에 종속 엔티티를 통합한다. 종속 엔티티의 이름을 대표 엔티티에 "OTHER_NAME" 항목에 추가한다. 통합된 관계의 "FIRST_DATE" 항목은 두 관계의 날짜 중 앞 날짜를 기록하며, "LAST_DATE" 항목은 두 관계의 날짜 중 뒤 날짜를 기록 한다. 도 6은 도 3의 "NC개발사:OGG_BUSINESS"가 "엔씨개발사:OGG_BUSINESS"에 통합된 후의 지식 그래프를 표현하고 있다. "엔씨개발사:OGG_BUSINESS"의 "OTHER_NAME"에 "NC개발사"가 추가되었고, (has_product, 엔씨개발사:OGG_BUSINESS, 프로그램2:PRODUCT)관계의 FIRST_DATE와 LAST_DATE는 (has_product, NC개발사:OGG_BUSINESS, 프로그램2:PRODUCT)관계의 FIRST_DATE와 LAST_DATE와 비교하여 각각 작은 값과 큰 값을 할당하였다. 마찬가지로 (has_ceo, 엔씨개발사:OGG_BUSINESS, KIM:PERSON)의 FIRST_DATE와 LAST_DATE 항목도 (has_ceo, NC개발사:OGG_BUSINESS, KIM:PERSON)의 FIRST_DATE와 LAST_DATE 항목과 비교하여 각각 작은 값과 큰 값을 할당하였다.

도 7은 본 발명의 실시예에 따른 통계와 그래프 분석에 기반한 지식 그래프 정제 장치를 구성하는 관계 가중치 계산부(140)가 수행하는 본 발명의 실시예에 따른 지식 그래프 정제 방법 중의 일부를 설명하기 위한 흐름도이고, 도 8은 관계 가중치 계산부(140)의 결과물인 가중치 부가 지식 그래프의 일예이다.

관계 가중치 계산부(140)는 웹 페이지 사이의 링크 정보를 이용하여 웹 페이지의 중요도를 계산하는 HITS 알고리즘을 수정한 "가중치 기반 HITS 알고리즘"을 적용하여 관계의 중요도를 계산한다. 먼저 "HITS 알고리즘을 이용한 엔티티 점수 계산"(S501) 단계에서는 HITS 알고리즘을 이용하여 엔티티의 권한 점수와 허브 점수를 계산한다. HITS 알고리즘은 그래프 구조에서 노드 사이의 링크정보를 이용하여 노드의 가중치를 계산하는 방법으로서, 모든 노드는 권한 점수와 허브 점수를 가지고, 링크정보를 이용하여 반복적으로 상호 참조하면서 점수를 갱신한다. 이 알고리즘을 적용하기 위하여 본 발명에서 제안한 지식 그래프에서 모든 관계는 주어에서 목적어 방향으로 방향성이 있다고 정의한다. 아래의 수학식 9와 같이 어떤 엔티티의 권한은 그 엔티티로 들어오는 다른 모든 관계의 상대방 엔티티의 허브 점수와 관계 가중치를 이용하여 계산한다. 또한 엔티티의 허브 점수는 그 엔티티에서 밖으로 나가는 관계의 상대방 엔티티의 권한 점수와 관계 가중치를 이용하여 계산한다. 엔티티의 권한 점수는 자신으로 들어오는 관계의 수가 많고 관계 가중치가 높을수록 높아지고, 엔티티의 허브 점수는 자신에서 나가는 관계의 수가 많고 관계 가중치가 높을수록 점수가 높아진다.

"엔티티 점수 기반 관계 점수 계산"(S503) 단계에서는 아래의 수학식 10과 같이 의미관계에 포함된 '주어'의 허브 점수와 목적어의 권한 점수의 산술 평균으로 의미 관계의 HITS_WEIGHT를 계산한다. 도 8은 도 6의 지식 그래프에서 각 엔티티에 권한 점수, 허브 점수가 추가되었고, 관계에 HITS_WEIGHT가 추가되었다.

도 9는 본 발명의 실시예에 따른 통계와 그래프 분석에 기반한 지식 그래프 정제 장치를 구성하는 관계 오류 제거부(150)가 수행하는 본 발명의 실시예에 따른 지식 그래프 정제 방법 중의 일부를 설명하기 위한 흐름도이고, 도 10은 관계 오류 제거부(150)의 결과물인 오류관계 제거 지식 그래프의 일예이다.

본 발명에 의한 정제 장치에 입력되는 의미 관계 리스트는 관계 추출 단계에서 오류가 있을 수 있다고 가정하고, 관계 오류 제거부(150)는 이전의 구성요소 또는 구성단계에서 계산한 지식 그래프의 의미관계의 가중치와 관계 제약 조건 저장부(160)에 저장된 의미 관계 유형의 카디날리티 제약 조건을 이용하여 오류가 있는 관계를 제거한다.

"관계 가중치, 카디날리티 기반 오류 관계 제거"(S601) 단계를 살펴보면, 도 8에서 "프로그램2:PRODUCT"는 "엔씨개발사:OGG_BUSINESS", "에이쓰리보안그룹:OGG_BUSINESS" 두 개의 엔티티와 "has_product" 관계를 가진다. 수학식 1의 예에서 "has_product" 관계에서 1개의 기업(OGG_BUSINESS)은 여러 개의 제품(PRODUCT)을 생산할 수 있고, 반대로, 한 개의 제품은 반드시 한 개의 기업에 의하여 생산되어야 한다. 도 8에 표현된 두 개의 "프로그램2:PRODUCT"의 제조회사 중에서 한 개를 선택하고, 나머지 관계는 삭제한다. 선택하는 기준은 관계에 표현된 "REL_WEIGHT" 또는 "HITS_WEIGHT"를 이용하여 가장 가중치가 높은 관계만 남기고 나머지는 삭제한다.

또 다른 예로서 "관계 가중치, 카디날리티, 시간 정보 기반 오류 관계 제거"(S603) 단계를 살펴보면, 수학식 1의 "has_ceo" 관계는 한 개의 회사는 여러 명의 최고경영자(CEO)가 있을 수 있지만, 동일한 기간에는 한 명만 존재한다는 제약 조건을 표시하고 있다. 도 8에서 "엔씨개발사:OGG_BUSINESS"는 "KIM:PERSON", "LEE:PERSON" 두 개의 엔티티와 "has_ceo" 관계를 가진다. 두 엔티티가 동일 기간에 "엔씨개발사:OGG_BUSINESS"와 "has_ceo" 관계를 가지지 않으면 모두 허용한다. 그러나 이 예에서 "has_ceo" 관계의 "FIRST_DATE", "LAST_DATE" 값을 참조하면 두 엔티티가 "엔씨개발사:OGG_BUSINESS"의 최고경영자인 시기가 겹친다. 이 경우는 관계에 표현된 "REL_WEIGHT" 또는 "HIST_WEIGHT"를 이용하여 가중치가 낮은 관계를 제거한다. 도 10은 도 8의 지식 그래프에서 오류관계가 제거된 지식 그래프이다.

도 1은 본 발명의 실시예에 따른 통계와 그래프 분석에 기반한 지식 그래프 정제 장치의 블록 구성도,

도 2는 본 발명의 실시예에 따른 통계와 그래프 분석에 기반한 지식 그래프 정제 장치를 구성하는 지식 그래프 생성부가 수행하는 본 발명의 실시예에 따른 지식 그래프 정제 방법 중의 일부를 설명하기 위한 흐름도,

도 3은 본 발명의 실시예에 따른 통계와 그래프 분석에 기반한 지식 그래프 정제 장치를 구성하는 지식 그래프 생성부의 결과물인 초기 지식 그래프의 일예,

도 4는 본 발명의 실시예에 따른 통계와 그래프 분석에 기반한 지식 그래프 정제 장치를 구성하는 엔티티 유사도 계산부가 수행하는 본 발명의 실시예에 따른 지식 그래프 정제 방법 중의 일부를 설명하기 위한 흐름도,

도 5는 본 발명의 실시예에 따른 통계와 그래프 분석에 기반한 지식 그래프 정제 장치를 구성하는 동일 엔티티 통합부가 수행하는 본 발명의 실시예에 따른 지식 그래프 정제 방법 중의 일부를 설명하기 위한 흐름도,

도 6은 본 발명의 실시예에 따른 통계와 그래프 분석에 기반한 지식 그래프 정제 장치를 구성하는 동일 엔티티 통합부의 결과물인 통합된 지식 그래프의 일예,

도 7은 본 발명의 실시예에 따른 통계와 그래프 분석에 기반한 지식 그래프 정제 장치를 구성하는 관계 가중치 계산부가 수행하는 본 발명의 실시예에 따른 지식 그래프 정제 방법 중의 일부를 설명하기 위한 흐름도,

도 8은 본 발명의 실시예에 따른 통계와 그래프 분석에 기반한 지식 그래프 정제 장치를 구성하는 관계 가중치 계산부의 결과물인 가중치 부가 지식 그래프의 일예,

도 9는 본 발명의 실시예에 따른 통계와 그래프 분석에 기반한 지식 그래프 정제 장치를 구성하는 관계 오류 제거부가 수행하는 본 발명의 실시예에 따른 지식 그래프 정제 방법 중의 일부를 설명하기 위한 흐름도,

도 10은 본 발명의 실시예에 따른 통계와 그래프 분석에 기반한 지식 그래프 정제 장치를 구성하는 관계 오류 제거부의 결과물인 오류관계 제거 지식 그래프의 일예.

<도면의 주요 부분에 대한 부호의 설명>

110 : 지식 그래프 생성부 120 : 엔티티 유사도 계산부

130 : 동일 엔티티 통합부 140 : 관계 가중치 계산부

150 : 관계 오류 제거부 160 : 관계 제약 조건 저장부

Claims

삭제
지식 그래프 정제 장치에 의한 지식 그래프 정제 방법으로서,

입력으로 주어진 엔티티 사이의 의미 관계 리스트에서 상기 엔티티의 이름과 유형을 기반으로 하여 동일한 엔티티들을 한 개의 노드로 표현한 지식 그래프를 생성하는 단계와,

상기 지식 그래프에서 상기 엔티티에 연결된 관계 유형과 상대방 엔티티의 비교를 통해 동일 엔티티 유형의 모든 가능한 엔티티 쌍 사이의 의미적 유사도를 계산하는 단계와,

계산한 상기 의미적 유사도를 기준으로 하여 상기 지식 그래프에서 의미적으로 유사한 상기 엔티티 쌍에서 대표 엔티티를 선택하여 나머지 엔티티를 상기 대표 엔티티에 통합하는 단계와,

그래프 분석과 통계 정보를 이용하여 상기 엔티티 간의 관계 가중치를 계산하여 상기 지식 그래프에 추가하는 단계와,

상기 관계 가중치와 기 설정된 의미 관계 유형의 제약 조건을 기반으로 하여 상기 지식 그래프에서 오류가 있는 의미 관계를 제거하는 단계를 포함하는

지식 그래프 정제 방법.
제 2 항에 있어서,

상기 지식 그래프를 생성하는 단계는,

상기 의미 관계 리스트에서 상기 동일한 엔티티들을 통합하여 상기 지식 그래프를 생성하는 단계와,

생성한 상기 지식 그래프에서 각 의미 관계의 날짜를 이용하여 동일 의미 관계의 최초 날짜와 마지막 날짜를 관계 노드에 표현하는 단계와,

상기 의미 관계 리스트에서 동일한 의미 관계의 가중치 합을 계산하여 상기 지식 그래프에 표현하는 단계를 포함하는

지식 그래프 정제 방법.
제 2 항에 있어서,

상기 의미적 유사도를 계산하는 단계는,

상기 엔티티 쌍을 특정 관계 유형 단위로 유사도를 계산하는 단계와,

상기 관계 유형 단위로 상기 엔티티의 유사도를 통합하여 계산하는 단계를 포함하는

지식 그래프 정제 방법.
제 2 항에 있어서,

상기 대표 엔티티에 통합하는 단계는,

상기 엔티티 쌍의 상대적 포함 관계를 이용하여 상기 대표 엔티티를 선정하는 단계와,

상기 대표 엔티티를 중심으로 상기 엔티티 쌍에 관련된 관계를 통합하는 단계를 포함하는

지식 그래프 정제 방법.
제 5 항에 있어서,

상기 대표 엔티티를 선정하는 단계는, 상기 상대적 포함 관계의 정도가 낮은 엔티티를 상기 대표 엔티티로 선정하는

지식 그래프 정제 방법.
제 2 항에 있어서,

상기 지식 그래프에 추가하는 단계는,

상기 엔티티 사이의 관계 점수를 이용한 HITS(Hyperlink-Induced Topic Search) 알고리즘을 적용하여 상기 엔티티의 허브 점수와 권한 점수를 계산하는 단계와,

계산한 상기 허브 점수와 권한 점수를 이용하여 상기 엔티티 사이의 관계 점수를 계산하는 단계를 포함하는

지식 그래프 정제 방법.
제 7 항에 있어서,

상기 엔티티의 허브 점수와 권한 점수를 계산하는 단계는, 모든 상기 의미 관계가 주어에서 목적어 방향으로 방향성이 있다고 정의하는

지식 그래프 정제 방법.
제 2 항에 있어서,

상기 오류가 있는 의미 관계를 제거하는 단계는,

상기 지식 그래프에서 상기 관계 가중치와 상기 의미 관계 유형의 엔티티 카디날리티를 기반으로 하여 상기 오류가 있는 의미 관계를 제거하는

지식 그래프 정제 방법.
제 2 항에 있어서,

상기 오류가 있는 의미 관계를 제거하는 단계는,

상기 지식 그래프에서 상기 관계 가중치와 상기 의미 관계 유형의 엔티티 카디날리티 및 상기 의미 관계의 시간 정보를 기반으로 하여 상기 오류가 있는 의미 관계를 제거하는

지식 그래프 정제 방법.
삭제
입력으로 주어진 엔티티 사이의 의미 관계 리스트에서 상기 엔티티의 이름과 유형을 기반으로 하여 동일한 엔티티들을 한 개의 노드로 표현한 지식 그래프를 생성하는 지식 그래프 생성부와,

상기 지식 그래프에서 상기 엔티티에 연결된 관계 유형과 상대방 엔티티의 비교를 통해 동일 엔티티 유형의 모든 가능한 엔티티 쌍 사이의 의미적 유사도를 계산하는 엔티티 유사도 계산부와,

계산한 상기 의미적 유사도를 기준으로 하여 상기 지식 그래프에서 의미적으로 유사한 상기 엔티티 쌍에서 대표 엔티티를 선택하여 나머지 엔티티를 상기 대표 엔티티에 통합하는 동일 엔티티 통합부와,

그래프 분석과 통계 정보를 이용하여 상기 엔티티 간의 관계 가중치를 계산하여 상기 지식 그래프에 추가하는 관계 가중치 계산부와,

상기 관계 가중치와 기 설정된 의미 관계 유형의 제약 조건을 기반으로 하여 상기 지식 그래프에서 오류가 있는 의미 관계를 제거하는 관계 오류 제거부를 포함하는

지식 그래프 정제 장치.
제 12 항에 있어서,

상기 지식 그래프 생성부는, 상기 의미 관계 리스트에서 상기 동일한 엔티티들을 통합하여 상기 지식 그래프를 생성하고, 생성한 상기 지식 그래프에서 각 의미 관계의 날짜를 이용하여 동일 의미 관계의 최초 날짜와 마지막 날짜를 관계 노드에 표현하며, 상기 의미 관계 리스트에서 동일한 의미 관계의 가중치 합을 계산하여 상기 지식 그래프에 표현하는

지식 그래프 정제 장치.
제 12 항에 있어서,

상기 엔티티 유사도 계산부는, 상기 엔티티 쌍을 특정 관계 유형 단위로 유사도를 계산하고, 상기 관계 유형 단위로 상기 엔티티의 유사도를 통합하여 계산하는

지식 그래프 정제 장치.
제 12 항에 있어서,

상기 동일 엔티티 통합부는, 상기 엔티티 쌍의 상대적 포함 관계를 이용하여 상기 대표 엔티티를 선정하고, 상기 대표 엔티티를 중심으로 상기 엔티티 쌍에 관련된 관계를 통합하는

지식 그래프 정제 장치.
제 15 항에 있어서,

상기 동일 엔티티 통합부는, 상기 상대적 포함 관계의 정도가 낮은 엔티티를 상기 대표 엔티티로 선정하는

지식 그래프 정제 장치.
제 12 항에 있어서,

상기 관계 가중치 계산부는, 상기 엔티티 사이의 관계 점수를 이용한 HITS(Hyperlink-Induced Topic Search) 알고리즘을 적용하여 상기 엔티티의 허브 점수와 권한 점수를 계산하고, 계산한 상기 허브 점수와 권한 점수를 이용하여 상기 엔티티 사이의 관계 점수를 계산하는

지식 그래프 정제 장치.
제 17 항에 있어서,

상기 관계 가중치 계산부는, 모든 상기 의미 관계가 주어에서 목적어 방향으로 방향성이 있다고 정의하는

지식 그래프 정제 장치.
제 12 항에 있어서,

상기 관계 오류 제거부는, 상기 지식 그래프에서 상기 관계 가중치와 상기 의미 관계 유형의 엔티티 카디날리티를 기반으로 하여 상기 오류가 있는 의미 관계를 제거하는

지식 그래프 정제 장치.
제 12 항에 있어서,

상기 관계 오류 제거부는, 상기 지식 그래프에서 상기 관계 가중치와 상기 의미 관계 유형의 엔티티 카디날리티 및 상기 의미 관계의 시간 정보를 기반으로 하여 상기 오류가 있는 의미 관계를 제거하는

지식 그래프 정제 장치.