KR101306667B1 - 지식 그래프 정제 장치 및 방법 - Google Patents

지식 그래프 정제 장치 및 방법 Download PDF

Info

Publication number
KR101306667B1
KR101306667B1 KR1020090121578A KR20090121578A KR101306667B1 KR 101306667 B1 KR101306667 B1 KR 101306667B1 KR 1020090121578 A KR1020090121578 A KR 1020090121578A KR 20090121578 A KR20090121578 A KR 20090121578A KR 101306667 B1 KR101306667 B1 KR 101306667B1
Authority
KR
South Korea
Prior art keywords
relationship
knowledge graph
entity
semantic
entities
Prior art date
Application number
KR1020090121578A
Other languages
English (en)
Other versions
KR20110064833A (ko
Inventor
류법모
장명길
김현기
황이규
임수종
허정
이충희
오효정
이창기
최미란
윤여찬
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020090121578A priority Critical patent/KR101306667B1/ko
Priority to US12/877,063 priority patent/US8407253B2/en
Publication of KR20110064833A publication Critical patent/KR20110064833A/ko
Application granted granted Critical
Publication of KR101306667B1 publication Critical patent/KR101306667B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 지식 그래프 정제 장치 및 방법에 관한 것으로, 엔티티 사이의 관계 리스트를 단순히 엔티티의 이름을 기준으로 지식 그래프로 통합하는데 그치지 않고, 엔티티 사이의 의미적 유사도를 계산하여 의미적으로 유사한 엔티티를 통합함으로써, 중복된 엔티티를 제거하여 지식 그래프의 구조를 단순화시킬 수 있으며, 통계 정보와 의미 관계 유형의 제약 조건을 이용하여 의미적으로 오류가 있는 관계를 제거함으로써, 엔티티 사이의 관계 추출 단계에서는 발견하기 어려운 관계 오류를 그래프 단위의 제약 조건을 이용하여 제거하여 지식 그래프의 오류를 줄일 수 으며, 질의 응답 시스템 등 지식 그래프 기반의 응용 프로그램 개발 시에 시스템의 정확도 및 효율성을 향상시키는 이점이 있다.
비구조 문서, 구조 문서, 관계 추출, 관계 통합, 지식 그래프

Description

지식 그래프 정제 장치 및 방법{APPARATUS AND METHOD FOR KNOWLEDGE GRAPH STABILIZATION}
본 발명은 지식 그래프(knowledge graph) 정제 장치 및 방법에 관한 것으로서, 더욱 상세하게는 비구조 및 구조 문서로부터 추출한 다수의 개체 간 의미 관계를 그래프 분석과 통계 정보를 이용하여 지식 그래프로 통합하고 정제하는 지식 그래프 정제 장치 및 방법에 관한 것이다.
본 발명은 지식경제부의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호 : 2008-S-020-02, 과제명 : 웹 QA 기술개발].
종래 기술에 따라 구조 및 비구조 문서에서 추출한 관계를 기반으로 하여 지식 그래프를 생성하는 기술을 살펴보면 다음과 같다.
첫 번째, 지식을 온톨로지 형식으로 모델링하는 기술이 있다. 이러한 종래 기술은 서로 다른 종류의 중요성(centrality) 계산 방법을 제안하고 각 방법이 어 떻게 온톨로지의 핵심 내용과 구조를 설명하는지를 설명하며, 단순한 중요성 정도(degree centrality)부터 복잡한 형태의 고유벡터 중요성(eigenvector centrality)을 설명한다. 이러한 종래 기술은 지식 베이스인 온톨로지의 네트워크 구조의 특징을 통계적으로 분석하는 방법을 제시한 것이다.
두 번째, 도메인 지식의 계층화를 통한 온톨로지 인스턴스의 속성정보 추출 기술이 있다. 온톨로지의 인스턴스를 구성하는 속성을 기존 웹 문서의 구조정보로부터 추출하는 알고리즘이다. 특히, 속성 정보로 구성하는 도메인 지식을 계층화함으로써 속성 추출 알고리즘을 개선하고, 추출 결과의 품질을 향상시켰다. 이러한 종래 기술은 구조화된 문서에서 지식 베이스 정보를 추출하는 것이다.
세 번째, 자연 언어로 된 텍스트에서 온톨로지를 개발하기 위하여 컴퓨터들에 의해 사용되는 기술이 있다. 텍스트 데이터를 수신하고, 수신된 데이터의 문법 분석을 통해 텍스트로부터 신택스(syntax) 및 유의어들(meaningful words)을 추출하며, 텍스트의 유의어들 각각에 대하여 단어의 정의문을 전자사전에서 탐색하고, 정의문의 신택스 및 유의어들을 추출하며, 정의의 신택스 및 유의어들에 기초하여 정의의 기본 어휘 그래프를 생성하고, 텍스트의 적어도 하나의 세만틱 그래프(semantic graph)를 생성하기 위해서, 텍스트의 신택스의 함수로서 생성된 기본 어휘 그래프들 중 적어도 두 개를 병합한다. 이러한 텍스트 온톨로지 개발 기술은 문서에서 나타나는 단어들 사이의 관계를 직접적으로 추출하지 않고, 단어 단위의 그래프를 통합하는 과정을 통하여 단어 사이의 관계를 표현한다. 또한 추출한 관계들을 지식 그래프로 통합할 때, 엔티티의 어휘 유사도를 이용한다.
네 번째, 백과사전 질의응답 시스템의 지식베이스 반자동 구축 기술이 있다. 지식 베이스의 구조를 설계함에 있어 백과사전의 내용을 기반으로 개념 중심의 체계적인 템플릿을 설계하고, 백과사전의 개요 정보 및 본문으로부터 표제어와 관련된 중요한 사실 정보를 자동으로 추출하여 질의응답시스템의 지식베이스를 반자동으로 구축하는 것이다. 각 표제어에 대해 다수의 템플릿들과 관련 속성들로 지식 베이스 구조를 설계하고, 백과사전의 개요정보로부터 표제어와 그 속성이름 및 속성값들을 추출하며, 문장분석을 통해 얻어지는 어절단위 토큰열의 의존관계를 기반으로 백과사전의 본문으로부터 그 표제어에 대한 속성이름 및 속성값들을 추출하고, 각 표제어 별로 추출된 구조정보 및 비 구조정보를 지식 베이스의 해당 템플릿 및 해당 속성에 저장하여 지식 베이스를 구축한다. 이러한 종래 기술은 백과사전 엔트리에서 엔트리 이름에 대한 다양한 자질 값을 백과사전 엔트리 본문에서 추출하여 개요 정보를 생성하는 것이다.
다섯 번째, 비구조 웹문서로부터 온톨로지를 자동으로 구축하기 위한 기술이 있다. 비구조 웹문서로부터 다수의 개념 간의 관계를 추출하여 온톨로지를 자동으로 구축하기 위한 것이며, 인터넷 상에 존재하는 비구조 웹문서 및 데이터베이스의 다양한 정보로부터 패턴 자동 학습 및 패턴 자동 확장 방법을 통해 다수의 개념 간의 관계로 구성된 온톨로지의 인스턴스를 자동 추출함으로써 온톨로지를 구축 및 관리하기 위해 필요한 비용을 줄이며, 온톨로지 구축을 위한 정보 추출 성능을 지속적으로 향상시킨다.
여섯 번째, 텍스트에서 용어와 용어 사이의 관계를 추출하여 지식 그래프를 생성하는 기술이 있다. 또한 각 관계에 확률값을 제공한다. 지식 그래프와 SDAs(structured digital abstracts)는 텍스트의 디지털화된 요약을 제공한다. 자동으로 지식 그래프를 위한 용어, 관계를 추출하며, 지식 그래프를 구성하고 시각화하기 위한 다양한 방법과 시스템을 포함한다. 이와 같은 그래프와 요약은 전자 의료 기록 검색 시스템을 위한 의미 기반 검색, 신문, 경제, 역사와 같은 특정 도메인에 특화된 검색, 그리고 일반적인 인터넷 검색 등 다양한 응용 시스템에서 제한적이지만 유용하게 사용될 수 있다. 이러한 종래 기술은 텍스트에서 엔티티 사이의 관계를 추출하여, 그래프 구조로 표현하는 것이다.
일곱 번째, 정책(policy)을 해석하기 위한 도메인 전문적인 온톨로지를 구축하는 기술이 있다. 정책과 관련이 있다고 판단되는 구(phrase)를 입력으로 받는다. 구에서 의미 불완전 용어(indefinite term)를 인식(identify)한다. 구에서 추출한 다수의 의미 불완전 용어를 이용하여 인터넷 검색을 수행한다. 의미 불완전 용어에 대한 다수의 잠재적인 대체 용어(replacement terms)가 인터넷 검색에서 추출된다. 다수의 잠재적인 대체 용어의 빈도수를 기반으로 의미 불완전 용어에 대한 문맥 특화된 온톨로지를 생성한다. 정책은 의미 불완전 용어를 해석하기 위한 도메인 전문적인 온톨로지를 접근함으로써 해석된다. 의미 불완전 용어는 의미 불완전 용어를 다수의 문맥을 위한 온톨로지에 포함된 다수의 잠재적인 대체 용어에 대응(mapping)시킴으로서 의미가 결정되고, 온톨로지로부터 의미 불완전 용어의 해석을 기반으로 정책을 생성한다.
지금까지 설명한 바와 같은 종래 기술에 따른 온톨로지 구축 기술들은, 대상 텍스트를 특정 도메인으로 한정하거나 텍스트를 백과사전 엔트리나 웹 페이지의 테이블과 같은 구조정보로 한정하거나, 방법론적인 면에서 추출한 관계를 개체의 어휘 유사도를 이용하여 단순히 통합하거나, 온톨로지의 그래프 구조를 통계적으로 분석하는 수준에 머물고 있는 문제점이 있었다.
본 발명은 이와 같은 종래 기술의 문제점을 해결하기 위해 제안한 것으로서, 비구조 및 구조 문서에서 추출한 개체간 관계를 통합하여 정보의 손실을 최소화하면서 간결한 구조의 지식 그래프로 변환시킬 수 있는 지식 그래프 정제 장치 및 방법을 제공한다.
아울러, 지식 그래프 구조에서 추가적인 정제 방법을 통하여 관계 추출 과정의 오류를 제거하는 지식 그래프 정제 장치 및 방법을 제공한다.
본 발명의 제 1 관점으로서 지식 그래프 정제 방법은, 입력으로 주어진 엔티티 사이의 의미 관계 리스트에서 상기 엔티티의 이름과 유형을 기반으로 하여 동일한 엔티티들을 한 개의 노드로 표현한 지식 그래프를 생성하는 단계와, 상기 지식 그래프에서 상기 엔티티에 연결된 관계 유형과 상대방 엔티티의 비교를 통해 동일 엔티티 유형의 모든 가능한 엔티티 쌍 사이의 의미적 유사도를 계산하는 단계와, 계산한 상기 의미적 유사도를 기준으로 하여 상기 지식 그래프에서 의미적으로 유사한 상기 엔티티 쌍에서 대표 엔티티를 선택하여 나머지 엔티티를 상기 대표 엔티티에 통합하는 단계와, 그래프 분석과 통계 정보를 이용하여 상기 엔티티 간의 관계 가중치를 계산하여 상기 지식 그래프에 추가하는 단계를 포함할 수 있다.
여기서, 상기 지식 그래프 정제 방법은, 상기 관계 가중치와 기 설정된 의미 관계 유형의 제약 조건을 기반으로 하여 상기 지식 그래프에서 오류가 있는 의미 관계를 제거하는 단계를 더 포함할 수 있다.
상기 지식 그래프를 생성하는 단계는, 상기 의미 관계 리스트에서 상기 동일한 엔티티들을 통합하여 상기 지식 그래프를 생성하는 단계와, 생성한 상기 지식 그래프에서 각 의미 관계의 날짜를 이용하여 동일 의미 관계의 최초 날짜와 마지막 날짜를 관계 노드에 표현하는 단계와, 상기 의미 관계 리스트에서 동일한 의미 관계의 가중치 합을 계산하여 상기 지식 그래프에 표현하는 단계를 포함할 수 있다.
상기 의미적 유사도를 계산하는 단계는, 상기 엔티티 쌍을 특정 관계 유형 단위로 유사도를 계산하는 단계와, 상기 관계 유형 단위로 상기 엔티티의 유사도를 통합하여 계산하는 단계를 포함할 수 있다.
상기 대표 엔티티에 통합하는 단계는, 상기 엔티티 쌍의 상대적 포함 관계를 이용하여 상기 대표 엔티티를 선정하는 단계와, 상기 대표 엔티티를 중심으로 상기 엔티티 쌍에 관련된 관계를 통합하는 단계를 포함할 수 있다.
상기 대표 엔티티를 선정하는 단계는, 상기 상대적 포함 관계의 정도가 낮은 엔티티를 상기 대표 엔티티로 선정할 수 있다.
상기 지식 그래프에 추가하는 단계는, 상기 엔티티 사이의 관계 점수를 이용한 HITS(Hyperlink-Induced Topic Search) 알고리즘을 적용하여 상기 엔티티의 허브 점수와 권한 점수를 계산하는 단계와, 계산한 상기 허브 점수와 권한 점수를 이용하여 상기 엔티티 사이의 관계 점수를 계산하는 단계를 포함할 수 있다.
상기 엔티티의 허브 점수와 권한 점수를 계산하는 단계는, 모든 상기 의미 관계가 주어에서 목적어 방향으로 방향성이 있다고 정의할 수 있다.
상기 오류가 있는 의미 관계를 제거하는 단계는, 상기 지식 그래프에서 상기 관계 가중치와 상기 의미 관계 유형의 엔티티 카디날리티를 기반으로 하여 상기 오류가 있는 의미 관계를 제거할 수 있다.
상기 오류가 있는 의미 관계를 제거하는 단계는, 상기 지식 그래프에서 상기 관계 가중치와 상기 의미 관계 유형의 엔티티 카디날리티 및 상기 의미 관계의 시간 정보를 기반으로 하여 상기 오류가 있는 의미 관계를 제거할 수 있다.
본 발명의 제 2 관점으로서 지식 그래프 정제 방법은, 입력으로 주어진 엔티티 사이의 의미 관계 리스트에서 상기 엔티티의 이름과 유형을 기반으로 하여 동일한 엔티티들을 한 개의 노드로 표현한 지식 그래프를 생성하는 지식 그래프 생성부와, 상기 지식 그래프에서 상기 엔티티에 연결된 관계 유형과 상대방 엔티티의 비교를 통해 동일 엔티티 유형의 모든 가능한 엔티티 쌍 사이의 의미적 유사도를 계산하는 엔티티 유사도 계산부와, 계산한 상기 의미적 유사도를 기준으로 하여 상기 지식 그래프에서 의미적으로 유사한 상기 엔티티 쌍에서 대표 엔티티를 선택하여 나머지 엔티티를 상기 대표 엔티티에 통합하는 동일 엔티티 통합부와, 그래프 분석과 통계 정보를 이용하여 상기 엔티티 간의 관계 가중치를 계산하여 상기 지식 그래프에 추가하는 관계 가중치 계산부를 포함할 수 있다.
여기서, 상기 지식 그래프 정제 장치는, 상기 관계 가중치와 기 설정된 의미 관계 유형의 제약 조건을 기반으로 하여 상기 지식 그래프에서 오류가 있는 의미 관계를 제거하는 관계 오류 제거부를 더 포함할 수 있다.
상기 지식 그래프 생성부는, 상기 의미 관계 리스트에서 상기 동일한 엔티티들을 통합하여 상기 지식 그래프를 생성하고, 생성한 상기 지식 그래프에서 각 의미 관계의 날짜를 이용하여 동일 의미 관계의 최초 날짜와 마지막 날짜를 관계 노드에 표현하며, 상기 의미 관계 리스트에서 동일한 의미 관계의 가중치 합을 계산하여 상기 지식 그래프에 표현할 수 있다.
상기 엔티티 유사도 계산부는, 상기 엔티티 쌍을 특정 관계 유형 단위로 유사도를 계산하고, 상기 관계 유형 단위로 상기 엔티티의 유사도를 통합하여 계산할 수 있다.
상기 동일 엔티티 통합부는, 상기 엔티티 쌍의 상대적 포함 관계를 이용하여 상기 대표 엔티티를 선정하고, 상기 대표 엔티티를 중심으로 상기 엔티티 쌍에 관련된 관계를 통합할 수 있다.
상기 동일 엔티티 통합부는, 상기 상대적 포함 관계의 정도가 낮은 엔티티를 상기 대표 엔티티로 선정할 수 있다.
상기 관계 가중치 계산부는, 상기 엔티티 사이의 관계 점수를 이용한 HITS 알고리즘을 적용하여 상기 엔티티의 허브 점수와 권한 점수를 계산하고, 계산한 상기 허브 점수와 권한 점수를 이용하여 상기 엔티티 사이의 관계 점수를 계산할 수 있다.
상기 관계 가중치 계산부는, 모든 상기 의미 관계가 주어에서 목적어 방향으로 방향성이 있다고 정의할 수 있다.
상기 관계 오류 제거부는, 상기 지식 그래프에서 상기 관계 가중치와 상기 의미 관계 유형의 엔티티 카디날리티를 기반으로 하여 상기 오류가 있는 의미 관계를 제거할 수 있다.
상기 관계 오류 제거부는, 상기 지식 그래프에서 상기 관계 가중치와 상기 의미 관계 유형의 엔티티 카디날리티 및 상기 의미 관계의 시간 정보를 기반으로 하여 상기 오류가 있는 의미 관계를 제거할 수 있다.
본 발명의 실시예에 의하면, 엔티티 사이의 관계 리스트를 단순히 엔티티의 이름을 기준으로 지식 그래프로 통합하는데 그치지 않고, 엔티티 사이의 의미적 유사도를 계산하여 의미적으로 유사한 엔티티를 통합함으로써, 중복된 엔티티를 제거하여 지식 그래프의 구조를 단순화시킬 수 있다.
아울러, 통계 정보와 의미 관계 유형의 제약 조건을 이용하여 의미적으로 오류가 있는 관계를 제거함으로써, 엔티티 사이의 관계 추출 단계에서는 발견하기 어 려운 관계 오류를 그래프 단위의 제약 조건을 이용하여 제거하여 지식 그래프의 오류를 줄일 수 있다.
따라서, 질의 응답 시스템 등 지식 그래프 기반의 응용 프로그램 개발 시에 시스템의 정확도 및 효율성을 향상시키는 효과가 있다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 컴퓨터 프로그램 인스트럭션들은 범 용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.
또한, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행 되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
도 1은 본 발명의 실시예에 따른 통계와 그래프 분석에 기반한 지식 그래프 정제 장치의 블록 구성도이다.
이에 나타낸 바와 같이 본 발명의 실시예에 따른 지식 그래프 정제 장치는, 지식 그래프 생성부(110), 엔티티 유사도 계산부(120), 동일 엔티티 통합부(130), 관계 가중치 계산부(140), 관계 오류 제거부(150), 관계 제약조건 저장부(160) 등을 포함하여 구성된다.
지식 그래프 생성부(110)는 입력으로 주어진 엔티티 사이의 의미 관계 리스트에서 엔티티의 이름과 유형을 기반으로 하여 동일한 엔티티들을 한 개의 노드로 표현한 지식 그래프를 생성한다. 이를 위해, 의미 관계 리스트에서 동일한 엔티티들을 통합하여 지식 그래프를 생성하고, 생성한 지식 그래프에서 각 의미 관계의 날짜를 이용하여 동일 의미 관계의 최초 날짜와 마지막 날짜를 관계 노드에 표현하며, 의미 관계 리스트에서 동일한 의미 관계의 가중치 합을 계산하여 지식 그래프에 표현한다.
엔티티 유사도 계산부(120)는 지식 그래프에서 엔티티에 연결된 관계 유형과 상대방 엔티티의 비교를 통해 동일 엔티티 유형의 모든 가능한 엔티티 쌍 사이의 의미적 유사도를 계산한다. 이를 위해, 엔티티 쌍을 특정 관계 유형 단위로 유사도를 계산하고, 관계 유형 단위로 엔티티의 유사도를 통합하여 계산한다.
동일 엔티티 통합부(130)는 계산한 의미적 유사도를 기준으로 하여 지식 그래프에서 의미적으로 유사한 엔티티 쌍에서 대표 엔티티를 선택하여 나머지 엔티티를 대표 엔티티에 통합한다. 이를 위해, 엔티티 쌍의 상대적 포함 관계를 이용하여 대표 엔티티를 선정하고, 대표 엔티티를 중심으로 엔티티 쌍에 관련된 관계를 통합한다. 여기서, 상대적 포함 관계의 정도가 낮은 엔티티를 대표 엔티티로 선정한다.
관계 가중치 계산부(140)는 그래프 분석과 통계 정보를 이용하여 엔티티 간의 관계 가중치를 계산하여 지식 그래프에 추가한다. 이를 위해, 엔티티 사이의 관계 점수를 이용한 HITS 알고리즘을 적용하여 엔티티의 허브(Hub) 점수와 권한(Authority) 점수를 계산하고, 계산한 허브 점수와 권한 점수를 이용하여 엔티티 사이의 관계 점수를 계산한다. 이때, 모든 의미 관계가 주어에서 목적어 방향으로 방향성이 있다고 정의한다.
관계 오류 제거부(150)는 관계 가중치와 관계 제약 조건 저장부(160)에 기 설정된 의미 관계 유형의 제약 조건을 기반으로 하여 지식 그래프에서 오류가 있는 의미 관계를 제거한다. 이를 위해, 첫 번째로, 지식 그래프에서 관계 가중치와 의미 관계 유형의 엔티티 카디날리티를 기반으로 하여 오류가 있는 의미 관계를 제거한다. 두 번째로, 지식 그래프에서 관계 가중치와 의미 관계 유형의 엔티티 카디날리티 및 의미 관계의 시간 정보를 기반으로 하여 오류가 있는 의미 관계를 제거할 수 있다. 이러한 첫 번째와 두 번째의 오류 제거 과정을 어느 하나만 택일하여 수행할 수도 있고, 두 과정을 모두 수행할 수도 있다.
이하에서는 도 2 내지 도 10을 참조하여 본 발명의 실시예에 따른 지식 그래프 정제 장치에 의한 지식 그래프 정제 방법에 대해 설명하기로 한다.
앞으로의 설명을 위하여 엔티티 집합 E, 관계 유형 집합 R을 아래의 수학식 1과 같이 정의한다. e i는 한 개의 엔티티를 나타내고, 엔티티 이름과 엔티티 유형 정보를 포함한다. 예에서 엔티티 e는 엔티티 유형이 'OGG_BUSINESS' (기업)인 '엔씨개발사'라는 이름을 가진 엔티티를 표현하고 있다. 엔티티 집합 E에 포함된 모든 엔티티의 의미는 해당 네임스페이스에서 유일하다는 가정을 한다. 즉 서로 다른 의미를 나타내는 엔티티가 같은 이름으로 표현되는 경우는 없다. R은 의미 관계 유형의 집합이고, 하나의 의미 관계 유형 rj는 '관계 이름', '주어'(subject), '목적어'(object)로 올 수 있는 엔티티의 유형, 주어와 목적어의 최대 카디날리티(maximum cardinality) 정보를 표현한다. 엔티티의 최대 카디날리티는 주어진 관계 유형에서 한 개의 주어 엔티티에 대하여 목적어로 나타날 수 있는 엔티티의 최대 개수 또는 그 반대로 한 개의 목적어 엔티티에 대하여 주어로 나타날 수 있는 엔티티의 최대 개수를 표현한다. 본 발명에서는 카디날리티 정보를 1, N, NTIME_UNIQUE세 가지로 표현한다. "1"은 한 개의 엔티티만 허용한다는 뜻이고, "N"은 복수 개의 엔티티를 허용한 다는 뜻이며, "NTIME_UNIQUE"복수 개의 엔티티를 허용하지만 동일한 시간에는 1개만 허용한다는 것을 의미한다. 예를 들어 "has_ceo" 관계에서 '주어'의 엔티티 유형은 'OGG_BUSINESS' (기업)이고, '목적어'의 엔티티 유형은 'PERSON'이며, 한 개의 기업은 여러 명의 소유주가 있을 수 있지만, 한 순간에는 한 명이 고, 즉 동시에 여러 명의 소유주가 있을 수 없으며, 한 사람은 여러 개의 기업을 경영할 수 있다는 사실을 |e subj|=N,|e obj|=N_TIME_UNIQUE이라고 표현한다. 또한 "has_product" 관계에서 '주어'의 엔티티 유형은 'OGG_BUSINESS'이고, '목적어'의 엔티티 유형은 "PRODUCT"이며, 한 개의 기업은 여러 개의 제품을 생산할 수 있고, 한 개의 제품은 한 개의 기업에서만 생산할 수 있다는 사실을 |e subj|=1,|e obj|=N이라고 표현한다.
Figure 112009075916719-pat00001
또한, 개별 의미 관계 집합 SR을 아래의 수학식 2와 같이 정의한다. 한 개의 sri는 의미관계 유형r에 실제 엔티티가 맵핑된 형태이다. sr i는 "주어" (e subj),"목적어" (e obj)에 해당하는 두 개의 엔티티와 두 엔티티의 의미적 관계를 표현하는 "의미관계 유형" (r j)세 개의 기본 구성요소와 의미관계 가중치 (rel_weight), 날짜 (date)로 구성된다. 의미관계 가중치에는 관계 추출 단계에서 부여한 값으로, 0에 서 1사이로 정규화하여 할당된다. 의미 관계 가중치는 관계 추출 방법에 따라서 서로 다른 값을 가질 수 있다. 날짜는 해당 의미 관계가 참(TRUE)인 날짜를 나타내며, 정확한 날짜 정보를 찾을 수 없는 경우는 관계를 추출한 문서를 생성한 날짜를 지정한다. 관계를 추출한 문서가 신문기사인 경우 해당 기사의 날짜를 지정한다. 예에서 "엔씨개발사"라는 기업(OGG_BUSINESS)과 "프로그램2"라는 제품(PRODUCT) 사이에 "has_product"라는 의미관계를 가지며, 가중치는 0.0839이고, 관계를 추출한 문서의 생성일은 "2007/12/06"이다. 동일한 문서에서 또는 서로 다른 문서에서 동일한 의미 관계가 여러 번 추출될 수 있다. 즉, 의미 관계 리스트에는 동일한 의미 관계가 여러 번 나타날 수 있다. 따라서 동일한 의미 관계가 서로 다른 가중치와 날짜 정보를 가질 수 있다.
Figure 112009075916719-pat00002
도 2는 본 발명의 실시예에 따른 통계와 그래프 분석에 기반한 지식 그래프 정제 장치를 구성하는 지식 그래프 생성부(110)가 수행하는 본 발명의 실시예에 따른 지식 그래프 정제 방법 중의 일부를 설명하기 위한 흐름도이고, 도 3은 지식 그래프 생성부(110)의 결과물인 초기 지식 그래프의 일예이다.
지식 그래프 생성부(110)는 의미 관계 리스트 SR을 입력으로 받아서 초기 지식 그래프를 생성한다. "엔티티 이름, 유형 기반 그래프 생성"(S201) 단계에서는 엔티티의 이름과 유형을 기준으로 의미 관계 리스트를 통합하여 지식 그래프로 변환한다. 동일한 엔티티는 하나의 엔티티로 통합하며, 동일한 엔티티에 대한 동일한 의미관계는 한 개만 표현한다. 의미 관계에서 주어, 목적어를 구분하기 위하여 화살표를 주어에서 목적어 방향으로 표현한다. "의미 관계 날짜 정보 부여"(S203) 단계에서는 동일한 의미 관계가 1개 이상 SR에 포함되어 있는 경우, 가장 앞선 날짜(FIRST_DATE)와 마지막 날짜(LAST_DATE)를 관계 노드에 표현한다. "의미 관계 가중치 계산"(S205) 단계에서는 동일한 의미 관계가 1개 이상 SR에 포함되어 있는 경우, 동일한 의미 관계의 가중치 합(REL_WEIGHT)을 표현한다.
도 3에서 원은 엔티티를 표현하고, 네모는 엔티티 사이의 의미관계를 표현한다. 엔티티 "엔씨개발사:OGG_BUSINESS"는 "프로그램1:PRODUCT", "프로그램2:PRODUCT"와 "has_product"관계를 가진다. (has_product, 엔씨개발사:OGG_BUSINESS, 프로그램2:PRODUCT)의 가중치가 (has_product, 엔씨개발사:OGG_BUSINESS, 프로그램1:PRODUCT)의 가중치보다 높은 것은 "엔씨개발사"의 여러 제품 중에서 "프로그램2"가 더 대표적이라는 것을 뜻한다. "NC개발사:OGG_BUSINESS"는 "엔씨개발사:OGG_BUSINESS"와 동일한 의미를 가진 엔티티이지 만 서로 다른 표현으로 사용되기 때문에 별도의 엔티티로 표현한다. 이후에, 엔티티 유사도 계산부(120)와 동일 엔티티 통합부(130)에서 서로 같은 엔티티로 인식하고 통합을 수행한다.
도 4는 본 발명의 실시예에 따른 통계와 그래프 분석에 기반한 지식 그래프 정제 장치를 구성하는 엔티티 유사도 계산부(120)가 수행하는 본 발명의 실시예에 따른 지식 그래프 정제 방법 중의 일부를 설명하기 위한 흐름도이다.
엔티티 유사도 계산부(120)는 동일 엔티티 유형의 모든 가능한 엔티티 쌍을 비교하는 데 있어서, "관계 유형 단위 엔티티 유사도 계산"(S301) 단계에서는 아래의 수학식 3을 적용하여 비교 대상 두 엔티티에 연계된 모든 관계 유형 단위로 엔티티의 유사도 rsim(e 1,e 2,r)을 계산한다. 이 수학식 3은 두 엔티티의 관계 유형 r로 연결된 엔티티 중 공통적인 것이 많은 경우 높은 점수를 얻게 된다.
Figure 112009075916719-pat00003
"통합 엔티티 유사도 계산"(S303) 단계에서는 아래의 수학식 4를 사용하여 관계 단위의 유사도의 평균값으로 엔티티 사이의 유사도 esim(e 1,e 2,r)를 계산한다. 이 수학식 4에서는 두 엔티티가 공통으로 가지는 관계 유형의 개수가 많고, 각 관계 유형별로 공통적인 엔티티와 많이 연결된 경우 높은 점수를 얻게 된다.
Figure 112009075916719-pat00004
도 3에서 "엔씨개발사:OGG_BUSINESS"와 "NC개발사:OGG_BUSINESS" 는 모두 "has_ceo"와 "has_product" 관계 유형을 이용하여 다른 엔티티와 관계를 가지고 있다. 다른 점은 "엔씨개발사:OGG_BUSINESS"가 "has_product"의 목적어로 "프로그램1:PRODUCT"을 추가로 가지며, "has_ceo"의 목적어로 "LEE"PERSON"을 추가로 가진다. 수학식 3, 수학식 4를 이용하여 두 엔티티의 유사도를 계산하면 다음의 수학식 5와 같다.
Figure 112009075916719-pat00005
도 3에서 "NC개발사:OGG_BUSINESS"와 "에이쓰리보안그룹:OGG_BUSINESS" 유사도를 수학식 3, 수학식 4를 이용하여 계산하면 다음의 수학식 6과 같다.
Figure 112009075916719-pat00006
도 5는 본 발명의 실시예에 따른 통계와 그래프 분석에 기반한 지식 그래프 정제 장치를 구성하는 동일 엔티티 통합부(130)가 수행하는 본 발명의 실시예에 따른 지식 그래프 정제 방법 중의 일부를 설명하기 위한 흐름도이고, 도 6은 동일 엔티티 통합부(130)의 결과물인 통합된 지식 그래프의 일예이다.
동일 엔티티 통합부(130)는 엔티티 유사도 계산부(120)에 의해 계산된 엔티티 유사도 중에서 임계치를 넘는 엔티티 쌍을 지식 그래프에서 하나의 엔티티 노드로 통합한다. "대표 엔티티 선정"(S401) 단계에서는 통합 대상인 두 엔티티 e1, e 2 중에서 상대적 포함관계(subsumption)의 정도가 낮은 엔티티를 대표 엔티티로 지정한다. 두 엔티티 사이의 상대적 포함관계 척도 subsume(e 1,e 2)는 e1이 e2에 의미적으로 포함되는 정도를 표현하고 아래의 수학식 7을 이용하여 계산한다. 이 수학식 7에서는 각각의 관계 유형 단위로 e1에 연결된 엔티티 중에서, e 2와도 연결된 엔티티의 비율 r_subsume(e 1,e 2 ,r)을 계산한 후, 평균값을 e1이 e2에 대한 상대적 포함관계의 정도로 정의한다. subsume(e 1,e 2)이 큰 경우는 e1에 연결된 엔티티 중 다수가 e2에서도 동일한 관계 유형으로 연결된 것을 의미한다. subsume(e 1,e 2)이 subsume(e 2,e 1)보다 큰 경우 e2를 대표 엔티티로 지정하고, e 1을 종속 엔티티로 지정한다.
Figure 112009075916719-pat00007
수학식 7을 이용하여 도 3에서 "엔씨개발사:OGG_BUSINESS", "NC개발사:OGG_BUSINESS"의 상대적인 포함관계 정도를 계산하면 다음의 수학식 8과 같다. 이 결과에서 "엔씨개발사:OGG_BUSINESS"가 "NC개발사:OGG_BUSINESS"에 포함되는 정도는 0.5이고, 반대로 "NC개발사:OGG_BUSINESS"가 "엔씨개발사:OGG_BUSINESS"에 포함되는 정도는 1.0 이다. "엔씨개발사:OGG_BUSINESS"를 대표 엔티티로 "NC개발 사:OGG_BUSINESS"를 종속 엔티티로 지정한다.
Figure 112009075916719-pat00008
"대표 엔티티 중심의 엔티티, 관계 통합"(S403)" 단계에서는 지식 그래프에서 대표 엔티티에 종속 엔티티를 통합한다. 종속 엔티티의 이름을 대표 엔티티에 "OTHER_NAME" 항목에 추가한다. 통합된 관계의 "FIRST_DATE" 항목은 두 관계의 날짜 중 앞 날짜를 기록하며, "LAST_DATE" 항목은 두 관계의 날짜 중 뒤 날짜를 기록 한다. 도 6은 도 3의 "NC개발사:OGG_BUSINESS"가 "엔씨개발사:OGG_BUSINESS"에 통합된 후의 지식 그래프를 표현하고 있다. "엔씨개발사:OGG_BUSINESS"의 "OTHER_NAME"에 "NC개발사"가 추가되었고, (has_product, 엔씨개발사:OGG_BUSINESS, 프로그램2:PRODUCT)관계의 FIRST_DATE와 LAST_DATE는 (has_product, NC개발사:OGG_BUSINESS, 프로그램2:PRODUCT)관계의 FIRST_DATE와 LAST_DATE와 비교하여 각각 작은 값과 큰 값을 할당하였다. 마찬가지로 (has_ceo, 엔씨개발사:OGG_BUSINESS, KIM:PERSON)의 FIRST_DATE와 LAST_DATE 항목도 (has_ceo, NC개발사:OGG_BUSINESS, KIM:PERSON)의 FIRST_DATE와 LAST_DATE 항목과 비교하여 각각 작은 값과 큰 값을 할당하였다.
도 7은 본 발명의 실시예에 따른 통계와 그래프 분석에 기반한 지식 그래프 정제 장치를 구성하는 관계 가중치 계산부(140)가 수행하는 본 발명의 실시예에 따른 지식 그래프 정제 방법 중의 일부를 설명하기 위한 흐름도이고, 도 8은 관계 가중치 계산부(140)의 결과물인 가중치 부가 지식 그래프의 일예이다.
관계 가중치 계산부(140)는 웹 페이지 사이의 링크 정보를 이용하여 웹 페이지의 중요도를 계산하는 HITS 알고리즘을 수정한 "가중치 기반 HITS 알고리즘"을 적용하여 관계의 중요도를 계산한다. 먼저 "HITS 알고리즘을 이용한 엔티티 점수 계산"(S501) 단계에서는 HITS 알고리즘을 이용하여 엔티티의 권한 점수와 허브 점수를 계산한다. HITS 알고리즘은 그래프 구조에서 노드 사이의 링크정보를 이용하여 노드의 가중치를 계산하는 방법으로서, 모든 노드는 권한 점수와 허브 점수를 가지고, 링크정보를 이용하여 반복적으로 상호 참조하면서 점수를 갱신한다. 이 알고리즘을 적용하기 위하여 본 발명에서 제안한 지식 그래프에서 모든 관계는 주어에서 목적어 방향으로 방향성이 있다고 정의한다. 아래의 수학식 9와 같이 어떤 엔티티의 권한은 그 엔티티로 들어오는 다른 모든 관계의 상대방 엔티티의 허브 점수와 관계 가중치를 이용하여 계산한다. 또한 엔티티의 허브 점수는 그 엔티티에서 밖으로 나가는 관계의 상대방 엔티티의 권한 점수와 관계 가중치를 이용하여 계산한다. 엔티티의 권한 점수는 자신으로 들어오는 관계의 수가 많고 관계 가중치가 높을수록 높아지고, 엔티티의 허브 점수는 자신에서 나가는 관계의 수가 많고 관계 가중치가 높을수록 점수가 높아진다.
Figure 112009075916719-pat00009
"엔티티 점수 기반 관계 점수 계산"(S503) 단계에서는 아래의 수학식 10과 같이 의미관계에 포함된 '주어'의 허브 점수와 목적어의 권한 점수의 산술 평균으로 의미 관계의 HITS_WEIGHT를 계산한다. 도 8은 도 6의 지식 그래프에서 각 엔티티에 권한 점수, 허브 점수가 추가되었고, 관계에 HITS_WEIGHT가 추가되었다.
Figure 112009075916719-pat00010
도 9는 본 발명의 실시예에 따른 통계와 그래프 분석에 기반한 지식 그래프 정제 장치를 구성하는 관계 오류 제거부(150)가 수행하는 본 발명의 실시예에 따른 지식 그래프 정제 방법 중의 일부를 설명하기 위한 흐름도이고, 도 10은 관계 오류 제거부(150)의 결과물인 오류관계 제거 지식 그래프의 일예이다.
본 발명에 의한 정제 장치에 입력되는 의미 관계 리스트는 관계 추출 단계에서 오류가 있을 수 있다고 가정하고, 관계 오류 제거부(150)는 이전의 구성요소 또는 구성단계에서 계산한 지식 그래프의 의미관계의 가중치와 관계 제약 조건 저장부(160)에 저장된 의미 관계 유형의 카디날리티 제약 조건을 이용하여 오류가 있는 관계를 제거한다.
"관계 가중치, 카디날리티 기반 오류 관계 제거"(S601) 단계를 살펴보면, 도 8에서 "프로그램2:PRODUCT"는 "엔씨개발사:OGG_BUSINESS", "에이쓰리보안그룹:OGG_BUSINESS" 두 개의 엔티티와 "has_product" 관계를 가진다. 수학식 1의 예에서 "has_product" 관계에서 1개의 기업(OGG_BUSINESS)은 여러 개의 제품(PRODUCT)을 생산할 수 있고, 반대로, 한 개의 제품은 반드시 한 개의 기업에 의하여 생산되어야 한다. 도 8에 표현된 두 개의 "프로그램2:PRODUCT"의 제조회사 중에서 한 개를 선택하고, 나머지 관계는 삭제한다. 선택하는 기준은 관계에 표현된 "REL_WEIGHT" 또는 "HITS_WEIGHT"를 이용하여 가장 가중치가 높은 관계만 남기고 나머지는 삭제한다.
또 다른 예로서 "관계 가중치, 카디날리티, 시간 정보 기반 오류 관계 제거"(S603) 단계를 살펴보면, 수학식 1의 "has_ceo" 관계는 한 개의 회사는 여러 명의 최고경영자(CEO)가 있을 수 있지만, 동일한 기간에는 한 명만 존재한다는 제약 조건을 표시하고 있다. 도 8에서 "엔씨개발사:OGG_BUSINESS"는 "KIM:PERSON", "LEE:PERSON" 두 개의 엔티티와 "has_ceo" 관계를 가진다. 두 엔티티가 동일 기간에 "엔씨개발사:OGG_BUSINESS"와 "has_ceo" 관계를 가지지 않으면 모두 허용한다. 그러나 이 예에서 "has_ceo" 관계의 "FIRST_DATE", "LAST_DATE" 값을 참조하면 두 엔티티가 "엔씨개발사:OGG_BUSINESS"의 최고경영자인 시기가 겹친다. 이 경우는 관계에 표현된 "REL_WEIGHT" 또는 "HIST_WEIGHT"를 이용하여 가중치가 낮은 관계를 제거한다. 도 10은 도 8의 지식 그래프에서 오류관계가 제거된 지식 그래프이다.
도 1은 본 발명의 실시예에 따른 통계와 그래프 분석에 기반한 지식 그래프 정제 장치의 블록 구성도,
도 2는 본 발명의 실시예에 따른 통계와 그래프 분석에 기반한 지식 그래프 정제 장치를 구성하는 지식 그래프 생성부가 수행하는 본 발명의 실시예에 따른 지식 그래프 정제 방법 중의 일부를 설명하기 위한 흐름도,
도 3은 본 발명의 실시예에 따른 통계와 그래프 분석에 기반한 지식 그래프 정제 장치를 구성하는 지식 그래프 생성부의 결과물인 초기 지식 그래프의 일예,
도 4는 본 발명의 실시예에 따른 통계와 그래프 분석에 기반한 지식 그래프 정제 장치를 구성하는 엔티티 유사도 계산부가 수행하는 본 발명의 실시예에 따른 지식 그래프 정제 방법 중의 일부를 설명하기 위한 흐름도,
도 5는 본 발명의 실시예에 따른 통계와 그래프 분석에 기반한 지식 그래프 정제 장치를 구성하는 동일 엔티티 통합부가 수행하는 본 발명의 실시예에 따른 지식 그래프 정제 방법 중의 일부를 설명하기 위한 흐름도,
도 6은 본 발명의 실시예에 따른 통계와 그래프 분석에 기반한 지식 그래프 정제 장치를 구성하는 동일 엔티티 통합부의 결과물인 통합된 지식 그래프의 일예,
도 7은 본 발명의 실시예에 따른 통계와 그래프 분석에 기반한 지식 그래프 정제 장치를 구성하는 관계 가중치 계산부가 수행하는 본 발명의 실시예에 따른 지식 그래프 정제 방법 중의 일부를 설명하기 위한 흐름도,
도 8은 본 발명의 실시예에 따른 통계와 그래프 분석에 기반한 지식 그래프 정제 장치를 구성하는 관계 가중치 계산부의 결과물인 가중치 부가 지식 그래프의 일예,
도 9는 본 발명의 실시예에 따른 통계와 그래프 분석에 기반한 지식 그래프 정제 장치를 구성하는 관계 오류 제거부가 수행하는 본 발명의 실시예에 따른 지식 그래프 정제 방법 중의 일부를 설명하기 위한 흐름도,
도 10은 본 발명의 실시예에 따른 통계와 그래프 분석에 기반한 지식 그래프 정제 장치를 구성하는 관계 오류 제거부의 결과물인 오류관계 제거 지식 그래프의 일예.
<도면의 주요 부분에 대한 부호의 설명>
110 : 지식 그래프 생성부 120 : 엔티티 유사도 계산부
130 : 동일 엔티티 통합부 140 : 관계 가중치 계산부
150 : 관계 오류 제거부 160 : 관계 제약 조건 저장부

Claims (20)

  1. 삭제
  2. 지식 그래프 정제 장치에 의한 지식 그래프 정제 방법으로서,
    입력으로 주어진 엔티티 사이의 의미 관계 리스트에서 상기 엔티티의 이름과 유형을 기반으로 하여 동일한 엔티티들을 한 개의 노드로 표현한 지식 그래프를 생성하는 단계와,
    상기 지식 그래프에서 상기 엔티티에 연결된 관계 유형과 상대방 엔티티의 비교를 통해 동일 엔티티 유형의 모든 가능한 엔티티 쌍 사이의 의미적 유사도를 계산하는 단계와,
    계산한 상기 의미적 유사도를 기준으로 하여 상기 지식 그래프에서 의미적으로 유사한 상기 엔티티 쌍에서 대표 엔티티를 선택하여 나머지 엔티티를 상기 대표 엔티티에 통합하는 단계와,
    그래프 분석과 통계 정보를 이용하여 상기 엔티티 간의 관계 가중치를 계산하여 상기 지식 그래프에 추가하는 단계와,
    상기 관계 가중치와 기 설정된 의미 관계 유형의 제약 조건을 기반으로 하여 상기 지식 그래프에서 오류가 있는 의미 관계를 제거하는 단계를 포함하는
    지식 그래프 정제 방법.
  3. 제 2 항에 있어서,
    상기 지식 그래프를 생성하는 단계는,
    상기 의미 관계 리스트에서 상기 동일한 엔티티들을 통합하여 상기 지식 그래프를 생성하는 단계와,
    생성한 상기 지식 그래프에서 각 의미 관계의 날짜를 이용하여 동일 의미 관계의 최초 날짜와 마지막 날짜를 관계 노드에 표현하는 단계와,
    상기 의미 관계 리스트에서 동일한 의미 관계의 가중치 합을 계산하여 상기 지식 그래프에 표현하는 단계를 포함하는
    지식 그래프 정제 방법.
  4. 제 2 항에 있어서,
    상기 의미적 유사도를 계산하는 단계는,
    상기 엔티티 쌍을 특정 관계 유형 단위로 유사도를 계산하는 단계와,
    상기 관계 유형 단위로 상기 엔티티의 유사도를 통합하여 계산하는 단계를 포함하는
    지식 그래프 정제 방법.
  5. 제 2 항에 있어서,
    상기 대표 엔티티에 통합하는 단계는,
    상기 엔티티 쌍의 상대적 포함 관계를 이용하여 상기 대표 엔티티를 선정하는 단계와,
    상기 대표 엔티티를 중심으로 상기 엔티티 쌍에 관련된 관계를 통합하는 단계를 포함하는
    지식 그래프 정제 방법.
  6. 제 5 항에 있어서,
    상기 대표 엔티티를 선정하는 단계는, 상기 상대적 포함 관계의 정도가 낮은 엔티티를 상기 대표 엔티티로 선정하는
    지식 그래프 정제 방법.
  7. 제 2 항에 있어서,
    상기 지식 그래프에 추가하는 단계는,
    상기 엔티티 사이의 관계 점수를 이용한 HITS(Hyperlink-Induced Topic Search) 알고리즘을 적용하여 상기 엔티티의 허브 점수와 권한 점수를 계산하는 단계와,
    계산한 상기 허브 점수와 권한 점수를 이용하여 상기 엔티티 사이의 관계 점수를 계산하는 단계를 포함하는
    지식 그래프 정제 방법.
  8. 제 7 항에 있어서,
    상기 엔티티의 허브 점수와 권한 점수를 계산하는 단계는, 모든 상기 의미 관계가 주어에서 목적어 방향으로 방향성이 있다고 정의하는
    지식 그래프 정제 방법.
  9. 제 2 항에 있어서,
    상기 오류가 있는 의미 관계를 제거하는 단계는,
    상기 지식 그래프에서 상기 관계 가중치와 상기 의미 관계 유형의 엔티티 카디날리티를 기반으로 하여 상기 오류가 있는 의미 관계를 제거하는
    지식 그래프 정제 방법.
  10. 제 2 항에 있어서,
    상기 오류가 있는 의미 관계를 제거하는 단계는,
    상기 지식 그래프에서 상기 관계 가중치와 상기 의미 관계 유형의 엔티티 카디날리티 및 상기 의미 관계의 시간 정보를 기반으로 하여 상기 오류가 있는 의미 관계를 제거하는
    지식 그래프 정제 방법.
  11. 삭제
  12. 입력으로 주어진 엔티티 사이의 의미 관계 리스트에서 상기 엔티티의 이름과 유형을 기반으로 하여 동일한 엔티티들을 한 개의 노드로 표현한 지식 그래프를 생성하는 지식 그래프 생성부와,
    상기 지식 그래프에서 상기 엔티티에 연결된 관계 유형과 상대방 엔티티의 비교를 통해 동일 엔티티 유형의 모든 가능한 엔티티 쌍 사이의 의미적 유사도를 계산하는 엔티티 유사도 계산부와,
    계산한 상기 의미적 유사도를 기준으로 하여 상기 지식 그래프에서 의미적으로 유사한 상기 엔티티 쌍에서 대표 엔티티를 선택하여 나머지 엔티티를 상기 대표 엔티티에 통합하는 동일 엔티티 통합부와,
    그래프 분석과 통계 정보를 이용하여 상기 엔티티 간의 관계 가중치를 계산하여 상기 지식 그래프에 추가하는 관계 가중치 계산부와,
    상기 관계 가중치와 기 설정된 의미 관계 유형의 제약 조건을 기반으로 하여 상기 지식 그래프에서 오류가 있는 의미 관계를 제거하는 관계 오류 제거부를 포함하는
    지식 그래프 정제 장치.
  13. 제 12 항에 있어서,
    상기 지식 그래프 생성부는, 상기 의미 관계 리스트에서 상기 동일한 엔티티들을 통합하여 상기 지식 그래프를 생성하고, 생성한 상기 지식 그래프에서 각 의미 관계의 날짜를 이용하여 동일 의미 관계의 최초 날짜와 마지막 날짜를 관계 노드에 표현하며, 상기 의미 관계 리스트에서 동일한 의미 관계의 가중치 합을 계산하여 상기 지식 그래프에 표현하는
    지식 그래프 정제 장치.
  14. 제 12 항에 있어서,
    상기 엔티티 유사도 계산부는, 상기 엔티티 쌍을 특정 관계 유형 단위로 유사도를 계산하고, 상기 관계 유형 단위로 상기 엔티티의 유사도를 통합하여 계산하는
    지식 그래프 정제 장치.
  15. 제 12 항에 있어서,
    상기 동일 엔티티 통합부는, 상기 엔티티 쌍의 상대적 포함 관계를 이용하여 상기 대표 엔티티를 선정하고, 상기 대표 엔티티를 중심으로 상기 엔티티 쌍에 관련된 관계를 통합하는
    지식 그래프 정제 장치.
  16. 제 15 항에 있어서,
    상기 동일 엔티티 통합부는, 상기 상대적 포함 관계의 정도가 낮은 엔티티를 상기 대표 엔티티로 선정하는
    지식 그래프 정제 장치.
  17. 제 12 항에 있어서,
    상기 관계 가중치 계산부는, 상기 엔티티 사이의 관계 점수를 이용한 HITS(Hyperlink-Induced Topic Search) 알고리즘을 적용하여 상기 엔티티의 허브 점수와 권한 점수를 계산하고, 계산한 상기 허브 점수와 권한 점수를 이용하여 상기 엔티티 사이의 관계 점수를 계산하는
    지식 그래프 정제 장치.
  18. 제 17 항에 있어서,
    상기 관계 가중치 계산부는, 모든 상기 의미 관계가 주어에서 목적어 방향으로 방향성이 있다고 정의하는
    지식 그래프 정제 장치.
  19. 제 12 항에 있어서,
    상기 관계 오류 제거부는, 상기 지식 그래프에서 상기 관계 가중치와 상기 의미 관계 유형의 엔티티 카디날리티를 기반으로 하여 상기 오류가 있는 의미 관계를 제거하는
    지식 그래프 정제 장치.
  20. 제 12 항에 있어서,
    상기 관계 오류 제거부는, 상기 지식 그래프에서 상기 관계 가중치와 상기 의미 관계 유형의 엔티티 카디날리티 및 상기 의미 관계의 시간 정보를 기반으로 하여 상기 오류가 있는 의미 관계를 제거하는
    지식 그래프 정제 장치.
KR1020090121578A 2009-12-09 2009-12-09 지식 그래프 정제 장치 및 방법 KR101306667B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020090121578A KR101306667B1 (ko) 2009-12-09 2009-12-09 지식 그래프 정제 장치 및 방법
US12/877,063 US8407253B2 (en) 2009-12-09 2010-09-07 Apparatus and method for knowledge graph stabilization

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090121578A KR101306667B1 (ko) 2009-12-09 2009-12-09 지식 그래프 정제 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20110064833A KR20110064833A (ko) 2011-06-15
KR101306667B1 true KR101306667B1 (ko) 2013-09-10

Family

ID=44083036

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090121578A KR101306667B1 (ko) 2009-12-09 2009-12-09 지식 그래프 정제 장치 및 방법

Country Status (2)

Country Link
US (1) US8407253B2 (ko)
KR (1) KR101306667B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016089110A1 (ko) * 2014-12-02 2016-06-09 주식회사 솔트룩스 엔트리 기반 지식자원 생성 장치 및 방법
US10423614B2 (en) 2016-11-08 2019-09-24 International Business Machines Corporation Determining the significance of an event in the context of a natural language query
US10459960B2 (en) 2016-11-08 2019-10-29 International Business Machines Corporation Clustering a set of natural language queries based on significant events
WO2021054588A1 (en) * 2019-09-19 2021-03-25 Samsung Electronics Co., Ltd. Method and apparatus for providing content based on knowledge graph
KR102520414B1 (ko) 2022-11-23 2023-04-11 주식회사 큐레아 지식 그래프를 생성하는 기법

Families Citing this family (153)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9456054B2 (en) 2008-05-16 2016-09-27 Palo Alto Research Center Incorporated Controlling the spread of interests and content in a content centric network
US8923293B2 (en) 2009-10-21 2014-12-30 Palo Alto Research Center Incorporated Adaptive multi-interface use for content networking
KR101306667B1 (ko) * 2009-12-09 2013-09-10 한국전자통신연구원 지식 그래프 정제 장치 및 방법
US9390174B2 (en) * 2012-08-08 2016-07-12 Google Inc. Search result ranking and presentation
US9336311B1 (en) 2012-10-15 2016-05-10 Google Inc. Determining the relevancy of entities
US9355367B2 (en) 2013-03-07 2016-05-31 International Business Machines Corporation System and method for using graph transduction techniques to make relational classifications on a single connected network
US10713261B2 (en) 2013-03-13 2020-07-14 Google Llc Generating insightful connections between graph entities
US9235653B2 (en) * 2013-06-26 2016-01-12 Google Inc. Discovering entity actions for an entity graph
US10098051B2 (en) 2014-01-22 2018-10-09 Cisco Technology, Inc. Gateways and routing in software-defined manets
US9954678B2 (en) 2014-02-06 2018-04-24 Cisco Technology, Inc. Content-based transport security
US11314556B2 (en) * 2014-03-01 2022-04-26 Microsoft Technology Licensing, Llc. Shadowing local on-premises information to a cloud-based computing system
US9836540B2 (en) 2014-03-04 2017-12-05 Cisco Technology, Inc. System and method for direct storage access in a content-centric network
US9626413B2 (en) 2014-03-10 2017-04-18 Cisco Systems, Inc. System and method for ranking content popularity in a content-centric network
US9716622B2 (en) 2014-04-01 2017-07-25 Cisco Technology, Inc. System and method for dynamic name configuration in content-centric networks
US20150286709A1 (en) * 2014-04-02 2015-10-08 Samsung Electronics Co., Ltd. Method and system for retrieving information from knowledge-based assistive network to assist users intent
US9473576B2 (en) 2014-04-07 2016-10-18 Palo Alto Research Center Incorporated Service discovery using collection synchronization with exact names
US9542648B2 (en) * 2014-04-10 2017-01-10 Palo Alto Research Center Incorporated Intelligent contextually aware digital assistants
US9992281B2 (en) 2014-05-01 2018-06-05 Cisco Technology, Inc. Accountable content stores for information centric networks
CN103995847B (zh) * 2014-05-06 2017-08-18 百度在线网络技术(北京)有限公司 信息搜索方法及其装置
US9609014B2 (en) 2014-05-22 2017-03-28 Cisco Systems, Inc. Method and apparatus for preventing insertion of malicious content at a named data network router
US9699198B2 (en) 2014-07-07 2017-07-04 Cisco Technology, Inc. System and method for parallel secure content bootstrapping in content-centric networks
US9621354B2 (en) 2014-07-17 2017-04-11 Cisco Systems, Inc. Reconstructable content objects
US9729616B2 (en) 2014-07-18 2017-08-08 Cisco Technology, Inc. Reputation-based strategy for forwarding and responding to interests over a content centric network
US9590887B2 (en) 2014-07-18 2017-03-07 Cisco Systems, Inc. Method and system for keeping interest alive in a content centric network
US9882964B2 (en) 2014-08-08 2018-01-30 Cisco Technology, Inc. Explicit strategy feedback in name-based forwarding
US9729662B2 (en) 2014-08-11 2017-08-08 Cisco Technology, Inc. Probabilistic lazy-forwarding technique without validation in a content centric network
US9800637B2 (en) 2014-08-19 2017-10-24 Cisco Technology, Inc. System and method for all-in-one content stream in content-centric networks
US10069933B2 (en) 2014-10-23 2018-09-04 Cisco Technology, Inc. System and method for creating virtual interfaces based on network characteristics
US9590948B2 (en) 2014-12-15 2017-03-07 Cisco Systems, Inc. CCN routing using hardware-assisted hash tables
US10237189B2 (en) 2014-12-16 2019-03-19 Cisco Technology, Inc. System and method for distance-based interest forwarding
US10003520B2 (en) 2014-12-22 2018-06-19 Cisco Technology, Inc. System and method for efficient name-based content routing using link-state information in information-centric networks
US9660825B2 (en) 2014-12-24 2017-05-23 Cisco Technology, Inc. System and method for multi-source multicasting in content-centric networks
CN105824840B (zh) 2015-01-07 2019-07-16 阿里巴巴集团控股有限公司 一种用于区域标签管理的方法及装置
US9946743B2 (en) 2015-01-12 2018-04-17 Cisco Technology, Inc. Order encoded manifests in a content centric network
US9832291B2 (en) 2015-01-12 2017-11-28 Cisco Technology, Inc. Auto-configurable transport stack
US9954795B2 (en) 2015-01-12 2018-04-24 Cisco Technology, Inc. Resource allocation using CCN manifests
US9916457B2 (en) 2015-01-12 2018-03-13 Cisco Technology, Inc. Decoupled name security binding for CCN objects
US10733619B1 (en) 2015-01-27 2020-08-04 Wells Fargo Bank, N.A. Semantic processing of customer communications
US10333840B2 (en) 2015-02-06 2019-06-25 Cisco Technology, Inc. System and method for on-demand content exchange with adaptive naming in information-centric networks
US10075401B2 (en) 2015-03-18 2018-09-11 Cisco Technology, Inc. Pending interest table behavior
US20160292153A1 (en) * 2015-03-31 2016-10-06 International Business Machines Corporation Identification of examples in documents
US10078651B2 (en) 2015-04-27 2018-09-18 Rovi Guides, Inc. Systems and methods for updating a knowledge graph through user input
US11416216B2 (en) * 2015-05-22 2022-08-16 Micro Focus Llc Semantic consolidation of data
US10033714B2 (en) * 2015-06-16 2018-07-24 Business Objects Software, Ltd Contextual navigation facets panel
US10075402B2 (en) 2015-06-24 2018-09-11 Cisco Technology, Inc. Flexible command and control in content centric networks
US10586156B2 (en) 2015-06-25 2020-03-10 International Business Machines Corporation Knowledge canvassing using a knowledge graph and a question and answer system
CN106355627A (zh) * 2015-07-16 2017-01-25 中国石油化工股份有限公司 一种用于生成知识图谱的方法及系统
US10701038B2 (en) 2015-07-27 2020-06-30 Cisco Technology, Inc. Content negotiation in a content centric network
US9986034B2 (en) 2015-08-03 2018-05-29 Cisco Technology, Inc. Transferring state in content centric network stacks
US9832123B2 (en) 2015-09-11 2017-11-28 Cisco Technology, Inc. Network named fragments in a content centric network
US10355999B2 (en) 2015-09-23 2019-07-16 Cisco Technology, Inc. Flow control with network named fragments
US9977809B2 (en) 2015-09-24 2018-05-22 Cisco Technology, Inc. Information and data framework in a content centric network
US10313227B2 (en) 2015-09-24 2019-06-04 Cisco Technology, Inc. System and method for eliminating undetected interest looping in information-centric networks
US10454820B2 (en) 2015-09-29 2019-10-22 Cisco Technology, Inc. System and method for stateless information-centric networking
US10263965B2 (en) 2015-10-16 2019-04-16 Cisco Technology, Inc. Encrypted CCNx
US10628490B2 (en) * 2015-11-05 2020-04-21 Microsoft Technology Licensing, Llc Techniques for digital entity correlation
US9478145B1 (en) * 2015-11-24 2016-10-25 International Business Machines Corporation Unreasonable answer filter
US9912776B2 (en) 2015-12-02 2018-03-06 Cisco Technology, Inc. Explicit content deletion commands in a content centric network
US10248738B2 (en) 2015-12-03 2019-04-02 International Business Machines Corporation Structuring narrative blocks in a logical sequence
US10013450B2 (en) 2015-12-03 2018-07-03 International Business Machines Corporation Using knowledge graphs to identify potential inconsistencies in works of authorship
US10013404B2 (en) 2015-12-03 2018-07-03 International Business Machines Corporation Targeted story summarization using natural language processing
US10296527B2 (en) * 2015-12-08 2019-05-21 Internatioanl Business Machines Corporation Determining an object referenced within informal online communications
US10097346B2 (en) 2015-12-09 2018-10-09 Cisco Technology, Inc. Key catalogs in a content centric network
US20170178000A1 (en) * 2015-12-18 2017-06-22 Sap Se Generation and handling of situation definitions
US10360501B2 (en) 2015-12-31 2019-07-23 International Business Machines Corporation Real-time capture and translation of human thoughts and ideas into structured patterns
US10257271B2 (en) 2016-01-11 2019-04-09 Cisco Technology, Inc. Chandra-Toueg consensus in a content centric network
US10305864B2 (en) 2016-01-25 2019-05-28 Cisco Technology, Inc. Method and system for interest encryption in a content centric network
US10043016B2 (en) 2016-02-29 2018-08-07 Cisco Technology, Inc. Method and system for name encryption agreement in a content centric network
US10051071B2 (en) 2016-03-04 2018-08-14 Cisco Technology, Inc. Method and system for collecting historical network information in a content centric network
US10742596B2 (en) 2016-03-04 2020-08-11 Cisco Technology, Inc. Method and system for reducing a collision probability of hash-based names using a publisher identifier
US10003507B2 (en) 2016-03-04 2018-06-19 Cisco Technology, Inc. Transport session state protocol
US10264099B2 (en) 2016-03-07 2019-04-16 Cisco Technology, Inc. Method and system for content closures in a content centric network
US9832116B2 (en) 2016-03-14 2017-11-28 Cisco Technology, Inc. Adjusting entries in a forwarding information base in a content centric network
US10067948B2 (en) 2016-03-18 2018-09-04 Cisco Technology, Inc. Data deduping in content centric networking manifests
US10091330B2 (en) 2016-03-23 2018-10-02 Cisco Technology, Inc. Interest scheduling by an information and data framework in a content centric network
US10033639B2 (en) 2016-03-25 2018-07-24 Cisco Technology, Inc. System and method for routing packets in a content centric network using anonymous datagrams
US10558933B2 (en) * 2016-03-30 2020-02-11 International Business Machines Corporation Merging feature subsets using graphical representation
US10320760B2 (en) 2016-04-01 2019-06-11 Cisco Technology, Inc. Method and system for mutating and caching content in a content centric network
US9930146B2 (en) 2016-04-04 2018-03-27 Cisco Technology, Inc. System and method for compressing content centric networking messages
US10425503B2 (en) 2016-04-07 2019-09-24 Cisco Technology, Inc. Shared pending interest table in a content centric network
US10027578B2 (en) 2016-04-11 2018-07-17 Cisco Technology, Inc. Method and system for routable prefix queries in a content centric network
US10404450B2 (en) 2016-05-02 2019-09-03 Cisco Technology, Inc. Schematized access control in a content centric network
US10320675B2 (en) 2016-05-04 2019-06-11 Cisco Technology, Inc. System and method for routing packets in a stateless content centric network
US10547589B2 (en) 2016-05-09 2020-01-28 Cisco Technology, Inc. System for implementing a small computer systems interface protocol over a content centric network
US10063414B2 (en) 2016-05-13 2018-08-28 Cisco Technology, Inc. Updating a transport stack in a content centric network
US10084764B2 (en) 2016-05-13 2018-09-25 Cisco Technology, Inc. System for a secure encryption proxy in a content centric network
US11068459B2 (en) 2016-05-27 2021-07-20 Dynactionize N.V. Computer implemented and computer controlled method, computer program product and platform for arranging data for processing and storage at a data storage engine
NL2016846B1 (en) * 2016-05-27 2017-11-30 Dynactionize N V Computer implemented and computer controlled method, computer program product and platform for arranging data for processing and storage at a data storage engine.
US10103989B2 (en) 2016-06-13 2018-10-16 Cisco Technology, Inc. Content object return messages in a content centric network
US10305865B2 (en) 2016-06-21 2019-05-28 Cisco Technology, Inc. Permutation-based content encryption with manifests in a content centric network
US10148572B2 (en) 2016-06-27 2018-12-04 Cisco Technology, Inc. Method and system for interest groups in a content centric network
US10009266B2 (en) 2016-07-05 2018-06-26 Cisco Technology, Inc. Method and system for reference counted pending interest tables in a content centric network
US9992097B2 (en) 2016-07-11 2018-06-05 Cisco Technology, Inc. System and method for piggybacking routing information in interests in a content centric network
US10122624B2 (en) 2016-07-25 2018-11-06 Cisco Technology, Inc. System and method for ephemeral entries in a forwarding information base in a content centric network
US10069729B2 (en) 2016-08-08 2018-09-04 Cisco Technology, Inc. System and method for throttling traffic based on a forwarding information base in a content centric network
US10956412B2 (en) 2016-08-09 2021-03-23 Cisco Technology, Inc. Method and system for conjunctive normal form attribute matching in a content centric network
US10033642B2 (en) 2016-09-19 2018-07-24 Cisco Technology, Inc. System and method for making optimal routing decisions based on device-specific parameters in a content centric network
US10212248B2 (en) 2016-10-03 2019-02-19 Cisco Technology, Inc. Cache management on high availability routers in a content centric network
US10447805B2 (en) 2016-10-10 2019-10-15 Cisco Technology, Inc. Distributed consensus in a content centric network
CN107957998A (zh) * 2016-10-14 2018-04-24 富士通株式会社 生成关系计算模型的方法和估计实体对之间关系的方法
CN107967267A (zh) * 2016-10-18 2018-04-27 中兴通讯股份有限公司 一种知识图谱构建方法、装置及系统
US10135948B2 (en) 2016-10-31 2018-11-20 Cisco Technology, Inc. System and method for process migration in a content centric network
US10243851B2 (en) 2016-11-21 2019-03-26 Cisco Technology, Inc. System and method for forwarder connection information in a content centric network
US10311050B2 (en) 2017-01-23 2019-06-04 International Business Machines Corporation Crowdsourced discovery of paths in a knowledge graph
US10140286B2 (en) 2017-02-22 2018-11-27 Google Llc Optimized graph traversal
CN106951499B (zh) * 2017-03-16 2019-09-20 中国人民解放军国防科学技术大学 一种基于翻译模型的知识图谱表示方法
CN108959328B (zh) * 2017-05-27 2021-12-21 株式会社理光 知识图谱的处理方法、装置及电子设备
US11334692B2 (en) 2017-06-29 2022-05-17 International Business Machines Corporation Extracting a knowledge graph from program source code
CN108268581A (zh) * 2017-07-14 2018-07-10 广东神马搜索科技有限公司 知识图谱的构建方法及装置
CN109947873B (zh) * 2017-08-14 2021-11-23 清华大学 景点知识地图构建方法、装置、设备及可读存储介质
CN107679110A (zh) * 2017-09-15 2018-02-09 广州唯品会研究院有限公司 结合文本分类与图片属性提取完善知识图谱的方法及装置
CN107943873B (zh) * 2017-11-13 2021-05-14 平安科技(深圳)有限公司 知识图谱建立方法、装置、计算机设备及存储介质
US10884865B2 (en) 2018-01-26 2021-01-05 International Business Machines Corporation Identifying redundant nodes in a knowledge graph data structure
CN110598021B (zh) * 2018-05-25 2023-03-21 阿里巴巴集团控股有限公司 获取图片的知识图谱的方法、装置和系统
CN109033129B (zh) * 2018-06-04 2021-08-03 桂林电子科技大学 基于自适应权重的多源信息融合知识图谱表示学习方法
CN112262382B (zh) 2018-06-28 2024-08-23 谷歌有限责任公司 上下文深层书签的注释和检索
CN110737774B (zh) * 2018-07-03 2024-05-24 百度在线网络技术(北京)有限公司 图书知识图谱的构建、图书推荐方法、装置、设备及介质
US10776337B2 (en) 2018-07-06 2020-09-15 International Business Machines Corporation Multi-dimensional knowledge index and application thereof
CN109145085B (zh) * 2018-07-18 2020-11-27 北京市农林科学院 语义相似度的计算方法及系统
US11403328B2 (en) 2019-03-08 2022-08-02 International Business Machines Corporation Linking and processing different knowledge graphs
CN109960811B (zh) * 2019-03-29 2024-04-26 联想(北京)有限公司 一种数据处理方法、装置及电子设备
CN109977235B (zh) * 2019-04-04 2022-10-25 吉林大学 一种触发词的确定方法和装置
CN110245238B (zh) * 2019-04-18 2021-08-17 上海交通大学 基于规则推理和句法模式的图嵌入方法及系统
CN110334211A (zh) * 2019-06-14 2019-10-15 电子科技大学 一种基于深度学习的中医诊疗知识图谱自动构建方法
CN110427436B (zh) * 2019-07-31 2022-03-22 北京百度网讯科技有限公司 实体相似度计算的方法及装置
US10990879B2 (en) 2019-09-06 2021-04-27 Digital Asset Capital, Inc. Graph expansion and outcome determination for graph-defined program states
US20210073287A1 (en) * 2019-09-06 2021-03-11 Digital Asset Capital, Inc. Dimensional reduction of categorized directed graphs
CN110929045B (zh) * 2019-12-06 2022-07-12 思必驰科技股份有限公司 诗歌-语义知识图谱的构建方法及系统
US11283839B2 (en) 2019-12-06 2022-03-22 International Business Machines Corporation Enforcement knowledge graph-based data security rule change analysis
KR102524766B1 (ko) 2019-12-17 2023-04-24 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 자연어 및 지식 그래프 기반 표현 학습 방법 및 장치
CN111159423B (zh) * 2019-12-27 2023-04-07 北京明略软件系统有限公司 一种实体关联方法、装置及计算机可读存储介质
KR102183053B1 (ko) * 2020-02-14 2020-11-25 국방과학연구소 지식 그래프를 정제하기 위한 장치, 방법, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램
US11176137B2 (en) 2020-02-19 2021-11-16 Bank Of America Corporation Query processing platform for performing dynamic cluster compaction and expansion
EP3905097A1 (de) * 2020-04-30 2021-11-03 Robert Bosch GmbH Vorrichtung und verfahren zum bestimmen eines knowledge graph
CN111597356B (zh) * 2020-05-27 2021-05-11 上海松鼠课堂人工智能科技有限公司 智能化教育知识图谱构建系统与方法
CN111639171B (zh) * 2020-06-08 2023-10-27 吉林大学 一种知识图谱问答方法及装置
CN112463976B (zh) * 2020-09-29 2024-05-24 东南大学 一种以群智感知任务为中心的知识图谱构建方法
KR102422439B1 (ko) * 2020-11-06 2022-07-18 숭실대학교산학협력단 시드를 이용한 지식 그래프 생성 방법 및 그 장치
CN112507130B (zh) * 2020-12-10 2024-06-28 东南大学 一种基于多源知识图谱的三元组可信评估方法
CN112287095A (zh) * 2020-12-30 2021-01-29 中航信移动科技有限公司 确定问题答案的方法、装置、计算机设备及存储介质
CN112860915A (zh) * 2021-03-06 2021-05-28 东南大学 一种基于知识图谱的知识可信度量方法
CN113032580B (zh) * 2021-03-29 2023-07-25 浙江星汉信息技术股份有限公司 关联档案推荐方法、系统及电子设备
US20220366270A1 (en) * 2021-05-11 2022-11-17 Cherre, Inc. Knowledge graph guided database completion and correction system and methods
US11443114B1 (en) * 2021-06-21 2022-09-13 Microsoft Technology Licensing, Llc Computing system for entity disambiguation and not-in-list entity detection in a knowledge graph
KR102497408B1 (ko) 2021-06-29 2023-02-08 주식회사 티맥스에이아이 지식 베이스 구축 방법
CN113553444A (zh) * 2021-07-27 2021-10-26 之江实验室 一种基于超边的审计知识图谱表示模型及关联推理方法
CN113779358B (zh) * 2021-09-14 2024-05-24 支付宝(杭州)信息技术有限公司 一种事件检测方法和系统
KR102422325B1 (ko) 2021-10-28 2022-07-19 한국과학기술정보연구원 지식 그래프 관리 방법 및 장치
US11954159B2 (en) * 2021-11-09 2024-04-09 Adp, Inc. System and method for using graph theory to rank characteristics
CN114722123A (zh) * 2022-03-18 2022-07-08 浙江工业大学 一种基于实体社区划分的百科知识图谱补全方法
CN115033708A (zh) * 2022-05-20 2022-09-09 阿里巴巴(北京)软件服务有限公司 一种医疗知识图谱的构建方法、设备及存储介质
CN115858821B (zh) * 2023-02-20 2023-06-16 中国科学技术大学 知识图谱处理方法、装置及知识图谱处理模型的训练方法
CN116702899B (zh) * 2023-08-07 2023-11-28 上海银行股份有限公司 一种适用于公私联动场景的实体融合方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100820746B1 (ko) * 2007-01-22 2008-04-11 조선대학교산학협력단 온톨로지를 이용한 정보의 브라우징 시스템 및 방법
KR100842263B1 (ko) * 2005-12-08 2008-06-30 한국전자통신연구원 온톨로지간 유사개념 매핑 방법 및 그 장치

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6738678B1 (en) * 1998-01-15 2004-05-18 Krishna Asur Bharat Method for ranking hyperlinked pages using content and connectivity analysis
US6112203A (en) * 1998-04-09 2000-08-29 Altavista Company Method for ranking documents in a hyperlinked environment using connectivity and selective content analysis
US7921068B2 (en) * 1998-05-01 2011-04-05 Health Discovery Corporation Data mining platform for knowledge discovery from heterogeneous data types and/or heterogeneous data sources
AU2001277071A1 (en) * 2000-07-21 2002-02-13 Triplehop Technologies, Inc. System and method for obtaining user preferences and providing user recommendations for unseen physical and information goods and services
JP2003196194A (ja) 2002-09-30 2003-07-11 Fujitsu Ltd リンク処理方法及び装置
US7657540B1 (en) * 2003-02-04 2010-02-02 Seisint, Inc. Method and system for linking and delinking data records
US7194466B2 (en) * 2003-05-01 2007-03-20 Microsoft Corporation Object clustering using inter-layer links
KR100533810B1 (ko) 2003-10-16 2005-12-07 한국전자통신연구원 백과사전 질의응답 시스템의 지식베이스 반자동 구축 방법
US7281005B2 (en) * 2003-10-20 2007-10-09 Telenor Asa Backward and forward non-normalized link weight analysis method, system, and computer program product
US7305389B2 (en) * 2004-04-15 2007-12-04 Microsoft Corporation Content propagation for enhanced document retrieval
US7289985B2 (en) * 2004-04-15 2007-10-30 Microsoft Corporation Enhanced document retrieval
US20050234973A1 (en) * 2004-04-15 2005-10-20 Microsoft Corporation Mining service requests for product support
US7809548B2 (en) * 2004-06-14 2010-10-05 University Of North Texas Graph-based ranking algorithms for text processing
US8626775B1 (en) * 2005-01-14 2014-01-07 Wal-Mart Stores, Inc. Topic relevance
US7624081B2 (en) * 2006-03-28 2009-11-24 Microsoft Corporation Predicting community members based on evolution of heterogeneous networks using a best community classifier and a multi-class community classifier
FR2906049A1 (fr) 2006-09-19 2008-03-21 Alcatel Sa Procede, mis en oeuvre par ordinateur, de developpement d'une ontologie a partir d'un texte en langage naturel
WO2008134588A1 (en) 2007-04-25 2008-11-06 Counsyl, Inc. Methods and systems of automatic ontology population
KR100917176B1 (ko) 2007-11-19 2009-09-15 포항공과대학교 산학협력단 비구조 웹문서로부터 온톨로지를 자동으로 구축하기 위한방법 및 장치
US7991760B2 (en) 2008-02-08 2011-08-02 International Business Machines Corporation Constructing a domain-specific ontology by mining the web
JP5879260B2 (ja) * 2009-06-09 2016-03-08 イービーエイチ エンタープライズィーズ インコーポレイテッド マイクロブログメッセージの内容を分析する方法及び装置
KR101306667B1 (ko) * 2009-12-09 2013-09-10 한국전자통신연구원 지식 그래프 정제 장치 및 방법
JP5036848B2 (ja) * 2010-06-30 2012-09-26 株式会社シゲル工業 理容鋏
US20120046992A1 (en) * 2010-08-23 2012-02-23 International Business Machines Corporation Enterprise-to-market network analysis for sales enablement and relationship building

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100842263B1 (ko) * 2005-12-08 2008-06-30 한국전자통신연구원 온톨로지간 유사개념 매핑 방법 및 그 장치
KR100820746B1 (ko) * 2007-01-22 2008-04-11 조선대학교산학협력단 온톨로지를 이용한 정보의 브라우징 시스템 및 방법

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016089110A1 (ko) * 2014-12-02 2016-06-09 주식회사 솔트룩스 엔트리 기반 지식자원 생성 장치 및 방법
US10423614B2 (en) 2016-11-08 2019-09-24 International Business Machines Corporation Determining the significance of an event in the context of a natural language query
US10459960B2 (en) 2016-11-08 2019-10-29 International Business Machines Corporation Clustering a set of natural language queries based on significant events
US11036776B2 (en) 2016-11-08 2021-06-15 International Business Machines Corporation Clustering a set of natural language queries based on significant events
US11048697B2 (en) 2016-11-08 2021-06-29 International Business Machines Corporation Determining the significance of an event in the context of a natural language query
US11645315B2 (en) 2016-11-08 2023-05-09 International Business Machines Corporation Clustering a set of natural language queries based on significant events
WO2021054588A1 (en) * 2019-09-19 2021-03-25 Samsung Electronics Co., Ltd. Method and apparatus for providing content based on knowledge graph
US11874885B2 (en) 2019-09-19 2024-01-16 Samsung Electronics Co., Ltd. Method and apparatus for providing content based on knowledge graph
KR102520414B1 (ko) 2022-11-23 2023-04-11 주식회사 큐레아 지식 그래프를 생성하는 기법
KR20240076351A (ko) 2022-11-23 2024-05-30 주식회사 큐레아 지식 그래프를 생성하는 기법

Also Published As

Publication number Publication date
US8407253B2 (en) 2013-03-26
US20110137919A1 (en) 2011-06-09
KR20110064833A (ko) 2011-06-15

Similar Documents

Publication Publication Date Title
KR101306667B1 (ko) 지식 그래프 정제 장치 및 방법
US9904668B2 (en) Natural language processing utilizing transaction based knowledge representation
Höffner et al. Survey on challenges of question answering in the semantic web
US9588961B2 (en) Natural language processing utilizing propagation of knowledge through logical parse tree structures
US9665564B2 (en) Natural language processing utilizing logical tree structures
US20170060831A1 (en) Deriving Logical Justification in an Extensible Logical Reasoning System
Casamayor et al. Functional grouping of natural language requirements for assistance in architectural software design
Ben Aouicha et al. SISR: System for integrating semantic relatedness and similarity measures
Borsje et al. Semi-automatic financial events discovery based on lexico-semantic patterns
Bakari et al. A novel semantic and logical-based approach integrating RTE technique in the Arabic question–answering
Al-Zoghby et al. Semantic relations extraction and ontology learning from Arabic texts—a survey
Moro et al. Annotating the MASC Corpus with BabelNet.
Paydar et al. A semi-automated approach to adapt activity diagrams for new use cases
Amato et al. An application of semantic techniques for forensic analysis
WO2021226184A1 (en) Automated knowledge base
RU2563148C2 (ru) Система и метод семантического поиска
Xu et al. Learning non-taxonomic relations on demand for ontology extension
Bui Relation extraction methods for biomedical literature
Hameed et al. Short Text Semantic Similarity Measurement Approach Based on Semantic Network
Fabo Concept-based and relation-based corpus navigation: applications of natural language processing in digital humanities
Danenas et al. Enhancing the extraction of SBVR business vocabularies and business rules from UML use case diagrams with natural language processing
Schlutter et al. Improving Trace Link Recovery Using Semantic Relation Graphs and Spreading Activation
WO2016055895A1 (en) Natural language processing utilizing logical tree structures and propagation of knowledge through logical parse tree structures
Wali et al. Using sentence similarity measure for plagiarism detection of Arabic documents
Dori et al. SMART: System model acquisition from requirements text

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160826

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170828

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190826

Year of fee payment: 7