KR102046692B1

KR102046692B1 - 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법 및 시스템

Info

Publication number: KR102046692B1
Application number: KR1020170063884A
Authority: KR
Inventors: 최기선; 김은경
Original assignee: 한국과학기술원
Priority date: 2017-05-24
Filing date: 2017-05-24
Publication date: 2019-11-21
Also published as: KR20180129001A

Abstract

다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법 및 시스템이 제시된다. 본 발명에서 제안하는 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법은 다언어 지식베이스에서 분류체계를 표식하는 트리플을 추출하여 동일한 개체 단위의 정보를 통합하는 단계, 다언어 지식베이스에서 분류체계를 표식하는 삼항관계를 추출하여 개체 군집화를 구성하는 단계, 개체 군집화 모듈에서 구성된 개체 군집에 기반하여 군집 별 주요 서술관계 및 주요 개체-목적어 상관관계를 찾고, 다언어 지식베이스의 트리플의 가중치를 계산하는 단계, 모든 삼항관계에 대한 분석을 반복하고, 계산된 가중치에 기반하여 모든 삼항관계에 관한 중요도 순에 따라 요약본을 정렬하는 단계 및 정렬된 요약본에 대하여 사용자의 요구에 따라 중복을 최소화하고, 정렬된 요약본 중 중요도 순의 우선 순위부터 가져오는 단계를 포함한다.

Description

다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법 및 시스템{Method and System for Entity summarization based on multilingual projected entity space}

본 발명은 RDF(Resource Description Framework) 트리플 형태로 작성된 대용량 지식베이스(Knowledge Base)로부터 다양한 언어의 특징을 단일 공간으로 투영한 후, 통합된 분류체계 태그(category tags) 기반 개체 군집화를 선행하고 이에 따라 트리플의 중요도를 계산하여 정렬하는 개체 요약본 생성 방법 및 시스템에 관한 것이다.

개체 요약본 생성 기술이란 개체 중심으로 기술된 대용량의 지식베이스에서 개체 단위의 주요 정보를 선별하고 적절한 요약본의 길이에 맞춰 재구성하는 기술로 대용량 데이터 검색(Search), 정보 추출(Information Extraction), 질의 및 응답(Question and Answer) 등의 다양한 자연언어처리 응용 분야에서 사용도가 높은 핵심 기술이다.

개체 요약 기술은 최근 시맨틱 웹 및 웹에 존재하는 데이터의 개방성 및 연결성이 증대되는 링크드 데이터 환경의 연구가 활발해짐에 따라 하나의 개체에 대하여 웹 상에서 유기적으로 연결되어 있는 정보의 수가 방대해짐에 따라, 거대 규모의 지식베이스에서 중요한 정보만을 신속하고 정확하게 검색하는 문제를 해결하기 위해 반드시 필요한 기술로 현재 널리 연구되고 있다. 기존에는 단일 언어 환경에서 획득된 정보 기반 지식베이스의 분할 실행 후 개체 요약본 생성 시스템이 개발되었으나, 개체의 고유 특징을 표현하여 지식베이스의 경계를 모델링하는데 한계가 존재하며 부족한 자질 확장을 위해 외부 사전 자원(WordNet)을 활용한다는 제한점이 있다. 그러나 외부 사전 자원에 등록되지 않은 개체에 대한 확장이 불가능하여 기존 개체 요약본 생성 시스템은 그 방법 및 활용에 제한성이 있다.

개체 요약(Entity Summarization)은 Gong Cheng, Thanh Tran, Yuzhong Qu가 2011년에 International Semantic Web Conference(ISWC) 에 발표한 논문 "RELIN: Relatedness and Informativeness-Based Centrality for Entity Summarization"에서 처음 정의된 것으로, 개방형 공개 데이터(Linked Open Data)를 통해 지속적으로 성장하고 있는 대규모 데이터 공간에 존재하는 RDF 트리플 데이터 중 특정 개체에 대한 정보를 신속하고 편리하게 접근하기 위하여 개체 단위의 소규모 데이터를 발췌하는 기술이다.

개체 요약 기술은 검색시스템에 부가적인 서비스로 적용되어 검색 질의어에 사용된 개체에 대한 다양한 데이터 정보원으로부터 취합된 정보 중 개체를 기술하기에 필요한 요점 정보를 제공함으로써 개체에 대한 신속한 정보를 제공할 수 있다.

현재 구글(Google)에서 지식 그래프라는 서비스명으로 이와 유사한 서비스를 제공하고 있으나 자동화되지 않은 기술이다.

빅 데이터 관련 기업 및 정부 부처에서 공개되고 있는 다양한 정보원의 통합된 정보로부터, 다양한 개체에 대한 주요 기본 정보를 제공하고 개체에 대한 정보 검색을 제공할 수 있다.

또한, 스마트폰 기반 지식 가시화 제공 서비스로 적용되어 대용량의 데이터 중 소형의 스크린에 맞추어 일부 선노출이 필요한 경우, 필수 정보에 대하여 우선 노출 및 적용을 통해 요점 정보를 제공할 수 있다.

향후 기업화 전망에 있어서는, 개방형 데이터로 접근 가능한 데이터 및 지식베이스를 해석하는 영역에 대하여 기업화가 가능할 수 있다. 상기에서 언급한 구글의 지식 그래프와 같은 지식 제공 및 검색 시스템 관련 기업 등에서 관련 연구가 활발히 진행되고 있다. 또한 개체에 대하여 필수가 되는 내용 요소들을 추출하고 구성하여 다양한 주제별 개념에 대하여 e-Learning 교육과정에 활용할 수 있다.

하지만, 종래 기술의 경우 개체 기술문에 등장하는 개체와-속성값(또 다른 개체) 사이의 상대적인 중요도를 바탕으로 요약을 생성함으로써, 주어진 중심 개체를 기술하기 위하여 필수적으로 중요하지 않은 정보들이 요약본에 포함될 수 있는 제한점이 있다. 또한, 종래기술의 경우 외부자원을 활용한다는 제한점과 더불어 하나의 면에 개체의 특징을 기술한 중요 정보가 다수 개 포함되어 있을 경우, 요약의 성능이 낮아질 수 있는 취약점이 존재한다. 그리고, 외부 사전 자원인 워드넷(WordNet)을 사용하여 개체로부터 유추할 수 있는 긴 단어열의 자질을 확장했으나, 이는 사전에 등록되지 않은 개체명, 또는 사전이 정의되지 않은 언어 데이터에 대해서는 사용이 불가하다는 제한점이 있다.

본 발명이 이루고자 하는 기술적 과제는 지식베이스와 요약을 생성하고 싶은 개체, 요약본의 길이를 입력으로 받아들여 개체를 기술하고 있는 다언어 지식베이스를 통합하고, 지식베이스의 정보를 개체의 군집 단위로 분류된 군집 단위의 주요 정보를 판별하여 개체 기술문의 트리플들을 정렬한 후, 사용자가 원하는 길이만큼 정렬된 결과물을 우선순위에 따라 내어 줌으로써 주어진 개체 요약본을 생성하는 방법 및 시스템을 제공하는데 있다.

일 측면에 있어서, 본 발명에서 제안하는 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법은 다언어 지식베이스에서 분류체계를 표식하는 트리플을 추출하여 동일한 개체 단위의 정보를 통합하는 단계, 다언어 지식베이스에서 분류체계를 표식하는 삼항관계를 추출하여 개체 군집화를 구성하는 단계, 개체 군집화 모듈에서 구성된 개체 군집에 기반하여 군집 별 주요 서술관계 및 주요 개체-목적어 상관관계를 찾고, 다언어 지식베이스의 트리플의 가중치를 계산하는 단계, 모든 삼항관계에 대한 분석을 반복하고, 계산된 가중치에 기반하여 모든 삼항관계에 관한 중요도 순에 따라 요약본을 정렬하는 단계 및 정렬된 요약본에 대하여 사용자의 요구에 따라 중복을 최소화하고, 정렬된 요약본 중 중요도 순의 우선 순위부터 가져오는 단계를 포함한다.

다언어 지식베이스에서 분류체계를 표식하는 트리플을 추출하여 동일한 개체 단위의 정보를 통합하는 단계는 동일한 개체에 대하여 복수의 언어로 작성된 트리플을 연계하여 복수의 언어에서 공통적으로 사용되는 자질을 도출하고, 복수의 언어 각각에서 독립적으로 사용되는 자질을 도출하여, 복수의 언어 커뮤니티에서 생성되는 해당 개체에 대한 개체의 분류체계 특징을 통합한다.

다언어 지식베이스에서 분류체계를 표식하는 삼항관계를 추출하여 개체 군집화를 구성하는 단계는 다언어 지식베이스에 존재하는 분류체계를 기술한 트리플로부터 개체를 군집화 하기 위한 자질을 도출하고, 도출된 유사한 자질의 해당 개체끼리 군집화한다.

개체 군집화 모듈에서 구성된 개체 군집에 기반하여 군집 별 주요 서술관계 및 주요 개체-목적어 상관관계를 찾고, 다언어 지식베이스의 트리플의 가중치를 계산하는 단계는 개체 군집에서 사용된 속성 유형 빈도 및 역군집 빈도를 나타내는 점수의 조합으로 이루어지는 개체 군집 내의 주요 속성 유형에 기반하고, 개체 군집 단위 별 개체-속성값 공기정보(co-occurrence)에 기반한다.

모든 삼항관계에 대한 분석을 반복하고, 계산된 가중치에 기반하여 모든 삼항관계에 관한 중요도 순에 따라 요약본을 정렬하는 단계는 개체 군집에 따른 트리플의 주요 속성 유형을 도출하고, 개체-속성값 상관 관계를 도출하여 주요 속성 유형 및 개체-속성값 상관 관계의 조합을 이용하여 중요도 순에 따라 요약본을 정렬한다.

정렬된 요약본에 대하여 사용자의 요구에 따라 중복을 최소화하고, 정렬된 요약본 중 중요도 순의 우선 순위부터 가져오는 단계는 개체 기술문에 사용된 속성 유형 및 속성값의 중복을 최소화 하고, 사용자가 요구하는 길이만큼 요약본을 생성한다.

또 다른 일 측면에 있어서, 본 발명에서 제안하는 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 시스템은 다언어 지식베이스에서 분류체계를 표식하는 트리플을 추출하여 동일한 개체 단위의 정보를 통합하는 다언어 특질 투영 모듈, 다언어 지식베이스에서 분류체계를 표식하는 삼항관계를 추출하여 개체 군집화를 구성하는 개체 군집화 모듈, 개체 군집화 모듈에서 구성된 개체 군집에 기반하여 군집 별 주요 서술관계 및 주요 개체-목적어 상관관계를 찾고, 다언어 지식베이스의 트리플의 가중치를 계산하는 개체 기술문 랭킹 모듈 및 서술관계 분석부 및 개체-목적어 분석부를 통해 모든 삼항관계에 대한 분석을 반복하고, 계산된 가중치에 기반하여 모든 삼항관계에 관한 중요도 순에 따라 요약본을 정렬하고, 정렬된 요약본에 대하여 사용자의 요구에 따라 중복을 최소화하고, 정렬된 요약본 중 중요도 순의 우선 순위부터 가져오는 개체 요약본 생성 모듈을 포함한다.

개체 군집화 모듈은 동일한 개체에 대하여 복수의 언어로 작성된 트리플을 연계하여 복수의 언어에서 공통적으로 사용되는 자질을 도출하고, 복수의 언어 각각에서 독립적으로 사용되는 자질을 도출하여, 복수의 언어 커뮤니티에서 생성되는 해당 개체에 대한 개체의 분류체계 특징을 통합한다.

개체 군집화 모듈은 다언어 지식베이스에 존재하는 분류체계를 기술한 트리플로부터 개체를 군집화 하기 위한 자질을 도출하고, 도출된 유사한 자질의 해당 개체끼리 군집화 한다.

개체 기술문 랭킹 모듈은 개체 군집에서 사용된 속성 유형 빈도 및 역군집 빈도를 나타내는 점수의 조합으로 이루어지는 개체 군집 내의 주요 속성 유형에 기반하고, 개체 군집 단위 별 개체-속성값 공기정보(co-occurrence)에 기반한다.

개체 요약본 생성 모듈은 개체 군집에 따른 트리플의 주요 속성 유형을 도출하고, 개체-속성값 상관 관계를 도출하여 주요 속성 유형 및 개체-속성값 상관 관계의 조합을 이용하여 중요도 순에 따라 요약본을 정렬한다.

개체 요약본 생성 모듈은 개체 기술문에 사용된 속성 유형 및 속성값의 중복을 최소화 하고, 사용자가 요구하는 길이만큼 요약본을 생성한다.

본 발명의 실시예들에 따르면 다국어 개별 특질 투영을 통해 개체를 군집화하고, 개체를 설명하기 위한 필수 항목을 포함시키는 전문가의 요약 방식과 최대한 가깝게 재현함으로써, 대용량의 지식베이스 상에서의 개체 단위의 효율적인 정보 검색과 신속한 질의 처리를 제공하는데 유용하게 이용될 수 있다.

도 1은 본 발명의 일 실시예에 따른 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법을 설명하기 위한 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 개체에 대한 3개의 서로 다른 언어에서 발견된 카테고리 태그의 단일 공간화를 나타내는 도면이다.
도 3은 본 발명의 일 실시예에 따른 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 시스템의 구성을 나타내는 도면이다.
도 4는 본 발명의 일 실시예에 따른 한국어 커뮤니티에 존재하는 개체에 대한 카테고리 태그를 나타내는 도면이다.
도 5는 본 발명의 일 실시예에 따른 영어 커뮤니티에 존재하는 개체에 대한 카테고리 태그를 나타내는 도면이다.
도 6은 본 발명의 일 실시예에 따른 분류체계 단어로부터 찾아진 어근의 벡터화를 나타내는 도면이다.
도 7은 본 발명의 일 실시예에 따른 분류체계 단어로부터 찾아진 어근의 벡터화에 대한 가중치 추가를 나타내는 도면이다.
도 8은 본 발명의 일 실시예에 따른 일 군집의 두 개체의 트리플 집합 비교를 나타내는 도면이다.
도 9은 본 발명의 일 실시예에 따른 하나의 개체에 대한 중복된 속성 유형을 나타내는 도면이다.
도 10은 본 발명의 일 실시예에 따른 중복된 속성 유형의 허가 여부에 따른 최종 요약본 비교를 나타내는 도면이다.
도 11은 본 발명의 일 실시예에 따른 중복된 속성 값의 허가 여부에 따른 최종 요약본 비교를 나타내는 도면이다.

본 발명에서 제안하는 다언어 특징 투영된 분류체계 기반의 개체 요약본 생성 시스템은 120개 이상의 언어로 공개 제공되고 있는 지식베이스의 특성을 활용하여, 여러 언어마다 다르게 분포되어 있는 정보원으로부터 구해진 상대적인 개체 단위 지식들의 특징을 통합하여 개체 군집을 추정하고, 상기 단계에서 계산된 개체 군집 단위의 지식베이스 경계에 따라 트리플 중요도 계산 방식을 적용하여 개체 요약본을 생성하는 것을 그 구성상의 특징으로 한다. 본 발명에서 제안하고 있는 개체 요약본 생성 방법에 따르면, 하나의 언어만을 모델링한 공간에서의 군집화보다 향상된 성능의 다언어 특징이 투영된 개체 군집화를 실행하고, 이를 기반으로 개체 고유 특질을 기술하고 있는 트리플의 중요도를 상위로 계산함으로써, 개체 요약본에 포함되어야 할 필수 트리플을 선별할 수 있는 우수한 성능의 요약본 생성이 가능하다.

본 발명의 상세한 설명 있어서, 용어 '정보 자원(resource)'은 RDF 데이터 모형에서 그 형태에 관계없이 URI로 식별 가능한 모든 객체를 의미하고, 하나의 정보 자원은 여러 개의 속성 유형과 속성 값을 가질 수 있다.

본 발명의 상세한 설명 있어서, 용어 '개체(entity) '은 정보 자원 중 이름을 가질 수 있는 텍스트의 연속된 문자열을 의미하고, 예를 들어, 인명, 기관명, 지명 등이 있다.

본 발명의 상세한 설명 있어서, 용어 '속성 유형 (property type)'은 '저자', '서명' 등과 같이 자원의 속성을 적절한 이름으로 표현한 것을 의미한다.

본 발명의 상세한 설명 있어서, 용어 '속성값 (value)'은 속성 유형에 상응하는 값으로, 문자열이나 숫자 등과 같은 자연어로 상세하게 기술될 수도 있으며, 속성값 자체가 하나의 정보 자원이 되어 고유의 속성을 가질 수 있다.

본 발명의 상세한 설명 있어서, 용어 '트리플 (triple)'은 정보 자원과 속성 유형, 속성값을 모두 포함한 것을 의미한다.

본 발명의 상세한 설명 있어서, 용어 '개체 기술 (entity description)'은 동일한 개체를 정보 자원으로 참조하고 있는 트리플들의 집합을 의미한다. 이하, 본 발명의 실시 예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 본 발명의 일 실시예에 따른 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법을 설명하기 위한 흐름도이다.

제안하는 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법은 다언어 지식베이스에서 분류체계를 표식하는 트리플을 추출하여 동일한 개체 단위의 정보를 통합하는 단계(110), 다언어 지식베이스에서 분류체계를 표식하는 삼항관계를 추출하여 개체 군집화를 구성하는 단계(120), 군집화 구성부에서 구성된 개체 군집에 기반하여 군집 별 주요 서술관계 및 주요 개체-목적어 상관관계를 찾고, 다언어 지식베이스의 트리플의 가중치를 계산하는 단계(130), 모든 삼항관계에 대한 분석을 반복하고, 계산된 가중치에 기반하여 모든 삼항관계에 관한 중요도 순에 따라 요약본을 정렬하는 단계(140), 정렬된 요약본에 대하여 사용자의 요구에 따라 중복을 최소화하고, 정렬된 요약본 중 중요도 순의 우선 순위부터 가져오는 단계(150)를 포함한다.

단계(110)에서, 다언어 지식베이스에서 분류체계를 표식하는 트리플을 추출하여 동일한 개체 단위의 정보를 통합한다. 먼저, 다양한 언어로 작성된 다수의 지식베이스로부터 개체 단위의 특질을 하나의 공간으로 구성한다. 동일한 개체에 대하여 복수의 언어로 작성된 트리플을 연계하여 복수의 언어에서 공통적으로 사용되는 자질을 도출하고, 복수의 언어 각각에서 독립적으로 사용되는 자질을 도출한다. 그리고, 복수의 언어 커뮤니티에서 생성되는 해당 개체에 대한 개체의 분류체계 특징을 통합한다.

단계(120)에서, 다언어 지식베이스에서 분류체계를 표식하는 삼항관계를 추출하여 개체 군집화를 구성한다. 개체 군집화라 함은 각 개체에서 공통점을 찾아내고 이를 하나의 집합으로 구분하는 것을 말한다. 다언어 지식베이스에 존재하는 분류체계를 기술한 트리플로부터 개체를 군집화 하기 위한 자질을 도출하고, 도출된 유사한 자질의 해당 개체끼리 군집화 한다. 개체 군집화 과정에서는 지식베이스로부터 개체의 분류 체계적인 특성을 나타내는 특정 속성 유형을 사용한 트리플로부터 개체의 공통점을 획득할 수 있다.

예를 들어, 개체 군집화의 자질 선정 과정에 있어서, 공통의 접두사를 제외한 명사구로 이루어진 단어의 경계를 구분하고, 각 단어의 어근을 찾는 과정(stemming)을 진행할 수 있다.

전산 분야에서 널리 활용되고 있는 분할법 중 특정 알고리즘을 활용하여 앞서 선정된 자질을 바탕으로 주어진 개체를 여러 군집으로 나눈다. 군집을 나누는 과정은 각 군집의 중심과 군집 내의 개체와의 거리의 제곱합을 비용 함수(cost function)로 정하고 이를 최소화하는 방식으로 이루어진다. 이 과정에서 같은 군집 내 개체끼리의 유사도는 증가하고, 다른 군집에 속해있는 개체와의 유사도는 감소한다. 이 과정은 기존 온톨로지의 분류 체계를 이용하여 대치할 수 있다. 본 발명에서는 전산 분야의 분할법 중 k-평균 알고리즘을 사용하나, 이에 한정되지 않는다.

단계(130)에서, 개체 군집화 모듈에서 구성된 개체 군집에 기반하여 군집 별 주요 서술관계 및 주요 개체-목적어 상관관계를 찾고, 다언어 지식베이스의 트리플의 가중치를 계산한다. 다시 말해, 단계(120)를 거쳐 생성된 개체 군집 별로 가장 중요한 속성 유형을 도출한다. 이 과정은 여러 개의 군집이 있을 때 어떤 속성 유형이 특정 군집 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치로 정의된다. 가중치 계산은 개체 군집에서 사용된 속성 유형 빈도 및 역군집 빈도를 나타내는 점수의 조합으로 이루어지는 개체 군집 내의 주요 속성 유형에 기반하고, 개체 군집 단위 별 개체-속성값 공기정보(co-occurrence)에 기반한다.

속성 유형의 가중치는 다음 두 가지 자질의 조합으로 정의된다: 군집에서의 속성 유형 단어의 빈도(Property Frequency) 및 역군집 빈도(Inverse Group Frequency).

군집에서의 속성 유형 단어의 빈도는 군집 내에 나타나는 속성 유형 단어의 총 빈도수를 사용한다. 역군집 빈도(Inverse Group Frequency)는 한 속성 유형 단어가 군집 집합 전체에서 얼마나 공통적으로 나타나는 지를 나타내며, 전체 군집의 수를 해당 속성 유형 단어를 포함한 군집의 수로 나눈 뒤 로그를 취하여 얻는 값을 사용한다.

특정 군집 내에서 속성 유형 단어 빈도가 높을 수록, 그리고 전체 군집들 중 그 속성 유형 단어를 포함한 군집이 적을수록 서술관계의 가중치 값이 높아진다. 이를 이용하여 모든 군집에 흔하게 나타나는 속성 유형 단어를 걸러내는 효과를 얻을 수 있어 군집 내에서 의미 있게 중요한 속성 유형을 파악할 수 있다.

단계(140)에서, 모든 삼항관계에 대한 분석을 반복하고, 계산된 가중치에 기반하여 모든 삼항관계에 관한 중요도 순에 따라 요약본을 정렬한다. 개체 군집에 따른 트리플의 주요 속성 유형을 도출하고, 개체-속성값 상관 관계를 도출하여 주요 속성 유형 및 개체-속성값 상관 관계의 조합을 이용하여 중요도 순에 따라 요약본을 정렬한다.

단계(150)에서, 정렬된 요약본에 대하여 사용자의 요구에 따라 중복을 최소화하고, 정렬된 요약본 중 중요도 순의 우선 순위부터 가져온다. 개체 기술문에 사용된 속성 유형 및 속성값의 중복을 최소화 하고, 사용자가 요구하는 길이만큼 요약본을 생성한다.

다시 말해, 사용자 요구에 따라 요약본 중 일부를 취하여 반환한다. 사용자가 요약본의 길이로 n개를 요구할 경우 최종 결과물에서 n개의 트리플을 취하여 사용자에게 반환한다. 특히 요약되는 최종 결과물이 갖추어야 할 본질 기능인 중복을 최소화하기 위하여 사용자가 요구하는 n개의 길이가 극단적으로 작은 경우 (n=5)에는 최종결과물에 포함되는 트리플들 사이의 중복은 다음과 같이 제한된다:

최종 요약본 = 속성 유형 중복 허용되지 않음 ∧ 속성 값 중복 허용되지 않음

또한, 사용자가 요구하는 n개의 길이가 늘어난 경우(n=10)에는 최종 요약본에 포함되는 트리플들 사이의 중복은 다음과 같이 조절된다:

최종 요약본 = 속성 유형 중복 허용 ∧ 속성 값 중복 허용

도 2는 본 발명의 일 실시예에 따른 개체에 대한 3개의 서로 다른 언어에서 발견된 카테고리 태그의 단일 공간화를 나타내는 도면이다.

본 발명에서는 개체를 기술하고 있는 트리플(개체-속성-목적어)로 구성된 지식베이스에서 개체 단위의 요약본을 생성하기 위해서, 지식베이스의 분류 체계의 특성을 자질로 사용하여 지식베이스내의 개체를 군집화하고, 이를 이용하여 개체 요약 시스템에 사용한다. 개체들의 분류 체계적인 특성을 보다 잘 모델링하기 위해서 다양한 언어의 지식베이스를 통합하는 방식을 이용하여 개체에 대한 지식추출 방식과 지식 확장 장치를 더한다.

지금까지의 개체 요약 관련 기술은 모두 단일 언어(예를 들어, 영어)를 기반으로 수집된 개체 정보에 그 관심이 집중되어 있었다. 그러나 공개된 데이터가 방대한 웹에서, 어떤 개체에 대한 정보를 수집하는 경우, 가장 중요하게 작용하는 것들 중 하나가 개체에 관한 정보는 수집 정보원에 따라 상이할 수 있다는 것이다. 도 2는 개체 제주도(Jejudo)에 대하여 서로 다른 세 가지 언어에 존재하는 시맨틱 분류 체계(210, 220, 230)를 보여준다. "생물권보전지역"과 같이 여러 언어에서 모두 중복적으로 발견되는 분류 체계가 있는 반면, "화산섬", "지리", "지오파크" 등 특정 언어 데이터베이스 내에서만 발견되는 분류 체계가 존재한다. 이는 세계적으로 널리 알려진 의미 분류 체계는 여러 언어에서 중복적으로 발견될 수 있음을 나타내고, 하나의 개체에 대하여 잘 알려지지 않은 사실이나 서로 다른 언어권 데이터에서 발생할 수 있는 문화적 시각의 차이에 따라 불일치의 문제를 보여주는 예이다. 따라서 만약 여러 언어에서 발생한 단일 개체에 대한 의미 태그를 자동으로 통합(240)하고, 단일 공간에서의 중요도 분석을 실시할 수 있다면, 개체의 고유 속성에 대한 편향되지 않은 정보를 수집할 수 있는 장점을 가질 수 있다. 또한 이는 개체에 대하여 세계적이며 공통적인 요약본을 제공하는데 있어 그 목적이 있다.

본 발명에서는 다언어 특질이 투영된 단일 공간 기반으로 최적화된 개체 군집을 밝히고, 개체 단위의 필수 정보를 포함하면서 중복을 최소화하는 개체 요약 시스템 및 개체 요약 방법을 제공함으로써, 다른 방법에서는 시도되지 않았던 개체 고유의 속성을 파악하는 개념에 기반을 둔 요약을 시도한다. 개체 고유의 속성이란 개체를 기술하기 위해 반드시 포함해야 할 필수적이면서 다른 개체와의 구별성을 나타내는 정보를 나타낸다. 이하, 도면을 참조한 실시예를 통해 본 발명의 구체적인 실시형태를 설명하기로 한다. 그러나 이는 예시에 불과하여 본 발명은 이에 제한되지 않는다.

도 3은 본 발명의 일 실시예에 따른 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 시스템의 구성을 나타내는 도면이다.

제안하는 개체 요약본 생성 시스템(300)은 다언어 특질 투영 모듈(311), 개체 군집화 모듈(312), 개체 기술문 랭킹 모듈(313), 개체 요약본 생성 모듈(314)를 포함한다.

본 실시예에 따른 개체 요약본 생성 시스템(300)은 프로세서(310), 버스(320), 네트워크 인터페이스(330), 메모리(340) 및 데이터베이스(350)를 포함할 수 있다. 메모리(340)는 운영체제(341) 및 개체 요약본 생성 루틴(342)을 포함할 수 있다. 프로세서(310)는 다언어 특질 투영 모듈(311), 개체 군집화 모듈(312), 개체 기술문 랭킹 모듈(313), 개체 요약본 생성 모듈(314)를 포함할 수 있다. 다른 실시예들에서 개체 요약본 생성 시스템(300)은 도 3의 구성요소들보다 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 개체 요약본 생성 시스템(300)은 디스플레이나 트랜시버(transceiver)와 같은 다른 구성요소들을 포함할 수도 있다.

메모리(340)는 컴퓨터에서 판독 가능한 기록 매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 또한, 메모리(340)에는 운영체제(341)와 개체 요약본 생성 루틴(342)을 위한 프로그램 코드가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 드라이브 메커니즘(drive mechanism, 미도시)을 이용하여 메모리(340)와는 별도의 컴퓨터에서 판독 가능한 기록 매체로부터 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록 매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록 매체(미도시)를 포함할 수 있다. 다른 실시예에서 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록 매체가 아닌 네트워크 인터페이스(330)를 통해 메모리(340)에 로딩될 수도 있다.

버스(320)는 개체 요약본 생성 시스템(300)의 구성요소들간의 통신 및 데이터 전송을 가능하게 할 수 있다. 버스(320)는 고속 시리얼 버스(high-speed serial bus), 병렬 버스(parallel bus), SAN(Storage Area Network) 및/또는 다른 적절한 통신 기술을 이용하여 구성될 수 있다.

네트워크 인터페이스(330)는 개체 요약본 생성 시스템(300)을 컴퓨터 네트워크에 연결하기 위한 컴퓨터 하드웨어 구성요소일 수 있다. 네트워크 인터페이스(330)는 개체 요약본 생성 시스템(300)을 무선 또는 유선 커넥션을 통해 컴퓨터 네트워크에 연결시킬 수 있다.

데이터베이스(350)는 개체 요약본 생성을 위해 필요한 모든 정보를 저장 및 유지하는 역할을 할 수 있다. 도 3에서는 개체 요약본 생성 시스템(300)의 내부에 데이터베이스(350)를 구축하여 포함하는 것으로 도시하고 있으나, 이에 한정되는 것은 아니며 시스템 구현 방식이나 환경 등에 따라 생략될 수 있고 혹은 전체 또는 일부의 데이터베이스가 별개의 다른 시스템 상에 구축된 외부 데이터베이스로서 존재하는 것 또한 가능하다.

프로세서(310)는 기본적인 산술, 로직 및 개체 요약본 생성 시스템(300)의 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(340) 또는 네트워크 인터페이스(330)에 의해, 그리고 버스(320)를 통해 프로세서(310)로 제공될 수 있다. 프로세서(310)는 다언어 특질 투영 모듈(311), 개체 군집화 모듈(312), 개체 기술문 랭킹 모듈(313), 개체 요약본 생성 모듈(314)를 위한 프로그램 코드를 실행하도록 구성될 수 있다. 이러한 프로그램 코드는 메모리(340)와 같은 기록 장치에 저장될 수 있다.

다언어 특질 투영 모듈(311), 개체 군집화 모듈(312), 개체 기술문 랭킹 모듈(313), 개체 요약본 생성 모듈(314)는 도 1의 단계들(110~150)을 수행하기 위해 구성될 수 있다.

개체 요약본 생성 시스템(300)은 다언어 특질 투영 모듈(311), 개체 군집화 모듈(312), 개체 기술문 랭킹 모듈(313), 개체 요약본 생성 모듈(314)를 포함할 수 있다.

다언어 특질 투영 모듈(311)은 다언어 지식베이스에서 분류체계를 표식하는 트리플을 추출하여 동일한 개체 단위의 정보를 통합한다. 먼저, 다양한 언어로 작성된 다수의 지식베이스로부터 개체 단위의 특질을 하나의 공간으로 구성한다. 동일한 개체에 대하여 복수의 언어로 작성된 트리플을 연계하여 복수의 언어에서 공통적으로 사용되는 자질을 도출하고, 복수의 언어 각각에서 독립적으로 사용되는 자질을 도출한다. 그리고, 복수의 언어 커뮤니티에서 생성되는 해당 개체에 대한 개체의 분류체계 특징을 통합한다.

개체 군집화 모듈(312)은 다언어 지식베이스에서 분류체계를 표식하는 삼항관계를 추출하여 개체 군집화를 구성한다. 개체 군집화라 함은 각 개체에서 공통점을 찾아내고 이를 하나의 집합으로 구분하는 것을 말한다. 다언어 지식베이스에 존재하는 분류체계를 기술한 트리플로부터 개체를 군집화 하기 위한 자질을 도출하고, 도출된 유사한 자질의 해당 개체끼리 군집화 한다. 개체 군집화 과정에서는 지식베이스로부터 개체의 분류 체계적인 특성을 나타내는 특정 속성 유형을 사용한 트리플로부터 개체의 공통점을 획득할 수 있다.

개체 기술문 랭킹 모듈(313)은 개체 군집화 모듈에서 구성된 개체 군집에 기반하여 군집 별 주요 서술관계 및 주요 개체-목적어 상관관계를 찾고, 다언어 지식베이스의 트리플의 가중치를 계산한다. 다시 말해, 앞서 설명된 바와 같이 생성된 개체 군집 별로 가장 중요한 속성 유형을 도출한다. 이 과정은 여러 개의 군집이 있을 때 어떤 속성 유형이 특정 군집 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치로 정의된다. 가중치 계산은 개체 군집에서 사용된 속성 유형 빈도 및 역군집 빈도를 나타내는 점수의 조합으로 이루어지는 개체 군집 내의 주요 속성 유형에 기반하고, 개체 군집 단위 별 개체-속성값 공기정보(co-occurrence)에 기반한다.

개체 요약본 생성 모듈(314)은 모든 삼항관계에 대한 분석을 반복하고, 계산된 가중치에 기반하여 모든 삼항관계에 관한 중요도 순에 따라 요약본을 정렬한다. 개체 군집에 따른 트리플의 주요 속성 유형을 도출하고, 개체-속성값 상관 관계를 도출하여 주요 속성 유형 및 개체-속성값 상관 관계의 조합을 이용하여 중요도 순에 따라 요약본을 정렬한다.

이후, 정렬된 요약본에 대하여 사용자의 요구에 따라 중복을 최소화하고, 정렬된 요약본 중 중요도 순의 우선 순위부터 가져온다. 개체 기술문에 사용된 속성 유형 및 속성값의 중복을 최소화 하고, 사용자가 요구하는 길이만큼 요약본을 생성한다.

최종 요약본 = 속성 유형 중복 허용 ∧ 속성 값 중복 허용

이하, 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법 및 시스템에 대하여 도 4 내지 도 10을 참조하여 더욱 상세히 설명한다.

도 4은 본 발명의 일 실시예에 따른 한국어 커뮤니티에 존재하는 개체에 대한 카테고리 태그를 나타내는 도면이다.

도 3에서 설명된 다언어 특질 투영 모듈은 지식베이스에 존재하는 모든 개체를 수집하고, 수집된 개체들의 하나 이상의 언어로 작성된 위키피디아 문서 집합으로부터 복수개의 분류 체계에 사용된 단어를 추출한다.

위키피디아 문서 집합은 복수 개의 언어로 작성된 문서의 집합으로서, 각 문서들은 특정 개체에 대한 작성자 및 편집자의 배경 지식 및 의견 내지 작성자의 문화적 배경을 표현하기 위한 하나 이상의 분류 체계에 대한 정보를 포함한다. 예를 들어, "우사인 볼트"의 개체에 대하여 영어 위키피디아에 존재하는 분류 체계 단어 "People from Trelawny Parish"는 한국어 위키피디아에 존재하지 않으며, 이는 영어 위키피디아 문서 작성시에만 사용된 정보이므로 한국어 위키피디아에서는 발견할 수 없는 정보임을 알 수 있다. 본 발명은, 여러 언어의 특정 분류 체계를 단일 벡터 공간으로 통합하여 사용된 단어에 대한 전체적인 통계기반 점수를 계산할 수 있다.

분류 체계는 정보 추출, 검색 등과 같은 과정에 있어 중요하게 사용되는 자원으로, 위키피디아 카테고리 태그로부터 추출된다. 도 4는 한국어 위키피디아에 존재하는 개체 "우사인_볼트"에 대해 존재하는 카테고리 태그를 나타낸다. 이는 개체에 대한 일종의 위키피디아 문서 집합을 구성하는 작성자들간의 협력적 태깅이라고 볼 수 있으며, 집단 지성을 활용함으로써 데이터 품질 유지가 이루어지고 있다.

도 5는 본 발명의 일 실시예에 따른 영어 커뮤니티에 존재하는 개체에 대한 카테고리 태그를 나타내는 도면이다.

위키피디아 문서로부터 특정 분류 체계를 추출하기 위한 알고리즘에 대해서는 본 발명의 기술 분야에서 잘 알려져 있으므로 여기서는 이에 대한 설명을 생략한다. 서로 다른 언어간 추출된 분류 체계 데이터는, 포함하고 있는 개체의 양과 범위가 일치하지 않는다. 따라서 피벗 언어를 영어로 설정하고 영어에 존재하는 개체 분류 체계에 사용된 모든 단어를 분류 체계 피벗 벡터로 생성한다. 도 5는 피벗 언어인 영어 위키피디아 문서 집합에서 발견된 개체 "우사인 볼트 (Usain Bolt)"에 사용된 카테고리 태그를 나타낸다. 이는 한국어 위키피디아에 존재하는 해당 개체의 카테고리 태그가 나타난 도 4와 비교하여 그 수가 다르며, 분류 체계를 구성하는 단어열 역시 다른 것을 알 수 있다.

도 6은 본 발명의 일 실시예에 따른 분류체계 단어로부터 찾아진 어근의 벡터화를 나타내는 도면이다.

분류 체계 피벗 벡터에는 분류 체계를 구성하는 명사구로 이루어진 단어의 경계를 구분하고, 각 단어의 어근을 찾는 일(stemming)을 한 후 벡터로 생성하는 단계로 이루어진다. 피벗 분류 체계 벡터는 어근 단위의 단어열을 그 길이로 가지며 피벗 벡터에는 영어 위키피디아 문서 집합에서 발견된 분류 체계의 각 단어열의 발견 횟수 기반 분류 체계 단어에 대한 점수(610)를 계산한다. 다음으로, 피벗 분류 체계 벡터에 피벗 언어인 영어를 제외한 다른 언어로부터 추출된 분류 체계를 통합하는 과정을 진행한다.

도 7은 본 발명의 일 실시예에 따른 분류체계 단어로부터 찾아진 어근의 벡터화에 대한 가중치 추가를 나타내는 도면이다.

상이한 언어 간의 개체 대응 관계 과정은 위키피디아에 존재하는 언어간 링크(interlanguage link)를 SPARQL 질의를 이용하여 밝혀낼 수 있으며 이는 상이한 두 개의 언어 간 번역을 이용하는 것과 동일한 효과가 있다. 지식베이스에 대하여 SPARQL 질의문을 처리하는 것에 대해서는 본 발명의 기술 분야에서 잘 알려져 있으므로 여기서는 이에 대한 설명을 생략하기로 한다. 해당 과정을 거치면 기존의 피벗 분류 체계 벡터에 다른 언어 위키피디아 문서 집합으로부터 추출된 단어에 해당되는 번역된 영어 단어의 가중치를 추가 계산된다. 이때, 기존 피벗 벡터에 존재하는 해당 단어 어근에 대한 가중치는 그 발견횟수만큼 증가한다. 도 7은 특정 단어 "Jamaican(721)"과 "sprinters(722)"에 대한 가중치(710)가 도 6에서의 가중치 보다 각각 +2, +1씩 증가된 것을 보여주는 하나의 예이다. 피벗 벡터에 존재하지 않는 추가적으로 발견된 단어에 대해서는 본 발명에서 고려하지 않는다.

앞서 선정된 분류 체계로부터 추출된 단어 벡터를 자질로 하여 주어진 개체를 전산분야에서 널리 활용되고 있는 분할법 중 특정 알고리즘을 활용하여 주어진 개체를 여러 군집으로 나눈다. 본 발명은 개체의 군집 구성원(이웃)이 공유하는 <특성 ― 값> 쌍이 해당 군집에 없는 개체와 공유하는 기능보다 개체의 고유 속성을 지정하는데 중요함을 의미한다. 예를 들어, A = {"Usain Bolt", "Carl Lewis", "Michael Johnson"}, B = {"Babe Ruth", "Hyun-jin Ryu"}의 두 군집이 존재하는 경우, 군집 A의 "Usain Bolt"의 경우는 "스포츠 이벤트" 또는 "메달 정보"와 같은 필수 속성을 가지고 있지만 "베이브 루스"는 자신의 "포지션" 또는 "소속팀"에 더 중점을 두어 요약본을 생성할 수 있다.

이때 다수개의 개체로부터 다수개의 군집을 나누는 과정을 각 군집의 중심과 군집 내의 개체와의 거리의 제곱합을 비용 함수(cost function)로 정하고 이를 최소화하는 방식으로 이루어지며, 이 과정에서 같은 군집 내 개체끼리의 유사도는 증가하고, 다른 군집에 속해 있는 개체와의 유사도는 감소하게 된다. 본 발명에서는 분할법 중 k-평균 알고리즘을 사용하나, 본 발명에서 제안하는 기술은 이에 한정되지 않는다.

도 8은 본 발명의 일 실시예에 따른 일 군집의 두 개체의 트리플 집합 비교를 나타내는 도면이다.

이 과정은 여러 개의 군집이 있을 때 어떤 속성 유형이 특정 군집 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치로 정의된다. 예를 들어 아래 도 8과 같이, 동일한 군집에 속하는 두 개체 "우사인_볼트(Usain_Bolt)"의 속성 유형(810)과 "마이클_존슨 (Michael_Johnson_(sprinter)"의 속성 유형(820)은 dbo:birthPlace, dbo:sport, dbo:event를 공통으로 포함 하고 있으며 이는 두 개체를 기술하기 위한 중요한 서술관계임이 명백하다. 그러나 공통적으로 사용되지 않은 속성 유형 dbo:honorificSuffix와 dbo:collegeteam 는 개체의 주요 본질을 기술하는 필수 요소로는 볼 수 없다.

따라서 속성 유형의 가중치는 다음 두 가지 자질의 조합으로 정의된다: 군집에서의 속성 유형 단어의 빈도(Property Frequency) 및 역군집 빈도(Inverse Group Frequency).

군집에서의 속성 유형 단어의 빈도(Property Frequency): 군집 내에 나타나는 속성 유형 단어의 총 빈도수를 사용하며 수학식(1)과 같다.

수학식(1)

역군집 빈도(Inverse Group Frequency): 한 속성 유형 단어가 군집 집합 전체에서 얼마나 공통적으로 나타나는 지를 나타내며, 전체 군집의 수를 해당 속성 유형 단어를 포함한 군집의 수로 나눈 뒤 로그를 취하여 얻는 값을 사용하며 수학식(2)와 같다.

수학식(2)

도 9는 본 발명의 일 실시예에 따른 하나의 개체에 대한 중복된 속성 유형을 나타내는 도면이다.

특정 군집 내에서 속성 유형 단어 빈도가 높을수록, 그리고 전체 군집들 중 그 속성 유형 단어를 포함한 군집이 적을수록 서술관계의 가중치 값이 높아진다. 이를 이용하여 모든 군집에 흔하게 나타나는 속성 유형 단어를 걸러내는 효과를 얻을 수 있어 군집 내에서 의미 있게 중요한 속성 유형을 파악할 수 있다.

수학식(3)

수학식(3)에서 e는 트리플의 주어 즉 주어진 개체를 나타내며, v는 트리플의 속성 값을 나타낸다. (s,p,o)는 지식베이스에 존재하는 트리플을 나타내며 E(e)는 주어진 개체 e가 속한 군집을 나타낸다. |x|는 해당 집합 x에 속하는 원소개수를 나타낸다. 현 단계에서 개체 군집 단위별로 가장 중요한 주어-목적어(다시 말해, 개체-속성값) 관계를 도출한다. 이 과정은 개체 기준으로 주요한 상대 개체를 결정하는 과정으로 예시는 도 9와 같다.

여기서 하나의 개체에 대하여 동일한 속성 유형에 의해 정의된 두 개의 목적어인 dbr:Spanish_Town(910)과 dbr:Jamaica(920) 중에서 주어진 개체 Usain_Bolt 와의 상관관계를 점수화하여 두 개의 트리플 중 상대적으로 더 주요한 속성값을 결정하도록 가중치를 계산하며 사용된 수학식은 다음과 같다.

수학식(4)

수학식(4)에서, v는 트리플에서의 목적어를 나타낸다. 즉 상호 연결 가중치를 알고 싶은 두 개의 개체가 각각의 군집 내에서 함께 트리플로 많이 발견될수록 해당 점수는 높아진다. 즉, 가중치 v-score는 트리플을 구성하고 있는 두 개체의 공기 정보(Co-occurrence)를 바탕으로 계산된다. 상세하게는 가산 연산으로 연결된 첫 번째 두 요소는 주어와 목적어로 이루어진 두 개의 엔티티에 대한 상관관계 기반 점수이고, 범위 [0-1]로 정규화된다.

다음 단계에서는 상기 단계에서 계산된 두 개의 가중치의 곱을 통하여 개체 단위의 전체 트리플(다시 말해, 개체 기술문)을 정렬한다. 트리플 사이의 최종 정렬을 위한 점수는 독립된 "속성 유형 가중치"의 값과 독립된 "주어-속성 값 간의 가중치" 값, 그리고 협력되어 계산되는 "속성 유형 가중치"와 "주어-속성 값 간의 가중치"의 곱의 합으로 정의되며 수학식은 다음과 같다.

수학식(5)

도 10은 본 발명의 일 실시예에 따른 중복된 속성 유형의 허가 여부에 따른 최종 요약본 비교를 나타내는 도면이다.

다음 단계에서는 사용자에 의해 요구된 길이에 따라 요약본 중 일부를 취하여 반환한다. 즉, 사용자가 요약본의 길이로 n개를 요구할 경우 최종 결과물에서 n개의 트리플을 취하여 사용자에게 반환한다. 특히 요약되는 최종 결과물이 갖추어야 할 본질 기능인 중복을 최소화하기 위하여 사용자가 요구하는 n개의 길이가 극단적으로 작은 경우(n=5)에는 최종결과물에 포함되는 트리플들 사이의 중복은 다음과 같이 제한된다.

- 최종 요약본 = 속성 유형 중복 허용되지 않음 ∧ 속성 값 중복 허용되지 않음

즉, 최종 요약본에 포함된 삼항관계에 사용된 속성 유형은 주어-속성 값 사이에 유일하게 사용되며 속성 값 역시 다수개의 속성 유형 에서 한번 이상 발견될 수 없으며 최종 요약본 가능한 상태(1010) 및 최종 요약본 불가능한 상태(1020)의 예시는 도 10과 같다.

도 11은 본 발명의 일 실시예에 따른 중복된 속성 값의 허가 여부에 따른 최종 요약본 비교를 나타내는 도면이다.

도 10에서 설명된 바와 다르게, 사용자가 요구하는 n개의 길이가 늘어난 경우(n=10)에는 최종 요약본에 포함되는 트리플들 사이의 중복은 다음과 같이 조절된다.

- 최종 요약본 = 속성 유형 중복 허용 ∧ 속성 값 중복 허용

즉, 최종 요약본에 포함된 트리플에 사용된 속성 유형은 서로 다른 속성값과 함께 여러 번 발견될 수 있으며, 목적어 역시 다수개의 속성 유형으로 여러 번 사용될 수 있으며 최종 요약본 가능한 상태(1110) 및 최종 요약본 불가능한 상태(1120)의 예시는 도 11과 같다.

아래에서, 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법 및 시스템의 실험 결과에 대해 설명한다.

제안하는 기술의 성능을 검증하기 위해 기존 최신 기술에서 사용한 동일한 실험 데이터를 통해 성능 비교 평가를 진행하였다. 사용된 실험 데이터는 15명의 독립된 서로 다른 사용자가 총 50개의 주어진 DBpedia 개체에 대한 트리플 셋을 제공받아, 개체 단위의 중요한 트리플을 Top5와 Top10로 선정해놓은 정답데이터이며 중요 트리플 Top10의 경우 Top5를 모두 포함한다. 시스템의 성능은 정답 데이터로부터 수학식(6)과 같은 퀄리티로 측정할 수 있다.

수학식(6)

수학식(6)에서 Summ(e)는 개체 e에 대하여 시스템이 생성한 요약 결과를 의미하며 SummiI(e)는 정답데이터로 사용된 데이터 중 i번째 사용자가 주어진 개체 e에 대하여 선택한 요약본을 나타낸다. 시스템의 성능은 정답 데이터에 포함된 모든 사용자와의 평균값으로 계산된다. 정답 데이터를 생성한 사용자마다 생성하는 요약본에 포함시키는 트리플의 정보가 다르기 때문에 시스템이 이상적으로 도달할 수 있는 성능(quality)의 목표값이 주어지는데 목표값은 수학식(7)에 따라 결정된다. 참고로 다수의 사용자가 생성한 정답 데이터간의 일치를 나타내는 목표값은 평균 1.9596(n=5), 4.6770(n=10) 이다.

수학식(7)

표 2는 요약본 생성 길이가 각각 5, 10일 때, 기존 최신 기술(FACES; state-of-the-art)과 제안하는 기술에 대한 성능을 나타내었다. 본 실험에서는 개체 군집 기반 방식의 효율성을 분석하기 위해 두 개의 비교군 시스템을 추가하였다. 상세하게는 단일 언어 환경과 다양한 언어 투영된 환경의 비교를 위하여 제안 기술을 하나의 언어 환경에 적용한 경우를 추가 비교하였으며(비교군1) 개체 군집화를 통한 지식베이스 분할과 유사 기술과의 우위성 검증을 위해 비교군2를 추가하였다.

- FACES : 종래 기술

- Multi-EGS : 제안 기술, 다언어 특질 투영 분류체계 기반

- EGS : 제안 기술 (비교군 1), 단일언어 분류체계 기반

- Typed : 제안 기술 (비교군 2), 단일언어 온톨로지 타입 기반

표 1에서 기존 기술인 지식베이스 분할 기법을 사용한 FACES보다 개체 군집화 기법을 사용한 모든 방식 Multi-EGS, EGS, Typed 시스템이 우수한 성능임을 확인할 수 있다. 또한 분류체계 태그를 이용하여 개체 군집화를 실행하는 것이 유사 기술인 온톨로지에 미리 정의된 타입을 이용하는 것보다 뛰어남을 확인할 수 있으며 다국어 분류 체계의 통합 기반 개체 군집화(Multi-EGS)에 따른 성능 향상을 확인할 수 있었다.

<표 1>

표 2는 종래 기술과 제안하는 기술의 상세 비교 결과를 나타내며 평가 데이터의 개체 요약본 결과 중, 제안 방식에서 가장 높은 품질 및 가장 낮은 품질을 나타낸 개체에 대한 결과 비교 분석이다. 제안 기술에 비해 기존 최신 기법의 품질 점수는 현저히 높지만, 목적어 중복의 증가로 인해 여러 사용자들의 정답과 유사하게 계산되면서 평균 품질 점수가 높으나, 중복적인 내용이 포함되어 요약본으로 적합하지 않음을 알 수 있다. 반면에 제안 방식에 따른 요약은 주어진 개체에 대한 주요한 특질을 포함할 뿐 아니라, 요약본 내의 중복을 최소화하여 개체에 대한 대표성을 표현할 수 있다.

<표 2>

종래기술에서는 개체 중심의 데이터가 빠르게 증가하는 환경에서 <개체-속성- 목적어>로 이루어진 트리플의 집합이 너무 방대해져 주요 정보를 신속하게 식별하는데 어려움을 겪었다. 본 발명에서 제안하는 개체의 군집화를 통해 개체에 대하여 주제별 분류를 가능하게 하는 효과를 가져올 수 있으며, 다양한 언어 자원으로부터 발생한 상대적인 개별 특질을 통합함으로써 기존 단일 언어 자원만 사용된 조건에서보다 개체 군집화의 성능 향상을 도모한다. 본 발명은 개체를 설명하기 위한 필수 항목을 포함시키는 전문가의 요약 방식과 최대한 가깝게 재현함으로써 더욱 효과적은 요약 결과를 내는 시스템을 기대할 수 있으며, 대용량의 지식베이스 상에서의 개체 단위의 효율적인 정보 검색과 신속한 질의 처리를 제공하는데 유용하게 이용될 수 있을 것이다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다.　 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다.　 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다.　 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다.　 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다.　 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다.　 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다.　 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.　 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.　 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.　 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.　

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다.　 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

다언어 지식베이스에서 분류체계를 표식하는 트리플을 추출하여 동일한 개체 단위의 정보를 통합하는 단계;
다언어 지식베이스에서 분류체계를 표식하는 삼항관계를 추출하여 개체 군집화를 구성하는 단계;
개체 군집화 모듈에서 구성된 개체 군집에 기반하여 군집 별 주요 서술관계 및 주요 개체-목적어 상관관계를 찾고, 다언어 지식베이스의 트리플의 가중치를 계산하는 단계;
모든 삼항관계에 대한 분석을 반복하고, 계산된 가중치에 기반하여 모든 삼항관계에 관한 중요도 순에 따라 요약본을 정렬하는 단계; 및
정렬된 요약본에 대하여 사용자의 요구에 따라 중복을 최소화하고, 정렬된 요약본 중 중요도 순의 우선 순위부터 가져오는 단계
를 포함하는 개체 요약본 생성 방법.
제1항에 있어서,
다언어 지식베이스에서 분류체계를 표식하는 트리플을 추출하여 동일한 개체 단위의 정보를 통합하는 단계는,
동일한 개체에 대하여 복수의 언어로 작성된 트리플을 연계하여 복수의 언어에서 공통적으로 사용되는 자질을 도출하고, 복수의 언어 각각에서 독립적으로 사용되는 자질을 도출하여, 복수의 언어 커뮤니티에서 생성되는 해당 개체에 대한 개체의 분류체계 특징을 통합하는
개체 요약본 생성 방법.
제1항에 있어서,
다언어 지식베이스에서 분류체계를 표식하는 삼항관계를 추출하여 개체 군집화를 구성하는 단계는,
다언어 지식베이스에 존재하는 분류체계를 기술한 트리플로부터 개체를 군집화 하기 위한 자질을 도출하고, 도출된 유사한 자질의 해당 개체끼리 군집화 하는
개체 요약본 생성 방법.
제1항에 있어서,
개체 군집화 모듈에서 구성된 개체 군집에 기반하여 군집 별 주요 서술관계 및 주요 개체-목적어 상관관계를 찾고, 다언어 지식베이스의 트리플의 가중치를 계산하는 단계는,
개체 군집에서 사용된 속성 유형 빈도 및 역군집 빈도를 나타내는 점수의 조합으로 이루어지는 개체 군집 내의 주요 속성 유형에 기반하고, 개체 군집 단위 별 개체-속성값 공기정보(co-occurrence)에 기반하는
개체 요약본 생성 방법.
제1항에 있어서,
모든 삼항관계에 대한 분석을 반복하고, 계산된 가중치에 기반하여 모든 삼항관계에 관한 중요도 순에 따라 요약본을 정렬하는 단계는,
개체 군집에 따른 트리플의 주요 속성 유형을 도출하고, 개체-속성값 상관 관계를 도출하여 주요 속성 유형 및 개체-속성값 상관 관계의 조합을 이용하여 중요도 순에 따라 요약본을 정렬하는
개체 요약본 생성 방법.
제1항에 있어서,
정렬된 요약본에 대하여 사용자의 요구에 따라 중복을 최소화하고, 정렬된 요약본 중 중요도 순의 우선 순위부터 가져오는 단계는,
개체 기술문에 사용된 속성 유형 및 속성값의 중복을 최소화 하고, 사용자가 요구하는 길이만큼 요약본을 생성하는
개체 요약본 생성 방법.
다언어 지식베이스에서 분류체계를 표식하는 트리플을 추출하여 동일한 개체 단위의 정보를 통합하는 다언어 특질 투영 모듈;
다언어 지식베이스에서 분류체계를 표식하는 삼항관계를 추출하여 개체 군집화를 구성하는 개체 군집화 모듈;
개체 군집화 모듈에서 구성된 개체 군집에 기반하여 군집 별 주요 서술관계 및 주요 개체-목적어 상관관계를 찾고, 다언어 지식베이스의 트리플의 가중치를 계산하는 개체 기술문 랭킹 모듈; 및
서술관계 분석부 및 개체-목적어 분석부를 통해 모든 삼항관계에 대한 분석을 반복하고, 계산된 가중치에 기반하여 모든 삼항관계에 관한 중요도 순에 따라 요약본을 정렬하고, 정렬된 요약본에 대하여 사용자의 요구에 따라 중복을 최소화하고, 정렬된 요약본 중 중요도 순의 우선 순위부터 가져오는 개체 요약본 생성 모듈
을 포함하는 개체 요약본 생성 시스템.
제7항에 있어서,
개체 군집화 모듈은,
동일한 개체에 대하여 복수의 언어로 작성된 트리플을 연계하여 복수의 언어에서 공통적으로 사용되는 자질을 도출하고, 복수의 언어 각각에서 독립적으로 사용되는 자질을 도출하여, 복수의 언어 커뮤니티에서 생성되는 해당 개체에 대한 개체의 분류체계 특징을 통합하는
개체 요약본 생성 시스템.
제7항에 있어서,
개체 군집화 모듈은,
다언어 지식베이스에 존재하는 분류체계를 기술한 트리플로부터 개체를 군집화 하기 위한 자질을 도출하고, 도출된 유사한 자질의 해당 개체끼리 군집화 하는
개체 요약본 생성 시스템.
제7항에 있어서,
개체 기술문 랭킹 모듈은,
개체 군집에서 사용된 속성 유형 빈도 및 역군집 빈도를 나타내는 점수의 조합으로 이루어지는 개체 군집 내의 주요 속성 유형에 기반하고, 개체 군집 단위 별 개체-속성값 공기정보(co-occurrence)에 기반하는
개체 요약본 생성 시스템.
제7항에 있어서,
개체 요약본 생성 모듈은,
개체 군집에 따른 트리플의 주요 속성 유형을 도출하고, 개체-속성값 상관 관계를 도출하여 주요 속성 유형 및 개체-속성값 상관 관계의 조합을 이용하여 중요도 순에 따라 요약본을 정렬하는
개체 요약본 생성 시스템.
제7항에 있어서,
개체 요약본 생성 모듈은,
개체 기술문에 사용된 속성 유형 및 속성값의 중복을 최소화 하고, 사용자가 요구하는 길이만큼 요약본을 생성하는
개체 요약본 생성 시스템.