KR20150111587A

KR20150111587A - 디비피디아를 활용한 uri 스포팅 시스템 및 방법

Info

Publication number: KR20150111587A
Application number: KR1020140035047A
Authority: KR
Inventors: 최기선; 임경태; 함영균
Original assignee: 한국과학기술원
Priority date: 2014-03-26
Filing date: 2014-03-26
Publication date: 2015-10-06

Abstract

본 발명은 자연어 문장을 분석하여 문장에서 사용된 디비피디아를 리소스를 찾아 자동으로 추출하는 시스템이다.
시스템에서 명하는 URI spotting은 자연어 문장으로부터 연관된 링크드 데이터의 리소스를 찾는 것을 말한다. 본 시스템의 목표는 한국어 문장을 대상으로 URI spotting을 하는 도구를 개발하는 것이다. 대상이 되는 문장은 한국어 텍스트, 한국어질의어의 두 종류이다. URI spotting은 크게 2가지 세부 과정으로 나눌 수 있다. 첫 단계는 spotting 단계로 문장으로부터 추출할 단어의 추출 규칙을 정하여 결과적으로 여러 개의 후보들을 생성하는 단계이다. 이 과정은 대부분 형태소 분석기, 개체명 인식기 등의 자연어 처리 도구로부터 추출할 단어를 선정한다. URI spotting을 위한 두 번째 단계로 리소스 매핑 단계가 있다. Spotting 단계로부터 추출된 후보들로부터 최적의 디비피디아 URI와 매핑하는 단계로 유사도 측정 알고리즘, 단어의 의미의 모호성 문제 해결이 필요하다.
최종적으로 앞 두 단계로부터 추출된 URI는 디비피디아 SPARQL을 이용한 트리플 데이터 검증을 통해 추출된 최적의 후보 데이터와 디비피디아 데이터가 유효한가 검사하는 과정을 거쳐 최종 URI들을 선택하고 해당 문장과 관련된 SPARQL질의를 추천한다.

Description

디비피디아를 활용한 URI 스포팅 시스템 및 방법{SYSTEM AND METHOD FOR URI SPOTTING}

본 발명은 URI 스포팅 시스템 및 방법에 관한 것이다.

디비피디아는 위키피디아로부터 구조화된 정보를 추출한 링크드 데이터로서 W3C에서 채택된 RDF 형태의 데이터를 사용한다. 구조화 정보는 SPARQL질의 처리기를 통해 기존 관계형 데이터 베이스와 비교하여 자연어 질의에 가까운 질의 처리를 가능하게 만든다. 예를 들어 "버락 오바마의 배우자는 누구인가?"와 같은 질의는 RDF 트리플 형태로 <버락오바마> <배우자> <?>와 같은 형태로 SPARQL 표현이 가능하다.

본 발명이 해결하고자 하는 과제는 자연어 문장으로부터 관련된 디비피디아 URI를 규명하고 추출하는 시스템 및 방법을 제공하는 것이다.

본 발명의 URI spotting은 크게 2가지 세부 과정으로 나눌 수 있다. 첫 단계는 spotting 단계이다. 주로 자연언어로부터 문제 해결의 핵심이 되는 단어를 인지하는 과정을 말하며 본 시스템과 유사한 시스템인 디비피디아 spotlight에서는 명사를 spotting 후보로 정하였으며 LingPipe의 개체명 인식 정보를 참고하였다. 따라서 자연언어처리 도구 중 품사 태그정보와 개체명 인식 결과를 이용하여 spotting 대상을 설정 가능하다. 본 발명에서는 한국어 언어분석을 위해 형태소분석기 한나눔을 사용하고, 개체명 인식의 경우 Etri의 개체명 인식기를 사용할 수 있다.

URI spotting을 위한 두 번째 단계로 리소스 매핑 단계가 있다. 리소스 매핑 단계는 spotting된 결과로부터, 연관된 최적의 디비피디아 리소스를 규명하는 것을 목적으로 한다. 이 단계에서 의미의 모호성 문제가 발생할 수 있으며 최적의 정답 후보를 선택하기 위한 자체적으로 개발한 알고리즘을 이용한다.

본 발명의 한 실시예에 따른 URI spotting 기술은 영어의 경우 DBpedia Spotlight, Zemanta, Wikimachine와 같은 도구들에서 사용되고 있으며, 이 도구들은 social blog, 뉴스 기사 자동 주석 처리, 질의응답 시스템 등 다양한 텍스트 처리 분야에서 응용되고 있다. 따라서 본 발명의 한 실시예에 따른 한국어 URI spotting 시스템은 정보검색, 정보 추출 분야와 자연언어처리 도구들에 기술을 적용할 수 있다.

도 1은 본 발명의 한 실시예에 따른 흐름도이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

본 발명은 자연어 문장을 분석하여 문장에서 사용된 디비피디아를 리소스를 찾아 자동으로 추출하는 시스템이다.

시스템에서 명하는 URI spotting은 자연어 문장으로부터 연관된 링크드 데이터의 리소스를 찾는 것을 말한다. 본 시스템의 목표는 한국어 문장을 대상으로 URI spotting을 하는 도구를 개발하는 것이다. 대상이 되는 문장은 한국어 텍스트, 한국어질의어의 두 종류일 수 있다.

URI spotting은 크게 2가지 세부 과정으로 나눌 수 있다.

첫 단계는 spotting 단계로 문장으로부터 추출할 단어의 추출 규칙을 정하여 결과적으로 여러 개의 후보들을 생성하는 단계이다. 이 과정은 대부분 형태소 분석기, 개체명 인식기 등의 자연어 처리 도구로부터 추출할 단어를 선정한다.

URI spotting을 위한 두 번째 단계로 리소스 매핑 단계가 있다. Spotting 단계로부터 추출된 후보들로부터 최적의 디비피디아 URI와 매핑하는 단계로 유사도 측정 알고리즘, 단어의 의미의 모호성 문제 해결이 필요하다.

최종적으로 앞 두 단계로부터 추출된 URI는 디비피디아 SPARQL을 이용한 트리플 데이터 검증을 통해 추출된 최적의 후보 데이터와 디비피디아 데이터가 유효한가 검사하는 과정을 거쳐 최종 URI들을 선택하고 해당 문장과 관련된 SPARQL질의를 추천한다.

본 시스템에서 사용하는 디비피디아는 위키피디아로부터 구조화된 정보를 추출한 링크드 데이터로서 W3C에서 채택된 RDF 형태의 데이터를 사용한다. 구조화 정보는 SPARQL질의 처리기를 통해 기존 관계 형 데이터 베이스와 비교하여 자연어 질의에 가까운 질의 처리를 가능하게 만든다. 예를 들어 "버락 오바마의 배우자는 누구인가?"와 같은 질의는 RDF 트리플 형태로 <버락오바마> <배우자> <?>와 같은 형태로 SPARQL 표현이 가능하다.

따라서 질의 응답 시스템, 개체명 인식기 등 다양한 곳에 사용 가능하며, 개체의 고유 식별자인 URI를 이용하여 각 객체마다 유일한 URI주소를 가진다. 디비피디아를 활용한 URI spotting 시스템은 일반 문장으로부터 매칭되는 최적의 디비피디아 URI를 찾는걸 목적으로 하기 때문에 결과적으로 위 문장으로부터 다음과 같은 두 가지 디비피디아 URI리소스를 추출한다. <http://ko.dbpedia.org/resource/버락_오바마> <http://ko.dbpedia.org/property/배우자>

도 1은 본 발명의 한 실시예에 따른 흐름도이다.

도 1을 참고하면, 시스템은 데이터를 입력받는다. 입력 데이터는 한국어 텍스트 문서나 문장 하나일 수 있다.

시스템은 Spotting 단계에서 문장으로부터 추출할 후보를 선정한다(s1). Spotting 단계(s1)는 세부 작업으로 형태소 분석 단계(s2), 개체명 인식 단계(s3), 최대거리 문자열 선택 단계(s4)의 기술을 활용할 수 있다.

형태소 분석 단계(s2)는 한국어 텍스트 처리(품사 분석)를 위한 텍스트 분석기를 통해 형태소를 분석한다.

개체명 인식 단계(s3)는 문장으로부터 사람, 장소, 단체 등을 찾는 텍스트 분석기를 통해 개체명을 인식한다.

최대거리 문자열 선택 단계(s4)는 형태소 분석 단계(s2)와 개체명 인식 단계(s3)에서 추출된 단어로부터 띄어쓰기 등을 포함한 형태의 처리를 위한 후보 확장 알고리즘을 기초로 최대거리 문자열을 선택한다.

시스템은 리소스 매핑 단계에서, Spotting 단계(S1)에서부터 생성된 후보들로부터 최적의 후보를 선택한다(s5). 리소스 매핑 단계(s5)는 의미의 모호성 문제 해결 알고리즘(6)과 Latent Semantic Analysis 알고리즘(7)을 포함할 수 있다.

의미의 모호성 문제 해결 알고리즘(6)은 의미의 모호성이 있는 단어를 분류하기 위한 알고리즘이다.

Latent Semantic Analysis 알고리즘(7)은 디비피디아 URI 리소스간의 유사도 검색을 통해 최적의 후보를 선택하는 알고리즘이다.

시스템은 유효성 검증 단계에서, 리소스 매핑 단계(s5)로부터 최종적으로 추출된 URI를 검증한다(s8). 유효성 검증 단계(s8)는 SPARQL 접근 모듈(9)과 SPARQL 질의 템플릿 모듈(10)을 포함할 수 있다.

SPARQL 접근 모듈(9)은 디비피디아 SPARQL에 손쉽게 접근하도록 개발된 모듈이다.

SPARQL 질의 템플릿 모듈(10)은 미리 정해둔 SPARQL 질의 템플릿을 통해 추출된 리소스간의 관계가 유효한지 검사하는 모듈이다.

시스템은 텍스트 분석을 통해 추출된 디비피디아 URI 정보(예를 들면, http://ko.dbpedia.org/resource/버락_오바마)를 출력한다.

이와 같이, 시스템은 Spotting 대상으로 한국어 디비피디아의 엔티티, 프로퍼티로를 대상으로 사용할 수 있다.

시스템은 한국어 텍스트 문서나 문장 하나를 입력받을 수 있다.

시스템은 텍스트 분석을 통해 추출된 디비피디아 URI 정보를 출력할 수 있다.

시스템은 Spotting 후보를 선정함에 있어, 한국어 형태소 분석기의 분석 결과를 이용하며 한국어 특징에 따라 명사, 동사, 형용사 등을 이용할 수 있다.

시스템은 Spotting 후보를 선정함에 있어 최대거리 문자열 선택 알고리즘(longest case-insensitive match)을 사용할 수 있다.

시스템은 spotting 후보들 선정 이 후 단어 의미의 모호성 문제(disambiguation)를 해결하고 최적의 후보 선택을 위해 Latent Semantic Analysis(LSA)알고리즘을 사용할 수 있다.

시스템은 단어 의미의 모호성 문제(disambiguation) 해결에 사용될 자질은 디비피디아 프로퍼티 리스트, 분류정보, Abstract 정보 등을 활용할 수 있다.

시스템은 최종적으로 선택된 후보들을 디비피디아 SPARQL질의를 이용하여 해당 데이터가 디비피디아에서 유효한지 검증할 수 있다.

이와 같이, 본 발명의 한 실시예에 따른 URI spotting 기술은 영어의 경우 DBpedia Spotlight, Zemanta, Wikimachine와 같은 도구들에서 사용되고 있으며, 이 도구들은 social blog, 뉴스 기사 자동 주석 처리, 질의응답 시스템 등 다양한 텍스트 처리 분야에서 응용되고 있다. 따라서 본 발명의 한 실시예에 따른 한국어 URI spotting 시스템은 정보검색, 정보 추출 분야와 자연언어처리 도구들에 기술을 적용할 수 있다.

이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims

자연어 문장으로부터 관련된 디비피디아 URI를 추출하는 시스템.
제1항에서,
한국어 텍스트 문서나 문장 하나를 입력받는 시스템.
제1항에서,
텍스트 분석을 통해 추출된 디비피디아 URI 정보를 출력하는 시스템.
제1항에서,
한국어 형태소 분석기의 분석 결과를 이용하며 Spotting 후보를 선정하는 시스템.
제1항에서,
최대거리 문자열 선택 알고리즘(longest case-insensitive match)을 사용하여 Spotting 후보를 선정하는 시스템.
제1항에서,
Latent Semantic Analysis(LSA)알고리즘을 사용하여 단어 의미의 모호성 문제(disambiguation)를 해결하는 시스템.
제6항에서,
디비피디아 프로퍼티 리스트, 분류정보, Abstract 정보를 이용하여 단어 의미의 모호성 문제(disambiguation)를 해결하는 시스템.
제1항에서,
디비피디아 SPARQL질의를 이용하여 해당 데이터가 디비피디아에서 유효한지 검증하는 시스템.