KR20180108257A

KR20180108257A - 온톨로지에 의해 표현되는 자원들을 이용하여 상기 온톨로지를 확장하는 방법

Info

Publication number: KR20180108257A
Application number: KR1020170037777A
Authority: KR
Inventors: 박외진; 안기호
Original assignee: (주)아크릴
Priority date: 2017-03-24
Filing date: 2017-03-24
Publication date: 2018-10-04
Also published as: KR101991320B1

Abstract

문서들에 포함된 지식을 RDF를 이용하여 각각이 주어, 술어, 및 목적어를 가지는 RDF 트리플들로 구조화하고 상기 RDF 트리플들을 저장하는 온톨로지를 컴퓨터에서 실행되는 소프트웨어를 이용하여 확장하는 방법은 상기 문서들에 포함된 단어들 중 하이퍼링크가 설정된 제1관계어들을 상기 온톨로지로부터 추출하고, 추출된 제1관계어들에 대하여 인공신경망 기반의 기계학습을 수행하고 수행결과에 따라 상기 제1관계어들 사이의 유사도를 판단하기 위한 변수들을 생성하고, 상기 문서들 중 대상 술어를 포함하는 RDF 트리플과 대응하지 않는 제1문서의 제목을 상기 온톨로지로부터 추출하고, 상기 변수들을 이용하여 상기 제1관계어들 중 상기 제1문서의 제목과 가장 유사한 유사어를 선택하고, 상기 문서들 중 상기 유사어를 제목으로 하는 제2문서와 대응하는 RDF 트리플들 중에서 상기 대상 술어를 포함하는 RDF 트리플의 목적어를 속성값으로서 상기 온톨로지로부터 추출하고, 상기 제1문서의 제목을 주어로, 상기 대상 술어를 술어로, 상기 속성값을 목적어로 갖는 확장 RDF 트리플을 생성한다.

Description

온톨로지에 의해 표현되는 자원들을 이용하여 상기 온톨로지를 확장하는 방법{METHOD FOR EXTENDING ONTOLOGY USING RESOURCES REPRESENTED BY THE ONTOLOGY}

본 발명의 개념에 따른 실시 예들은 온톨로지를 확장하는 방법에 관한 것으로, 특히, 온톨로지에 저장된 구조화된 지식을 이용하여 상기 온톨로지를 확장하는 방법에 관한 것이다.

통상적으로 온톨로지(ontology)의 사전적 의미는 "공유된 개념화(shared conceptualization)에 대한 정형화되고 명시적인 명세(formal and explicit specification)"로서, 특정 지식과 관련된 용어와 용어 사이의 관계를 형식적으로 정의한 집합으로 정의된다. 즉, 온톨로지란 지식을 기술하는 데이터 모델 또는 이러한 데이터 모델에 따라 기술된 지식들을 저장하는 데이터베이스를 의미한다.

디비피디아(DBpedia)는 위키피디아 데이터베이스로부터 자동 구축된 지식데이터베이스로서, 온톨로지를 이용하여 위키피디아로부터 제공되는 문서들에 포함된 지식들을 구조화하는 대표적인 데이터베이스이다. 그러나 디비피디아는 위키피디아에 포함된 모든 지식을 구조화한다고 볼 수는 없다.

공개특허공보 제10-2016-0089846호 (2016. 07. 28.)

본 발명이 이루고자 하는 목적은 온톨로지에 저장된 구조화된 지식을 이용하여 상기 온톨로지를 확장하는 방법을 제공하는 것에 있다.

본 발명의 실시 예들에 따라, 문서들에 포함된 지식을 RDF를 이용하여, 각각이 주어, 술어 및 목적어를 가지는 RDF 트리플들로 구조화하고, 상기 RDF 트리플들을 저장하는 온톨로지를, 컴퓨터에서 실행되는 소프트웨어를 이용하여 확장하는 방법은 상기 문서들에 포함된 단어들 중에서 하이퍼링크가 설정된 제1관계어들을 상기 온톨로지로부터 추출하는 단계와, 추출된 상기 제1관계어들에 대하여 인공 신경망 기반의 기계 학습을 수행하고, 수행 결과에 따라 상기 제1관계어들 사이의 유사도를 판단하기 위한 변수들을 생성하는 단계와, 상기 문서들 중 대상 술어를 포함하는 RDF 트리플과 대응하지 않는 제1문서의 제목을 상기 온톨로지로부터 추출하는 단계와, 상기 변수들을 이용하여, 상기 제1관계어들 중 상기 제1문서의 제목과 가장 유사한 유사어를 선택하는 단계와, 상기 문서들 중에서 상기 유사어를 제목으로 하는 제2문서와 대응하는 RDF 트리플들 중에서 상기 대상 술어를 포함하는 RDF 트리플의 목적어를 속성값으로서 상기 온톨로지로부터 추출하는 단계, 및 상기 제1문서의 제목을 주어로, 상기 대상 술어를 술어로, 상기 속성값을 목적어로 가지는 확장 RDF 트리플을 생성하는 단계를 포함한다.

본 발명의 실시 예들에 따라, 문서들에 포함된 지식을 RDF를 이용하여 각각이 주어, 술어, 및 목적어를 가지는 RDF 트리플들로 구조화하고, 상기 RDF 트리플들을 저장하는 온톨로지를 컴퓨터에서 실행되는 소프트웨어를 이용하여 확장하는 방법은, 상기 문서들에 포함된 단어들 중에서 하이퍼링크가 설정된 제1관계어들을 상기 온톨로지로부터 추출하는 단계와, 상기 문서들을 포함하는 분류 문서들에 포함된 단어들 중에서 하이퍼링크가 설정된 제2관계어들을 상기 온톨로지로부터 추출하는 단계와, 상기 제1관계어들과 상기 제2관계어들 사이의 유사도를 판단하기 위해, 상기 제1관계어들과 상기 제2관계어들에 대하여 인공 신경망 기반의 기계 학습을 수행하고, 수행 결과에 따라 상기 유사도를 판단하기 위한 변수들을 생성하는 단계와, 상기 문서들 중에서 대상 술어를 포함하는 RDF 트리플과 대응하지 않는 제1문서의 제목을 상기 온톨로지로부터 추출하는 단계와, 상기 변수들을 이용하여 상기 제1관계어들과 상기 제2관계어들 중에서 상기 제1문서의 제목과 가장 유사한 유사어를 선택하는 단계와, 상기 문서들 중에서 상기 유사어를 제목으로 하는 제2문서에 대응하는 RDF 트리플들 중에서 상기 대상 술어를 술어로서 가지는 RDF 트리플들의 목적어를 속성값으로서 상기 온톨로지로부터 추출하는 단계, 및 상기 제1문서의 제목을 주어로, 상기 대상 술어를 술어로, 상기 속성값을 목적어로 가지는 확장 RDF 트리플을 생성하는 단계를 포함한다.

본 발명의 실시 예들에 따른 온톨로지를 확장하는 방법을 수행하기 위한 프로그램은 컴퓨터로 판독 가능한 기록 매체에 저장될 수 있다.

본 발명의 개념에 따른 실시 예들에 따르면, 온톨로지에 의해 표현되는 자원들만을 이용하여 상기 온톨로지를 확장할 수 있으므로, 외부로부터 온톨로지로 공급되는 별도의 정보 없이도 상기 온톨로지를 확장할 수 있는 효과가 있다.

본 발명의 개념에 따른 실시 예들에 따르면, 특정 지식을 표현하는 RDF 트리플이 온톨로지에 저장되어 있지 않더라도, 상기 온톨로지에 이미 저장되어 있던 RDF 트리플을 이용하여, 상기 특정 지식을 표현하는 RDF 트리플을 생성할 수 있는 효과가 있다.

도 1은 본 발명의 실시 예들에 따른 온톨로지 확장 시스템을 개념적으로 나타낸다.
도 2는 RDF를 설명하기 위한 도면이다.
도 3은 본 발명의 실시 예들에 따른 온톨로지가 문서들에 포함된 지식을 구조화하는 방법을 설명하기 위한 도면이다.
도 4는 본 발명의 실시 예들에 따른 온톨로지 확장기의 작동을 설명하기 위한 플로우차트이다.
도 5는 본 발명의 실시 예들에 따른 온톨로지 확장기의 작동을 설명하기 위한 도면이다.
도 6은 본 발명의 실시 예들에 따른 온톨로지 확장기의 작동을 설명하기 위한 도면이다.

이하, 첨부된 도면들을 참조하여 본 발명의 개념에 따른 실시 예들을 실시하기 위한 구체적인 내용을 설명한다.

도 1은 본 발명의 실시 예들에 따른 온톨로지 확장 시스템을 개념적으로 나타낸다. 도 1을 참조하면, 온톨로지 확장 시스템(10)은 장치(100), 온톨로지(200), 및 온톨로지 확장기(300)를 포함한다.

장치(100)는 연산 또는 작업을 수행할 수 있는 컴퓨터(computer) 또는 서버를 의미할 수 있다. 장치(100)는 프로세서(110)와 메모리(120)를 포함할 수 있다.

프로세서(110)는 연산을 수행할 수 있고, 장치(100)의 작동을 제어할 수 있다. 예컨대, 프로세서(110)는 CPU(central processing unit), GPU(graphics processing unit) 또는 GPGPU(general-purpose computing on graphics processing units)를 의미할 수 있으나 이에 한정되는 것은 아니다.

메모리(120)는 장치(100)의 작동에 필요한 데이터 또는 정보를 저장할 수 있는 데이터 저장 장치이다. 메모리(120)는 온톨로지 확장기(300)를 저장할 수 있다. 예컨대, 온톨로지 확장기(300)는 소프트웨어 또는 컴퓨터로 읽을 수 있는 컴퓨터 프로그램일 수 있다.

프로세서(110)는 메모리(120)에 저장된 온톨로지 확장기(300)를 실행시키고, 실행된 온톨로지 확장기(300)의 제어에 따라 장치(100)가 작동하도록 장치(100)를 제어할 수 있다.

온톨로지(200)는 지식 데이터베이스(들)로부터 제공되는 문서들(D1~Dn; n은 자연수)에 포함된 지식을 온톨로지 언어를 이용하여 구조화하고, 구조화된 지식을 저장하는 데이터베이스 또는 데이터 저장 장치를 의미할 수 있다. 즉, 온톨로지 (200)는 지식 데이터베이스(들)로부터 제공되는 문서들(D1~Dn)에 포함된 지식을 구조화하여 표현할 수 있다.

예컨대, 문서들(D1~Dn)은 위키피디아(wikipedia)에서 제공되는 위키 문서들(또는 웹 페이지들)일 수 있으나 이에 한정되는 것은 아니다.

예컨대, 온톨로지 언어는 RDF(resource description framework) 또는 OWL (web ontology language)일 수 있으나 이에 한정되는 것은 아니다. 상기 RDF는 인터넷과 웹상의 메타데이터(데이터에 대한 정의나 설명)를 지원하기 위한 기반구조를 제공하기 위하여 월드와이드 웹 컨소시엄(world wide web consortium(W3C))에 의해 개발되고 있는 규격을 의미한다.

온톨로지 확장기(300)는 코퍼스 생성기(310), 변수 생성기(320), 유사도 판단기(330), 및 인스턴스 생성기(340)를 포함한다. 온톨로지 확장기(300)는 온톨로지(200)에 포함된 단어들을 이용하여 온톨로지(200)를 확장할 수 있다. 실시 예들에 따라, 온톨로지 확장기(300)는 장치(100)의 프로세서(110)에 의해 실행되는 컴퓨터 프로그램일 수 있다.

도 2는 RDF을 설명하기 위한 도면이다. 도 2를 참조하면, 하나의 문장(텍스트)과 이에 대응하는 RDF 트리플(triple)이 도시되어 있다. 상기 RDF 트리플은 RDF에서 사용되는 기본 단위로서, 상기 RDF 트리플은 <주어(subject)> <술어 (predicate)> <목적어(object)>로 표현될 수 있다. 주어는 설명의 대상이 되는 자원이며, 목적어는 상기 주어를 설명하기 위한 자원이고, 술어는 상기 주어와 상기 목적어 사이의 관계(relation)를 설명한다.

예컨대, 도 2에 도시된 것처럼, "Bob is a person"이라는 텍스트(또는 문장)가 있을 때, 온톨로지(200)는 상기 텍스트를 <Bob> <is a> <person>의 형태를 가지는 RDF 트리플로 표현(또는 저장)할 수 있다. 여기서 "Bob"은 주어이고, "is a"가 술어이며, "person"이 목적어가 된다. 따라서, RDF 트리플 <Bob> <is a> <person>은 밥(Bob)이 사람임을 나타내는 지식을 표현한다.

한편, 본 명세서에서, RDF 트리플의 주어, 술어, 및 목적어 중에서 적어도 두 개의 요소들이 연결된다 함은, 상기 적어도 두 개의 요소들을 포함하는 적어도 하나의 RDF 트리플이 온톨로지(200)에 존재함(또는 온톨로지(200)에 저장됨)을 의미한다. 예컨대, 제1주어와 제1술어가 연결된다 함은, 상기 제1술어와 상기 제1술어를 포함하는 적어도 하나의 RDF 트리플이 온톨로지(200)에 존재함을 의미한다.

본 명세서에서, RDF 트리플의 주어, 술어, 및 목적어 중에서 적어도 두 개의 요소들이 연결되지 않는다 함은, 상기 적어도 두 개의 요소들을 모두 포함하는 RDF 트리플이 온톨로지(200)에 존재하지 않음을 의미한다. 예컨대, 제1주어와 제1술어가 연결되지 않는다 함은, 상기 제1주어와 상기 제1술어를 포함하는 RDF 트리플이 온톨로지(200)에 존재하지 않음을 의미한다.

실제로 RDF 트리플을 구성하는 주어, 술어, 및 목적어는 컴퓨터가 이해할 수 있는 URI(Uniform Resource Identifier) 또는 URL(Uniform Resource Locator)로 나타내어지지만, 이하에서는 편의상 사람이 이해하기 쉽게 단어로 나타내도록 한다.

도 3은 본 발명의 실시 예들에 따른 온톨로지가 문서들에 포함된 지식을 구조화하는 방법을 설명하기 위한 도면이다. 도 1과 도 3을 참조하면, 온톨로지(200)는 문서(Di, 1≤i≤n)에 포함된 지식을 RDF를 이용하여, 각각이 주어, 술어, 및 목적어를 가지는 RDF 트리플들로 구조화할 수 있다. 온톨로지(200)는 상기 RDF 트리플들을 온톨로지(200)에 저장할 수 있다.

온톨로지(200)는 "코스피 지수"를 제목으로 갖는 문서(Di)에 포함된 지식을 RDF 트리플들(E1~E5)로 구조화할 수 있다.

도 3에 도시된 바와 같이, "코스피 지수"를 제목으로 갖는 문서(Di)를 설명하는 RDF 트리플들(E1~E5)의 주어는 모두 "코스피 지수"가 된다. 즉, 문서(Di)가 갖는 RDF 트리플들의 주어는 모두 문서(Di)의 제목과 동일하다. 따라서, 본 명세서에서 어떤 문서와 RDF 트리플이 대응한다고 함은, 상기 어떤 문서의 제목을 주어로서 가지는 적어도 하나의 RDF 트리플이 온톨로지(200)에 존재함을 의미한다.

그리고 RDF 트리플들(E1~E5)의 술어는 주어인 "코스피 지수"와 목적어 사이의 관계를 설명한다.

예컨대, 도 3에 도시된 바와 같이, "링크"를 술어로 가지는 제1RDF 트리플 (E1)은 제목이 "코스피 지수"인 문서(Di)에는 "한국거래소"를 설명하는 문서로 연결되는 하이퍼링크가 있음을 의미한다. 마찬가지로, "링크"를 술어로 가지는 제2RDF 트리플(E2)은 문서(Di)에서 "유가증권시장"를 설명하는 문서와 연결되는 하이퍼링크가 있음을 의미하고, "링크"를 술어로 가지는 제3RDF 트리플(E3)은 문서(Di)에서 "주가지수"를 설명하는 문서로 연결되는 하이퍼링크가 있음을 의미한다.

"분류"를 술어로 가지는 제4RDF 트리플(E4)은 "코스피 지수"를 제목으로 갖는 문서(Di)를 포함하는 분류 문서의 제목이 "대한민국의 주가지수"임을 의미한다.

"타입"을 술어로 가지는 제5RDF 트리플(E5)는 제목이 "코스피 지수"인 문서 (Di)에서 설명되는 지식 또는 문서(Di)의 제목(예컨대, "코스피 지수")의 타입이 "주가지수"임을 의미한다.

도 4는 본 발명의 실시 예들에 따른 온톨로지 확장기의 작동을 설명하기 위한 플로우 차트이고, 도 5와 도 6은 본 발명의 실시 예들에 따른 온톨로지 확장기의 작동을 설명하기 위한 도면이다.

도 1 내지 도 6을 참조하면. 코퍼스 생성기(310)는 온톨로지(200)로부터 문서들(D1~Dn)을 수신하고 문서들(D1~Dn)에 포함된 단어들을 추출하고, 추출된 단어들을 포함하는 코퍼스(corpus)를 생성할 수 있다. 코퍼스(또는 말뭉치)는 자연어 연구를 위한 단어들의 집합을 의미한다.

코퍼스 생성기(310)는 문서들(D1~Dn)과 제1관계를 가지는 제1관계어들(RW1)을 온톨로지(200)로부터 추출할 수 있다(S1010). 달리 말하면, 제1관계어들(RW1)은 온톨로지(200)에 저장된 RDF 트리플들 중에서 제1관계를 지시하는 제1술어를 술어로 가지는 RDF 트리플들의 목적어들을 의미한다.

실시 예들에 따라, 도 5에 도시된 바와 같이, 문서들(D1~Dn)이 지식을 포함하는 웹페이지들(예컨대, 위키피디아에서 제공되는 웹페이지들)일 때, 제1관계어들 (RW1)은 문서(Di, 1≤i≤n)에 포함된 단어들 중에서, 다른 문서로 연결되는 하이퍼링크(hyperlink)가 설정된 단어들(예컨대, "한국거래소", "유가증권시장", "주가지수", "KRX 100", 및 "코스닥 지수")일 수 있다.

제1관계어들(RW1)은 온톨로지(200)에 저장된 RDF 트리플들(E6~E12) 중에서 다른 문서로 연결된다는 관계를 지시하는 제1술어(예컨대, "링크")를 술어로 가지는 RDF 트리플들(E6, E7, E8, E11, 및 E12)의 목적어들(예컨대, "한국거래소", "유가증권시장", "주가지수", "KRX 100", 및 "코스닥 지수")을 의미한다.

예컨대, 상기 제1술어는 디비피디아에서 사용되는 dbpedia-owl:wikiPageWikiLink일 수 있수 있으나 이에 한정되는 것은 아니다.

실시 예들에 따라, 코퍼스 생성기(310)는 문서들(D1~Dn)과 제2관계를 가지는 제2관계어들(RW2)을 온톨로지(200)로부터 추출할 수 있다(S1013).

제2관계어들(RW2)은 온톨로지(200)에 저장된 RDF들 중에서 제2관계를 지시하는 제2술어를 술어로 가지는 RDF 트리플들의 목적어들을 의미한다.

실시 예들에 따라, 도 5에 도시된 바와 같이, 문서들(D1~Dn)이 지식을 포함하는 웹페이지들(예컨대, 위키피디아에서 제공되는 웹페이지들)일 때, 제2관계어들 (RW2)은 문서(Di)를 하위 문서로서 포함하는(또는 링크하는) 분류 문서(Dj, 1≤j≤n)의 제목(예컨대, "대한민국의 주가지수")일 수 있다. 제1관계어들(RW1)은 온톨로지(200)에 저장된 RDF 트리플들(E6~E12) 중에서 제2관계를 지시하는 제2술어(예컨대, "분류")를 술어로 가지는 RDF 트리플(E9)의 목적어(이 경우, "대한민국의 주가지수")를 의미한다.

예컨대, 상기 제2술어는 DCMI(dublin core metadata initiative) metadata terms에서 사용되는 dcterms:subject일 수 있으나 이에 한정되는 것은 아니다.

실시 예들에 따라, 제2관계어들(RW2)은 분류 문서(Dj)에 포함된 단어들 중에서 하이퍼링크가 설정된 단어들(예컨대, "KRX 100"과 "코스닥 지수")일 수 있다. 제2관계어들(RW2)은 온톨로지(200)에 저장된 RDF 트리플들(E6~E12) 중에서 분류 문서(Dj)의 제목(예컨대, "대한민국의 주가지수")을 주어로 가지고, 제1술어(예컨대, "링크")를 술어로 가지는 RDF 트리플(E11과 E12)의 목적어(이 경우, "KRX 100"과 "코스닥 지수")를 의미한다.

실시 예들에 따라, 코퍼스 생성기(310)는 제1관계어들 및/또는 제2관계어들을 추출하기 위한 쿼리(query)를 온톨로지(200)로 전송하고, 온톨로지(200)로부터 제1관계어들 및/또는 제2관계어들을 수신할 수 있다.

변수 생성기(320)는 코퍼스 생성기(310)에 의해 추출된 단어들(예컨대, 제1관계어들(RW1) 및/또는 제2관계어들(RW2))에 대하여 인공 신경망(artificial neural network(ANN)) 기반의 기계 학습(예컨대, 딥-러닝)을 수행하고, 학습 결과에 따라, 상기 추출된 단어들 사이의 유사도를 판단하고, 판단 결과에 따라 상기 유사도를 나타내는 변수들(VAR)을 생성할 수 있다(S1020).

실시 예들에 따라, 변수 생성기(320)는, 워드 임베딩(word embedding) 기법을 이용하여, 관계어들(RW1 및/또는 RW2) 각각을 벡터 공간상의 벡터들 각각으로 매핑하고, 상기 백터들을 변수들(VAR)로서 생성할 수 있다(S1020).

예컨대, 변수 생성기(320)는 CBOW(continuos bag-of-word) 또는 skip-gram을 이용하여 상기 워드 임베딩 기법을 수행할 수 있다. 변수 생성기(320)는, 동일한 문서(예컨대, Di)로부터 추출된 관계어들(예컨대, 한국거래소, 유가증권시장, 및 주가지수)은 서로 높은 유사도를 갖는다고 판단할 수 있다.

유사어 판단기(330)는 문서들(D1~Dn) 중에서 대상 술어를 포함하는 RDF 트리플과 대응하지 않는 제1문서(D1)의 제목(예컨대, 코스닥 지수)을 온톨로지(200)로부터 추출할 수 있다(S1030). 상기 대상 술어는 온톨로지(200)에서 문서들(D1~Dn)에 포함된 지식을 설명하기 위해 지원되는 술어들 중에서 어느 하나를 의미할 수 있다. 예컨대, 상기 대상 술어는 "타입(또는 rdf: type)"일 수 있으나 이에 한정되는 것은 아니다.

앞에서 설명한 바와 같이, 본 명세서에서 어떤 문서와 RDF 트리플이 대응한다 함은, 상기 어떤 문서의 제목을 주어로서 가지는 적어도 하나의 RDF 트리플이 온톨로지(200)에 존재함을 의미한다. 제1문서(D1)는 대상 술어를 포함하는 RDF 트리플과 대응하지 않으므로, 제1문서(D1)의 제목을 주어로 가지는 RDF 트리플들은 상기 대상 술어를 술어로서 가지지 않는다.

예컨대, 도 6의 제2문서(D2)에 포함된 RDF 트리플들(예컨대, E16~19) 중에는 "타입"을 술어로서 가지는 RDF 트리플(예컨대, E19)만이 있지만, 제1문서(D1)가 갖는 RDF 트리플들(예컨대, E13~E15) 중에서 "타입"을 술어로서 가지는 RDF 트리플은 없다. 대상 술어가 "타입"일 때, 제2문서(D2)는 상기 대상 술어인 "타입"을 포함하는 RDF 트리플(E19)을 가지나, 제1문서(D1)는 상기 대상 술어인 "타입"을 포함하는 RDF 트리플을 가지지 않는다.

따라서, 제1문서(D1)는 대상 술어(예컨대, "타입")를 포함하는 RDF 트리플들을 가지지 않으며, 유사어 판단기(330)는 제1문서(D1)의 제목을 온톨로지(200)로부터 추출할 수 있다. 실시 예들에 따라, 유사어 판단기(330)는 제1문서(D1)의 제목을 추출하기 위한 쿼리를 온톨로지(200)로 전송할 수 있다.

유사어 판단기(330)는 변수 생성기(320)로부터 생성된 변수들(VAR)을 이용하여 단어들(RW1 및/또는 RW2) 각각과 제1문서의 제목 사이의 유사도를 판단하고, 판단결과에 따라 관계어들(RW1 및/또는 RW2) 중에서 제1문서의 제목과 가장 유사한 유사어 (SYN)를 선택할 수 있다(S1040).

실시 예들에 따라, 유사어 판단기(330)는, 관계어들(RW1 및/또는 RW2) 내에 제1문서의 제목이 있는 경우, 상기 제1문서의 제목을 제외한 관계어들(RW1 및/또는 RW2) 각각과 상기 제1문서의 제목 사이의 유사도를 판단할 수 있다.

변수 생성기(320)로부터 생성된 변수들(VAR)이 벡터들일 때, 유사어 판단기 (330)는 상기 벡터들을 이용하여, 상기 벡터들 중에서 제1문서(D1)의 제목에 해당하는 제1벡터와, 상기 벡터들 각각이 이루는 사이 각의 코사인(cosine) 값(또는 제1벡터와 상기 벡터들 각각의 내적(inner product))을 계산하여 코사인 유사도를 계산할 수 있다.

유사어 판단기(330)는 계산된 코사인 유사도들 중에서 최대 코사인 유사도를 생성하는 유사 벡터를 선택하고, 상기 유사 벡터에 해당하는(또는 매핑된) 단어를 유사어(SYN)로서 선택할 수 있다.

인스턴스 생성기(340)는 문서들(D1~Dn) 중에서 선택된 유사어(SYN)를 제목으로 하는(또는 가지는) 제2문서(D2)에 포함된 RDF 트리플들 중에서 대상 술어를 포함하는 RDF 트리플의 목적어를 속성 값(ATTR_VAL)으로서 온톨로지(200)로부터 추출할 수 있다(S1050). 실시 예들에 따라, 인스턴스 생성기(340)는 제2문서(D2)의 속성 값(ATTR_VAL)을 추출하기 위한 쿼리를 온톨로지(200)로 전송하고, 온톨로지 (200)로부터 전송된 속성 값(ATTR_VAL)을 수신할 수 있다.

즉, 속성 값(ATTR_VAL)은, 유사어(SYN)를 주어로 가지고, 대상 속성을 지시하는 대상 술어를 술어로 가지는 RDF 트리플들의 목적어들 중에서 적어도 하나를 의미한다.

실시 예들에 따라, 도 6에 도시된 바와 같이, 문서들(D1~Dn)이 지식을 포함하는 웹페이지들일 때, 제1문서의 제목인 "코스닥 지수"와 가장 유사한 유사어(SYN)가 "코스피 지수"로 선택되었다고 가정한다.

"코스피 지수"를 제목으로 갖는 제2문서(D2)가 갖는 RDF 트리플들(E16~E19) 중에서 제2문서(D2)의 제목(예컨대, "코스피 지수")을 주어로 가지고, 대상 술어(예컨대, "타입")를 술어로서 가지는 RDF 트리플(E19)이 존재한다.

제2문서(D2)의 제목(예컨대, "코스피 지수")를 주어로 가지고, 대상 술어(예컨대, "타입")를 술어로서 가지는 RDF 트리플(E19)의 목적어는 "주가지수"이므로, 속성 값(ATTR_VAL)은 "주가지수"가 된다. 인스턴스 생성기(340)는 온톨로지(200)로부터 RDF 트리플(E19)의 목적어(예컨대, "주가지수")를 속성 값(ATTR_VAL)으로서 추출할 수 있다.

인스턴스 생성기(340)는 속성 값(ATTR_VAL)을 이용하여 제1문서(D1)의 제목을 주어로서 가지고, 대상 술어를 술어로 가지며, 속성 값(ATTR_VAL)을 목적어로서 가지는 확장 RDF 트리플(EXT_RDF)을 생성할 수 있다(S1060).

도 6에 도시된 바와 같이, 문서들(D1~Dn)이 지식을 포함하는 웹페이지들일 때, 속성 값(ATTR_VAL)은 "주가지수"이므로, 인스턴스 생성기(340)는 제1문서(D1)의 제1문서의 제목(예컨대, "코스닥 지수")을 주어로 가지고, 대상 술어(예컨대, "타입")를 술어로서 가지며, 속성 값(ATTR_VAL)(예컨대, "주가지수")을 목적어로 가지는 RDF 트리플(E20=EXT_RDF), 즉, <코스닥 지수> <타입> <주가지수> 를 생성할 수 있다.

따라서, 온톨로지 확장기(300)는 대상 술어(예컨대, 타입)를 포함하는 RDF 트리플을 가지지 않는 제1문서(D1)가 있을 때, 온톨로지(200)로부터 제1문서(D1)의 제목(예컨대, 코스닥 지수)과 유사한 단어(예컨대, 코스피 지수)를 제목으로서 가지는 제2문서(D2)가 가지는 RDF 트리플들(E16-E19)을 이용하여, 확장 RDF 트리플 (EXT_RDF=E20)을 생성함으로써 온톨로지(200)를 확장할 수 있다.

온톨로지 확장기(300)는 제1문서(D1)에 포함된 지식이 대상 술어에 의해 표현되지 않더라도, 온톨로지(200)에 이미 저장되어 있던 제2문서(D2)가 갖는 RDF 트리플을 이용하여, 제1문서(D1)에 포함된 지식을 상기 대상 술어로 표현할 수 있다.

본 발명의 실시 예들에 따른 온톨로지를 확장하는 방법은 컴퓨터로 읽을 수 있는 컴퓨터 프로그램(또는 프로그램 코드)으로 작성되고, 컴퓨터로 판독 가능한 기록 매체(예컨대, 메모리 장치, 데이터베이스, 또는 프로세서)에 저장되고 실행될 수 있다.

본 발명은 도면에 도시된 실시 예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.

D1~Dn: 문서들
100: 장치
110: 프로세서
120: 메모리
200: 온톨로지
300: 온톨로지 확장기
310: 코퍼스 생성기
320: 변수 생성기
330: 유사어 선택기
340: 인스턴스 생성기

Claims

문서들에 포함된 지식을 RDF(resource description framework)를 이용하여 각각이 주어, 술어, 및 목적어를 가지는 RDF 트리플들로 구조화하고, 상기 RDF 트리플들을 저장하는 온톨로지를 컴퓨터에서 실행되는 소프트웨어를 이용하여 확장하는 방법에 있어서,
상기 문서들에 포함된 단어들 중에서 하이퍼링크(hyperlink)가 설정된 제1관계어들을 상기 온톨로지로부터 추출하는 단계;
추출된 제1관계어들에 대하여 인공 신경망 기반의 기계 학습을 수행하고, 수행 결과에 따라 상기 제1관계어들 사이의 유사도를 판단하기 위한 변수들을 생성하는 단계;
상기 문서들 중에서 대상 술어를 포함하는 RDF 트리플과 대응하지 않는 제1문서의 제목을 상기 온톨로지로부터 추출하는 단계;
상기 변수들을 이용하여 상기 제1관계어들 중에서 상기 제1문서의 제목과 가장 유사한 유사어를 선택하는 단계;
상기 문서들 중에서 상기 유사어를 제목으로 하는 제2문서와 대응하는 RDF 트리플들 중에서 상기 대상 술어를 포함하는 RDF 트리플의 목적어를 속성값으로서 상기 온톨로지로부터 추출하는 단계; 및
상기 제1문서의 제목을 주어로, 상기 대상 술어를 술어로, 상기 속성값을 목적어로 가지는 확장 RDF 트리플을 생성하는 단계를 포함하는 온톨로지를 확장하는 방법.
제1항에 있어서,
상기 제1관계어들은 상기 온톨로지에 저장된 RDF 트리플들 중에서 하이퍼링크가 설정됨을 지시하는 제1술어를 포함하는 RDF 트리플들의 목적어들인 온톨로지를 확장하는 방법.
제1항에 있어서, 상기 유사도를 판단하기 위한 변수들을 생성하는 단계는,
워드 임베딩(word embedding)을 이용하여 상기 제1문서의 제목과 상기 제1관계어들에 해당하는 벡터들을 상기 변수들로서 생성하는 단계를 포함하는 온톨로지를 확장하는 방법.
제3항에 있어서, 상기 벡터들을 상기 변수들로서 생성하는 단계는,
CBOW(continous bag-of-word) 모델 또는 스킵 그램(skip-gram) 모델을 이용하여 상기 벡터들을 상기 변수들로서 생성하는 단계를 포함하는 온톨로지를 확장하는 방법.
제3항에 있어서, 상기 유사어를 선택하는 단계는,
상기 벡터들 중에서 상기 제1문서의 제목에 해당하는 제1벡터와 상기 벡터들 중에서 상기 제1벡터를 제외한 나머지 벡터들 간의 내적에 기초하여 상기 제1벡터와 상기 나머지 벡터들 사이의 코사인 유사도들을 생성하는 단계;
상기 나머지 벡터들 중에서 최대 코사인 유사도를 생성하는 유사 벡터를 선택하는 단계;
상기 유사 벡터에 해당하는 단어를 상기 유사어로서 선택하는 단계를 포함하는 온톨로지를 확장하는 방법.
제1항에 있어서, 상기 문서들은 위키피디아(wikipedia) 데이터베이스로부터 제공되는 온톨로지를 확장하는 방법.
문서들에 포함된 지식을 RDF(resource description framework)를 이용하여 각각이 주어, 술어, 및 목적어를 가지는 RDF 트리플들로 구조화하고, 상기 RDF 트리플들을 저장하는 온톨로지를 컴퓨터에서 실행되는 소프트웨어를 이용하여 확장하는 방법에 있어서,
상기 문서들에 포함된 단어들 중에서 하이퍼링크가 설정된 제1관계어들을 상기 온톨로지로부터 추출하는 단계;
상기 문서들을 포함하는 분류 문서들에 포함된 단어들 중에서 하이퍼링크가 설정된 제2관계어들을 상기 온톨로지로부터 추출하는 단계;
상기 제1관계어들과 상기 제2관계어들 사이의 유사도를 판단하기 위해, 상기 제1관계어들과 상기 제2관계어들에 대하여 인공 신경망 기반의 기계 학습을 수행하고, 수행 결과에 따라 상기 유사도를 판단하기 위한 변수들을 생성하는 단계;
상기 문서들 중에서 대상 술어를 포함하는 RDF 트리플과 대응하지 않는 제1문서의 제목을 상기 온톨로지로부터 추출하는 단계;
상기 변수들을 이용하여 상기 제1관계어들과 상기 제2관계어들 중에서 상기 제1문서의 제목과 가장 유사한 유사어를 선택하는 단계;
상기 문서들 중에서 상기 유사어를 제목으로 하는 제2문서에 대응하는 RDF 트리플들 중에서 상기 대상 술어를 술어로서 가지는 RDF 트리플들의 목적어를 속성값으로서 상기 온톨로지로부터 추출하는 단계; 및
상기 제1문서의 제목을 주어로, 상기 대상 술어를 술어로, 상기 속성값을 목적어로 가지는 확장 RDF 트리플을 생성하는 단계를 포함하는 온톨로지를 확장하는 방법.
제7항에 있어서, 상기 유사도를 판단하기 위한 변수들을 생성하는 단계는,
CBOW(continous bag-of-word) 모델 또는 스킵 그램(skip-gram) 모델을 이용하여 상기 제1문서의 제목, 상기 제1관계어들 및 상기 제2관계어들에 해당하는 벡터들을 상기 변수들로서 생성하는 단계를 포함하는 온톨로지를 확장하는 방법.
제7항에 있어서, 상기 유사어를 선택하는 단계는,
상기 벡터들 중에서 상기 제1문서의 제목에 해당하는 제1벡터와 상기 벡터들 중에서 상기 제1벡터를 제외한 나머지 벡터들 간의 내적에 기초하여 상기 제1벡터와 상기 나머지 벡터들 사이의 코사인 유사도들을 생성하는 단계;
상기 나머지 벡터들 중에서 최대 코사인 유사도를 생성하는 유사 벡터를 선택하는 단계;
상기 유사 벡터에 해당하는 단어를 상기 유사어로서 선택하는 단계를 포함하는 온톨로지를 확장하는 방법.
제1항 내지 제9항 중 어느 한 항에 기재된 온톨로지를 확장하는 방법을 수행하기 위한 프로그램을 저장하는 컴퓨터로 판독 가능한 기록 매체.