KR20190079805A

KR20190079805A - 복수의 데이터 소스들 기반 지식 베이스 구축 시스템 및 방법

Info

Publication number: KR20190079805A
Application number: KR1020170181783A
Authority: KR
Inventors: 이경일; 최동근
Original assignee: 주식회사 솔트룩스
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2019-07-08
Also published as: KR102006214B1

Abstract

본 발명에 따른 지식 베이스 구축 시스템은, 서로 다른 제1 데이터 소스 및 제2 데이터 소스로부터 각각 제1 데이터 및 제2 데이터를 수신하는 큐레이션 모듈, 상기 제1 데이터 및 상기 제2 데이터를 각각 데이터 소스별로 구분하여 정제함으로써 제1 지식 데이터 및 제2 지식 데이터를 생성하는 데이터 정제 모듈 및 상기 제1 지식 데이터 및 상기 제2 지식 데이터를 기반으로 온톨로지 스키마를 생성하고, 상기 온톨로지 스키마를 기반으로 지식 베이스를 구축하는 지식 베이스 구축 모듈을 포함하고, 상기 지식 베이스 구축 모듈은, 상기 온톨로지 스키마를 기반으로 생성된 질의 리스트에 대응하는 응답 리스트 및 연관 응답 리스트를 생성하여, 상기 응답 리스트 및 상기 연관 응답 리스트를 분석하여 상기 온톨로지 스키마를 검증하는 검증 모듈을 포함하는 것을 특징으로 한다.

Description

복수의 데이터 소스들 기반 지식 베이스 구축 시스템 및 방법{SYSTEM AND METHOD FOR BUILDING INTEGRATION KNOWLEDGE BASE BASED A PLURALITY OF DATA SOURCES}

본 발명의 기술적 사상은 지식 베이스 구축 시스템에 관한 것으로, 더욱 상세하게는, 복수의 데이터 소스들로부터 수집한 데이터들을 기반으로 지식 베이스를 구축하는 지식 베이스 구축 시스템 및 이의 방법에 관한 것이다.

본 발명은 과학기술정보통신부의 정보통신, 방송 기술개발사업의 일환으로 (주)솔트룩스가 주관하고 연구하여 수행된 연구로부터 도출된 것이다. [연구기간: 2017.04.01~2017.12.31, 연구관리 전문기관: 정보통신기술연구진흥센터, 연구과제명: 자율지능 디지털 동반자 프레임워크 및 응용 연구개발, 과제 고유번호: 2017-0-00255]

종래의 지식 베이스는 사전적 지식 등과 같이 이론적인 또는 일반적인 내용의 지식 데이터만을 포함하기 때문에, 유저의 질의에 이론적인 또는 일반적인 내용의 지식 내용만을 포함하는 응답을 서비스할 수 밖에 없는 한계가 있었다. 특히, 임신, 출산, 육아 등과 같은 다른 사람들의 경험적인 지식 내용이 필요한 분야에서는 종래의 지식 베이스는 유저의 니즈(needs)를 만족하는 서비스를 제공하기 어려운 문제가 있었다.

본 발명의 기술적 사상이 해결하려는 과제는 복수의 데이터 소스들 기반 지식 베이스를 구축하는 지식 베이스 구축 시스템 및 방법을 제공한다.

또한, 상기 제1 데이터 소스는, 오프라인 데이터 소스이고, 상기 제2 데이터 소스는 온라인 데이터 소스이며, 상기 검증 모듈은, 상기 응답 리스트를 상기 제1 지식 데이터를 이용하여 구축된 상기 지식 베이스를 기반으로 생성하고, 상기 연관 응답 리스트를 상기 제2 지식 데이터를 이용하여 구축된 상기 지식 베이스를 기반으로 생성하는 것을 특징으로 한다.

또한, 상기 큐레이션 모듈은, 상기 제1 지식 데이터 및 상기 제2 지식 데이터를 각각 구별하기 위한 플래그 정보를 생성하는 것을 특징으로 한다.

또한, 상기 검증 모듈은, 상기 질의 리스트를 SPARQL(SPAQL Protocol and RDF Query Language) 템플릿을 참조하여 생성하는 것을 특징으로 한다.

또한, 상기 제1 데이터 소스는, 상기 온톨로지 스키마의 분야와 관련된 지식백과사전 데이터 베이스, 전자 서적 데이터 베이스 및 전자 문서 데이터 베이스를 포함하고, 상기 제2 데이터 소스는, 상기 온톨로지 스키마에 대한 분야와 관련된 인터넷 홈페이지 데이터 베이스 및 인터넷 포탈 데이터 베이스를 포함하는 것을 특징으로 한다

또한, 상기 데이터 정제 모듈은, 상기 제2 데이터로부터 개인, 유명 인물, 고유 명사, 국가 중 적어도 하나에 대응하는 개체명 별로 상기 제2 지식 데이터를 생성하는 개체명 인식 모듈을 더 포함하는 것을 특징으로 한다.

또한, 상기 검증 모듈은, 상기 질의 리스트 및 상기 응답 리스트를 분석하고, 상기 분석 결과에 대응하는 개체명을 참조하여, 상기 제2 지식 데이터로부터 상기 연관 응답 리스트를 생성하는 것을 특징으로 한다.

또한, 상기 검증 모듈은, 상기 응답 리스트 및 상기 연관 응답 리스트를 상기 온톨로지 구성요소 단위로 분석하고, 상기 분석 결과를 기반으로 구축된 상기 지식 베이스에 상기 응답 리스트 및 상기 연관 응답 리스트가 부합하는지 여부를 검증하여, 상기 검증 결과를 기반으로 상기 온톨로지 스키마를 수정하는 것을 특징으로 한다.

또한, 상기 지식 베이스 구축 시스템은, 유저 인터페이스를 더 포함하고, 상기 유저 인터페이스를 통해 유저로부터 질의를 수신한 때에, 상기 질의를 분석하여, 상기 온톨로지 스키마를 기반으로 상기 제1 지식 데이터를 이용하여 구축된 지식 베이스를 기반으로 일반적 지식에 대응되는 응답을 생성하고, 상기 제2 지식 데이터를 이용하여 구축된 지식 베이스를 기반으로 경험적 지식에 대응되는 연관 응답을 생성하여 상기 유저 인터페이스를 통해 상기 응답 및 상기 연관 응답을 표시하는 것을 특징으로 한다.

또한, 상기 검증 모듈은, 상기 응답 및 상기 연관 응답에 대한 상기 유저의 피드백을 상기 유저 인터페이스를 통해 수신한 때에, 상기 피드백을 기반으로 상기 온톨로지 스키마를 수정하는 것을 특징으로 한다.

본 개시의 일 실시예에 따른 소스별 지식 베이스 구축 시스템은 경험적인 지식 내용이 필요한 분야와 관련된 유저의 질의에 응답하여, 신뢰성이 높은 일반적인 지식 내용이 포함된 응답과 경험적인 지식 내용이 포함된 연관 응답을 동시에 제공할 수 있는 지식 베이스를 구축함으로써, 이러한 지식 베이스를 통해 유저의 니즈를 만족하는 서비스를 제공할 수 있는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 소스별 지식 베이스 구축 시스템을 개략적으로 나타내는 블록도이다.
도 2는 소스별 지식 베이스 설계 시스템을 구체적으로 나타내는 블록도이다.
도 3 및 도 4는 본 개시의 일 실시예에 따른 데이터 정제 방법을 설명하기 위한 도면이다.
도 5는 본 개시의 일 실시예에 따라 설계된 임신, 출산, 육아 분야의 온톨로지 스키마를 설명하기 위한 도면이다.
도 6은 도 1의 검증 모듈의 검증 동작을 구체적으로 설명하기 위한 도면이다.

이하, 첨부한 도면을 참조하여 본 발명의 실시예에 대해 상세히 설명한다. 본 발명의 실시예는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위하여 제공되는 것이다. 본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용한다. 첨부된 도면에 있어서, 구조물들의 치수는 본 발명의 명확성을 기하기 위하여 실제보다 확대하거나 축소하여 도시한 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

또한, 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로 사용될 수 있다. 예를 들어, 본 발명의 권리 범위로부터 벗어나지 않으면서, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

도 1은 본 발명의 일 실시예에 따른 소스별 지식 베이스 구축 시스템(100)을 개략적으로 나타내는 블록도이다.

도 1을 참조하면, 소스별 지식 베이스 구축 시스템(100)은 복수의 데이터 소스들(10)과 네트워크(20)를 통해 서로 통신할 수 있으며, 전용 채널을 통해서 일대일로 양자간 통신을 수행할 수 있다. 네트워크(20)는 유선 인터넷 서비스, 근거리 통신망(LAN), 광대역 통신망(WAN), 인트라넷, 무선 인터넷 서비스, 이동 컴퓨팅 서비스, 무선 데이터 통신 서비스, 무선 인터넷 접속 서비스, 위성 통신 서비스, 무선 랜, 블루투스 등 유/무선을 통하여 데이터를 주고 받을 수 있는 것을 모두 포함할 수 있다. 네트워크(20)는 스마트폰 또는 태블릿 등과 연결되는 경우, 네트워크(20)는 3G, 4G, 5G 등의 무선 데이토 통신 서비스, 와이파이(Wi-Fi) 등의 무선 랜, 블루투스 등일 수 있다.

소스별 지식 베이스 구축 시스템(100)은 경험적 지식이 중요한 분야에서의 지식 베이스를 구축할 수 있으며, 이를 위하여 큐레이션 모듈(110), 데이터 정제 모듈(120), 후보 생성 모듈(130) 및 지식 베이스 구축 모듈(140)을 포함할 수 있다. 일 예로, 경험적 지식이 중요한 분야는 임신, 출산, 육아에 관한 분야일 수 있으며, 이하에서는, 임신, 출산, 육아에 관한 지식 베이스의 구축을 중심으로 본 개시의 사상을 서술하도록 한다. 다만, 이는 예시적인 실시예에 불과한 바, 이에 한정되지 아니하고, 경험적 지식이 중요한 다른 분야에도 본 개시의 사상이 적용될 수 있음은 분명하다.

데이터 소스들(10)은 오프라인 데이터 소스(11) 및 온라인 데이터 소스(12)를 포함할 수 있다. 오프라인 데이터 소스(11)는 임신, 출산, 육아에 관한 이론적 또는 일반적인 지식 내용이 포함된 지식백과사전 데이터 베이스, 전자 서적 데이터 베이스, 전자 문서 데이터 베이스 등을 포함할 수 있다. 이와 같이, 오프라인 데이터 소스(11)는 임신, 출산, 육아에 관하여 신뢰성이 높고, 공신력이 있는 지식 내용을 포함하는 복수의 데이터 베이스들(11_1~11_n)을 포함할 수 있다. 온라인 데이터 소스(12)는 임신, 출산, 육아에 관한 경험적인 지식 내용이 포함된 임신, 출산, 육아 관련 인터넷 홈페이지 데이터 베이스, 인터넷 카페 데이터 베이스, 인터넷 포탈 데이터 베이스 등을 포함할 수 있다. 이와 같이, 온라인 데이터 소스(12)는 임신, 출산, 육아에 관하여 경험적 지식 내용을 포함하는 복수의 데이터 베이스들(12_1~12_n)을 포함할 수 있다.

큐레이션 모듈(110)은 네트워크(20)를 통해 데이터 소스들(10)로부터 임신, 출산, 육아에 관한 지식 내용을 포함하는 복수의 데이터들을 수집할 수 있다. 큐레이션 모듈(110)은 수집된 데이터들로부터 지식 데이터를 생성하기 위해 필요한 데이터 분류, 데이터 변환, 데이터 생성 동작을 포함하는 큐레이션 동작을 수행할 수 있다. 이를 통해, 향후 데이터 정제 모듈(120)에서 자연어 처리, 데이터 추출 등을 포함하는 데이터 정제 동작을 수행할 수 있도록 수집된 데이터들을 정형 데이터 또는 반정형 데이터로 변환할 수 있다. 비정형 데이터는 고정된 형태로 구현되지 아니하는 데이터로, 대응되는 필드(field)에 대응되는 콘텐츠(contents)가 포함되는 정형 데이터(formal data 또는 structured data)와 대비된다. 예를 들어, 데이터 베이스(database) 또는 스프레드시트(spreadsheet) 등은 정형 데이터이고, 텍스트 문서, 음성 데이터 및 영상 데이터 등은 비정형 데이터일 수 있다. 고정된 필드에 저장되지는 않지만, 메타데이터(metadata)나 스키마(schema) 등을 포함하는 데이터로, XML이나 HTML은 반정형 데이터로 분류될 수 있다.

일 실시예로, 큐레이션 모듈(110)은 오프라인 데이터 소스(11)에서 수집한 일반적인 지식 내용의 데이터와 온라인 데이터 소스(12)에서 수집한 경험적인 지식 내용의 데이터를 구분하여, 큐레이션 동작을 수행할 수 있다. 구체적으로, 큐레이션 모듈(110)은 오프라인 데이터 소스(11)에서 수집한 지식 내용의 데이터와 온라인 데이터 소스(12)에서 수집한 지식 내용의 데이터를 구별하기 위해 데이터 소스의 출처를 기반으로 한 플래그 정보를 생성할 수 있다.

일 실시예로, 큐레이션 모듈(110)은 외부로부터 입력 데이터(30)를 수신하고, 입력 데이터(30)를 기반으로 플래그 정보를 생성할 수 있다. 즉, 오프라인 데이터 소스(11)로부터 수집된 데이터일지라도, 경험적인 지식 내용이 포함되는 경우, 온라인 데이터 소스(12)로부터 수집된 데이터일지라도, 일반적인 지식 내용이 포함되는 경우에 이에 대한 구분을 위하여, 입력 데이터(30)는 출처가 오프라인 데이터 소스(11)이나, 경험적인 지식 내용이 포함된 데이터 또는 출처가 온라인 데이터 소스(12)이나, 일반적인 지식 내용이 포함된 데이터를 구분하는 룰(rule)에 대한 정보를 포함할 수 있다. 일 예로, 입력 데이터(30)는 제1 기준 데이터 및 제2 기준 데이터를 포함할 수 있으며, 제1 기준 데이터를 포함하는 수집된 데이터에 대해서는 오프라인 데이터 소스(11)를 출처로 나타내는 플래그 정보를 생성하고, 제2 기준 데이터를 포함하는 수집된 데이터에 대해서는 온라인 데이터 소스(12)를 출처로 나타내는 플래그 정보를 생성할 수 있다. 제1 기준 데이터 및 제2 기준 데이터는 각각 출처명에 관한 것일 수 있으며, 컴퓨터가 인식할 수 있는 온톨로지 스키마에 맵핑된 상태의 데이터일 수 있다.

데이터 정제 모듈(120)은 큐레이션된 데이터들을 큐레이션 모듈(110)로부터 수신하여 지식 데이터를 생성하기 위해 데이터 정제 동작을 수행할 수 있다. 데이터 정제 모듈(120)은 데이터들로부터 의미있는 단어를 토큰으로서 추출하여 토큰 리스트를 생성할 수 있다. 토큰 리스트는 적어도 하나의 토큰을 포함할 수 있고, 토큰은 데이터들로부터 유의미한 어휘의 단위를 의미할 수 있다. 데이터 정제 모듈(120)은 토큰 리스트를 생성하는 동작을 수행할 때에, 소정의 자연어처리 사전을 참조할 수 있다. 일 실시예로, 데이터 정제 모듈(120)은 온라인 데이터 소스(12)에서 수집한 경험적인 지식 내용의 데이터에 포함된 개인, 유명 인물, 고유 명사 중 적어도 하나에 대응하는 개체명을 인식하여, 인식된 결과를 기반으로 데이터 정제 동작을 수행할 수 있다. 이에 대한 구체적인 서술은 후술한다.

후보 생성 모듈(130)은 정제된 데이터들(또는, 토큰 리스트)를 온톨로지 구성요소(ontology component)들에 맵핑할 수 있도록, 후보 클래스, 후보 속성을 생성할 수 있다. 온톨로지는 실존하거나 사람이 인식 가능한 것들을 컴퓨터에서 다룰 수 있는 형태로 표현한 것으로서, 온톨로지 구성요소들은 엔티티(entity)(또는, 인스턴스(instance)), 클래스(class), 속성(property)을 포함할 수 있다. 추가적으로, 온톨로지 구성요소들은, 관계(relation)(엔티티간 속성 또는 클래스간 속성), 함수 텀(function term), 제한(restriction), 규칙(rule), 사건(event) 등을 더 포함할 수 있다. 이하 지식 데이터는, 온토롤지 구성요소들에 맵핑되어 컴퓨터에서 인식할 수 있는 형태의 데이터를 지칭한다.

큐레이션 모듈(110)은 이러한 후보 클래스, 후보 속성을 기반으로 오프라인 데이터 소스(11)에 대응하는 제1 지식 데이터 및 온라인 데이터 소스(12)에 대응하는 제2 지식 데이터를 생성할 수 있다. 큐레이션 모듈(110)은 일반적인 지식 내용을 포함하는 제1 지식 데이터 및 경험적인 지식 내용을 포함하는 제2 지식 데이터를 기반으로 온톨로지 스키마를 생성할 수 있다. 더 나아가, 큐레이션 모듈(110)은 제1 지식 데이터를 기반으로 제1 온톨로지 스키마를 생성하고, 제2 지식 데이터를 기반으로 제2 온톨로지 스키마를 별도로 생성할 수 있으며, 제1 온톨로지 스키마와 제2 온톨로지 스키마가 통합된 통합 온톨로지 스키마를 더 생성할 수 있다.

지식 베이스 구축 모듈(140)은 생성된 온톨로지 스키마를 기반으로 지식 베이스를 구축할 수 있다. 또한, 지식 베이스 구축 모듈(140)은 온톨로지 스키마 또는 지식 베이스(40)가 적절하게 설계/구축되었는지 여부를 검증할 수 있다. 일 실시예로, 지식 베이스 구축 모듈(140)은 온톨로지 스키마를 기반으로 복수의 질의들이 포함된 질의 리스트를 생성할 수 있으며, 질의 리스트에 부합하는 응답 리스트 및 연관 응답 리스트를 생성할 수 있다. 응답 리스트는 제1 지식 데이터를 이용하여 구축된 지식 베이스(40)를 기반으로 생성된 응답들을 포함하며, 이에 따라, 응답 리스트는 임신, 출산, 육아에 관한 오프라인 데이터 소스(11)의 일반적인 지식 내용을 포함할 수 있다. 연관 응답 리스트는 제2 지식 데이터를 이용하여 구축된 지식 베이스(40)를 기반으로 생성된 연관 응답들을 포함하며, 이에 따라, 연관 응답 리스트는 임신, 출산, 육아에 관한 온라인 데이터 소스(12)의 경험적인 지식 내용을 포함할 수 있다. 즉, 제1 지식 데이터를 이용하여 구축된 지식 베이스(40)는 지식 베이스(40)에 포함되고, 제1 지식 데이터를 이용하여 구축된 데이터를 의미할 수 있으며, 제2 지식 데이터를 이용하여 구축된 지식 베이스(40)는 지식 베이스(40)에 포함되고, 제2 지식 데이터를 이용하여 구축된 데이터를 의미할 수 있다. 구체적으로, 제1 지식 데이터 또는 제2 지식 데이터를 이용하여 구축된 데이터는 제1 지식 데이터 또는 제2 지식 데이터가 시맨틱 기술 분야에서의 관계를 표현하기 위한 수단으로서 트리플(triple)이라는 표현 형태 또는 구조로 변환된 데이터를 의미할 수 있다. 트리플이란, 주어(subject), 술어(predicate), 객체(object)의 형태로 개념을 표현하는 것을 말한다. 각각의 주어, 술어, 객체는 XML의 URI(Uniform Resource Identifier)로 표현될 수 있으며, 현재 시맨틱 웹 온톨로지를 기술하는 표준 언어로 W3C에서 제안한 RDF, OWL 그리고 ISO에서 제안한 TopicMaps 등이 있다.

지식 베이스 구축 모듈(140)은 응답 리스트 및 연관 응답 리스트를 온톨로지 구성요소 단위로 분석하고, 분석 결과를 기반으로 구축된 지식 베이스에 응답 리스트 및 연관 응답 리스트가 부합하는지 여부를 검증하여, 검증 결과를 기반으로 온톨로지 스키마를 수정할 수 있다. 지식 베이스 구축 모듈(140)은 수정된 온톨로지 스키마를 기반으로 지식 베이스를 재구축할 수 있다.

지식 베이스 구축 시스템(100)은 유저(50)와 상호 작용할 수 있는 유저 인터페이스(150)를 더 포함할 수 있다. 지식 베이스 구축 시스템(100)은 유저 인터페이스(150)를 통해 유저(50)로부터 소정의 형식의 질의를 수신한 때에, 질의를 분석하고, 생성된 온톨로지 스키마를 기반으로 제1 지식 데이터를 이용하여 구축된 지식 베이스(40)의 데이터(예를 들면, 트리플)로부터 일반적 지식에 대응되는 응답을 생성하고, 제2 지식 데이터를 이용하여 구축된 지식 베이스(40)의 데이터로부터 경험적 지식에 대응되는 연관 응답을 생성하여 유저 인터페이스(150)를 통해 유저에게 표시할 수 있다.

유저(50)는 표시된 응답 및 연관 응답에 대한 피드백을 유저 인터페이스(150)를 통해 소스별 지식 베이스 구축 시스템(100)에 제공할 수 있으며, 소스별 지식 베이스 구축 시스템(100)은 피드백을 기반으로 온톨로지 스키마를 수정할 수 있다.

본 개시의 일 실시예에 따른 소스별 지식 베이스 구축 시스템(100)은 경험적인 지식 내용이 필요한 분야와 관련된 유저의 질의에 응답하여, 신뢰성이 높은 일반적인 지식 내용이 포함된 응답과 경험적인 지식 내용이 포함된 연관 응답을 동시에 제공할 수 있는 지식 베이스를 구축함으로써, 이러한 지식 베이스를 기반으로 유저의 니즈를 만족하는 서비스를 제공할 수 있는 효과가 있다.

도 2는 소스별 지식 베이스 설계 시스템(100)을 구체적으로 나타내는 블록도이다.

도 2를 참조하면, 소스별 지식 베이스 설계 시스템(100)은 도 1에서 서술한 바와 같이, 큐레이션 모듈(110), 데이터 정체 모듈(120), 후보 생성 모듈(130) 및 지식 베이스 구축 모듈(140)을 포함할 수 있다. 큐레이션 모듈(110)은 패러프레이즈 모듈(112), 정보 문장 수집 모듈(114), 통합 수정 모듈(116) 및 스키마 설계 모듈(118)을 포함할 수 있다.

패러프레이즈 모듈(112)은 데이터 소스들(10)로부터 수집한 데이터들에 포함된 질의 및/또는 응답을 패러프레이즈(paraphrase)하여 데이터들의 양을 증가시킬 수 있다. 패러프레이즈 모듈(112)은 오프라인 데이터 소스(11)로부터 수집한 데이터들을 패러프레이즈하여 생성한 데이터들과 온라인 데이터 소스(12)로부터 수집한 데이터들을 패러프레이즈하여 생성한 데이터들을 구분하기 위한 플래그 정보를 생성할 수 있다. 더 나아가, 패러프레이즈 모듈(112)은 온라인 데이터 소스(12)로부터 수집한 데이터들을 중심으로 패러프레이즈할 수 있다.

정보 문장 수집 모듈(114)은 수집한 데이터들, 패러프레이즈하여 생성한 데이터들을 소정의 정보를 포함하는 문장 단위로 구축할 수 있다. 즉, 정보 문장 수집 모듈(114)은 데이터 정제 모듈(120)에서 자연어 처리 및 정보 등을 추출할 수 있는 형식으로 각 데이터를 정규화하여 반정형 또는 정형 데이터로 변환할 수 있다. 일 실시예로, 정보 문장 수집 모듈(114)은 오프라인 데이터 소스(11)로부터 수집한 데이터들과 온라인 데이터 소스(12)로부터 수집한 데이터들을 플래그 정보를 기반으로 구분하여 각각 문장 단위로 구축할 수 있다. 통합 수정 모듈(116) 및 스키마 설계 모듈(118)의 동작은 후술한다.

데이터 정제 모듈(120)은 토큰화 모듈(122), 품사 태깅 모듈(124), 개체명 인식 모듈(126) 및 자연어 처리 사전(128)을 포함할 수 있다. 토큰화 모듈(122)은 큐레이션 모듈(110)에 의해 반정형 또는 정형 데이터로 변환된 데이터들(또는, 문장 단위의 데이터들)에 대한 토큰화를 수행할 수 있다. 토큰화 모듈(122)은 자연어 처리 사전(128)을 기반으로 의미있는 토큰 단위로 데이터들에 포함된 정보를 추출할 수 있으며, 추출된 정보는 온톨로지 스키마를 설계하는 데에 이용될 수 있다. 품사 태깅 모듈(124)은 토큰화된 정보의 품사를 결정할 수 있으며, 결정된 품사를 기반으로 토큰화된 정보와 동의어, 유의어, 반의어 등의 관계에 있는 정보들을 온톨로지 구성요소들과 맵핑할 수 있다. 개체명 인식 모듈(126)은 온라인 데이터 소스(12)에서 수집한 경험적인 지식 내용의 데이터들에 포함된 개인, 유명 인물, 고유 명사, 국가 등 중 적어도 하나에 대응하는 개체명을 인식하여, 인식된 결과를 기반으로 데이터 정제를 수행할 수 있다. 개체명 인식 모듈(126)은 플래그 정보를 기반으로 경험적인 지식 내용의 데이터들을 검출하고, 이러한 데이터들에 포함된 개인, 유명 인물, 고유 명사, 국가 등 중 적어도 하나에 대응하는 개체명을 자연어 처리 사전(128)을 참조하여 인식할 수 있다. 일 예로서, 온라인 데이터 소스(12)에는 소정의 ID(예를 들면, 인터넷 상 ID)를 각각 갖는 개인이 다른 개인의 육아에 대한 질의 및 이에 답변한 댓글을 포함하는 경험적인 지식 내용의 데이터들에 대하여 개체명 인식 모듈(126)은 이러한 개인들을 미리 설정된 ID 패턴을 기반으로 인식하고, 이를 기반으로 데이터를 정제할 수 있다. 다른 예로서, 온라인 데이터 소스(12)에는 유명한 인물(예를 들면, 연예인, 정치인, 언론인 등)의 육아에 관한 경험적인 지식 내용의 데이터들에 대하여 개체명 인식 모듈(126)은 자연어 처리 사전(128)에 포함된 인물 사전을 참조하여 인식하고, 이를 기반으로 데이터를 정제할 수 있다. 이와 같은 방식으로, 개체명 인식 모듈(126)은 경험적인 지식 정보를 포함하는 제2 지식 데이터를 특정 개체와의 연결 관계를 나타내는 온톨로지 스키마를 생성할 수 있으며, 이를 기반으로 유저의 질의에 대응하는 연관 응답을 생성할 수 있다.

후보 생성 모듈(130)은 클래스 후보 생성기(132) 및 속성 후보 생성기(134)를 포함할 수 있다. 클래스 후보 생성기(132) 및 속성 후보 생성기(134)는 각각 데이터들이 토큰화되어 생성된 토큰 리스트(또는, 정제된 데이터들)에 대하여 온톨로지 구성요소들에 맵핑할 수 있도록, 토큰 리스트에 포함된 토큰들 각각의 빈도수가 기준값 이상인지 여부를 기반으로 후보 클래스, 후보 속성을 각각 생성할 수 있다.

스키마 설계 모듈(118)은 생성된 후보 클래스 및 후보 속성으로부터 클래스 및 후보를 선택할 수 있다. 또한, 스키마 설계 모듈(118)은 임신, 출산, 육아의 분야에서의 일반적인 수준에서의 클래스 중 상위 클래스와 하위 클래스를 분류할 수 있다. 일반적인 수준은 소스별 지식 베이스 구축 시스템(100) 내에서 머신 러닝(machine learning)으로 정해지거나, 미리 기설정된 정보일 수 있다. 스키마 설계 모듈(118)은 후보 클래스로부터 클래스를 선택할 때에, 하위 클래스를 가질 수 있는지, 속성을 가질 수 있는지 여부를 기반으로 클래스를 선택할 수 있다. 스키마 설계 모듈(118)은 선택된 클래스 및 선택된 속성을 기반으로 임신, 출산, 육아의 분야에 대한 온톨로지 스키마를 설계할 수 있다.

지식 베이스 구축 모듈(140)은 인스턴스 변환률 모듈(142), 검증 모듈(144) 및 SPARQL 템플릿(146)을 포함할 수 있다. 인스턴트 변환률 모듈(142)은 데이터 정제 모듈(120)로부터 토큰 리스트(또는, 정제된 데이터들)을 수신하여, 토큰 리스트에 포함된 토큰들 중 적어도 하나를 변환룰을 기반으로 인스턴스로 변환할 수 있다. 지식 베이스 구축 모듈(140)은 이렇게 생성된 인스턴스들 및 스키마 설계 모듈(118)에 의해 생성된 온톨로지 스키마를 기반으로 임신, 육아, 출산 분야에서 일반적인 지식 내용을 포함하는 제1 지식 데이터 및 경험적인 지식 내용을 포함하는 제2 지식 데이터를 이용하여 소정의 데이터 구조(예를 들면, 트리플 구조)로 구축된 지식 베이스를 생성할 수 있다.

검증 모듈(144)은 구축된 지식 베이스 및/또는 생성된 온톨로지 스키마를 검증할 수 있으며, 통합 수정 모듈(116)에서 검증 결과를 기반으로 온톨로지 스키마, 더 나아가, 지식 베이스를 수정할 수 있다. 먼저, SPARQL (SPARQL Protocol and RDF Query Language) 템플릿(146)은 지식 베이스 또는 온톨로지 스키마를 기반으로 질의들을 포함하는 질의 리스트를 자동으로 생성할 수 있다. SPARQL 템플릿(146)은 온톨로지 언어의 예시로서 SPARQL 쿼리 형식의 질의들을 생성할 수 있다. SPARQL 템플릿(146)은 복수의 패턴 템플릿들을 저장할 수 있으며, 패턴 템플릿들을 기반으로 질의 리스트를 생성할 수 있다. 패턴 템플릿은 질의 패턴 및 그에 대응하는 쿼리 템플릿을 정의할 수 있다. SPARQL 템플릿(146)은 질의 패턴에 대응하는 쿼리 템플릿에, 질의 패턴에 포함된 온톨로지 구성요소들의 값들을 대입함으로써 쿼리를 생성할 수 있다.

검증 모듈(144)은 질의 리스트에 대응하는 응답 리스트 및 연관 응답 리스트를 생성하고, 응답 리스트 및 연관 응답 리스트를 분석하여 온톨로지를 검증할 수 있다. 검증 모듈(144)은 응답 리스트를 제1 지식 데이터를 이용하여 구축된 지식 베이스(40)를 기반으로 생성하고, 연관 응답 리스트를 제2 지식 데이터를 이용하여 구축된 지식 베이스(40)를 기반으로 생성할 수 있다. 검증 모듈(144)은 응답 리스트 및 연관 응답 리스트를 온톨로지 구성요소 단위(예를 들면, 인스턴스 단위)로 분석하고, 분석 결과를 기반으로 구축된 지식 베이스(40)에 응답 리스트 및 연관 응답 리스트가 부합하는지 여부를 검증하여, 검증 결과를 기반으로 온톨로지 스키마를 수정할 수 있다. 구체적으로, 검증 모듈(144)은 검증 결과를 기반으로 더 증가된 데이터 소스들(10)로부터 추가적으로 데이터들을 수집할 수 있으며, 추가적인 데이터들을 데이터 소스별 또는 지식 내용의 종류(일반적인 지식 내용 또는 경험적인 지식 내용)를 기반으로 구분하여 온톨로지 구성요소로의 맵핑을 위한 데이터로 정제할 수 있다. 다른 실시예로, 검증 모듈(144)은 상기 검증 결과를 통합 수정 모듈(116)에 제공할 수 있으며, 통합 수정 모듈(116)은 검증 결과를 기반으로 온톨로지 스키마를 수정할 수 있다. 이와 같은 방식으로, 소스별 지식 베이스 구축 시스템(100)은 질의 리스트를 스스로 생성하여, 이를 기반으로 온톨로지 스키마, 지식 베이스를 검증하고, 보완함으로써, 유저에게 니즈에 부합하고, 신뢰성있는 서비스를 제공할 수 있는 효과가 있다.

도 3 및 도 4는 본 개시의 일 실시예에 따른 데이터 정제 방법을 설명하기 위한 도면이다.

도 3을 참조하면, 소스별 지식 베이스 구축 시스템은 오프라인 데이터 소스 또는 온라인 데이터 소스로부터 "임산부가 흰색 속옷을 착용해야 하는 이유는 무엇인가요"라는 질의 및 "유산의 징조인 출혈 바로 확인가능, 분비물을 통한 확인"이라는 응답을 포함하는 데이터를 수집할 수 있다. 소스별 지식 베이스 구축 시스템은 도 3의 질의 및 응답에 대한 큐레이션 동작 및 데이터 정제 동작을 수행하여 토큰 리스트를 생성할 수 있다. 일 예로, 토큰 리스트는 질의에 대응하는 '임산부', '흰색' '속옷', '착용' 및 '이유'와 같은 토큰들과 응답에 대응하는 '유산', '징조', '출혈', '확인가능', '분비물' 및 '확인'과 같은 토큰들을 포함할 수 있다.

도 4를 더 참조하면, 위와 같은 토큰 리스트에 포함된 토큰들을 각 테이블들(TB_11~TB_22)과 같이 정리할 수 있다. 이하에서는, 서술의 편의상 제1 그룹 데이터는 오프라인 데이터 소스로부터 수집되어 정제된 복수의 데이터들을 포함하는 데이터를 지칭하고, 제2 그룹 데이터는 온라인 데이터 소스로부터 수집되어 정제된 복수의 데이터들을 포함하는 데이터를 지칭하는 것을 가정한다.

소스별 지식 베이스 구축 시스템은 제1 테이블(TB_11)과 같이 정리된 토큰 리스트를 빈도수 및 머신 러닝에 의해 결정된 일반적인 수준(또는, 기준 정보)를 기반으로 제2 테이블(TB_12)과 같이 상위 클래스, 하위 클래스를 선택하여 정리할 수 있다. 이와 같이, 소스별 지식 베이스 구축 시스템은 정리된 제1 그룹 데이터를 기반으로 온톨로지 스키마에 의해 정의될 수 있도록 정제된 제1 지식 데이터를 생성할 수 있다.

소스별 지식 베이스 구축 시스템은 제1 지식 데이터를 생성하는 방식과 동일 또는 유사하게, 별도로 제2 그룹 데이터를 제3 테이블(TB_21) 및 제4 테이블(TB_22)로 순차적으로 정리하여 제2 지식 데이터를 생성할 수 있다.

소스별 지식 베이스 구축 시스템은 제1 그룹 데이터와 제2 그룹 데이터를 각각 연결시켜, 제1 그룹 데이터와 제2 그룹 데이터간 연결 관계를 나타내는 링크 정보를 생성할 수 있으며, 링크 정보를 기반으로 제1 지식 데이터 및 제2 지식 데이터를 관리할 수 있다. 일 예로, 링크 정보는, 자연어 처리 사전이 참조되어 생성될 수 있다. 예를 들어, 소스별 지식 베이스 구축 시스템은 육아 방법에 관한 질의를 유저로부터 수신하였을 때, 제1 지식 데이터를 이용하여 구축된 지식 베이스를 참조하여 질의에 대응하는 육아 방법에 대한 일반적인 지식 내용을 포함하는 응답을 생성하는 동시에, 제2 지식 데이터를 이용하여 구축된 지식 베이스를 참조하여 유명 연예인, 역사적 인물, 또는 소정의 ID를 갖는 개인의 육아 방법에 대한 경험적인 지식 내용을 포함하는 연관 응답을 생성할 수 있다. 소스별 지식 베이스 구축 시스템은 제1 지식 데이터를 이용하여 구축된 지식 베이스로부터 응답을 생성한 후에, 응답을 링크 정보를 기반으로 분석하여, 분석 결과를 기반으로 제2 지식 데이터를 이용하여 구축된 지식 베이스로부터 연관 응답을 생성할 수 있다.

도 5는 본 개시의 일 실시예에 따라 설계된 임신, 출산, 육아 분야의 온톨로지 스키마를 설명하기 위한 도면이다.

소스별 지식 베이스 구축 시스템은 제1 지식 데이터 및 제2 지식 데이터를 정의하는 임신, 출산, 육아 분야의 온톨로지 스키마를 도 5와 같이 생성할 수 있다. 특히, 본 개시에 따른 온톨로지 스키마는, 경험적인 지식 내용을 유저에게 제공할 수 있도록 국가, 유명 인물과 같은 특정 개체를 나타내는 인스턴스를 포함할 수 있다. 예를 들어, 소스별 지식 베이스 구축 시스템은 유저로부터 육아 법률에 관한 질의를 수신하였을 때, 도 5의 온톨로지 스키마를 기반으로 다른 국가의 육아 법률에 대한 경험적인 지식 내용의 연관 응답을 일반적인 지식 내용의 응답과 함께 생성할 수 있다. 또한, 소스별 지식 베이스 구축 시스템은 유저로부터 분만 방법에 관한 질의를 수신하였을 때, 도 5의 온톨로지 스키마를 기반으로 유명 인물의 육아 방법에 대한 경험적인 지식 내용의 연관 응답을 일반적인 지식 내용의 응답과 함께 생성할 수 있다.

도 6은 도 1의 검증 모듈(144)의 검증 동작을 구체적으로 설명하기 위한 도면이다.

도 6을 참조하면, 검증 모듈(144)은 질의 응답 모듈 실행부(144a), 질의 분석부(144b), 질의 응답 검증부(144c)를 포함할 수 있다. SPARQL 템플릿(146)은 자동으로 지식 베이스를 기반으로 질의 리스트를 생성할 수 있다. 질의 응답 모듈 실행부(144a)는 질의 리스트에 응답하여, 지식 베이스로부터 응답 리스트를 생성하고, 응답 리스트를 기반으로 지식 베이스로부터 연관 응답 리스트를 생성할 수 있다.

질의 분석부(144a)는 질의 리스트에 포함된 질의들에 대하여 시맨틱 롤 라벨링(Semantic Role Labeling), 형태소 분석, 구문 분석, 개체명 분석, 필터링 분석, 의도 분류 및 분야 분석 등의 복수의 단위 분석 과정을 수행할 수 있다. 상기 복수의 단위 분석 과정 중 일부는 병렬적으로 수행될 수 있다. 상기 복수의 단위 분석 과정 중 일부는 순차적으로 수행될 수 있다. 질의 응답 검증부(144c)는 분석 결과를 기반으로 지식 베이스 또는 온톨로지 스키마로부터 인스턴스들 또는 토큰들을 포함하는 검증 기준 정보를 추출할 수 있다. 질의 응답 검증부(144c)는 응답 리스트 및 연관 응답 리스트에 각각 포함된 인스턴스들 또는 토큰들을 검증 기준 정보와 비교할 수 있다. 이후, 질의 응답 검증부(144c)는 상기 비교 결과를 기반으로 검증 결과를 생성하여 통합 수정 모듈(116)에 제공할 수 있다. 통합 수정 모듈(116)은 검증 결과를 기반으로 온톨로지 스키마 또는 지식 베이스를 수정할 수 있다.

본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 다른 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의하여 정해져야 할 것이다.

Claims

서로 다른 제1 데이터 소스 및 제2 데이터 소스로부터 각각 제1 데이터 및 제2 데이터를 수신하는 큐레이션 모듈;
상기 제1 데이터 및 상기 제2 데이터를 각각 데이터 소스별로 구분하여 정제함으로써 제1 지식 데이터 및 제2 지식 데이터를 생성하는 데이터 정제 모듈; 및
상기 제1 지식 데이터 및 상기 제2 지식 데이터를 기반으로 온톨로지 스키마(ontology schema)를 생성하고, 상기 스키마를 기반으로 지식 베이스를 구축하는 지식 베이스 구축 모듈을 포함하고,
상기 지식 베이스 구축 모듈은,
상기 온톨로지 스키마를 기반으로 생성된 질의 리스트에 대응하는 응답 리스트 및 연관 응답 리스트를 생성하고, 상기 응답 리스트 및 상기 연관 응답 리스트를 분석하여 상기 온톨로지 스키마를 검증하는 검증 모듈을 포함하는 것을 특징으로 하는 지식 베이스 구축 시스템.
제1항에 있어서,
상기 제1 데이터 소스는, 오프라인 데이터 소스이고, 상기 제2 데이터 소스는 온라인 데이터 소스이며,
상기 검증 모듈은,
상기 응답 리스트를 상기 제1 지식 데이터를 이용하여 구축된 상기 지식 베이스를 기반으로 생성하고, 상기 연관 응답 리스트를 상기 제2 지식 데이터를 이용하여 구축된 상기 지식 베이스를 기반으로 생성하는 것을 특징으로 하는 지식 베이스 구축 시스템.
제1항에 있어서,
상기 큐레이션 모듈은,
상기 제1 지식 데이터 및 상기 제2 지식 데이터를 각각 구별하가 위한 플래그 정보를 생성하는 것을 특징으로 하는 지식 베이스 구축 시스템.
제1항에 있어서,
상기 검증 모듈은,
상기 질의 리스트를 SPARQL(SPAQL Protocol and RDF Query Language) 템플릿을 참조하여 생성하는 것을 특징으로 하는 지식 베이스 구축 시스템.
제1항에 있어서,
상기 제1 데이터 소스는, 상기 온톨로지 스키마의 분야와 관련된 지식백과사전 데이터 베이스, 전자 서적 데이터 베이스 및 전자 문서 데이터 베이스를 포함하고,
상기 제2 데이터 소스는, 상기 온톨로지 스키마에 대한 분야와 관련된 인터넷 홈페이지 데이터 베이스 및 인터넷 포탈 데이터 베이스를 포함하는 것을 특징으로 하는 지식 베이스 구축 시스템.
제5항에 있어서,
상기 데이터 정제 모듈은,
상기 제2 데이터로부터 개인, 유명 인물, 고유 명사, 국가 중 적어도 하나에 대응하는 개체명 별로 상기 제2 지식 데이터를 생성하는 개체명 인식 모듈을 더 포함하는 것을 특징으로 하는 지식 베이스 구축 시스템.
제6항에 있어서,
상기 검증 모듈은,
상기 질의 리스트 및 상기 응답 리스트를 분석하고, 상기 분석 결과에 대응하는 개체명을 참조하여, 상기 제2 지식 데이터를 이용하여 구축된 상기 지식 베이스를 기반으로 상기 연관 응답 리스트를 생성하는 것을 특징으로 하는 지식 베이스 구축 시스템.
제1항에 있어서,
상기 검증 모듈은,
상기 응답 리스트 및 상기 연관 응답 리스트를 상기 온톨로지 구성요소 단위로 분석하고, 상기 분석 결과를 기반으로 구축된 상기 지식 베이스에 상기 응답 리스트 및 상기 연관 응답 리스트가 부합하는지 여부를 검증하여, 상기 검증 결과를 기반으로 상기 온톨로지 스키마를 수정하는 것을 특징으로 하는 지식 베이스 구축 시스템.
제1항에 있어서,
상기 지식 베이스 구축 시스템은,
유저 인터페이스를 더 포함하고, 상기 유저 인터페이스를 통해 유저로부터 질의를 수신한 때에, 상기 질의를 분석하여, 상기 온톨로지 스키마를 기반으로 상기 제1 지식 데이터를 이용하여 구축된 상기 지식 베이스를 기반으로 일반적 지식에 대응되는 응답을 생성하고, 상기 제2 지식 데이터를 이용하여 구축된 상기 지식 베이스를 기반으로 경험적 지식에 대응되는 연관 응답을 생성하여 상기 유저 인터페이스를 통해 상기 응답 및 상기 연관 응답을 표시하는 것을 특징으로 하는 지식 베이스 구축 시스템.
제9항에 있어서,
상기 검증 모듈은,
상기 응답 및 상기 연관 응답에 대한 상기 유저의 피드백을 상기 유저 인터페이스를 통해 수신한 때에, 상기 피드백을 기반으로 상기 온톨로지 스키마를 수정하는 것을 특징으로 하는 지식 베이스 구축 시스템.