KR101686919B1

KR101686919B1 - 빅데이터에 기반한 추론 엔진을 관리하는 방법 및 장치

Info

Publication number: KR101686919B1
Application number: KR1020160002186A
Authority: KR
Inventors: 김병곤; 오재용; 박효근
Original assignee: 주식회사 엑셈
Priority date: 2016-01-07
Filing date: 2016-01-07
Publication date: 2016-12-16

Abstract

빅데이터에 대한 이해에 기반하는 인메모리 추론 엔진을 관리하는 방법 및 장치가 개시된다. 지식 증강 시스템에서 수행되는 빅데이터에 기반한 추론 엔진을 관리하는 방법은, 입력 데이터를 분산 클러스터링 플랫폼 상의 복수의 추론 엔진(inference engine)에 할당하여 빅데이터 기반의 지식 추론을 수행하는 단계와; 복수의 추론 엔진에서 수행된 지식 추론에 의해 증간된 지식을 이용하여 지식 베이스(knowledge base)를 자가 학습(self-learning)시키는 단계와; 복수의 추론 엔진에서 생성된 로그 파일을 복수의 로그 수집기를 이용하여 수집하는 단계와; 복수의 로그 수집기로 수집된 로그 파일을 관계형 데이터 베이스 관리시스템(relational data base management system)에 전달하는 단계를 포함한다. 따라서, 인메모리 컴퓨팅에 기반하여 빅데이터를 활용한 지식 추론의 성능을 향상시킴과 동시에 추론 엔진에서 수행되는 프로세스를 효과적으로 모니터링할 수 있다.

Description

빅데이터에 기반한 추론 엔진을 관리하는 방법 및 장치{METHOD AND APPARATUS FOR MANAGING INFERENCE ENGINE BASED ON BIG DATA}

본 발명은 빅데이터 기반 지식 증강 기술에 관한 것으로, 더욱 상세하게는 빅데이터에 대한 이해에 기반하는 인메모리 추론 엔진을 관리하는 방법 및 장치에 관한 것이다.

최근 스마트폰, 태블릿 PC와 같은 이동 통신 단말기의 보급이 대중화되고 소셜 네트워크 서비스(SNS, Social Network Service), 사물 네트워크(M2M, Machine To Machine), 센서 네트워크(Sensor Network) 등의 사용이 증가함에 따라 데이터의 양, 생성 속도 및 그 다양성이 기하급수적으로 증가하고 있다.

이처럼 다양하고 방대한 규모를 가지는 빅데이터를 분석하면 지능형 로봇, 차세대 PC, 텔레매틱스, 홈네트워크, 고객 관계 관리, 인공 지능, 검색 엔진 등의 다양한 기술 분야에 활용될 수 있다는 점에서 빅데이터 분석 기술에 대한 연구가 활발하게 진행되고 있다.

빅데이터 분석 기술은 기존의 관계형 데이터베이스로 관리할 수 있는 데이터뿐 아니라 정형, 비정형, 반정형의 데이터를 분석하여 가치 있는 지식 정보로 추론하거나 지식 베이스를 구성하는 기술을 의미한다.

다만, 단 한 대의 정보 처리 장치로 방대한 양의 빅데이터를 분석하는 것은 현실적으로 불가능하기 때문에 빅데이터를 다수의 정보 처리 장치로 분산하여 병렬 처리하는 병렬 분산 처리 시스템이 이용되는 추세이다.

그러나, 종래의 빅데이터 분석 기술은 다수의 정보 처리 장치 중 어느 정보 처리 장치에서 빅데이터 분석이 실행되었는 지, 빅데이터 분석을 위해 어떠한 자원과 데이터가 이용되었는 지와 등과 같이 빅데이터가 분석되는 과정을 모니터링 및 관리할 수 없다는 한계가 있다.

그리하여, 시스템 상에 문제가 발생하는 경우, 이를 해결하기 위해 개발자 또는 시스템 운영자가 다수의 정보 처리 장치에 대한 분석 작업을 일일이 확인해야 한다는 점에서 시스템을 효율적으로 운영하고 관리할 수 없다는 문제가 있다.

이에 따라 빅데이터 분석 성능이 떨어져 빅데이터 분석을 통해 추론되는 지식에 대한 신뢰도 또한 떨어질 수 있다는 문제가 있다.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 지식 증강 시스템에서 수행되는 빅데이터에 기반한 추론 엔진을 관리하는 방법을 제공하는데 있다.

상기와 같은 문제점을 해결하기 위한 본 발명의 다른 목적은, 빅데이터에 기반한 추론 엔진을 이용한 지식 증강 시스템을 제공하는데 있다.

상기 목적을 달성하기 위한 본 발명의 실시예에 따른 지식 증강 시스템에서 수행되는 빅데이터에 기반한 추론 엔진을 관리하는 방법은, 입력 데이터를 분산 클러스터링 플랫폼 상의 복수의 추론 엔진(inference engine)에 할당하여 빅데이터 기반의 지식 추론을 수행하는 단계와; 복수의 추론 엔진에서 수행된 지식 추론에 의해 증간된 지식을 이용하여 지식 베이스(knowledge base)를 자가 학습(self-learning)시키는 단계와; 복수의 추론 엔진에서 생성된 로그 파일을 복수의 로그 수집기를 이용하여 수집하는 단계와; 복수의 로그 수집기로 수집된 로그 파일을 관계형 데이터 베이스 관리시스템(relational data base management system)에 전달하는 단계를 포함한다.

여기에서, 상기 복수의 추론 엔진은, 인메모리 컴퓨팅(in-memory computing)에 기반하여 동작하는 추론 엔진일 수 있다.

여기에서, 상기 복수의 추론 엔진은, UIMA(Unstructured Information Management Architecture), YARN(Yet Another Resource Negotiator) 및 Apache Spark 중 적어도 하나에 기반하여 분산 병렬 처리를 수행할 수 있다.

여기에서, 상기 지식 추론을 수행하는 단계는, 텍스트로 입력되는 입력 데이터에 대해 자연어 처리(natural language processing) 수행에 따른 이해를 통하여 수행할 수 있다.

여기에서, 상기 로그 파일을 관계형 데이터 베이스 시스템에 전달하는 단계는, 로그 파일에 대한 분석을 통하여 복수의 추론 엔진에서 수행되는 프로세스를 모니터링하도록 지원할 수 있다.

여기에서, 상기 복수의 추론 엔진에서 수행되는 프로세스에 대한 모니터링 결과에 기반하여 복수의 추론 엔진을 제어하는 단계를 더 포함할 수 있다.

상기 다른 목적을 달성하기 위한 본 발명의 실시예에 따른 지식 증강 시스템은, 입력 데이터에 대해 빅데이터에 기반한 지식 추론을 수행하고, 분산 클러스터링 플랫폼 상에서 동작하는 복수의 추론 엔진(inference engine)와; 복수의 추론 엔진에서 수행된 지식 추론에 의해 증간된 지식을 이용하여 자기 학습(self-learning)하는 지식 베이스와; 복수의 추론 엔진에서 생성된 로그 파일을 수집하고, 수집된 로그 파일을 관계형 데이터 베이스 관리시스템(relational data base management system)에 전달하는 복수의 로그 수집기를 포함한다.

여기에서, 상기 복수의 추론 엔진은, 텍스트로 입력되는 입력 데이터에 대해 자연어 처리(natural language processing) 수행에 따른 이해를 통하여 지식 추론을 수행할 수 있다.

여기에서, 상기 관계형 데이터 베이스 시스템은, 로그 파일에 대한 분석을 통하여 복수의 추론 엔진에서 수행되는 프로세스를 모니터링하도록 지원할 수 있다.

상기와 같은 본 발명의 실시예에 따른 지식 증강 시스템 및 추론 엔진 관리 방법에 따르면, 인메모리 컴퓨팅에 기반하여 빅데이터를 활용한 지식 추론의 성능을 향상시킴과 동시에 추론 엔진에서 수행되는 프로세스를 효과적으로 모니터링할 수 있다.

또한, 인메모리 컴퓨팅에 기반하여 동작하는 추론 엔진의 상태에 대한 모니터링 결과를 이용하여 추론 엔진을 제어 및 관리함으로써 지식 증강의 효율을 향상시킬 수 있다.

도 1은 본 발명의 실시예에 따른 지식 증강을 설명하기 위한 개념도이다.
도 2는 본 발명의 실시예에 따른 지식 증강 시스템을 설명하기 위한 블록도이다.
도 3은 본 발명의 실시예에 따른 추론 엔진 관리 방법을 설명하기 위한 흐름도이다.
도 4는 본 발명의 실시예에 따른 UIMA 노드를 모니터링하는 방법을 설명하기 위한 예시도이다.
도 5는 본 발명의 실시예에 따른 Spark 애플리케이션의 상황 정보에 대한 모니터링을 설명하기 위한 예시도이다.
도 6은 본 발명의 실시예에 따른 Spark 애플리케이션의 처리 성능에 대한 모니터링을 설명하기 위한 예시도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 본 발명의 실시예에 따른 지식 증강을 설명하기 위한 개념도이다.

도 1을 참조하면, 본 발명의 실시예에 따른 지식 증강 플랫폼은 빅데이터 지식 자원을 활용하여 지식 베이스(knowledge base)를 구축할 수 있다.

여기서, 지식 베이스(knowledge base)는 전문가 시스템의 구성 요소의 하나로, 특정 분야의 전문가가 지적 활동과 경험을 통해서 축적한 전문 지식이나 문제 해결에 필요한 사실과 규칙 등이 저장되어 있는 데이터베이스를 의미한다. 문제 해결의 수법이 전문가에 따라 다르듯이, 지식 베이스는 대상으로 하는 문제 별로 개별적으로 작성될 수 있고, 전문가의 지식을 지식 베이스에 반영하는 작업을 지식 획득(knowledge acquisition)이라고 한다. 예를 들어, 다중 도메인/다형 지식 베이스는 코어 지식, 일반 지식, 전문 지식 베이스 등과 같이 구분될 수 있다.

빅데이터 지식 자원은 Web 기반 비정형 빅데이터, 온톨로지 등 지식 자원, 레거시 DB Open API 등 정형 데이터 등과 같은 다양한 소스를 통해 확보될 수 있다.

지식 증강 플랫폼은 외부 자원 Focused Crawling, 수집된 빅데이터 분류/정제 및 지식 자원 선별과 의미적 통합 등의 과정을 통하여 빅데이터 지식 자원을 획득/통합할 수 있다.

지식 증강 플랫폼은 획득/통합된 빅데이터 지식 자원을 이용한 자가 지식 학습을 수행할 수 있으며, 이를 위한 Learning by Taking Advice, Learning by Reading 및 후보 지식 검증과 같은 프로세스를 수행할 수 있다. 또한, 이렇게 자가 학습된 지식은 지식 베이스를 구축 또는 성장시킬 수 있다.

지식 증강 플랫폼은 획득/통합된 빅데이터 지식 자원에 대해 지식 큐레이션(curation)을 수행할 수 있다. 지식 큐레이션은 코어 지식 구축/검증, Crowd Sourcing 일반지식확장, 문제해결 실패시 교사 학습 등을 통해 수행될 수 있다.

지식 증강 플랫폼은 지식 베이스에 축적된 지식을 원형 지식으로 하여 이에 대한 추론을 통해 증강된 지식을 생성할 수 있고, 증강된 지식을 이용하여 지식 베이스를 구축 또는 성장시킬 수 있다. 예를 들어, 추론은 시멘틱 추론(semantic reasoning), 시공간 추론(spatiotemporal reasoning), 불확실성 추론(Reasoning with Uncertainty) 등과 같은 다양한 추론 기법이 적용될 수 있다.

도 2는 본 발명의 실시예에 따른 지식 증강 시스템을 설명하기 위한 블록도이다.

도 2를 참조하면, 본 발명의 실시예에 따른 지식 증강 시스템(10)은 상술한 도 1의 지식 증강 플랫폼을 구현하기 위한 장치일 수 있다. 지식 증강 시스템(10)은 복수의 추론 엔진(100), 복수의 로그 수집기(200) 및 지식 베이스(400)를 포함할 수 있다. 또한, 지식 증강 시스템(10)은 관계형 데이터 베이스 시스템(RDBMS: Relational Data Base Managements System)(400)와 연동하거나, 이를 포함하여 구현될 수 있다.

추론 엔진(100)은 추론을 실행하는 부분으로서, 지식 베이스(400)에서 적용할 지식을 검색하고, 그 지식을 이용하여 추론을 수행하는 기능을 수행할 수 있다. 즉, 추론 엔진(100)은 지식기반을 통해 추론행위를 함으로써 주어진 규칙과 사실을 이용하여 새로운 사실을 탐색하는 행위를 하는 전문적인 프로그램을 의미할 수 있다. 예를 들어, 추론 엔진(100)은 텍스트로 입력되는 입력 데이터에 대해 자연어 처리(natural language processing) 수행에 따른 이해를 통하여 지식 추론을 수행할 수 있다. 특히, 추론 엔진(100)은 입력 데이터에 대해 빅데이터에 기반한 지식 추론을 수행하고, 분산 클러스터링 플랫폼 상에서 동작할 수 있다.

따라서, 추론 엔진(100)은 지식 베이스(400)를 구축 또는 성장시키는 기능을 수행할 수 있다. 즉, 지식 베이스(400)는 추론 엔진(100)에서 수행된 지식 추론에 의해 증간된 지식을 이용하여 자기 학습(self-learning)을 수행할 수 있다.

상세하게는, 추론 엔진(100)은 인메모리 컴퓨팅(in-memory computing)에 기반하여 동작할 수 있다. 여기서, 인메모리 컴퓨팅은 전통적으로 디스크 기반 스토리지에 상주하는 데이터를 메인 메모리로 옮겨 활용하는 기술로, 기존 방식과 비교하여 수 배에 달하는 성능 개선 효과를 가져올 수 있다. 또한, 인메모리 컴퓨팅은 데이터베이스 자체를 메모리에 올려서 입출력을 빠르게 해 데이터의 분석, 저장, 제공을 빠른 속도로 지원할 수 있다.

예를 들어, 본 발명의 실시예에 따른 추론 엔진(100)은 UIMA(Unstructured Information Management Architecture), YARN(Yet Another Resource Negotiator) 및 Apache Spark 중 적어도 하나에 기반하여 분산 병렬 처리를 수행할 수 있다.

보다 상세하게는, UIMA는 텍스트 사이의 관련성을 찾아내는 과정을 개선하기 위해 IBM이 개발한 기술로, '비구조화 정보관리 아키텍처'를 의미할 수 있고, YARN는 분산 처리 환경을 지원하는 기술로, 맵리듀스(MapReduce) 프레임웍 이외에도 다양한 종류의 분산 처리 환경을 지원할 수 있다.

또한, Apache Spark는 범용적 목적의 분산 고성능 클러스터링 플랫폼 (General purpose high performance distributed platform)을 지원하는 기술로, Map & Reduce, Streaming 데이터 핸들링, SQL 기반의 데이타 쿼리, 머신 러닝 라이브러리 등과 같은 기능을 지원할 수 있다.

로그 수집기(200)는 추론 엔진(100)에 의해 생성된 로그 정보(파일)을 수집하고, 처리 가능한 형태로 변경하여 관계형 데이터 베이스 시스템(RDBMS)(400)에 전달하는 기능을 수행할 수 있다. 즉, 로그 수집기(200)는 추론 엔진(100)에서 생성된 로그 파일을 수집하고, 수집된 로그 파일을 관계형 데이터 베이스 관리시스템(RDBMS)(400)에 전달할 수 있다.

관계형 데이터 베이스 시스템(RDBMS)(400)는 관계형 데이터 베이스를 구성하고 액세스를 제공하는 소프트웨어와 하드웨어의 집합을 의미하는 것으로, 대규모 컴퓨터 시스템을 대상으로 많은 이용자가 대량의 데이터를 다룰 때 데이터베이스를 관리하는 시스템이다. 또한, 관계형 데이터 베이스 시스템(RDBMS)(400)은 로그 파일에 대한 분석을 통하여 추론 엔진(100)에서 수행되는 프로세스를 모니터링하도록 지원할 수 있다.

상술한 본 발명의 실시예에 따른 지식 증강 시스템(10)의 구성을 설명의 편의상 각각의 구성부로 나열하여 설명하였으나, 각 구성부 중 적어도 두 개가 합쳐져 하나의 구성부로 이루어지거나, 하나의 구성부가 복수개의 구성부로 나뉘어져 기능을 수행할 수 있고 이러한 각 구성부의 통합 및 분리된 실시예의 경우도 본 발명의 본질에서 벋어나지 않는 한 본 발명의 권리범위에 포함된다.

도 3은 본 발명의 실시예에 따른 추론 엔진 관리 방법을 설명하기 위한 흐름도이다.

도 3을 참조하면, 본 발명의 실시예에 따른 추론 엔진 관리 방법은 지식 증강 시스템에서 수행될 수 있다.

입력 데이터를 분산 클러스터링 플랫폼 상의 복수의 추론 엔진(inference engine)(100)에 할당하여 빅데이터 기반의 지식 추론을 수행할 수 있다(S310). 여기서, 빅데이터 지식 자원은 Web 기반 비정형 빅데이터, 온톨로지 등 지식 자원, 레거시 DB Open API 등 정형 데이터 등과 같은 다양한 소스를 통해 확보될 수 있다.

특히, 추론 엔진(100)은 인메모리 컴퓨팅(in-memory computing)에 기반하여 동작하는 것으로, UIMA(Unstructured Information Management Architecture), YARN(Yet Another Resource Negotiator) 및 Apache Spark 중 적어도 하나에 기반하여 분산 병렬 처리를 수행할 수 있다. 또한, 텍스트로 입력되는 입력 데이터에 대해 자연어 처리(natural language processing) 수행에 따른 이해를 통하여 지식 추론을 수행할 수 있다.

추론 엔진에서 수행된 지식 추론에 의해 증간된 지식을 이용하여 지식 베이스(knowledge base)(400)를 자가 학습(self-learning)시킬 수 있다(S320). 여기서, 자가 학습은 머신 러닝(Machine learning) 또는 딥 러닝(deep learning)을 의미할 수 있다. 또한, 지식 베이스(400)는 코어 지식, 일반 지식, 전문 지식 베이스 등과 같이 구분될 수 있는 다중 도메인/다형 지식 베이스일 수 있다.

추론 엔진에서 생성된 로그 파일을 복수의 로그 수집기를 이용하여 수집할 수 있고(S330), 수집된 로그 파일을 관계형 데이터 베이스 관리시스템(RDBMS)(400)에 전달할 수 있다(S340). 따라서, 로그 파일에 대한 분석을 통하여 추론 엔진(100)에서 수행되는 프로세스를 모니터링하도록 지원할 수 있다.

더 나아가, 본 발명의 실시예에 따른 지식 증강 시스템(10)은 추론 엔진(100)에서 수행되는 프로세스에 대한 모니터링 결과에 기반하여 추론 엔진(100)을 제어할 수 있다.

또한, 본 발명의 실시예에 따른 추론 엔진 관리 방법의 동작은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 프로그램 또는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터로 읽을 수 있는 프로그램 또는 코드가 저장되고 실행될 수 있다.

도 4는 본 발명의 실시예에 따른 UIMA 노드를 모니터링하는 방법을 설명하기 위한 예시도이다.

도 4를 참조하여 UIMA 노드(110)를 모니터링하는 방법을 설명한다. UIMA 노드(110)는 인메모리 추론 엔진으로서, UIMA Application(111) 및 로그 파일 DB(113)를 포함할 수 있다.

UIMA Application(111)의 동작에 따라 생성된 로그 파일은 로그 파일 DB(113)에 저장된다. 또한, 로그 파일은 로그 수집기(200)의 Source(201)로 수집될 수 있다. Interceptor(203)는 Source(201)로 수집된 로그 파일을 처리 용이한 형태로 변형시킬 수 있다. 예를 들어, Interceptor(203)는 로그 파일에 대한 분류 등을 통하여 테이블 형태 기반의 데이터를 생성할 수 있다.

Channel(205)은 변형된 로그 파일을 수신하여 Sink(207) 또는 파일 DB(209)로 분배할 수 있다. 파일 DB(209)는 전달받은 데이터를 저장하고, Sink(207)는 전달받은 데이터를 다음의 로그 수집기(200) 또는 관계형 데이터 베이스 관리시스템(RDBMS)(400)로 전달할 수 있다.

관계형 데이터 베이스 관리시스템(RDBMS)(400)는 로그 수집기(200)로부터 수신한 데이터를 저장하고 관리할 수 있다. 또한, 관계형 데이터 베이스 관리시스템(RDBMS)(400)는 로그 수집기(200)로부터 수신한 데이터에 대한 분석을 통하여 UIMA 노드(110)를 모니터링하는 사용자 인터페이스를 지원할 수 있다.

도 5는 본 발명의 실시예에 따른 Spark 애플리케이션의 상황 정보에 대한 모니터링을 설명하기 위한 예시도이고, 도 6은 본 발명의 실시예에 따른 Spark 애플리케이션의 처리 성능에 대한 모니터링을 설명하기 위한 예시도이다.

도 5를 참조하면, 본 발명의 실시예에 따른 Spark 애플리케이션의 상황 정보를 요약하게 제공할 수 있다. Spark 애플리케이션은 단위 추론 작업들의 순차 처리와 반복 처리에 용이한 메모리 기반 추론 엔진이다.

본 발명의 실시예에 따른 지식 증강 시스템(10)은 Spark 실행 트랜드, Spark의 Event Timeline, Spark의 Stage 현황, Spark의 Performance 현황, Spark의 Executor 현황, Spark의 Storage 현황, Spark의 환경 변수 등과 같은 상황 정보를 요약하여 제공할 수 있다.

또한, 도 6을 참조하면, 본 발명의 실시예에 따른 Spark 애플리케이션의 처리 성능을 요약하여 제공할 수 있다.

예를 들어, Spark 애플리케이션의 Executor Run Time, Executor Deserialize Time, Result Serialization Time, Getting Result Time, JVM GC Time 등과 같이 시간 단위로 성능 정보를 요약하여 제공할 수 있다.

상술한 본 발명의 실시예에 따른 지식 증강 시스템 및 추론 엔진 관리 방법에 따르면, 인메모리 컴퓨팅에 기반하여 빅데이터를 활용한 지식 추론의 성능을 향상시킴과 동시에 추론 엔진에서 수행되는 프로세스를 효과적으로 모니터링할 수 있다.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

10: 지식 증강 시스템
100: 추론 엔진 200: 로그 수집기
300: RDBMS 400: 지식 베이스
110: UIMA 노드 111: UIMA 애플리케이션
113: 로그 파일 DB 201: Source
203: Interceptor 205: Channel
207: Sink 209: 파일 DB

Claims

지식 증강 시스템에서 수행되는 빅데이터에 기반한 추론 엔진을 관리하는 방법에 있어서,
입력 데이터를 분산 클러스터링 플랫폼 상의 복수의 추론 엔진(inference engine)에 할당하여 빅데이터 기반의 지식 추론을 수행하는 단계;
상기 복수의 추론 엔진에서 수행된 지식 추론에 의해 증간된 지식을 이용하여 지식 베이스(knowledge base)를 자가 학습(self-learning)시키는 단계;
상기 복수의 추론 엔진에서 생성된 로그 파일을 복수의 로그 수집기를 이용하여 수집하는 단계; 및
상기 복수의 로그 수집기로 수집된 로그 파일을 관계형 데이터 베이스 관리시스템(relational data base management system)에 전달하는 단계를 포함하는,
추론 엔진을 관리하는 방법.
청구항 1에 있어서,
상기 복수의 추론 엔진은,
인메모리 컴퓨팅(in-memory computing)에 기반하여 동작하는 추론 엔진인 것을 특징으로 하는,
추론 엔진을 관리하는 방법.
청구항 2에 있어서,
상기 복수의 추론 엔진은,
UIMA(Unstructured Information Management Architecture), YARN(Yet Another Resource Negotiator) 및 Apache Spark 중 적어도 하나에 기반하여 분산 병렬 처리를 수행하는 것을 특징으로 하는,
추론 엔진을 관리하는 방법.
청구항 1에 있어서,
상기 지식 추론을 수행하는 단계는,
텍스트로 입력되는 상기 입력 데이터에 대해 자연어 처리(natural language processing) 수행에 따른 이해를 통하여 수행하는 것을 특징으로 하는,
추론 엔진을 관리하는 방법.
청구항 1에 있어서,
상기 로그 파일을 관계형 데이터 베이스 시스템에 전달하는 단계는,
상기 로그 파일에 대한 분석을 통하여 상기 복수의 추론 엔진에서 수행되는 프로세스를 모니터링하도록 지원하는 것을 특징으로 하는,
추론 엔진을 관리하는 방법.
청구항 5에 있어서,
상기 복수의 추론 엔진에서 수행되는 프로세스에 대한 모니터링 결과에 기반하여 상기 복수의 추론 엔진을 제어하는 단계를 더 포함하는,
추론 엔진을 관리하는 방법.
입력 데이터에 대해 빅데이터에 기반한 지식 추론을 수행하고, 분산 클러스터링 플랫폼 상에서 동작하는 복수의 추론 엔진(inference engine);
상기 복수의 추론 엔진에서 수행된 지식 추론에 의해 증간된 지식을 이용하여 자기 학습(self-learning)하는 지식 베이스; 및
복수의 추론 엔진에서 생성된 로그 파일을 수집하고, 수집된 상기 로그 파일을 관계형 데이터 베이스 관리시스템(relational data base management system)에 전달하는 복수의 로그 수집기를 포함하는,
지식 증강 시스템.
청구항 7에 있어서,
상기 복수의 추론 엔진은,
인메모리 컴퓨팅(in-memory computing)에 기반하여 동작하는 추론 엔진인 것을 특징으로 하는,
지식 증강 시스템.
청구항 8에 있어서,
상기 복수의 추론 엔진은,
UIMA(Unstructured Information Management Architecture), YARN(Yet Another Resource Negotiator) 및 Apache Spark 중 적어도 하나에 기반하여 분산 병렬 처리를 수행하는 것을 특징으로 하는,
지식 증강 시스템.
청구항 7에 있어서,
상기 복수의 추론 엔진은,
텍스트로 입력되는 상기 입력 데이터에 대해 자연어 처리(natural language processing) 수행에 따른 이해를 통하여 지식 추론을 수행하는 것을 특징으로 하는,
지식 증강 시스템.
청구항 7에 있어서,
상기 관계형 데이터 베이스 시스템은,
상기 로그 파일에 대한 분석을 통하여 상기 복수의 추론 엔진에서 수행되는 프로세스를 모니터링하도록 지원하는 것을 특징으로 하는,
지식 증강 시스템.