KR20200103542A

KR20200103542A - 지식-구동 연합 빅 데이터 쿼리 및 분석 플랫폼

Info

Publication number: KR20200103542A
Application number: KR1020200020198A
Authority: KR
Inventors: 카림 셰리프 아고르; 폴 커디; 비제이 시브 쿠마; 제니 마리 와센버그 윌리엄스; 안토니 조셉 빈시케라
Original assignee: 제네럴 일렉트릭 컴퍼니
Priority date: 2019-02-22
Filing date: 2020-02-19
Publication date: 2020-09-02
Also published as: CA3072510A1; US10963518B2; EP3699772A1; CN111611304A; AU2020201170A1; US20200272664A1

Abstract

별개의 데이터 타입을 저장한 복수의 데이터 스토어에 대한 연합 쿼리를 생성 및 실행하기 위한 시스템으로서, 시스템은, 데이터 소비자로부터 쿼리 세부사항들을 수신하는 사용자 인터페이스, 데이터 스토어의 링크 및 관계에 대한 메타데이터를 포함하는 메타데이터 지식 그래프, 그래프에 액세스하고 노드그룹 스토어로부터 미리 정의된 제한가능한 쿼리를 선택하고 미리 정의된 제한가능한 쿼리에 메타데이터 링크/관계를 적용하여 서브쿼리를 어셈블하는 지식-구동 쿼리 계층, 서브쿼리를 실행을 위해 데이터 스토어 중 일부에 제공하는 쿼리 및 분석 플랫폼, 데이터 스토어로부터의 검색 결과를 수신하고 병합된 검색 결과로 집계하고 그리고/또는 머신 학습 및 인공 지능 기술을 분산형 데이터에 적용함으로써 분석 결과를 획득하는 스케일러블 분석 실행 계층을 포함하고, 사용자 인터페이스는 병합된 검색 결과 및/또는 분석 결과로부터 생성된 시각화를 제시한다. 시스템 및 비일시적 컴퓨터 판독가능 매체도 개시된다.

Description

지식-구동 연합 빅 데이터 쿼리 및 분석 플랫폼{KNOWLEDGE-DRIVEN FEDERATED BIG DATA QUERY AND ANALYTICS PLATFORM}

많은 기업 및/또는 조직(예를 들어, 상업/산업, 학술, 정부, 의료 등)에서 다수의 상이한 종류의 데이터, 예를 들어, 시계열, 특성 그래프(property graph), 스트링 테이블, 숫자 데이터, 이미지 또는 다른 큰 파일(BLOB(binary large object)로서 저장될 수 있음) 등이 사용 및 저장될 수 있다. 이들 데이터세트는 포맷 및 콘텐츠의 측면에서 매우 다양하기 때문에, 이들에 걸쳐 통합된 방식으로 쿼리하기 위한 최소한의 원칙(basis)이 존재한다. 추가적으로, 이들 데이터 타입은 로컬로 및/또는 원격으로 분산된 다수의 데이터 스토어에 있을 수 있다. 분산형 소스에 걸쳐 위치한 별개의 데이터 타입을 조사하기 위해 다수의 쿼리를 사용자가 수동으로 생성하는 종래의 접근법은 시간, 네트워크 용량 및 인프라구조에 부담이 된다. 또한 이러한 타입의 접근법은 데이터가 저장된 곳, 저장된 방법 및 데이터에 액세스하는데 필요한 특정 쿼리 언어 및 메커니즘에 대한 지식을 사용자가 갖도록 요구한다. 종래의 접근법은 이러한 상이한 데이터세트들의 콘텐츠 및 이들이 서로 관련되는 방법을 설명하는 메커니즘을 제공하지 않으며, 따라서 통합형 쿼리 접근법에 대한 원칙이 없다.

근래에 상이한 산업 분야들에서 더 많은 양의 데이터 및 더 광범위한 타입의 데이터가 생성되고 소비됨에 따라, 근본적으로 링크된 광범위한 상이한 데이터 타입 및 포맷을 분석하고 소비하는 문제가 증가하고 있다. 데이터 생성은 십여년 동안 폭발하여 데이터 양과 다양성에서의 폭발적 증가를 초래하였다.

멀티모드 데이터 통합 문제를 해결하기 종래의 접근법은 모든 상이한 타입들의 데이터를 단일 저장소(single repository) 내에 어떠한 공통 포맷으로 집어넣어서(예를 들어, 큰 데이터 웨어하우스(warehouse)로의 추출/변환/로드(ETL) 동작), 대부분 본질적으로 비관계된 많은 상이한 타입의 데이터를 취하고, 이들을 관계형 구조가 되게 강요하는 것이다. 이러한 접근법은 데이터 저장 및 쿼리 성능 둘 모두에 대해 차선책이다.

또 다른 최근 종래의 접근법은 단일의 "SQL 없음"(NoSQL) 데이터 스토어로의 상이한 타입들의 데이터 형태의 수집(collection)을 요구한다. 데이터의 포맷 또는 구조에 대해 어떠한 가정도 하지 않는다는 점에서 NoSQL 데이터 스토어는 매력적이지만, 이는 또한 데이터 저장 및 쿼리 성능 둘 모두에 대해 차선의 성능을 초래한다. NoSQL 저장소에 액세스하는 소프트웨어 및 시스템은 데이터가 데이터와 의미있게 상호작용하도록 구조화된 방법에 대한 사전 지식을 가져서, NoSQL 스토어로부터 임의의 데이터가 리트리빙(retrieved)될 때마다 그 구조를 적용해야 한다. 따라서, 이러한 종래의 접근법도 차선책이다. 먼저, 데이터는 단일 NoSQL 데이터 스토어로 재배치될 필요가 있고; 둘째, NoSQL 데이터 스토어는, 데이터 저장 풋프린트를 최소화하고 판독 성능, 기록 성능 또는 둘 모두를 최대화하기 위해 종래에 사용되는 상이한 데이터 포맷들의 구조적 속성을 무시한다. NoSQL 스토어는 임의의 이러한 최적화로부터 이익을 얻을 수 없다.

멀티모드 데이터세트를 통합하는 다른 종래의 접근법은 공통 쿼리 언어를 사용하여 다양한 데이터스토어에 걸쳐 쿼리하는 복잡한 미들웨어를 구축하는 것을 수반한다. 그러나, 이러한 미들웨어 접근법은, 사용자가 각각의 타입의 데이터의 저장 위치를 알고 필요에 따라 적절한 미들웨어 컴포넌트를 호출하는 것을 전제로 한다.

본 기술분야에서 누락되는 것은, 사용자가 기본적 데이터 타입, 위치 및 저장 메커니즘의 지식을 가질 필요성을 제거하고 또한 상이한 데이터 및 그들 사이의 관계를 기술하는 방식을 제공하는 방식으로 다수의 별개의 데이터스토어의 유연하고 논리적인 뷰를 제공하는 시스템이다.

도 1은 실시예들에 따른 3-계층 시스템을 예시한다.
도 2a 내지 도 2d는 실시예들에 따른 예시적인 데이터 제시(data presentation)를 예시한다.
도 3은 실시예들에 따른 연합 데이터 스토어에 쿼리하는 프로세스를 예시한다.
도 4는 실시예들에 따른 도 1의 3-계층 시스템을 구현하기 위한 시스템을 예시한다.

구현 시스템들 및 방법들은, 데이터가 모두 동일한 물리적 시스템 내에 저장된 것처럼 사용자들이 다양한 이종 데이터와 상호작용하기 위한 메커니즘을 제공한다. 또한, 사용자는 그러한 분석들을 호스팅하기 위해 외부 환경을 정의할 필요 없이 그 데이터에 대한 분석을 실행할 수 있다. 구현 시스템들 및 방법들은 데이터가 저장된 곳, 저장된 방법 또는 상이한 데이터 타입들에 액세스하기 위해 어떤 특정 쿼리 언어들 및 메커니즘들이 필요한지를 알아야 하는 부담을 사용자로부터 제거한다.

실시예들에 따라, 쿼리가 이루어지는 인프라구조에 관한 지식 또는 정보를 필요로 하지 않고, 데이터 및 실행 분석과 상호작용할 수 있게 하는 단일 논리 인터페이스가 사용자에게 제시된다. 실시예들은 데이터 과학자들 및 자신들의 작업들을 수행하기 위해 다양한 타입들의 데이터에 액세스해야 하는 다른 사람들에 대한 중요한 과제를 해결한다. 멀티모드 데이터-구동 애플리케이션의 개발이 간략화된다. 개발자들은 구현 인터페이스와 함께 이용가능한 API(application programming interface)들을 사용하여 잠재적으로 많은 다양한 연합 데이터 스토어에 대한 단일의 논리적 뷰를 갖는 애플리케이션을 구축할 수 있다. 이들 애플리케이션은 연합 데이터 스토어로부터 데이터를 풀링(pull)하고 그리고/또는 그에 데이터를 푸시(push)하도록 구축될 수 있다. 소프트웨어 개발자들은 멀티 모드 데이터-구동 애플리케이션을 구축할 때 다양한 데이터 저장소들 각각으로부터 데이터를 쿼리하고 리트리빙하기 위해 요구되는 기본적인 데이터 저장 계층, 쿼리 언어 및 쿼리 메커니즘을 인식할 필요가 없기 때문에 이익을 얻는다. 이러한 논리 인터페이스는 또한 하나 이상의 별개의 저장소에 데이터를 (저장을 위해) 푸시 아웃하기 위해 사용될 수 있다.

종래의 접근법들과 반대로, 구현 시스템들 및 방법들은 검색(searching) 전에 단일 저장소로의 데이터의 이동을 요구하지 않는다. 오히려, 구현 인터페이스는 사용자가 다수의 데이터 포맷 타입들을 갖는 다수의 데이터 스토어에 대한 쿼리를 생성하고 그로부터 결과를 수신하기 위해 사용자가 상호작용하는 계층이다. 단일 검색 위치로 데이터를 이동시키지 않음으로써, 구현 시스템들 및 방법들은 네트워크에 대한 과도한 트래픽 양을 회피하고 네트워크 인프라구조에 대한 부담을 감소시켜서, 네트워크 전체 성능을 개선하고, 이들 모두는 이전 시스템들 및 접근법들에 비해 개선된다. 기술적으로 및 상업적으로, 실시예들은 별개의 데이터 스토어 및 데이터 타입들을 선택 및 타겟팅하는 필수적 세부사항들을 추상화함으로써, 데이터 소비자 및 애플리케이션 개발자 양쪽 모두에 대한 시간 및 노력의 상당한 절감을 가능하게 한다.

구현 시스템들은 연합 빅 데이터 저장(federated Big Date storage)을 위한 지식-구동 쿼리 및 분석 플랫폼을 포함한다. 이러한 쿼리 및 분석 플랫폼은, 데이터가 물리적으로 위치한 곳을 데이터 소비자가 인식할 필요가 없고 별개의 데이터 포맷을 인식할 필요가 없도록, 다양한 데이터 스토어(즉, 데이터 웨어하우스, 관계형 또는 컬럼지향 데이터베이스, 지식 그래프, 시계열적 히스토리안(historian), 파일 스토어 등) 내에 위치한 다양한 타입의 데이터를 함께 링크한다.

구현 시스템들에 의한 이러한 링키지는 데이터의 쿼리를 실행하기 전에 단일 위치에 데이터를 이동시키는 종래의 필요성 없이 달성된다. 구현 시스템들 및 방법들은 필요에 따라 연합 빅 데이터 저장 환경의 하나 이상의 엘리먼트를 검색함으로써 쿼리 및 분석 플랫폼에 제출된 쿼리에 응답한다. 실시예들에 따르면, 쿼리 및 분석 플랫폼은 데이터 타입에 적합한 저장 매체들에서 많은 다양한 데이터 타입의 캡처 및 백엔드 저장을 가능하게 하고, 각각의 데이터 타입은 많은 양의 그 데이터 타입의 효율적인 저장 및 리트리빙을 위해 최적화된 저장소에 저장될 수 있다(예를 들어, 빅 데이터 관계형 데이터베이스 내의 관계형 데이터, 빅 데이터 히스토리안 내의 시계열, 빅 데이터 파일 스토어 내의 이미지 등이 캡처된다).

구현 쿼리 및 분석 플랫폼 인터페이스는 데이터 이동을 최소화하고 분석 실행 시간을 가속화하기 위해 데이터 저장 인프라구조 내에서 직접적으로 쿼리 및 분석의 실행을 가능하게 한다. 온톨로지, 시맨틱 도메인 모델 및/또는 링크된 지식 그래프 데이터 모델은 이러한 저장된 데이터세트 및 데이터 스토어를 모델링할 뿐만 아니라 데이터세트들 사이의 관계를 캡처하도록 구현될 수 있다. 논의의 목적으로, 본 문헌에서, "지식 그래프", "온톨로지(ontology)" 및 "시맨틱 모델"이라는 용어들은 쿼리 및 분석 플랫폼이 저장된 데이터세트 및 별개의 데이터세트 사이의 관계를 기술하도록 하는 모델링 메커니즘으로서 상호교환적으로 사용된다. 구현 시스템들 및 방법들은 임의의 특정 메커니즘으로 제한되는 것이 아니라 모델을 생성하기 위해 사용될 수 있는 이들 및 임의의 다른 메커니즘에 의해 구현될 수 있음을 쉽게 이해해야 한다.

실시예들에 따르면, 쿼리 및 분석 플랫폼에 대한 쿼리 제출은 다수의 타입의 데이터 소비자들 및/또는 사용자들에 의해 생성될 수 있다. 본 명세서에서 사용되는 "소비자" 및 "사용자"라는 용어들은 시뮬레이션, 분석 동작, 링크된 데이터, 다양한 역할의 개인들(예를 들어, 모델러들, 개발자들, 사업자들, 학자들, 의료 및 법률 전문가들 등)을 지칭할 수 있다.

지식 그래프는, 각각의 저장소에 저장된 데이터의 모델들, 각각의 저장소에서 그 데이터의 구조, 및 상이한 타입들의 데이터를 리트리빙하기 위해 그러한 저장소들에 액세스하는 방법의 모델들을 포함하는 데이터를 수용(house)하기 위해 사용되는 데이터 저장 시스템들에 대한 메타데이터를 캡처한다. 지식 그래프 데이터 및 메타데이터 위에 구축된 API(application program interface)는 다양한 물리적 데이터 저장 위치 또는 이들 개개의 쿼리 메타데이터/요건을 사용자가 인식할 필요 없이, 임의의 사용자 타입이 유사하게 단일 인터페이스를 통해 별개의 데이터와 끊김없이 상호작용할 수 있게 한다.

구현 시스템들 및 방법들을 구현하는 것은 기존의 빅 데이터 시스템들을 연합할 수 있다. 본 명세서에 개시된 시스템들 및 방법들은 예를 들어, 스케일러블 시맨틱 트리플 스토어, 스케일러블 관계형 데이터베이스, 스케일러블 시계열 데이터 스토어, 스케일러블 이미지 및 파일 스토어 등을 포함하는(이에 제한되는 것은 아님) 기존의 데이터 스토어를 활용할 수 있다. 구현 쿼리 및 분석 플랫폼을 구현하는 것은 일 타입의 데이터에는 효율적일 수 있지만 다른 타입에 대해서는 비효율적일 수 있는 데이터 스토어에 다수의 데이터 포맷 타입들을 집어넣는 종래의 접근법과 연관된 문제들을 회피한다.

실시예들에 따르면, 사용자(개인 또는 애널리틱(analytic))가 기본 저장소 중 하나 이상으로부터 데이터를 요청할 때 쿼리 계층에 의해 자동으로 생성되는 쿼리에 의해 별개의 데이터 스토어에 걸쳐 데이터가 리트리빙된다. 이러한 연합 데이터 스토어에 걸쳐 상주하는 데이터를 링크시키기 위해, 연합 데이터 스토어의 기본 데이터, 및 관계를 모델링하기 위한 온톨로지(시맨틱 도메인 모델)이 시맨틱 트리플 스토어(예를 들어, 지식 그래프 데이터베이스) 내에서 인스턴스화될 수 있다. 이러한 시맨틱 도메인 모델은 각각의 타입의 데이터에 액세스하기 위한 이들 개개의 요건을 포함하는 특정 저장소에 대한 메타데이터를 캡처할 수 있다. 사용자 쿼리에 응답하여, 쿼리 및 분석 플랫폼은 이러한 메타데이터를 사용하여, 수동 개입 없이 저장소별 쿼리(repository-specific query)를 프로그래밍 방식으로 구성하고 리트리빙된 데이터를 병합할 수 있다.

구현 시스템은 3개의 계층(tier)을 갖는다. 백엔드 계층은 데이터 저장소들의 연합에 걸쳐 저장된 다양한 데이터를 포함한다. 이러한 백엔드 계층은 기본 저장 효율, 액세스 성능 및 분석 실행을 위해 각각 최적화된 다수의 저장소들을 가질 수 있다. 중간 계층은 시맨틱 드래그 앤 드롭(drag-and-drop) 쿼리 생성 및 데이터 입수(data ingestion)를 제공하는 시맨틱 툴키트(예를 들어, 미국 뉴욕주 니스카유나에 소재한 GE 리서치의 Semantics Toolkit(SemTK))를 포함한다. 시맨틱 툴키트는 데이터를 수용하기 위해 사용되는 데이터 저장 시스템들의 지식 그래프 모델을 활용함으로써 시맨틱 기술 스택과의 인터페이스를 제공한다. 지식 그래프 계층은 빅 데이터 스토어 위에 상주하며 사용자 및 애널리틱이 다양한 스토어과 상호작용하도록 하는 메커니즘으로서 동작한다. 시맨틱 툴키트 API는 데이터가 지식 그래프에 저장되어 있든 또는 다른 저장소 중 하나에 저장되어 있든 데이터를 호출하고 상호작용하기 위해 사용될 수 있다.

프론트엔드 계층은 UEX(사용자 인터페이스 경험, user interface experience) 설계를 제공한다. 지식 그래프를 통해 표현된 바와 같이, 시스템에 저장된 데이터에 대한 단일 논리적 뷰가 사용자에게 제시된다. UEX는 데이터가 단일 저장소에서 캡처된 것처럼 사용자들이 대화형으로 데이터를 탐색하도록 허용하여 단일 논리 데이터 저장 시스템의 형식(veneer)을 제공할 수 있다. 플랫폼은 또한, 사용자가 지식 그래프를 사용하여 플랫폼 자체 내에서 실행되는 애널리틱에 대한 입력으로서 데이터를 특정할 수 있게 하여, 애널리틱은 연합 저장소에 걸쳐 효율적으로 데이터를 풀링해서 분석 실행시간을 최적화할 수 있다.

도 1은 실시예들에 따른 3-계층 시스템(100)을 예시한다. 프론트엔드 계층(110)은 UEX(user interface experience)(114), 스케일러블 분석 실행 계층(116), 지식-구동 쿼리 계층(118), 및 미리 정의된 제한가능한 쿼리('노드그룹'으로 지칭됨) 스토어(119)를 포함하는 쿼리 및 분석 플랫폼(112)을 포함한다. 쿼리 및 분석 플랫폼은 저장소 타입 및 위치, 데이터 포맷 및 쿼리 언어와 무관하게 사용자가 분석 데이터 요건을 특정할 수 있게 하는 단일의 공통 인터페이스의 형식을 사용자에게 제공한다. 기본 데이터의 쿼리는 사용자 요청으로부터 생성될 수 있다. 이러한 계층으로부터, 사용자는 상이한 데이터 저장소들로부터 상이한 타입들의 데이터를 노출하는 특정 분석 요건에 응답하여 지식 그래프의 콘텐츠에 액세스(예를 들어, 보고, 전송하고 그리고/또는 다운로드)할 수 있다.

UEX(114)는 사용자가 시스템에 액세스하기 위한 동적 대화형 사용자 인터페이스를 제공한다. 일부 구현들에서, UEX는 조직 내에서 사용자의 기능 및/또는 이들의 클리어런스 레벨(clearance level)에 기초하여 데이터 액세스를 제한하는 데이터 거버넌스(governance)를 포함할 수 있다.

UEX는 쿼리 결과의 상이한 시각화를 제시할 수 있다. 도 2a 내지 도 2d는 실시예들에 따른 예시적인 표현들을 예시한다. 예시의 목적으로, 도 2a 내지 도 2d는 첨가제 제조 프로세스들과 관련된 쿼리 결과를 예시한다. 그러나, 시각화는 이에 제한되지 않는다. 데이터 시각화는 각각의 도메인의 주제 및 데이터의 타입에 의존한다는 것을 쉽게 이해해야 한다.

도 2a는 산점도(200)를 표현하고; 도 2b는 등고선(210)을 표현하고; 도 2c는 3차원 플롯(220)을 표현하고; 도 2d는 매트릭스 테이블 플롯(230)을 표현한다. 다른 시각화는 시계열 플롯, 이미지, 테이블 등을 포함할 수 있다. 실시예들에 따르면, UEX(114)는 대화형 시각화를 제시한다. 예를 들어, 사용자는 시각화에서 특이(outlier) 데이터 포인트를 인식하고; 포인팅 디바이스를 사용하여 그 데이터 포인트를 선택하고; 기본 데이터를 뷰잉을 위해 제시할 수 있다. 기본 데이터는 그 데이터 포인트, 즉, 이미지, 관계형 데이터 테이블, 문서 등을 제공한 고유의 데이터 포맷으로 제시될 수 있다. 실시예들에 따르면, 사용자는 기본 데이터를 제시를 위해 풀링하기 위해 데이터 스토어 소스, 위치 또는 데이터 타입을 알 필요가 있다.

스케일러블 분석 실행 계층(116)은 데이터 마이닝(mining), 통계적 분석, 이미지 프로세싱, 머신 학습 및 인공 지능 분석을 포함하지만 이에 제한되는 것은 아닌 다양한 분석을 적절히 실행한다. 종래의 접근법들은 원격 위치로부터 단일 서버로 데이터를 퍼널링(funneling)하고 그 단일 서버에서 쿼리를 프로세싱하는 것을 요구한다. 실시예들에 따르면, 스케일러블 분석 실행 계층(116)은 쿼리를 정의하고, 쿼리를 원격 데이터 스토어 서버에서의 분산된 병렬 실행을 위해 배경 계층(130)으로 전달할 수 있다.

지식-구동 쿼리 계층(118)은 시스템(100)이 적용되고 특정 사용 사례의 도메인 특정 시맨틱 모델을 포함한다. 구현들에 따르면, 시스템(100)에 대한 사용자의 관점이 UEX(114)를 통과하고, 따라서 사용자는 단지 임의의 이러한 사용 사례들에 대한 하나의 인터페이스 모델을 제시받는다.

지식-구동 쿼리 계층은, 연합 데이터 스토어로부터 데이터를 추출할 수 있는 사용 사례-구동 도메인별 노드그룹의 라이브러리를 포함하는 노드그룹 스토어(119)와 통신한다. 노드그룹의 사용은 분석 플랫폼 UEX(및 사용자, 애널리틱, 시뮬레이션 등)를 연합 데이터 스토어로부터 분리시키는 목적을 달성할 수 있다. 각각의 노드그룹은 관심있는 링크된 데이터 서브그래프를 기술할 수 있다. 하나 이상의 노드그룹은, 전체 데이터세트의 쿼리를 생성하거나, 데이터세트의 각각의 "컬럼"에 대한 유효한(즉, 필터링된) 값들을 생성하거나, 데이터를 카운트하거나, 데이터를 입수하기 위해 사용될 수 있다. 노드그룹 스토어는 도메인 특정 노드그룹을 포함할 수 있고, 이는 하나 이상의 연합 데이터 스토어 상에서의 직접적인 데이터 리트리빙 동작들을 수행하도록 리트리빙될 수 있다. 각각의 노드그룹은 특정 데이터 서브세트를 리트리빙하고 가능하게는 함께 연결하기 위해 특별히 준비된 미리 정의된 제한가능한 쿼리이다.

노드그룹은 사용자 쿼리를 충족시키기 위해 필요한 관심있는 서브그래프를 표현한다. 이러한 서브그래프 표현은 클래스의 세트, 각각의 클래스에 대해 리턴가능한 또는 제한가능한 특성의 목록, 및 클래스를 노드그룹 내의 다른 클래스에 링크하는 특성을 포함한다. 노드그룹은 다른 정보를 또한 포함할 수 있다. 특정 노드그룹은 사용자 쿼리에 기초하여 지식-구동 쿼리 계층(118)으로부터 선택될 수 있다.

지식-구동 쿼리 계층은 시맨틱 및 비-시맨틱 데이터 사이의 분할(division)을 결정하기 위해 노드그룹을 프로세싱하기 위한 서비스 및 라이브러리를 포함할 수 있다. 실시예들에 따르면, 시맨틱 모델들은 다양한 데이터 스토어를 모델링하고, 사용자의 요청에 기초하여 데이터의 링크를 가능하게 하기 위해 사용된다.

각각의 노드그룹은 EUX(114)에 입력된 사용자의 요청에 기초하여 쿼리를 어셈블하기 위해 사용되는 미리 정의된 템플릿이다. 각각의 노드그룹은 도메인 특정 온톨로지의 상이한 부분들에 걸쳐있을 수 있다. 종래에, 이들 상이한 데이터 스토어는 단일 연합 쿼리로부터 이용가능하지 않을 것이다.

노드그룹에 포함된 정보(예를 들어, 클래스, 속성, 클래스 링크 등)로부터, 몇몇 타입의 쿼리가 생성될 수 있다. 이러한 쿼리는 전체 노드그룹을 둘러보고 연결 및 제약을 구축함으로써 구성되는 별개의 엔트리를 리트리빙하는 것을 포함할 수 있다. 제약 조항은 더 큰 쿼리에 추가로 동적으로 추가될 수 있다. 임의의 노드그룹 쿼리의 경우, 나머지 쿼리가 협소화되어 단일 변수의 값들을 리턴하도록 임의의 엘리먼트가 리턴 목록으로부터 제거될 수 있다. 이는, 특정 변수의 모든 기존 값들을 리트리빙하는 쿼리를 초래할 것이다. 실제로, 이것은 기존 데이터에 기초하여 쿼리 내의 임의의 항목에 대한 유효한 필터 값들의 목록을 생성하고, 이는 더 큰 쿼리에서 결과를 필터링하기 위해 사용될 수 있다. 데이터를 리턴하는 '선택' 쿼리에 추가로, 노드그룹은 또한 연합 스토어의 구성 데이터 스토어에 데이터를 추가하기 위해 '삽입' 쿼리를 생성하기 위해 사용될 수 있다. 노드그룹은 또한 '카운트', '구성' 및 '삭제' 쿼리를 생성하기 위해 사용될 수 있다.

노드그룹은 또한 교환가능한 아티팩트로서 사용될 수 있어, 관심있는 서브그래프가 캡처되게 하거나, 향후 사용을 위해 저장되게 하거나 또는 환경들 사이를 이동하게 할 수 있다. 온톨로지 정보의 도움으로, 노드그룹 데이터 구조는 원시 쿼리(raw query)보다 훨씬 더 효과적으로 검증, 수정 및 디스플레이될 수 있다.

노드그룹을 구축할 때, 온톨로지 내의 상이한 클래스들 사이의 연결을 발견하기 위해 경로발견 기능이 사용된다. 추가될 클래스는 경로 종점으로 간주되고, 기존의 노드그룹 내의 모든 클래스들은 잠재적인 시작 포인트들로 간주된다. 기존의 노드그룹과 쿼리에 추가할 클래스 사이의 잠재적 경로의 일부로서 개입 클래스(intervening)가 제안된다. 경로발견(pathfinding)의 특정 실시예는 성능에 대한 약간의 수정에 의해, A* 알고리즘으로 구현된다.

경로발견은 쿼리 구축(query-building)을 보조하고, 또한 데이터를 리트리빙하기 위해 외부 서비스가 호출될 필요가 있는지 그리고 어떤 외부 서비스들이 필요한지를 결정하는데 사용될 수 있다. 지식 그래프에서 다수의 엔티티들을 연결하는 쿼리를 완료하기 위해 요구되는 외부 데이터세트를 모델링하는 클래스를 식별함으로써, 이들 외부 서비스를 식별하기 위한 경로발견 기술이 적용될 수 있다. 이들 외부 서비스는 특정 데이터 스토어에 특정된 추가적인 정보(예를 들어, 호출 파라미터) 및 특정 스토어 내의 데이터 타입들을 요구할 수 있다. 경로발견은 이러한 정보가 인간의 개입 없이 요구에 따라 쿼리에 위치되고 추가되도록 허용한다.

중간 계층(120)은 데이터의 작은 서브세트에 대한 메모리 캐시로서 사용될 수 있는 메모리-내 데이터 스토어(124)를 포함할 수 있다. 메타데이터 지식 그래프(122)는 연합 데이터 스토어에 걸친 데이터의 링크 및 관계에 관한 메타데이터를 캡처한다. 예를 들어, 메타데이터 지식 그래프는 연합 데이터 스토어에 대한 정보(예를 들어, 위치, 데이터 구조(들), 쿼리 언어(들) 등)를 포함할 수 있다. 메타데이터 지식 그래프는 또한 이들의 콘텐츠에 대한 정보, 즉, 연합 데이터 스토어의 각각의 스토어로부터 이용가능한 데이터(예를 들어, 위치, 타입/포맷, 파일 크기 등)를 포함한다. 메타데이터 지식 그래프는 연합 스토어의 개별적인 데이터 스토어 구성 엘리먼트와 호환가능한 API를 사용함으로써 이러한 정보에 액세스할 수 있다.

백엔드 계층(130)은 데이터가 배치되는 물리적 데이터 스토어 하드웨어 및 관리 시스템이다. 각각의 물리적 데이터 스토어는 포함된 각각의 데이터 타입에 최적화된 스케일러블 저장소일 수 있다. 백엔드 계층은 원격 서버(들)(140) 및 로컬 서버(들)(150)를 포함할 수 있다. 로컬 및 원격 서버는 관계형 DBMS 스토어(들)(142), 이미지 및 BLOB 스토어(들)(144), 시계열 데이터 스토어(들)(146) 및 문서 저장 스토어(들)(148) 등의 일부 또는 전부를 포함할 수 있다. 사용자의 쿼리를 충족시키기 위해 필요한 특정 데이터 스토어의 위치는 쿼리 및 분석 플랫폼(112)을 통해 시스템(100)과 인터페이싱하는 사용자에게 투명하다.

연합 데이터 스토어는 정보를 캡처하는 글로벌 데이터 스토어인데, 예를 들어, 첨가제 제조에 있어서 제조자에 걸친 글로벌 지식을 캡처하기 위해, 데이터는 모든 공장, 프린터, 부품, 재료 등에 걸쳐 캡처될 수 있다. 빈번한 동기화는 데이터 및 지식이 에지 디바이스들과 연합 스토어 사이에 공유되게 하여, 에지 디바이스는 이들이 동작하기 위해 필요한 정보를 갖는 한편, 중앙 스토어는 머신 학습 및 분석에 대한 가장 관련성 높은 정보의 완전한 기록(record)을 유지하여 경년에 따른 최적화를 도출한다. 이러한 데이터 아키텍처는 데이터 및 데이터 관계를 효율적으로 그리고 확장가능하게 저장하여, 첨가제 제조 라이프 사이클 전체에서 데이터 타입에 걸쳐 액세스 및 신속한 분석을 가능하게 한다.

중간 계층(120) 및 백엔드 계층(130)은 사용 사례별 엘리먼트에 의해 제공된 데이터를 입수한다. 예를 들어, 첨가제 제조 시스템은 재료 특성, 부품 설계, 설계 시뮬레이션, 구축 및 사후 프로세스 파라미터, 부품 및 제품 검사 결과 등을 포함하는 첨가제 머신 생산 라이프 사이클에 걸쳐 다양한 데이터 소스를 가질 수 있다. 중간 계층(120) 및 백엔드 계층(130)은 사용 사례별 엘리먼트에 의해 제공된 데이터를 입수한다. 상세한 데이터는 백엔드 계층 연합 스토어에 저장되며, 중간 계층은 노드그룹(들)을 선택하기 위해 전술된 바와 같이 사용되는 메타데이터를 병합하여, 사용자의 쿼리를 생성한다.

구현 시스템들 및 방법들은, 분석을 실행하기 전에 하나 이상의 데이터 스토어로부터 그 분산된 데이터를 추출할 필요 없이, 연합 데이터 스토어에서 캡처된 대량의 데이터에 대한 분석을 실행하는 능력을 사용자(즉, 데이터 소비자)에게 제공한다. 분석을 실행하는 기존의 접근법들은 한번에 하나 이상의 데이터 스토어 모두에서 데이터를 추출하고 추출된 데이터를 프로세싱을 위해 단일 머신에 푸시하는 것이다. 그러나, 데이터 저장 용량 및 폭(breath)의 발전으로 이러한 종래의 접근법이 빅 데이터에 대해 적합하지 못하여, 추출된 데이터의 양은 단일 서버에 로딩하기에 너무 클 수 있고, 네트워크를 통해 수십 또는 수백 개의 머신들로부터 단일 머신에 전달하기에는 너무 오래 소요될 수 있다.

실시예들에 따라, 쿼리는 단일 서버 상에서 이동 및 프로세싱하기에 너무 많은 데이터의 추출을 요구할지 여부를 식별하기 위해 자동으로 분석된다. 이러한 조건이 발견되면, 실시예들은 쿼리를 다수의 더 작은 서브쿼리로 분해하고 더 작은 서브쿼리를 빅 데이터의 일부를 유지하는 분산형 서버들에 전달한다. 이어서, 이러한 분산형 머신들 각각은 다른 서브쿼리와 병렬로 자신들의 로컬 데이터에 대한 서브쿼리를 실행할 것이다. 예를 들어, 단일의 매우 중요한 쿼리에 대한 종래의 접근법이 단일 머신에서 천만개의 기록들의 응답이 추출 및 쿼리되게 할 경우, 실시예들은 연합 데이터 스토어의 분산된 위치들에서 병렬로 실행하기 위해 1,000개의 쿼리 작업들을 생성할 수 있다. 이러한 1,000개의 쿼리 작업들 각각은 10,000개의 별개의 기록들을 로컬로 프로세싱할 수 있어서, 단일 위치에 대해 전체 천만개의 기록들을 추출할 필요성을 회피한다.

쿼리 작업들의 로컬 프로세싱으로부터 생성된 결과는 결과의 집계(aggregation)를 위해 스케일러블 분석 실행 계층에 전달될 수 있다. 스케일러블 분석 실행 계층은 집계된 결과에 대한 동작을 (특정 분석 요건들에 따라) 수행할 수 있다. 따라서, 실시예들은 연합 빅 데이터에 걸쳐 지식-구동 쿼리 및 분석 능력들을 계속 전달하면서 데이터 이동 및 데이터 프로세싱 병목현상의 생성을 회피한다. 데이터 추상화에 대한 구현 접근법들은 양방향인데, 즉, 사용자는 데이터가 저장된 곳 또는 저장되는 방법에 대한 세부사항들을 알 필요가 없고; 마찬가지로 스케일러블 분석은 또한 데이터가 저장된 곳 또는 저장되는 방법에 대한 세부사항들을 알 필요가 없다.

구현 시스템들 및 방법들은 종래의 대량 데이터 분산 및 병렬 프로세싱 기술(예를 들어, Apache Hadoop® 및 Apache Spark® (Apache Software Foundation, Wakefield, MA))에 있어서 하둡(Hadoop) 또는 스파크(Spark) 코드에 연합 데이터 스토어의 지식을 직접 임베딩할 필요 없이 이들 기술을 레버리지하는데, 예를 들어, 실시예들에 따르면, 하둡 및 스파크 애널리틱은 데이터가 어디에서 오는지를 정확하게 알 필요 없이 저장소들 중 하나 이상으로부터 데이터를 추출하기 위해 자신들이 실행할 수 있는 쿼리를 공급받는다.

도 3은 실시예들에 따른 연합 데이터 스토어에 쿼리하는 프로세스(300)를 예시한다. 쿼리 및 분석 플랫폼(112)은 데이터 소비자에 의해 UEX(114)에 제공되는 쿼리 세부사항들을 수신한다(단계(305)). 하나 이상의 서브쿼리가 미리 정의된 제한가능한 쿼리의 노드그룹으로부터 어셈블되어 사용자 제공 쿼리 세부사항들을 충족시킨다(단계(310)). 메타데이터 지식 그래프(122)는 연합 스토어의 메타데이터에 기초하여 서브쿼리를 식별하기 위해 도메인 특정 시맨틱 모델을 쿼리 세부사항들에 적용할 수 있다. 이러한 서브쿼리는 연합 스토어 내의 특정 데이터 스토어에서 특정 쿼리를 수행할 수 있다.

연합 데이터 스토어 내의 기본 데이터 스토어 중 하나 이상에서 서브쿼리가 실행된다(단계(315)). 서브쿼리의 원시 데이터 결과가 집계된다(단계(320)). 구현들에 따르면, 스케일러블 분석 실행 계층(116)은 선택적으로 머신 학습 및 인공 지능 기술을 쿼리 결과에 적용할 수 있다(단계(325)). 이들 기술은 소비자의 쿼리 세부사항들에 응답하여 데이터 상관을 식별한다. 원시 데이터 또는 분석 결과의 시각화가 생성될 수 있다(단계(330)). 원시 데이터 및/또는 분석 결과의 시각화, 또는 고유 포맷(native format)의 원시 데이터 및 분석 결과(예를 들어, 관계형 데이터, 시계열 데이터, 이미지, 문서 등)가 데이터 소비자에게 제시될 수 있다(단계(335)).

도 4는 실시예들에 따른 3-계층 시스템(100)을 구현하기 위한 시스템(400)을 예시한다. 제어 프로세서(410)는 프로세서 유닛(412) 및 메모리 유닛(414)을 포함할 수 있다. 메모리 유닛은 실행가능한 명령어(418)를 저장할 수 있다. 제어 프로세서는 필요에 따라 로컬 제어/데이터 네트워크 및/또는 전자 통신 네트워크에 걸쳐 시스템(100)의 엘리먼트와 통신할 수 있다. 프로세서 유닛(412)은, 앞서 개시된 바와 같은 실시예들에 따르면 프로세서로 하여금 연합 데이터 스토어의 쿼리를 수행하게 하는 실행가능한 명령어(418)를 실행할 수 있다. 메모리 유닛(414)은 제어 프로세서에 로컬 캐시 메모리를 제공할 수 있다.

일부 실시예들에 따르면, 비휘발성 메모리 또는 컴퓨터 판독가능 매체(예를 들어, 레지스터 메모리, 프로세서 캐시, RAM, ROM, 하드 드라이브, 플래시 메모리, CD ROM, 자기 매체 등)에 저장된 컴퓨터 프로그램 애플리케이션은, 실행될 때 본 명세서에 논의된 방법들, 예를 들어, 앞서 개시된 바와 같이, 분산형 애널리틱의 서브쿼리를 생성함으로써 단일 사용자 인터페이스를 통해 제출된 사용자의 쿼리에 대한 결과를 획득하기 위해 다양한 데이터 타입을 포함하는 다수의 분산형 데이터 스토어와 관련된 방법을 제어기 또는 프로세서가 수행하게 하거나 수행하도록 명령할 수 있는 코드 또는 실행가능한 프로그램 명령어를 포함할 수 있다.

컴퓨터 판독가능 매체는 일시적인 전파되는 신호를 제외하고 모든 형태 및 타입의 메모리 및 모든 컴퓨터 판독가능 매체를 포함하는 비일시적 컴퓨터 판독가능 매체일 수 있다. 일 구현에서, 비휘발성 메모리 또는 컴퓨터 판독가능 매체는 외부 메모리일 수 있다.

본 명세서에서 특정 하드웨어 및 방법들이 설명되었지만, 본 발명의 실시예들에 따라 임의의 수의 다른 구성들이 제공될 수 있음에 유의한다. 따라서, 본 발명의 기본적인 신규한 특징이 도시되고, 설명되고, 지적되었지만, 본 발명의 사상 및 범위를 벗어나지 않고 예시된 실시예들의 형태 및 세부사항들 및 이들의 동작에서 다양한 생략, 대체 및 변경이 당업자들에 의해 이루어질 수 있음이 이해될 것이다. 일 실시예로부터 다른 실시예로의 엘리먼트의 치환이 또한 완전히 의도되고 고려된다. 본 발명은 여기에 첨부된 청구범위 및 그 인용의 균등물에 대해서만 정의된다.

Claims

별개의 데이터 타입을 저장한 복수의 데이터 스토어(142, 144, 146, 148)에 대한 연합 쿼리(federated query)를 생성 및 실행하기 위한 시스템(110)에 있어서,
대화형 사용자 인터페이스 경험 계층(114), 지식-구동 쿼리 계층(118), 스케일러블 분석 실행 계층(116), 및 미리 정의된 제한가능한 쿼리를 포함하는 노드그룹 스토어(119)를 포함하는 쿼리 및 분석 플랫폼(112)과;
메타데이터 지식 그래프(122)를 포함하는 메타데이터 지식 그래프 스토어
를 포함하고,
상기 메타데이터 지식 그래프는 상기 복수의 데이터 스토어 중 하나 이상의 데이터 스토어 내의 데이터의 링크 및 관계에 대한 메타데이터 및 상기 복수의 데이터 스토어 중 하나 이상의 데이터 스토어에 프로그래밍 방식으로 쿼리하는 방법에 대한 메타데이터를 포함하고;
상기 사용자 인터페이스 경험 계층은 데이터 소비자로부터 쿼리 세부사항들을 수신하기 위한 대화형 사용자 인터페이스를 제시하고;
상기 지식-구동 쿼리 계층은 상기 메타데이터 지식 그래프에 액세스하고 상기 노드그룹 스토어로부터 상기 미리 정의된 제한가능한 쿼리 중 하나 이상을 선택하도록 구성되고;
상기 지식-구동 쿼리 계층은 상기 선택된 미리 정의된 제한가능한 쿼리에 상기 링크 및 관계에 대한 메타데이터를 적용함으로써 하나 이상의 서브쿼리를 어셈블하도록 구성되고, 상기 서브쿼리는 상기 쿼리 세부사항을 충족하도록 구성되고;
상기 쿼리 및 분석 플랫폼은 상기 하나 이상의 서브쿼리를 상기 복수의 데이터 스토어 중 하나 이상의 데이터 스토어에서의 실행을 위해 상기 복수의 데이터 스토어 중 하나 이상의 데이터 스토어에 제공하도록 구성되고;
상기 스케일러블 분석 실행 계층은 검색 결과(search result)를 수신하고 상기 검색 결과를 병합된 검색 결과로 집계(aggregate)하도록 구성되고;
상기 스케일러블 분석 실행 계층은 상기 검색 결과에 머신 학습 및 인공 지능 기술을 적용함으로써 분석 결과를 획득하도록 구성되고, 상기 머신 학습 및 인공 지능 기술은 상기 분석 결과를 생성하고;
상기 사용자 인터페이스 경험 계층은 상기 데이터 소비자에게 시각화를 제시하도록 구성되고, 상기 시각화는 상기 병합된 검색 결과 및 상기 분석 결과 중 하나 이상으로부터 생성되는, 시스템.
제1항에 있어서,
상기 메타데이터 지식 그래프는 상기 링크 및 관계에 대한 메타데이터의 시맨틱(semantic) 모델을 포함하고, 상기 시맨틱 모델은 상기 복수의 데이터 스토어 각각에 액세스하기 위한 저장소별 정보(repository-specific information) 및 상기 복수의 데이터 스토어에 저장된 별개의 데이터 포맷 타입에 액세스하기 위한 포맷별 요건(format-specific requirement)을 갖는, 시스템.
제1항에 있어서,
각각의 노드그룹은 상기 메타데이터에 기초한 관심있는 서브그래프(subgraph)에 대한 데이터타입 요약인, 시스템.
제1항에 있어서,
상기 지식-구동 쿼리 계층은 복수의 노드그룹을 프로세싱하기 위한 서비스 및 라이브러리를 포함하는, 시스템.
제1항에 있어서,
도메인별 온톨로지(domain-specific ontology)의 일부에 대해 쿼리하도록 설계된 각각의 노드그룹 템플릿(template)을 포함하는, 시스템.
제1항에 있어서,
상기 메타데이터 지식 그래프는 도메인의 사용 사례별 엘리먼트(use case-specific element)로부터의 메타데이터를 입수(ingest)하도록 구성되는, 시스템.
별개의 데이터 타입을 저장한 복수의 데이터 스토어(142, 144, 146, 148)에 대한 연합 쿼리를 생성 및 실행하는 방법에 있어서,
데이터 소비자로부터 쿼리 세부사항들을 수신하는 단계;
상기 복수의 데이터 스토어 중 하나 이상의 데이터 스토어 내의 데이터의 링크 및 관계에 대한 메타데이터 및 상기 복수의 데이터 스토어 중 하나 이상의 데이터 스토어에 프로그래밍 방식으로 쿼리하는 방법에 대한 메타데이터를 포함하는 메타데이터 지식 그래프(122)를 제공하는 단계;
상기 메타데이터 지식 그래프에 액세스하여 노드그룹 스토어(119)로부터 미리 정의된 제한가능한 쿼리 중 하나 이상을 선택하는 단계;
상기 선택된 미리 정의된 제한가능한 쿼리에 상기 링크 및 관계에 대한 메타데이터를 적용함으로써 하나 이상의 서브쿼리를 어셈블하는 단계로서, 상기 서브쿼리는 상기 쿼리 세부사항을 충족하도록 구성되는 것인, 상기 어셈블하는 단계;
상기 하나 이상의 서브쿼리를 상기 복수의 데이터 스토어 중 하나 이상의 데이터 스토어에서의 실행을 위해 상기 복수의 데이터 스토어 중 하나 이상의 데이터 스토어에 제공하는 단계;
상기 복수의 데이터 스토어 중 하나 이상으로부터 검색 결과를 수신하는 단계;
상기 검색 결과를 병합된 검색 결과로 집계하는 단계;
분산된 검색 결과에 머신 학습 및 인공 지능 기술을 적용함으로써 분석 결과를 획득하는 단계;
상기 병합된 검색 결과 및 상기 분석 결과 중 하나 이상으로부터 시각화를 생성하는 단계; 및
상기 시각화 중 하나 이상을 상기 데이터 소비자에게 제시하는 단계
를 포함하는, 방법.
제7항에 있어서,
상기 링크 및 관계에 대한 메타데이터의 시맨틱 모델을 상기 메타데이터 지식 그래프 내에 구성하는 단계를 포함하고, 상기 시맨틱 모델은 상기 복수의 데이터 스토어 각각에 액세스하기 위한 저장소별 요건 및 상기 복수의 데이터 스토어에 저장된 별개의 데이터 포맷 타입에 액세스하기 위한 포맷별 요건을 갖는, 방법.
제7항에 있어서,
상기 메타데이터를 각각의 노드그룹의 기초로 하는 단계를 포함하고, 각각의 노드그룹은 관심있는 서브그래프에 대한 데이터타입 요약인, 방법.
제7항에 있어서,
지식-구동 쿼리 계층이 복수의 노드그룹을 프로세싱하기 위한 서비스 및 라이브러리를 포함하는, 방법.
제7항에 있어서,
도메인 특정 온톨로지의 일부에 대해 쿼리하도록 각각의 노드그룹 템플릿을 설계하는 단계를 포함하는, 방법.
제7항에 있어서,
상기 메타데이터 지식 그래프에서 도메인의 사용 사례별 엘리먼트로부터 메타데이터를 입수하는 단계를 포함하는, 방법.