KR20200103543A - 지식-구동 연합 빅 데이터 쿼리 및 분석 플랫폼 - Google Patents
지식-구동 연합 빅 데이터 쿼리 및 분석 플랫폼 Download PDFInfo
- Publication number
- KR20200103543A KR20200103543A KR1020200020199A KR20200020199A KR20200103543A KR 20200103543 A KR20200103543 A KR 20200103543A KR 1020200020199 A KR1020200020199 A KR 1020200020199A KR 20200020199 A KR20200020199 A KR 20200020199A KR 20200103543 A KR20200103543 A KR 20200103543A
- Authority
- KR
- South Korea
- Prior art keywords
- data
- query
- store
- federated
- layer
- Prior art date
Links
- 238000004458 analytical method Methods 0.000 claims abstract description 37
- 238000000034 method Methods 0.000 claims abstract description 30
- 238000012800 visualization Methods 0.000 claims abstract description 10
- 230000002452 interceptive effect Effects 0.000 claims abstract description 7
- 230000004044 response Effects 0.000 claims abstract description 7
- 238000010801 machine learning Methods 0.000 claims abstract description 6
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 5
- 238000005516 engineering process Methods 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 claims 1
- 238000013459 approach Methods 0.000 description 18
- 238000003860 storage Methods 0.000 description 12
- 238000013500 data storage Methods 0.000 description 11
- 230000007246 mechanism Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 7
- 239000000654 additive Substances 0.000 description 5
- 230000000996 additive effect Effects 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000037406 food intake Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013550 semantic technology Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24534—Query rewriting; Transformation
- G06F16/24542—Plan optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2428—Query predicate definition using graphical user interfaces, including menus and forms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2471—Distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/256—Integrating or interfacing systems involving database management systems in federated or virtual databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9038—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Library & Information Science (AREA)
- Human Computer Interaction (AREA)
- Operations Research (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
Abstract
연합 데이터 스토어(federated data store)에 쿼리하기 위한 시스템은, 하나 이상의 기본 데이터 스토어 간의 콘텐츠 및 관계를 기술하는 메타데이터 지식 그래프와, 데이터 소비자로부터 요청을 수신하는 대화형 사용자 인터페이스와, 기본 데이터 저장소 중 하나 이상에 걸쳐 관심있는 데이터 서브세트를 정의하는 미리 정의된 제한가능한 쿼리를 포함하는 미리 정의된 제한가능한 쿼리('노드그룹') 스토어와, 연합 데이터 스토어에 대해 쿼리를 생성하고 실행하며 응답 결과를 병합하는 지식 구동 쿼리 계층과, 연합 데이터 스토어로부터 검색 결과를 수신하고 머신 학습/인공 기능 기술을 적용하여 결과를 분석하는 스케일러블 분석 실행 계층, 및 소비자에게 원시 또는 분석된 결과의 시각화를 제시하는 사용자 인터페이스를 포함한다. 방법 및 비일시적 컴퓨터 판독가능 매체도 개시된다.
Description
많은 기업 및/또는 조직(예를 들어, 상업/산업, 학술, 정부, 의료 등)에서 다수의 상이한 종류의 데이터, 예를 들어, 시계열, 특성 그래프(property graph), 스트링 테이블, 숫자 데이터, 이미지 또는 다른 큰 파일(BLOB(binary large object)로서 저장될 수 있음) 등이 사용 및 저장될 수 있다. 이들 데이터세트는 포맷 및 콘텐츠의 측면에서 매우 다양하기 때문에, 이들에 걸쳐 통합된 방식으로 쿼리하기 위한 최소한의 원칙(basis)이 존재한다. 추가적으로, 이들 데이터 타입은 로컬로 및/또는 원격으로 분산된 다수의 데이터 스토어에 있을 수 있다. 분산형 소스에 걸쳐 위치한 별개의 데이터 타입을 조사하기 위해 다수의 쿼리를 사용자가 수동으로 생성하는 종래의 접근법은 시간, 네트워크 용량 및 인프라구조에 부담이 된다. 또한 이러한 타입의 접근법은 데이터가 저장된 곳, 저장된 방법 및 데이터에 액세스하는데 필요한 특정 쿼리 언어 및 메커니즘에 대한 지식을 사용자가 갖도록 요구한다. 종래의 접근법은 이러한 상이한 데이터세트들의 콘텐츠 및 이들이 서로 관련되는 방법을 설명하는 메커니즘을 제공하지 않으며, 따라서 통합형 쿼리 접근법에 대한 원칙이 없다.
근래에 상이한 산업 분야들에서 더 많은 양의 데이터 및 더 광범위한 타입의 데이터가 생성되고 소비됨에 따라, 근본적으로 링크된 광범위한 상이한 데이터 타입 및 포맷을 분석하고 소비하는 문제가 증가하고 있다. 데이터 생성은 십여년 동안 폭발하여 데이터 양과 다양성에서의 폭발적 증가를 초래하였다.
멀티모드 데이터 통합 문제를 해결하기 종래의 접근법은 모든 상이한 타입들의 데이터를 단일 저장소(single repository) 내에 어떠한 공통 포맷으로 집어넣어서(예를 들어, 큰 데이터 웨어하우스(warehouse)로의 추출/변환/로드(ETL) 동작), 대부분 본질적으로 비관계된 많은 상이한 타입의 데이터를 취하고, 이들을 관계형 구조가 되게 강요하는 것이다. 이러한 접근법은 데이터 저장 및 쿼리 성능 둘 모두에 대해 차선책이다.
또 다른 최근 종래의 접근법은 단일의 "SQL 없음"(NoSQL) 데이터 스토어로의 상이한 타입들의 데이터 형태의 수집(collection)을 요구한다. 데이터의 포맷 또는 구조에 대해 어떠한 가정도 하지 않는다는 점에서 NoSQL 데이터 스토어는 매력적이지만, 이는 또한 데이터 저장 및 쿼리 성능 둘 모두에 대해 차선의 성능을 초래한다. NoSQL 저장소에 액세스하는 소프트웨어 및 시스템은 데이터가 데이터와 의미있게 상호작용하도록 구조화된 방법에 대한 사전 지식을 가져서, NoSQL 스토어로부터 임의의 데이터가 리트리빙(retrieved)될 때마다 그 구조를 적용해야 한다. 따라서, 이러한 종래의 접근법도 차선책이다. 먼저, 데이터는 단일 NoSQL 데이터 스토어로 재배치될 필요가 있고; 둘째, NoSQL 데이터 스토어는, 데이터 저장 풋프린트를 최소화하고 판독 성능, 기록 성능 또는 둘 모두를 최대화하기 위해 종래에 사용되는 상이한 데이터 포맷들의 구조적 속성을 무시한다. NoSQL 스토어는 임의의 이러한 최적화로부터 이익을 얻을 수 없다.
멀티모드 데이터세트를 통합하는 다른 종래의 접근법은 공통 쿼리 언어를 사용하여 다양한 데이터스토어에 걸쳐 쿼리하는 복잡한 미들웨어를 구축하는 것을 수반한다. 그러나, 이러한 미들웨어 접근법은, 사용자가 각각의 타입의 데이터의 저장 위치를 알고 필요에 따라 적절한 미들웨어 컴포넌트를 호출하는 것을 전제로 한다.
본 기술분야에서 누락되는 것은, 사용자가 기본적 데이터 타입, 위치 및 저장 메커니즘의 지식을 가질 필요성을 제거하고 또한 상이한 데이터 및 그들 사이의 관계를 기술하는 방식을 제공하는 방식으로 다수의 별개의 데이터스토어의 유연하고 논리적인 뷰를 제공하는 시스템이다.
도 1은 실시예들에 따른 3-계층 시스템을 예시한다.
도 2a 내지 도 2d는 실시예들에 따른 예시적인 데이터 제시(data presentation)를 예시한다.
도 3은 실시예들에 따른 연합 데이터 스토어에 쿼리하는 프로세스를 예시한다.
도 4는 실시예들에 따른 도 1의 3-계층 시스템을 구현하기 위한 시스템을 예시한다.
도 2a 내지 도 2d는 실시예들에 따른 예시적인 데이터 제시(data presentation)를 예시한다.
도 3은 실시예들에 따른 연합 데이터 스토어에 쿼리하는 프로세스를 예시한다.
도 4는 실시예들에 따른 도 1의 3-계층 시스템을 구현하기 위한 시스템을 예시한다.
구현 시스템들 및 방법들은, 데이터가 모두 동일한 물리적 시스템 내에 저장된 것처럼 사용자들이 다양한 이종 데이터와 상호작용하기 위한 메커니즘을 제공한다. 또한, 사용자는 그러한 분석들을 호스팅하기 위해 외부 환경을 정의할 필요 없이 그 데이터에 대한 분석을 실행할 수 있다. 구현 시스템들 및 방법들은 데이터가 저장된 곳, 저장된 방법 또는 상이한 데이터 타입들에 액세스하기 위해 어떤 특정 쿼리 언어들 및 메커니즘들이 필요한지를 알아야 하는 부담을 사용자로부터 제거한다.
실시예들에 따라, 쿼리가 이루어지는 인프라구조에 관한 지식 또는 정보를 필요로 하지 않고, 데이터 및 실행 분석과 상호작용할 수 있게 하는 단일 논리 인터페이스가 사용자에게 제시된다. 실시예들은 데이터 과학자들 및 자신들의 작업들을 수행하기 위해 다양한 타입들의 데이터에 액세스해야 하는 다른 사람들에 대한 중요한 과제를 해결한다. 멀티모드 데이터-구동 애플리케이션의 개발이 간략화된다. 개발자들은 구현 인터페이스와 함께 이용가능한 API(application programming interface)들을 사용하여 잠재적으로 많은 다양한 연합 데이터 스토어에 대한 단일의 논리적 뷰를 갖는 애플리케이션을 구축할 수 있다. 이들 애플리케이션은 연합 데이터 스토어로부터 데이터를 풀링(pull)하고 그리고/또는 그에 데이터를 푸시(push)하도록 구축될 수 있다. 소프트웨어 개발자들은 멀티 모드 데이터-구동 애플리케이션을 구축할 때 다양한 데이터 저장소들 각각으로부터 데이터를 쿼리하고 리트리빙하기 위해 요구되는 기본적인 데이터 저장 계층, 쿼리 언어 및 쿼리 메커니즘을 인식할 필요가 없기 때문에 이익을 얻는다. 이러한 논리 인터페이스는 또한 하나 이상의 별개의 저장소에 데이터를 (저장을 위해) 푸시 아웃하기 위해 사용될 수 있다.
종래의 접근법들과 반대로, 구현 시스템들 및 방법들은 검색(searching) 전에 단일 저장소로의 데이터의 이동을 요구하지 않는다. 오히려, 구현 인터페이스는 사용자가 다수의 데이터 포맷 타입들을 갖는 다수의 데이터 스토어에 대한 쿼리를 생성하고 그로부터 결과를 수신하기 위해 사용자가 상호작용하는 계층이다. 단일 검색 위치로 데이터를 이동시키지 않음으로써, 구현 시스템들 및 방법들은 네트워크에 대한 과도한 트래픽 양을 회피하고 네트워크 인프라구조에 대한 부담을 감소시켜서, 네트워크 전체 성능을 개선하고, 이들 모두는 이전 시스템들 및 접근법들에 비해 개선된다. 기술적으로 및 상업적으로, 실시예들은 별개의 데이터 스토어 및 데이터 타입들을 선택 및 타겟팅하는 필수적 세부사항들을 추상화함으로써, 데이터 소비자 및 애플리케이션 개발자 양쪽 모두에 대한 시간 및 노력의 상당한 절감을 가능하게 한다.
구현 시스템들은 연합 빅 데이터 저장(federated Big Date storage)을 위한 지식-구동 쿼리 및 분석 플랫폼을 포함한다. 이러한 쿼리 및 분석 플랫폼은, 데이터가 물리적으로 위치한 곳을 데이터 소비자가 인식할 필요가 없고 별개의 데이터 포맷을 인식할 필요가 없도록, 다양한 데이터 스토어(즉, 데이터 웨어하우스, 관계형 또는 컬럼지향 데이터베이스, 지식 그래프, 시계열적 히스토리안(historian), 파일 스토어 등) 내에 위치한 다양한 타입의 데이터를 함께 링크한다.
구현 시스템들에 의한 이러한 링키지는 데이터의 쿼리를 실행하기 전에 단일 위치에 데이터를 이동시키는 종래의 필요성 없이 달성된다. 구현 시스템들 및 방법들은 필요에 따라 연합 빅 데이터 저장 환경의 하나 이상의 엘리먼트를 검색함으로써 쿼리 및 분석 플랫폼에 제출된 쿼리에 응답한다. 실시예들에 따르면, 쿼리 및 분석 플랫폼은 데이터 타입에 적합한 저장 매체들에서 많은 다양한 데이터 타입의 캡처 및 백엔드 저장을 가능하게 하고, 각각의 데이터 타입은 많은 양의 그 데이터 타입의 효율적인 저장 및 리트리빙을 위해 최적화된 저장소에 저장될 수 있다(예를 들어, 빅 데이터 관계형 데이터베이스 내의 관계형 데이터, 빅 데이터 히스토리안 내의 시계열, 빅 데이터 파일 스토어 내의 이미지 등이 캡처된다).
구현 쿼리 및 분석 플랫폼 인터페이스는 데이터 이동을 최소화하고 분석 실행 시간을 가속화하기 위해 데이터 저장 인프라구조 내에서 직접적으로 쿼리 및 분석의 실행을 가능하게 한다. 온톨로지, 시맨틱 도메인 모델 및/또는 링크된 지식 그래프 데이터 모델은 이러한 저장된 데이터세트 및 데이터 스토어를 모델링할 뿐만 아니라 데이터세트들 사이의 관계를 캡처하도록 구현될 수 있다. 논의의 목적으로, 본 문헌에서, "지식 그래프", "온톨로지(ontology)" 및 "시맨틱 모델"이라는 용어들은 쿼리 및 분석 플랫폼이 저장된 데이터세트 및 별개의 데이터세트 사이의 관계를 기술하도록 하는 모델링 메커니즘으로서 상호교환적으로 사용된다. 구현 시스템들 및 방법들은 임의의 특정 메커니즘으로 제한되는 것이 아니라 모델을 생성하기 위해 사용될 수 있는 이들 및 임의의 다른 메커니즘에 의해 구현될 수 있음을 쉽게 이해해야 한다.
실시예들에 따르면, 쿼리 및 분석 플랫폼에 대한 쿼리 제출은 다수의 타입의 데이터 소비자들 및/또는 사용자들에 의해 생성될 수 있다. 본 명세서에서 사용되는 "소비자" 및 "사용자"라는 용어들은 시뮬레이션, 분석 동작, 링크된 데이터, 다양한 역할의 개인들(예를 들어, 모델러들, 개발자들, 사업자들, 학자들, 의료 및 법률 전문가들 등)을 지칭할 수 있다.
지식 그래프는, 각각의 저장소에 저장된 데이터의 모델들, 각각의 저장소에서 그 데이터의 구조, 및 상이한 타입들의 데이터를 리트리빙하기 위해 그러한 저장소들에 액세스하는 방법의 모델들을 포함하는 데이터를 수용(house)하기 위해 사용되는 데이터 저장 시스템들에 대한 메타데이터를 캡처한다. 지식 그래프 데이터 및 메타데이터 위에 구축된 API(application program interface)는 다양한 물리적 데이터 저장 위치 또는 이들 개개의 쿼리 메타데이터/요건을 사용자가 인식할 필요 없이, 임의의 사용자 타입이 유사하게 단일 인터페이스를 통해 별개의 데이터와 끊김없이 상호작용할 수 있게 한다.
구현 시스템들 및 방법들을 구현하는 것은 기존의 빅 데이터 시스템들을 연합할 수 있다. 본 명세서에 개시된 시스템들 및 방법들은 예를 들어, 스케일러블 시맨틱 트리플 스토어, 스케일러블 관계형 데이터베이스, 스케일러블 시계열 데이터 스토어, 스케일러블 이미지 및 파일 스토어 등을 포함하는(이에 제한되는 것은 아님) 기존의 데이터 스토어를 활용할 수 있다. 구현 쿼리 및 분석 플랫폼을 구현하는 것은 일 타입의 데이터에는 효율적일 수 있지만 다른 타입에 대해서는 비효율적일 수 있는 데이터 스토어에 다수의 데이터 포맷 타입들을 집어넣는 종래의 접근법과 연관된 문제들을 회피한다.
실시예들에 따르면, 사용자(개인 또는 애널리틱(analytic))가 기본 저장소 중 하나 이상으로부터 데이터를 요청할 때 쿼리 계층에 의해 자동으로 생성되는 쿼리에 의해 별개의 데이터 스토어에 걸쳐 데이터가 리트리빙된다. 이러한 연합 데이터 스토어에 걸쳐 상주하는 데이터를 링크시키기 위해, 연합 데이터 스토어의 기본 데이터, 및 관계를 모델링하기 위한 온톨로지(시맨틱 도메인 모델)이 시맨틱 트리플 스토어(예를 들어, 지식 그래프 데이터베이스) 내에서 인스턴스화될 수 있다. 이러한 시맨틱 도메인 모델은 각각의 타입의 데이터에 액세스하기 위한 이들 개개의 요건을 포함하는 특정 저장소에 대한 메타데이터를 캡처할 수 있다. 사용자 쿼리에 응답하여, 쿼리 및 분석 플랫폼은 이러한 메타데이터를 사용하여, 수동 개입 없이 저장소별 쿼리(repository-specific query)를 프로그래밍 방식으로 구성하고 리트리빙된 데이터를 병합할 수 있다.
구현 시스템은 3개의 계층(tier)을 갖는다. 백엔드 계층은 데이터 저장소들의 연합에 걸쳐 저장된 다양한 데이터를 포함한다. 이러한 백엔드 계층은 기본 저장 효율, 액세스 성능 및 분석 실행을 위해 각각 최적화된 다수의 저장소들을 가질 수 있다. 중간 계층은 시맨틱 드래그 앤 드롭(drag-and-drop) 쿼리 생성 및 데이터 입수(data ingestion)를 제공하는 시맨틱 툴키트(예를 들어, 미국 뉴욕주 니스카유나에 소재한 GE 리서치의 Semantics Toolkit(SemTK))를 포함한다. 시맨틱 툴키트는 데이터를 수용하기 위해 사용되는 데이터 저장 시스템들의 지식 그래프 모델을 활용함으로써 시맨틱 기술 스택과의 인터페이스를 제공한다. 지식 그래프 계층은 빅 데이터 스토어 위에 상주하며 사용자 및 애널리틱이 다양한 스토어과 상호작용하도록 하는 메커니즘으로서 동작한다. 시맨틱 툴키트 API는 데이터가 지식 그래프에 저장되어 있든 또는 다른 저장소 중 하나에 저장되어 있든 데이터를 호출하고 상호작용하기 위해 사용될 수 있다.
프론트엔드 계층은 UEX(사용자 인터페이스 경험, user interface experience) 설계를 제공한다. 지식 그래프를 통해 표현된 바와 같이, 시스템에 저장된 데이터에 대한 단일 논리적 뷰가 사용자에게 제시된다. UEX는 데이터가 단일 저장소에서 캡처된 것처럼 사용자들이 대화형으로 데이터를 탐색하도록 허용하여 단일 논리 데이터 저장 시스템의 형식(veneer)을 제공할 수 있다. 플랫폼은 또한, 사용자가 지식 그래프를 사용하여 플랫폼 자체 내에서 실행되는 애널리틱에 대한 입력으로서 데이터를 특정할 수 있게 하여, 애널리틱은 연합 저장소에 걸쳐 효율적으로 데이터를 풀링해서 분석 실행시간을 최적화할 수 있다.
도 1은 실시예들에 따른 3-계층 시스템(100)을 예시한다. 프론트엔드 계층(110)은 UEX(user interface experience)(114), 스케일러블 분석 실행 계층(116), 지식-구동 쿼리 계층(118), 및 미리 정의된 제한가능한 쿼리('노드그룹'으로 지칭됨) 스토어(119)를 포함하는 쿼리 및 분석 플랫폼(112)을 포함한다. 쿼리 및 분석 플랫폼은 저장소 타입 및 위치, 데이터 포맷 및 쿼리 언어와 무관하게 사용자가 분석 데이터 요건을 특정할 수 있게 하는 단일의 공통 인터페이스의 형식을 사용자에게 제공한다. 기본 데이터의 쿼리는 사용자 요청으로부터 생성될 수 있다. 이러한 계층으로부터, 사용자는 상이한 데이터 저장소들로부터 상이한 타입들의 데이터를 노출하는 특정 분석 요건에 응답하여 지식 그래프의 콘텐츠에 액세스(예를 들어, 보고, 전송하고 그리고/또는 다운로드)할 수 있다.
UEX(114)는 사용자가 시스템에 액세스하기 위한 동적 대화형 사용자 인터페이스를 제공한다. 일부 구현들에서, UEX는 조직 내에서 사용자의 기능 및/또는 이들의 클리어런스 레벨(clearance level)에 기초하여 데이터 액세스를 제한하는 데이터 거버넌스(governance)를 포함할 수 있다.
UEX는 쿼리 결과의 상이한 시각화를 제시할 수 있다. 도 2a 내지 도 2d는 실시예들에 따른 예시적인 표현들을 예시한다. 예시의 목적으로, 도 2a 내지 도 2d는 첨가제 제조 프로세스들과 관련된 쿼리 결과를 예시한다. 그러나, 시각화는 이에 제한되지 않는다. 데이터 시각화는 각각의 도메인의 주제 및 데이터의 타입에 의존한다는 것을 쉽게 이해해야 한다.
도 2a는 산점도(200)를 표현하고; 도 2b는 등고선(210)을 표현하고; 도 2c는 3차원 플롯(220)을 표현하고; 도 2d는 매트릭스 테이블 플롯(230)을 표현한다. 다른 시각화는 시계열 플롯, 이미지, 테이블 등을 포함할 수 있다. 실시예들에 따르면, UEX(114)는 대화형 시각화를 제시한다. 예를 들어, 사용자는 시각화에서 특이(outlier) 데이터 포인트를 인식하고; 포인팅 디바이스를 사용하여 그 데이터 포인트를 선택하고; 기본 데이터를 뷰잉을 위해 제시할 수 있다. 기본 데이터는 그 데이터 포인트, 즉, 이미지, 관계형 데이터 테이블, 문서 등을 제공한 고유의 데이터 포맷으로 제시될 수 있다. 실시예들에 따르면, 사용자는 기본 데이터를 제시를 위해 풀링하기 위해 데이터 스토어 소스, 위치 또는 데이터 타입을 알 필요가 있다.
스케일러블 분석 실행 계층(116)은 데이터 마이닝(mining), 통계적 분석, 이미지 프로세싱, 머신 학습 및 인공 지능 분석을 포함하지만 이에 제한되는 것은 아닌 다양한 분석을 적절히 실행한다. 종래의 접근법들은 원격 위치로부터 단일 서버로 데이터를 퍼널링(funneling)하고 그 단일 서버에서 쿼리를 프로세싱하는 것을 요구한다. 실시예들에 따르면, 스케일러블 분석 실행 계층(116)은 쿼리를 정의하고, 쿼리를 원격 데이터 스토어 서버에서의 분산된 병렬 실행을 위해 배경 계층(130)으로 전달할 수 있다.
지식-구동 쿼리 계층(118)은 시스템(100)이 적용되고 특정 사용 사례의 도메인 특정 시맨틱 모델을 포함한다. 구현들에 따르면, 시스템(100)에 대한 사용자의 관점이 UEX(114)를 통과하고, 따라서 사용자는 단지 임의의 이러한 사용 사례들에 대한 하나의 인터페이스 모델을 제시받는다.
지식-구동 쿼리 계층은, 연합 데이터 스토어로부터 데이터를 추출할 수 있는 사용 사례-구동 도메인별 노드그룹의 라이브러리를 포함하는 노드그룹 스토어(119)와 통신한다. 노드그룹의 사용은 분석 플랫폼 UEX(및 사용자, 애널리틱, 시뮬레이션 등)를 연합 데이터 스토어로부터 분리시키는 목적을 달성할 수 있다. 각각의 노드그룹은 관심있는 링크된 데이터 서브그래프를 기술할 수 있다. 하나 이상의 노드그룹은, 전체 데이터세트의 쿼리를 생성하거나, 데이터세트의 각각의 "컬럼"에 대한 유효한(즉, 필터링된) 값들을 생성하거나, 데이터를 카운트하거나, 데이터를 입수하기 위해 사용될 수 있다. 노드그룹 스토어는 도메인 특정 노드그룹을 포함할 수 있고, 이는 하나 이상의 연합 데이터 스토어 상에서의 직접적인 데이터 리트리빙 동작들을 수행하도록 리트리빙될 수 있다. 각각의 노드그룹은 특정 데이터 서브세트를 리트리빙하고 가능하게는 함께 연결하기 위해 특별히 준비된 미리 정의된 제한가능한 쿼리이다.
노드그룹은 사용자 쿼리를 충족시키기 위해 필요한 관심있는 서브그래프를 표현한다. 이러한 서브그래프 표현은 클래스의 세트, 각각의 클래스에 대해 리턴가능한 또는 제한가능한 특성의 목록, 및 클래스를 노드그룹 내의 다른 클래스에 링크하는 특성을 포함한다. 노드그룹은 다른 정보를 또한 포함할 수 있다. 특정 노드그룹은 사용자 쿼리에 기초하여 지식-구동 쿼리 계층(118)으로부터 선택될 수 있다.
지식-구동 쿼리 계층은 시맨틱 및 비-시맨틱 데이터 사이의 분할(division)을 결정하기 위해 노드그룹을 프로세싱하기 위한 서비스 및 라이브러리를 포함할 수 있다. 실시예들에 따르면, 시맨틱 모델들은 다양한 데이터 스토어를 모델링하고, 사용자의 요청에 기초하여 데이터의 링크를 가능하게 하기 위해 사용된다.
각각의 노드그룹은 EUX(114)에 입력된 사용자의 요청에 기초하여 쿼리를 어셈블하기 위해 사용되는 미리 정의된 템플릿이다. 각각의 노드그룹은 도메인 특정 온톨로지의 상이한 부분들에 걸쳐있을 수 있다. 종래에, 이들 상이한 데이터 스토어는 단일 연합 쿼리로부터 이용가능하지 않을 것이다.
노드그룹에 포함된 정보(예를 들어, 클래스, 속성, 클래스 링크 등)로부터, 몇몇 타입의 쿼리가 생성될 수 있다. 이러한 쿼리는 전체 노드그룹을 둘러보고 연결 및 제약을 구축함으로써 구성되는 별개의 엔트리를 리트리빙하는 것을 포함할 수 있다. 제약 조항은 더 큰 쿼리에 추가로 동적으로 추가될 수 있다. 임의의 노드그룹 쿼리의 경우, 나머지 쿼리가 협소화되어 단일 변수의 값들을 리턴하도록 임의의 엘리먼트가 리턴 목록으로부터 제거될 수 있다. 이는, 특정 변수의 모든 기존 값들을 리트리빙하는 쿼리를 초래할 것이다. 실제로, 이것은 기존 데이터에 기초하여 쿼리 내의 임의의 항목에 대한 유효한 필터 값들의 목록을 생성하고, 이는 더 큰 쿼리에서 결과를 필터링하기 위해 사용될 수 있다. 데이터를 리턴하는 '선택' 쿼리에 추가로, 노드그룹은 또한 연합 스토어의 구성 데이터 스토어에 데이터를 추가하기 위해 '삽입' 쿼리를 생성하기 위해 사용될 수 있다. 노드그룹은 또한 '카운트', '구성' 및 '삭제' 쿼리를 생성하기 위해 사용될 수 있다.
노드그룹은 또한 교환가능한 아티팩트로서 사용될 수 있어, 관심있는 서브그래프가 캡처되게 하거나, 향후 사용을 위해 저장되게 하거나 또는 환경들 사이를 이동하게 할 수 있다. 온톨로지 정보의 도움으로, 노드그룹 데이터 구조는 원시 쿼리(raw query)보다 훨씬 더 효과적으로 검증, 수정 및 디스플레이될 수 있다.
노드그룹을 구축할 때, 온톨로지 내의 상이한 클래스들 사이의 연결을 발견하기 위해 경로발견 기능이 사용된다. 추가될 클래스는 경로 종점으로 간주되고, 기존의 노드그룹 내의 모든 클래스들은 잠재적인 시작 포인트들로 간주된다. 기존의 노드그룹과 쿼리에 추가할 클래스 사이의 잠재적 경로의 일부로서 개입 클래스(intervening)가 제안된다. 경로발견(pathfinding)의 특정 실시예는 성능에 대한 약간의 수정에 의해, A* 알고리즘으로 구현된다.
경로발견은 쿼리 구축(query-building)을 보조하고, 또한 데이터를 리트리빙하기 위해 외부 서비스가 호출될 필요가 있는지 그리고 어떤 외부 서비스들이 필요한지를 결정하는데 사용될 수 있다. 지식 그래프에서 다수의 엔티티들을 연결하는 쿼리를 완료하기 위해 요구되는 외부 데이터세트를 모델링하는 클래스를 식별함으로써, 이들 외부 서비스를 식별하기 위한 경로발견 기술이 적용될 수 있다. 이들 외부 서비스는 특정 데이터 스토어에 특정된 추가적인 정보(예를 들어, 호출 파라미터) 및 특정 스토어 내의 데이터 타입들을 요구할 수 있다. 경로발견은 이러한 정보가 인간의 개입 없이 요구에 따라 쿼리에 위치되고 추가되도록 허용한다.
중간 계층(120)은 데이터의 작은 서브세트에 대한 메모리 캐시로서 사용될 수 있는 메모리-내 데이터 스토어(124)를 포함할 수 있다. 메타데이터 지식 그래프(122)는 연합 데이터 스토어에 걸친 데이터의 링크 및 관계에 관한 메타데이터를 캡처한다. 예를 들어, 메타데이터 지식 그래프는 연합 데이터 스토어에 대한 정보(예를 들어, 위치, 데이터 구조(들), 쿼리 언어(들) 등)를 포함할 수 있다. 메타데이터 지식 그래프는 또한 이들의 콘텐츠에 대한 정보, 즉, 연합 데이터 스토어의 각각의 스토어로부터 이용가능한 데이터(예를 들어, 위치, 타입/포맷, 파일 크기 등)를 포함한다. 메타데이터 지식 그래프는 연합 스토어의 개별적인 데이터 스토어 구성 엘리먼트와 호환가능한 API를 사용함으로써 이러한 정보에 액세스할 수 있다.
백엔드 계층(130)은 데이터가 배치되는 물리적 데이터 스토어 하드웨어 및 관리 시스템이다. 각각의 물리적 데이터 스토어는 포함된 각각의 데이터 타입에 최적화된 스케일러블 저장소일 수 있다. 백엔드 계층은 원격 서버(들)(140) 및 로컬 서버(들)(150)를 포함할 수 있다. 로컬 및 원격 서버는 관계형 DBMS 스토어(들)(142), 이미지 및 BLOB 스토어(들)(144), 시계열 데이터 스토어(들)(146) 및 문서 저장 스토어(들)(148) 등의 일부 또는 전부를 포함할 수 있다. 사용자의 쿼리를 충족시키기 위해 필요한 특정 데이터 스토어의 위치는 쿼리 및 분석 플랫폼(112)을 통해 시스템(100)과 인터페이싱하는 사용자에게 투명하다.
연합 데이터 스토어는 정보를 캡처하는 글로벌 데이터 스토어인데, 예를 들어, 첨가제 제조에 있어서 제조자에 걸친 글로벌 지식을 캡처하기 위해, 데이터는 모든 공장, 프린터, 부품, 재료 등에 걸쳐 캡처될 수 있다. 빈번한 동기화는 데이터 및 지식이 에지 디바이스들과 연합 스토어 사이에 공유되게 하여, 에지 디바이스는 이들이 동작하기 위해 필요한 정보를 갖는 한편, 중앙 스토어는 머신 학습 및 분석에 대한 가장 관련성 높은 정보의 완전한 기록(record)을 유지하여 경년에 따른 최적화를 도출한다. 이러한 데이터 아키텍처는 데이터 및 데이터 관계를 효율적으로 그리고 확장가능하게 저장하여, 첨가제 제조 라이프 사이클 전체에서 데이터 타입에 걸쳐 액세스 및 신속한 분석을 가능하게 한다.
중간 계층(120) 및 백엔드 계층(130)은 사용 사례별 엘리먼트에 의해 제공된 데이터를 입수한다. 예를 들어, 첨가제 제조 시스템은 재료 특성, 부품 설계, 설계 시뮬레이션, 구축 및 사후 프로세스 파라미터, 부품 및 제품 검사 결과 등을 포함하는 첨가제 머신 생산 라이프 사이클에 걸쳐 다양한 데이터 소스를 가질 수 있다. 중간 계층(120) 및 백엔드 계층(130)은 사용 사례별 엘리먼트에 의해 제공된 데이터를 입수한다. 상세한 데이터는 백엔드 계층 연합 스토어에 저장되며, 중간 계층은 노드그룹(들)을 선택하기 위해 전술된 바와 같이 사용되는 메타데이터를 병합하여, 사용자의 쿼리를 생성한다.
구현 시스템들 및 방법들은, 분석을 실행하기 전에 하나 이상의 데이터 스토어로부터 그 분산된 데이터를 추출할 필요 없이, 연합 데이터 스토어에서 캡처된 대량의 데이터에 대한 분석을 실행하는 능력을 사용자(즉, 데이터 소비자)에게 제공한다. 분석을 실행하는 기존의 접근법들은 한번에 하나 이상의 데이터 스토어 모두에서 데이터를 추출하고 추출된 데이터를 프로세싱을 위해 단일 머신에 푸시하는 것이다. 그러나, 데이터 저장 용량 및 폭(breath)의 발전으로 이러한 종래의 접근법이 빅 데이터에 대해 적합하지 못하여, 추출된 데이터의 양은 단일 서버에 로딩하기에 너무 클 수 있고, 네트워크를 통해 수십 또는 수백 개의 머신들로부터 단일 머신에 전달하기에는 너무 오래 소요될 수 있다.
실시예들에 따라, 쿼리는 단일 서버 상에서 이동 및 프로세싱하기에 너무 많은 데이터의 추출을 요구할지 여부를 식별하기 위해 자동으로 분석된다. 이러한 조건이 발견되면, 실시예들은 쿼리를 다수의 더 작은 서브쿼리로 분해하고 더 작은 서브쿼리를 빅 데이터의 일부를 유지하는 분산형 서버들에 전달한다. 이어서, 이러한 분산형 머신들 각각은 다른 서브쿼리와 병렬로 자신들의 로컬 데이터에 대한 서브쿼리를 실행할 것이다. 예를 들어, 단일의 매우 중요한 쿼리에 대한 종래의 접근법이 단일 머신에서 천만개의 기록들의 응답이 추출 및 쿼리되게 할 경우, 실시예들은 연합 데이터 스토어의 분산된 위치들에서 병렬로 실행하기 위해 1,000개의 쿼리 작업들을 생성할 수 있다. 이러한 1,000개의 쿼리 작업들 각각은 10,000개의 별개의 기록들을 로컬로 프로세싱할 수 있어서, 단일 위치에 대해 전체 천만개의 기록들을 추출할 필요성을 회피한다.
쿼리 작업들의 로컬 프로세싱으로부터 생성된 결과는 결과의 집계(aggregation)를 위해 스케일러블 분석 실행 계층에 전달될 수 있다. 스케일러블 분석 실행 계층은 집계된 결과에 대한 동작을 (특정 분석 요건들에 따라) 수행할 수 있다. 따라서, 실시예들은 연합 빅 데이터에 걸쳐 지식-구동 쿼리 및 분석 능력들을 계속 전달하면서 데이터 이동 및 데이터 프로세싱 병목현상의 생성을 회피한다. 데이터 추상화에 대한 구현 접근법들은 양방향인데, 즉, 사용자는 데이터가 저장된 곳 또는 저장되는 방법에 대한 세부사항들을 알 필요가 없고; 마찬가지로 스케일러블 분석은 또한 데이터가 저장된 곳 또는 저장되는 방법에 대한 세부사항들을 알 필요가 없다.
구현 시스템들 및 방법들은 종래의 대량 데이터 분산 및 병렬 프로세싱 기술(예를 들어, Apache Hadoop® 및 Apache Spark® (Apache Software Foundation, Wakefield, MA))에 있어서 하둡(Hadoop) 또는 스파크(Spark) 코드에 연합 데이터 스토어의 지식을 직접 임베딩할 필요 없이 이들 기술을 레버리지하는데, 예를 들어, 실시예들에 따르면, 하둡 및 스파크 애널리틱은 데이터가 어디에서 오는지를 정확하게 알 필요 없이 저장소들 중 하나 이상으로부터 데이터를 추출하기 위해 자신들이 실행할 수 있는 쿼리를 공급받는다.
도 3은 실시예들에 따른 연합 데이터 스토어에 쿼리하는 프로세스(300)를 예시한다. 쿼리 및 분석 플랫폼(112)은 데이터 소비자에 의해 UEX(114)에 제공되는 쿼리 세부사항들을 수신한다(단계(305)). 하나 이상의 서브쿼리가 미리 정의된 제한가능한 쿼리의 노드그룹으로부터 어셈블되어 사용자 제공 쿼리 세부사항들을 충족시킨다(단계(310)). 메타데이터 지식 그래프(122)는 연합 스토어의 메타데이터에 기초하여 서브쿼리를 식별하기 위해 도메인 특정 시맨틱 모델을 쿼리 세부사항들에 적용할 수 있다. 이러한 서브쿼리는 연합 스토어 내의 특정 데이터 스토어에서 특정 쿼리를 수행할 수 있다.
연합 데이터 스토어 내의 기본 데이터 스토어 중 하나 이상에서 서브쿼리가 실행된다(단계(315)). 서브쿼리의 원시 데이터 결과가 집계된다(단계(320)). 구현들에 따르면, 스케일러블 분석 실행 계층(116)은 선택적으로 머신 학습 및 인공 지능 기술을 쿼리 결과에 적용할 수 있다(단계(325)). 이들 기술은 소비자의 쿼리 세부사항들에 응답하여 데이터 상관을 식별한다. 원시 데이터 또는 분석 결과의 시각화가 생성될 수 있다(단계(330)). 원시 데이터 및/또는 분석 결과의 시각화, 또는 고유 포맷(native format)의 원시 데이터 및 분석 결과(예를 들어, 관계형 데이터, 시계열 데이터, 이미지, 문서 등)가 데이터 소비자에게 제시될 수 있다(단계(335)).
도 4는 실시예들에 따른 3-계층 시스템(100)을 구현하기 위한 시스템(400)을 예시한다. 제어 프로세서(410)는 프로세서 유닛(412) 및 메모리 유닛(414)을 포함할 수 있다. 메모리 유닛은 실행가능한 명령어(418)를 저장할 수 있다. 제어 프로세서는 필요에 따라 로컬 제어/데이터 네트워크 및/또는 전자 통신 네트워크에 걸쳐 시스템(100)의 엘리먼트와 통신할 수 있다. 프로세서 유닛(412)은, 앞서 개시된 바와 같은 실시예들에 따르면 프로세서로 하여금 연합 데이터 스토어의 쿼리를 수행하게 하는 실행가능한 명령어(418)를 실행할 수 있다. 메모리 유닛(414)은 제어 프로세서에 로컬 캐시 메모리를 제공할 수 있다.
일부 실시예들에 따르면, 비휘발성 메모리 또는 컴퓨터 판독가능 매체(예를 들어, 레지스터 메모리, 프로세서 캐시, RAM, ROM, 하드 드라이브, 플래시 메모리, CD ROM, 자기 매체 등)에 저장된 컴퓨터 프로그램 애플리케이션은, 실행될 때 본 명세서에 논의된 방법들, 예를 들어, 앞서 개시된 바와 같이, 분산형 애널리틱의 서브쿼리를 생성함으로써 단일 사용자 인터페이스를 통해 제출된 사용자의 쿼리에 대한 결과를 획득하기 위해 다양한 데이터 타입을 포함하는 다수의 분산형 데이터 스토어와 관련된 방법을 제어기 또는 프로세서가 수행하게 하거나 수행하도록 명령할 수 있는 코드 또는 실행가능한 프로그램 명령어를 포함할 수 있다.
컴퓨터 판독가능 매체는 일시적인 전파되는 신호를 제외하고 모든 형태 및 타입의 메모리 및 모든 컴퓨터 판독가능 매체를 포함하는 비일시적 컴퓨터 판독가능 매체일 수 있다. 일 구현에서, 비휘발성 메모리 또는 컴퓨터 판독가능 매체는 외부 메모리일 수 있다.
본 명세서에서 특정 하드웨어 및 방법들이 설명되었지만, 본 발명의 실시예들에 따라 임의의 수의 다른 구성들이 제공될 수 있음에 유의한다. 따라서, 본 발명의 기본적인 신규한 특징이 도시되고, 설명되고, 지적되었지만, 본 발명의 사상 및 범위를 벗어나지 않고 예시된 실시예들의 형태 및 세부사항들 및 이들의 동작에서 다양한 생략, 대체 및 변경이 당업자들에 의해 이루어질 수 있음이 이해될 것이다. 일 실시예로부터 다른 실시예로의 엘리먼트의 치환이 또한 완전히 의도되고 고려된다. 본 발명은 여기에 첨부된 청구범위 및 그 인용의 균등물에 대해서만 정의된다.
Claims (7)
- 별개의 데이터 타입을 저장한 복수의 데이터 스토어(142, 144, 146, 148)에 대한 연합 쿼리(federated query)를 생성 및 실행하기 위한 시스템(110)에 있어서,
대화형 사용자 인터페이스 경험 계층(114), 지식-구동 쿼리 계층(118), 스케일러블 분석 실행 계층(116), 및 하나 이상의 미리 정의된 제한가능한 쿼리를 포함하는 미리 정의된 제한가능한 쿼리 스토어(119)를 포함하는 쿼리 및 분석 플랫폼(112);
메타데이터 지식 그래프(122)를 포함하는 메타데이터 지식 그래프 스토어를 포함하고, 상기 메타데이터 지식 그래프는 상기 복수의 데이터 스토어 중 하나 이상의 데이터 스토어 내의 데이터의 링크 및 관계에 대한 메타데이터 및 상기 복수의 데이터 스토어 중 하나 이상의 데이터 스토어에 프로그래밍 방식으로 쿼리하는 방법에 대한 메타데이터를 포함하고;
상기 사용자 인터페이스 경험 계층은 데이터 소비자로부터 쿼리 세부사항들을 수신하기 위한 대화형 사용자 인터페이스를 제시하고;
상기 지식-구동 쿼리 계층은 상기 메타데이터 지식 그래프에 액세스하고 상기 미리 정의된 제한가능한 쿼리 스토어로부터 상기 미리 정의된 제한가능한 쿼리 중 하나 이상을 선택하도록 구성되고; 상기 선택된 하나 이상의 미리 정의된 제한가능한 쿼리는 상기 복수의 데이터 스토어 중 적어도 하나의 데이터 스토어를 검색(search)하기 위한 쿼리 템플릿(template)을 제공하고;
상기 지식-구동 쿼리 계층은 상기 수신된 쿼리 세부사항들에 응답하여 검색의 실행을 위한 상기 연합 데이터 스토어에 대한 쿼리를 생성하기 위해 상기 선택된 하나 이상의 미리 정의된 제한가능한 쿼리를 사용하도록 구성되고, 상기 검색은 상기 하나 이상의 연합 데이터 스토어에서 수행되고;
상기 지식-구동 쿼리 계층은 상기 연합 데이터 스토어로부터의 응답 데이터를 사용자에게 제시될 단일 데이터 세트로 병합하도록 구성되고;
상기 스케일러블 분석 실행 계층은 상기 연합 데이터 스토어로부터 병합된 상기 검색 결과를 수신하고 상기 검색 결과에 머신 학습 및 인공 지능 기술을 적용하도록 구성되고, 상기 머신 학습 및 인공 지능 기술은 상기 쿼리 결과를 분석하기 위한 것이고;
상기 사용자 인터페이스 경험 계층은 상기 분석 결과의 시각화를 상기 데이터 소비자에 제시하도록 구성되는, 시스템. - 제1항에 있어서,
상기 쿼리 및 분석 플랫폼은 상기 데이터 분석의 하나 이상의 기본 데이터 포인트를 뷰잉하기 위한 데이터 소비자 요청을 수신하도록 구성되고;
상기 쿼리 및 분석 플랫폼은 상기 연합 데이터 스토어로부터의 리트리빙 이후 상기 하나 이상의 기본 데이터 포인트를 수신하도록 구성되고, 리트리빙된 하나 이상의 기본 데이터 포인트는 고유 포맷(native format)이고;
상기 쿼리 및 분석 플랫폼은 상기 리트리빙된 하나 이상의 데이터 포인트의 시각화를 상기 데이터 소비자에 제시하도록 구성되는 것을 포함하는, 시스템. - 제1항에 있어서,
각각의 미리 정의된 제한가능한 쿼리 템플릿은 기본 연합 데이터 스토어 중 하나 이상에 쿼리하도록 설계되는 것을 포함하는, 시스템. - 제1항에 있어서,
상기 메타데이터 지식 그래프는 도메인의 사용 사례별 엘리먼트로부터의 메타데이터를 입수하도록 구성되는 것을 포함하는, 시스템. - 제1항에 있어서,
상기 복수의 데이터 스토어 중 적어도 2개는,
별개의 데이터 스토어 타입으로서 구성되고;
별개의 데이터 포맷을 포함하고;
별개의 쿼리 언어를 요구하고;
별개의 구조로 데이터를 저장하는 것을 포함하는, 시스템. - 제1항에 있어서,
상기 사용자 인터페이스 경험 계층은 상기 데이터 소비자에게 단일 논리 데이터 시스템의 형식(veneer)을 제공하도록 구성되고, 상기 형식은 상기 복수의 데이터 스토어에 걸쳐 상기 별개의 데이터 타입의 상기 데이터 소비자의 대화형 탐색(interactive exploration)을 제공하고, 상기 대화형 탐색은 상기 연합 데이터 스토어 내의 상기 별개의 데이터 타입의 포맷 또는 위치에 대한 소비자 입력을 요구하지 않는 것을 포함하는, 시스템. - 제1항에 있어서,
상기 스케일러블 분석 실행 계층은 쿼리를 정의하고 상기 정의된 쿼리를 상기 복수의 데이터 스토어 중 하나 이상의 데이터 스토어에서의 분산형 병렬 실행을 위해 상기 연합 데이터 스토어에 전달하도록 구성되는 것을 포함하는, 시스템.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/282,643 | 2019-02-22 | ||
US16/282,643 US10997187B2 (en) | 2019-02-22 | 2019-02-22 | Knowledge-driven federated big data query and analytics platform |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20200103543A true KR20200103543A (ko) | 2020-09-02 |
Family
ID=69571792
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200020199A KR20200103543A (ko) | 2019-02-22 | 2020-02-19 | 지식-구동 연합 빅 데이터 쿼리 및 분석 플랫폼 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10997187B2 (ko) |
EP (1) | EP3699773A1 (ko) |
KR (1) | KR20200103543A (ko) |
CN (1) | CN111611266A (ko) |
AU (1) | AU2020201169A1 (ko) |
CA (1) | CA3072514C (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102671816B1 (ko) * | 2023-12-18 | 2024-06-03 | 주식회사 로그프레소 | 오브젝트 스토리지에 빅데이터를 기록하는 방법 및 그렇게 기록된 빅데이터의 조회 방법 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10997187B2 (en) * | 2019-02-22 | 2021-05-04 | General Electric Company | Knowledge-driven federated big data query and analytics platform |
US11269867B2 (en) | 2019-08-30 | 2022-03-08 | Microsoft Technology Licensing, Llc | Generating data retrieval queries using a knowledge graph |
US11379727B2 (en) * | 2019-11-25 | 2022-07-05 | Shanghai United Imaging Intelligence Co., Ltd. | Systems and methods for enhancing a distributed medical network |
US11363109B2 (en) * | 2020-03-23 | 2022-06-14 | Dell Products L.P. | Autonomous intelligent system for feature enhancement and improvement prioritization |
US11308104B2 (en) * | 2020-06-25 | 2022-04-19 | Microsoft Technology Licensing, Llc | Knowledge graph-based lineage tracking |
CN112346966B (zh) * | 2020-10-19 | 2024-01-23 | 北京航天科颐技术有限公司 | 一种专用控制器测试数据自动分析方法 |
CN114265961B (zh) * | 2022-03-03 | 2022-05-17 | 深圳市大树人工智能科技有限公司 | 操作系统式大数据驾驶舱系统 |
US20240211477A1 (en) * | 2022-12-27 | 2024-06-27 | Liveperson, Inc. | Methods and systems for implementing a unified data format for artificial intelligence systems |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6957214B2 (en) | 2000-06-23 | 2005-10-18 | The Johns Hopkins University | Architecture for distributed database information access |
CN101452456A (zh) * | 2007-11-30 | 2009-06-10 | 英业达股份有限公司 | 数据库查询系统及其方法 |
US9092802B1 (en) | 2011-08-15 | 2015-07-28 | Ramakrishna Akella | Statistical machine learning and business process models systems and methods |
US20140006338A1 (en) | 2012-06-29 | 2014-01-02 | Applied Materials, Inc. | Big data analytics system |
US9740802B2 (en) | 2013-03-15 | 2017-08-22 | Fisher-Rosemount Systems, Inc. | Data modeling studio |
US20150095303A1 (en) | 2013-09-27 | 2015-04-02 | Futurewei Technologies, Inc. | Knowledge Graph Generator Enabled by Diagonal Search |
CN104035917B (zh) | 2014-06-10 | 2017-07-07 | 复旦大学 | 一种基于语义空间映射的知识图谱管理方法和系统 |
US20160078128A1 (en) | 2014-09-12 | 2016-03-17 | General Electric Company | Systems and methods for semantically-informed querying of time series data stores |
US9760614B2 (en) | 2014-12-16 | 2017-09-12 | General Electric Company | Method and tool for browsing semantic data and creating queries using a domain/range representation |
US20160224569A1 (en) | 2015-02-03 | 2016-08-04 | General Electric Company | System and method for automatically publishing a web form from a semantic query |
CA3001304C (en) | 2015-06-05 | 2021-10-19 | C3 Iot, Inc. | Systems, methods, and devices for an enterprise internet-of-things application development platform |
CN105279286A (zh) * | 2015-11-27 | 2016-01-27 | 陕西艾特信息化工程咨询有限责任公司 | 一种交互式大数据分析查询处理方法 |
US10437868B2 (en) * | 2016-03-04 | 2019-10-08 | Microsoft Technology Licensing, Llc | Providing images for search queries |
CN106227899A (zh) * | 2016-08-31 | 2016-12-14 | 北京京航计算通讯研究所 | 一种面向物联网大数据的存储和查询方法 |
US20190005200A1 (en) * | 2017-06-28 | 2019-01-03 | General Electric Company | Methods and systems for generating a patient digital twin |
US20190005195A1 (en) * | 2017-06-28 | 2019-01-03 | General Electric Company | Methods and systems for improving care through post-operation feedback analysis |
US11314837B2 (en) * | 2017-07-24 | 2022-04-26 | Wix.Com Ltd. | Website builder with integrated search engine optimization support |
US10963800B2 (en) | 2017-07-25 | 2021-03-30 | General Electric Company | Service layer augmentation of response to semantically-informed query of arbitrary external data sources |
CN109271484A (zh) * | 2018-09-17 | 2019-01-25 | 北京工业大学 | 一种基于语义本体的档案数据智能推理方法 |
US20200117737A1 (en) * | 2018-10-16 | 2020-04-16 | LeapAnalysis Inc. | Fast heterogeneous multi-data source search and analytics |
US11126659B2 (en) * | 2018-12-24 | 2021-09-21 | Graphen, Inc. | System and method for providing a graph protocol for forming a decentralized and distributed graph database |
US10963518B2 (en) * | 2019-02-22 | 2021-03-30 | General Electric Company | Knowledge-driven federated big data query and analytics platform |
US20200272624A1 (en) * | 2019-02-22 | 2020-08-27 | General Electric Company | Knowledge-driven federated big data query and analytics platform |
US10997187B2 (en) * | 2019-02-22 | 2021-05-04 | General Electric Company | Knowledge-driven federated big data query and analytics platform |
-
2019
- 2019-02-22 US US16/282,643 patent/US10997187B2/en active Active
-
2020
- 2020-02-11 EP EP20156553.8A patent/EP3699773A1/en active Pending
- 2020-02-13 CA CA3072514A patent/CA3072514C/en active Active
- 2020-02-19 AU AU2020201169A patent/AU2020201169A1/en not_active Abandoned
- 2020-02-19 KR KR1020200020199A patent/KR20200103543A/ko unknown
- 2020-02-21 CN CN202010106183.0A patent/CN111611266A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102671816B1 (ko) * | 2023-12-18 | 2024-06-03 | 주식회사 로그프레소 | 오브젝트 스토리지에 빅데이터를 기록하는 방법 및 그렇게 기록된 빅데이터의 조회 방법 |
Also Published As
Publication number | Publication date |
---|---|
CN111611266A (zh) | 2020-09-01 |
CA3072514C (en) | 2024-06-18 |
AU2020201169A1 (en) | 2020-09-10 |
US10997187B2 (en) | 2021-05-04 |
EP3699773A1 (en) | 2020-08-26 |
US20200272623A1 (en) | 2020-08-27 |
CA3072514A1 (en) | 2020-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA3072514C (en) | Knowledge-driven federated big data query and analytics platform | |
US11797558B2 (en) | Generating data transformation workflows | |
US10963518B2 (en) | Knowledge-driven federated big data query and analytics platform | |
US10983967B2 (en) | Creation of a cumulative schema based on an inferred schema and statistics | |
Karnitis et al. | Migration of relational database to document-oriented database: structure denormalization and data transformation | |
JP6144700B2 (ja) | 半構造データのためのスケーラブルな分析プラットフォーム | |
EP3699774B1 (en) | Knowledge-driven federated big data query and analytics platform | |
Chavan et al. | Survey paper on big data | |
Stantic et al. | Opportunities in big data management and processing | |
Kalna et al. | A scalable business intelligence decision-making system in the era of big data | |
US20240232201A1 (en) | Systems and methods for executing queries on tensor datasets | |
US20180060404A1 (en) | Schema abstraction in data ecosystems | |
Ravichandran | Big Data processing with Hadoop: a review | |
Paneva-Marinova et al. | Intelligent Data Curation in Virtual Museum for Ancient History and Civilization | |
Gašpar et al. | Integrating Two Worlds: Relational and NoSQL | |
Aljarallah | Comparative study of database modeling approaches | |
Miranda | FROM DATA BASE TO BIG DATA MANAGEMENT |