KR20200129132A

KR20200129132A - 데이터 이활용에 관한 데이터 준비 방법 및 데이터 이활용 시스템

Info

Publication number: KR20200129132A
Application number: KR1020207028562A
Authority: KR
Inventors: 히데노리 야마모토; 겐지 가와사키; 다케시 한다; 다카시 츠노
Original assignee: 가부시끼가이샤 히다치 세이사꾸쇼
Priority date: 2018-04-16
Filing date: 2019-02-20
Publication date: 2020-11-17
Also published as: US20210117886A1; WO2019202839A1; KR102432126B1; JP2019185582A; JP7015725B2

Abstract

데이터 축적 및 데이터 준비, 데이터 이활용에 관한 기능을 제공하는 시스템에서, 복수의 업무 시스템으로부터의 다종다양 데이터를 이용한 다양한 목적에서의 데이터 이활용을 용이하게 행할 수 있도록, 데이터 이활용을 행하는 유저용으로, 이활용의 목적에 대해서, 적절한 데이터 준비 내용의 제안을 행하고, 상기 시스템용으로, 다양한 유저의 다양한 목적에 대해서 준비해야 할, 중요도가 높은 데이터 준비 내용을 구비시키기 위해서, (1) 유저가 지정하는 이활용 목적과 시스템에서 준비하는 데이터 정보의 대조를 행하고, 당해 이활용 목적을 위하여 실시해야 할 데이터 준비 내용 항목 및 난이도를 산출하여 제시한다. (2) 상기 이활용 목적에 대한 데이터 준비 내용 항목을 집계하고, 유사한 데이터 준비 내용을 카테고리화하고, 당해 카테고리의 중요도를 산출하여 제시한다. (3) 상기 데이터 준비 내용 카테고리에 대해서, 데이터 준비 내용 항목에 해당하는 처리 프로그램, 데이터 정의 등의 리스트를 작성하고, 각 항목의 유용도를 산출하여 제시한다.

Description

데이터 이활용에 관한 데이터 준비 방법 및 데이터 이활용 시스템

본 발명은, 데이터 이활용(利活用)에 관한 데이터 준비 방법 및 데이터 이활용 시스템에 관한 것이다.

더 상세하게는, 예를 들면, 복수의 업무 시스템으로부터의 데이터를 대상으로 한 다양한 목적·용도로 이활용하는 데이터를 준비 및 관리하는 데이터 이활용에 관한 데이터 준비 방법 및 이활용 시스템에 관한 것이다.

데이터 분석 시스템으로서, 일본 특개2010-277534호 공보(특허문헌 1)에 기재된 기술이 제안되어 있다. 이 공보에는, 「분석자에게 있어서 유익한 지식의 발견을 위하여, 데이터 분석을 행함과 함께, 데이터 분석에 필요한 데이터의 수집과 데이터의 전처리를 행하는 데이터 분석 시스템에 있어서, 당해 데이터의 수집과 당해 데이터의 전처리를 행하는 데이터 수집 장치와, 당해 데이터 수집 장치에서 전처리된 당해 데이터를 송신하는 데이터 송신부를 구비한 데이터 수집측의 장치와, 당해 데이터 송신부로부터 송신된 당해 전처리된 데이터를 수신하는 데이터 수신부와, 당해 데이터 수신부에서 수신된 당해 전처리된 데이터를 데이터 분석하는 데이터 분석 장치를 구비한 데이터 분석측의 장치로 구성된 것을 특징으로 하는 데이터 분석 시스템」이라는 기재가 있다.

또한, 데이터 처리 시스템으로서, 일본 특개2016-181150(특허문헌 2)호 공보에 기재된 기술이 제안되어 있다. 이 공보에는, 「입력된 데이터를 처리해서 분석용의 데이터를 생성하는 데이터 처리 시스템으로서, 데이터베이스를 저장하는 기억부와, 상기 데이터베이스에 저장되는 데이터를 처리하는 처리부와, 분석용의 데이터를 생성하기 위하여 필요한 조건을 설정하는 설정부를 갖고, 상기 데이터베이스는, 입력된 모든 입력 데이터를 저장하는 데이터 웨어하우스와, 상기 처리부에 의해서 상기 입력 데이터를 통합해서 통합 데이터를 생성한 후, 상기 통합 데이터를 저장하는 통합 레이어와, 상기 처리부에 의해서 상기 통합 데이터를, 불가산 항목의 하나 이상의 조합마다, 적어도 가산 항목의 수량 또는 불가산 항목의 수를 집계해서 복수의 집계 데이터를 생성한 후, 상기 복수의 집계 데이터를 저장하는 집계 레이어와, 상기 처리부에 의해서, 상기 설정부에서 설정된 조건에 의거하여, 상기 복수의 집계 데이터로부터 하나의 집계 데이터를 선택하고, 또한 당해 하나의 집계 데이터로부터 분석 데이터를 추출한 후, 상기 분석 데이터를 저장하는 분석 레이어를 갖는 것을 특징으로 하는, 데이터 처리 시스템」이라는 기재가 있다.

일본 특개2010-277534호 공보 일본 특개2016-181150호 공보

복수의 업무 시스템으로부터 수집한 데이터를 축적·관리하고, 분석한 데이터를 이활용하는 어플리케이션에 대해서 제공할 경우, 예를 들면, 교통, 전력, 산업, 그 외 분야의 업무에 있어서의 다양한 문제를 해결하기 위해서는, 부서나 업무를 넘어서 횡단적으로 업무 데이터를 대량으로 수집하고, 그들의 분석 실시가 요구된다. 그러나, 현상황은, 대량의 업무 데이터의 이해가 필요한 것이나 업무 지식에 의거하는 속인성이 높은 것 등이 분석 실시의 지장으로 되고 있다.

그래서, 업무 데이터의 분석·가공의 지식이나 업무 지식이 충분히 없는 사람이어도, 신속하며 또한 용이하게 분석할 수 있고, 또한, 각종 업무 데이터에 대한 분석 처리의 작성 및 실시에 따른 부하를 저감하는 것이 요구된다.

특허문헌 1에 개시된 발명은, 분석 목적에 해당하는 분석 처리와 전처리의 프로그램 대응표를 사전에 작성하고, 당해 프로그램 대응표를 참조하여, 분석 목적에 해당하는 전처리 프로그램을 데이터 수집 장치에 배포하고, 개개의 생데이터(raw data)용으로 목적에 합치한 전처리를 실시하는 것이고, 당해 기술에서는, 사전에 분석 목적과 대상 생데이터를 모두 알아내고, 분석 처리와 전처리의 대응표를 작성하는 것이 필요하고, 특정 종류의 데이터에 대해서, 상정된 범위 내의 목적만으로의 활용이 된다. 즉, 복수의 시스템으로부터의 다종다양한 데이터를 대상으로 하면, 전처리나 분석과의 대응표의 작성에 부하가 증대하는 과제가 있다.

또한, 특허문헌 2에 개시된 발명은, 입력된 전체 데이터를 결합해서 결합 데이터를 생성하고, 또한, 다양한 항목으로 집계 데이터를 생성하고, 이들 결합 데이터 및 집계 데이터로부터 필요한 데이터를 추출하고, 목적에 따른 분석 데이터를 작성하는 것이고, 당해 기술에서는, 활용 가능한 것은 통합 데이터의 작성 가능한 데이터에 한정된다. 복수의 업무 시스템으로부터의 다종다양한 데이터에 대해서는 일정하게 통합 데이터를 작성할 수 있다고는 할 수 없다. 또한, 통합 데이터, 집계 데이터로부터 목적에 맞는 분석 데이터를 작성하기 위해서는, 원래의 데이터를 모두 이해하고 있는 것이 필요하게 된다. 즉, 복수의 시스템으로부터의 다종다양한 데이터에 대해서 일정하게 통합 데이터를 작성할 수 있다고는 할 수 없는 과제가 있다.

이상과 같이, 종래, 업무상의 과제 해결이나 이상 원인 구명 등의 목적으로 데이터 이활용을 촉진하기 위하여, 업무 시스템으로부터의 데이터의 축적 및 데이터 준비, 데이터 이활용에 관한 기능 등을 제공하는 데이터 이활용 시스템이 도입되어 있지만, 유저의 다종다양한 이활용의 목적에 응하기 위해서는, 상술한 특허문헌 1 또는 특허문헌 2에 개시된 기술과 같이, 사전에 상정된 한정된 범위 내에서만의 유효 활용 가능한 기능의 제공으로 되거나, 범용적으로 사용할 수 있는 표준적인 기능의 제공으로만 한정된다. 이 때문에, 다종다양한 이활용의 목적을 달성하기 위해서는, 데이터 준비, 데이터 이활용에 관한 작업에 있어서 유저 자신에 따른 부담이 커질 수 있는 것 등의 과제가 있었다.

그래서, 본 발명에서는, 상술한 과제를 감안하여, 데이터 축적 및 데이터 준비, 데이터 이활용에 관한 기능을 제공하는 시스템에 있어서, 복수의 업무 시스템으로부터의 다종다양한 이활용 목적에서의 데이터 이활용을 용이하게 행할 수 있는 기술을 목적으로 한다.

예를 들면, 업무 과제 해결이나 이상 원인 구명 등에 대해서, 데이터 분석이나 그 과제 해결 입안, 과제 해결을 위한 업무 어플리케이션의 작성 등에 대응할 수 있고, 다종다양한 데이터를 이용해서, 다양한 목적에서의 데이터 이활용을 행하는 유저에 대해서, 적절한 중요도가 높은 데이터 준비 내용(데이터 준비 항목)을 용이하게 제안할 수 있는 기술을 목적으로 한다.

구체적으로는, 예를 들면, 데이터를 이활용하는 유저(분석자나 개발자)용에 대해서, 이활용의 목적에 대한 적절한 데이터 준비 내용(테이블화, 테이블 결합·데이터 추출, 데이터 구조화, 데이터 가공의 작업 항목: 데이터 준비 항목)을 제안하고, 본 시스템을 관리하는 유저(관리자)용에 대해서, 다양한 유저의 다양한 목적에 대한 데이터 준비 내용(준비해야 할, 중요도가 높은 데이터 준비 내용)을 제시하는, 데이터 이활용에 관한 데이터 준비 방법 및 데이터 이활용 시스템을 제공하는 것을 목적으로 한다.

상기 과제를 해결하기 위하여, 본 발명의 대표적인 데이터 이활용에 관한 데이터 준비 방법 및 시스템의 하나는, 데이터를 이활용하는 유저가 지정하는 이활용 목적과 데이터 준비, 데이터 이활용 기능을 갖는 시스템에서 준비하는 데이터 준비 내용 항목을 포함하는 정보를 대조하고, 당해 이활용 목적을 위하여 실시해야 할 데이터 준비 내용 항목 및 난이도를 산출하고, 데이터를 이활용하는 유저에게 제시하는 기능과, 상기 이활용 목적에 대한 데이터 준비 내용 항목을 집계하고, 유사한 데이터 준비 내용을 카테고리화하고, 당해 카테고리화한 카테고리의 중요도를 산출하고, 상기 시스템을 관리하는 유저에게 제시하는 기능과, 상기 데이터 준비 내용의 카테고리에 대해서, 상기 데이터 준비 내용 항목에 해당하는 처리 프로그램, 데이터 관계 정의를 포함하는 리스트를 작성하고, 상기 데이터 준비 내용 항목의 유용도를 산출하고, 데이터를 이활용하는 유저에 대해서 제시하는 기능을 포함한다.

본 발명에 따르면, 복수의 업무 시스템으로부터의 다종다양한 데이터를 이용한, 분석을 비롯한 데이터 이활용의 실시에 요하는 비용을 저감할 수 있다. 특히, 복수의 유저용에의 데이터 이활용 시스템을 구축할 경우에, 데이터 이활용을 위한 데이터 준비에 관한 보다 유용한 기능·서비스의 제공에 기여할 수 있다.

상기한 것 이외의 과제, 구성 및 효과는, 이하의 실시형태의 설명에 의해 명백하게 된다.

도 1은 본 발명의 데이터 이활용에 관한 데이터 준비 방법을 적용한 시스템의 구성을 나타내는 블록도.
도 2는 본 발명에 따른 데이터 이활용에 관한 데이터 준비 방법을 실시하는 경우에 있어서의 유스케이스를 나타내는 도면.
도 3은 본 발명에 따른 데이터 이활용에 관한 데이터 준비의 전제를 설명하는 도면.
도 4는 본 발명에 있어서의 데이터 이활용 기반 서버의 모듈 구성을 나타내는 도면.
도 5a는 본 발명에 따른 데이터 이활용에 관한 데이터 준비 방법으로, 유저가 작성하는 이활용 목적, 데이터 이활용 기반 서버에서 준비하는 데이터 정보의 구성을 나타내는 도면으로서, 이활용 목적의 일례를 나타내는 도면.
도 5b는 데이터 카탈로그의 일례를 나타내는 도면.
도 5c는 처리 프로그램 리스트의 일례를 나타내는 도면.
도 5d는 데이터 관계 정보의 일례를 나타내는 도면.
도 6a는 본 발명에 있어서의 데이터 이활용 기반 서버에서 관리하는, 데이터 이활용에 관한 데이터 준비 방법을 실시하기 위하여 사용하는 테이블의 구성을 나타내는 도면으로서, 데이터 준비 내용 제안 관리 테이블의 데이터 구성을 나타내는 도면.
도 6b는 데이터 준비 내용 카테고리 관리 테이블의 데이터 구성을 나타내는 도면.
도 6c는 유용 데이터 준비 내용 항목 관리 테이블의 데이터 구성을 나타내는 도면.
도 7은 본 발명에 있어서의 데이터 이활용에 관한 데이터 준비 방법을 적용한 경우에 있어서의 데이터 이활용 시스템에서, 유저가 작성하는 이활용 목적과 시스템에서 준비하는 데이터 정보의 대조를 행하고, 실시해야 할 데이터 준비 내용 및 난이도를 산출하기 위한 처리의 흐름을 나타내는 플로차트.
도 8은 본 발명에 있어서의 데이터 이활용에 관한 데이터 준비 방법을 적용한 경우에 있어서의 데이터 이활용 시스템에서, 데이터 준비 제안 실적으로부터 데이터 준비 내용의 각 항목에서의 유사도를 판정하고, 유사한 데이터 준비 내용을 카테고리화하기 위한 처리의 흐름을 나타내는 플로차트.
도 9는 본 발명에 있어서의 데이터 준비 내용의 카테고리에 대해서 중요도를 산출하기 위한 처리의 흐름을 나타내는 플로차트.
도 10은 본 발명에 있어서의 유저에 의한 데이터 준비 내용 항목의 등록의 결과, 데이터 준비 내용 항목에 해당하는 처리 프로그램, 데이터 정의 등의 리스트를 작성하기 위한 처리의 흐름을 나타내는 플로차트.
도 11은 본 발명의 적용처인 유저 단말을 이용하는 유저에 대해서 제공하는 화면의 이미지를 나타내는 도면.

이하, 본 발명의 실시형태에 대하여 도면을 이용해서 설명한다.

(실시예 1)

도 1은, 본 발명의 데이터 이활용에 관한 데이터 준비 방법을 적용한 시스템의 구성을 나타내는 블록도이다.

데이터 이활용에 관한 데이터 준비 방법을 적용한 시스템은, 데이터 이활용 시스템을 구축하는 데이터 이활용 기반 서버(101), 관리자 단말(102), 복수의 유저 단말(103∼105), 복수의 업무 시스템(105∼107)을 구비하고 있다. 본 예에서는, 유저 단말, 업무 시스템이 각각 3개인 경우를 나타내고 있지만, 그 수에 제한은 없다.

데이터 이활용 기반 서버(101)는, 네트워크(108)를 통해서 관리자 단말(102)과 복수의 유저 단말(103∼104)에 접속되고, 또한, 네트워크(109)를 통해서 복수의 업무 시스템(106∼108)에 상호 접속되어 있다.

본 예에서는, 업무 시스템(106∼108)으로부터 데이터 이활용 기반 서버(101)에 이활용의 대상으로 되는 업무 데이터(생데이터)를, 네트워크(109)를 통해서 수집하고 있지만, 네트워크(109)를 통하지 않고, 예를 들면, 업무 데이터(생데이터)를 사람의 손으로 데이터 이활용 기반 서버(101)에 직접 입력하도록 해도 된다.

또한, 유저란, 현장 데이터의 지식이 부족하고, IT 리터러시가 높은 분석자, 개발자나 시스템 관리자 등을 상정한다.

분석자란, 부서 횡단으로 다양한 데이터에 대해서, 다양한 분석 방법이나 분석 툴을 이용해서, 문제 발견, 해결책 입안 등을 행하는 자이다.

개발자란, 분석 업무에 필요한 분석 어플리케이션을 개발하는 자이다. 시스템 관리자란, 데이터 이활용 시스템을 관리, 운용하고, 업무 시스템으로부터의 생데이터의 축적·가공 등의 처리 로직 프로그램의 등록, 관리를 행하는 자이다.

그리고, 데이터 이활용 기반 서버(101)는, 업무 데이터(생데이터)로서, 이활용의 대상으로 되는 데이터를 축적하고, 이활용에 적합한 당해 데이터에 대한 준비 처리의 실행, 데이터 준비 및 이활용에 관한 데이터 관계 정의를 위한 데이터 관계 정보, 처리 프로그램 등의 관리 및 데이터 이활용을 행하는 유저(분석자나 개발자)와 당해 데이터 이활용 시스템(본 시스템)에 있어서의 데이터 이활용 기반 서버(101)를 관리하는 유저(시스템 관리자)에의 데이터 준비 내용이나 유사 카테고리, 중요도, 유용도 등에 관한 제안을 행하는 기능을 갖는다.

이활용에 적합한 당해 데이터에 대한 준비 처리의 실행이란, 예를 들면, 적어도, 요구 데이터 항목, 입력 데이터 구조를 포함하는 이활용 목적과 데이터 카탈로그, 데이터 관계 정보를 포함하는 본 시스템에서 준비하는 데이터 정보를 대조하고, 그들의 갭 평가를 행하고, 생데이터로부터 대상 데이터(데이터/파일/시스템)를 선출하고, 대상 데이터의 실시해야 할 데이터 준비(대상 데이터, 테이블화, 데이터 결합·추출, 데이터 구조화, 데이터 가공)의 데이터 준비 내용 항목(작업 항목) 및 난이도를 산출하고, 데이터 준비의 제안(아웃풋)을 행하는 것이다.

여기에서, 난이도란, 유저에게 있어서 작업에 요하는 부하의 크기이다. 난이도가 낮은 경우는, 처리 프로그램의 재이용 등에 의해, 작업 부하가 작은 것이 예상된다.

즉, 데이터 이활용 기반 서버(101)는, 데이터를 이활용하는 유저가 지정하는 이활용 목적과 본 시스템에서 준비하는 데이터 준비 내용 항목을 포함하는 데이터 정보를 대조하는 기능, 당해 이활용 목적을 위하여 실시해야 할 데이터 준비 내용 항목 및 난이도를 산출하고, 이활용하는 유저에게 제시하는 기능, 이활용 목적에 대한 데이터 준비 내용 항목을 집계하고, 유사한 데이터 준비 내용을 카테고리화하는 기능, 당해 카테고리화한 카테고리의 중요도를 산출하고, 본 시스템을 관리하는 유저에게 제시하는 기능, 데이터 준비 내용의 카테고리에 대해서, 데이터 준비 내용 항목에 해당하는 처리 프로그램, 데이터 관계 정의를 포함하는 리스트를 작성하고, 데이터 준비 내용 항목의 유용도를 산출하고, 이활용하는 유저에 대해서 제시하는 기능을 갖는다.

데이터 준비 내용 항목을 집계하고, 유사한 데이터 준비 내용을 카테고리화하고, 카테고리의 중요도를 산출하고, 제시하는 것이란, 예를 들면, 데이터 준비의 제안 실적 및/또는 실시 결과를 집계하고, 데이터 준비 내용의 중요도(우선적으로 처리 로직 프로그램을 준비해야 할 항목)를 유저에게 제시하는 것이다.

더 상세하게는, (1) 상술한 이활용 목적에 대한 데이터 준비 내용을 유저에게 제안할 때에 데이터 준비 내용의 난이도를 산출하고, (2) 난이도의 산출 결과를 데이터 준비 제안 실적으로서 기록하고, 당해 데이터 준비 제안 실적으로부터 데이터 준비 내용의 각 항목에서의 유사도를 판정하고, 유사한 데이터 준비 내용을 카테고리화, 관련된 이활용 목적을 리스트업하고, 또한, (3) 데이터 준비 내용의 그룹마다 평균 난이도나 총수, 그들을 기초로 해서 중요도(이활용에 필요한 정도)를 산출하고, 데이터 준비 내용, 이활용 목적(후보), 평균 난이도, 총수, 중요도 등을 포함하는 표(도 11 참조)를 작성하는 것이다. 표는 이활용 목적에 대한 제안이 실시될 때마다 갱신된다.

관리자 단말(102)은, 데이터 이활용 시스템 및 데이터 이활용 시스템에 있어서의 데이터 이활용 기반 서버(101)를 관리하는 관리자의 유저가 사용하기 위한 단말이다.

유저 단말(103∼105)은, 유저가 이활용 목적을 나타내는 정보(도 5a의 501 참조)의 등록, 데이터 준비 내용의 확인 및 데이터 준비에 따른 작업을 실시하는 분석자나 개발자의 유저(데이터를 이활용하는 유저)가 사용하는 단말이다.

업무 시스템(106∼108)은, 이활용의 대상으로 되는 데이터의 제공원이고, 분석에 의한 문제 해결의 대상으로 되는 업무 시스템이다.

데이터 이활용 기반 서버(101)의 주된 하드웨어 구성은, 기억 장치(메모리, 하드디스크)(111), 처리 장치(CPU)(112), 통신 장치(113)로 이루어진다.

관리자 단말(102) 및 유저 단말(103∼105)도 데이터 이활용 기반 서버(101)와 마찬가지로, 주된 하드웨어 구성은, 기억 장치(메모리, 하드디스크)(121, 131), 처리 장치(CPU)(122, 132), 통신 장치(123, 133)로 이루어진다.

도 2는, 본 발명에 따른 데이터 이활용에 관한 데이터 준비 방법을 실시하는 경우에 있어서의 유스케이스를 나타내는 도면으로서, 데이터 이활용 기반 서버(101), 업무 시스템(106), 관리자 단말(102)측의 시스템 관리자(201), 유저 단말(103∼105)측의 분석자(202∼204)와의 사이에 있어서의 처리 수순을 설명하는 도면이다.

이하, 도 2에 있어서는, 분석자(202∼204)를 분석자 A∼C로 칭해서 설명한다.

도 2의 시퀀스에 의거하는 동작은 이하와 같다.

업무 시스템(106)은, 업무 데이터를 데이터 이활용 기반 서버(101)의 기억 장치(111)에 등록한다(스텝 211).

데이터 이활용 기반 서버(101)는, 처리 장치(112)에서, 업무 시스템(106)으로부터의 업무 데이터를 받고, 당해 업무 시스템의 업무 데이터에 관한 데이터 카탈로그를 작성한다(스텝 221).

데이터 카탈로그는, 시스템, 즉, 데이터 항목(리스트)을 포함하는 파일을 구비한 시스템을 기술한 것이고, 상세하게는, 예를 들면, 도 5b에 나타내는 바와 같으며, 후술한다.

분석자 A는, 유저 단말(103)을 이용해서, 실시하는 분석 등의 데이터 이활용에 관해서, 이활용 목적을 본 시스템측의 데이터 이활용 기반 서버(101)의 기억 장치(111)에 등록한다(스텝 241).

이활용 목적은, 요구 데이터 항목, 입력 데이터 구조를 포함하고, 상세하게는, 예를 들면, 도 5a에 나타내는 바와 같으며, 후술한다.

데이터 이활용 기반 서버(101)는, 처리 장치(112)에서, 데이터 준비 처리를 실행하고, 그 결과를, 통신 장치(113)를 통해서, 분석자 A에게 제안한다. 즉, 분석자 A에 의해서 등록된 이활용 목적에 대한 데이터 준비 내용의 데이터 준비 내용 항목을 분석자 A에게 제안한다(스텝 222).

분석자 A는, 데이터 이활용 기반 서버(101)로부터 제안된 데이터 준비 내용 항목을 참조해서, 이활용 목적에 맞는 데이터 이활용 처리를 실시하기 위한 전처리로서 데이터 준비 작업을 실시한다(스텝 242). 전처리의 데이터 준비 작업에 대해서는, 도 3을 참조해서 후술한다.

또한, 분석자 A는, 데이터 준비 작업을 실시하고(스텝 242), 그 결과를 활용해서 데이터 이활용 처리를 실시한다(스텝 243).

여기에서, 데이터 준비 작업 실시(스텝 242) 및 이활용 실시(스텝 243)는, 데이터 이활용 기반 서버(101)에 제공하는 기능 등을 활용해서 실시할 수도 있다.

데이터 이활용 기반 서버(101)에서는, 처리 장치(112)에서, 이활용 목적에 대한 데이터 준비 내용 항목 제안(스텝 222)의 실적을 집계하고, 데이터 준비 내용 항목의 카테고리화와 중요도 산출을 행한다(스텝 223).

다음으로, 데이터 이활용 기반 서버(101)는, 통신 장치(113)를 통해서, 데이터 준비 내용 항목의 카테고리 및 중요도를, 시스템 관리자(201) 및 다른 분석자 B에 대해서 제시한다(스텝 224).

이에 의해, 시스템 관리자(201) 및 분석자 B는, 관리자 단말(102) 및 유저 단말(104)을 이용해서, 데이터 이활용 기반 서버(101)로부터의 데이터 준비 내용의 카테고리·중요도를 열람할 수 있다(스텝 231, 251).

이때, 시스템 관리자(201) 및 분석자 B는, 데이터 준비 내용 항목의 카테고리에 해당하는 관련된 처리 프로그램, 데이터 관계 정보 등이 있으면, 본 시스템측의 데이터 이활용 기반 서버(101)의 기억 장치(111)에 등록한다(스텝 232, 252). 처리 프로그램, 데이터 관계 정보에 대해서는 도 5c, 도 5d를 참조해서 후술한다.

이는 데이터 이활용 기반 서버(101)가 제공하는 데이터 이활용을 위한 기능·서비스를 확충하기 위하여 실시하기 때문이다.

다음으로, 데이터 이활용 기반 서버(101)는, 시스템 관리자(201), 분석자 B로부터의 처리 프로그램, 데이터 관계 정보 등의 등록을 받으면, 이들을 다른 유저(분석자 C)에게도 이용 가능하게 되도록 공개한다(스텝 225).

분석자 C는, 분석자 A와 마찬가지로, 유저 단말(105)을 이용해서, 실시하는 분석 등의 데이터 이활용에 관해서, 이활용 목적을 데이터 이활용 기반 서버(101)의 기억 장치(111)에 등록한다(스텝 261).

또한, 데이터 이활용 기반 서버(101)는, 통신 장치(113)를 통해서, 분석자 C에 대해서, 이활용 목적에 대한 데이터 준비 내용 항목의 제안을 행한다(스텝 226).

이때, 시스템측에 등록된 처리 프로그램, 데이터 관계 정보 등을 이용함으로써, 보다 정밀도가 높은 제안을 실시할 수 있다.

분석자 C는, 스텝 225에서, 데이터 이활용 기반 서버(101)로부터 제안된 관련된 처리 프로그램, 데이터 관계 정보(데이터 관계 정의) 등의 등록을 반영한 후의 데이터 준비 내용 항목 제안을 참조해서, 이활용 목적에 맞는 데이터 이활용 처리를 실시하기 위한 전처리로서의 데이터 준비 작업을 실시한다(스텝 262).

또한, 분석자 C는, 데이터 준비 작업 실시(스텝 262)의 결과를 활용해서 데이터 이활용 처리를 실시한다(스텝 263).

도 3은, 본 발명에 따른 데이터 이활용에 관한 데이터 준비의 전제를 설명하는 도면이다.

업무 시스템(106)으로부터 수집한 업무 데이터(생데이터)에는, 분석 툴 등에서 자주 이용되는 CSV(Comma Separated Values) 등의 표 형식 데이터뿐만 아니라, BIN(바이너리), TXT(텍스트), IMG(이미지), PDF(Portable Document Format) 등의 다양한 형식의 데이터가 포함되는 경우가 많다.

그 때문에, 업무 시스템(106)으로부터의 업무 데이터(생데이터)에 대해서, 각종 툴의 활용이나 어플리케이션 개발·활용에 의해 분석 등의 데이터 이활용을 실시하기 위해서는, 대부분의 경우, 생데이터를 그대로 활용할 수 없어, 데이터 준비를 실시할 필요가 있다.

그래서, 데이터 준비로서, 데이터 이활용 시스템에 있어서의 데이터 이활용을 위하여 활용하는 분석 툴(321)에서, 생데이터에 대해서, 테이블화(301), 데이터 결합·추출(302), 데이터 구조화(303), 데이터 가공(클렌징)(304)의 각 처리를 순서대로 실시한다. 그리고, 분석 어플리케이션(322), 업무 어플리케이션(323)에서 이용 가능한 데이터 구조·형식으로 한다.

즉, 테이블화(301)의 처리로서는, 생데이터의 개개의 데이터 내용을 참조, 취급하기 쉽도록 원래의 바이너리 형식 데이터 등으로부터 CSV 등의 테이블 형식 데이터의 개별 테이블(311)로 변환한다.

데이터 결합·추출(302)의 처리로서는, 이활용을 위하여 툴, 어플리케이션 등에서 활용하는 데이터를 추출하기 위하여, 생데이터로부터 변환한 개별 테이블(31)을 몇 가지 결합해서, 당해 활용 데이터가 포함되는 결합 테이블(312)을 작성한다.

데이터 구조화(303)의 처리로서는, 결합 테이블(312)로부터, 데이터 이활용을 위하여 활용하는 분석 툴(321), 분석 어플리케이션(322), 업무 어플리케이션(323)이 이용 가능한 구조화 데이터(313)로 변환한다.

본 예에서는, 목적에 따라서 각종 분석 툴이나 어플리케이션에서 일반적으로 이용되는 관계 모델 테이블 형식, 크로스 집계 등에 이용되는 피벗 테이블 형식, 또한 각 어플리케이션용의 공통 데이터 모델 형식 등으로 변환한다.

데이터 가공(304)의 처리로서는, 구조화 데이터(313)로부터, 데이터 이활용을 위하여 활용하는 분석 툴(321), 분석 어플리케이션(322), 업무 어플리케이션(323)의 어플리케이션 개별 입력 데이터 구조(314)로 되도록, 데이터값의 가공을 행한다.

여기에서는, 예를 들면, 단위 변환이나, 오차 보정, 네임 소팅 등의 데이터 클렌징 처리를 행한다.

이상과 같이, 처리된 데이터 준비는, 데이터 준비 테이블(도 4 참조)에 저장한다.

도 4는, 본 발명에 있어서의 데이터 이활용 기반 서버(101)의 모듈 구성을 나타내는 도면이다.

데이터 이활용 기반 서버(101)는, 데이터 이활용 미들웨어(401)로 구성된다.

데이터 이활용 미들웨어(401)는, 업무 시스템(106∼108)으로부터 제공되고, 이활용의 대상으로 되는 생데이터를 생데이터 기억부(411)에 축적하고, 이활용에 적합한 데이터에 대한 준비 처리를 실행하는 기능, 데이터 준비 및 이활용에 관한 데이터 관계 정보, 처리 프로그램 기억부(603)의 처리 프로그램 등의 관리 및 데이터 이활용을 행하는 유저나 시스템 관리자에의 데이터 준비 내용에 관한 제안 등의 처리를 실행하는 기능을 갖는다.

데이터 이활용 미들웨어(401)는, 데이터 준비 처리 실행 관리부(421), 이활용 처리 실행 관리부(422), 데이터 관리부(431), 처리 프로그램 관리부(432), 유저·업무 관리부(433), 데이터 준비 내용 제안부(434), 데이터 준비 내용 제안 집계부(435), 데이터 준비 내용 등록 집계부(436), 클라이언트용 I/F 제공부(437), 데이터 통신부(438) 등을 포함한다.

또한, 업무 시스템(106∼108)으로부터의 생데이터를 기억하는 생데이터 기억부(411), 데이터 이활용 시스템측에서 준비하는 데이터 카탈로그(502)(도 5b 참조)를 기억하는 데이터 카탈로그 기억부(602), 처리 프로그램 리스트(503)(도 5c 참조)를 기억하는 처리 프로그램 기억부(603), 데이터 관계 정보(504)(도 5d 참조)를 기억하는 데이터 관계 정의 기억부(604), 데이터 준비에 관계되는 데이터(도 6a∼c 참조)를 기억하는 데이터 준비 테이블 기억부(444) 등을 포함한다.

생데이터로서는, 업무 시스템으로부터의 업무 시스템 데이터 외에 센서 데이터, 오픈 데이터도 포함한다.

데이터 준비 처리 실행 관리부(421)는, 기억 장치(111)의 생데이터 기억부(411)에 축적한 생데이터, 처리 프로그램 리스트 기억부(603)에 등록한 처리 프로그램 리스트 등을 이용해서, 데이터 이활용 기반 서버(101) 상에서 데이터 준비 처리의 실행과 관리를 행한다.

즉, 데이터 준비 처리 실행 관리부(421)는, 복수의 업무 시스템(106∼108)으로부터의 다종다양한 데이터를 이용해서 다양한 목적에서의 데이터 이활용을 가능하게 하는 데이터 준비로서,

데이터 이활용을 행하는 유저의 이활용 목적의 요구 데이터 항목이나 입력 데이터 구조와 데이터 이활용 시스템측에서 준비하는 데이터 정보(예를 들면, 생데이터의 데이터 카탈로그, 데이터 관계 정보 등)를 대조하고,

실시해야 할 데이터 준비 내용(작업 항목) 및 그 난이도를 산출하고,

데이터 준비 내용 제안 관리 테이블(도 6a의 6011 참조)을 관리하는 기능을 갖는다.

데이터 준비란, 대상 업무·시스템에 관한 지식이 충분히 없는 자여도, 신속하며 또한 용이하게 데이터 이활용할 수 있으며, 예를 들면, 데이터 이활용을 행하는 유저에 있어서, 각종 툴, 어플리케이션에서의 이용(분석 실시), 업무 어플리케이션 작성 등의 다양한 목적·용도에 따른 데이터 이활용을 가능하게 하기 위하여 필요한 데이터를 준비하는 것이다.

또한, 데이터 준비 내용이란, 예를 들면, 생데이터의 테이블화, 테이블화한 개별 테이블을 위한 데이터 결합·추출, 구조화 데이터를 위한 데이터 구조화, 어플리케이션 개별 입력 구조화를 위한 데이터 가공(클렌징) 등이다.

테이블화란, 예를 들면, 바이너리-CSV 변환, CSV 테이블 형식 변환 등이고, 데이터 결합·추출이란, 관계 데이터(선로 마스터 등), 결합 키(주행 킬로미터, 시각 등)이고, 데이터 구조화란, 관계 모델 테이블화, 통합 데이터 모델 변환 등이고, 데이터 가공이란, 단위 변환, 네임 소팅 등이다.

상술한 데이터 준비 처리의 수순에 대해서는, 도 7을 참조해서 후술한다.

이활용 처리 실행 관리부(422)는, 데이터 이활용 기반 서버(101) 상에서 이활용 처리의 실행과 관리를 행하는 것으로서, 데이터 준비의 제안 실적 및 유저에 의한 실시 결과를 집계하고, 데이터 준비 내용의 중요도를 산출한다. 중요도는, 데이터 준비 내용의 카테고리마다 행한다.

즉, 이활용 처리 실행 관리부(422)는, 데이터 준비 처리 실행 관리부(421)에서 산출한 데이터 준비 내용의 각 항목에서의 유사도를 판정하고, 유사한 데이터 준비 내용을 카테고리화하고, 관련된 이활용 목적(후보)을 리스트업하고,

데이터 준비 내용의 그룹마다의 평균 난이도나 총수를 기초로 해서 중요도, 즉, 이활용에 필요한 정도를 산출하고,

데이터 준비 내용 카테고리 테이블(도 6b의 6021 참조)을 관리하는 기능을 갖는다.

이활용 목적(후보)은, 예를 들면, 유저 종별(분석자, 개발자 등), 어플리케이션 로직(인과 관계 산출, 선그래프 출력 등)이다. 총수는, 데이터 준비 내용 제안 집계부(435)나 데이터 준비 내용 등록 집계부(436)에서 구해진 데이터 준비 내용의 그룹마다의 총수이다.

상술한 중요도를 산출하는 이활용 처리의 수순에 대해서는, 도 8∼도 9를 참조해서 후술한다.

또한, 이활용 처리 실행 관리부(422)는, 유저에 의해 데이터 준비 내용 항목을 등록한 결과, 데이터 준비 내용 항목에 해당하는 처리 프로그램, 데이터 정의 등의 리스트를 작성하고, 데이터 정의의 유용도를 산출하는 기능을 갖는다.

즉, 유저에 의해 처리 프로그램, 데이터 정의에 해당하는 데이터 준비 내용을 검색하고, 데이터 준비 내용 카테고리의 중요도를 참조하여, 처리 프로그램, 데이터 정의의 유용도를 산출하고, 또한, 유용도를 갱신하고, 유용 데이터 준비 내용 제안 관리 테이블(도 6c의 6031 참조)을 관리하는 기능을 갖는다.

상술한 유용도를 산출하는 이활용 처리의 수순에 대해서는, 도 10을 참조해서 후술한다.

데이터 관리부(431)는, 생데이터 및 데이터 카탈로그, 데이터 관계 정보를 생데이터 기억부(411) 및 데이터 카탈로그 기억부(602), 데이터 관계 정의 기억부(604)에 저장하는 관리를 행한다.

처리 프로그램 관리부(432)는, 처리 프로그램 기억부(603)의 처리 프로그램 리스트를 관리하고, 유저에 의한 처리 프로그램, 데이터 관계 정의 등의 등록을 접수한다.

유저·업무 관리부(433)는, 본 데이터 이활용 미들웨어(401)에 액세스해서 이활용을 행하는 유저(시스템 관리자나 분석자, 개발자) 및 업무를 관리한다.

데이터 준비 내용 제안부(434)는, 유저의 이활용 목적에 대해서, 데이터 카탈로그, 데이터 관계 정보, 처리 프로그램 리스트 및 데이터 준비 테이블을 참조해서 데이터 준비 내용(데이터 준비 내용 항목)의 제안 처리를 행한다.

즉, 데이터 준비 내용 제안부(434)는, 데이터 준비 처리 실행 관리부(421)나 이활용 처리 실행 관리부(422)에서 구한 데이터 준비 내용이나 중요도, 유용도 등을 유저에게 제안하는 것으로서, 예를 들면, 데이터 이활용을 행하는 분석자나 개발자에 대해서, 데이터 준비의 작업 항목, 방법 등을 제안하고, 시스템 관리자에 대해서, 다양한 유저의 다양한 목적에 대해서 준비해야 할 데이터 준비의 중요도, 필연성이 높은 준비 내용의 조합을 제안하는 기능을 갖는다.

데이터 준비 내용 제안 집계부(435)는, 데이터 준비 테이블을 참조해서, 데이터 준비 내용 제안 실적의 집계 및 데이터 준비 내용의 카테고리화를 행한다.

데이터 준비 내용 등록 집계부(436)는, 데이터 준비 내용의 카테고리에 대한 유저에 의한 처리 프로그램, 데이터 관계 정의 등의 등록을 집계한다.

클라이언트용 I/F 제공부(437)는, 데이터 준비 내용 등록 집계부(436), 관리자 단말(102), 유저 단말(103∼105)에 대해서 본 데이터 이활용 미들웨어(401)가 제공하는 기능의 인터페이스를 제공한다.

데이터 통신부(438)는, 네트워크(109, 109')를 통해서 관리자 단말(102), 유저 단말(103∼105)이나 업무 시스템(106∼108)과의 사이에서 데이터 준비 내용 항목 제안 등의 데이터 통신을 행한다.

도 5는, 본 발명에 따른 데이터 이활용에 관한 데이터 준비 방법에서, 유저가 작성하는 이활용 목적(501), 데이터 이활용 시스템에 있어서의 데이터 이활용 기반 서버(101)에서 준비하는 데이터 카탈로그(502), 처리 프로그램 리스트(503) 및 데이터 관계 정보(504)의 구성을 나타내는 도면으로서, 도 5a는, 이활용 목적(501)의 일례를 나타내는 도면, 도 5b는, 데이터 카탈로그(502)의 일례를 나타내는 도면, 도 5c는, 처리 프로그램 리스트(503)의 일례를 나타내는 도면, 도 5d는, 데이터 관계 정보(504)의 일례를 나타내는 도면이다.

데이터 카탈로그(502), 데이터 관계 정보(504), 처리 프로그램 리스트(503)는, 도 4에 나타내는 각 데이터 카탈로그 기억부(602), 데이터 관계 정의 기억부(604), 처리 프로그램 기억부(603)에 저장된다.

여기에서, 이활용 목적(501) 및 데이터 카탈로그(502)는, 본 발명에 따른 데이터 이활용에 관한 데이터 준비 방법을 실시하는데 있어서 필수이다.

한편, 처리 프로그램 리스트(503) 및 데이터 관계 정보(504)는, 임의로 한다.

즉, 처리 프로그램 리스트(503) 및 데이터 관계 정보(504)는, 없어도, 본 발명에 따른 데이터 이활용에 관한 데이터 준비 방법은 실시 가능하지만, 있으면, 본 발명에 따른 데이터 이활용에 관한 데이터 준비 방법에 있어서의 데이터 준비 내용 제안 등의 정밀도가 보다 향상된다.

이활용 목적(501)은, 유저가 업무 시스템(106)으로부터의 데이터를 이용해서 데이터 이활용을 실시할 때의 목적에 관한 정보를 기술하는 것이고, 유저가 실시하는 데이터 이활용마다 작성한다.

이활용 목적(501)은, 예를 들면, 「요구 데이터 항목」, 「입력 데이터 구조」, 「어플리케이션 로직」, 「KPI」이다. 「요구 데이터 항목」, 「입력 데이터 구조」는, 필수이고, 「어플리케이션 로직」, 「KPI」는, 임의이다.

「요구 데이터 항목」은, 본 이활용을 위하여 활용하는 분석 툴(321), 분석 어플리케이션(322), 업무 어플리케이션(323)에서 요구하는 데이터의 종별·항목, 데이터 범위(시각 등)를 나타낸다.

「입력 데이터 구조」는, 본 이활용을 위하여 활용하는 분석 툴(321), 분석 어플리케이션(322), 업무 어플리케이션(323)에서 요구하는 입력 데이터의 구조를 나타낸다. 예를 들면, 관계 모델 테이블(CSV), 피벗 테이블, 각종 공통 데이터 모델 등의 어느 하나를 지정한다.

「어플리케이션 로직」은, 본 이활용을 위하여 활용하는 분석 어플리케이션(322), 업무 어플리케이션(323)에서 이용하는 분석 등의 로직의 종별, 업무 종별 등을 지정하는 것이다.

「KPI」는, 본 이활용의 목적으로서 달성하고 싶은 KPI를 지정하는 것이다.

데이터 카탈로그(502)는, 업무 시스템(106)으로부터의 생데이터에 관한 정보를 기술하는 것이고, 데이터마다 제공원의 시스템, 파일 구성이 포함되는 데이터 항목 리스트, 작성 시각, 파일 형식 등의 정보(카탈로그 정보)를 포함한다.

데이터 카탈로그(502)는, 데이터 이활용 기반 서버(101)에서 업무 시스템(106)으로부터의 데이터가 등록될 때마다 작성, 갱신된다.

처리 프로그램 리스트(503)는, 데이터 이활용 기반 서버(101)에서 관리하는, 데이터 준비의 각 처리(도 3의 스텝 301∼304)를 위하여 이용 가능한 처리 프로그램의 리스트이다.

데이터 이활용 기반 서버(101)에 당해 프로그램이 존재하는 경우에 기재한다.

데이터 관계 정보(504)는, 업무 시스템(106)으로부터의 데이터에 관해서, 사양서적 데이터 항목 관계의 조합, 업무적 데이터 항목 관계의 조합, 업무적 레코드 관계의 조합, 업무 노하우적 관계의 조합 등을 기술하는 것이다. 데이터 관계 정보(504)는, 작성하는 부하는 크지만, 당해 정보가 있으면 데이터 준비 내용 제안의 정밀도가 보다 향상된다.

도 6은, 본 발명에 있어서의 데이터 이활용 기반 서버(101)의 기억 장치(111)에서 관리하는, 데이터 이활용에 관한 데이터 준비 방법을 실시하기 위하여 사용하는 테이블의 데이터 구성을 나타내는 도면으로서, 도 6a는, 데이터 준비 내용 제안 관리 테이블(601)의 데이터 구성, 도 6b는, 데이터 준비 내용 카테고리 관리 테이블(602)의 데이터 구성, 도 6c는, 유용 데이터 준비 내용 항목 관리 테이블(603)의 데이터 구성을 나타내는 테이블도이다.

데이터 준비 내용 제안 관리 테이블(6011)은, 유저가 지정하는 이활용 목적에 대한 데이터 준비 내용 제안에 관한 정보를 저장한다. 주로, 식별 정보(611), 대상 데이터(612), 테이블화(613), 데이터 결합·추출(614), 데이터 구조화(615), 데이터 가공(616), 난이도(617), 유저 종별(618), 어플리케이션 로직(619), KPI(610), 갱신 일시(641) 등의 정보를 나타내는 각 항목을 포함한다.

식별 정보(611)는, 데이터 준비 내용 제안을 식별하기 위한 정보이다. 대상 데이터(612)는, 식별 정보(611)에 의해 특정되는 데이터 준비 내용 제안에 있어서의 대상 데이터(612)에 관한 정보이다.

테이블화(613)는, 식별 정보(611)에 의해 특정되는 데이터 준비 내용 제안에 있어서의 테이블화에 관한 정보이다.

데이터 결합·추출(614)은, 식별 정보(611)에 의해 특정되는 데이터 준비 내용 제안에 있어서의 데이터 결합·추출에 관한 정보이다.

데이터 구조화(615)는, 식별 정보(611)에 의해 특정되는 데이터 준비 내용 제안에 있어서의 데이터 구조화에 관한 정보이다.

데이터 가공(616)은, 식별 정보(611)에 의해 특정되는 데이터 준비 내용 제안에 있어서의 데이터 가공에 관한 정보이다.

난이도(617)는, 식별 정보(611)에 의해 특정되는 데이터 준비 내용 제안에 있어서의 난이도에 관한 정보이다.

유저 종별(618)은, 식별 정보(611)에 의해 특정되는 데이터 준비 내용 제안의 대상인 유저의 종별에 관한 정보이다.

어플리케이션 로직(619)은, 식별 정보(611)에 의해 특정되는 데이터 준비 내용 제안의 대상인 유저의 이활용 목적으로부터 어플리케이션 로직에 관한 정보로서, 이활용 목적에 어플리케이션 로직에 관한 정보가 포함되어 있지 않은 경우에는, 본 항목은 비어 있게 된다.

KPI(610)는, 식별 정보(611)에 의해 특정되는 데이터 준비 내용 제안의 대상인 유저의 이활용 목적으로부터 KPI에 관한 정보로서, 이활용 목적에 KPI에 관한 정보가 포함되어 있지 않을 경우에는, 본 항목은 비어 있게 된다. 갱신 일시(641)는, 레코드가 마지막으로 갱신된 일시이다.

데이터 준비 내용 카테고리 관리 테이블(6021)은, 데이터 준비 내용 카테고리에 관한 정보를 저장한다. 주로, 식별 정보(621), 대상 데이터(622), 테이블화(623), 데이터 결합·추출(624), 데이터 구조화(625), 데이터 가공(626), 유저 종별(627), 어플리케이션 로직(628), KPI(629), 평균 난이도(620), 총수(642), 중요도(643), 갱신 일시(644) 등을 나타내는 각 정보를 나타내는 각 항목을 포함한다.

식별 정보(621)는, 데이터 준비 내용 카테고리를 식별하기 위한 정보이다.

대상 데이터(622)는, 식별 정보(621)에 의해 특정되는 데이터 준비 내용 카테고리에 있어서의 대상 데이터에 관한 정보이다.

테이블화(623)는, 식별 정보(621)에 의해 특정되는 데이터 준비 내용 카테고리에 있어서의 테이블화에 관한 정보이다.

데이터 결합·추출(624)은, 식별 정보(621)에 의해 특정되는 데이터 준비 내용 카테고리에 있어서의 데이터 결합·추출에 관한 정보이다.

데이터 구조화(625)는, 식별 정보(621)에 의해 특정되는 데이터 준비 내용 카테고리에 있어서의 데이터 구조화에 관한 정보이다.

데이터 가공(626)은, 식별 정보(621)에 의해 특정되는 데이터 준비 내용 카테고리에 있어서의 데이터 가공에 관한 정보이다.

유저 종별(627)은, 식별 정보(621)에 의해 특정되는 데이터 준비 내용 카테고리에 있어서의 유저 종별에 관한 정보이다.

어플리케이션 로직(628)은, 식별 정보(621)에 의해 특정되는 데이터 준비 내용 카테고리의 기초가 되는 데이터 준비 내용 제안에 관련된 이활용 목적으로부터 추출한 어플리케이션 로직에 관한 정보이다. 데이터 준비 내용 카테고리에 관련된 어플리케이션 로직은 복수 있을 수 있고, 복수의 레코드가 저장될 수 있다.

KPI(629)는, 식별 정보(621)에 의해 특정되는 데이터 준비 내용 카테고리의 기초가 되는 데이터 준비 내용 제안에 관련된 이활용 목적으로부터 추출한 KPI에 관한 정보이다. 데이터 준비 내용 카테고리에 관련된 KPI는 복수 있을 수 있고, 복수의 레코드가 저장될 수 있다.

평균 난이도(620)는, 식별 정보(621)에 의해 특정되는 데이터 준비 내용 카테고리에 있어서의 평균 난이도에 관한 정보이다.

총수(642)는, 식별 정보(621)에 의해 특정되는 데이터 준비 내용 카테고리에 있어서의 총수에 관한 정보이다.

중요도(643)는, 식별 정보(621)에 의해 특정되는 데이터 준비 내용 카테고리에 있어서의 중요도에 관한 정보이다.

갱신 일시(644)는, 각 레코드가 마지막으로 갱신된 일시이다.

유용 데이터 준비 내용 항목 관리 테이블(6031)은, 데이터 준비 내용 카테고리에 대한 유용한 데이터 준비 내용 항목에 관한 정보를 저장한다. 주로, 식별 정보(631), 처리 프로그램/데이터 정의 식별 정보(632), 분류(633), 관련 데이터 준비 내용(634), 유용도(635), 갱신 일시(636) 등의 각 정보를 나타내는 각 항목을 포함한다.

식별 정보(631)는, 데이터 준비 내용 항목을 식별하기 위한 정보이다. 처리 프로그램/데이터 정의 식별 정보(632)는, 식별 정보(631)에 의해 특정되는 데이터 준비 내용 항목에 있어서의 처리 프로그램 또는 데이터 정의를 식별하는 정보이다. 분류(633)는, 식별 정보(631)에 의해 특정되는 데이터 준비 내용 항목에 있어서의 분류에 관한 정보이다.

본 예에서는, 분류(633)에, 「테이블화」, 「데이터 결합·추출」, 「데이터 구조화」, 「데이터 가공」의 어느 하나가 저장된다. 관련 데이터 준비 내용(634)은, 식별 정보(631)에 의해 특정되는 데이터 준비 내용 항목에 관련된 데이터 준비 내용 제안을 식별하는 정보이다. 유용도(635)는, 식별 정보(631)에 의해 특정되는 데이터 준비 내용 항목의 유용도에 관한 정보이다. 갱신 일시(636)는, 각 레코드가 마지막으로 갱신된 일시이다.

도 7은, 본 발명에 따른 데이터 이활용에 관한 데이터 준비 방법을 적용한 경우에 있어서의 데이터 이활용 시스템에 있어서의 데이터 이활용 기반 서버(101)(처리 장치(112))에서, 유저가 작성하는 이활용 목적(501)과 본 시스템에서 준비하는 데이터 정보(함(含)데이터 카탈로그(502))의 대조를 행하고, 실시해야 할 데이터 준비의 작업 항목 및 난이도를 산출하기 위한 처리의 흐름을 나타내는 플로차트이다.

도 7의 플로차트에 의거하는 동작은 이하와 같다.

스텝 701:

데이터 이활용 기반 서버(101)는, 유저가 작성한 이활용 목적(501)의 요구 데이터 항목과 데이터 이활용 기반 서버(101)에서 준비한 데이터 카탈로그(502)의 파일의 데이터 항목의 대조를 행한다. 요구 데이터 항목은, 본 예에서는, 도 5a에 나타내는 바와 같이 요구하는 데이터의 종별·항목, 범위(시각 등)이다.

스텝 702:

데이터 이활용 기반 서버(101)는, 스텝 701의 대조 결과로부터, 업무 시스템에 있어서의 생데이터로부터 대상으로 되는 대상 데이터(데이터/파일/시스템에서 지정)를 선출한다. 대상 데이터는, 본 예에서는, 레일 마모도, 통과 톤수, 지연 시분(時分), 역 도착 시각, 역 출발 시각, 기온 등이다.

스텝 703:

데이터 이활용 기반 서버(101)는, 스텝 701, 702의 결과로부터 대상 데이터 선출에 관해서 데이터 준비 내용 항목의 난이도를 판정한다. 즉, 유저가 요구하는 데이터의 종별·항목·범위에 대한 데이터 준비 내용 항목(도 6a의 대상 데이터(612))의 난이도를 판정한다.

난이도는, 본 예에서는, 요구 데이터 항목에 해당하는 데이터로서 추출할 수 있었던 데이터의 수가 많으면 난이도는 높고, 적으면 난이도는 낮은 것으로 한다.

스텝 704:

데이터 이활용 기반 서버(101)는, 이활용 목적(501)의 입력 데이터 구조와 데이터 카탈로그(502)에 있어서의 해당 데이터의 파일 형식을 대조한다. 입력 데이터 구조란, 본 예에서는, 도 5a에 나타내는 바와 같이 관계 모델 테이블(CSV), 피벗 테이블, 각종 공통 데이터 모델 등이다.

스텝 705:

데이터 이활용 기반 서버(101)는, 스텝 704의 결과, 테이블화 처리가 필요하다고 판정한 경우(YES)는, 다음의 스텝 706으로 진행하고, 불요하다고 판정한 경우(NO)는, 스텝 707으로 진행한다.

스텝 706:

데이터 이활용 기반 서버(101)는, 데이터 준비 내용 항목의 테이블화 처리 내용을 추출한다. 또한, 당해 테이블화 처리 내용에 해당하는 처리 프로그램이 데이터 이활용 기반 서버(101)에 등록되어 있으면 처리 프로그램 후보 리스트를 작성한다. 처리 프로그램 후보란, 예를 들면, 바이너리 변환 프로그램, 모델 변환 프로그램 등이다.

스텝 707:

데이터 이활용 기반 서버(101)는, 스텝 704∼706의 결과로부터 테이블화에 관해서 데이터 준비 내용 항목(도 6a의 테이블화(613))의 난이도를 판정한다.

본 예에서는, 테이블화 처리가 필요하면 난이도는 높고, 필요하지 않으면 난이도는 낮은 것으로 한다. 또한, 테이블화 처리에 해당하는 처리 프로그램 후보가 데이터 이활용 기반 서버(101)에 등록되어 있지 않으면 난이도는 높고 등록되어 있으면 난이도는 낮은 것으로 한다.

스텝 708:

데이터 이활용 기반 서버(101)는, 이활용 목적(501)의 요구 데이터 항목과 데이터 카탈로그(502)의 해당 데이터의 파일·파일수를 대조하고, 또한 데이터 관계 정보(504)가 있으면 참조한다.

스텝 709:

데이터 이활용 기반 서버(101)는, 스텝 708의 결과, 데이터 결합 처리가 필요하다고 판정한 경우(YES)는, 스텝 710으로 진행하고, 불요하다고 판정한 경우(NO)는, 스텝 712로 진행한다.

스텝 710:

데이터 이활용 기반 서버(101)는, 스텝 708의 결과로부터, 데이터 관계 정보(504)의 데이터 결합에 이용하는 결합 키 후보(데이터 결합·추출에 있어서의 축 지정/주행 킬로미터, 시각 등)를 선출한다. 예를 들면, 결합 대상의 복수의 테이블에 공통되어 있는 데이터가 결합 키로 될 수 있다.

스텝 711:

데이터 이활용 기반 서버(101)는, 스텝 708의 결과로부터, 데이터 관계 정보(504)를 기초로 해서 관련 데이터 후보(데이터 결합·추출에 있어서의 마스터 지정/선로 마스터 등)를 선출한다. 예를 들면, 각종 코드의 마스터 데이터 등이 해당한다.

스텝 712:

데이터 이활용 기반 서버(101)의 처리 장치(112)는, 스텝 708∼711의 결과로부터 데이터 결합·추출에 관해서 데이터 준비 내용 항목(도 6a의 데이터 결합·추출(614))의 난이도를 판정한다.

난이도는, 본 예에서는, 데이터 결합·추출 처리가 필요하면 높고, 필요하지 않으면 낮은 것으로 한다. 또한 선출한 결합 키 후보의 수가 적으면 난이도는 높고, 많으면 난이도는 낮은 것으로 한다. 또한 선출한 관련 키 후보의 수가 적으면 난이도는 높고, 많으면 난이도는 낮은 것으로 한다.

스텝 713:

데이터 이활용 기반 서버(101)는, 이활용 목적(501)의 입력 데이터 구조와 데이터 카탈로그(502)의 해당 데이터의 파일 형식, 또한, 스텝 708∼711의 결과로서 도출한 결합 테이블 구조를 대조한다.

스텝 714:

데이터 이활용 기반 서버(101)는, 스텝 713의 결과, 데이터 구조화 처리가 필요하다고 판정한 경우(YES)는, 스텝 715로 진행하고, 불요하다고 판정한 경우(NO)는, 스텝 716으로 진행한다.

스텝 715:

데이터 이활용 기반 서버(101)는, 데이터 구조화 처리 내용을 추출한다. 또한, 데이터 구조화 처리 내용에 해당하는 처리 프로그램이 데이터 이활용 기반 서버(101)에 등록되어 있으면 처리 프로그램 후보 리스트를 작성한다.

스텝 716:

데이터 이활용 기반 서버(101)는, 스텝 713∼715의 결과로부터 데이터 구조화에 관해서 데이터 준비 내용 항목(도 6a의 데이터 구조화(615))의 난이도를 판정한다.

본 예에서는, 데이터 구조화 처리가 필요하면 난이도는 높고, 필요하지 않으면 난이도는 낮은 것으로 한다. 또한, 데이터 구조화 처리에 해당하는 처리 프로그램 후보가 데이터 이활용 기반 서버(101)에 등록되어 있지 않으면 난이도는 높고 등록되어 있으면 난이도는 낮은 것으로 한다.

스텝 717:

데이터 이활용 기반 서버(101)는, 이활용 목적(501)의 요구 데이터 항목, 입력 데이터 구조와 데이터 카탈로그(502)의 데이터 항목, 스텝 713∼715의 결과로서 도출한 데이터 구조를 대조한다.

스텝 718:

데이터 이활용 기반 서버(101)는, 스텝 717의 결과, 데이터 가공 처리가 필요하다고 판정한 경우(YES)는, 스텝 719로 진행하고, 불요하다고 판정한 경우(NO)는, 스텝 721로 진행한다.

스텝 719:

데이터 이활용 기반 서버(101)는, 데이터 가공 처리 내용을 추출한다. 또한, 데이터 구조화 처리 내용에 해당하는 처리 프로그램이 데이터 이활용 기반 서버(101)에 등록되어 있으면 처리 프로그램 후보 리스트를 작성한다.

스텝 720:

데이터 이활용 기반 서버(101)는, 스텝 717의 결과로부터 부족 데이터 후보를 선출한다.

부족 데이터 후보란, 본 예에서는, 이활용 목적(501)의 요구 데이터 항목에는 포함되지만, 데이터 카탈로그(502)에는 해당하는 것이 존재하지 않는 데이터이다.

스텝 721:

데이터 이활용 기반 서버(101)는, 스텝 717∼720의 결과로부터 데이터 가공에 관해서 데이터 준비 내용 항목(데이터 가공(616))의 난이도를 판정한다.

난이도는, 본 예에서는, 데이터 가공 처리가 필요하면 높고, 필요하지 않으면 낮은 것으로 한다. 또한, 데이터 가공 처리에 해당하는 처리 프로그램 후보가 데이터 이활용 기반 서버(101)에 등록되어 있지 않으면 난이도는 높고 등록되어 있으면 난이도는 낮은 것으로 한다. 또한, 선출한 부족 데이터 후보의 수가 많으면 난이도는 높고, 적으면 난이도는 낮은 것으로 한다.

스텝 722:

데이터 이활용 기반 서버(101)는, 스텝 703, 707, 712, 716, 721의 판정 결과로부터, 당해 데이터 준비 내용 항목(대상 데이터, 테이블화, 데이터 결합·추출, 데이터 구조화, 데이터 가공)의 각 난이도를 통합 판정한다.

도 8은, 본 발명에 따른 데이터 이활용에 관한 데이터 준비 방법을 적용한 경우에 있어서의 데이터 이활용 시스템에 있어서의 데이터 이활용 기반 서버(101)에서, 데이터 준비 제안 실적으로부터 데이터 준비 내용의 각 항목에서의 유사도를 판정하고, 유사한 데이터 준비 내용을 카테고리화하기 위한 처리의 흐름을 나타내는 플로차트이다.

도 8의 플로차트에 의거하는 동작은 이하와 같다.

스텝 801:

데이터 이활용 기반 서버(101)는, 데이터 준비 제안 내용과 데이터 준비 내용 제안 실적(그룹화 완료의 카테고리)의 비교를 행한다.

스텝 802:

데이터 이활용 기반 서버(101)는, 스텝 801의 결과, 대상 데이터 항목이 문턱값 이상 일치하는지의 여부의 판정을 행한다.

여기에서, 대상 데이터 항목이 문턱값 이상 일치하는 경우(YES)는, 스텝 803으로 진행하고, 일치하지 않는 경우(NO)는, 스텝 812로 진행하고, 스텝 812에 있어서, 당해 카테고리와는 유사하지 않다고 판정한다.

스텝 803:

데이터 이활용 기반 서버(101)는, 테이블화 처리 내용이 문턱값 이상 일치하는지의 여부를 판정한다.

여기에서, 테이블화 처리 내용이 문턱값 이상 일치하는 경우(YES)는, 스텝 804로 진행하고, 일치하지 않는 경우(NO)는, 스텝 812로 진행한다.

스텝 804:

데이터 이활용 기반 서버(101)는, 데이터 결합·추출 처리 내용이 문턱값 이상 일치하는지의 여부를 판정한다.

여기에서, 데이터 결합·추출 처리 내용이 문턱값 이상 일치하는 경우(YES)는 스텝 805로 진행하고, 일치하지 않는 경우(NO)는, 스텝 812로 진행한다.

스텝 805:

데이터 이활용 기반 서버(101)는, 결합 키 후보가 문턱값 이상 일치하는지의 여부를 판정한다.

여기에서, 일치하는 경우는, 스텝 806으로 진행하고, 일치하지 않는 경우는, 스텝 812로 진행한다.

스텝 806:

데이터 이활용 기반 서버(101)는, 관련 데이터 후보가 문턱값 이상 일치하는지의 여부를 판정한다.

여기에서, 일치하는 경우(YES)는, 스텝 807로 진행하고, 일치하지 않는 경우(NO)는, 스텝 812로 진행한다.

스텝 807:

데이터 이활용 기반 서버(101)는, 데이터 구조화 처리 내용이 문턱값 이상 일치하는지의 여부를 판정한다.

여기에서, 일치하는 경우(YES)는, 스텝 808로 진행하고, 일치하지 않는 경우(NO)는, 스텝 812로 진행한다.

스텝 808:

여기에서, 일치하는 경우(YES)는 스텝 809로 진행하고, 일치하지 않는 경우(NO)는, 스텝 812로 진행한다.

스텝 809:

데이터 이활용 기반 서버(101)는, 부족 데이터 후보가 문턱값 이상 일치하는지의 여부를 판정한다.

여기에서, 일치하는 경우(YES)는, 스텝 801로 되돌아가고, 일치하지 않는 경우(NO)는, 스텝 812로 진행한다.

스텝 810:

데이터 이활용 기반 서버(101)는, 스텝 802∼809의 각 스텝에서, 각각 일치하다고 판정한 경우는, 당해 카테고리와 유사하다고 판정하고, 스텝 810으로 진행한다.

스텝 811:

데이터 이활용 기반 서버(101)는, 당해 카테고리에 데이터 준비 제안 내용을 가산한다. 즉, 카테고리마다에 있어서의 관련 이활용 목적(유저 종별, 어플리케이션 로직, KPI)에의 데이터 준비 제안 내용의 이활용 목적의 추가 및 당해 카테고리의 평균 난이도, 총수, 중요도의 갱신을 행한다.

카테고리의 난이도는, 대상 데이터의 난이도, 테이블화의 난이도, 데이터 결합·추출의 난이도, 데이터 구조화의 난이도, 데이터 가공의 난이도가 있고, 이들은 가중치 부여해서 산출한다. 중요도는, 난이도: 높음, 총수: 많음의 경우는, 중요도: 높음으로 하고, 난이도: 작음, 총수: 작음의 경우는, 중요도: 작음으로 한다.

스텝 812:

데이터 이활용 기반 서버(101)는, 스텝 802∼809의 각 스텝에서 각각 불일치하다고 판정한 경우는, 당해 카테고리와는 유사하지 않다고 판정하고, 스텝 803으로 진행한다.

스텝 813:

데이터 이활용 기반 서버(101)는, 전체 카테고리와의 비교가 종료되어 있는지의 여부를 판정하고, 종료되어 있지 않은 경우(NO)는, 스텝 801∼812의 처리를 반복한다. 전체 카테고리와의 비교가 종료된 경우(YES)는, 당해 데이터 준비 제안 내용을 신규의 카테고리로서 등록한다.

또, 상술한 각 문턱값은, 미리 설정한 소정의 문턱값이다.

도 9는, 데이터 준비 내용의 카테고리에 대해서 중요도를 산출하기 위한 처리의 흐름을 나타내는 플로차트이다.

도 9의 플로차트에 의거하는 동작은 이하와 같다.

스텝 901:

데이터 이활용 기반 서버(101)는, 데이터 준비 내용 카테고리마다 집계의 바탕이 되는 데이터 준비 내용 제안의 각 건에 대한 이활용 목적(501)을 참조한다.

스텝 902:

데이터 이활용 기반 서버(101)는, 이활용 목적(501)에 어플리케이션 로직 정보가 포함되어 있으면, 당해 어플리케이션 로직 정보를 추출하고, 리스트업한다.

스텝 903:

데이터 이활용 기반 서버(101)는, 이활용 목적(501)에 KPI 정보가 포함되어 있으면, 당해 KPI 정보를 추출하고, 리스트업한다.

스텝 904:

데이터 이활용 기반 서버(101)는, 데이터 준비 내용 카테고리마다 집계의 바탕이 되는 데이터 준비 내용 제안의 각 건에 있어서의 난이도를 추출하고, 합산한다.

스텝 905:

데이터 이활용 기반 서버(101)는, 데이터 준비 내용 카테고리마다 집계의 바탕이 되는 데이터 준비 내용 제안의 전건에 대해서 종료되어 있는지의 여부를 판정하고, 종료되어 있지 않으면, 스텝 901로 되돌아가서, 스텝 901∼904의 처리를 반복한다.

스텝 905에 있어서, 데이터 준비 내용 카테고리마다 집계의 바탕이 되는 데이터 준비 내용 제안의 전건에 대해서 종료되어 있으면, 스텝 906으로 진행한다.

스텝 906:

데이터 이용 기반 서버(101)는, 스텝 904의 난이도의 합산 결과로부터 평균 난이도를 산출한다.

스텝 907:

데이터 이활용 기반 서버(101)는, 데이터 준비 내용 카테고리마다의 집계의 바탕이 되는 제안 건수의 총수를 산출한다.

스텝 908:

데이터 이활용 기반 서버(101)는, 스텝 906, 907에서 산출한 평균 난이도, 총수로부터 중요도를 산출한다.

여기에서, 중요도는, 예를 들면, 이하와 같은 식으로 산출한다.

(중요도) = w₁×(평균 난이도)+w₂×(총수): w₁, w₂는 가중치

상기 식으로부터 평균 난이도가 크고, 총수가 많을수록, 중요도는 커진다. 또한 평균 난이도가 작고, 총수가 적을수록, 중요도는 작아진다.

도 10은, 유저에 의한 데이터 준비 내용 항목의 등록의 결과, 데이터 준비 내용 항목에 해당하는 처리 프로그램, 데이터 정의 등의 리스트를 작성하기 위한 처리의 흐름을 나타내는 플로차트이다.

도 10의 플로차트에 의거하는 동작은 이하와 같다.

스텝 1001:

데이터 이활용 기반 서버(101)는, 유저 작성에 의한 처리 프로그램, 데이터 정의의 데이터 이활용 기반 서버(101)에의 등록을 검출한다.

스텝 1002:

데이터 이활용 기반 서버(101)는, 스텝 1001에서 등록된 처리 프로그램, 데이터 정의에 해당 데이터 준비 내용 카테고리를 검색한다.

스텝 1003:

데이터 이활용 기반 서버(101)는, 해당 데이터 준비 내용 카테고리의 중요도를 참조해서, 당해 처리 프로그램, 데이터 정의의 유용도를 산출한다.

여기에서, 유용도는, 예를 들면, 이하와 같은 식으로 산출한다.

(유용도) = w₁×(중요도)+w₂×(제안 실적수): w₁, w₂는 가중치

스텝 1004:

데이터 이활용 기반 서버(101)는, 새롭게 데이터 준비 내용 제안이 발생할 때까지 대기한다.

스텝 1004에 있어서, 새롭게 데이터 준비 내용 제안이 발생한 경우(YES)는, 스텝 1005로 진행하고, 발생하지 않는 경우(NO)는, 발생할 때까지 계속한다.

스텝 1005:

데이터 이활용 기반 서버(101)는, 당해 제안 실적수로부터 유용도를 갱신한다. 그리고, 스텝 1004로 되돌아간다.

도 11은, 본 발명의 적용처인 유저 단말(103∼105)을 이용하는 유저에 대해서 제공하는 정보의 내용을 나타내는 화면의 이미지예를 나타내는 도면이다.

화면(1101)은, 예를 들면, 유저가 등록하는 이활용 목적(501)에 대해서 제안하는 데이터 준비 내용에 있어서의 대상 데이터(1111) 및 표 형식(1112)을 나타낸다.

표 형식(1112)으로, 예를 들면, 유저의 이활용 목적(501)에 대해서 제안하는 데이터 준비 내용에 있어서의, 분류(테이블화, 데이터 결합·추출, 데이터 구조화, 데이터 가공), 작업 항목(필요성, 작업 내용안), 처리 프로그램(바이너리 변환 처리 프로그램 1, 모델 변환 프로그램 2), 난이도(수치)를 일람 표시한다. 또, 해당하는 정보가 없는 경우는 공백 개소를 포함시켜서 표시한다.

화면(1102)은, 예를 들면, 표 형식(1121)으로, 데이터 준비 내용 제안의 실적 집계 결과에 따른 데이터 준비 내용 카테고리로서, 데이터 준비 내용(대상 데이터, 테이블화, 데이터 결합·추출, 데이터 구조화, 데이터 가공), 관련된 이활용 목적(유저 종별, 어플리케이션 로직, KPI), 평균 난이도(수치), 총수(수치), 중요도(수치)를 일람 표시한다. 또, 해당하는 정보가 없는 경우는 공백 개소를 포함시켜서 표시한다.

화면(1103)은, 예를 들면, 표 형식(1131)으로, 유용한 데이터 준비 내용 항목 리스트로서, 분류, 처리 프로그램, 데이터 정의, 관련 데이터 준비 내용, 유용도를 일람 표시한다. 또, 해당하는 정보가 없는 경우는 공백 개소를 포함시켜서 표시한다.

이상 기술한 실시예에 따르면, 부서·업무를 넘어서는 횡단적인 데이터 이활용의 촉진, 데이터 이활용·분석 서비스에 따른 개발 비용의 저감이 도모된다. 또한, 예를 들면, 교통 분야에 있어서의 다양한 문제 해결을 위하여, 부서·업무를 넘어서 횡단적으로 데이터를 활용한 분석이 요구될 경우, 다종다양한 업무 데이터의 이해가 충분하지 않은 자, 즉, 대상 업무 시스템에 관한 지식이 충분히 없는 자여도, 신속, 또한, 용이하게 데이터 이활용하는 것이 가능하게 되고, 또한, 다양한 목적·용도에 따른 데이터 이활용을 행하기 위한 데이터 준비(데이터 추출, 테이블·리스트 구축, 가공 등)에 따른 부담을 경감하는 것이 가능하다.

101: 데이터 이활용 기반 서버
102: 관리자 단말
103∼105: 유저 단말
106∼108: 업무 시스템
109, 109': 네트워크
111, 121, 131: 기억 장치
112, 122, 132: 처리 장치
113, 123, 133: 통신 장치
401: 데이터 이활용 미들웨어
421: 데이터 준비 처리 실행 관리부
422: 이활용 처리 실행 관리부
431: 데이터 관리부
432: 처리 프로그램 관리부
433: 유저·업무 관리부
434: 데이터 준비 내용 제안부
435: 데이터 준비 내용 제안 집계부
436: 데이터 준비 내용 등록 집계부

Claims

복수의 업무 시스템으로부터 수집한 데이터를 축적·관리하고, 당해 데이터의 이활용(利活用)을 위하여, 데이터 준비 및 데이터 이활용에 관한 기능을 제공하는 데이터 이활용 시스템에 있어서의 데이터 이활용에 관한 데이터 준비 방법에 있어서,
유저가 지정하는 이활용 목적과 상기 데이터 이활용 시스템에서 준비하는 데이터 정보를 대조하고, 상기 데이터로부터 상기 이활용 목적을 위하여 실시해야 할 대상 데이터의 데이터 준비 내용 항목을 선출하고, 당해 데이터 준비 내용 항목의 난이도를 산출하고, 상기 유저에게 제시하는 제1 스텝과,
상기 이활용 목적에 대한 데이터 준비 내용 항목을 집계하고, 유사한 데이터 준비 내용을 카테고리화하고, 당해 카테고리화한 데이터 준비 내용의 중요도를 산출하고, 상기 유저 및 상기 데이터 이활용 시스템의 관리자에게 제시하는 제2 스텝과,
상기 유사한 데이터 준비 내용의 카테고리에 대해서, 상기 데이터 준비 내용 항목에 해당하는 처리 프로그램, 데이터 관계 정의를 포함하는 리스트를 작성하고, 상기 데이터 준비 내용 항목의 유용도를 산출하고, 상기 유저에게 제시하는 제3 스텝
을 갖는 것을 특징으로 하는 데이터 이활용에 관한 데이터 준비 방법.
제1항에 있어서,
상기 복수의 업무 시스템으로부터의 생데이터(raw data)를 이용해서 상기 이활용 목적을 실시하기 위한 데이터 준비로서, 상기 업무 시스템으로부터의 상기 생데이터에 대해서, 테이블화, 데이터 결합·추출, 데이터 구조화, 데이터 가공의 처리를 순서대로 실시하는
것을 특징으로 하는 데이터 이활용에 관한 데이터 준비 방법.
제1항에 있어서,
상기 유저가 지정하는 이활용 목적은, 요구 데이터 항목, 입력 데이터 구조, 어플리케이션 로직, KPI를 포함하고,
상기 데이터 이활용 시스템에서 준비하는 데이터 정보는, 상기 업무 시스템으로부터의 데이터에 관한 데이터 카탈로그, 데이터 관계 정보, 처리 프로그램 리스트를 포함하고,
상기 제1 스텝은,
상기 이활용 목적과 상기 데이터 카탈로그를 포함하는 데이터 정보를 대조하는 대조 스텝,
상기 데이터 준비 내용 항목을 산출하는데 있어서,
상기 업무 시스템의 데이터로부터 대상 데이터를 선출하는 대상 데이터 선출 스텝,
상기 대상 데이터 선출 스텝에서 추출한 대상 데이터의 테이블화 처리의 필요성을 판정하는 테이블화 처리 필요성 판정 스텝,
상기 테이블화 처리 필요성 판정 스텝에서 테이블화 처리를 필요로 판정했을 경우, 상기 대상 데이터의 테이블화 처리 내용을 추출하는 테이블화 처리 내용 추출 스텝,
데이터 결합·추출 처리의 필요성을 판정하는 데이터 결합 처리 판정 스텝,
상기 데이터 결합 처리 판정 스텝에서 데이터 결합 처리를 필요로 판정했을 경우, 상기 테이블화 처리 내용에 결합하는 결합 키 후보를 선출하는 스텝,
상기 데이터 관계 정보를 기초로 해서 관련 데이터 후보를 선출하는 관련 데이터 후보 선출 스텝,
데이터 구조화 처리의 필요성을 판정하는 데이터 구조화 처리 필요성 판정 스텝,
상기 데이터 구조화 처리의 내용을 추출하는 데이터 구조화 처리 내용 추출 스텝,
데이터 가공 처리의 필요성을 판정하는 데이터 가공 처리 필요성 판정 스텝,
상기 데이터 구조화 처리 필요성 판정 스텝에서 데이터 가공 처리를 필요로 판정했을 경우, 상기 데이터 가공 처리의 내용을 추출하는 데이터 가공 처리 내용 추출 스텝,
부족 데이터 후보를 선출하는 부족 데이터 후보 선출 스텝을 포함하는
것을 특징으로 하는 데이터 이활용에 관한 데이터 준비 방법.
제1항 또는 제3항에 있어서,
유저가 지정하는 상기 이활용 목적과 상기 데이터 이활용 시스템에서 준비하는 데이터 정보를 대조해서 상기 데이터 준비 내용 항목을 산출할 때에, 산출된 준비 내용 항목마다 항목의 실시의 용이성으로서의 난이도를 산출하는 스텝,
상기 데이터 준비 내용 항목의 각 항목의 난이도를 통합해서, 상기 데이터 준비 내용의 난이도를 산출하는 스텝을 포함하는
것을 특징으로 하는 데이터 이활용에 관한 데이터 준비 방법.
제1항에 있어서,
상기 제1 스텝에서,
상기 이활용 목적에 대한 데이터 준비 내용의 각 항목 제안 내용과 데이터 준비 내용 제안 실적으로부터 작성 완료의 카테고리를 비교해서, 대상 데이터 항목이 문턱값 이상 일치하는지의 여부, 테이블화 처리 내용이 문턱값 이상 일치하는지의 여부, 데이터 결합·추출 처리 내용이 문턱값 이상 일치하는지의 여부, 결합 키 후보가 문턱값 이상 일치하는지의 여부, 관련 데이터 후보가 문턱값 이상 일치하는지의 여부, 데이터 구조화 처리 내용이 문턱값 이상 일치하는지의 여부, 데이터 가공 처리 내용이 문턱값 이상 일치하는지의 여부, 부족 데이터 후보가 문턱값 이상 일치하는지의 여부를 순서대로 판정하고,
당해 데이터 준비 내용이 기존 데이터 준비 카테고리에 포함되는지, 신규 카테고리로 할지를 판정하는
것을 특징으로 하는 데이터 이활용에 관한 데이터 준비 방법.
제1항 또는 제5항에 있어서,
데이터 준비 내용 카테고리의 중요도를 산출하기 위하여, 데이터 준비 내용 카테고리의 항목마다 집계의 바탕이 되는 데이터 준비 내용 제안의 각 건으로부터 난이도를 추출하고,
상기 난이도를 합산해서 평균 난이도를 산출하고,
상기 데이터 준비 내용 카테고리의 항목마다의 집계의 바탕이 되는 제안 건수의 총수를 산출하고,
상기 평균 난이도와 총수로부터 당해 데이터 준비 내용 카테고리의 중요도를 산출하는
것을 특징으로 하는 데이터 이활용에 관한 데이터 준비 방법.
제1항에 있어서,
상기 데이터 준비 내용의 데이터 준비 내용 카테고리에 대해서, 유용한 데이터 준비 내용 항목의 리스트를 작성하고, 각 항목의 유용도를 산출하여 제시하는 스텝에서, 유저가 등록하는 처리 프로그램, 데이터 정의 등의 데이터 준비 내용 항목에 해당하는 데이터 준비 내용 카테고리를 선출하고,
당해 데이터 준비 내용 카테고리의 중요도와 제안 실적수로부터 당해 데이터 준비 내용 항목의 유용도를 산출하는
것을 특징으로 하는 데이터 이활용에 관한 데이터 준비 방법.
제1항, 제3항, 제5항, 제7항 중 어느 한 항에 있어서,
유저에 의한 이활용 목적의 등록에 대한, 데이터 준비 내용으로서 대상 데이터, 작업 항목 등에 관한 정보, 또한 데이터 준비 내용 제안의 집계 결과에 따른 데이터 준비 내용 카테고리에 관한 정보, 또한 데이터 준비 내용 항목 리스트에 관한 정보를, 유저에게 제시하기 위하여 출력하는 스텝
을 갖는 것을 특징으로 하는 데이터 이활용에 관한 데이터 준비 방법.
복수의 업무 시스템으로부터 수집한 데이터를 축적·관리하고, 당해 데이터의 이활용을 가능하게 하는 데이터 준비 및 데이터 준비의 데이터 준비 내용 항목을 유저에게 제공하는 데이터 이활용 시스템에 있어서의 데이터 준비 방법에 있어서,
데이터 준비 처리를 실행하는 스텝과, 이활용 처리를 실행하는 스텝을 갖고,
상기 데이터 준비 처리를 실행하는 스텝은,
유저가 지정하는 이활용 목적과 상기 데이터 이활용 시스템에서 준비하는 데이터 정보를 대조하고, 상기 데이터로부터 상기 이활용 목적을 위하여 실시해야 할 대상 데이터의 데이터 준비 내용 항목을 구하고, 당해 데이터 준비 내용 항목의 난이도를 산출하고,
상기 이활용 처리를 실행하는 스텝은,
상기 데이터 준비의 데이터 준비 내용 항목을 집계하고, 유사한 데이터 준비 내용을 카테고리화하고, 당해 카테고리화한 데이터 준비 내용 카테고리의 중요도를 산출하고,
상기 데이터 준비 내용 및 상기 중요도의 상기 유저에의 제안을 가능하게 하는
것을 특징으로 하는 데이터 이활용 시스템에 있어서의 데이터 준비 방법.
제9항에 있어서,
상기 이활용 목적은, 요구 데이터 항목, 입력 데이터 구조를 포함하고,
상기 데이터 정보는, 데이터 카탈로그를 포함하고, 당해 데이터 카탈로그는, 데이터 항목, 시각, 파일 형식을 포함하고,
상기 데이터 준비 내용 항목은, 테이블화, 데이터 결합·추출, 데이터 구조화, 데이터 가공이고,
상기 중요도는, 상기 데이터 준비 내용의 평균 난이도나 총수를 기초로 해서 산출하는
것을 특징으로 하는 데이터 이활용 시스템에 있어서의 데이터 준비 방법.
제9항에 있어서,
상기 데이터 준비 처리를 실행하는 스텝은, 또한,
상기 데이터 준비 내용의 카테고리마다에 대해서, 관련된 이활용 목적을 리스트업하고, 상기 데이터 준비 내용 항목의 각 항목의 유용도를 산출하고,
상기 데이터 준비 내용을 제안하는 스텝은, 또한,
상기 유용도를 상기 유저에게 제시하는
것을 특징으로 하는 데이터 이활용 시스템에 있어서의 데이터 준비 방법.
제11항에 있어서,
상기 관련된 이활용 목적을 리스트업은, 관련 데이터 후보로서, 상기 데이터 준비 내용에 해당하는 처리 프로그램, 데이터 관계 정보의 리스트를 작성하는 것
임을 특징으로 하는 데이터 이활용 시스템에 있어서의 데이터 준비 방법.
복수의 업무 시스템으로부터 수집한 데이터를 축적·관리하고, 당해 데이터의 이활용을 가능하게 하는 데이터 준비 및 데이터 준비의 데이터 준비 내용 항목을 유저에게 제공하는 데이터 이활용 시스템에 있어서,
상기 데이터 준비의 처리를 실행하는 데이터 준비 처리 실행부, 상기 데이터 준비의 이활용 처리를 실행하는 이활용 처리 실행부, 상기 데이터 준비의 내용을 제안하는 데이터 준비 내용 제안부를 갖고,
상기 데이터 준비 처리 실행부는,
상기 유저가 지정하는 이활용 목적과 상기 데이터 이활용 시스템에서 준비하는 데이터 정보를 대조하는 처리부,
상기 데이터로부터 상기 이활용 목적을 위하여 실시해야 할 대상 데이터의 데이터 준비 내용 항목을 구하며, 또한, 당해 데이터 준비 내용 항목의 난이도를 산출하는 처리부를 포함하고,
상기 이활용 처리 실행부는,
상기 데이터 준비의 데이터 준비 내용 항목을 집계하는 처리부,
유사한 상기 데이터 준비 내용을 카테고리화하는 처리부,
카테고리화한 상기 데이터 준비 내용 항목의 데이터 준비 내용의 중요도를 산출하는 처리부를 포함하고,
상기 데이터 준비 내용 제안부는,
상기 데이터 준비 내용 및 상기 중요도를 상기 유저에게 제안하는 처리부를 포함하는
것을 특징으로 하는 데이터 이활용 시스템.
제13항에 있어서,
상기 이활용 목적은, 요구 데이터 항목, 입력 데이터 구조를 포함하고,
상기 데이터 정보는, 데이터 카탈로그를 포함하고, 당해 데이터 카탈로그는, 데이터 항목, 시각, 파일 형식을 포함하고,
상기 데이터 준비 내용 항목은, 테이블화, 데이터 결합·추출, 데이터 구조화, 데이터 가공이고,
상기 중요도는, 상기 데이터 준비 내용의 평균 난이도나 총수를 기초로 해서 산출하는
것을 특징으로 하는 데이터 이활용 시스템.
제13항에 있어서,
상기 데이터 준비 처리 실행부는, 또한,
상기 데이터 준비 내용의 카테고리마다에 대해서, 관련된 이활용 목적을 리스트업하는 처리부, 상기 데이터 준비 내용 항목의 각 항목의 유용도를 산출하는 처리부를 갖고,
상기 데이터 준비 내용 제안부는, 또한,
상기 유용도를 상기 유저에게 제시하는 처리부를 갖는
것을 특징으로 하는 데이터 이활용 시스템