KR20200020932A - 분석 지원 방법, 분석 지원 서버 및 기억 매체 - Google Patents

분석 지원 방법, 분석 지원 서버 및 기억 매체 Download PDF

Info

Publication number
KR20200020932A
KR20200020932A KR1020207003031A KR20207003031A KR20200020932A KR 20200020932 A KR20200020932 A KR 20200020932A KR 1020207003031 A KR1020207003031 A KR 1020207003031A KR 20207003031 A KR20207003031 A KR 20207003031A KR 20200020932 A KR20200020932 A KR 20200020932A
Authority
KR
South Korea
Prior art keywords
analysis
column
data
difficulty
mapping
Prior art date
Application number
KR1020207003031A
Other languages
English (en)
Other versions
KR102309094B1 (ko
Inventor
도시히꼬 가시야마
Original Assignee
가부시키가이샤 히타치세이사쿠쇼
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가부시키가이샤 히타치세이사쿠쇼 filed Critical 가부시키가이샤 히타치세이사쿠쇼
Publication of KR20200020932A publication Critical patent/KR20200020932A/ko
Application granted granted Critical
Publication of KR102309094B1 publication Critical patent/KR102309094B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/221Column-oriented storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0633Workflow analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Quality & Reliability (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Software Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Stored Programmes (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

프로세서와 메모리를 갖는 계산기가, 분석 대상 데이터의 평가를 행하는 분석 지원 방법이며, 상기 계산기가, 상기 분석 대상 데이터의 칼럼의 정의를 저장한 제1 데이터 카탈로그와, 분석 처리를 실행하는 분석 소프트웨어의 입력 데이터의 칼럼을 정의한 제2 데이터 카탈로그를 읽어들이는 제1 스텝과, 상기 계산기가, 상기 제1 데이터 카탈로그의 칼럼과 상기 제2 데이터 카탈로그의 칼럼의 유사도를 매핑 확실도로서 산출하는 제2 스텝과, 상기 계산기가, 상기 분석 소프트웨어에서 사용하는 상기 제2 데이터 카탈로그의 칼럼의 매핑 확실도에 기초하여 당해 분석 소프트웨어로 상기 분석 대상 데이터를 분석하는 난이도를 산출하는 제3 스텝을 포함한다.

Description

분석 지원 방법, 분석 지원 서버 및 기억 매체
[참조에 의한 원용]
본 출원은, 평성 29년(2017년) 12월 18일에 출원된 일본 출원인 특허 출원 제2017-241859호의 우선권을 주장하고, 그 내용을 참조함으로써, 본 출원에 원용된다.
본 발명은, 데이터를 분석하는 소프트웨어를 제안하는 기술에 관한 것이다.
데이터를 분석하는 공정수를 저감하기 위해, 과거의 데이터 분석에서 사용한 애플리케이션이나 쿼리 등의 소프트웨어를 재이용할 것이 요망되고 있다. 과거의 데이터 분석에서 사용한 소프트웨어를 이용하기 위해 스키마 매칭을 적용하는 기술이 알려져 있다(예를 들어, 비특허문헌 1). 비특허문헌 1에서는, 과거에 분석을 실행한 스키마와, 새롭게 분석하는 데이터의 스키마의 구성 요소간의 유사도를 산출하는 기술이 개시된다.
또한, 특허문헌 1에서는, 과거의 데이터 분석에서 사용한 소프트웨어를 이용하는 데 필요한 데이터의 요소를 특정하는 기술이 개시되어 있다.
또한, 계산기가 유저에게 소프트웨어를 권장하는 기술로서는, 예를 들어 특허문헌 2가 알려져 있다. 특허문헌 2에서는, 애플리케이션에 의한 소비 전력에 따라서 서버가 애플리케이션의 권장을 행하는 기술이 개시되어 있다.
미국 특허 제9110967호 명세서 일본 특허 공개 제2012-63917호 공보
Embly, David W., David Jackman, and Li Xu., "Multifaceted Exploitation of Metadata for Attribute Match Discovery in Information Integration.", Workshop on information integration on the Web, 2001
상기 종래예에서는, 데이터의 스키마의 유사성이나, 데이터의 구성 요소간의 관련성에 대하여 특정할 수는 있다. 그러나, 상기 종래예에서는, 새로운 분석 대상의 데이터에 대하여, 스키마의 유사성이나 구성 요소간의 관련성으로부터 어느 소프트웨어를 사용할지에 대해서는, 분석을 하는 담당자가 과거의 실적 등으로부터 판단할 필요가 생긴다. 즉, 종래예에서는, 어느 소프트웨어를 사용할지에 대하여 분석의 담당자가 시행 착오를 행하는 경우가 발생하여, 분석의 공정수를 삭감할 수는 없었다.
또한, 상기 종래예에서는, 새로운 분석 대상의 데이터의 테이블의 수가 많은 경우, 어느 테이블로부터 분석을 개시하면 좋은지를 제시할 수는 없었다. 즉, 상기 종래예에서는, 데이터의 클렌징 등의 분석의 전처리에 공정수(또는 수고)를 요하는 데이터와, 그렇지 않은 데이터의 판별을 행할 수 없어, 적은 공정수로 분석을 실시할 수 없다는 문제가 있었다.
따라서 본 발명은, 상기 문제점을 감안하여 이루어진 것이며, 데이터의 분석에 요하는 공정수를 저감하는 것을 목적으로 한다.
본 발명은, 프로세서와 메모리를 갖는 계산기가, 분석 대상 데이터의 평가를 행하는 분석 지원 방법이며, 상기 계산기가, 상기 분석 대상 데이터의 칼럼의 정의를 저장한 제1 데이터 카탈로그와, 분석 처리를 실행하는 분석 소프트웨어의 입력 데이터의 칼럼을 정의한 제2 데이터 카탈로그를 읽어들이는 제1 스텝과, 상기 계산기가, 상기 제1 데이터 카탈로그의 칼럼과 상기 제2 데이터 카탈로그의 칼럼의 유사도를 매핑 확실도로서 산출하는 제2 스텝과, 상기 계산기가, 상기 분석 소프트웨어에서 사용하는 상기 제2 데이터 카탈로그의 칼럼의 매핑 확실도에 기초하여 당해 분석 소프트웨어로 상기 분석 대상 데이터를 분석하는 난이도를 산출하는 제3 스텝을 포함한다.
따라서, 본 발명에 따르면, 분석 대상 데이터를 입력 데이터(공통 데이터 모델)로 변환할 때의 난이도에 기초하여, 분석 대상 데이터에 적용하는 분석 소프트웨어를 제안하는 것이 가능하게 되어, 분석의 공정수나 분석에 드는 수고를 저감할 수 있다.
도 1은 본 발명의 실시예 1을 나타내고, 데이터 분석 지원 시스템의 일례를 도시하는 블록도이다.
도 2는 본 발명의 실시예 1을 나타내고, 분석 지원 서버의 일례를 도시하는 블록도이다.
도 3은 본 발명의 실시예 1을 나타내고, 분석 지원 프로그램의 기능 요소의 일례를 도시하는 블록도이다.
도 4는 본 발명의 실시예 1을 나타내고, 분석 카탈로그의 일례를 도시하는 도면이다.
도 5는 본 발명의 실시예 1을 나타내고, 데이터 소스 카탈로그의 일례를 도시하는 도면이다.
도 6은 본 발명의 실시예 1을 나타내고, 공통 데이터 모델 카탈로그의 일례를 도시하는 도면이다.
도 7은 본 발명의 실시예 1을 나타내고, 필요 칼럼 관리 테이블의 일례를 도시하는 도면이다.
도 8은 본 발명의 실시예 1을 나타내고, 칼럼 매핑 확실도 관리 테이블의 일례를 도시하는 도면이다.
도 9는 본 발명의 실시예 1을 나타내고, 분석 난이도 관리 테이블의 일례를 도시하는 도면이다.
도 10은 본 발명의 실시예 1을 나타내고, 분석 지원 프로그램에서 행해지는 처리의 일례를 설명하는 흐름도이다.
도 11은 본 발명의 실시예 1을 나타내고, 분석 추천 결과 확인 화면의 일례를 도시하는 도면이다.
도 12a는 본 발명의 실시예 2를 나타내고, 데이터 분석 지원 시스템의 일례를 도시하는 블록도이다.
도 12b는 본 발명의 실시예 2를 나타내고, ETL 처리부의 생산 계획 기간 변환에서 행해지는 처리의 일례를 도시하는 도면이다.
도 13은 본 발명의 실시예 2를 나타내고, 분석 지원 프로그램의 기능 요소의 일례를 도시하는 블록도이다.
도 14는 본 발명의 실시예 2를 나타내고, 분석 카탈로그의 일례를 도시하는 도면이다.
도 15는 본 발명의 실시예 2를 나타내고, ETL 카탈로그의 일례를 도시하는 도면이다.
도 16은 본 발명의 실시예 2를 나타내고, ETL 칼럼 매핑 확실도 관리 테이블의 일례를 도시하는 도면이다.
도 17은 본 발명의 실시예 2를 나타내고, 데이터 품질 관리 테이블의 일례를 도시하는 도면이다.
도 18은 본 발명의 실시예 2를 나타내고, 분석 난이도 관리 테이블의 일례를 도시하는 도면이다.
도 19는 본 발명의 실시예 2를 나타내고, 분석 지원 프로그램에서 행해지는 처리의 일례를 설명하는 흐름도이다.
도 20은 본 발명의 실시예 2를 나타내고, 난이도의 산출 처리의 일례를 설명하는 흐름도이다.
도 21은 본 발명의 실시예 2를 나타내고, 분석 난이도의 근거의 일례를 도시하는 도면이다.
도 22는 본 발명의 실시예 2를 나타내고, 표준 작업 시간의 보정 처리의 일례를 설명하는 흐름도이다.
도 23은 본 발명의 실시예 2를 나타내고, 추천 처리의 일례를 설명하는 흐름도이다.
도 24는 본 발명의 실시예 2를 나타내고, 결과 확인 화면 처리의 일례를 설명하는 흐름도이다.
도 25는 본 발명의 실시예 2를 나타내고, 결과 확인 화면의 일례를 도시하는 도면이다.
도 26은 본 발명의 실시예 3을 나타내고, 데이터 분석 지원 시스템의 일례를 도시하는 블록도이다.
도 27은 본 발명의 실시예 3을 나타내고, 분석 지원 프로그램의 기능 요소의 일례를 도시하는 블록도이다.
도 28은 본 발명의 실시예 3을 나타내고, 이벤트 로그 형식의 설비 얼러트 데이터의 일례를 도시하는 도면이다.
도 29는 본 발명의 실시예 3을 나타내고, 얼러트 코드 마스터의 일례를 도시하는 도면이다.
도 30은 본 발명의 실시예 3을 나타내고, 테이블 형식의 설비 얼러트의 일례를 도시하는 도면이다.
도 31은 본 발명의 실시예 3을 나타내고, 과거 실적 확인 화면의 일례를 도시하는 도면이다.
도 32는 본 발명의 실시예 3을 나타내고, 타후보 제시 화면의 일례를 도시하는 도면이다.
도 33은 본 발명의 실시예 3을 나타내고, 칼럼 매핑 확실도 산출부의 처리의 일례를 설명하는 흐름도이다.
도 34는 본 발명의 실시예 3을 나타내고, 결과 확인 화면에서 행해지는 처리의 일례를 설명하는 흐름도이다.
이하, 본 발명의 실시 형태를 첨부 도면에 기초하여 설명한다.
실시예 1
도 1은 본 발명의 실시예 1을 나타내고, 데이터 분석 지원 시스템의 일례를 도시하는 블록도이다. 데이터 분석 지원 시스템은, 생산 설비로부터 데이터를 수집하는 공장 A의 데이터 수집 서버(410)와, 생산 설비로부터 데이터를 수집하는 공장 B의 데이터 수집 서버(430)와, 공장 A, 공장 B의 데이터 수집 서버(410, 430)의 데이터를 데이터 소스로 하여, 분석에 관한 데이터를 축적하는 데이터 레이크 서버(2)와, 데이터 레이크 서버(2)의 공통 데이터 모델 카탈로그(33)에 따라서 변환된 입력 데이터(변환 완료 데이터)를 분석하는 분석 서버군(300)과, 데이터 소스의 분석에 적합한 분석 서버군(300)의 분석 소프트웨어(애플리케이션 또는 쿼리)의 제안을 행하는 분석 지원 서버(1)를 포함한다.
데이터 레이크 서버(2)는, 네트워크(51)를 통해 분석 지원 서버(1)와 접속되고, 또한, 네트워크(52)를 통해 분석 서버군(300)과 접속되고, 또한, 네트워크(53)를 통해 데이터 수집 서버(410, 430)와 접속된다.
공장 A의 데이터 수집 서버(410)는, 부품표(421)와, 제조 실적 로그(422)와, 설비 얼러트(423)와, 공정 및 설비 마스터(424)와, 생산 계획(425)과, 재고 실적(426)의 데이터를 저장한다. 공장 B의 데이터 수집 서버(430)는 부품표(441)와, 제조 실적 로그(442)와, 생산 계획(443)과, 설비 얼러트(444)의 데이터를 저장한다.
부품표(421, 441)는, 제품을 구성하는 부품의 리스트를 포함한다. 제조 실적 로그(422, 442)는 제품의 제조 실적에 관한 정보를 저장한다. 생산 계획(425, 443)은, 부품 및 제품의 생산 스케줄 등을 저장한다. 설비 얼러트(423, 444)는, 생산 설비로부터의 경보나 에러 등을 저장한다. 공정 및 설비 마스터(424)는, 생산 공정의 정보나 제조 설비의 정보를 저장한다. 재고 실적(426)은, 생산된 제품의 재고 상황이 저장된다.
데이터 레이크 서버(2)의 스토리지(20)에는, 과거의 데이터 분석에서 이용한 분석 소프트웨어(애플리케이션이나 쿼리)를 수집한 분석 카탈로그(31)와, 분석 대상 데이터의 칼럼을 설정한 데이터 소스 카탈로그(32)와, 공통화된 데이터 모델(공통 데이터 모델(60))을 정의한 공통 데이터 모델 카탈로그(33)가 저장된다. 또한, 분석 카탈로그(31)와, 데이터 소스 카탈로그(32)와, 공통 데이터 모델 카탈로그(33)는 미리 설정된 데이터이다.
또한, 데이터 레이크 서버(2)의 스토리지(20)에는, 공통 데이터 모델(60)로서, 공장 A의 제품을 구성하는 부품의 정보를 정의한 부품표(61)와, 공장 A의 제품의 생산 계획(62)과, 공장 A의 제품의 제조 실적(63)과, 공장 A의 생산 설비로부터의 설비 얼러트(64)가 저장된다.
부품표(61)는, 공장 A의 부품표(421)의 정의가 설정된 공통 데이터 모델이다. 생산 계획(62)은, 공장 A의 생산 계획(425)의 정의가 미리 설정된 공통 데이터 모델이다. 제조 실적(63)은, 공장 A의 제조 실적 로그(422)의 정의가 미리 설정된 공통 데이터 모델이다. 설비 얼러트(64)는, 공장 A의 설비 얼러트(423)의 정의가 미리 설정된 공통 데이터 모델이다.
이들 공통 데이터 모델(60)은, 생산 계획이나, 제조 설비나, 설비의 얼러트 등의 관리 업무에서 일반적인 엔티티의 데이터베이스를 제공하는 정의를 포함한다. 분석 지원 서버(1)는, 데이터 소스가 되는 데이터 수집 서버(410, 430)의 테이블을 읽어들여, 공통 데이터 모델 카탈로그(33)에 따라서 칼럼을 변환하고 나서 분석 서버군(300)에서 분석 처리를 실행시킨다. 또한, 데이터 소스가 되는 테이블을 공통 데이터 모델(60)의 정의에 따른 테이블로 변환하는 처리는, 분석 서버군(300)에서 행하도록 해도 된다.
본 실시예 1에서는, 공장 A의 데이터 수집 서버(410)를 데이터 소스로 하여 데이터 분석을 행하였을 때 이용한 분석 소프트웨어(분석 처리) 및 공통 데이터 모델(60)을, 공장 B의 데이터 수집 서버(430)가 수집한 데이터에 적용하는 예를 나타낸다.
분석 서버군(300)은, 변환 완료 데이터(입력 데이터)를 분석 쿼리에 의해 분석을 실시하는 분석 쿼리 발행 서버(301)와, 설비 얼러트(64)의 정의에 따라서 변환된 변환 완료 데이터를 분석하여 생산 설비의 불량 요인을 추출하는 불량 요인 분석 서버(302)와, 생산 계획(62)과 부품표(61) 등의 정의에 따라서 변환된 변환 완료 데이터로부터 생산에 관한 시뮬레이션을 실행하는 생산 시뮬레이터 서버(303)와, 각 공장간에서 생산 설비를 융통시키는 애셋 셰어링 서버(304)를 포함한다.
즉, 분석 쿼리 발행 서버(301)는, 입력 데이터를 저장한 데이터베이스에 분석 쿼리를 발행하여, 분석을 실시한다. 또한, 불량 요인 분석 서버(302)에서는 분석 애플리케이션에 의해 분석을 실시한다. 생산 시뮬레이터 서버(303)에서는, 시뮬레이션 소프트웨어(애플리케이션)에 의해 생산의 시뮬레이션을 실시한다.
또한, 분석 서버군(300)은, 이들 서버에 한정되는 것은 아니고, 데이터 레이크 서버(2)나 데이터 수집 서버(410, 430)의 데이터를 이용하여, 분석이나 시뮬레이션이나 평가를 실시하는 계산기이면 된다. 또한, 분석 소프트웨어에 대해서도, 상술한 애플리케이션이나 쿼리에 한정되는 것은 아니고, 분석에 따른 애플리케이션이나 쿼리를 채용하면 된다.
또한, 스토리지(20)에는 상기 데이터에 더하여, 도 3에서 도시한 바와 같이, 필요 칼럼 관리 테이블(34)과, 칼럼 매핑 확실도 관리 테이블(35)과, 분석 난이도 관리 테이블(36)과, 추천 결과 파일(37)을 저장한다.
또한, 변환 완료 데이터는, 공장 A, B의 데이터 수집 서버(410, 430)의 테이블 데이터의 칼럼을, 공통 데이터 모델 카탈로그(33)에 따라서 공통 데이터 모델(60)의 정의로 변환한 데이터이며, 데이터 레이크 서버(2)의 스토리지(20)에 저장되어도 되고, 분석 서버군(300)에 저장되어도 된다.
분석 지원 서버(1)는, 새로운 분석 대상 데이터를 포함하는 데이터 소스 카탈로그(32)를 접수하여, 당해 분석 대상 데이터를 데이터 레이크 서버(2)의 공통 데이터 모델(60)에 대응하는 변환 완료 데이터로 변환할 때의 난이도를 산출하고, 당해 난이도에 기초하여 분석 대상 데이터의 평가를 행하는 분석 지원 프로그램(10)이 가동된다. 본 실시예 1에서는, 분석 지원 프로그램(10)이 실시하는 평가의 일례로서, 분석 대상 데이터를 분석할 때 최적의 분석 소프트웨어나 분석의 순서를 제안하는 예를 나타낸다. 또한, 분석 지원 서버(1)는, 분석 지원 프로그램(10)이 이용하는 카탈로그 데이터(40)와, 관리 테이블(50)을 갖는다.
또한, 본 실시예 1에 있어서의 난이도는, 후술하는 바와 같이, 분석 대상 데이터의 칼럼을, 공통 데이터 모델(60)에 대응하는 칼럼에 할당하는 매핑의 작업량을 나타내는 지표이다. 분석 서버군(300)의 분석 소프트웨어는, 공통 데이터 모델(60)의 칼럼의 매핑에 대응하는 변환 완료 데이터를 입력 데이터로 하여 분석 처리를 실행할 수 있다. 이 때문에, 데이터 소스의 칼럼을 공통 데이터 모델(60)의 칼럼에 할당하는 작업이, 분석 처리의 전처리가 된다.
본 실시예 1에서는, 상기 전처리에 요하는 작업량을 분석의 난이도로서 분석 지원 서버(1)가 산출함으로써, 과거의 분석에서 사용한 분석 소프트웨어를 이용할 때의 작업량의 대소를 판정할 수 있다. 이에 의해, 분석 지원 서버(1)는, 방대한 데이터에 대한 분석을 어떤 분석 처리부터 시작하면 좋은지, 혹은, 어떤 분석 처리가 가능한지를, 과거의 분석에서 사용한 분석 소프트웨어로부터 제안할 수 있다.
도 2는 분석 지원 서버(1)의 일례를 도시하는 블록도이다. 분석 지원 서버(1)는, CPU(3)와, 메모리(4)와, 스토리지(5)와, 네트워크 인터페이스(도면 중 NI/F)(6)와, 디스플레이(8), 키보드(91), 마우스(92)를 접속하는 인터페이스(7)를 포함하는 계산기이다.
메모리(4)에는 분석 지원 프로그램(10)이 로드되어 CPU(3)에 의해 실행된다. 스토리지(5)에는, 카탈로그 데이터(40)와 관리 테이블(50)이 저장된다.
도 3은 분석 지원 프로그램(10)의 기능 요소의 일례를 도시하는 블록도이다. 분석 지원 프로그램(10)은 기능 요소로서, 필요 칼럼 산출부(11)와, 칼럼 매핑 확실도 산출부(12)와, 분석 난이도 산출부(13)와, 분석 추천부(15)를 포함한다.
필요 칼럼 산출부(11)는, 데이터 레이크 서버(2)의 분석 카탈로그(31)를 읽어들여 필요 칼럼 관리 테이블(34)을 생성 또는 갱신한다. 즉, 필요 칼럼 산출부(11)는, 분석 카탈로그(31)로부터 과거의 분석에서 사용한 분석 소프트웨어(애플리케이션이나 쿼리)와, 데이터 소스 카탈로그(32)로부터 당해 분석 소프트웨어가 사용한 공통 데이터 모델(60)과, 당해 공통 데이터 모델(60)의 기초가 된 데이터 소스의 관계로부터, 분석에 필요한 테이블명과 칼럼명을 산출하여 필요 칼럼 관리 테이블(34)에 축적한다.
또한, 필요 칼럼 산출부(11)에서 행하는 데이터 소스의 칼럼으로부터 공통 데이터 모델(60)의 칼럼의 관계의 추출은, 공지 또는 주지의 기술을 사용할 수 있고, 예를 들어 특허문헌 1에 개시되는 데이터 리니지 등의 방법을 적용하면 된다. 또한, 필요 칼럼 관리 테이블(34)은, 분석 대상의 공통 데이터 모델(60)과, 분석 서버군(300)의 분석 소프트웨어로부터, 분석 지원 서버(1)의 관리자나 이용자가 미리 작성해 두어도 된다.
칼럼 매핑 확실도 산출부(12)는, 새로운 분석 대상 데이터를 포함하는 데이터 소스 카탈로그(32)와, 공통 데이터 모델 카탈로그(33)를 읽어들여, 칼럼 매핑 확실도 관리 테이블(35)을 생성 또는 갱신한다.
칼럼 매핑 확실도 산출부(12)는, 분석 대상 데이터의 각 칼럼에 대하여 공통 데이터 모델 카탈로그(33)의 테이블과 칼럼의 유사도를, 매핑 확실도로서 산출하고, 칼럼 매핑 확실도 관리 테이블(35)에 저장한다. 칼럼 매핑 확실도 산출부(12)는, 분석 대상 데이터와 공통 데이터 모델(60)의 테이블명이나 칼럼명이나 칼럼의 값이나 값의 범위나 칼럼의 데이터 형식 등으로부터 유사도를 산출하고, 매핑 확실도로 한다.
매핑 확실도는, 데이터 소스의 테이블명 및 칼럼명과, 공통 데이터 모델(60)의 테이블명과 칼럼명의 유사도를 칼럼 단위로 나타낸다. 칼럼마다의 유사도는, 예를 들어 비특허문헌 1에 개시되는 스키마 매칭 및 매핑 등의 공지 또는 주지의 기술을 적용하면 된다. 또한, 유사도의 산출에 대해서는, 주지 또는 공지의 방법을 사용하면 되므로 본 실시예에서는 상세하게 설명하지 않는다. 또한, 본 실시예의 매핑 확실도는, 1에 가까워질수록 분석 대상 데이터의 칼럼과 공통 데이터 모델(60)의 칼럼의 유사도가 높은 것을 나타낸다.
분석 난이도 산출부(13)는, 칼럼 매핑 확실도 관리 테이블(35)과, 필요 칼럼 관리 테이블(34)을 읽어들여, 새로운 분석 대상 데이터를, 과거에 실시한 분석 소프트웨어로 처리할 때의 난이도를 분석 처리마다 산출하여 분석 난이도 관리 테이블(36)에 저장한다. 또한, 분석 난이도 산출부(13)는, 매핑 확실도가 갱신될 때마다 난이도의 재계산을 실시하는 분석 난이도 재계산부(14)를 포함한다.
본 실시예의 난이도는, 값이 1에 가까워질수록 분석 작업의 전처리(칼럼 매핑 처리)의 작업량(시간 또는 수고)이 작고, 0에 가까워질수록 분석 작업의 전처리의 작업량이 많은 것을 나타낸다. 구체적으로는, 난이도의 값이 1에 가까운 경우에는, 분석 대상 데이터의 각 칼럼을 공통 데이터 모델(60)에 용이하게 할당하는 것이 가능하여, 분석 대상 데이터의 전처리로서의 매핑(칼럼의 할당)에 요하는 시간 또는 수고가 적다.
한편, 난이도의 값이 0에 가까워지는 경우에는, 분석 대상 데이터의 각 칼럼을 공통 데이터 모델(60)의 칼럼에 할당하는 것이 용이하지는 않아, 분석 대상 데이터의 전처리(칼럼 매핑 처리)에 요하는 시간 또는 수고가 커진다.
분석 추천부(15)는, 분석 난이도 관리 테이블(36)에 저장된 분석 대상 데이터의 난이도에 기초하여, 추천하는 분석 소프트웨어를 리스트 업한 결과 확인 화면(81)을 디스플레이(8)에 출력한다.
또한, 분석 추천부(15)는, 난이도를 산출한 근거(분석 대상 데이터와 공통 데이터 모델(60)의 칼럼 관계)를 표시하는 분석 난이도 근거 표시부(16)와, 매핑 확실도를 조정하는 매핑 확정부(17)를 포함한다. 분석 추천부(15)는, 분석 대상 데이터를 처리하는 분석 소프트웨어(분석명)의 권장 결과를 추천 결과 파일(37)에 저장한다. 또한, 분석 추천부(15)는, 매핑 확실도의 조정 결과를 칼럼 매핑 확실도 관리 테이블(35)에 기입하여 갱신하고, 분석 지원 서버(1)의 이용자의 결정을 칼럼 매핑 확실도 관리 테이블(35)에 반영시킨다.
상기 구성에 의해, 분석 대상 데이터를 공통 데이터 모델(60)에 따른 변환 완료 데이터로 변환할 때의 난이도에 기초하여, 분석 대상 데이터에 적용하는 분석 소프트웨어를 제안하는 것이 가능하게 되어, 분석의 공정수나 분석에 드는 수고를 저감할 수 있다.
또한, 본 실시예의 분석 지원 프로그램(10)이 난이도를 산출하는 분석 대상 데이터는, 테이블에 한정되는 것은 아니고, 스프레드시트 등의 데이터를 분석 대상 데이터로 할 수 있다.
분석 지원 프로그램(10)의 필요 칼럼 산출부(11)와, 칼럼 매핑 확실도 산출부(12)와, 분석 난이도 산출부(13)와 분석 추천부(15)의 각 기능부는 프로그램으로서 메모리(4)에 로드된다.
CPU(3)는, 각 기능부의 프로그램에 따라서 처리함으로써, 소정의 기능을 제공하는 기능부로서 가동된다. 예를 들어, CPU(3)는, 분석 난이도 산출 프로그램에 따라서 처리함으로써 분석 난이도 산출부(13)로서 기능한다. 다른 프로그램에 대해서도 마찬가지이다. 또한, CPU(3)는, 각 프로그램이 실행하는 복수의 처리의 각각의 기능을 제공하는 기능부로서도 가동된다. 계산기 및 계산기 시스템은, 이들 기능부를 포함하는 장치 및 시스템이다.
도 4는 분석 카탈로그(31)의 일례를 도시하는 도면이다. 분석 카탈로그(31)에는, 과거에 실시한 분석의 개요가 저장된다.
분석 카탈로그(31)는, 분석 ID(311)와, 분석명(312)과, 애플리케이션/쿼리(313)와, 중요도(314)와, 과거 효과(315)와, 표준 소요 시간(316)과, 필요 스킬(317)과, 납기(318)와, 완료 플래그(319)를 하나의 엔트리에 포함한다.
분석 ID(311)에는, 분석을 실시하는 분석 소프트웨어의 식별자가 저장된다. 분석명(312)에는, 분석의 명칭이 저장된다. 애플리케이션/쿼리(313)에는, 분석 소프트웨어의 종별이 저장된다. 본 실시예에서는 분석 소프트웨어가 애플리케이션 또는 쿼리 중 어느 것의 예를 나타낸다. 애플리케이션의 경우에는, 분석 서버군(300)의 불량 요인 분석 서버(302)에서 실행되는 불량 요인 분석 애플리케이션의 명칭 등이 저장된다. 쿼리의 경우에는, 분석 쿼리 발행 서버(301)에서 발행되는 쿼리의 명칭 등이 저장된다.
중요도(314)에는, 당해 분석 소프트웨어의 중요도가 저장된다. 중요도(314)는, 「H」(높음), 「M」(중간), 「L」(낮음) 중 어느 것이 저장된다. 과거 효과(315)에는, 당해 분석 소프트웨어의 분석 결과가 부여된 효과가 저장된다. 과거 효과(315)는 「H」(높음), 「M」(중간), 「L」(낮음) 중 어느 것이 저장된다.
표준 소요 시간(316)에는, 당해 분석에 요하는 표준적인 소요 시간이 저장된다. 필요 스킬 ID(317)에는, 당해 분석 소프트웨어를 이용할 때 필요한 분석 담당자의 스킬이 저장된다. 본 실시예에서는, 필요 스킬 ID(317)로서, 분석 소프트웨어의 명칭이나, 소프트웨어 언어의 명칭이나, 분석하는 분야 등을 저장하는 예를 나타낸다.
납기(318)에는, 당해 분석의 결과를 제시하는 기일이 저장된다. 완료 플래그(319)에는, 당해 분석이 완료되었는지 여부를 식별하는 정보가 저장된다.
도 5는 데이터 소스 카탈로그(32)의 일례를 도시하는 도면이다. 데이터 소스 카탈로그(32)에는, 분석을 행하는 데이터 소스의 칼럼 정보가 미리 설정된 테이블이다. 또한, 본 실시예 1의 데이터 소스 카탈로그(32)는, 공장 B의 데이터 수집 서버(430)의 제조 실적 로그(442)와, 설비 얼러트(444)와, 생산 계획(443)의 테이블을 포함한다.
데이터 소스 카탈로그(32)는, 칼럼 ID(321)와, 입력 데이터 소스명(322)과, 테이블명(323)과, 칼럼명(324)과, 데이터형(325)과, 단위(326)와, 데이터 범위(327)와, 기타 속성(328)을 하나의 엔트리에 포함한다.
칼럼 ID(321)에는, 당해 데이터 소스의 칼럼을 특정하기 위한 식별자가 저장된다. 입력 데이터 소스명(322)에는, 당해 데이터 소스를 제공한 계산기의 명칭이 저장된다.
테이블명(323)에는, 당해 데이터 소스의 테이블의 명칭이 저장된다. 칼럼명(324)에는, 당해 칼럼의 명칭이 저장된다. 데이터형(325)에는, 데이터의 형식이 저장된다. 단위(326)에는, 당해 칼럼의 데이터의 단위가 저장된다. 데이터 범위(327)에는, 당해 칼럼의 값의 범위가 저장된다. 기타 속성(328)에는, 당해 칼럼의 속성이 저장된다.
데이터 소스 카탈로그(32)는, 데이터 수집 서버(410, 430)로부터의 정보에 기초하여, 미리 생성된 정보이다.
도 6은 공통 데이터 모델 카탈로그(33)의 일례를 도시하는 도면이다. 공통 데이터 모델 카탈로그(33)는, 공통 데이터 모델(60)(부품표(61) 내지 설비 얼러트(64))의 칼럼마다의 정보를 저장한 테이블이다.
공통 데이터 모델 카탈로그(33)는, 칼럼 ID(331)와, 테이블명(332)과, 칼럼명(333)과, 데이터형(334)과, 단위(335)와, 데이터 범위(336)와, 기타 속성(337)을 하나의 엔트리에 포함한다.
칼럼 ID(331)에는, 공통 데이터 모델(60)의 테이블과 칼럼을 특정하기 위한 식별자가 저장된다. 테이블명(332)에는, 당해 칼럼이 속하는 공통 데이터 모델(60)의 테이블의 명칭이 저장된다.
데이터형(334)에는 당해 칼럼의 데이터 형식이 저장된다. 단위(335)에는, 당해 칼럼의 데이터의 단위가 저장된다. 데이터 범위(336)에는, 당해 칼럼의 값의 범위가 저장된다. 기타 속성(337)에는, 당해 칼럼의 속성이 저장된다.
도 7은 필요 칼럼 관리 테이블(34)의 일례를 도시하는 도면이다. 필요 칼럼 관리 테이블(34)은, 분석 서버군(300)에서 실시된 분석 소프트웨어가 사용하는 공통 데이터 모델(60)의 칼럼의 정보를 특정하기 위한 테이블이다.
필요 칼럼 관리 테이블(34)은, 분석 ID(341)와, 분석명(342)과, 테이블명(343)과, 칼럼명(344)과, 필수 플래그(345)를 하나의 엔트리에 포함한다.
분석 ID(341)에는, 분석 서버군(300)에서 실시된 분석 소프트웨어를 특정하는 식별자가 저장된다. 분석명(342)에는, 당해 분석에 부여된 명칭 또는 분석 소프트웨어의 명칭이 저장된다. 테이블명(343)에는, 당해 분석에서 사용한 공통 데이터 모델(60)의 테이블명이 저장된다.
칼럼명(344)에는, 변환 완료 데이터를 저장하는 칼럼의 명칭이 저장된다. 필수 플래그(345)에는, 당해 칼럼이 분석 처리의 옵션 항목이나 필수 항목 중 어느 것인지가 저장된다. 분석 서버군(300)의 분석 처리에서, 필수 항목이면 「"예"」가 저장되고, 옵션 항목이면 「"아니오"」가 저장된다.
도 8은 칼럼 매핑 확실도 관리 테이블(35)의 일례를 도시하는 도면이다. 칼럼 매핑 확실도 관리 테이블(35)에는, 분석 지원 프로그램(10)이 산출한 데이터 소스의 칼럼과 공통 데이터 모델(60)의 칼럼 매핑 확실도(유사도)가 저장된다. 도 8의 예에서는, 공장 B의 데이터 수집 서버(430)의 데이터(제조 실적 로그(442), 생산 계획(443), 설비 얼러트(444))를 새로운 분석 대상 데이터로 하여, 분석 지원 프로그램(10)이 공통 데이터 모델 카탈로그(33)와의 매핑 확실도(357)를 산출한 예를 나타낸다.
칼럼 매핑 확실도 관리 테이블(35)은, 매핑 ID(351)와, 데이터 소스명(352)과, 맵원 테이블명(353)과, 맵원 칼럼명(354)과, 맵처 테이블명(355)과, 맵처 칼럼명(356)과, 매핑 확실도(357)를 하나의 엔트리에 포함한다.
매핑 ID(351)에는, 매핑 확실도를 특정하기 위한 식별자가 저장된다. 데이터 소스명(352)에는, 분석 대상 데이터를 갖는 데이터 소스의 명칭이 저장된다.
맵원 테이블명(353)에는, 데이터 소스측의 분석 대상 데이터의 테이블의 명칭이 저장된다. 맵원 칼럼명(354)에는, 데이터 소스측의 분석 대상 데이터의 칼럼의 명칭이 저장된다.
맵처 테이블명(355)에는, 공통 데이터 모델(60)의 정의로 변환한 후의 테이블의 명칭이 저장된다. 맵처 칼럼명(356)에는, 공통 데이터 모델(60)의 정의로 변환한 후의 칼럼의 명칭이 저장된다. 매핑 확실도(357)에는, 맵원 칼럼명(354)의 칼럼과, 맵처 칼럼명(356)의 칼럼의 유사도가 저장된다.
분석 지원 서버(1)는, 매핑 확실도(357)를 참조함으로써, 맵원 칼럼명(354)의 칼럼과, 맵처 칼럼명(356)의 칼럼의 스키마 레벨에서의 유사도를 취득할 수 있다.
도 9는 분석 난이도 관리 테이블(36)의 일례를 도시하는 도면이다. 분석 난이도 관리 테이블(36)은, 새로운 분석 대상 데이터에 대하여 분석 지원 프로그램(10)의 분석 난이도 산출부(13)가 생성한 테이블이다.
분석 난이도 관리 테이블(36)은, 분석 ID(361)와, 분석명(362)과, 애플리케이션/쿼리(363)와, 난이도(364)를 하나의 엔트리에 포함한다. 분석 ID(361)에는, 분석을 하는 분석 소프트웨어를 특정하기 위한 식별자가 저장된다. 분석명(362)에는, 분석의 명칭이 저장된다.
애플리케이션/쿼리(363)에는, 분석 서버군(300)에서 분석을 실시하는 분석 소프트웨어의 종별이 저장된다. 난이도(364)에는, 분석 지원 프로그램(10)이 산출한 분석 소프트웨어마다의 난이도가 저장된다.
난이도(364)는, 분석 지원 프로그램(10)이, 필요 칼럼 관리 테이블(34)의 분석 ID(341)마다 테이블명(343)과 칼럼명(344)을 선택하여, 칼럼 매핑 확실도 관리 테이블(35)의 맵처 테이블명(355)과 맵처 칼럼명(356)과 일치하는 매핑 확실도(357)를 취득한다. 또한, 분석 지원 프로그램(10)은 칼럼명(344) 중, 필수 플래그(345)가 「"예"」인 엔트리를 선택하고, 「"아니오"」인 엔트리를 배제한다.
그리고, 필요 칼럼 관리 테이블(34)의 하나의 분석 ID(341)에 복수의 칼럼명(344)이 존재하는 경우에는, 칼럼명(344)에 대응하는 맵처 칼럼명(356)의 매핑 확실도(357)의 승산값이 난이도(364)로서 산출된다.
예를 들어, 분석 ID(361)=「1」의 분석명(362)=「설비마다의 가동 시간 실적집계」의 분석 소프트웨어의 경우, 분석 지원 프로그램(10)은, 필요 칼럼 관리 테이블(34)의 분석 ID(341)=「1」의 테이블명(343)=「제조 실적」과 칼럼명(344)=「설비 ID」, 「일시」, 「가동 시간」을 선택한다.
다음에, 분석 지원 프로그램(10)은, 칼럼 매핑 확실도 관리 테이블(35)의 맵원 테이블(353)=「제조 실적」에서 맵처 칼럼명(356)=「설비 ID」의 매핑 확실도(357)=0.9와, 맵처 칼럼명(356)=「일시」의 매핑 확실도(357)=0.85와, 맵처 칼럼명(356)=「가동 시간」의 매핑 확실도(357)=0.9를 취득한다.
그리고, 분석 지원 프로그램(10)은, 상기 취득한 3개의 칼럼의 매핑 확실도를 승산하여, 0.9×0.85×0.9=0.69(0.6885≒0.69)로서 난이도(364)를 산출한다.
도 10은 분석 지원 서버(1)에서 실행되는 분석 지원 프로그램(10)의 일례를 설명하는 흐름도이다. 또한, 이하의 설명에서는 분석 지원 프로그램(10)을 처리의 주체로 하지만, 분석 지원 서버(1)나 CPU(3)를 처리의 주체로 해도 된다. 이 처리는, 새로운 분석 대상 데이터를 포함하는 데이터 소스 카탈로그(32)를 접수하면 개시된다.
먼저, 분석 지원 프로그램(10)은, 필요 칼럼 산출부(11)에서 분석 카탈로그(31)를 읽어들여, 분석을 실행하는 분석 서버군(300)의 분석 소프트웨어의 입력이 되는 공통 데이터 모델(60)의 칼럼을 산출하고, 필요 칼럼 관리 테이블(34)에 기입한다(S1).
필요 칼럼 산출부(11)는, 분석 서버군(300)이 과거에 사용한 공통 데이터 모델(60)의 테이블명과 칼럼명을 취득하여 필요 칼럼 관리 테이블(34)의 테이블명(343), 칼럼명(344)에 저장한다. 필요 칼럼 산출부(11)는, 분석 서버군(300)의 쿼리나 로그 등으로부터 분석에 필수 칼럼인지, 옵션 칼럼인지를 판정하여 필수 플래그(345)를 설정한다.
다음에, 분석 지원 프로그램(10)의 칼럼 매핑 확실도 산출부(12)는, 데이터 소스 카탈로그(32), 및 공통 데이터 모델 카탈로그(33)를 읽어들여, 데이터 소스(데이터 수집 서버(410, 430)의 테이블)의 칼럼과 공통 데이터 모델(60)(공통 데이터 모델 카탈로그(33))의 칼럼의 매핑 확실도(357)를 산출하고, 칼럼 매핑 확실도 관리 테이블(35)에 기입한다(S2).
칼럼 매핑 확실도 산출부(12)는, 상술한 바와 같이 데이터 수집 서버(410, 430)측의 테이블의 데이터 스키마와, 공통 데이터 모델(60)의 데이터 스키마를 스키마 매칭 & 매핑에 의해 칼럼마다의 유사도를 산출하여, 매핑 확실도(357)에 저장한다.
다음에, 분석 난이도 산출부(13)가, 필요 칼럼 관리 테이블(34), 및 칼럼 매핑 확실도 관리 테이블(35)을 읽어들여, 분석 ID(341)마다 필요한 칼럼의 매핑 확실도(357)를 취득하여, 상술한 바와 같이 난이도(364)를 산출하고, 분석 난이도 관리 테이블(36)에 기입한다(S3).
다음에, 분석 지원 프로그램(10)은, 분석 추천부(15)에 있어서, 분석 난이도 관리 테이블(36)을 읽어들여, 난이도(364)의 값이 큰 분석 ID를 상위 랭크로서 소트하고, 도 11에 도시한 결과 확인 화면(81)에 표시한다(S4).
난이도(364)의 값이 클수록, 데이터 소스로부터 공통 데이터 모델(60)로의 변환이 용이하여, 분석의 전처리인 데이터 소스로부터 공통 데이터 모델(60)로의 변환 및 매핑 작업이 용이해진다. 분석 추천부(15)는, 전처리가 용이한 순서로 결과 확인 화면(81)의 분석 일람(811)에 분석의 리스트를 표시한다.
도 11은 분석 지원 프로그램(10)의 분석 추천부(15)가 출력하는 결과 확인 화면(81)의 일례를 도시하는 도면이다. 결과 확인 화면(81)은, 도면 중 상부를 분석 일람(811)의 표시 영역으로 하고, 도면 중 하부를 분석 난이도 근거(812)의 표시 영역으로 한다. 또한, 분석 난이도 근거(812)는, 분석 일람(811)의 1행이 선택된 후에 표시된다.
분석 일람(811)에는, 분석 ID와, 분석명과, 애플리케이션 또는 쿼리의 종별과, 중요도와, 과거 효과와, 난이도 및 완료 플래그를 하나의 행에 포함하는 리스트로 구성되고, 분석의 내용이 표시된다. 또한, 분석 일람(811)의 난이도(364)를 제외한 항목은, 도 4의 분석 카탈로그(31)의 내용이다.
분석 지원 서버(1)의 이용자는 마우스(92)를 조작하여, 분석 ID=4의 행을 클릭하면, 분석 난이도 근거(812)의 표시 영역에, 공통 데이터 모델(60)과 데이터 소스의 매핑 확실도(도면 중 「확실도 0.9」 등)가 표시된다.
또한, 분석 난이도 근거(812)의 표시 영역의 확실도의 아래에는, 공통 데이터 모델(60)과 데이터 소스의 칼럼의 대응짓기를 결정하는 확정 버튼(813)이 표시된다. 분석 지원 서버(1)의 이용자는, 공통 데이터 모델(60)의 칼럼과 데이터 소스의 칼럼의 대응짓기가 타당하면 당해 칼럼의 매핑 확실도는 1.0(100%)으로 변경된다.
도 10의 스텝 S5에서는, 분석 지원 프로그램(10)의 분석 추천부(15)가, 결과 확인 화면(81)의 종료 조작을 접수하였는지 여부를 판정한다. 분석 지원 서버(1)의 이용자가 결과 확인 화면(81)에 대하여 윈도우를 닫는 조작을 행한 경우에는 처리를 종료한다. 분석 추천부(15)는, 처리를 종료할 때, 추천 결과 파일(37)에 분석의 추천 결과를 저장한다. 한편, 종료 조작이 없었던 경우에는 스텝 S6으로 진행한다.
스텝 S6에서는, 분석 추천부(15)가 결과 확인 화면(81)에 있어서 이용자가 조작하는 마우스(92)가 분석 일람(811)의 행을 선택하였는지 여부를 판정한다. 분석 일람(811)의 행을 선택한 경우에는 스텝 S7로 진행하고, 그렇지 않은 경우에는 스텝 S5로 되돌아가 마우스(92)나 키보드(91)의 조작을 기다린다.
스텝 S7에서는, 분석 추천부(15)가, 난이도를 산출한 근거가 되는 공통 데이터 모델(60)의 칼럼과 데이터 소스의 칼럼의 매핑 확실도를 칼럼 매핑 확실도 관리 테이블(35)로부터 취득하여, 결과 확인 화면(81)의 분석 난이도 근거(812)에 표시한다.
다음에, 스텝 S8에서는, 분석 추천부(15)가, 분석 난이도 근거(812)에 있어서 이용자가 조작하는 마우스(92)로 확정 버튼(813)을 클릭하였는지 여부를 판정한다. 확정 버튼(813)을 조작한 경우에는 스텝 S9로 진행하고, 그렇지 않은 경우에는 스텝 S3으로 되돌아가 상기 처리를 반복한다.
스텝 S9에서는, 분석 추천부(15)가, 확정 버튼(813)으로 선택된 데이터 소스의 칼럼과 공통 데이터 모델(60)의 칼럼의 매핑 확실도(357)를 1.0으로 설정하고, 칼럼 매핑 확실도 관리 테이블(35)의 해당하는 엔트리를 갱신한다.
분석 추천부(15)는, 칼럼 매핑 확실도 관리 테이블(35)을 갱신한 후에, 스텝 S3으로 되돌아가 난이도(364)를 재계산하여 상기 처리를 반복한다.
이상의 처리에 의해, 분석 지원 서버(1)는, 새로운 분석 대상 데이터를 데이터 소스 카탈로그(32)에 설정하여 매핑 확실도의 산출과, 난이도의 산출을 행함으로써, 어떤 분석을 용이하게 실시할 수 있는지를 결과 확인 화면(81)에 의해 알 수 있다.
이에 의해, 분석 대상 데이터를 공통 데이터 모델(60)로 변환할 때의 매핑의 난이도에 기초하여, 용이하게 실시 가능한 분석의 제안이나, 분석 대상 데이터에 적용하는 분석 소프트웨어를 제안하는 것이 가능하게 되어, 분석의 공정수나 분석에 드는 수고를 저감할 수 있다.
또한, 새로운 분석 대상 데이터에 대하여, 칼럼 매핑 확실도 관리 테이블(35)의 매핑이 타당하면, 결과 확인 화면(81)에 있어서 이용자가 확정 버튼(813)을 조작함으로써, 매핑 확실도(357)를 1.0(100%)으로 설정하여 칼럼 매핑 확실도 관리 테이블(35)로 피드백할 수 있다.
또한, 칼럼 매핑 확실도 관리 테이블(35)로 피드백한 후에, 분석 지원 서버(1)에서 매핑 확실도(357) 및 난이도(364)를 재계산함으로써, 새로운 분석 일람(811)을 표시할 수 있다.
이상과 같이, 분석 일람(811)이나 분석 난이도 근거(812)의 표시에 의해, 분석 지원 서버(1)의 이용자는, 분석의 전처리에 요하는 수고 등을 난이도로서 파악할 수 있다. 또한, 데이터 소스로부터 공통 데이터 모델(60)로의 변환에서 시간이 걸리는 칼럼이 어느 정도 존재하는지를 파악할 수 있다.
이와 같이, 본 실시예 1에 의하면, 분석 처리의 전처리가 되는 칼럼 매핑의 작업량의 대소를 나타내는 지표로서 난이도를 산출하고, 데이터 소스가 되는 분석 대상 데이터를 평가할 수 있다.
이에 의해, 분석 지원 서버(1)는, 방대한 데이터나 다종의 테이블에 대한 분석을 어떤 분석 처리부터 시작하면 좋은지, 혹은, 어떤 분석 처리가 실현 가능한지를, 과거의 분석에서 사용한 분석 소프트웨어 중에서 제안할 수 있다. 또한, 과거에 사용한 분석 소프트웨어를 이용함으로써, 계산기 자원을 유효하게 이용하여 분석 처리의 리드 타임을 대폭 단축할 수 있다.
또한, 상기 실시예 1에서는, 공통 데이터 모델(60)이나 각 테이블을 데이터 레이크 서버(2)에 저장한 예를 나타냈지만, 이들 데이터를 분석 지원 서버(1)에 저장하도록 해도 된다.
실시예 2
도 12 내지 도 26은 본 발명의 실시예 2를 나타낸다. 실시예 2에서는, ETL(Extract, Transform, Load) 카탈로그와, 데이터 소스의 품질을 고려하여 칼럼 매핑 확실도 및 난이도를 산출하고, 작업 효율이 좋은 순서로 분석을 제안하는 예를 나타낸다.
본 실시예 2에서는, 상기 실시예 1의 구성에 분석 프로젝트 관리 서버(305)와, ETL 카탈로그(38)와, ETL 칼럼 매핑 확실도 관리 테이블(39)과, 데이터 품질 관리 테이블(41)과, 스킬 세트 실적(42)과, ETL 처리부(70)를 추가한 것이다. 그 밖의 구성은 상기 실시예 1과 마찬가지이다.
도 12a는 데이터 분석 지원 시스템의 일례를 도시하는 블록도이다. 본 실시예 2에서는, 데이터 레이크 서버(2)에 ETL 처리부(70)를 추가하고, 분석 프로젝트 관리 서버(305)를 추가하고, 도 13에서 도시한 바와 같이, 데이터 레이크 서버(2)의 스토리지(20)에 유지하는 데이터를 추가하였다. ETL 처리부(70)는, 설비 얼러트 단위 변환(71)과, 생산 계획 기간 변환(72)과, 생산 계획 설비명 분할(73)을 포함하고, 분석 지원 프로그램(10)이 필요에 따라서 판독하여, 분석 지원 서버(1)에서 실행시킨다.
도 13은 분석 지원 프로그램(10)의 기능 요소의 일례를 도시하는 블록도이다. 본 실시예 2에서는, 상기 실시예 1에서 설명한 스토리지(20)에, ETL 카탈로그(38)와, ETL 칼럼 매핑 확실도 관리 테이블(39)과, 데이터 품질 관리 테이블(41)과, 스킬 세트 실적(42)를 추가한 것이다.
또한, 분석 지원 프로그램(10)은, 칼럼 매핑 확실도 산출부(12)에 ETL 칼럼 매핑 확실도 산출부(121)를 추가하고, 분석 난이도 산출부(13)에 데이터 품질 해석부(131)와, 데이터 품질 분석 난이도 보정부(132)를 추가하고, 분석 추천부(15)에 분석 스케줄링부(151)를 추가하고, 제휴 인터페이스(18)를 추가하였다.
제휴 인터페이스(18)는, 분석 프로젝트 관리 서버(305)에 분석 프로젝트의 내용을 스프레드시트의 형식으로 출력한다. 분석 프로젝트 관리 서버(305)는, 분석 태스크 도입부(306)에서 스프레드시트 형식의 분석 프로젝트를 접수하여, 분석 프로젝트의 관리를 행한다.
본 실시예 2에서는, 상기 실시예 1과 마찬가지로 칼럼 매핑 확실도 산출부(12)에서 데이터 소스 카탈로그(32)와 공통 데이터 모델 카탈로그(33)로부터 칼럼 매핑 확실도 관리 테이블(35)을 산출하는 것에 더하여, ETL 칼럼 매핑 확실도 산출부(121)가 데이터 소스 카탈로그(32)와, ETL 카탈로그(38)로부터 ETL 칼럼 매핑 확실도 관리 테이블(39)을 생성한다.
그리고, 데이터 소스의 칼럼에 대하여, 칼럼 매핑 확실도 관리 테이블(35)과 ETL 칼럼 매핑 확실도 관리 테이블(39) 중 매핑 확실도가 높은 쪽을 난이도의 산출에 이용한다.
또한, 분석 난이도 산출부(13)에서는, 데이터 품질 해석부(131)가 데이터 소스 카탈로그(32)의 분석 대상 데이터를 읽어들여, 분석 대상 데이터의 품질에 대하여 해석을 실행하여 데이터 품질(41)의 테이블을 생성한다.
데이터 품질 분석 난이도 보정부(132)는, 분석 대상 데이터의 품질에 기초하여 매핑 확실도를 보정한다. 그 밖의 구성에 대해서는, 상기 실시예 1과 마찬가지이다.
도 14는 분석 카탈로그(31)의 일례를 도시하는 도면이다. 도 14는 상기 실시예 1의 도 4에 대하여, 중요도(314)와, 과거 효과(315)와, 표준 소요 시간(316)과, 필요 스킬(317)과, 납기(318)가 설정되어 있는 점이 상이하다. 중요도(314) 내지 납기(318)의 각 칼럼은 분석 지원 서버(1)의 이용자나 관리자가 설정할 수 있다.
도 15는 ETL 카탈로그(38)의 일례를 도시하는 도면이다. ETL 카탈로그(38)는, ETL 처리부(70)의 요소의 정의를 미리 설정한 테이블이며, 본 실시예 2에서는, 설비 얼러트 단위 변환(71)과, 생산 계획 기간 변환(72)과, 생산 계획 설비명 분할(73)을 요소로 한 예를 나타낸다. ETL 카탈로그(38)는, 분석 대상 데이터에 대응하여, 추출하는 데이터의 정의와, 데이터의 변환의 정의와, 변환한 데이터를 저장하는 공통 데이터 모델(60)의 정의가 미리 설정된다.
ETL 카탈로그(38)는, ETLID(381)와, ETL명(382)과, 입력 테이블명(383)과, 입력 칼럼명(384)과, 출력 테이블명(385)과, 출력 칼럼명(386)을 하나의 엔트리에 포함한다.
ETLID(381)에는, ETL을 특정하기 위한 식별자가 저장된다. ETL명(382)에는, ETL(ETL 처리부(70)의 각 요소)의 명칭이 저장된다. 입력 테이블명(383)에는, 데이터 소스가 되는 데이터 수집 서버(410, 430)의 테이블의 명칭이 저장된다. 입력 칼럼명(384)에는, 데이터 수집 서버(410, 430)의 테이블 내의 칼럼의 명칭이 저장된다.
출력 테이블명(385)에는, 공통 데이터 모델(60)의 테이블의 명칭이 저장된다. 출력 칼럼명(386)에는, 공통 데이터 모델(60)의 테이블 내의 칼럼의 명칭이 저장된다.
도시한 예에서는, ETLID(381)=「3」의 ETL명(382)=「생산 계획 기간 변환」에서는 입력 칼럼명(384)=「개시 시각」과, ETLID(381)=「4」의 입력 칼럼명(384)=「종료 시각」의 2개의 값이, 공통 데이터 모델(60)의 생산 계획(62)의 출력 칼럼명(386)=「일시」의 하나의 값으로 변환되는 것을 나타낸다. 또한, 변환의 구체적인 내용에 대해서는, ETL 처리부(70)의 각 요소에 설정해 둔다.
ETL 카탈로그(38)는, 1 이상의 입력 칼럼명(384)과 출력 칼럼명(386)을 대응지어, 값이나 데이터 형식의 변환의 정의를 설정함으로써, 단순한 매핑에서는 변환 완료 데이터의 칼럼에 할당할 수 없는 칼럼을, 데이터 소스로서 이용하는 것이 가능해진다.
도 12b는 ETL 처리부(70)의 일례로서, ETL명(382)=「생산 계획 기간 변환」=생산 계획 기간 변환(72)에서 행해지는 처리의 일례를 도시한다. 분석 지원 서버(1)는, 생산 계획 기간 변환(72)을 읽어들여 실행시킨다. 생산 계획 기간 변환(72)은, 입력 테이블(383)에서 지정된 생산 계획(443)으로부터 입력 칼럼명(384)에서 지정된 「개시 시각」과 「종료 시각」을 읽어들인다(S721). 이 예에서는, 공장 B의 생산 계획(443)을 새롭게 추가하는 데이터 소스로 하고 있다.
생산 계획 기간 변환(72)은, 읽어들인 데이터 소스에 대하여, 소정의 변환을 실행한다(S722). 이 예에서는, 출력 칼럼명(386)=「일시」=「종료 시각」-「개시 시각」으로서 연산한다. 그리고, 생산 계획 기간 변환(72)은 출력 테이블명(385)에서 지정된 공통 데이터 모델(60)의 생산 계획(62)으로 변환한 데이터를 저장한다(S723). 또한, ETL 처리부(70)의 설비 얼러트 단위 변환(71)과, 생산 계획 설비명 분할(73)에 대해서도 마찬가지로 데이터 소스를 변환하여 공통 데이터 모델(60)에 저장한다.
도 16은 ETL 칼럼 매핑 확실도 관리 테이블(39)의 일례를 도시하는 도면이다. ETL 칼럼 매핑 확실도 관리 테이블(39)은, ETL 칼럼 매핑 확실도 산출부(121)에 의해 생성되는 테이블이다.
ETL 칼럼 매핑 확실도 관리 테이블(39)은, ETL 매핑 ID(391)와, 맵원 테이블명(392)과, 맵원 칼럼명(393)과, 맵처 ETL명(394)과, 맵처 칼럼명(395)과, 매핑 확실도(396)를 하나의 엔트리에 포함한다.
ETL 매핑 ID(391)에는, 매핑 확실도의 엔트리를 특정하기 위한 식별자가 저장된다. 맵원 테이블명(392)에는, 데이터 소스의 데이터 수집 서버(410, 430)의 테이블명이 저장된다. 맵원 칼럼명(393)에는, 데이터 소스의 데이터 수집 서버(410, 430)의 테이블 내의 칼럼명이 저장된다.
맵처 ETL명(394)에는, ETL 카탈로그(38)의 ETL명(382)에 대응하는 명칭이 저장된다. 맵처 칼럼명(395)에는, ETL 카탈로그(38)의 출력 칼럼명(386)에 대응하는 명칭이 저장된다. 매핑 확실도(396)에는, ETL 칼럼 매핑 확실도 산출부(121)가 산출한 ETL의 매핑 확실도가 저장된다.
도시한 예에서는, ETL 매핑 ID(391)=「1」에서는, 맵원 테이블명(392)이 데이터 수집 서버(430)의 설비 얼러트(444)에 대하여, 맵원 칼럼명(393)의 「날짜 시각」의 값을 시간 단위로 변환함으로써, ETL 처리부(70)의 설비 얼러트 단위 변환(71)의 맵처 칼럼명(395)=「일시(시간 단위)」로 맵할 수 있고, 「날짜 시각」과 「일시」의 매핑 확실도(396)=「0.9」인 것을 나타내고 있다.
도 17은 데이터 품질 관리 테이블(41)의 일례를 도시하는 도면이다. 데이터 품질 관리 테이블(41)은, 분석 난이도 산출부(13)의 데이터 품질 해석부(131)가 분석 대상 데이터를 포함하는 데이터 소스 카탈로그(32)를 참조하여 생성하는 테이블이다. 데이터 품질 관리 테이블(41)은, 데이터 소스의 칼럼마다 데이터의 품질을 저장한다.
데이터 품질 관리 테이블(41)은, 칼럼 ID(411)와, 입력 데이터 소스명(412)과, 테이블명(413)과, 칼럼명(414)과, Null 다수(415)와, 중복(416)과, 이상치(417)와, 문자수 어긋남(418)과, 종합 스코어(419)를 하나의 엔트리에 포함한다.
칼럼 ID(411)에는, 데이터 소스의 칼럼을 특정하기 위한 식별자가 저장된다. 입력 데이터 소스명(412)에는, 데이터 소스가 되는 데이터 수집 서버를 특정하는 명칭이 저장된다. 테이블명(413)에는, 데이터 소스가 되는 데이터 수집 서버의 테이블의 명칭이 저장된다. 칼럼명(414)에는, 데이터 소스가 되는 테이블에 포함되는 칼럼의 명칭이 저장된다.
Null 다수(415)에는, 당해 칼럼에서 Null값을 포함하는 레코드의 비율이 저장된다. 중복(416)에는, 당해 칼럼에서 값이 중복되는 레코드의 비율이 저장된다. 이상치(417)에는, 당해 칼럼에서 값이 소정의 역치를 초과한 레코드의 비율이 저장된다. 문자수 어긋남(418)에는, 당해 칼럼에서 문자수가 어긋난 레코드의 비율이 저장된다. 종합 스코어(419)에는, Null 다수(415)와 중복(416)과 이상치(417)와 문자수 어긋남(418)의 값에 기초하여 데이터 소스의 품질로서 산출된 종합 스코어(419)가 저장된다.
본 실시예 2에서는, 데이터의 품질을 나타내는 종합 스코어=1-(Null 다수(415)+중복(416)+이상치(417)+문자수 어긋남(418))으로서 산출하는 예를 나타낸다. 또한, 종합 스코어(419)의 산출 방법은, 이것에 한정되는 것은 아니고, 데이터 품질 관리 테이블(41)에서 데이터 소스의 품질을 나타내는 Null 다수(415) 내지 문자수 어긋남(418)의 각 필드의 값의 승산값이나 중앙값 등을 사용해도 된다.
본 실시예 2에서는, 종합 스코어(419)의 값이 1.0에 가까울수록, 그대로 분석이 가능한 고품질의 데이터이며, 반대로 0에 가까워질수록, 데이터 소스에 클렌징 등의 전처리가 필요한 저품질의 데이터이다.
즉, 종합 스코어(419)가 나타내는 품질은, 데이터 소스에 대한 클렌징에 요하는 처리량(시간 또는 수고)을 나타내는 지표이다. 또한, 본 실시예 2의 클렌징은, 예를 들어 데이터 소스로부터 중복이나 오기, 표기의 오류 등을 검출하여, 삭제나 수정, 정규화 등을 실시하는 것을 나타낸다.
본 실시예 2에서는, 분석 대상 데이터에 대하여 분석을 행할 때의 전처리로서, 분석 대상 데이터의 칼럼을 공통 데이터 모델(60)의 칼럼으로 매핑하는 처리(칼럼 매핑 처리)와, 분석 대상 데이터의 내용에 대하여 클렌징을 행하는 처리의 2개의 처리를 포함하는 예를 나타낸다. 또한, 칼럼 매핑 처리에는, ETL 카탈로그(38)에 기초하여, 맵원 칼럼명(354)의 값을, 맵처 칼럼명(356)의 값으로 변환하는 처리를 포함하는 것으로 한다.
또한, 분석 지원 프로그램(10)은, 데이터 소스 카탈로그(32)를 접수하면, 칼럼 매핑 확실도 산출부(12)가 매핑 확실도를 산출하기 전에, 분석 난이도 산출부(13)의 데이터 품질 해석부(131)에서, 당해 데이터 품질 관리 테이블(41)을 생성한다.
그리고, 후술하는 바와 같이, 데이터 품질 관리 테이블(41)의 종합 스코어(419)에 기초하여, 매핑 확실도(357, 386)가 보정된다.
도 18은 분석 난이도 관리 테이블(36)의 일례를 도시하는 도면이다. 분석 난이도 관리 테이블(36)은, 새로운 분석 대상 데이터에 대하여 분석 지원 프로그램(10)의 분석 난이도 산출부(13)가 생성하는 테이블이다. 본 실시예 2의 분석 난이도 관리 테이블(36)은, 상기 실시예 1의 도 9에 도시한 분석 난이도 관리 테이블(36)에, 표준 소요 시간(365)과, 보정 후 소요 시간(366)을 추가한 것이며, 그 밖의 구성에 대해서는 상기 실시예 1과 마찬가지이다.
분석 난이도 관리 테이블(36)은, 분석 ID(361)와, 분석명(362)과, 애플리케이션/쿼리(363)와, 난이도(364)와, 표준 소요 시간(365)과, 보정 후 소요 시간(366)을 하나의 엔트리에 포함한다.
표준 소요 시간(365)은, 당해 분석이 완료될 때까지 요하는 표준적인 시간이 저장된다. 본 실시예 2에서는, 분석 카탈로그(31)의 ID(311)마다 미리 설정된 표준 소요 시간(316)을, 분석 난이도 산출부(13)가 당해 표준 소요 시간(365)으로 설정한 예를 나타낸다. 보정 후 소요 시간(366)에는, 데이터 품질 분석 난이도 보정부(132)가, 난이도(364)에 따라서 표준 소요 시간(365)을 보정한 값이 저장된다.
도 13의 스킬 세트 실적(42)에는, 도시는 하지 않지만, 분석 작업을 실시하는 인원과, 각 인원의 스킬이 미리 설정된다. 또한, 인원의 스킬은 분석 카탈로그(31)의 필요 스킬(317)에 대응하는 값이 저장된다.
도 19는 분석 지원 프로그램(10)에서 행해지는 처리의 일례를 설명하는 흐름도이다. 이 처리는, 상기 실시예 1과 마찬가지로, 데이터 소스 카탈로그(32)를 접수하고 나서 개시된다. 또한, 도 19에서는, 필요 칼럼 관리 테이블(34)이 이미 생성되어 있음을 전제로 한다. 또한, 상술한 바와 같이, 분석 난이도 산출부(13)의 데이터 품질 해석부(131)에 의해 데이터 품질 관리 테이블(41)도 이미 생성되어 있다.
분석 지원 프로그램(10)의 칼럼 매핑 확실도 산출부(12)는, 데이터 소스 카탈로그(32) 및 공통 데이터 모델 카탈로그(33)를 읽어들여, 각각의 매핑 확실도(357)를 산출하고, 칼럼 매핑 확실도 관리 테이블(35)에 기입한다(S11). 이 처리는, 상기 실시예 1의 도 10에 도시한 스텝 S2와 마찬가지이며, 데이터 소스의 칼럼과 공통 데이터 모델(60)의 칼럼의 매핑 확실도가 산출되어, 도 8에 도시한 칼럼 매핑 확실도 관리 테이블(35)이 생성된다.
다음에, 분석 지원 프로그램(10)에서는, ETL 칼럼 매핑 확실도 산출부(121)가, 데이터 소스 카탈로그(32) 및 ETL 카탈로그(38)를 읽어들여, 매핑 확실도를 산출하고, ETL 칼럼 매핑 확실도 관리 테이블(39)에 기입한다(S12).
ETL 칼럼 매핑 확실도 산출부(121)는, 데이터 소스 카탈로그(32)의 테이블명(323)과 칼럼명(324)을 취득하여, ETL 카탈로그(38)의 입력 테이블명(383)과 입력 칼럼명(384)을 검색하고, 일치하는 엔트리의 ETL명(382)과 출력 칼럼명(386)을 취득한다.
그리고, ETL 칼럼 매핑 확실도 산출부(121)는, 입력 칼럼명(384)과 출력 칼럼명(386)의 매핑 확실도를 산출한다. ETL 칼럼 매핑 확실도 산출부(121)는, ETL 칼럼 매핑 확실도 관리 테이블(39)에 새로운 엔트리를 생성하고 나서 유니크한 ETL 매핑 ID(391)를 부여한다.
ETL 칼럼 매핑 확실도 산출부(121)는, 산출한 매핑 확실도를 매핑 확실도(396)에 저장하고, 맵원 테이블명(392)에 입력 테이블명(383)을 저장하고, 맵원 칼럼명(393)에 입력 칼럼명(384)을 저장하여, 맵처 ETL명(394)에 ETL명(382)을 저장하고, 맵처 칼럼명(395)에 출력 칼럼명(386)을 저장하고, ETL 칼럼 매핑 확실도 관리 테이블(39)을 생성한다.
ETL 칼럼 매핑 확실도 산출부(121)는, 상기 처리를 데이터 소스 카탈로그(32)의 모든 엔트리에 대하여 실행한다. 이에 의해, 단순한 매핑에서는 이용할 수 없는 데이터 소스의 칼럼을, 맵처 칼럼명(395)의 단위나 데이터 형식으로 변환하는 것이 가능해진다. ETL 카탈로그(38)에서는, 1 이상의 데이터 소스의 칼럼을 1개의 맵처 칼럼명(356)으로 집약하거나, 하나의 데이터 소스 칼럼을 복수의 맵처 칼럼명(356)으로 분할하는 정의를 설정할 수 있다.
다음에, 분석 지원 프로그램(10)의 분석 난이도 산출부(13)는, 분석 카탈로그(31)의 각 분석에 대하여, 데이터 소스 카탈로그(32)의 데이터로 분석을 행하는 경우의 난이도를 각각 산출한다(S13).
분석 난이도 산출부(13)는, 칼럼 매핑 확실도 관리 테이블(35)의 매핑 확실도(357)와, ETL 칼럼 매핑 확실도 관리 테이블(39)의 매핑 확실도(396)로부터 값이 큰 쪽의 매핑 확실도를 선택한다. 또한, 분석 난이도 산출부(13)는, 칼럼 매핑 확실도 관리 테이블(35)의 맵원 칼럼명(354)이, ETL 카탈로그(38)의 입력 칼럼명(384)에 해당하는 엔트리가 존재하지 않는 경우에는, 칼럼 매핑 확실도 관리 테이블(35)의 값을 선택한다.
그리고, 분석 난이도 산출부(13)의 데이터 품질 분석 난이도 보정부(132)는, 선택된 매핑 확실도를 데이터 품질 관리 테이블(41)의 종합 스코어(419)로 보정하고 나서, 분석 대상 데이터에 대한 분석 처리의 난이도를 분석 ID마다 산출한다.
도 20은 상기 스텝 S13에서 행해지는 난이도의 산출 처리의 일례를 설명하는 흐름도이다. 먼저, 스텝 S31에서는, 분석 난이도 산출부(13)가, 데이터 품질 관리 테이블(41)을 읽어들여, 칼럼명(414)마다의 종합 스코어(419)를 취득한다.
다음에, 스텝 S32에서는, 분석 난이도 산출부(13)가, 칼럼 매핑 확실도 관리 테이블(35)과, ETL 칼럼 매핑 확실도 관리 테이블(39)을 읽어들여, 데이터 소스와 ETL의 칼럼의 비교를 행한다.
즉, 분석 난이도 산출부(13)는, 칼럼 매핑 확실도 관리 테이블(35)의 맵원 테이블명(353)과 맵원 칼럼명(354)이, ETL 칼럼 매핑 확실도 관리 테이블(39)의 맵원 테이블명(392)과 맵원 칼럼명(393)과 일치하는 경우, 매핑 확실도(357)와 ETL 칼럼 매핑 확실도 관리 테이블(39)의 매핑 확실도(396) 중, 값이 큰 쪽을 당해 맵원 칼럼명의 매핑 확실도로서 선택한다.
다음에, 스텝 S33에서는, 분석 난이도 산출부(13)가, 상기 스텝 S32에서 선택한 칼럼마다의 매핑 확실도를 분석 ID(311)마다 취득하고, 스텝 S31에서 취득한 칼럼명(414)마다의 종합 스코어(419)로 매핑 확실도를 보정하고 나서 난이도를 산출한다.
분석 ID(311)에 포함되는 칼럼의 번호를 n, 선택한 매핑 확실도를 S, 데이터 품질 관리 테이블(41)의 스코어를 T라 하면, 난이도 D는,
D=(S1×T1)×(S2×T2)………×(Sn×Tn)
로 표시된다.
선택한 매핑 확실도 S에 데이터 품질의 종합 스코어 T를 곱하여 보정함으로써, 데이터의 품질이 낮을수록 난이도 D의 값은 낮아져, 데이터 소스의 전처리(클렌징)에 시간이나 수고를 요하게 된다.
다음에, 스텝 S34에서는, 분석 난이도 산출부(13)의 데이터 품질 분석 난이도 보정부(132)가, 상기 스텝 S33에서 산출된 난이도에 기초하여, 분석 카탈로그(31)의 표준 소요 시간(316)의 값을 후술하는 바와 같이 보정한다.
다음에, 스텝 S35에서는, 분석 난이도 산출부(13)가 분석 난이도 관리 테이블(36)을 생성한다. 즉, 분석 난이도 산출부(13)는, 분석 난이도 관리 테이블(36)에 새로운 엔트리를 추가하여, 분석 카탈로그(31)의 분석 ID(311)와 분석명(312)과 애플리케이션/쿼리(313)를, 분석 ID(361), 분석명(362)과 애플리케이션/쿼리(363)에 저장한다.
그리고, 분석 난이도 산출부(13)는, 스텝 S33에서 산출된 난이도를 난이도(364)에 저장하고, 분석 카탈로그(31)의 표준 소요 시간(316)을 표준 소요 시간(365)에 저장하고, 스텝 S34에서 보정된 표준 소요 시간을 보정 후 소요 시간(366)에 저장하여 처리를 종료한다.
도 21은 난이도의 산출을 설명하는 분석 난이도 근거(812)의 표시 영역의 일례를 도시하는 도면이다. 도 21에서는, 분석 ID(311)=「4」의 「설비마다의 얼러트 횟수 집계」에 대하여 분석 대상 데이터의 난이도(364)를 산출하는 예를 도시한다.
칼럼 매핑 확실도 산출부(12)는, 필요 칼럼 관리 테이블(34)로부터, 공통 데이터 모델(60)의 설비 얼러트(64)로부터 칼럼명(344)=「설비 ID」와 「일시」를 취득한다. 또한, 칼럼 매핑 확실도 산출부(12)는, 데이터 소스 카탈로그(32)로부터 테이블명(323)=「설비 얼러트」로부터 칼럼명(324)=「설비 ID」와 「날짜 시각」을 취득한다.
칼럼 매핑 확실도 산출부(12)는, 공통 데이터 모델(60)과 데이터 소스의 매핑 확실도를 산출하여, 도 8에서 도시한 바와 같이, 「설비 ID」의 매핑 확실도=0.95와 「날짜 시각」과 「일시」의 매핑 확실도=0.9를 얻는다.
ETL 칼럼 매핑 확실도 산출부(121)는, ETL 카탈로그(38)로부터 입력 칼럼명(384)에 「날짜 시각」을 포함하는 「설비 얼러트 일시 변환」을 선택하고, 출력 칼럼명(386)=「일시(시간 단위)」을 취득하여 매핑 확실도=0.9를 산출한다.
칼럼 매핑 확실도 산출부(12)는, ETL에 의한 매핑 확실도와, 공통 데이터 모델(60)에 의한 매핑 확실도 중 값이 큰 쪽을 취득한다. 이 결과, 선택된 매핑 확실도는, 「설비 ID」=0.95, 「일시」=0.9가 된다.
다음에, 분석 난이도 산출부(13)에서는 데이터 품질 분석 난이도 보정부(132)가, 데이터 품질 관리 테이블(41)로부터 종합 스코어(419)를 읽어들여, 「설비 ID」=0.98과 「날짜 시각」=1.0을 취득한다.
데이터 품질 분석 난이도 보정부(132)는, 매핑 확실도를 종합 스코어(419)로 보정하여 난이도(364)를 산출한다. 즉, 난이도=(0.95×0.98)×(1.0×0.9)=0.8379가 된다.
도 22는 표준 소요 시간의 보정 처리의 일례를 설명하는 흐름도이다. 이 처리는, 분석 난이도 산출부(13)가 상기 스텝 S34에서 행한다.
스텝 S41에서 분석 난이도 산출부(13)는, 칼럼 매핑 확실도 관리 테이블(35)을 읽어들여, 난이도가 0.8을 초과하였으면, 스텝 S47로 진행하여, 표준 소요 시간(316)을 그대로 보정 후 소요 시간(366)에 저장한다.
스텝 S42에서는 분석 난이도 산출부(13)가, 난이도가 0.8 이하이고, 또한 난이도가 0.6 이상이면, 스텝 S46으로 진행하여 보정 계수를 1.2로 하고, 표준 소요 시간(316)에 1.2를 곱한 값을 보정 후 소요 시간(366)에 저장한다.
스텝 S43에서는 분석 난이도 산출부(13)가 0.6 미만이며, 또한 난이도가 0.4 이상이면, 스텝 S45로 진행하여 보정 계수를 1.5로 하고, 표준 소요 시간(316)에 1.5를 곱한 값을 보정 후 소요 시간(366)에 저장한다.
스텝 S44에서는 분석 난이도 산출부(13)가, 난이도가 0.4 미만이므로 보정 계수를 2로 하고, 표준 소요 시간(316)에 2를 곱한 값을 보정 후 소요 시간(366)에 저장한다.
상기 처리에 의해, 공통 데이터 모델(60)과 데이터 소스의 매핑 확실도와, ETL 카탈로그(38)와 데이터 소스의 매핑 확실도 중 큰 쪽이 선택되어, 데이터 품질의 종합 스코어(419)로 보정된 매핑 확실도의 승산값으로부터 당해 분석 ID를 데이터 소스로 실시하는 경우의 난이도(364)가 산출된다.
이에 의해, 데이터 품질의 종합 스코어(419)가 높을수록 난이도(364)의 값은 커져, 데이터 소스의 전처리(클렌징)에 요하는 수고가 저감된다. 반대로, 데이터 품질의 종합 스코어(419)가 낮을수록 난이도(364)의 값은 작아져, 데이터 소스의 전처리에 요하는 수고가 증대된다.
또한, 표준 소요 시간(316)은 난이도(364)에 따라서 보정 계수가 설정되고, 난이도(364)의 값이 낮을수록 보정 계수가 커지도록 보정된다. 이에 의해, 난이도(364)의 값이 작을수록, 데이터의 클렌징 등의 전처리에 요하는 시간 또는 수고가 증대되기 때문에, 소요 시간도 증대되도록 보정된다.
다음에, 도 19의 스텝 S14에서는, 분석 지원 프로그램(10)의 분석 추천부(15)가, 분석 난이도 관리 테이블(36)에서 난이도가 큰 순으로 소트하고 나서, 후술하는 바와 같이 납기(318)를 고려하여 상위의 분석 처리부터 순서대로 추천 대상으로서 선택한다.
스텝 S15에서는, 분석 추천부(15)가, 상기 스텝 S14에서 선택된 분석 처리(분석명)를, 디스플레이(8)에 결과 확인 화면(81)으로서 표시한다. 스텝 S16에서는, 분석 추천부(15)가, 결과 확인 화면(81)에서 데이터 소스로부터 공통 데이터 모델로의 매핑이 확정되었는지 여부를 판정한다. 확정 버튼(813)이 클릭되어, 데이터 소스로부터 공통 데이터 모델로의 매핑이 확정된 경우에는 스텝 S17로 진행하고, 확정되지 않은 경우에는 스텝 S18로 진행한다.
스텝 S17에서는, 분석 추천부(15)의 매핑 확정부(17)가, 확정 버튼(813)이 클릭된 매핑에 대응하는 매핑 확실도(357)를 1.0으로 설정하여 칼럼 매핑 확실도 관리 테이블(35)을 갱신한다. 그 후, 스텝 S13으로 되돌아가 난이도(364)의 재계산이 실행된다.
스텝 S18에서는, 분석 추천부(15)가 결과 확인 화면(81)의 표시의 종료를 검출하면, 처리를 종료하고, 그렇지 않은 경우에는 스텝 S16으로 되돌아가 확정 버튼(813)의 조작을 접수한다.
상기 처리에 의해, 결과 확인 화면(81)에는 난이도(364)의 값이 높은 분석부터 순서대로 표시된다. 즉, 전처리에 요하는 시간이나 수고가 적은 분석이 상위에 표시되므로, 최상위의 분석부터 실시해 감으로써, 데이터의 분석에 요하는 공정수를 저감하는 것이 가능해진다.
도 23은 분석 추천부(15)에서 행해지는 추천 처리의 일례를 설명하는 흐름도이다. 이 처리는 도 19의 스텝 S14에서 행해지는 처리이다. 스텝 S51에서는, 분석 추천부(15)가, 분석 난이도 관리 테이블(36)의 엔트리를 난이도(364)의 값이 큰 순으로 소트한다.
다음에, 스텝 S52에서는, 분석 추천부(15)의 분석 스케줄링부(151)가, 분석 카탈로그(31)와 스킬 세트 실적(42)과 분석 난이도 관리 테이블(36)을 참조하여, 포워드 스케줄링에 의해 분석에 대하여 인원이나 분석 소프트웨어를 할당한다.
분석 스케줄링부(151)는, 난이도(364)의 값이 큰 순으로 분석 ID(36)를 취득하여, 분석 카탈로그(31)로부터 필요 스킬(317)과 납기(318)를 취득한다. 분석 스케줄링부(151)는, 분석 난이도 관리 테이블(36)로부터 분석 ID(361)에 대응하는 보정 후 소요 시간(366)을 취득한다.
분석 스케줄링부(151)는, 스킬 세트 실적(42)으로부터 필요 스킬(317)을 충족하는 인원을 선택하고, 보정 후 소요 시간(366)과 납기(318)를 충족하도록 포워드 스케줄링을 실시한다. 또한, 포워드 스케줄링에 대해서는 공지 또는 주지의 기술을 적용하면 된다.
다음에, 스텝 S53에서는, 분석 스케줄링부(151)가, 스케줄링의 결과를 참조하여, 분석 난이도 관리 테이블(36)의 모든 분석이 납기(318) 이내에 처리를 완료 하였는지 여부를 판정한다. 모든 분석이 납기(318) 이내이면 처리를 종료하고, 납기(318)를 초과하는 분석이 있으면, 스텝 S54로 진행한다.
스텝 S54에서는, 분석 스케줄링부(151)가, 스케줄링의 재계산의 횟수(시행의 횟수)가 소정의 역치 이상이 되었는지 여부를 판정한다. 재계산의 횟수가 소정의 역치 이상이면, 스텝 S55로 진행하여, 분석 스케줄링부(151)는 납기가 지연되는 에러 메시지를 출력한다.
한편, 재계산의 횟수가 역치 미만이면 스텝 S56으로 진행하여, 분석 스케줄링부(151)가 납기(318)를 초과한 분석 ID(361)의 순위를 하나 올려, 추천하는 순위를 변경하고, 스텝 S52로 되돌아가 상기 처리를 반복한다.
상기 처리에 의해, 분석 난이도 관리 테이블(36)의 분석 처리는, 난이도(364)의 값이 큰 순서로, 또한, 납기(318)를 충족하도록 스케줄링된다.
도 25는 분석 추천부(15)가 생성하는 결과 확인 화면(81)의 일례를 도시하는 도면이다. 결과 확인 화면(81)은, 도면 중 상부를 분석 일람(811)의 표시 영역으로 하고, 도면 중 하부를 분석 난이도 근거(812)의 표시 영역으로 한다. 또한, 분석 난이도 근거(812)는, 분석 일람(811)의 1행이 선택된 후에 표시된다.
분석 일람(811)에는, 체크 박스와, 분석 ID와, 분석명과, 애플리케이션 또는 쿼리의 종별과, 난이도와, 보정 후 소요 시간과, 종료 예정 및 완료 플래그를 하나의 행에 포함하는 리스트로 구성되고, 분석의 내용이 표시된다. 또한, 종료 예정은, 스케줄링의 결과에 기초하여 결정되고, 그 밖의 항목은 분석 난이도 관리 테이블(36)의 값, 또는 분석 카탈로그(31)의 값이 설정된다.
분석 일람(811)의 우측 상에는, 익스포트 버튼(815)과, 재스케줄 버튼(816)이 배치된다. 체크 박스를 선택하고 나서, 익스포트 버튼(815)을 클릭하면, 체크 박스를 선택한 행의 분석 내용이 제휴 인터페이스(18)를 통해 소정의 파일 형식(예를 들어, CSV 형식)으로 출력된다.
또한, 체크 박스를 선택하고 나서 재스케줄 버튼(816)을 클릭함으로써, 선택된 행에 대하여, 다시 스케줄링을 실시할 수 있다.
또한, 분석 난이도 근거(812)는, 상기 실시예 1의 구성에 더하여, ETL 카탈로그명(814)이 추가된다. 분석 난이도 산출부(13)가 ETL 카탈로그(38)의 매핑 확실도를 선택한 경우에는, ETL 카탈로그명(814)이 표시된다.
도시한 분석 난이도 근거(812)의 최하단에는, 데이터 소스의 칼럼의 데이터 품질 스코어가 표시된 예를 나타낸다. 데이터 품질 스코어는, 0 내지 1의 값의 범위이며, 1에 가까워짐에 따라 중복이나 결손이 없는 데이터인 것을 나타낸다. 데이터 품질 스코어의 값이 클수록, 분석의 전처리에 요하는 수고가 낮은 것을 나타낸다.
도 24는 분석 추천부(15)에서 행해지는 결과 확인 화면 처리의 일례를 설명하는 흐름도이다. 이 처리는 도 19의 스텝 S15에서 행해지는 처리이다.
스텝 S61에서는, 분석 추천부(15)가 분석 난이도 관리 테이블(36)을 읽어들여, 결과 확인 화면(81)을 생성하고, 분석 일람(811)에 상기 도 23에서 스케줄링한 순서로 분석의 내용을 표시한다.
분석 일람(811)에는, 체크 박스와, 분석 ID와, 분석명과, 애플리케이션 또는 쿼리와, 난이도와, 보정 후 소요 시간과, 종료 예정(납기(318)) 및 완료 플래그를 하나의 행에 포함하는 리스트로서 분석의 내용이 표시된다.
스텝 S62에서는, 분석 추천부(15)가, 분석 지원 서버(1)의 이용자가 마우스(92)를 조작하여 하나의 행을 선택하였는지 여부를 판정한다. 행이 선택된 경우에는, 스텝 S63으로 진행하고, 그렇지 않은 경우에는 스텝 S64로 진행한다.
스텝 S63에서는, 분석 추천부(15)가, 분석 일람(811)에서 선택된 행의 매핑 확실도와 맵원과 맵처의 정보를, 칼럼 매핑 확실도 관리 테이블(35) 또는 ETL 칼럼 매핑 확실도 관리 테이블(39)로부터 취득하여, 분석 난이도 근거(812)의 표시 영역에 출력한다.
스텝 S64에서는, 분석 추천부(15)가, 분석 지원 서버(1)의 이용자가 마우스(92)를 조작하여 익스포트 버튼(815)을 선택하였는지 여부를 판정한다. 익스포트 버튼(815)이 선택된 경우에는, 스텝 S65로 진행하고, 그렇지 않은 경우에는 스텝 S66으로 진행한다.
스텝 S65에서는, 분석 추천부(15)가, 분석 일람(811)의 체크 박스에서 선택한 분석의 내용이, 소정의 파일 형식으로 출력된다.
스텝 S66에서는, 분석 추천부(15)가, 분석 지원 서버(1)의 이용자가 마우스(92)를 조작하여 재스케줄 버튼(816)을 선택하였는지 여부를 판정한다. 재스케줄 버튼(816)이 선택된 경우에는, 스텝 S67로 진행하고, 그렇지 않은 경우에는 스텝 S68로 진행한다.
스텝 S67에서는, 분석 추천부(15)의 분석 스케줄링부(151)가, 분석 일람(811)의 체크 박스에서 선택된 분석의 내용에 대하여, 다시 스케줄링을 실시한다. 그 후, 스텝 S61로 되돌아가, 분석 일람(811)의 내용을 갱신한다.
스텝 S68에서는, 분석 추천부(15)가 분석 지원 서버(1)의 이용자가 마우스(92)를 조작하여 확정 버튼(813)을 선택하였는지 여부를 판정한다. 확정 버튼(813)이 선택된 경우에는 스텝 S69로 진행하고, 그렇지 않은 경우에는 스텝 S70으로 진행한다.
스텝 S69에서는, 도 19의 스텝 S13으로 되돌아가, 난이도(364)의 재계산을 실시한다.
스텝 S70에서는, 분석 추천부(15)가, 분석 지원 서버(1)의 이용자가 마우스(92)를 조작하여 결과 확인 화면(81)의 클로즈 박스를 선택하였는지 여부를 판정한다. 클로즈 박스가 선택된 경우에는 처리를 종료하고, 그렇지 않은 경우에는 스텝 S61로 되돌아가 상기 처리를 반복한다.
이상의 처리에 의해, 결과 확인 화면(81)에서 분석 난이도 근거(812)의 표시나, 재스케줄링이나, 매핑 확실도의 갱신과 난이도의 재계산 등을 실시할 수 있다.
이와 같이, 본 실시예 2에서는, ETL 카탈로그(38)와, 데이터 소스의 품질을 고려하여 칼럼 매핑 확실도 및 난이도를 산출하고, 작업 효율이 좋은 순서로 분석 소프트웨어를 제안할 수 있다.
실시예 3
도 26, 도 27은 실시예 3의 일례를 도시한다. 본 실시예 3에서는, 상기 실시예 2의 구성에 더하여, 이벤트 로그를 데이터 소스로 하는 데이터 수집 서버(450, 460)를 추가하고, 분석 지원 프로그램(10)의 칼럼 매핑 확실도 산출부(12)에 이벤트 로그-테이블 변환부를 추가하고, 스토리지(20)에 얼러트 코드 마스터(43)를 추가한 예를 나타낸다. 또한, 그 밖의 구성에 대해서는, 상기 실시예 2와 마찬가지이다.
도 26은 데이터 분석 지원 시스템의 일례를 도시하는 블록도이다. 지구 A의 데이터 수집 서버(450)와, 지구 B의 데이터 수집 서버(460)는, 교통 관계의 데이터를 수집한다. 지구 A의 데이터 수집 서버(450)는, 차량 데이터(451)와, 운행 데이터(452)와, 보선 데이터(453)와, 설비 보수 실적(454)과, 기상 데이터(455)와, 설비 얼러트(456)를 수집하여, 데이터 소스로서 분석 서버군(300)에 제공한다.
마찬가지로 지구 B의 데이터 수집 서버(460)는, 차량 데이터(461)와, 운행 데이터(462)와, 설비 보수 실적(463)과, 설비 얼러트(464)를 수집하여, 데이터 소스로서 분석 서버군(300)에 제공한다.
데이터 레이크 서버(2)의 스토리지(20)에는, 공통 데이터 모델(60)에 차량 데이터(61A)와, 운행 데이터(62A)와, 보수 데이터(63A)와, 설비 얼러트(64A)가 미리 설정되어 있다.
도 27은 분석 지원 프로그램의 기능 요소의 일례를 도시하는 블록도이다. 분석 지원 프로그램(10)의 칼럼 매핑 확실도 산출부(12)에는, 데이터 소스 카탈로그(32)와 얼러트 코드 마스터(43)에 기초하여, 이벤트 로그를 테이블 형식으로 변환하는 이벤트 로그-테이블 변환부(122)가 추가된다. 그 밖의 구성에 대해서는, 상기 실시예 2와 마찬가지이다.
도 28은 이벤트 로그 형식의 설비 얼러트(456, 464)의 일례를 도시하는 도면이다. 설비 얼러트(456, 464)는, 1행에 날짜, 시각, 중요도, 얼러트 ID, 설비명, 차량 번호, 메시지를 포함하는 데이터로 구성된다.
도 29는 얼러트 코드 마스터(43)의 일례를 도시하는 도면이다. 얼러트 코드 마스터(43)는, 얼러트 ID(431)와, 메시지(432)를 하나의 엔트리에 포함한다. 메시지(432)는, 날짜, 시각, 중요도, 얼러트 ID, 설비명, 차량 번호, 메시지를 포함한다.
도 30은 테이블 형식으로 변환한 설비 얼러트(456T)의 일례를 도시하는 도면이다. 설비 얼러트(456T)는, 이벤트 로그 형식의 설비 얼러트(456)를 분석 지원 프로그램(10)의 이벤트 로그-테이블 변환부(122)에서 테이블 형식으로 변환한 결과이다.
설비 얼러트(456T)는, 일시(4561)와, 중요도(4562)와, 얼러트 ID(4563)와, 설비명(4564)과, 차량 번호(4565)와, 메시지(4566)를 하나의 엔트리에 포함한다.
이벤트 로그-테이블 변환부(122)가 이벤트 로그 형식의 데이터를 테이블 형식으로 변환함으로써, 공통 데이터 모델(60)의 설비 얼러트(64A)를 이용하는 것이 가능해진다.
도 31은 분석 추천부(15)가 생성하는 과거 실적 확인 화면(83)의 일례를 도시하는 도면이다. 분석 추천부(15)는, 상기 실시예 2의 도 25에 도시한 분석 난이도 근거(812)의 표시 영역에서 소정의 조작(예를 들어, 더블 클릭 등)이 행해지면 과거 실적 확인 화면(83)을 출력한다.
과거 실적 확인 화면(83)은, 현재 선택하고 있는 분석의 칼럼 매핑을 표시하는 윈도우(84)와, 과거의 실적을 표시하는 윈도우(85)를 포함한다. 과거 실적 확인 화면(83)에는, 과거 실적 관계 표시 버튼(831)과, 이전 실적 버튼(834)과, 다음 실적 버튼(833)이 배치된다.
과거 실적 관계 표시 버튼(831)을 클릭함으로써, 분석 추천부(15)는, 윈도우(84)의 분석 ID로 과거에 표시한 추천 결과를 표시할 수 있다. 분석 추천부(15)는, 추천 결과 파일(37)을 참조하여, 윈도우(84)의 분석 ID의 추천 결과를 취득하여 윈도우(85)를 생성한다.
이전 실적 버튼(834)을 클릭함으로써, 분석 추천부(15)는, 윈도우(84)의 분석 ID로 과거에 표시한 추천 결과를 과거로 거슬러 올라가게 할 수 있다. 다음 실적 버튼(833)을 클릭함으로써, 분석 추천부(15)는, 윈도우(84)의 분석 ID로 과거로부터 전회에 표시한 추천 결과까지 천이할 수 있다.
윈도우(84)의 매핑 확실도의 표시 위치의 근방에는, 타후보 버튼(832)이 배치된다. 타후보 버튼(832)을 클릭함으로써, 분석 추천부(15)는 도 32에 도시한 타후보 제시 화면(86)을 출력한다. 도 32는 분석 추천부(15)가 생성하는 타후보 제시 화면(86)의 일례를 도시하는 도면이다.
타후보 제시 화면(86)은, 칼럼 매핑 확실도 관리 테이블(35)과, ETL 칼럼 매핑 확실도 관리 테이블(39)의 내용과, 각 칼럼 매핑 확실도가 표시되고, 선택 버튼을 클릭함으로써, 칼럼 매핑의 조합을 선택하는 것이 가능하다.
도 33은 이벤트 로그-테이블 변환부(122)의 처리의 일례를 설명하는 흐름도이다. 이 처리는, 칼럼 매핑 확실도 관리 테이블(35)을 생성할 때 실행한다.
먼저, 스텝 S81에서는, 이벤트 로그-테이블 변환부(122)가 얼러트 코드 마스터(43)를 읽어들이고 나서, 이벤트 로그 형식의 설비 얼러트(456)를 읽어들여, 테이블 형식의 설비 얼러트(456T)로 변환한다.
스텝 S82에서는, 칼럼 매핑 확실도 산출부(12)가, 데이터 소스 카탈로그(32)와, 공통 데이터 모델 카탈로그(33)를 읽어들여 상술한 바와 같이 칼럼 매핑 확실도를 산출하여 칼럼 매핑 확실도 관리 테이블(35)을 생성한다.
도 34는 분석 추천부(15)가 생성하는 결과 확인 화면(81)의 처리의 일례를 설명하는 흐름도이다. 이 처리는, 상기 실시예 2의 도 24의 흐름도에 스텝 S101 내지 S104를 추가한 것이며, 그 밖의 구성은 도 24와 마찬가지이다.
스텝 S61 내지 S67까지는 상기 실시예 2와 마찬가지이다. 스텝 S67의 판정에서, 재스케줄 버튼(816)이 선택되지 않은 경우에는, 스텝 S101로 진행한다.
스텝 S101에서는, 분석 추천부(15)가, 과거 실적 표시의 요구를 접수하였는지 여부를 판정한다. 과거 실적 표시의 요구는, 상술한 바와 같이 분석 난이도 근거(812)의 표시 영역에서 더블 클릭 등을 접수하였을 때이다. 당해 과거 실적 표시의 요구를 접수하면, 분석 추천부(15)는, 스텝 S102로 진행하여 과거 실적 확인 화면(83)을 표시한다.
스텝 S103에서는, 분석 추천부(15)가, 과거 실적 확인 화면(83)에서 타후보 버튼(832)이 선택되었는지 여부를 판정한다. 타후보 버튼(832)이 선택된 경우에는, 스텝 S104로 진행하여 분석 추천부(15)가 타후보 제시 화면(86)을 출력한다. 타후보 버튼(832)이 선택되지 않은 경우에는, 스텝 S68로 진행하여 상기 실시예 2와 마찬가지의 처리를 반복한다.
이상과 같이, 본 실시예 3에서는, 이벤트 로그 형식의 데이터도 상기 실시예 1, 2의 테이블 형식과 마찬가지로 취급할 수 있어, 분석의 난이도에 따른 분석 소프트웨어의 추천을 행하는 것이 가능해진다. 또한, 결과 확인 화면(81)에서는, 과거의 추천 결과나 다른 후보도 참조할 수 있어, 분석 처리의 계획을 원활하게 추진하는 것이 가능해진다.
또한, 본 발명은 상기한 실시예에 한정되는 것은 아니고, 다양한 변형예가 포함된다. 예를 들어, 상기한 실시예는 본 발명을 이해하기 쉽게 설명하기 위해 상세하게 기재한 것이며, 반드시 설명한 모든 구성을 구비하는 것에 한정되는 것은 아니다. 또한, 어떤 실시예의 구성의 일부를 다른 실시예의 구성으로 치환하는 것이 가능하고, 또한, 어떤 실시예의 구성에 다른 실시예의 구성을 추가하는 것도 가능하다. 또한, 각 실시예의 구성의 일부에 대하여, 다른 구성의 추가, 삭제, 또는 치환 모두가, 단독으로, 또는 조합해도 적용 가능하다.
또한, 상기 각 구성, 기능, 처리부 및 처리 수단 등은, 그것들의 일부 또는 전부를, 예를 들어 집적 회로로 설계하는 것 등에 의해 하드웨어로 실현해도 된다. 또한, 상기 각 구성 및 기능 등은, 프로세서가 각각의 기능을 실현하는 프로그램을 해석하고, 실행함으로써 소프트웨어로 실현해도 된다. 각 기능을 실현하는 프로그램, 테이블, 파일 등의 정보는, 메모리나, 하드디스크, SSD(Solid State Drive) 등의 기록 장치, 또는, IC 카드, SD 카드, DVD 등의 기록 매체에 둘 수 있다.
또한, 제어선이나 정보선은 설명상 필요하다고 생각되는 것을 나타내고 있으며, 제품상 반드시 모든 제어선이나 정보선을 나타내고 있다고는 할 수 없다. 실제로는 거의 모든 구성이 서로 접속되어 있다고 생각해도 된다.

Claims (15)

  1. 프로세서와 메모리를 갖는 계산기가, 분석 대상 데이터의 평가를 행하는 분석 지원 방법이며,
    상기 계산기가, 상기 분석 대상 데이터의 칼럼의 정의를 저장한 제1 데이터 카탈로그와, 분석 처리를 실행하는 분석 소프트웨어의 입력 데이터의 칼럼을 정의한 제2 데이터 카탈로그를 읽어들이는 제1 스텝과,
    상기 계산기가, 상기 제1 데이터 카탈로그의 칼럼과 상기 제2 데이터 카탈로그의 칼럼의 유사도를 매핑 확실도로서 산출하는 제2 스텝과,
    상기 계산기가, 상기 분석 소프트웨어에서 사용하는 상기 제2 데이터 카탈로그의 칼럼의 매핑 확실도에 기초하여 당해 분석 소프트웨어로 상기 분석 대상 데이터를 분석하는 난이도를 산출하는 제3 스텝
    을 포함하는 것을 특징으로 하는 분석 지원 방법.
  2. 제1항에 있어서,
    상기 계산기가, 상기 난이도에 대응하는 상기 분석 소프트웨어의 정보를 출력하는 제4 스텝을 더 포함하고,
    상기 제3 스텝은,
    1 이상의 분석 소프트웨어의 정보를 저장한 분석 카탈로그를 참조하여, 상기 분석 소프트웨어마다 상기 난이도를 산출하고,
    상기 제4 스텝은,
    상기 산출된 난이도를 소정의 순서로 소트하여, 상기 난이도에 대응하는 상기 분석 소프트웨어의 정보를 출력하는 것을 특징으로 하는 분석 지원 방법.
  3. 제2항에 있어서,
    상기 제3 스텝은,
    상기 분석 소프트웨어가 사용하는 상기 입력 데이터의 칼럼을 특정하는 필요 칼럼 관리 정보를 참조하여, 상기 분석 소프트웨어가 사용하는 칼럼을 취득하고, 당해 취득한 칼럼에 대응하는 상기 매핑 확실도로부터 상기 난이도를 산출하는 것을 특징으로 하는 분석 지원 방법.
  4. 제2항에 있어서,
    상기 제2 스텝은,
    상기 분석 대상 데이터의 칼럼을 상기 입력 데이터의 칼럼으로 변환하는 정의를 저장한 제3 데이터 카탈로그와, 상기 제1 데이터 카탈로그를 읽어들여, 상기 제1 데이터 카탈로그의 칼럼과 상기 제3 데이터 카탈로그의 칼럼의 유사도를 ETL 매핑 확실도로서 산출하는 스텝을 포함하고,
    상기 제3 스텝은,
    상기 매핑 확실도와 ETL 칼럼 매핑 확실도 중 큰 쪽을 선택하여 상기 난이도를 산출하는 것을 특징으로 하는 분석 지원 방법.
  5. 제1항에 있어서,
    상기 제3 스텝은,
    상기 분석 대상 데이터의 품질을 나타내는 지표를 산출하고, 상기 매핑 확실도를 상기 지표로 보정하고 나서 상기 난이도를 산출하는 것을 특징으로 하는 분석 지원 방법.
  6. 제2항에 있어서,
    상기 분석 카탈로그는,
    상기 분석 소프트웨어마다 처리에 요하는 소요 시간과, 분석 처리의 납기를 포함하고,
    상기 제4 스텝은,
    상기 분석 카탈로그를 참조하여 상기 소요 시간으로부터 상기 납기를 충족하도록 상기 분석 소프트웨어마다 스케줄링을 행하는 것을 특징으로 하는 분석 지원 방법.
  7. 제6항에 있어서,
    상기 제4 스텝은,
    상기 난이도에 기초하여 상기 소요 시간을 보정하고, 당해 보정한 소요 시간에 기초하여 상기 스케줄링을 행하는 것을 특징으로 하는 분석 지원 방법.
  8. 프로세서와 메모리를 갖고, 분석 대상 데이터의 평가를 행하는 분석 지원 서버이며,
    상기 분석 대상 데이터의 칼럼의 정의를 저장한 제1 데이터 카탈로그와, 분석 처리를 실행하는 분석 소프트웨어의 입력 데이터의 칼럼을 정의한 제2 데이터 카탈로그를 읽어들여, 상기 제1 데이터 카탈로그의 칼럼과 상기 제2 데이터 카탈로그의 칼럼의 유사도를 매핑 확실도로서 산출하는 칼럼 매핑 확실도 산출부와,
    상기 분석 소프트웨어가 사용하는 상기 제2 데이터 카탈로그의 칼럼의 매핑 확실도에 기초하여 당해 분석 소프트웨어로 상기 분석 대상 데이터를 분석하는 난이도를 산출하는 난이도 산출부
    를 갖는 것을 특징으로 하는 분석 지원 서버.
  9. 제8항에 있어서,
    1 이상의 분석 소프트웨어의 정보를 저장한 분석 카탈로그와,
    상기 난이도에 대응하는 상기 분석 소프트웨어의 정보를 출력하는 추천부를 더 갖고,
    상기 난이도 산출부는,
    상기 분석 카탈로그의 분석 소프트웨어마다 상기 난이도를 산출하고,
    상기 추천부는,
    상기 산출된 난이도를 소정의 순서로 소트하여, 상기 난이도에 대응하는 상기 분석 소프트웨어의 정보를 출력하는 것을 특징으로 하는 분석 지원 서버.
  10. 제9항에 있어서,
    상기 분석 소프트웨어가 사용하는 상기 입력 데이터의 칼럼을 특정하는 필요 칼럼 관리 정보를 더 갖고,
    상기 난이도 산출부는,
    상기 필요 칼럼 관리 정보를 참조하여, 상기 분석 소프트웨어가 사용하는 칼럼을 취득하고, 당해 취득한 칼럼에 대응하는 상기 매핑 확실도로부터 상기 난이도를 산출하는 것을 특징으로 하는 분석 지원 서버.
  11. 제9항에 있어서,
    상기 분석 대상 데이터의 칼럼을 상기 입력 데이터의 칼럼으로 변환하는 정의를 저장한 제3 데이터 카탈로그와,
    상기 제1 데이터 카탈로그와, 상기 제3 데이터 카탈로그를 읽어들여, 상기 제1 데이터 카탈로그의 칼럼과 상기 제3 데이터 카탈로그의 칼럼의 유사도를 ETL 매핑 확실도로서 산출하는 ETL 칼럼 매핑 확실도 산출부를 더 갖고,
    상기 난이도 산출부는,
    상기 매핑 확실도와 ETL 칼럼 매핑 확실도 중 큰 쪽을 선택하여 상기 난이도를 산출하는 것을 특징으로 하는 분석 지원 서버.
  12. 제8항에 있어서,
    상기 난이도 산출부는,
    상기 분석 대상 데이터의 품질을 나타내는 지표를 산출하고, 상기 매핑 확실도를 상기 지표로 보정하고 나서 상기 난이도를 산출하는 것을 특징으로 하는 분석 지원 서버.
  13. 제9항에 있어서,
    상기 분석 카탈로그는,
    상기 분석 소프트웨어마다 처리에 요하는 소요 시간과, 분석 처리의 납기를 포함하고,
    상기 추천부는,
    상기 분석 카탈로그를 참조하여 상기 소요 시간으로부터 상기 납기를 충족하도록 상기 분석 소프트웨어마다 스케줄링을 행하는 것을 특징으로 하는 분석 지원 서버.
  14. 제13항에 있어서,
    상기 추천부는,
    상기 난이도에 기초하여 상기 소요 시간을 보정하고, 당해 보정한 소요 시간에 기초하여 상기 스케줄링을 행하는 것을 특징으로 하는 분석 지원 서버.
  15. 프로세서와 메모리를 갖는 계산기에서, 분석 대상 데이터의 평가를 행하게 하기 위한 프로그램을 저장한 기억 매체이며,
    상기 분석 대상 데이터의 칼럼의 정의를 저장한 제1 데이터 카탈로그와, 분석 처리를 실행하는 분석 소프트웨어의 입력 데이터의 칼럼을 정의한 제2 데이터 카탈로그를 읽어들이는 제1 스텝과,
    상기 제1 데이터 카탈로그의 칼럼과 상기 제2 데이터 카탈로그의 칼럼의 유사도를 매핑 확실도로서 산출하는 제2 스텝과,
    상기 분석 소프트웨어에서 사용하는 상기 제2 데이터 카탈로그의 칼럼의 매핑 확실도에 기초하여 당해 분석 소프트웨어로 상기 분석 대상 데이터를 분석하는 난이도를 산출하는 제3 스텝
    을 상기 계산기에 실행시키기 위한 프로그램을 저장한 비일시적인 계산기 판독 가능한 기억 매체.
KR1020207003031A 2017-12-18 2018-09-10 분석 지원 방법, 분석 지원 서버 및 기억 매체 KR102309094B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017241859A JP6842405B2 (ja) 2017-12-18 2017-12-18 分析支援方法、分析支援サーバ及び記憶媒体
JPJP-P-2017-241859 2017-12-18
PCT/JP2018/033417 WO2019123732A1 (ja) 2017-12-18 2018-09-10 分析支援方法、分析支援サーバ及び記憶媒体

Publications (2)

Publication Number Publication Date
KR20200020932A true KR20200020932A (ko) 2020-02-26
KR102309094B1 KR102309094B1 (ko) 2021-10-06

Family

ID=66993281

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207003031A KR102309094B1 (ko) 2017-12-18 2018-09-10 분석 지원 방법, 분석 지원 서버 및 기억 매체

Country Status (3)

Country Link
JP (1) JP6842405B2 (ko)
KR (1) KR102309094B1 (ko)
WO (1) WO2019123732A1 (ko)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010205218A (ja) * 2009-03-06 2010-09-16 Dainippon Printing Co Ltd データ分析支援装置、データ分析支援システム、データ分析支援方法、及びプログラム
JP2012063917A (ja) 2010-09-15 2012-03-29 Ntt Docomo Inc アプリケーションの消費電力を評価する装置、配信サーバ及び方法
WO2013145230A1 (ja) * 2012-03-29 2013-10-03 富士通株式会社 情報分析支援装置、情報分析支援方法、及び情報分析支援プログラム
US20130262525A1 (en) * 2012-03-30 2013-10-03 International Business Machines Corporation Discovering Pivot Type Relationships Between Database Objects
US20140250127A1 (en) * 2010-06-02 2014-09-04 Cbs Interactive Inc. System and method for clustering content according to similarity
US9110967B2 (en) 2007-08-29 2015-08-18 International Business Machines Corporation Data lineage in data warehousing environments
WO2015145540A1 (ja) * 2014-03-24 2015-10-01 株式会社日立製作所 開発情報生成装置およびその生成方法
US20150347927A1 (en) * 2014-06-03 2015-12-03 Nec Laboratories America, Inc. Canonical co-clustering analysis
KR20160046640A (ko) * 2014-10-21 2016-04-29 한국전자통신연구원 시각화 유사도 기반 악성 어플리케이션 감지 장치 및 감지 방법
US20160292197A1 (en) * 2015-03-31 2016-10-06 Ubic, Inc. Data analysis system, data analysis method, data analysis program, and storage medium
KR20170034053A (ko) * 2015-09-18 2017-03-28 삼성전자주식회사 제품의 생산 또는 분석과 연동하는 데이터 수집/처리 시스템, 및 이를 포함하는 제품 생산/분석 시스템
JP2017091113A (ja) * 2015-11-06 2017-05-25 横河電機株式会社 イベント解析装置、イベント解析システム、イベント解析方法、およびイベント解析プログラム
WO2017168967A1 (ja) * 2016-03-28 2017-10-05 三菱電機株式会社 データ分析手法候補決定装置

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9110967B2 (en) 2007-08-29 2015-08-18 International Business Machines Corporation Data lineage in data warehousing environments
JP2010205218A (ja) * 2009-03-06 2010-09-16 Dainippon Printing Co Ltd データ分析支援装置、データ分析支援システム、データ分析支援方法、及びプログラム
US20140250127A1 (en) * 2010-06-02 2014-09-04 Cbs Interactive Inc. System and method for clustering content according to similarity
JP2012063917A (ja) 2010-09-15 2012-03-29 Ntt Docomo Inc アプリケーションの消費電力を評価する装置、配信サーバ及び方法
JP5831625B2 (ja) * 2012-03-29 2015-12-09 富士通株式会社 情報分析支援装置、情報分析支援方法、及び情報分析支援プログラム
WO2013145230A1 (ja) * 2012-03-29 2013-10-03 富士通株式会社 情報分析支援装置、情報分析支援方法、及び情報分析支援プログラム
US20130262525A1 (en) * 2012-03-30 2013-10-03 International Business Machines Corporation Discovering Pivot Type Relationships Between Database Objects
WO2015145540A1 (ja) * 2014-03-24 2015-10-01 株式会社日立製作所 開発情報生成装置およびその生成方法
JP6087474B2 (ja) * 2014-03-24 2017-03-01 株式会社日立製作所 開発情報生成装置
US20150347927A1 (en) * 2014-06-03 2015-12-03 Nec Laboratories America, Inc. Canonical co-clustering analysis
KR20160046640A (ko) * 2014-10-21 2016-04-29 한국전자통신연구원 시각화 유사도 기반 악성 어플리케이션 감지 장치 및 감지 방법
US20160292197A1 (en) * 2015-03-31 2016-10-06 Ubic, Inc. Data analysis system, data analysis method, data analysis program, and storage medium
KR20170034053A (ko) * 2015-09-18 2017-03-28 삼성전자주식회사 제품의 생산 또는 분석과 연동하는 데이터 수집/처리 시스템, 및 이를 포함하는 제품 생산/분석 시스템
JP2017091113A (ja) * 2015-11-06 2017-05-25 横河電機株式会社 イベント解析装置、イベント解析システム、イベント解析方法、およびイベント解析プログラム
WO2017168967A1 (ja) * 2016-03-28 2017-10-05 三菱電機株式会社 データ分析手法候補決定装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Embly, David W., David Jackman, and Li Xu., "Multifaceted Exploitation of Metadata for Attribute Match Discovery in Information Integration.", Workshop on information integration on the Web, 2001

Also Published As

Publication number Publication date
WO2019123732A1 (ja) 2019-06-27
JP2019109676A (ja) 2019-07-04
KR102309094B1 (ko) 2021-10-06
JP6842405B2 (ja) 2021-03-17

Similar Documents

Publication Publication Date Title
CN108415921B (zh) 供应商推荐方法、装置及计算机可读存储介质
US10324947B2 (en) Learning from historical logs and recommending database operations on a data-asset in an ETL tool
CN100568237C (zh) 多维企业软件系统中的报表模板生成方法和系统
CN101111835B (zh) 多维企业软件系统中的自动默认维度选择方法
KR101066949B1 (ko) 업무 분석 프로그램을 기록한 컴퓨터 판독가능한 기록 매체 및 업무 분석 장치
CN101111838B (zh) 多维企业软件系统中的自动关系模式生成
US9466039B2 (en) Task assignment using ranking support vector machines
CN109784721B (zh) 一种就业数据分析与数据挖掘分析的平台系统
Vile et al. Predicting ambulance demand using singular spectrum analysis
CN117668373B (zh) 一种级联标签推荐方法、装置、电子设备及存储介质
US10409833B2 (en) Systems and methods for analyzing energy or environmental factors relative to energy
CN111915100B (zh) 一种高精度的货运预测方法和货运预测系统
Abd Al-Rahman et al. Design and implementation of the web (extract, transform, load) process in data warehouse application
Schreckenberg et al. Developing a maturity-based workflow for the implementation of ML-applications using the example of a demand forecast
KR102309094B1 (ko) 분석 지원 방법, 분석 지원 서버 및 기억 매체
CN110570255A (zh) 一种基于dmp的多源系统的市场需求数据实时分析的方法及系统
Anand ETL and its impact on Business Intelligence
CN113176873A (zh) 用于信息管理的方法和装置、电子设备、及介质
CN102541883A (zh) 图书馆教材检索及管理系统
CN110399337A (zh) 基于数据驱动的文件自动化服务方法和系统
CN113239146B (zh) 应答分析方法、装置、设备及存储介质
Beem A design study to enhance performance dashboards to improve the decision-making process
JP7446042B1 (ja) 行政事業管理システム、行政事業管理方法、行政事業管理プログラム
RU2356092C1 (ru) Система обработки документов
Helms et al. NOAA observing system integrated analysis (NOSIA-II) methodology report

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant