KR20190039758A - 데이터 분석 지원 장치 및 데이터 분석 지원 시스템 - Google Patents

데이터 분석 지원 장치 및 데이터 분석 지원 시스템 Download PDF

Info

Publication number
KR20190039758A
KR20190039758A KR1020197007012A KR20197007012A KR20190039758A KR 20190039758 A KR20190039758 A KR 20190039758A KR 1020197007012 A KR1020197007012 A KR 1020197007012A KR 20197007012 A KR20197007012 A KR 20197007012A KR 20190039758 A KR20190039758 A KR 20190039758A
Authority
KR
South Korea
Prior art keywords
data
analysis
item
business
value
Prior art date
Application number
KR1020197007012A
Other languages
English (en)
Other versions
KR102172029B1 (ko
Inventor
유코 야마시타
츠요시 미나카와
도모에 도미야마
겐지 가와사키
히데노리 야마모토
다케시 한다
다카시 츠노
히로유키 히라타
Original Assignee
가부시끼가이샤 히다치 세이사꾸쇼
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가부시끼가이샤 히다치 세이사꾸쇼 filed Critical 가부시끼가이샤 히다치 세이사꾸쇼
Publication of KR20190039758A publication Critical patent/KR20190039758A/ko
Application granted granted Critical
Publication of KR102172029B1 publication Critical patent/KR102172029B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2423Interactive query statement specification based on a database schema
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/301Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • G06Q10/047Optimisation of routes or paths, e.g. travelling salesman problem
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Databases & Information Systems (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Quality & Reliability (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Mathematical Physics (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

데이터 분석 지원 장치는, 각 업무 시스템간의 관계, 각 업무 데이터 테이블간의 관계, 각 업무 데이터 테이블이 보유하는 각 데이터 항목간의 관계, 각 업무 데이터 테이블의 각 레코드가 보유하는 각 데이터값간의 관계를 해석하여 관계 네트워크로서 기억하는 관계 네트워크 생성부와, 데이터 분석 대상이 되는 데이터 항목을 실적값에 의거하는 제1 데이터 종별과, 계획값 또는 사전(事前) 정의에 의거하는 제2 데이터 종별로 분류하는 데이터 항목 분류부와, 데이터 분석에 이용하는 데이터 분석용 테이블을 생성하여 축적하는 분석용 데이터 테이블 생성부와, 조합하여 데이터 분석이 가능한 데이터 항목군(群)을 데이터 모델로서 생성하는 데이터 모델 생성부와, 분석 대상이 되는 데이터 항목을 추천하는 분석 대상 항목 제시부를 구비한다.

Description

데이터 분석 지원 장치 및 데이터 분석 지원 시스템
본 발명은 데이터 분석 지원 장치 및 데이터 분석 지원 시스템에 관한 것이며, 특히, 복수의 시스템의 데이터를 대상으로 하여 분석할 때의 분석 대상으로 하는 데이터 항목의 후보를 추천하는 기술에 관한 데이터 분석 지원 장치 및 데이터 분석 지원 시스템에 적용하여 호적(好適)한 것이다.
철도, 산업, 그 밖의 분야에서는, 베테랑 세대의 은퇴에 수반하여, 지금까지 현장에서 연마되어 온 노하우의 IT화에 의한 축적·계승이나, 가일층의 업무 효율화의 시책 입안을 향한 데이터 이활용(利活用)의 니즈가 확대되고 있다. 한편, 특히 철도 분야에서는, 각 철도 회사의 운행, 영업, 보수 등의 업무 시스템은 개별적으로 개발되어 오고 있어, 횡단적인 데이터 활용이 곤란하다.
데이터를 분석할 때에는, 데이터 항목을 다양하게 조합하면서 원하는 분석을 실시할 수 있는 데이터 항목의 세트를 발견하지만, 일반적으로 데이터 항목이 늘어날수록 이 작업은 중요성이나 부담이 증대한다. 분석 대상 항목을 취사 선택하기 위해서는, 데이터의 내용을 이해할 필요가 있다.
ER도 및 테이블 정의가 기재된 각 업무 시스템의 데이터 사양서가 존재하면, 데이터 사양서를 읽음으로써 데이터 이해가 가능하지만, 옛날부터 있는 시스템에 있어서는 거듭되는 시스템 개수(改修)로 데이터 사양서가 대응하고 있지 않을 경우도 있다. 또한, 규모가 큰 시스템일 경우에는, 모든 사양서를 읽는 것은 어렵다. 타(他)사제의 시스템의 데이터를 취급할 경우에는 데이터 사양서를 입수 불가능할 경우도 있다.
이에 관하여, 종래에는, 분석 담당자의 지식이나 경험으로 후보 수를 삭감하여 분석 대상 항목을 선정하고 있다. 그 때문에, 분석 결과가 분석 담당자의 능력에 의존해 버린다는 문제가 있다.
종래 기술에 있어서는, 다차원 데이터의 데이터 항목간의 데이터의 관련도를 산출하고, 이 관련도에 의거하여 분석 대상에 적합한 데이터 항목의 세트를 추출하고, 유저에 대하여 추천하는 분석 대상 항목으로서 제시하고 있다(특허문헌 1 참조).
일본국 특개2012-103841호 공보
그러나, 상술한 종래 기술(특허문헌 1)에서는, 같은 데이터 테이블 내의 데이터 항목에 대하여 분석 대상인 데이터 항목을 추천하기 때문에, 복수의 테이블을 대상으로 한 분석 대상 항목을 추천할 수 없다. 또한, 복수의 테이블에 걸쳐 분석할 경우에는, 주(主) 키 정보 및 참조 정보 등의 테이블 정의 정보를 DB 등으로부터 추출하여 이용할 필요가 있다.
본 발명은 이상의 점을 고려하여 이루어진 것으로, 복수의 테이블을 대상으로 하여, 데이터 지식이 없는 사람이나 분야 지식이 없는 사람이어도, 테이블 정의 정보를 이용하지 않고 용이하게 분석 대상 항목을 선택하여 분석할 수 있는 데이터 분석 지원 장치 및 데이터 분석 지원 시스템을 제안하고자 하는 것이다. 예를 들면, 철도 분야에 있어서는, 철도 사업자의 다종 다양한 업무 시스템의 데이터를, 데이터 분석 전문가가 시간을 들여 데이터를 이해한 후에 분석하는 것이 아니라, 철도 사업자의 담당자 자신이 데이터 분석 시스템을 이용하여 복수의 업무 정보를 조합하여 분석할 때에, 시간을 들이지 않고 데이터를 이해하고, 분석 대상 항목을 선택하여 분석할 수 있다.
이러한 과제를 해결하기 위해, 본 발명에 있어서는, 적어도 1개 이상의 각 업무 시스템에 있어서의 각 업무 데이터 테이블의 각 업무 데이터를 대상으로 한 분석을 지원하는 데이터 분석 지원 장치로서, 상기 각 업무 데이터가 보유하는 각 데이터 항목을, 실적값(實績値)에 의거하는 제1 데이터 종별과, 계획값 또는 사전(事前) 정의에 의거하는 제2 데이터 종별로 분류하는 데이터 항목 분류부와, 상기 각 업무 시스템간의 관계, 상기 각 업무 데이터 테이블간의 관계, 상기 각 업무 데이터 테이블이 보유하는 상기 각 데이터 항목간의 관계, 상기 각 업무 데이터 테이블의 각 레코드가 보유하는 각 데이터값간의 관계를 관계 네트워크로서 생성하는 관계 네트워크 생성부와, 상기 관계 네트워크에 의거하여, 상기 제1 데이터 종별에 포함되는 데이터 항목을 적어도 1개 포함하는 분석용 데이터 테이블을 생성하는 분석용 데이터 테이블 생성부와, 상기 각 데이터 항목의 조합으로 이루어지는 분석 대상 후보에 대해서, 상기 분석용 데이터 테이블에 의거하여 분석 추장도(推奬度)가 되는 스코어를 구하는 데이터 모델 생성부와, 상기 데이터 모델 생성부에 의해 구해진 상기 스코어에 의거하는 상기 분석 추장도와 함께 상기 분석 대상 후보를 출력하는 분석 대상 항목 제시부를 구비하는 것을 특징으로 한다.
또한, 본 발명에 있어서는, 적어도 1개 이상의 각 업무 시스템에 있어서의 각 업무 데이터 테이블의 각 업무 데이터를 대상으로 한 분석을 지원하는 데이터 분석 지원 장치를 포함하는 데이터 분석 지원 시스템으로서, 상기 각 업무 데이터가 보유하는 각 데이터 항목을, 실적값에 의거하는 제1 데이터 종별과, 계획값 또는 사전 정의에 의거하는 제2 데이터 종별로 분류하는 데이터 항목 분류부와, 상기 각 업무 시스템간의 관계, 상기 각 업무 데이터 테이블간의 관계, 상기 각 업무 데이터 테이블이 보유하는 상기 각 데이터 항목간의 관계, 상기 각 업무 데이터 테이블의 각 레코드가 보유하는 각 데이터값간의 관계를 관계 네트워크로서 생성하는 관계 네트워크 생성부와, 상기 관계 네트워크에 의거하여, 상기 제1 데이터 종별에 포함되는 데이터 항목을 적어도 1개 포함하는 분석용 데이터 테이블을 생성하는 분석용 데이터 테이블 생성부와, 상기 각 데이터 항목의 조합으로 이루어지는 분석 대상 후보에 대해서, 상기 분석용 데이터 테이블에 의거하여 분석 추장도가 되는 스코어를 구하는 데이터 모델 생성부와, 상기 데이터 모델 생성부에 의해 구해진 상기 스코어에 의거하는 상기 분석 추장도와 함께 상기 분석 대상 후보를 출력하는 분석 대상 항목 제시부를 갖는 데이터 분석 지원 장치와, 상기 데이터 분석 지원 장치에 의해 출력된 상기 분석 대상 후보에 의거하여 분석 대상 항목을 결정하는 분석 장치를 구비하는 것을 특징으로 한다.
본 발명에 따르면, 복수의 테이블을 대상으로 하여, 데이터 지식이 없는 사람이나 분야 지식이 없는 사람이어도, 테이블 정의 정보를 이용하지 않고 용이하게 분석 대상 항목을 선택하여 분석할 수 있다.
도 1은 제1 실시형태에 따른 데이터 분석 지원 장치를 포함하는 데이터 분석 지원 시스템의 시스템 구성예를 나타내는 도면.
도 2는 제1 실시형태에 따른 관계 네트워크의 일례를 나타내는 도면.
도 3은 관계 네트워크 정보의 테이블 구성예를 나타내는 도면(그 1).
도 4는 관계 네트워크 정보의 테이블 구성예를 나타내는 도면(그 2).
도 5는 관계 네트워크 정보의 테이블 구성예를 나타내는 도면(그 3).
도 6은 관계 네트워크 정보의 테이블 구성예를 나타내는 도면(그 4).
도 7은 업무 시스템이 보유하는 업무 정보의 일례를 나타내는 도면.
도 8은 분석용 데이터 테이블 정보 테이블의 테이블 구성예를 나타내는 도면.
도 9는 데이터 모델 정보 테이블의 테이블 구성예를 나타내는 도면.
도 10은 제1 실시형태에 따른 데이터 분석 지원 처리의 일례를 나타내는 플로우 차트.
도 11은 제1 실시형태에 따른 관계 네트워크 생성·갱신 처리의 일례를 나타내는 플로우 차트(그 1).
도 12는 제1 실시형태에 따른 관계 네트워크 생성·갱신 처리의 일례를 나타내는 플로우 차트(그 2).
도 13은 제1 실시형태에 따른 데이터 항목 분류 처리의 일례를 나타내는 플로우 차트.
도 14는 제1 실시형태에 따른 분석용 데이터 테이블 생성·축적 처리의 일례를 나타내는 플로우 차트.
도 15는 제1 실시형태에 따른 데이터 모델 생성 처리의 일례를 나타내는 플로우 차트.
도 16은 제1 실시형태에 있어서의 제1 화면예를 나타내는 도면.
도 17은 제1 실시형태에 있어서의 제2 화면예를 나타내는 도면.
도 18은 제2 실시형태에 따른 데이터 분석 지원 장치를 포함하는 데이터 분석 지원 시스템의 시스템 구성예를 나타내는 도면.
도 19는 제2 실시형태에 따른 데이터 분석 지원 처리를 나타내는 플로우 차트.
도 20은 제2 실시형태에 따른 필터링 정보 생성 처리를 나타내는 플로우 차트.
도 21은 제2 실시형태에 있어서의 제1 화면예를 나타내는 도면.
도 22는 제3 실시형태에 따른 데이터 분석 지원 장치를 포함하는 데이터 분석 지원 시스템의 시스템 구성예를 나타내는 블록도.
도 23은 제3 실시형태에 따른 원인 정보 생성 처리를 나타내는 플로우 차트.
이하, 도면에 대해서, 본 발명의 일 실시형태에 대해서 상술한다. 또한, 본 실시형태에서는, 그 적용 대상예로서, 철도에 관한 데이터를 분석할 때의 데이터 분석 지원 장치 및 데이터 분석 지원 시스템을 들면서 설명한다.
(1) 제1 실시형태
(1-1) 시스템 구성예
도 1은, 제1 실시형태에 따른 데이터 분석 지원 장치의 시스템 구성예를 나타내는 도면이다. 데이터 분석 지원 장치(101)는, 데이터 분석 대상이 되는 업무 정보를 각각 보유하는 제1 업무 시스템(102) 및 제2 업무 시스템(103) 그리고 데이터 분석을 실행하는 데이터 분석 시스템(104)과, 통신망(122)을 통해 통신 가능하게 접속되어 있다.
데이터 분석 지원 장치(101)는, 제1 업무 시스템(102) 및 제2 업무 시스템(103)과의 사이에 있어서 분석 대상으로 하는 업무 정보를 송수신하는 한편, 데이터 분석 시스템(104)과의 사이에 있어서 분석용 데이터 테이블 및 데이터 모델을 송수신한다.
데이터 분석 지원 장치(101)에서는, 기억 장치(110), 연산 처리 장치(105), 메모리(106), 통신 장치(107), 입력 장치(108) 및 표시 장치(109)가 데이터 버스(123)에 접속된 구성으로 되어 있다.
기억 장치(110)는, 불휘발성 기억 장치로 구성되어 있고, 예를 들면 하드디스크 드라이브이다. 기억 장치(110)는, 데이터베이스(111) 및 프로그램(112)이 기억되어 있다. 데이터베이스(111)는, 후술하는 각종 테이블이 저장되어 있고, 프로그램(112)은, 데이터베이스(111)의 각종 테이블과의 사이에서 데이터를 검색, 갱신, 신규 등록 및 삭제한다.
입력 장치(108)는, 유저에 의한 키 입력 또는 음성 입력을 접수하는 기능을 갖는다. 본 실시형태에서는, 데이터 분석 지원 장치(101)가 입력 장치(108)를 구비하고 있지만, 그 대신에, 데이터 분석 시스템(104)이 입력 장치(108)를 구비하고 있고, 유저가 데이터 분석 시스템(104)으로부터 통신망(122)을 통해 데이터 분석 지원 장치(101)에 대하여 입력 조작을 행하는 구성으로 해도 된다.
표시 장치(109)는, 처리 데이터를 표시하는 디스플레이 등의 표시 기능을 갖는다. 본 실시형태에서는, 데이터 분석 지원 장치(101)가 표시 장치(109)를 구비하고 있지만, 그 대신에, 데이터 분석 시스템(104)이 표시 장치(109)를 구비하고 있고, 데이터 분석 지원 장치(101)가 통신망(122)을 통해 데이터 분석 시스템 상에 처리 데이터를 표시시키는 구성으로 해도 된다.
연산 처리 장치(105)는, 기억 장치(110)에 유지되는 프로그램(112)을 판독하여 메모리(106)의 기억 영역에 저장하고 실행함으로써, 장치 자체를 통괄 제어하는 한편, 각종 판정, 연산 및 제어 처리를 실행한다.
메모리(106)는, 휘발성 기억 장치의 일례이며, 예를 들면 RAM이다. 데이터베이스(111)는 각종 테이블을 관리한다. 데이터베이스(111)는, 원(元)데이터 저장부(113), 관계 네트워크 테이블(114), 분석용 데이터 테이블 정보 테이블(115) 및 데이터 모델 정보 테이블(116)을 구비하고 있다.
본 실시형태에서는, 제1 업무 시스템(102) 및 제2 업무 시스템(103)이 보유하는 전체 업무 정보를, 갱신이 있을 때마다 통신망(122)을 통해 통신 장치(107)가 통신하여 취득하고, 원데이터 저장부(113)에 저장하는 것으로 하여 설명하지만, 분석 대상 데이터인 업무 정보는, 업무 정보인 테이블이 보유하는 모든 데이터 항목과, 일부분의 데이터값(예를 들면, 몇일분의 레코드만)을 원데이터 저장부에 저장하고, 필요에 따라 업무 시스템(102나 103)으로부터 통신망(122)을 통해 취득하는 구조로 해도 된다.
프로그램(112)에는, 연산 처리 장치(105)에 의해 실행되는 처리가 기술되어 있다. 이 프로그램(112)은, 관계 네트워크 생성부(117), 데이터 항목 분류부(118), 분석용 데이터 테이블 생성부(119), 데이터 모델 생성부(120) 및 분석 대상 항목 제시부(121)를 구비하고 있다.
관계 네트워크 생성부(117)는, 원데이터 저장부(113)에 저장되어 있는 업무 정보인 데이터 테이블을 해석하고, 각 업무 시스템간의 관계, 각 데이터 테이블간의 관계, 각 업무 데이터 테이블이 보유하는 각 데이터 항목간의 관계, 각 업무 데이터 테이블의 각 레코드가 보유하는 각 데이터값간의 관계를 관계 네트워크로서 구축하여 관계 네트워크 테이블(114)에 저장한다. 이 관계 네트워크 테이블(114)에 저장하는 관계 네트워크 정보의 속성 정보 및 구성에 대해서는 도 3∼도 6을 이용하여 후술한다. 관계 네트워크의 상세에 대해서도 도 2를 이용하여 후술한다.
데이터 항목 분류부(118)는, 데이터 분석 대상인 업무 정보를 나타내는 테이블 및 데이터 항목을 마스터 또는 트랜잭션, 즉, 실적값에 의거하는 제1 데이터 종별과, 계획값 또는 사전 정의에 의거하는 제2 데이터 종별로 분류하고, 관계 네트워크 테이블(114)에 있어서의 테이블 정보 및 데이터 항목 정보의 종별 정보로서 저장한다.
분석용 데이터 테이블 생성부(119)는, 원데이터인 업무 정보의 데이터 테이블을, 관계 네트워크 정보를 이용하여 통합하고, 데이터 분석에 이용하는 데이터 분석용 테이블로서 분석용 데이터 테이블 정보 테이블(115)에 업무 정보를 저장함으로써, 분석 대상이 되는 데이터 항목의 조합을 축적한다. 이 분석용 데이터 테이블 정보 테이블(115)에 업무 정보가 저장됨으로써, 데이터 분석 시스템(104)은, 데이터 분석을 실행할 때에 통신망(122)을 통해 분석용 데이터 테이블 정보 테이블(115)을 용이하게 취득 가능해진다.
데이터 모델 생성부(120)는, 조합하여 데이터 분석이 가능한 데이터 항목의 집합을, 키 항목, 분석시의 필터링 항목이 되는 데이터 항목, 데이터 항목의 조합마다 산출한 스코어와 함께 데이터 모델로서 생성하고, 데이터 모델 정보 테이블(116)에 축적한다.
분석 대상 항목 제시부(121)는, 분석 대상이 되는 데이터 항목을 데이터 모델마다 표시하고, 분석 대상이 되는 데이터 항목의 조합을 스코어와 함께 강조 표시함으로써 유저에 대하여 추천한다.
(1-2) 관계 네트워크
도 2는, 관계 네트워크의 일례의 전체 상(像)을 나타내는 도면이다. 본 실시형태에 있어서 「관계 네트워크」란, 복수의 서로 다른 업무 시스템이 보유하는 다종 다양한 업무 정보에 대해서 데이터간의 관계 정보를 생성하기 위해, 복수의 시스템에 걸친 데이터간의 관계를 포함하는 데이터의 관련성을 나타내고 있다.
이러한 관계 네트워크는, 후술하는 바와 같이 표시 장치(109)에 표시됨으로써(도 16 참조), 다종 다양한 업무 정보의 내용 및 관계를, 유저에게 테이블 사양서 등을 읽지 않고 이해시키는 것을 지원할 수 있다.
관계 네트워크는, 다종 다양한 데이터의 구조가 자동으로 도입되고, 당해 도입된 데이터를 검색하고, 이용 가능하게 하기 위해, 동적(動的)으로, 각 시스템간, 각 데이터 테이블간, 각 데이터 항목간, 각 데이터값간의 관계를 구축하는 데이터 모델을 나타내고 있다. 도 2에 나타내는 바와 같이, 관계 네트워크는, 시스템층, 테이블층, 데이터 항목층, 데이터값층의 4층으로 구성된다.
시스템층에서는, 대상으로 하는 업무 정보의 각원(各元) (소스) 업무 시스템을 노드로 하고, 서로 다른 시스템에 공통되는 데이터가 있으면, 시스템을 나타내는 각 노드간의 링크(803)로 표현한다. 시스템층은, 각 시스템간에서 횡단적인 데이터 분석이 가능한지의 여부를 나타낸다.
테이블층에서는, 업무 정보를 나타내는 각 데이터 테이블을 노드로 하고, 서로 다른 데이터 테이블에 공통되는 데이터 항목이 있으면, 데이터 테이블을 나타내는 노드간의 링크로 표현한다. 테이블층은, 데이터 테이블간의 연결을 나타내는 ER도로서의 역할을 한다.
데이터 항목층에서는, 각 데이터 테이블이 보유하는 각 데이터 항목을 노드로 하고, 데이터 항목간에 관계가 있으면 노드간의 링크로 표현한다. 이 데이터 항목을 이용하여 분석용 데이터 테이블을 작성함으로써, 분석 대상 항목의 선택 지원을 행한다.
데이터값층에서는, 각 데이터 테이블의 각 레코드의 각 데이터 항목의 데이터값을 노드로 하고, 같은 레코드 내에 존재하는 것을 노드간의 링크로 표현한다. 데이터값층은, 예를 들면 「A역에 관계하는 것은 무엇인가?」 와 같이 개개의 데이터값에 관하여 관계하는 것을 조사할 때에 이용하는 것이 가능하다.
도 2는, 다음과 같은 구성을 전제로 하여 구축한 관계 네트워크의 일례를 나타낸다. 즉, 제1 업무 시스템(102)이 운행 관리 시스템인 한편, 제2 업무 시스템(103)이 차량 관리 시스템이다. 운행 관리 시스템은, 열차 주행 실적 테이블(도 7의 (B)의 열차 주행 실적 테이블) 및 지연 정보 테이블(도 7의 (C)의 지연 정보 테이블)을 보유하는 한편, 차량 관리 시스템은, 차내 상태 테이블(도 7의 (D)의 차내 상태 테이블)을 보유한다. 본 실시형태에서는, 이러한 관계 네트워크를 구축하는 데이터를 「관계 네트워크 정보」라고 하고 있다. 이 관계 네트워크 정보는, 관계 네트워크 테이블(114)(도 1 참조)에 저장되어 있다. 여기에서는, 일례로서, 이상과 같은 관계 네트워크를 예시하고 있다.
본 실시형태에서는, 운행 관리 시스템을 나타내는 노드(801)와 차량 관리 시스템을 나타내는 노드(802)가 시스템층에 존재함과 함께, 이들 노드(801, 802)간에 링크(803)가 존재한다. 또한 열차 주행 실적 테이블을 나타내는 노드(804)와, 지연 정보 테이블을 나타내는 노드(805)와, 차내 상태를 나타내는 노드(806)가 테이블층에 존재함과 함께, 각 노드(804, 805, 806)간에 링크가 설정되어 있다.
또한, 시스템층의 노드(801)와, 테이블층의 노드(805) 사이에 링크(807)가 존재하지만, 이 링크(807)는, 운용 관리 시스템이 보유하는 테이블인 것을 나타내고 있다. 데이터 항목층의 노드 및 데이터값층의 노드도, 도 7의 (A)∼도 7의 (D)에 각각 나타내는 테이블이 보유하는 데이터 항목 및 레코드의 데이터값으로 되어 있다. 즉, 도 2에서는 각 층간의 링크를 이용하여 보유 관계가 나타나 있다. 본 예에서는 생략을 위해, 각 테이블의 제1 레코드의 데이터값만이 데이터값층의 노드로서 나타나 있지만, 본래는 모든 레코드의 데이터값이 중복이 없는 노드로서 존재한다.
도 2에 있어서는, 각 층의 데이터를 검색·이용 가능하게 하기 위해, 시스템이 보유하는 테이블, 이 테이블이 보유하는 데이터 항목, 이 데이터 항목이 보유하는 데이터값과 같은 관계를 층간의 노드간의 링크를 이용하여 표현하고 있다.
상세는 후술하지만, 새로운 데이터가 입력될 때마다, 이 관계 네트워크가 수시 갱신된다. 갱신시, 추가 정보를 노드, 링크로 변환하여 관계 네트워크의 구조를 갱신한다. 여기에서, 추가하는 링크가 관계 네트워크에 이미 존재할 경우에는, 링크의 가중치(관련성의 크기)를 증가시킴으로써, 노드간의 관계의 세기를 링크의 가중치로서 표현하는 구조로 되어 있다.
(1-3) 관계 네트워크 정보
도 3은, 관계 네트워크 생성부(117)가 관계 네트워크 테이블(114)에 저장하는 관계 네트워크 정보를 나타내는 데이터 테이블 중, 관계 네트워크의 시스템층의 노드 및 링크에 관한 데이터의 테이블 구성예이다.
시스템층의 노드는, 노드 ID(901) 및 시스템명(902)을 속성으로서 갖는다. 시스템층의 링크는, 링크 ID(903), 링크원 노드 ID인 from 항목(904), 링크처 노드 ID인 to 항목(905), 종별(906), 가중치(907)를 속성으로서 갖는다. 종별(906) 및 가중치(907)는, 후술하는 도 12의 스텝 S408에서 링크를 설정할 때에 설정, 산출한다.
도 4의 (A)∼도 4의 (C)는, 관계 네트워크 생성부(117)가 관계 네트워크 테이블(114)에 저장하는 관계 네트워크 정보를 나타내는 데이터 테이블 중, 관계 네트워크의 테이블층의 노드, 링크에 관한 데이터의 테이블 구성예이다. 테이블층의 노드는, 노드 ID(1001), 테이블명(1002), 테이블이 보유하는 데이터 항목의 ID인 항목(1003), 종별(1004), 당해 테이블을 보유하는 시스템의 ID인 원(元)시스템 ID(1005)를 속성으로서 갖는다. 원시스템 ID(1005)에서 도 2에 나타내는 시스템층과 테이블층 사이의 링크를 나타내고 있다. 종별(1004)은, 후술하는 도 13의 스텝 S501의 판정 결과를 저장한다. 테이블층의 링크는, 링크 ID, 링크원 노드 ID인 from 항목, 링크처 노드 ID인 to 항목, 종별, 가중치를 속성으로서 갖는다. 종별 및 가중치는, 후술하는 도 12의 스텝 S407에서 링크를 설정할 때에 설정, 산출한다.
도 5의 (A)∼도 5의 (C)는, 관계 네트워크 생성부(117)가 관계 네트워크 테이블(114)에 저장하는 관계 네트워크 정보를 나타내는 데이터 테이블 중, 관계 네트워크의 데이터 항목층의 노드, 링크에 관한 데이터의 테이블 구성예이다. 데이터 항목층의 노드는, 노드 ID, 항목명, 가중치, 종별, 당해 데이터 항목을 보유하는 테이블의 ID인 테이블 ID를 속성으로서 갖는다. 종별(1004)은, 후술하는 도 13의 스텝 S502 및 스텝 S504의 결과를 저장한다. 또한, 테이블 ID로, 도 2에 나타내는 테이블층과 데이터 항목층 사이의 링크를 나타내고 있다. 데이터 항목층의 링크는, 링크 ID, 링크원 노드 ID인 from 항목, 링크처 노드 ID인 to 항목, 종별, 가중치, 링크가 나타내는 테이블 ID를 속성으로서 갖는다. 종별, 가중치 및 테이블 ID는, 후술하는 도 11의 스텝 S308에서 링크를 설정, 갱신할 때에 설정, 산출한다.
도 6의 (A)∼도 6의 (C)는, 관계 네트워크 생성부(117)가 관계 네트워크 테이블(114)에 저장하는 관계 네트워크 정보를 나타내는 데이터 테이블 중, 관계 네트워크의 데이터값층의 노드, 링크에 관한 데이터의 테이블 구성예이다. 데이터값층의 노드는, 노드 ID, 값, 가중치, 당해 데이터값을 보유하는 데이터 항목 ID인 데이터 항목 ID, 당해 데이터값을 갖는 테이블의 테이블층에 있어서의 노드 ID와, 테이블 내의 레코드에 1부터 순서대로 설정하는 당해 레코드의 레코드 ID를 세트로 한 것을 속성으로서 갖는다. 데이터 항목 ID로, 도 2에 나타내는 데이터 항목층과 데이터값층 사이의 링크를 나타내고 있다. 데이터값층의 링크는, 링크 ID, 링크원 노드 ID인 from 항목, 링크처 노드 ID인 to 항목, 종별, 가중치, 당해 링크가 나타내는 테이블의 테이블층에 있어서의 노드 ID와, 테이블 내의 레코드에 1부터 순서대로 설정하는 당해 레코드의 레코드 ID를 세트로 한 것을 속성으로서 갖는다. 종별, 가중치 및 테이블 ID와 레코드 ID의 세트는, 후술하는 도 12의 스텝 S405에서 링크를 설정, 갱신할 때에 설정, 산출한다.
도 7의 (A)는 역 마스터의 데이터 테이블예를 나타내고 있고, 도 7의 (B)는 열차 주행 실적 테이블의 데이터 테이블예를 나타내고 있으며, 도 7의 (C)는 지연 정보 테이블의 데이터 테이블예를 나타내고 있고, 도 7의 (D)는 차내 상태 테이블의 데이터 테이블예를 나타내고 있다.
도 7의 (A)에 나타내는 역 마스터는, 그 칼럼으로서 역 코드, 역명 및 역 주소를 갖고, 이들의 정보를 관리한다. 도 7의 (B)에 나타내는 열차 주행 실적 테이블은, 그 칼럼으로서 열차 번호, 역 코드, 출발 시각 및 도착 시각을 갖고, 이들의 정보를 관리한다. 도 7의 (C)에 나타내는 지연 정보 테이블은, 그 칼럼으로서 열차 번호, 역 코드 및 지연 시분(時分)을 갖고, 이들의 정보를 관리하는 도 7의 (D)에 나타내는 차내 상태 테이블은, 그 칼럼으로서 열차 번호, 호차(號車) 및 혼잡도를 갖고, 이들의 정보를 관리한다.
도 8의 (A)∼도 8의 (D)는, 분석용 데이터 테이블 생성부(119)에 의해 생성되는 분석용 데이터 테이블을 저장하는 분석용 데이터 테이블 정보 테이블(115)(도 1 참조)의 구성예 및 분석용 데이터 테이블의 일례를 나타낸다. 분석용 데이터 테이블 정보 테이블(115)은, 1개의 분석용 데이터 테이블을 1레코드로서 관리하고 있다. 각 레코드의 항목은, 분석용 데이터 테이블의 고유 ID를 나타내는 분석용 테이블 ID(1421), 및 분석용 데이터 테이블을 저장하는 분석용 테이블(1422)을 갖는다.
도 8의 (B)∼도 8의 (D)는 분석용 데이터 테이블(1422)에 저장하는 분석용 데이터 테이블의 일례이며, 도 16에 나타내는 관계 네트워크에 있어서, 도 14에 나타내는 노드 A로서 지연 시분 노드(1601), 노드 B로서 강수량 노드(1602), 패스로서 링크(1603, 1604, 1605, 1606, 1607, 1608, 1609)로 했을 때에 생성되는 분석용 데이터 테이블을 나타낸다. 또한, 당해 도 16은, 도 2에 예시한 운행 관리 시스템 및 차량 관리 시스템 외에, 기상 정보와 같은 오픈 데이터를 원데이터 저장부(113)에 저장하여 취급 대상으로 했을 때에 있어서의 데이터 항목층의 관계 네트워크를 나타내고 있다.
링크(1603)가 나타내는 테이블은, 열차 번호(1401), 역 코드(1402), 지연 시분(1405)을 칼럼으로서 갖는 지연 정보 테이블(도 7의 (C) 참조)이다. 링크(1604)가 나타내는 테이블은, 열차 번호(1401), 역 코드(1402), 출발 시각(1403) 및 도착 시각(1404)으로 이루어지는 열차 주행 실적 테이블(도 7의 (B) 참조)이다.
우선, 이 2개의 테이블을 공통 데이터 항목인 열차 번호(1401) 및 역 코드(1402)를 키로 하여 결합한다. 다음으로, 링크(1605)가 나타내는 테이블은 열차 주행 실적 테이블이기 때문에, 결합해도 결합 후 테이블에 변경은 없다.
다음 링크(1606)가 나타내는 테이블은, 칼럼으로서 역 코드(1402), 역명(1406), 역 주소(1407)를 갖는 역 마스터 테이블(도 7의 (A) 참조)이다. 역 마스터 테이블과 지금까지 결합한 테이블은, 역 코드를 키로 하여 결합된다.
패스 내의 다음 링크(1607)는, 테이블 ID를 가지지 않는 1대 다(多)의 종별의 링크이기 때문에, 다음 링크(1608)로 진행한다. 링크(1608)가 나타내는 테이블은, 오픈 데이터인 기상 관측 지점의 관측 장소(1409) 및 주소(1408)를 포함하는 관측 장소 마스터 테이블이다.
본 테이블과의 통합은, 링크(1607)로 연결되는 역 주소(1407) 및 주소(1408)를 이용한다. 주소에 대해서는 완전 일치가 아니라, 지도 정보 등을 이용하여 가장 거리가 가까운 것을 맞대어, 테이블이 통합된다.
패스 내의 다음 링크(1608)가 나타내는 테이블은, 오픈 데이터인 관측 장소(1409), 시각(1410), 강수량(1411) 및 풍속(1412)을 포함하는 기상 정보 테이블이다. 지금까지 통합한 테이블과, 기상 정보 테이블은, 공통 데이터 항목인 관측 장소(1409), 링크(1610)로 대응짓기 가능한 시각(1410), 및 출발 시각(1403)을 키로 하여, 통합된다. 시각의 대응짓기에 대해서도, 장소의 대응짓기와 마찬가지로, 가장 가까운 시각을 맞댐으로써, 완전 일치가 아닐 경우에도 대응지을 수 있다.
도 9는, 데이터 모델 정보 테이블(116)의 테이블 구성예를 나타낸다. 이 데이터 모델 정보 테이블(116)에는, 데이터 모델 생성부(120)에 의해 생성되는 데이터 모델이 저장된다.
데이터 모델 정보 테이블(116)에서는, 1개의 데이터 모델을 1레코드로서 관리하고 있다. 각 레코드의 항목은, 데이터 모델 고유의 ID를 나타내는 모델 ID 1501, 모델이 포함하는 데이터 항목 테이블을 저장하는 데이터 항목(1502), 모델 내의 데이터 항목간의 스코어 테이블을 저장하는 스코어(1503), 관계 네트워크의 데이터 항목층에서, 모델이 포함하는 데이터 항목을 나타내는 노드간의 링크를 나타내는 테이블을 저장하는 링크(1504), 및 대응하는 분석용 데이터 테이블 ID를 나타내는 분석용 테이블 ID(1421)가 저장되는 분석용 테이블(1505)을 갖는다.
데이터 항목(1502)에 저장하는 데이터 항목 테이블은, 1개의 데이터 항목이 1레코드로서 관리되어 있다. 각 레코드의 항목은, 도 9의 (B)에 나타내는 바와 같이 항목 ID(1506) 및 항목명(1507)을 갖는다.
스코어(1503)에 저장되는 스코어 테이블은, 데이터 항목간 1개를 1레코드로서 관리한다. 각 레코드의 항목은, 스코어 ID(1513), 스텝 S703에서 산출하는 항목 ID(1)(1514), 항목 ID(2)(1515), 항목 ID(1)(1514)가 나타내는 데이터 항목 및 항목 ID(2)(1515)가 나타내는 데이터 항목의 값의 상관 계수를 나타내는 상관 계수(1516), 및 상관 계수를 산출할 때에 이용한 샘플 수를 나타내는 샘플 수(1517)를 갖는다. 또한, 이 샘플 수(1517)는, 후술하는 도 15의 스텝 S703에 있어서 산출되는 값에 상당한다.
링크(1504)에 저장하는 링크 테이블은, 도시하지 않지만, 1노드간의 링크를 1레코드로서 관리하고 있고, 그 테이블 구성은, 도 5의 (C)에 나타내는 링크 테이블과 마찬가지의 구성이다.
(1-4) 데이터 분석 지원 시스템의 동작예
(1-4-1) 기본적인 처리 절차(데이터 분석 지원 처리)
도 10은, 제1 실시형태에 따른 데이터 분석 지원 장치(101)에 의한 기본적인 처리 절차를 나타낸다. 구체적으로는, 도 10은, 데이터 분석 지원 장치(101)에 새롭게 업무 시스템이 접속되었을 때, 접속된 업무 시스템이 보유하는 업무 정보가 갱신되었을 때, 또는, 데이터 분석 시스템(104)으로부터의 갱신 명령을 수신했을 때 등에 실시하는 처리의 흐름의 일례를 나타낸다.
스텝 S201에서는, 관계 네트워크 생성부(117)가, 새로운 데이터가 있는지의 여부, 즉, 본 데이터 분석 지원 장치가 대상으로 하는 업무 정보인 데이터 테이블에 갱신이 있었는지의 여부를 판정한다. 이 판정의 결과에 의거하여, 관계 네트워크 생성부(117)는, 상기 데이터 테이블에 갱신이 있었을 경우, 즉, 새로운 업무 시스템이 접속되었을 경우, 이미 접속되어 있는 업무 시스템(102, 103)이 보유하는 데이터 테이블에 데이터의 추가 혹은 변경이 있었을 경우, 또는, 데이터 분석 지원 장치(101)를 신규로 도입했을 경우, 다음과 같은 스텝 S202를 실행한다. 한편, 상기 데이터 테이블에 갱신이 없었을 경우, 관계 네트워크 생성부(117)는 본 처리를 종료한다.
스텝 S202에서는, 관계 네트워크 생성부(117)가, 원데이터 저장부(113)에 저장되어 있는 업무 정보인 데이터 테이블을 해석하고, 각 업무 시스템간의 관계, 각 데이터 테이블간의 관계, 각 업무 데이터 테이블이 보유하는 각 데이터 항목간의 관계, 각 업무 데이터 테이블의 각 레코드가 보유하는 각 데이터값간의 관계를 관계 네트워크로서 구축하여 관계 네트워크 테이블(114)에 저장한다. 이 상세에 대해서는, 도 11 및 도 12를 참조하면서 후술한다.
스텝 S203에서는, 데이터 항목 분류부(118)가, 데이터 분석 대상인 업무 정보를 나타내는 데이터 테이블 및 데이터 항목을 실적값에 의거하는 제1 데이터 종별(트랜잭션)과, 계획값 또는 사전 정의에 의거하는 제2 데이터 종별(마스터)로 분류하고, 관계 네트워크 테이블(114)에 있어서의 테이블 정보나 데이터 항목 정보의 분류 정보로서 저장한다. 이 상세에 대해서는, 도 13을 참조하면서 후술한다.
스텝 S204에서는, 분석용 데이터 테이블 생성부(119)가, 원데이터인 업무 정보의 데이터 테이블에 대해서 관계 네트워크 정보를 이용하여 통합하고, 데이터 분석에 이용하는 데이터 분석용 테이블로서 분석용 데이터 테이블 정보 테이블(115)에 저장한다. 이에 따라, 분석 대상이 되는 데이터 항목의 조합이 축적된다. 이 상세에 대해서는, 도 14를 참조하면서 후술한다.
스텝 S205에서는, 분석용 데이터 테이블 생성부(119)가, 새로운 데이터 테이블이 존재하는지의 여부, 즉, 분석용 데이터 테이블 정보 테이블(115)에 저장한 분석용 데이터 테이블 중, 본 처리 실행 전과 비교하여 갱신된 데이터 테이블 또는 새로운 데이터 테이블이 존재하는지의 여부에 대해서 판정한다. 분석용 데이터 테이블 생성부(119)는, 그러한 데이터 테이블이 존재하면 스텝 S206을 실행하는 한편, 그러한 데이터 테이블이 존재하지 않으면 본 처리를 종료한다.
스텝 S206에서는, 데이터 모델 생성부(120)가, 갱신이 있었던 분석용 데이터 테이블 또는 새로운 데이터 테이블마다 데이터 모델을 생성한다. 본 처리에서는, 데이터 모델 생성부(120)가, 조합하여 데이터 분석이 가능한 데이터 항목의 집합을, 키 항목, 분석시의 필터링 항목이 되는 데이터 항목, 데이터 항목의 조합마다 산출한 스코어와 함께 데이터 모델로서 생성하고, 데이터 모델 정보 테이블(116)에 축적한다. 이 상세에 대해서는, 도 15를 참조하면서 후술한다.
각 분석용 테이블에 관하여 스텝 S206의 처리가 실시된 후, 스텝 S207을 실행한다. 이 스텝 S207에서는, 분석 대상 항목 제시부(121)가, 분석 대상이 되는 데이터 항목을 데이터 모델마다 표시하고, 분석 대상이 되는 데이터 항목의 조합을 스코어와 함께 강조 표시함으로써, 유저에 대하여 추천한다. 표시예에 대해서는, 도 17을 참조하면서 후술한다. 그 후, 본 처리를 종료한다.
(1-4-2) 관계 네트워크 생성·갱신 처리
도 11 및 도 12는, 각각, 도 10에 나타내는 관계 네트워크 생성·갱신 처리(스텝 S202)의 상세한 절차예를 나타낸다. 이 관계 네트워크 생성·갱신 처리는, 관계 네트워크 생성부(117)에 의해 실행된다. 우선, 본 장치가 분석 대상으로서 추천하는 원데이터를 보유하는 각 업무 시스템에 대하여, 이하의 처리를 실시한다.
스텝 S301에서는, 관계 네트워크 생성부(117)가, 당해 업무 시스템을 나타내는 노드가 관계 네트워크의 시스템층에 없는지의 여부를 판정한다. 당해 시스템의 노드가 시스템층에 존재하지 않으면 스텝 S302가 실행되고, 한편, 당해 시스템의 노드가 시스템층에 존재하면 스텝 S303을 실행한다.
이 스텝 S302에서는, 관계 네트워크 생성부(117)가, 당해 시스템을 나타내는 노드를 시스템층에 생성한다. 이 노드는, 시스템층에 생성한 순으로 설정하는 노드 ID 및 시스템명을 속성으로서 갖는다.
시스템명은, 예를 들면, 원데이터 저장부(113)에서 업무 시스템마다 나뉘어져 있으면, 디렉토리명 등으로 설정해도 되고, 통신 장치(107)로부터 통신망(122)을 통해 각 업무 시스템(102, 103)에 문의해도 된다.
당해 업무 시스템(102, 103)의 업무 정보에 있어서의 각 데이터 테이블에 대하여, 이하의 처리를 실시한다. 우선, 스텝 S303에서는, 관계 네트워크 생성부(117)가, 당해 데이터 테이블이 관계 네트워크의 테이블층에 존재하는지의 여부를 판정한다. 당해 테이블이 관계 네트워크의 테이블층에 존재하지 않으면 스텝 S304를 실행하는 한편, 당해 테이블이 관계 네트워크의 테이블층에 존재하면 스텝 S401로 진행한다.
스텝 S304에서는, 관계 네트워크 생성부(117)가, 당해 데이터 테이블을 나타내는 노드를 테이블층에 생성한다. 노드는, 테이블층에 생성한 순으로 설정하는 노드 ID와, 테이블명, 테이블이 보유하는 데이터 항목, 종별, 당해 시스템의 시스템층에 있어서의 노드 ID인 원시스템 ID를 속성으로서 갖는다. 종별은, 당해 테이블이 마스터 테이블이면 0으로 하고, 트랜잭션 테이블이면 1로 한다. 테이블명은, 파일명 등으로부터 취득 가능하다. 종별은, 당해 테이블의 갱신 빈도나 레코드 수의 증감, 테이블명으로부터 판별 가능하다.
다음으로, 당해 테이블이 보유하는 각 데이터 항목에 대하여, 이하의 처리를 실시한다. 스텝 S305는, 관계 네트워크 생성부(117)가, 당해 데이터 항목을 나타내는 노드가 관계 네트워크의 데이터 항목층에 없는지의 여부를 판정한다.
당해 데이터 항목을 나타내는 노드가 관계 네트워크의 데이터 항목층에 있는지의 여부는, 기본적으로는 데이터 항목명과 데이터값의 비교에 의해 같은지의 여부를 판정한다. 예를 들면, 데이터 항목명이 같고, 데이터값도 같은 것이 포함되어 있거나, 혹은 수치가 가깝거나, 유사하거나(유사도 판정에 의한 유사도가 일정 이상), 포맷이 동일하다는 것에 대해서는 같다고 한다.
또한, 데이터 항목명이 완전히 같지 않아도 유사도 판정을 실시하여 유사도가 어느 일정 이상이며, 또한 데이터값도 같은 것이 포함되거나, 혹은 수치가 가깝다는 것, 유사하거나, 포맷이 동일하다고 할 때에는 같다고 한다. 또한, 미리 사서(辭書) 정보를 저장해 두고, 같은 항목 판정을 행하는 것으로 해도 된다. 같은 항목을 나타내는 노드가 없으면 스텝 S306이 실행되고, 같은 항목을 나타내는 노드가 있으면 스텝 S307을 실행한다.
스텝 S306에서는, 관계 네트워크 생성부(117)가, 당해 데이터 항목을 나타내는 노드를 데이터 항목층에 생성한다. 노드는, 데이터 항목층에 생성한 순으로 설정하는 노드 ID, 데이터 항목명, 가중치, 당해 데이터 항목을 갖는 테이블의 테이블층에 있어서의 노드 ID인 테이블 ID를 속성으로서 갖는다.
가중치에 대해서는, 스텝 S306에서는 일례로서 1로 하고, 스텝 S305에서 이미 노드가 존재한다고 판정되었을 때에, 스텝 S305로부터 스텝 S307로 진행하기 전에 1 증가시킨다. 또한, 테이블 ID에 대해서도 마찬가지로, 스텝 S305에서 이미 노드가 존재한다고 판정되었을 때에는, 스텝 S305로부터 스텝 S307로 진행하기 전에 그때의 테이블 ID를 추가로 저장한다.
스텝 S307에서는, 관계 네트워크 생성부(117)가, 당해 데이터 항목을 나타내는 데이터 항목층의 노드와, 당해 테이블을 나타내는 테이블층의 노드 사이에 링크를 설정한다. 본 예에서, 본 링크는, 데이터 항목층의 노드의 속성인 테이블 ID로서 관리하고 있지만, 관계 네트워크 테이블(114)에 있어서, 테이블층과 데이터 항목층 사이의 링크를 관리하는 테이블을 보유해도 된다. 이상의 처리를, 당해 테이블이 보유하는 각 데이터 항목에 대하여 실시한다.
다음으로 스텝 S308에서는, 관계 네트워크 생성부(117)가, 당해 테이블이 보유하는 데이터 항목을 나타내는 데이터 항목층의 전체 노드간에 테이블 ID를 속성, 가중치 1, 종별은 「동(同)테이블」을 나타내는 값으로서 갖는 링크를 설정하고, 이미 링크가 존재할 경우에는 속성에 테이블 ID를 추가하고, 가중치에 1을 늘린다.
스텝 S309에서는, 관계 네트워크 생성부(117)가, 당해 테이블을 나타내는 테이블층의 노드와, 원시스템을 나타내는 시스템층의 노드 사이에 링크를 설정한다. 링크를 설정할 때, 이미 노드간에 링크가 존재할 때에는 가중치에 1을 늘리고, 테이블 ID에 당해 테이블을 나타내는 ID를 추가한다. 신규로 설정할 경우에는 가중치 1의 링크를 설정한다. 본 예에서, 본 링크는, 테이블층의 노드의 속성인 원시스템 ID로서 관리하고 있지만, 관계 네트워크 테이블(114)에 있어서, 시스템층과 테이블층 사이의 링크를 관리하는 테이블을 보유해도 된다.
계속해서 도 12에 나타내는 바와 같이 당해 테이블 내의 각 레코드에 대하여 이하의 처리를 실시한다. 스텝 S401에서는, 관계 네트워크 생성부(117)가, 당해 레코드가 관계 네트워크의 데이터값층에 없는지의 여부를 판정한다. 여기에서, 당해 레코드가 관계 네트워크의 데이터값층에 있다는 것은, 당해 레코드가 보유하는 데이터값 전부에 대해서, 대응하는 노드가 존재하고, 그들의 노드간에 당해 테이블의 ID와 당해 레코드의 ID를 갖는 링크가 존재하는 것이다. 그러한 링크가 존재하지 않으면 스텝 S402를 실행하는 한편, 그러한 링크가 존재하면 다음 레코드에 대한 처리로 진행한다.
스텝 S402∼스텝 S404는, 당해 레코드가 보유하는 각 데이터값에 대하여 실시하는 처리이다. 스텝 S402에서는, 관계 네트워크 생성부(117)가, 당해 데이터값을 나타내는 노드가 관계 네트워크의 데이터값층에 없는지의 여부를 판정한다. 당해 데이터값을 나타내는 노드가 관계 네트워크의 데이터값층에 존재하지 않을 경우에는, 후술하는 스텝 S403을 실행하는 한편, 당해 데이터값을 나타내는 노드가 관계 네트워크의 데이터값층에 존재할 경우에는, 당해 데이터값을 나타내는 데이터값층의 노드와, 당해 데이터값이 속하는 데이터 항목을 나타내는 데이터 항목층의 노드 사이에 링크를 설정한다(스텝 S404).
스텝 S403에서는, 관계 네트워크 생성부(117)가, 당해 데이터값을 나타내는 노드를 데이터값층에 생성한다. 노드는, 데이터값층에 생성한 순으로 설정하는 노드 ID, 데이터값, 가중치, 당해 데이터값을 갖는 테이블의 테이블층에 있어서의 노드 ID와, 테이블 내의 레코드에 1부터 순서대로 설정하는 당해 레코드의 레코드 ID를 세트로 한 것을 속성으로서 갖는다.
가중치에 대해서는, 스텝 S403에서는 일례로서 1로 하고, 스텝 S402에서 이미 노드가 존재한다고 판정되었을 때에, 스텝 S402로부터 스텝 S404로 진행하기 전에 1 증가한다. 또한, 테이블 ID 및 레코드 ID도 마찬가지로, 스텝 S402에서 이미 노드가 존재한다고 판정되었을 때에는, 스텝 S402로부터 스텝 S404로 진행하기 전에 당해 데이터값을 갖는 당해 테이블 ID 및 레코드 ID를 추가로 저장한다.
스텝 S404에서는, 관계 네트워크 생성부(117)가, 당해 데이터값을 나타내는 데이터값층의 노드와, 당해 데이터값이 속하는 데이터 항목을 나타내는 데이터 항목층의 노드 사이에 링크를 설정한다.
링크를 설정할 때, 관계 네트워크 생성부(117)는, 이미 노드간에 링크가 존재할 때에는 가중치에 1을 늘리고, 테이블 ID 및 레코드 ID에, 당해 테이블을 나타내는 ID를 추가함과 함께, 당해 레코드를 나타내는 레코드 ID를 추가한다. 신규로 설정할 경우에는 가중치 1의 링크를 설정한다. 본 예에서, 본 링크는, 데이터값층의 노드의 속성인 테이블 ID와 레코드 ID의 세트로서 관리하고 있지만, 관계 네트워크 테이블(114)에 있어서, 데이터 항목층과 데이터값층 사이의 링크를 관리하는 테이블을 보유해도 된다.
스텝 S405에서는, 관계 네트워크 생성부(117)가, 당해 레코드가 보유하는 데이터값을 나타내는 데이터값층의 전체 노드간에, 가중치 1, 종별이 「동레코드」를 나타내는 값, 당해 테이블의 테이블층에 있어서의 노드 ID와, 테이블 내의 레코드에 1부터 순서대로 설정하는 당해 레코드의 레코드 ID를 세트로 한 것을 속성으로서 갖는 링크를 설정한다. 이미 링크가 존재할 경우에는 링크의 가중치를 1 증가시킨다. 또한, 테이블 ID 및 레코드 ID도 마찬가지로, 당해 데이터값을 갖는 당해 테이블 ID 및 레코드 ID를 추가로 저장한다.
이상의 처리를 당해 테이블 내의 각 레코드에 대하여 실시한다. 이상의 처리를 당해 시스템의 업무 정보에 있어서의 각 데이터 테이블에 대하여 실시한다. 또한 이상의 처리를, 본 장치가 분석 대상으로서 추천하는 원데이터를 보유하는 각 업무 시스템에 대하여 실시한다.
스텝 S406에서는, 관계 네트워크 생성부(117)가, 데이터 항목간의 관계성 체크를 행하고, 데이터 항목층의 노드간에 링크를 설정한다. 예를 들면, 데이터값의 관계를 참조함으로써, 이하에 나타내는 (a)∼(d)와 같은 데이터 항목간의 구조상의 관계를 추출하고, 데이터 항목층의 노드간에 링크를 설정한다.
(a) 포함 관계: 데이터 항목명의 포함 관계와 데이터값 집합(연속값일 경우에는 범위)의 포함 관계를 체크함으로써 추출한다.
(b) 1대 다의 관계: 데이터값에서 1대 다가 되어 있는지 체크함으로써 추출한다.
(c) 1대 1의 관계: 데이터값에서 1대 1이 되어 있는지 체크함으로써 추출한다.
(d) 동값: 데이터 항목명의 유사도 분석 및 데이터값 집합 비교에 의해 추출한다.
시각 및 장소를 나타내는 항목에 대해서는, 데이터값이 가까울 경우에도 대응짓기 가능한 것으로서 상기 관계를 설정해도 된다. 또한, 데이터 항목간의 관계에 대해서는 여기에서 나타낸 관계에 한하지 않고, 일반적으로 알려져 있는 관계를 계산하여 링크를 설정해도 된다.
스텝 S407에서는, 관계 네트워크 생성부(117)가 테이블층의 노드간에 링크를 설정한다. 데이터 테이블이 보유하는 데이터 항목을 나타내는 데이터 항목층의 노드간에 링크가 설정되어 있을 경우나, 같은 데이터 항목을 가질 경우에 링크를 설정한다. 링크의 가중치는, 상기 데이터 항목층의 노드간의 링크의 가중치와 같은 데이터 항목의 수의 합이며, 종별(복수여도 됨)은, 상기 링크의 종별이나, 같은 데이터 항목을 가지는 것을 나타내는 값으로 한다.
스텝 S408에서는, 시스템층의 노드간에 링크를 설정한다. 시스템이 보유하는 데이터 테이블을 나타내는 테이블층의 노드간에 링크가 설정되어 있을 경우나, 같은 데이터 테이블을 가질 경우에 링크를 설정한다. 그 후, 본 처리를 종료한다.
스텝 S408에서, 시스템이 보유하는 데이터 테이블을 나타내는 테이블층의 노드간에 링크가 설정되어 있으면, 관계 네트워크 생성부(117)는, 그 테이블층의 링크의 종별을 종별 906에 저장하고(복수여도 됨), 가중치는 합계한 것을 가중치(907)에 저장한다. 같은 데이터 테이블을 가질 경우에는, 그것을 나타내는 종별을 종별 906에 저장하고, 가중치(907)는 같은 테이블 수만큼 가산한다.
(1-4-3) 데이터 항목 분류 처리
도 13은, 도 10에 나타내는 데이터 항목 분류 처리(스텝 S203)를 나타내는 플로우 차트이다. 우선, 관계 네트워크의 테이블층에 존재하는 각 노드가 나타내는 각 테이블에 대하여, 데이터 항목 분류부(118)는, 다음에 나타내는 스텝 S501 및 스텝 S502의 처리를 실시한다.
스텝 S501에서는, 데이터 항목 분류부(118)가, 당해 테이블이 마스터 테이블인지의 여부에 대해서 판정한다. 예를 들면, 일정 기간 갱신이 없거나, 또는, 테이블 생성으로부터 레코드의 추가가 없을 경우, 데이터 항목 분류부(118)는, 당해 테이블이 마스터 테이블이라고 판정하고, 도 4에 나타내는 테이블층의 노드의 종별 정보에 마스터 테이블을 나타내는 0을 저장하고, 스텝 S502를 실행한다.
당해 테이블이 마스터 테이블이 아닐 경우에는, 데이터 항목 분류부(118)는, 도 4에 나타내는 테이블층의 노드의 종별 정보에 트랜잭션 테이블을 나타내는 1을 저장하고, 다음 테이블에 대한 처리로 진행한다. 모든 테이블에 대하여 처리가 종료되어 있으면, 스텝 S503으로 진행한다.
스텝 S502에서는, 데이터 항목 분류부(118)가, 마스터 테이블이라고 판정된 테이블이 보유하는 데이터 항목에 대해서, 종별을 마스터로 한다. 즉, 데이터 항목 분류부(118)는, 도 5의 (A)에 나타내는 데이터 항목층의 노드의 종별 정보에, 도 5의 (B)에 나타내는 바와 같이 마스터를 나타내는 0을 저장한다.
다음으로, 데이터 항목 분류부(118)는, 관계 네트워크의 데이터 항목층에 존재하는 각 노드가 나타내는 각 데이터 항목에 대하여, 스텝 S503 및 스텝 S504의 처리를 실시한다. 스텝 S503에서는, 데이터 항목 분류부(118)가, 당해 데이터 항목이 마스터인지의 여부를 판정한다. 즉, 데이터 항목 분류부(118)는, 도 5에 나타내는 노드의 종별이 0인지의 여부를 판정한다. 데이터 항목 분류부(118)는, 이 노드의 종별이 0이면 다음 데이터 항목에 대한 처리로 진행하는 한편, 모든 데이터 항목에 대하여 처리가 종료되어 있으면 본 처리를 종료한다. 데이터 항목 분류부(118)는, 이 노드의 종별이 0이 아니면, 스텝 S504로 진행한다.
스텝 S504는, 당해 데이터 항목의 종별을 트랜잭션으로 하는 처리이다. 즉, 데이터 항목 분류부(118)는, 도 5에 나타내는 데이터 항목층의 노드의 종별 정보에 트랜잭션을 나타내는 1을 저장한다. 데이터 항목 분류부(118)는, 관계 네트워크의 데이터 항목층에 존재하는 각 노드가 나타내는 각 데이터 항목에 대하여 이상의 처리를 실시하고, 본 처리를 종료한다.
(1-4-4) 분석용 데이터 테이블 생성·축적 처리
도 14는, 도 10에 있어서의 스텝 S204의 분석용 데이터 테이블 생성·축적 처리를 나타내는 플로우 차트이다. 이 분석용 데이터 테이블 생성·축적 처리는, 분석용 데이터 테이블 생성부(119)에 의해 실행된다.
스텝 S601에서는, 분석용 데이터 테이블 생성부(119)가, 관계 네트워크의 데이터 항목층의 노드, 링크로 이루어지는 네트워크에 대해서 연결 성분으로 분해한다. 본 처리는, 무향(無向) 그래프에 깊이 우선 탐색을 응용하는 일반적인 연결 성분 분해의 알고리즘을 이용하여 실시된다.
다음으로, 분석용 데이터 테이블 생성부(119)는, 각 연결 성분에 대하여 이하의 처리를 실시한다. 당해 연결 성분 내의 노드 중, 종별이 트랜잭션이고, 스텝 S306에서 새롭게 생성된 각 노드에 대해서, 이하의 처리를 실시한다. 당해 노드를 A로 한다. 또한, 당해 연결 성분 내의 A 이외의 각 노드에 대해서, 이하의 처리를 실시한다. 당해 노드를 B로 하고, 이하 설명한다.
스텝 S602에서는, 분석용 데이터 테이블 생성부(119)가, A, B로 나타나는 데이터 항목을 어느 쪽도 포함하는 분석용 데이터 테이블이 분석용 데이터 테이블 정보 테이블(115)에 존재하는지의 여부를 판정한다. 또한, 본 처리는 생략하고, 모든 A, B에 대하여 본 처리를 하도록 해도 된다.
분석용 데이터 테이블 생성부(119)는, 상기 분석용 데이터 테이블이 분석용 데이터 테이블 정보 테이블(115)에 존재하지 않으면 스텝 S603으로 진행하는 한편, 분석용 데이터 테이블이 분석용 데이터 테이블 정보 테이블(115)에 존재하면 B에 대한 처리를 종료한다.
스텝 S603에서는, 분석용 데이터 테이블 생성부(119)가, 노드 A와 노드 B가 네트워크 내에서 인접하고 있는지의 여부, 즉, A, B간에 테이블 ID를 속성으로서 갖는 링크가 존재하지 않는지의 여부를 판정한다. 분석용 데이터 테이블 생성부(119)는, 당해 링크가 존재하면 스텝 S605로 진행하여, 링크가 나타내는 테이블 ID를 갖는 테이블을, A, B를 포함하는 테이블로서 분석용 데이터 테이블 정보 테이블(115)에 축적하고, B에 대한 처리를 종료한다.
한편, 분석용 데이터 테이블 생성부(119)는, 스텝 S603에서 A, B가 인접해 있지 않으면 스텝 S604로 진행하고, A부터 B로의 패스를 산출한다.
이하, A부터 B의 각 패스에 대해서 짧은 것부터 순서대로 이하의 처리를 실시한다. 스텝 S606은, 당해 패스 내의 A로부터 나오는 링크로부터 추적하여 최초로 테이블 ID를 갖는 링크를 A, 다음으로 테이블 ID를 갖는 링크를 B로 하고, A의 테이블 ID를 나타내는 테이블을 테이블 ta로 한다. 테이블 ta로서 복수의 테이블이 존재할 경우에는 각 테이블에 대하여, 이하의 처리가 실행된다.
스텝 S607에서는, 분석용 데이터 테이블 생성부(119)가, B의 테이블 ID를 갖는 테이블층의 노드가 나타내는 테이블 tb로 하고, 테이블 ta 및 테이블 tb를, 공통 데이터 항목을 키로 하여 테이블 ta를 기초로 테이블 tb를 결합 가능한지의 여부를 판정한다.
테이블 tb로서 복수의 테이블이 존재할 경우, 분석용 데이터 테이블 생성부(119)가 각 테이블에 대하여 처리를 실행한다. 여기에서, 공통 데이터 항목이란, 테이블 ta 및 테이블 tb가 보유하는 데이터 항목 중 데이터 항목층의 노드로서 공통으로 하고 있는 것을 가리킨다.
공통 항목에 대해서, 테이블 ta에 있어서의 데이터값에 대응하는 것이 테이블 tb에 일의(一意)로 존재하면 맞대어 결합 가능하다. 시각이나 장소를 나타내는 항목에 대해서는, 가까울 경우도 맞대기 가능하다는 설정으로 해도 된다. 또한, 표시 장치(109)를 통해 유저에게 물어, 유저가 입력 장치(108)를 통해 맞대는 데이터값을 결정해도 된다. 그렇게 결합하여, 새로운 테이블이 되었을 경우에는 스텝 S608로 진행한다. 그렇게 결합할 수 없거나, 또는, 결합한 결과 레코드 수가 0이었을 경우에는 본 스텝에서 당해 패스에 대한 처리를 종료한다.
스텝 S608에서는, 분석용 데이터 테이블 생성부(119)가, 테이블 ta와 결합 가능했던 테이블 tb 중, 결합한 테이블의 레코드 수가 가장 많은 것 중의 1개와 결합한 테이블을 테이블 ta로 한다. 또한, 결합한 테이블의 레코드 수가 가장 많은 것 1개를 고르는 것이 아니고, 각 tb에 대하여 결합한 테이블을 테이블 ta로 하여, 각 ta에 대하여 이하의 처리를 실행해도 된다. 스텝 S609는, 링크 b가 당해 패스의 최후의 링크인지, 즉, 링크 b의 선단(先端) 노드가 B인지 판정하는 처리이다.
최후의 링크이면 스텝 S611을 실행한다. 즉, 테이블 ta를 분석용 데이터 테이블 정보 테이블(115)에 축적하고, B에 대한 처리를 종료한다. 한편, 최후의 링크가 아니면, 당해 패스의 다음 링크, 즉, 링크 b의 선단 노드를 원노드로 하는 링크로부터 당해 패스를 추적하여 최초로 테이블 ID를 갖는 링크를 새롭게 링크 b로 하고(스텝 S610), 스텝 S607로 돌아간다.
이상의 처리를 각 A, B에 대하여 실행한다. 또한 이상의 처리를 각 연결 성분에 대하여 실행하고, 본 처리를 종료한다.
(1-4-5) 데이터 모델 생성 처리
도 15는, 도 10에 나타내는 데이터 모델 생성 처리(스텝 S206)를 나타낸다. 이 데이터 모델 생성 처리는, 데이터 모델 생성부(120)에 의해 실행된다. 본 처리는, 분석용 데이터 테이블 정보 테이블(115)에 저장되어 있는 각 분석용 데이터 테이블에 대하여 실시된다.
스텝 S701에서는, 데이터 모델 생성부(120)가, 데이터 항목층의 관계 네트워크로부터 당해 분석용 데이터 테이블 내의 데이터 항목에 대해서, 노드를, 노드간의 링크와 함께 추출한다.
이와 같이 추출한 노드가 나타내는 데이터 항목 중 종별이 트랜잭션을 나타내고 있는 각 노드에 대하여, 데이터 모델 생성부(120)는, 이하의 처리를 실시한다. 당해 노드를 A로 한다. 또한, 추출한 노드 중, A가 아닌 각 노드에 대하여, 데이터 모델 생성부(120)는, 이하의 처리를 실시한다. A가 아닌 당해 노드를 B로 하여 이하 설명한다.
스텝 S702에서는, 데이터 모델 생성부(120)가, A 및 B가 체크 완료인지, 즉, 데이터 항목 A, B간의 스코어를 산출했는지의 여부를 판정한다. 데이터 모델 생성부(120)는, 당해 스코어를 산출 완료가 아닐 경우에는 스텝 S703으로 진행하는 한편, 당해 스코어를 산출 완료일 경우에는 다음 노드 쌍에 대한 처리로 진행한다.
스텝 S703에서는, 데이터 모델 생성부(120)가, A 및 B의 스코어를 산출한다. 스코어는, 예를 들면, 당해 분석용 데이터 테이블의 A가 나타내는 데이터 항목의 열과, B가 나타내는 데이터 항목의 열을 이용하여 산출하는 상관 계수, 및 상관 계수를 산출했을 때의 샘플 수와 같은, 분석용 데이터 테이블을 이용하여 산출 가능한 수치로 한다.
스텝 S704에서는, 데이터 모델 생성부(120)가, 스텝 S703에서 산출한 스코어를 가중치로 하는 분석 대상을 종별로 한 링크를, A, B간에 설정하는 처리이다. 이상의 처리를 A, B의 각 조합에 대하여 실시한다.
스텝 S705에서는, 데이터 모델 생성부(120)가, 스텝 S701에서 추출 완료의 노드, 링크와, 스텝 S704에서 추가한 링크를, 합친 관계 네트워크(도시한 「네트워크」에 상당)를 데이터 모델로서 데이터 모델 정보 테이블(116)에 축적한다. 이상의 처리를 각 분석용 데이터 테이블에 대하여 실시하고, 본 처리를 종료한다. 또한, 본 실시형태에서는, 데이터 항목층의 관계 네트워크를 데이터 모델로 했지만, 대응하는 시스템층이나 테이블층, 데이터값층의 관계 네트워크도 데이터 모델에 더해도 된다.
(1-5) 화면예
도 16은, 관계 네트워크 생성부(117)에 의해 생성된 관계 네트워크가 표시 장치(109)에 표시된 제1 화면예이다. 본 제1 화면은, 유저에 대하여 업무 정보간의 관계를 가시화한 형태를 표시하고 있다.
각 시스템층, 각 테이블층, 각 데이터 항목층, 각 데이터값층이 각각 탭 16001에서 선택되면, 표시 장치(109)의 화면에는, 당해 선택된 층이 표시된다. 도 16에서는, 이들 층 중 일례로서 데이터 항목층을 도시하고 있다.
본 제1 화면예에서는, 관계 네트워크를 연결 성분으로 분해하고, 유저가 입력 장치(108)를 통해 체크 박스(16002)에서 선택한 연결 성분이 표시되고 있다. 체크 박스(16002)의 텍스트(16003)에는, 연결 성분의 중심을 나타내는 노드의 명칭이 표시되고 있다.
도 17은, 분석 대상이 되는 데이터 항목을 유저에게 추천하는 제2 화면예를 나타낸다. 구체적으로는, 분석 대상 항목 제시부(121)는, 분석 대상이 되는 데이터 항목을 표시 장치(109)에 표시함으로써, 이 표시 내용에 접한 유저에 대하여 데이터 항목을 추천한다.
본 제2 화면예에서는, 데이터 모델 생성부(120)에 의해 생성된 데이터 모델로서 데이터 모델 정보 테이블(116)에 저장되는 데이터 모델마다, 분석 대상이 되는 데이터 항목의 조합이, 기술(旣述)한 스텝 S703에서 산출하는 스코어와 함께 강조하여 표시된다.
이와 같이 강조하여 표시되는 데이터 모델은, 유저가 입력 장치(108)를 통해 라디오 버튼(1701)을 조작함으로써 선택된다. 선택지의 정렬 순서는, 각 데이터 모델의 기술한 스텝 S703에서 산출하는 스코어의 1개인 상관 계수 중 가장 높은 것의 내림차순으로 하고 있지만, 다른 스코어도 이용해도 되고, 각 스코어를 조합하여 산출하는 값의 내림차순으로 해도 된다. 본 실시형태에서는, 데이터 모델의 정보로서, 데이터 항목(1502)에 나타내는 테이블의 레코드 수인 데이터 항목 수(1702), 스코어(1503)가 나타내는 테이블의 레코드 수인 분석 항목 세트 수(1703), 및 분석용 테이블(1505)이 나타내는 테이블의 레코드 수인 샘플 수(1704)가 표시된다. 분석 대상이 되는 트랜잭션 데이터 항목은, 풍속 노드(1709)와 같이 타(他)노드와는 다른 형식으로 강조 나타나 있다.
본 실시형태에서는, 분석 대상 항목으로서, 풍속 외에도, 예를 들면 강수량, 지연 시분, 출발 시각 및 도착 시각이 강조 표시되고 있다. 분석 대상 항목의 세트로서는, 링크(1705) 및 스코어(1706)와 같이 항목간의 링크 및 스코어로서 나타나 있다.
본 실시형태에서는, 강수량과 지연 시분, 강수량과 풍속, 강수량과 시각, 지연 시분과 풍속, 시각과 풍속, 도착 시각과 지연 시분, 출발 시각과 지연 시분, 열차 번호와 지연 시분의 8세트가 분석 대상 항목의 세트로서 추천되고 있다. 스코어는, 각각, 0.7, -0.1, 0.1, 0.4, -0.1, 0.08, 0.08, 0.2로 되어 있다.
또한, 도 16과 같이 관계 네트워크 전체를 표시할 때, 업무 시스템의 업무 분야에 관한 공통 모델이나 관계 데이터, 사양서 정보 등을 미리 데이터베이스(111)에 보존해 두고, 그들을 사용하여 관계 네트워크의 노드를 계층화 표시 또는 노드를 집약 표시해도 된다.
예를 들면, 철도에 관한 데이터를 취급할 경우, 역, 열차 및 선로와 같은 불변의 것에 대하여 공통 모델이 되는 마스터 테이블을 생성해 두고, 마스터 테이블을 관계 네트워크에 넣음으로써, 불변인 것에 대한 데이터의 관계를 도입하는 것이 가능해진다.
또한, 유저는, 입력 장치(108) 또는 데이터 분석 시스템(104)을 통해, 도 16에 나타내는 제1 화면예에 있어서 관계 네트워크를 편집하여 사용하고, 이 관계 네트워크가 유저마다 또는 분석 시스템마다 분석 결과와 함께 이것이 보존되도록 해 두고, 이 보존 내용을 분석시에 참조할 수 있도록 해도 된다.
더욱이는, 스텝 S406에서는, 관계 네트워크 생성부(117)가, 데이터 항목의 관계 링크가 데이터베이스(111)에 미리 보존되는 사서 정보를 이용하여 설정해도 된다. 본 실시형태에서는, 도 2에 나타내는 바와 같이 관계 네트워크를, 시스템층, 테이블층, 데이터 항목층, 데이터값층의 4층으로서 설명했지만, 이에 한정하지 않고, 각 시스템이 소속하는 사이트명 및 회사명을 데이터 분석 지원 장치(101)가 추출할 수 있을 경우, 관계 네트워크 생성부(117)는, 시스템층의 상위에 사이트층 및 회사층을 더해도 된다. 그때에는, 1개의 사이트, 회사를 1노드로 하고, 사이트 및 회사가 보유하는 하위 노드와의 사이에 링크를 설정한다.
또한 타사, 타사이트의 시스템 노드간에 링크가 존재하면 사이트 노드간, 회사 노드간에도 링크를 설정함으로써, 타사이트, 타사간의 데이터의 연결을 표현할 수 있게 된다.
그때, 예를 들면, 스텝 S406에서, 관계 네트워크 생성부(117)가, 회사별로 데이터 항목층의 관계 네트워크를 분해하고, 위치 정보 그리고 시각 및 날짜가 일정 범위 내일 경우에 타사 노드끼리를 대응짓고, 또한, 사서 정보 또는 유저의 편집 내용 등을 이용하여 타사 노드끼리를 대응짓고, 그들의 대응짓기를 적어도 1개 이상 포함하고, 다른 노드간을 대응짓는, 타사의 부분 그래프간의 동형 사상(同型寫像)이 존재하면, 그 동형 사상에서 대응짓기 가능한 노드를 나타내는 데이터 항목은 동류로 하고, 새로운 링크를 설정함으로써, 새로운 분석 대상 항목을 추출해도 된다. 또한, 동형 사상을 탐색할 때, 대상의 링크를 모든 종별로 해도 되고, 분석 대상 링크 등으로 한정해도 된다.
이에 따라, 예를 들면, 타사 데이터끼리의 항목을 분석 대상 항목으로서 축적 가능해진다. 또한, 실제로 동류인지의 여부를 유저에게 질문을 하고, 유저의 승인 조작으로 동류 링크를 설정하는 것으로 해도 된다.
이상 설명한 바와 같이 본 실시형태에서는, 적어도 1개 이상의 각 업무 시스템에 있어서의 각 업무 데이터 테이블의 각 업무 데이터를 대상으로 한 분석을 지원하는 데이터 분석 지원 장치(101)가, 각 업무 데이터가 보유하는 각 데이터 항목을, 실적값에 의거하는 제1 데이터 종별과, 계획값 또는 사전 정의에 의거하는 제2 데이터 종별로 분류하는 데이터 항목 분류부(118)와, 각 업무 시스템간의 관계, 각 업무 데이터 테이블간의 관계, 업무 데이터 테이블이 보유하는 각 데이터 항목간의 관계, 각 업무 데이터 테이블의 각 레코드가 보유하는 각 데이터값간의 관계를 관계 네트워크로서 생성하는 관계 네트워크 생성부(117)와, 상기 관계 네트워크에 의거하여, 제1 데이터 종별에 포함되는 데이터 항목을 적어도 1개 포함하는 분석용 데이터 테이블을 생성하는 분석용 데이터 테이블 생성부(119)와, 각 데이터 항목의 조합으로 이루어지는 분석 대상 후보에 대해서, 분석용 데이터 테이블에 의거하여 분석 추장도가 되는 스코어를 구하는 데이터 모델 생성부(120)와, 데이터 모델 생성부(120)에 의해 구해진 스코어에 의거하는 분석 추장도와 함께 분석 대상 후보를 출력하는 분석 대상 항목 제시부(121)를 구비하고 있다.
이러한 구성에 따르면, 복수의 데이터 테이블을 대상으로 하여, 데이터 지식이 없는 사람이나 분야 지식이 없는 사람이어도, 테이블 정의 정보를 이용하지 않고 용이하게 분석 대상 항목을 선택하여 분석할 수 있다.
(2) 제2 실시형태
제2 실시형태에 따른 데이터 분석 지원 장치(101A)를 포함하는 데이터 분석 지원 시스템은, 제1 실시형태에 따른 데이터 분석 지원 장치(101)를 포함하는 데이터 분석 지원 시스템과 거의 마찬가지의 구성이며 거의 마찬가지의 동작을 실행하지만, 이하에서는 주로 양자의 서로 다른 점에 대해서 설명한다.
제1 실시형태에서는, 데이터 분석 지원 장치(101)에 접속되어 있는 전체 업무 시스템(102, 103)의 업무 정보에 대응하는 전체 데이터 테이블의 전체 데이터 항목에 대해서, 분석하는 데이터 항목의 세트를 추천하는 예를 나타냈다. 이에 대하여, 제2 실시형태에서는, 유저의 입력에 의해 분석 대상이 되는 데이터 항목을 1개 결정하고, 그 항목과 조합하여 분석하는 데이터 항목을 추천하는 예를 나타낸다.
도 18은, 제2 실시형태에 따른 데이터 분석 지원 장치(101A)를 포함하는 데이터 분석 지원 시스템의 시스템 구성예를 나타내는 블록도이다. 제2 실시형태에 따른 데이터 분석 지원 장치(101A)에서는, 도 1에 나타내는 데이터베이스(111)의 구성에, 필터링 정보 테이블(1823) 및 이력 정보 테이블(1826)을 더함과 함께, 프로그램(112)의 구성에, 데이터 항목 검색부(1824), 필터링 정보 생성부(1825) 및 이력 해석부(1827)를 더하고 있다. 도 1과 같은 부분에는 같은 부호를 부여하고 있으며, 설명을 생략한다.
데이터 항목 검색부(1824)는, 유저로부터 입력된 키워드에 대하여 해당하는 데이터 항목을 검색하고 추출한다. 필터링 정보 생성부(1825)는, 분석용 데이터 테이블을 데이터 항목의 어느 데이터값으로 좁혀서 산출된 상관 계수 등의 스코어가 보다 큰 것이 있으면 이것을 추출하여 축적한다.
도 19는, 제2 실시형태에 따른 데이터 분석 지원 장치(101A)의 기본적인 처리 절차예를 나타내는 플로우 차트이다. 스텝 S1901에서는, 관계 네트워크 생성부(117)가 관계 네트워크를 생성한다. 이 스텝 S1901은, 도 10에 나타내는 스텝 S202와 거의 마찬가지의 처리이기 때문에, 설명을 생략한다.
스텝 S1902에서는, 데이터 항목 분류부(118)가 데이터 항목을, 실적값에 의거하는 제1 데이터 종별과, 계획값 또는 사전 정의에 의거하는 제2 데이터 종별로 분류한다. 이 스텝 S1902는, 도 13에 나타내는 스텝 S203과 마찬가지의 처리이기 때문에, 설명을 생략한다.
스텝 S1903에서는, 분석용 데이터 테이블 생성부(119)가 분석용 데이터를 생성·축적한다. 이 스텝 S1903은, 도 14에 나타내는 스텝 S204와 마찬가지의 처리이기 때문에, 설명을 생략한다.
스텝 S1904는, 데이터 모델 생성부(120)가, 스텝 S1903에서 생성한 분석용 데이터 테이블마다 데이터 모델을 생성한다. 본 처리는, 도 15에 나타내는 스텝 S206의 처리이기 때문에, 설명을 생략한다.
이하의 처리는, 입력 장치(108)를 통해 유저가 도 21의 검색 버튼(2102)을 압하(押下)할 때마다 실시한다. 스텝 S1905는, 유저에 의한 검색 버튼(2102) 압하시에 검색 박스(2101)에 키워드 입력이 되어 있는지, 즉, 유저가 입력 장치(108)를 통해 검색 박스(2101)에 분석하려는 항목에 관한 키워드를 입력했는지의 여부를 판정하는 처리이다. 입력이 있으면 스텝 S1906을 실행하고, 입력이 없으면 본 검색 버튼(2102)의 압하에 대한 처리를 종료한다.
스텝 S1906은, 데이터 항목 검색부(1824)가, 유저에 의해 입력된 키워드에 관한 데이터 항목을 검색하는 처리이다. 본 처리는, 관계 네트워크 테이블(114)에 있어서의 데이터 항목층의 노드의 항목명(도 5 참조), 및 데이터값층의 노드의 값(도 6 참조)에 입력 키워드를 포함하는 데이터 항목이 있는지의 여부가 검색되고, 데이터 항목을 추출하는 처리이다. 키워드가 데이터 항목층의 노드의 항목명에 존재하면 그 데이터 항목을 추출한다. 또한, 키워드가 데이터값층의 노드의 값에 존재하면, 그 데이터값이 속하는 데이터 항목도 추출한다.
스텝 S1907은, 스텝 S1906에서 입력 키워드를 포함하는 데이터 항목이나 데이터값에 대응하는 데이터 항목이 있었는지의 여부를 판정하는 처리이다. 당해 데이터 항목이 있으면 해당 데이터 항목 각각에 대하여 스텝 S1908의 처리를 실시한다. 한편, 당해 데이터 항목이 없으면 본 검색 버튼(2102) 압하에 대한 처리를 종료한다.
스텝 S1908에서는, 필터링 정보 생성부(1825)가, 해당 데이터 항목에 관한 필터링 정보를 생성한다.
도 20은, 도 19에 나타내는 스텝 S1908에 있어서 필터링 정보 생성부(1825)가 실시하는 처리예를 나타낸다. 스텝 S2001은, 당해 데이터 항목을 A로 하고, A를 데이터 항목으로서 갖는 분석용 데이터 테이블을 분석용 데이터 테이블 정보 테이블(115)로부터 추출하는 처리이다.
필터링 정보 생성부(1825)는, 추출한 각 분석용 데이터 테이블(테이블 ta로 함)에 대하여, 이하의 처리를 실시한다. 또한, 당해 분석용 데이터 테이블 내의 A 이외의 각 데이터 항목에 대하여, 이하의 처리를 실시한다. 또한, A 이외의 당해 데이터 항목을 B로 하고, B가 갖는 데이터값 1개 이상을 요소로 하는 집합(모든 데이터값을 포함하는 전체 집합을 제외하는 부분 집합) 각각에 대하여 이하의 처리를 실시한다.
우선, 스텝 S2002에서는, 필터링 정보 생성부(1825)가, 당해 분석용 데이터 테이블에 대해서, 데이터 항목 B가 당해 데이터값 집합의 요소 중 어느 것과 일치하는 레코드만을 레코드로서 갖는 분석용 데이터 테이블로 변환하여, 분석용 데이터 테이블 정보 테이블(115)에 새롭게 저장한다. 다음으로, 새롭게 생성한 본 분석용 데이터 테이블(테이블 tb로 함)에 대해서, 테이블 tb 내의 A, B 이외의 각 데이터 항목에 대하여, 이하의 처리를 실시한다.
스텝 S2003에서는, 필터링 정보 생성부(1825)가, 테이블 tb 내의 A, B 이외의 당해 데이터 항목을 C로 하고, C와 A간의 스코어를 산출한다. 본 처리는 스텝 S703과 마찬가지의 처리이며, 테이블 tb의 A가 나타내는 데이터 항목의 열과 C가 나타내는 데이터 항목의 열을 이용하여 산출하는 상관 계수 등과 같은, 테이블 tb를 이용하여 산출 가능한 수치를 스코어로서 산출한다.
스텝 S2004에서는, 필터링 정보 생성부(1825)가, 스텝 S2003에서 테이블 tb에 대하여 산출한 A와 C간의 스코어가 테이블 ta에 있어서의 A와 C간의 스코어보다 큰지의 여부를 판정한다. 테이블 ta에 대한 스코어는, 도 9에 나타내는 데이터 모델 정보 테이블(116)(1816)의 분석용 테이블(1505)가 테이블 ta인 레코드로서, 스코어(1503)에 저장된 테이블의 항목 ID(1)(1514)와 항목 ID(2)(1515)와의 조합이 A를 나타내는 항목 ID, C를 나타내는 항목 ID인 레코드에 있어서의 상관 계수(1516) 등의 값을 참조한다.
예를 들면, 필터링 정보 생성부(1825)는, 지연 시분과 강수량의 상관 계수가, 전일(全日)을 대상으로 한 것보다 평일만을 대상으로 한 쪽이 클 경우에, 크다고 판정한다. 당해 상관 계수가 크다고 판정했을 경우에는 스텝 S2005를 실행하고, 동등하거나 또는 작다고 판정했을 경우에는 C에 대한 처리를 종료한다.
스텝 S2005에서는, 필터링 정보 생성부(1825)가, 데이터 항목층의 관계 네트워크에 있어서, 가중치가 스코어로서, 필터링 항목인 B와, 필터링값인 테이블 tb 내의 B의 데이터값을, 속성으로서 갖는 분석 대상 링크를, A를 나타내는 노드와, C를 나타내는 노드 사이에 설정한다. 또한, 마찬가지의 정보를 필터링 정보 테이블(1823)에 저장한다.
이상의 처리를, 테이블 ta 내의 A, B 이외의 각 데이터 항목에 대하여 실시한다. 또한, 이상의 처리를, B가 갖는 데이터값 1개 이상을 요소로 하는 집합(모든 데이터값을 포함하는 전체 집합을 제외하는 부분 집합) 각각에 대해서 실시한다. 또한 이상의 처리를 테이블 ta 내의 A 이외의 각 데이터 항목에 대하여 실시한다.
스텝 S2006에서는, 필터링 정보 생성부(1825)가 테이블 ta에 대한 데이터 모델을 갱신한다. 즉, 데이터 모델 정보 테이블(1816)을 갱신한다. 데이터 모델 정보 테이블(1816)은, 도 9에 나타내는 데이터 모델 정보 테이블(116)의 스코어(1503)에 저장되는 테이블에, 필터링 항목 필터값, 및 분석용 테이블이 추가되어 있다.
스텝 S2005에서 추가한 링크는, 데이터 모델 정보 테이블(1816)의 분석용 테이블(1505)이 테이블 ta인 레코드의 스코어(1503)에 저장된 테이블에 추가된다.
필터링값에 필터링 항목인 B, 필터값에 필터링값인 테이블 tb 내의 B의 데이터값, 분석용 테이블에 테이블 tb를 나타내는 분석용 데이터 테이블 정보 테이블(115)에 있어서의 ID가 저장된다. 나머지 항목은, 스텝 S705와 마찬가지로, 항목 ID(1) 1514에는 A를 나타내는 노드의 항목 ID, 항목 ID(2)(1515)에는, C를 나타내는 노드의 항목 ID, 상관 계수(1516) 등의 스코어에 산출한 스코어, 샘플 수(1517)에 테이블 tb의 레코드 수가 저장된다. 이상의 처리를, 스텝 S2001에서 취득한 각 분석용 데이터 테이블에 대하여 실시하고, 본 처리를 종료한다.
도 20에 나타내는 본 처리예에서는, 스텝 S1906에서, 키워드가 데이터 항목층에 있었을 경우도 데이터값층에 있었을 경우도 마찬가지로 취급하고 있지만, 그 대신에, 키워드가 데이터값층에 있었을 경우에는, 스텝 S2001에서 분석용 데이터 테이블을 취득했을 때, 분석용 데이터 테이블을, 당해 데이터값을 갖는 레코드만의 데이터 테이블로 변환, 즉, 미리 필터링하고나서, 이후의 처리를 실시해도 된다.
이와 같이 함으로써, 예를 들면 키워드로서 「급병인」이 입력되었을 때, 분석용 데이터 테이블을, 데이터 항목 「지연 요인」이 「급병인」일 경우로 한정할 수 있어, 급병인의 발생 원인의 조사 분석 지원이 가능해진다.
도 19로 돌아가, 제2 실시형태에 따른 데이터 분석 지원 장치(101A)의 기본적인 처리 절차예의 계속을 설명한다.
스텝 S1909에서는, 분석 대상 항목 제시부(1821)가, 스텝 S1906에서 추출한 데이터 항목마다, 조합하여 분석하는 대상으로서 추천하는 항목을 표시 장치(109)에 출력한다. 출력 화면예는 도 21을 이용하여 후술한다.
본 처리에서는, 분석용 데이터 테이블을 모두 생성하여 축적하고나서 유저가 입력한 키워드에 대한 데이터 항목의 검색(스텝 S1906)과, 그 데이터 항목에 대한 처리(스텝 S1908 이후)를 실시했지만, 그 대신에, 유저가 검색한 키워드에 대한 데이터 항목을 추출하고나서, 그 데이터 항목을 포함하는 분석용 데이터 테이블 및 데이터 테이블을 생성하고, 그 데이터 테이블에 대하여 스텝 S1907 이후의 처리를 실시해도 된다.
그때의 분석용 데이터 테이블 생성부(119)의 처리는, 도 14에 있어서의 노드 A를 키워드에 대한 데이터 항목으로 하고, 스텝 S601에서 노드 A를 포함하는 연결 성분을 추출하고, 스텝 S602를 실시하지 않고, 스텝 S603으로부터 앞선 처리를 실시한다.
도 21은, 제2 실시형태에 있어서, 분석 대상 항목 제시부(1821)가 분석 대상이 되는 데이터 항목을 표시 장치(109)에 추천하는 화면예이다.
검색 박스(2101)는, 유저가 입력 장치(108)를 통해, 분석 대상으로 하려는 데이터의 키워드를 입력하는 텍스트 박스이다. 본 실시형태에서는 「지연」이 입력되어 있다.
검색 버튼(2102)은, 유저가 입력 장치(108)를 통해 압하하는 버튼이다. 이 검색 버튼(2102)의 압하가 스텝 S1905를 실행하는 트리거가 된다. 표(2103)는, 스텝 S1906에서 데이터 항목을 검색하여 추출한 데이터 항목명(2105)의 일람이다. 유저가 입력 장치(108)를 통해 라디오 버튼(2104)에서 선택한 데이터 항목에 대해서, 조합하여 분석하는 데이터 항목이 본 화면에서 추천된다.
표(2106)는, 라디오 버튼(2104)에서 선택된 데이터 항목을 포함하는 데이터 모델의 일람이며, 도 17에 나타내는 제2 화면예에 있어서의 대응 표시란과 마찬가지이다. 단, 여기에서는, 분석 대상 항목 세트 수, 상관 계수, 샘플 수의 오름차순, 내림차순으로 표시하는 방법 외, 후술하는 이력 정보 테이블(1826)을 이용하여 해석한 결과인 노드의 가중치나 링크의 가중치(데이터 모델 내에서 가장 중요한 것)의 오름차순, 내림차순으로 표시하는 방법이 있다. 이들은, 어떤 순번으로 표시해도 되고, 조합해도 된다. 또한, 콤보 박스 등을 이용하여 유저가 지정해도 된다.
표(2107)는, 표(2106)의 라디오 버튼에서 선택된 데이터 모델에 대해서, 스텝 S2006에서 표(2103)에서 선택된 데이터 항목과의 사이에 설정된 링크 정보로서, 필터링 항목 및 필터링값을 갖는 분석 대상 링크의 일람이다. 이것은, 데이터 모델 정보 테이블(1816)의 스코어(1503)에 저장된 테이블 및 필터링 정보 테이블(1823)을 참조하여 표시된다.
필터 항목(2108) 및 값(2109)은, 각각, 데이터 모델 정보 테이블(1816)의 스코어(1503)에 저장된 테이블이 보유하는 필터링 항목 및 필터값을 참조하여 표시된다.
항목(2110)은, 라디오 버튼(2104)에서 선택된 데이터 항목과 조합하여 분석하는 추천 대상의 데이터 항목, 즉, 항목 ID(1)(1514) 또는 항목 ID(2)(1515)가 나타내는 데이터 항목 중 라디오 버튼(2104)에서 선택된 데이터 항목이 아닌 쪽의 항목명을 표시한다.
샘플 수(2111)는, 데이터 모델 정보 테이블(1816)의 스코어(1503)에 저장된 테이블의 해당 레코드의 샘플 수(1517)를 참조하여 표시되어 있고, 스코어(2112)는, 상관 계수(1516)를 참조하여 표시된다.
관계 네트워크 표시(2113)는, 도 17과 마찬가지이지만, 라디오 버튼(2104)에서 선택된 데이터 항목과 조합하여 분석하는, 추천 대상 데이터 항목만이 강조 표시된다.
본 실시형태에서는, 지연 시분과 조합하여 분석해야 할 데이터 항목인 강수량, 풍속, 출발 시각, 다이아그램 종별을 강조 표시하고 있다. 또한, 본 실시형태에서는 표(2107)를 이용하여, 지연 시분과 강수량, 및 지연 시분과 풍속의 조합에 대해서, 다이아그램 종별을 평일에 한정하여 분석하는 것을 추천하고 있다.
도 19로 돌아가, 제2 실시형태에 따른 데이터 분석 지원 장치(101A)의 기본적인 처리 절차예의 설명을 계속한다. 이상의 처리는, 유저의 키워드 입력에 대하여 추천 항목을 제시하는 처리였지만, 이하의 처리는, 본 데이터 분석 지원 장치(101A)에 의해 제시된 분석 대상 항목을 유저가 선택하고, 실제로 유저가 데이터 분석 시스템(104)에 있어서 분석을 실시한 후에 데이터 분석 지원 장치(101A)에서 실행되는 처리를 나타낸다.
스텝 S1910은, 스텝 S1909에 있어서의 제시 후, 유저가 예를 들면 데이터 분석 시스템(104)에 있어서 분석 대상 항목을 선택한, 즉, 분석 대상 항목에 대응하는 분석용 데이터 테이블의 송신 요구가 있었는지의 여부를 판정하는 처리이다. 요구가 있으면 스텝 S1911로 진행하고, 요구가 없으면 본 처리를 종료한다.
스텝 S1911은, 선택된 분석 대상 항목에 대응하는 분석용 데이터 테이블을, 데이터 모델 정보 테이블(1816)을 참조하여 분석용 데이터 테이블 정보 테이블(115)로부터 추출하고, 통신망(122)을 통해 데이터 분석 시스템(104)으로 송신하고, 당해 분석용 데이터 테이블을, 선택된 분석 대상 항목(분석 대상 후보)과 함께 이력 정보 테이블(1826)에 저장하는 처리이다.
스텝 S1912에서는, 이력 해석부(1827)가, 이력 정보 테이블(1826)에 저장된 이력 정보에 의거하여 이력 해석을 실시한다. 본 처리는, 이력 정보 테이블(1826)에 저장된 분석 대상 항목 및 분석용 데이터 테이블에 대한 관계 네트워크 테이블(114)의 데이터 항목층의 노드 정보, 링크 정보에 대해서, 가중치를 늘리는 처리이다.
또한 데이터 모델 정보 테이블(1816) 및 필터링 정보 테이블(1823) 내에 있어서 대응하는 정보가 아울러 갱신된다. 본 처리를 실행함으로써, 분석 시스템에서 분석한 이력이 있는 항목을 우선하여 분석 대상 항목 제시부(1821)에서 제시할 수 있고, 관계 네트워크 표시(2113)에서 관련되는 데이터 항목을 참조하는 것이 가능해진다.
또한, 본 처리에서는, 이력 정보 테이블(1826)에 저장된 분석 대상 항목과 분석용 데이터 테이블의 세트, 및 대응하는 데이터 모델, 관계 네트워크의 속성, 대응하는 시스템층, 테이블층 및 데이터값층의 정보 등을 교사 데이터로서 기계 학습을 실행하도록 하고, 같은 데이터 항목의 세트에 대하여 복수 존재하는 분석용 데이터 테이블로부터 가장 좋은 테이블이 분석 대상 항목 제시부(1821)에 제시되도록 해도 된다. 또한, 제3 실시형태에서 후술하는 정상 상태 해석부의 결과인, 데이터값이 「계획대로」 및 「통상대로」인지, 혹은, 데이터값이 일탈하는 이상(異常)값인지도 이력 정보 테이블(1826)에 저장하여, 교사 데이터로서 학습하는 것으로 해도 된다.
본 실시형태에서는, 데이터 분석 시스템(104)의 분석 대상 항목 선택 이력을 이력 정보로 했지만, 데이터 분석 지원 장치(101A)에 있어서의 유저의 데이터 참조 이력 및 선택 이력 등이 이력 정보로서 이력 정보 테이블(1826)에 저장되고, 학습되도록 해도 된다.
또한 본 실시형태에서는, 유저가 실시한 분석에 대하여 보존 요구를 한 분석이 이력 정보 테이블(1826)에 저장되도록 하고, 교사 데이터로서 학습되도록 해도 된다.
또한, 원데이터 저장부(113)의 데이터가 갱신된, 즉, 업무 시스템(102, 103)이 갖는 업무 정보의 데이터값의 갱신을 정기적으로 조사하고, 이력 정보 테이블(1826)을 참조하여, 분석 완료 또는 참조 완료의 항목의 데이터값에 갱신이 있었을 경우에, 다시 분석하는 항목으로서 제시하는 것으로 해도 된다.
(3) 제3 실시형태
제3 실시형태에 따른 데이터 분석 지원 장치(101B)를 포함하는 데이터 분석 지원 시스템은, 제1 실시형태에 따른 데이터 분석 지원 장치(101)를 포함하는 데이터 분석 지원 시스템 및 제2 실시형태에 따른 데이터 분석 지원 장치(101A)를 포함하는 데이터 분석 지원 시스템과 거의 마찬가지의 구성이며 거의 마찬가지의 동작을 실행하지만, 이하에서는 주로 양자의 서로 다른 점에 대해서 설명한다.
제2 실시형태에서는, 유저의 입력에 의해 분석 대상이 되는 데이터 항목을 1개 결정하고, 그 항목과 조합하여 분석하는 데이터 항목을 추천하는 예를 나타냈다. 이에 대하여, 제3 실시형태에서는, 유저 입력에 의해 결정한 1개의 데이터 항목에 대하여, 그 원인이 되는 다른 데이터 항목의 후보를 분석 대상 항목으로서 제시하는 예를 나타낸다.
도 22는, 제3 실시형태에 따른 데이터 분석 지원 장치의 시스템 구성예를 나타낸다. 제3 실시형태에서는, 제2 실시형태와 비교하여 도 18에 나타내는 데이터베이스(111)의 구성으로부터 필터링 정보 테이블(1823) 및 이력 정보 테이블(1826)을 제외하는 한편, 원인 정보 테이블(2223)을 더함과 함께, 프로그램(112)의 구성으로부터 필터링 정보 생성부(1825) 및 이력 해석부(1827)를 제외하는 한편, 원인 정보 생성부(2225)를 더하고 있다. 또한, 도 22에 있어서 도 18과 같은 구성에는 동일한 부호를 부여하고, 그 설명은 생략한다.
원인 정보 생성부(2225)는, 유저 입력에 의해 결정한 1개의 데이터 항목에 대하여, 상관이 강한 데이터 항목이 있으면, 상관이 있는 데이터값 이외의 데이터값을 대상으로 그 밖의 어떤 항목과 상관이 강한지 판정하고, 순차적으로 원인이 되는 데이터 항목의 후보를 추출하여, 원인 정보 테이블(2223)에 축적한다.
도 23은, 원인 정보 생성 처리의 처리 절차의 일례를 나타낸다. 이 원인 정보 생성 처리에서는, 우선, 데이터 항목 검색부(1824)가, 유저로부터 입력된 키워드에 대하여 해당하는 데이터 항목을 검색하여 추출한 후, 표시 장치(109)에 표(2103)와 같이 표시시킨다. 다음으로 원인 정보 생성부(2225)는, 유저에 의해 라디오 버튼(2104)을 이용하여 선택된 데이터 항목에 대하여 원인 정보를 생성하는 처리 절차의 일례를, 도 23을 이용하여 나타낸다.
이하, 관계 네트워크 테이블(114)의 데이터 항목층의 노드에서 종별이 트랜잭션인 것이 나타내는 데이터 항목을 트랜잭션 항목으로서 설명한다.
우선, 스텝 S2301에서는, 원인 정보 생성부(2225)가, 유저에 의해 라디오 버튼(2104)을 이용하여 선택된 데이터 항목을 A로 하고, A를 포함하는 분석용 데이터 테이블에 있어서 A와 다른 트랜잭션 항목을 포함하는 분석용 데이터 테이블을, 분석용 데이터 테이블 정보 테이블(115)로부터 추출한다. 이와 같이 추출된 각 분석용 데이터 테이블에 대하여, 이하의 처리를 실시한다.
스텝 S2302에서는, 원인 정보 생성부(2225)가, 당해 분석용 데이터 테이블이 갖는 트랜잭션 항목 중, A와의 상관 계수가 가장 큰 데이터 항목을 취득하고, B로 한다. 상관 계수는, 데이터 모델 정보 테이블(1816)의 스코어(1503)에 있어서의 상관 계수(1516)를 참조한다. 마찬가지의 데이터 항목이 복수 존재할 경우에는, 각 데이터 항목에 대하여 이하를 실시한다.
스텝 S2303에서는, 원인 정보 생성부(2225)가, 데이터 항목 A, B와, 그 상관 계수를 원인 정보 테이블(2223)에 저장한다. 스텝 S2304에서는, 원인 정보 생성부(2225)가, A와 B의 상관 관계가 소정의 값보다 큰지의 여부를 판정한다. 본 값은, 원인이라고 할 수 있는 상관 계수로서, 시스템에 미리 등록해 두어도 되고, 유저가 항목마다 정해도 된다. 상기 상관 관계가 소정의 값보다 크면 스텝 S2305를 실행하는 한편, 상기 상관 관계가 소정의 값보다 크지 않으면 당해 분석용 데이터 테이블에 대한 처리를 종료한다.
스텝 S2305에서는, 원인 정보 생성부(2225)가, 당해 분석용 데이터 테이블의 레코드 중, 데이터 항목 B가 무효값 혹은 0, 극단값(outlier)의 레코드만을 남기고, 데이터 항목 B를 삭제한 분석용 데이터 테이블을 생성한다.
스텝 S2306에서는, 원인 정보 생성부(2225)가, 스텝 S2305에 있어서 생성한 분석용 데이터 테이블의 레코드 수가 일정 이상이며, 또한, A 이외의 트랜잭션 항목이 존재하는지의 여부를 판정한다.
본 실시형태에서는, 레코드 수로서, A와, 다른 트랜잭션 항목과의 상관 계수를 산출 가능한 레코드 수로 한다. 상기 스텝 S2306에 있어서 긍정적인 결과가 얻어졌을 경우에는 스텝 S2307이 실행되는 한편, 긍정적인 결과가 얻어지지 않을 경우에는 당해 분석용 데이터 테이블에 대한 처리가 종료된다.
스텝 S2307에서는, 원인 정보 생성부(2225)가, 스텝 S2305에 있어서 생성한 분석용 데이터 테이블을 이용하여, A와, A 이외의 각 트랜잭션 항목과의 상관 계수를 산출한다. 원인 정보 생성부(2225)는, 본 스텝을 실행한 후, 스텝 S2302를 실행하고, 스텝 S2305에서 생성한 분석용 데이터 테이블에 대하여, A와 각 트랜잭션 항목과의 상관 계수에 대하여 처리를 계속한다.
각 분석용 데이터 테이블에 대하여 이상의 처리를 실시한 후, 원인 정보 생성부(2225)는, 스텝 S2308을 실행한다. 스텝 S2308에서는, 원인 정보 생성부(2225)가, A에 대해서 원인 정보 테이블(2223)에 저장한 데이터 항목 및 상관 계수의 세트를, 상관 계수의 절대값의 내림차순으로 소트(sort)하여 표시 장치(109)에 표시시킨다. 이에 따라, 유저가 선택한 데이터 항목의 데이터값의 원인 후보가 되는 데이터 항목을 표시할 수 있다.
또한, 본 실시형태에서는, 모든 데이터값을 대상으로 원인 정보를 생성했지만, 그 대신에, 각 분석용 데이터 테이블에 대해서 트랜잭션 항목의 정상 상태를 정하는 정상 상태 해석부를 구성으로서 마련하고, 데이터값이 「계획대로」 및 「통상대로」만인 노드에 대해서는 표시하지 않고, 데이터값이 일탈하는 노드에 대해서만 분석 대상으로서 제시하고, 이상값(異常値)의 원인만을 표시하도록 해도 된다.
정상 상태 해석부는, 각 분석용 데이터 테이블의 각 트랜잭션 항목에 대하여 처리를 실시한다. 이 정상 상태 해석부는, 당해 트랜잭션 항목을 A로 했을 때, 각 마스터 항목(당해 데이터 항목을 B로 함)에 대하여 이하의 처리를 실시한다. 정상 상태 해석부는, 당해 분석용 데이터 테이블 내의 A의 각 데이터값을 요소로 하는 집합을, B의 데이터값마다 부분 집합으로 분할하고, 각각의 부분 집합 내의 가지는 A의 데이터값의 분포를 비교한다. 또한 정상 상태 해석부는, 같은 분포를 갖는 것을 대응하는 B의 데이터값과 함께 군(群)으로서 정리하고, 가장 많은 분포를 A의, 대응하는 B의 데이터값에 있어서의 정상 상태로서 정한다. 예를 들면, 지연 시분을 날짜마다 분할하고, 지연 시분의 평일에 있어서의 통상의 분포가 정상 상태로서 정해진다.
또한, 본 발명은 상기한 실시형태에 한정되는 것이 아니라, 다양한 변형예가 포함된다. 예를 들면, 상기한 실시형태는 본 발명을 이해하기 쉽게 설명하기 위해 상세하게 설명한 것이며, 반드시 설명한 모든 구성을 구비하는 것에 한정되는 것이 아니다. 또한, 실시형태의 구성의 일부는, 도시하지 않은 다른 데이터 분석 지원 관련 장치의 구성으로 치환하는 것도 가능하다. 또한, 실시형태의 구성의 일부에 대해서, 다른 구성의 추가, 삭제 또는 치환을 하는 것이 가능하다.
또한, 상기의 각 구성, 기능, 처리부 및 처리 수단 등은, 그들의 일부 또는 전부를, 예를 들면 집적회로로 설계하는 등에 의해 하드웨어로 실현해도 된다. 또한, 상기의 각 구성, 기능 등은, 프로세서가 각각의 기능을 실현하는 프로그램을 해석하고, 실행함으로써 소프트웨어로 실현해도 된다. 각 기능을 실현하는 프로그램, 테이블, 파일 등의 정보는, 메모리나, 하드디스크, SSD(Solid State Drive) 등의 기록 장치, 또는, IC 카드, SD 카드, DVD 등의 기록 매체에 둘 수 있다.
또한, 제어선 및 정보선은 설명상 필요하다고 생각되는 것을 나타내고 있고, 제품상 반드시 모든 제어선이나 정보선을 나타내고 있다고는 할 수 없다. 실제로는 거의 모든 구성이 상호 접속되어 있다고 생각해도 된다.
본 실시형태에서는, 철도에 관한 데이터를 분석할 때의 데이터 분석 지원 장치를 본 발명의 적용 대상예로서 설명했지만, 철도 보수 관련의 데이터 분석 지원에 적용했을 경우에는, 분석에 의해 차량이나 선로의 고장을 고장 전에 검지할 수 있을 가능성이 있어, 철도의 자원을 효율적으로 운용할 수 있고, 에너지 소비를 억제할 수 있다.
(4) 그 밖의 실시형태
상기 실시형태는, 본 발명을 설명하기 위한 예시이며, 본 발명을 이들 실시형태에만 한정하는 취지가 아니다. 본 발명은, 그 취지를 일탈하지 않는 한, 다양한 형태로 실시할 수 있다. 예를 들면, 상기 실시형태에서는, 각종 프로그램의 처리를 시퀀셜하게 설명했지만, 특히 이것에 구애되는 것이 아니다. 따라서, 처리 결과에 모순이 생기지 않는 한, 처리의 순서를 교체 또는 병행 동작하도록 구성해도 된다.
본 발명은, 복수의 시스템의 데이터를 대상으로 하는 데이터 분석을 지원하는 데이터 분석 지원 장치 및 데이터 분석 지원 시스템에 널리 적용할 수 있다.
101, 101A, 101B: 데이터 분석 지원 장치
102: 제1 업무 시스템 103: 제2 업무 시스템
104: 데이터 분석 시스템 105: 연산 처리 장치
106: 메모리 107: 통신 장치
108: 입력 장치 109: 표시 장치
110: 기억 장치 111: 데이터베이스
112: 프로그램 113: 원데이터 저장부
114: 관계 네트워크 테이블
115: 분석용 데이터 테이블 정보 테이블
116: 데이터 모델 정보 테이블 117: 관계 네트워크 생성부
118: 데이터 항목 분류부 119: 분석용 데이터 테이블 생성부
120: 데이터 모델 생성부 121: 분석 대상 항목 제시부
122: 통신망 123: 데이터 버스

Claims (8)

  1. 적어도 1개 이상의 각 업무 시스템에 있어서의 각 업무 데이터 테이블의 각 업무 데이터를 대상으로 한 분석을 지원하는 데이터 분석 지원 장치로서,
    상기 각 업무 데이터가 보유하는 각 데이터 항목을, 실적값(實績値)에 의거하는 제1 데이터 종별과, 계획값 또는 사전(事前) 정의에 의거하는 제2 데이터 종별로 분류하는 데이터 항목 분류부와,
    상기 각 업무 시스템간의 관계, 상기 각 업무 데이터 테이블간의 관계, 상기 각 업무 데이터 테이블이 보유하는 상기 각 데이터 항목간의 관계, 상기 각 업무 데이터 테이블의 각 레코드가 보유하는 각 데이터값간의 관계를 관계 네트워크로서 생성하는 관계 네트워크 생성부와,
    상기 관계 네트워크에 의거하여, 상기 제1 데이터 종별에 포함되는 데이터 항목을 적어도 1개 포함하는 분석용 데이터 테이블을 생성하는 분석용 데이터 테이블 생성부와,
    상기 각 데이터 항목의 조합으로 이루어지는 분석 대상 후보에 대해서, 상기 분석용 데이터 테이블에 의거하여 분석 추장도(推奬度)가 되는 스코어를 구하는 데이터 모델 생성부와,
    상기 데이터 모델 생성부에 의해 구해진 상기 스코어에 의거하는 상기 분석 추장도와 함께 상기 분석 대상 후보를 출력하는 분석 대상 항목 제시부를 구비하는 것을 특징으로 하는 데이터 분석 지원 장치.
  2. 제1항에 있어서,
    상기 분석용 데이터 테이블 생성부는,
    상기 각 데이터 항목 중 조합하여 분석 가능한 각 데이터 항목을 복수 정리한 형태로 분석에 이용되는 상기 분석용 데이터 테이블을 생성하고,
    외부로부터의 요구에 따라 상기 분석용 데이터 테이블을 출력하여 송신하는 것을 특징으로 하는 데이터 분석 지원 장치.
  3. 제2항에 있어서,
    상기 관계 네트워크 생성부는,
    상기 각 업무 시스템을 갖는 각 사이트간, 상기 각 업무 시스템간, 상기 각 데이터 테이블간, 상기 각 데이터 항목간, 및 상기 각 데이터값간 중 적어도 1개의 관계를 유지하는 상기 관계 네트워크를 생성하고, 서로 관련이 있는 데이터군(群)을 정리하여, 상기 각 관계와 함께 출력하는 것을 특징으로 하는 데이터 분석 지원 장치.
  4. 제1항에 있어서,
    외부로부터 입력된 키워드에 대하여 해당하는 특정한 데이터 항목을 추출하는 데이터 항목 검색부와,
    상기 분석용 데이터 테이블을 상기 특정한 데이터 항목 중 특정한 데이터로 좁혀서 산출한 스코어가 보다 큰 것이 있을 경우에는 당해 큰 스코어를 추출하여 축적하는 필터링 정보 생성부를 구비하는 것을 특징으로 하는 데이터 분석 지원 장치.
  5. 제1항 또는 제4항에 있어서,
    상기 데이터 항목 검색부에 의해 추출된 1개 이상의 상기 특정한 데이터 항목에 있어서 상관 관계가 높은 특정한 데이터 항목이 존재할 경우, 상기 상관 관계가 있는 데이터값 이외의 데이터값을 대상으로, 그 밖의 어떤 항목과 상기 상관 관계가 높은지를 판정하고, 순차적으로 원인이 되는 데이터 항목의 후보를 추출하고, 외부로부터 입력된 키워드에 관련되는 데이터 항목의 값의 원인으로 되는 데이터 항목을 표시하는 것을 특징으로 하는 데이터 분석 지원 장치.
  6. 제5항에 있어서,
    상기 각 분석용 데이터 테이블에 대해서, 실적값에 의거하는 데이터 항목의 정상(定常) 상태를 정하는 정상 상태 해석부를 구비하고,
    상기 정상 상태 해석부는,
    상기 분석용 데이터 테이블 생성부에 의해 생성된 상기 각 분석용 데이터 테이블의 실적값에 의거하는 데이터 항목에 대해서, 서로 같은 분포인 것을 군으로서 정리하고, 가장 많은 분포를 정상 상태로서 정하는 것을 특징으로 하는 데이터 분석 지원 장치.
  7. 제1항에 있어서,
    상기 분석 대상 후보와 함께 상기 분석용 데이터 테이블의 이력 정보를 저장하는 이력 정보 테이블과,
    상기 이력 정보 테이블에 저장되어 있는 상기 이력 정보에 의거하여 학습함으로써 이력 해석을 실시하는 이력 해석부를 구비하는 것을 특징으로 하는 데이터 분석 지원 장치.
  8. 적어도 1개 이상의 각 업무 시스템에 있어서의 각 업무 데이터 테이블의 각 업무 데이터를 대상으로 한 분석을 지원하는 데이터 분석 지원 장치를 포함하는 데이터 분석 지원 시스템으로서,
    상기 각 업무 데이터가 보유하는 각 데이터 항목을, 실적값에 의거하는 제1 데이터 종별과, 계획값 또는 사전 정의에 의거하는 제2 데이터 종별로 분류하는 데이터 항목 분류부와, 상기 각 업무 시스템간의 관계, 상기 각 업무 데이터 테이블간의 관계, 상기 각 업무 데이터 테이블이 보유하는 상기 각 데이터 항목간의 관계, 상기 각 업무 데이터 테이블의 각 레코드가 보유하는 각 데이터값간의 관계를 관계 네트워크로서 생성하는 관계 네트워크 생성부와, 상기 관계 네트워크에 의거하여, 상기 제1 데이터 종별에 포함되는 데이터 항목을 적어도 1개 포함하는 분석용 데이터 테이블을 생성하는 분석용 데이터 테이블 생성부와, 상기 각 데이터 항목의 조합으로 이루어지는 분석 대상 후보에 대해서, 상기 분석용 데이터 테이블에 의거하여 분석 추장도가 되는 스코어를 구하는 데이터 모델 생성부와, 상기 데이터 모델 생성부에 의해 구해진 상기 스코어에 의거하는 상기 분석 추장도와 함께 상기 분석 대상 후보를 출력하는 분석 대상 항목 제시부를 갖는 데이터 분석 지원 장치와,
    상기 데이터 분석 지원 장치에 의해 출력된 상기 분석 대상 후보에 의거하여 분석 대상 항목을 결정하는 분석 장치를 구비하는 것을 특징으로 하는 데이터 분석 지원 시스템.
KR1020197007012A 2016-10-25 2017-07-21 데이터 분석 지원 장치 및 데이터 분석 지원 시스템 KR102172029B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016209063A JP6736450B2 (ja) 2016-10-25 2016-10-25 データ分析支援装置及びデータ分析支援システム
JPJP-P-2016-209063 2016-10-25
PCT/JP2017/026535 WO2018078971A1 (ja) 2016-10-25 2017-07-21 データ分析支援装置及びデータ分析支援システム

Publications (2)

Publication Number Publication Date
KR20190039758A true KR20190039758A (ko) 2019-04-15
KR102172029B1 KR102172029B1 (ko) 2020-10-30

Family

ID=62024761

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197007012A KR102172029B1 (ko) 2016-10-25 2017-07-21 데이터 분석 지원 장치 및 데이터 분석 지원 시스템

Country Status (4)

Country Link
US (1) US11188567B2 (ko)
JP (1) JP6736450B2 (ko)
KR (1) KR102172029B1 (ko)
WO (1) WO2018078971A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102282830B1 (ko) * 2020-11-18 2021-07-29 주식회사 사이람 전염병의 전염 네트워크 분석 방법 및 장치

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019086126A1 (en) * 2017-11-03 2019-05-09 HELLA GmbH & Co. KGaA Method of driving a component of a vehicle, system, computer program product and computer-readable medium
JP6906477B2 (ja) * 2018-05-22 2021-07-21 株式会社日立製作所 データ処理装置およびデータ処理方法
CN110738558B (zh) * 2018-07-20 2024-03-05 京东科技控股股份有限公司 信息修复方法、装置、电子设备及计算机可读介质
JP7103973B2 (ja) * 2019-02-25 2022-07-20 株式会社日立製作所 ソフトウエアパッケージ更新支援装置、ソフトウエアパッケージ更新支援方法及びソフトウエアパッケージ更新支援プログラム
JP7319911B2 (ja) * 2019-12-26 2023-08-02 株式会社東芝 列車情報管理装置
KR20210143464A (ko) * 2020-05-20 2021-11-29 삼성에스디에스 주식회사 데이터 분석 장치 및 그것의 데이터 분석 방법
JP2023036140A (ja) * 2021-09-02 2023-03-14 株式会社日立製作所 業務データ分析装置、業務データ分析システム及び業務データ分析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012103841A (ja) 2010-11-09 2012-05-31 Hitachi Systems Ltd データ分析の分析軸推薦方法、システム、及びプログラム
JP2015026188A (ja) * 2013-07-25 2015-02-05 株式会社日立製作所 データベース分析装置及び方法
JP2015102878A (ja) * 2013-11-21 2015-06-04 株式会社日立製作所 プログラム関連分析方法
JP5784239B2 (ja) * 2012-09-14 2015-09-24 株式会社日立製作所 データ分析方法、データ分析装置及びその処理プログラムを格納した記憶媒体

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3779431B2 (ja) 1997-06-13 2006-05-31 富士通株式会社 リレーショナルデータベース管理装置,中間リンクテーブル自動作成処理方法およびプログラム記憶媒体
US7523137B2 (en) * 2005-04-08 2009-04-21 Accenture Global Services Gmbh Model-driven event detection, implication, and reporting system
JP5588811B2 (ja) * 2010-09-29 2014-09-10 株式会社日立製作所 データ分析支援システム及び方法
JP6003637B2 (ja) 2012-12-28 2016-10-05 富士通株式会社 情報処理装置、ノード抽出プログラムおよびノード抽出方法
US10424016B2 (en) * 2013-12-19 2019-09-24 International Business Machines Corporation Modeling asset transfer flow relationships discovered in unstructured data
JP2015165352A (ja) * 2014-03-03 2015-09-17 株式会社日立製作所 分析候補表示装置
JP6602013B2 (ja) * 2015-01-16 2019-11-06 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
US10140319B2 (en) * 2016-07-26 2018-11-27 Bank Of America System for identifying anomalies by automatically generating and analyzing a structure
US20180181667A1 (en) * 2016-12-23 2018-06-28 0934781 BC Ltd System and method to model recognition statistics of data objects in a business database

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012103841A (ja) 2010-11-09 2012-05-31 Hitachi Systems Ltd データ分析の分析軸推薦方法、システム、及びプログラム
JP5784239B2 (ja) * 2012-09-14 2015-09-24 株式会社日立製作所 データ分析方法、データ分析装置及びその処理プログラムを格納した記憶媒体
JP2015026188A (ja) * 2013-07-25 2015-02-05 株式会社日立製作所 データベース分析装置及び方法
JP2015102878A (ja) * 2013-11-21 2015-06-04 株式会社日立製作所 プログラム関連分析方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102282830B1 (ko) * 2020-11-18 2021-07-29 주식회사 사이람 전염병의 전염 네트워크 분석 방법 및 장치

Also Published As

Publication number Publication date
KR102172029B1 (ko) 2020-10-30
WO2018078971A1 (ja) 2018-05-03
US11188567B2 (en) 2021-11-30
JP6736450B2 (ja) 2020-08-05
US20190197047A1 (en) 2019-06-27
JP2018072960A (ja) 2018-05-10

Similar Documents

Publication Publication Date Title
KR20190039758A (ko) 데이터 분석 지원 장치 및 데이터 분석 지원 시스템
de Campos et al. Construction and qualitative assessment of a bibliographic portfolio using the methodology Methodi Ordinatio
CN110020433B (zh) 一种基于企业关联关系的工商高管人名消歧方法
CN110990585B (zh) 构建行业知识图谱的多源数据和时间序列处理方法及装置
CN112036842B (zh) 一种科技服务智能匹配装置
Schwarzer et al. Methods, procedures, and contextual characteristics of health technology assessment and health policy decision making: comparison of health technology assessment agencies in Germany, United Kingdom, France, and Sweden
KR101953190B1 (ko) 복잡한 양자 또는 다자 상대방 관계를 탐색하기 위해 이용되는 다차원 재귀적 학습 과정 및 시스템
Morillo et al. Towards the automation of address identification
KR20130108503A (ko) 퍼스널 아이덴티티를 기술하는 데이터에 대한 액셔너블 속성의 애스클라이빙
Ji et al. Complexity analysis approach for prefabricated construction products using uncertain data clustering
Khan et al. Measuring the impact of biodiversity datasets: Data reuse, citations and altmetrics
Tauer et al. An incremental graph-partitioning algorithm for entity resolution
CN108337123A (zh) 个体网络安全意识态势预测方法
CN110737779A (zh) 知识图谱的构建方法、装置、存储介质和电子设备
Abbott et al. Population statistics without a Census or register
Kasher et al. Digitization technologies in transport logistics: A systematic literature review protocol
CN115660296B (zh) 一种基于机器学习的不合规项目建议方案自动出具方法
Petrakos et al. New ways of specifying data edits
Roy Risk analysis of implementing Machine Learning in construction projects
CN109800942B (zh) 机房运维管理方法、电子装置及存储介质
JP5087589B2 (ja) 意思決定支援システム
AP et al. A web based application for tracking public transport and predicting usage
JP2004326617A (ja) 顧客情報整理プログラムおよび顧客情報整理方法
Henglmüller Trends in tunnel information modeling
Pretto et al. A MCDA-C application to evaluate the approval sectors management

Legal Events

Date Code Title Description
A201 Request for examination
PA0105 International application

Patent event date: 20190311

Patent event code: PA01051R01D

Comment text: International Patent Application

PA0201 Request for examination
PG1501 Laying open of application
E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20200427

Patent event code: PE09021S01D

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20200928

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20201026

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20201026

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
PR1001 Payment of annual fee

Payment date: 20230919

Start annual number: 4

End annual number: 4