KR20200019741A

KR20200019741A - 데이터 분석 지원 시스템 및 데이터 분석 지원 방법

Info

Publication number: KR20200019741A
Application number: KR1020207002401A
Authority: KR
Inventors: 다케시 한다; 겐지 가와사키; 다카시 츠노
Original assignee: 가부시끼가이샤 히다치 세이사꾸쇼
Priority date: 2018-01-22
Filing date: 2018-09-05
Publication date: 2020-02-24
Also published as: JP6903595B2; JP2019128646A; KR102312685B1; WO2019142391A1

Abstract

방대한 수의 상관 룰 중에서 의외성이 있는 룰의 범위를 좁힐 수 있고, 업무 개선이나 원인 분석을 위한 유익한 정보 파악을 신속하게 행하는 기술에 관한 것이다. 그 구성예로서는, 데이터 분석 지원 시스템으로서, 복수의 데이터 테이블을 포함하는 분석 대상 데이터 테이블을 기억하는, 기억 장치와, 분석 대상 데이터 테이블을 해석하고, 데이터 테이블에 포함되는 속성의 상관을 나타내는 복수의 상관 룰을 추출하는, 상관 룰 추출부와, 복수의 데이터 테이블 간의 관련성을 나타내는 데이터 관계 모델을 생성하는, 데이터 관계 모델 생성부와, 상관 룰마다, 당해 상관 룰의 전제부 및 결론부의 속성의 조합을 생성하고, 당해 조합마다의 상기 데이터 관계 모델에 있어서의 당해 속성 간의 거리를 구하고, 당해 거리에 의거하여 의외도를 산출하는, 의외도 산출부를 구비한다.

Description

데이터 분석 지원 시스템 및 데이터 분석 지원 방법

본 발명은 정보 처리 장치를 이용해서 데이터 분석을 지원하는 기술에 관한 것이다.

IoT(Internet of Things) 기술이나 빅데이터 기술의 진전에 수반하여, 복수의 업무 시스템이나 센서에 걸쳐있는 데이터 이용과 활용의 니즈가 높아지고 있다. 다양한 업무 시스템이 보유하는 대량 데이터에 대한 데이터 분석 알고리즘으로서, 상관 룰 마이닝(바스켓 분석·상관 분석)이 있다. 상관 룰 마이닝은 대상의 데이터 중에서, 빈번히 동시에 발생하는 사상(事象)의 상관(상관 룰)을 발견하는 것에 초점을 맞춘 기법이고, 비수치의 데이터에 대해서도 적용 가능한 방법이다. 상관 룰은, 예를 들면 「사상 A와 사상 B는 동시에 일어나기 쉽다」나 「상품 C는 상품 D와 동시에 구입되기 쉽다」와 같은 형태로 나타나고, 데이터 분석뿐만 아니라 데이터 검색 시스템이나 정보 추천 시스템에서도 이용된다.

상관의 강도를 나타내는 지표로서, 지지도(전체 샘플 중에서의 발생 비율), 확신도(전제부·결론부의 조합 빈도), 리프트(조합 또는 단독적으로 발생하는 정도)가 존재하고, 이들 지표에 대한 임계값 처리를 행함으로써 분석에 있어서의 유용한 룰을 추출한다. 그러나, 예를 들면, 낮은 지지도(적은 사례)의 룰을 남기면 대량의 룰이 남아버려서, 이 중에서 유용한 룰을 찾아내는 것이 곤란해진다. 한편, 높은 지지도(많은 사례)의 룰을 남기면 사상으로서 자명한(당연한) 룰이 남아, 업무 개선이나 원인 분석을 위한 유익한 룰을 찾아내는 것은 곤란해진다.

이러한 상관 룰 마이닝에서 추출한 방대한 룰의 범위 좁힘에 관한 기술에, 콘텐츠 소비(상품 구매 등) 데이터를 대상으로 하여, 콘텐츠 간의 관련을 나타내는 복수의 상관 룰을 생성하는 수단과, 상기 콘텐츠 소비 데이터를 이용해서, 각 상관 룰의 희소도를 산출하는 수단과, 상기 희소도를 이용해서 상기 상관 룰의 범위를 좁히는 추천 룰을 생성하는 수단을 구비하고, 상기 희소도의 산출에 있어서는, 상관 룰마다 상기 콘텐츠 소비 데이터로부터 취득한, 당해 상관 룰의 조건부 및 귀결부의 콘텐츠의 합계수와, 당해 상관 룰에 해당하는 유저수와, 당해 상관 룰에 해당하는 각 유저의 콘텐츠 소비수와, 소비된 전체 콘텐츠수와, 당해 상관 룰의 조건부 및 귀결부의 각 콘텐츠를 소비한 유저수를 이용해서 상기 희소도를 산출하는 것을 특징으로 하는 추천 룰 생성 장치(특허문헌 1 참조) 등이 제안되어 있다.

일본 특개2014-222398호 공보

Rakesh Agrawal and Ramakrishnan Srikant, "Fast algorithms for mining association rules", Proceedings of the 20th International Conference on Very Large Data Bases, pp.487-499, 1994

복수의 업무 시스템의 데이터를 대조하는 분석 작업에 있어서의 초기 단계에서는, 분석 목적은 명확하게 되어 있어도, 분석 대상 데이터가 명확하게 되어 있지 않은 경우가 많다. 즉, 분석 목적의 검증 및 평가에 적합한 데이터 분석 결과 획득을 위하여, 어느 데이터를 이용하면 되는지가 명확하게 되어 있지 않은 경우가 많다.

이와 같은 경우에 있어서, 분석 실시자는 분석 대상으로 되는 데이터의 원업무 시스템에 있어서의 ER(Entity-Relationship) 다이어그램 등의 데이터 구조 사양서를 기초로 해서, 우선은 분석할 수 있을 것 같은 데이터를 대조해 가는, 즉, 원업무 시스템의 데이터 구조의 관점에서 가까운 거리에 있는 데이터 테이블끼리를 우선은 조합해 가는 것과 같은 어프로치를 취하는 경우가 많다. 이것은, 한정된 분석 작업 공정수 내에서 유익한 분석 결과를 얻기 위해서, 우선은 분석 결과를 얻을 수 있을 것 같은 데이터의 조합을 선택해 가기 때문이다.

복수 업무 시스템의 데이터 분석에 있어서는, 상기와 같은 어프로치를 취하는 경우가 많으므로, 특히 업무 시스템에 걸쳐있는 데이터 테이블끼리, 또는, 1 업무 시스템이어도 원업무 시스템의 데이터 구조의 관점에서 먼 거리에 있는 데이터 테이블끼리를 이용한 분석을 충분히 실시할 수 없는 경우가 많다. 또한, 원업무 시스템의 데이터 구조의 관점에서 가까운 거리에 있는 데이터 테이블끼리를 조합해 간다는 어프로치에서는, 분석 대상 데이터의 조합으로서는 드물지 않은(자주 있는) 조합인 경우가 많고, 분석 결과로서도 자명한(당연한) 결과가 얻어지는 경우가 많아, 업무의 개선이나 사상의 원인 조사에 있어서의 유익한 결과의 획득으로 이어지지 않을 가능성이 있다.

이상으로부터, 「업무 시스템에 걸쳐있는 데이터 테이블끼리」나 「원업무 시스템의 데이터 구조의 관점에서 거리가 먼 데이터 테이블끼리」와 같은, 분석 대상 데이터의 조합으로서 의외의 조합으로 되는 데이터의 상관은, 특히 유익한 분석 결과로 될 수 있다.

그러나, 종래 기술에 있어서 특징 부분으로 하는 희소도 산출에 있어서 얻어지는 희소도는 당해 상관 룰이 발생하는 확률을 나타내고 있고, 전술한 「업무 시스템에 걸쳐있는 데이터 테이블끼리」나 「원업무 시스템의 데이터 구조의 관점에서 거리가 먼 데이터 테이블끼리」와 같은 의외의 데이터의 조합에 관해서는 고려하지 않았다. 따라서, 종래 기술에서는 추출된 방대한 수의 상관 룰로부터, 룰의 전제부 및 결론부에 포함되는 속성의 조합으로서 의외의 조합을 포함하는 상관 룰의 범위를 좁히지 못하여, 분석자에게 있어서 유익한 룰을 제시할 수 없다.

본 발명의 일측면은, 데이터 분석 지원 시스템이다. 이 시스템은, 복수의 데이터 테이블을 포함하는 분석 대상 데이터 테이블을 기억하는, 기억 장치와, 분석 대상 데이터 테이블을 해석하고, 데이터 테이블에 포함되는 속성의 상관을 나타내는 복수의 상관 룰을 추출하는, 상관 룰 추출부와, 복수의 데이터 테이블 간의 관련성을 나타내는 데이터 관계 모델을 생성하는, 데이터 관계 모델 생성부와, 상관 룰마다, 당해 상관 룰의 전제부 및 결론부의 속성의 조합을 생성하고, 당해 조합마다의 상기 데이터 관계 모델에 있어서의 당해 속성 간의 거리를 구하고, 당해 거리에 의거하여 의외도를 산출하는, 의외도 산출부를 구비한다.

본 발명의 다른 일측면은, 입력 장치, 출력 장치, 기억 장치, 및 처리 장치를 포함하는 정보 처리 장치에서 실행되는 데이터 분석 지원 시스템 방법이다. 이 방법에서는, 기억 장치에, 복수의 데이터 테이블을 포함하는 분석 대상 데이터 테이블을 준비하는, 제1 스텝과, 복수의 데이터 테이블 간의 관련성을 나타내는 데이터 관계 모델을 생성하는, 제2 스텝과, 분석 대상 데이터 테이블을 해석하고, 데이터 테이블에 포함되는 속성의 상관을 나타내는 복수의 상관 룰을 추출하는, 제3 스텝과, 상관 룰마다, 당해 상관 룰의 전제부 및 결론부의 속성의 조합을 생성하고, 당해 조합마다의 상기 데이터 관계 모델에 있어서의 당해 속성 간의 거리를 구하고, 당해 거리에 의거하여 의외도를 산출하는, 제4 스텝을 구비한다.

방대한 수의 상관 룰 중에서 의외성이 있는 룰의 범위를 좁힐 수 있고, 업무 개선이나 원인 분석을 위한 유익한 정보 파악을 신속하게 행할 수 있다.

도 1은 데이터 분석 지원 시스템의 구성예를 나타내는 블록도.
도 2는 분석 대상 데이터 축적부에 축적되는 분석 대상 데이터의 포맷예를 나타내는 표 도면.
도 3은 데이터 관계 모델 기억부의 엔티티 테이블 및 릴레이션 테이블의 포맷예와, 릴레이션 생성 원리를 나타내는 개념도.
도 4는 상관 룰 기억부의 상관 룰 저장 테이블의 데이터 포맷예를 나타내는 표 도면.
도 5는 분석 실시자가 분석 대상 데이터의 도입, 상관 룰의 산출 및 상관 룰의 범위 좁힘을 행하는 화면예를 나타내는 평면도.
도 6은 데이터 분석 지원 시스템의 하드웨어 구성예를 나타내는 블록도.
도 7은 데이터 분석 지원 시스템에 있어서 데이터 관계 모델을 생성, 상관 룰을 추출 및 의외도를 산출하는 일련의 수순을 나타내는 플로차트.
도 8은 데이터 관계 모델 생성부가, 분석 대상 데이터 테이블로부터 데이터 관계 모델을 생성하는 수순의 상세를 나타내는 플로차트.
도 9는 데이터 결합부가, 분석 대상 데이터 테이블을 하나의 데이터 테이블로 결합하는 수순의 상세를 나타내는 플로차트.
도 10은 의외도 산출부가, 데이터 관계 모델에 의거하여 상관 룰마다 의외도를 산출하는 수순의 상세를 나타내는 플로차트.

이하에 본 발명의 실시형태에 대하여 도면을 이용해서 상세히 설명한다. 단, 본 발명은 이하에 나타내는 실시형태의 기재 내용에 한정해서 해석되는 것은 아니다. 본 발명의 사상 내지 취지로부터 일탈하지 않는 범위에서, 그 구체적 구성을 변경할 수 있는 것은 당업자라면 용이하게 이해된다.

이하에 설명하는 발명의 구성에 있어서, 동일 부분 또는 마찬가지의 기능을 갖는 부분에는 동일한 부호를 서로 다른 도면 간에 공통적으로 이용하고, 중복하는 설명은 생략하는 경우가 있다.

동일 혹은 마찬가지의 기능을 갖는 요소가 복수 있는 경우에는, 동일한 부호에 서로 다른 첨자를 부여해서 설명하는 경우가 있다. 단, 복수의 요소를 구별할 필요가 없는 경우에는, 첨자를 생략해서 설명하는 경우가 있다.

본 명세서 등에 있어서의 「제1」, 「제2」, 「제3」 등의 표기는, 구성 요소를 식별하기 위하여 부여하는 것이고, 반드시, 수, 순서, 혹은 그 내용을 한정하는 것은 아니다. 또한, 구성 요소의 식별을 위한 번호는 문맥마다 이용되고, 하나의 문맥에서 이용한 번호가, 다른 문맥에서 반드시 동일한 구성을 나타낸다고 한정할 수는 없다. 또한, 어느 번호로 식별된 구성 요소가, 다른 번호로 식별된 구성 요소의 기능을 겸하는 것을 방해하는 것은 아니다.

도면 등에 있어서 나타내는 각 구성의 위치, 크기, 형상, 범위 등은, 발명의 이해를 용이하게 하기 위하여, 실제의 위치, 크기, 형상, 범위 등을 표시하고 있지 않은 경우가 있다. 이 때문에, 본 발명은, 반드시, 도면 등에 개시된 위치, 크기, 형상, 범위 등에 한정되지 않는다.

본 명세서에 있어서 단수형으로 나타나는 구성 요소는, 특별히 문맥에서 명백하게 나타나지 않는 한, 복수형을 포함하는 것으로 한다.

이하에서 설명하는 실시예의 일례는, 분석 대상 데이터 테이블을 해석하고 복수의 상관 룰을 추출하는 상관 룰 추출부와, 분석 대상 데이터 테이블 간의 관련성을 나타내는 엔티티 테이블과 릴레이션 테이블로 구성되는 데이터 관계 모델을 생성하는 데이터 관계 모델 생성부와, 데이터 관계 모델과 상관 룰 추출 수단이 추출한 상관 룰을 이용해서 상관 룰마다 당해 상관 룰의 전제부 및 결론부의 속성의 조합마다 데이터 관계 모델에 있어서의 엔티티 간의 거리 및 릴레이션의 강도에 의거하여 의외도를 산출하는 의외도 산출부를 구비하는 것을 특징으로 하는 데이터 분석 지원 시스템이다.

(실시예 1)

도 1은, 본 실시예에 있어서의 데이터 분석 지원 시스템(100)의 구성예를 나타내는 도면이다. 도 1에 나타내는 바와 같이 본 실시예가 대상으로 하는 데이터 분석 지원 시스템(100)은, 유저 단말(111)과 통신 가능하게 접속되어 있다. 데이터 분석 지원 시스템(100)은 예를 들면 서버로 구성할 수 있고, 유저 단말(111)은 예를 들면 퍼스널 컴퓨터로 구성할 수 있다. 양자는 예를 들면 네트워크를 통해서 접속할 수 있다.

본 실시예에 관한 데이터 분석 지원 시스템(100)은, 기능 부품으로서 분석 대상 데이터 축적부(101)와, 데이터 관계 모델 기억부(102)와, 상관 룰 기억부(103)와, 데이터 취득부(104)와, 데이터 관계 모델 생성부(105)와, 데이터 결합부(106)와, 상관 룰 추출부(107)와, 의외도 산출부(108)와, 룰 추천부(109)와, 유저 인터페이스부(110)를 구비한다.

데이터 취득부(104)는, 유저 단말(111)에 대해서 분석 실시자(112)가 행하는 데이터 도입 요구를 수신하고, 분석 대상 데이터 축적부(101)에 저장되는 분석 대상 데이터 테이블을 취득한다.

도 2에, 분석 대상 데이터 축적부(101)에 축적되는, 분석 대상 데이터 테이블의 예를 나타낸다. 도 2의 예에서는, 분석 대상 데이터 테이블로서, 열차 데이터 테이블(1011)과 역 데이터 테이블(1012)의 예가 나타나 있다. 각 테이블은, 칼럼명(10111, 10121)을 구비하고, 각 칼럼에 소정의 수치 혹은 텍스트의 데이터를 저장한다. 데이터 테이블은 예를 들면 도 2에 나타내는 데이터 포맷을 갖고 있고, 일반적인 표 형식 데이터의 구조인 것을 대상으로 한다.

본 실시예의 실시에 있어서, 분석 대상 데이터는 표 형식 데이터 혹은 이와 동등한 기능을 갖는 데이터인 것이 전제이고, 업종이나 분야에 관계없이 적용 가능한 것이다. 본 실시예에 있어서는 철도 분야의 각종 업무 시스템의 데이터를 예로 들어서 설명한다. 철도 분야의 각종 업무 시스템의 데이터예로서, 열차 데이터 테이블(1011)과, 역 데이터 테이블(1012)의 2 테이블이 분석 대상 데이터 기억부에 정의되어 있다. 각 테이블에는 예를 들면, 주체 또는 객체로 되는 대상물을 나타내는 식별 정보나, 대상물에 관한 각종 물리량 혹은 스테이터스의 정보 등이 기억되어 있다.

데이터 관계 모델 생성부(105)는, 분석 대상으로 되는 데이터 테이블 간의 관련성을 나타내는 데이터 관계 모델을 생성하고, 생성한 모델을 데이터 관계 모델 기억부(102)에 저장한다. 데이터 관계 모델 기억부(102)에 기억되는 데이터 관계 모델은, 데이터 관계 모델의 데이터 테이블의 테이블명과 각 테이블의 칼럼 일람을 정의하는 엔티티 테이블과, 데이터 관계 모델의 데이터 테이블 간의 관련을 정의하는 릴레이션 테이블의 2 테이블로 구성된다.

도 3에, 데이터 관계 모델 기억부(102)에 저장되는, 데이터 관계 모델의 개념도를 나타낸다. 전술과 같이 데이터 관계 모델은, 엔티티 테이블(10210)과 릴레이션 테이블(10220)을 포함한다.

엔티티 테이블(10210)은, 분석 대상 데이터 축적부(101)에 축적되는, 각 데이터 테이블의 칼럼명을 일람으로서 정리한 것이다. 엔티티 테이블(10210)은, 예를 들면 도 3에 나타내는 데이터 포맷을 갖고 있고, 테이블명(10211)과, 그것에 대응하는 칼럼명(10212)을 포함한다. 릴레이션 테이블(10220)은, 제1 테이블(10221)과, 제1 테이블의 칼럼(10222)과, 제2 테이블(10223)과, 제2 테이블의 칼럼(10224)을 포함한다.

도 3에 나타내는 예에서는, 엔티티 테이블(10210)에, 열차 데이터 테이블(도 2의 1011)과 역 데이터 테이블(도 2의 1012)의 2 테이블이 정의되어 있고, 열차 데이터 테이블에는 시행일, 선구(線區), 열차 번호, 행선지, 시발역, 종착역의 합계 6 칼럼이, 역 데이터 테이블(1012)에는 열차 번호, 역명, 타사선 연계 운행, 도착 시각, 출발 시각, 지연 시분(時分), 체류인 수의 합계 7 칼럼이 정의된다.

또한, 릴레이션 테이블(10220)에는, 열차 데이터 테이블(1011)과 역 데이터 테이블(1012) 간의 릴레이션이 정의되어 있고, 열차 데이터 테이블(1011)의 열차 번호 칼럼과 역 데이터 테이블(1012)의 열차 번호 칼럼 사이에, 릴레이션이 정의된다. 마찬가지로 해서, 열차 데이터 테이블(1011)의 시발역 및 종착역 칼럼과, 역 데이터 테이블(1012)의 역명 칼럼 사이에 릴레이션이 정의된다.

데이터 결합부(106)는, 분석 대상 데이터 기억부에 저장되는 분석 대상 데이터 테이블의 칼럼을 키로 해서 수평 방향으로 결합함으로써 하나의 데이터 테이블을 생성한다.

상관 룰 추출부(107)는, 데이터 결합부(106)에서 생성된 데이터 테이블을 대상으로 상관 룰 마이닝을 행함으로써 생성된 상관 룰을 상관 룰 기억부(103)에 저장한다. 상관 룰의 추출은 예를 들면 아프리오리 알고리즘(비특허문헌 1 참조) 등의 공지의 알고리즘을 이용해서 실현할 수 있다.

상관 룰 마이닝은, 분석 대상 데이터 중에서 빈번히 동시에 일어나는 사상을 발견하는 것에 초점을 맞춘 분석 알고리즘이다. 복수의 사상 간의 발생에 보이는 동시성이나 관계성과 같은, 분석 대상 데이터 중에서 빈번히 동시에 발생하는 사상의 조합을 룰로서 추출하고, 이 룰을 상관 룰이라 부른다. 예를 들면, 어느 사상 X가 바탕인 사상 Y가 발생하는 관계가 확인될 때는 「X⇒Y」와 같이 기술하고, 화살표(⇒)의 좌측을 전제부(사상 X), 우측을 결론부(사상 Y)라 부르고, 사상 X가 발생했을 때의 Y가 발생하는 확률을 나타내는 것이다.

잘 알려져 있는 바와 같이, 상관 룰 마이닝에서는 상관의 강도를 나타내는 지표로서, 지지도, 신뢰도, 리프트의 합계 세 지표가 있다. 지지도는, 어느 사상을 포함하는 전체 데이터 중의 비율이다. 확신도는, 전제부의 사상이 발생한 것을 바탕으로 결론부의 사상이 발생하는 비율이고, 전제부와 결론부에 포함되는 사상 간의 관련의 강도를 나타낸다. 리프트는, 전제부의 사상이 발생한 것을 바탕으로 결론부의 사상이 발생하는 비율(확신도)을, 전체 데이터 중에서 결론부의 사상이 발생한 비율로 나눈 것이고, 결론부의 사상이 단독적으로 발생한 비율보다도 전제부의 사상을 바탕으로 결론부의 사상이 발생하는 비율이 얼마나 많은지를 배율로 나타낸 것이다.

예를 들면, 「사상 X가 발생한 것을 바탕으로 사상 Y가 발생하는 비율이 60%이고, 전체 데이터 중에서 사상 X와 사상 Y가 동시에 발생하는 비율이 20%이고, 사상 X를 바탕으로 사상 Y가 발생하는 비율은 전체 데이터 중에서 사상 Y가 단독적으로 발생하는 비율의 2.5배로 되어 있는」 것과 같은 상관 룰 「X⇒Y」는, 지지도=20%, 확신도=60%, 리프트=2.5로 나타난다. 또, 전제부와 결론부에 포함되는 사상은 각각 복수 있어도 된다. 또한, 전제부와 결론부가 포함하는 「사상」에 대해서는 특별히 「아이템」이나 「속성」 등으로 호칭되는 경우도 있다. 이후의 설명에서는 「사상」이 아니라 「속성」이라 부른다.

도 4는 상관 룰 기억부(103)가 구비하는 상관 룰 저장 테이블(1030)의 데이터 포맷예를 나타낸다. 상관 룰 저장 테이블(1030)은, 데이터 항목으로서 전제부(1031)와, 결론부(1032)와, 지지도(1033)와, 확신도(1034)와, 리프트(1035)와, 의외도(1036)를 포함한다. 도 4의 예에서는 상관 룰 「열차 번호(T100)⇒차량 ID(M1-01)」는 지지도=8.30%, 확신도=60%, 리프트=2.3이다. 본 예에서는 데이터값(상기한 상관 룰 중의 T100과 M1-01)뿐만 아니라, 당해 데이터값이 어느 테이블의 어느 칼럼에 속해 있었는지에 대한 정보(상기한 상관 룰 중에서는 열차 데이터 테이블(1011)의 열차 번호와 차량 데이터 테이블 차량 ID)도 전제부와 결론부에 유지되지만, 데이터 테이블에 대해서는 기재를 생략하고 있다. 「의외도」에 대해서는 의외도 산출부(108)의 설명에서 후술한다.

의외도 산출부(108)는, 상관 룰 추출부(107)에서 추출한 상관 룰마다, 상관 룰의 전제부와 결론부에 포함되는 사상을, 데이터 관계 모델 생성부(105)가 생성한 데이터 관계 모델과 대조해서 의외도를 산출하고, 상관 룰 기억부(103)에 저장한다. 산출한 의외도는, 상관 룰 기억부(103)의 상관 룰 저장 테이블(1030)의 의외도 칼럼(도 4)에 저장된다.

룰 추천부(109)는, 분석 실시자로부터의 상관 룰 범위 좁힘 요구와 분석 실시자가 정의한 지지도와, 확신도와, 리프트와, 의외도에 대한 합계 네 임계값을 수신하고, 상관 룰 기억부(103)에 저장되는 상관 룰 모두에 임계값 처리를 행함으로써 상관 룰의 범위를 좁히고, 범위를 좁힌 결과를 유저 단말(111)에게 반환한다. 임계값 처리는 각 지표에 대해서 설정된 임계값보다도 높은 값을 갖는 룰을 남기고, 임계값 이하의 값을 갖는 룰을 제거하는 것이다. 지지도와, 확신도와, 리프트와, 의외도의 합계 네 각 지표의 어느 것에 대해서도 임계값보다도 높은 값을 갖는 룰을 남긴다.

유저 인터페이스부(110)는, 분석 실시자가 분석 대상 데이터의 도입, 상관 룰의 산출 및 상관 룰의 범위 좁힘을 행하는 화면(1101)을 생성한다.

도 5에, 유저 인터페이스부(110)가 생성하는 화면의 일례의 평면도를 나타낸다. 본 화면의 예는 도 5에 나타내는 바와 같이, 헤더부(1102), 임계값 설정부(1103)와, 상관 룰 일람 표시부(1104)와, 데이터 관계 모델 표시부(1105)로 구성된다. 헤더부(1102)에는 분석 실시자가 분석 대상 데이터를 도입하기 위한 데이터 도입 버튼과, 분석 대상 데이터에 대한 상관 룰의 추출 및 의외도 산출을 행하기 위한 상관 룰 산출 버튼과, 추출한 상관 룰을 임계값 설정부(1103)에서 설정한 임계값으로 범위 좁힘을 행하기 위한 상관 룰 범위 좁힘 버튼으로 구성된다.

분석 실시자(112)가 데이터 도입 버튼을 누르면, 유저 단말(111)로부터 데이터 취득 요구가, 데이터 취득부(104)로 송신된다. 분석 대상 데이터 축적부(101)로부터 데이터가 도입되면, 데이터 관계 모델 생성부(105)에 의해 데이터 관계 모델이 생성되고, 생성 결과가 예를 들면 ER 다이어그램으로서 데이터 관계 모델 표시부(1105)에 표시된다. 생성된 모델에 대해서, 엔티티 추가·편집 버튼, 릴레이션 추가 버튼, 삭제 버튼을 이용함으로써, 분석의 목적이나 분석자의 지식 등에 따라서 분석 실시자가 모델을 조정·변경해도 된다. 또한, 데이터의 도입은 분석 대상 데이터 축적부(101)의 데이터 테이블 모두가 아니라, 분석 실시자(112)가 임의의 데이터 테이블을 선택해도 된다. 이 경우, 데이터 취득 요구와 함께 분석 실시자가 선택한 데이터 테이블 명칭도 데이터 취득부(104)로 송신한다.

분석 실시자(112)가 상관 룰 산출 버튼을 누르면, 데이터 결합부(106)가 생성한 데이터 테이블에 대해서 상관 룰 추출부(107)가 상관 룰의 추출처리를 행하고, 의외도 산출부(108)가 추출된 각 상관 룰에 대해서 데이터 관계 모델에 의거하여 의외도를 산출한다. 전체 룰에 대해서 의외도의 산출까지 완료되면, 모든 상관 룰이 상관 룰 일람 표시부(1104)에 일람 표시된다.

분석 실시자(112)가 상관 룰 범위 좁힘 버튼을 누르면, 임계값 설정부(1103)의 지지도와, 확신도와, 리프트와, 의외도에 대하여 설정된 임계값과 룰 추천 요구가, 룰 추천부(109)로 송신된다. 룰 추천부(109)에서 룰 범위 좁힘을 행한 결과를, 화면(1101)에 표시한다.

도 5의 예에서는 임계값으로서 지지도=3.0%, 확신도=20.0%, 리프트=1.5, 의외도=80.0%가 설정되어 있다. 이 결과, 추출된 상관 룰 중 각 지표에 대하여 상기 임계값보다도 높은 값이 룰이 범위를 좁힌 결과의 룰로서, 상관 룰 일람 표시부(1104)에 표시된다. 도 5의 예에서는 상관 룰 「열차 번호(T102)⇒구배(0.5-1.0%)」는 지지도=7.5%, 확신도=50%, 리프트=2.6, 의외도=100%이고, 어느 지표도 임계값 설정부(1103)에서 설정되는 임계값보다도 높은 값을 갖는 룰로서 남는다. 이들 기능 부품의 상세는 이후 플로차트를 이용해서 후술한다.

도 6은, 데이터 분석 지원 시스템(100)의 하드웨어 구성예를 나타내는 도면이다. 데이터 분석 지원 시스템(100)은, CPU(중앙 처리 장치)(201), HDD(자기디스크 장치)(202), 메모리(203), 입력부(204), 표시부(205), 통신부(206)를 구비한다. CPU(201)는, 데이터의 입출력, 판독, 저장 및 각종 처리를 실행한다. HDD(202)는, 데이터를 기억하는 장치이고, 메모리(203)는, 프로그램 및 데이터를 일시적으로 기억하는 장치이다. 양자를 합쳐서 기억 장치라 한다. 입력부(204)는, 유저로부터의 조작 입력을 접수하는 입력 장치이다. 표시부(205)는, 이용자에게 데이터를 표시하는 장치이고 출력 장치의 하나이다. 통신부(206)는, 유저 단말(111)과 통신하여, 데이터를 송수신하는 장치이다. 이들 각 장치는, 일반적인 컴퓨터의 각 구성으로서 실현할 수 있다.

도 1의 분석 대상 데이터 축적부(101), 데이터 관계 모델 기억부(102), 상관 룰 기억부(103)는, 예를 들면, HDD(202)에 의해 실현된다. 실시예 1의 데이터 취득부(104), 데이터 관계 모델 생성부(105), 데이터 결합부(106), 상관 룰 추출부(107), 의외도 산출부(108), 룰 추천부(109)의 각 부분은, 예를 들면, 메모리(203)에 저장된 프로그램을 CPU(201)가 실행하고, CPU(201), HDD(202), 메모리(203), 입력부(204), 표시부(205), 통신부(206) 등의 하드웨어를 제어함에 의해서, 실행된다.

이상의 데이터 분석 지원 시스템(100)의 구성은, 단일체의 컴퓨터로 구성해도 되고, 혹은, CPU(201), HDD(202), 메모리(203), 입력부(204), 표시부(205)의 임의의 부분이, 통신부(206)를 통한 네트워크로 접속된 다른 컴퓨터로 구성되어도 된다. 또한, 본 실시예 중, 소프트웨어로 구성한 기능과 동등한 기능은, FPGA(Field Programmable Gate Array), ASIC(Application Specific Integrated Circuit) 등의 하드웨어로도 실현할 수 있다.

도 7은, 데이터 분석 지원 시스템(100)에 있어서 데이터 관계 모델을 생성하고, 상관 룰을 추출 및 의외도를 산출하는 일련의 수순을 나타내는 전체 플로차트이다.

데이터 취득부(104)는, 분석 실시자(112)가 유저 단말(111)에 표시되는 도 5의 화면 상에서 입력한 분석 대상 데이터의 도입 요구를 수신하고, 분석 대상 데이터 축적부(101)로부터 분석 대상 데이터 테이블을 취득한다. 그리고, 데이터 관계 모델 생성부(105)가 상기 취득한 데이터 테이블에 대한 데이터 관계 모델을 생성한다(S301).

데이터 결합부(106)가, 분석 대상 데이터 테이블에 대하여 시계열의 데이터 항목을 키로 해서 수평 방향으로 내부 결합함으로써, 하나의 데이터 테이블을 생성한다(S302).

상관 룰 추출부(107)는, 분석 실시자(112)가 유저 단말(111)에 표시되는 도 5의 화면 상에서 입력한 상관 룰의 추출 요구를 수신하고, 상관 룰을 추출한다(S303).

의외도 산출부(108)는, 상관 룰 추출부(107)가 추출한 상관 룰마다, 데이터 관계 모델 생성부(105)가 생성한 데이터 관계 모델과 대조해서 의외도를 산출한다(S304).

룰 추천부(109)는, 분석 실시자가 유저 단말(111)에 표시되는 도 5의 화면 상에서 입력한 상관 룰 범위 좁힘 요구와, 지지도, 확신도, 리프트, 의외도에 대한 임계값을 수신하고, 상관 룰마다 산출된 지지도, 확신도, 리프트, 의외도에 대해서 임계값 처리를 행하여 룰의 범위 좁힘을 행하고, 결과를 유저 단말(111)에게 반환한다(S305).

또, 데이터 관계 모델의 생성(S301)은, 상관 룰의 추출(S303) 후에 행해도 된다. 혹은, 도 7의 처리 이전에 미리 작성해서 보존해 두어도 된다.

데이터 관계 모델 생성부(105)가 행하는 처리 수순의 상세는 도 8에 나타내는 플로차트에서 후술한다. 데이터 결합부(106)가 행하는 처리 수순의 상세는 도 9에 나타내는 플로차트에서 후술한다. 의외도 산출부(108)가 행하는 처리 수순의 상세는 도 10에 나타내는 플로차트에서 후술한다.

도 8은, 데이터 관계 모델 생성부(105)가, 분석 대상 데이터 테이블로부터 데이터 관계 모델을 생성하는 수순(S301)의 상세를 나타내는 플로차트이다.

데이터 관계 모델 생성부(105)는, 데이터 취득부가 취득한 분석 대상 데이터 테이블 모두에 대해서, 각 데이터 테이블의 칼럼명 일람을 취득하고 데이터 관계 모델의 엔티티 테이블(10210)(도 3 참조)에 저장한다(S3011).

취득한 전체 데이터 테이블로부터 2 테이블을 선출하는 선택 방식의 수분(數分)만큼 루프 처리를 행한다(S3012).

계속해서, S3012에서 선출한 2 테이블에 대하여 각 테이블의 칼럼수끼리를 곱셈한 수분만큼 루프를 행한다(S3013). 당해 처리는 한쪽의 테이블의 칼럼을 고정하고, 고정한 칼럼에 대하여 다른 한쪽의 테이블이 갖는 전체 칼럼에 대하여 처리를 행하는 것과 동의(同義)이다.

S3012에서 선출한 2 테이블 중, 한쪽의 테이블에 정의되는 칼럼과, 다른 한쪽의 테이블에 정의되는 칼럼의 명칭을 비교한다(S3014).

비교를 행하는 칼럼의 명칭이 부분 일치 혹은 완전 일치하는지의 여부를 판정한다(S3015).

부분 일치하고 있으면, 당해 2 칼럼 간에 릴레이션이 있다고 판정하고, 데이터 관계 모델 기억부(102)의 릴레이션 테이블(10220)에 저장한다(S3016).

분석 대상 데이터가 도 2에 나타내는 열차 데이터 테이블(1011)과 역 데이터 테이블(1012)인 경우의, 데이터 관계 모델 생성 처리의 설명을 나타낸다. 열차 데이터 테이블(1011)과 역 데이터 테이블(1012)의 테이블명과 각 테이블의 칼럼명을 취득하고, 취득 결과를 도 3에 나타내는 엔티티 테이블(10210)에 저장한다.

계속해서, 취득한 전체 데이터 테이블에 대해서 2 테이블을 선출하는 선택 방식을 계산한다. 본 예에서는, 대상 데이터 테이블이 2 테이블이고, 여기에서부터 2 테이블을 선출하는 선택 방식은 1가지로 되기 때문에, 1회만 루프 처리를 행한다.

계속해서, 선출한 2 테이블의 각 칼럼수는 열차 데이터 테이블(1011)이 6, 역 데이터 테이블(1012)이 7이므로 6×7=42로 되어 42회 루프 처리를 행한다. 우선, 열차 데이터 테이블(1011)의 시행일 칼럼과, 역 데이터 테이블(1012)의 전체 칼럼과 문자열이 부분 일치하는지의 여부를 판정한다(루프 회수는 합계 7회). 마찬가지로 해서 열차 데이터 테이블(1011)의 나머지 5 칼럼에 대해서도, 역 데이터 테이블(1012)의 전체 칼럼과의 문자열이 부분 일치하는지를 판정한다.

본 예에서는, 열차 데이터 테이블(1011)의 열차 번호 칼럼이 역 데이터 테이블(1012)의 열차 번호 칼럼과 문자열이 부분 일치하므로, 각 칼럼끼리 릴레이션(30001)이 있다고 판정하고, 판정 결과를 도 3에 나타내는 릴레이션 테이블(10220)에 저장한다. 또한, 열차 데이터 테이블(1011)의 시발역 및 종착역 칼럼에 대해서도, 역 데이터 테이블(1012)의 역명 칼럼과 문자열이 부분 일치하므로, 각 칼럼 간에 릴레이션(30002)이 있다고 판정하고, 릴레이션 테이블(10220)에 결과를 저장한다.

데이터 관계 모델 생성 처리에 의해 생성한 엔티티 테이블(10210)과 릴레이션 테이블(10220)에 저장되는 데이터를 이용함으로써, 도 5의 데이터 관계 모델 표시부(1105)에 나타내는 바와 같은 개략 클래스 다이어그램의 형식으로, 데이터 관계 모델은 나타낼 수 있다.

도 2에 나타내는 열차 데이터 테이블(1011)과 역 데이터 테이블(1012)은 각각 열차 클래스와 역 클래스로서 나타나고, 당해 2 데이터 테이블 간의 릴레이션은 열차 클래스와 역 클래스 사이를 잇는 선으로 나타난다. 도 5에 나타내는 데이터 관계 모델의 예에서는, 도 2에서는 기재를 생략하고 있지만 차량이나 선로 등의 클래스도 표시하고 있다. 또, 본 예에서는 시인성 향상을 위하여 차량 엔티티와 지상 설비 엔티티 간의 릴레이션(차량 클래스의 속도 로그 및 실내 온도 로그 칼럼이, 지상 설비 클래스의 동작 로그 및 알람 로그 칼럼과 문자열이 부분 일치하기 때문에 릴레이션 있음으로 판정됨) 등의 일부의 릴레이션에 대해서는 생략해서 기재하고 있다.

또한, 데이터 관계 모델 생성 처리에 있어서의 릴레이션은, 분석 대상 데이터 테이블의 구조 간의 관계뿐만 아니라, 업종 고유적으로 보이는 구조물 간의 계층 관계나, 위치나 경로 상에 있어서의 근접이나 전후의 관계를 정의해도 된다. 예를 들면, 철도 분야에 있어서의 열차에는, 열차를 조성하는 차량, 또한 차량을 조성하는 각종 차량 부품과 같이 열차-차량-차량 부품과 같은 구조물 간의 계층 관계를 생각할 수 있으며, 이와 같은 구조물 간의 계층 관계를 미리 정의해 둠으로써, 동일한 구조물에서 발생하는 사상을 정의할 수 있다. 또한, 위치나 경로 상에 있어서의 근접이나 전후의 관계로서는, 역의 배열 순서나 병주(竝走)하는 선구의 정보를 미리 정의함으로써, 인접하는 역 간에 파급하는 사상의 관계나 대체 노선이나 구조의 열차에 파급하는 관계를 정의할 수 있다.

도 9는, 데이터 결합부(106)가, 분석 대상 데이터 테이블을 하나의 데이터 테이블로 결합하는 수순(S302)의 상세를 나타내는 플로차트이다.

데이터 결합부(106)는 데이터 취득부(104)가 취득한 분석 대상 데이터 테이블 모두에 대해서, 루프 처리를 행한다(S3021).

당해 테이블의 칼럼마다, 칼럼으로 정의되는 데이터값을 취득하고 데이터형의 판정을 행한다(S3022).

S3022에서 판정한 데이터형이 타임 스탬프형, 날짜형, 시각형 중 어느 것에 해당하는지의 여부를 판정한다(S3023).

당해 칼럼에 대하여 타임 스탬프형, 날짜형, 시각형 중 어느 하나에 해당하면 당해 칼럼을, 시계열을 나타내는 칼럼이라고 판정한다(S3024).

분석 대상 데이터 테이블 모두에 대해서 데이터형의 판정을 행하고, 시계열의 칼럼 판정이 완료된 후, 시계열을 나타내면 판정된 칼럼을 키로 해서, 같은 데이터형끼리 데이터 테이블을 수평 방향으로 내부 결합함으로써, 분석 대상 데이터를 하나의 데이터 테이블로 한다(S3025).

상기 예에서는 S3022에서 칼럼 단위로 데이터값을 해석함으로써 데이터형의 판정을 행하고 있지만, 어느 칼럼으로 데이터 테이블의 결합을 행할지 정해져 있는 경우는, 사전에 어느 칼럼이 계열을 나타내는지 정의한 유저 정의의 데이터 테이블을 미리 준비하고, 이 유저 정의 테이블을 참조함으로써, 데이터형의 판정을 행해도 된다. 예를 들면, 선로의 검사 측정 로그 결과 데이터 테이블과 같이, 선로 궤도 상의 어느 위치에 있어서의 검사 결과인지를 나타내는 킬로정(程)이라는 칼럼이 존재할 경우, 시계열이 아닌 위치계열의 데이터이기 때문에, 킬로정을 키로 해서 데이터 테이블을 결합하고 싶은 경우가 있다. 이 경우, 미리 유저 정의 테이블에 킬로정을 정의해 두고, 이 유저 정의 테이블을 참조하여 분석 대상 데이터 테이블 모두에 대해서 킬로정을 포함하는 칼럼을 갖는지의 여부를 판정하고, 킬로정으로 판정된 칼럼을 키로 해서 데이터 테이블끼리를 수평 결합한다.

또한, 데이터 테이블의 결합 키로 되는 칼럼의 데이터값은 데이터 테이블마다 최소 단위나 데이터 취득의 타이밍이 서로 다른 경우가 있다. 예를 들면, 어느 테이블의 시각을 나타내는 칼럼에서는, 30초 단위로 데이터가 취득되어 있는 한편, 다른 테이블에서는 1분 단위로 데이터가 취득되어 있는 것과 같이, 같은 시각을 나타내는 칼럼에서도 데이터의 최소 단위가 서로 다른 경우가 있다. 또한, 같은 30초 단위의 데이터 테이블이어도, 데이터 취득의 타이밍이 서로 다르므로, 기점으로 되는 시각이 「10:00:05」와 「10:00:12」와 같은 경우도 있다. 이와 같을 경우, 분석 실시자의 요구에 따라서, 시각을 나타내는 칼럼의 데이터값에 대하여 최소 단위를 맞추거나, 보다 개략적인 단위로 바꾸는 전(前)처리를 분석 대상 데이터 테이블에 대해서 행해도 된다.

도 10은, 의외도 산출부(108)가, 데이터 관계 모델에 의거하여 상관 룰마다 의외도를 산출하는 수순(S304)의 상세를 나타내는 플로차트이다.

의외도 산출부(108)는 상관 룰 추출부(107)의 처리 완료 후, 추출한 상관 룰의 수분만큼 루프 처리를 행한다(S3041).

루프 처리의 대상으로 되는 상관 룰에 대하여, 전제부와 결론부에 포함되는 속성의 일람을 취득한다(S3042). 이미 기술한 바와 같이, 속성이란 전제부와 결론부에 포함되는 사상을 가리킨다.

취득한 속성 일람으로부터 2 속성을 선택하는 선택 방식 수분만큼 루프 처리를 행한다(S3043).

선출한 2 속성끼리의 데이터 관계 모델에 있어서의 거리의 산출을 행한다(S3044). 데이터 관계 모델에서의 2 속성 간의 거리는, 당해 속성이 속하는 클래스 간의 거리이다. 클래스 간의 거리는, 예를 들면 도 5에 나타나는 데이터 관계 모델에 있어서, 클래스 간을 잇는 릴레이션의 수로서 파악할 수 있다. 예를 들면, 열차 클래스와 선로 클래스의 거리는 2이다. 따라서, 열차 클래스의 속성 「시행일」과 선로 클래스의 속성 「킬로정」의 거리는 2로 된다.

또, 일반적으로 데이터 모델에서 엔티티나 테이블이라 불리는 것이, 오브젝트 모델에서는 클래스나 오브젝트라 불린다. 본 명세서에서는 엔티티, 테이블, 클래스의 단어는 치환해서 해석해도 된다.

S3043의 루프 처리 완료 후, (전제부와 결론부에 포함되는 전체 속성으로부터 2 속성을 선택하는 선택 방식 모두에 대한 데이터 관계 모델에 있어서의 거리의 총합)으로, (2 속성을 선택하는 선택 방식 중 2 속성 간의 거리가 2 이상으로 되는 것의 거리의 총합)을 나눔으로써 의외도를 산출하고, 이것을 상관 룰 저장 테이블(1030)의 당해 룰의 의외도 칼럼에 저장한다(S3045).

여기에서, 도 5의 데이터 관계 모델 표시부(1105)에 나타내는 데이터 관계 모델에 의거해, 상관 룰 1 「열차 번호(T102)⇒구배(0.5-1.0%)」와 상관 룰 2 「열차 번호(T200)⇒알람 로그(A200), 실내 온도 로그(26.0-26.5℃)」의 각각에 대해서 의외도를 산출하는 예를 설명한다.

상관 룰 1 「열차 번호(T102)⇒구배(0.5-1.0%)」에 포함되는 속성의 일람으로서 「열차 번호(T102)」와 「구배(0.5-1.0%)」의 2 속성이 취득된다. 각 속성은 각각 열차 데이터 테이블(1011)의 열차 번호 칼럼과, 선로 데이터 테이블의 구배 칼럼이다. 전제부와 결론부에 포함되는 합계 2 속성으로부터 2 속성을 선택하는 선택 방식은 1가지이기 때문에, 1회만 루프 처리를 행한다. 이 2 속성에 대하여 데이터 관계 모델에서의 거리를 산출하면, 「열차 번호(T102)」는 열차 클래스에 속하고 「구배(0.5-1.0%)」는 선로 클래스에 속하여 있으므로, 각각의 클래스는 차량 클래스를 사이에 두고 거리 2이다. 의외도를 산출하면 (전제부와 결론부에 포함되는 전체 속성으로부터 2 속성을 선택하는 선택 방식 모두에 대해서 데이터 관계 모델에 있어서의 거리의 총합)은 2, (2 속성을 선택하는 선택 방식 중 2 속성 간의 거리가 2 이상으로 되는 것의 거리의 총합)도 2로 되고, 2/2=1로 되어 의외도는 1(100%)로 된다.

또한, 상관 룰 2 「열차 번호(T200)⇒알람 로그(A200), 실내 온도 로그(26.0-26.5℃)」에 포함되는 속성의 일람으로서, 「열차 번호(T200)」, 「알람 로그(A200)」, 「실내 온도 로그(26.0-26.5℃)」의 3 속성이 취득된다. 각 속성은 각각 열차 데이터 테이블(1011)의 열차 번호 칼럼과, 지상 설비 데이터 테이블의 알람 로그 칼럼과, 차량 데이터 테이블의 실내 온도 로그 칼럼이다. 전제부와 결론부에 포함되는 합계 3 속성으로부터 2 속성을 선택하는 선택 방식은, 「열차 번호(T200)와 알람 로그(A200)」, 「열차 번호(T200)와 실내 온도 로그(26.0-26.5℃)」, 「알람 로그(A200)와 실내 온도 로그(26.0-26.5℃)」의 합계 3가지이기 때문에, 3회만 루프 처리를 행한다. 각 속성의 조합에 대하여, 데이터 관계 모델에서의 거리를 산출하면, 「열차 번호(T200)와 알람 로그(A200)」 간의 거리=열차 클래스와 지상 설비 클래스 간의 거리=3, 「열차 번호(T200)와 실내 온도 로그(26.0-26.5℃)」 간의 거리=열차 클래스와 차량 클래스 간의 거리=1, 「알람 로그(A200)와 실내 온도 로그(26.0-26.5℃)」 간의 거리=차량 클래스와 지상 설비 클래스 간의 거리=2로 된다. 따라서 의외도를 산출하면, (전제부와 결론부에 포함되는 전체 속성으로부터 2 속성을 선택하는 선택 방식 모두에 대해서 데이터 관계 모델에 있어서의 거리의 총합)은 3+1+2=6, (2 속성을 선택하는 선택 방식 중 2 속성 간의 거리가 2 이상으로 되는 것의 거리의 총합)=3+2=5로 되고, 5/6=0.83이어서 의외도는 0.83(83%)으로 된다.

이상과 같이 의외도를 계산함에 의해, 상관 룰의 전제부, 결론부의 각 속성으로서, 모델에서 거리 2 이상의 것이 많을수록, 의외도가 커진다. 즉, 일반적인 물체나 사상의 관계란 괴리한 속성의 조합을 갖는 룰일수록, 의외의 관계로서 평가된다. 이와 같이, 의외도라는 평가 지표를 도입함에 의해, 방대한 수의 상관 룰 중에서 데이터의 조합으로서 의외의 것을 정량적으로 평가할 수 있고, 효과적으로 룰의 범위를 좁힐 수 있다.

또, 상기한 예에서는, (2 속성을 선택하는 선택 방식 중 2 속성 간의 거리가 2 이상으로 되는 것의 총합)을 분자로 하고 있지만, (2 속성을 선택하는 선택 방식 중 2 속성 간의 거리가 m 이상으로 되는 것의 거리의 총합)으로서, 파라미터 m을 예를 들면 3 이상으로 하고, 임의로 설정하는 것도 가능하다. m을 크게 할수록, 의외성이 큰 룰이 보다 강조되는 의외도가 얻어진다.

(실시예 2)

실시예 1에서는, 데이터 테이블 간의 릴레이션에 대하여, 존재 유무의 결과만을 이용해서 의외도를 산출하고 있다. 다른 예에서는, 의외도 산출부(108)에서는, 의외도 산출에 릴레이션의 가중치를 고려해도 된다. 실시예 2에서는, 의외도 산출에 릴레이션의 가중치를 고려하는 예를 나타낸다.

릴레이션의 가중치란 2 테이블 간에 릴레이션 있음으로 판정된 칼럼의 페어수로 정의할 수 있다. 릴레이션의 가중치로, 2 테이블 간의 데이터 구조 상에서의 관련성의 강도를 수치적으로 나타낼 수 있다.

예를 들면, 도 3에 나타내는 예에서는, 릴레이션 테이블(10220)에, 열차 데이터 테이블(1011)과 역 데이터 테이블(1012) 간에 합계 3 레코드(페어)의 릴레이션이 정의되어 있다. 이 때문에, 열차 데이터 테이블(1011)과 역 데이터 테이블(1012) 간의 가중치는 3으로 된다. 가중치가 큰 릴레이션의 양단의 데이터 테이블끼리일수록, 데이터 분석에 있어서의 분석 대상 데이터의 조합으로서 선택될 가능성이 높다고 할 수 있다. 이 때문에, 가중치가 큰 릴레이션의 양단의 데이터 테이블끼리는, 데이터의 조합으로서는 의외성이 없고, 당연한 것으로 생각할 수 있다.

따라서, 릴레이션의 가중치를 고려한 의외도 산출에서는, 도 7의 의외도 산출(S304)에 있어서, 2 테이블 간의 데이터 관계 모델의 거리에 대해서, 릴레이션의 가중치의 역수를 곱하는 등의 처리를 행하여, 데이터 관계 모델에서의 거리를 보정한 후에 산출을 행한다. 이렇게 함으로써, 데이터 구조 상에서의 관련성의 강도까지 고려해서 의외도를 산출할 수 있다.

또한, 분석 대상 데이터의 조합에 따라서는, 데이터 관계 모델에서 임의의 2 칼럼의 거리의 산출에 있어서, 당해 2 칼럼이 속하는 2 클래스 간을 잇는 경로가 복수 존재하는 경우나, 루프 경로가 존재하는 경우가 있다. 이와 같은 경우는, 데이터 모델에 있어서의 2 칼럼 간의 거리 산출에서는, 최단으로 되는 경로의 거리를 취득하거나, 한번 통과한 경로는 두 번 통과하지 않는다는 제약을 마련하는 것 등에 의해, 의외도를 산출해도 된다.

즉, 실시예 1에서는, 상관 룰의 전제부 및 결론부의 속성이 포함되는 데이터 테이블 간에 존재하는, 릴레이션의 수를 카운트함에 의해, 당해 속성 간의 거리를 구하고 있었다. 실시예 2에서는, 릴레이션에 의해 대응지어진 2 테이블 간에, 칼럼명이 부분 일치 혹은 완전 일치하는 페어의 수로 당해 릴레이션의 가중치를 산출하고, 가중치의 역수를 상기 2 테이블 간의 릴레이션의 보정값으로 하고, 상관 룰의 전제부 및 결론부의 속성이 포함되는 상기 데이터 테이블 간에 존재하는, 릴레이션의 보정값을 가산함에 의해, 당해 속성 간의 거리를 구한다. 또, 실시예 1에서는 파라미터 m은 기본적으로 자연수이지만, 실시예 2에서는 가중치 부여의 처리가 있기 때문에 파라미터 m은 자연수가 아니어도 된다.

이상 설명한 실시예를 들면, 분석 실시자는, 방대한 수의 상관 룰 중에서 데이터의 조합으로서 자명한 것과 의외인 것을 판단하면서 룰의 범위를 좁힐 수 있고, 업무 개선이나 원인 분석을 위한 유익한 정보 파악을 신속하게 행할 수 있다.

본 실시예는, 정보 처리 장치를 이용해서 데이터 분석을 지원하는 사업에 이용할 수 있다.

100 : 데이터 분석 지원 시스템
101 : 분석 대상 데이터 축적부
102 : 데이터 관계 모델 기억부
103 : 상관 룰 기억부
104 : 데이터 취득부
105 : 데이터 관계 모델 생성부
106 : 데이터 결합부
107 : 상관 룰 추출부
108 : 의외도 산출부
109 : 룰 추천부
110 : 유저 인터페이스부

Claims

데이터 분석 지원 시스템으로서,
복수의 데이터 테이블을 포함하는 분석 대상 데이터 테이블을 기억하는, 기억 장치와,
상기 분석 대상 데이터 테이블을 해석하고, 상기 데이터 테이블에 포함되는 속성의 상관을 나타내는 복수의 상관 룰을 추출하는, 상관 룰 추출부와,
상기 복수의 데이터 테이블 간의 관련성을 나타내는 데이터 관계 모델을 생성하는, 데이터 관계 모델 생성부와,
상기 상관 룰마다, 당해 상관 룰의 전제부 및 결론부의 속성의 조합을 생성하고, 당해 조합마다의 상기 데이터 관계 모델에 있어서의 당해 속성 간의 거리를 구하고, 당해 거리에 의거하여 의외도를 산출하는, 의외도 산출부
를 구비하는 것을 특징으로 하는 데이터 분석 지원 시스템.
제1항에 있어서,
상기 의외도 산출부는, 상기 상관 룰마다,
「당해 상관 룰의 전제부와 결론부에 포함되는 전체 속성으로부터 2 속성을 선택하는 선택 방식 모두에 대한 데이터 관계 모델에 있어서의 상기 거리의 총합」으로, 「상기 2 속성을 선택하는 선택 방식 중 2 속성 간의 거리가 m 이상으로 되는 것의 상기 거리의 총합」을 나눔으로써,
상기 상관 룰마다 상기 의외도를 산출하는,
데이터 분석 지원 시스템.
제2항에 있어서,
상기 m은 2인,
데이터 분석 지원 시스템.
제1항에 있어서,
상기 의외도 산출부는,
상기 데이터 테이블 간의 관련성에 가중치 부여를 행하고, 당해 가중치 부여에 의해서 상기 테이블 간의 거리를 보정하는,
데이터 분석 지원 시스템.
제1항에 있어서,
상기 데이터 관계 모델은,
상기 데이터 테이블의 각각에 포함되는 속성명을 나타내는 엔티티 테이블과, 상기 데이터 테이블의 각각에 포함되는 속성명의 관련성의 유무를 나타내는 릴레이션 테이블로 구성되는,
데이터 분석 지원 시스템.
제1항에 있어서,
상기 상관 룰마다 산출한 상기 의외도를 제시하기 위한 분석자용 화면을 생성하는 유저 인터페이스부를 구비하는 것
을 특징으로 하는 데이터 분석 지원 시스템.
제6항에 있어서,
상기 의외도에 대한 소정의 임계값을 수신하고, 수신한 임계값보다도 높은 값을 갖는 상기 상관 룰의 범위를 좁히는 룰 추천부를 구비하는 것
을 특징으로 하는 데이터 분석 지원 시스템.
입력 장치, 출력 장치, 기억 장치, 및 처리 장치를 포함하는 정보 처리 장치에서 실행되는 데이터 분석 지원 시스템 방법으로서,
상기 기억 장치에, 복수의 데이터 테이블을 포함하는 분석 대상 데이터 테이블을 준비하는, 제1 스텝과,
상기 복수의 데이터 테이블 간의 관련성을 나타내는 데이터 관계 모델을 생성하는, 제2 스텝과,
상기 분석 대상 데이터 테이블을 해석하고, 상기 데이터 테이블에 포함되는 속성의 상관을 나타내는 복수의 상관 룰을 추출하는, 제3 스텝과,
상기 상관 룰마다, 당해 상관 룰의 전제부 및 결론부의 속성의 조합을 생성하고, 당해 조합마다의 상기 데이터 관계 모델에 있어서의 당해 속성 간의 거리를 구하고, 당해 거리에 의거하여 의외도를 산출하는, 제4 스텝
을 구비하는 것을 특징으로 하는 데이터 분석 지원 방법.
제8항에 있어서,
상기 제4 스텝은, 상기 상관 룰마다,
「당해 상관 룰의 전제부와 결론부에 포함되는 전체 속성으로부터 2 속성을 선택하는 선택 방식 모두에 대한 데이터 관계 모델에 있어서의 상기 거리의 총합」으로, 「상기 2 속성을 선택하는 선택 방식 중 2 속성 간의 거리가 m 이상으로 되는 것의 상기 거리의 총합」을 나눔으로써,
상기 상관 룰마다 상기 의외도를 산출하는,
데이터 분석 지원 방법.
제9항에 있어서,
상기 m은 2인,
데이터 분석 지원 방법.
제8항에 있어서,
상기 제4 스텝은,
상기 데이터 테이블 간의 관련성에 가중치 부여를 행하고, 당해 가중치 부여에 의해서 상기 테이블 간의 거리를 보정하는,
데이터 분석 지원 방법.
제8항에 있어서,
상기 데이터 관계 모델은,
상기 데이터 테이블의 각각에 포함되는 속성명을 나타내는 엔티티 테이블과, 상기 데이터 테이블의 각각에 포함되는 속성명의 관련성의 유무를 나타내는 릴레이션 테이블로 구성되는,
데이터 분석 지원 방법.
제8항에 있어서,
상기 출력 장치가, 상기 의외도에 대한 임계값을 입력시키기 위한 화면을 표시하는 제5 스텝과,
상기 입력 장치로부터 상기 임계값을 수신하고, 당해 임계값보다도 높은 의외도를 갖는 상기 상관 룰의 범위를 좁히는 제6 스텝을 갖는,
데이터 분석 지원 방법.
제8항에 있어서,
상기 복수의 데이터 테이블의 각각은, 속성명을 나타내는 칼럼명을 포함하고,
상기 제2 스텝은,
상기 복수의 데이터 테이블 중, 상기 칼럼명이 부분 일치 혹은 완전 일치하는 두 테이블을 릴레이션에 의해 대응지음에 의해, 상기 복수의 데이터 테이블 간의 관련성을 나타내는 데이터 관계 모델을 생성하고,
상기 제4 스텝은,
상기 상관 룰의 전제부 및 결론부의 속성이 포함되는 상기 데이터 테이블 간에 존재하는, 상기 릴레이션의 수를 카운트함에 의해, 당해 속성 간의 거리를 구하는,
데이터 분석 지원 방법.
제14항에 있어서,
상기 제4 스텝은,
상기 릴레이션에 의해 대응지어진 2 테이블 간에, 칼럼명이 부분 일치 혹은 완전 일치하는 페어의 수로 당해 릴레이션의 가중치를 산출하고,
당해 가중치의 역수를 상기 2 테이블 간의 릴레이션의 보정값으로 하고,
상기 상관 룰의 전제부 및 결론부의 속성이 포함되는 상기 데이터 테이블 간에 존재하는, 상기 릴레이션의 보정값을 가산함에 의해, 당해 속성 간의 거리를 구하는,
데이터 분석 지원 방법.