KR20170130604A

KR20170130604A - 데이터 분석 시스템, 데이터 분석 방법, 데이터 분석 프로그램, 및 기록매체

Info

Publication number: KR20170130604A
Application number: KR1020177031349A
Authority: KR
Inventors: 마사히로 모리모토; 요시카츠 시라이; 히데키 타케다; 카즈미 하스코; 아키테루 하나타니; 야코브 할스코우; 나나코 요시다
Original assignee: 가부시키가이샤 프론테오
Priority date: 2015-03-31
Filing date: 2015-03-31
Publication date: 2017-11-28
Also published as: JP6182279B2; CN107851097B; US20170097983A1; US20160292197A1; US9563652B2; EP3279804A1; JPWO2016157467A1; EP3279804A4; WO2016157467A1; US10204153B2; TW201706884A; CN107851097A; TWI598755B; KR101981075B1

Abstract

본 발명은 복수의 대상 데이터를 평가하는 데이터 분석에 관한 것으로서, 상기 평가는 각 대상 데이터와 소정 사안의 관련성에 대응한다. 복수의 대상 데이터의 서열화를 가능하게 하는 지표가 평가에 의해 생성되고, 유저가 부여한 입력에 의거하여 지표가 변화된다. 복수의 대상 데이터의 서열은 입력에 의거해서 변화하는 지표에 따라 변화된다. 입력은 복수의 대상 데이터와는 다른 참조 데이터를, 상기 참조 데이터와 소정 사안의 관련성에 의거하여 분류한다. 상기 분류는 참조 데이터의 내용에 따라 복수의 분류정보로 나뉘어진 것이며, 복수의 분류정보 중 적어도 1개는 입력에 의해 참조 데이터에 부여된다. 본 발명은 입력에 의해 부여된 분류정보에 따라서 상기 참조 데이터가 특징지어지는 패턴을 상기 참조 데이터로부터 추출한다. 본 발명은 추출한 패턴에 의거하여 대상 데이터와 소정 사안의 관련성을 평가해서 지표를 결정하고, 결정한 지표를 대상 데이터에 설정하고, 지표 에 따라 복수의 대상 데이터를 서열화하며, 서열화된 복수의 대상 데이터를 유저에게 통지한다.

Description

데이터 분석 시스템, 데이터 분석 방법, 데이터 분석 프로그램, 및 기록매체

본 발명은 데이터를 분석하기 위한 데이터 분석 시스템 등에 관한 것이다.

컴퓨터의 급속한 발전에 의해 사회의 정보화가 진행된 결과, 기업·개인의 활동에 방대한 양의 정보(빅 데이터)가 관계되게 되고 있다. 이에 따라, 빅 데이터 중에서 소망의 정보를 분별할 필요성이 중요시되고 있다.

빅 데이터로부터 소망의 정보를 추출하기 위한 어프로치로서, 예를 들면 데이터를 미리 분류함으로써 소망의 데이터를 추출하는 어프로치, 단순한 텍스트 검색에 의거하여 소망의 데이터를 추출 가능하게 하는 어프로치, 자연언어 처리에 의거하여 소망의 데이터를 추출하는 어프로치 등이 있다.

예를 들면, 하기의 특허문헌 1에는 빅 데이터로부터 정보를 추출하기 위해서, 문서집합에 있어서의 추출 키워드간의 관계에 의거하여, 관련이 깊은 추출 키워드를 유연하게, 가깝게 배치 가능한 구조를 제공하는 것을 목적으로 해서, 분야분류된 문서에 포함되는 키워드에 대하여 타문서와의 변별하기 위한 기여도를 산출하고, 이 산출한 기여도에 의거하여 자기 조직화 맵을 이용하여 상기 문서를 유닛으로 분류시켜서 표시한 후, 상기 유닛에 있어서의 상기 문서에 포함되는 키워드의 출현 빈도로부터 상기 키워드의 배치 정보를 산출하여 유닛에 맞춰서 표시하는 장치가 제안되어 있다.

일본 특허공개 2014-056516호 공보

유저에게 있어서 필요한 정보를 빅 데이터 중에서 적확하게 찾기 위해서는, 유저의 의도나 검색의 목적, 또한 유저에 있어서의 데이터 전체의 인상 등, 키워드나 부호만으로는 다 파악할 수 없는 팩터에 대한 배려도 필요하지만, 상술의 종래 방법으로는 도저히 불충분하기 때문에, 결국 유저가 방대한 정보 하나하나를 분별 할 필요가 있어, 엄청난 노력이나 시간을 써버리는 것을 피할 수 없었다.

그래서, 본 발명은 유저에 있어서 필요한 정보를 효율적으로 발견 가능한 데이터 분석 기술을 제공하는 것을 목적으로 한다.

본 발명은 대상 데이터를 평가하는 데이터 분석에 관한 발명이며, 복수의 대상 데이터를 평가하고, 상기 평가는, 예를 들면 각 대상 데이터와 소정 사안의 관련성에 대응하는 것이면 좋다. 또한, 상기 복수의 대상 데이터의 서열화를 가능하게 하는 지표가 상기 평가에 의해 생성되고, 유저가 부여한 입력에 의거하여 상기 지표가 변화된다.

상기 복수의 대상 데이터의 서열은, 예를 들면 상기 입력에 의거해서 변화되는 상기 지표에 따라 변화된다. 상기 입력은, 예를 들면 상기 복수의 대상 데이터와는 다른 참조 데이터를, 상기 참조 데이터와 상기 소정 사안의 관련성에 의거하여 분류한다. 상기 분류는, 예를 들면 상기 참조 데이터의 내용에 따라 복수의 분류정보로 나뉘어진 것이며, 상기 복수의 분류정보 중 적어도 1개는 상기 입력에 의해 상기 참조 데이터에 부여된다.

본 발명은, 예를 들면 상기 참조 데이터에 포함되는 복수의 구성요소에 대해서, 상기 입력 제어장치로부터 제공된 조합에 각각 기여하는 정도를 평가함으로써, 상기 입력에 의해 부여된 분류정보에 따라 상기 참조 데이터가 특징지어지는 패턴을 상기 참조 데이터로부터 추출한다.

본 발명은, 예를 들면 상기 추출한 패턴에 의거하여 상기 대상 데이터와 상기 소정 사안의 관련성을 평가해서 상기 지표를 결정하고, 상기 결정한 지표를 상기 대상 데이터에 설정하고, 상기 지표에 따라 상기 복수의 대상 데이터를 서열화하고, 상기 서열화된 복수의 대상 데이터를 유저에 통지한다.

서열화된 복수의 대상 데이터에 의해, 유저는, 예를 들면 복수의 대상 데이터의 사이에서 상기 소정의 사안과의 관련성의 대소를 알 수 있다. 유저가 복수의 대상 데이터간에서의 관련성의 대소에 동의할 수 없을 경우에는, 참조 데이터에 부여되는 분류정보를 변경하면 이 변경에 의해 지표가 변화되고, 또한 변화되어진 지표에 의해 복수의 대상 데이터의 서열이 바뀐다. 유저는, 예를 들면 참조 데이터 전체의 내용을 이해한 후 그 내용에 따라 참조 데이터에 부여되는 분류정보를 결정한다. 유저는 참조 데이터의 내용 나름에 의해, 참조 데이터에 복수 있는 분류정보 중 어느 분류정보가 최적인가를 고민할 수는 있다. 유저는, 예를 들면 상기서열화한 복수의 대상 데이터에 의해서 참조 데이터에 어느 분류정보를 부여할 것인가를 정할 수 있다.

(발명의 효과)

본 발명은 유저에 있어서 필요한 정보를 효율적으로 발견할 수 있다고 하는 효과를 갖는다.

도 1은 데이터 분석 시스템의 하드웨어 구성의 일례를 나타내는 블럭도이다.
도 2는 업무 서버의 기능 구성의 일례를 나타내는 기능 블럭도이다.
도 3은 데이터 분석 시스템의 동작예를 나타내는 플로우차트이다.
도 4는 참조 데이터에 대한 분류를 입력하기 위한 인터페이스(입력화면)의 일례를 나타내는 모식도이다.
도 5는 참조 데이터에 대한 분류를 입력하기 위한 인터페이스(입력화면)의 다른 예를 나타내는 모식도이다.
도 6은 대상 데이터를 격납하는 관리 테이블의 일례이다.
도 7은 대상 데이터를 회귀분석한 것에 의해 얻어진, 지수함수 모델의 특성 예를 나타내는 그래프이다.
도 8은 지수함수 모델을 재평가해서 얻어진, 상기 지수함수 모델의 특성예를 나타내는 그래프이다.
도 9는 데이터 분석 시스템의 관리화면의 일례를 나타내는 모식도이다.
도 10은 복수의 노드간의 상관관계를 나타내는 화면의 일례이다.
도 11의 (A)는 대상 데이터의 요약 작성 개념도이며, (B)는 분류 결과의 표시형식의 일례를 나타내는 약선도이다.
도 12는 대상 개념의 설명에 제공하는 개념도이다.

본 발명의 실시형태를 도면에 의거하여 설명한다.

[데이터 분석 시스템의 구성]

도 1은 데이터 분석 시스템의 하드웨어 구성의 일례를 나타내는 블럭도이다. 도 1에 예시하는 바와 같이, 데이터 분석 시스템은, 예를 들면 데이터 분석의 주요처리를 실행 가능한 업무 서버(14)와, 상기 데이터 분석의 관련 처리를 실행 가능한 하나, 또는 복수의 클라이언트 장치(10)와, 데이터 분석의 대상이 되는 대상 데이터, 및 상기 대상 데이터에 대한 평가·분류의 결과를 기록하는 데이터베이스(22)를 구비하는 스토리지 시스템(18)과, 클라이언트 장치(10), 및 업무 서버(14)에 대하여 데이터 분석을 위한 관리기능을 제공하는 관리 계산기(12)를 구비하고 있다.

또한, 본 실시형태에 있어서 「데이터」는, 데이터 분석 시스템에 의해 처리 가능하게 되는 형식으로 표현된 임의의 데이터이면 된다. 이 때, 상기 데이터는, 예를 들면 적어도 일부에 있어서 구조 정의가 불완전한 비구조화 데이터이면 되고, 자연 언어에 의해 기술된 문장을 적어도 일부에 포함하는 문서 데이터(예를 들면, 전자메일(첨부파일·헤더정보를 포함함), 기술 문서(예를 들면, 학술논문, 특허공보, 제품사양서, 설계도 등, 기술적 사항을 설명하는 문서를 널리 포함함), 프리젠테이션 자료, 표계산 자료, 결산보고서, 협의 자료, 보고서, 영업 자료, 계약서, 조직도, 사업계획서 등), 음성 데이터(예를 들면, 회화·음악 등을 녹음한 데이터), 화상 데이터(예를 들면, 복수의 화소 또는 벡터 정보로 구성되는 데이터), 영상데이터(예를 들면, 복수의 프레임 화상으로 구성되는 데이터) 등을 널리 포함한다. 이 때, 데이터의 「구성요소」는 상기 데이터의 적어도 일부를 구성하는 부분 데이터이면 되고, 예를 들면 문서를 구성하는 형태소, 키워드, 문장, 및/또는 단락이거나, 음성을 구성하는 부분음성, 볼륨(게인) 정보, 및/또는 음색 정보이거나, 화상을 구성하는 부분화상, 부분화소, 및/또는 휘도 정보이거나, 영상을 구성하는 프레임 화상, 모션 정보, 및/또는 3차원 정보이거나 하면 좋다.

클라이언트 장치(10)는 데이터를 평가·분류하는 권한이 있는 유저(평가 권한 유저)에게 참조 데이터를 제공한다. 상기 평가 권한 유저는 클라이언트 장치(10)를 통해서 상기 참조 데이터를 평가·분류하기 위한 입력을 행할 수 있다. 또한, 본 실시형태에 있어서 상기 「참조 데이터」는, 예를 들면 유저에 의해 분류정보가 대응지어진 데이터(분류완료의 데이터)이면 된다. 한편, 「대상 데이터」는 상기 분류정보가 대응지어져 있지 않은 데이터(참조 데이터로서 유저에게 제시되어 있지 않고, 유저에 있어서는 분류가 되어 있지 않은 미분류의 데이터)이면 된다. 여기에서, 상기 「분류정보」는 참조 데이터를 분류하기 위해서 사용하는 식별 라벨이면 된다. 분류정보는, 예를 들면 참조 데이터가 전체로서 소정의 사안에 관계되는 것을 나타내는 「Related」라벨, 양자가 특별히 관계되는 것을 나타내는 「High」라벨, 및 양자가 관계되지 않는 것을 나타내는 「Non-Related」라벨과 같이, 상기 참조 데이터를 3가지로 분류하는 정보이거나, 「좋다」, 「약간 좋다」, 「보통」, 「약간 나쁘다」, 및 「나쁘다」와 같이, 상기 참조 데이터를 5가지 등 복수의 타입으로 분류하는 정보이거나 해도 좋다.

또한, 상기 「소정의 사안」은 데이터 분석 시스템이 데이터와의 관련성을 평가하는 대상을 널리 포함하고, 그 범위는 제한되지 않는다. 예를 들면, 소정의 사안은 데이터 분석 시스템이 디스커버리 지원 시스템으로서 실현될 경우, 디스커버리 수속이 요구되는 본건 소송이면 좋고, 범죄 수사 지원(포렌식) 시스템으로서 실현될 경우, 수사 대상이 되는 범죄이면 좋으며, 전자메일 감시 시스템으로서 실현될 경우, 부정행위(예를 들면, 정보누설, 담합 등)이면 좋고, 의료 응용 시스템(예를 들면 약물감시 지원 시스템, 치료의 효력 효율화 시스템, 의료 리스크 헷지 시스템, 전도 예측(전도 방지) 시스템, 예후 예측 시스템, 진단 지원 시스템 등)으로서 실현될 경우, 의약에 관한 사례·사안이면 좋고, 인터넷 응용 시스템(예를 들면 스마트 메일 시스템, 정보 애그리게이션(큐레이션) 시스템, 유저 감시 시스템, 소셜 미디어 운영 시스템 등)으로서 실현될 경우, 인터넷에 관한 사례·사안이면 좋고, 프로젝트 평가 시스템으로서 실현될 경우, 과거에 수행한 프로젝트이면 좋고, 마케팅 지원 시스템으로서 실현될 경우, 마케팅 대상이 되는 상품·서비스이면 좋고, 지재 평가 시스템으로서 실현될 경우, 평가 대상이 되는 지적재산이면 좋고, 부정거래 감시 시스템으로서 실현될 경우, 부정한 금융거래이면 좋고, 콜센터 에스컬레이션 시스템으로서 실현될 경우, 과거의 대응사례이면 좋고, 신용조사 시스템으로서 실현될 경우, 신용조사하는 대상이면 좋고, 드라이빙 지원 시스템으로서 실현될 경우, 차량의 운전에 관한 것이면 좋고, 영업 지원 시스템으로서 실현될 경우, 영업 성적이면 좋다.

클라이언트 장치(10)는 공지의 컴퓨터 하드웨어 자원을 구비하고 있고, 예를 들면 메모리(예를 들면, 하드디스크, 플래시 메모리 등)와, 컨트롤러(CPU; Central Processing Unit)와, 버스와, 입출력 인터페이스(예를 들면, 키보드, 디스플레이 등)와, 통신 인터페이스를 구비하면 좋다. 클라이언트 장치(10)는 LAN 등의 통신수단(20)에 의해, 업무 서버(14) 및 관리 계산기(12)와 상기 통신 인터페이스를 통해서 통신 가능하게 접속되어 있다. 또한, 상기 메모리에는 클라이언트 장치(10)를 기능시키는 애플리케이션 프로그램 등이 기억되어 있고, 상기 컨트롤러는 상기 애플리케이션 프로그램을 실행함으로써 분류·평가의 처리에 필요한 입출력을 평가 권한 유저에 대하여 가능하게 한다.

업무 서버(14)는 참조 데이터에 대한 분류의 결과에 의거하여 상기 참조 데이터로부터 패턴(데이터에 포함되는 추상적인 규칙, 의미, 개념, 양식, 분포, 샘플 등을 널리 가리키고, 소위 「특정의 패턴」에 한정되지 않는다)을 학습하고, 상기 패턴에 의거하여 대상 데이터를 평가한다. 즉, 업무 서버(14)는 유저에게 참조 데이터를 제시하고, 상기 유저에게 상기 참조 데이터에 대한 분류정보의 입력을 허용하고, 유저의 입력 결과에 의거하여 패턴을 학습하고, 학습 결과에 의거하여 대상 데이터에 대한 평가를 가능하게 함으로써, 유저가 소망하는 데이터를 다수의 대상 데이터로부터 분별할 수 있도록 한 것이다. 업무 서버(14)는 클라이언트 장치(10)와 마찬가지로, 하드웨어 자원으로서 예를 들면, 메모리와, 컨트롤러와, 버스와, 입출력 인터페이스와, 통신 인터페이스를 구비하면 좋다. 또한, 상기 메모리에는 업무 서버(14)를 기능시키는 애플리케이션 프로그램이 기억되어 있고, 상기 컨트롤러는 상기 애플리케이션 프로그램에 의거하여 데이터 분석을 위한 처리를 실행한다.

관리 계산기(12)는 클라이언트 장치(10), 스토리지 시스템(18), 및 업무 서버(14)에 대하여 소정의 관리 처리를 실행한다. 관리 계산기(12)는 클라이언트 장치(10)와 마찬가지로, 하드웨어 자원으로서 예를 들면, 메모리와, 컨트롤러와, 버스와, 입출력 인터페이스와, 통신 인터페이스를 구비하면 좋다. 또한, 관리 계산기(12)의 메모리에는, 예를 들면 상기 컨트롤러가 관리 처리를 실행하기 위한 애플리케이션 프로그램이 기억되어 있다.

스토리지 시스템(18)은, 예를 들면 디스크 어레이 시스템으로 구성되고, 대상 데이터와 상기 대상 데이터에 대한 평가·분류의 결과를 기록하는 데이터베이스(22)를 구비하면 좋다. 업무 서버(14)와 스토리지 시스템(18)은 DAS(Direct Attached Storage) 방식, 또는, SAN(Storage Area Network)에 의해 접속(16)되어 있다.

또한, 도 1에 나타내어지는 하드웨어 구성은 어디까지나 예시에 지나지 않고, 데이터 분석 시스템은 다른 하드웨어 구성에 의해서도 실현될 수 있다. 예를 들면, 업무 서버(14)에 있어서 실행되는 처리의 일부 또는 전부가 클라이언트 장치(10)에 있어서 실행되는 구성이여도 좋고, 스토리지 시스템(18)이 업무 서버(14)에 내장되는 구성이라도 좋다. 데이터 분석 시스템을 실현 가능한 하드웨어 구성이 다양하게 존재할 수 있는 것은 당업자에게 이해되는 바이며, 어느 하나에(예를 들면, 도 1에 예시되는 바와 같은 구성)에 한정되지 않는다.

[데이터 분석 시스템의 기능]

도 2는 업무 서버(14)의 기능 구성의 일례를 나타내는 기능 블럭도이다. 도 2에 예시하는 바와 같이, 업무 서버(14)는 예를 들면 데이터베이스(22)에 보존된 대상 데이터로부터 소정의 기준(예를 들면, 랜덤)에 따라서 일부의 대상 데이터를 복수 샘플링하고, 이것을 참조 데이터로서 제공하는 참조 데이터 제공부(102)와, 참조 데이터에 대한 분류나 참조 데이터 이외의 데이터에 대한 서열화나 분류를 위한 정보 등을 클라이언트 장치(10)의 표시수단에 출력시키는 표시처리부(103)와, 참조 데이터에 대하여 평가자 권한을 가진 유저로부터의 분류정보의 설정(라벨 부착)을 접수하는 분류정보 접수부(104)와, 분류정보에 의거하여 복수의 참조 데이터를 분류정보마다 분류하고, 분류정보마다의 참조 데이터에 포함되는 패턴을 학습하는 학습부(105)를 구비하면 좋다.

업무 서버(14)는, 예를 들면 데이터의 구성요소 및 상기 구성요소의 평가값을 데이터베이스(22)에 기억시키는 기억실행부(201)와, 데이터베이스(22)에 대한 검색 처리를 행하여 패턴을 참조 데이터 이외의 대상 데이터로부터 탐색하는 탐색부(106)와, 대상 데이터와 소정 사안의 관련성의 고저를 나타내는 지표를 대상 데이터마다 산출하고, 상기 지표에 의거하여 복수의 대상 데이터를 서열화하는 연산부(107)와, 대상 데이터를 서열화한 결과에 의거하여 상기 대상 데이터에 대하여 분류정보를 부여하는 분류부(108)를 더 구비하면 좋다.

또한, 상기에 있어서 ****부로 표기한 구성은 업무 서버(14)가 구비한 컨트롤러가 프로그램(데이터 분석 프로그램)을 실행함으로써 실현하는 기능 구성이기 때문에, ****부를 ****처리 또는 **** 기능으로 바꿔 말해도 좋다. 또한, ****부를 하드웨어 자원에 의해 대체할 수도 있기 때문에, 이것들의 기능 블록이 하드웨어만, 소프트웨어만, 또는 그것들의 조합에 의해 다양한 형태로 실현할 수 있는 것은 당업자에게는 이해되는 바이며, 어느 하나에 한정되는 것은 아니다.

[데이터 분석 시스템의 동작]

도 3은 데이터 분석 시스템의 동작예를 나타내는 플로우차트이다. 관리자 권한을 갖는 관리 유저는 참조 데이터를 추출(샘플링)하는 리퀘스트(추출 리퀘스트(300))를 관리 계산기(12)에 부여한다. 추출 리퀘스트(300)는, 예를 들면 데이터베이스(22)에 기록되어 있는 데이터 중에서 소정 수의 데이터를 참조 데이터로서 랜덤으로 샘플링하는 리퀘스트이거나, 소정 범위의 데이터(예를 들면, 데이터의 갱신 일시가 3일 이내인 것)로부터 소정 수의 데이터를 참조 데이터로서 샘플링하는 리퀘스트이거나 하면 좋다. 또한, 참조 데이터로서 추출되는 데이터의 비율 또는 수는 관리 유저가 적당하게 설정할 수 있다.

관리 계산기(12)는 추출 리퀘스트(300)에 의거하여 추출 커맨드(302)를 생성하고, 상기 추출 커맨드(302)를 업무 서버(14)에 송신한다. 업무 서버(14)가 구비한 참조 데이터 제공부(102)는, 관리 계산기(12)로부터의 추출 커맨드(302)에 의거하여 데이터베이스(22)로부터 소정 수의 참조 데이터를 추출한다(304).

업무 서버(14)의 참조 데이터 제공부(102)는, 추출된 참조 데이터를 특정의 클라이언트 장치(10)(추출 커맨드(302)에서 특정된 클라이언트 장치)에 보낸다(312). 상기 특정의 클라이언트 장치(10)는 평가분류 입력 인터페이스를 기동시켜 평가분류 입력화면을 평가 권한 유저에게 제시한다. 도 4는 상기 평가분류 입력화면의 일례이다. 평가분류 입력화면은, 예를 들면 참조 데이터의 리스트(500)와, 대상 데이터마다의 분류정보를 나타내는 체크박스(502)를 포함하면 좋다.

평가 권한 유저가, 복수의 참조 데이터를 일람 가능하게 하는 리스트로부터 1개의 참조 데이터를 선택하면, 도 5에 나타내는 바와 같이, 예를 들면 상기 선택된 대상 데이터의 상세(506)가 표시되게 되어 있다. 참조 데이터의 상세(506)는, 예를 들면 데이터의 ID(510)와, 데이터의 명칭(512)과, 대상 데이터의 내용(문서 데이터의 텍스트 등)(506)으로 구성되면 좋다.

평가 권한 유저는, 참조 데이터의 상세(506)를 참조해서 참조 데이터의 내용을 파악한 후, 참조 데이터마다의 라벨을 나타내는 체크박스에 체크를 함으로써, 상기 참조 데이터를 분류할 수 있다. 예를 들면, 데이터가 소정의 사안에 관계되면 평가 권한 유저가 생각할 경우, 「Related」를 나타내는 체크박스에 체크를 하고, 특별히 관계된다고 생각할 경우, 「High」를 나타내는 체크박스에 체크를 하고, 관계되지 않는다고 생각할 경우, 「Non-Related」를 나타내는 체크박스에 체크를 한다. 체크박스에 체크를 하면, 그 정보가 업무 서버에 보내져(314), 업무 서버(14)는 분류정보와 참조 데이터의 조합을 데이터베이스(22)에 기록한다.

업무 서버(14)가 구비한 학습부(105)는 데이터베이스(22)에 기록된 상기 조합을 참조하고, 분류정보마다 참조 데이터의 집합으로부터 구성요소를 추출한다(316). 학습부(105)는, 예를 들면 동일한 분류정보가 첨부된 복수의 참조 데이터에 소정의 빈도 이상으로 출현하는 형태소(키워드)를 구성요소로서 추출할 수 있다.

또한, 학습부(105)는 소정의 평가기준(예를 들면, 전달 정보량)에 의거하여 추출한 구성요소를 평가할 수 있다(318). 예를 들면, 학습부(105)가 문서 데이터(텍스트 데이터)로부터 구성요소로서 키워드를 추출했을 경우, 상기 소정의 평가기준에 의거하여 상기 키워드의 평가값을 산출함으로써 상기 키워드를 평가한다. 여기에서, 상기 「평가값」은, 예를 들면 상기 키워드가 참조 데이터와 분류정보의 조합에 기여하는 정도(구성요소가 각 데이터에 출현하는 분포·빈도의, 분류정보에 따른 치우침)를 나타내는 특징량이면 좋다. 이에 따라, 학습부(105)는 참조 데이터에 대한 유저의 입력에 의거하여 패턴을 학습의 결과로서 상기 참조 데이터로부터 취득할 수 있다.

업무 서버(14)가 구비한 기억실행부(201)는 학습부(105)가 추출한 구성요소와, 상기 구성요소의 평가값과, 역치를 데이터베이스(22)에 기억시킨다. 이어서, 업무 서버(14)는 구성요소와 대상 데이터를 비교하고, 대상 데이터와 소정 사안의 관련성의 고저를 평가하여 대상 데이터를 서열화한다. 구체적으로는, 탐색부(106)가 데이터베이스(22)로부터 복수의 대상 데이터를 순서대로 도입하고, 상기 대상 데이터에 포함되는 복수의 구성요소를 순서대로 판독하여, 상기 대상 데이터에 각 구성요소가 출현하고 있는지의 여부를 탐색한다(320). 상기 구성요소가 대상 데이터에 출현하고 있을 경우, 연산부(107)가 상기 구성요소의 평가값에 의거하여 대상 데이터의 지표를 산출함으로써 복수의 대상 데이터를 상기 지표의 대소에 의거하여 서열화한다(322). 여기에서, 서열화란, 예를 들면 대상 데이터와 상기 대상 데이터에 대하여 산출된 지표를 대응시키는 것이면 좋다.

상기 처리에 있어서 연산부(107)는 대상 데이터에 포함되는 구성요소의 유무를 표현한 벡터(소위 「Bag-of-words」)를 생성한다. 예를 들면, 대상 데이터에 「가격」이라고 하는 키워드가 포함되어 있을 경우, 연산부(107)는 「가격」에 대응하는 상기 벡터의 차원에 「1」을 셋팅한다. 연산부(107)는 상기 벡터와 각 구성요소의 평가값(평가값)의 내적을 계산(다음 식)함으로써 상기 지표를 산출한다.

[수 1]

여기에서, s는 상기 벡터를 나타내고, w는 평가값 벡터를 나타내고, T는 전치를 나타낸다.

또한, 연산부(107)는 상기와 같이 대상 데이터마다 1개의 지표를 산출할 수도 있고, 대상 데이터를 소정의 구획(예를 들면 문장, 단락, 소정의 길이로 분할된 부분음성, 소정 수의 프레임을 포함하는 부분 동영상 등)으로 나눈 단위마다 1개의 지표를 산출할 수도 있다(상세에 대해서는 후술한다). 또한, 연산부(107)는, 예를 들면 대상 데이터 중 데이터베이스(22)에 사전에 등록된 키워드, 관련 용어, 또는 학습부(105)에 있어서 선정된 구성요소를 포함하지 않는 대상 데이터를, 지표 산출의 대상으로부터 사전에 배제할 수 있다.

분류부(108)는 대상 데이터와 소정 사안의 관련성을 나타내는 지표(상기 관련성에 의거하여 복수의 대상 데이터를 서열화 가능하게 하는 지표)에 의거하여 대상 데이터에 대하여 분류정보를 설정한다. 예를 들면, 분류부(108)는 대상 데이터의 지표가 소정의 역치 이상일 경우, 상기 대상 데이터에 대하여 분류정보를 설정할 수 있다.

분류부(108)는, 예를 들면 서열화된 복수의 대상 데이터를 유저에 각각 제시하고, 상기 유저가 상기 복수의 대상 데이터에 분류정보를 각각 설정하는 입력을 허용하거나, 유저가 자동 분류된 분류정보를 확인하고, 이것을 변경할 수 있게 하거나 해도 좋다. 지표가 상위일수록 대상 데이터가 소정의 사안에 관련되는 기대도는 높고, 대상 데이터에 「Related」, 또는 「High」의 라벨(분류정보)이 설정될 가능은 높아지지만, 예를 들면 대상 데이터의 내용에 그것을 방해하는 정보(예를 들면, 특정의 단어)가 있을 경우에는 대상 데이터에 「Related」의 라벨을 설정해야 하지 않을 경우도 있기 때문이다.

업무 서버(14)는 대상 데이터의 관리 테이블을 데이터베이스(22)에 등록한다. 도 6은 대상 데이터를 격납하는 관리 테이블의 일례이다. 대상 데이터의 각각(데이터 1, 2, 3 …)에 대해서, 예를 들면 대상 데이터 ID, 대상 데이터의 명칭, 지표, 분류정보 등이 기록되어 있다. 업무 서버(14)에 있어서의 대상 데이터에 대한 평가란, 예를 들면 대상 데이터의 지표를 계산하거나, 지표에 의거하여 복수의 대상 데이터의 각각에 라벨을 설정하거나, 복수의 대상 데이터를 지표의 대소에 의거하여 식별할 수 있게 시키거나 등, 복수의 대상 데이터와 소정의 사안과의 관련성의 고저에 관한 소정의 연산 처리를 포함하는 것이다.

업무 서버(14)는 데이터베이스(22)에 격납된 관리 테이블을 클라이언트 장치(10)에 송신한다. 클라이언트 장치(10)는 지표가 큰 순서로 대상 데이터를 소트 해서 표시한다. 클라이언트 장치(10)는, 예를 들면 대상 데이터에 대한 분류정보의 부여를, 자동으로 행할지, 수동으로 행할지의 입력란을 제시할 수 있다. 유저가 수동 부여를 선택하면, 평가 권한 유저는 각 대상 데이터에 대해서 「Related」, 「High」, 또는 「Non-Related」의 라벨이 입력 가능하게 된다. 관리자는, 예를 들면 서열화된 전체 대상 데이터의 상위 소정 수, 또는 소정 퍼센트의 대상 데이터에 대하여 분류를 위한 라벨을 설정할 수도 있다.

[학습의 실행 패턴]

관리자는 학습부(105)에 학습의 실행 패턴을 미리 설정할 수 있다. 상기 실행 패턴에는, 예를 들면, (1) 참조 데이터 제공부(102)에 의해 추출된 참조 데이터의 모두에 분류정보가 입력된 후, 업무 서버(14)가 참조 데이터의 패턴을 학습하고, 상기 패턴에 근거해서 모든 대상 데이터에 대하여 지표를 산출하는 제 1 형태, (2) 업무 서버(14)가 복수의 참조 데이터의 각각에 분류정보가 입력될 때마다 학습을 행하고, 상기 학습의 때마다 대상 데이터의 지표를 산출하는(즉, 참조 데이터 하나하나의 분류에 의거하여 상기 패턴을 축차 갱신하면서 대상 데이터의 지표를 산출하는) 제 2 형태, (3) 클라이언트 장치(10)가 참조 데이터 제공부(102)에 의해 추출된 참조 데이터 이외의 데이터와 분류정보의 조합을 학습부(105)에 공급하고, 업무 서버(14)가 상기 패턴을 축차 갱신하면서 대상 데이터의 지표를 산출하는(예를 들면, 평가 권한 유저가 대상 데이터에 분류정보를 설정했을 경우, 상기 대상 데이터와 분류정보의 조합을 학습부(105)에 피드백해서 상기 패턴을 갱신하는) 제 3 형태 등, 복수의 형태가 있다. 상기 제 2 형태에 있어서는, 참조 데이터 하나 하나로의 분류정보의 부여가 이루어질 때마다 대상 데이터의 서열이 변경되기 때문에, 분류 권한을 갖는 유저는 대상 데이터의 서열의 변동 추이를 확인할 수 있다. 상기 제 3 형태에 있어서는 대상 데이터를 분류한 결과가 학습부(105)에서 얻어지는 패턴에 축차 반영되기 때문에, 데이터를 평가하는 정밀도를 축차 향상시킬 수 있다고 하는 부가적인 효과를 더 갖는다.

[구성요소의 재평가]

상술한 바와 같이, 학습부(105)는 참조 데이터의 적어도 일부를 구성하는 복수의 구성요소가 참조 데이터 세트(참조 데이터와 상기 참조 데이터를 분류하는 분류정보의 조합을 복수 포함하는 데이터 세트)에 있어서의 상기 조합에 기여하는 정도를, 소정의 기준(예를 들면, 전달 정보량)에 의거하여 상기 평가값으로서 평가한다.

이 때, 학습부(105)는 「Related」 또는 「High」의 라벨이 설정된 데이터의 지표가 이것들의 라벨이 설정되지 않는 데이터의 지표보다 커질 때까지 구성요소를 선정함과 아울러 상기 구성요소의 평가값을 반복하여 평가하고, 상기 구성요소의 평가값을 수정할 수 있다. 이것에 의해, 데이터 분석 시스템은 「Related」 또는 「High」의 분류정보가 첨부된 복수의 데이터에 출현하고, 데이터와 라벨의 조합에 영향이 있는 구성요소를 찾아낼 수 있다. 또한, 전달 정보량은, 예를 들면 소정의 단어의 출현 확률과, 소정의 분류정보의 출현 확률을 이용하여 소정의 정의식으로부터 산출된다. 구체적으로는, 학습부(105)는, 예를 들면 이하의 식을 이용하여 구성요소의 평가값 wgt를 산출한다.

[수 2]

여기에서, wgt는 학습 전의 i번째의 선정 키워드의 평가값의 초기값을 나타낸다. 또한 wgt는, L회째 학습 후의 i번째의 선정 키워드의 평가값을 나타낸다. γ 은 L회째의 학습에 있어서의 학습 파라미터를 의미하고, θ 은 학습 효과의 역치를 의미한다. 이에 따라, 학습부(105)는, 예를 들면 산출한 전달 정보량의 값이 클수록 구성요소가 소정의 분류정보의 특징을 나타내는 것으로서 평가할 수 있다.

또한, 학습부(105)는 「Related」가 설정된 참조 데이터의 지표의 최저값과, 「Non-Related」가 설정된 참조 데이터의 지표의 최고값의 중간값을, 대상 데이터에 대하여 「Related」의 설정의 유무를 자동 판정할 때의 역치(소정의 기준값)로 할 수 있다.

학습부(105)는, 예를 들면 재현율이 소정의 목표값이 될 때까지 평가값의 재평가를 계속하도록 하여도 좋다. 여기에서, 재현율이란 소정 수의 데이터에 대하여 발견해야 할 데이터가 차지하는 비율(망라성)을 나타내는 지표이며, 예를 들면 전체 데이터의 30%에 대하여 재현율이 80%일 경우, 발견해야 할 데이터(예를 들면, 소송 관련 자료)의 80%가 지표 상위 30%의 데이터 중에 포함되어 있는 것을 나타낸다. 데이터 분석 시스템을 사용하지 않고, 사람이 데이터에 무차별 대입(리니어리뷰)했을 경우, 발견해야 할 데이터의 양은 사람이 리뷰한 양에 비례하기 때문에, 이 비례로부터의 괴리가 클수록 시스템의 데이터 분석 성능이 좋게 된다. 연산부(107)는 데이터의 지표에 의거하여 데이터와 소정 사안의 관련성의 판단에 관한 재현율을 산출하는 재현율 산출 기능과, 참조 데이터로부터 구성요소를 재선정하는 재선정 기능을 가질 수 있다.

학습부(105)는 서열화된 대상 데이터의 재현율이 목표값을 밑돌고 있었을 경우, 재현율이 목표값을 상회할 때까지 구성요소를 참조 데이터로부터 재선정하고, 연산부(107)는 재선정된 구성요소에 의거하여 대상 데이터의 서열화를 다시 실행하는 것을 반복한다. 구성요소를 재선정할 경우, 전회 선정한 구성요소를 제외한 구성요소를 선정하도록 하여도 좋고, 전회 선정한 구성요소의 일부를 새로운 구성요소로 치환하여도 좋다. 또한, 연산부(107)가 재선정된 구성요소로 대상 데이터의 지표를 계산할 경우, 하나 또는 복수의 구성요소의 평가값을 변경하도록 하여도 좋다. 또한, 연산부(107)는 재선정한 구성요소와 그 평가값을 이용하여 각 데이터의 지표(제 2 지표)를 산출하고, 구성요소의 재선정 전에 얻어진 제 1 지표와 제 2 지표로부터 재현율을 다시 계산해도 좋다.

이어서, 재현율을 재계산하는 처리의 구체예에 대하여 설명한다. 우선, 참조 데이터 제공부(102)가 데이터베이스(22)의 대상 데이터로부터 리뷰어(평가 권한 유저)에게 제시하기 위한 참조 데이터를 랜덤으로 샘플링한다. 다음에, 표시처리부(103)가 추출된 참조 데이터를 클라이언트 장치(10)의 화면 표시부에 출력시킨다. 리뷰어는 화면 표시부에 표시된 참조 데이터를 리뷰하고, 참조 데이터에 대하여 분류정보를 부여한다. 학습부(105)는 참조 데이터를 해석하고, 구성요소를 선정한다. 구체적으로는, 학습부(105)는 공통의 분류정보가 부여된 참조 데이터에 공통해서 출현하는 구성요소를 N개 추출하고, 추출한 구성요소의 각각에 대해서 평가값을 산출한다. 예를 들면, 1번째로 추출한 구성요소의 평가값을 Wgt1, 2번째를 Wgt2, N번째를 Wgtn으로 한다. 학습부(105)는 이 Wgt1부터 Wgtn의 평가값을 이용하여 형태소를 선정한다. 구성요소를 평가값의 내림차순으로 재배열하고, 이하의 식을 만족시키고, 그 총 합계가 목표값(K라고 함: K는 임의의 정수)에 도달할 때까지 평가값의 상위로부터 순서대로 m개의 형태소(구성요소)를 선택한다.

[수 3]

이어서, 연산부(107)가 선정된 m개의 구성요소를 포함하는 데이터를 대상 데이터로부터 추출하고, 상기 대상 데이터에 포함되는 구성요소의 평가값에 의거하여 각 대상 데이터의 지표를 산출한다. 연산부(107)는 지표의 내림차순으로 데이터를 서열화하고, 전체 데이터의 지표 상위 A%(A는 임의의 정수)의 데이터를 결정한다. 연산부(107)는 A%에 포함되는 데이터 중, 소정의 기준값 이상의 지표를 갖고, 참조 데이터와 같은 「Related」 또는 「High」의 라벨(분류정보)이 설정된 데이터를 특정하고, A%에 포함되는 데이터 수와 라벨이 설정된 데이터 수의 비로부터 재현율 X1(Xn: n회째에 산출한 재현율)을 산출한다.

이어서, 연산부(107)는 목표값 K 이상으로 재현율 X1이 계산되었는지의 여부를 판정한다. 계산되었다고 판정할 경우 처리를 종료한다. 그렇지 않을 경우, 학습부(105)는 구성요소를 재선정한다. 구체적으로는, 먼저 선정한 N개의 구성요소로부터, 상기 m개의 구성요소를 제외한 구성요소로부터 이하의 식을 만족시키고, 그 총 합계가 목표값에 도달할 때까지 평가값의 상위로부터 순서대로 i개의 구성요소를 선택한다.

[수 4]

연산부(107)는 재선정된 구성요소를 포함하는 데이터를 추출하고, 각 데이터의 제 2 지표(S1r)를 계산하고, 첫회에 계산한 지표(S1)와 제 2 지표(S1r)의 잔차 Δ1(Δ1=S1r-S1)을 사용하여, 이하의 식으로부터 각 문서의 합성지표(S2)를 산출한다.

[수 5]

합성지표(S2)를 사용하여 연산부(107)는 재현율을 다시 산출하고, 목표값 K를 상회할 때까지 재현율의 재계산을 반복한다. 이에 따라 목표 재현율까지 데이터 서열화에 있어서의 정밀도를 향상시키는 것이 가능해진다.

또한, 상기에 있어서 「재현율」로서 설명한 개소는 적합률이라도 된다. 여기에서, 「적합률」(Precision Rate)은 데이터 분석 시스템에 의해 발견된 데이터에 대하여, 참으로 발견해야 할 데이터가 차지하는 비율(정확성)을 나타내는 지표이다. 예를 들면, 「전체 데이터를 30% 처리한 시점에서 적합률이 80%」로 표현했을 경우, 지표 상위 30%의 데이터에 대하여 발견해야 할 데이터가 차지하는 비율이 80%인 것을 나타낸다. 또한, 데이터 분석 시스템은, 예를 들면 대상 데이터에 대하여 산출된 재현율과 지표의 순위(예를 들면, 데이터 수에 의해 상기 순위를 제산 한 규격화 순위라도 됨)의 관계에 의거하여 유저가 상기 대상 데이터를 확인할 때에 필요한 데이터 수를 산출할 수 있다.

[구성요소간의 상관을 고려한 지표 산출]

연산부(107)는 대상 데이터에 포함되는 제 1 구성요소의 평가값(제 1 구성요소의 평가값)과, 상기 대상 데이터에 포함되는 제 2 구성요소의 평가값(제 2 구성요소의 평가값)의 상관(공동발생)을 고려하여 대상 데이터의 지표를 결정해도 좋다. 예를 들면, 제 1 구성요소와 제 2 구성요소의 결부가 강할 경우, 연산부(107)는 제 1 구성요소가 대상 데이터에 출현했을 경우 상기 대상 데이터에 있어서 제 2 구성요소가 출현하는 빈도를 고려하여 지표를 계산할 수 있다. 이러한 상관관계로서, 예를 들면 담합·카르텔 등의 부정 검증을 소정의 사안으로서 상정했을 경우, 입찰, 가격, 조정과 같은 각 키워드가 같은 통신 기록 데이터에 출현하기 쉬운 것이 경험상 알고 있기 때문에, 각 키워드 각각의 평가값을 가산한 값에 이들 데이터의 조합에 의거한 소정 값을 가산하거나 해서 대상 데이터의 지표를 증가시키면 좋다. 이것에 의해, 데이터 분석 시스템은 복수의 구성요소간의 상관관계도 고려해서 지표를 산출할 수 있기 때문에, 보다 높은 정밀도로 소정의 사안에 관련되는 대상 데이터를 추출할 수 있다.

연산부(107)는 구성요소의 출현 정보에 상기 구성요소와 다른 구성요소와의 상관(공동발생 등)을 반영시킴으로써 대상 데이터의 지표를 산출할 수 있다. 연산부(107)는, 예를 들면 구성요소의 출현 관리 벡터에 다른 구성요소와의 상관을 나타내는 상관 매트릭스를 곱한다. 상관 매트릭스는, 예를 들면 「가격」이라고 하는 키워드가 대상 데이터에 출현했을 경우, 「가격」에 대하여 다른 키워드(예를 들면, 「조정」)가 출현하기 쉬움(즉, 상관)을, 상관 매트릭스의 정보에서 나타내는 정방행렬이다.

상관 매트릭스는, 참조 데이터에 의거하여 최적화되면 좋다. 예를 들면, 대상 데이터에 「가격」이라고 하는 키워드가 출현할 경우, 다른 키워드(「조정」)의 출현수를 0∼1의 사이에 정규화한 값(즉, 최대 추정값)이 상관 매트릭스에 격납되어 있다. 따라서, 데이터 분석 시스템은 복수의 구성요소의 상관을 데이터의 지표에 반영시키기 위한 상관 벡터를 얻을 수 있다.

연산부(107)는, 예를 들면 하기의 식에 나타내는 바와 같이, 모든 상관 벡터에 대해서 합산한 값에 의거하여 데이터의 지표를 산출한다. 보다 구체적으로는, 연산부(107)는 상술의 식 대신에, 하기의 식에 나타내어지는 바와 같이 상관 벡터의 합산값과 키워드에 대한 평가값의 벡터(W)의 내적을 산출함으로써, 대상 데이터의 지표를 산출할 수 있다.

[수 6]

여기에서, C는 상관 매트릭스를 나타내고, s_s는 s번째의 키워드 벡터를 나타낸다. 또한, TFnorm(합산한 값)은, 하기의 식에 나타내어지는 바와 같이 계산한다.

[수 7]

여기에서, TF_i는 i번째의 키워드의 출현 빈도(Term Frequency)를 나타내고, s_js는 s번째의 키워드 벡터의 j번째의 요소를 나타낸다.

상기 식을 정리하면, 연산부(107)는 이하의 식을 계산함으로써 대상 데이터마다 지표를 산출한다.

[수 8]

여기에서, w_i는 평가값 벡터(W)의 i번째의 요소이다.

[부분 분할한 각 부분 데이터에 대한 지표 산출]

연산부(107)는 대상 데이터 전체의 지표를 산출함으로써 데이터를 서열화할 뿐만 아니라, 예를 들면, 대상 데이터를 복수의 부분(예를 들면, 데이터에 포함되는 문장 또는 단락(부분 대상 데이터))으로 분할하고, 학습한 패턴에 의거하여 각 부분 데이터를 평가(즉, 부분 대상 데이터의 지표를 산출)함으로써 상기 부분 대상 데이터를 서열화한다. 그리고, 연산부(107)는 복수의 부분 대상 데이터의 지표를 통합(예를 들면, 복수의 부분 대상 데이터의 지표 중에서 최대값을 추출해서 전체 데이터의 지표로 하거나, 복수의 부분 대상 데이터의 지표의 평균을 전체 데이터의 지표로 하거나, 복수의 부분 대상 데이터의 지표를 큰 순으로부터 소정 수 선택해서 합산해서 전체 데이터의 지표로 하거나 등)하고, 상기 통합된 지표를 대상 데이터의 평가 결과로 할 수도 있다. 이것에 의해, 데이터 분석 시스템은 활용 목적에 적합한 유용 데이터를 대상 데이터 중에서 보다 적확하게 선택할 수 있다.

[페이즈 분석]

데이터 분석 시스템은 소정의 사안이 진전되는 각 단계를 나타내는 페이즈를 분석할 수 있다. 예를 들면, 소정의 사안이 담합행위일 경우, 상기 담합행위는 관계 구축 페이즈(경합 타사와 관계를 구축하는 단계), 준비 페이즈(경합 타사와 경합에 관한 정보를 교환하는 단계), 경합 페이즈(고객에 가격을 제시하고, 피드백을 얻어서 경합 타사와 커뮤니케이션을 취하는 단계)의 순서로 진행되는 것이 통상이기(경험적·이론적으로 기지이기) 때문에, 상기 페이즈에는 상기 3개의 페이즈가 설정되면 좋다. 데이터 분석 시스템은 미리 설정된 복수의 페이즈에 대하여 각각 준비되는 복수 종류의 참조 데이터로부터, 상기 복수의 페이즈에 대응하는 복수의 패턴을 각각 학습하고, 상기 복수의 페이즈에 각각 의거하여 대상 데이터를 분석 함으로써, 예를 들면 「분석 대상인 조직이 현재 어느 페이즈에 있는지」를 특정할 수 있다.

데이터 분석 시스템이 페이즈를 특정하는 흐름을 상세하게 설명한다. 우선, 데이터 분석 시스템은 미리 설정된 복수의 페이즈에 대하여 각각 준비되는 복수 종류의 참조 데이터를 참조하고, 상기 복수 종류의 참조 데이터에 각각 포함되는 구성요소를 평가하고, 상기 구성요소와 상기 구성요소를 평가한 결과(예를 들면, 평가값)를 대응시켜서 페이즈마다 데이터베이스(22)에 격납한다(즉, 상기 복수의 페이즈에 대응하는 복수의 패턴을 각각 학습한다). 따라서, 예를 들면 「관계 구축 페이즈」(페이즈 1)에서는, 「일정」, 「조정」 등의 키워드 평가값이 「실행 페이즈」(페이즈 3)보다 크거나, 「준비 페이즈」(페이즈 2)에서는 「경합 제품」, 「조사」 등의 키워드 평가값이 「관계 구축 페이즈」(페이즈 1)보다 크거나 한다. 또한, 스테이지마다 다른 키워드가 설정될 경우도 있다.

이어서, 데이터 분석 시스템은 상기 페이즈마다 학습된 패턴에 의거하여 대상 데이터를 분석함으로써 복수의 페이즈에 대하여 각각 지표를 산출한다. 그리고, 데이터 분석 시스템은 상기 지표가 각 페이즈에 대하여 미리 설정된 소정의 판정 기준(예를 들면, 역치)을 만족하고 있는지의 여부(예를 들면, 상기 지표가 상기 역치를 초과하고 있는지의 여부)를 판정하고, 만족시키고 있다고 판정할 경우 상기 페이즈에 대응하는 카운트값을 증가시킨다. 최후에, 데이터 분석 시스템은 상기 카운트값에 근거해서 현재의 페이즈를 특정한다(예를 들면, 최대의 카운트값을 갖는 페이즈를 현재의 페이즈로 한다). 또는, 페이즈마다 산출된 지표가 상기 페이즈에 설정된 소정의 판정 기준을 만족시키고 있다고 판정했을 경우, 데이터 분석 시스템은 상기 페이즈를 현재의 페이즈로서 특정할 수도 있다.

데이터 분석 시스템은 미리 설정된 소정의 판정 기준(예를 들면, 역치)을 데이터 적응적으로 재설정할 수 있다. 이 때, 연산부(107)는 복수의 대상 데이터를 서열화한 결과를 이용한다. 연산부(107)는, 예를 들면 대상 데이터의 지표와 상기 지표의 랭킹(즉, 지표를 오름차순으로 배열했을 경우에 있어서의 순위)의 관계에 대하여 회귀분석을 행하고, 상기 회귀분석의 결과에 의거하여 역치를 결정할 수 있다.

연산부(107)는, 예를 들면 지수형 분포족에 속하는 함수(y=e^αx+β(e는 자연대수의 밑, α 및 β는 실수이다))를 이용하여 상기 회귀분석을 행할 수 있다. 연산부(107)는 복수의 대상 데이터에 대하여 산출한 지표와 상기 지표의 랭킹에 의거하여(예를 들면, 최소제곱법에 의해) 상기 α 및 β의 값을 결정한다. 또한, 출원인은 이 상기 함수를 사용한 모델에 대해서 결정계수, F 검정, 및 t 검정을 사용한 검증을 행하고, 상기 모델의 타당성·최적성을 확인하고 있다.

도 7은 지표와 랭킹에 의거하여 회귀 분석함으로써 얻어진, 지수함수 모델의 특성예를 나타내는 그래프이다. 도 8은 지수함수 모델을 재평가해서 얻어진, 상기 지수함수 모델의 특성예를 나타내는 그래프이다. 도 7 및 도 8에 있어서, 가로축은 지표를 나타내고, 세로축은 랭킹을 대수 스케일로 나타낸다. 따라서, 지수함수를 사용한 근사곡선(회귀곡선)은, 도 7 및 도 8에 있어서 직선으로 나타내어지고 있고, 세로축 아래일수록 랭킹이 높고, 위일수록 랭킹이 낮다.

관리자는 랭킹에 대하여 미리 역치를 설정해 둔다. 예를 들면, 도 7에 있어서 관리자는 연산부(107)에 상기 역치로서 1.E-03(=0.001=0.1%)을 설정해 둔다. 연산부(107)는 이 역치에 대응하는, 지수함수에 의해 나타내어지는 지표를 특정하고, 상기 지표를 소정 페이즈에 있어서의 역치(소정의 판정기준)로서 설정함으로써, 상기 페이즈에 대하여 미리 설정되어 있었던 역치를 변경할 수 있다. 이와 같이, 데이터 분석 시스템은 서열화된 대상 데이터를 회귀분석에 의해 재평가함으로써 페이즈마다 산출되는 지표에 대한 역치(소정의 판정기준)를, 학습에 의해 얻어진 패턴 에 의거하여 대상 데이터를 평가한 결과에 적합하도록 동적으로 변경할 수 있다. 또한, 데이터 분석 시스템은 대상 데이터의 데이터 이미지를 계속적으로 모니터함으로써 페이즈의 진행을 계속적으로 감시할 수도 있다.

또한, 데이터 분석 시스템은 대상 데이터를 평가한 결과가 평가 권한 유저에 의해 검증되었을 경우, 상기 검증 결과에 의거하여 학습부(105)가 실행하는 학습 처리를 조정할 수 있다. 예를 들면, 평가 권한 유저가 데이터 분석 시스템에 의해 높은 지표가 주어진 대상 데이터를 검증한 결과, 상기 대상 데이터에는 높은 지표가 주어지져서는 안된다고 판단했을 경우, 상기 평가 권한 유저는 상기 대상 데이터에 「Non-Related」의 라벨을 부여한다. 학습부(105)는 상기 대상 데이터를 참조 데이터로서 피드백하고, 예를 들면 상기 참조 데이터에 포함되는 구성요소의 평가값을 증감시키거나, 구성요소의 추가·삭제(제거)를 행하거나 해서 재학습을 실행하고, 패턴을 갱신한다.

그리고, 학습부(105)는 갱신한 패턴에 의거하여 대상 데이터의 지표와 랭킹을 다시 산출하고, 상기 산출 결과에 대하여 다시 회귀분석을 행한다(도 8). 학습부(105)는 새로운 회귀분석의 결과에 의거하여 도 7에 있어서의 설명과 같은 처리를 실행함으로써 페이즈마다 수정한 역치를 설정한다.

[시계열 정보를 이용한 분석]

(1) 예측 모델에 의거한 페이즈 진전 예측

데이터 분석 시스템은 소정의 사안에 관계되는 소정의 행위의 진전을 예측 가능한 모델에 의거하여 복수의 대상 데이터를 평가함으로써 결정한 지표로부터, 다음의 행위를 예측·제시할 수 있다. 데이터 분석 시스템은, 예를 들면 제 1 페이즈(예를 들면, 관계 구축 페이즈)에 대하여 산출된 지표와, 제 2 페이즈(예를 들면, 준비 페이즈)에 대하여 산출된 지표를 변수로 하는 회귀모델을 가정하고, 미리 최적화한 회귀 계수에 의거하여 제 3 페이즈(예를 들면, 경합 페이즈)로 진행될 가능성(예를 들면, 확률)을 예측할 수 있다.

(2) 소정 시간마다의 학습

시간의 경과와 함께 그 성질이 변화되는 데이터(예를 들면, 시간의 경과와 함께 진행하는 병상을 기록한 전자 카르테 등)를 분석할 경우, 데이터 분석 시스템은 소정시간마다 구분된 참조 데이터(예를 들면, 제 1 구간의 대상 데이터, 제 2 구간의 대상 데이터 …)로부터 각각 패턴을 학습하고(즉, 상기 소정 시간마다 구성요소와 상기 구성요소를 평가한 결과를 취득하고), 상기 패턴 각각에 의거하여 대상 데이터를 분석할 수 있다.

[데이터 구조에 의거한 분석]

연산부(107)는 대상 데이터의 구조를 해석하고, 상기 해석한 결과를 대상 데이터의 평가에 반영시킬 수 있다. 예를 들면, 대상 데이터가 적어도 일부에 문서 데이터를 포함할 경우, 연산부(107)는 문서 데이터의 문장의 표현 형태(예를 들면, 상기 문장이 긍정형인지, 부정형인지, 소극형인지 등)를 해석해서 해석 결과를 대상 데이터의 지표에 반영시킬 수 있다. 여기에서, 긍정형이란, 예를 들면 문장의 술어가 「맛있다」이며, 부정형이란, 「맛없다」 또는 「맛있지 않다」이며, 소극형이란 「맛있다고는 말할 수 없었다」 또는 「맛없다고는 말할 수 없었다」 등이다.

연산부(107)는, 예를 들면 긍정형에 「+α」를 설정하고, 부정형에 「-β」를 설정하고, 소극형에 「+θ」를 설정하고(α, β, θ: 동일 또는 다른 수치이면 됨다), 이것들의 파라미터를 이용하여 대상 데이터에 대하여 각각 산출한 지표를 조정할 수 있다. 또는, 연산부(107)는 대상 데이터에 포함되는 문장이 부정형인 것을 검지했을 경우, 예를 들면 상기 문장을 캔슬함으로써 상기 문장에 포함되는 구성요소를 지표 산출의 기초로 하지 않는(상기 구성요소를 고려하지 않는) 것이 가능하다. 이것에 의해서, 데이터 분석 시스템은 데이터의 구조해석 결과를 지표에 반영시킬 수 있기 때문에 보다 높은 정밀도로 데이터를 평가할 수 있다.

연산부(107)는 대상 데이터의 구조로서 문장의 구문을 해석하고, 그 해석 결과를 대상 데이터의 지표에 반영시킬 수 있다. 연산부(107)는, 예를 들면 형태소(구성요소)가 문장의 주어, 목적어, 술어의 어디에 위치하는지에 따라, 상기 형태소의 평가값에 우열을 형성해도 된다. 형태소의 구문 중의 위치는 벡터에 의해 제어되면 되고, 주어일지, 목적어일지, 술어일지에 따라 형태소의 평가값에 우열을 부여한다. 연산부(107)는 형태소의 출현 벡터와 평가값으로부터 대상 데이터의 지표를 산출할 때, 형태소의 구문 중의 위치의 제어 벡터를 맞추어서 대상 데이터의 지표를 구할 수 있다.

[감정 분석]

데이터 분석 시스템은 대상 데이터로부터 유저의 감정을 추출할 수 있다. 일반적으로, 온라인 상품 사이트나, 레스토랑 가이드 등에서는 유저의 코멘트와 함께 상품·서비스에 대한 상기 유저의 평가가 기재되어 있는 경우가 많다. 그래서, 데이터 분석 시스템은 코멘트와 평가에 의거하여 참조 데이터를 작성하고, 상기 참조 데이터에 의거하여 대상 데이터를 평가함으로써 상품·서비스에 대하여 유저가 좋은 인상을 품었는지의 여부를 추측할 수 있다. 개념적으로는, 상기 평가가 높은 상품·서비스에 대한 코멘트에는 호감정의 단어(예를 들면, 「좋았다」, 「즐거웠다」 등)가 사용되는 경우가 많고, 상기 평가가 낮은 상품·서비스에 대한 코멘트에는 악감정의 단어(예를 들면, 「나빴다」, 「시시했다」 등)가 사용되는 경우가 많기 때문에, 데이터 분석 시스템은 코멘트와 평가의 조합으로 이루어지는 참조 데이터로부터 패턴을 학습하고, 상기 패턴에 의거하여 코멘트만로 이루어지는 대상 데이터로부터 상기 코멘트를 생성한 유저의 감정을 감정 지표로서 추출할 수 있다.

우선, 분류부(108)는 참조 데이터를 감정의 우열에 의거하여 분류한다. 예를 들면, 분류부(108)는 소비자의 평가가 5단계로 행하여져 있을 경우, 단계 평가에 따라서 참조 데이터에 분류정보(예를 들면 「좋은 인상」 또는 「나쁜 인상」을 나타내는 2분류의 라벨이거나, 「좋다」, 「약간 좋다」, 「보통」, 「약간 나쁘다」, 「나쁘다」를 나타내는 5분류의 라벨이거나 하면 좋다)를 설정한다. 이어서, 학습부(105)는 분류정보가 설정된 참조 데이터로부터 구성요소를 추출한다. 특히, 학습부(105)는 감정 표현을 나타내는 구성요소(예를 들면, 형용사, 형용동사, 부사 등에 대응하는 형태소)를 추출할 수 있다.

그리고, 학습부(105)는 감정 표현을 나타내는 구성요소에 관한 감정 마커(감정평가 정보, 유저가 좋은 인상을 품은지, 나쁜 인상을 품은지를 나타내는 지표)를 하기와 같이 해서 생성한다. 즉, 학습부(105)는 좋은 인상으로 분류된 1 이상의 참조 데이터에 있어서 감정 표현을 나타내는 구성요소(구성요소 A)가 출현하는 횟수 A_F를 카운트한다. 그리고, 학습부(105)는 이 참조 데이터에 있어서 구성요소 A가 출현하는 빈도 RF_P를 산출한다.

[수 9]

여기에서, N_P는 좋은 인상으로 분류된 참조 데이터에 포함되는 전체 구성요소 수이다.

이어서 학습부(105)는, 나쁜 인상으로 분류된 참조 데이터에 있어서, 구성요소 A가 출현하는 횟수 A_N을 카운트하고, 참조 데이터에 있어서 구성요소 A가 출현하는 빈도 RF_N을 산출한다.

[수 10]

여기에서, N_N은 나쁜 인상으로 분류된 참조 데이터에 포함되는 전체 구성요소 수이다.

그리고, 학습부(105)는 상기 2개의 식을 이용하여 산출된 빈도를 이용하여 구성요소 A의 감정 마커(감정 판정 지표값 P(A))를 다음과 같이 산출한다.

[수 11]

또한, 학습부(105)는 감정 판정 지표값 P(A)가 1보다 클 경우에, 구성요소 A를 좋은 인상을 품는 데이터에 사용되는 경우가 많은 구성요소로 해서 그 감정 마커로서 「+1」을 지정하고, 감정 판정 지표값 P(A)가 1보다 작을 경우에, 구성요소 A를 나쁜 인상을 품는 데이터에 사용되는 경우가 많은 구성요소로 해서 그 감정 마커로서 「-1」을 지정해서 데이터베이스(22)에 격납한다. 예를 들면, 「좋다」, 「깨끗한다」, 「맛있다」라고 하는 말에는 「+1」이 붙기 쉽고, 「나쁘다」, 「더럽다」, 「맛없다」라고 하는 말에는 「-1」이 설정되는 경향으로 된다.

연산부(107)는 대상 데이터로부터 감정 마커가 설정되어 있는 구성요소를 추출하고, 추출한 구성요소 각각의 감정 마커값을 취득한다. 연산부(107)는 구성요소가 대상 데이터에 출현하는 횟수만큼, 감정 마커값을 가산한다. 예를 들면, 「좋다」라고 하는 구성요소에 대하여 설정되어 있는 감정 마커가 「+1」이고, 미분류 데이터에 5회 출현할 경우에 미분류 데이터의 「좋다」라고 하는 구성요소에 근거하는 감정 지표를 「5」로 한다. 또한, 예를 들면 「나쁘다」라고 하는 구성요소에 대하여 설정되어 있는 감정 마커가 「-1」이고, 미분류 데이터에 3회 출현할 경우에 미분류 데이터의 「나쁘다」라고 하는 구성요소에 근거하는 감정 지표를 「-3」으로 한다.

연산부(107)는 부정 표현 또는 과장 표현이 구성요소에 존재하는지의 여부를 판정하면서 감정 지표를 산출한다. 부정 표현이란 구성요소를 부정하는 표현이며, 예를 들면 「좋지 않다」, 「맛있지 않다」라고 하는 표현이다. 이러한 표현이 있을 경우에는, 이것들은 반대의 표현으로서 취급하고, 예를 들면 「좋지 않다」이면 「나쁘다」로 하고, 「맛있지 않다」이면 「맛없다」라고 취급한다. 또한, 여기에서는 반대의 표현으로서 취급하는 것으로 했지만, 이것은 예를 들면 「좋다」라고 하는 표현에 대하여 「+1」의 감정 마커가 설정되어 있을 경우에, 이것을 부의 값으로 하는 것으로 해도 된다. 또는, 감정 마커로서 설정되어 있는 값을 소정량(예를 들면, 1.5)만큼 감소시키는 것으로 해도 된다. 또한, 부정을 부정하는, 즉 이중부정 표현이 있는지의 여부를 검출하고, 이중부정 표현이 있을 경우에는 구성요소를 긍정적으로 판정하는 것으로 해도 된다.

또한, 과장 표현이란 구성요소를 보다 과장(강조)하는 표현이며, 예를 들면 「매우」, 「굉장히」, 「몹시」라고 하는 표현을 가리킨다. 이러한 과장 표현이 구성요소에 결려 있을 경우에는, 그 감정 마커값을 소정 배(예를 들면, 2배)로 해서 감정 지표를 산출한다. 예를 들면, 「매우 맛있다」라고 하는 표현이 있을 경우이며, 「맛있다」의 감정 마커값이 「+1」일 때에는 이 표현에 대한 감정 지표를 「+2」로 한다(증대시킨다). 또한, 소정 배로 하는 구성요소는 과장 표현이 결려 있는 구성요소만이다.

이와 같이 하여, 연산부(107)는 하기 식에 나타내는 바와 같이 모든 구성요소에 의거한 감정 지표를 산출하고, 합산해서 대상 데이터의 지표 S를 산출한다.

[수 12]

여기에서, s_i는, i번째의 구성요소의 감정 마커이다.

연산부(107)는 감정 지표에 의거하여 대상 데이터를 서열화한다. 지표가 0보다 클 경우에는, 대상 데이터는 좋은 인상을 품기 쉽다고 판정되고, 지표가 0 미만일 경우에 대상 데이터는 나쁜 인상이 품어지기 쉽다고 판정된다. 서열화된 복수의 대상 데이터는 유저에 제시된다.

[히트 맵의 표시]

데이터 분석 시스템은 소정의 관리기능을 구비하고 있다. 상기 관리기능은 관리 계산기(12)의 관리 프로그램에 의해 실행된다. 관리기능의 일례로서, 평가 권한 유저가 복수 있을 경우, 각 사람의 분류의 정밀도를 관리화면에 의해 표시하는 형태가 있다.

도 9는 데이터 분석 시스템의 관리화면의 일례를 나타내는 모식도이다. 상기 관리화면은 연산부(107)의 데이터의 지표로부터 표시처리부(103)에 의해 작성된다. 표시처리부(103)는 관리 계산기(12)의 모니터에 표시화면(260)을 출력한다. 표시화면(260)은, 예를 들면 지표의 미리 정해진 각 범위의 각각에 대응지어진 복수의 구획, 및 비율을 표시하는 표시영역(262)을 갖는다. 비율이란 지표의 범위에 포함되는 대상 데이터의 총수와, 대상 데이터의 총수 중 소정의 사안과 관계되는 것으로서 「Related」의 라벨이 평가 권한 유저에 의해 설정된 대상 데이터의 수의 비이다.

구획은, 예를 들면 지표가 0∼999, 1000∼1999와 같이, 1000씩 나뉘어서 설정되고, 각 구획은, 예를 들면 지표는 200마다 세분화되어 있다. 각 세분화된 소구획마다 비율이 색조 등의 부가정보의 형태의 변화(그라이데이션)에 의해서 표현된다. 예를 들면, 색조가 한색계일수록 비율이 낮다, 즉, 대상 데이터에 「Related」의 라벨이 리뷰어에 의해 설정된 율이 낮고(Non-Related인 율이 높고), 난색계일수록 「Related」의 라벨이 리뷰어에 의해 설정된 율이 높은 것을 나타내고 있다. 예를 들면, 표시영역(262)의 세로 방향에 평가 권한 유저의 식별란(266)이 있고, 관련성 지표란(268)은 평가 권한 유저마다 구별되어 있다. 데이터 분석 시스템은 소정의 분류정보(라벨)가 대응된 데이터가, 모든 데이터에 대하여 차지하는 비율에 따른 그라이데이션을 이용하여, 복수의 데이터를 각각 평가한 결과에 대한 상기 비율의 분포를 시인 가능하게 표시할 수 있다.

관리 권한 유저는 표시화면(260)에 표시되는 각 소구획의 색을 참조함으로써 각 평가 권한 유저의 분류 정밀도의 적부를 파악하기 쉬워진다. 예를 들면, 소정 평가 권한 유저는 지표가 작은 영역임에도 불구하고 「Related」의 플래그를 설정하는 비율이 높고, 한편 소정 평가 권한 유저는 지표가 높은 영역임에도 불구하고 「Non-Related」의 플래그를 설정하는 비율이 높아, 이들 평가 권한 유저에 의한 분류는 정밀도가 낮은 것을 나타내고 있다.

[네트워크 분석]

데이터 분석 시스템은 복수의 노드(사람, 조직, 컴퓨터)간의 상호 관계(데이터의 송수신이나 교환 등)를 가시화할 수 있다. 이 경우, 표시처리부(103)는, 예를 들면 연산부(107)에 의한 데이터의 서열화의 결과에 의거하여 소정의 사안에 관련되는 복수의 인물의 관계성을, 상기 관련성의 정도를 알 수 있도록 클라이언트 장치(10)에 표시시킬 수 있다.

도 10에 나타내는 바와 같이, 표시처리부(103)는 각 노드를 원형으로 표시 함과 아울러, 1개 노드와 다른 노드의 사이에 관계성이 있을 경우, 상기 노드와 상기 타노드의 사이를 화살표로 결합해서 표시한다. 각 노드의 크기는 노드간의 관계성의 대소를 나타낸다. 즉, 노드의 크기가 클수록 노드 30과의 관계성이 높은 것을 나타낸다. 도 10의 예에 있어서는, 노드 31, 노드 36, 노드 35, 노드 32, 노드 33, 노드 34의 순서로 노드가 작아지고 있다. 따라서, 도 10의 예에 있어서는, 노드 31, 노드 36, 노드 35, 노드 32, 노드 33, 노드 34의 순서로 노드 30과의 관계성이 높은 것을 나타낸다. 관계성의 대소, 데이터의 지표의 대소, 또는 라벨의 우열에 의거하여 결정된다. 노드의 대소 대신에, 또는 이것과 함께, 노드간을 결합하는 화살표 또는 선분의 굵기나 색 등을 변화시킬 수도 있다.

노드는 URL이나 E메일 어드레스에 의해 특정되어도 좋다. 도 10은 노드 30을 중심으로 한 상관관계 표시이지만, 표시처리부(103)는 중심 노드를 변경할 수도 있다. 또한, 표시처리부는 하나의 화면에 복수의 노드를 중심 노드로서 설정할 수도 있다. 또한, 데이터의 타임 스탬프, 송신 시각, 착신 시각, 갱신 시각 등의 시간 정보를 노드간의 상관관계를 알 수 있도록 표시할 수도 있다. 노드간의 상관관계의 발생이 현재 시각에 가까울수록 노드간의 연결 표시의 형태(색조)를 바꾸면 된다.

또한, 데이터 분석 시스템은 소정의 동작을 나타내는 제 1 구성요소가 데이터에 포함되는지의 여부를 판정하고, 포함된다고 판정할 경우 상기 소정의 동작의 대상을 나타내는 제 2 구성요소를 특정한다. 예를 들면, 「사양을 확정한다」라고 하는 문장이 상기 데이터에 포함될 경우, 상기 문장으로부터 「사양」 및 「확정한다」라고 하는 구성요소(단어)를 추출하고, 「확정한다」라고 하는 소정의 동작을 나타내는 제 1 구성요소(동사)의 대상인 「사양」이라고 하는 제 2 구성요소(목적어)를 특정한다. 이어서, 상기 데이터 분석 시스템은 상기 제 1 구성요소 및 제 2 구성요소를 포함하는 데이터의 속성(성질·특징)을 나타내는 메타 정보(속성 정보)와, 상기 제 1 구성요소 및 제 2 구성요소를 관련짓는다. 여기에서, 상기 메타 정보는 데이터가 갖는 소정의 속성을 나타내는 정보이며, 예를 들면 상기 데이터가 전자메일 경우, 상기 전자메일을 송신한 사람의 이름, 수신한 사람의 이름, 메일 어드레스, 송수신된 일시 등이면 좋다. 그리고, 데이터 분석 시스템은 2개의 구성요소와 메타 정보를 대응시켜 클라이언트 장치(10)에 표시시킨다.

예를 들면, 「기술을 교류한다」라고 하는 문장이 전자메일(데이터, 통신 정보)에 포함되어 있고, 「기술」(제 2 구성요소) 및 「교류한다」(제 1 구성요소)라고 하는 단어가 추출되었을 경우, 데이터 분석 시스템은 상기 「기술」 및 「교류한다」와, 상기 전자메일을 송수신한 인물의 이름(예를 들면, 「인물A」 및 「인물B」을 관련지어서 표시한다. 이것에 의해, 「인물A」와 「인물B」가 어떤 「기술」에 대한 「교류」를 기도하고 있는 것을 추측할 수 있다. 또한, 예를 들면 「사양을 확정한다」라고 하는 문장이 상기 전자메일에 첨부된 프리젠테이션 자료에 포함되어 있고, 「수단」(제 2 구성요소) 및 「확정한다」(제 1 구성요소)라고 하는 단어가 추출되었을 경우, 데이터 분석 시스템은 상기 「수단」 및 「확정한다」와, 상기 프리젠테이션 자료가 작성된 일시(예를 들면, 2015년 3월 30일 16시 30분)를 관련지어서 표시한다. 이것에 의해, 이에 따라 「인물A」와 「인물B」가 어떤 「기술」에 대한 「교류」를 기도하는 중에서, 2015년 3월 30일 16시 30분의 시점에 있어서 상기 「기술」의 「사양」을 「확정」하려고 하고 있는 것을 추측할 수 있다.

본 발명의 데이터 분석 시스템에 의해서, 복수의 대상 데이터가 서열화되지만, 모든 대상 데이터의 내용에 대강 훑어보는 것은 시간을 요하게 되어, 애당초 쉬운 것은 아니다. 그래서, 데이터 분석 시스템은 유저에 대상 데이터의 내용을 단시간에 파악할 수 있게 하기 위한 지원 기능을 실현할 수 있다.

[개념의 추출]

연산부(107)는 토픽(콘텍스트) 검출 기능을 실행한다. 연산부(107)는 도 11(A)에 나타내는 바와 같이, 대상 데이터 중에서 미리 선정된 개념의 하위 개념의 구성요소를 포함하는 데이터를 추출하고, 추출한 각 대상 데이터(전자메일 등)의 내용의 요약을 적당한 추상도로 각각 작성하고, 작성한 요약에 의거하여 대상 데이터의 내용을 확인할 수 있게 하기 위해서 대상 데이터를 클러스터링하고, 대상 데이터의 클러스터링의 결과를 예를 들면 도 11(B)와 같은 형식으로 유저에 제시한다.

이러한 토픽 검출 기능은 준비 페이즈 및 적용 페이즈의 2단계의 페이즈에 의해 실현된다. 준비 페이즈는 미리 유저에 의해 설정된 각 대상 개념의 하위 개념의 키워드만을 추출하고, 추출한 키워드를 각각 대응하는 대상 개념에 대응된 상술의 대상 개념 추출용 데이터베이스를 작성하기 위한 페이즈이다. 또한 적용 페이즈는 준비 페이즈에서 작성한 대상 개념 추출용 데이터베이스를 이용해서 해당하는 대상 데이터의 내용을 상위 개념으로 표현한 요약을 작성하고, 작성한 요약에 의거하여 해당하는 대상 데이터를 클러스터링해서 결과를 유저로부터의 요구에 따라서 표시하는 페이즈이다.

준비 페이즈에서는 우선, 유저가 대상 데이터로부터 검출하고 싶은 화제(토픽)에 따른 몇개의 대상 개념을 선정하고, 선정한 대상 개념을 미리 데이터 분석 시스템에 등록한다. 예를 들면, 검출하고 싶은 토픽이 「부정」 및 「불만」일 경우, 도 12에 나타내는 바와 같이, 개념의 카테고리를 「행동」, 「감정」, 「성질이나 상태」, 「리스크」 및 「금전」의 5가지로 나누어서, 예를 들면 「행동」에 대해서는 「복수하다」 및 「경멸하다」 등, 「감정」에 대해서는 「괴로워하는 것」 및 「화를 내는 것」 등, 「성질이나 상태」에 대해서는 「둔하고 느리다」 및 「마음이나 태도가 나쁘다」 등, 「리스크」에 대해서는 「위협하다」 및 「속이다」 등, 「금전」에 대해서는 「사람의 노동에 대하여 지불되는 돈」 등의 개념을 대상 개념으로서 각각 설정한다.

연산부(107)는 이와 같이 하여 대상 개념이 설정되면, 등록된 대상 개념마다에, 그 하위 개념을 나타내는 키워드를 데이터베이스(22)의 사전 상에서 검색하고, 상기 검색에 의해 검출한 개개의 키워드를 각각 대응하는 대상 개념에 대응시킨 상술의 대상 개념 추출용 데이터베이스를 작성한다.

한편, 적용 페이즈에서는, 연산부(107)는 상술한 바와 같이 해서 작성한 대상 개념 추출용 데이터베이스를 이용하여 대상 데이터 중에서 대상 개념 추출용 데이터베이스에 등록된 키워드를 텍스트 내에 포함하는 대상 데이터를 추출한다. 또한, 연산부(107)는 이와 같이 하여 추출한 대상 데이터에 대해서 그 텍스트의 내용을 그 때 검출한 키워드의 상위 개념을 이용하여 나타낸 요약을 작성한다.

예를 들면 도 11의 경우, (A)에 나타내는 바와 같이 「e-mail_1」에 대해서는 「감시 시스템 수주」라고 하는 개소로부터 「시스템」, 「판매」 및 「하다」라고 하는 대상 개념이 추출되고, 「e-mail_2」에 대해서는 「회계 시스템 도입」이라고 하는 개소로부터 「시스템」, 「판매」 및 「하다」라고 하는 상위 개념이 추출되기 때문에, 이것들 「e-mail_1」 및 「e-mail_2」에 대해서는 어느 것이나 「시스템 판매 하다」라고 하는 요약이 작성되게 된다.

그리고, 표시처리부(103)는 이 후, 유저로부터의 요구가 있었을 경우에 이와 같이 하여 작성한 해당하는 대상 데이터의 요약에 의거하여 대상 데이터를 클러스터링해서 그 결과를 유저에 제시한다.

예를 들면, 도 11의 경우, 상술한 바와 같이 「e-mail_1」 및 「e-mail_2」에 대해서 「시스템 판매 하다」라고 하는 동일한 요약이 작성되기 때문에, 이것들 「e-mail_1」 및 「e-mail_2」가 동일한 그룹으로 분류된다. 그리고, 이 분류 결과가 예를 들면 (B)와 같이 요약을 「내용」으로 하는 형식으로 표시된다. 이와 같이 하여, 유저는 대상 데이터의 내용을 파악할 수 있다.

[그 밖의 구성]

분류정보 접수부(104)에 의해 복수의 분류정보의 각각에 대해서 참조 데이터와 분류정보의 조합이 설정된다. 즉, 분류정보와 참조 데이터의 조합이 복수 설정된다. 또한 학습부(105)는, 예를 들면 동일의 분류정보가 첨부된 복수의 참조 데이터에 공통되어서 출현하는 구성요소를, 참조 데이터와 분류정보의 조합에 기여하는 정도를 고려해서 평가하고, 평가 결과(평가값)가 소정 이상의 구성요소를 복수의 참조 데이터에 공통되는 패턴의 하나로서 선정한다. 또한, 참조 데이터에 대한 평가·분류의 방침·기준은 평가자마다 다른 경우가 있기 때문에, 데이터 분석 시스템은 참조 데이터에 대한 평가·분류에 복수의 평가자의 참가를 허용하도록 하여도 좋다.

데이터 분석 시스템은 유저에 의한 입력에 의거하여 서열화된 대상 데이터에 분류정보를 설정하면 좋다. 또는, 데이터 분석 시스템은 대상 데이터에 대한 평가 결과에 따라(예를 들면, 대상 데이터의 지표가 상기 소정의 평가기준(예를 들면, 지표가 소정의 역치를 초과하고 있는지의 여부)을 만족할 경우), 유저의 입력을 요하지 않고 상기 대상 데이터에 분류정보를 주어도 좋다. 상기 평가기준은 관리 권한을 갖는 유저에 의해 설정되어도 좋고, 참조 데이터 또는 대상 데이터의 측정 결과를 회귀분석해서 결과에 의거하여 데이터 분석 시스템에 의해 설정되어도 좋다. 또한, 데이터 분석 시스템은, 예를 들면 소정의 분류정보에 따라서 분류되어, 같은 분류정보가 첨부된 복수의 대상 데이터로부터 유용한 구성요소를 추출하고, 상기 구성요소에 의거하여 대상 데이터를 참조 데이터처럼 분류할 수 있는지의 여부를 해석할 수 있다. 구성요소의 추출은, 예를 들면 복수의 분류정보의 각각에서 그루핑된 대상 데이터마다 행하여져도 좋다.

이미 서술한 바와 같이, 학습부(105)에서 선정된 형태소를 비롯한 구성요소는 데이터베이스(22)에 기록된다. 또한, 업무 서버(14)는 과거의 분류 처리의 결과로부터 소정 사안의 우열과의 관련성이 높고, 대상 데이터에 포함되어 있으면, 「관계 있음」으로 분류될 수 있는 구성요소를, 사전에 데이터베이스(22)에 등록할 수도 있다.

또한, 과거의 분류 처리의 결과로부터 소정 사안과의 관련성에 의한 부호가 부여된 대상 데이터와 관련성이 높은 구성요소를 데이터베이스(22)에 등록해 두는 것도 가능하다. 한번 데이터베이스(22)에 등록된 형태소는 데이터 분석 시스템이 행하는 학습의 결과에 의해 증감되는 것 외에, 수동에 의해서도 추가등록 및 삭제가 가능하다.

데이터 분석 시스템은 복수의 패턴(데이터의 구성요소와 상기 구성요소를 평가한 결과의 조합)을 학습하고, 데이터베이스(22)에 유지할 수 있다. 예를 들면, 데이터 분석 시스템은 소정의 사안의 종류마다 상기 조합을 유지할 수 있다. 이에 따라, 예를 들면 데이터 분석 시스템이 범죄 수사 지원 시스템으로서 실현되어 범죄의 증거가 될 수 있는 데이터를 분석할 경우와, 데이터 분석 시스템이 인터넷 응용 시스템으로서 실현되어 웹페이지를 분석할 경우에서는, 데이터 분석 시스템은 서로 다른 복수의 패턴을 유지하게 된다. 이 때, 유저가 상기 소정의 사안의 종류를 입력하고, 데이터 분석 시스템이 상기 종류에 따른 패턴에 의거하여 대상 데이터를 처리할 수 있다.

데이터 분석 시스템은 참조 데이터에 포함되는 구성요소의 평가값을 산출할 때에 모든 구성요소의 임시의 평가값을 산출하고, 그 후에 평가값을 산출하는 대상의 구성요소의 임시의 평가값에 상기 구성요소 이외의 구성요소의 임시의 평가값을 가미하여, 최종적인 평가값을 산출할 수 있다. 구체적으로는, 데이터 분석 시스템은 복수의 구성요소 각각에 평가값을 산출하고(즉, 상기 복수의 구성요소를 각각 평가하고), 상기 복수의 구성요소 중 하나인 제 1 구성요소에 대하여 산출된 평가값에 대하여 상기 복수의 구성요소 중 다른 하나인 제 2 구성요소에 대하여 산출된 평가값을 반영시키도록, 상기 제 1 구성요소에 대하여 산출된 평가값을 갱신하고, 상기 갱신된 평가값을 상기 제 1 구성요소에 대응시켜 상기 제 1 구성요소의 평가값으로서 데이터베이스(22)에 격납한다. 이것에 의해, 데이터 분석 시스템은 데이터를 평가하기 위한 구성요소의 평가값을 다른 구성요소와의 관련성도 고려한 뒤에 산출할 수 있기 때문에, 보다 높은 정밀도로 데이터를 분석할 수 있다.

데이터 분석 시스템은 참조 데이터에 포함되는 구성요소를 소정의 기준(예를 들면, 전달 정보량)에 의거하여 각각 평가하고, 상기 평가된 결과에 의거하여 대상 데이터에 대하여 소정의 사안과의 관련성의 고저를 나타내는 포지티브 지표(주지표)를 각각 산출한다. 이어서, 데이터 분석 시스템은 상기 포지티브 지표가 낮은 대상 데이터(예를 들면, 상기 포지티브 지표가 거의 제로로 되는 데이터) 중에서 소정 수의 데이터를(예를 들면, 랜덤으로) 부분 데이터로서 선출하고, 상기 선출된 데이터에 포함되는 구성요소를 상기 소정의 기준에 의거하여 각각 평가한다. 그리고, 데이터 분석 시스템은 상기 평가된 결과에 의거하여 대상 데이터와 상기 소정 사안의 관련성이 약함을 나타내는 네거티브 지표(부지표)를, 상기 대상 데이터에 대하여 산출한다. 최후에, 데이터 분석 시스템은 상기 포지티브 지표 및 네거티브 지표에 따라서 대상 데이터를 추출한다(예를 들면, 포지티브 지표가 높고, 네거티브 지표가 낮은 데이터로부터 순차적으로 배열되도록 데이터 전체를 서열화한다).

이상과 같이, 데이터 분석 시스템은 소정의 사안과 관련되는 것을 나타내는 지표(포지티브 지표)를 도출할 뿐 아니라, 상기 포지티브 지표에 따라서 상기 소정의 사안과 관련되지 않는(상기 소정의 사안과의 관련성이 낮은) 것을 나타내는 지표(네거티브 지표)도 도출한다. 이것에 의해, 데이터 분석 시스템은 보다 높은 정밀도로 데이터를 분석할 수 있다.

[데이터 분석 시스템의 어플리케이션 예]

데이터 분석 시스템은, 예를 들면 정보자산 활용 시스템(프로젝트 평가 시스템)으로서 실현될 수 있다. 즉, 이 데이터 분석 시스템은 기업·숙련자가 갖는 정보자산(데이터)을, 상황에 따라서(동적으로) 추출함으로써 상기 정보자산을 활용 가능한 시스템으로서 실현될 수 있다. 이것에 의해, 예를 들면 (1) 개발기간의 단축화가 기대되는 개발현장을 효율화하기 위해서, 과거에 개발한 제품에 관한 정보를 상기 개발의 요건에 따라 재이용하거나, (2) 숙련 기술자가 갖는 전문지식에 의거하여 유용한 정보자산을 특정하거나 할 수 있다. 즉, 데이터 분석 시스템은 유저에 있어서 필요한 정보(과거의 정보자산)를 효율적으로 발견할 수 있다.

데이터 분석 시스템은, 예를 들면 인터넷 응용 시스템(예를 들면, 스마트 메일 시스템, 정보 애그리게이션(큐레이션) 시스템, 유저 감시 시스템, 소셜 미디어 운영 시스템 등)으로서 실현될 수 있다. 이 경우, 상기 데이터 분석 시스템은 데이터(예를 들면, 유저가 SNS에 투고한 메시지, 웹 사이트에 게재된 추천 정보, 유저 또는 단체의 프로필 등)를 소정의 평가기준(예를 들면, 상기 유저의 기호와 다른 유저의 기호가 유사한지의 여부, 상기 유저의 기호와 레스토랑의 속성이 일치하는지의 여부 등)에 의거하여 평가함으로써, 예를 들면 상기 유저와 마음이 맞을 것 같은 다른 유저를 일람 표시시키거나, 상기 유저의 기호에 맞은 레스토랑의 정보를 제시하거나, 상기 유저에 위해를 줄 지 모르는 단체를 경고하거나 할 수 있다. 즉, 데이터 분석 시스템은 유저에 있어서 필요한 정보를 효율적으로 발견할 수 있다.

또한, 데이터 분석 시스템은, 예를 들면 드라이빙 지원 시스템으로서 실현될 수 있다. 이 경우, 상기 데이터 분석 시스템은 데이터(예를 들면, 차량 탑재 센서·카메라·마이크 등으로부터 취득되는 데이터)를 소정의 평가기준(예를 들면, 숙련 드라이버에 의한 운전 중에, 상기 숙련 드라이버가 착안한 정보인가 아닌가 등)에 의거하여 평가함으로써, 예를 들면 운전을 안전·쾌적하게 할 수 있는 유용한 정보를 자동적으로 추출할 수 있다. 즉, 데이터 분석 시스템은 유저에 있어서 필요한 정보를 효율적으로 발견할 수 있다.

또한, 데이터 분석 시스템은, 예를 들면 금융 시스템(예를 들면, 부정거래 감시 시스템, 주가예측 시스템 등)으로서 실현될 수 있다. 이 경우, 상기 데이터 분석 시스템은 데이터(예를 들면, 은행에 대한 신고 서류, 주가의 시가 등)를 소정의 평가기준(예를 들면, 부정 목적의 우려가 있는지의 여부, 주가가 상승할지의 여부 등)에 의거하여 평가함으로써, 예를 들면, 부정 목적을 갖는 신고를 적발하거나, 장래의 주가를 예측하거나 할 수 있다. 즉, 데이터 분석 시스템은 유저에 있어서 필요한 정보를 효율적으로 발견할 수 있다.

또한, 데이터 분석 시스템은 의료 응용 시스템(예를 들면, 약물감시 지원 시스템, 치료의 효력 효율화 시스템, 의료 리스크 헷지 시스템, 전도 예측(전도 방지) 시스템, 예후 예측 시스템, 진단 지원 시스템 등)으로서 실현될 수 있다. 이 경우, 상기 데이터 분석 시스템은 데이터(예를 들면, 전자 카르테, 간호 기록, 환자의 일기 등)를 소정의 평가기준(예를 들면, 환자의 특정의 위험행동을 취할 것인지의 여부, 어떤 약제가 병에 대하여 효능을 발휘하는지의 여부 등)에 의거하여 평가함으로써, 예를 들면, 환자가 위험한 상태(예를 들면, 전도하는 등)에 빠지는 것을 예측하거나, 약제의 효능을 객관적으로 평가하거나 할 수 있다. 즉, 데이터 분석 시스템은 유저에 있어서 필요한 정보를 효율적으로 발견할 수 있다.

또한, 데이터 분석 시스템은, 예를 들면 메일 제어 시스템(스마트 메일 시스템)으로서 실현될 수 있다. 이 경우, 상기 데이터 분석 시스템은 데이터(예를 들면, 전자메일, 첨부파일 등)를 소정의 평가기준(예를 들면, 상기 전자메일에 회신 할 필요가 있는지의 여부 등)에 의거하여 평가함으로써, 예를 들면 대량의 메일 중에서 중요한 메일(액션을 요하는 메일)을 추출할 수 있다. 즉, 데이터 분석 시스템은 유저에 있어서 필요한 정보를 효율적으로 발견할 수 있다.

또한, 데이터 분석 시스템은, 예를 들면 디스커버리 지원 시스템으로서 실현될 수 있다. 이 경우, 상기 데이터 분석 시스템은, 데이터(예를 들면 도큐먼트, 전자메일, 표계산 데이터 등)를 소정의 평가기준(예를 들면 본건 소송에 있어서의 디스커버리 수속에 있어서 상기 데이터를 제출해야 할 것인가 아닌가 등)에 의거하여 평가함으로써, 예를 들면 본건 소송에 관련되는 문서만을 법정에 제출할 수 있다. 즉, 데이터 분석 시스템은 유저에 있어서 필요한 정보를 효율적으로 발견할 수 있다.

또한, 데이터 분석 시스템은, 예를 들면 포렌식 지원 시스템으로서 실현될 수 있다. 이 경우, 상기 데이터 분석 시스템은 데이터(예를 들면, 도큐먼트, 전자메일, 표계산 데이터 등)를 소정의 평가기준(예를 들면, 상기 데이터가 범죄행위를 입증 가능한 증거인지의 여부 등)에 의거하여 평가함으로써, 예를 들면, 상기 범죄행위를 입증하는 증거를 추출할 수 있다. 즉, 데이터 분석 시스템은 유저에 있어서 필요한 정보를 효율적으로 발견할 수 있다.

또한, 데이터 분석 시스템은, 예를 들면, 메일 감시 시스템(메일 감사 지원 시스템)으로서 실현될 수 있다. 이 경우, 상기 데이터 분석 시스템은 데이터(예를 들면, 전자메일, 첨부파일 등)를 소정의 평가기준(예를 들면, 상기 전자메일을 송수신한 유저가 부정행위를 행하려고 하고 있는지의 여부 등)에 의거하여 평가함으로써, 예를 들면, 정보누설·담합 등의 부정행위의 예조를 발견할 수 있다. 즉, 데이터 분석 시스템은 유저에 있어서 필요한 정보를 효율적으로 발견할 수 있다.

또한, 데이터 분석 시스템은, 예를 들면 지재 평가 시스템으로서 실현될 수 있다. 이 경우, 상기 데이터 분석 시스템은 데이터(예를 들면, 특허공보, 발명을 요약한 문서, 학술논문 등)를 소정의 평가기준(예를 들면, 상기 특허공보는 소여의 특허를 거절·무효로 하는 증거가 될 수 있을지의 여부 등)에 의거하여 평가함으로써, 예를 들면 다수의 문헌(예를 들면, 특허공보, 학술논문, 인터넷에 게재된 문장)의 중에서 무효자료를 추출할 수 있다. 이 때, 데이터 분석 시스템은, 예를 들면 무효 대상이 되는 특허의 각 청구항과 「Related」라벨(분류정보)의 조합, 및 상기 특허와는 다른 무관계인 특허의 각 청구항과 「Non-Related」라벨(분류정보)의 조합을 참조 데이터로서 취득하고, 상기 참조 데이터로부터 패턴을 학습하고, 다수의 문헌(대상 데이터)에 대하여 지표를 산출함(예를 들면, 특허공보의 단락마다 지표를 산출하고, 상기 지표의 상위로부터 소정 수분을 합산함으로써 상기 특허공보의 지표로 함)으로써 상기 대상 데이터를 평가할 수 있다. 즉, 데이터 분석 시스템은 유저에 있어서 필요한 정보를 효율적으로 발견할 수 있다.

또한, 데이터 분석 시스템은, 예를 들면 콜센터 에스컬레이션 시스템으로서 실현될 수 있다. 이 경우, 상기 데이터 분석 시스템은 데이터(예를 들면, 전화의 통화 이력, 녹음된 음성 등)를 소정의 평가기준(예를 들면, 과거의 대응 사례와 유사한지의 여부 등)에 의거하여 평가함으로써, 예를 들면 과거의 대응 사례 중에서 현재의 상황에 최적인 대응 방법을 추출할 수 있다. 즉, 데이터 분석 시스템은 유저에 있어서 필요한 정보를 효율적으로 발견할 수 있다.

또한, 데이터 분석 시스템은, 예를 들면 마케팅 지원 시스템으로서 실현될 수 있다. 이 경우, 상기 데이터 분석 시스템은 데이터(예를 들면, 기업·개인의 프로필, 제품정보 등)를 소정의 평가기준(예를 들면, 상기 개인은 남성인가 여성인가, 소비자는 제품에 대하여 호감을 갖고 있는지의 여부 등)에 의거하여 평가함으로써, 예를 들면 어떤 제품에 대한 시장의 평가를 추출할 수 있다. 즉, 데이터 분석 시스템은 유저에 있어서 필요한 정보를 효율적으로 발견할 수 있다.

또한, 데이터 분석 시스템은, 예를 들면 신용 조사 시스템으로서 실현될 수 있다. 이 경우, 상기 데이터 분석 시스템은 데이터(예를 들면, 기업의 프로필, 기업의 업적에 관한 정보, 주가에 관한 정보, 프레스 릴리스 등)를 소정의 평가기준(예를 들면, 상기 기업이 도산할 것인가 아닌가, 상기 기업이 성장할 것인가 아닌가 등)에 의거하여 평가함으로써, 예를 들면 기업의 성장·도산을 예측할 수 있다. 즉, 데이터 분석 시스템은 유저에 있어서 필요한 정보를 효율적으로 발견할 수 있다.

이와 같이, 본 발명의 데이터 분석 시스템은 디스커버리 지원 시스템, 범죄 수사 지원 시스템, 전자메일 감시 시스템, 의료 응용 시스템, 인터넷 응용 시스템, 정보자산 활용 시스템, 마케팅 지원 시스템, 지재평가 시스템, 콜센터 에스컬레이션 시스템, 신용 조사 시스템, 영업 지원 시스템, 드라이빙 지원 시스템 등, 데이터를 소정의 평가기준(소정의 사안에 관련되는지의 여부)에 의거하여 평가함으로써, 유저에 있어서 필요한 정보를 효율적으로 발견하는 임의의 시스템으로서 실현될 수 있다. 특히, 본 발명의 데이터 분석 시스템은 복수의 데이터를 포함하는 데이터군을, 「인간의 사고 및 행동의 결과에 의한 데이터의 집합체」로서 포착하고, 예를 들면 인간의 행동에 관련되는 분석, 인간의 행동을 예측하는 분석, 인간의 특정의 행동을 검지하는 분석, 인간의 특정의 행동을 억제하는 분석 등을 행함으로써 데이터로부터 패턴을 추출하고, 상기 패턴과 소정 사안의 관련성을 평가함으로써 유저에 있어서 필요한 정보를 효율적으로 발견할 수 있다.

또한, 본 발명의 데이터 분석 시스템이 응용되는 분야에 따라서는, 상기 분야에 특유의 사정을 고려하여, 예를 들면, 데이터에 전처리(예를 들면, 상기 데이터로부터 중요 개소를 뽑아내고, 상기 중요 개소만을 데이터 분석이 대상으로 하는 등)를 실시하거나, 데이터 분석의 결과를 표시하는 형태를 변화시키거나 하면 좋다. 이러한 변형예가 다양하게 존재할 수 있는 것은 당업자에게 이해되는 바이며, 모든 변형예가 본 발명의 범주에 들어간다.

[데이터 분석 시스템이 문서 데이터 이외의 데이터를 처리하는 예]

상기한 실시형태에 있어서는 데이터 분석 시스템이 문서 데이터를 분석하는 예를 주로 설명했지만, 상기 데이터 분석 시스템은 문서 데이터 이외의 데이터(예를 들면, 음성 데이터, 화상 데이터, 영상 데이터 등)를 분석할 수도 있다.

예를 들면, 음성 데이터를 분석할 경우, 데이터 분석 시스템은 상기 음성 데이터 자체를 분석의 대상으로 해도 좋고, 음성 인식에 의해 상기 음성 데이터를 문서 데이터로 변환하고, 변환 후의 문서 데이터를 분석의 대상으로 해도 된다. 전자의 경우, 데이터 분석 시스템은, 예를 들면 음성 데이터를 소정 길이의 부분음성으로 분할해서 구성요소로 하고, 임의의 음성 분석 방법(예를 들면, 은닉 마르코프 모델, 칼만 필터 등)을 이용하여 상기 부분음성을 식별함으로써 상기 음성 데이터를 분석할 수 있다. 후자의 경우, 임의의 음성 인식 알고리즘(예를 들면, 은닉 마르코프 모델을 사용한 인식 방법 등)을 이용하여 음성을 인식하고, 인식 후의 데이터에 대하여 실시형태에 있어서 설명한 순서와 같은 순서로 분석할 수 있다.

또한, 화상 데이터를 분석할 경우 데이터 분석 시스템은, 예를 들면 화상 데이터를 소정 크기의 부분화상으로 분할해서 구성요소로 하고, 임의의 화상 인식 방법(예를 들면, 패턴 매칭, 서포트 벡터 머신, 뉴럴 네트워크 등)을 이용하여 상기 부분화상을 식별함으로써 상기 화상 데이터를 분석할 수 있다.

또한, 영상 데이터를 분석할 경우 데이터 분석 시스템은, 예를 들면, 영상 데이터에 포함되는 복수의 프레임 화상을 소정의 크기의 부분화상으로 각각 분할해서 구성요소로 하고, 임의의 화상 인식 방법(예를 들면, 패턴 매칭, 서포트 벡터 머신, 뉴럴 네트워크 등)을 이용하여 상기 부분화상을 식별함으로써 상기 영상 데이터를 분석할 수 있다.

[소프트웨어·하드웨어에 의한 실현예]

데이터 분석 시스템의 제어 블록은 집적회로(IC칩) 등에 형성된 논리회로(하드웨어)에 의해 실현해도 좋고, CPU(Central Processing Unit)를 이용하여 소프트웨어에 의해 실현해도 좋다. 후자의 경우, 데이터 분석 시스템은 각 기능을 실현하는 소프트웨어인 프로그램(데이터 분석 시스템의 제어 프로그램)을 실행하는 CPU, 상기 프로그램 및 각종 데이터가 컴퓨터(또는 CPU)에서 판독 가능하게 기록된 ROM(Read Only Memory) 또는 기억장치(이것들을 「기록매체」라고 칭한다), 상기 프로그램을 전개하는 RAM(Random Access Memory) 등을 구비하고 있다. 그리고, 컴퓨터(또는 CPU)가 상기 프로그램을 상기 기록매체로부터 판독하여 실행함으로써 본 발명의 목적이 달성된다. 상기 기록매체로서는 「일시적이지 않은 유형의 매체」, 예를 들면, 테이프, 디스크, 카드, 반도체 메모리, 프로그램 가능한 논리회로 등을 사용할 수 있다. 또한, 상기 프로그램은 상기 프로그램을 전송 가능한 임의의 전송매체(통신 네트워크나 방송파 등)를 통해서 상기 컴퓨터에 공급되어도 좋다. 본 발명은 상기 프로그램이 전자적인 전송에 의해 구현화 된 반송파에 매입된 데이터 신호의 형태로도 실현될 수 있다. 또한, 상기 프로그램은 임의의 프로그래밍 언어에 의해 실장 가능하고, 예를 들면 Python, ActionScript, JavaScript(등록상표) 등의 스크립트 언어, Objective-C, Java(등록상표) 등의 오브젝트 지향 프로그래밍 언어, HTML5 등의 마크업 언어 등을 이용하여 실장될 수 있다. 또한, 상기 프로그램을 기록한 임의의 기록매체(컴퓨터 판독 가능한 기록매체)도 본 발명의 범주에 들어간다.

[정리]

본 발명의 제 1 형태에 의한 데이터 분석 시스템은 대상 데이터를 평가하는 데이터 분석 시스템으로서, 상기 시스템은 메모리와, 입력 제어장치와, 컨트롤러를 구비하고, 상기 컨트롤러는 복수의 대상 데이터를 평가하고, 상기 평가는 각 대상 데이터와 소정 사안의 관련성에 대응하는 것이며, 상기 복수의 대상 데이터의 서열화를 가능하게 하는 지표를 상기 평가에 의해 생성하고, 유저가 상기 입력 제어장치를 통해서 부여한 입력에 의거하여 상기 지표를 변화시킬 수 있고, 상기 메모리는 상기 컨트롤러가 평가하는 상기 복수의 대상 데이터를 적어도 일시적으로 기억하고, 상기 입력 제어장치는 상기 컨트롤러가 상기 복수의 대상 데이터를 서열화하기 위한 입력을 상기 유저에 허용하고, 상기 복수의 대상 데이터의 서열은 상기 입력에 근거해서 변화되는 상기 지표에 따라 변화되는 것이며, 상기 입력은 상기 복수의 대상 데이터와는 다른 참조 데이터를 상기 참조 데이터와 상기 소정 사안의 관련성에 의거하여 분류하는 것이며, 상기 분류는 상기 참조 데이터의 내용에 따라 복수의 분류정보로 나뉘어진 것이며, 상기 복수의 분류정보 중 적어도 1개는 상기 입력에 의해 상기 참조 데이터에 부여되는 것이며, 상기 참조 데이터를 상기 유저에 제시하고, 상기 유저의 입력에 의해 상기 제시된 참조 데이터에 대하여 주어진 상기 적어도 1개의 분류정보와 상기 참조 데이터의 조합을 상기 컨트롤러에 제공하고, 상기 컨트롤러는 상기 참조 데이터에 포함되는 복수의 구성요소가 상기 입력 제어장치로부터 제공된 조합에 각각 기여하는 정도를 평가함으로써, 상기 입력에 의해 부여된 분류정보에 따라 상기 참조 데이터가 특징지어지는 패턴을 상기 참조 데이터로부터 추출하고, 상기 추출한 패턴에 의거하여 상기 대상 데이터와 상기 소정 사안의 관련성을 평가해서 상기 지표를 결정하고, 상기 결정한 지표를 상기 대상 데이터에 설정하고, 상기 지표에 따라 상기 복수의 대상 데이터를 서열화하고, 상기 서열화한 복수의 대상 데이터를 유저에 통지한다.

또한, 본 발명의 제 2 형태에 의한 데이터 분석 시스템은, 상기 제 1 형태에 있어서 상기 컨트롤러는 상기 지표와 소정의 역치를 비교하고, 상기 비교한 결과 에 의거하여 상기 복수의 대상 데이터 각각에 상기 소정의 사안에 관련되는 분류정보를 설정한다.

또한, 본 발명의 제 3 형태에 의한 데이터 분석 시스템은 상기 제 1∼2의 형태에 있어서, 상기 컨트롤러는 상기 복수의 대상 데이터가 소정 판정기준을 만족시키고 있는지의 여부를 판정하고, 상기 소정의 판정기준을 만족시키고 있다고 판정된 복수의 대상 데이터로부터 소정 수의 대상 데이터를 선출하고, 상기 패턴에 의거하여 상기 소정 수의 대상 데이터를 각각 재평가하고, 상기 재평가한 결과에 의거하여 상기 소정의 판정기준을 변경한다.

또한, 본 발명의 제 4 형태에 의한 데이터 분석 시스템은 상기 제 1∼3 형태에 있어서, 상기 컨트롤러는 새로운 참조 데이터와 상기 새로운 참조 데이터에 부여되는 상기 분류정보의 조합을 더 취득하고, 상기 새로운 참조 데이터의 적어도 일부의 구성요소가 상기 새로운 참조 데이터와 분류정보의 조합에 기여하는 정도를 평가함으로써 상기 패턴을 갱신하고, 상기 갱신한 패턴에 의거하여 상기 대상 데이터와 상기 소정 사안의 관련성을 평가하고, 상기 지표를 결정한다.

또한, 본 발명의 제 5 형태에 의한 데이터 분석 시스템은 상기 제 1∼4 형태에 있어서, 상기 컨트롤러는 상기 복수의 대상 데이터를 평가한 결과에 의거하여 재현율을 산출하고, 상기 재현율이 상승하도록 상기 참조 데이터로부터 반복하여 상기 패턴을 추출한다.

또한, 본 발명의 제 6 형태에 의한 데이터 분석 시스템은 상기 제 1∼5 형태에 있어서, 상기 컨트롤러는 상기 입력 제어장치로부터 상기 조합이 제공될 때마다 상기 분류정보에 대응하는 상기 참조 데이터 중 적어도 일부의 구성요소가 상기 조합에 기여하는 정도를 평가함으로써 상기 패턴을 축차 갱신한다.

또한, 본 발명의 제 7 형태에 의한 데이터 분석 시스템은 상기 제 1∼6 형태에 있어서, 상기 컨트롤러는 상기 대상 데이터 중 적어도 일부의 구성요소에 대응하는 개념을 상기 구성요소와 상기 개념을 대응시킨 데이터베이스를 참조함으로써 추출하고, 상기 추출한 개념에 의거하여 상기 복수의 대상 데이터의 요약을 출력한다.

또한, 본 발명의 제 8 형태에 의한 데이터 분석 시스템은 상기 제 1∼7 형태에 있어서, 상기 컨트롤러는 상기 복수의 대상 데이터에 공통되어서 포함되는 주제마다 상기 복수의 대상 데이터를 클러스터링한다.

또한, 본 발명의 제 9 형태에 의한 데이터 분석 시스템은 상기 제 1∼8 형태에 있어서, 상기 대상 데이터는 상기 소정의 사안에 대한 유저의 평가 정보를 적어도 포함하고, 상기 컨트롤러는 상기 대상 데이터를 생성한 유저의 감정이며 상기 평가 정보에 의거해서 생긴 상기 소정의 사안에 대한 감정을 상기 대상 데이터로부터 추출한다.

또한, 본 발명의 제 10 형태에 의한 데이터 분석 시스템은 상기 제 1∼9 형태에 있어서, 상기 컨트롤러는 상기 분류정보가 대응지어진 대상 데이터의, 모든 대상 데이터에 대한 비율에 따른 그라이데이션을 이용하여 상기 복수의 대상 데이터를 각각 평가한 결과에 대한 상기 비율의 분포를 시인 가능하게 표시한다.

또한, 본 발명의 제 11 형태에 의한 데이터 분석 시스템은 상기 제 1∼10 형태에 있어서, 상기 복수의 대상 데이터는 복수의 계산기 사이에서 송수신되는 정보이며, 상기 컨트롤러는 상기 송수신되는 정보를 분석한 결과에 의거하여 상기 복수의 계산기 사이의 긴밀도를 가시화한다.

또한, 본 발명의 제 12 형태에 의한 데이터 분석 시스템은 상기 제 1∼11 형태에 있어서, 상기 패턴은 시간의 경과에 따라 변화될 수 있는 것이며, 상기 컨트롤러는 상기 참조 데이터를 소정 시간마다 취득하고, 상기 소정 시간마다 취득한 복수의 참조 데이터 각각으로부터 상기 패턴을 추출하고, 상기 패턴에 의거하여 상기 소정 시간마다 상기 복수의 대상 데이터 각각을 평가해서 상기 지표를 결정한다.

또한, 본 발명의 제 13 형태에 의한 데이터 분석 시스템은 상기 제 1∼12 형태에 있어서, 상기 컨트롤러는 상기 대상 데이터의 적어도 일부를 구성하는 부분대상 데이터를 상기 대상 데이터를 분할함으로써 복수 생성하고, 상기 추출한 패턴에 의거하여 상기 복수의 부분대상 데이터를 각각 평가하고, 상기 복수의 부분대상 데이터를 평가해서 얻어진 상기 지표를 통합하고, 상기 통합한 지표를 이용하여 상기 복수의 대상 데이터를 각각 평가한다.

또한, 본 발명의 제 14 형태에 의한 데이터 분석 시스템은 상기 제 1∼13 형태에 있어서, 상기 컨트롤러는 상기 구성요소와, 상기 구성요소를 포함하는 참조 데이터를 분류하는 상기 분류정보의 관계의 강도에 의거하여 상기 구성요소에 대한 평가값을 상기 정도를 평가한 결과로서 산출하고, 상기 대상 데이터의 적어도 일부의 구성요소에 대하여 산출된 평가값에 의거하여 상기 대상 데이터와 상기 소정 사안의 관련성의 고저를 나타내도록 상기 지표를 결정함으로써, 상기 복수의 대상 데이터를 평가한다.

또한, 본 발명의 제 15 형태에 의한 데이터 분석 시스템은 상기 제 1∼14 형태에 있어서, 상기 컨트롤러는 상기 구성요소와, 상기 구성요소와는 다른 별도의 구성요소가, 동일한 참조 데이터의 적어도 일부에 출현하는 빈도에 의거하여 상기 구성요소와 상기 별도의 구성요소의 상관을 평가하고, 상기 상관에 또한 의거하여 상기 복수의 대상 데이터를 각각 평가한다.

또한, 본 발명의 제 16 형태에 의한 데이터 분석 시스템은 상기 제 1∼15 형태에 있어서, 상기 컨트롤러는 상기 소정의 사안에 의한 소정 행위의 진전을 예측가능한 모델에 의거하여 상기 복수의 대상 데이터를 평가함으로써 결정한 지표로부터 다음 행위를 제시한다.

또한, 본 발명의 제 17 형태에 의한 데이터 분석 시스템은 상기 제 1∼16 형태에 있어서, 상기 컨트롤러는 소정의 행위가 진전되는 각 단계를 나타내는 지표인 페이즈마다 상기 복수의 대상 데이터를 평가하고, 상기 복수의 대상 데이터를 평가함으로써 상기 페이즈마다 결정된 지표로부터 현재의 페이즈를 특정한다.

또한, 본 발명의 제 18 형태에 의한 데이터 분석 시스템은 상기 제 1∼17 형태에 있어서, 상기 대상 데이터는 1 이상의 문장을 적어도 일부에 포함하는 문서 데이터이며, 상기 컨트롤러는 상기 문장이 갖는 구조를 해석하고, 상기 해석한 결과에 의거하여 상기 대상 데이터에 상기 지표를 결정한다.

또한, 본 발명의 제 19 형태에 의한 데이터 분석 시스템은 상기 제 18 형태에 있어서, 상기 컨트롤러는 상기 문장이 갖는 구조를 해석한 결과에 의거하여 상기 문장의 표현 형태를 판정하고, 상기 판정한 결과에 의거하여 상기 대상 데이터를 평가한다.

또한, 본 발명의 제 1 형태에 의한 데이터 분석 방법은 대상 데이터를 평가하는 데이터 분석 방법으로서, 복수의 대상 데이터를 평가기준에 의거하여 각각 평가하고, 상기 평가기준은 각 대상 데이터와 소정 사안의 관련성에 대응하는 제 1 스텝과, 상기 평가에 의해 상기 복수의 대상 데이터의 서열화를 가능하게 하는 지표를 생성하고, 상기 지표를 유저가 부여한 입력에 따라 변화시킬 수 있는 제 2 스텝과, 상기 제 1 스텝에서 평가되는 상기 복수의 대상 데이터를 적어도 일시적으로 기억하는 제 3 스텝과, 상기 복수의 대상 데이터를 서열화하기 위한 입력을 상기 유저에 허용하고, 상기 복수의 대상 데이터의 서열은 상기 입력에 따라 변화되는 상기 지표에 따라 변화되는 것이며, 상기 입력은 상기 복수의 대상 데이터와는 다른 참조 데이터를, 상기 참조 데이터와 상기 소정 사안의 관련성에 의거하여 분류하는 것이며, 상기 분류는 상기 참조 데이터의 내용에 따라 복수의 분류정보로 나뉘어진 것이며, 상기 복수의 분류정보 중 적어도 1개는 상기 입력에 의해 상기 참조 데이터에 부여되는 제 4 스텝과, 상기 참조 데이터를 상기 유저에 제시하는 제 5 스텝과, 상기 유저의 입력에 의해 상기 제시된 참조 데이터에 대하여 주어진 상기 적어도 1개의 분류정보와 상기 참조 데이터의 조합을 제공하는 제 6 스텝과, 상기 참조 데이터에 포함되는 복수의 구성요소가 상기 제공된 조합에 각각 기여하는 정도를 평가함으로써 상기 입력에 의해 부여된 분류정보에 따라 상기 참조 데이터가 특징지어지는 패턴을 상기 참조 데이터로부터 추출하는 제 7 스텝과, 상기 추출한 패턴을 상기 평가기준으로 하고, 상기 패턴에 의거하여 상기 대상 데이터와 상기 소정 사안의 관련성을 평가해서 상기 지표를 결정하는 제 8 스텝과, 상기 결정된 지표를 상기 대상 데이터에 설정하는 제 9 스텝과, 상기 지표에 따른 상기 복수의 대상 데이터의 서열화를 실행하는 제 10 스텝과, 상기 서열화한 복수의 대상 데이터를 유저에 통지하는 제 11 스텝을 포함한다.

또한, 본 발명의 제 1 형태에 의한 데이터 분석 프로그램은, 컴퓨터에 상기 제 1 형태에 의한 데이터 분석 방법의 각 스텝을 실행시킨다.

또한, 본 발명의 제 1 형태에 의한 기록매체는, 상기 제 1 형태에 의한 데이터 분석 프로그램을 기록한다.

또한, 본 발명의 별도 형태에 의한 데이터 분석 시스템은 메모리와 상기 메모리에 격납된 1 이상의 프로그램을 실행 가능한 1 이상의 컨트롤러를 구비하고, 상기 메모리에 기억된 데이터 세트에 포함되는 복수의 데이터를 각각 평가하는 데이터 분석 시스템으로서, 상기 컨트롤러는 참조 데이터와 상기 참조 데이터를 분류하는 분류정보의 조합을 복수 포함하는 데이터 세트를 참조 데이터 세트로서 취득하고, 상기 참조 데이터의 적어도 일부를 구성하는 복수의 구성요소가 상기 취득한 참조 데이터 세트에 포함되는 복수의 조합에 기여하는 정도를 각각 평가함으로써 상기 참조 데이터에 포함되는 패턴을 학습하고, 상기 학습한 패턴에 의거하여 복수의 대상 데이터를 서열화함으로써 상기 복수의 대상 데이터를 각각 평가하고, 상기 복수의 대상 데이터를 각각 평가한 결과에 의거하여 상기 복수의 대상 데이터를 소정의 표시 인터페이스를 통해서 유저에 제시한다.

(산업상의 이용 가능성)

본 발명은 퍼서널 컴퓨터, 서버, 워크스테이션, 메인프레임 등, 임의의 컴퓨터에 널리 적용할 수 있다.

10 : 클라이언트 장치 12 : 관리 계산기
14 : 업무 서버 18 : 스토리지 시스템
22 : 데이터베이스

Claims

대상 데이터를 평가하는 데이터 분석 시스템으로서,
상기 시스템은 메모리와, 입력 제어장치와, 컨트롤러를 구비하고,
상기 컨트롤러는,
복수의 대상 데이터를 평가하고, 상기 평가는 각 대상 데이터와 소정 사안의 관련성에 대응하는 것이며,
상기 복수의 대상 데이터의 서열화를 가능하게 하는 지표를 상기 평가에 의해 생성하고,
유저가 상기 입력 제어장치를 통해서 부여한 입력에 의거하여 상기 지표를 변화시킬 수 있고,
상기 메모리는,
상기 컨트롤러가 평가하는 상기 복수의 대상 데이터를 적어도 일시적으로 기억하고,
상기 입력 제어장치는,
상기 컨트롤러가 상기 복수의 대상 데이터를 서열화하기 위한 입력을 상기 유저에 허용하고, 상기 복수의 대상 데이터의 서열은 상기 입력에 의거해서 변화하는 상기 지표에 따라 변화되는 것이며, 상기 입력은 상기 복수의 대상 데이터와는 다른 참조 데이터를 상기 참조 데이터와 상기 소정 사안의 관련성에 의거하여 분류하는 것이며, 상기 분류는 상기 참조 데이터의 내용에 따라 복수의 분류정보로 나뉘어진 것이며, 상기 복수의 분류정보 중 적어도 1개는 상기 입력에 의해 상기 참조 데이터에 부여되는 것이며,
상기 참조 데이터를 상기 유저에 제시하고,
상기 유저의 입력에 의해 상기 제시된 참조 데이터에 대하여 주어진 상기 적어도 1개의 분류정보와 상기 참조 데이터의 조합을 상기 컨트롤러에 제공하고,
상기 컨트롤러는,
상기 참조 데이터에 포함되는 복수의 구성요소가 상기 입력 제어장치로부터 제공된 조합에 각각 기여하는 정도를 평가함으로써 상기 입력에 의해 부여된 분류정보에 따라 상기 참조 데이터가 특징지어지는 패턴을 상기 참조 데이터로부터 추출하고,
상기 추출한 패턴에 의거하여 상기 대상 데이터와 상기 소정 사안의 관련성을 평가해서 상기 지표를 결정하고,
상기 결정한 지표를 상기 대상 데이터에 설정하고,
상기 지표에 따라서 상기 복수의 대상 데이터를 서열화하고,
상기 서열화한 복수의 대상 데이터를 유저에 통지하는 데이터 분석 시스템.
제 1 항에 있어서,
상기 컨트롤러는 상기 지표와 소정의 역치를 비교하고, 상기 비교한 결과에 의거하여 상기 복수의 대상 데이터 각각에 상기 소정의 사안에 관련되는 분류정보를 설정하는 데이터 분석 시스템.
제 1 항 또는 제 2 항에 있어서,
상기 컨트롤러는,
상기 복수의 대상 데이터가 소정의 판정기준을 만족시키고 있는지의 여부를 판정하고,
상기 소정의 판정기준을 만족시키고 있다고 판정된 복수의 대상 데이터로부터 소정 수의 대상 데이터를 선출하고,
상기 패턴에 의거하여 상기 소정 수의 대상 데이터를 각각 재평가하고,
상기 재평가한 결과에 의거하여 상기 소정의 판정기준을 변경하는 데이터 분석 시스템.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
상기 컨트롤러는,
새로운 참조 데이터와 상기 새로운 참조 데이터에 부여되는 상기 분류정보의 조합을 더 취득하고,
상기 새로운 참조 데이터의 적어도 일부의 구성요소가 상기 새로운 참조 데이터와 분류정보의 조합에 기여하는 정도를 평가함으로써 상기 패턴을 갱신하고,
상기 갱신한 패턴에 의거하여 상기 대상 데이터와 상기 소정 사안의 관련성을 평가하고, 상기 지표를 결정하는 데이터 분석 시스템.
제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
상기 컨트롤러는,
상기 복수의 대상 데이터를 평가한 결과에 의거하여 재현율을 산출하고,
상기 재현율이 상승하도록 상기 참조 데이터로부터 반복하여 상기 패턴을 추출하는 데이터 분석 시스템.
제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
상기 컨트롤러는,
상기 입력 제어장치로부터 상기 조합이 제공될 때마다 상기 분류정보에 대응하는 상기 참조 데이터의 적어도 일부의 구성요소가 상기 조합에 기여하는 정도를 평가함으로써 상기 패턴을 축차 갱신하는 데이터 분석 시스템.
제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
상기 컨트롤러는,
상기 대상 데이터의 적어도 일부의 구성요소에 대응하는 개념을 상기 구성요소와 상기 개념을 대응시킨 데이터베이스를 참조함으로써 추출하고,
상기 추출한 개념에 의거하여 상기 복수의 대상 데이터의 요약을 출력하는 데이터 분석 시스템.
제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
상기 컨트롤러는,
상기 복수의 대상 데이터에 공통되어서 포함되는 주제마다 상기 복수의 대상 데이터를 클러스터링하는 데이터 분석 시스템.
제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
상기 대상 데이터는 상기 소정의 사안에 대한 유저의 평가 정보를 적어도 포함하고,
상기 컨트롤러는,
상기 대상 데이터를 생성한 유저의 감정으로서 상기 평가 정보에 근거해서 생긴 상기 소정의 사안에 대한 감정을 상기 대상 데이터로부터 추출하는 데이터 분석 시스템.
제 1 항 내지 제 9 항 중 어느 한 항에 있어서,
상기 컨트롤러는,
상기 분류정보가 대응지어진 대상 데이터의, 모든 대상 데이터에 대한 비율에 따른 그라이데이션을 이용하여 상기 복수의 대상 데이터를 각각 평가한 결과에 대한 상기 비율의 분포를 시인 가능하게 표시하는 데이터 분석 시스템.
제 1 항 내지 제 10 항 중 어느 한 항에 있어서,
상기 복수의 대상 데이터는 복수의 계산기 사이에서 송수신되는 정보이며,
상기 컨트롤러는,
상기 송수신되는 정보를 분석한 결과에 의거하여 상기 복수의 계산기 사이의 긴밀도를 가시화하는 데이터 분석 시스템.
제 1 항 내지 제 11 항 중 어느 한 항에 있어서,
상기 패턴은 시간의 경과에 따라서 변화될 수 있는 것이며,
상기 컨트롤러는,
상기 참조 데이터를 소정 시간마다 취득하고,
상기 소정 시간마다 취득한 복수의 참조 데이터 각각으로부터 상기 패턴을 추출하고,
상기 패턴에 의거하여 상기 소정 시간마다 상기 복수의 대상 데이터 각각을 평가해서 상기 지표를 결정하는 데이터 분석 시스템.
제 1 항 내지 제 12 항 중 어느 한 항에 있어서,
상기 컨트롤러는,
상기 대상 데이터의 적어도 일부를 구성하는 부분대상 데이터를 상기 대상 데이터를 분할함으로써 복수 생성하고,
상기 추출한 패턴에 의거하여 상기 복수의 부분대상 데이터를 각각 평가하고,
상기 복수의 부분대상 데이터를 평가해서 얻어진 상기 지표를 통합하고,
상기 통합한 지표를 이용하여 상기 복수의 대상 데이터를 각각 평가하는 데이터 분석 시스템.
제 1 항 내지 제 13 항 중 어느 한 항에 있어서,
상기 컨트롤러는,
상기 구성요소와 상기 구성요소를 포함하는 참조 데이터를 분류하는 상기 분류정보의 관계의 강도에 의거하여 상기 구성요소에 대한 평가값을 상기 정도를 평가한 결과로서 산출하고,
상기 대상 데이터의 적어도 일부의 구성요소에 대하여 산출된 평가값에 의거하여 상기 대상 데이터와 상기 소정 사안의 관련성의 고저를 나타내도록 상기 지표를 결정함으로써 상기 복수의 대상 데이터를 평가하는 데이터 분석 시스템.
제 1 항 내지 제 14 항 중 어느 한 항에 있어서,
상기 컨트롤러는,
상기 구성요소와 상기 구성요소와는 다른 별도의 구성요소가 동일한 참조 데이터의 적어도 일부에 출현하는 빈도에 의거하여 상기 구성요소와 상기 별도의 구성요소의 상관을 평가하고,
상기 상관에 또한 의거하여 상기 복수의 대상 데이터를 각각 평가하는 데이터 분석 시스템.
제 1 항 내지 제 15 항 중 어느 한 항에 있어서,
상기 컨트롤러는,
상기 소정의 사안에 관계되는 소정 행위의 진전을 예측 가능한 모델에 의거하여 상기 복수의 대상 데이터를 평가함으로써 결정한 지표로부터 다음 행위를 제시하는 데이터 분석 시스템.
제 16 항에 있어서,
상기 컨트롤러는,
소정의 행위가 진전되는 각 단계를 나타내는 지표인 페이즈마다 상기 복수의 대상 데이터를 평가하고,
상기 복수의 대상 데이터를 평가함으로써 상기 페이즈마다 결정된 지표로부터 현재의 페이즈를 특정하는 데이터 분석 시스템.
제 1 항 내지 제 17 항 중 어느 한 항에 있어서,
상기 대상 데이터는 1 이상의 문장을 적어도 일부에 포함하는 문서 데이터이며,
상기 컨트롤러는,
상기 문장이 갖는 구조를 해석하고, 상기 해석한 결과에 의거하여 상기 대상 데이터에 상기 지표를 결정하는 데이터 분석 시스템.
제 18 항에 있어서,
상기 컨트롤러는,
상기 문장이 갖는 구조를 해석한 결과에 의거하여 상기 문장의 표현 형태를 판정하고, 상기 판정한 결과에 의거하여 상기 대상 데이터를 평가하는 데이터 분석 시스템.
대상 데이터를 평가하는 데이터 분석 방법으로서,
복수의 대상 데이터를 평가기준에 의거하여 각각 평가하고, 상기 평가기준은 각 대상 데이터와 소정 사안의 관련성에 대응하는 제 1 스텝과,
상기 평가에 의해 상기 복수의 대상 데이터의 서열화를 가능하게 하는 지표를 생성하고, 상기 지표를 유저가 부여한 입력에 따라서 변화시킬 수 있는 제 2 스텝과,
상기 제 1 스텝에서 평가되는 상기 복수의 대상 데이터를 적어도 일시적으로 기억하는 제 3 스텝과,
상기 복수의 대상 데이터를 서열화하기 위한 입력을 상기 유저에 허용하고, 상기 복수의 대상 데이터의 서열은 상기 입력에 따라서 변화하는 상기 지표에 따라 변화되는 것이며, 상기 입력은 상기 복수의 대상 데이터와는 다른 참조 데이터를 상기 참조 데이터와 상기 소정 사안의 관련성에 의거하여 분류하는 것이며, 상기 분류는 상기 참조 데이터의 내용에 따라 복수의 분류정보로 나뉘어진 것이며, 상기 복수의 분류정보 중 적어도 1개는 상기 입력에 의해 상기 참조 데이터에 부여되는 제 4 스텝과,
상기 참조 데이터를 상기 유저에 제시하는 제 5 스텝과,
상기 유저의 입력에 의해 상기 제시된 참조 데이터에 대하여 주어진 상기 적어도 1개의 분류정보와 상기 참조 데이터의 조합을 제공하는 제 6 스텝과,
상기 참조 데이터에 포함되는 복수의 구성요소가 상기 제공된 조합에 각각 기여하는 정도를 평가함으로써 상기 입력에 의해 부여된 분류정보에 따라 상기 참조 데이터가 특징지어지는 패턴을 상기 참조 데이터로부터 추출하는 제 7 스텝과,
상기 추출한 패턴을 상기 평가기준으로 하고, 상기 패턴에 의거하여 상기 대상 데이터와 상기 소정 사안의 관련성을 평가해서 상기 지표를 결정하는 제 8 스텝과,
상기 결정된 지표를 상기 대상 데이터에 설정하는 제 9 스텝과,
상기 지표에 따른 상기 복수의 대상 데이터의 서열화를 실행하는 제 10 스텝과,
상기 서열화한 복수의 대상 데이터를 유저에 통지하는 제 11 스텝을 포함하는 데이터 분석 방법.
제 20 항에 기재된 데이터 분석 방법에 포함되는 각 스텝을, 컴퓨터에 실행시키는 데이터 분석 프로그램.
제 21 항에 기재된 데이터 분석 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.