KR20170107500A - 시계열 데이터 검색 장치 및 기록 매체에 저장된 시계열 데이터 검색 프로그램 - Google Patents

시계열 데이터 검색 장치 및 기록 매체에 저장된 시계열 데이터 검색 프로그램 Download PDF

Info

Publication number
KR20170107500A
KR20170107500A KR1020177023188A KR20177023188A KR20170107500A KR 20170107500 A KR20170107500 A KR 20170107500A KR 1020177023188 A KR1020177023188 A KR 1020177023188A KR 20177023188 A KR20177023188 A KR 20177023188A KR 20170107500 A KR20170107500 A KR 20170107500A
Authority
KR
South Korea
Prior art keywords
segment
initial
training
value
center
Prior art date
Application number
KR1020177023188A
Other languages
English (en)
Other versions
KR101970090B1 (ko
Inventor
다카아키 나카무라
마코토 이마무라
Original Assignee
미쓰비시덴키 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 미쓰비시덴키 가부시키가이샤 filed Critical 미쓰비시덴키 가부시키가이샤
Publication of KR20170107500A publication Critical patent/KR20170107500A/ko
Application granted granted Critical
Publication of KR101970090B1 publication Critical patent/KR101970090B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/06Arrangements for sorting, selecting, merging, or comparing data on individual record carriers
    • G06F7/08Sorting, i.e. grouping record carriers in numerical or other ordered sequence according to the classification of at least some of the information they carry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • G06F17/30386
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0259Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterized by the response to fault detection
    • G05B23/0264Control of logging system, e.g. decision on which data to store; time-stamping measurements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Operations Research (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

초기 세그먼트 집합 생성부(120)는 훈련 시계열 데이터(S)로부터 초기 세그먼트 집합(F)을 생성한다. 초기 세그먼트 집합 소트부(130)는 초기 세그먼트 집합에 포함되는 초기 세그먼트를 특징량의 순서로 소트한다. 표본 세그먼트 집합 생성부(140)는 초기 세그먼트 집합으로부터 표본 세그먼트 집합(E)을 생성한다. 표본 세그먼트 집합 소트부(150)는 표본 세그먼트 집합에 포함되는 표본 세그먼트를 특징량의 순서로 소트한다. 검색 결과 거리 산출부(160)는 표본 세그먼트 집합을 이용하여 테스트 세그먼트마다의 검색 결과 거리(Z)를 산출한다.

Description

시계열 데이터 검색 장치 및 시계열 데이터 검색 프로그램
본 발명은, 시계열 데이터를 검색하는 기술에 관한 것이다.
발전 플랜트, 화학 플랜트, 철강 플랜트, 상하수도 플랜트 등에서는, 플랜트의 프로세스를 제어하기 위한 제어 시스템이 도입되어 있다. 빌딩 또는 공장 등의 설비에서도, 공기 조절, 전기, 조명 및 급배수 등을 제어하기 위한 제어 시스템이 도입되어 있다. 또한, 공장의 라인의 기기, 자동차 및 철도 차량에는, 기기의 상태를 파악하기 위해, 기기의 상태를 기록하는 로깅 시스템이 탑재되어 있다.
이들 시스템에서는, 기기에 설치된 센서에 의해, 시간의 경과에 따라 얻어진 여러 가지의 시계열 데이터가 축적된다.
시계열 데이터는 이하와 같이 분석된다.
최근의 시계열 데이터인 테스트 시계열 데이터로부터 추출한 부분 시계열 데이터가 과거의 시계열 데이터인 훈련 시계열 데이터로부터 추출한 부분 시계열 데이터와 비교되고, 훈련 시계열 데이터의 부분 시계열 데이터와 유사한 테스트 시계열 데이터의 부분 시계열 데이터가 검색된다. 그리고, 이 유사한 테스트 시계열 데이터의 부분 시계열 데이터 중에서도, 훈련 시계열 데이터의 부분 시계열 데이터와 가장 유사하지 않은 테스트 시계열 데이터의 부분 시계열 데이터가, 특이점으로 검출된다. 그리고, 특이점의 검출에 의해 기기의 이상이 검출된다.
부분 시계열 데이터는, 시계열 데이터로부터 슬라이드 시간 창 폭의 길이로 추출한 데이터이고, 세그먼트로 불린다.
테스트 시계열 데이터의 세그먼트마다 거리가 가장 가까운 훈련 시계열 데이터의 세그먼트를 추출하고, 훈련 시계열 데이터의 세그먼트와의 거리가 가장 먼 테스트 시계열 데이터의 세그먼트가 특이점이다. 세그먼트 사이의 거리의 종류로서, 유클리드 거리 및 DTW 거리가 널리 이용되고 있다. DTW는 Dynamic Time Warping의 약칭이다.
여기서, 상기의 특이점 검출 방식을 단순한 방식(simple approach)이라고 부른다.
단순한 방식에서는, 훈련 시계열 데이터의 세그먼트와 테스트 시계열 데이터의 세그먼트의 모든 조합으로 거리를 구하기 때문에, 계산량이 대폭 증가한다.
비 특허 문헌 1은, 세그먼트 사이의 거리의 계산보다 계산량이 적은 지표를 이용하여 거리의 계산을 중단하는 것에 의해, 계산량을 삭감하는 방식을 제안하고 있다.
비 특허 문헌 2는, 테스트 시계열 데이터의 세그먼트와 표본 세그먼트를 비교하는 것에 의해, 계산량을 삭감하는 방식을 제안하고 있다. 표본 세그먼트는, Exemplar로 불리고, 훈련 시계열 데이터로부터 유사한 세그먼트를 집약하여 생성된다.
비 특허 문헌 2의 방식은, 표본 세그먼트의 수를 충분히 줄일 수 있으면, 단순한 방식 및 비 특허 문헌 1의 방식과 비교하여 대폭 계산량을 삭감할 수 있다.
그러나, 비 특허 문헌 2의 방식은, 훈련 시계열 데이터를 표본화하는 것에 의해 근사해를 구하는 방식이기 때문에, 그 오차인 근사 오차에 주의할 필요가 있다.
비 특허 문헌 2의 방식에 있어서, 표본 세그먼트와의 거리가 임계치 이하인 테스트 세그먼트가 존재하는 한, 그 테스트 세그먼트와 표본 세그먼트의 결합이 반복된다. 그 결과, 근사 오차가 증가하고, 근사 오차가 허용 범위에 들어가는 것을 보증할 수 없다.
또한, 표본 세그먼트에 포함되는 근사 오차를 정량적으로 구할 수도 없기 때문에, 검색 결과에 포함되는 오차를 평가할 수도 없다.
비 특허 문헌 3은, 세그먼트 사이 거리의 임계치 판정에 이용하는 특징량으로서 복잡도를 개시하고 있다.
(선행 기술 문헌)
(비 특허 문헌)
(비 특허 문헌 1) Rakthanmanon, et al., Searching and mining trillions of time series subsequences under dynamic time warping, KDD'12 Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining Pages 262-270.
(비 특허 문헌 2) M Jones, et al., Anomaly Detection in Real-Valued Multidimensional Time Series, ASE Stanford University Conference, May 2014; Paper No. 027.
(비 특허 문헌 3) Jesin Zakaria, Developing Efficient Algorithms for Data Mining Large Scale High Dimensional Data, UC Riverside Electronic Theses and Dissertations, 2013., https://escholarship.org/uc/item/660316zp
본 발명은, 시계열 데이터의 검색에 이용하는 표본 세그먼트 집합을, 근사 오차가 허용 범위에 들어가는 것을 보증함과 아울러, 고속으로 생성할 수 있도록 하는 것을 목적으로 한다.
본 발명의 시계열 데이터 검색 장치는, 시계열로 배열된 복수의 데이터 값으로 이루어지는 훈련 시계열 데이터로부터 W개의 데이터 값을 시계열의 순서로 추출하여 얻어지는 훈련 세그먼트를 복수 생성하고, 시계열의 순서로 배열된 1개 이상의 훈련 세그먼트로 이루어지는 훈련 일시 세그먼트 집합(training temporary segment set)을 복수 생성하고, 훈련 일시 세그먼트 집합의 각각의 훈련 세그먼트에 포함되는 W개의 데이터 값이 W차원의 좌표계의 좌표치로서 다루어진 경우의 훈련 일시 세그먼트 집합의 중심(重心)의 좌표치를 나타내는 W개의 데이터 값을 초기 세그먼트로서 훈련 일시 세그먼트 집합마다 산출하고, 훈련 일시 세그먼트 집합마다의 초기 세그먼트로 이루어지는 초기 세그먼트 집합을 생성하는 초기 세그먼트 집합 생성부와, 상기 초기 세그먼트 집합을, 반경의 조건인 조건 반경을 갖는 W차원의 도형마다 도형에 포함되는 좌표치를 나타내는 데이터 값으로 이루어지는 초기 세그먼트로 구성되는 초기 일시 세그먼트 집합으로 분할하고, 초기 일시 세그먼트 집합의 도형의 중심(重心)의 좌표치를 나타내는 W개의 데이터 값으로 이루어지는 표본 세그먼트를 초기 일시 세그먼트 집합마다 포함하는 표본 세그먼트 집합을 생성하는 표본 세그먼트 집합 생성부를 구비한다.
본 발명에 의하면, 시계열 데이터의 검색에 이용하는 표본 세그먼트 집합을 고속으로 생성할 수 있다.
도 1은 실시의 형태 1에 있어서의 시계열 데이터 검색 장치(100)의 기능 구성도.
도 2는 실시의 형태 1에 있어서의 시계열 데이터 검색 장치(100)의 하드웨어 구성도.
도 3은 실시의 형태 1에 있어서의 시계열 데이터 검색 방법의 플로우차트.
도 4는 실시의 형태 1에 있어서의 초기 세그먼트 집합 생성 처리(S110)의 플로우차트.
도 5는 실시의 형태 1에 있어서의 표본 세그먼트 집합 생성 처리(S130)의 플로우차트.
도 6은 실시의 형태 1에 있어서의 표본 세그먼트 집합 생성 처리(S130)의 제 2 루프 처리(S132)의 플로우차트.
도 7은 실시의 형태 1에 있어서의 검색 결과 거리 산출 처리(S150)의 플로우차트.
도 8은 실시의 형태 7에 있어서의 초기 세그먼트 집합 생성 처리(S110)의 플로우차트.
도 9는 실시의 형태 7에 있어서의 표본 세그먼트 집합 생성 처리(S130)의 플로우차트.
도 10은 실시의 형태 7에 있어서의 표본 세그먼트 집합 생성 처리(S130)의 제 2 루프 처리(S132)의 플로우차트.
도 11은 각 실시의 형태에 있어서의 표본 세그먼트에 관한 개념도.
도 12는 각 실시의 형태에 있어서의 표본 세그먼트에 관한 개념도.
도 13은 각 실시의 형태에 있어서의 표본 세그먼트에 관한 개념도.
도 14는 각 실시의 형태에 있어서의 표본 세그먼트에 관한 개념도.
도 15는 각 실시의 형태에 있어서의 표본 세그먼트에 관한 개념도.
도 16은 각 실시의 형태에 있어서의 표본 세그먼트에 관한 개념도.
실시의 형태 1.
시계열 데이터의 검색에 이용하는 표본 세그먼트 집합을 고속으로 생성하는 형태에 대하여, 도 1로부터 도 7에 근거하여 설명한다.
시계열 데이터의 유사 검색의 개념에 대하여 설명한다.
시계열 데이터로부터 폭 W의 창에 의해 잘라내어진 부분 시계열 데이터는, W차원의 벡터로 간주할 수 있다. 따라서, 훈련 시계열 데이터의 부분 시계열 데이터인 훈련 세그먼트와, 테스트 시계열 데이터의 부분 시계열 데이터인 테스트 세그먼트의 거리를 구하는 처리는, W차원 공간의 2점의 좌표 사이의 거리를 구하는 처리로 간주할 수 있다.
또한, 테스트 시계열 데이터의 특이점 검출은, 훈련 세그먼트의 집합으로부터 가장 떨어진 테스트 세그먼트를 찾아내는 처리로 간주할 수 있다.
그리고, 시계열 데이터의 유사 검색은 W차원 공간의 근방 검색으로 간주할 수 있다.
시계열 데이터가 갖는 제 1 내지 제 3 특성에 대하여 설명한다.
제 1 특성은 데이터 값의 연속성이다. 온도 등의 물리 현상의 계측치의 대부분은 연속적으로 변화한다. 또한, 기계적으로 제어된 기기의 계측치는 급격하게 변화하지 않는다. 예컨대, 급한 전압의 변화는 기기의 고장의 원인이 되기 때문에, 기기에 걸리는 전압은 서서히 변화된다.
제 2 특성은 데이터 값의 주기성이다. 기기의 동작은 인간의 활동 또는 기상 현상에 강한 상관을 갖는다. 그와 같은 기기의 시계열 데이터는, 1일, 1주간 또는 1년 등 단위로 주기성을 갖는다. 또한, 프로그램에 따라 반복 동작하는 기기의 시계열 데이터에도, 동일한 패턴이 반복하여 나타난다.
제 3 특성은 데이터 값의 국재성(localization)이다. 제어된 기기의 시계열 데이터에 포함되는 계측치는 소정 범위의 값이다. 그와 같은 시계열 데이터의 세그먼트는, 다차원 공간의 한정된 영역에 집중된다. 예컨대, 계측치가 양의 값이 되도록 제어되는 기기의 시계열 데이터의 세그먼트는, 다차원 공간의 모든 차원에 있어서의 양의 영역에 포함된다.
***구성의 설명***
도 1에 근거하여, 시계열 데이터 검색 장치(100)의 기능 구성에 대하여 설명한다.
시계열 데이터 검색 장치(100)는, 시계열 데이터 취득부(110)와, 파라미터 취득부(111)와, 초기 세그먼트 집합 생성부(120)와, 초기 세그먼트 집합 소트(sort)부(130)와, 표본 세그먼트 집합 생성부(140)를 구비한다. 또한, 시계열 데이터 검색 장치(100)는, 표본 세그먼트 집합 소트부(150)와, 검색 결과 거리 산출부(160)와, 검색 결과 거리 출력부(161)와, 데이터 기억부(190)를 구비한다.
시계열 데이터 취득부(110)는, 시계열 데이터 검색 장치(100)에 입력되는 훈련 시계열 데이터 S 및 테스트 시계열 데이터 T를 취득한다.
훈련 시계열 데이터 S 및 테스트 시계열 데이터 T는, 시계열로 배열된 복수의 데이터 값으로 이루어지는 시계열 데이터이다.
파라미터 취득부(111)는, 시계열 데이터 검색 장치(100)에 입력되는 슬라이드 폭 W 및 근사 오차 ε을 입력한다.
슬라이드 폭 W는, 훈련 시계열 데이터 S로부터 추출되는 훈련 세그먼트 및 테스트 시계열 데이터 T로부터 추출되는 테스트 세그먼트에 포함되는 데이터 값의 개수이다. 슬라이드 폭 W는 슬라이드 시간 창 폭이라고도 불린다.
근사 오차 ε은 허용되는 오차의 크기이다. 파라미터 취득부(111)는 근사 오차 ε을 산출하기 위한 파라미터를 이용하여 근사 오차 ε을 산출하더라도 좋다.
초기 세그먼트 집합 생성부(120)는, 훈련 시계열 데이터 S로부터 W개의 데이터 값을 시계열의 순서로 추출하여 얻어지는 훈련 세그먼트를 복수 생성하고, 시계열의 순서로 배열된 1개 이상의 훈련 세그먼트로 이루어지는 훈련 일시 세그먼트 집합을 복수 생성한다. 초기 세그먼트 집합 생성부(120)는, 훈련 일시 세그먼트 집합마다 초기 세그먼트를 산출한다. 초기 세그먼트는, 훈련 일시 세그먼트 집합의 각각의 훈련 세그먼트에 포함되는 W개의 데이터 값이 W차원의 좌표계의 좌표치로서 다루어진 경우의 훈련 일시 세그먼트 집합의 중심(重心)의 좌표치를 나타내는 W개의 데이터 값이다. 그리고, 초기 세그먼트 집합 생성부(120)는, 훈련 일시 세그먼트 집합마다의 초기 세그먼트로 이루어지는 초기 세그먼트 집합 F를 생성한다.
훈련 일시 세그먼트 집합에 복수의 훈련 세그먼트가 포함되는 경우, 복수의 훈련 세그먼트 중 시계열의 순서의 선두의 훈련 세그먼트와 나머지의 훈련 세그먼트의 거리는 조건 반경 ε/2 이하이다.
초기 세그먼트 집합 소트부(130)는, 초기 세그먼트 집합 F에 포함되는 초기 세그먼트마다, 초기 세그먼트에 포함되는 데이터 값을 이용하여, 초기 세그먼트의 특징량을 산출한다. 그리고, 초기 세그먼트 집합 소트부(130)는, 초기 세그먼트 집합 F에 포함되는 초기 세그먼트를 특징량의 순서로 소트(sort)한다.
표본 세그먼트 집합 생성부(140)는, 초기 세그먼트 집합 F를 1개 이상의 초기 일시 세그먼트 집합으로 분할한다. 초기 일시 세그먼트 집합은, 반경의 조건인 조건 반경 ε/2를 갖는 W차원의 도형(후술하는 구 B)마다 도형에 포함되는 좌표치를 나타내는 데이터 값으로 이루어지는 초기 세그먼트로 구성된다. 그리고, 표본 세그먼트 집합 생성부(140)는, 초기 일시 세그먼트 집합마다의 표본 세그먼트를 포함하는 표본 세그먼트 집합 E를 생성한다. 표본 세그먼트는, 초기 일시 세그먼트 집합의 도형의 중심(重心)의 좌표치를 나타내는 W개의 데이터 값으로 이루어진다. 도형의 중심(重心)은 도형의 중심(中心)으로 바꿔 말할 수도 있다.
초기 일시 세그먼트 집합은 제 1 도형에 포함되는 1개 이상의 초기 세그먼트로 이루어진다. 제 1 도형은 소트 후의 초기 세그먼트 집합 F 중 선두의 초기 세그먼트가 나타내는 좌표치를 포함하는 도형이다.
선두의 초기 세그먼트를 제외하고 제 1 초기 일시 세그먼트 집합에 포함되는 초기 세그먼트는 초기 세그먼트 판정에 의해 판정된다. 초기 세그먼트 판정은, 선두의 초기 세그먼트의 다음의 초기 세그먼트로부터 차례로, 초기 세그먼트가 제 1 도형에 포함되는지 판정하는 처리이다.
특징량 차이가 특징량 차이의 조건인 특징량 차이 범위에 포함되는 경우, 선택된 초기 세그먼트에 대한 초기 세그먼트 판정이 행해진다. 이 특징량 차이는, 다음의 초기 세그먼트로부터 차례로 선택된 초기 세그먼트의 특징량과, 제 1 도형의 중심(重心)인 제 1 중심(重心)의 좌표치로부터 산출되는 제 1 중심(重心)의 특징량의 차이이다.
특징량 차이가 특징량 차이 범위에 포함되지 않는 경우, 선택된 초기 세그먼트 이후의 초기 세그먼트에 대한 초기 세그먼트 판정이 행해지지 않는다.
선택된 초기 세그먼트에 대한 초기 세그먼트 판정에 있어서, 선택된 초기 세그먼트가 나타내는 좌표치의 좌표와 제 1 중심(重心)의 좌표의 거리가 조건 반경 ε/2 이하인 경우에, 선택된 초기 세그먼트가 제 1 도형에 포함된다고 판정된다.
초기 세그먼트의 특징량은 초기 세그먼트에 포함되는 데이터 값의 평균치이다.
제 1 중심(重心)의 특징량은 제 1 도형의 중심(重心)의 좌표치가 W개의 데이터 값으로서 다루어진 경우의 데이터 값의 평균치이다.
표본 세그먼트 집합 소트부(150)는, 표본 세그먼트 집합 E에 포함되는 표본 세그먼트마다, 표본 세그먼트에 포함되는 데이터 값을 이용하여, 표본 세그먼트의 특징량을 산출한다. 그리고, 표본 세그먼트 집합 소트부(150)는, 표본 세그먼트 집합 E에 포함되는 표본 세그먼트를 특징량의 차례로 소트한다.
검색 결과 거리 산출부(160)는, 테스트 시계열 데이터 T로부터 W개의 데이터 값을 시계열의 순서로 추출하여 얻어지는 테스트 세그먼트를 복수 생성한다. 검색 결과 거리 산출부(160)는, 테스트 세그먼트와 표본 세그먼트 집합 E에 포함되는 표본 세그먼트의 조합마다 테스트 세그먼트와 표본 세그먼트의 세그먼트 사이 거리를 산출한다. 그리고, 검색 결과 거리 산출부(160)는, 테스트 세그먼트마다 테스트 세그먼트와 어느 하나의 표본 세그먼트의 세그먼트 사이 거리를 검색 결과 거리 Z로서 선택한다.
검색 결과 거리 Z는 최소의 세그먼트 사이 거리이다.
검색 결과 거리 출력부(161)는, 테스트 세그먼트마다의 검색 결과 거리를 출력한다.
데이터 기억부(190)는, 시계열 데이터 검색 장치(100)가 사용, 생성 또는 입출력하는 데이터를 기억한다.
도 2에 근거하여, 시계열 데이터 검색 장치(100)의 하드웨어 구성의 예에 대하여 설명한다.
시계열 데이터 검색 장치(100)는, 프로세서(901), 보조 기억 장치(902), 메모리(903), 통신 장치(904), 입력 인터페이스(905), 디스플레이 인터페이스(906)라고 하는 하드웨어를 구비하는 컴퓨터이다.
프로세서(901)는 신호선(910)을 통해서 다른 하드웨어와 접속되어 있다. 입력 인터페이스(905)는 케이블(911)을 통해서 입력 장치(907)에 접속되어 있다. 디스플레이 인터페이스(906)는 케이블(912)을 통해서 디스플레이(908)에 접속되어 있다.
프로세서(901)는, 프로세싱을 행하는 IC(Integrated Circuit)이고, 다른 하드웨어를 제어한다. 예컨대, 프로세서(901)는, CPU(Central Processing Unit), DSP(Digital Signal Processor), GPU(Graphics Processing Unit)이다.
보조 기억 장치(902)는, 예컨대, ROM(Read Only Memory), 플래시 메모리, HDD(Hard Disk Drive)이다.
메모리(903)는, 예컨대, RAM(Random Access Memory)이다.
통신 장치(904)는, 데이터를 수신하는 리시버(9041)와, 데이터를 송신하는 트랜스미터(9042)를 구비한다. 예컨대, 통신 장치(904)는 통신 칩 또는 NIC(Network Interface Card)이다.
입력 인터페이스(905)는 케이블(911)이 접속되는 포트이고, 포트의 일례는 USB(Universal Serial Bus) 단자이다.
디스플레이 인터페이스(906)는 케이블(912)이 접속되는 포트이고, 포트의 일례는 USB 단자 또는 HDMI(High Definition Multimedia Interface) 단자이다. HDMI는 등록상표이다.
입력 장치(907)는, 예컨대, 마우스, 키보드 또는 터치 패널이다.
디스플레이(908)는, 예컨대, LCD(Liquid Crystal Display)이다.
보조 기억 장치(902)에는, OS(Operating System)가 기억되어 있다. 또한, 보조 기억 장치(902)에는, 시계열 데이터 검색 장치(100)에 구비되는 시계열 데이터 취득부(110), 파라미터 취득부(111), 초기 세그먼트 집합 생성부(120), 초기 세그먼트 집합 소트부(130), 표본 세그먼트 집합 생성부(140), 표본 세그먼트 집합 소트부(150), 검색 결과 거리 산출부(160), 검색 결과 거리 출력부(161)라고 하는 「부」의 기능을 실현하는 프로그램이 기억되어 있다.
OS의 적어도 일부는 메모리(903)에 로드되고, 프로세서(901)는 OS를 실행하면서 「부」의 기능을 실현하는 프로그램을 실행한다. 「부」의 기능을 실현하는 프로그램은, 메모리(903)에 로드되고, 프로세서(901)에 의해 판독되고, 프로세서(901)에 의해 실행된다.
또, 시계열 데이터 검색 장치(100)가 복수의 프로세서(901)를 구비하고, 복수의 프로세서(901)가 「부」의 기능을 실현하는 프로그램을 연계하여 실행하더라도 좋다.
「부」의 처리의 결과를 나타내는 데이터, 정보, 신호치 및 변수치 등은, 메모리(903), 보조 기억 장치(902), 프로세서(901) 내의 레지스터, 또는, 프로세서(901) 내의 캐시 메모리에 기억된다.
「부」는 「서킷트리」로 실장하더라도 좋다. 「부」는 「회로」, 「공정」, 「순서」 또는 「처리」로 바꿔 읽더라도 좋다.
「회로」 및 「서킷트리」는, 프로세서(901), 로직 IC, GA(Gate Array), ASIC(Application Specific Integrated Circuit), FPGA(Field-Programmable Gate Array)라고 하는 처리 회로를 포함하는 개념이다.
***동작의 설명***
도 3에 근거하여, 시계열 데이터 검색 장치(100)의 시계열 데이터 검색 방법을 구성하는 각 처리의 개요를 설명한다. 그 후, 각 처리의 상세에 대하여 설명한다.
S110은 초기 세그먼트 집합 생성 처리이다.
S110에 있어서, 초기 세그먼트 집합 생성부(120)는, 훈련 시계열 데이터 S로부터 초기 세그먼트 집합 F를 생성한다.
S120은 초기 세그먼트 집합 소트 처리이다.
S120에 있어서, 초기 세그먼트 집합 소트부(130)는, 초기 세그먼트 집합 F에 포함되는 초기 세그먼트마다 특징량을 산출하고, 초기 세그먼트 집합 F에 포함되는 초기 세그먼트를 특징량의 오름차순으로 소트한다.
S130은 표본 세그먼트 집합 생성 처리이다.
S130에 있어서, 표본 세그먼트 집합 생성부(140)는, 소트 후의 초기 세그먼트 집합 F로부터 표본 세그먼트 집합 E를 생성한다.
S140은 표본 세그먼트 소트 처리이다.
S140에 있어서, 표본 세그먼트 집합 소트부(150)는, 표본 세그먼트 집합 E에 포함되는 표본 세그먼트마다 특징량을 산출하고, 표본 세그먼트 집합 E에 포함되는 표본 세그먼트를 특징량의 오름차순으로 소트한다.
S150은 검색 결과 거리 산출 처리이다.
S150에 있어서, 검색 결과 거리 산출부(160)는, 표본 세그먼트 집합 E를 이용하여, 테스트 시계열 데이터 T에 포함되는 테스트 세그먼트마다의 검색 결과 거리 Z를 산출한다.
S160은 검색 결과 거리 출력 처리이다.
S160에 있어서, 검색 결과 거리 출력부(161)는, 테스트 세그먼트마다의 검색 결과 거리 Z를 출력한다.
이후의 설명에 이용하는 표기에 대하여 설명한다.
훈련 시계열 데이터 S는, 데이터 길이 M을 이용하여, S={S[0], S[1], …, S[M-1]}로 나타내어진다. 다시 말해, 훈련 시계열 데이터 S는 S[0]으로부터 S[M-1]까지의 M개의 데이터 값으로 이루어진다.
i번째의 훈련 세그먼트 Si는, 슬라이드 폭 W를 이용하여, Si=S[i:i+W-1]로 나타내어진다. 다시 말해, i번째의 훈련 세그먼트 Si는, S[i]로부터 S[i+W-1]까지의 W개의 데이터 값으로 이루어진다.
테스트 시계열 데이터 T는, 데이터 길이 N을 이용하여, T={T[0], T[1], …, T[N-1]}로 나타내어진다. 다시 말해, 테스트 시계열 데이터 T는 T[0]으로부터 T[N-1]까지의 N개의 데이터 값으로 이루어진다.
i번째의 테스트 세그먼트 Ti는, 슬라이드 폭 W를 이용하여, Ti=T[i:i+W-1]로 나타내어진다. 다시 말해, i번째의 테스트 세그먼트 Ti는, T[i]로부터 T[i+W-1]까지의 W개의 데이터 값으로 이루어진다.
도 4에 근거하여, 초기 세그먼트 집합 생성 처리(S110)에 대하여 설명한다.
S111에 있어서, 초기 세그먼트 집합 생성부(120)는, 초기 세그먼트 집합 F를 초기화한다. 초기화된 초기 세그먼트 집합 F는 초기 세그먼트를 포함하지 않는다.
S112로부터 S116까지의 처리는, 변수 i의 값이 0으로부터 인크리먼트되어 M-W+1이 될 때까지 반복 실행된다. 훈련 세그먼트 Si는 변수 i의 값이 나타내는 번호의 훈련 세그먼트이다. M-W+1은 최종의 훈련 세그먼트의 번호이다. 도 4에 있어서, S112로부터 S117까지의 처리의 루프를 제 1 루프로 한다.
S112에 있어서, 초기 세그먼트 집합 생성부(120)는, 훈련 일시 세그먼트 집합 Us를 초기화하고, 훈련 일시 세그먼트 집합 Us에 훈련 세그먼트 Si를 추가한다. 이때, 훈련 일시 세그먼트 집합 Us는 훈련 세그먼트 Si만을 포함한다.
S113으로부터 S115까지의 처리는, 변수 j의 값이 i+1로부터 인크리먼트되어 M-W+1이 될 때까지 반복 실행된다. 훈련 세그먼트 Sj는 변수 j의 값이 나타내는 번호의 훈련 세그먼트이다. 도 4에 있어서, S113으로부터 S115까지의 처리의 루프를 제 2 루프라고 한다.
S113에 있어서, 초기 세그먼트 집합 생성부(120)는, 훈련 세그먼트 Si와 훈련 세그먼트 Sj의 세그먼트 사이 거리 d를 산출한다. 이 세그먼트 사이 거리 d의 종류는 유클리드 거리이다.
S114에 있어서, 초기 세그먼트 집합 생성부(120)는, 세그먼트 사이 거리 d가 ε/2 이하인지 판정한다.
세그먼트 사이 거리 d가 ε/2 이하인 경우(예), 처리는 S115로 진행된다.
세그먼트 사이 거리 d가 ε/2보다 큰 경우(아니오), 처리는 S116으로 진행된다.
S115에 있어서, 초기 세그먼트 집합 생성부(120)는, 훈련 일시 세그먼트 집합 Us에 훈련 세그먼트 Sj를 추가한다.
S116에 있어서, 초기 세그먼트 집합 생성부(120)는, 훈련 일시 세그먼트 집합 Us에 포함되는 각각의 훈련 세그먼트가 나타내는 좌표의 중심(重心)을 산출한다. 이 중심(重心)의 좌표를 나타내는 W개의 데이터 값이 초기 세그먼트이다.
훈련 일시 세그먼트 집합 Us의 중심(重心) Cent(Us)는 이하의 식 <1>로 구해진다.
식 <1>에 있어서, US는 {S0, S1, …, Sh}이고, |US|는 데이터 길이 (h+1)이다. 또한, Fn[j]는 초기 세그먼트 Fn의 j번째의 요소이다.
[수학식 1]
Figure pct00001
그리고, 초기 세그먼트 집합 생성부(120)는, 초기 세그먼트를 초기 세그먼트 집합 F에 추가한다.
S116 이후, 처리는 제 2 루프를 빠져나와 S117로 진행된다.
S117에 있어서, 초기 세그먼트 집합 생성부(120)는 변수 i의 값을 변수 j의 값으로 갱신한다.
도 4의 처리에 의해, 훈련 시계열 데이터 S를 선두로부터 말미로 향해 한 방향으로 주사하는 것만으로, 초기 세그먼트 집합 F를 생성할 수 있다.
초기 세그먼트 집합 생성 처리(S110)는 시계열 데이터의 제 1 특성인 데이터 값의 연속성을 이용한 처리이고, 연속하는 세그먼트끼리의 좌표의 거리는 가깝다고 가정된다. 따라서, 연속하는 세그먼트를 탐색하는 것만으로도, 유사한 세그먼트를 찾아낼 수 있다.
그리고, 훈련 시계열 데이터 S가 선두로부터 주사되고, 반경이 ε/2인 구(sphere)에 포함되는 훈련 세그먼트의 집합인 훈련 일시 세그먼트 집합 Us가 추출되고, 훈련 일시 세그먼트 집합 Us의 중심(重心)이 초기 세그먼트로서 산출된다.
초기 세그먼트 집합 소트 처리(S120)에 대하여 설명한다.
초기 세그먼트 집합 소트부(130)는, 초기 세그먼트 집합 F에 포함되는 초기 세그먼트마다 특징량을 산출하고, 초기 세그먼트 집합 F에 포함되는 초기 세그먼트를 특징량의 오름차순으로 소트한다.
초기 세그먼트의 특징량은 초기 세그먼트에 포함되는 W개의 데이터 값의 평균치이다.
초기 세그먼트 Fn이 Fn={Fn[0], Fn[1], …, Fn[W-1]}로 나타내어지는 경우, 초기 세그먼트 Fn의 평균치 Mean(Fn)은 이하의 식 <2>로 나타낼 수 있다.
초기 세그먼트 Fn의 평균치 Mean(Fn)은, 초기 세그먼트 Fn의 좌표가 이하의 식 <3>에 의해 정의되는 W차원 공간의 평면에 위치하는 것을 의미한다. 식 <3>에 있어서, Xi는 i번째의 좌표축에 있어서의 좌표치이다. 이 W차원 공간의 평면은, W개의 좌표 {(W*Mean(Fn), 0, …, 0), (0, W*Mean(Fn), …, 0), …, (0, 0, …, W*Mean(Fn))}을 통과하는 평면이다.
[수학식 2]
Figure pct00002
Figure pct00003
초기 세그먼트 집합 소트 처리(S120)는, 시계열 데이터의 제 2 특성인 데이터 값의 주기성을 이용하기 위한 처리이다.
초기 세그먼트 집합 F에 포함되는 초기 세그먼트를 평균치의 오름차순으로 소트하는 것에 의해, 시간적으로는 가깝지 않지만 거리적으로는 가까운 초기 세그먼트끼리를 가까이에 배열할 수 있다.
도 5에 근거하여, 표본 세그먼트 집합 생성 처리(S130)에 대하여 설명한다.
S130-1에 있어서, 표본 세그먼트 집합 생성부(140)는, 표본 세그먼트 집합 E를 초기화한다. 초기화된 표본 세그먼트 집합 E는 표본 세그먼트를 포함하지 않는다.
S131-1로부터 S131-6까지의 처리는, 변수 i의 값이 0으로부터 인크리먼트되어 값r이 될 때까지 반복 실행된다. 값 r은 초기 세그먼트 집합 F에 포함되는 최종의 초기 세그먼트의 번호이다. 단, 변수 i의 값이 초기 세그먼트 집합 F로부터 제거된 초기 세그먼트의 번호인 경우, 제거된 초기 세그먼트에 대한 처리는 스킵되고, 변수 i의 값은 인크리먼트된다.
초기 세그먼트 Fi는 변수 i의 값이 나타내는 번호의 초기 세그먼트이다. 도 5에 있어서, S131-1로부터 S131-6까지의 처리의 루프를 제 1 루프로 한다.
S131-1에 있어서, 표본 세그먼트 집합 생성부(140)는, 초기 세그먼트 Fi를 포함하는 구 B의 중심(重心) C를 결정한다. 구 B의 반경은 ε/2이다.
구 B의 중심(重心) C로서, 이하의 (1)로부터 (3)에 나타내는 중심(重心) C를 들 수 있다.
(1) 초기 세그먼트 Fi가 나타내는 좌표치가 중심(重心) C이다.
(2) 초기 세그먼트 Fi의 좌표치와 초기 세그먼트 Fk의 좌표치의 세그먼트 사이 거리 d가 ε 이하인 경우, 초기 세그먼트 Fi의 좌표치와 초기 세그먼트 Fk의 좌표치의 중간의 좌표치가 중심(重心) C이다. 초기 세그먼트 Fk는, 후술하는 세그먼트 사이 거리의 조건을 만족시키는 최초의 초기 세그먼트 또는 최후의 초기 세그먼트이다. 초기 세그먼트 Fk는, 세그먼트 사이 거리의 조건을 만족시키는 초기 세그먼트 중, 최대의 세그먼트 사이 거리의 초기 세그먼트이더라도 좋다. 또, 초기 세그먼트 Fk는 초기 세그먼트 Fi보다 뒤의 초기 세그먼트이다.
(3) 시계열 데이터는 상기 제 3 특성인 데이터 값의 국재성을 갖는다. 그 때문에, W차원 공간에 있어서, 세그먼트의 좌표는 원점과 좌표 (1, 1, …, 1)을 통과하는 기본 벡터 V의 주변에 분포한다고 생각된다. 이 경우, 초기 세그먼트 Fi의 좌표를 통과하고 기본 벡터 V와 평행한 벡터를 따라, 초기 세그먼트 Fi의 좌표로부터 양의 방향으로 ε/2만큼 진행한 좌표의 좌표치가 중심(重心) C이다. 이 중심(重心) C는 초기 세그먼트 Fi[l](0≤l<W)에 ε/(2*√W)를 더한 값이다.
S131-1에 있어서, 구 B의 중심(重心) C를 결정하면, 표본 세그먼트 집합 생성부(140)는 중심(重心) C의 특징량 D(C)를 산출한다.
중심(重心) C의 특징량 D(C)를 산출하는 방법은, S120에 있어서 초기 세그먼트 Fn의 특징량을 산출하는 방법과 동일하다. 단, 상기의 식 <2>에 있어서, Fn은 C로 대체된다.
S131-2에 있어서, 표본 세그먼트 집합 생성부(140)는, 초기 일시 세그먼트 집합 Uf를 초기화하고, 초기 일시 세그먼트 집합 Uf에 초기 세그먼트 Fi를 추가한다. 이때, 초기 일시 세그먼트 집합 Uf는 초기 세그먼트 Fi만을 포함한다.
S131-3에 있어서, 표본 세그먼트 집합 생성부(140)는, 초기 세그먼트 Fi를 초기 세그먼트 집합 F로부터 제거한다.
S131-4에 있어서, 표본 세그먼트 집합 생성부(140)는, 변수 Skip에 1을 설정한다. 변수 Skip은, 구 B에 포함되지 않았던 최초의 초기 세그먼트 Fi의 번호를 나타내는 변수이다.
S132에 있어서, 표본 세그먼트 집합 생성부(140)는 제 2 루프 처리를 행한다. 제 2 루프 처리(S132)에 대해서는 후술한다.
S131-5에 있어서, 표본 세그먼트 집합 생성부(140)는, 표본 세그먼트 집합 E에 중심(重心) C를 추가한다.
S131-6에 있어서, 표본 세그먼트 집합 생성부(140)는 변수 i의 값을 갱신한다.
변수 Skip의 값이 양의 값인 경우, 변수 i의 값은 변수 Skip의 값으로 갱신된다.
변수 Skip의 값이 음의 값(-1)인 경우, 변수 i의 값은, 제 2 루프 처리(S132)에서 설정되는 변수 j의 값으로 갱신된다.
도 6에 근거하여, 제 2 루프 처리(S132)에 대하여 설명한다.
S132-1로부터 S132-7까지의 처리는, 변수 j의 값이 i+1로부터 인크리먼트되어 값 r이 될 때까지 반복 실행된다. 단, 변수 j의 값이 초기 세그먼트 집합 F로부터 제거된 초기 세그먼트의 번호인 경우, 제거된 초기 세그먼트에 대한 처리는 스킵되고, 변수 j의 값은 인크리먼트된다.
초기 세그먼트 Fj는 변수 j의 값이 나타내는 번호의 초기 세그먼트이다. 도 6에 있어서, S132-1로부터 S132-6까지의 처리의 루프를 제 2 루프로 한다.
S132-1에 있어서, 표본 세그먼트 집합 생성부(140)는, 초기 세그먼트 Fj의 특징량 D(Fj)와 중심(重心) C의 특징량 D(C)의 특징량 차이가 ε/(2*√W)보다 큰지 판정한다(세그먼트 사이 거리의 조건). 초기 세그먼트 Fj의 특징량 D(Fj)는 초기 세그먼트 집합 소트 처리(S120)에서 산출된 값이다.
특징량 차이가 ε/(2*√W)보다 큰 경우, 초기 세그먼트 Fj의 좌표를 포함하는 평면과 중심(重心) C의 좌표를 포함하는 평면의 거리는 ε/2를 넘기 때문에, 초기 세그먼트 Fj의 좌표는 구 B의 바깥쪽에 위치한다. 따라서, 초기 세그먼트 Fj의 좌표와 중심(重心) C의 좌표의 거리를 직접 계산하지 않더라도, 구 B의 바깥쪽에 위치하는 좌표의 초기 세그먼트 Fj를 판정할 수 있다.
S132-1에 있어서의 조건식 |D(Fi)-D(C)|>ε/(2*√W)는, 이하의 식 <4> 및 식 <5>에 근거하여 얻어진다.
식 <4>는, W차원 공간에 있어서, 평균치가 D1인 제 1 좌표를 포함하는 평면과 평균치가 D2인 제 2 좌표를 포함하는 평면의 거리를 구하는 식이다.
따라서, 제 1 좌표와 제 2 좌표의 거리가 dε 이하이기 위해서는, 식 <5>를 만족시킬 필요가 있다.
[수학식 3]
Figure pct00004
특징량 차이가 ε/(2*√W)보다 큰 경우(예), 처리는 제 2 루프를 빠져나와 S131-5(도 5 참조)로 진행된다.
특징량 차이가 ε/(2*√W) 이하인 경우(아니오), 처리는 S132-2로 진행된다.
S132-2에 있어서, 표본 세그먼트 집합 생성부(140)는, 중심(重心) C의 좌표와 초기 세그먼트 Fj의 좌표의 거리인 세그먼트 사이 거리 d를 산출한다. 이 세그먼트 사이 거리 d의 종류는 유클리드 거리이다.
S132-3에 있어서, 표본 세그먼트 집합 생성부(140)는, 세그먼트 사이 거리 d가 ε/2 이하인지 판정한다.
세그먼트 사이 거리 d가 ε/2 이하인 경우(예), 처리는 S132-4로 진행된다.
세그먼트 사이 거리 d가 ε/2보다 큰 경우(아니오), 처리는 S132-6으로 진행된다.
S132-4에 있어서, 표본 세그먼트 집합 생성부(140)는, 초기 일시 세그먼트 집합 Uf에 초기 세그먼트 Fj를 추가한다.
S132-5에 있어서, 표본 세그먼트 집합 생성부(140)는, 초기 세그먼트 집합 F로부터 초기 세그먼트 Fj를 제거한다.
S132-6에 있어서, 변수 Skip이 음의 값(-1)인 경우, 표본 세그먼트 집합 생성부(140)는 변수 Skip에 변수 j의 값을 설정한다. 음의 값 이외의 경우는, 아무것도 하지 않는다.
도 5 및 도 6의 처리에 의해, 초기 세그먼트 집합 F를 선두로부터 말미로 향해 한 방향으로 주사하는 것만으로, 표본 세그먼트 집합 E를 생성할 수 있다.
표본 세그먼트 소트 처리(S140)에 대하여 설명한다.
표본 세그먼트 집합 소트부(150)는, 표본 세그먼트 집합 E에 포함되는 표본 세그먼트마다 특징량을 산출하고, 표본 세그먼트 집합 E에 포함되는 표본 세그먼트를 특징량의 오름차순으로 소트한다.
표본 세그먼트 En의 특징량을 산출하는 방법은, S120에 있어서 초기 세그먼트 Fn의 특징량을 산출하는 방법과 동일하다. 단, 상기의 식 <2>에 있어서, Fn은 En으로 대체된다.
도 7에 근거하여, 검색 결과 거리 산출 처리(S150)에 대하여 설명한다.
S151로부터 S154의 처리는, 변수 i의 값이 0으로부터 인크리먼트되어 N-W+1이 될 때까지 반복 실행된다. 테스트 세그먼트 Ti는 변수 i의 값이 나타내는 번호의 테스트 세그먼트이다. N-W+1은 최종의 테스트 세그먼트의 번호이다. 검색 결과 거리 Z[i]는 테스트 세그먼트 Ti의 검색 결과 거리 Z이다. 도 7에 있어서, S151로부터 S154까지의 처리의 루프를 제 1 루프로 한다.
S151에 있어서, 검색 결과 거리 산출부(160)는, 검색 결과 거리 Z[i]에 무한대를 설정한다.
S152로부터 S154까지의 처리는, 변수 j의 값이 0으로부터 인크리먼트되어 값 e가 될 때까지 반복 실행된다. 값 e는 표본 세그먼트 집합 E에 포함되는 최종의 표본 세그먼트의 번호이다. 도 7에 있어서, S152로부터 S154까지의 처리의 루프를 제 2 루프로 한다.
S152에 있어서, 검색 결과 거리 산출부(160)는, 테스트 세그먼트 Ti와 표본 세그먼트 Ej의 세그먼트 사이 거리 d를 산출한다. 이 세그먼트 사이 거리 d의 종류는 유클리드 거리이다. 단, 이 세그먼트 사이 거리 d의 종류는 DTW 거리 또는 다른 종류의 거리이더라도 좋다.
S153에 있어서, 검색 결과 거리 산출부(160)는, 세그먼트 사이 거리 d가 검색 결과 거리 Z[i]보다 작은지 판정한다.
세그먼트 사이 거리 d가 검색 결과 거리 Z[i]보다 작은 경우(예), 처리는 S154로 진행된다.
세그먼트 사이 거리 d가 검색 결과 거리 Z[i] 이상인 경우(아니오), S154의 처리는 행해지지 않는다.
S154에 있어서, 검색 결과 거리 산출부(160)는, 검색 결과 거리 Z[i]를 세그먼트 사이 거리 d로 갱신한다.
검색 결과 거리 출력 처리(S160)에 대하여 설명한다.
검색 결과 거리 출력부(161)는, 테스트 세그먼트마다의 검색 결과 거리 Z를 출력한다.
테스트 세그먼트의 검색 결과 거리 Z가 큰 경우, 그 테스트 세그먼트는 어느 표본 세그먼트와도 유사하지 않다. 바꿔 말하면, 그 테스트 세그먼트는 어느 훈련 세그먼트와도 유사하지 않다.
따라서, 테스트 세그먼트의 검색 결과 거리 Z가 다른 세그먼트와 비교하여 상대적으로 큰 경우, 그 테스트 세그먼트는 테스트 시계열 데이터 T의 특이점으로 간주할 수 있다.
시계열 데이터 검색 방법에 있어서, 근사 오차 ε을 반경으로서 갖는 구에 포함되는 좌표의 세그먼트를 대표하는 표본 세그먼트는, 초기 세그먼트로서 반경이 ε/2인 구를 구하는 초기 세그먼트 집합 생성 처리(S110)와, 반경이 ε/2인 동일한 구에 포함되는 초기 세그먼트를 결합하여 표본 세그먼트를 구하는 표본 세그먼트 집합 생성 처리(S130)의 2단계의 처리에 의해 구해진다.
W차원 공간에 있어서, 표본 세그먼트는, 근사 오차 ε을 반경으로서 갖는 다차원 초구(hypersphere)의 중심(重心)이고, 그 구에 포함되는 좌표를 나타내는 훈련 세그먼트를 대표한다. 다시 말해, 테스트 세그먼트와 표본 세그먼트의 세그먼트 사이 거리 d는, 테스트 세그먼트와 훈련 세그먼트의 세그먼트 거리가 d±ε의 범위에 포함되는 것을 의미한다.
한편, 테스트 세그먼트와 훈련 세그먼트의 세그먼트 사이 거리를 표본 세그먼트를 이용하지 않고 산출하는 경우, 많은 계산량이 필요하게 된다. 예컨대, 테스트 세그먼트와 훈련 세그먼트의 각각의 개수가 N인 경우, N2개의 세그먼트 사이 거리를 계산할 필요가 있다. 그 때문에, 표본 세그먼트의 수가 최소가 되도록, 표본 세그먼트를 선택하는 것이 이상적이다. 바꿔 말하면, 최적의 반경을 갖는 최적의 구를 선택하는 것이 이상적이지만, 최적의 반경을 갖는 최적의 구를 다차원 공간으로부터 선택하기 위해서는, 세그먼트의 밀도 분포를 조사하는 등, 많은 계산량이 필요하게 된다. 최적의 구의 선택은, 최종적인 표본 세그먼트의 수가 최소가 되는 구의 선택 외에, 구에 포함되는 표본 세그먼트의 수가 최대가 되는 구의 선택도 의미한다.
실시의 형태에서는, 최적의 구의 선택보다, 계산량의 삭감을 우선했다.
***효과의 설명***
시계열 데이터 검색 장치(100)는, 근사 오차 ε을 엄밀하게 반경으로서 갖는 구에 포함되는 훈련 세그먼트의 집합의 대표로서, 표본 세그먼트를 생성할 수 있다. 이것에 의해, 유사 검색에 있어서의 근사 오차 ε을 보증할 수 있다.
또한, 시계열 데이터 검색 장치(100)는, 훈련 시계열 데이터 S를 선두로부터 1회 주사하는 것만으로 초기 세그먼트 집합 F를 생성하고, 초기 세그먼트 집합 F를 선두로부터 1회 주사하는 것만으로 표본 세그먼트 집합 E를 생성할 수 있다.
따라서, 근사 오차 ε이 보증된 표본 세그먼트를 훈련 시계열 데이터 S로부터 고속으로 추출할 수 있다.
실시의 형태 2.
평균치와는 상이한 특징량을 이용하는 형태에 대하여 설명한다. 단, 실시의 형태 1과 중복되는 설명은 생략한다.
***구성의 설명***
시계열 데이터 검색 장치(100)의 기능 구성은 실시의 형태 1의 도 1과 동일하다.
***동작의 설명***
시계열 데이터 검색 방법의 처리의 흐름은 실시의 형태 1의 도 3과 동일하다.
단, S120으로부터 S140은 실시의 형태 1과 이하와 같이 상이하다.
S120에 있어서, 초기 세그먼트 Fi의 특징량 D(Fi)는, 초기 세그먼트 Fi가 나타내는 좌표치의 좌표와 기준점의 거리이다.
기준점은 W차원 공간의 원점 0={0, 0, …, 0}이다. 그 경우, 초기 세그먼트 Fi는 D(Fi)를 반경으로서 갖는 구면에 위치한다. 단, 기준점은 원점 0 이외의 좌표이더라도 좋다.
S130에 있어서, 중심(重心) C의 특징량 D(C)는 중심(重心) C와 기준점의 거리이다.
S132-1(도 6 참조)에 있어서, 특징량 D(Fi)와 특징량 D(C)의 특징량 차이가 ε/2보다 큰지 판정된다. 이 조건식 |D(Fi)-D(C)|>ε/2는, 이하의 식 <6> 및 식 <7>에 근거하여 얻어진다.
식 <6>은, W차원 공간에 있어서, 기준점으로부터의 거리가 D1인 제 1 좌표와 기준점으로부터의 거리가 D2인 제 2 좌표의 거리의 최소치를 구하는 식이다.
따라서, 제 1 좌표와 제 2 좌표의 거리가 dε 이하이기 위해서는, 식 <7>을 만족시킬 필요가 있다.
[수학식 4]
Figure pct00005
기준점이 원점 0인 경우, 초기 세그먼트 Fi의 좌표와 중심(重心) C의 좌표의 거리의 범위는, 이하의 식 <8>로 나타낼 수 있다.
식 <8>은, 초기 세그먼트 Fi가 분산되어 있기 때문에 초기 세그먼트 Fi와 기준점의 거리가 |D(Fi)+D(C)|를 넘는 일이 많은 경우, S132-1에 있어서 탐색을 보다 빠르게 중단할 수 있는 것을 의미한다.
[수학식 5]
Figure pct00006
S140에 있어서, 표본 세그먼트 Ei의 특징량 D(Ei)는, 표본 세그먼트 Ei가 나타내는 좌표치의 좌표와 기준점의 거리이다.
***효과의 설명***
초기 세그먼트가 분산되어 있는 경우, 시계열 데이터 검색 장치(100)는, 표본 세그먼트를 생성하기 위한 탐색을 빠르게 중단하고, 표본 세그먼트 집합을 고속으로 생성할 수 있다.
실시의 형태 3.
평균치와는 상이한 특징량을 이용하는 형태에 대하여 설명한다. 단, 실시의 형태 1과 중복되는 설명은 생략한다.
***구성의 설명***
시계열 데이터 검색 장치(100)의 기능 구성은 실시의 형태 1의 도 1과 동일하다.
***동작의 설명***
시계열 데이터 검색 방법의 처리의 흐름은 실시의 형태 1의 도 3과 동일하다.
단, S120 및 S140은 실시의 형태 1과 이하와 같이 상이하다.
S120에 있어서, 초기 세그먼트의 특징량은, 초기 세그먼트로부터 추출되는 초기 부분 세그먼트에 포함되는 데이터 값을 평균한 부분 평균치이다. 다시 말해, 초기 세그먼트 집합 F에 포함되는 초기 세그먼트는 부분 평균치의 순서로 소트된다.
초기 부분 세그먼트를 추출하는 방법으로서, 이하의 (1) 및 (2)의 방법을 들 수 있다.
(1) 초기 세그먼트 Fi[i:i+W-1]의 전반 부분 Fi (f)[i:(i+W-1)/2] 또는 후반 부분 Fi(b)[(i+W-1)/2:i+W-1]이 초기 부분 세그먼트로서 추출된다.
(2) 초기 세그먼트 Fi[i:i+W-1]을 4등분하여 얻어지는 제 1 부분 Fi(1)[i:(i+W-1)/4] 및 제 3 부분 Fi(3)[(i+W-1)/2:(i+W-1)*3/4]가 초기 부분 세그먼트로서 추출된다. 또는, 제 2 부분 Fi (2)[(i+W-1)/4:(i+W-1)/2] 및 제 4 부분 Fi(4)[(i+W-1)*3/4:i+W-1]이 초기 부분 세그먼트로서 추출된다.
S140에 있어서, 표본 세그먼트의 특징량은, 표본 세그먼트로부터 추출되는 표본 부분 세그먼트에 포함되는 데이터 값을 평균한 부분 평균치이다. 다시 말해, 표본 세그먼트 집합 E에 포함되는 표본 세그먼트는 부분 평균치의 순서로 소트된다.
S130에 있어서의 초기 세그먼트의 특징량 D(Fi) 및 중심(重心)의 특징량 D(C)는, 실시의 형태 1과 동일하다.
다시 말해, 초기 세그먼트의 특징량 D(Fi)는 초기 세그먼트에 포함되는 데이터 값을 평균한 전체 평균치이고, 중심(重心)의 특징량 D(C)는 중심(重心)의 좌표치가 W개의 데이터 값으로서 다루어진 경우의 데이터 값을 평균한 중심(重心) 평균치이다. 또한, 초기 세그먼트의 특징량 D(Fi)와 중심(重心) 특징량 D(C)의 특징량 차이는 전체 평균치와 중심(重心) 평균치의 차이이다.
S132-1(도 6 참조)에 있어서의 조건식은, 실시의 형태 1과 동일하게, |D(Fi)-D(C)|>ε/(2*√W)이다.
***효과의 설명***
전체 평균치가 가까운 초기 세그먼트가 다수 존재하는 경우에도, 초기 세그먼트 집합을 부분 평균치의 순서로 소트하는 것에 의해, 초기 세그먼트의 탐색 범위의 확대를 억제하여, 표본 세그먼트 집합을 고속으로 생성할 수 있다.
실시의 형태 4.
평균치와는 상이한 특징량을 이용하는 형태에 대하여 설명한다. 단, 실시의 형태 1과 중복되는 설명은 생략한다.
***구성의 설명***
시계열 데이터 검색 장치(100)의 기능 구성은 실시의 형태 1의 도 1과 동일하다.
***동작의 설명***
시계열 데이터 검색 방법의 처리의 흐름은 실시의 형태 1의 도 3과 동일하다.
단, S120으로부터 S140의 내용은 실시의 형태 1과 이하와 같이 상이하다.
S120에 있어서, 초기 세그먼트 Fi의 특징량 D(Fi)는 초기 세그먼트 Fi의 복잡도이다. 이 복잡도는, 초기 세그먼트 Fi에 연속하여 포함되는 2개의 데이터 값마다의 데이터 값의 차이로부터 산출된다.
초기 세그먼트 Fi의 복잡도 comp(Fi)는, 이하의 식 <9>로 산출된다.
[수학식 6]
Figure pct00007
S130에 있어서, 중심(重心) C의 특징량 D(C)는 중심(重心) 세그먼트의 복잡도이다. 이 복잡도는, 중심(重心) C의 좌표치가 W개의 데이터 값으로 이루어지는 중심(重心) 세그먼트로서 다루어진 경우의 중심(重心) 세그먼트에 연속하여 포함되는 2개의 데이터 값마다의 데이터 값의 차이로부터 산출된다.
중심(重心) 세그먼트의 복잡도 comp(C)를 산출하는 방법은, S120에 있어서 초기 세그먼트 Fi의 복잡도 comp(Fi)를 산출하는 방법과 동일하다. 단, 상기의 식 <9>에 있어서, Fi는 C로 대체된다.
S132-1(도 6 참조)에 있어서, 특징량 D(Fi)와 특징량 D(C)의 특징량 차이가 ε보다 큰지 판정된다. 이 조건식 |D(Fi)-D(C)|>ε은, 이하의 식 <10> 및 식 <11>에 근거하여 얻어진다.
제 1 표본 세그먼트 E1의 좌표와 제 2 표본 세그먼트 E2의 좌표의 유클리드 거리 dist(E1, E2)는, 식 <10>의 범위를 만족시킨다.
따라서, 제 1 표본 세그먼트 E1의 좌표와 제 2 표본 세그먼트 E2의 좌표의 거리가 dε 이하이기 위해서는, 식 <11>을 만족시킬 필요가 있다.
[수학식 7]
Figure pct00008
S140에 있어서, 표본 세그먼트 Ei의 특징량 D(Ei)는 표본 세그먼트 Ei의 복잡도이다.
표본 세그먼트 Ei의 복잡도 comp(Ei)를 산출하는 방법은, S120에 있어서 초기 세그먼트 Fi의 복잡도 comp(Fi)를 산출하는 방법과 동일하다. 단, 상기의 식 <9>에 있어서, Fi는 Ei로 대체된다.
***효과의 설명***
실시의 형태 1과 동일하게, 근사 오차 ε이 보증된 표본 세그먼트를 훈련 시계열 데이터 S로부터 고속으로 추출할 수 있다.
실시의 형태 5.
평균치와는 상이한 특징량을 이용하는 형태에 대하여 설명한다. 단, 실시의 형태 1과 중복되는 설명은 생략한다.
***구성의 설명***
시계열 데이터 검색 장치(100)의 기능 구성은 실시의 형태 1의 도 1과 동일하다.
***동작의 설명***
시계열 데이터 검색 방법의 처리의 흐름은 실시의 형태 1의 도 3과 동일하다.
단, S120으로부터 S140은 실시의 형태 1과 이하와 같이 상이하다.
S120에 있어서, 초기 세그먼트의 특징량은 초기 최단 거리이다. 다시 말해, 초기 세그먼트 집합 F에 포함되는 초기 세그먼트는 초기 최단 거리의 순서로 소트된다.
초기 최단 거리는 초기 세그먼트용의 기준 평면과, W차원 공간의 원점 O의 최단 거리이다.
초기 세그먼트용의 기준 평면은, 실시의 형태 1의 식 <3>으로 나타내어지는 평면이다.
초기 세그먼트 Fi의 초기 최단 거리 FeatM(Fi)는, 이하의 식 <12>로 산출된다.
[수학식 8]
Figure pct00009
S130에 있어서, 초기 세그먼트 Fi의 특징량 D(Fi)는 초기 최단 거리 및 초기 지표치이다. 초기 지표치는, 초기 세그먼트의 좌표축마다의 좌표치와 초기 세그먼트용의 기준 평면의 좌표축마다의 좌표치의 차이로부터 산출되는 값이다.
초기 세그먼트 Fi의 초기 지표치 FeatR(Fi)는, 이하의 식 <13>으로 산출된다.
[수학식 9]
Figure pct00010
초기 최단 거리는, W차원 공간의 원점으로부터 초기 세그먼트용의 기준 평면까지 내린 수선의 발(foot)까지의 거리이다. 초기 지표치는, W차원 공간의 원점으로부터 초기 세그먼트용의 기준 평면까지 내린 수선의 발로부터 초기 세그먼트가 나타내는 좌표치까지의 거리이다. 직감적으로는, 초기 지표치는, 기준 평면상의 초기 세그먼트가 나타내는 좌표치의 어긋남을 나타내고 있다.
또한, 중심(重心) C의 특징량 D(C)는 중심(重心) 최단 거리 및 중심(重心) 지표치이다.
중심(重心) 최단 거리는 W차원 공간의 원점 O와 중심(重心)용의 기준 평면의 최단 거리이다. 중심(重心)용의 기준 평면은 실시의 형태 1의 식 <3>으로 나타내어지는 평면이다. 단, 식 <3>에 있어서, Fn은 C로 대체된다. 중심(重心) C의 중심(重心) 최단 거리 FeatM(C)는 상기의 식 <12>로 산출된다. 단, 식 <12>에 있어서, Fi는 C로 대체된다.
중심(重心) 지표치는 중심(重心)의 좌표축마다의 좌표치와 중심(重心)용의 기준 평면의 좌표축마다의 좌표치의 차이로부터 산출되는 값이다. 중심(重心) C의 중심(重心) 지표치 FeatR(C)는 상기의 식 <13>으로 산출된다. 단, 식 <13>에 있어서, Fi는 C로 대체된다.
S132-1(도 6 참조)에 있어서, 특징량 D(Fi)와 특징량 D(C)의 특징량 차이가 ε/2보다 큰지 판정된다. 이 특징량 차이는, 초기 최단 거리와 중심(重心) 최단 거리의 차이와, 초기 지표치와 중심(重心) 지표치의 차이의 합계이다. S132-1에 있어서의 조건식 |D(Fi)-D(C)|>ε/2는, 이하의 식 <14> 및 식 <15>에 근거하여 얻어진다.
제 1 표본 세그먼트 E1의 좌표와 제 2 표본 세그먼트 E2의 좌표의 유클리드 거리 dist(E1, E2)는, 식 <14>의 범위를 만족시킨다.
따라서, 제 1 표본 세그먼트 E1의 좌표와 제 2 표본 세그먼트 E2의 좌표의 거리가 dε 이하이기 위해서는, 식 <15>를 만족시킬 필요가 있다.
[수학식 10]
Figure pct00011
S140에 있어서, 표본 세그먼트의 특징량은 표본 최단 거리이다. 다시 말해, 표본 세그먼트 집합 E에 포함되는 표본 세그먼트는 표본 최단 거리의 순서로 소트된다.
표본 최단 거리는 표본 세그먼트가 나타내는 좌표치의 좌표와 초기 세그먼트용의 기준 평면의 최단 거리이다. 표본 세그먼트용의 기준 평면은 실시의 형태 1의 식 <3>으로 나타내어지는 평면이다. 단, 식 <3>에 있어서, Fn은 En으로 대체된다. 표본 세그먼트 Ei의 표본 최단 거리 FeatM(Ei)는 상기의 식 <12>로 산출된다. 단, 식 <12>에 있어서, Fi는 Ei로 대체된다.
또, 실시의 형태 1에서 설명한 평균치에 의한 판정 방법은, 두 평면 사이의 거리에 근거하는 판정이라고 바꿔 말할 수 있다. 즉, 실시의 형태 1에 있어서 |D(Fi)-D(C)|는 이하의 식 <16>으로 대체할 수 있다.
[수학식 11]
Figure pct00012
***효과의 설명***
두 평면 사이의 최단 거리를 취하는 점으로부터의 어긋남을 고려하는 것에 의해, 거리를 정확히 판정할 수 있다. 그리고, 초기 세그먼트의 탐색을 빠르게 중단하고, 표본 세그먼트를 고속으로 추출할 수 있다.
실시의 형태 6.
조건에 의해 특징량의 종류를 선택하는 형태에 대하여 설명한다. 단, 실시의 형태 1로부터 실시의 형태 5와 중복되는 설명은 생략한다.
<실시예 1>
***구성의 설명***
시계열 데이터 검색 장치(100)의 기능 구성은 실시의 형태 1의 도 1과 동일하다.
단, 양의 데이터 값과 음의 데이터 값의 어느 한쪽만이 훈련 시계열 데이터 S에 포함되는 경우와, 양의 데이터 값과 음의 데이터 값의 양쪽이 훈련 시계열 데이터 S에 포함되는 경우에, 초기 세그먼트의 특징량의 종류가 상이하다.
***동작의 설명***
시계열 데이터 검색 방법의 처리의 흐름은 실시의 형태 1의 도 3과 동일하다.
단, S120으로부터 S140은 실시의 형태 1과 이하와 같이 상이하다.
S120에 있어서, 초기 세그먼트 집합 소트부(130)는, 실시의 형태 1로부터 실시의 형태 5의 각각에서 설명한 종류의 특징량을 산출한다.
또한, 초기 세그먼트 집합 소트부(130)는, 양 및 음 양쪽의 데이터 값이 훈련 시계열 데이터 S에 포함되는지 판정한다. 이 판정을 특징량의 산출과 동시에 행하는 것에 의해, 판정의 오버헤드를 작게 할 수 있다.
양 및 음 양쪽의 데이터 값이 훈련 시계열 데이터 S에 포함되는 경우, 초기 세그먼트 집합 소트부(130)는, 실시의 형태 1, 실시의 형태 3, 실시의 형태 4 또는 실시의 형태 5에서 설명한 종류의 특징량을 선택한다.
양 및 음 어느 한쪽의 데이터 값이 훈련 시계열 데이터 S에 포함되는 경우, 초기 세그먼트 집합 소트부(130)는, 실시의 형태 2 또는 실시의 형태 4에서 설명한 종류의 특징량을 선택한다.
그리고, 초기 세그먼트 집합 소트부(130)는, 초기 세그먼트 집합 F에 포함되는 초기 세그먼트를 선택한 특징량의 순서로 소트한다.
S130 및 S140은, 선택된 종류의 특징량에 대하여 설명한 실시의 형태와 동일하다.
<실시예 2>
***구성의 설명***
시계열 데이터 검색 장치(100)의 기능 구성은 실시의 형태 1의 도 1과 동일하다.
단, 훈련 세그먼트마다의 지표치로부터 산출되는 분산치가 분산치의 조건인 분산치 범위에 포함되는 경우와, 분산치가 분산치 범위에 포함되지 않는 경우에, 초기 세그먼트의 특징량의 종류가 상이하다.
훈련 세그먼트의 지표치는, 훈련 세그먼트의 좌표축마다의 좌표치와 훈련 세그먼트용의 기준 평면의 좌표축마다의 좌표치의 차이로부터 산출되는 값이다.
***동작의 설명***
시계열 데이터 검색 방법의 처리의 흐름은 실시의 형태 1의 도 3과 동일하다.
단, S120으로부터 S140은 실시의 형태 1과 이하와 같이 상이하다.
S120에 있어서, 초기 세그먼트 집합 소트부(130)는, 실시의 형태 1로부터 실시의 형태 5의 각각에서 설명한 종류의 특징량을 산출한다.
또한, 초기 세그먼트 집합 소트부(130)는 훈련 세그먼트 Si마다 특징량으로서 FeatR(Si)를 산출한다. 이 특징량은 실시의 형태 5에서 설명한 지표치이다.
또한, 초기 세그먼트 집합 소트부(130)는 훈련 세그먼트마다의 특징량의 분산치를 산출하고, 분산치가 분산치 범위에 포함되는지 여부를 임계치를 이용하여 판정한다.
분산치가 임계치 이하인 경우, 초기 세그먼트 집합 소트부(130)는, 실시의 형태 1, 실시의 형태 3 또는 실시의 형태 4에서 설명한 종류의 특징량을 선택한다.
분산치가 임계치보다 큰 경우, 초기 세그먼트 집합 소트부(130)는, 실시의 형태 2, 실시의 형태 4 또는 실시의 형태 5에서 설명한 종류의 특징량을 선택한다.
그리고, 초기 세그먼트 집합 소트부(130)는, 초기 세그먼트 집합 F에 포함되는 초기 세그먼트를 선택한 특징량의 순서로 소트한다.
S130 및 S140은, 선택된 종류의 특징량에 대하여 설명한 실시의 형태와 동일하다.
이 실시예 2는, 실시의 형태 5에서 설명한 FeatR(Ei)를 이용하는 방법이다.
시계열 데이터의 제 3 특성에 의해, 데이터 값의 변화가 완만한 시계열 데이터의 세그먼트는 W차원 공간의 기본 벡터의 주변에 분포한다고 생각된다. 기본 벡터 V는 원점 0과 점(1, 1, …, 1)을 통과하는 벡터이다. 이 FeatR(Ei)는 표본 세그먼트 Ei가 나타내는 표본 벡터 El과 기본 벡터 V의 어긋남을 나타내는 지표가 된다. 그리고, 실시예 2가 도출된다.
<실시예 3>
***구성의 설명***
시계열 데이터 검색 장치(100)의 기능 구성은 실시의 형태 1의 도 1과 동일하다.
단, 훈련 세그먼트마다의 지표치로부터 산출되는 최대치가 최대치의 조건인 최대치 범위에 포함되는 경우와, 최대치가 최대치 범위에 포함되지 않는 경우에, 초기 세그먼트의 특징량의 종류가 상이하다.
훈련 세그먼트의 지표치는, 훈련 세그먼트의 좌표축마다의 좌표치와 훈련 세그먼트용의 기준 평면의 좌표축마다의 좌표치의 차이로부터 산출되는 값이다.
***동작의 설명***
시계열 데이터 검색 방법의 처리의 흐름은 실시의 형태 1의 도 3과 동일하다.
단, S120으로부터 S140은, <실시예 2>의 S120으로부터 S140에 있어서 분산치를 최대치로 대체한 처리이다.
<실시예 4>
***구성의 설명***
시계열 데이터 검색 장치(100)의 기능 구성은 실시의 형태 1의 도 1과 동일하다.
단, 훈련 세그먼트마다의 지표치로부터 산출되는 분산치가 분산치의 조건인 분산치 범위에 포함되는 경우와, 분산치가 분산치 범위에 포함되지 않는 경우에, 초기 세그먼트의 특징량의 종류가 상이하다.
훈련 세그먼트의 지표치는, 훈련 세그먼트의 좌표치를 나타내는 벡터의 편각의 크기를 나타내는 값이다.
***동작의 설명***
시계열 데이터 검색 방법의 처리의 흐름은 실시의 형태 1의 도 3과 동일하다.
단, S120으로부터 S140은 실시의 형태 1과 이하와 같이 상이하다.
S120에 있어서, 초기 세그먼트 집합 소트부(130)는, 실시의 형태 1로부터 실시의 형태 5의 각각에서 설명한 종류의 특징량을 산출한다.
또한, 초기 세그먼트 집합 소트부(130)는 훈련 세그먼트 Si마다 특징량으로서 편각 φ를 산출한다. 편각 φ는 훈련 벡터 Sl과 기본 벡터 V의 내적으로부터 구해지는 값이다. 훈련 벡터 Sl은 원점 0과 훈련 세그먼트 Si의 좌표를 통과하는 벡터이다.
편각 φ는 이하의 식 <17> 및 식 <18>로 산출된다. 벡터를 나타내는 부호에는 상부에 화살표를 부기하고 있다.
[수학식 12]
Figure pct00013
또한, 초기 세그먼트 집합 소트부(130)는 훈련 세그먼트마다의 특징량의 분산치를 산출하고, 분산치가 분산치 범위에 포함되는지 여부를 임계치를 이용하여 판정한다.
분산치가 임계치 이하인 경우, 초기 세그먼트 집합 소트부(130)는, 실시의 형태 1, 실시의 형태 3 또는 실시의 형태 4에서 설명한 종류의 특징량을 선택한다.
분산치가 임계치보다 큰 경우, 초기 세그먼트 집합 소트부(130)는, 실시의 형태 2, 실시의 형태 4 또는 실시의 형태 5에서 설명한 종류의 특징량을 선택한다.
그리고, 초기 세그먼트 집합 소트부(130)는, 초기 세그먼트 집합 F에 포함되는 초기 세그먼트를 선택한 특징량의 순서로 소트한다.
S130 및 S140은, 선택된 종류의 특징량에 대하여 설명한 실시의 형태와 동일하다.
<실시예 5>
***구성의 설명***
시계열 데이터 검색 장치(100)의 기능 구성은 실시의 형태 1의 도 1과 동일하다.
단, 훈련 세그먼트마다의 지표치로부터 산출되는 최대치가 최대치의 조건인 최대치 범위에 포함되는 경우와, 최대치가 최대치 범위에 포함되지 않는 경우에, 초기 세그먼트의 특징량의 종류가 상이하다.
훈련 세그먼트의 지표치는, 훈련 세그먼트의 좌표치를 나타내는 벡터의 편각의 크기를 나타내는 값이다.
***동작의 설명***
시계열 데이터 검색 방법의 처리의 흐름은 실시의 형태 1의 도 3과 동일하다.
단, S120으로부터 S140은, <실시예 4>의 S120으로부터 S140에 있어서 분산치를 최대치로 대체한 처리이다.
***효과의 설명***
초기 세그먼트의 거리 판정에 있어서, 실시의 형태 1로부터 실시의 형태 4에서는 1개의 특징량을 이용하고, 실시의 형태 5에서는 2개의 특징량을 이용했다. 일반적으로, 특징량의 수가 증가하면, 엄밀한 판정이 가능하게 되는 한편, 계산량이 증가한다.
그래서, 실시의 형태 6에서는, 계산량의 증가량보다 엄밀한 판정에 의한 탐색 범위의 삭감량이 크다고 생각되는 경우에 2개의 특징량을 이용한다.
다시 말해, 실시의 형태 6은, 시계열 데이터의 특성에 따라 특징량을 선택하고, 표본 세그먼트를 생성하기 위한 초기 세그먼트의 탐색을 효율적으로 실행할 수 있다.
실시의 형태 7.
초기 일시 세그먼트 집합 Uf에 포함되는 초기 세그먼트로부터 표본 세그먼트를 선택하는 형태에 대하여, 도 8로부터 도 10에 근거하여 설명한다. 단, 실시의 형태 1과 중복되는 설명은 생략한다.
***구성의 설명***
시계열 데이터 검색 장치(100)의 기능 구성은 실시의 형태 1의 도 1과 동일하다.
단, 초기 세그먼트 집합 생성부(120)는 이하와 같이 기능한다.
초기 세그먼트 집합 생성부(120)는, 훈련 시계열 데이터 S로부터 W개의 데이터 값을 시계열의 순서로 추출하여 얻어지는 훈련 세그먼트를 복수 생성하고, 시계열의 순서로 배열된 1개 이상의 훈련 세그먼트를 나타내는 훈련 일시 세그먼트 집합을 복수 생성한다. 그리고, 초기 세그먼트 집합 생성부(120)는, 훈련 일시 세그먼트 집합마다 훈련 일시 세그먼트 집합을 초기 세그먼트로서 나타내는 초기 세그먼트 집합 F를 생성한다.
훈련 일시 세그먼트 집합에 복수의 훈련 세그먼트가 포함되는 경우, 복수의 훈련 세그먼트 중 시계열의 순서의 선두의 훈련 세그먼트와 나머지의 훈련 세그먼트의 거리는 조건 반경 ε/2 이하이다.
또한, 표본 세그먼트 집합 생성부(140)는 이하와 같이 기능한다.
표본 세그먼트 집합 생성부(140)는, 초기 세그먼트 집합 F를 1개 이상의 초기 일시 세그먼트 집합으로 분할한다. 초기 일시 세그먼트 집합은, 반경의 조건인 조건 반경 ε/2를 갖는 W차원의 도형(구 B)마다 도형에 포함되는 좌표치를 나타내는 데이터 값으로 이루어지는 초기 세그먼트로 구성된다. 그리고, 표본 세그먼트 집합 생성부(140)는, 초기 일시 세그먼트 집합의 도형의 중심(重心)의 좌표치에 근거하여 초기 일시 세그먼트 집합으로부터 훈련 세그먼트를 표본 세그먼트로서 선택하고, 초기 일시 세그먼트 집합마다의 표본 세그먼트를 나타내는 표본 세그먼트 집합 E를 생성한다.
***동작의 설명***
시계열 데이터 검색 방법의 처리의 흐름은 실시의 형태 1의 도 3과 동일하다.
단, S110으로부터 S130은 실시의 형태 1과 이하와 같이 상이하다.
도 8에 근거하여, 초기 세그먼트 집합 생성 처리(S110)에 대하여 설명한다. 실시의 형태 1과 상이한 처리의 스텝 번호에는 부호 B를 붙인다.
S111에 있어서, 초기 세그먼트 집합 생성부(120)는 초기 세그먼트 집합 F를 초기화한다.
S112B에 있어서, 초기 세그먼트 집합 생성부(120)는, 훈련 일시 세그먼트 집합 Us를 초기화하고, 훈련 세그먼트 Si 그 자체가 아닌, 훈련 세그먼트 Si를 식별하는 인덱스 i를 훈련 일시 세그먼트 집합 Us에 추가한다. 인덱스 i는 변수 i의 값이다. 이후, 훈련 세그먼트 Si가 필요한 경우, 인덱스 i와 훈련 시계열 데이터로부터, 훈련 세그먼트 Si를 복원할 수 있는 것은 분명하다.
S113에 있어서, 초기 세그먼트 집합 생성부(120)는, 훈련 세그먼트 Si와 훈련 세그먼트 Sj의 세그먼트 사이 거리 d를 산출한다.
S114에 있어서, 초기 세그먼트 집합 생성부(120)는, 세그먼트 사이 거리 d가 ε/2 이하인지 판정한다.
S115B에 있어서, 초기 세그먼트 집합 생성부(120)는, 인덱스 j를 훈련 일시 세그먼트 집합 Us에 추가한다. 인덱스 j는 변수 j의 값이다.
S116B에 있어서, 초기 세그먼트 집합 생성부(120)는, 훈련 일시 세그먼트 집합 Us를 초기 세그먼트 집합 F에 추가한다.
S117에 있어서, 초기 세그먼트 집합 생성부(120)는 변수 i의 값을 변수 j의 값으로 갱신한다.
도 8의 처리에 의해, 초기 세그먼트의 인덱스로 이루어지는 초기 세그먼트 집합 F를 생성할 수 있다. 초기 세그먼트 집합 F는 인덱스에 의해 초기 세그먼트를 식별한다.
S120에 있어서, 초기 세그먼트 집합 소트부(130)는, 초기 세그먼트 집합 F에 포함되는 초기 세그먼트마다 초기 세그먼트에 포함되는 인덱스에 의해 식별되는 각각의 훈련 세그먼트가 나타내는 좌표의 중심(重心)을 산출한다.
초기 세그먼트 집합 소트부(130)는 초기 세그먼트마다 중심(重心)의 특징량을 산출한다. 초기 세그먼트마다의 특징량이 산출된 후, 초기 세그먼트마다의 중심(重心)은 메모리로부터 파기한다.
그리고, 초기 세그먼트 집합 소트부(130)는, 초기 세그먼트 집합 F에 포함되는 초기 세그먼트를 특징량의 오름차순으로 소트한다.
도 9에 근거하여, 표본 세그먼트 집합 생성 처리(S130)에 대하여 설명한다. 실시의 형태 1과 상이한 처리의 스텝 번호에는 부호 B를 붙인다.
S130-1에 있어서, 표본 세그먼트 집합 생성부(140)는, 표본 세그먼트 집합 E를 초기화한다.
S131B-1에 있어서, 표본 세그먼트 집합 생성부(140)는, 초기 세그먼트 Fi의 중심(重心)을 포함하는 구 B의 중심(重心) C를 결정한다. 구 B의 반경은 ε/2이다.
S131B-2에 있어서, 표본 세그먼트 집합 생성부(140)는, 초기 일시 세그먼트 집합 Uf를 초기화하고, 초기 세그먼트 [Fi]를 초기 일시 세그먼트 집합 Uf에 추가한다.
초기 세그먼트 [Fi]는 초기 세그먼트 Fi에 포함되는 인덱스에 의해 식별되는 훈련 세그먼트를 의미한다.
S131-3에 있어서, 표본 세그먼트 집합 생성부(140)는, 초기 세그먼트 Fi를 초기 세그먼트 집합 F로부터 제거한다.
S131-4에 있어서, 표본 세그먼트 집합 생성부(140)는, 변수 Skip에 -1을 설정한다.
S131B-5에 있어서, 표본 세그먼트 집합 생성부(140)는, 초기 일시 세그먼트 집합 Uf의 중심(重心) Ctrue를 산출한다. Ctrue는, Uf에 포함되는 훈련 세그먼트를 인덱스에 의해 호출하고, 식 <1>과 마찬가지로 계산하는 것에 의해 산출할 수 있다.
표본 세그먼트 집합 생성부(140)는, 초기 일시 세그먼트 집합 Uf에 포함되는 훈련 세그먼트마다, 훈련 세그먼트의 좌표와 중심(重心) Ctrue의 좌표의 거리 σ를 산출한다.
그리고, 표본 세그먼트 집합 생성부(140)는, 거리 σ가 가장 작은 훈련 세그먼트의 인덱스를 표본 세그먼트의 중심(重心) Cpseudo로서 표본 세그먼트 집합 E에 추가한다.
훈련 세그먼트가 표본 세그먼트가 되기 때문에, W차원의 벡터가 아닌, 훈련 세그먼트의 인덱스를 기억하면 된다.
또한, 중심(重心) Ctrue와 표본 세그먼트의 거리 σ를 기억하여 두는 것에 의해, 최종적인 거리의 오차가 ε+σ 이내인 것을 나타낼 수 있다.
도 10에 근거하여, 표본 세그먼트 집합 생성 처리(S130)의 제 2 루프 처리(S132)에 대하여 설명한다. 실시의 형태 1과 상이한 처리의 스텝 번호에는 부호 B를 붙인다.
S132-1에 있어서, 표본 세그먼트 집합 생성부(140)는, 초기 세그먼트 Fj의 특징량 D(Fj)와 중심(重心) C의 특징량 D(C)의 특징량 차이가 ε/(2*√W)보다 큰지 판정한다.
S132B-2에 있어서, 표본 세그먼트 집합 생성부(140)는, 초기 세그먼트 Fj의 중심(重心) Cj를 산출한다.
그리고, 표본 세그먼트 집합 생성부(140)는, 중심(重心) C의 좌표와 중심(重心) Cj의 좌표의 거리인 세그먼트 사이 거리 d를 산출한다.
S132-3에 있어서, 표본 세그먼트 집합 생성부(140)는, 세그먼트 사이 거리 d가 ε/2 이하인지 판정한다.
S132B-4에 있어서, 표본 세그먼트 집합 생성부(140)는, 초기 세그먼트 [Fj]를 초기 일시 세그먼트 집합 Uf에 추가한다.
S132-5에 있어서, 표본 세그먼트 집합 생성부(140)는, 초기 세그먼트 집합 F로부터 초기 세그먼트 Fj를 제거한다.
S132-6에 있어서, 변수 Skip이 음의 값(-1)인 경우, 표본 세그먼트 집합 생성부(140)는 변수 Skip에 변수 j의 값을 설정한다.
표본 세그먼트가 되는 훈련 세그먼트의 인덱스를 W차원의 세그먼트 대신에 이용하는 것에 의해, 표본 세그먼트의 기억에 필요한 기억 용량을 약 1/W로 삭감할 수 있다. 다시 말해, 기억 효율을 향상시킬 수 있다.
***보충 설명***
도 11로부터 도 16에 근거하여, 표본 세그먼트에 관한 보충 설명을 행한다.
도 11에 있어서, 시계열 데이터로부터 추출된 길이 W의 세그먼트는, W차원 공간상의 좌표에 대응한다. 도면 중의 W는 2이다.
도 12에 있어서, W차원 공간상의 좌표의 평균치 A를 이용하여, 그 좌표가 x1+x2+…+xW=A*W로 나타내어지는 기준 평면에 위치한다고 하는 것을 말할 수 있다. W=2의 경우, 기준 평면은 직선에 상당한다.
도 13에 있어서, 좌표 p의 기준 평면과 x1축의 교점 p'의 거리는 W*A이다. 원점 O로부터 좌표 p의 기준 평면까지의 거리는 A*√W이다. 즉, A가 클수록, 원점 O로부터 먼 평면상에 좌표가 있는 것을 의미한다.
좌표 p와 좌표 q의 거리 (dist(p, q))는, 좌표 p의 기준 평면과 좌표 q의 기준 평면의 거리 이상이 되기 때문에, dist(p, q)≥|Mean(p)*√W-Mean(q)*√W|가 성립한다.
따라서, dist(p, q)≤ε/2가 되기 위해서는, |Mean(p)*√W-Mean(q)*√W|≤ε/2, 즉, |Mean(p)-Mean(q)|≤ε/(2*√W)를 만족시킬 필요가 있다.
도 14에 있어서, 초기 세그먼트 집합은 반경이 ε/2인 구에 포함된다. 초기 세그먼트 집합은 선두의 훈련 세그먼트로부터의 거리가 ε/2 이하인 훈련 세그먼트의 집합이다.
도 15에 있어서, 중심(重心) C를 중심(中心)으로 하여 반경이 ε/2인 구에 포함되는 초기 세그먼트 집합의 중심(重心)을 모으면, 모아진 훈련 세그먼트는, 모두 C를 중심(中心)으로 하여 반경이 ε인 구에 포함된다.
따라서, 어느 테스트 세그먼트와 중심(重心) C의 거리가 d인 경우, 그 테스트 세그먼트와 중심(重心) C를 중심(中心)으로 하는 구 내의 훈련 세그먼트의 거리는 d±ε의 범위에 포함된다.
도면 중의 (1)~(6)은 각각 중심(重心)이고, 평균치가 C의 평균치에 가까운 중심(重心) (1)→(2)→(3)의 순서로 거리를 조사한다. 그 후, C와의 평균치의 차이가 ε/2인 중심(重心) (4)까지가 표본 세그먼트로서 합병하는 대상의 후보가 된다. 그러나, C와의 평균치의 차이가 ε/2보다 큰 중심(重心) (5)는 합병의 대상이 되지 않는다. 그리고, 중심(重心) (5)에서 임계치를 넘었기 때문에, (6) 이후의 중심(重心)은 조사할 필요가 없다.
도 16에 있어서, FeatM은 좌표계의 원점으로부터 기준 평면까지의 거리에 대응한다. FeatR은 수선의 발(A, …, A)로부터 실제의 중심(重心)까지의 어긋남 폭에 대응한다. 수선의 발은 원점으로부터 기준 평면으로 내린 수선의 단점(endpoint)이다.
dist(p, q)는 도면 중의 (1)의 거리보다 길다. 이것은, 식 <14>의 전반 부분에 상당한다. 또한, dist(p, q)는 도면 중의 (2)의 거리보다 짧다. 이것은, 식 <14>의 후반 부분에 상당한다.
각 실시의 형태는, 바람직한 형태의 예시이고, 본 발명의 기술적 범위를 제한하는 것을 의도하는 것이 아니다. 각 실시의 형태는, 부분적으로 실시하더라도 좋고, 다른 실시의 형태와 조합하여 실시하더라도 좋다.
플로우차트 등을 이용하여 설명한 처리 순서는, 시계열 데이터 검색 장치, 시계열 데이터 검색 방법 및 시계열 데이터 검색 프로그램의 처리 순서의 일례이다.
100 : 시계열 데이터 검색 장치
110 : 시계열 데이터 취득부
111 : 파라미터 취득부
120 : 초기 세그먼트 집합 생성부
130 : 초기 세그먼트 집합 소트부
140 : 표본 세그먼트 집합 생성부
150 : 표본 세그먼트 집합 소트부
160 : 검색 결과 거리 산출부
161 : 검색 결과 거리 출력부
190 : 데이터 기억부
901 : 프로세서
902 : 보조 기억 장치
903 : 메모리
904 : 통신 장치
9041 : 리시버
9042 : 트랜스미터
905 : 입력 인터페이스
906 : 디스플레이 인터페이스
907 : 입력 장치
908 : 디스플레이
910 : 신호선
911 : 케이블
912 : 케이블
S : 훈련 시계열 데이터
T : 테스트 시계열 데이터
W : 슬라이드 폭
ε : 근사 오차
F : 초기 세그먼트 집합
E : 표본 세그먼트 집합
Z : 검색 결과 거리

Claims (15)

  1. 시계열로 배열된 복수의 데이터 값으로 이루어지는 훈련 시계열 데이터로부터 W개의 데이터 값을 시계열의 순서로 추출하여 얻어지는 훈련 세그먼트를 복수 생성하고, 시계열의 순서로 배열된 1개 이상의 훈련 세그먼트로 이루어지는 훈련 일시 세그먼트 집합(training temporary segment set)을 복수 생성하고, 훈련 일시 세그먼트 집합의 각각의 훈련 세그먼트에 포함되는 W개의 데이터 값이 W차원의 좌표계의 좌표치로서 다루어진 경우의 훈련 일시 세그먼트 집합의 중심(重心)의 좌표치를 나타내는 W개의 데이터 값을 초기 세그먼트로서 훈련 일시 세그먼트 집합마다 산출하고, 훈련 일시 세그먼트 집합마다의 초기 세그먼트로 이루어지는 초기 세그먼트 집합을 생성하는 초기 세그먼트 집합 생성부와,
    상기 초기 세그먼트 집합을, 반경의 조건인 조건 반경을 갖는 W차원의 도형마다 도형에 포함되는 좌표치를 나타내는 데이터 값으로 이루어지는 초기 세그먼트로 구성되는 초기 일시 세그먼트 집합으로 분할하고, 초기 일시 세그먼트 집합의 도형의 중심(重心)의 좌표치를 나타내는 W개의 데이터 값으로 이루어지는 표본 세그먼트를 초기 일시 세그먼트 집합마다 포함하는 표본 세그먼트 집합을 생성하는 표본 세그먼트 집합 생성부
    를 구비하는 시계열 데이터 검색 장치.
  2. 제 1 항에 있어서,
    상기 시계열 데이터 검색 장치는, 상기 초기 세그먼트 집합에 포함되는 초기 세그먼트마다 초기 세그먼트에 포함되는 데이터 값을 이용하여 초기 세그먼트의 특징량을 산출하고, 상기 초기 세그먼트 집합에 포함되는 초기 세그먼트를 특징량의 순서로 소트(sort)하는 초기 세그먼트 집합 소트부를 구비하고,
    제 1 초기 일시 세그먼트 집합은, 소트 후의 상기 초기 세그먼트 집합 중 선두의 초기 세그먼트가 나타내는 좌표치를 포함하는 도형인 제 1 도형에 포함되는 1개 이상의 초기 세그먼트로 이루어지고,
    상기 선두의 초기 세그먼트를 제외하고 상기 제 1 초기 일시 세그먼트 집합에 포함되는 초기 세그먼트는, 상기 선두의 초기 세그먼트의 다음의 초기 세그먼트로부터 차례로, 초기 세그먼트가 상기 제 1 도형에 포함되는지 판정하는 초기 세그먼트 판정에 의해 판정되는
    시계열 데이터 검색 장치.
  3. 제 2 항에 있어서,
    상기 다음의 초기 세그먼트로부터 차례로 선택된 초기 세그먼트의 특징량과, 상기 제 1 도형의 중심(重心)인 제 1 중심(重心)의 좌표치로부터 산출되는 상기 제 1 중심(重心)의 특징량의 차이인 특징량 차이가 특징량 차이의 조건인 특징량 차이 범위에 포함되는 경우, 선택된 초기 세그먼트에 대한 상기 초기 세그먼트 판정이 행해지고,
    상기 특징량 차이가 상기 특징량 차이 범위에 포함되지 않는 경우, 선택된 초기 세그먼트 이후의 초기 세그먼트에 대한 상기 초기 세그먼트 판정이 행해지지 않는
    시계열 데이터 검색 장치.
  4. 제 3 항에 있어서,
    선택된 초기 세그먼트에 대한 상기 초기 세그먼트 판정에 있어서, 선택된 초기 세그먼트가 나타내는 좌표치의 좌표와 상기 제 1 중심(重心)의 좌표의 거리가 상기 조건 반경 이하인 경우에, 선택된 초기 세그먼트가 상기 제 1 도형에 포함된다고 판정되는 시계열 데이터 검색 장치.
  5. 제 4 항에 있어서,
    상기 초기 세그먼트의 특징량은 상기 초기 세그먼트에 포함되는 데이터 값의 평균치이고,
    상기 제 1 중심(重心)의 특징량은 상기 제 1 도형의 중심(重心)의 좌표치가 W개의 데이터 값으로서 다루어진 경우의 데이터 값의 평균치인
    시계열 데이터 검색 장치.
  6. 제 4 항에 있어서,
    상기 초기 세그먼트의 특징량은 상기 초기 세그먼트가 나타내는 좌표치의 좌표와 기준점의 거리이고,
    상기 제 1 중심(重心)의 특징량은 상기 제 1 중심(重心)과 상기 기준점의 거리인
    시계열 데이터 검색 장치.
  7. 제 4 항에 있어서,
    상기 초기 세그먼트의 특징량은, 상기 초기 세그먼트에 포함되는 데이터 값을 평균한 전체 평균치와, 상기 초기 세그먼트로부터 추출되는 초기 부분 세그먼트에 포함되는 데이터 값을 평균한 부분 평균치이고,
    상기 제 1 중심(重心)의 특징량은 상기 제 1 중심(重心)의 좌표치가 W개의 데이터 값으로서 다루어진 경우의 데이터 값을 평균한 중심(重心) 평균치이고,
    상기 초기 세그먼트 집합에 포함되는 초기 세그먼트가 부분 평균치의 순서로 소트되고,
    상기 특징량 차이가 상기 전체 평균치와 상기 중심(重心) 평균치의 차이인
    시계열 데이터 검색 장치.
  8. 제 4 항에 있어서,
    상기 초기 세그먼트의 특징량은 상기 초기 세그먼트에 연속하여 포함되는 2개의 데이터 값마다의 데이터 값의 차이로부터 산출되는 상기 초기 세그먼트의 복잡도이고,
    상기 제 1 중심(重心)의 특징량은 상기 제 1 중심(重心)의 좌표치가 W개의 데이터 값으로 이루어지는 제 1 중심(重心) 세그먼트로서 다루어진 경우의 상기 제 1 중심(重心) 세그먼트에 연속하여 포함되는 2개의 데이터 값마다의 데이터 값의 차이로부터 산출되는 상기 제 1 중심(重心) 세그먼트의 복잡도인
    시계열 데이터 검색 장치.
  9. 제 4 항에 있어서,
    상기 초기 세그먼트의 특징량은, 상기 초기 세그먼트가 나타내는 좌표치의 좌표와 상기 초기 세그먼트용의 기준 평면의 최단 거리인 초기 최단 거리와, 상기 초기 세그먼트의 좌표축마다의 좌표치와 상기 초기 세그먼트용의 기준 평면의 좌표축마다의 좌표치의 차이로부터 산출되는 초기 지표치이고,
    상기 제 1 중심(重心)의 특징량은, 상기 제 1 중심(重心)의 좌표와 상기 제 1 중심(重心)용의 기준 평면의 중심(重心) 최단 거리인 중심(重心) 최단 거리와, 상기 제 1 중심(重心)의 좌표축마다의 좌표치와 상기 제 1 중심(重心)용의 기준 평면의 좌표축마다의 좌표치의 차이로부터 산출되는 중심(重心) 지표치이고,
    상기 초기 세그먼트 집합에 포함되는 초기 세그먼트가 초기 최단 거리의 순서로 소트되고,
    상기 특징량 차이가, 상기 초기 최단 거리와 상기 중심(重心) 최단 거리의 차이와, 상기 초기 지표치와 상기 중심(重心) 지표치의 차이의 합계인
    시계열 데이터 검색 장치.
  10. 제 4 항에 있어서,
    양의 데이터 값과 음의 데이터 값의 어느 한쪽만이 상기 훈련 시계열 데이터에 포함되는 경우와, 양의 데이터 값과 음의 데이터 값의 양쪽이 상기 훈련 시계열 데이터에 포함되는 경우에, 상기 초기 세그먼트의 특징량의 종류가 상이한 시계열 데이터 검색 장치.
  11. 제 4 항에 있어서,
    훈련 세그먼트마다의 지표치로부터 산출되는 분산치가 분산치의 조건인 분산치 범위에 포함되는 경우와, 상기 분산치가 상기 분산치 범위에 포함되지 않는 경우에, 상기 초기 세그먼트의 특징량의 종류가 상이하고,
    훈련 세그먼트의 지표치가, 상기 훈련 세그먼트의 좌표축마다의 좌표치와 상기 훈련 세그먼트용의 기준 평면의 좌표축마다의 좌표치의 좌표축마다의 차이로부터 산출되는 값과, 상기 훈련 세그먼트의 좌표치를 나타내는 벡터의 편각의 크기를 나타내는 값 중 어느 하나인
    시계열 데이터 검색 장치.
  12. 제 4 항에 있어서,
    훈련 세그먼트마다의 지표치 중 최대치가 최대치의 조건인 최대치 범위에 포함되는 경우와, 상기 최대치가 상기 최대치 범위에 포함되지 않는 경우에, 상기 초기 세그먼트의 특징량의 종류가 상이하고,
    훈련 세그먼트의 지표치가, 상기 훈련 세그먼트의 좌표축마다의 좌표치와 상기 훈련 세그먼트용의 기준 평면의 좌표축마다의 좌표치의 좌표축마다의 차이로부터 산출되는 값과, 상기 훈련 세그먼트의 좌표치를 나타내는 벡터의 편각의 크기를 나타내는 값 중 어느 하나인
    시계열 데이터 검색 장치.
  13. 시계열로 배열된 복수의 데이터 값으로 이루어지는 훈련 시계열 데이터로부터 W개의 데이터 값을 시계열의 순서로 추출하여 얻어지는 훈련 세그먼트를 복수 생성하고, 시계열의 순서로 배열된 1개 이상의 훈련 세그먼트를 나타내는 훈련 일시 세그먼트 집합을 복수 생성하고, 훈련 일시 세그먼트 집합마다 훈련 일시 세그먼트 집합을 초기 세그먼트로서 나타내는 초기 세그먼트 집합을 생성하는 초기 세그먼트 집합 생성부와,
    상기 초기 세그먼트 집합을, 반경의 조건인 조건 반경을 갖는 W차원의 도형마다 도형에 포함되는 좌표치를 나타내는 데이터 값으로 이루어지는 초기 세그먼트로 구성되는 초기 일시 세그먼트 집합으로 분할하고, 상기 초기 일시 세그먼트 집합의 도형의 중심(重心)의 좌표치에 근거하여 상기 초기 일시 세그먼트 집합으로부터 훈련 세그먼트를 표본 세그먼트로서 선택하고, 초기 일시 세그먼트 집합마다의 표본 세그먼트를 나타내는 표본 세그먼트 집합을 생성하는 표본 세그먼트 집합 생성부
    를 구비하는 시계열 데이터 검색 장치.
  14. 시계열로 배열된 복수의 데이터 값으로 이루어지는 훈련 시계열 데이터로부터 W개의 데이터 값을 시계열의 순서로 추출하여 얻어지는 훈련 세그먼트를 복수 생성하고, 시계열의 순서로 배열된 1개 이상의 훈련 세그먼트로 이루어지는 훈련 일시 세그먼트 집합을 복수 생성하고, 훈련 일시 세그먼트 집합의 각각의 훈련 세그먼트에 포함되는 W개의 데이터 값이 W차원의 좌표계의 좌표치로서 다루어진 경우의 훈련 일시 세그먼트 집합의 중심(重心)의 좌표치를 나타내는 W개의 데이터 값을 초기 세그먼트로서 훈련 일시 세그먼트 집합마다 산출하고, 훈련 일시 세그먼트 집합마다의 초기 세그먼트로 이루어지는 초기 세그먼트 집합을 생성하는 초기 세그먼트 집합 생성 처리와,
    상기 초기 세그먼트 집합을, 반경의 조건인 조건 반경을 갖는 W차원의 도형마다 도형에 포함되는 좌표치를 나타내는 데이터 값으로 이루어지는 초기 세그먼트로 구성되는 초기 일시 세그먼트 집합으로 분할하고, 초기 일시 세그먼트 집합의 도형의 중심(重心)의 좌표치를 나타내는 W개의 데이터 값으로 이루어지는 표본 세그먼트를 초기 일시 세그먼트 집합마다 포함하는 표본 세그먼트 집합을 생성하는 표본 세그먼트 집합 생성 처리
    를 컴퓨터에 실행시키는 시계열 데이터 검색 프로그램.
  15. 시계열로 배열된 복수의 데이터 값으로 이루어지는 훈련 시계열 데이터로부터 W개의 데이터 값을 시계열의 순서로 추출하여 얻어지는 훈련 세그먼트를 복수 생성하고, 시계열의 순서로 배열된 1개 이상의 훈련 세그먼트를 나타내는 훈련 일시 세그먼트 집합을 복수 생성하고, 훈련 일시 세그먼트 집합마다 훈련 일시 세그먼트 집합을 초기 세그먼트로서 나타내는 초기 세그먼트 집합을 생성하는 초기 세그먼트 집합 생성 처리와,
    상기 초기 세그먼트 집합을, 반경의 조건인 조건 반경을 갖는 W차원의 도형마다 도형에 포함되는 좌표치를 나타내는 데이터 값으로 이루어지는 초기 세그먼트로 구성되는 초기 일시 세그먼트 집합으로 분할하고, 상기 초기 일시 세그먼트 집합의 도형의 중심(重心)의 좌표치에 근거하여 상기 초기 일시 세그먼트 집합으로부터 훈련 세그먼트를 표본 세그먼트로서 선택하고, 초기 일시 세그먼트 집합마다의 표본 세그먼트를 나타내는 표본 세그먼트 집합을 생성하는 표본 세그먼트 집합 생성 처리
    를 컴퓨터에 실행시키는 시계열 데이터 검색 프로그램.
KR1020177023188A 2015-01-22 2015-01-22 시계열 데이터 검색 장치 및 기록 매체에 저장된 시계열 데이터 검색 프로그램 KR101970090B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/051688 WO2016117086A1 (ja) 2015-01-22 2015-01-22 時系列データ検索装置および時系列データ検索プログラム

Publications (2)

Publication Number Publication Date
KR20170107500A true KR20170107500A (ko) 2017-09-25
KR101970090B1 KR101970090B1 (ko) 2019-04-17

Family

ID=56416651

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020177023188A KR101970090B1 (ko) 2015-01-22 2015-01-22 시계열 데이터 검색 장치 및 기록 매체에 저장된 시계열 데이터 검색 프로그램

Country Status (6)

Country Link
US (1) US10223069B2 (ko)
EP (1) EP3249549B1 (ko)
JP (1) JP6165367B2 (ko)
KR (1) KR101970090B1 (ko)
CN (1) CN107111643B (ko)
WO (1) WO2016117086A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022177070A1 (ko) * 2021-02-18 2022-08-25 한국전자기술연구원 파편적 데이터 검색 장치 및 방법
KR20230086794A (ko) * 2020-12-08 2023-06-15 미쓰비시덴키 가부시키가이샤 학습 장치, 불량 검지 장치, 및 불량 검지 방법

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018100655A1 (ja) * 2016-11-30 2018-06-07 株式会社日立製作所 データ収集システム、異常検出方法、及びゲートウェイ装置
JP6362808B1 (ja) 2017-07-31 2018-07-25 三菱電機株式会社 情報処理装置および情報処理方法
WO2020021587A1 (ja) * 2018-07-23 2020-01-30 三菱電機株式会社 時系列データ診断装置、追加学習方法およびプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08287104A (ja) * 1995-04-17 1996-11-01 Nec Corp 時系列データ管理方式

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003141159A (ja) 2001-11-06 2003-05-16 Fujitsu Ltd 距離インデクスを用いた検索装置および方法
JP4355824B2 (ja) 2003-05-23 2009-11-04 日本電信電話株式会社 時系列データ距離算出装置、プログラム、および記録媒体
JP4275084B2 (ja) 2005-02-16 2009-06-10 日本電信電話株式会社 類似時系列データ計算装置、類似時系列データ計算方法、および類似時系列データ計算プログラム
JP4451332B2 (ja) 2005-03-07 2010-04-14 日本電信電話株式会社 類似時系列データ計算装置、および類似時系列データ計算プログラム
JP5120254B2 (ja) * 2006-07-06 2013-01-16 旭硝子株式会社 クラスタリングシステムおよび欠陥種類判定装置
KR101380936B1 (ko) * 2006-10-05 2014-04-10 스플렁크 인코퍼레이티드 시계열 검색 엔진
JP4953239B2 (ja) 2006-12-11 2012-06-13 インターナショナル・ビジネス・マシーンズ・コーポレーション 観測対象の異常を検出する技術
JP5212355B2 (ja) 2007-02-21 2013-06-19 日本電気株式会社 パターン生成方法及びパターン生成装置とプログラム
JP4939349B2 (ja) 2007-09-12 2012-05-23 日本電信電話株式会社 トレンド検出方法、トレンド検出プログラムおよびトレンド検出装置
JP5060340B2 (ja) 2008-02-25 2012-10-31 日本電信電話株式会社 類似部分シーケンス検出方法、類似部分シーケンス検出プログラム、および、類似部分シーケンス検出装置
JP2009217555A (ja) * 2008-03-11 2009-09-24 Mitsubishi Electric Corp ネットワーク異常判定装置
JP5441554B2 (ja) 2009-08-03 2014-03-12 三菱電機株式会社 時系列データ類似判定装置、時系列データ類似判定プログラム、記録媒体及び時系列データ類似判定方法
JP5431235B2 (ja) 2009-08-28 2014-03-05 株式会社日立製作所 設備状態監視方法およびその装置
WO2011036809A1 (ja) * 2009-09-28 2011-03-31 株式会社 東芝 異常判定システムおよびその方法
JP5632862B2 (ja) 2012-02-13 2014-11-26 日本電信電話株式会社 データ検索装置、データ検索方法、及びデータ検索プログラム
JP5711171B2 (ja) 2012-03-23 2015-04-30 日本電信電話株式会社 データ検索装置、データ検索方法、及びデータ検索プログラム
JP5498540B2 (ja) 2012-07-19 2014-05-21 株式会社日立製作所 異常検知方法及びシステム
JP5851378B2 (ja) 2012-10-17 2016-02-03 日本電信電話株式会社 時系列データ探索方法、装置、及びプログラム
JP5530019B1 (ja) * 2013-11-01 2014-06-25 株式会社日立パワーソリューションズ 異常予兆検知システム及び異常予兆検知方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08287104A (ja) * 1995-04-17 1996-11-01 Nec Corp 時系列データ管理方式

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230086794A (ko) * 2020-12-08 2023-06-15 미쓰비시덴키 가부시키가이샤 학습 장치, 불량 검지 장치, 및 불량 검지 방법
WO2022177070A1 (ko) * 2021-02-18 2022-08-25 한국전자기술연구원 파편적 데이터 검색 장치 및 방법

Also Published As

Publication number Publication date
JPWO2016117086A1 (ja) 2017-04-27
KR101970090B1 (ko) 2019-04-17
EP3249549A4 (en) 2018-10-24
WO2016117086A1 (ja) 2016-07-28
US10223069B2 (en) 2019-03-05
CN107111643B (zh) 2018-12-28
US20180217812A1 (en) 2018-08-02
EP3249549A1 (en) 2017-11-29
JP6165367B2 (ja) 2017-07-19
CN107111643A (zh) 2017-08-29
EP3249549B1 (en) 2020-03-18

Similar Documents

Publication Publication Date Title
KR101970090B1 (ko) 시계열 데이터 검색 장치 및 기록 매체에 저장된 시계열 데이터 검색 프로그램
Mustafa et al. Study for predicting land surface temperature (LST) using landsat data: a comparison of four algorithms
Valavanis et al. Modelling of essential fish habitat based on remote sensing, spatial analysis and GIS
GB2547816B (en) Actually-measured marine environment data assimilation method based on sequence recursive filtering three-dimensional variation
Chen et al. A feature discretization method for classification of high-resolution remote sensing images in coastal areas
Goyal et al. Fuzzy model generation using Subtractive and Fuzzy C-Means clustering
Kim et al. Massive scale deep learning for detecting extreme climate events
Lu et al. Lightning strike location identification based on 3D weather radar data
Pashaei et al. Random forest in splice site prediction of human genome
Raj et al. Assessment and prediction of significant wave height using hybrid CNN-BiLSTM deep learning model for sustainable wave energy in Australia
Chen et al. A feature preprocessing framework of remote sensing image for marine targets recognition
CN105046707A (zh) 基于n阶多项式函数拟合海杂波的SAR图像船只检测方法
CN115358327A (zh) 基于pca-svm的海洋温跃层数据可视化方法、装置、设备及介质
Mkrtchyan Problems of statistical decisions in ocean monitoring
CN112529112B (zh) 一种矿物识别的方法和装置
Jaseena et al. An improved multivariate weather prediction model using deep neural networks and particle swarm optimisation
Qing-Dao-Er-Ji et al. Research on data mining algorithm of meteorological observation based on data quality control algorithm
Li et al. Typhoon cloud prediction via generative adversarial networks
Herho et al. On the statistical learning analysis of rain gauge data over the Natuna Islands
Reulen et al. GA-SmaAt-GNet: Generative Adversarial Small Attention GNet for Extreme Precipitation Nowcasting
Hidayanto et al. Oceanographic features selection to predict the tuna potential fishing zones using SFFS method
Nawaz et al. Deep neural architecture for geospatial trajectory completion over occupancy gridmap
Lah et al. Fuzzy-Autoregressive Integrated Moving Average (F-ARIMA) Model to Improve Temperature Forecast
CN108595386B (zh) 基于高阶累积量分析的分布式光纤振动测量方法及装置
Macdonald et al. Robust Storm Surge Forecasts for Early Warning System: A Machine Learning Approach Using Adaptive Monte Carlo Bayesian Model Selection Algorithm

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant