KR20210065276A

KR20210065276A - 오토 인코더 기법을 이용한 수출입 물동량에 대한 이상치 탐지 방법 및 이를 기록한 기록매체

Info

Publication number: KR20210065276A
Application number: KR1020190153733A
Authority: KR
Inventors: 류근호; 류차차; 류수리; 이종설
Original assignee: 충북대학교 산학협력단
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2021-06-04
Also published as: KR102346275B1

Abstract

본 발명은 수출입 물동량에 대한 이상치 탐지 방법에 관한 것으로서, 수출입 물동량 데이터로 이루어진 전체 데이터 세트를 학습한 AR(autoregressive) 모델 또는 VAR(Vector autoregressive) 모델로부터 최적의 지연 크기(lag size)를 수신하고, 수신된 최적의 지연 크기에 따라 전체 시계열에서 서브시퀀스(subsequences)를 준비하는 제1 단계, DAE(Deep autoencoder) 모델이 사용자 지정 배치(batch) 크기를 기반으로 상기 서브시퀀스를 학습하고, 이에 따라 압축된 서브시퀀스를 제공하여 차원 축소를 수행하는 제2 단계, 상기 압축된 서브시퀀스를 이용하여 이상치(outlier) 임계값(threshold)을 추정하는 제3 단계 및 상기 이상치 임계값을 이용하여 수출입 물동량 데이터의 이상치를 탐지하는 제4 단계를 포함한다.
본 발명에 의하면, 오토인코더 기법을 이용하여 용이하고 보다 정확하게 수출입 물동량의 이상치를 탐지할 수 있는 효과가 있다.

Description

오토 인코더 기법을 이용한 수출입 물동량에 대한 이상치 탐지 방법 및 이를 기록한 기록매체 {Method for detecting outlier value in import and export volume using auto encoder technique, and recording medium thereof}

본 발명은 오토 인코더(auto encoder) 기법에 관한 것으로서, 더욱 상세하게는 오토 인코더 기법을 이용하여 수출입 물동량에 대한 이상치를 탐지하는 기술에 관한 것이다.

인공지능은 컴퓨터에게 데이터를 학습시켜 마치 사람처럼 스스로 의사결정을 할 수 있게 한다. 예를 들어, 사진을 보고 무슨 사진인지 구분하도록 하는 분류 모델을 만들기 위해서는 컴퓨터에게 사진을 계속 보여주면서 이 사진은 어떤 것에 대한 것인지에 대한 정답을 학습시켜 주어야 한다. 이러한 방식을 '지도 기계학습'이라고 하며, 최근에 뛰어난 성능을 보이며 많은 관심을 받고 있는 딥러닝(deep learning) 역시 기계학습과 유사한 방법이다.

딥러닝과 기계학습은 데이터를 이용하여 모델을 학습한다는 공통점이 있지만 데이터를 학습하는 과정에서 큰 차이가 있다.

즉, 기계학습으로 이미지를 인식하기 위해서는 사진을 그대로 사용하는 것이 아니라 사진 속의 객체를 가장 잘 구분할 수 있는 특성인자를 찾아내야 하며, 기계학습에서 모델의 성능을 결정하는 것은 이 특성인자가 얼마나 데이터를 잘 대표하는가이다.

반면 딥러닝의 경우에는 사람이 특성인자를 선정하는 것이 아니라 데이터에서 모델을 학습하는 과정에서 목표를 잘 달성할 수 있는 특성인자를 스스로 찾는다.

한편, 세계 컨테이너 물동량은 글로벌 경기 침체로 2009년 약 4억 5,000만TEU, 2010년는 약 5억 200만TEU를 처리하여 2009년 대비 11.5% 급증하였다. 2011년에는 전년대비 8% 증가한 약 5억 6,150만TEU를 처리한 것으로 나타나고 있다.

2012년 컨테이너 물동량의 성장률은 전년 대비 둔화될 것으로 예상되나 환적화물의 증가, 경기회복 기대감, 벌크화물의 컨테이너화 지속, 특히 신흥시장의 경제성장과 인프라 투자가 컨테이너 물동량 발생에 긍정적인 영향을 미칠 것으로 예상된다.

한편, 국내 항만의 컨테이너 화물 처리량은 2011년 약 21,610천TEU를 처리하여 전년 대비 11.6% 증가하였고, 세계 경기침체로 수출입 물동량 증가세는 2010년 19.1%에서 2011년 8.6%로 둔화되었으나, 총 화물처리량은 약 21,610천TEU를 기록하여 20,000천TEU를 상회하였다. 2012년 컨테이너 물동량은 11월말 현재 약 20,152천TEU를 처리하여 2011년 대비 소폭의 증가가 예상된다.

이처럼 세계경기 침체로 전반적으로 경제성장세가 다소 둔화되었으나, 장기적인 관점에서 세계 교역량은 상승할 것으로 전망된다. 또한 중국항만을 중심으로 한 신흥국의 경제성장추세가 아직 이어지고 있어 환적화물을 적극 유치하고, 항만배후 물류단지가 활성화되면 컨테이너 수출입 물동량도 점차 증가할 것으로 예상된다.

수출입 물동량이 증가하면서 물동량 내 이상징후(abnormal sympton)를 탐지하여 처리해야 할 필요성이 있다. 그러나, 대량의 수출입 품목 중에서 이상징후를 탐지하는 것은 매우 어려운 과정이다. 따라서 종래에는 수출입 물동량 내 이상징후를 탐지하는 못하는 경우가 많았고, 이는 수출입 품목에 대한 사고로 이어지는 문제점이 있었다.

대한민국 등록특허 10-1865322

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 오토인코더 기법을 이용하여 용이하게 수출입 물동량 내 이상징후를 탐지하는 방법을 제공하는데 그 목적이 있다.

본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

이와 같은 목적을 달성하기 위한 본 발명의 수출입 물동량에 대한 이상치 탐지 방법은 수출입 물동량 데이터로 이루어진 전체 데이터 세트를 학습한 AR(autoregressive) 모델 또는 VAR(Vector autoregressive) 모델로부터 최적의 지연 크기(lag size)를 수신하고, 수신된 최적의 지연 크기에 따라 전체 시계열에서 서브시퀀스(subsequences)를 준비하는 제1 단계, DAE(Deep autoencoder) 모델이 사용자 지정 배치(batch) 크기를 기반으로 상기 서브시퀀스를 학습하고, 이에 따라 압축된 서브시퀀스를 제공하여 차원 축소를 수행하는 제2 단계, 상기 압축된 서브시퀀스를 이용하여 이상치(outlier) 임계값(threshold)을 추정하는 제3 단계 및 상기 이상치 임계값을 이용하여 수출입 물동량 데이터의 이상치를 탐지하는 제4 단계를 포함한다.

상기 제1 단계에서, VAR 모델이 사용자 지정 종속 변수를 기반으로 전체 시계열을 학습하여 종속변수에 보다 영향을 미치는 독립 변수인 기능(features)을 선택하고, 선택된 기능의 수가 하나인 경우, 선택된 기능을 이용하여 AR 모델이 전체 데이터 세트를 학습하고, 선택된 기능의 수가 둘 이상인 경우, 선택된 기능들을 이용하여 VAR 모델이 전체 데이터 세트를 학습하고, 학습된 AR 모델 또는 VAR 모델로부터 최적의 지연 크기를 수신하고, 수신된 최적의 지연 크기에 따라 전체 시계열에서 서브시퀀스를 준비할 수 있다.

상기 제2 단계에서, 첫 번째 DAE 모델이 사용자 지정 배치 크기를 기반으로 상기 서브시퀀스에 대해 학습하고, 이를 통해 초기 임계값을 산출하고, 상기 초기 임계값보다 작은 서브시퀀스를 선택하는 방식으로 정규(normal) 서브시퀀스를 선택하고, 두 번째 DAE 모델이 상기 정규 서브시퀀스에 대해 학습하고, 학습된 두 번째 DAE 모델에 전체 서브시퀀스가 입력되고, 학습된 두 번째 DAE 모델에 의해 압축된 서브시퀀스 데이터를 출력하여 차원 축소를 수행할 수 있다.

상기 제4 단계에서, DBSCAN(Density-based spatial clustering of applications with noise)을 기반으로 압축된 서브시퀀스를 다수의 클러스터(cluster)로 분류하는 클러스터링(Clustering)을 수행하고, 특이치 임계값을 이용하여 각 클러스터에 대한 이상치를 탐지할 수 있다.

본 발명에 의하면, 오토인코더 기법을 이용하여 용이하고 보다 정확하게 수출입 물동량의 이상치를 탐지할 수 있는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 오토인코더 기법을 이용한 수출입 물동량에 대한 이상치 탐지 방법을 개략적으로 나타낸 흐름도이다.
도 2 및 도 3은 본 발명의 일 실시예에 따른 오토인코더 기법을 이용한 수출입 물동량에 대한 이상치 탐지 방법을 상세하게 나타낸 흐름도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 갖는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

본 발명은 오토 인코더 기법을 이용한 수출입 물동량에 대한 이상치 탐지 방법에 대한 것이다.

본 발명에서 수출입 물동량에 대한 이상치 탐지 방법을 수행하는 주체는 수출입 물동량에 대한 이상치 탐지 방법을 수행하는 제반 컴퓨터 장치라고 할 수 있다. 즉, 본 발명에서 수출입 물동량에 대한 이상치 탐지 방법을 수행하는 컴퓨터, 컴퓨터의 제어부 또는 프로세서(processor)가 그 수행 주체가 될 수 있다.

도 1은 본 발명의 일 실시예에 따른 오토인코더 기법을 이용한 수출입 물동량에 대한 이상치 탐지 방법을 개략적으로 나타낸 흐름도이다.

도 1을 참조하면, 본 발명의 오토인코더(Auto encoder) 기법을 이용한 수출입 물동량에 대한 이상치 탐지 방법은 제1 단계(S110), 제2 단계(S120), 제3 단계(S130), 제4 단계(S140)를 포함한다.

제1 단계(S110)는 수출입 물동량 데이터로 이루어진 전체 데이터 세트(data set)를 학습한 AR(autoregressive) 모델 또는 VAR(Vector autoregressive) 모델로부터 최적의 지연 크기(lag size)를 수신하고, 수신된 최적의 지연 크기에 따라 전체 시계열(time series)에서 서브시퀀스(subsequences)를 준비한다.

제2 단계(S120)는 DAE(Deep autoencoder) 모델이 사용자 지정 배치(user specified batch) 크기를 기반으로 서브시퀀스를 학습하고, 이에 따라 압축된 서브시퀀스를 제공하여 차원 축소(dimension reduction)를 수행한다.

제3 단계(S130)는 압축된 서브시퀀스를 이용하여 이상치(outlier) 임계값(threshold)을 추정한다.

제4 단계(S140)는 이상치 임계값을 이용하여 수출입 물동량 데이터의 이상치를 탐지한다.

본 발명의 일 실시예에서 제1 단계(S110)에서 VAR 모델이 사용자 지정 종속 변수(user specified dependent variable)를 기반으로 전체 시계열을 학습하여 종속변수에 보다 영향을 미치는 독립 변수인 기능(features)을 선택하고, 선택된 기능의 수가 하나인 경우, 선택된 기능을 이용하여 AR 모델이 전체 데이터 세트를 학습하고, 선택된 기능의 수가 둘 이상인 경우, 선택된 기능들을 이용하여 VAR 모델이 전체 데이터 세트를 학습하고, 학습된 AR 모델 또는 VAR 모델로부터 최적의 지연 크기를 수신하고, 수신된 최적의 지연 크기에 따라 전체 시계열에서 서브시퀀스를 준비할 수 있다.

제2 단계(S120)에서 첫 번째 DAE 모델이 사용자 지정 배치 크기를 기반으로 준비된 서브시퀀스에 대해 학습하고, 이를 통해 초기 임계값(initial threshold)을 산출하고, 초기 임계값보다 작은 서브시퀀스를 선택하는 방식으로 정규(normal) 서브시퀀스를 선택하고, 두 번째 DAE 모델이 정규 서브시퀀스에 대해 학습하고, 학습된 두 번째 DAE 모델에 전체 서브시퀀스가 입력되고, 학습된 두 번째 DAE 모델에 의해 압축된 서브시퀀스 데이터를 출력하여 차원 축소를 수행할 수 있다.

제4 단계(S140)에서, DBSCAN(Density-based spatial clustering of applications with noise)을 기반으로 압축된 서브시퀀스를 다수의 클러스터(cluster)로 분류하는 클러스터링(Clustering)을 수행하고, 특이치 임계값을 이용하여 각 클러스터에 대한 이상치를 탐지할 수 있다.

도 2 및 도 3은 본 발명의 일 실시예에 따른 오토인코더 기법을 이용한 수출입 물동량에 대한 이상치 탐지 방법을 상세하게 나타낸 흐름도이다.

도 2 및 도 3을 참조하여 본 발명의 오토인코더 기법을 이용한 수출입 물동량에 대한 이상치 탐지 방법을 상세하게 설명하면 다음과 같다.

먼저, 수출입 물동량 데이터로 이루어진 전체 데이터 세트(data set)에 대한 사용자 지정 종속 변수 기반 VAR 모델 학습을 전체 시계열에서 수행한다(S201). 본 발명에서 S201 단계를 통해 보다 가치있는 독립 변수인 기능(features)를 선택할 수 있다. 예를 들어, Granger 인과관계 기반 테스트에서 p 값이 0.1 미만인 경우, 종속 변수에 더 영향을 주는 기능으로 선택된다.

다음, VAR 모델로부터 선택된 기능을 수신한다(S203).

VAR 모델로부터 선택된 기능의 수가 하나인 경우(S205), 선택된 기능을 이용하여 AR 모델이 전체 데이터 세트를 학습한다(S209).

또는 VAR 모델로부터 선택된 기능의 수가 둘 이상인 경우(S205), 선택된 기능들을 이용하여 VAR 모델이 전체 데이터 세트를 학습한다(S207).

그리고, 학습된 AR 모델 또는 VAR 모델로부터 최적의 지연 크기를 수신하고(S211), 수신된 최적의 지연 크기에 따라 전체 시계열에서 서브시퀀스를 준비한다(S213).

그리고, 첫 번째 DAE 모델이 사용자 지정 배치 크기를 기반으로 준비된 서브시퀀스에 대해 학습하고(S215), 이를 통해 초기 임계값(initial threshold)을 산출한다(S217). 여기서 DAE 모델의 잠재 공간(latent space)에는 1개의 뉴런(neuron)이 있다.

본 발명에서 학습된 DAE 모델에서 모든 서브시퀀스의 재구성 오류(reconstruction error)가 계산된다. 여기서 재구성 오류는 입력과 출력의 차의 제곱을 나타낸다.

그리고, 초기 임계값보다 작은 서브시퀀스를 선택하는 방식으로 정규(normal) 서브시퀀스를 선택한다(S219).

그리고, 첫 번째 DAE 모델과 동일한 구조의 두 번째 DAE 모델이 정규 서브시퀀스에 대해 학습한다(S221).

그리고, 학습된 두 번째 DAE 모델에 전체 서브시퀀스가 입력으로 제공되고(S223), 학습된 두 번째 DAE 모델에 의해 압축된 서브시퀀스 데이터를 출력하여 차원 축소를 수행한다(S225).

여기서, 전체 서브시퀀스의 잠재 공간과 재구성 오류가 압축된 서브시퀀스 데이터인 축소된 차원으로 사용된다.

본 발명에서 재구성 오류는 다음과 같은 수학식으로 나타낼 수 있다.

[수학식 1]

여기서, n은 입력 기능(차원) 수, ),

는 i번째 기능,

는 재구성된

이다.

다음, Otsu 임계값 방법에 의해, S225 단계에서 압축된 서브시퀀스의 재구성 에러를 이용하여 이상치 임계값을 추정한다(S227).

그리고, 밀도 기반 알고리즘인 DBSCAN(Density-based spatial clustering of applications with noise)을 기반으로 압축된 서브시퀀스를 다수의 클러스터(cluster)로 분류하는 클러스터링(Clustering)을 수행한다(S229). 여기서, 밀도 영역의 반경을 나타내는 eps와, eps의 최소 포인트 수를 나타내는 minPts는 사용자 정의 매개변수이다. minPts의 기본값은 3이다.

eps가 0 또는 null 인 경우, eps 매개 변수에 대한 최적의 값을 찾는 k-dist plot 방법으로 기본값이 계산된다. 여기서, 어떤 클러스터에서 속하지 않은 서브시퀀스들은 하나의 클러스터로 간주된다.

S229 단계의 클러스터링 프로세스 후, 재구성 오류가 각 클러스터의 이상치 임계값을 초과하는 서브시퀀스 수를 카운트한다. 그리고 카운트된 값이 특정 클러스터의 총 포인트 수의 α %보다 크거나 같으면, 해당 클러스터의 모든 포인트를 특이치로 탐지하고, 이를 표시한다. 여기서 α는 사용자 정의 매개 변수이다. 이러한 이상치 탐지 과정을 수학식으로 나타내면 다음과 같다.

[수학식 2]

여기서,

은 클러스터의 서브시퀀스 수이고,

는 i번째 서브시퀀스의 재구성 오류이고,

는 클러스터의 특이치 수에 대한 임계값 백분율이다.

즉, i=0, c는 클러스터의 수이고, k=0이고, n은 i번째 클러스터의 서브시퀀트 수이고, 카운터는 0이라고 할 때(S231, S235), RE_k가 임계값을 초과하면 카운터를 1 증가시킨다(S239, S241). 그리고, 이러한 과정을 k가 n이 되기 전까지 반복한다(S237~S243).

그리고, k가 n이 되면, 그때까지의 카운트 값과 α*n을 비교한다(S245).

카운트 값이 α*n 이하이면, i번째 클러스터가 정규인 것으로 판단한다(S249).

그러나, 카운트 값이 α*n 을 초과하면, i번째 클러스터가 이상치인 것으로 판단한다(S247).

그리고, i를 1씩 증가시키면서 모든 클러스터에 대해 상기 이상치 탐지 과정을 수행한다(S231~S251).

본 발명의 실시예들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 통상의 기술자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상 본 발명을 몇 가지 바람직한 실시예를 사용하여 설명하였으나, 이들 실시예는 예시적인 것이며 한정적인 것이 아니다. 본 발명이 속하는 기술분야에서 통상의 지식을 지닌 자라면 본 발명의 사상과 첨부된 특허청구범위에 제시된 권리범위에서 벗어나지 않으면서 다양한 변화와 수정을 가할 수 있음을 이해할 것이다.

Claims

수출입 물동량 데이터로 이루어진 전체 데이터 세트를 학습한 AR(autoregressive) 모델 또는 VAR(Vector autoregressive) 모델로부터 최적의 지연 크기(lag size)를 수신하고, 수신된 최적의 지연 크기에 따라 전체 시계열에서 서브시퀀스(subsequences)를 준비하는 제1 단계;
DAE(Deep autoencoder) 모델이 사용자 지정 배치(batch) 크기를 기반으로 상기 서브시퀀스를 학습하고, 이에 따라 압축된 서브시퀀스를 제공하여 차원 축소를 수행하는 제2 단계;
상기 압축된 서브시퀀스를 이용하여 이상치(outlier) 임계값(threshold)을 추정하는 제3 단계; 및
상기 이상치 임계값을 이용하여 수출입 물동량 데이터의 이상치를 탐지하는 제4 단계
를 포함하는 수출입 물동량에 대한 이상치 탐지 방법.
청구항 1에 있어서,
상기 제1 단계에서,
VAR 모델이 사용자 지정 종속 변수를 기반으로 전체 시계열을 학습하여 종속변수에 보다 영향을 미치는 독립 변수인 기능(features)을 선택하고, 선택된 기능의 수가 하나인 경우, 선택된 기능을 이용하여 AR 모델이 전체 데이터 세트를 학습하고, 선택된 기능의 수가 둘 이상인 경우, 선택된 기능들을 이용하여 VAR 모델이 전체 데이터 세트를 학습하고, 학습된 AR 모델 또는 VAR 모델로부터 최적의 지연 크기를 수신하고, 수신된 최적의 지연 크기에 따라 전체 시계열에서 서브시퀀스를 준비하는 것을 특징으로 하는 수출입 물동량에 대한 이상치 탐지 방법.
청구항 2에 있어서,
상기 제2 단계에서,
첫 번째 DAE 모델이 사용자 지정 배치 크기를 기반으로 상기 서브시퀀스에 대해 학습하고, 이를 통해 초기 임계값을 산출하고, 상기 초기 임계값보다 작은 서브시퀀스를 선택하는 방식으로 정규(normal) 서브시퀀스를 선택하고, 두 번째 DAE 모델이 상기 정규 서브시퀀스에 대해 학습하고, 학습된 두 번째 DAE 모델에 전체 서브시퀀스가 입력되고, 학습된 두 번째 DAE 모델에 의해 압축된 서브시퀀스 데이터를 출력하여 차원 축소를 수행하는 것을 특징으로 하는 수출입 물동량에 대한 이상치 탐지 방법.
청구항 3에 있어서,
상기 제4 단계에서,
DBSCAN(Density-based spatial clustering of applications with noise)을 기반으로 압축된 서브시퀀스를 다수의 클러스터(cluster)로 분류하는 클러스터링(Clustering)을 수행하고, 특이치 임계값을 이용하여 각 클러스터에 대한 이상치를 탐지하는 것을 특징으로 하는 수출입 물동량에 대한 이상치 탐지 방법.
청구항 1 내지 청구항 4 중 어느 한 청구항의 방법을 컴퓨터로 실행시킬 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.