KR102346275B1 - 오토 인코더 기법을 이용한 수출입 물동량에 대한 이상치 탐지 방법 및 이를 기록한 기록매체 - Google Patents

오토 인코더 기법을 이용한 수출입 물동량에 대한 이상치 탐지 방법 및 이를 기록한 기록매체 Download PDF

Info

Publication number
KR102346275B1
KR102346275B1 KR1020190153733A KR20190153733A KR102346275B1 KR 102346275 B1 KR102346275 B1 KR 102346275B1 KR 1020190153733 A KR1020190153733 A KR 1020190153733A KR 20190153733 A KR20190153733 A KR 20190153733A KR 102346275 B1 KR102346275 B1 KR 102346275B1
Authority
KR
South Korea
Prior art keywords
subsequence
model
cluster
import
outlier
Prior art date
Application number
KR1020190153733A
Other languages
English (en)
Other versions
KR20210065276A (ko
Inventor
류근호
류차차
류수리
이종설
Original Assignee
충북대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 충북대학교 산학협력단 filed Critical 충북대학교 산학협력단
Priority to KR1020190153733A priority Critical patent/KR102346275B1/ko
Publication of KR20210065276A publication Critical patent/KR20210065276A/ko
Application granted granted Critical
Publication of KR102346275B1 publication Critical patent/KR102346275B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/087Inventory or stock management, e.g. order filling, procurement or balancing against orders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06315Needs-based resource requirements planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Operations Research (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 수출입 물동량에 대한 이상치 탐지 방법에 관한 것으로서, 수출입 물동량 데이터로 이루어진 전체 데이터 세트를 학습한 AR(autoregressive) 모델 또는 VAR(Vector autoregressive) 모델로부터 최적의 지연 크기(lag size)를 수신하고, 수신된 최적의 지연 크기에 따라 전체 시계열에서 서브시퀀스(subsequences)를 준비하는 제1 단계, DAE(Deep autoencoder) 모델이 사용자 지정 배치(batch) 크기를 기반으로 상기 서브시퀀스를 학습하고, 이에 따라 압축된 서브시퀀스를 제공하여 차원 축소를 수행하는 제2 단계, 상기 압축된 서브시퀀스를 이용하여 이상치(outlier) 임계값(threshold)을 추정하는 제3 단계 및 상기 이상치 임계값을 이용하여 수출입 물동량 데이터의 이상치를 탐지하는 제4 단계를 포함한다.
본 발명에 의하면, 오토인코더 기법을 이용하여 용이하고 보다 정확하게 수출입 물동량의 이상치를 탐지할 수 있는 효과가 있다.

Description

오토 인코더 기법을 이용한 수출입 물동량에 대한 이상치 탐지 방법 및 이를 기록한 기록매체 {Method for detecting outlier value in import and export volume using auto encoder technique, and recording medium thereof}
본 발명은 오토 인코더(auto encoder) 기법에 관한 것으로서, 더욱 상세하게는 오토 인코더 기법을 이용하여 수출입 물동량에 대한 이상치를 탐지하는 기술에 관한 것이다.
인공지능은 컴퓨터에게 데이터를 학습시켜 마치 사람처럼 스스로 의사결정을 할 수 있게 한다. 예를 들어, 사진을 보고 무슨 사진인지 구분하도록 하는 분류 모델을 만들기 위해서는 컴퓨터에게 사진을 계속 보여주면서 이 사진은 어떤 것에 대한 것인지에 대한 정답을 학습시켜 주어야 한다. 이러한 방식을 '지도 기계학습'이라고 하며, 최근에 뛰어난 성능을 보이며 많은 관심을 받고 있는 딥러닝(deep learning) 역시 기계학습과 유사한 방법이다.
딥러닝과 기계학습은 데이터를 이용하여 모델을 학습한다는 공통점이 있지만 데이터를 학습하는 과정에서 큰 차이가 있다.
즉, 기계학습으로 이미지를 인식하기 위해서는 사진을 그대로 사용하는 것이 아니라 사진 속의 객체를 가장 잘 구분할 수 있는 특성인자를 찾아내야 하며, 기계학습에서 모델의 성능을 결정하는 것은 이 특성인자가 얼마나 데이터를 잘 대표하는가이다.
반면 딥러닝의 경우에는 사람이 특성인자를 선정하는 것이 아니라 데이터에서 모델을 학습하는 과정에서 목표를 잘 달성할 수 있는 특성인자를 스스로 찾는다.
한편, 세계 컨테이너 물동량은 글로벌 경기 침체로 2009년 약 4억 5,000만TEU, 2010년는 약 5억 200만TEU를 처리하여 2009년 대비 11.5% 급증하였다. 2011년에는 전년대비 8% 증가한 약 5억 6,150만TEU를 처리한 것으로 나타나고 있다.
2012년 컨테이너 물동량의 성장률은 전년 대비 둔화될 것으로 예상되나 환적화물의 증가, 경기회복 기대감, 벌크화물의 컨테이너화 지속, 특히 신흥시장의 경제성장과 인프라 투자가 컨테이너 물동량 발생에 긍정적인 영향을 미칠 것으로 예상된다.
한편, 국내 항만의 컨테이너 화물 처리량은 2011년 약 21,610천TEU를 처리하여 전년 대비 11.6% 증가하였고, 세계 경기침체로 수출입 물동량 증가세는 2010년 19.1%에서 2011년 8.6%로 둔화되었으나, 총 화물처리량은 약 21,610천TEU를 기록하여 20,000천TEU를 상회하였다. 2012년 컨테이너 물동량은 11월말 현재 약 20,152천TEU를 처리하여 2011년 대비 소폭의 증가가 예상된다.
이처럼 세계경기 침체로 전반적으로 경제성장세가 다소 둔화되었으나, 장기적인 관점에서 세계 교역량은 상승할 것으로 전망된다. 또한 중국항만을 중심으로 한 신흥국의 경제성장추세가 아직 이어지고 있어 환적화물을 적극 유치하고, 항만배후 물류단지가 활성화되면 컨테이너 수출입 물동량도 점차 증가할 것으로 예상된다.
수출입 물동량이 증가하면서 물동량 내 이상징후(abnormal sympton)를 탐지하여 처리해야 할 필요성이 있다. 그러나, 대량의 수출입 품목 중에서 이상징후를 탐지하는 것은 매우 어려운 과정이다. 따라서 종래에는 수출입 물동량 내 이상징후를 탐지하는 못하는 경우가 많았고, 이는 수출입 품목에 대한 사고로 이어지는 문제점이 있었다.
대한민국 등록특허 10-1865322
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 오토인코더 기법을 이용하여 용이하게 수출입 물동량 내 이상징후를 탐지하는 방법을 제공하는데 그 목적이 있다.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
이와 같은 목적을 달성하기 위한 본 발명의 수출입 물동량에 대한 이상치 탐지 방법은 수출입 물동량 데이터로 이루어진 전체 데이터 세트를 학습한 AR(autoregressive) 모델 또는 VAR(Vector autoregressive) 모델로부터 최적의 지연 크기(lag size)를 수신하고, 수신된 최적의 지연 크기에 따라 전체 시계열에서 서브시퀀스(subsequences)를 준비하는 제1 단계, DAE(Deep autoencoder) 모델이 사용자 지정 배치(batch) 크기를 기반으로 상기 서브시퀀스를 학습하고, 이에 따라 압축된 서브시퀀스를 제공하여 차원 축소를 수행하는 제2 단계, 상기 압축된 서브시퀀스를 이용하여 이상치(outlier) 임계값(threshold)을 추정하는 제3 단계 및 상기 이상치 임계값을 이용하여 수출입 물동량 데이터의 이상치를 탐지하는 제4 단계를 포함한다.
상기 제1 단계에서, VAR 모델이 사용자 지정 종속 변수를 기반으로 전체 시계열을 학습하여 종속변수에 보다 영향을 미치는 독립 변수인 기능(features)을 선택하고, 선택된 기능의 수가 하나인 경우, 선택된 기능을 이용하여 AR 모델이 전체 데이터 세트를 학습하고, 선택된 기능의 수가 둘 이상인 경우, 선택된 기능들을 이용하여 VAR 모델이 전체 데이터 세트를 학습하고, 학습된 AR 모델 또는 VAR 모델로부터 최적의 지연 크기를 수신하고, 수신된 최적의 지연 크기에 따라 전체 시계열에서 서브시퀀스를 준비할 수 있다.
상기 제2 단계에서, 첫 번째 DAE 모델이 사용자 지정 배치 크기를 기반으로 상기 서브시퀀스에 대해 학습하고, 이를 통해 초기 임계값을 산출하고, 상기 초기 임계값보다 작은 서브시퀀스를 선택하는 방식으로 정규(normal) 서브시퀀스를 선택하고, 두 번째 DAE 모델이 상기 정규 서브시퀀스에 대해 학습하고, 학습된 두 번째 DAE 모델에 전체 서브시퀀스가 입력되고, 학습된 두 번째 DAE 모델에 의해 압축된 서브시퀀스 데이터를 출력하여 차원 축소를 수행할 수 있다.
상기 제4 단계에서, DBSCAN(Density-based spatial clustering of applications with noise)을 기반으로 압축된 서브시퀀스를 다수의 클러스터(cluster)로 분류하는 클러스터링(Clustering)을 수행하고, 특이치 임계값을 이용하여 각 클러스터에 대한 이상치를 탐지할 수 있다.
본 발명에 의하면, 오토인코더 기법을 이용하여 용이하고 보다 정확하게 수출입 물동량의 이상치를 탐지할 수 있는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 오토인코더 기법을 이용한 수출입 물동량에 대한 이상치 탐지 방법을 개략적으로 나타낸 흐름도이다.
도 2 및 도 3은 본 발명의 일 실시예에 따른 오토인코더 기법을 이용한 수출입 물동량에 대한 이상치 탐지 방법을 상세하게 나타낸 흐름도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 갖는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
본 발명은 오토 인코더 기법을 이용한 수출입 물동량에 대한 이상치 탐지 방법에 대한 것이다.
본 발명에서 수출입 물동량에 대한 이상치 탐지 방법을 수행하는 주체는 수출입 물동량에 대한 이상치 탐지 방법을 수행하는 제반 컴퓨터 장치라고 할 수 있다. 즉, 본 발명에서 수출입 물동량에 대한 이상치 탐지 방법을 수행하는 컴퓨터, 컴퓨터의 제어부 또는 프로세서(processor)가 그 수행 주체가 될 수 있다.
도 1은 본 발명의 일 실시예에 따른 오토인코더 기법을 이용한 수출입 물동량에 대한 이상치 탐지 방법을 개략적으로 나타낸 흐름도이다.
도 1을 참조하면, 본 발명의 오토인코더(Auto encoder) 기법을 이용한 수출입 물동량에 대한 이상치 탐지 방법은 제1 단계(S110), 제2 단계(S120), 제3 단계(S130), 제4 단계(S140)를 포함한다.
제1 단계(S110)는 수출입 물동량 데이터로 이루어진 전체 데이터 세트(data set)를 학습한 AR(autoregressive) 모델 또는 VAR(Vector autoregressive) 모델로부터 최적의 지연 크기(lag size)를 수신하고, 수신된 최적의 지연 크기에 따라 전체 시계열(time series)에서 서브시퀀스(subsequences)를 준비한다.
제2 단계(S120)는 DAE(Deep autoencoder) 모델이 사용자 지정 배치(user specified batch) 크기를 기반으로 서브시퀀스를 학습하고, 이에 따라 압축된 서브시퀀스를 제공하여 차원 축소(dimension reduction)를 수행한다.
제3 단계(S130)는 압축된 서브시퀀스를 이용하여 이상치(outlier) 임계값(threshold)을 추정한다.
제4 단계(S140)는 이상치 임계값을 이용하여 수출입 물동량 데이터의 이상치를 탐지한다.
본 발명의 일 실시예에서 제1 단계(S110)에서 VAR 모델이 사용자 지정 종속 변수(user specified dependent variable)를 기반으로 전체 시계열을 학습하여 종속변수에 보다 영향을 미치는 독립 변수인 기능(features)을 선택하고, 선택된 기능의 수가 하나인 경우, 선택된 기능을 이용하여 AR 모델이 전체 데이터 세트를 학습하고, 선택된 기능의 수가 둘 이상인 경우, 선택된 기능들을 이용하여 VAR 모델이 전체 데이터 세트를 학습하고, 학습된 AR 모델 또는 VAR 모델로부터 최적의 지연 크기를 수신하고, 수신된 최적의 지연 크기에 따라 전체 시계열에서 서브시퀀스를 준비할 수 있다.
제2 단계(S120)에서 첫 번째 DAE 모델이 사용자 지정 배치 크기를 기반으로 준비된 서브시퀀스에 대해 학습하고, 이를 통해 초기 임계값(initial threshold)을 산출하고, 초기 임계값보다 작은 서브시퀀스를 선택하는 방식으로 정규(normal) 서브시퀀스를 선택하고, 두 번째 DAE 모델이 정규 서브시퀀스에 대해 학습하고, 학습된 두 번째 DAE 모델에 전체 서브시퀀스가 입력되고, 학습된 두 번째 DAE 모델에 의해 압축된 서브시퀀스 데이터를 출력하여 차원 축소를 수행할 수 있다.
제4 단계(S140)에서, DBSCAN(Density-based spatial clustering of applications with noise)을 기반으로 압축된 서브시퀀스를 다수의 클러스터(cluster)로 분류하는 클러스터링(Clustering)을 수행하고, 특이치 임계값을 이용하여 각 클러스터에 대한 이상치를 탐지할 수 있다.
도 2 및 도 3은 본 발명의 일 실시예에 따른 오토인코더 기법을 이용한 수출입 물동량에 대한 이상치 탐지 방법을 상세하게 나타낸 흐름도이다.
도 2 및 도 3을 참조하여 본 발명의 오토인코더 기법을 이용한 수출입 물동량에 대한 이상치 탐지 방법을 상세하게 설명하면 다음과 같다.
먼저, 수출입 물동량 데이터로 이루어진 전체 데이터 세트(data set)에 대한 사용자 지정 종속 변수 기반 VAR 모델 학습을 전체 시계열에서 수행한다(S201). 본 발명에서 S201 단계를 통해 보다 가치있는 독립 변수인 기능(features)를 선택할 수 있다. 예를 들어, Granger 인과관계 기반 테스트에서 p 값이 0.1 미만인 경우, 종속 변수에 더 영향을 주는 기능으로 선택된다.
다음, VAR 모델로부터 선택된 기능을 수신한다(S203).
VAR 모델로부터 선택된 기능의 수가 하나인 경우(S205), 선택된 기능을 이용하여 AR 모델이 전체 데이터 세트를 학습한다(S209).
또는 VAR 모델로부터 선택된 기능의 수가 둘 이상인 경우(S205), 선택된 기능들을 이용하여 VAR 모델이 전체 데이터 세트를 학습한다(S207).
그리고, 학습된 AR 모델 또는 VAR 모델로부터 최적의 지연 크기를 수신하고(S211), 수신된 최적의 지연 크기에 따라 전체 시계열에서 서브시퀀스를 준비한다(S213).
그리고, 첫 번째 DAE 모델이 사용자 지정 배치 크기를 기반으로 준비된 서브시퀀스에 대해 학습하고(S215), 이를 통해 초기 임계값(initial threshold)을 산출한다(S217). 여기서 DAE 모델의 잠재 공간(latent space)에는 1개의 뉴런(neuron)이 있다.
본 발명에서 학습된 DAE 모델에서 모든 서브시퀀스의 재구성 오류(reconstruction error)가 계산된다. 여기서 재구성 오류는 입력과 출력의 차의 제곱을 나타낸다.
그리고, 초기 임계값보다 작은 서브시퀀스를 선택하는 방식으로 정규(normal) 서브시퀀스를 선택한다(S219).
그리고, 첫 번째 DAE 모델과 동일한 구조의 두 번째 DAE 모델이 정규 서브시퀀스에 대해 학습한다(S221).
그리고, 학습된 두 번째 DAE 모델에 전체 서브시퀀스가 입력으로 제공되고(S223), 학습된 두 번째 DAE 모델에 의해 압축된 서브시퀀스 데이터를 출력하여 차원 축소를 수행한다(S225).
여기서, 전체 서브시퀀스의 잠재 공간과 재구성 오류가 압축된 서브시퀀스 데이터인 축소된 차원으로 사용된다.
본 발명에서 재구성 오류는 다음과 같은 수학식으로 나타낼 수 있다.
[수학식 1]
Figure 112019121977135-pat00001
여기서, n은 입력 기능(차원) 수,
Figure 112021107695869-pat00002
는 i번째 기능,
Figure 112021107695869-pat00003
는 재구성된
Figure 112021107695869-pat00004
이다.
다음, Otsu 임계값 방법에 의해, S225 단계에서 압축된 서브시퀀스의 재구성 에러를 이용하여 이상치 임계값을 추정한다(S227).
그리고, 밀도 기반 알고리즘인 DBSCAN(Density-based spatial clustering of applications with noise)을 기반으로 압축된 서브시퀀스를 다수의 클러스터(cluster)로 분류하는 클러스터링(Clustering)을 수행한다(S229). 여기서, 밀도 영역의 반경을 나타내는 eps와, eps의 최소 포인트 수를 나타내는 minPts는 사용자 정의 매개변수이다. minPts의 기본값은 3이다.
eps가 0 또는 null 인 경우, eps 매개 변수에 대한 최적의 값을 찾는 k-dist plot 방법으로 기본값이 계산된다. 여기서, 어떤 클러스터에서 속하지 않은 서브시퀀스들은 하나의 클러스터로 간주된다.
S229 단계의 클러스터링 프로세스 후, 재구성 오류가 각 클러스터의 이상치 임계값을 초과하는 서브시퀀스 수를 카운트한다. 그리고 카운트된 값이 특정 클러스터의 총 포인트 수의 α %보다 크거나 같으면, 해당 클러스터의 모든 포인트를 특이치로 탐지하고, 이를 표시한다. 여기서 α는 사용자 정의 매개 변수이다. 이러한 이상치 탐지 과정을 수학식으로 나타내면 다음과 같다.
[수학식 2]
Figure 112019121977135-pat00005
여기서,
Figure 112019121977135-pat00006
은 클러스터의 서브시퀀스 수이고,
Figure 112019121977135-pat00007
는 i번째 서브시퀀스의 재구성 오류이고,
Figure 112019121977135-pat00008
는 클러스터의 특이치 수에 대한 임계값 백분율이다.
즉, i=0, c는 클러스터의 수이고, k=0이고, n은 i번째 클러스터의 서브시퀀트 수이고, 카운터는 0이라고 할 때(S231, S235), REk가 임계값을 초과하면 카운터를 1 증가시킨다(S239, S241). 그리고, 이러한 과정을 k가 n이 되기 전까지 반복한다(S237~S243).
그리고, k가 n이 되면, 그때까지의 카운트 값과 α*n을 비교한다(S245).
카운트 값이 α*n 이하이면, i번째 클러스터가 정규인 것으로 판단한다(S249).
그러나, 카운트 값이 α*n 을 초과하면, i번째 클러스터가 이상치인 것으로 판단한다(S247).
그리고, i를 1씩 증가시키면서 모든 클러스터에 대해 상기 이상치 탐지 과정을 수행한다(S231~S251).
본 발명의 실시예들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 통상의 기술자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상 본 발명을 몇 가지 바람직한 실시예를 사용하여 설명하였으나, 이들 실시예는 예시적인 것이며 한정적인 것이 아니다. 본 발명이 속하는 기술분야에서 통상의 지식을 지닌 자라면 본 발명의 사상과 첨부된 특허청구범위에 제시된 권리범위에서 벗어나지 않으면서 다양한 변화와 수정을 가할 수 있음을 이해할 것이다.

Claims (5)

  1. 수출입 물동량 데이터로 이루어진 전체 데이터 세트를 학습한 AR(autoregressive) 모델 또는 VAR(Vector autoregressive) 모델로부터 최적의 지연 크기(lag size)를 수신하고, 수신된 최적의 지연 크기에 따라 전체 시계열에서 서브시퀀스(subsequences)를 준비하는 제1 단계;
    DAE(Deep autoencoder) 모델이 사용자 지정 배치(batch) 크기를 기반으로 상기 서브시퀀스를 학습하고, 이에 따라 압축된 서브시퀀스를 제공하여 차원 축소를 수행하는 제2 단계;
    상기 압축된 서브시퀀스를 이용하여 이상치(outlier) 임계값(threshold)을 추정하는 제3 단계; 및
    상기 이상치 임계값을 이용하여 수출입 물동량 데이터의 이상치를 탐지하는 제4 단계를 포함하며,
    상기 제1 단계에서, VAR 모델이 사용자 지정 종속 변수를 기반으로 전체 시계열을 학습하여 종속변수에 보다 영향을 미치는 독립 변수인 기능(features)을 선택하고, 선택된 기능의 수가 하나인 경우, 선택된 기능을 이용하여 AR 모델이 전체 데이터 세트를 학습하고, 선택된 기능의 수가 둘 이상인 경우, 선택된 기능들을 이용하여 VAR 모델이 전체 데이터 세트를 학습하고, 학습된 AR 모델 또는 VAR 모델로부터 최적의 지연 크기를 수신하고, 수신된 최적의 지연 크기에 따라 전체 시계열에서 서브시퀀스를 준비하고,
    상기 제2 단계에서, 첫 번째 DAE 모델이 사용자 지정 배치 크기를 기반으로 상기 서브시퀀스에 대해 학습하고, 이를 통해 초기 임계값을 산출하고, 상기 초기 임계값보다 작은 서브시퀀스를 선택하는 방식으로 정규(normal) 서브시퀀스를 선택하고, 두 번째 DAE 모델이 상기 정규 서브시퀀스에 대해 학습하고, 학습된 두 번째 DAE 모델에 전체 서브시퀀스가 입력되고, 학습된 두 번째 DAE 모델에 의해 압축된 서브시퀀스 데이터를 출력하여 차원 축소를 수행하고,
    상기 제4 단계에서, DBSCAN(Density-based spatial clustering of applications with noise)을 기반으로 압축된 서브시퀀스를 다수의 클러스터(cluster)로 분류하는 클러스터링(Clustering)을 수행하고, 특이치 임계값을 이용하여 각 클러스터에 대한 이상치를 탐지하며,
    상기 압축된 서브시퀀스 데이터는 전체 서브시퀀스의 잠재 공간과 재구성 오류가 압축된 것이고,
    n은 입력 기능 수,
    Figure 112021107695869-pat00012
    는 i번째 기능,
    Figure 112021107695869-pat00013
    는 재구성된
    Figure 112021107695869-pat00014
    라고 할 때,
    상기 재구성 오류를,
    Figure 112021107695869-pat00015

    의 수학식으로 나타낼 수 있고,
    상기 압축된 서브시퀀스의 재구성 오류를 이용하여 이상치 임계값을 추정하고,
    상기 제4 단계에서, 클러스터링 수행 후, 재구성 오류가 각 클러스터의 이상치 임계값을 초과하는 서브시퀀스 수를 카운트하고 카운트된 값이 특정 클러스터의 총 포인트 수의 α(사용자 정의 매개 변수) %보다 크거나 같으면, 해당 클러스터의 모든 포인트를 특이치로 탐지하여 표시하고,
    Figure 112021107695869-pat00016
    은 클러스터의 서브시퀀스 수이고,
    Figure 112021107695869-pat00017
    는 i번째 서브시퀀스의 재구성 오류이고,
    Figure 112021107695869-pat00018
    는 클러스터의 특이치 수에 대한 임계값 백분율이라고 할 때,
    이상치 탐지 과정을,
    Figure 112021107695869-pat00019

    의 수학식으로 나타낼 수 있고,
    여기서, i=0, c는 클러스터의 수이고, k=0이고, n은 i번째 클러스터의 서브시퀀트 수이고, 카운터는 0이라고 할 때, REk가 임계값을 초과하면 카운터를 1 증가시키고, 이러한 과정을 k가 n이 되기 전까지 반복하며,
    k가 n이 되면, 그때까지의 카운트 값과 α*n을 비교하고, 카운트 값이 α*n 이하이면, i번째 클러스터가 정규인 것으로 판단하고, 카운트 값이 α*n 을 초과하면, i번째 클러스터가 이상치인 것으로 판단하고,
    i를 1씩 증가시키면서 모든 클러스터에 대해 상기 이상치 탐지 과정을 수행하는 것을 특징으로 하는 수출입 물동량에 대한 이상치 탐지 방법.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 청구항 1의 방법을 컴퓨터로 실행시킬 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020190153733A 2019-11-26 2019-11-26 오토 인코더 기법을 이용한 수출입 물동량에 대한 이상치 탐지 방법 및 이를 기록한 기록매체 KR102346275B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190153733A KR102346275B1 (ko) 2019-11-26 2019-11-26 오토 인코더 기법을 이용한 수출입 물동량에 대한 이상치 탐지 방법 및 이를 기록한 기록매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190153733A KR102346275B1 (ko) 2019-11-26 2019-11-26 오토 인코더 기법을 이용한 수출입 물동량에 대한 이상치 탐지 방법 및 이를 기록한 기록매체

Publications (2)

Publication Number Publication Date
KR20210065276A KR20210065276A (ko) 2021-06-04
KR102346275B1 true KR102346275B1 (ko) 2021-12-31

Family

ID=76391529

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190153733A KR102346275B1 (ko) 2019-11-26 2019-11-26 오토 인코더 기법을 이용한 수출입 물동량에 대한 이상치 탐지 방법 및 이를 기록한 기록매체

Country Status (1)

Country Link
KR (1) KR102346275B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230031117A (ko) 2021-08-26 2023-03-07 에스케이플래닛 주식회사 계산 비용을 최소화하기 위한 인공신경망 기반의 이상 탐지를 위한 장치 및 이를 위한 방법
CN116524723B (zh) * 2023-06-27 2023-09-12 天津大学 一种货车轨迹异常识别方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101865322B1 (ko) * 2017-09-28 2018-06-07 주식회사 케이엘넷 환적화물 및 수출입화물 물동량 흐름패턴 분석 시스템
JP2019049778A (ja) * 2017-09-07 2019-03-28 日本電信電話株式会社 検知装置、検知方法及び検知プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101991415B1 (ko) * 2017-02-27 2019-06-20 충북대학교 산학협력단 Pcb 제조 공정에서 불량 컴포넌트 위치 검출 방법 및 시스템

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019049778A (ja) * 2017-09-07 2019-03-28 日本電信電話株式会社 検知装置、検知方法及び検知プログラム
KR101865322B1 (ko) * 2017-09-28 2018-06-07 주식회사 케이엘넷 환적화물 및 수출입화물 물동량 흐름패턴 분석 시스템

Also Published As

Publication number Publication date
KR20210065276A (ko) 2021-06-04

Similar Documents

Publication Publication Date Title
US9411883B2 (en) Audio signal processing apparatus and method, and monitoring system
US8965115B1 (en) Adaptive multi-modal detection and fusion in videos via classification-based-learning
CN111652290B (zh) 一种对抗样本的检测方法及装置
US20140270489A1 (en) Learned mid-level representation for contour and object detection
KR102346275B1 (ko) 오토 인코더 기법을 이용한 수출입 물동량에 대한 이상치 탐지 방법 및 이를 기록한 기록매체
Zhang et al. A cost‐sensitive ensemble method for class‐imbalanced datasets
CN111738054B (zh) 一种基于时空自编码器网络和时空cnn的行为异常检测方法
US11620578B2 (en) Unsupervised anomaly detection via supervised methods
CN113283599B (zh) 基于神经元激活率的对抗攻击防御方法
US10733385B2 (en) Behavior inference model building apparatus and behavior inference model building method thereof
CN112766324B (zh) 图像对抗样本检测方法、系统、存储介质、终端及应用
US20190079468A1 (en) Adaptive control of negative learning for limited reconstruction capability auto encoder
He et al. Discriminatively relabel for partial multi-label learning
Sethi et al. Monitoring classification blindspots to detect drifts from unlabeled data
EP4028848A1 (en) Systems and methods for automated parsing of schematics
CN116310563A (zh) 一种贵金属库存的管理方法及系统
AU2021100392A4 (en) A method for malware detection and classification using multi-level resnet paradigm on pe binary images
US11727109B2 (en) Identifying adversarial attacks with advanced subset scanning
EP4394723A1 (en) Label generation method and apparatus, image classification model method and apparatus, and image classification method and apparatus
Umer et al. Adversarial poisoning of importance weighting in domain adaptation
CN114372495A (zh) 基于深度空间残差学习的电能质量扰动分类方法及系统
Zhou et al. Outlier detection method based on high-density iteration
CN110597983B (zh) 一种基于类别嵌入的层次化文本分类计算方法
CN107391433B (zh) 一种基于混合特征kde条件熵的特征选择方法
WO2020251059A1 (en) Using normalizing flows to detect anomalous data points in time-series data

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant