WO2020122287A1

WO2020122287A1 - 미세 분포 변화를 이용한 비정상 데이터 구분 장치 및 방법

Info

Publication number: WO2020122287A1
Application number: PCT/KR2018/015874
Authority: WO
Inventors: 서현덕; 박재한; 김철운; 유재홍; 차길환
Original assignee: 주식회사 알고리고
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2020-06-18

Abstract

본 발명은 미세 분포 변화를 이용한 비정상 데이터 구분 장치 및 방법에 관한 것이다. 이를 위하여, 잠재 변수를 기초로 정상인 시계열 분포 데이터의 다차원 벡터인 정상 벡터를 생성하도록 학습된 비정상 데이터 구분 모듈의 일구성인 생성 모듈이 생성 벡터를 생성하는 생성 벡터 단계; 비정상 데이터 구분의 대상이 되는 구분 대상 데이터의 다차원 벡터인 구분 대상 벡터를 수신하는 구분 대상 벡터 단계; 생성 벡터와 구분 대상 벡터의 차이를 기초로 손실값인 비정상 데이터 스코어를 출력하는 비정상 데이터 스코어 출력 단계; 및 비정상 데이터 스코어가 낮아지는 방향으로 잠재 변수를 조절하는 잠재 변수 조절 단계;가 제공될 수 있다.

Description

미세 분포 변화를 이용한 비정상 데이터 구분 장치 및 방법

본 발명은 미세 분포 변화를 이용한 비정상 데이터 구분 장치 및 방법에 관한 것이다.

m x n의 압력센서 매트릭스로 구성된 스마트 좌석에서 발생되는 Time series 매트릭스 형태의 시계열 압력 분포 데이터를 토대로 좌석에 착석한 사용자의 자세를 분류하는 모델을 개발하려는 경우, ConvNet(Convolutional Neural Network)이 이용될 수 있다. 도 1은 압력 분포 데이터를 도시한 분포도, 도 2는 시간에 따른 압력 크기 변화를 도시한 그래프이다. 도 1, 2에 도시된 바와 같이, 매트릭스 형태로 구성한 복수개의 압력 센서에서 도 1과 같은 압력 분포 데이터가 생성될 수 있고, 각각의 압력 센서들은 시간 차원에 대해 도 2와 같은 시계열적인 압력 크기 변화를 센싱하도록 나타낼 수 있다. 도 3은 시계열 압력 분포 데이터의 예시도이다. 도 3에 도시된 바와 같이, 시계열 압력 분포 데이터는 도 2와 같이 각각의 압력 센서가 생성하는 시계열 압력 크기 변화를 기초로 생성되는 시간 차원에서 연속되는 복수개의 압력 분포 데이터를 의미할 수 있다.

자세 분류를 위해 압력 분포 데이터를 기초로 학습된 ConvNet이 이용되는 경우, 해당 ConvNet은 적어도 하나 이상의 자세로 Labeling 혹은 Tagging 된 압력 분포 데이터를 기초로 지도 학습(Supervised Learning)될 수 있다. ConvNet의 정확도를 향상시키기 위해 지도 학습에서 중요한 것 중 하나가 학습되는 데이터의 양과 질이라 할 수 있다. 따라서, 양질의 데이터를 최대한 많이 수집하여 ConvNet을 학습시킬수록 ConvNet의 자세 분류 정확도가 향상되는 것이 명백하기 때문에, 서비스가 운영되는 과정에서 발생되는 사용자의 실제 압력 분포 데이터들을 ConvNet의 학습에 활용하는 것이 필요하다.

하지만, 사용자들이 서비스를 이용하면서 입력되는 실제 압력 분포 데이터는 비정상 데이터, 예를 들어, 사물에 의한 압력분포일 가능성이나 사용자의 비정상적인 이용에 의한 압력분포일 가능성 등에 의해 데이터의 질을 보장할 수 없기 때문에 이러한 비정상 데이터를 ConvNet의 학습에 이용하기 전에 구분할 필요가 있다.

이러한 비정상 데이터는 예상치 못한 상황에서 발생되는 경우가 대부분이므로, 기존의 일반적인 통계적 접근 또는 Manual Feature Engineering으로 Labeling을 통해 딥러닝 분류 모델을 구축하는 것이 매우 어렵다.

따라서, 본 발명의 목적은 사용자에 의해 입력되는 비정상 데이터를 높은 정확도로 구분하여 정상 데이터만을 ConvNet의 학습에 이용하기 위해 미세 분포 변화를 이용한 비정상 데이터 구분 장치 및 방법을 제공하는 데에 있다.

이하 본 발명의 목적을 달성하기 위한 구체적 수단에 대하여 설명한다.

본 발명의 목적은, 시계열 분포 데이터를 입력받아 비정상 데이터인지 여부를 구분하는 비정상 데이터 스코어를 출력하는 비정상 데이터 구분 모듈의 프로그램 코드를 저장하는 메모리 모듈; 및 상기 비정상 데이터 구분 모듈의 프로그램 코드를 처리하는 처리 모듈;을 포함하고, 상기 비정상 데이터 구분 모듈의 상기 프로그램 코드는, 잠재 변수를 기초로 정상인 상기 시계열 분포 데이터의 다차원 벡터인 정상 벡터를 생성하도록 학습된 상기 비정상 데이터 구분 모듈의 일구성인 생성 모듈이 생성 벡터를 생성하는 생성 벡터 단계; 비정상 데이터 구분의 대상이 되는 구분 대상 데이터의 다차원 벡터인 구분 대상 벡터를 수신하는 구분 대상 벡터 단계; 상기 생성 벡터와 상기 구분 대상 벡터의 차이를 기초로 손실값인 비정상 데이터 스코어를 출력하는 비정상 데이터 스코어 출력 단계; 및 상기 비정상 데이터 스코어가 낮아지는 방향으로 상기 잠재 변수를 조절하는 잠재 변수 조절 단계; 를 포함하여 컴퓨터 상에서 수행되도록 구성되고, 상기 비정상 데이터 구분 모듈은, 상기 잠재 변수 조절 단계에서 상기 잠재 변수의 조절에 의해 낮아진 상기 비정상 데이터 스코어가 특정 값 이상인 경우 상기 구분 대상 데이터가 상기 비정상 데이터인 것으로 구분하는 것을 특징으로 하는, 미세 분포 변화를 이용한 비정상 데이터 구분 장치를 제공하여 달성될 수 있다.

또한, 상기 메모리 모듈은 상기 시계열 분포 데이터 또는 상기 구분 대상 데이터의 미세 변화를 표현하는 미세 변화 데이터를 출력하는 미세 변화 모듈을 더 포함하고, 상기 처리 모듈은 상기 미세 변화 모듈의 프로그램 코드를 더 처리하며, 상기 미세 변화 모듈의 상기 프로그램 코드는, 상기 시계열 분포 데이터 또는 상기 구분 대상 데이터를 수신하는 수신 단계; 수신된 상기 시계열 분포 데이터 또는 상기 구분 대상 데이터의 분포의 변화량에 대한 데이터인 변화량 데이터를 생성하는 변화량 데이터 생성 단계; 상기 변화량 데이터를 매트릭스 형태인 변화량 분포 데이터로 변환하는 변화량 분포 데이터 생성 단계; 및 시간에 따른 상기 변화량 분포 데이터를 기초로 미세 변화 데이터를 생성하는 미세 변화 데이터 생성 단계;를 포함하여 컴퓨터 상에서 수행되도록 구성되고, 상기 정상 벡터는 상기 시계열 분포 데이터의 상기 미세 변화 데이터를 포함하도록 구성되고, 상기 구분 대상 벡터는 상기 구분 대상 데이터의 상기 미세 변화 데이터를 포함하도록 구성되는 것을 특징으로 할 수 있다.

또한, 상기 메모리 모듈은 상기 시계열 분포 데이터 또는 상기 구분 대상 데이터의 동적인 움직임에 의한 분포 변화를 의미하는 공간 데이터를 출력하는 공간 데이터 모듈을 더 포함하고, 상기 처리 모듈은 상기 공간 데이터 모듈의 프로그램 코드를 더 처리하며, 상기 공간 데이터 모듈의 상기 프로그램 코드는, 상기 시계열 분포 데이터 또는 상기 구분 대상 데이터를 수신하는 수신 단계; 상기 시계열 분포 데이터 또는 상기 구분 대상 데이터를 ConvNet으로 구성된 임베딩 네트워크에 입력하여 Feature Map을 이용해 분포의 공간적 특징을 추출하는 공간적 특징 추출 단계; 및 상기 공간적 특징을 LSTM(Long-Short Term Memory)에 입력하여 시간적 특징인 시퀀스를 임베딩하고 공간 데이터를 생성하는 공간 데이터 생성 단계;를 포함하여 컴퓨터 상에서 수행되도록 구성되고, 상기 정상 벡터는 상기 시계열 분포 데이터의 상기 공간 데이터를 포함하도록 구성되고, 상기 구분 대상 벡터는 상기 구분 대상 데이터의 상기 공간 데이터를 포함하도록 구성되는 것을 특징으로 할 수 있다.

본 발명의 다른 목적은, 생성 벡터 모듈이, 시계열 분포 데이터를 입력받아 비정상 데이터인지 여부를 구분하는 비정상 데이터 스코어를 출력하는 비정상 데이터 구분 모듈의 일구성인 생성 모듈이 생성 벡터를 생성하는 생성 벡터 단계; 구분 대상 벡터 모듈이, 비정상 데이터 구분의 대상이 되는 구분 대상 데이터의 다차원 벡터인 구분 대상 벡터를 수신하는 구분 대상 벡터 단계; 비정상 데이터 스코어 출력 모듈이, 상기 생성 벡터와 상기 구분 대상 벡터의 차이를 기초로 손실값인 비정상 데이터 스코어를 출력하는 비정상 데이터 스코어 출력 단계; 및 잠재 변수 조절 모듈이, 상기 비정상 데이터 스코어가 낮아지는 방향으로 상기 잠재 변수를 조절하는 잠재 변수 조절 단계;를 포함하여 컴퓨터 상에서 수행되도록 구성되고, 상기 생성 모듈은, 잠재 변수를 기초로 정상인 상기 시계열 분포 데이터의 다차원 벡터인 정상 벡터를 생성하도록 학습되며, 상기 비정상 데이터 구분 모듈은, 상기 잠재 변수 조절 단계에서 상기 잠재 변수의 조절에 의해 낮아진 상기 비정상 데이터 스코어가 특정 값 이상인 경우 상기 구분 대상 데이터가 상기 비정상 데이터인 것으로 구분하는 것을 특징으로 하는, 미세 분포 변화를 이용한 비정상 데이터 구분 방법을 제공하여 달성될 수 있다.

상기한 바와 같이, 본 발명에 의하면 이하와 같은 효과가 있다.

첫째, 본 발명의 일실시예에 따르면, 데이서 수집 시 예상하지 못한 비정상 데이터를 구분하고 수집할 수 있게 되는 효과가 발생된다. 비정상 데이터는 예상치 못한 상황에서 발생되는 경우가 대부분이므로, 기존의 일반적인 통계적 접근 또는 Manual Feature Engineering으로 Labeling을 통해 딥러닝 분류 모델을 구축하는 것이 매우 어렵다.

둘째, 본 발명의 일실시예에 따르면, 비정상 데이터에 대한 별도의 Labeling이나 Tagging 없이 비정상 데이터의 구분, 분류, 검출에 대한 Unsupervised Learning이 가능해지는 효과가 발생된다.

셋째, 본 발명의 일실시예에 따르면, 미세 변화 데이터 모듈에 의해 일반적인 딥러닝 시스템에 의해 노이즈로 처리되어 Vanishing 되는 미세한 변화의 특징을 자세 분류 및 비정상 데이터 구분에 이용할 수 있게 되는 효과가 발생된다.

넷째, 본 발명의 일실시예에 따르면, 공간 데이터 모듈과 미세 변화 데이터 모듈의 결합에 의해 외부 환경에 의한 진동이나 노이즈가 발생하는 경우에도 사용자의 동적인 움직임에 의한 자세 변화 및 미세 변화의 특징을 자세 분류 및 비정상 데이터 구분에 이용할 수 있게 되는 효과가 발생된다. 일반적인 딥러닝 시스템을 이용하여 두 데이터를 동시에 추출하려는 경우 매우 모호한 특징이 추출되어 분류 정확도가 저감되는 문제가 발생된다.

본 명세서에 첨부되는 다음의 도면들은 본 발명의 바람직한 실시예를 예시하는 것이며, 발명의 상세한 설명과 함께 본 발명의 기술사상을 더욱 이해시키는 역할을 하는 것이므로, 본 발명은 그러한 도면에 기재된 사항에만 한정되어 해석되어서는 아니 된다.

도 1은 압력 분포 데이터를 도시한 분포도,

도 2는 시간에 따른 압력 크기 변화를 도시한 그래프,

도 3은 시계열 압력 분포 데이터의 예시도,

도 4는 본 발명의 일실시예에 따른 비정상 데이터 구분 장치를 도시한 모식도,

도 5는 본 발명의 일실시예에 따른 전처리 예시를 도시한 모식도,

도 6은 본 발명의 일실시예에 따른 전처리 흐름 예시를 도시한 흐름도,

도 7은 본 발명의 일실시예에 따른 미세 변화 데이터 모듈(11)의 미세 변화 데이터 생성 방법을 도시한 흐름도,

도 8은 본 발명의 일실시예에 따른 공간 데이터 모듈(12)의 공간 데이터 생성 방법을 도시한 흐름도,

도 9는 본 발명의 일실시예에 따른 자세 분류 모듈(13)의 자세 카테고리 분류를 도시한 흐름도,

도 10은 본 발명의 일실시예에 따른 비정상 데이터 구분 모듈(14)의 학습 과정을 도시한 모식도,

도 11은 본 발명의 일실시예에 따른 비정상 데이터 구분 모듈(14)의 비정상 데이터 구분 과정을 도시한 모식도이다.

이하 첨부된 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명을 쉽게 실시할 수 있는 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예에 대한 동작원리를 상세하게 설명함에 있어서 관련된 공지기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.

또한, 도면 전체에 걸쳐 유사한 기능 및 작용을 하는 부분에 대해서는 동일한 도면 부호를 사용한다. 명세서 전체에서, 특정 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고, 간접적으로 연결되어 있는 경우도 포함한다. 또한, 특정 구성요소를 포함한다는 것은 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

아래에서는 설명의 편의를 위해 압력 분포 데이터를 기초로 사용자의 자세를 분류하는 모듈을 기초로 발명을 설명하고 있으나, 발명의 범위는 이에 한정되지 아니하고, 시계열 분포 데이터를 기초로 특정 카테고리를 분류하는 장치나 시계열 분포 데이터를 기초로 특정 카테고리를 분류하는 장치에서 비정상 데이터를 분류하는 특징을 포함하는 범위를 포함할 수 있다.

미세 분포 변화를 이용한 비정상 데이터 구분 장치

미세 분포 변화를 이용한 비정상 데이터 구분 장치의 구성과 관련하여, 도 4는 본 발명의 일실시예에 따른 비정상 데이터 구분 장치를 도시한 모식도이다. 도 4에 도시된 바와 같이, 본 발명의 일실시예에 따른 미세 분포 변화를 이용한 비정상 데이터 구분 장치(1)는 전처리 모듈(10), 미세 변화 데이터 모듈(11), 공간 데이터 모듈(12), 자세 분류 모듈(13), 비정상 데이터 구분 모듈(14)를 포함할 수 있다.

전처리 모듈(10)은 복수개의 압력 센서 데이터를 수신하고, 수신한 압력 센서 데이터에 대해 Time window setting, 노이즈 제거, 정규화 및 센서 편향 제거 등을 수행하여 도 3과 같은 시계열 압력 분포 데이터를 생성하는 모듈이다. 전처리 모듈(10)에 의해 전처리된 압력 센서 데이터가 시계열 데이터로 임베딩된 시계열 압력 분포 데이터로 처리되어, 인공신경망으로 구성된 분류 모듈에 의한 분류의 정확도가 향상되는 효과가 발생된다. 도 5는 본 발명의 일실시예에 따른 전처리 예시를 도시한 모식도, 도 6은 본 발명의 일실시예에 따른 전처리 흐름 예시를 도시한 흐름도이다. 도 5, 6에 도시된 바와 같이, 전처리 모듈(10)은 Time window setting, 노이즈 제거, 정규화 및 센서 편향 제거 등을 수행하여 수신한 압력 센서 데이터를 기초로 다차원 벡터(전처리 데이터)를 출력할 수 있고, 시퀀스를 가지는 복수개의 다차원 벡터(전처리 데이터)를 이용하여 시계열 압력 분포 데이터를 생성하도록 구성될 수 있다.

미세 변화 데이터 모듈(11)은 전처리 모듈(10)에서 생성된 시계열 압력 분포 데이터를 기초로 미세 변화 데이터를 생성하는 모듈이다. 본 발명의 일실시예에 따른 미세 변화 데이터 모듈(11)은 시계열 압력 분포 데이터를 기초로 압력 분포의 변화량에 대한 데이터인 변화량 데이터를 생성하고, 변화량 데이터를 매트릭스 형태인 변화량 분포 데이터로 변환하며, 시간에 따른 변화량 분포 데이터를 기초로 미세 변화 데이터를 생성하게 된다. 구체적으로, 도 7은 본 발명의 일실시예에 따른 미세 변화 데이터 모듈(11)의 미세 변화 데이터 생성 방법을 도시한 흐름도이다. 도 7에 도시된 바와 같이, 본 발명의 일실시예에 따른 미세 변화 데이터 모듈(11)은 전처리된 시계열 압력 분포 데이터(S)를 입력으로 하여 센서 분포의 각 위치(i, j) 및 시간(t)에 따른 변화량 데이터(ΔS_ij ^t=S_ij ^t+1 - S_ij ^t)를 계산할 수 있다. 이러한 변화량 데이터를 기초로 히스토그램을 통해 압력 분포 변화의 분포인 변화량 분포 데이터(P)가 생성되고, 이 과정에서 변화에 대한 공간적인 정보는 사라지게 되고 변화에 대한 분포 정보만 남게 된다. 변화량 분포 데이터 P를 기초로 한 미세 변화 데이터의 생성은, KL divergence(Kullback-Leibler divergence) 또는 Jensen-shannon divergence 등으로 P_t+1과 P_t의 거리(D_t=KL(P_t+1||P_t)를 계산하여 시간에 따른 변화량 분포 데이터(D)를 생성한 뒤, 시간에 따른 변화량 분포 데이터(D)를 차례로 출력 벡터의 원소(element)로 사용하여 미세 변화 데이터인 출력 벡터(O)를 생성 및 출력하게 된다.

본 발명의 일실시예에 따른 미세 변화 데이터 모듈(11)에 따르면, 압력 분포 변화의 분포가 계산되고, 공간적인 정보는 사라지게 되며, 미세 변화의 전체적인 분포 정보가 미세 변화 데이터로서 남게 된다. 미세 변화 데이터 모듈(11)에 의해 미세 변화 특징 및 공간적 특징의 혼재에 의해 추후 전파될 수 있는 모호한 정보의 표현을 방지하게 되는 효과가 발생된다.

공간 데이터 모듈(12)은 전처리 모듈(10)에서 생성된 시계열 압력 분포 데이터를 기초로 사용자의 동적인 움직임에 의한 자세 변화를 의미하는 공간 데이터를 생성하는 모듈이다. 공간 데이터의 생성과 관련하여, 공간 데이터 모듈(12)은 압력 분포의 공간적인 특징을 추출하고 다수의 시퀀스(sequence)에 대한 처리를 통해 공간적 특징을 임베딩하여 공간 데이터를 생성하게 된다. 구체적으로, 도 8은 본 발명의 일실시예에 따른 공간 데이터 모듈(12)의 공간 데이터 생성 방법을 도시한 흐름도이다. 도 8에 도시된 바와 같이, 공간 데이터 모듈(12)은 복수개의 전처리 데이터로 구성된 전처리 된 시계열 압력 분포 데이터를 ConvNet으로 구성된 임베딩 네트워크에 입력하여 Feature Map을 이용하여 압력 분포의 공간적인 특징을 추출하고, LSTM(Long-Short Term Memory)을 통해 시간적 특징인 시퀀스를 임베딩하여 공간 데이터로 출력하게 된다.

이때, 본 발명의 일실시예에 따른 공간 데이터 모듈(12)은 출력된 임베딩 벡터인 공간 데이터를 ConvNet으로 구성된 검증 네트워크의 입력으로 하여 전처리 데이터의 평균 분포가 출력되도록 구성될 수 있다. 이에 따르면, 임베딩된 벡터인 공간 데이터가 압력 분포의 공간적인 특징을 잘 내포하고 있는지 확인할 수 있는 효과가 발생되며, 공간 데이터 모듈(12)에 의해 출력되는 공간 데이터가 자세 분류 모듈(13)에서의 카테고리 분류만을 위한 공간적인 특징을 갖는 것이 아닌, 비정상 데이터 구분을 위한 특징도 내포할 수 있게 되는 효과가 발생된다.

자세 분류 모듈(13)은 미세 변화 데이터 모듈(11)에서 생성된 미세 변화 데이터, 공간 데이터 모듈(12)에서 생성된 공간 데이터를 입력받아 자세 카테고리 분류를 수행하여 자세 분류 데이터를 생성하는 모듈이다. 구체적으로, 본 발명의 일실시예에 따른 자세 분류 모듈(13)은 미세 변화 데이터 및 공간 데이터를 기초로 비선형 연산을 통해 임베딩하여 특징을 추출하고, 선형 알고리즘을 통해 자세 카테고리 분류를 수행하도록 구성될 수 있다. 도 9는 본 발명의 일실시예에 따른 자세 분류 모듈(13)의 자세 카테고리 분류를 도시한 흐름도이다. 도 9에 도시된 바와 같이, 본 발명의 일실시예에 따른 자세 분류 모듈(13)은 ConvNet(CNN, Convolutional Neural Network)과 FFNN(Feed-Foward Neural Network)을 포함할 수 있고, CNN에 미세 변화 데이터 및 공간 데이터가 입력되고 CNN을 통해 비선형적인 특징이 추출되고 시공간적인 특징을 바탕으로 자세 카테고리 분류에 필요한 형태로 임베딩되어 임베딩된 벡터가 출력되고, CNN을 통해 임베딩된 벡터는 FFNN의 입력이 되어 FFNN을 통해 자세 카테고리 분류가 수행되게 된다.

비정상 데이터 구분 모듈(14)은 미세 변화 데이터 모듈(11)에서 생성된 미세 변화 데이터, 공간 데이터 모듈(12)에서 생성된 공간 데이터, 자세 분류 모듈(13)에서 생성된 자세 분류 데이터를 통합한 다차원 벡터를 입력받아 비정상 데이터 구분 장치(1)에 입력되는 복수개의 압력 센서 데이터의 비정상 데이터 여부를 구분하는 모듈이다. 구체적으로, 본 발명의 일실시예에 따른 비정상 데이터 구분 모듈(14)에서는 생성 모듈과 구분 모듈을 포함할 수 있고, 구분 모듈을 이용하여 생성 모듈이 Random noise(Z)를 입력받아 정상적인 미세 변화 데이터, 공간 데이터 및 자세 분류 데이터를 통합한 다차원 벡터인 정상 벡터를 생성하도록 생성 모듈을 학습한 뒤, 생성 모듈의 손실 함수 출력값 L(Loss)을 비정상 데이터 스코어로 활용하여 생성 모듈에 입력되는 Random noise(Z)의 변화에 따라 L이 특정 값 이하로 낮아지는지 여부를 기초로 비정상 데이터 구분 장치(1)에 입력되는 데이터의 비정상 데이터 여부를 구분할 수 있다.

본 발명의 일실시예에 따른 비정상 데이터 구분 모듈(14)의 생성 모듈은 인코더와 디코더로 구성되어 정상 벡터를 생성하도록 구성될 수 있고, 생성 모듈의 인코더는 정상적인 미세 변화 데이터, 공간 데이터 및 자세 분류 데이터를 통합한 m x n x 3의 표준화 된 다차원 벡터를 수신하여 1 x 1 x k의 잠재변수로 인코딩하는 복수개의 연속된 ConvNet으로 구성될 수 있으며, 포즈 전이 모듈(4)의 디코더는 1 x 1 x k의 잠재변수를 m x n x 3의 다차원 벡터로 출력하도록 디코딩하는 복수개의 연속된 네트워크로 구성될 수 있다. 이때, 정상 벡터인 다차원 벡터를 입력하여 정상 벡터에 가까운 다차원 벡터를 출력하도록 생성 모듈이 학습될 수 있고, 생성 모듈에 의해 출력되는 다차원 벡터의 정상 벡터인지 여부를 구분하는 구분 모듈에 의해 학습될 수 있다.

본 발명의 일실시예에 따른 비정상 데이터 구분 모듈(14)의 구분 모듈은, CONCAT 함수와 복수개의 인코더를 통해 생성 모듈에 의해 출력되는 다차원 벡터의 정상 벡터인지 여부를 구분하도록 구성될 수 있다.

비정상 데이터 구분 모듈(14)의 학습과 관련하여, 도 10은 본 발명의 일실시예에 따른 비정상 데이터 구분 모듈(14)의 학습 과정을 도시한 모식도이다. 도 10에 도시된 바와 같이, 생성 모듈은 구분 모듈과 MinMax game을 구성하도록 Loss Function이 구성될 수 있고, 동시에 학습될 수 있다. 이하 수학식 1은 생성 모듈과 구분 모듈의 Loss Function이다.

위 수학식 1에서 G는 생성 모듈, D는 구분 모듈을 의미하며, z는 잠재 변수로서 입력되는 Random noise, y는 정상적인 미세 변화 데이터, 공간 데이터 및 자세 분류 데이터를 통합한 다차원 벡터인 정상 벡터, G(x)는 생성된 다차원 벡터인 생성 벡터를 의미한다. 따라서, 수학식 1에 따르면 생성 모듈 및 구분 모듈의 Loss function은, 생성 모듈이 충분히 학습되지 않아서 구분 모듈이 잠재 변수인 랜덤 노이즈 z를 통해 y와 G(z)를 완벽하게 구분해내는 경우에는 D(z,y)=1, D(z,G(z))=0에 의해 0의 max 값을 갖고, 생성 모듈의 학습 후에 구분 모듈이 랜덤 노이즈 z를 통해 y와 G(z)를 구분해내지 못하는 경우 D(z,y)=1/2, D(z,G(z))=1/2에 의해 -log4의 min 값을 갖는다. 즉, 위 Loss function에 의해 생성 모듈이 랜덤 노이즈 z를 통해 생성한 다차원 벡터인 생성 벡터 G(z)와 정상적인 미세 변화 데이터, 공간 데이터 및 자세 분류 데이터를 통합한 다차원 벡터인 정상 벡터인 y가 동일할 때, 생성 모듈은 Global minimum을 갖게 되고, 이러한 방향으로 생성 모듈 및 구분 모듈이 학습되게 된다. 생성 모듈과 구분 모듈은 상호 적대적 의존 관계에 의해 생성 모듈을 빠르게 최적화 할 수 있는 효과가 발생된다.

또한, 본 발명의 일실시예에 따르면, 정상 벡터에 가까운 다차원 벡터 G(z)의 생성이 구역 별로 더 정교하게 진행되도록 생성 모듈의 Loss function에 각 구역 별로 구분 모듈이 입력되는 정상 벡터와 생성 모듈에 의해 생성되는 생성 벡터의 비교를 통해 생성 벡터의 정상 또는 비정상을 구분하는 구역 손실 함수를 더 포함할 수 있다. 본 발명의 일실시예에 따른 구역 손실 함수는 다음 수학식과 같이 구성될 수 있다.

위 수학식 2에서 L_BP(G,D)는 각 구역에 대한 손실 함수인 구역 손실 함수, i는 구분 모듈의 i번째 레이어, T는 구분 모듈의 전체 레이어, N_i는 i번째 레이어에서의 구역 feature의 개수를 의미할 수 있다. 이에 따라, 구분 모듈이 생성 벡터의 특정 레이어에서 특정 구역의 정상 or 비정상을 정확하게 구분해내면 ||D(z,y)-D(z,G(z))||=1 이 되고, 정상 벡터 y와 생성 벡터 G(z)의 특정 레이어에서의 특정 구역이 구분 모듈에 의해 구분되지 않으면 ||D(z,y)-D(z,G(z))||=0이 된다. 따라서, 위와 같은 구역 손실함수를 적용한 비정상 데이터 구분 모듈(14)의 손실함수는 다음과 같이 구성될 수 있다.

위 수학식 3에서, λ는 가중치 상수, L_BP는 수학식 2의 구역 손실함수를 의미할 수 있고, 생성 모듈은 구역 손실함수를 최소화 하는 방향으로 학습되게 된다. 이에 의해 보다 정교하게 정상 벡터에 가까운 생성 벡터가 출력되도록 생성 모듈이 학습되게 된다.

또한, 다차원 벡터의 시퀀스 변화 순서 고려하기 위하여, 생성 모듈이 프레임 순서를 고려할 수 있도록 Loss function을 구성할 수 있다. 본 발명의 일실시예에 따르면 생성 모듈은 특정 시간 t에서의 잠재 변수 z_t와 이전 시간인 t-1에서의 생성 벡터인 G(z_t-1)을 입력데이터로 하여 시간 t에서의 생성 벡터인 G(z_t)를 출력하도록 구성될 수 있다. 결국, 구분 모듈은 (z_t-1, z_t)를 통해 Fake sequence인 (G(z_t-1), G(z_t))와 Real sequence인 (y_t-1, y_t)를 구분하도록 구성되며, 이를 위한 비정상 데이터 구분 모듈(14)의 시퀀스 손실함수는 아래의 수학식과 같이 구성될 수 있다.

위 수학식 4와 같은 시퀀스 손실함수에 따르면 생성 모듈에 의해 출력되는 생성 벡터의 시퀀스가 정상 벡터와 매우 유사하게 정교해지는 효과가 발생된다.

비정상 데이터 구분 모듈(14)의 비정상 데이터 구분과 관련하여, 도 11은 본 발명의 일실시예에 따른 비정상 데이터 구분 모듈(14)의 비정상 데이터 구분 과정을 도시한 모식도이다. 도 11에 도시된 바와 같이, 생성 모듈은 랜덤 노이즈 z를 수신하여 정상 벡터에 가까운 다차원 벡터(생성 벡터)를 생성하게 되고, 입력되는 사용자 데이터(비정상 데이터인지 여부를 구분하는 대상인 구분 대상 데이터)의 다차원 벡터(구분 대상 벡터)와 생성 벡터와의 차이를 기초로 입력되는 사용자 데이터(구분 대상 데이터)의 정상 또는 비정상 여부를 구분하게 된다.

또한, 본 발명의 일실시예에 따른 생성 모듈은 학습 이후에 파라미터가 고정되도록 구성될 수 있고, G(z)와 y의 차이인 구분 손실함수(L)가 줄어들도록 Back Propagation을 통해 잠재 변수인 랜덤 노이즈 z를 조절하도록 구성될 수 있다. 아래 수학식 5는 G(z)와 y의 차이에 대한 구분 손실함수(L), 수학식 6은 잠재 변수인 랜덤 노이즈의 조절에 관한 것이다.

위 수학식 5, 6에서 L은 정상 벡터와 가깝게 생성된 생성 벡터와 사용자 데이터(구분 대상 데이터)의 다차원 벡터(구분 대상 벡터)와의 차이인 구분 손실함수, G(z)는 생성 벡터, z는 잠재 변수인 랜덤 노이즈, y는 사용자 데이터(구분 대상 데이터)의 다차원 벡터(구분 대상 벡터), η는 학습률(Learning rate)을 의미한다. 이에 따르면, 사용자 데이터(구분 대상 데이터)의 다차원 벡터 y(구분 대상 벡터)가 정상 데이터인 경우에는 생성 모듈 G의 파라미터를 고정한 상태로 구분 손실함수 L을 줄이기 위해 z를 조절하면 L의 손실값이 특정 값 이하로 낮아지게 된다. 또한, 사용자 데이터(구분 대상 데이터)의 다차원 벡터 y(구분 대상 벡터)가 비정상 데이터인 경우에는 생성 모듈 G의 파라미터를 고정한 상태로 구분 손실함수 L을 줄이기 위해 z를 조절하더라도 L의 손실값이 특정 값 이하로 낮아지지 않게 된다. 즉, y가 비정상 데이터인 경우의 Loss L은 y가 정상 데이터인 경우의 L보다 상대적으로 높은 값을 가지게 된다. 따라서, L을 비정상 데이터 스코어(anomaly score)로 사용하여 비정상 데이터의 분류, 비정상 데이터의 구분, 비정상 데이터의 검출(detection)을 수행할 수 있게 되는 효과가 발생된다.

본 발명의 일실시예에 따르면, 데이서 수집 시 예상하지 못한 비정상 데이터를 구분하고 수집할 수 있게 되는 효과가 발생된다. 비정상 데이터는 예상치 못한 상황에서 발생되는 경우가 대부분이므로, 기존의 일반적인 통계적 접근 또는 Manual Feature Engineering으로 Labeling을 통해 딥러닝 분류 모델을 구축하는 것이 매우 어렵다. 또한, 비정상 데이터에 대한 별도의 Labeling이나 Tagging 없이 비정상 데이터의 구분, 분류, 검출에 대한 Unsupervised Learning이 가능해지는 효과가 발생된다. 또한, 다른 딥러닝 모델 및 Clustering 알고리즘을 바탕으로 비정상 데이터의 구분, 분류, 검출을 시도하게 되면 추상적 공간으로 임베딩 된 벡터 간의 거리를 anomaly score로 사용할 수 밖에 없다. 기존의 방식으로는 정상 데이터와 비정상 데이터가 추상적 공간에서 거리가 멀도록하는 Constraint가 없으며, 임베딩 된 벡터 사이의 거리의 정도가 사용자 데이터(구분 대상 데이터)의 비정상적인 정도를 표현한다고 하기에 부정확하다. 본 발명의 일실시예에 따른 비정상 데이터 구분 장치는 딥러닝의 특징 추출 성능을 효과적으로 사용하며 동시에 정상 데이터를 만드는 생성 모듈 G 를 포함하기 때문에 사용자 데이터(구분 대상 데이터)의 비정상적인 정도의 의미가 anomaly score 에 표현되는 효과가 발생된다.

이상에서 설명한 바와 같이, 본 발명이 속하는 기술 분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 상술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함하는 것으로 해석되어야 한다.

본 명세서 내에 기술된 특징들 및 장점들은 모두를 포함하지 않으며, 특히 많은 추가적인 특징들 및 장점들이 도면들, 명세서, 및 청구항들을 고려하여 당업자에게 명백해질 것이다. 더욱이, 본 명세서에 사용된 언어는 주로 읽기 쉽도록 그리고 교시의 목적으로 선택되었고, 본 발명의 주제를 묘사하거나 제한하기 위해 선택되지 않을 수도 있다는 것을 주의해야 한다.

본 발명의 실시예들의 상기한 설명은 예시의 목적으로 제시되었다. 이는 개시된 정확한 형태로 본 발명을 제한하거나, 빠뜨리는 것 없이 만들려고 의도한 것이 아니다. 당업자는 상기한 개시에 비추어 많은 수정 및 변형이 가능하다는 것을 이해할 수 있다.

그러므로 본 발명의 범위는 상세한 설명에 의해 한정되지 않고, 이를 기반으로 하는 출원의 임의의 청구항들에 의해 한정된다. 따라서, 본 발명의 실시예들의 개시는 예시적인 것이며, 이하의 청구항에 기재된 본 발명의 범위를 제한하는 것은 아니다.

Claims

시계열 분포 데이터를 입력받아 비정상 데이터인지 여부를 구분하는 비정상 데이터 스코어를 출력하는 비정상 데이터 구분 모듈의 프로그램 코드 및 상기 시계열 분포 데이터 또는 구분 대상 데이터의 미세 변화를 표현하는 미세 변화 데이터를 출력하는 미세 변화 모듈의 프로그램 코드를 저장하는 메모리 모듈; 및

상기 비정상 데이터 구분 모듈의 상기 프로그램 코드 및 상기 미세 변화 모듈의 상기 프로그램 코드를 처리하는 처리 모듈;

을 포함하고,

상기 비정상 데이터 구분 모듈의 상기 프로그램 코드는,

잠재 변수를 기초로 정상인 상기 시계열 분포 데이터의 다차원 벡터인 정상 벡터를 생성하도록 학습된 상기 비정상 데이터 구분 모듈의 일구성인 생성 모듈이 생성 벡터를 생성하는 생성 벡터 단계;

비정상 데이터 구분의 대상이 되는 구분 대상 데이터의 다차원 벡터인 구분 대상 벡터를 수신하는 구분 대상 벡터 단계;

상기 생성 벡터와 상기 구분 대상 벡터의 차이를 기초로 손실값인 비정상 데이터 스코어를 출력하는 비정상 데이터 스코어 출력 단계; 및

상기 비정상 데이터 스코어가 낮아지는 방향으로 상기 잠재 변수를 조절하는 잠재 변수 조절 단계;

를 포함하여 컴퓨터 상에서 수행되도록 구성되고,

상기 미세 변화 모듈의 상기 프로그램 코드는,

상기 시계열 분포 데이터 또는 상기 구분 대상 데이터를 수신하는 수신 단계;

수신된 상기 시계열 분포 데이터 또는 상기 구분 대상 데이터의 분포의 변화량에 대한 데이터인 변화량 데이터를 생성하는 변화량 데이터 생성 단계;

상기 변화량 데이터를 매트릭스 형태인 변화량 분포 데이터로 변환하는 변화량 분포 데이터 생성 단계; 및

시간에 따른 상기 변화량 분포 데이터를 기초로 미세 변화 데이터를 생성하는 미세 변화 데이터 생성 단계;

를 포함하여 컴퓨터 상에서 수행되도록 구성되고,

상기 정상 벡터는 상기 시계열 분포 데이터의 상기 미세 변화 데이터를 포함하도록 구성되고, 상기 구분 대상 벡터는 상기 구분 대상 데이터의 상기 미세 변화 데이터를 포함하도록 구성되며,

상기 비정상 데이터 구분 모듈은, 상기 잠재 변수 조절 단계에서 상기 잠재 변수의 조절에 의해 낮아진 상기 비정상 데이터 스코어가 특정 값 이상인 경우 상기 구분 대상 데이터가 상기 비정상 데이터인 것으로 구분하는 것을 특징으로 하는,

미세 분포 변화를 이용한 비정상 데이터 구분 장치.
미세 변화 모듈이, 시계열 분포 데이터 또는 비정상 데이터 구분의 대상이 되는 구분 대상 데이터를 수신하는 수신 단계;

상기 미세 변화 모듈이, 수신된 상기 시계열 분포 데이터 또는 상기 구분 대상 데이터의 분포의 변화량에 대한 데이터인 변화량 데이터를 생성하는 변화량 데이터 생성 단계;

상기 미세 변화 모듈이, 상기 변화량 데이터를 매트릭스 형태인 변화량 분포 데이터로 변환하는 변화량 분포 데이터 생성 단계;

상기 미세 변화 모듈이, 시간에 따른 상기 변화량 분포 데이터를 기초로 미세 변화 데이터를 생성하는 미세 변화 데이터 생성 단계;

생성 벡터 모듈이, 상기 시계열 분포 데이터를 입력받아 비정상 데이터인지 여부를 구분하는 비정상 데이터 스코어를 출력하는 비정상 데이터 구분 모듈의 일구성인 생성 모듈이 생성 벡터를 생성하는 생성 벡터 단계;

구분 대상 벡터 모듈이, 상기 구분 대상 데이터의 상기 미세 변화 데이터가 포함된 상기 구분 대상 데이터의 다차원 벡터인 구분 대상 벡터를 수신하는 구분 대상 벡터 단계;

비정상 데이터 스코어 출력 모듈이, 상기 생성 벡터와 상기 구분 대상 벡터의 차이를 기초로 손실값인 비정상 데이터 스코어를 출력하는 비정상 데이터 스코어 출력 단계; 및

잠재 변수 조절 모듈이, 상기 비정상 데이터 스코어가 낮아지는 방향으로 상기 잠재 변수를 조절하는 잠재 변수 조절 단계;

를 포함하여 컴퓨터 상에서 수행되도록 구성되고,

상기 생성 모듈은, 잠재 변수를 기초로 정상인 상기 시계열 분포 데이터의 다차원 벡터인 정상 벡터를 생성하도록 학습되며, 상기 정상 벡터는 상기 시계열 분포 데이터의 상기 미세 변화 데이터가 포함되고,

상기 비정상 데이터 구분 모듈은, 상기 잠재 변수 조절 단계에서 상기 잠재 변수의 조절에 의해 낮아진 상기 비정상 데이터 스코어가 특정 값 이상인 경우 상기 구분 대상 데이터가 상기 비정상 데이터인 것으로 구분하는 것을 특징으로 하는,

미세 분포 변화를 이용한 비정상 데이터 구분 방법.