KR102506988B1

KR102506988B1 - 이종 손실 함수를 이용하여 학습된 뉴럴 네트워크를 이용한 이상 검출 장치

Info

Publication number: KR102506988B1
Application number: KR1020220165352A
Authority: KR
Inventors: 유광선; 이준기
Original assignee: (주)엘로이랩
Priority date: 2022-09-30
Filing date: 2022-12-01
Publication date: 2023-03-07
Also published as: WO2024071728A1; KR102506991B1

Abstract

이상 검출 장치가 개시된다. 이종 손실 함수를 이용한 이상 검출(anomaly detection) 장치에 있어서, 일 실시예에 따른 이상 검출 장치는, 정상 또는 이상 여부를 검출할 데이터를 수신하는 수신기와, 상기 데이터를 미리 학습된 뉴럴 네트워크에 입력함으로써, 상기 데이터의 이상 여부를 검출하는 프로세서를 포함하고, 미리 학습된 뉴럴 네트워크는, 이상 점수에 기초하여 결정된 그라디언트 파라미터(gradient parameter)를 이용하여 산출되는 이종 손실 함수(heterogeneous loss function)를 통해 학습될 수 있다.

Description

이종 손실 함수를 이용하여 학습된 뉴럴 네트워크를 이용한 이상 검출 장치{APPARATUS OF ANOMALY DETECTION USING NEURAL NETWORK TRAINED USING HETEROGENEOUS LOSS FUNCTION}

아래 실시예들은 이종 손실 함수를 이용하여 학습된 뉴럴 네트워크를 이용한 이상 검출 장치에 관한 것이다.

이상 검출(anomaly detection)(또는, 이상 탐지)는 데이터의 아웃라이어(outlier) 또는 이상(abnormality)를 식별하는 것을 의미한다. 이상 검출은 모델(예: 뉴럴 네트워크 모델)이 정상 데이터만으로 구성된 데이터셋으로 학습되어 출력이 정상 특징들만을 포함하도록 학습되었다고 가정한다.

오토 인코더는 출력이 인코더 및 디코더에 의해 생성되는 대표적인 모델이다. 인코더는 입력을 잠재 벡터(latent vector)로 변환하고, 잠재백터는 디코더에 의해 원본으로 복원된다.

정상 데이터셋으로 인하여, 오토 인코더의 출력은 정상 특징들을 가지기 때문에, 복원 오차(reconstruction error)(입력과 출력 사이의 차이)는 정상 입력에 대하여 0에 가까운 반면, 이상(또는, 이상) 입력에 대해서는 높은 값을 가진다.

하지만, 정상과 이상 데이터 사이의 모호성(ambiguity)로 인하여 클린 데이터셋(clean dataset)을 생성하는 것이 어렵다는 문제가 있다. 데이터가 정상 데이터 및 이상 데이터를 모두 포함하고 있음에도, 학습 데이터가 정상으로 레이블링 될 때 오염된 데이터가 생성될 수 있다. 오염된 데이터가 모델의 성능을 저하시길 수 있기 때문에, 오염에 강건한 모델을 구축할 필요가 있다.

실시예들은 이종 손실 함수를 이용한 이상 검출 기술을 제공할 수 있다.

다만, 기술적 과제는 상술한 기술적 과제들로 한정되는 것은 아니며, 또 다른 기술적 과제들이 존재할 수 있다.

일 실시예에 따른 이상 검출(anomaly detection) 장치는, 정상 또는 이상 여부를 검출할 데이터를 수신하는 수신기; 및 상기 데이터를 미리 학습된 뉴럴 네트워크에 입력함으로써, 상기 데이터에 대한 이상 여부를 검출하는 프로세서를 포함하고, 상기 미리 학습된 뉴럴 네트워크는, 학습 데이터의 이상 점수에 기초하여 결정되는 그라디언트 파라미터(gradient parameter)를 이용하여 산출되는 이종 손실 함수(heterogeneous loss function)를 통해 학습될 수 있다.

일 실시예에 따른 이상 점수는, 복원 오차에 기초하여 산출될 수 있다.

상기 그라디언트 파라미터는, 상기 학습 데이터의 중앙값(median)에 기초하여 계산되는 z 점수 및 상기 z 점수의 절대값의 최대값에 기초하여 산출될 수 있다.

상기 z 점수는, 상기 학습 데이터의 중앙값에 기초하여 계산되는 상기 학습 데이터의 MAD(Median Absolute Deviation)에 기초하여 산출될 수 있다

상기 그라디언트 파라미터는, 미리 결정된 상수와 상기 최대값 중에서 큰 값에 기초하여 결정될 수 있다.

상기 이종 손실 함수는, 수학식 1 내지 수학식 3에 기초하여 결정되고, 상기 수학식 1은,

이고, 상기 수학식 2는,

이고, 상기 수학식 3은,

이고,

는 학습 데이터를 나타내고,

는 학습 데이터의 평균, N은 학습 데이터의 개수, c는 제1 하이퍼 파라미터이고,

는 이상 점수를 나타내고,

는 z 점수이고,

최저 그라디언트 손실을 위한 파라미터를 의미할 수 있다.

일 실시예에 따른 이상 검출(anomaly detection)하는 방법은, 정상 또는 이상 여부를 검출할 데이터를 수신하는 단계; 및 미리 학습된 뉴럴 네트워크에 상기 데이터를 입력함으로써, 상기 데이터의 이상 여부를 검출하는 단계를 포함하고, 상기 미리 학습된 뉴럴 네트워크는, 학습 데이터의 이상 점수에 기초하여 결정되는 그라디언트 파라미터(gradient parameter)를 통해 산출되는 이종 손실 함수에 기초하여 학습될 수 있다.

일 실시예에 따른 이종 손실 함수를 이용한 학습 방법은, 학습 데이터를 수신하는 단계; 및 상기 학습 데이터의 이상 점수에 기초하여 그라디언트 파라미터(gradient parameter)를 결정하는 단계; 상기 그라디언트 파라미터에 기초하여 이종 손실 함수(heterogeneous loss function)를 결정하는 단계; 및 상기 이종 손실 함수에 기초하여 인공 신경망을 학습시키는 단계를 포함할 수 있다.

도 1은 일 실시예에 따른 이상 검출 장치의 개략적인 블록도를 나타낸다.
도 2는 학습 데이터의 이상 점수의 분포의 예를 나타낸다.
도 3은 서로 다른 변위치에 따른 데이터 오염 비율의 예를 나타낸다.
도 4는 도 1의 이상 검출 장치 에 사용되는 뉴럴 네트워크에 대한 학습 알고리즘의 예를 나타낸다.
도 5는 이종 손실 함수를 설명하기 위한 그래프의 일 예를 나태낸다.
도 6은 이종 손실 함수를 설명하기 위한 그래프의 다른 예를 나태낸다.
도 7은 다양한 손실 함수에 따른 AUROC(Area Under the Receiver Operating Characteristic)를 나타내는 표이다.
도 8 내지 도 10은 복수의 모델들의 오염률에 대한 AUROC(Area Under the Receiver Operating Characteristic)의 일 예를 나타낸다.
도 11 내지 도 13은 복수의 모델들의 오염률에 대한 AUROC의 다른 예를 나타낸다.
도 14 내지 도 16은 복수의 모델들의 오염률에 대한 AUROC의 또 다른 예를 나타낸다.
도 17은 다양한 뉴럴 네트워크 모델들의 따른 AUROC를 나타내는 표이다.
도 18 내지 도 20는 도 1의 복수의 모델들의 뉴럴 네트워크 모델의 오염률에 대한 AUROC을 비교한 예들을 나타낸다.
도 21은 이종 손실 함수에 대한 제거 연구 결과를 나타내고,
도 22는 이종 손실 함수 및 소프트 리젝션의 민감도를 설명하기 위한 그래프이다.
도 23은 도 1에 도시된 이상 검출 장치의 동작의 흐름도를 나타낸다.
도 24는 도 1에 도시된 이상 검출 장치를 학습시키는 동작의 흐름도를 나타낸다.

본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 본 발명의 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시예들은 다양한 형태로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.

본 발명의 개념에 따른 실시예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시예들을 도면에 예시하고 본 명세서에 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시예들을 특정한 개시형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 변경, 균등물, 또는 대체물을 포함한다.

제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만, 예를 들어 본 발명의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 표현들, 예를 들어 "~사이에"와 "바로~사이에" 또는 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

본 명세서에서 사용한 용어는 단지 특정한 실시예들을 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

본 명세서에서의 모듈(module)은 본 명세서에서 설명되는 각 명칭에 따른 기능과 동작을 수행할 수 있는 하드웨어를 의미할 수도 있고, 특정 기능과 동작을 수행할 수 있는 컴퓨터 프로그램 코드를 의미할 수도 있고, 또는 특정 기능과 동작을 수행시킬 수 있는 컴퓨터 프로그램 코드가 탑재된 전자적 기록 매체, 예를 들어 프로세서 또는 마이크로 프로세서를 의미할 수 있다.

다시 말해, 모듈이란 본 발명의 기술적 사상을 수행하기 위한 하드웨어 및/또는 상기 하드웨어를 구동하기 위한 소프트웨어의 기능적 및/또는 구조적 결합을 의미할 수 있다.

이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

도 1은 일 실시예에 따른 이상 검출 장치의 개략적인 블록도를 나타낸다.

도 1을 참조하면, 이상 검출 장치(10)는 데이터의 이상을 검출할 수 있다. 이상 검출 장치(10)는 데이터의 정상 및/또는 이상(또는, 이상) 여부를 검출할 수 있다.

데이터는 컴퓨터가 처리할 수 있는 형태로 된 정보로 이루어질 수 있다. 데이터는 컴퓨터가 처리할 수 있는 문자, 숫자, 소리, 그림 등의 형태로 이루어질 수 있다. 예를 들어, 데이터는 이미지를 포함할 수 있다. 이미지는 빛의 굴절이나 반사 등에 의하여 이루어진 물체의 상을 포함하는 것으로, 선이나 색채를 이용하여 사물의 형상을 나타낸 것을 의미할 수 있다.

이상 검출 장치(10)는 뉴럴 네트워크를 이용하여 데이터의 이상을 검출할 수 있다. 이상 검출 장치(10)는 학습 데이터에 기초하여 뉴럴 네트워크를 학습시키고, 학습된 뉴럴 네트워크에 기초하여 데이터를 처리함으로써 데이터의 이상을 검출할 수 있다.

뉴럴 네트워크(또는 인공 신경망)는 기계학습과 인지과학에서 생물학의 신경을 모방한 통계학적 학습 알고리즘을 포함할 수 있다. 뉴럴 네트워크는 시냅스의 결합으로 네트워크를 형성한 인공 뉴런(노드)이 학습을 통해 시냅스의 결합 세기를 변화시켜, 문제 해결 능력을 가지는 모델 전반을 의미할 수 있다.

뉴럴 네트워크의 뉴런은 가중치 또는 바이어스의 조합을 포함할 수 있다. 뉴럴 네트워크는 하나 이상의 뉴런 또는 노드로 구성된 하나 이상의 레이어(layer)를 포함할 수 있다. 뉴럴 네트워크는 뉴런의 가중치를 학습을 통해 변화시킴으로써 임의의 입력으로부터 예측하고자 하는 결과를 추론할 수 있다.

뉴럴 네트워크는 심층 뉴럴 네트워크 (Deep Neural Network)를 포함할 수 있다. 뉴럴 네트워크는 CNN(Convolutional Neural Network), RNN(Recurrent Neural Network), 퍼셉트론(perceptron), 다층 퍼셉트론(multilayer perceptron), FF(Feed Forward), RBF(Radial Basis Network), DFF(Deep Feed Forward), LSTM(Long Short Term Memory), GRU(Gated Recurrent Unit), AE(Auto Encoder), VAE(Variational Auto Encoder), DAE(Denoising Auto Encoder), SAE(Sparse Auto Encoder), MC(Markov Chain), HN(Hopfield Network), BM(Boltzmann Machine), RBM(Restricted Boltzmann Machine), DBN(Depp Belief Network), DCN(Deep Convolutional Network), DN(Deconvolutional Network), DCIGN(Deep Convolutional Inverse Graphics Network), GAN(Generative Adversarial Network), LSM(Liquid State Machine), ELM(Extreme Learning Machine), ESN(Echo State Network), DRN(Deep Residual Network), DNC(Differentiable Neural Computer), NTM(Neural Turning Machine), CN(Capsule Network), KN(Kohonen Network) 및 AN(Attention Network)를 포함할 수 있다.

이상 검출 장치(10)는 마더보드(motherboard)와 같은 인쇄 회로 기판(printed circuit board(PCB)), 집적 회로(integrated circuit(IC)), 또는 SoC(system on chip)로 구현될 수 있다. 예를 들어, 이상 검출 장치(10)는 애플리케이션 프로세서(application processor)로 구현될 수 있다.

또한, 이상 검출 장치(10)는 PC(personal computer), 데이터 서버, 또는 휴대용 장치 내에 구현될 수 있다.

휴대용 장치는 랩탑(laptop) 컴퓨터, 이동 전화기, 스마트 폰(smart phone), 태블릿(tablet) PC, 모바일 인터넷 디바이스(mobile internet device(MID)), PDA(personal digital assistant), EDA(enterprise digital assistant), 디지털 스틸 카메라(digital still camera), 디지털 비디오 카메라(digital video camera), PMP(portable multimedia player), PND(personal navigation device 또는 portable navigation device), 휴대용 게임 콘솔(handheld game console), e-북(e-book), 또는 스마트 디바이스(smart device)로 구현될 수 있다. 스마트 디바이스는 스마트 와치(smart watch), 스마트 밴드(smart band), 또는 스마트 링(smart ring)으로 구현될 수 있다.

이상 검출 장치(10)는 수신기(100) 및 프로세서(200)를 포함한다. 이상 검출 장치(10)는 메모리(300)를 더 포함할 수 있다.

수신기(100)는 정상 또는 이상 여부를 검출할 데이터를 수신할 수 있다. 수신기(100)는 외부 또는 메모리(300)로부터 데이터를 수신할 수 있다. 수신기(100)는 수신 인터페이스를 포함할 수 있다. 수신기(100)는 수신한 데이터를 프로세서(200)로 출력할 수 있다.

프로세서(200)는 메모리(300)에 저장된 데이터를 처리할 수 있다. 프로세서(200)는 메모리(300)에 저장된 컴퓨터로 읽을 수 있는 코드(예를 들어, 소프트웨어) 및 프로세서(200)에 의해 유발된 인스트럭션(instruction)들을 실행할 수 있다.

"프로세서(200)"는 목적하는 동작들(desired operations)을 실행시키기 위한 물리적인 구조를 갖는 회로를 가지는 하드웨어로 구현된 데이터 처리 장치일 수 있다. 예를 들어, 목적하는 동작들은 프로그램에 포함된 코드(code) 또는 인스트럭션들(instructions)을 포함할 수 있다.

예를 들어, 하드웨어로 구현된 데이터 처리 장치는 마이크로프로세서(microprocessor), 중앙 처리 장치(central processing unit), 프로세서 코어(processor core), 멀티-코어 프로세서(multi-core processor), 멀티프로세서(multiprocessor), ASIC(Application-Specific Integrated Circuit), FPGA(Field Programmable Gate Array)를 포함할 수 있다.

프로세서(200)는 이종 손실 함수를 이용하여 학습된 뉴럴 네트워크에 기초하여 이상 검출을 수행할 수 있다.

프로세서(200)는 이상치 검출에 활용되는 뉴럴 네트워크를 직접 학습시킬 수도 있으나, 별도로 학습된 뉴럴 네트워크를 활용하여 이상치를 검출할 수도 있다. 뉴럴 네트워크를 학습시키는 과정에서, 프로세서(200)는 수신기(100)로부터 수신한 학습 데이터의 이상 점수에 기초하여 그라디언트 파라미터(gradient parameter)를 결정할 수 있다. 프로세서(200)는 학습 데이터에 대한 복원 오차에 기초하여 이상 점수를 계산할 수 있다.

프로세서(200)는 학습 데이터의 중앙값(median)에 기초하여 z 점수를 계산할 수 있다. 프로세서(200)는 학습 데이터의 중앙값에 기초하여 상기 데이터의 MAD(Median Absolute Deviation)을 계산할 수 있다. 프로세서(200)는 MAD에 기초하여 z 점수를 계산할 수 있다.

프로세서(200)는 z 점수의 절대값의 최대값 및 z 점수에 기초하여 그라디언트 파라미터를 결정할 수 있다. 프로세서(200)는 미리 결정된 상수와 z 점수의 절대값의 최대값 중에서 큰 값에 기초하여 그라디언트 파라미터를 결정할 수 있다.

프로세서(200)는 그라디언트 파라미터에 기초하여 이종 손실 함수(heterogeneous loss function)를 결정할 수 있다.

프로세서(200)는 그라디언트 파라미터가 제1 값인 경우 제1 손실 함수를 이종 손실 함수로 결정할 수 있다. 프로세서(200)는 그라디언트 파라미터가 제2 값인 경우 제2 손실 함수를 이종 손실 함수로 결정할 수 있다.

프로세서(200)는 데이터를 제1 하이퍼 파라미터로 나눈 값에 기초하여 제1 손실 함수 및 제2 손실 함수를 결정할 수 있다.

프로세서(200)는 이종 손실 함수에 기초하여 학습된 뉴럴 네트워크에 데이터를 입력함으로써, 입력된 데이터의 정상 또는 이상 여부를 검출할 수 있다.

메모리(300)는 프로세서(200)에 의해 실행가능한 인스트럭션들(또는 프로그램)을 저장할 수 있다. 예를 들어, 인스트럭션들은 프로세서의 동작 및/또는 프로세서의 각 구성의 동작을 실행하기 위한 인스트럭션들을 포함할 수 있다.

메모리(300)는 휘발성 메모리 장치 또는 비휘발성 메모리 장치로 구현될 수 있다.

휘발성 메모리 장치는 DRAM(dynamic random access memory), SRAM(static random access memory), T-RAM(thyristor RAM), Z-RAM(zero capacitor RAM), 또는 TTRAM(Twin Transistor RAM)으로 구현될 수 있다.

비휘발성 메모리 장치는 EEPROM(Electrically Erasable Programmable Read-Only Memory), 플래시(flash) 메모리, MRAM(Magnetic RAM), 스핀전달토크 MRAM(Spin-Transfer Torque(STT)-MRAM), Conductive Bridging RAM(CBRAM), FeRAM(Ferroelectric RAM), PRAM(Phase change RAM), 저항 메모리(Resistive RAM(RRAM)), 나노 튜브 RRAM(Nanotube RRAM), 폴리머 RAM(Polymer RAM(PoRAM)), 나노 부유 게이트 메모리(Nano Floating Gate Memory(NFGM)), 홀로그래픽 메모리(holographic memory), 분자 전자 메모리 소자(Molecular Electronic Memory Device), 또는 절연 저항 변화 메모리(Insulator Resistance Change Memory)로 구현될 수 있다.

도 2는 학습 데이터의 이상 점수의 분포의 예를 나타내고, 도 3은 서로 다른 변위치에 따른 데이터 오엽 비율의 예를 나타낸다.

도 2 및 도 3을 참조하면, 프로세서(예: 도 1의 프로세서(200))는 데이터의 이상 비율에 기초하여 이상 점수를 계산할 수 있다.

프로세서(200)는 뉴럴 네트워크를 학습시키는 과정에서 어그레시브 리젝션(aggressive rejection) 및/또는 소프트 리젝션(soft rejection)을 이용하여 손실 함수를 구성할 수 있다. 이 때, 정상 또는 이상 분포를 교차하는 모호한 데이터(ambiguous) 데이터는 리젝션될 수 있다.

도 2 및 도 3의 예시는 MNIST 데이터셋을 이용하여 학습된 오토 인코더의 이상 점수 및 이상 비율을 나타낼 수 있다.

도 2의 예시는, 10%가 오염된 학습 데이터의 이상 점수의 분포를 나타낼 수 있다. 0.9 변위치의 샘플들은 정상 데이터보다 이상 데이터를 더 많이 포함하고 있지만, 0.9 변위치 샘플들을 제외한 데이터의 6.7%는 여전히 이상 데이터를 포함하고 있음을 확인할 수 있다. 0.5 변위치의 경우 0.9 변위치에 비하여 정상 데이터가 많지만, 이를 제외한 데이터의 이상 비율은 약 0.034(3.4%)일 수 있다.

프로세서(200)는 데이터에 대하여 어그레시브 리젝션(aggressive rejection)을 수행할 수 있다. 이전의 접근 방식은 오염률(contamination ratio)을 대략 10% 정도로 설정하였기 때문에, 10%의 데이터를 이상(abnomality)으로 처리할 수 있다. 하지만, 정상 분포와 이상 분포가 오버랩되기 때문에 모든 이상을 다루는 것이 어려울 수 있다. 게다가, 오염률이 10%를 초과할 경우에 오염률에 대한 가정이 성능을 제한할 수 있다.

이러한 개념에 기초하여, 어그레시브 리젝션은 정상 샘플들의 상당한 양을 희생시키면서 이상을 제거할 수 있다. 도 2 및 도 3은 10%의 오염된 데이터의 이상 점수 분포 및 서로 다른 변위치(quantile)에 대한 이상 비율(abnomaly ratio)를 나타낼 수 있다. 도 2는 정상 및 이상 분포가 오버랩됨을 나타낼 수 있다. 따라서, 더 많은 데이터에 대해서 오염률은 도 3과 같이 감소될 수 있다.

일 실시예에 따른 이상치 검출 장치는 이하 설명되는 리젝션 방식이 적용된 손실 함수를 통해 학습의 정확도가 향상된 뉴럴 네트워크를 활용하여, 이상치 검출의 정확도를 향상시킬 수 있다. 수학식 1은 어그레시브 리젝션이 적용된 손실 함수를 나타낸다.

여기서,

는 학습 데이터를 나타내고,

는 어그레시브 리젝션을 위한 가중치를 나타내고,

는 i번째 이상 점수를 나타내고,

는 q-변위차를 나타내고,

모델(예: 오토 인코더)를 나타낼 수 있다. 프로세서(200)는 어그레시브 리젝션을 통해 이상 점수가

보다 큰 데이터의 영향을 저감할 수 있다. 이 때, 이상 점수는 각각의 모델에 대하여 정의될 수 있다. 예를 들어, 이상 점수는 복원 오차(예를 들어,

에 기초하여 산출)일 수 있다. 도 3에서와 같이 q는 0.5에서 단조롭게 증가할 수 있다.

프로세서(200)는 학습 데이터에 대한 소프트 리젝션을 수행할 수 있다. 어그레시브 리젝션이 오염률을 감소시킬 수 있지만, 많은 양의 정상 데이터를 제거하기 때문에 성능을 저하시킬 수 있다. 어그레시브 리젝션은 클린 데이터셋에 대한 열화를 야기할 수 있다. 이를 해결하기 위해, 리젝션 가중치

가 제2 하이퍼 파라미터

로 일부 조절될 수 있다. 수학식 2에서

에서

는

에 의존할 수 있다. 가중치는 수학식 2와 같이 나타낼 수 있다.

프로세서(200)는

에서 하드 리젝션(hard rejection)을 수행하여 리젝션 타겟을 완전히 배제하고,

에서 소프트 리젝션을 수행하여 리젝션 타겟의 샘플들을 이용하여 부분적으로 학습을 수행할 수 있다.

낮은

는 클린 데이터셋에 대하여 낮은 성능을 나타낼 수 있고, 높은

는 강건함(robustness)를 감소시킬 수 있기 때문에 프로세서(200)는 적절한

값을 설정할 수 있다. 예를 들어, 모델은

가 0.1인 경우에 클린 데이터셋에 대하여 최소의 손실을 달성할 수 있고, 오염된 데이터셋에 대하여 강건한 특성을 가질 수 있다.

도 4는 도 1의 이상 검출 장치에 사용되는 뉴럴 네트워크에 대한 학습 알고리즘의 예를 나타낸다.

도 4를 참조하면, 프로세서(예: 도 1의 프로세서(200))는 리젝션을 이용하여 이종 손실 함수를 구성할 수 있다. 샘플들은 뉴럴 네트워크 모델의 이상 점수

가

보다 클 경우에 잠재적인 이상 샘플들로 구별될 수 있다.

정상 샘플들에 대하여

는 1로 설정될 수 있고, 나머지 샘플들에 대해서는

로 설정될 수 있다.

미니 배치(mini batch)의 이상 점수는 그라디언트 파라미터

를 결정할 수 있다. 이상 점수는 수정된 z 점수(또는, z 점수) 및 입력

에 기초하여

로 변환될 수 있다.

뉴럴 네트워크 모델 파라미터는 소프트 리젝션 가중치

및 손실 함수

의 곱에 의해 생성된 손실을 이용하여 업데이트될 수 있다.

프로세서(200)가 사용하는 이종 손실 함수는 리젝션을 이용하기 위한 두 가지 조건을 만족시킬 수 있다.

첫 번째 조건으로, 이종 손실 함수는 이상 손실 함수(abnormal loss function)를 최소화하지 않을 수 있다. 뉴럴 네트워크 모델이 손실을 최소화하도록 학습될 때, 리젝션 타겟의 정상 샘플들은 학습을 방해할 수 있기 때문이다.

두 번째 조건으로, 정상 샘플들에 대해서는 뉴럴 네트워크 모델이 빠르게 수렴하도록 학습되고, 이상 샘플들은 정상 샘플들에 비하여 느리게 수렴하도록 학습될 수 있다.

프로세서(200)는 그라디언트를 조절함으로써 정상 데이터의 분포와 이상 데이터의 분포 사이의 차이를 최대화하도록 이종 손실 함수를 결정할 수 있다.

도 2에서 볼 수 있듯이, 정상 샘플들의 수는 이상 점수가 감소할수록 증가할 수 있다. 정상 샘플들에 대하여 더 많은 학습을 수행하고, 이상 샘플들에 대해서는 더 적은 학습을 수행하기 위해서 프로세서(200)는 이상 점수에 기초하여 그라디언트를 조절할 수 있다.

프로세서(200)는 q 변위치 보다 큰 이상 점수를 잠재적인 이상 샘플로 취급하고, 나머지는 정상 샘플로 취급하여 MSE(Mean Squared Error) 손실을 적용할 수 있다. 이상 점수가 0.5 변위치에 근접할 경우, 이종 손실 함수는 MSE로 변경될 수 있다. 반대의 경우에 대하여, 프로세서(200)는 그라디언트 값을 낮출 수 있다.

프로세서(200)는 이종 손실 함수로 수학식 3의 동적 그라디언트 손실 함수인 LGA를 이용하여 구성될 수 있다. LGA는 파라미터

를 이용하여 MSE 손실부터 Welsch 손실을 다루는 손실 함수일 수 있다.

예를 들어, 제1 손실 함수는 수학식 3의

가 2인 경우를 나타낼 수 있고, 제2 손실 함수는 수학식 3의

가 1 또는 그 이외의 값인 경우를 나타낼 수 있다.

이상 점수를 그라디언트 파라미터

에 투영시키기 위해서, 프로세서(200)는 z 점수를 이용할 수 있다. z 점수는 수학식 4와 같이 계산될 수 있으며,

는 학습 데이터를 나타내고,

는 학습 데이터의 평균, N은 학습 데이터의 개수, c는 제1 하이퍼 파라미터를 의미할 수 있다.

프로세서(200)는 데이터의 중앙값(median)에 기초하여 z 점수를 계산할 수 있다. 프로세서(200)는 데이터의 중앙값에 기초하여 상기 데이터의 MAD(Median Absolute Deviation)을 계산할 수 있다. 프로세서(200)는 MAD에 기초하여 z 점수를 계산할 수 있다.

z 점수는 중앙값을 이용하기 때문에 아웃라이어에 강건할 수 있다. z 점수는 정상 분포를 생성하고, 상대적인 거리를 가질 수 있다. z 점수는 3.5와 max(|z|) 중에서 최대값에 의해 정규화될 수 있고, 여기서, 3.5가 아웃라이어의 문턱값(threshold)일 수 있다.

프로세서(200)는 max(|z|)을 이용하여 m값을 정의할 수 있다. 정규화된 점수는 0부터 1까지의 범위를 가지고, 분산은 더 작은 값을 가질 수 있다. 3.5는 낮은 max(|z|) 값 대신에 사용되어 분산이 낮을 때 정규화된 z 값이 0에 가깝도록 만들 수 있다.

경계값으로 사용되는 3.5는 수렴을 가속시킬 수 있다. 정규화된 z는 수학식 5에 의해서 그라디언트 파라미터

로 변환될 수 있다.

여기서,

는 이상 점수를 나타내고,

는 z 점수를 나타낼 수 있다.

최저 그라디언트 손실을 위한 파라미터를 의미할 수 있다.

의 최소 값은 MSE(정상 손실 함수)에 매칭될 수 있다.

의 최대값은 강건한 손실 함수(예:

인 경우)에 가까울 수 있다.

의

부터 2까지의 범위를 가질 수 있다.

이상 비율은 도 3의 예시와 같이 2차 함수(quadratic function)의 형태로 증가하기 때문에 수학식 5에서 z는 2차 함수의 형태로 적용될 수 있다.

도 5는 이종 손실 함수를 설명하기 위한 그래프의 일 예를 나태내고, 도 6은 이종 손실 함수를 설명하기 위한 그래프의 다른 예를 나태낸다.

도 5 및 도 6을 참조하면, 도 5 및 도 6의 그래프는

이고,

인 소프트 리젝션을 이용한 이종 손실 함수를 나타낼 수 있다. 도 5에서

가 작아질수록 그라디언트가 감소하는 것을 확인할 수 있다.

도 6은

이고,

인 경우의 이종 손실 함수의 예를 나타낼 수 있다. 잠재적인 이상 샘플들에 대해서 도 6의 음영 영역과 같이 MSE와 psuedo-Huber 손실 사이의 손실 함수가 사용될 수 있다.

Z 값이 0에 가까운(예: 0.5 변위치)와 같은 최저의 이상치에 대해서는 소프트 리젝션을 이용한 MSE가 사용될 수 있다. Z 분포의 꼬리 부분인 가장 큰 이상치에 대해서는 소프트 리젝션을 이용한 psuedo-Huber 손실이 사용될 수 있다.

도 7은 다양한 손실 함수에 따른 AUROC(Area Under the Receiver Operating Characteristic)를 나타내는 표이고, 도 8 내지 도 10는 복수의 모델들의 오염률에 대한 AUROC의 일 예를 나타내고, 도 11 내지 도 13은 복수의 모델들의 오염률에 대한 AUROC의 다른 예를 나타내고, 도 14 내지 도 16은 복수의 모델들의 오염률에 대한 AUROC의 또 다른 예를 나타낸다.

도 7 내지 도 16을 참조하면, 기존의 손실 함수를 사용하는 뉴럴 네트워크 모델과 리젝션을 이용한 이종 손실 함수를 사용하는 뉴럴 네트워크 모델들 간의 성능이 비교될 수 있다.

데이터셋으로는 MNIST, F-MNIST(Fashion MNIST), CIFAR-10이 사용될 수 있다. MNIST 및 F-MNIST는 10 개의 클래스 및 28*28 스케일 이미지들로 구성될 수 있다. CIFAR-10은 10 개의 클래스의 32*32 컬러 이미지들로 구성될 수 있다.

실험에서는 하나의 클래스가 정상으로 설정되고 나머지 클래스는 비정상으로 설정될 수 있다. 정상 데이터에 대해서 학습 데이터는 테스트 데이터의 두 배일 수 있고, 원본 학습 데이터의 10%는 검증(validation)을 위해 사용될 수 있다.

개의 이상 데이터가 추가될 수 있다. 여기서,

는 오염률을 의미하고, N은 정상 데이터의 수를 의미할 수 있다. 테스트 데이터의 30%는 이상 데이터로 구성될 수 있다.

뉴럴 네트워크 모델들 중에서 가장 낮은 검증 손실을 갖는 모델이 테스트 모델로 사용될 수 있다. 검증 손실은 어그레시브 리젝션 및 하드 리젝션에 의해 측정될 수 있다. 성능의 단위는 AUROC(Area Under Receiver Operating Characteristic)가 사용될 수 있다. 실험은 각 클래스를 정상으로 설정하고, 세 개의 서로 다른 시드(seed)들을 이용하는 평균 AUROC가 측정될 수 있다.

ITSR은 RVAE-ABFA 및 NCAE가 강건한 뉴럴 네트워크 모델로 채택될 수 있다. ITSR은 OC-SVM 및 AAE를 정제(refinement)를 위해 사용할 수 있다. RVAE-ABFA는 VAE 및 특징 적응에 기반한 어텐션을 채택함으로써 DAGMM를 발전시킨 네트워크를 의미할 수 있다. NCAE는 데이터셋의 정제를 위해서 생산적 적대 신경망(generative adversarial model)로부터 생성된 정상 샘플들을 사용할 수 있다.

손실 함수들은 세 개의 기존 뉴럴 네트워크 모델들(예: AE, MemAE 및 DSVDD)에 기초하여 평가될 수 있다. DSVDD는 MSE를 사용하지만, 복원 오차가 상이할 수 있다. MemAE는 메모리 증대 손실(memory augmented loss)을 위한 추가적인 손실 함수 때문에 비교될 수 있다. MSE는 pseudo-Huber 손실, GA 손실 및 LOE 손실에 의해 대체될 수 있다. GA 손실은 이종 손실 함수가 z 분포를 이용하는 반면,

를 결정하기 위해 음의 로그 우도(negative log-likelihood)를 이용하기 때문에, GA 손실이 강건함에 어떠한 영향을 미치는지 설명하기 위해 사용될 수 있다. 도 7의 표에서 이종 손실 함수는 Hetero로 표기될 수 있다.

MNIST 및 F-MNIST에 대하여 인코더는 세 개의 컨볼루션을 포함할 수 있다. 디코더는 세 개의 디컨볼루션(deconvolution)을 포함할 수 있다. 마지막 디컨볼루션을 제외하고 다른 디컨볼루션 또는 컨볼루션은 배치 정규화(batch normalization), 리키 ReLU(leaky Rectified Linear Unit)를 포함할 수 있다.

CIFAR-10 데이터에 대하여, 인코더 및 디코더는 상이한 커널 및 스트라이드 크기를 갖는 MNIST의 구성과 4 개의 유사한 레이어들을 포함할 수 있다. 나머지 모델들에 대해서, 32, 128 표현 차원(representation dimension)을 갖는 LeNET 기반의 컨볼루션 뉴럴 네트워크가 사용될 수 있다.

RVAE-ABFA는 연산 오차 때문에 32 차원만 사용할 수 있다. 배치 크기 및 에포크는 ITSR, NCAE 및 DSVDD를 제외하고 각각 100 및 300으로 설정될 수 있다. ITSR은 첫 번째 100 에포크 후에 매 10 에포크 마다 데이터를 정제할 수 있고, 100 에포크를 이용하여 정제된 데이터에 대하여 학습될 수 있다.

파라미터들은 0.0001의 학습률 및 10^-6 가중치 감쇠(weight decay)를 이용하여 Adam optimizer에 의해 업데이트될 수 있다. 이종 손실에서 파라미터

,

및

는 각각 0.5, 1.5 및

일 수 있다.

이종 손실 함수를 평가하기 위해서, 강건한 손실 함수들이 사용될 수 있다. 도 7은 클린 데이터셋(

=0) 및 오염된 데이터셋(

=0.2)에 대한 AUROC를 나타낼 수 있다. 가장 높은 AUROC는 볼드 처리되었다.

클린 데이터셋에 대한 비교 결과, 비교 방법들은 MNIST를 이용한 AE를 제외하고는 MSE에 비하여 최소의 AUROC 손실을 나타낼 수 있다. 클린 데이터셋에 대한 이종 손실 함수는 MSE와 비교하여 0.01 내의 유사한 성능을 나타낼 수 있다. pseudo-Huber, GA, 및 LOE을 이용한 AE의 성능은 강건함을 크게 향상시키지 않을 수 있다. 하지만, 이종 손실 함수를 이용한 AE는 0.045의 강건함을 달성함을 확인할 수 있다. F-MNIST에 대한 DSVDD가 이종 손실을 이용하여 학습될 때, 가장 효과적인 결과를 나타낼 수 있다. LOE는 이상 손실 함수를 최대함으로써 이종 손실 함수의 성능과 유사한 성능을 나타낼 수 있다. CIFAR-10은 MNIST 또는 F-MNIST에 비하여 하드 데이터셋(hard dataset)이기 때문에 클린 데이터셋에 대한 AUROC가 낮을 수 있다. 따라서, 강건함이 크게 향상되지 않을 수 있다. 이종 손실 함수는 20%의 오염된 데이터에 대해서는 전체적인 손실 함수들에 비하여 0.002, 0.084 수준으로 더욱 강건할 수 있다.

도 8 내지 도 16은 오염률에 의존하는 강건한 손실 함수들의 AUROC를 시각화한 결과를 나타낼 수 있다. 이종 손실 함수는 AE 및 MemAE의 경우에 가장 강건한 결과를 달성할 수 있다. F-MNIST, LOE에 대한 DSVDD의 경우에, 오염률이 10% 이하인 경우에 이종 손실 함수를 능가할 수 있지만,

=0.2인 경우에 이종 손실 함수가 LOE를 능가할 수 있다. LOE는

값이 실제

와 동일할 때 가장 높은 성능을 달성할 수 있다. LOE는 이상 손실 함수를 최대함으로써 강건함을 달성할 수 있지만,

=0.1 가정이 강건함을 제한할 수 있다. DSVDD는 복원 오차에 기반한 모델이 아니기 때문에,

=0.2인 경우를 제외하고는 MSE 및 GA 손실이 CIFA-10에 대하여 강건함을 나타낼 수 있다. 실험은 이종 손실 함수가 서로 다른 MSE 기반의 AD 모델들에 적용될 수 있고, 높은 강건함 및 클린 데이터셋에 대하여 최소의 AUROC 손실을 나타냄을 증명할 수 있다.

도 17은 다양한 뉴럴 네트워크 모델들의 따른 AUROC를 나타내는 표이고, 도 18 내지 도 20는 도 1의 복수의 모델들의 뉴럴 네트워크 모델의 오염률에 대한 AUROC을 비교한 예들을 나타낸다.

도 17 내지 도 20을 참조하면, 이종 손실을 이용한 표준 모델들이 강건한 뉴럴 네트워크 모델과 비교될 수 있다. 도 17의 표는 서로 다른 오염률에 대한 AUROC 비교 결과를 나타낼 수 있다. NCAE가 클린 데이터셋에 비하여 오염 데이터셋의 AUROC의 낮은 감소를 나타낼 수 있지만, 성능이 부족할 수 있다. ITSR 및 RVAE-ABFA는 AE 및 MemAE에 비하여 더욱 강건한 성능을 나타낼 수 있다. 하지만, 이종 손실 함수는 ITSR에 비하여 AE 및 MemAE에 대하여 0.05 정도로 강건함을 향상시킬 수 있다. 이종 손실 함수를 이용한 DSVDD는 RVAE-ABFA와 유사한 결과를 나타낼 수 있고, MNIST에 대하여 가장 강건한 결과를 나타낼 수 있다. RVAE-ABFA는 F-MNIST에 대해서는 다른 방식들에 비하여 가장 높은 AUROC를 나타낼 수 있지만, 이종 손실 함수를 이용한 DSVDD는 0.012 더 높은 강건함을 나타낼 수 있다. 이종 손실 함수는 CIFAR-10에 대하여 가장 높은 강건함을 달성할 수 있다. 실험 결과들은 이종 손실 함수가 다른 강건한 뉴럴 네트워크 모델에 필적하는 성능을 나타낸다는 것을 보여줄 수 있다. 도 18 내지 도 20은 다양한 오염률에 따른 뉴럴 네트워크 모델들의 강건함을 나타낼 수 있다. MNIST 및 F-MNIST 데이터셋에 대해서, RVAE-ABFA는 가장 강건한 성능을 나타내지만, 이종 손실 함수가 이와 가장 유사한 성능을 나타냄을 확인할 수 있다. 오염률이 증가할 경우, RVAE-ABFA와 이종 손실 함수를 이용하여 DSVDD의 차이는 줄어들 수 있다. CIFAR-10의 경우에, DSVDD는 RVAE-ABFA를 능가하고, 이종 손실 함수는 MemAE를 RVAE-ABFA와 유사한 성능을 갖도록 만들 수 있다. 다른 강건 뉴럴 네트워크 모델들과 비교하여, 이종 손실 함수가, 추론 시간의 증가 및 구조의 수정 없이 높은 강건함을 달성하게 함을 확인할 수 있다.

도 21은 이종 손실 함수에 대한 제거 연구 결과를 나타내고, 도 22는 이종 손실 함수 및 소프트 리젝션의 민감도를 설명하기 위한 그래프이다.

도 21 및 도 22를 참조하면, 실험에서 각각의 컴포넌트들이 제거된 후의 영향이 측정될 수 있다. 클린 데이터셋 및 오염된 데이터 셋의 MNIST에서의 성능은 도 21의 표와 같이 나타낼 수 있다. q 및 ts는 소프트 또는 하드 리젝션을 이용한 어그레시브 리젝션의 영향을 결정하는 핵심 구성 요소일 수 있다. 손실 함수 또는 손실 함수의 값은 L(q, ts)와 같이 나타낼 수 있고, L은 손실 함수를 나타내고 q는 q 변위치를 나타내고, ts는 리젝션의 정도(degree)를 나타낼 수 있다.

하드 리젝션- MSE(0.5,0)은 오염된 데이터에 대해서 표준 손실- MSE(1,1)보다 더욱 강건한 결과를 나타낼 수 있다. 하지만, 클린 데이터셋에 대한 하드 리젝션은 AE (0.115), MemAE (0.134) 및 DSVDD (0.045)의 상당한 성능의 열화를 나타낼 수 있다. 이는 많은 정상 샘플들이 배제되기 때문이고, 클린 데이터셋에 대하여 부정적인 영향을 미치기 때문일 수 있다. 소프트 리젝션- MSE(0.5,0.1)은 하락을 보완할 수 있다. 이는 클린 데이터셋 상에서 MSE에 필적하는 AUROC를 나타낼 수 있다. 제외된 정상 샘플들이 학습에 일부 사용됨으로써 소프트 리젝션이 AE, MemAE 및 DSVDD의 강건함을 각각 0.045, 0.07 및 0.044만큼 향상시킬 수 있다.

어그레시브 리젝션을 수행하지 않는 이종 손실 함수는 도 21에서 Hetero(1,1)로 지칭될 수 있다. 이는 베이스라인 MSE 보다 나은 성능을 나타내고, MSE(0.5,0.1)를 이용한 MemAE 보다 강건한 성능을 나타낼 수 있다. 게다가, 어그레시브 리젝션을 이용한 Hetero(0.5, 0.1)는 AE 및 MemAE에 대하여 MSE (0.5, 0.1) 대비 각각 0.008 및 0.15의 성능 향상을 나타낼 수 있다. 실험은 정상과 이상 데이터 사이의 차이가 미니 배치 분포에 기초한 그라디언트 적응에 의해 야기될 수 있음을 나타낼 수 있다.

이종 손실 함수는 소프트 리젝션을 ts에 덜 민감하게 만들 수 있다. 이종 손실 함수가 그라디언트 적응 때문에 강건한 반면, 소프트 리젝션은 ts=1인 경우 비-강건한 손실 함수 MSE로 바뀔 수 있다. 소프트 리젝션을 이용한 이종 손실 함수 및 MSE의 민감도는 도 22와 같이 나타낼 수 있다. 소프트 리젝션은 ts의 증가에 따라 효과가 적어지는 것을 확인할 수 있다. 하지만, MSE에 비하여 덜 민감한 이종 손실 함수의 경우 20% 오염된 데이터 상에서 ts = 0.1과 ts =0.5 사이의 차이를 적게 만들 수 있다.

도 23은 도 1에 도시된 이상 검출 장치의 동작의 흐름도를 나타낸다.

도 23을 참조하면, 수신기(100)는 정상 또는 이상 여부를 검출할 데이터를 수신할 수 있다(2310).

프로세서(200)는 수신기(100)로부터 수신한 데이터를 미리 학습된 뉴럴 네트워크에 입력함으로써 데이터의 정상 또는 이상 여부를 검출할 수 있다(2330). 예를 들어, 프로세서(200)는 앞서 설명된 이종 손실 함수를 최소화하는 방향으로 학습된 뉴럴 네트워크에 데이터를 입력함으로써, 데이터의 이상 여부를 검출할 수 있으며, 이종 손실 함수는 앞서 설명된 수학식 3 내지 수학식 5에 기초하여 산출되는 함수일 수 있다.

실시예에 따라서, 프로세서(200)는 이상치 탐지에 활용되는 뉴럴 네트워크를 학습시키기 위하여 이종 손실 함수와 더불어, 앞서 설명된 리젝션을 적용한 손실 함수를 적용할 수 있으며, 리젝션을 적용하는 과정은, 앞서 설명된 수학식 1 내지 수학식 3을 통해 설명된 바와 동일할 수 있다.

도 24는 도 1에 도시된 이상 검출 장치를 학습시키는 동작의 흐름도를 나타낸다.

도 24를 참조하면, 수신기(100)는 학습 데이터를 수신할 수 있다(2410).

프로세서(200)는 수신기(100)로부터 수신한 학습 데이터의 이상 점수에 기초하여 그라디언트 파라미터(gradient parameter)를 결정할 수 있다(2430). 프로세서(200)는 학습 데이터의 복원 오차에 기초하여 이상 점수를 계산할 수 있다.

프로세서(200)는 그라디언트 파라미터에 기초하여 이종 손실 함수(heterogeneous loss function)를 결정할 수 있다(2450).

프로세서(200)는 이종 손실 함수에 기초하여 이상치를 검출하는 인공 신경망을 학습시킬 수 있다(2470). 예를 들어, 프로세서(200)는 산출된 이종 손실 함수를 최소화하는 방향으로 인공 신경망을 학습시킬 수 있다. 또한, 이종 손실 함수는 앞서 설명된 수학식 3 내지 수학식 5에 기초하여 산출되는 함수일 수 있다.

또한, 프로세서(200)는 앞선 도 4에서 설명된 리젝션이 적용된 손실함수에 기초하여 이상치를 탐지하는 인공 신경망을 학습시킬 수 있으며, 리젝션은 앞서 설명된 어그레시브 리젝션 또는 소프트 리젝션 중 어느 하나로 구현될 수 있음은 통상의 기술자가 이해할 것이다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

이종 손실 함수를 이용한 이상 검출(anomaly detection) 장치에 있어서,
정상 또는 이상 여부를 검출할 데이터를 수신하는 수신기; 및
상기 데이터를 미리 학습된 뉴럴 네트워크에 입력함으로써, 상기 데이터에 대한 이상 여부를 검출하는 프로세서
를 포함하고,
상기 미리 학습된 뉴럴 네트워크는,
학습 데이터의 이상 점수에 기초하여 결정되는 그라디언트 파라미터(gradient parameter)를 이용하여 계산되는 이종 손실 함수를 통해 학습되고,
상기 그라디언트 파라미터는,
상기 학습 데이터의 중앙값(median)에 기초하여 계산되는 z 점수 및 상기 z 점수의 절대값의 최대값에 기초하여 산출되고,
상기 z 점수는,
상기 학습 데이터의 중앙값에 기초하여 계산되는 상기 학습 데이터의 MAD(Median Absolute Deviation)에 기초하여 산출되고,
상기 그라디언트 파라미터는,
미리 결정된 상수와 상기 최대값 중에서 큰 값에 기초하여 결정되고,
상기 이종 손실 함수는 수학식 1 내지 수학식 3에 기초하여 결정되고,
상기 수학식 1은,

이고,
상기 수학식 2는,

이고,
상기 수학식 3은,

이고,

는 학습 데이터를 나타내고,
는 학습 데이터의 평균, N은 학습 데이터의 개수, c는 제1 하이퍼 파라미터이고,
는 이상 점수를 나타내고,
는 z 점수이고,
최저 그라디언트 손실을 위한 파라미터를 의미하는, 이상 검출 장치.
제1항에 있어서,
상기 이상 점수는, 복원 오차에 기초하여 산출되는,
이상 검출 장치.
삭제
삭제
삭제
삭제
이상 검출(anomaly detection)하는 방법에 있어서,
정상 또는 이상 여부를 검출할 데이터를 수신하는 단계; 및
미리 학습된 뉴럴 네트워크에 상기 데이터를 입력함으로써, 상기 데이터의 이상 여부를 검출하는 단계
를 포함하고,
상기 미리 학습된 뉴럴 네트워크는,
학습 데이터의 이상 점수에 기초하여 결정되는 그라디언트 파라미터(gradient parameter)를 통해 산출되는 이종 손실 함수에 기초하여 학습되고,
상기 그라디언트 파라미터는,
상기 학습 데이터의 중앙값(median)에 기초하여 계산되는 z 점수 및 상기 z 점수의 절대값의 최대값에 기초하여 산출되고,
상기 z 점수는,
상기 학습 데이터의 중앙값에 기초하여 계산되는 상기 학습 데이터의 MAD(Median Absolute Deviation)에 기초하여 산출되고,
상기 그라디언트 파라미터는,
미리 결정된 상수와 상기 최대값 중에서 큰 값에 기초하여 결정되고,
상기 이종 손실 함수는 수학식 1 내지 수학식 3에 기초하여 결정되고,
상기 수학식 1은,

이고,
상기 수학식 2는,

이고,
상기 수학식 3은,

이고,

는 학습 데이터를 나타내고,
는 학습 데이터의 평균, N은 학습 데이터의 개수, c는 제1 하이퍼 파라미터이고,
는 이상 점수를 나타내고,
는 z 점수이고,
최저 그라디언트 손실을 위한 파라미터를 의미하는, 이상 검출 방법
이종 손실 함수를 이용한 학습 방법에 있어서,
학습 데이터를 수신하는 단계; 및
상기 학습 데이터의 이상 점수에 기초하여 그라디언트 파라미터(gradient parameter)를 결정하는 단계;
상기 그라디언트 파라미터에 기초하여 이종 손실 함수(heterogeneous loss function)를 결정하는 단계; 및
상기 이종 손실 함수에 기초하여 인공 신경망을 학습시키는 단계
를 포함하고,
상기 그라디언트 파라미터는,
상기 학습 데이터의 중앙값(median)에 기초하여 계산되는 z 점수 및 상기 z 점수의 절대값의 최대값에 기초하여 산출되고,
상기 z 점수는,
상기 학습 데이터의 중앙값에 기초하여 계산되는 상기 학습 데이터의 MAD(Median Absolute Deviation)에 기초하여 산출되고,
상기 그라디언트 파라미터는,
미리 결정된 상수와 상기 최대값 중에서 큰 값에 기초하여 결정되고,
상기 이종 손실 함수는 수학식 1 내지 수학식 3에 기초하여 결정되고,
상기 수학식 1은,

이고,
상기 수학식 2는,

이고,
상기 수학식 3은,

이고,

는 학습 데이터를 나타내고,
는 학습 데이터의 평균, N은 학습 데이터의 개수, c는 제1 하이퍼 파라미터이고,
는 이상 점수를 나타내고,
는 z 점수이고,
최저 그라디언트 손실을 위한 파라미터를 의미하는 학습 방법.