KR20220073307A - 데이터 경계 도출 시스템 및 방법 - Google Patents

데이터 경계 도출 시스템 및 방법 Download PDF

Info

Publication number
KR20220073307A
KR20220073307A KR1020200161253A KR20200161253A KR20220073307A KR 20220073307 A KR20220073307 A KR 20220073307A KR 1020200161253 A KR1020200161253 A KR 1020200161253A KR 20200161253 A KR20200161253 A KR 20200161253A KR 20220073307 A KR20220073307 A KR 20220073307A
Authority
KR
South Korea
Prior art keywords
data
sample data
probability density
value
density function
Prior art date
Application number
KR1020200161253A
Other languages
English (en)
Other versions
KR102433598B1 (ko
Inventor
임대근
김민상
류홍규
Original Assignee
(주)심플랫폼
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)심플랫폼 filed Critical (주)심플랫폼
Priority to KR1020200161253A priority Critical patent/KR102433598B1/ko
Priority to PCT/KR2021/016842 priority patent/WO2022114653A1/ko
Publication of KR20220073307A publication Critical patent/KR20220073307A/ko
Application granted granted Critical
Publication of KR102433598B1 publication Critical patent/KR102433598B1/ko
Priority to US18/323,866 priority patent/US20230385699A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/005
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

본 발명은 경계 도출 시스템 및 방법에 관한 것으로, 복수의 특성 값을 가지는 복수의 샘플 데이터를 수신하는 샘플 데이터 수신부, 상기 복수의 샘플 데이터를 구분하여 복수의 클러스터를 생성하는 클러스터 생성부, 상기 생성된 복수의 클러스터 각각에 포함된 데이터의 특성 값을 기초로 확률밀도함수를 도출하는 확률밀도함수 도출부 및 상기 복수의 샘플 데이터 별로 각 샘플 데이터가 포함된 클러스터의 상기 확률밀도함수 값을 계산하고, 상기 계산된 값을 기초로 각 샘플 데이터를 라벨링하여 학습 데이터를 생성하는 학습 데이터 생성부를 포함하는 경계 도출 시스템과 그 동작 방법을 제공한다.

Description

데이터 경계 도출 시스템 및 방법 {A System and Method for Deriving Data Boundary}
본 발명은 데이터 경계 도출 시스템 및 방법에 관한 것으로, 라벨링이 되지 않은 샘플 데이터를 분석하여 정상 데이터의 경계를 도출하고, 도출된 경계를 기준으로 데이터를 라벨링하여 학습 데이터를 생성하는 시스템 및 방법에 관한 것이다.
인공지능 기술이 발달하면서 공정 또는 장비의 각종 정보를 센서로 모니터링하고 인공지능을 기반으로 이상상태를 감지하거나 이상상태를 예측할 수 있도록 하여 공정의 효율을 높이고 관리에 필요한 노력을 최소화할 수 있도록 하는 스마트 팩토리 기술이 활성화되고 있다.
종래기술인 한국 등록특허 제10-0570528호, "공정장비 모니터링 시스템 및 모델생성 방법"은 이처럼 인공지능을 이용하여 공정장비의 이상상태를 판별할 수 있도록 하는 시스템을 제시하고 있으며, 이와 같이 인공지능을 이용하여 공정을 관리하기 위해서는 각 공정에서 도출되는 데이터를 분석하여 학습을 통해 인공지능 모델을 수립해야 한다.
그러나, 이를 위해서는 각 공정 또는 장비의 데이터에 대해서 정상 상태에서의 데이터와 이상상태에서의 데이터를 구분하여 학습 데이터를 구비할 필요가 있는데, 이처럼 데이터를 상태에 따라 구분하는 것을 라벨링(labeling)이라고 한다. 하지만, 많은 경우에 장비가 동작 초기에 오류를 일으키는 경우가 많지 않고, 노후화되어 오류가 발생되는 상황 등에 대응하기 위해서는 그런 상황이 도래한 경우가 있어야 하기 때문에, 정상상태의 데이터가 아닌 이상상태의 데이터를 학습용으로 확보하는 데에 어려움이 있다.
따라서, 이상 상태의 데이터가 없이도, 정상 상태의 데이터의 경계를 도출하여, 데이터가 어떤 값을 가질 때 정상 상태이고 어떤 상태를 가질 때 이상 상태인지를 경계를 기반으로 분류할 수 있도록 경계 도출을 위한 학습 데이터를 준비할 수 있는 방법이 요구된다.
한국등록특허 제10-0570528호
본 발명은 이상 상태의 학습데이터가 없는 경우에도 샘플 데이터를 라벨링하여 이상 상태를 식별할 수 있는 인공지능 모델을 수립할 수 있는 학습 데이터를 생성하는 것을 목적으로 한다.
본 발명은 샘플 데이터의 특성 값을 기초로 별도의 라벨링 작업 없이도 라벨링이 완료된 학습 데이터를 생성할 수 있도록 하는 것을 목적으로 한다.
본 발명은 자동으로 라벨링된 학습 데이터를 생성하고, 이를 기초로 이상 상태를 감지할 수 있는 인공지능 모델을 학습시킬 수 있도록 하는 것을 목적으로 한다.
본 발명은 이상 상태의 학습데이터 수집 없이도 학습 데이터를 생성하여 이상 상태를 감지할 수 있도록 함으로써, 초기 설치 장비, 공정 등 학습 데이터 수집이 어려운 경우에도 바로 인공지능 기반 이상 상태 감지를 할 수 있도록 하는 것을 목적으로 한다.
이러한 목적을 달성하기 위하여 본 발명의 일실시예에 따른 데이터 경계 도출 시스템은 복수의 특성 값을 가지는 복수의 샘플 데이터를 수신하는 샘플 데이터 수신부, 상기 복수의 샘플 데이터를 구분하여 복수의 클러스터를 생성하는 클러스터 생성부, 상기 생성된 복수의 클러스터 각각에 포함된 데이터의 특성 값을 기초로 확률밀도함수를 도출하는 확률밀도함수 도출부 및 상기 복수의 샘플 데이터 별로 각 샘플 데이터가 포함된 클러스터의 상기 확률밀도함수 값을 계산하고, 상기 계산된 값을 기초로 각 샘플 데이터를 라벨링하여 학습 데이터를 생성하는 학습 데이터 생성부를 포함하여 구성될 수 있다.
이 때, 상기 확률밀도함수 도출부는 상기 복수의 클러스터 각각에 포함된 샘플 데이터의 특성 값 각각의 평균값 및 전체 특성 값에 대한 공분산 행렬을 도출하고, 상기 평균값 및 공분산 행렬을 이용하여 확률밀도함수를 도출할 수 있다.
또한, 상기 확률밀도함수 도출부는 아래의 [수식]에 의하여 상기 확률밀도함수를 도출할 수 있다.
[수식]
Figure pat00001
이 때,
x는 각 데이터의 n차원 특성 값 행렬
μ는 각 데이터의 속성별 평균 값의 n차원 행렬
Σ는 공분산 행렬임.
또한, 상기 샘플 데이터 수신부는 수신한 복수의 샘플 데이터에서 이상치를 판별하여 상기 판별된 이상치를 제거하고, 상기 클러스터 생성부는 상기 이상치가 제거된 샘플 데이터를 이용하여 클러스터를 생성할 수 있다.
또한, 상기 학습 데이터 생성부는 상기 샘플 데이터를 포함하는 영역을 설정하고, 상기 영역 내에서 일정한 간격을 가지는 점을 나타내는 데이터를 상기 제2 샘플 데이터로 선정하고, 상기 제2 샘플 데이터를 라벨링하여 학습 데이터를 생성할 수 있다.
또한, 상기 학습 데이터 생성부는 상기 각 데이터의 확률밀도함수 값 중 최대값의 정해진 비율의 값을 경계 값으로 설정하고, 상기 경계 값을 기준으로 상기 각 데이터를 라벨링할 수 있다.
본 발명은 이상 상태의 학습데이터가 없는 경우에도 샘플 데이터를 라벨링하여 이상 상태를 식별할 수 있는 인공지능 모델을 수립할 수 있는 학습 데이터를 생성할 수 있도록 한다.
본 발명은 샘플 데이터의 특성 값을 기초로 별도의 라벨링 작업 없이도 라벨링이 완료된 학습 데이터를 생성할 수 있는 효과가 있다.
본 발명은 자동으로 라벨링된 학습 데이터를 생성하고, 이를 기초로 이상 상태를 감지할 수 있는 인공지능 모델을 학습시킬 수 있는 효과가 있다.
본 발명은 이상 상태의 학습데이터 수집 없이도 학습 데이터를 생성하여 이상 상태를 감지할 수 있도록 함으로써, 초기 설치 장비, 공정 등 학습 데이터 수집이 어려운 경우에도 바로 인공지능 기반 이상 상태 감지를 할 수 있도록 하는 효과가 있다.
도 1은 본 발명의 일실시예에 따른 데이터 경계 도출 시스템의 내부 구성을 도시한 구성도이다.
도 2는 본 발명의 일실시예에 따른 데이터 경계 도출 시스템의 샘플 데이터에서 이상치를 도출하는 경우의 일례를 도시한 도면이다.
도 3은 본 발명의 일실시예에 따른 데이터 경계 도출 시스템에서 복수의 클러스터를 생성한 경우의 일례를 도시한 도면이다.
도 4는 본 발명의 일실시예에 따른 데이터 경계 도출 시스템에서 데이터 경계를 도출한 결과의 일례를 도시한 도면이다.
도 5는 본 발명의 일실시예에 따른 데이터 경계 도출 방법의 흐름을 도시한 흐름도이다.
이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략하기로 한다. 또한 본 발명의 실시예들을 설명함에 있어 구체적인 수치는 실시예에 불과하며 이에 의하여 발명의 범위가 제한되지 아니한다.
본 발명에 따른 데이터 경계 도출 시스템은 중앙처리장치(CPU) 및 메모리(Memory, 기억장치)를 구비하고 인터넷 등의 통신망을 통하여 다른 단말기와 연결 가능한 서버의 형태로 구성될 수 있다. 그러나 본 발명이 중앙처리장치 및 메모리 등의 구성에 의해 한정되지는 아니한다. 또한, 본 발명에 따른 데이터 경계 도출 시스템은 물리적으로 하나의 장치로 구성될 수도 있으며, 복수의 장치에 분산된 형태로 구현될 수도 있다.
도 1은 본 발명의 일실시예에 따른 데이터 경계 도출 시스템의 내부 구성을 도시한 구성도이다.
도면에 도시한 바와 같이, 본 발명의 일실시예에 따른 데이터 경계 도출 시스템(101)은 샘플 데이터 수신부(110), 클러스터 생성부(120), 확률밀도함수 도출부(130) 및 학습 데이터 생성부(140)를 포함하여 구성될 수 있다. 각각의 구성요소들은 물리적으로 동일한 컴퓨터 시스템 내에서 동작하는 소프트웨어 모듈일 수 있으며, 물리적으로 2개 이상으로 분리된 컴퓨터 시스템이 서로 연동하여 동작할 수 있도록 구성된 형태일 수 있는데, 동일한 기능을 포함하는 다양한 실시형태가 본 발명의 권리범위에 속한다.
샘플 데이터 수신부(110)는 복수의 특성 값을 가지는 복수의 샘플 데이터를 수신한다. 본 발명의 일실시예에 따른 데이터 경계 도출 시스템(101)은 상술한 바와 같이 이상 상태 등 다양한 상태를 나타내는 학습 데이터가 확보되지 않은 상태에서도 학습을 통해 인공지능 모델을 수립하여 활용할 수 있도록 하는 것을 목적으로 한다. 따라서, 샘플 데이터는 일반적인 인공지능 학습에서 쓰이는 이상 상태 등이 라벨링된 데이터가 아니라, 정상 상태에서만 도출되는 데이터이거나, 정상 상태의 데이터를 일부 가공한 데이터 또는 특정한 데이터 생성 방법에 의하여 생성된 데이터일 수 있다.
샘플 데이터 수신부(110)에서 수신되는 샘플 데이터는 복수의 특성 값을 가지는데, 예를 들어 특성 값이 온도 값 및 습도 값이라고 한다면 매초 단위로 수집되는 온도 값 및 습도 값이 각각의 특성 값이 될 수 있으며, 이를 행렬로 묶은 것이 샘플 데이터 하나가 될 수 있다. 이와 같은 특성 값은 공정 장비 등을 모니터링 하는 경우 매우 다양하게 포함될 수 있는데, 특성 값의 종류가 n개라고 한다면, n*1의 행렬이 샘플 데이터 하나를 구성하도록 할 수 있다.
이와 같은 샘플 데이터는 공정, 장비에서 센서 등을 통해 직접 수집되는 데이터일 수 있으며, 정상 상태의 데이터만으로 구성되거나 이상 상태의 정보를 포함하도록 구성될 수도 있고, 경우에 따라서는 가상의 시뮬레이션 등의 결과를 통해 도출되는 가상의 데이터가 샘플 데이터로 활용될 수도 있다.
샘플 데이터 수신부(110)에서 수신되는 샘플 데이터를 기초로 해당 샘플 데이터들의 분포를 통해 샘플 데이터들의 경계선을 도출할 수 있으며, 이와 같은 경계선을 중심으로 데이터를 라벨링하게 되면 라벨링된 학습 데이터가 생성될 수 있으며, 이를 기초로 학습을 통해 이상 상태를 감지할 수 있는 인공지능 모델을 수립할 수 있다.
또한, 샘플 데이터 수신부(110)는 수신한 복수의 샘플 데이터에서 이상치를 판별하여 상기 판별된 이상치를 제거할 수 있다. 수신되는 샘플 데이터 중에서 센서 오류 등의 이유로 다른 데이터들과 연관관계가 낮고 분석에 도움이 되지 않는 데이터를 제거할 수 있다.
샘플 데이터 수신부(110)는 이와 같이 이상치 데이터를 제거하기 위하여, 로컬 아웃라이어 팩터(LOF; Local Outlier Factor)를 이용할 수 있는데, 로컬 아웃라이어 팩터는 근처에 있는 데이터들의 밀도까지 고려하여 밀집된 데이터로부터 떨어져 있는 데이터를 아웃라이어로 판별할 수 있도록 하는 방법론이다. 이를 위해서는 각 인접 이웃들 사이의 거리를 구하고, 정해진 개수만큼의 인접한 이웃과의 거리를 이용하여 밀도를 계산하여 이를 기초로 이상치를 판단할 수 있다. 샘플 데이터 수신부(110)에서 이상치가 제거된 데이터들에 대해서는 유효한 데이터로 판단하여, 해당 데이터들의 경계를 도출함으로써, 각 데이터들을 라벨링하는 효과를 얻을 수 있다.
클러스터 생성부(120)는 상기 복수의 샘플 데이터를 구분하여 복수의 클러스터를 생성한다. 본 발명에서는 확률밀도함수(PDF; Probability Density Function)를 이용하여 샘플 데이터들의 경계를 도출하게 되는데, 이 때, 전체 데이터가 몇 개의 클러스터로 구분되게 되면, 하나의 기준으로 확률밀도함수를 구할 경우 정확한 경계선을 도출해 내기 어렵다.
따라서, 클러스터 생성부(120)는 전체 샘플 데이터가 복수 개의 클러스터로 묶일 수 있는 경우에 이를 복수의 클러스터로 묶고 각각의 클러스터별 확률밀도함수 값을 통하여 전체 데이터의 경계선을 도출할 수 있다.
클러스터 생성부(120)에서 클러스터를 생성하기 위하여, K-Means, GMM 등의 알고리즘을 활용할 수 있는데, 데이터의 특성을 분석하여 관련성 높은 데이터끼리의 클러스터를 구성하기 위하여 다양한 방법을 적용할 수 있다.
이처럼 클러스터를 생성하기 위하여, 클러스터 생성부(120)는 상기 이상치가 제거된 샘플 데이터를 이용하여 클러스터를 생성할 수 있는데, 이처럼 이상치가 제거된 데이터를 활용해야 보다 정확한 정상상태의 데이터를 이용하여 학습을 진행하도록 할 수 있다.
확률밀도함수 도출부(130)는 상기 생성된 복수의 클러스터 각각에 포함된 데이터의 특성 값을 기초로 확률밀도함수를 도출한다. 확률밀도함수(PDF; Probability Density Function)는 확률 변수의 분포를 나타내는 함수로, 확률밀도함수는 범위 구간 내의 결과가 도출될 확률을 나타내는 것이다.
상술한 바와 같이 샘플 데이터에 포함된 특성 값들은 다차원의 데이터일 수 있고, 이는 행렬로 구성될 수 있으며, 각각의 특성 값 행렬을 가지는 샘플 데이터들을 분석하여 해당 클러스터에 포함된 데이터들에 대한 확률밀도함수를 구할 수 있다.
확률밀도함수 도출부(130)는 상기 복수의 클러스터 각각에 포함된 샘플 데이터의 특성 값 각각의 평균값 및 전체 특성 값에 대한 공분산 행렬을 도출하고, 상기 평균값 및 공분산 행렬을 이용하여 확률밀도함수를 도출할 수 있다. 또한, 도출되는 전체 공분산을 적절히 축소함으로써, 보다 정확한 결과를 얻을 수 있도록 할 수 있는데, 이를 위해서, 각 클러스터 내에서 데이터들 사이의 거리의 최소 값의 평균과 표준편차를 이용하여, 공분산을 축소시킬 수 있다. 이처럼 축소되어 도출된 공분산을 이용하여 확률밀도함수를 구하게 된다.
확률밀도함수 도출부(130)에서 공분산을 축소시키기 위하여 이용하는 데이터들 사이의 거리 정보는 유클리드 거리를 이용하는 것이 아니라, 마할라노비스 거리(Mahalanobis Distance)를 이용할 수 있는데, 마할라노비스 거리는 어떤 집단 안의 점에서 계산된 표준편차를 기준으로 유클리드 거리를 (보정한 거리를 나타내며, (변랑-평균)의 전치행렬) * (공분산의 역행렬) X* (변량-평균 행렬), (이 때, *는 행렬곱을 나타냄)와 같은 형태로 계산될 수 있다.
이와 같은 방법을 적용하여, 상기 확률밀도함수 도출부는 아래의 [수식]에 의하여 상기 확률밀도함수를 도출할 수 있다.
[수식]
Figure pat00002
이 때,
x는 각 데이터의 n차원 특성 값 행렬
μ는 각 데이터의 속성별 평균 값의 n차원 행렬
Σ는 공분산 행렬임.
이와 같이 클러스터 내의 데이터의 특성 값의 평균 값 행렬과 데이터 공분산 행렬을 이용하여 확률밀도함수를 구하게 되면, 각 데이터의 n차원 특성 값 행렬에 해당하는 x를 입력하는 것으로 확률밀도함수 값을 계산할 수 있게 된다.
학습 데이터 생성부(140)는 상기 복수의 샘플 데이터 별로 각 샘플 데이터가 포함된 클러스터의 상기 확률밀도함수 값을 계산하고, 상기 계산된 값을 기초로 제2 샘플 데이터를 라벨링하여 학습 데이터를 생성한다. 각 샘플 데이터가 포함된 클러스터의 확률 밀도함수 값에 샘플 데이터를 입력하게 되면 각 샘플 데이터별 확률밀도함수 값이 도출되게 되는데, 이 값에 대해 기준값을 설정하게 되면 각각의 값들을 구분할 수 있게 된다.
이를 통하여 기준값을 중심으로 경계를 결정하고, 각각의 데이터가 경계 안에 들어오는지 밖에 속하는지를 판별할 수가 있다. 따라서, 학습 데이터 생성부(140)는 데이터별로 경계 안/밖의 여부를 기준으로 라벨링(Labeling)을 수행하고, 그 결과를 학습 데이터로 활용하도록 할 수 있다.
학습 데이터 생성부(140)에서 라벨링을 할 때는 샘플 데이터가 존재하는 영역을 n차원 공간상에서 설정하고, 상기 설정된 영역에 일정한 간격의 격자(Grid) 점을 형성한 후, 각 격자 점들을 나타내는 데이터를 제2 샘플 데이터로 생성하고, 생성된 상기 제2 샘플 데이터 대한 라벨링을 함께 진행하도록 할 수 있다. 샘플 데이터는 정상 상태에서 수집되는 데이터들이기 때문에, 샘플 데이터만 입력하게 되면 이상 상태에 대한 라벨링이 어려울 수 있는데, 샘플 데이터가 존재하는 영역의 격자점들을 나타내는 제2 샘플 데이터를 모두 라벨링하게 되면, 정상 및 이상 상태로 적절히 라벨링된 학습 데이터를 생성할 수 있다.
초기 샘플 데이터를 기초로 확률밀도함수가 결정되었기 때문에, 이후로 수집되거나 생성되는 데이터를 그 기준으로 라벨링하여 학습 데이터를 폭넓게 보강하는 것이 가능해진다.
학습 데이터 생성부(140)는 상기 각 데이터의 확률밀도함수 값 중 최대값의 정해진 비율의 값을 경계 값으로 설정하고, 상기 경계 값을 기준으로 상기 각 데이터를 라벨링할 수 있다. 상기 경계 값은 확률밀도함수의 최대 값(Peak)의 약 0.6065306597126334배로 결정될 수 있는데, 이는 정규분포에서 평균으로부터 1시그마(표준편차)만큼 떨어졌을 때의 확률값이 될 수 있다. 이와 같이 기준을 정하게 되면, 각 데이터의 특성 값의 개수만큼의 차원 공간 상에서 어떤 점에 데이터가 매핑되더라도 그 점이 경계 안쪽인지 바깥인지 구분할 수 있게 되므로, 데이터의 라벨링이 용이해지고, 학습데이터를 손쉽게 생성할 수 있다. 이 때, 확률밀도함수를 구하는데 사용되는 공분산을 조절하여 확률밀도함수의 분포를 조절함으로써, 경계의 정밀도(Sharpness)를 조절할 수 있게 된다.
이 때, 학습 데이터 생성부(140)에서 확률밀도함수를 적용할 때에는 하나의 점에 대해서 복수의 클러스터 각각의 확률밀도함수를 적용하고, 그 복수의 확률밀도함수 값의 합계를 기준으로 경계 내부 및 외부를 판단할 수 있다.
이와 같이 라벨링된 학습 데이터가 준비되면, 이를 기반으로 다양한 방법을 이용해 분류(Classification) 학습을 진행할 수 있으며, 학습을 통해서 도출된 인공지능 모델을 이용하여 최종 경계가 설정되도록 할 수 있다. 이 이후에는 실시간으로 수집되는 데이터에 대해 인공지능 모델의 분류를 통해 이상 여부 등을 판단할 수 있게 된다. 입력되는 데이터의 확률밀도함수를 계산하여 분류하는 것에 비해 이처럼 생성된 학습 데이터를 이용하여 학습된 인공지능 모델을 활용하면 더욱 빠르게 실시간 분석이 가능하게 될 수 있다.
도 2는 본 발명의 일실시예에 따른 데이터 경계 도출 시스템의 샘플 데이터에서 이상치를 도출하는 경우의 일례를 도시한 도면이다.
도면에 도시한 것처럼 샘플 데이터가 수신되면, 이 데이터 중 일부 데이터는 센서의 오류나 순간적인 여러 문제로 인해 잘못된 데이터가 입력될 수도 있다, 이와 같이 잘못된 데이터들이 포함되어 클러스터 생성 및 확률밀도함수 생성을 하게 되면, 정확한 경계값을 도출해 내기 어렵다.
따라서, 본 발명에서는 수신된 샘플 데이터에서 이상치를 제거하는데, 이상치를 제거하기 위해서는 로컬 아웃라이어 팩터를 이용할 수 있다. 로컬 아웃라이어 팩터는 앞서 설명한 것처럼, 이웃 점들의 밀도를 이상치를 판단하는 방법으로, 도면에서 빨간 점들이 로컬 아웃라이어 팩터를 이용하여 이상치로 도출된 점들이며, 검은 색의 점들은 이상치가 아닌 것으로 판단된 점들이다.
이와 같이 초기에 이상치 데이터를 제거하고 분석을 수행함으로써, 분석 정확도를 높일 수 있다.
도 3은 본 발명의 일실시예에 따른 데이터 경계 도출 시스템에서 복수의 클러스터를 생성한 경우의 일례를 도시한 도면이다.
앞서 도 2의 예시에서 검은 색으로 표시된 점들의 분포를 분석하여 경계선을 추출해야 하는데, 그림에 도시된 것처럼, 눈으로 보더라도 위쪽의 가로로 넓은 분포를 가지는 부분과 아래 쪽에 세로로 넓은 분포를 가지는 부분으로 데이터의 특성이 나뉘어지는 것을 볼 수 있다. 이를 하나로 묶어서 특성을 분석하게 된다면, 정확한 경계선을 측정하기 어렵게 되고, 정확한 분석이 어렵게 된다.
따라서, 본 발명에서는 데이터가 특성에 따라서 여러 개의 부분으로 나뉘어질 수 있는 경우 이를 복수의 클러스터로 구분하여 각각에 대해 확률밀도함수를 구함으로써, 보다 정확한 경계 구분이 가능하도록 한다.
도면의 예에서 K-means 또는 GMM 등의 클러스터링 알고리즘을 적용하게 되면, 도면의 우측에 나타난 것처럼 위쪽의 가로로 넓은 부분과 아래 쪽의 세로로 넓은 부분이 구분되게 된다. 도면에 보는 것처럼, 클러스터링 알고리즘에 따라서 일부 데이터가 속하는 클러스터가 바뀔 수는 있지만, 전반적인 분포는 유지될 수 있어, 특정한 클러스터링 알고리즘에 의해 제약을 받지는 않는다.
이처럼 데이터의 클러스터링이 이루어지면, 각 클러스터별로 확률밀도함수를 구할 수 있고, 이를 통해 생성되는 경계선을 통해 전체 데이터에 대한 경계를 도출할 수 있게 된다.
도면에서는 각 데이터가 2개의 특성 값을 가지는 2차원 행렬 데이터인 경우로 예시를 나타내고 있는데(Ex. 온도 및 습도), 실제로 매우 큰 차원의 데이터(다양한 특성 값을 가지는 데이터)로 분석되는 경우가 많으며, 그 경우에는 다차원 상에서의 클러스터링이 이루어질 수 있으며, 이 클러스터링 결과 등을 확인하기 위해서, PCA 등의 차원감소 방법을 적용하여 시각화 가능한 차원에서 이를 확인하도록 할 수 있다.
도 4는 본 발명의 일실시예에 따른 데이터 경계 도출 시스템에서 데이터 경계를 도출한 결과의 일례를 도시한 도면이다.
도면에 도시한 것처럼, 본 발명의 데이터 경계 도출 시스템을 통해 각 데이터들에 대해서 확률밀도함수 값을 구하게 되면, 확률밀도함수 값의 경계를 중심으로 데이터의 경계선이 도출되게 된다. 도면에서 빨간 점은 이상치로 도출된 점들을 나타내며, 위쪽 클러스터의 경계선은 보라색 실선, 아래쪽 군집의 경계선은 노란색 실선으로 나타나 있는데, 이를 통해 데이터들을 묶는 경계선을 도출함으로써, 이 경계선의 내/외부인지 여부에 대한 판단을 통해 여러 데이터들을 라벨링하여 학습 데이터를 생성할 수 있다.
도 5는 본 발명의 일실시예에 따른 데이터 경계 도출 방법의 흐름을 도시한 흐름도이다.
본 발명에 따른 데이터 경계 도출 방법은 중앙처리장치 및 메모리를 구비하는 데이터 경계 도출 시스템에서 데이터 경계를 도출하는 방법으로, 이와 같은 컴퓨팅 시스템에서 구동될 수 있다.
따라서, 데이터 경계 도출 방법은 상술한 데이터 경계 도출 시스템에 대하여 설명된 특징적인 구성을 모두 포함하고 있으며, 아래의 설명에서 설명되지 않은 내용도 상술한 데이터 경계 도출 시스템에 대한 설명을 참조하여 구현할 수 있다.
샘플 데이터 수신 단계(S501)는 복수의 특성 값을 가지는 복수의 샘플 데이터를 수신한다. 본 발명의 일실시예에 따른 데이터 경계 도출 방법은 상술한 바와 같이 이상 상태 등 다양한 상태를 나타내는 학습 데이터가 확보되지 않은 상태에서도 학습을 통해 인공지능 모델을 수립하여 활용할 수 있도록 하는 것을 목적으로 한다. 따라서, 샘플 데이터는 일반적인 인공지능 학습에서 쓰이는 이상 상태 등이 라벨링된 데이터가 아니라, 정상 상태에서만 도출되는 데이터이거나, 정상 상태의 데이터를 일부 가공한 데이터 또는 특정한 데이터 생성 방법에 의하여 생성된 데이터일 수 있다.
샘플 데이터 수신 단계(S501)에서 수신되는 샘플 데이터는 복수의 특성 값을 가지는데, 예를 들어 특성 값이 온도 값 및 습도 값이라고 한다면 매초 단위로 수집되는 온도 값 및 습도 값이 각각의 특성 값이 될 수 있으며, 이를 행렬로 묶은 것이 샘플 데이터 하나가 될 수 있다. 이와 같은 특성 값은 공정 장비 등을 모니터링 하는 경우 매우 다양하게 포함될 수 있는데, 특성 값의 종류가 n개라고 한다면, n*1의 행렬이 샘플 데이터 하나를 구성하도록 할 수 있다.
샘플 데이터 수신 단계(S501)에서 수신되는 샘플 데이터를 기초로 해당 샘플 데이터들의 분포를 통해 샘플 데이터들의 경계선을 도출할 수 있으며, 이와 같은 경계선을 중심으로 데이터를 라벨링하게 되면 라벨링된 학습 데이터가 생성될 수 있으며, 이를 기초로 학습을 통해 이상 상태를 감지할 수 있는 인공지능 모델을 수립할 수 있다.
또한, 샘플 데이터 수신 단계(S501)는 수신한 복수의 샘플 데이터에서 이상치를 판별하여 상기 판별된 이상치를 제거할 수 있다. 수신되는 샘플 데이터 중에서 센서 오류 등의 이유로 다른 데이터들과 연관관계가 낮고 분석에 도움이 되지 않는 데이터를 제거할 수 있다.
클러스터 생성 단계(S502)는 상기 복수의 샘플 데이터를 구분하여 복수의 클러스터를 생성한다. 본 발명에서는 확률밀도함수(PDF; Probability Density Function)를 이용하여 샘플 데이터들의 경계를 도출하게 되는데, 이 때, 전체 데이터가 몇 개의 클러스터로 구분되게 되면, 하나의 기준으로 확률밀도함수를 구할 경우 정확한 경계선을 도출해 내기 어렵다.
따라서, 클러스터 생성 단계(S502)는 전체 샘플 데이터가 복수 개의 클러스터로 묶일 수 있는 경우에 이를 복수의 클러스터로 묶고 각각의 클러스터별 확률밀도함수 값을 통하여 전체 데이터의 경계선을 도출할 수 있다.
클러스터 생성 단계(S502)에서 클러스터를 생성하기 위하여, K-Means, GMM 등의 알고리즘을 활용할 수 있는데, 데이터의 특성을 분석하여 관련성 높은 데이터끼리의 클러스터를 구성하기 위하여 다양한 방법을 적용할 수 있다.
이처럼 클러스터를 생성하기 위하여, 클러스터 생성 단계(S502)는 상기 이상치가 제거된 샘플 데이터를 이용하여 클러스터를 생성할 수 있는데, 이처럼 이상치가 제거된 데이터를 활용해야 보다 정확한 정상상태의 데이터를 이용하여 학습을 진행하도록 할 수 있다.
확률밀도함수 도출 단계(S503)는 상기 생성된 복수의 클러스터 각각에 포함된 데이터의 특성 값을 기초로 확률밀도함수를 도출한다. 확률밀도함수(PDF; Probability Density Function)는 확률 변수의 분포를 나타내는 함수로, 확률밀도함수는 범위 구간 내의 결과가 도출될 확률을 나타내는 것이다.
상술한 바와 같이 샘플 데이터에 포함된 특성 값들은 다차원의 데이터일 수 있고, 이는 행렬로 구성될 수 있으며, 각각의 특성 값 행렬을 가지는 샘플 데이터들을 분석하여 해당 클러스터에 포함된 데이터들에 대한 확률밀도함수를 구할 수 있다.
확률밀도함수 도출 단계(S503)는 상기 복수의 클러스터 각각에 포함된 샘플 데이터의 특성 값 각각의 평균값 및 전체 특성 값에 대한 공분산 행렬을 도출하고, 상기 평균값 및 공분산 행렬을 이용하여 확률밀도함수를 도출할 수 있다. 또한, 도출되는 전체 공분산을 적절히 축소함으로써, 보다 정확한 결과를 얻을 수 있도록 할 수 있는데, 이를 위해서, 각 클러스터 내에서 데이터들 사이의 거리의 최소 값의 평균과 표준편차를 이용하여, 공분산을 축소시킬 수 있다. 이처럼 축소되어 도출된 공분산을 이용하여 확률밀도함수를 구하게 된다.
확률밀도함수 도출 단계(S503)에서 공분산을 축소시키기 위하여 이용하는 데이터들 사이의 거리 정보는 유클리드 거리를 이용하는 것이 아니라, 마할라노비스 거리(Mahalanobis Distance)를 이용할 수 있는데, 마할라노비스 거리는 어떤 집단 안의 점에서 계산된 표준편차를 기준으로 유클리드 거리를 (보정한 거리를 나타내며, (변랑-평균)의 전치행렬) * (공분산의 역행렬) X* (변량-평균 행렬), (이 때, *는 행렬곱을 나타냄)와 같은 형태로 계산될 수 있다.
이와 같은 방법을 적용하여, 상기 확률밀도함수 도출부는 아래의 [수식]에 의하여 상기 확률밀도함수를 도출할 수 있다.
[수식]
Figure pat00003
이 때,
p는 데이터 하나에 포함되는 특성 값의 개수
x는 각 데이터의 n차원 특성 값 행렬
μ는 각 데이터의 속성별 평균 값의 n차원 행렬
Σ는 공분산 행렬임.
이와 같이 클러스터 내의 데이터의 특성 값의 평균 값 행렬과 데이터 공분산 행렬을 이용하여 확률밀도함수를 구하게 되면, 각 데이터의 n차원 특성 값 행렬에 해당하는 x를 입력하는 것으로 확률밀도함수 값을 계산할 수 있게 된다.
학습 데이터 생성 단계(S504)는 상기 복수의 샘플 데이터 별로 각 샘플 데이터가 포함된 클러스터의 상기 확률밀도함수 값을 계산하고, 상기 계산된 값을 기초로 각 샘플 데이터를 라벨링하여 학습 데이터를 생성한다. 각 샘플 데이터가 포함된 클러스터의 확률 밀도함수 값에 샘플 데이터를 입력하게 되면 각 샘플 데이터별 확률밀도함수 값이 도출되게 되는데, 이 값에 대해 기준값을 설정하게 되면 각각의 값들을 구분할 수 있게 된다.
이를 통하여 기준값을 중심으로 경계를 결정하고, 각각의 데이터가 경계 안에 들어오는지 밖에 속하는지를 판별할 수가 있다. 따라서, 학습 데이터 생성부(140)는 데이터별로 경계 안/밖의 여부를 기준으로 라벨링(Labeling)을 수행하고, 그 결과를 학습 데이터로 활용하도록 할 수 있다.
학습 데이터 생성 단계(S504)에서 라벨링을 할 때는 샘플 데이터가 존재하는 영역을 n차원 공간상에서 설정하고, 상기 설정된 영역에 일정한 간격의 격자(Grid) 점을 형성한 후, 각 격자 점들을 나타내는 데이터를 제2 샘플 데이터로 생성하고, 생성된 상기 제2 샘플 데이터 대한 라벨링을 함께 진행하도록 할 수 있다. 샘플 데이터는 정상 상태에서 수집되는 데이터들이기 때문에, 샘플 데이터만 입력하게 되면 이상 상태에 대한 라벨링이 어려울 수 있는데, 샘플 데이터가 존재하는 영역의 격자점들을 나타내는 제2 샘플 데이터를 모두 라벨링하게 되면, 정상 및 이상 상태로 적절히 라벨링된 학습 데이터를 생성할 수 있다.
학습 데이터 생성 단계(S504)는 상기 각 데이터의 확률밀도함수 값 중 최대값의 정해진 비율의 값을 경계 값으로 설정하고, 상기 경계 값을 기준으로 상기 각 데이터를 라벨링할 수 있다. 상기 경계 값은 확률밀도함수의 최대 값(Peak)의 약 0.6065306597126334배로 결정될 수 있는데, 이는 정규분포에서 평균으로부터 1시그마(표준편차)만큼 떨어졌을 때의 확률값이 될 수 있다. 이와 같이 기준을 정하게 되면, 각 데이터의 특성 값의 개수만큼의 차원 공간 상에서 어떤 점에 데이터가 매핑되더라도 그 점이 경계 안쪽인지 바깥인지 구분할 수 있게 되므로, 데이터의 라벨링이 용이해지고, 학습데이터를 손쉽게 생성할 수 있다. 이 때, 확률밀도함수를 구하는데 사용되는 공분산을 조절하여 확률밀도함수의 분포를 조절함으로써, 경계의 정밀도(Sharpness)를 조절할 수 있게 된다.
이 때, 학습 데이터 생성부(140)에서 확률밀도함수를 적용할 때에는 하나의 점에 대해서 복수의 클러스터 각각의 확률밀도함수를 적용하고, 그 복수의 확률밀도함수 값의 합계를 기준으로 경계 내부 및 외부를 판단할 수 있다.
본 발명에 따른 데이터 경계 도출 방법은 컴퓨터가 실행하도록 기능시키기 위한 프로그램으로 제작되어 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다.
컴퓨터로 읽을 수 있는 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CDROM, DVD 와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.
프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있다.
101: 데이터 경계 도출 시스템
110: 샘플 데이터 수신부 120: 클러스터 생성부
130: 확률밀도함수 도출부 140: 학습 데이터 생성부

Claims (13)

  1. 복수의 특성 값을 가지는 복수의 샘플 데이터를 수신하는 샘플 데이터 수신부;
    상기 복수의 샘플 데이터를 구분하여 복수의 클러스터를 생성하는 클러스터 생성부;
    상기 생성된 복수의 클러스터 각각에 포함된 데이터의 특성 값을 기초로 확률밀도함수를 도출하는 확률밀도함수 도출부; 및
    상기 복수의 샘플 데이터 별로 각 샘플 데이터가 포함된 클러스터의 상기 확률밀도함수 값을 계산하고, 상기 계산된 값을 기초로 제2 샘플 데이터를 라벨링하여 학습 데이터를 생성하는 학습 데이터 생성부
    를 포함하는 데이터 경계 도출 시스템.
  2. 제1항에 있어서,
    상기 확률밀도함수 도출부는
    상기 복수의 클러스터 각각에 포함된 샘플 데이터의 특성 값 각각의 평균값 및 전체 특성 값에 대한 공분산 행렬을 도출하고,
    상기 평균값 및 공분산 행렬을 이용하여 확률밀도함수를 도출하는 것
    을 특징으로 하는 데이터 경계 도출 시스템.
  3. 제2항에 있어서,
    상기 확률밀도함수 도출부는
    아래의 [수식]에 의하여 상기 확률밀도함수를 도출하는 것
    을 특징으로 하는 데이터 경계 도출 시스템.
    [수식]
    Figure pat00004

    이 때,
    x는 각 데이터의 n차원 특성 값 행렬
    μ는 각 데이터의 속성별 평균 값의 n차원 행렬
    Σ는 공분산 행렬임.
  4. 제1항에 있어서,
    상기 샘플 데이터 수신부는
    수신한 복수의 샘플 데이터에서 이상치를 판별하여 상기 판별된 이상치를 제거하고,
    상기 클러스터 생성부는
    상기 이상치가 제거된 샘플 데이터를 이용하여 클러스터를 생성하는 것
    을 특징으로 하는 경계 도출 시스템.
  5. 제1항에 있어서,
    상기 학습 데이터 생성부는
    상기 샘플 데이터를 포함하는 영역을 설정하고, 상기 영역 내에서 일정한 간격을 가지는 점을 나타내는 데이터를 상기 제2 샘플 데이터로 선정하고,
    상기 제2 샘플 데이터를 라벨링하여 학습 데이터를 생성하는 것
    을 특징으로 하는 경계 도출 시스템.
  6. 제1항에 있어서,
    상기 학습 데이터 생성부는
    상기 제2 샘플 데이터 각각의 확률밀도함수 값 중 최대값의 정해진 비율의 값을 경계 값으로 설정하고,
    상기 경계 값을 기준으로 상기 각 데이터를 라벨링하는 것
    을 특징으로 하는 경계 도출 시스템.
  7. 중앙처리장치 및 메모리를 구비하는 경계 도출 시스템에서 동작하는 경계 도출 방법에 있어서,
    복수의 특성 값을 가지는 복수의 샘플 데이터를 수신하는 샘플 데이터 수신 단계;
    상기 복수의 샘플 데이터를 구분하여 복수의 클러스터를 생성하는 클러스터 생성 단계;
    상기 생성된 복수의 클러스터 각각에 포함된 데이터의 특성 값을 기초로 확률밀도함수를 도출하는 확률밀도함수 도출 단계; 및
    상기 복수의 샘플 데이터 별로 각 샘플 데이터가 포함된 클러스터의 상기 확률밀도함수 값을 계산하고, 상기 계산된 값을 기초로 각 샘플 데이터를 라벨링하여 학습 데이터를 생성하는 학습 데이터 생성 단계
    를 포함하는 데이터 경계 도출 방법.
  8. 제7항에 있어서,
    상기 확률밀도함수 도출 단계는
    상기 복수의 클러스터 각각에 포함된 샘플 데이터의 특성 값 각각의 평균값 및 전체 특성 값에 대한 공분산 행렬을 도출하고,
    상기 평균값 및 공분산 행렬을 이용하여 확률밀도함수를 도출하는 것
    을 특징으로 하는 데이터 경계 도출 방법.
  9. 제8항에 있어서,
    상기 확률밀도함수 도출 단계는
    아래의 [수식]에 의하여 상기 확률밀도함수를 도출하는 것
    을 특징으로 하는 데이터 경계 도출 방법.
    [수식]
    Figure pat00005

    이 때,
    x는 각 데이터의 n차원 특성 값 행렬
    μ는 각 데이터의 속성별 평균 값의 n차원 행렬
    Σ는 공분산 행렬임.
  10. 제7항에 있어서,
    상기 샘플 데이터 수신 단계는
    수신한 복수의 샘플 데이터에서 이상치를 판별하여 상기 판별된 이상치를 제거하고,
    상기 클러스터 생성 단계는
    상기 이상치가 제거된 샘플 데이터를 이용하여 클러스터를 생성하는 것
    을 특징으로 하는 경계 도출 방법.
  11. 제7항에 있어서,
    상기 학습 데이터 생성 단계는
    상기 샘플 데이터를 포함하는 영역을 설정하고, 상기 영역 내에서 일정한 간격을 가지는 점을 나타내는 데이터를 상기 제2 샘플 데이터로 선정하고,
    상기 제2 샘플 데이터를 라벨링하여 학습 데이터를 생성하는 것
    을 특징으로 하는 경계 도출 방법.
  12. 제7항에 있어서,
    상기 학습 데이터 생성 단계는
    상기 제2 샘플 데이터 각각의 확률밀도함수 값 중 최대값의 정해진 비율의 값을 경계 값으로 설정하고,
    상기 경계 값을 기준으로 상기 각 데이터를 라벨링하는 것
    을 특징으로 하는 경계 도출 방법.
  13. 제7항 내지 제12항 중 어느 한 항의 방법을 컴퓨터가 실행하도록 기능시키기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체.
KR1020200161253A 2020-11-26 2020-11-26 데이터 경계 도출 시스템 및 방법 KR102433598B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020200161253A KR102433598B1 (ko) 2020-11-26 2020-11-26 데이터 경계 도출 시스템 및 방법
PCT/KR2021/016842 WO2022114653A1 (ko) 2020-11-26 2021-11-17 데이터 경계 도출 시스템 및 방법
US18/323,866 US20230385699A1 (en) 2020-11-26 2023-05-25 Data boundary deriving system and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200161253A KR102433598B1 (ko) 2020-11-26 2020-11-26 데이터 경계 도출 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20220073307A true KR20220073307A (ko) 2022-06-03
KR102433598B1 KR102433598B1 (ko) 2022-08-18

Family

ID=81756117

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200161253A KR102433598B1 (ko) 2020-11-26 2020-11-26 데이터 경계 도출 시스템 및 방법

Country Status (3)

Country Link
US (1) US20230385699A1 (ko)
KR (1) KR102433598B1 (ko)
WO (1) WO2022114653A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240062013A (ko) 2022-11-01 2024-05-08 주식회사 케이티 학습데이터 구축 지원방법 및 그 장치

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116400249A (zh) * 2023-06-08 2023-07-07 中国华能集团清洁能源技术研究院有限公司 储能电池的检测方法及装置
CN118017504A (zh) * 2024-04-08 2024-05-10 菱亚能源科技(深圳)股份有限公司 一种变电站可调gis方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001229362A (ja) * 2000-02-17 2001-08-24 Nippon Telegr & Teleph Corp <Ntt> 情報クラスタリング装置および情報クラスタリングプログラムを記録した記録媒体
KR100570528B1 (ko) 2004-06-01 2006-04-13 삼성전자주식회사 공정장비 모니터링 시스템 및 모델생성방법
KR101768438B1 (ko) * 2013-10-30 2017-08-16 삼성에스디에스 주식회사 데이터 분류 장치 및 방법과 이를 이용한 데이터 수집 시스템
KR20190004429A (ko) * 2017-07-04 2019-01-14 주식회사 알고리고 신경망 모델에서 입력값에 대한 재학습 여부 결정 방법 및 장치
JP2019101982A (ja) * 2017-12-07 2019-06-24 日本電信電話株式会社 学習装置、検知システム、学習方法及び学習プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4670662B2 (ja) * 2006-01-26 2011-04-13 パナソニック電工株式会社 異常検出装置
KR101909094B1 (ko) * 2017-02-10 2018-10-17 강원대학교 산학협력단 관계 추출 학습 데이터 생성 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001229362A (ja) * 2000-02-17 2001-08-24 Nippon Telegr & Teleph Corp <Ntt> 情報クラスタリング装置および情報クラスタリングプログラムを記録した記録媒体
KR100570528B1 (ko) 2004-06-01 2006-04-13 삼성전자주식회사 공정장비 모니터링 시스템 및 모델생성방법
KR101768438B1 (ko) * 2013-10-30 2017-08-16 삼성에스디에스 주식회사 데이터 분류 장치 및 방법과 이를 이용한 데이터 수집 시스템
KR20190004429A (ko) * 2017-07-04 2019-01-14 주식회사 알고리고 신경망 모델에서 입력값에 대한 재학습 여부 결정 방법 및 장치
JP2019101982A (ja) * 2017-12-07 2019-06-24 日本電信電話株式会社 学習装置、検知システム、学習方法及び学習プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240062013A (ko) 2022-11-01 2024-05-08 주식회사 케이티 학습데이터 구축 지원방법 및 그 장치

Also Published As

Publication number Publication date
WO2022114653A1 (ko) 2022-06-02
KR102433598B1 (ko) 2022-08-18
US20230385699A1 (en) 2023-11-30

Similar Documents

Publication Publication Date Title
KR102433598B1 (ko) 데이터 경계 도출 시스템 및 방법
US7533070B2 (en) Automatic fault classification for model-based process monitoring
CN110505179B (zh) 一种网络异常流量的检测方法及系统
US10706229B2 (en) Content aware heterogeneous log pattern comparative analysis engine
US20140046878A1 (en) Method and system for detecting sound events in a given environment
US7716152B2 (en) Use of sequential nearest neighbor clustering for instance selection in machine condition monitoring
JP6828807B2 (ja) データ解析装置、データ解析方法およびデータ解析プログラム
CN111325260B (zh) 数据处理方法及装置、电子设备、计算机可读介质
US11494690B2 (en) Apparatus and method of high dimensional data analysis in real-time
US11755448B2 (en) Event monitoring apparatus, method and program recording medium
CN116662817B (zh) 物联网设备的资产识别方法及系统
CN113570200A (zh) 一种基于多维信息的电网运行状态监测方法及系统
CN113537321A (zh) 一种基于孤立森林和x均值的网络流量异常检测方法
Paramkusem et al. Classifying categories of SCADA attacks in a big data framework
Wang et al. An improved ISODATA algorithm for hyperspectral image classification
CN117501288A (zh) 监控工业环境的系统和方法
KR20210011822A (ko) 인공 지능 기반 비정상 로그를 탐지하는 방법 및 이를 구현하는 시스템
CN110770753B (zh) 高维数据实时分析的装置和方法
CN117351271A (zh) 高压配电线路监控设备故障监测方法、系统及其存储介质
CN115495274B (zh) 基于时序数据的异常处理方法、网络设备和可读存储介质
US11954131B2 (en) Time-series data processing method
JP7206892B2 (ja) 画像検査装置、画像検査のための学習方法および画像検査プログラム
Loyola A method for real-time error detection in low-cost environmental sensors data
Cupek et al. Improving KPI based performance analysis in discrete, multi-variant production
CN117292709B (zh) 一种暖通机房异常音频识别方法及装置

Legal Events

Date Code Title Description
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right