KR102154425B1 - 인공지능 학습을 위한 유사데이터 생성 방법 및 장치 - Google Patents

인공지능 학습을 위한 유사데이터 생성 방법 및 장치 Download PDF

Info

Publication number
KR102154425B1
KR102154425B1 KR1020190015219A KR20190015219A KR102154425B1 KR 102154425 B1 KR102154425 B1 KR 102154425B1 KR 1020190015219 A KR1020190015219 A KR 1020190015219A KR 20190015219 A KR20190015219 A KR 20190015219A KR 102154425 B1 KR102154425 B1 KR 102154425B1
Authority
KR
South Korea
Prior art keywords
data
similar
learning data
learning
distance
Prior art date
Application number
KR1020190015219A
Other languages
English (en)
Other versions
KR20200080088A (ko
Inventor
김종면
김재영
Original Assignee
울산대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 울산대학교 산학협력단 filed Critical 울산대학교 산학협력단
Publication of KR20200080088A publication Critical patent/KR20200080088A/ko
Application granted granted Critical
Publication of KR102154425B1 publication Critical patent/KR102154425B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0218Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
    • G05B23/0256Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults injecting test signals and analyzing monitored process response, e.g. injecting the test signal while interrupting the normal operation of the monitored system; superimposing the test signal onto a control signal during normal operation of the monitored system
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0259Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterized by the response to fault detection
    • G05B23/0267Fault communication, e.g. human machine interface [HMI]
    • G05B23/0272Presentation of monitored results, e.g. selection of status reports to be displayed; Filtering information to the user
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0259Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterized by the response to fault detection
    • G05B23/0275Fault isolation and identification, e.g. classify fault; estimate cause or root of failure
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 인공지능을 학습시키기 위한 유사데이터 생성 방법에 관한 것이다. 이러한 유사데이터 생성 방법은, 인공지능 학습을 위한 학습데이터와 유사한 유사데이터를 생성하는 데이터생성장치의 유사데이터 생성 방법에 있어서, 복수의 개체데이터를 포함하는 입력데이터를 입력 받는 데이터 입력 단계; 상기 입력데이터를 학습데이터 집단과 비학습데이터 집단으로 분류하고, 상기 학습데이터 집단의 생성할 유사데이터 전체 개수를 결정하는 데이터 분류 및 개수 결정 단계; 상기 입력데이터를 특성에 따라 좌표계에 분류하고, 상기 학습데이터 집단 내에서 어느 하나의 개체데이터인 기준학습데이터로부터 기설정된 제1 거리 내에 있는 비학습데이터들 각각과 상기 기준학습데이터와의 거리의 합을 제1 거리합으로하고, 상기 제1 거리합을 상기 기준학습데이터로부터 상기 기설정된 제1 거리 내에 있는 모든 개체데이터들 각각과 상기 기준학습데이터와의 거리의 합으로 나누어, 각각의 상기 기준학습데이터의 유사데이터 생성 가중치를 계산하고, 상기 계산된 유사데이터 생성 가중치를 정규화 하는 유사데이터 생성 가중치 계산 단계; 각각의 기준학습데이터 별로 정규화된 상기 유사데이터 생성 가중치에 생성할 유사데이터 전체 개수를 곱한 값을 반올림하여, 상기 각각의 기준학습데이터 별로 생성할 유사데이터 개수를 결정하는 각 기준학습데이터 별 생성할 유사데이터 개수 결정 단계; 및 상기 각 기준학습데이터와 상기 각 기준학습데이터를 제외한 개체 학습데이터들 사이의 공간에, 상기 기준학습데이터의 유사데이터들을 결정된 생성 개수만큼 생성하는 유사데이터 생성 단계를 포함한다.

Description

인공지능 학습을 위한 유사데이터 생성 방법 및 장치{Method And Apparatus For Generating Similar Data For Artificial Intelligence Learning}
본 발명은, 인공지능 학습을 위한 유사데이터 생성 방법 및 장치에 관한 것으로서, 보다 상세하게는 학습데이터의 유사데이터 생성 가중치를 데이터들 간의 거리를 이용하여 계산하는 유사데이터 생성 방법 및 장치에 관한 것이다.
인공지능은 인간의 지능으로 할 수 있는 사고, 학습, 자기 개발등을 컴퓨터가 할 수 있도록 하는 방법을 연구하는 컴퓨터 공학 및 정보기술의 한 분야로서, 컴퓨터가 인간의 지능적인 행동을 모방할 수 있도록 하는 것을 말한다.
인공지능은 기계학습 알고리즘을 통해서 입력 받은 데이터를 학습할 수 있다. 많은 데이터를 컴퓨터에 입력하고 비슷한 것끼리 분류하도록 학습시키는 것이다. 한편, 인공지능을 학습시키기 위한 데이터가 부족한 경우가 많기 때문에, 인공지능을 학습시키기 위한 학습데이터와 유사한 유사데이터를 생성해서 이것을 인공지능에 학습시키는 기술이 있다.
학습데이터로부터 생성되는 유사데이터는 학습데이터의 개수를 고려하여 생성하는 것이 바람직하다. 예를 들어서, 특정 학습데이터의 수가 많이 부족하면 그 유사데이터를 많이 생성하고, 다른 특정 학습데이터의 수가 많이 부족하면 그 유사데이터를 적게 생성하는 것이 인공지능을 효과적으로 학습시킬 수 있다.
그러나, 종래의 유사데이터 생성 방법은 각각의 학습데이터의 개수를 충분히 고려한 효율적인 유사데이터 생성 방법을 제시하지 못하고 있어, 학습데이터의 빈도수를 고려하여 유사데이터의 생성 개수를 결정할 필요가 있다.
또한, 특정 학습데이터와 유사한 유사데이터를 생성함에 있어서, 유사데이터와 특정 학습데이터의 유사도를 자유롭게 조절하여 유사데이터를 생성할 필요가 있다.
본 발명은 상술한 바와 같은 문제를 해결하기 위한 것으로, 학습데이터의 유사데이터를 생성하기 위한 유사데이터 생성 가중치를 데이터들 간의 거리를 이용하여 계산하고 유사데이터의 생성 위치를 자유롭게 조절함으로써, 각각의 학습데이터들의 개수를 고려하여 유사데이터들이 생성되어 인공지능이 충분하면서도 균등한 학습데이터를 입력 받아서 효과적으로 학습될 수 있고, 학습데이터와 유사한 정도를 자유롭게 조절한 유사데이터를 생성하여 인공지능에 학습시킴으로써 인공지능의 학습 자유도를 높이는 유사데이터 생성 방법 및 장치를 제공함을 그 목적으로 한다.
상기 기술적 과제를 이루기 위한 본 발명의 일 양태에 따르면, 유사데이터 생성 방법은, 인공지능 학습을 위한 학습데이터와 유사한 유사데이터를 생성하는 데이터생성장치의 유사데이터 생성 방법에 있어서, 복수의 개체데이터를 포함하는 입력데이터를 입력 받는 데이터 입력 단계; 상기 입력데이터를 학습데이터 집단과 비학습데이터 집단으로 분류하고, 상기 학습데이터 집단의 생성할 유사데이터 전체 개수를 결정하는 데이터 분류 및 개수 결정 단계; 상기 입력데이터를 특성에 따라 좌표계에 분류하고, 상기 학습데이터 집단 내에서 어느 하나의 개체데이터인 기준학습데이터로부터 기설정된 제1 거리 내에 있는 비학습데이터들 각각과 상기 기준학습데이터와의 거리의 합을 제1 거리합으로하고, 상기 제1 거리합을 상기 기준학습데이터로부터 상기 기설정된 제1 거리 내에 있는 모든 개체데이터들 각각과 상기 기준학습데이터와의 거리의 합으로 나누어, 각각의 상기 기준학습데이터의 유사데이터 생성 가중치를 계산하고, 상기 계산된 유사데이터 생성 가중치를 정규화 하는 유사데이터 생성 가중치 계산 단계; 각각의 기준학습데이터 별로 정규화된 상기 유사데이터 생성 가중치에 생성할 유사데이터 전체 개수를 곱한 값을 반올림하여, 상기 각각의 기준학습데이터 별로 생성할 유사데이터 개수를 결정하는 각 기준학습데이터 별 생성할 유사데이터 개수 결정 단계; 및 상기 각 기준학습데이터와 상기 각 기준학습데이터를 제외한 개체 학습데이터들 사이의 공간에, 상기 기준학습데이터의 유사데이터들을 결정된 생성 개수만큼 생성하는 유사데이터 생성 단계를 포함할 수 있다. 또한, 상기 데이터 분류 및 개수 결정 단계는, 상기 입력데이터 중에서 학습데이터들을 선별하고, 기설정된 목표학습데이터들의 개수에서 선별된 상기 학습데이터들의 개수를 빼서 생성할 유사데이터들의 전체 개수를 결정하는 것을 특징으로 할 수 있다.
또한, 상기 데이터 분류 및 개수 결정 단계는, 상기 입력데이터를 특성에 따라 집단 별로 분류하였을 때, 개수가 적은 데이터 집단을 학습데이터 집단으로 선별하는 것을 특징으로 할 수 있다.
또한, 상기 유사데이터 생성 가중치 계산 단계는, 상기 각 기준학습데이터의 유사데이터 생성 가중치를, 전체 학습데이터들의 유사데이터 생성 가중치를 모두 합한 값으로 나눠서, 상기 각 기준학습데이터의 유사데이터 생성 가중치를 정규화 하는 것을 특징으로 할 수 있다.
또한, 상기 유사데이터 생성 가중치 계산 단계는, 상기 각 기준학습데이터와 다른 개체데이터들과의 좌표계 상의 거리를 계산하는 단계; 상기 입력데이터 중에서 기설정된 개수만큼, 상기 각 기준학습데이터로부터의 거리가 가까운 순서로 근거리데이터들을 선별하는 단계; 상기 근거리데이터들 중에서, 상기 각 기준학습데이터로부터 가장 거리가 먼 데이터와 상기 각 기준학습데이터와의 거리를, 상기 기설정된 제1 거리로 결정하는 단계를 포함할 수 있다.
또한, 상기 유사데이터 생성 단계는, 상기 각 기준학습데이터의 생성할 유사데이터 개수 이상의 개수를 가지도록 상기 각 기준학습데이터 주변에서 주변학습데이터들을 선택하는 단계; 상기 주변학습데이터들 중에서, 상기 각 기준학습데이터로부터의 거리가 먼 순서로 상기 각 기준학습데이터의 생성할 유사데이터 개수만큼 원거리학습데이터들을 선택하는 단계; 상기 각 원거리학습데이터들과 상기 각 기준학습데이터를 잇는 선분을 기설정된 비율로 분할한 위치에 상기 각 기준학습데이터의 유사데이터를 생성하는 단계를 포함할 수 있다.
또한, 상기 유사데이터 생성 단계는, (a) 상기 각 기준학습데이터의 생성할 유사데이터 개수 이상의 개수만큼 상기 기준학습데이터 주변에서 주변학습데이터들을 선택하는 단계; (b) 상기 주변학습데이터들 중에서 상기 각 기준학습데이터로부터의 거리가 가장 먼 최장거리데이터를 선택하는 단계; (c) 상기 각 기준학습데이터와 상기 최장거리데이터를 잇는 선분을 기설정된 비율로 분할한 위치에 유사데이터를 생성하는 위치 선정 및 생성 단계; (d) 상기 각 기준학습데이터의 생성할 유사데이터 개수만큼 유사데이터를 생성할때까지, 이미 선택된 최장거리데이터를 제외하면서 상기 (b)와 (c) 단계를 반복하는 단계를 포함할 수 있다.
또한, 상기 선분을 분할하는 상기 기설정된 비율은 0.5인 것을 특징으로 할 수 있다.
또한, 상기 학습데이터는 결함이 있는 설비의 결함 상태 정보를 포함하는 데이터이고, 전체 데이터에서 상기 학습데이터를 제외한 데이터는 상기 설비의 결함이 없는 정상 상태 데이터인 것을 특징으로 할 수 있다.
상기 기술적 과제를 이루기 위한 본 발명의 일 양태에 따르면, 유사데이터 생성 장치는, 인공지능 학습을 위한 학습데이터와 유사한 유사데이터를 생성하는 유사데이터 생성 장치로서, 복수의 개체데이터로 구성된 입력데이터를 입력 받고, 상기 입력데이터를 특성에 따라 집단 별로 분류하였을 때 개수가 적은 데이터 집단을 학습데이터 집단으로 선별하며, 상기 학습데이터 집단의 생성할 유사데이터 개수를 결정하는 클래스 정의부; 상기 학습데이터 집단을 구성하는 각각의 개체 학습데이터의 유사데이터 생성 가중치를 계산하고, 상기 각각의 개체 학습데이터의 유사데이터 생성 개수를 결정하는 생성 가중치 결정부; 및 상기 각각의 개체 학습데이터의 유사데이터들의 생성 위치를 결정하여 생성하는 데이터 생성부;를 포함하고, 상기 생성 가중치 계산부는, 상기 입력데이터를 특성에 따라 좌표계에 분류하는 데이터 분류부; 좌표계 상에서, 상기 학습데이터 집단 내에서 어느 하나의 개체데이터인 기준학습데이터로부터 기설정된 제1 거리 내에 있는 비학습데이터들 각각과 상기 기준학습데이터와의 거리의 합을 제1 거리합으로하고, 상기 제1 거리합을 상기 기준학습데이터로부터 상기 기설정된 제1 거리 내에 있는 모든 개체데이터들 각각과 상기 기준학습데이터와의 거리의 합으로 나눠서, 각각의 상기 기준학습데이터의 생성 가중치를 계산하는 가중치 계산부; 상기 각 기준학습데이터의 유사데이터 생성 가중치를, 전체 학습데이터들의 유사데이터 생성 가중치를 모두 합한 값으로 나눠서 상기 각 기준학습데이터의 유사데이터 생성 가중치를 정규화 하는 가중치 정규화부; 각각의 상기 기준학습데이터 별로 정규화된 상기 유사데이터 생성 가중치에 생성할 유사데이터 전체 개수를 곱한 값을 반올림하여, 상기 각 기준학습데이터 별로 생성할 유사데이터 개수를 결정하는 유사데이터 개수 계산부를 포함할 수 있다.
또한, 상기 데이터 생성부는, 상기 각 기준학습데이터와 상기 각 기준학습데이터를 제외한 개체 학습데이터들 사이의 공간에 상기 각 기준학습데이터의 유사데이터들을 결정된 생성 개수만큼 생성할 수 있다.
또한, 상기 클래스 정의부는, 기설정된 목표학습데이터들의 개수에서 상기 학습데이터 집단의 개체데이터 개수를 빼서 생성할 유사데이터들의 전체 개수를 결정할 수 있다.
또한, 상기 가중치 계산부는, 상기 각 기준학습데이터와 다른 개체데이터들과의 좌표계 상의 거리를 계산하고, 상기 입력데이터 중에서 기설정된 개수만큼 상기 각 기준학습데이터로부터의 거리가 가까운 순서로 근거리데이터들을 선별하고, 상기 근거리데이터들 중에서 상기 각 기준학습데이터로부터 가장 거리가 먼 데이터와 상기 각 기준학습데이터와의 거리를 상기 기설정된 제1 거리로 결정할 수 있다.
또한, 상기 데이터 생성부는, 상기 각 기준학습데이터의 생성할 유사데이터 개수 이상의 개수를 가지도록 상기 각 기준학습데이터 주변에서 개체 학습데이터들을 선택하고, 상기 선택된 개체 학습데이터들 중에서, 상기 각 기준학습데이터로부터의 거리가 먼 순서로 상기 각 기준학습데이터의 생성할 유사데이터 개수만큼 원거리학습데이터들을 선택하고, 상기 각 원거리학습데이터들과 상기 각 기준학습데이터를 잇는 선분을 기설정된 비율로 분할한 위치에 상기 각 기준학습데이터의 유사데이터를 생성할 수 있다.
또한, 상기 데이터 생성부는, 상기 각 기준학습데이터의 생성할 유사데이터 개수 이상의 개수만큼 상기 기준학습데이터 주변에서 주변학습데이터들을 선택하고, 상기 주변학습데이터들 중에서 상기 각 기준학습데이터로부터의 거리가 가장 먼 최장거리데이터를 선택하고, 상기 각 기준학습데이터와 상기 최장거리데이터를 잇는 선분을 기설정된 비율로 분할한 위치에 유사데이터를 생성하며, 상기 각 기준학습데이터의 생성할 유사데이터 개수만큼 유사데이터를 생성할때까지, 이미 선택된 최장거리데이터를 제외하면서 다시 최장거리데이터를 선택하고, 다시 선택된 최장거리데이터를 이용하여 상기 각 기준학습데이터의 유사데이터를 생성하는 것을 반복할 수 있다.
또한, 상기 선분을 분할하는 상기 기설정된 비율은 0.5인 것을 특징으로 할 수 있다.
기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
본 발명에 따른 유사데이터 생성 방법 및 장치는, 좌표계 상의 데이터 간의 거리를 이용하여 학습데이터의 유사데이터 생성 가중치를 계산하여 유사데이터를 생성하므로, 각각의 학습데이터들의 개수를 고려하여 유사데이터들이 생성되어 인공지능이 충분하면서도 균등한 학습데이터를 입력 받아서 효과적으로 학습될 수 있는 효과를 제공한다.
또한, 학습데이터와 이로부터 생성할 유사데이터의 유사도를 자유롭게 조절할 수 있으므로, 인공지능을 학습시키기 위한 데이터를 효과적으로 획득할 수 있는 효과를 제공한다.
또한, 인공지능이 효과적으로 학습되어 인공지능의 데이터 분류 성능이 향상되므로, 인공지능을 설비의 결함 데이터 등을 분류하는 작업에 사용할 경우 설비의 결함 데이터 등을 보다 정확하게 분류할 수 있고, 정확한 데이터를 기반으로 설비 결함 검출 등 다양한 문제를 효율적으로 해결할 수 있는 효과를 제공한다.
도1은 본 발명의 실시예에 따른 유사데이터 생성 방법을 나타내는 순서도이다.
도2는 도1의 생성할 데이터 분류 및 개수 결정 단계를 나타내는 순서도이다.
도3은 도1의 각 학습데이터별 생성할 유사데이터 개수 결정 단계를 나타내는 순서도이다.
도4는 좌표계에 분류된 데이터를 도시한 도면이다.
도5는 도3의 유사데이터 생성 가중치 계산 단계를 나타내는 순서도이다.
도6는 도5의 사용자가 데이터간 거리를 지정하는 단계를 나타내는 순서도이다.
도7은 좌표계 상에서 데이터 간의 거리를 표현한 도면이다.
도8은 도1의 유사데이터 생성 단계를 나타내는 순서도이다.
도9는 유사데이터 생성 가중치에 따른 유사데이터 생성 개수를 설명하는 도면이다.
도10은 본 발명의 다른 실시예에 따른 유사데이터 생성 장치를 나타내는 블록도이다.
이하, 첨부한 도면들 및 후술되어 있는 내용을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 그러나, 본 발명은 여기서 설명되어지는 실시예들에 한정되지 않고 다른 형태로 구체화될 수도 있다. 오히려, 여기서 소개되는 실시예들은 개시된 내용이 철저하고 완전해질 수 있도록 그리고 당업자에게 본 발명의 사상이 충분히 전달될 수 있도록 하기 위해 제공되는 것이다. 명세서 전체에 걸쳐서 동일한 참조번호들은 동일한 구성요소들을 나타낸다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급되지 않는한 복수형도 포함된다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작, 부재, 성분, 소재 및/또는 소자가 하나 이상의 다른 구성요소, 단계, 동작, 부재, 성분, 소재 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
이하, 본 발명의 실시예에 따른 유사데이터 생성 방법에 대하여 설명한다.
도1은 본 발명의 실시예에 따른 유사데이터 생성 방법을 나타내는 순서도이다.
도1을 참조하면, 본 발명의 실시예에 따른 유사데이터 생성 방법은, 데이터를 입력 받는 단계(S100), 데이터 분류 및 개수 결정 단계(S200), 각 학습데이터별로 생성할 유사데이터 개수를 결정하는 단계(S300), 유사데이터 생성 단계(S400)를 포함한다.
먼저, 도1을 참조하여, 상기 데이터를 입력 받는 단계(S100)의 구성에 관하여 설명한다.
상기 데이터를 입력 받는 단계(S100)는 외부로부터 데이터를 입력 받는다. 데이터 중에는 인공지능이 특정 특성을 가지는 데이터를 분류하도록 학습시키기 위하여, 상기 특정 특성에 관한 정보를 포함하는 학습데이터 및 상기 특정 특성에 관한 정보를 포함하지 않는 비학습데이터가 포함된다.
도2는 도1의 생성할 유사데이터 전체 개수 결정 단계를 나타내는 순서도이다.
이어서, 도1 및 도2를 참조하여, 상기 데이터 분류 및 개수 결정 단계(S200)의 구성에 관하여 설명한다.
도2를 참조하면, 상기 데이터 분류 및 개수 결정 단계(S200)는 학습데이터를 선별하는 단계(S210), 생성할 유사데이터 개수를 결정하는 단계(S220)를 포함한다.
상기 학습데이터를 선별하는 단계(S210)는 입력된 데이터를 데이터의 특성에 따라서 분류하고, 분류된 데이터 집단 중에서 개수가 적은 데이터 집단을 학습데이터로 선별한다. 인공지능을 학습시키기 위한 특정 특성에 관한 정보를 포함하는 데이터는 흔하지 않은 데이터이기 때문에, 전체 데이터에서 차지하는 비율이 적기 때문이다. 예를 들어서, 학습데이터를 선별하는 단계(S210)는 MATLAB 프로그래밍 언어로 표현되는 하기의 알고리즘 1을 이용해서 학습데이터를 선별할 수 있다.
[알고리즘 1]
N=size(X)
N1=0
For i=1:N
If Label[i] is 1
X1 ← X[i]
Else
X2 ← X[i]
End
End
If size(X1)>size(X2)
Cmajor=X1
Cminor=X2
Class_id_major=1
Else
Cminor=X1
Cmajor=X2
Class_id_major=2
End
Return CmajorCminorClass_id_major
(X는 입력되는 데이터, Label은 입력되는 데이터의 분류 정보, Cmajor는 비학습데이터, Cminor는 학습데이터, Class_id_major는 비학습데이터 번호임)
상기 생성할 유사데이터 개수를 결정하는 단계(S220)는 학습데이터의 개수가 부족한 경우, 학습데이터와 유사한 유사데이터를 생성하여 이를 학습데이터로 이용하는 과정에서 생성할 유사데이터의 전체 개수를 결정한다. 사용자는 생성할 유사데이터의 전체 개수를 임의로 지정할 수도 있고, 인공지능을 학습시키기 위한 특정 특성에 관한 정보를 포함하는 데이터 전체 필요 개수인 목표학습데이터의 개수를 지정하고 이를 이용하여 생성할 유사데이터의 전체 개수를 결정할 수도 있다.
예를 들어 설명하면, 사용자는 목표학습데이터의 개수를 지정하고, 목표학습데이터의 개수에서 상기 학습데이터를 선별하는 단계(S210)에서 선별된 학습데이터의 개수를 빼서 생성해야 할 유사데이터의 전체 개수를 결정할 수 있다.
도3은 도1의 각 학습데이터별 생성할 유사데이터 개수 결정 단계를 나타내는 순서도이다.
이어서, 도1 및 도3을 참조하여, 상기 각 학습데이터별로 생성할 유사데이터 개수를 결정하는 단계(S300)의 구성에 관하여 설명한다.
상기 각 학습데이터별로 생성할 유사데이터 개수를 결정하는 단계(S300)는 각각의 학습데이터와 유사한 유사데이터를 생성할 개수를 결정한다. 인공지능을 효과적으로 학습시키기 위해서는 많은 수의 데이터를 학습시키는 것이 중요한데, 특정 특성에 관한 정보를 포함하는 학습데이터는 그 개수가 부족한 경우가 있다. 그러므로, 개수가 부족한 학습데이터의 유사데이터는 많이 생성하고 개수가 충분한 학습데이터의 유사데이터는 적게 생산하여 인공지능에 학습시킴으로써, 인공지능의 과제 수행 능력을 향상시킬 수 있다. 도3을 참조하면, 상기 각 학습데이터별로 생성할 유사데이터 개수를 결정하는 단계(S300)는 좌표계에 데이터를 분류하는 단계(S310), 유사데이터 생성 가중치를 계산하는 단계(S320), 유사데이터 생성 가중치를 정규화하는 단계(S330), 각 학습데이터별로 생성할 유사데이터 개수를 계산하는 단계(S340)를 포함하여 구성된다.
도4는 좌표계에 분류된 데이터를 도시한 도면이다.
도4를 참조하면, 상기 좌표계에 데이터를 분류하는 단계(S310)는 데이터를 그 특성에 따라서 좌표계에 분류한다. 좌표계는 데이터가 포함하는 정보의 특성에 따라서 2차원 좌표계 또는 그 이상의 차원을 가지는 좌표계가 될 수 있다.
도5는 도3의 유사데이터 생성 가중치 계산 단계를 나타내는 순서도이고, 도6는 도5의 사용자가 데이터간 거리를 지정하는 단계를 나타내는 순서도이고, 도7은 좌표계 상에서 데이터 간의 거리를 표현한 도면이다.
도5를 참조하면, 상기 유사데이터 생성 가중치를 계산하는 단계(S320)는 각각의 학습데이터별로 가중치를 부과하여 유사데이터의 생성 개수를 결정하기 위하여 생성 가중치를 계산하며, 사용자가 데이터간 거리를 지정하는 단계(S321)와 데이터들 간의 거리의 합을 이용하여 생성 가중치를 계산하는 단계(S322)를 포함한다.
먼저, 상기 사용자가 데이터간 거리를 지정하는 단계(S321)는 사용자가 유사데이터를 생성할 학습데이터인 기준학습데이터를 기준으로 일정한 거리를 지정하고, 지정한 거리 내에 있는 데이터들을 선별할 수 있다. 사용자는 일정한 거리를 직접 지정할 수 있고 다른 방법을 이용하여 지정할 수도 있다.
사용자가 거리를 지정하는 방법의 일예로서, 도6을 참조하면, 사용자는 기준학습데이터와 다른 데이터들 간의 거리를 계산하고(S321-1), 사용자가 지정하는 개수만큼 기준학습데이터와 좌표계 상의 거리가 가까운 순서로 데이터를 선별한 다음(S321-2), 선별된 데이터 중에서 기준학습데이터와 가장 거리가 먼 데이터와 기준학습데이터 간의 좌표계 상의 거리를 사용자가 지정하는 거리로 정의(S321-3) 할 수 있다.
또한, 상기 사용자가 데이터간 거리를 지정하는 단계(S321)는, 좌표계가 2차원 좌표계일 경우에 MATLAB 프로그래밍 언어로 표현되는 하기의 알고리즘 1을 이용해서 구현될 수 있다. 하기의 알고리즘 1은 기준학습데이터로부터 거리가 가장 가까운 순서로 사용자가 지정한 개수만큼 데이터들을 선택하지만, 이것은 사용자가 기준학습데이터로부터 일정한 거리를 지정하고 일정한 거리 내에 있는 데이터들을 선별하는 것과 실질적으로 동일하다.
[알고리즘 1]
N=size(X)
For i=1:N
D[i]=dist(S, X[i]) → S와 X[i] 사이의 Euclidian 거리
End
[sorted_D,ind]=sort(D) → 오름차순 정렬, sorted_D는 D의 정렬된 배열
Sk=X[ind[1:k]]
For k=1:K
if Label[k] is Class_id_major
Sa←Sk[k]
End
End
Return Sk,Sa
(S는 학습데이터, X는 입력되는 데이터 집합, Label은 입력되는 데이터의 분류 정보, k는 사용자가 지정하는 개수, Class_id_major는 비학습데이터의 번호, Sk는 기준학습데이터 주위의 데이터 집합, Sa는 기준학습데이터 주위의 비학습데이터 집합임)
다음으로, 상기 데이터들 간의 거리의 합을 이용하여 생성 가중치를 계산하는 단계(S322)는, 유사데이터를 생성할 기준학습데이터와 주변의 데이터들 간의 거리를 이용해서 유사데이터 생성 가중치를 계산한다. 이와 같이 데이터 간의 거리를 이용하여 생성 가중치를 계산하여 유사데이터를 생성함으로써, 좌표계 상에서 학습데이터의 빈도수가 낮은 공간에 학습데이터의 빈도수가 높은 공간보다 상대적으로 더 많은 유사데이터를 생성할 수 있다. 그러므로, 인공지능은 충분하면서도 균등한 학습데이터를 입력 받아 효과적으로 학습될 수 있다.
구체적으로, 유사데이터를 생성할 각각의 기준학습데이터들의 생성 가중치는, 기준학습데이터와 좌표계 상의 거리가 사용자가 지정하는 일정한 거리 내에 있는 비학습데이터들과 기준학습데이터와의 거리의 합을, 기준학습데이터와 좌표계 상의 거리가 상기 사용자가 지정한 일정한 거리 내에 있는 모든 데이터들과 기준학습데이터와의 거리의 합으로 나눠서 계산한다.
도7을 참조하여 설명하면, 유사데이터 생성 가중치는 하기의 수학식 1로 표현될 수 있다.
[수학식 1]
Figure 112019013686862-pat00001
(gi 는 생성 가중치, dt는 기준학습데이터와 좌표계 상의 거리가 사용자가 지정한 일정한 거리 내에 있는 데이터와 기준학습데이터와의 거리, dl은 기준학습데이터와 좌표계 상의 거리가 사용자가 지정한 일정한 거리 내에 있는 비학습데이터와 기준학습데이터와의 거리임)
그리고, 유사데이터 생성 가중치는 데이터들이 2차원 좌표계에 분류되었을 경우에는, MATLAB 프로그래밍 언어로 표현되는 하기의 알고리즘 2를 이용해서 계산될 수도 있다.
[알고리즘 2]
K=size(Sk)
For k=1:K
D[k]=dist(Sk[k],S) → Sk와 X[i] 사이의 Euclidian 거리
End
N=size(Sa)
For i=1:N
Da[i]=dist(Sa[i],S)
End
g=sum(Da)/sum(D)
Return g
(S는 유사데이터를 생성할 기준학습데이터, Sk는 기준학습데이터로부터 사용자가 지정한 일정한 거리 내의 데이터들, Sa는 기준학습데이터로부터 사용자가 지정한 일정한 거리 내의 비학습데이터들, g는 기준학습데이터의 유사데이터 생성 가중치임)
도3을 참조하여 설명하면, 각각의 기준학습데이터들의 유사데이터 생성 가중치를 계산한 다음, 상기 유사데이터 생성 가중치를 정규화하는 단계(S330)를 거쳐서 계산된 유사데이터 생성 가중치를 정규화한다. 유사데이터 생성 가중치를 정규화하는 것은, 각각의 학습데이터가 생성 가중치에 비례하여 유사데이터를 생성하도록 하기 위함이다. 유사데이터 생성 가중치는 하기의 수학식 2를 이용하여 정규화 할 수 있다.
[수학식 2]
Figure 112019013686862-pat00002
(hi는 정규화된 유사데이터 생성 가중치이고, gi는 각각의 학습데이터의 유사데이터 생성 가중치임)
상기 각 학습데이터별로 생성할 유사데이터 개수를 계산하는 단계(S340)는 정규화된 유사데이터 생성 가중치를 이용해서 각각의 학습데이터별로 생성할 유사데이터 개수를 계산한다. 구체적으로, 상기 생성할 유사데이터 개수를 결정하는 단계(S220)에서 결정된 생성할 전체 유사데이터 개수와 각각의 학습데이터의 유사데이터 생성 가중치를 곱하여, 각 학습데이터별로 생성할 유사데이터 개수가 계산된다.
도8은 도1의 유사데이터 생성 단계를 나타내는 순서도이다.
이어서, 도 1및 도8을 참조하여, 상기 유사데이터 생성 단계(S400)의 구성에 관하여 설명한다.
각각의 학습데이터의 생성할 유사데이터 개수가 결정된 다음, 유사데이터를 생성할 위치를 결정하여 유사데이터를 생성하여야 한다. 도8을 참조하면, 상기 유사데이터 생성 단계(S400)는 학습데이터들을 선택하는 단계(S410), 거리가 먼 순서로 학습데이터를 선택하는 단계(S420), 유사데이터 생성 위치 선정 및 생성 단계(S430)을 포함한다.
상기 학습데이터들을 선택하는 단계(S410)는 유사데이터를 생성할 기준학습데이터가 생성해야 할 유사데이터 개수 이상의 개수를 가지도록 기준학습데이터 주변의 학습데이터들을 선택한다.
다음으로, 상기 거리가 먼 순서로 학습데이터를 선택하는 단계(S420)는 상기 학습데이터들을 선택하는 단계(S410)에서 선택된 기준학습데이터 주변의 학습데이터들 중에서, 기준학습데이터와 거리가 먼 데이터 순으로 학습데이터들을 선택한다. 선택 개수는, 기준학습데이터의 생성할 유사데이터 개수와 동일하도록 한다.
그리고, 유사데이터 생성 위치 선정 및 생성 단계(S430)를 통해서 생성할 유사데이터의 위치를 결정하고 유사데이터를 생성한다. 구체적으로, 생성할 유사데이터 개수만큼 거리가 먼 순서로 선택된 각각의 학습데이터들과, 유사데이터를 생성할 기준학습데이터를 잇는 선분을 일정한 비율로 분할한 위치에 유사데이터를 생성한다. 예를 들어서, 생성할 유사데이터 개수만큼 거리가 먼 순서로 선택된 상기 각각의 학습데이터들과 상기 기준학습데이터를 잇는 선분을 0.5의 비율로 분할할 수도 있다.
이와 같이 기준학습데이터의 유사데이터의 생성 위치를 좌표계 상에서 기준학습데이터와의 거리를 조절하여 결정할 수 있으므로, 기준학습데이터와 유사한 정도를 조절하여 유사데이터를 생성할 수 있다. 예를 들어 설명하면, 기준학습데이터와의 거리가 가깝게 생성된 유사데이터일수록 기준학습데이터와 유사도가 높은 데이터가 될 것이다. 또한, 데이터들은 특성에 따라서 좌표계에 분류된 것이므로, 기준학습데이터와 특정 특성은 유사도가 높고 다른 특성은 유사도가 낮은 유사데이터를 자유롭게 생성할 수 있다.
한편, 상기 유사데이터 생성 단계(S400)는, MATLAB 프로그래밍 언어로 표현되는 하기의 알고리즘 3을 통해서 구현될 수도 있다. 상기 알고리즘 3은 유사데이터를 생성할 기준학습데이터 주변의 학습데이터를 기준학습데이터의 생성할 유사데이터 개수 이상의 개수만큼 선택하고, 선택된 주변의 학습데이터 중에서 기준학습데이터로부터 거리가 가장 먼 학습데이터인 최장거리데이터를 선택한다. 그리고, 기준학습데이터와 상기 최장거리데이터를 잇는 선분을 일정한 비율로 분할한 위치에 유사데이터를 생성하며, 상기 과정을 기준학습데이터의 생성할 유사데이터 개수를 만족할때까지 반복한다.
[알고리즘 3]
N=size(S)
For i=1:N
D[i]=dist(s,S[i]) → S와 X[i] 사이의 Euclidian 거리
End
[sorted_D,ind]=sort(D) → 오름차순 정렬, sorted_D는 D의 정렬된 배열
Si=S[ind[1:K]]
For k=1:l
rand_ind=rand(1,K)
Snew[k]=s+(Si[rand_ind]-s)*rand(0,1)
End
Return Snew
(s는 대상 데이터, S는 유사데이터를 생성할 기준학습데이터, l은 생성 데이터 개수, k는 사용자가 지정한 개수만큼 선택된 기준학습데이터 주변의 학습데이터 개수, Snew는 생성된 유사데이터 집합임)
이하, 본 발명의 다른 실시예에 따른 유사데이터 생성 장치에 대하여 설명한다.
도10은 본 발명의 다른 실시예에 따른 유사데이터 생성 장치를 나타내는 블록도이다.
도10을 참조하여 설명하면, 본 발명의 다른 실시예에 따른 유사데이터 생성 장치는 클래스 정의부(200), 생성 가중치 결정부(300), 데이터 생성부(400)를 포함하여 구성된다.
먼저, 상기 클래스 정의부(200)는 전술한 상기 데이터를 입력 받는 단계(S100) 및 상기 데이터 분류 및 개수 결정 단계(S200)와 동일한 기능을 수행하며, 데이터 입력부(205), 학습데이터 선별부(210), 유사데이터 개수 결정부(220)를 포함하여 구성된다.
상기 데이터 입력부(205)는 상기 데이터를 입력 받는 단계(S100)와 동일한 기능을 수행하고, 상기 학습데이터 선별부(210)는 상기 학습데이터를 선별하는 단계(S210)와 동일한 기능을 수행하며, 상기 유사데이터 개수 결정부(220)는 상기 생성할 유사데이터 개수를 결정하는 단계(S300)와 동일한 기능을 수행하도록 구성된다.
이어서, 상기 생성 가중치 결정부(300)는 전술한 상기 각 학습데이터별로 생성할 유사데이터 개수를 결정하는 단계(S300)와 동일한 기능을 수행하며, 데이터 분류부(310), 가중치 계산부(320), 유사데이터 개수 계산부(330)를 포함하여 구성된다.
상기 데이터 분류부(310)는 상기 좌표계에 데이터를 분류하는 단계(S310)와 동일한 기능을 수행하도록 구성되고, 상기 가중치 계산부(320)는 상기 유사데이터 생성 가중치를 계산하는 단계(S320)와 동일한 기능을 수행하도록 구성되고, 상기 유사데이터 개수 계산부(330)는 상기 각 학습데이터 별로 생성할 유사데이터 개수 계산 단계(S330)와 동일한 기능을 수행하도록 구성된다.
마지막으로, 상기 데이터 생성부(400)는 전술한 상기 유사데이터 생성 단계(S400)와 동일한 기능을 수행하도록 구성된다.
이처럼, 본 발명의 유사데이터 생성 방법 및 장치는, 학습데이터의 유사데이터를 생성하기 위한 유사데이터 생성 가중치를 데이터들 간의 거리를 이용하여 계산하므로, 각각의 학습데이터들의 개수를 고려하여 유사데이터들이 생성되어 인공지능이 충분하면서도 균등한 학습데이터를 입력 받아서 효과적으로 학습될 수 있는 효과를 제공한다.
또한, 유사데이터의 생성 위치를 자유롭게 조절하여 유사데이터를 생성할 기준학습데이터와의 유사도를 자유롭게 조절할 수 있으므로, 인공지능을 학습시키기 위한 데이터를 효과적으로 획득할 수 있는 효과를 제공한다.
또한, 인공지능이 효과적으로 학습되어 인공지능의 데이터 분류 성능이 향상되므로, 인공지능을 설비의 결함 데이터 등을 분류하는 작업에 사용할 경우 설비의 결함 데이터 등을 보다 정확하게 분류할 수 있고, 정확한 데이터를 기반으로 설비 결함 검출 등 다양한 문제를 효율적으로 해결할 수 있는 효과를 제공한다.
이상에서 대표적인 실시예를 통하여 본 발명에 대하여 상세하게 설명하였으나, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리 범위는 설명된 실시예에 국한되어 정해져서는 안되며, 후술하는 청구범위뿐만 아니라 이 청구범위와 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태에 의하여 정해져야 한다.
10 : 유사데이터 생성 장치
200 : 클래스 정의부
205 : 데이터 입력부
210 : 학습데이터 선별부
220 : 유사데이터 개수 결정부
300 : 생성 가중치 결정부
310 : 데이터 분류부
320 : 가중치 계산부
330 : 유사데이터 개수 계산부
400 : 데이터 생성부
S100 : 데이터를 입력 받는 단계
S200 : 데이터 분류 및 개수 결정 단계
S300 : 각 학습데이터별로 생성할 유사데이터 개수를 결정하는 단계
S400 : 유사데이터 생성 단계

Claims (16)

  1. 인공지능 학습을 위한 학습데이터와 유사한 유사데이터를 생성하는 데이터생성장치의 유사데이터 생성 방법에 있어서,
    복수의 개체데이터를 포함하는 입력데이터를 입력 받는 데이터 입력 단계;
    상기 입력데이터를 학습데이터 집단과 비학습데이터 집단으로 분류하고, 상기 학습데이터 집단의 생성할 유사데이터 전체 개수를 결정하는 데이터 분류 및 개수 결정 단계;
    상기 입력데이터를 특성에 따라 좌표계에 분류하고, 상기 학습데이터 집단 내에서 어느 하나의 개체데이터인 기준학습데이터로부터 기설정된 제1 거리 내에 있는 비학습데이터들 각각과 상기 기준학습데이터와의 거리의 합을 제1 거리합으로하고, 상기 제1 거리합을 상기 기준학습데이터로부터 상기 기설정된 제1 거리 내에 있는 모든 개체데이터들 각각과 상기 기준학습데이터와의 거리의 합으로 나누어, 각각의 상기 기준학습데이터의 유사데이터 생성 가중치를 계산하고, 상기 계산된 유사데이터 생성 가중치를 정규화 하는 유사데이터 생성 가중치 계산 단계;
    각각의 기준학습데이터 별로 정규화된 상기 유사데이터 생성 가중치에 생성할 유사데이터 전체 개수를 곱한 값을 반올림하여, 상기 각각의 기준학습데이터 별로 생성할 유사데이터 개수를 결정하는 각 기준학습데이터 별 생성할 유사데이터 개수 결정 단계; 및
    상기 각 기준학습데이터와 상기 각 기준학습데이터를 제외한 개체 학습데이터들 사이의 공간에, 상기 기준학습데이터의 유사데이터들을 결정된 생성 개수만큼 생성하는 유사데이터 생성 단계를 포함하는, 유사데이터 생성 방법.
  2. 제1항에 있어서,
    상기 데이터 분류 및 개수 결정 단계는,
    상기 입력데이터 중에서 학습데이터들을 선별하고, 기설정된 목표학습데이터들의 개수에서 선별된 상기 학습데이터들의 개수를 빼서 생성할 유사데이터들의 전체 개수를 결정하는 것을 특징으로 하는 유사데이터 생성 방법.
  3. 제2항에 있어서,
    상기 데이터 분류 및 개수 결정 단계는,
    상기 입력데이터를 특성에 따라 집단 별로 분류하였을 때, 개수가 적은 데이터 집단을 학습데이터 집단으로 선별하는 것을 특징으로 하는 유사데이터 생성 방법.
  4. 제3항에 있어서,
    상기 유사데이터 생성 가중치 계산 단계는,
    상기 각 기준학습데이터의 유사데이터 생성 가중치를, 전체 학습데이터들의 유사데이터 생성 가중치를 모두 합한 값으로 나눠서, 상기 각 기준학습데이터의 유사데이터 생성 가중치를 정규화 하는 것을 특징으로 하는 유사데이터 생성 방법.
  5. 제1항에 있어서,
    상기 유사데이터 생성 가중치 계산 단계는,
    상기 각 기준학습데이터와 다른 개체데이터들과의 좌표계 상의 거리를 계산하는 단계;
    상기 입력데이터 중에서 기설정된 개수만큼, 상기 각 기준학습데이터로부터의 거리가 가까운 순서로 근거리데이터들을 선별하는 단계; 및
    상기 근거리데이터들 중에서, 상기 각 기준학습데이터로부터 가장 거리가 먼 데이터와 상기 각 기준학습데이터와의 거리를, 상기 기설정된 제1 거리로 결정하는 단계를 포함하는, 유사데이터 생성 방법.
  6. 제5항에 있어서,
    상기 유사데이터 생성 단계는,
    상기 각 기준학습데이터의 생성할 유사데이터 개수 이상의 개수를 가지도록 상기 각 기준학습데이터 주변에서 주변학습데이터들을 선택하는 단계;
    상기 주변학습데이터들 중에서, 상기 각 기준학습데이터로부터의 거리가 먼 순서로 상기 각 기준학습데이터의 생성할 유사데이터 개수만큼 원거리학습데이터들을 선택하는 단계; 및
    상기 각 원거리학습데이터들과 상기 각 기준학습데이터를 잇는 선분을 기설정된 비율로 분할한 위치에 상기 각 기준학습데이터의 유사데이터를 생성하는 단계를 포함하는, 유사데이터 생성 방법.
  7. 제5항에 있어서,
    상기 유사데이터 생성 단계는,
    (a) 상기 각 기준학습데이터의 생성할 유사데이터 개수 이상의 개수만큼 상기 기준학습데이터 주변에서 주변학습데이터들을 선택하는 단계;
    (b) 상기 주변학습데이터들 중에서 상기 각 기준학습데이터로부터의 거리가 가장 먼 최장거리데이터를 선택하는 단계;
    (c) 상기 각 기준학습데이터와 상기 최장거리데이터를 잇는 선분을 기설정된 비율로 분할한 위치에 유사데이터를 생성하는 위치 선정 및 생성 단계; 및
    (d) 상기 각 기준학습데이터의 생성할 유사데이터 개수만큼 유사데이터를 생성할때까지,
    이미 선택된 최장거리데이터를 제외하면서 상기 (b)와 (c) 단계를 반복하는 단계를 포함하는, 유사데이터 생성 방법.
  8. 제6항 또는 제7항에 있어서,
    상기 선분을 분할하는 상기 기설정된 비율은 0.5인 것을 특징으로 하는 유사데이터 생성 방법.
  9. 제6항 또는 제7항에 있어서,
    상기 학습데이터는 결함이 있는 설비의 결함 상태 정보를 포함하는 데이터이고, 전체 데이터에서 상기 학습데이터를 제외한 데이터는 상기 설비의 결함이 없는 정상 상태 데이터인 것을 특징으로 하는 유사데이터 생성 방법.
  10. 인공지능 학습을 위한 학습데이터와 유사한 유사데이터를 생성하는 유사데이터 생성 장치로서,
    복수의 개체데이터로 구성된 입력데이터를 입력 받고, 상기 입력데이터를 특성에 따라 집단 별로 분류하였을 때 개수가 적은 데이터 집단을 학습데이터 집단으로 선별하며, 상기 학습데이터 집단의 생성할 유사데이터 개수를 결정하는 클래스 정의부;
    상기 학습데이터 집단을 구성하는 각각의 개체 학습데이터의 유사데이터 생성 가중치를 계산하고, 상기 각각의 개체 학습데이터의 유사데이터 생성 개수를 결정하는 생성 가중치 결정부; 및
    상기 각각의 개체 학습데이터의 유사데이터들의 생성 위치를 결정하여 생성하는 데이터 생성부;를 포함하고,
    상기 생성 가중치 결정부는,
    상기 입력데이터를 특성에 따라 좌표계에 분류하는 데이터 분류부;
    좌표계 상에서, 상기 학습데이터 집단 내에서 어느 하나의 개체데이터인 기준학습데이터로부터 기설정된 제1 거리 내에 있는 비학습데이터들 각각과 상기 기준학습데이터와의 거리의 합을 제1 거리합으로하고, 상기 제1 거리합을 상기 기준학습데이터로부터 상기 기설정된 제1 거리 내에 있는 모든 개체데이터들 각각과 상기 기준학습데이터와의 거리의 합으로 나눠서, 각각의 상기 기준학습데이터의 생성 가중치를 계산하는 가중치 계산부;
    상기 각 기준학습데이터의 유사데이터 생성 가중치를, 전체 학습데이터들의 유사데이터 생성 가중치를 모두 합한 값으로 나눠서 상기 각 기준학습데이터의 유사데이터 생성 가중치를 정규화 하는 가중치 정규화부; 및
    각각의 상기 기준학습데이터 별로 정규화된 상기 유사데이터 생성 가중치에 생성할 유사데이터 전체 개수를 곱한 값을 반올림하여, 상기 각 기준학습데이터 별로 생성할 유사데이터 개수를 결정하는 유사데이터 개수 계산부를 포함하는, 유사데이터 생성 장치.
  11. 제10항에 있어서,
    상기 데이터 생성부는,
    상기 각 기준학습데이터와 상기 각 기준학습데이터를 제외한 개체 학습데이터들 사이의 공간에 상기 각 기준학습데이터의 유사데이터들을 결정된 생성 개수만큼 생성하는, 유사데이터 생성 장치.
  12. 제11항에 있어서,
    상기 클래스 정의부는,
    기설정된 목표학습데이터들의 개수에서 상기 학습데이터 집단의 개체데이터 개수를 빼서 생성할 유사데이터들의 전체 개수를 결정하는, 유사데이터 생성 장치.
  13. 제12항에 있어서,
    상기 가중치 계산부는,
    상기 각 기준학습데이터와 다른 개체데이터들과의 좌표계 상의 거리를 계산하고,
    상기 입력데이터 중에서 기설정된 개수만큼 상기 각 기준학습데이터로부터의 거리가 가까운 순서로 근거리데이터들을 선별하고,
    상기 근거리데이터들 중에서 상기 각 기준학습데이터로부터 가장 거리가 먼 데이터와 상기 각 기준학습데이터와의 거리를 상기 기설정된 제1 거리로 결정하는, 유사데이터 생성 장치.
  14. 제13항에 있어서,
    상기 데이터 생성부는,
    상기 각 기준학습데이터의 생성할 유사데이터 개수 이상의 개수를 가지도록 상기 각 기준학습데이터 주변에서 개체 학습데이터들을 선택하고,
    상기 선택된 개체 학습데이터들 중에서, 상기 각 기준학습데이터로부터의 거리가 먼 순서로 상기 각 기준학습데이터의 생성할 유사데이터 개수만큼 원거리학습데이터들을 선택하고,
    상기 각 원거리학습데이터들과 상기 각 기준학습데이터를 잇는 선분을 기설정된 비율로 분할한 위치에 상기 각 기준학습데이터의 유사데이터를 생성하는, 유사데이터 생성 장치.
  15. 제13항에 있어서,
    상기 데이터 생성부는,
    상기 각 기준학습데이터의 생성할 유사데이터 개수 이상의 개수만큼 상기 기준학습데이터 주변에서 주변학습데이터들을 선택하고,
    상기 주변학습데이터들 중에서 상기 각 기준학습데이터로부터의 거리가 가장 먼 최장거리데이터를 선택하고,
    상기 각 기준학습데이터와 상기 최장거리데이터를 잇는 선분을 기설정된 비율로 분할한 위치에 유사데이터를 생성하며,
    상기 각 기준학습데이터의 생성할 유사데이터 개수만큼 유사데이터를 생성할때까지,
    이미 선택된 최장거리데이터를 제외하면서 다시 최장거리데이터를 선택하고, 다시 선택된 최장거리데이터를 이용하여 상기 각 기준학습데이터의 유사데이터를 생성하는 것을 반복하는, 유사데이터 생성 장치.
  16. 제14항 또는 제15항에 있어서,
    상기 선분을 분할하는 상기 기설정된 비율은 0.5인 것을 특징으로 하는 유사데이터 생성 장치.
KR1020190015219A 2018-12-26 2019-02-08 인공지능 학습을 위한 유사데이터 생성 방법 및 장치 KR102154425B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020180169832 2018-12-26
KR20180169832 2018-12-26

Publications (2)

Publication Number Publication Date
KR20200080088A KR20200080088A (ko) 2020-07-06
KR102154425B1 true KR102154425B1 (ko) 2020-09-09

Family

ID=71571542

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190015219A KR102154425B1 (ko) 2018-12-26 2019-02-08 인공지능 학습을 위한 유사데이터 생성 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102154425B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11983501B2 (en) 2020-10-07 2024-05-14 Electronics And Telecommunications Research Institute Apparatus and method for automatic generation of machine reading comprehension training data

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220046925A (ko) 2020-10-08 2022-04-15 삼성에스디에스 주식회사 딥러닝 모델 성능 평가 장치 및 방법
KR102503454B1 (ko) * 2021-01-29 2023-02-27 광주과학기술원 개체명 정규화 장치 및 개체명 정규화 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006252333A (ja) 2005-03-11 2006-09-21 Nara Institute Of Science & Technology データ処理方法、データ処理装置およびそのプログラム
KR101843066B1 (ko) 2017-08-23 2018-05-15 주식회사 뷰노 기계 학습에 있어서 데이터 확대를 이용하여 데이터의 분류를 수행하는 방법 및 이를 이용한 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006252333A (ja) 2005-03-11 2006-09-21 Nara Institute Of Science & Technology データ処理方法、データ処理装置およびそのプログラム
KR101843066B1 (ko) 2017-08-23 2018-05-15 주식회사 뷰노 기계 학습에 있어서 데이터 확대를 이용하여 데이터의 분류를 수행하는 방법 및 이를 이용한 장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11983501B2 (en) 2020-10-07 2024-05-14 Electronics And Telecommunications Research Institute Apparatus and method for automatic generation of machine reading comprehension training data

Also Published As

Publication number Publication date
KR20200080088A (ko) 2020-07-06

Similar Documents

Publication Publication Date Title
Sayed et al. A binary clonal flower pollination algorithm for feature selection
KR102641116B1 (ko) 데이터 증강에 기초한 인식 모델 트레이닝 방법 및 장치, 이미지 인식 방법 및 장치
US11521064B2 (en) Training a neural network model
US11023806B2 (en) Learning apparatus, identifying apparatus, learning and identifying system, and recording medium
TWI651664B (zh) 模型生成伺服器及其模型生成方法
KR102154425B1 (ko) 인공지능 학습을 위한 유사데이터 생성 방법 및 장치
EP3853764A1 (en) Training neural networks for vehicle re-identification
US20180365557A1 (en) Information processing method and information processing apparatus
US11983394B2 (en) System and method for generating photorealistic synthetic images based on semantic information
CN108446741B (zh) 机器学习超参数重要性评估方法、系统及存储介质
CN106295531A (zh) 一种手势识别方法和装置以及虚拟现实终端
JP6905079B2 (ja) 画像内のオブジェクトの検出および表現
Cao et al. A PSO-based cost-sensitive neural network for imbalanced data classification
Li et al. Automatic design of convolutional neural network architectures under resource constraints
Devi et al. A Comparative Study on Handwritten Digit Recognizer using Machine Learning Technique
CN112651418B (zh) 数据分类方法、分类器训练方法及系统
KR102223687B1 (ko) 기계 학습 데이터 선택 방법 및 장치
CN107941210B (zh) 一种结合神经网络技术及三角形算法的星图识别方法
Bader-El-Den Self-adaptive heterogeneous random forest
KR102316678B1 (ko) 설명 가능한 소수샷 영상 분류 방법 및 장치
JP2015075798A (ja) データ処理装置、測長システム、欠陥検査システム、画像トラッキングシステム、及びデータ処理方法
JP7073171B2 (ja) 学習装置、学習方法及びプログラム
Yang et al. Classification based on Choquet integral
US20220284261A1 (en) Training-support-based machine learning classification and regression augmentation
CN111126617B (zh) 一种选择融合模型权重参数的方法、装置及设备

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant