KR102154425B1

KR102154425B1 - 인공지능 학습을 위한 유사데이터 생성 방법 및 장치

Info

Publication number: KR102154425B1
Application number: KR1020190015219A
Authority: KR
Inventors: 김종면; 김재영
Original assignee: 울산대학교 산학협력단
Priority date: 2018-12-26
Filing date: 2019-02-08
Publication date: 2020-09-09
Also published as: KR20200080088A

Abstract

본 발명은 인공지능을 학습시키기 위한 유사데이터 생성 방법에 관한 것이다. 이러한 유사데이터 생성 방법은, 인공지능 학습을 위한 학습데이터와 유사한 유사데이터를 생성하는 데이터생성장치의 유사데이터 생성 방법에 있어서, 복수의 개체데이터를 포함하는 입력데이터를 입력 받는 데이터 입력 단계; 상기 입력데이터를 학습데이터 집단과 비학습데이터 집단으로 분류하고, 상기 학습데이터 집단의 생성할 유사데이터 전체 개수를 결정하는 데이터 분류 및 개수 결정 단계; 상기 입력데이터를 특성에 따라 좌표계에 분류하고, 상기 학습데이터 집단 내에서 어느 하나의 개체데이터인 기준학습데이터로부터 기설정된 제1 거리 내에 있는 비학습데이터들 각각과 상기 기준학습데이터와의 거리의 합을 제1 거리합으로하고, 상기 제1 거리합을 상기 기준학습데이터로부터 상기 기설정된 제1 거리 내에 있는 모든 개체데이터들 각각과 상기 기준학습데이터와의 거리의 합으로 나누어, 각각의 상기 기준학습데이터의 유사데이터 생성 가중치를 계산하고, 상기 계산된 유사데이터 생성 가중치를 정규화 하는 유사데이터 생성 가중치 계산 단계; 각각의 기준학습데이터 별로 정규화된 상기 유사데이터 생성 가중치에 생성할 유사데이터 전체 개수를 곱한 값을 반올림하여, 상기 각각의 기준학습데이터 별로 생성할 유사데이터 개수를 결정하는 각 기준학습데이터 별 생성할 유사데이터 개수 결정 단계; 및 상기 각 기준학습데이터와 상기 각 기준학습데이터를 제외한 개체 학습데이터들 사이의 공간에, 상기 기준학습데이터의 유사데이터들을 결정된 생성 개수만큼 생성하는 유사데이터 생성 단계를 포함한다.

Description

인공지능 학습을 위한 유사데이터 생성 방법 및 장치{Method And Apparatus For Generating Similar Data For Artificial Intelligence Learning}

본 발명은, 인공지능 학습을 위한 유사데이터 생성 방법 및 장치에 관한 것으로서, 보다 상세하게는 학습데이터의 유사데이터 생성 가중치를 데이터들 간의 거리를 이용하여 계산하는 유사데이터 생성 방법 및 장치에 관한 것이다.

인공지능은 인간의 지능으로 할 수 있는 사고, 학습, 자기 개발등을 컴퓨터가 할 수 있도록 하는 방법을 연구하는 컴퓨터 공학 및 정보기술의 한 분야로서, 컴퓨터가 인간의 지능적인 행동을 모방할 수 있도록 하는 것을 말한다.

인공지능은 기계학습 알고리즘을 통해서 입력 받은 데이터를 학습할 수 있다. 많은 데이터를 컴퓨터에 입력하고 비슷한 것끼리 분류하도록 학습시키는 것이다. 한편, 인공지능을 학습시키기 위한 데이터가 부족한 경우가 많기 때문에, 인공지능을 학습시키기 위한 학습데이터와 유사한 유사데이터를 생성해서 이것을 인공지능에 학습시키는 기술이 있다.

학습데이터로부터 생성되는 유사데이터는 학습데이터의 개수를 고려하여 생성하는 것이 바람직하다. 예를 들어서, 특정 학습데이터의 수가 많이 부족하면 그 유사데이터를 많이 생성하고, 다른 특정 학습데이터의 수가 많이 부족하면 그 유사데이터를 적게 생성하는 것이 인공지능을 효과적으로 학습시킬 수 있다.

그러나, 종래의 유사데이터 생성 방법은 각각의 학습데이터의 개수를 충분히 고려한 효율적인 유사데이터 생성 방법을 제시하지 못하고 있어, 학습데이터의 빈도수를 고려하여 유사데이터의 생성 개수를 결정할 필요가 있다.

또한, 특정 학습데이터와 유사한 유사데이터를 생성함에 있어서, 유사데이터와 특정 학습데이터의 유사도를 자유롭게 조절하여 유사데이터를 생성할 필요가 있다.

본 발명은 상술한 바와 같은 문제를 해결하기 위한 것으로, 학습데이터의 유사데이터를 생성하기 위한 유사데이터 생성 가중치를 데이터들 간의 거리를 이용하여 계산하고 유사데이터의 생성 위치를 자유롭게 조절함으로써, 각각의 학습데이터들의 개수를 고려하여 유사데이터들이 생성되어 인공지능이 충분하면서도 균등한 학습데이터를 입력 받아서 효과적으로 학습될 수 있고, 학습데이터와 유사한 정도를 자유롭게 조절한 유사데이터를 생성하여 인공지능에 학습시킴으로써 인공지능의 학습 자유도를 높이는 유사데이터 생성 방법 및 장치를 제공함을 그 목적으로 한다.

상기 기술적 과제를 이루기 위한 본 발명의 일 양태에 따르면, 유사데이터 생성 방법은, 인공지능 학습을 위한 학습데이터와 유사한 유사데이터를 생성하는 데이터생성장치의 유사데이터 생성 방법에 있어서, 복수의 개체데이터를 포함하는 입력데이터를 입력 받는 데이터 입력 단계; 상기 입력데이터를 학습데이터 집단과 비학습데이터 집단으로 분류하고, 상기 학습데이터 집단의 생성할 유사데이터 전체 개수를 결정하는 데이터 분류 및 개수 결정 단계; 상기 입력데이터를 특성에 따라 좌표계에 분류하고, 상기 학습데이터 집단 내에서 어느 하나의 개체데이터인 기준학습데이터로부터 기설정된 제1 거리 내에 있는 비학습데이터들 각각과 상기 기준학습데이터와의 거리의 합을 제1 거리합으로하고, 상기 제1 거리합을 상기 기준학습데이터로부터 상기 기설정된 제1 거리 내에 있는 모든 개체데이터들 각각과 상기 기준학습데이터와의 거리의 합으로 나누어, 각각의 상기 기준학습데이터의 유사데이터 생성 가중치를 계산하고, 상기 계산된 유사데이터 생성 가중치를 정규화 하는 유사데이터 생성 가중치 계산 단계; 각각의 기준학습데이터 별로 정규화된 상기 유사데이터 생성 가중치에 생성할 유사데이터 전체 개수를 곱한 값을 반올림하여, 상기 각각의 기준학습데이터 별로 생성할 유사데이터 개수를 결정하는 각 기준학습데이터 별 생성할 유사데이터 개수 결정 단계; 및 상기 각 기준학습데이터와 상기 각 기준학습데이터를 제외한 개체 학습데이터들 사이의 공간에, 상기 기준학습데이터의 유사데이터들을 결정된 생성 개수만큼 생성하는 유사데이터 생성 단계를 포함할 수 있다. 또한, 상기 데이터 분류 및 개수 결정 단계는, 상기 입력데이터 중에서 학습데이터들을 선별하고, 기설정된 목표학습데이터들의 개수에서 선별된 상기 학습데이터들의 개수를 빼서 생성할 유사데이터들의 전체 개수를 결정하는 것을 특징으로 할 수 있다.

또한, 상기 데이터 분류 및 개수 결정 단계는, 상기 입력데이터를 특성에 따라 집단 별로 분류하였을 때, 개수가 적은 데이터 집단을 학습데이터 집단으로 선별하는 것을 특징으로 할 수 있다.

또한, 상기 유사데이터 생성 가중치 계산 단계는, 상기 각 기준학습데이터의 유사데이터 생성 가중치를, 전체 학습데이터들의 유사데이터 생성 가중치를 모두 합한 값으로 나눠서, 상기 각 기준학습데이터의 유사데이터 생성 가중치를 정규화 하는 것을 특징으로 할 수 있다.

또한, 상기 유사데이터 생성 가중치 계산 단계는, 상기 각 기준학습데이터와 다른 개체데이터들과의 좌표계 상의 거리를 계산하는 단계; 상기 입력데이터 중에서 기설정된 개수만큼, 상기 각 기준학습데이터로부터의 거리가 가까운 순서로 근거리데이터들을 선별하는 단계; 상기 근거리데이터들 중에서, 상기 각 기준학습데이터로부터 가장 거리가 먼 데이터와 상기 각 기준학습데이터와의 거리를, 상기 기설정된 제1 거리로 결정하는 단계를 포함할 수 있다.

또한, 상기 유사데이터 생성 단계는, 상기 각 기준학습데이터의 생성할 유사데이터 개수 이상의 개수를 가지도록 상기 각 기준학습데이터 주변에서 주변학습데이터들을 선택하는 단계; 상기 주변학습데이터들 중에서, 상기 각 기준학습데이터로부터의 거리가 먼 순서로 상기 각 기준학습데이터의 생성할 유사데이터 개수만큼 원거리학습데이터들을 선택하는 단계; 상기 각 원거리학습데이터들과 상기 각 기준학습데이터를 잇는 선분을 기설정된 비율로 분할한 위치에 상기 각 기준학습데이터의 유사데이터를 생성하는 단계를 포함할 수 있다.

또한, 상기 유사데이터 생성 단계는, (a) 상기 각 기준학습데이터의 생성할 유사데이터 개수 이상의 개수만큼 상기 기준학습데이터 주변에서 주변학습데이터들을 선택하는 단계; (b) 상기 주변학습데이터들 중에서 상기 각 기준학습데이터로부터의 거리가 가장 먼 최장거리데이터를 선택하는 단계; (c) 상기 각 기준학습데이터와 상기 최장거리데이터를 잇는 선분을 기설정된 비율로 분할한 위치에 유사데이터를 생성하는 위치 선정 및 생성 단계; (d) 상기 각 기준학습데이터의 생성할 유사데이터 개수만큼 유사데이터를 생성할때까지, 이미 선택된 최장거리데이터를 제외하면서 상기 (b)와 (c) 단계를 반복하는 단계를 포함할 수 있다.

또한, 상기 선분을 분할하는 상기 기설정된 비율은 0.5인 것을 특징으로 할 수 있다.

또한, 상기 학습데이터는 결함이 있는 설비의 결함 상태 정보를 포함하는 데이터이고, 전체 데이터에서 상기 학습데이터를 제외한 데이터는 상기 설비의 결함이 없는 정상 상태 데이터인 것을 특징으로 할 수 있다.

상기 기술적 과제를 이루기 위한 본 발명의 일 양태에 따르면, 유사데이터 생성 장치는, 인공지능 학습을 위한 학습데이터와 유사한 유사데이터를 생성하는 유사데이터 생성 장치로서, 복수의 개체데이터로 구성된 입력데이터를 입력 받고, 상기 입력데이터를 특성에 따라 집단 별로 분류하였을 때 개수가 적은 데이터 집단을 학습데이터 집단으로 선별하며, 상기 학습데이터 집단의 생성할 유사데이터 개수를 결정하는 클래스 정의부; 상기 학습데이터 집단을 구성하는 각각의 개체 학습데이터의 유사데이터 생성 가중치를 계산하고, 상기 각각의 개체 학습데이터의 유사데이터 생성 개수를 결정하는 생성 가중치 결정부; 및 상기 각각의 개체 학습데이터의 유사데이터들의 생성 위치를 결정하여 생성하는 데이터 생성부;를 포함하고, 상기 생성 가중치 계산부는, 상기 입력데이터를 특성에 따라 좌표계에 분류하는 데이터 분류부; 좌표계 상에서, 상기 학습데이터 집단 내에서 어느 하나의 개체데이터인 기준학습데이터로부터 기설정된 제1 거리 내에 있는 비학습데이터들 각각과 상기 기준학습데이터와의 거리의 합을 제1 거리합으로하고, 상기 제1 거리합을 상기 기준학습데이터로부터 상기 기설정된 제1 거리 내에 있는 모든 개체데이터들 각각과 상기 기준학습데이터와의 거리의 합으로 나눠서, 각각의 상기 기준학습데이터의 생성 가중치를 계산하는 가중치 계산부; 상기 각 기준학습데이터의 유사데이터 생성 가중치를, 전체 학습데이터들의 유사데이터 생성 가중치를 모두 합한 값으로 나눠서 상기 각 기준학습데이터의 유사데이터 생성 가중치를 정규화 하는 가중치 정규화부; 각각의 상기 기준학습데이터 별로 정규화된 상기 유사데이터 생성 가중치에 생성할 유사데이터 전체 개수를 곱한 값을 반올림하여, 상기 각 기준학습데이터 별로 생성할 유사데이터 개수를 결정하는 유사데이터 개수 계산부를 포함할 수 있다.

또한, 상기 데이터 생성부는, 상기 각 기준학습데이터와 상기 각 기준학습데이터를 제외한 개체 학습데이터들 사이의 공간에 상기 각 기준학습데이터의 유사데이터들을 결정된 생성 개수만큼 생성할 수 있다.

또한, 상기 클래스 정의부는, 기설정된 목표학습데이터들의 개수에서 상기 학습데이터 집단의 개체데이터 개수를 빼서 생성할 유사데이터들의 전체 개수를 결정할 수 있다.

또한, 상기 가중치 계산부는, 상기 각 기준학습데이터와 다른 개체데이터들과의 좌표계 상의 거리를 계산하고, 상기 입력데이터 중에서 기설정된 개수만큼 상기 각 기준학습데이터로부터의 거리가 가까운 순서로 근거리데이터들을 선별하고, 상기 근거리데이터들 중에서 상기 각 기준학습데이터로부터 가장 거리가 먼 데이터와 상기 각 기준학습데이터와의 거리를 상기 기설정된 제1 거리로 결정할 수 있다.

또한, 상기 데이터 생성부는, 상기 각 기준학습데이터의 생성할 유사데이터 개수 이상의 개수를 가지도록 상기 각 기준학습데이터 주변에서 개체 학습데이터들을 선택하고, 상기 선택된 개체 학습데이터들 중에서, 상기 각 기준학습데이터로부터의 거리가 먼 순서로 상기 각 기준학습데이터의 생성할 유사데이터 개수만큼 원거리학습데이터들을 선택하고, 상기 각 원거리학습데이터들과 상기 각 기준학습데이터를 잇는 선분을 기설정된 비율로 분할한 위치에 상기 각 기준학습데이터의 유사데이터를 생성할 수 있다.

또한, 상기 데이터 생성부는, 상기 각 기준학습데이터의 생성할 유사데이터 개수 이상의 개수만큼 상기 기준학습데이터 주변에서 주변학습데이터들을 선택하고, 상기 주변학습데이터들 중에서 상기 각 기준학습데이터로부터의 거리가 가장 먼 최장거리데이터를 선택하고, 상기 각 기준학습데이터와 상기 최장거리데이터를 잇는 선분을 기설정된 비율로 분할한 위치에 유사데이터를 생성하며, 상기 각 기준학습데이터의 생성할 유사데이터 개수만큼 유사데이터를 생성할때까지, 이미 선택된 최장거리데이터를 제외하면서 다시 최장거리데이터를 선택하고, 다시 선택된 최장거리데이터를 이용하여 상기 각 기준학습데이터의 유사데이터를 생성하는 것을 반복할 수 있다.

기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.

본 발명에 따른 유사데이터 생성 방법 및 장치는, 좌표계 상의 데이터 간의 거리를 이용하여 학습데이터의 유사데이터 생성 가중치를 계산하여 유사데이터를 생성하므로, 각각의 학습데이터들의 개수를 고려하여 유사데이터들이 생성되어 인공지능이 충분하면서도 균등한 학습데이터를 입력 받아서 효과적으로 학습될 수 있는 효과를 제공한다.

또한, 학습데이터와 이로부터 생성할 유사데이터의 유사도를 자유롭게 조절할 수 있으므로, 인공지능을 학습시키기 위한 데이터를 효과적으로 획득할 수 있는 효과를 제공한다.

또한, 인공지능이 효과적으로 학습되어 인공지능의 데이터 분류 성능이 향상되므로, 인공지능을 설비의 결함 데이터 등을 분류하는 작업에 사용할 경우 설비의 결함 데이터 등을 보다 정확하게 분류할 수 있고, 정확한 데이터를 기반으로 설비 결함 검출 등 다양한 문제를 효율적으로 해결할 수 있는 효과를 제공한다.

도1은 본 발명의 실시예에 따른 유사데이터 생성 방법을 나타내는 순서도이다.
도2는 도1의 생성할 데이터 분류 및 개수 결정 단계를 나타내는 순서도이다.
도3은 도1의 각 학습데이터별 생성할 유사데이터 개수 결정 단계를 나타내는 순서도이다.
도4는 좌표계에 분류된 데이터를 도시한 도면이다.
도5는 도3의 유사데이터 생성 가중치 계산 단계를 나타내는 순서도이다.
도6는 도5의 사용자가 데이터간 거리를 지정하는 단계를 나타내는 순서도이다.
도7은 좌표계 상에서 데이터 간의 거리를 표현한 도면이다.
도8은 도1의 유사데이터 생성 단계를 나타내는 순서도이다.
도9는 유사데이터 생성 가중치에 따른 유사데이터 생성 개수를 설명하는 도면이다.
도10은 본 발명의 다른 실시예에 따른 유사데이터 생성 장치를 나타내는 블록도이다.

이하, 첨부한 도면들 및 후술되어 있는 내용을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 그러나, 본 발명은 여기서 설명되어지는 실시예들에 한정되지 않고 다른 형태로 구체화될 수도 있다. 오히려, 여기서 소개되는 실시예들은 개시된 내용이 철저하고 완전해질 수 있도록 그리고 당업자에게 본 발명의 사상이 충분히 전달될 수 있도록 하기 위해 제공되는 것이다. 명세서 전체에 걸쳐서 동일한 참조번호들은 동일한 구성요소들을 나타낸다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급되지 않는한 복수형도 포함된다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작, 부재, 성분, 소재 및/또는 소자가 하나 이상의 다른 구성요소, 단계, 동작, 부재, 성분, 소재 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

이하, 본 발명의 실시예에 따른 유사데이터 생성 방법에 대하여 설명한다.

도1은 본 발명의 실시예에 따른 유사데이터 생성 방법을 나타내는 순서도이다.

도1을 참조하면, 본 발명의 실시예에 따른 유사데이터 생성 방법은, 데이터를 입력 받는 단계(S100), 데이터 분류 및 개수 결정 단계(S200), 각 학습데이터별로 생성할 유사데이터 개수를 결정하는 단계(S300), 유사데이터 생성 단계(S400)를 포함한다.

먼저, 도1을 참조하여, 상기 데이터를 입력 받는 단계(S100)의 구성에 관하여 설명한다.

상기 데이터를 입력 받는 단계(S100)는 외부로부터 데이터를 입력 받는다. 데이터 중에는 인공지능이 특정 특성을 가지는 데이터를 분류하도록 학습시키기 위하여, 상기 특정 특성에 관한 정보를 포함하는 학습데이터 및 상기 특정 특성에 관한 정보를 포함하지 않는 비학습데이터가 포함된다.

도2는 도1의 생성할 유사데이터 전체 개수 결정 단계를 나타내는 순서도이다.

이어서, 도1 및 도2를 참조하여, 상기 데이터 분류 및 개수 결정 단계(S200)의 구성에 관하여 설명한다.

도2를 참조하면, 상기 데이터 분류 및 개수 결정 단계(S200)는 학습데이터를 선별하는 단계(S210), 생성할 유사데이터 개수를 결정하는 단계(S220)를 포함한다.

상기 학습데이터를 선별하는 단계(S210)는 입력된 데이터를 데이터의 특성에 따라서 분류하고, 분류된 데이터 집단 중에서 개수가 적은 데이터 집단을 학습데이터로 선별한다. 인공지능을 학습시키기 위한 특정 특성에 관한 정보를 포함하는 데이터는 흔하지 않은 데이터이기 때문에, 전체 데이터에서 차지하는 비율이 적기 때문이다. 예를 들어서, 학습데이터를 선별하는 단계(S210)는 MATLAB 프로그래밍 언어로 표현되는 하기의 알고리즘 1을 이용해서 학습데이터를 선별할 수 있다.

[알고리즘 1]

N=size(X)

N₁=0

For i=1:N

If Label[i] is 1

X₁← X[i]

Else

X₂ ← X[i]

End

If size(X₁)＞size(X₂)

C_major=X1

C_minor=X2

Class_id_major=1

Else

C_minor=X1

C_major=X2

Class_id_major=2

End

Return C_majorC_minorClass_id_major

(X는 입력되는 데이터, Label은 입력되는 데이터의 분류 정보, C_major는 비학습데이터, C_minor는 학습데이터, Class_id_major는 비학습데이터 번호임)

상기 생성할 유사데이터 개수를 결정하는 단계(S220)는 학습데이터의 개수가 부족한 경우, 학습데이터와 유사한 유사데이터를 생성하여 이를 학습데이터로 이용하는 과정에서 생성할 유사데이터의 전체 개수를 결정한다. 사용자는 생성할 유사데이터의 전체 개수를 임의로 지정할 수도 있고, 인공지능을 학습시키기 위한 특정 특성에 관한 정보를 포함하는 데이터 전체 필요 개수인 목표학습데이터의 개수를 지정하고 이를 이용하여 생성할 유사데이터의 전체 개수를 결정할 수도 있다.

예를 들어 설명하면, 사용자는 목표학습데이터의 개수를 지정하고, 목표학습데이터의 개수에서 상기 학습데이터를 선별하는 단계(S210)에서 선별된 학습데이터의 개수를 빼서 생성해야 할 유사데이터의 전체 개수를 결정할 수 있다.

도3은 도1의 각 학습데이터별 생성할 유사데이터 개수 결정 단계를 나타내는 순서도이다.

이어서, 도1 및 도3을 참조하여, 상기 각 학습데이터별로 생성할 유사데이터 개수를 결정하는 단계(S300)의 구성에 관하여 설명한다.

상기 각 학습데이터별로 생성할 유사데이터 개수를 결정하는 단계(S300)는 각각의 학습데이터와 유사한 유사데이터를 생성할 개수를 결정한다. 인공지능을 효과적으로 학습시키기 위해서는 많은 수의 데이터를 학습시키는 것이 중요한데, 특정 특성에 관한 정보를 포함하는 학습데이터는 그 개수가 부족한 경우가 있다. 그러므로, 개수가 부족한 학습데이터의 유사데이터는 많이 생성하고 개수가 충분한 학습데이터의 유사데이터는 적게 생산하여 인공지능에 학습시킴으로써, 인공지능의 과제 수행 능력을 향상시킬 수 있다. 도3을 참조하면, 상기 각 학습데이터별로 생성할 유사데이터 개수를 결정하는 단계(S300)는 좌표계에 데이터를 분류하는 단계(S310), 유사데이터 생성 가중치를 계산하는 단계(S320), 유사데이터 생성 가중치를 정규화하는 단계(S330), 각 학습데이터별로 생성할 유사데이터 개수를 계산하는 단계(S340)를 포함하여 구성된다.

도4는 좌표계에 분류된 데이터를 도시한 도면이다.

도4를 참조하면, 상기 좌표계에 데이터를 분류하는 단계(S310)는 데이터를 그 특성에 따라서 좌표계에 분류한다. 좌표계는 데이터가 포함하는 정보의 특성에 따라서 2차원 좌표계 또는 그 이상의 차원을 가지는 좌표계가 될 수 있다.

도5는 도3의 유사데이터 생성 가중치 계산 단계를 나타내는 순서도이고, 도6는 도5의 사용자가 데이터간 거리를 지정하는 단계를 나타내는 순서도이고, 도7은 좌표계 상에서 데이터 간의 거리를 표현한 도면이다.

도5를 참조하면, 상기 유사데이터 생성 가중치를 계산하는 단계(S320)는 각각의 학습데이터별로 가중치를 부과하여 유사데이터의 생성 개수를 결정하기 위하여 생성 가중치를 계산하며, 사용자가 데이터간 거리를 지정하는 단계(S321)와 데이터들 간의 거리의 합을 이용하여 생성 가중치를 계산하는 단계(S322)를 포함한다.

먼저, 상기 사용자가 데이터간 거리를 지정하는 단계(S321)는 사용자가 유사데이터를 생성할 학습데이터인 기준학습데이터를 기준으로 일정한 거리를 지정하고, 지정한 거리 내에 있는 데이터들을 선별할 수 있다. 사용자는 일정한 거리를 직접 지정할 수 있고 다른 방법을 이용하여 지정할 수도 있다.

사용자가 거리를 지정하는 방법의 일예로서, 도6을 참조하면, 사용자는 기준학습데이터와 다른 데이터들 간의 거리를 계산하고(S321-1), 사용자가 지정하는 개수만큼 기준학습데이터와 좌표계 상의 거리가 가까운 순서로 데이터를 선별한 다음(S321-2), 선별된 데이터 중에서 기준학습데이터와 가장 거리가 먼 데이터와 기준학습데이터 간의 좌표계 상의 거리를 사용자가 지정하는 거리로 정의(S321-3) 할 수 있다.

또한, 상기 사용자가 데이터간 거리를 지정하는 단계(S321)는, 좌표계가 2차원 좌표계일 경우에 MATLAB 프로그래밍 언어로 표현되는 하기의 알고리즘 1을 이용해서 구현될 수 있다. 하기의 알고리즘 1은 기준학습데이터로부터 거리가 가장 가까운 순서로 사용자가 지정한 개수만큼 데이터들을 선택하지만, 이것은 사용자가 기준학습데이터로부터 일정한 거리를 지정하고 일정한 거리 내에 있는 데이터들을 선별하는 것과 실질적으로 동일하다.

[알고리즘 1]

N=size(X)

For i=1:N

D[i]=dist(S, X[i]) → S와 X[i] 사이의 Euclidian 거리

End

[sorted_D,ind]=sort(D) → 오름차순 정렬, sorted_D는 D의 정렬된 배열

S_k=X[ind[1:k]]

For k=1:K

if Label[k] is Class_id_major

S_a←S_k[k]

End

Return S_k,S_a

(S는 학습데이터, X는 입력되는 데이터 집합, Label은 입력되는 데이터의 분류 정보, k는 사용자가 지정하는 개수, Class_id_major는 비학습데이터의 번호, S_k는 기준학습데이터 주위의 데이터 집합, S_a는 기준학습데이터 주위의 비학습데이터 집합임)

다음으로, 상기 데이터들 간의 거리의 합을 이용하여 생성 가중치를 계산하는 단계(S322)는, 유사데이터를 생성할 기준학습데이터와 주변의 데이터들 간의 거리를 이용해서 유사데이터 생성 가중치를 계산한다. 이와 같이 데이터 간의 거리를 이용하여 생성 가중치를 계산하여 유사데이터를 생성함으로써, 좌표계 상에서 학습데이터의 빈도수가 낮은 공간에 학습데이터의 빈도수가 높은 공간보다 상대적으로 더 많은 유사데이터를 생성할 수 있다. 그러므로, 인공지능은 충분하면서도 균등한 학습데이터를 입력 받아 효과적으로 학습될 수 있다.

구체적으로, 유사데이터를 생성할 각각의 기준학습데이터들의 생성 가중치는, 기준학습데이터와 좌표계 상의 거리가 사용자가 지정하는 일정한 거리 내에 있는 비학습데이터들과 기준학습데이터와의 거리의 합을, 기준학습데이터와 좌표계 상의 거리가 상기 사용자가 지정한 일정한 거리 내에 있는 모든 데이터들과 기준학습데이터와의 거리의 합으로 나눠서 계산한다.

도7을 참조하여 설명하면, 유사데이터 생성 가중치는 하기의 수학식 1로 표현될 수 있다.

[수학식 1]

(gi 는 생성 가중치, dt는 기준학습데이터와 좌표계 상의 거리가 사용자가 지정한 일정한 거리 내에 있는 데이터와 기준학습데이터와의 거리, dl은 기준학습데이터와 좌표계 상의 거리가 사용자가 지정한 일정한 거리 내에 있는 비학습데이터와 기준학습데이터와의 거리임)

그리고, 유사데이터 생성 가중치는 데이터들이 2차원 좌표계에 분류되었을 경우에는, MATLAB 프로그래밍 언어로 표현되는 하기의 알고리즘 2를 이용해서 계산될 수도 있다.

[알고리즘 2]

K=size(S_k)

For k=1:K

D[k]=dist(S_k[k],S) → S_k와 X[i] 사이의 Euclidian 거리

End

N=size(S_a)

For i=1:N

D_a[i]=dist(S_a[i],S)

End

g=sum(D_a)/sum(D)

Return g

(S는 유사데이터를 생성할 기준학습데이터, Sk는 기준학습데이터로부터 사용자가 지정한 일정한 거리 내의 데이터들, Sa는 기준학습데이터로부터 사용자가 지정한 일정한 거리 내의 비학습데이터들, g는 기준학습데이터의 유사데이터 생성 가중치임)

도3을 참조하여 설명하면, 각각의 기준학습데이터들의 유사데이터 생성 가중치를 계산한 다음, 상기 유사데이터 생성 가중치를 정규화하는 단계(S330)를 거쳐서 계산된 유사데이터 생성 가중치를 정규화한다. 유사데이터 생성 가중치를 정규화하는 것은, 각각의 학습데이터가 생성 가중치에 비례하여 유사데이터를 생성하도록 하기 위함이다. 유사데이터 생성 가중치는 하기의 수학식 2를 이용하여 정규화 할 수 있다.

[수학식 2]

(hi는 정규화된 유사데이터 생성 가중치이고, gi는 각각의 학습데이터의 유사데이터 생성 가중치임)

상기 각 학습데이터별로 생성할 유사데이터 개수를 계산하는 단계(S340)는 정규화된 유사데이터 생성 가중치를 이용해서 각각의 학습데이터별로 생성할 유사데이터 개수를 계산한다. 구체적으로, 상기 생성할 유사데이터 개수를 결정하는 단계(S220)에서 결정된 생성할 전체 유사데이터 개수와 각각의 학습데이터의 유사데이터 생성 가중치를 곱하여, 각 학습데이터별로 생성할 유사데이터 개수가 계산된다.

도8은 도1의 유사데이터 생성 단계를 나타내는 순서도이다.

이어서, 도 1및 도8을 참조하여, 상기 유사데이터 생성 단계(S400)의 구성에 관하여 설명한다.

각각의 학습데이터의 생성할 유사데이터 개수가 결정된 다음, 유사데이터를 생성할 위치를 결정하여 유사데이터를 생성하여야 한다. 도8을 참조하면, 상기 유사데이터 생성 단계(S400)는 학습데이터들을 선택하는 단계(S410), 거리가 먼 순서로 학습데이터를 선택하는 단계(S420), 유사데이터 생성 위치 선정 및 생성 단계(S430)을 포함한다.

상기 학습데이터들을 선택하는 단계(S410)는 유사데이터를 생성할 기준학습데이터가 생성해야 할 유사데이터 개수 이상의 개수를 가지도록 기준학습데이터 주변의 학습데이터들을 선택한다.

다음으로, 상기 거리가 먼 순서로 학습데이터를 선택하는 단계(S420)는 상기 학습데이터들을 선택하는 단계(S410)에서 선택된 기준학습데이터 주변의 학습데이터들 중에서, 기준학습데이터와 거리가 먼 데이터 순으로 학습데이터들을 선택한다. 선택 개수는, 기준학습데이터의 생성할 유사데이터 개수와 동일하도록 한다.

그리고, 유사데이터 생성 위치 선정 및 생성 단계(S430)를 통해서 생성할 유사데이터의 위치를 결정하고 유사데이터를 생성한다. 구체적으로, 생성할 유사데이터 개수만큼 거리가 먼 순서로 선택된 각각의 학습데이터들과, 유사데이터를 생성할 기준학습데이터를 잇는 선분을 일정한 비율로 분할한 위치에 유사데이터를 생성한다. 예를 들어서, 생성할 유사데이터 개수만큼 거리가 먼 순서로 선택된 상기 각각의 학습데이터들과 상기 기준학습데이터를 잇는 선분을 0.5의 비율로 분할할 수도 있다.

이와 같이 기준학습데이터의 유사데이터의 생성 위치를 좌표계 상에서 기준학습데이터와의 거리를 조절하여 결정할 수 있으므로, 기준학습데이터와 유사한 정도를 조절하여 유사데이터를 생성할 수 있다. 예를 들어 설명하면, 기준학습데이터와의 거리가 가깝게 생성된 유사데이터일수록 기준학습데이터와 유사도가 높은 데이터가 될 것이다. 또한, 데이터들은 특성에 따라서 좌표계에 분류된 것이므로, 기준학습데이터와 특정 특성은 유사도가 높고 다른 특성은 유사도가 낮은 유사데이터를 자유롭게 생성할 수 있다.

한편, 상기 유사데이터 생성 단계(S400)는, MATLAB 프로그래밍 언어로 표현되는 하기의 알고리즘 3을 통해서 구현될 수도 있다. 상기 알고리즘 3은 유사데이터를 생성할 기준학습데이터 주변의 학습데이터를 기준학습데이터의 생성할 유사데이터 개수 이상의 개수만큼 선택하고, 선택된 주변의 학습데이터 중에서 기준학습데이터로부터 거리가 가장 먼 학습데이터인 최장거리데이터를 선택한다. 그리고, 기준학습데이터와 상기 최장거리데이터를 잇는 선분을 일정한 비율로 분할한 위치에 유사데이터를 생성하며, 상기 과정을 기준학습데이터의 생성할 유사데이터 개수를 만족할때까지 반복한다.

[알고리즘 3]

N=size(S)

For i=1:N

D[i]=dist(s,S[i]) → S와 X[i] 사이의 Euclidian 거리

End

S_i=S[ind[1:K]]

For k=1:l

rand_ind=rand(1,K)

S_new[k]=s+(S_i[rand_ind]-s)*rand(0,1)

End

Return S_new

(s는 대상 데이터, S는 유사데이터를 생성할 기준학습데이터, l은 생성 데이터 개수, k는 사용자가 지정한 개수만큼 선택된 기준학습데이터 주변의 학습데이터 개수, S_new는 생성된 유사데이터 집합임)

이하, 본 발명의 다른 실시예에 따른 유사데이터 생성 장치에 대하여 설명한다.

도10은 본 발명의 다른 실시예에 따른 유사데이터 생성 장치를 나타내는 블록도이다.

도10을 참조하여 설명하면, 본 발명의 다른 실시예에 따른 유사데이터 생성 장치는 클래스 정의부(200), 생성 가중치 결정부(300), 데이터 생성부(400)를 포함하여 구성된다.

먼저, 상기 클래스 정의부(200)는 전술한 상기 데이터를 입력 받는 단계(S100) 및 상기 데이터 분류 및 개수 결정 단계(S200)와 동일한 기능을 수행하며, 데이터 입력부(205), 학습데이터 선별부(210), 유사데이터 개수 결정부(220)를 포함하여 구성된다.

상기 데이터 입력부(205)는 상기 데이터를 입력 받는 단계(S100)와 동일한 기능을 수행하고, 상기 학습데이터 선별부(210)는 상기 학습데이터를 선별하는 단계(S210)와 동일한 기능을 수행하며, 상기 유사데이터 개수 결정부(220)는 상기 생성할 유사데이터 개수를 결정하는 단계(S300)와 동일한 기능을 수행하도록 구성된다.

이어서, 상기 생성 가중치 결정부(300)는 전술한 상기 각 학습데이터별로 생성할 유사데이터 개수를 결정하는 단계(S300)와 동일한 기능을 수행하며, 데이터 분류부(310), 가중치 계산부(320), 유사데이터 개수 계산부(330)를 포함하여 구성된다.

상기 데이터 분류부(310)는 상기 좌표계에 데이터를 분류하는 단계(S310)와 동일한 기능을 수행하도록 구성되고, 상기 가중치 계산부(320)는 상기 유사데이터 생성 가중치를 계산하는 단계(S320)와 동일한 기능을 수행하도록 구성되고, 상기 유사데이터 개수 계산부(330)는 상기 각 학습데이터 별로 생성할 유사데이터 개수 계산 단계(S330)와 동일한 기능을 수행하도록 구성된다.

마지막으로, 상기 데이터 생성부(400)는 전술한 상기 유사데이터 생성 단계(S400)와 동일한 기능을 수행하도록 구성된다.

이처럼, 본 발명의 유사데이터 생성 방법 및 장치는, 학습데이터의 유사데이터를 생성하기 위한 유사데이터 생성 가중치를 데이터들 간의 거리를 이용하여 계산하므로, 각각의 학습데이터들의 개수를 고려하여 유사데이터들이 생성되어 인공지능이 충분하면서도 균등한 학습데이터를 입력 받아서 효과적으로 학습될 수 있는 효과를 제공한다.

또한, 유사데이터의 생성 위치를 자유롭게 조절하여 유사데이터를 생성할 기준학습데이터와의 유사도를 자유롭게 조절할 수 있으므로, 인공지능을 학습시키기 위한 데이터를 효과적으로 획득할 수 있는 효과를 제공한다.

이상에서 대표적인 실시예를 통하여 본 발명에 대하여 상세하게 설명하였으나, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리 범위는 설명된 실시예에 국한되어 정해져서는 안되며, 후술하는 청구범위뿐만 아니라 이 청구범위와 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태에 의하여 정해져야 한다.

10 : 유사데이터 생성 장치
200 : 클래스 정의부
205 : 데이터 입력부
210 : 학습데이터 선별부
220 : 유사데이터 개수 결정부
300 : 생성 가중치 결정부
310 : 데이터 분류부
320 : 가중치 계산부
330 : 유사데이터 개수 계산부
400 : 데이터 생성부
S100 : 데이터를 입력 받는 단계
S200 : 데이터 분류 및 개수 결정 단계
S300 : 각 학습데이터별로 생성할 유사데이터 개수를 결정하는 단계
S400 : 유사데이터 생성 단계

Claims

인공지능 학습을 위한 학습데이터와 유사한 유사데이터를 생성하는 데이터생성장치의 유사데이터 생성 방법에 있어서,
복수의 개체데이터를 포함하는 입력데이터를 입력 받는 데이터 입력 단계;
상기 입력데이터를 학습데이터 집단과 비학습데이터 집단으로 분류하고, 상기 학습데이터 집단의 생성할 유사데이터 전체 개수를 결정하는 데이터 분류 및 개수 결정 단계;
상기 입력데이터를 특성에 따라 좌표계에 분류하고, 상기 학습데이터 집단 내에서 어느 하나의 개체데이터인 기준학습데이터로부터 기설정된 제1 거리 내에 있는 비학습데이터들 각각과 상기 기준학습데이터와의 거리의 합을 제1 거리합으로하고, 상기 제1 거리합을 상기 기준학습데이터로부터 상기 기설정된 제1 거리 내에 있는 모든 개체데이터들 각각과 상기 기준학습데이터와의 거리의 합으로 나누어, 각각의 상기 기준학습데이터의 유사데이터 생성 가중치를 계산하고, 상기 계산된 유사데이터 생성 가중치를 정규화 하는 유사데이터 생성 가중치 계산 단계;
각각의 기준학습데이터 별로 정규화된 상기 유사데이터 생성 가중치에 생성할 유사데이터 전체 개수를 곱한 값을 반올림하여, 상기 각각의 기준학습데이터 별로 생성할 유사데이터 개수를 결정하는 각 기준학습데이터 별 생성할 유사데이터 개수 결정 단계; 및
상기 각 기준학습데이터와 상기 각 기준학습데이터를 제외한 개체 학습데이터들 사이의 공간에, 상기 기준학습데이터의 유사데이터들을 결정된 생성 개수만큼 생성하는 유사데이터 생성 단계를 포함하는, 유사데이터 생성 방법.
제1항에 있어서,
상기 데이터 분류 및 개수 결정 단계는,
상기 입력데이터 중에서 학습데이터들을 선별하고, 기설정된 목표학습데이터들의 개수에서 선별된 상기 학습데이터들의 개수를 빼서 생성할 유사데이터들의 전체 개수를 결정하는 것을 특징으로 하는 유사데이터 생성 방법.
제2항에 있어서,
상기 데이터 분류 및 개수 결정 단계는,
상기 입력데이터를 특성에 따라 집단 별로 분류하였을 때, 개수가 적은 데이터 집단을 학습데이터 집단으로 선별하는 것을 특징으로 하는 유사데이터 생성 방법.
제3항에 있어서,
상기 유사데이터 생성 가중치 계산 단계는,
상기 각 기준학습데이터의 유사데이터 생성 가중치를, 전체 학습데이터들의 유사데이터 생성 가중치를 모두 합한 값으로 나눠서, 상기 각 기준학습데이터의 유사데이터 생성 가중치를 정규화 하는 것을 특징으로 하는 유사데이터 생성 방법.
제1항에 있어서,
상기 유사데이터 생성 가중치 계산 단계는,
상기 각 기준학습데이터와 다른 개체데이터들과의 좌표계 상의 거리를 계산하는 단계;
상기 입력데이터 중에서 기설정된 개수만큼, 상기 각 기준학습데이터로부터의 거리가 가까운 순서로 근거리데이터들을 선별하는 단계; 및
상기 근거리데이터들 중에서, 상기 각 기준학습데이터로부터 가장 거리가 먼 데이터와 상기 각 기준학습데이터와의 거리를, 상기 기설정된 제1 거리로 결정하는 단계를 포함하는, 유사데이터 생성 방법.
제5항에 있어서,
상기 유사데이터 생성 단계는,
상기 각 기준학습데이터의 생성할 유사데이터 개수 이상의 개수를 가지도록 상기 각 기준학습데이터 주변에서 주변학습데이터들을 선택하는 단계;
상기 주변학습데이터들 중에서, 상기 각 기준학습데이터로부터의 거리가 먼 순서로 상기 각 기준학습데이터의 생성할 유사데이터 개수만큼 원거리학습데이터들을 선택하는 단계; 및
상기 각 원거리학습데이터들과 상기 각 기준학습데이터를 잇는 선분을 기설정된 비율로 분할한 위치에 상기 각 기준학습데이터의 유사데이터를 생성하는 단계를 포함하는, 유사데이터 생성 방법.
제5항에 있어서,
상기 유사데이터 생성 단계는,
(a) 상기 각 기준학습데이터의 생성할 유사데이터 개수 이상의 개수만큼 상기 기준학습데이터 주변에서 주변학습데이터들을 선택하는 단계;
(b) 상기 주변학습데이터들 중에서 상기 각 기준학습데이터로부터의 거리가 가장 먼 최장거리데이터를 선택하는 단계;
(c) 상기 각 기준학습데이터와 상기 최장거리데이터를 잇는 선분을 기설정된 비율로 분할한 위치에 유사데이터를 생성하는 위치 선정 및 생성 단계; 및
(d) 상기 각 기준학습데이터의 생성할 유사데이터 개수만큼 유사데이터를 생성할때까지,
이미 선택된 최장거리데이터를 제외하면서 상기 (b)와 (c) 단계를 반복하는 단계를 포함하는, 유사데이터 생성 방법.
제6항 또는 제7항에 있어서,
상기 선분을 분할하는 상기 기설정된 비율은 0.5인 것을 특징으로 하는 유사데이터 생성 방법.
제6항 또는 제7항에 있어서,
상기 학습데이터는 결함이 있는 설비의 결함 상태 정보를 포함하는 데이터이고, 전체 데이터에서 상기 학습데이터를 제외한 데이터는 상기 설비의 결함이 없는 정상 상태 데이터인 것을 특징으로 하는 유사데이터 생성 방법.
인공지능 학습을 위한 학습데이터와 유사한 유사데이터를 생성하는 유사데이터 생성 장치로서,
복수의 개체데이터로 구성된 입력데이터를 입력 받고, 상기 입력데이터를 특성에 따라 집단 별로 분류하였을 때 개수가 적은 데이터 집단을 학습데이터 집단으로 선별하며, 상기 학습데이터 집단의 생성할 유사데이터 개수를 결정하는 클래스 정의부;
상기 학습데이터 집단을 구성하는 각각의 개체 학습데이터의 유사데이터 생성 가중치를 계산하고, 상기 각각의 개체 학습데이터의 유사데이터 생성 개수를 결정하는 생성 가중치 결정부; 및
상기 각각의 개체 학습데이터의 유사데이터들의 생성 위치를 결정하여 생성하는 데이터 생성부;를 포함하고,
상기 생성 가중치 결정부는,
상기 입력데이터를 특성에 따라 좌표계에 분류하는 데이터 분류부;
좌표계 상에서, 상기 학습데이터 집단 내에서 어느 하나의 개체데이터인 기준학습데이터로부터 기설정된 제1 거리 내에 있는 비학습데이터들 각각과 상기 기준학습데이터와의 거리의 합을 제1 거리합으로하고, 상기 제1 거리합을 상기 기준학습데이터로부터 상기 기설정된 제1 거리 내에 있는 모든 개체데이터들 각각과 상기 기준학습데이터와의 거리의 합으로 나눠서, 각각의 상기 기준학습데이터의 생성 가중치를 계산하는 가중치 계산부;
상기 각 기준학습데이터의 유사데이터 생성 가중치를, 전체 학습데이터들의 유사데이터 생성 가중치를 모두 합한 값으로 나눠서 상기 각 기준학습데이터의 유사데이터 생성 가중치를 정규화 하는 가중치 정규화부; 및
각각의 상기 기준학습데이터 별로 정규화된 상기 유사데이터 생성 가중치에 생성할 유사데이터 전체 개수를 곱한 값을 반올림하여, 상기 각 기준학습데이터 별로 생성할 유사데이터 개수를 결정하는 유사데이터 개수 계산부를 포함하는, 유사데이터 생성 장치.
제10항에 있어서,
상기 데이터 생성부는,
상기 각 기준학습데이터와 상기 각 기준학습데이터를 제외한 개체 학습데이터들 사이의 공간에 상기 각 기준학습데이터의 유사데이터들을 결정된 생성 개수만큼 생성하는, 유사데이터 생성 장치.
제11항에 있어서,
상기 클래스 정의부는,
기설정된 목표학습데이터들의 개수에서 상기 학습데이터 집단의 개체데이터 개수를 빼서 생성할 유사데이터들의 전체 개수를 결정하는, 유사데이터 생성 장치.
제12항에 있어서,
상기 가중치 계산부는,
상기 각 기준학습데이터와 다른 개체데이터들과의 좌표계 상의 거리를 계산하고,
상기 입력데이터 중에서 기설정된 개수만큼 상기 각 기준학습데이터로부터의 거리가 가까운 순서로 근거리데이터들을 선별하고,
상기 근거리데이터들 중에서 상기 각 기준학습데이터로부터 가장 거리가 먼 데이터와 상기 각 기준학습데이터와의 거리를 상기 기설정된 제1 거리로 결정하는, 유사데이터 생성 장치.
제13항에 있어서,
상기 데이터 생성부는,
상기 각 기준학습데이터의 생성할 유사데이터 개수 이상의 개수를 가지도록 상기 각 기준학습데이터 주변에서 개체 학습데이터들을 선택하고,
상기 선택된 개체 학습데이터들 중에서, 상기 각 기준학습데이터로부터의 거리가 먼 순서로 상기 각 기준학습데이터의 생성할 유사데이터 개수만큼 원거리학습데이터들을 선택하고,
상기 각 원거리학습데이터들과 상기 각 기준학습데이터를 잇는 선분을 기설정된 비율로 분할한 위치에 상기 각 기준학습데이터의 유사데이터를 생성하는, 유사데이터 생성 장치.
제13항에 있어서,
상기 데이터 생성부는,
상기 각 기준학습데이터의 생성할 유사데이터 개수 이상의 개수만큼 상기 기준학습데이터 주변에서 주변학습데이터들을 선택하고,
상기 주변학습데이터들 중에서 상기 각 기준학습데이터로부터의 거리가 가장 먼 최장거리데이터를 선택하고,
상기 각 기준학습데이터와 상기 최장거리데이터를 잇는 선분을 기설정된 비율로 분할한 위치에 유사데이터를 생성하며,
상기 각 기준학습데이터의 생성할 유사데이터 개수만큼 유사데이터를 생성할때까지,
이미 선택된 최장거리데이터를 제외하면서 다시 최장거리데이터를 선택하고, 다시 선택된 최장거리데이터를 이용하여 상기 각 기준학습데이터의 유사데이터를 생성하는 것을 반복하는, 유사데이터 생성 장치.
제14항 또는 제15항에 있어서,
상기 선분을 분할하는 상기 기설정된 비율은 0.5인 것을 특징으로 하는 유사데이터 생성 장치.