KR102247182B1

KR102247182B1 - 클러스터링 기법을 이용한 신규 데이터 생성 방법, 장치 및 프로그램

Info

Publication number: KR102247182B1
Application number: KR1020200178550A
Authority: KR
Inventors: 김세중; 박혜진
Original assignee: 주식회사 이글루시큐리티
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-05-03
Anticipated expiration: 2040-12-18

Abstract

본 발명은 클러스터링 기법을 이용한 신규 데이터 생성 방법에 관한 것으로, 머신 러닝을 위한 학습 데이터셋에서 데이터의 양이 부족한 도메인에 신규 데이터를 생성할 수 있는 효과가 있다.

Description

클러스터링 기법을 이용한 신규 데이터 생성 방법, 장치 및 프로그램 {Method, device and program for creating new data using clustering technique}

본 발명은 클러스터링 기법을 이용하여 신규 데이터를 생성하는 것으로, 보다 상세하게는 학습 데이터셋에서 데이터의 양이 미달되는 도메인에 신규 데이터를 생성하는 것이다.

머신 러닝을 진행하기 위해서는 많은 양의 학습 데이터가 필요하다.

하지만, 이러한 학습 데이터는 실제 발생 데이터 등을 샘플링하여 획득하기 때문에, 학습을 위한 모든 데이터 도메인을 커버하지 못하여 데이터 공백이 발생한다는 문제점이 있으며, 이는 머신 러닝의 학습에 영향을 끼치게 된다.

위와 같은 문제점을 해결하기 위해서는 모든 도메인에 데이터가 존재하도록 해야 하지만, 현재로서는 이를 구현하기 위한 기술이 공개되어 있지 않은 실정이다.

대한민국 등록특허공보 제 10-2147097호, (2020.08.18)

상술한 바와 같은 문제점을 해결하기 위한 본 발명은 머신 러닝을 위한 학습 데이터셋에서 데이터의 양이 미달되는 도메인에 신규 데이터를 생성하고자 한다.

또한, 본 발명은 원본 데이터셋 내 원본 데이터를 벡터라이징하여 N차원 공간 내에 포인트로 매핑하고, 기 설정된 알고리즘을 통해서 N차원 공간 내 원본 데이터가 부족한 것으로 판단되는 공간을 생성하여 랜덤 포인트를 찾아내고, 랜덤 포인트에 대한 역벡터를 기반으로 신규 데이터를 생성하고자 한다.

본 발명이 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

상술한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 클러스터링 기법을 이용한 신규 데이터 생성 방법은, 컴퓨터에 의해 수행되는 방법으로, 원본 데이터셋 내 각각의 원본 데이터를 벡터라이징하여 N차원 공간 내에 제1 포인트로 매핑하는 단계; 상기 매핑된 제1 포인트를 클러스터링 기법 기반으로 그룹화하고, 각 그룹의 N차원 공간 내 중심점을 도출하는 단계; 상기 N차원 공간 내에 복수 개의 후보 포인트를 랜덤으로 생성하는 단계; 상기 N차원 공간 내에서, 적어도 하나의 중심점의 평균값으로부터 가장 멀리 위치한 적어도 하나의 후보 포인트를 제2 포인트(P)로 선택하는 단계; 상기 N차원 공간에 상기 선택된 제2 포인트(P)를 포함하는 부분 공간(

)을 생성하는 단계; 및 상기 부분 공간 내에 적어도 하나의 랜덤 포인트(R)를 생성하는 단계를 포함한다.

또한, 상술한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 클러스터링 기법을 이용한 신규 데이터 생성 방법은, 컴퓨터에 의해 수행되는 방법으로, 원본 데이터셋 내 각각의 원본 데이터를 벡터라이징하여 N차원 공간 내에 제1 포인트로 매핑하는 단계; 상기 매핑된 제1 포인트를 클러스터링 기법 기반으로 그룹화하고, 각 그룹의 N차원 공간 내 중심점을 도출하는 단계; 상기 N차원 공간 내에서 적어도 하나의 중심점의 평균값으로부터 가장 멀리 위치한 제2 포인트(P)를 도출하는 단계; 상기 N차원 공간에 제2 포인트(P)를 포함하는 부분 공간(

또한, 상기 랜덤 포인트 생성 단계 다음에, 상기 랜덤 포인트에 대한 역벡터를 기반으로 신규 데이터를 생성하는 단계를 더 포함할 수 있다.

또한, 상기 컴퓨터는, 상기 부분 공간(

) 내에 하기 수학식 1을 만족하는 적어도 하나의 불특정 포인트(M)을 생성하고, 상기 불특정 포인트(M) 중에서 기준 조건을 만족하는 불특정 포인트(M)를 선택하여 상기 랜덤 포인트(R)을 생성하고, 상기 부분 공간의 법선 벡터 n이 하기 수학식 2를 만족하도록 상기 부분 공간을 생성할 수 있다.

[수학식 1]

(P(x_i, y_i, z_i): 제2 포인트, M(x, y, z): 불특정 포인트)

[수학식 2]

또한, 상기 기준 조건은 상기 부분 공간 내에서 불특정 포인트(M)와 제2 포인트의 거리가 기 설정된 최대 거리보다 작은 것을 조건으로 하고, 상기 컴퓨터는 불특정 포인트(M) 중에서 하기 수학식 3을 만족하는 적어도 하나의 불특정 포인트(M)를 랜덤 포인트(R)로 선택할 수 있다.

[수학식 3]

,

(

, R(x_r, y_r, z_r): 랜덤 포인트, P(x_i, y_i, z_i): 제2 포인트, d: 거리,

: 최대 거리,)

또한, 상술한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 클러스터링 기법을 이용한 신규 데이터 생성 장치는, 원본 데이터셋 내 각각의 원본 데이터를 벡터라이징하여 N차원 공간 내에 제1 포인트로 매핑하고, 상기 매핑된 제1 포인트를 클러스터링 기법 기반으로 그룹화하고, 각 그룹의 N차원 공간 내 중심점을 도출하고, 상기 N차원 공간 내에서 적어도 하나의 중심점의 평균값으로부터 가장 멀리 위치한 제2 포인트(P)를 도출하고, 상기 N차원 공간에 제2 포인트(P)를 포함하는 부분 공간(

)을 생성하고, 상기 부분 공간 내에 적어도 하나의 랜덤 포인트(R)를 생성하는 프로세서를 포함한다.

또한, 상술한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 클러스터링 기법을 이용한 신규 데이터 생성 장치는, 원본 데이터셋 내 각각의 원본 데이터를 벡터라이징하여 N차원 공간 내에 제1 포인트로 매핑하고, 상기 매핑된 제1 포인트를 클러스터링 기법 기반으로 그룹화하고, 각 그룹의 N차원 공간 내 중심점을 도출하고, 상기 N차원 공간 내에 복수 개의 후보 포인트를 랜덤으로 생성하고, 상기 N차원 공간 내에서, 적어도 하나의 중심점의 평균값으로부터 가장 멀리 위치한 적어도 하나의 후보 포인트를 제2 포인트(P)로 선택하고, 상기 N차원 공간에 상기 선택된 제2 포인트(P)를 포함하는 부분 공간(

또한, 상술한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 클러스터링 기법을 이용한 신규 데이터 생성 장치는, 머신 러닝을 위한 학습 데이터셋에서 데이터의 양이 미달되는 도메인에 신규 데이터를 생성하는 장치로, 원본 데이터셋 내 각각의 원본 데이터를 벡터라이징 하여 N차원 공간 내에 제1 포인트로 매핑하고, 상기 매핑된 제1포인트를 클러스터링 기법 기반으로 그룹화하고, 각 그룹의 N차원 공간 내 중심점을 도출하고, 상기 N차원 공간 내에서 상기 도출된 중심점의 평균값으로부터 가장 멀리 위치한 제2 포인트를 도출하고, 상기 제2 포인트로부터 일정 범위 내의 공간을 상기 데이터의 양이 미달되는 도메인으로 판단하고, 상기 제2 포인트 일정 범위 내에서 상기 입력 데이터가 존재하지 않는 영역에 랜덤 포인트를 생성하고, 상기 랜덤 포인트에 대한 역벡터를 기반으로 상기 신규 데이터를 생성하는 프로세서를 포함한다.

이 외에도, 본 발명을 구현하기 위한 다른 방법, 다른 시스템 및 상기 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체가 더 제공될 수 있다.

상기와 같은 본 발명에 따르면, 머신 러닝을 위한 학습 데이터셋에서 데이터의 양이 미달되는 도메인에 신규 데이터를 생성할 수 있는 효과가 있다.

또한, 본 발명에 따르면, 원본 데이터셋 내 원본 데이터를 벡터라이징하여 N차원 공간 내에 포인트로 매핑하고, 기 설정된 알고리즘을 통해서 N차원 공간 내 원본 데이터가 미달되는 것으로 판단되는 공간을 생성하여 랜덤 포인트를 생성한 후, 랜덤 포인트에 대한 역벡터를 기반으로 신규 데이터를 생성할 수 있는 효과가 있다.

본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 실시예에 따른 클러스터링 기법을 이용한 신규 데이터 생성 시스템의 블록도이다.
도 2는 본 발명의 제1 실시예에 따른 클러스터링 기법을 이용한 신규 데이터 생성 방법의 흐름도이다.
도 3은 본 발명의 제2 실시예에 따른 클러스터링 기법을 이용한 신규 데이터 생성 방법의 흐름도이다.
도 4는 본 발명의 실시예에 따른 3차원 공간(구)을 예시한 도면이다.
도 5는 도 4의 3차원 공간에 제1 포인트를 매핑한 것을 예시한 도면이다.
도 6은 도 5에 매핑된 제1 포인트의 각 그룹의 중심점을 도시한 도면이다.
도 7은 중심점 확인이 용이하도록 도 6에서 제1 포인트를 제외한 도면이다.
도 8은 도 4의 3차원 공간에 후보 포인트를 랜덤으로 생성한 것을 예시한 도면이다.
도 9는 부분 공간 내에 랜덤 포인트를 생성한 것을 예시한 도면이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.

도 1은 본 발명의 실시예에 따른 클러스터링 기법을 이용한 신규 데이터 생성 시스템(10)의 블록도이다.

도 2는 본 발명의 제1 실시예에 따른 클러스터링 기법을 이용한 신규 데이터 생성 방법의 흐름도이다.

도 3은 본 발명의 제2 실시예에 따른 클러스터링 기법을 이용한 신규 데이터 생성 방법의 흐름도이다.

도 4 내지 도 9는 본 발명의 실시예에 따른 클러스터링 기법을 이용한 신규 데이터 생성 시스템(10)을 설명하기 위한 각종 예시 도면이다.

이하, 도 1 내지 도 9를 참조하여, 본 발명의 실시예에 따른 클러스터링 기법을 이용한 신규 데이터 생성 방법, 장치에 대해서 설명하도록 한다.

이하 실시예에서 본 발명의 실시예에 따른 클러스터링 기법을 이용한 신규 데이터 생성 장치(100)를 신규 데이터 생성 장치(100)로 축약하여 명명하도록 한다.

본 발명의 실시예에서 신규 데이터 생성 장치(100)는 컴퓨터, 정보 처리 장치와 같은 수단이 주체로 적용될 수 있으며, 신규 데이터 생성 서버로 구현될 수도 있다.

본 발명의 실시예에 따른 신규 데이터 생성 장치(100)는 프로세서(110), 통신부(120), 메모리(130) 및 입출력부(140)를 포함한다.

다만, 몇몇 실시예에서 신규 데이터 생성 장치(100)는 도 1에 도시된 구성요소보다 더 적은 수의 구성요소나 더 많은 구성요소를 포함할 수도 있다.

프로세서(110)는 신규 데이터 생성 장치(100) 내 모든 구성들의 제어를 담당하며, 메모리(130)에 저장된 알고리즘, 수학식을 이용하여 본 발명의 프로세스를 수행할 수 있다.

몇몇 실시예에서 프로세서(110)는 데이터값 산출을 위한 산출부, 포인트 도출을 위한 도출부를 구성으로 더 포함할 수도 있다.

통신부(120)는 유/무선 통신 모듈로 구성될 수 있으며, 외부로부터 원본 데이터셋을 수신하고, 신규 데이터 생성 장치(100)를 통해 생성된 신규 데이터, 신규 데이터셋을 외부로 전송할 수 있다.

입출력부(140)는 신규 데이터 생성 장치(100)를 사용자는 사용자로부터 각종 제어 신호를 입력받거나, 각종 데이터를 출력하여 제공할 수 있으며, 예를 들어 도 4 내지 도 9와 같은 N차원 공간(20)을 시각화하여 디스플레이할 수 있다.

몇몇 실시예에서, 통신부(120), 입출력부(140)는 구성이 생략될 수도 있다.

신규 데이터 생성 장치(100) 내 각 구성들의 상세한 설명은 도 2, 도 3에 따른 데이터 생성 방법의 흐름도를 참고하여 설명하도록 한다.

클러스터링 기법을 이용한 신규 데이터 생성 방법은 제1 실시예 또는 제2 실시예로 수행될 수 있으며, 결론적으로 부분 공간 내에 랜덤 포인트(70)를 생성하고, 이에 대한 역벡터를 기반으로 신규 데이터를 생성하는 것은 동일하지만 중간 과정에 차이점이 있다.

먼저, 도 2를 참조하여 본 발명의 제1 실시예에 따른 클러스터링 기법을 이용한 신규 데이터 생성 방법을 설명하도록 한다.

먼저, 신규 데이터 생성 장치(100)가 통신부(120)를 통해 외부로부터 원본 데이터셋을 수신한다.

다음으로, 프로세서(110)가 원본 데이터셋 내 각각의 원본 데이터를 벡터라이징(Vectorizing)하여 N차원 공간(20) 내에 제1 포인트로 매핑한다. (S110)

머신러닝 학습을 위해서는 모든 데이터를 컴퓨터가 이해할 수 있는 숫자형 데이터로 치환하는 것이 일반적이다.

따라서, 신규 데이터 생성 장치(100)는 원본 데이터셋이 수신되면, 벡터라이징을 통해 일반적인 평문(Normal text)을 일련의 숫자(Vector)로 치환하게 된다.

도 4는 본 발명의 실시예에 따른 3차원 공간(20, 구)을 예시한 도면이다.

도 5는 도 4의 3차원 공간(20)에 제1 포인트를 매핑한 것을 예시한 도면이다.

본 발명의 목적은 머신 러닝을 위한 학습 데이터셋에서 데이터의 양이 미달되는 도메인에 신규 데이터를 생성하는 것이다.

본 출원인은 다수의 테스트를 진행하며, 벡터라이징된 데이터를 N차원 공간(20) 내에 포인트로 매핑하면 어떠한 도메인에 데이터가 부족하거나 공백이 존재하는지 판단할 수 있다는 결과를 얻게 되었다.

따라서, 도 4와 같은 N차원 공간(20)에 벡터라이징된 원본 데이터의 벡터를 제1 포인트(30)로 매핑함으로써, 원본 데이터셋의 데이터 상황/균형도를 확인할 수 있게 된다.

도 5를 참조하면, 3차원 공간(20)의 상측에 제1 포인트(30)가 밀집되어 있으며, 하측으로 갈수록 제1 포인트(30)의 수가 현저하게 감소하는 것을 알 수 있다.

이를 통해서, 해당 원본 데이터셋은 3차원 공간(20)의 하측에 해당하는 도메인에 데이터가 부족하거나 비어있다는 것을 알 수 있다.

본 발명의 실시예에서 도 4 내지 도 9와 같이 N차원 공간(20)을 구(sphere)로 예시하였지만, 이에 한정되는 것은 아니다.

몇몇 실시예에서는 원본 데이터의 분석 결과, 벡터라이징 결과 등을 기반으로 차원, 도형의 형상을 결정할 수도 있다.

S110 다음으로, 프로세서(110)가 S110에서 매핑된 제1 포인트를 클러스터링 기법 기반으로 그룹화하고, 각 그룹의 N차원 공간(20) 내 중심점(40, Centroid)을 도출한다. (S120)

보다 상세하게는, 도 5와 같이 3차원 공간(20)에 다수의 제1 포인트(30)가 표시되었지만, 특정 조건에 따라 그룹이 나눠질 수 있다.

예를 들어, 공격 유형, 공격 시간 등과 같이 기 설정된 조건에 따라 그룹이 나눠질 수도 있고, 입출력부(140)를 통해 입력된 사용자의 조건에 따라서 그룹이 나눠질 수도 있다.

프로세서(110)는 제1 포인트(30)들을 적어도 하나의 그룹으로 그룹화하게 되며, 각 그룹 내 제1 포인트(30)들의 좌표를 기반으로 산출하여 중심점(40)을 도출하게 된다.

도 6은 도 5에 매핑된 제1 포인트(30)의 각 그룹의 중심점(40)을 도시한 도면이다.

도 7은 중심점(40) 확인이 용이하도록 도 6에서 제1 포인트를 제외한 도면이다.

도 7을 참조하면, 각 그룹의 중심점(40)을 좀 더 명확하게 확인할 수 있다.

S120 다음으로, 프로세서(110)가 N차원 공간(20)의 서로 다른 위치에 복수 개의 후보 포인트(50)를 랜덤으로 생성한다. (S130)

S130 다음으로, 프로세서(110)가 N차원 공간(20) 내에서 적어도 하나의 중심점(40)의 평균값으로부터 가장 멀리 위치한 적어도 하나의 후보 포인트(50)를 제2 포인트(60, P)로 선택한다. (S140)

도 8은 도 4의 3차원 공간(20)에 후보 포인트(50)를 랜덤으로 생성한 것을 예시한 도면이다.

도 9는 부분 공간 내에 랜덤 포인트(70)를 생성한 것을 예시한 도면이다.

프로세서(110)는 S120에서 도출된 중심점(40)들의 평균값을 산출하고, 후보 포인트(50) 중에서 평균값과 가장 멀리 위치한 후보 포인트(50)를 제2 포인트(60)로 선택한다.

도 9를 참조하면, 후보 포인트(50) 중 하나가 제2 포인트(60)로 선택된 것이 예시되어 있다.

위와 같은 프로세스를 통해서, 프로세서(110)는 제2 포인트(60)는 데이터가 가장 많이 집중되어 있는 도메인 영역과 반대 위치, 가장 멀리 있는 위치, 가장 알려지지 않은 위치에 해당된다고 판단할 수 있다.

S140 다음으로, 프로세서(110)가 제2 포인트(60)를 포함하는 부분 공간(

)을 생성한다. (S150)

일 실시예로, 프로세서(110)는 제2 포인트(60)가 결정되면, 제2 포인트(60)를 기반으로 목표 포인트를 추출하기 위한 부분 공간을 계산한다.

도면과 같은 3차원 공간(20)은 원본 데이터 및 확인되지 않은 데이터를 모두 포함하는 것으로, 아래 수학식 1로 정의될 수 있다.

이때, 3차원 공간(20)의 각 축의 편미분은 하기 수학식 2와 같이 나타낼 수 있다.

제2 포인트(60, P)의 좌표가 (x_i, y_i, z_i)라고 가정할 때, 프로세서(110)는 부분 공간의 법선(Normal Vector) 벡터 n이 아래와 같은 수학식 3을 만족하도록 부분 공간을 생성하는 것을 특징으로 한다.

따라서, 3차원 공간(20)과 접면하는 부분 공간의 법선은 3차원 공간(20)에 대한 각 축의 편미분에 제2 포인트(60, P)를 대입한 (2xi, 2yi, 2zi)와 3차원 공간(20)의 중심점 (0, 0, 0)을 포함하는 벡터이며, 수학식 3으로 나타낼 수 있다.

S150 다음으로, 프로세서(110)가 부분 공간 내에 적어도 하나의 랜덤 포인트(70)를 생성한다. (S160)

S160 다음으로, 프로세서(110)가 랜덤 포인트(70)에 대한 역벡터를 기반으로 신규 데이터를 생성한다. (S170)

도 9를 참조하면, 프로세서(110)가 3차원 공간(20)의 부분 공간(미도시)에 복수 개의 랜덤 포인트(70)를 생성한 것이 예시되어 있다.

신규 데이터 생성 장치(100)는 S110 내지 S150을 통해서 제2 포인트(60, P)를 선택하게 되었고, 이와 같이 선택된 제2 포인트(60, P)를 기반으로 생성된 부분 공간은 데이터의 양이 미달되거나 데이터의 공백이 존재하는 영역을 의미한다.

따라서, 신규 데이터 생성 장치(100)는 부분 공간 내에 랜덤 포인트(70)를 생성하고, 랜덤 포인트(70)에 대한 역벡터를 기반으로 신규 데이터를 생성함으로써, 데이터가 미달되거나 데이터의 공백이 존재하는 영역에 대한 신규 데이터를 생성할 수 있게 된다.

이때, S160은 부분 공간 내에서도 제2 포인트(60, P)와 충분히 가까이 있는 랜덤 포인트(70)를 생성하기 위한 단계가 더 포함될 수 있다.

프로세서(110)가 부분 공간(

) 내에 하기 수학식 4를 만족하는 적어도 하나의 불특정 포인트(M)을 생성한다.

따라서, 부분 공간에 포함되어 있는 제2 포인트(60, P)와 부분 공간 상에 있는 불특정 포인트(M)을 잇는 벡터PM과, 수학식 3에서 정의한 법선은 직각을 이루게 된다.

이를 나타내는 것은 아래 수학식 4이며, 벡터 PM과 n을 수식화하여 내적 계산한 것이 수학식 6에 해당된다.

또한, 수학식 6에서 도출된 부분 공간에서 기존에 도출된 제2 포인트(60, P)와 가까 있는 랜덤 포인트(70, R)를 추출하는 필요조건을 정의한 것이 수학식 5에 해당한다.

(P(x_i, y_i, z_i): 제2 포인트(60), M(x, y, z): 불특정 포인트)

다음으로, 프로세서(110)가 불특정 포인트(M) 중에서 기준 조건을 만족하는 불특정 포인트를 선택하여 랜덤 포인트(70, R)를 생성하는 것을 특징으로 한다.

이때, 기준 조건은 부분 공간 내에서 불특정 포인트와 제2 포인트(60)의 거리가 기 설정된 최대 거리보다 작은 것을 조건으로 한다.

상세하게는, 프로세서(110)는 불특정 포인트 중에서 하기 수학식 5를 만족하는 적어도 하나의 불특정 포인트를 랜덤 포인트(70, R)로 선택하는 것을 특징으로 한다.

(

, R(x_r, y_r, z_r): 랜덤 포인트(70), P(x_i, y_i, z_i): 제2 포인트(60), d: 거리,

: 최대 거리)

이때, 제2 포인트(60, P)를 포함하는 부분 공간(

)은 아래 수학식 6과 같이 정의될 수 있다.

다음으로, 도 3을 참조하여 본 발명의 제2 실시예에 따른 클러스터링 기법을 이용한 신규 데이터 생성 방법을 설명하도록 한다.

S110 및 S120은 제1 실시예와 동일하므로, 생략하고 그 다음 단계부터 설명하도록 한다.

S120 다음으로, 프로세서(110)가 N차원 공간(20) 내에서 적어도 하나의 중심점(40)의 평균값으로부터 가장 멀리 위치한 제2 포인트(60, P)를 도출한다. (S135)

보다 상세하게는, 프로세서(110)가 S120에서 도출된 복수 개의 중심점(40) 중에서 적어도 하나의 중심점(40)의 평균값을 산출하고, N차원 공간(20) 내에서 평균값으로부터 가장 멀리 위치한 제2 포인트(60, P)를 도출한다.

이때, S120에서 도출된 모든 중심점(40)들의 평균값을 산출하는 것이 바람직하지만, 이에 한정되는 것은 아니다.

S135 다음으로, 프로세서(110)가 제2 포인트(60)를 포함하는 부분 공간(

)을 생성한다. (S150)

S150, S160 및 S170은 제1 실시예에서 설명한 바와 동일하므로, 중복되는 설명은 생략하도록 한다.

일 실시예로, 클러스터링 기법을 이용한 신규 데이터 생성 장치는, 머신 러닝을 위한 학습 데이터셋에서 데이터의 양이 미달되는 도메인에 신규 데이터를 생성하기 위한 장치로, 원본 데이터셋 내 원본 데이터를 벡터라이징 하여 N차원 공간 내에 제1 포인트로 매핑하고, 매핑된 제2 포인트를 클러스터링 기법 기반으로 그룹화하고, 각 그룹의 N차원 공간 내 중심점을 도출하고, N차원 공간 내에서 상기 도출된 중심중 적어도 하나의 중심점의 평균값으로부터 가장 멀리 위치한 제2 포인트를 도출하고, 제2 포인트로부터 일정 범위 내의 공간을 데이터의 양이 미달되는 도메임으로 판단하고, 제2 포인트 일정 범위 내에서 원본 데이터가 존재하지 않는 영역에 랜덤 포인트를 생성하고, 랜덤 포인트에 대한 역벡터를 기반으로 신규 데이터를 생성할 수 있다.

이상에서 전술한 본 발명의 일 실시예에 따른 방법은, 하드웨어인 서버와 결합되어 실행되기 위해 프로그램(또는 어플리케이션)으로 구현되어 매체에 저장될 수 있다.

상기 전술한 프로그램은, 상기 컴퓨터가 프로그램을 읽어 들여 프로그램으로 구현된 상기 방법들을 실행시키기 위하여, 상기 컴퓨터의 프로세서(CPU)가 상기 컴퓨터의 장치 인터페이스를 통해 읽힐 수 있는 C, C++, JAVA, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. 이러한 코드는 상기 방법들을 실행하는 필요한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Functional Code)를 포함할 수 있고, 상기 기능들을 상기 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수 있다. 또한, 이러한 코드는 상기 기능들을 상기 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 상기 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조되어야 하는지에 대한 메모리 참조관련 코드를 더 포함할 수 있다. 또한, 상기 컴퓨터의 프로세서가 상기 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 상기 컴퓨터의 통신 모듈을 이용하여 원격에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수 있다.

상기 저장되는 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상기 저장되는 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 상기 프로그램은 상기 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사용자의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다. 또한, 상기 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장될 수 있다.

본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.

이상, 첨부된 도면을 참조로 하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.

10: 클러스터링 기법을 이용한 신규 데이터 생성 시스템
20: N차원 공간
30: 제1 포인트
40: 중심점
50: 후보 포인트
60: 제2 포인트
70: 랜덤 포인트
100: 데이터 생성 장치
110: 프로세서
120: 통신부
130: 메모리
140: 입출력부

Claims

컴퓨터에 의해 수행되는 방법으로,
원본 데이터셋 내 각각의 원본 데이터를 벡터라이징하여 N차원 공간 내에 제1 포인트로 매핑하는 단계;
상기 매핑된 제1 포인트를 클러스터링 기법 기반으로 그룹화하고, 각 그룹의 N차원 공간 내 중심점을 도출하는 단계;
상기 N차원 공간 내에 복수 개의 후보 포인트를 랜덤으로 생성하는 단계;
상기 N차원 공간 내에서, 적어도 하나의 중심점의 평균값으로부터 가장 멀리 위치한 적어도 하나의 후보 포인트를 제2 포인트(P)로 선택하는 단계;
상기 N차원 공간에 상기 선택된 제2 포인트(P)를 포함하는 부분 공간(
)을 생성하는 단계; 및
상기 부분 공간 내에 적어도 하나의 랜덤 포인트(R)를 생성하는 단계를 포하며,
상기 컴퓨터는,
상기 부분 공간(
) 내에 하기 수학식 1을 만족하는 적어도 하나의 불특정 포인트(M)을 생성하고,
상기 불특정 포인트(M) 중에서 기준 조건을 만족하는 불특정 포인트(M)를 선택하여 상기 랜덤 포인트(R)을 생성하고,
상기 부분 공간의 법선 벡터 n이 하기 수학식 2를 만족하도록 상기 부분 공간을 생성하는 것을 특징으로 하는,
클러스터링 기법을 이용한 신규 데이터 생성 방법.
[수학식 1]

(P(x_i, y_i, z_i): 제2 포인트, M(x, y, z): 불특정 포인트)
[수학식 2]
컴퓨터에 의해 수행되는 방법으로,
원본 데이터셋 내 각각의 원본 데이터를 벡터라이징하여 N차원 공간 내에 제1 포인트로 매핑하는 단계;
상기 매핑된 제1 포인트를 클러스터링 기법 기반으로 그룹화하고, 각 그룹의 N차원 공간 내 중심점을 도출하는 단계;
상기 N차원 공간 내에서 적어도 하나의 중심점의 평균값으로부터 가장 멀리 위치한 제2 포인트(P)를 도출하는 단계;
상기 N차원 공간에 제2 포인트(P)를 포함하는 부분 공간(
)을 생성하는 단계; 및
상기 부분 공간 내에 적어도 하나의 랜덤 포인트(R)를 생성하는 단계를 포함하며,
상기 컴퓨터는,
상기 부분 공간(
) 내에 하기 수학식 1을 만족하는 적어도 하나의 불특정 포인트(M)을 생성하고,
상기 불특정 포인트(M) 중에서 기준 조건을 만족하는 불특정 포인트(M)를 선택하여 상기 랜덤 포인트(R)을 생성하고,
상기 부분 공간의 법선 벡터 n이 하기 수학식 2를 만족하도록 상기 부분 공간을 생성하는 것을 특징으로 하는,
클러스터링 기법을 이용한 신규 데이터 생성 방법.
[수학식 1]

(P(x_i, y_i, z_i): 제2 포인트, M(x, y, z): 불특정 포인트)
[수학식 2]
컴퓨터에 의해 수행되는, 머신 러닝을 위한 학습 데이터셋에서 데이터의 양이 미달되는 도메인에 신규 데이터를 생성하는 방법으로,
원본 데이터셋 내 각각의 원본 데이터를 벡터라이징 하여 N차원 공간 내에 제1 포인트로 매핑하는 단계;
상기 매핑된 제1포인트를 클러스터링 기법 기반으로 그룹화하고, 각 그룹의 N차원 공간 내 중심점을 도출하는 단계;
상기 N차원 공간 내에서 상기 도출된 중심점의 평균값으로부터 가장 멀리 위치한 제2 포인트를 도출하는 단계;
상기 제2 포인트로부터 일정 범위 내의 공간을 상기 데이터의 양이 미달되는 도메인으로 판단하는 단계;
상기 제2 포인트로부터 일정 범위 내에서 상기 원본 데이터가 존재하지 않는 영역에 랜덤 포인트를 생성하는 단계; 및
상기 랜덤 포인트에 대한 역벡터를 기반으로 상기 신규 데이터를 생성하는 단계를 포함하는,
클러스터링 기법을 이용한 신규 데이터 생성 방법.
제1항 또는 제2항에 있어서,
상기 랜덤 포인트 생성 단계 다음에,
상기 랜덤 포인트에 대한 역벡터를 기반으로 신규 데이터를 생성하는 단계를 더 포함하는,
클러스터링 기법을 이용한 신규 데이터 생성 방법.
제1항 또는 제2항에 있어서,
상기 기준 조건은 상기 부분 공간 내에서 불특정 포인트(M)와 제2 포인트의 거리가 기 설정된 최대 거리보다 작은 것을 조건으로 하고,
상기 컴퓨터는 불특정 포인트(M) 중에서 하기 수학식 3을 만족하는 적어도 하나의 불특정 포인트(M)를 랜덤 포인트(R)로 선택하는 것을 특징으로 하는,
클러스터링 기법을 이용한 신규 데이터 생성 방법.
[수학식 3]

,
(
, R(x_r, y_r, z_r): 랜덤 포인트, P(x_i, y_i, z_i): 제2 포인트, d: 거리,
: 최대 거리,)
원본 데이터셋 내 각각의 원본 데이터를 벡터라이징하여 N차원 공간 내에 제1 포인트로 매핑하고,
상기 매핑된 제1 포인트를 클러스터링 기법 기반으로 그룹화하고, 각 그룹의 N차원 공간 내 중심점을 도출하고,
상기 N차원 공간 내에서 적어도 하나의 중심점의 평균값으로부터 가장 멀리 위치한 제2 포인트(P)를 도출하고,
상기 N차원 공간에 제2 포인트(P)를 포함하는 부분 공간(
)을 생성하고,
상기 부분 공간 내에 적어도 하나의 랜덤 포인트(R)를 생성하는 프로세서를 포함하고,
상기 프로세서는,
상기 부분 공간(
) 내에 하기 수학식 1을 만족하는 적어도 하나의 불특정 포인트(M)을 생성하고,
상기 불특정 포인트(M) 중에서 기준 조건을 만족하는 불특정 포인트(M)를 선택하여 상기 랜덤 포인트(R)을 생성하고,
상기 부분 공간의 법선 벡터 n이 하기 수학식 2를 만족하도록 상기 부분 공간을 생성하는 것을 특징으로 하는,
클러스터링 기법을 이용한 신규 데이터 생성 장치.
[수학식 1]

(P(x_i, y_i, z_i): 제2 포인트, M(x, y, z): 불특정 포인트)
[수학식 2]
원본 데이터셋 내 각각의 원본 데이터를 벡터라이징하여 N차원 공간 내에 제1 포인트로 매핑하고,
상기 매핑된 제1 포인트를 클러스터링 기법 기반으로 그룹화하고, 각 그룹의 N차원 공간 내 중심점을 도출하고,
상기 N차원 공간 내에 복수 개의 후보 포인트를 랜덤으로 생성하고,
상기 N차원 공간 내에서, 적어도 하나의 중심점의 평균값으로부터 가장 멀리 위치한 적어도 하나의 후보 포인트를 제2 포인트(P)로 선택하고,
상기 N차원 공간에 상기 선택된 제2 포인트(P)를 포함하는 부분 공간(
)을 생성하고,
상기 부분 공간 내에 적어도 하나의 랜덤 포인트(R)를 생성하는 프로세서를 포함하고,
상기 프로세서는,
상기 부분 공간(
) 내에 하기 수학식 1을 만족하는 적어도 하나의 불특정 포인트(M)을 생성하고,
상기 불특정 포인트(M) 중에서 기준 조건을 만족하는 불특정 포인트(M)를 선택하여 상기 랜덤 포인트(R)을 생성하고,
상기 부분 공간의 법선 벡터 n이 하기 수학식 2를 만족하도록 상기 부분 공간을 생성하는 것을 특징으로 하는,
클러스터링 기법을 이용한 신규 데이터 생성 장치.
[수학식 1]

(P(x_i, y_i, z_i): 제2 포인트, M(x, y, z): 불특정 포인트)
[수학식 2]
머신 러닝을 위한 학습 데이터셋에서 데이터의 양이 미달되는 도메인에 신규 데이터를 생성하는 장치로,
원본 데이터셋 내 각각의 원본 데이터를 벡터라이징 하여 N차원 공간 내에 제1 포인트로 매핑하고,
상기 매핑된 제1포인트를 클러스터링 기법 기반으로 그룹화하고, 각 그룹의 N차원 공간 내 중심점을 도출하고,
상기 N차원 공간 내에서 상기 도출된 중심점의 평균값으로부터 가장 멀리 위치한 제2 포인트를 도출하고,
상기 제2 포인트로부터 일정 범위 내의 공간을 상기 데이터의 양이 미달되는 도메인으로 판단하고,
상기 제2 포인트로부터 일정 범위 내에서 상기 원본 데이터가 존재하지 않는 영역에 랜덤 포인트를 생성하고,
상기 랜덤 포인트에 대한 역벡터를 기반으로 상기 신규 데이터를 생성하는 프로세서를 포함하는,
클러스터링 기법을 이용한 신규 데이터 생성 장치.
하드웨어인 컴퓨터와 결합되어, 제1항 내지 제3항 중 어느 한 항의 방법을 실행시키기 위한 프로그램이 저장된 컴퓨터 판독 가능 기록매체.