KR102247182B1 - 클러스터링 기법을 이용한 신규 데이터 생성 방법, 장치 및 프로그램 - Google Patents
클러스터링 기법을 이용한 신규 데이터 생성 방법, 장치 및 프로그램 Download PDFInfo
- Publication number
- KR102247182B1 KR102247182B1 KR1020200178550A KR20200178550A KR102247182B1 KR 102247182 B1 KR102247182 B1 KR 102247182B1 KR 1020200178550 A KR1020200178550 A KR 1020200178550A KR 20200178550 A KR20200178550 A KR 20200178550A KR 102247182 B1 KR102247182 B1 KR 102247182B1
- Authority
- KR
- South Korea
- Prior art keywords
- point
- dimensional space
- subspace
- unspecified
- new data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000012549 training Methods 0.000 claims abstract description 12
- 238000010801 machine learning Methods 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 22
- 238000013507 mapping Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
도 2는 본 발명의 제1 실시예에 따른 클러스터링 기법을 이용한 신규 데이터 생성 방법의 흐름도이다.
도 3은 본 발명의 제2 실시예에 따른 클러스터링 기법을 이용한 신규 데이터 생성 방법의 흐름도이다.
도 4는 본 발명의 실시예에 따른 3차원 공간(구)을 예시한 도면이다.
도 5는 도 4의 3차원 공간에 제1 포인트를 매핑한 것을 예시한 도면이다.
도 6은 도 5에 매핑된 제1 포인트의 각 그룹의 중심점을 도시한 도면이다.
도 7은 중심점 확인이 용이하도록 도 6에서 제1 포인트를 제외한 도면이다.
도 8은 도 4의 3차원 공간에 후보 포인트를 랜덤으로 생성한 것을 예시한 도면이다.
도 9는 부분 공간 내에 랜덤 포인트를 생성한 것을 예시한 도면이다.
20: N차원 공간
30: 제1 포인트
40: 중심점
50: 후보 포인트
60: 제2 포인트
70: 랜덤 포인트
100: 데이터 생성 장치
110: 프로세서
120: 통신부
130: 메모리
140: 입출력부
Claims (9)
- 컴퓨터에 의해 수행되는 방법으로,
원본 데이터셋 내 각각의 원본 데이터를 벡터라이징하여 N차원 공간 내에 제1 포인트로 매핑하는 단계;
상기 매핑된 제1 포인트를 클러스터링 기법 기반으로 그룹화하고, 각 그룹의 N차원 공간 내 중심점을 도출하는 단계;
상기 N차원 공간 내에 복수 개의 후보 포인트를 랜덤으로 생성하는 단계;
상기 N차원 공간 내에서, 적어도 하나의 중심점의 평균값으로부터 가장 멀리 위치한 적어도 하나의 후보 포인트를 제2 포인트(P)로 선택하는 단계;
상기 N차원 공간에 상기 선택된 제2 포인트(P)를 포함하는 부분 공간()을 생성하는 단계; 및
상기 부분 공간 내에 적어도 하나의 랜덤 포인트(R)를 생성하는 단계를 포하며,
상기 컴퓨터는,
상기 부분 공간() 내에 하기 수학식 1을 만족하는 적어도 하나의 불특정 포인트(M)을 생성하고,
상기 불특정 포인트(M) 중에서 기준 조건을 만족하는 불특정 포인트(M)를 선택하여 상기 랜덤 포인트(R)을 생성하고,
상기 부분 공간의 법선 벡터 n이 하기 수학식 2를 만족하도록 상기 부분 공간을 생성하는 것을 특징으로 하는,
클러스터링 기법을 이용한 신규 데이터 생성 방법.
[수학식 1]
(P(xi, yi, zi): 제2 포인트, M(x, y, z): 불특정 포인트)
[수학식 2]
- 컴퓨터에 의해 수행되는 방법으로,
원본 데이터셋 내 각각의 원본 데이터를 벡터라이징하여 N차원 공간 내에 제1 포인트로 매핑하는 단계;
상기 매핑된 제1 포인트를 클러스터링 기법 기반으로 그룹화하고, 각 그룹의 N차원 공간 내 중심점을 도출하는 단계;
상기 N차원 공간 내에서 적어도 하나의 중심점의 평균값으로부터 가장 멀리 위치한 제2 포인트(P)를 도출하는 단계;
상기 N차원 공간에 제2 포인트(P)를 포함하는 부분 공간()을 생성하는 단계; 및
상기 부분 공간 내에 적어도 하나의 랜덤 포인트(R)를 생성하는 단계를 포함하며,
상기 컴퓨터는,
상기 부분 공간() 내에 하기 수학식 1을 만족하는 적어도 하나의 불특정 포인트(M)을 생성하고,
상기 불특정 포인트(M) 중에서 기준 조건을 만족하는 불특정 포인트(M)를 선택하여 상기 랜덤 포인트(R)을 생성하고,
상기 부분 공간의 법선 벡터 n이 하기 수학식 2를 만족하도록 상기 부분 공간을 생성하는 것을 특징으로 하는,
클러스터링 기법을 이용한 신규 데이터 생성 방법.
[수학식 1]
(P(xi, yi, zi): 제2 포인트, M(x, y, z): 불특정 포인트)
[수학식 2]
- 컴퓨터에 의해 수행되는, 머신 러닝을 위한 학습 데이터셋에서 데이터의 양이 미달되는 도메인에 신규 데이터를 생성하는 방법으로,
원본 데이터셋 내 각각의 원본 데이터를 벡터라이징 하여 N차원 공간 내에 제1 포인트로 매핑하는 단계;
상기 매핑된 제1포인트를 클러스터링 기법 기반으로 그룹화하고, 각 그룹의 N차원 공간 내 중심점을 도출하는 단계;
상기 N차원 공간 내에서 상기 도출된 중심점의 평균값으로부터 가장 멀리 위치한 제2 포인트를 도출하는 단계;
상기 제2 포인트로부터 일정 범위 내의 공간을 상기 데이터의 양이 미달되는 도메인으로 판단하는 단계;
상기 제2 포인트로부터 일정 범위 내에서 상기 원본 데이터가 존재하지 않는 영역에 랜덤 포인트를 생성하는 단계; 및
상기 랜덤 포인트에 대한 역벡터를 기반으로 상기 신규 데이터를 생성하는 단계를 포함하는,
클러스터링 기법을 이용한 신규 데이터 생성 방법.
- 제1항 또는 제2항에 있어서,
상기 랜덤 포인트 생성 단계 다음에,
상기 랜덤 포인트에 대한 역벡터를 기반으로 신규 데이터를 생성하는 단계를 더 포함하는,
클러스터링 기법을 이용한 신규 데이터 생성 방법.
- 원본 데이터셋 내 각각의 원본 데이터를 벡터라이징하여 N차원 공간 내에 제1 포인트로 매핑하고,
상기 매핑된 제1 포인트를 클러스터링 기법 기반으로 그룹화하고, 각 그룹의 N차원 공간 내 중심점을 도출하고,
상기 N차원 공간 내에서 적어도 하나의 중심점의 평균값으로부터 가장 멀리 위치한 제2 포인트(P)를 도출하고,
상기 N차원 공간에 제2 포인트(P)를 포함하는 부분 공간()을 생성하고,
상기 부분 공간 내에 적어도 하나의 랜덤 포인트(R)를 생성하는 프로세서를 포함하고,
상기 프로세서는,
상기 부분 공간() 내에 하기 수학식 1을 만족하는 적어도 하나의 불특정 포인트(M)을 생성하고,
상기 불특정 포인트(M) 중에서 기준 조건을 만족하는 불특정 포인트(M)를 선택하여 상기 랜덤 포인트(R)을 생성하고,
상기 부분 공간의 법선 벡터 n이 하기 수학식 2를 만족하도록 상기 부분 공간을 생성하는 것을 특징으로 하는,
클러스터링 기법을 이용한 신규 데이터 생성 장치.
[수학식 1]
(P(xi, yi, zi): 제2 포인트, M(x, y, z): 불특정 포인트)
[수학식 2]
- 원본 데이터셋 내 각각의 원본 데이터를 벡터라이징하여 N차원 공간 내에 제1 포인트로 매핑하고,
상기 매핑된 제1 포인트를 클러스터링 기법 기반으로 그룹화하고, 각 그룹의 N차원 공간 내 중심점을 도출하고,
상기 N차원 공간 내에 복수 개의 후보 포인트를 랜덤으로 생성하고,
상기 N차원 공간 내에서, 적어도 하나의 중심점의 평균값으로부터 가장 멀리 위치한 적어도 하나의 후보 포인트를 제2 포인트(P)로 선택하고,
상기 N차원 공간에 상기 선택된 제2 포인트(P)를 포함하는 부분 공간()을 생성하고,
상기 부분 공간 내에 적어도 하나의 랜덤 포인트(R)를 생성하는 프로세서를 포함하고,
상기 프로세서는,
상기 부분 공간() 내에 하기 수학식 1을 만족하는 적어도 하나의 불특정 포인트(M)을 생성하고,
상기 불특정 포인트(M) 중에서 기준 조건을 만족하는 불특정 포인트(M)를 선택하여 상기 랜덤 포인트(R)을 생성하고,
상기 부분 공간의 법선 벡터 n이 하기 수학식 2를 만족하도록 상기 부분 공간을 생성하는 것을 특징으로 하는,
클러스터링 기법을 이용한 신규 데이터 생성 장치.
[수학식 1]
(P(xi, yi, zi): 제2 포인트, M(x, y, z): 불특정 포인트)
[수학식 2]
- 머신 러닝을 위한 학습 데이터셋에서 데이터의 양이 미달되는 도메인에 신규 데이터를 생성하는 장치로,
원본 데이터셋 내 각각의 원본 데이터를 벡터라이징 하여 N차원 공간 내에 제1 포인트로 매핑하고,
상기 매핑된 제1포인트를 클러스터링 기법 기반으로 그룹화하고, 각 그룹의 N차원 공간 내 중심점을 도출하고,
상기 N차원 공간 내에서 상기 도출된 중심점의 평균값으로부터 가장 멀리 위치한 제2 포인트를 도출하고,
상기 제2 포인트로부터 일정 범위 내의 공간을 상기 데이터의 양이 미달되는 도메인으로 판단하고,
상기 제2 포인트로부터 일정 범위 내에서 상기 원본 데이터가 존재하지 않는 영역에 랜덤 포인트를 생성하고,
상기 랜덤 포인트에 대한 역벡터를 기반으로 상기 신규 데이터를 생성하는 프로세서를 포함하는,
클러스터링 기법을 이용한 신규 데이터 생성 장치.
- 하드웨어인 컴퓨터와 결합되어, 제1항 내지 제3항 중 어느 한 항의 방법을 실행시키기 위한 프로그램이 저장된 컴퓨터 판독 가능 기록매체.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200178550A KR102247182B1 (ko) | 2020-12-18 | 2020-12-18 | 클러스터링 기법을 이용한 신규 데이터 생성 방법, 장치 및 프로그램 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200178550A KR102247182B1 (ko) | 2020-12-18 | 2020-12-18 | 클러스터링 기법을 이용한 신규 데이터 생성 방법, 장치 및 프로그램 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102247182B1 true KR102247182B1 (ko) | 2021-05-03 |
Family
ID=75910609
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200178550A Active KR102247182B1 (ko) | 2020-12-18 | 2020-12-18 | 클러스터링 기법을 이용한 신규 데이터 생성 방법, 장치 및 프로그램 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102247182B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111523876A (zh) * | 2020-04-15 | 2020-08-11 | 北京三快在线科技有限公司 | 支付方式的显示方法、装置、系统及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150127243A1 (en) * | 2013-11-01 | 2015-05-07 | Here Global B.V. | Traffic Data Simulator |
CN107145792A (zh) * | 2017-04-07 | 2017-09-08 | 哈尔滨工业大学深圳研究生院 | 基于密文数据的多用户隐私保护数据聚类方法及系统 |
KR20200034016A (ko) * | 2018-09-11 | 2020-03-31 | 강원대학교산학협력단 | 데이터간 상대적 거리 비율 및 클러스터의 중심 데이터 간의 거리를 고려한 데이터 클러스터링 방법 및 시스템 |
JP6695490B2 (ja) * | 2017-02-17 | 2020-05-20 | 株式会社日立製作所 | 学習データ管理装置及び学習データ管理方法 |
KR102147097B1 (ko) | 2018-10-31 | 2020-08-24 | 주식회사 메디치소프트 | 머신러닝을 위한 학습데이터 세트의 구성 방법 및 장치 |
US20200286614A1 (en) * | 2017-09-08 | 2020-09-10 | The General Hospital Corporation | A system and method for automated labeling and annotating unstructured medical datasets |
-
2020
- 2020-12-18 KR KR1020200178550A patent/KR102247182B1/ko active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150127243A1 (en) * | 2013-11-01 | 2015-05-07 | Here Global B.V. | Traffic Data Simulator |
JP6695490B2 (ja) * | 2017-02-17 | 2020-05-20 | 株式会社日立製作所 | 学習データ管理装置及び学習データ管理方法 |
CN107145792A (zh) * | 2017-04-07 | 2017-09-08 | 哈尔滨工业大学深圳研究生院 | 基于密文数据的多用户隐私保护数据聚类方法及系统 |
US20200286614A1 (en) * | 2017-09-08 | 2020-09-10 | The General Hospital Corporation | A system and method for automated labeling and annotating unstructured medical datasets |
KR20200034016A (ko) * | 2018-09-11 | 2020-03-31 | 강원대학교산학협력단 | 데이터간 상대적 거리 비율 및 클러스터의 중심 데이터 간의 거리를 고려한 데이터 클러스터링 방법 및 시스템 |
KR102147097B1 (ko) | 2018-10-31 | 2020-08-24 | 주식회사 메디치소프트 | 머신러닝을 위한 학습데이터 세트의 구성 방법 및 장치 |
Non-Patent Citations (1)
Title |
---|
Guo, Xifeng, et al. Deep embedded clustering with data augmentation. Asian conference on machine learning. PMLR, 2018.* * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111523876A (zh) * | 2020-04-15 | 2020-08-11 | 北京三快在线科技有限公司 | 支付方式的显示方法、装置、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10810463B2 (en) | Updating attribute data structures to indicate joint relationships among attributes and predictive outputs for training automated modeling systems | |
US20190340533A1 (en) | Systems and methods for preparing data for use by machine learning algorithms | |
JP6954003B2 (ja) | データベースのための畳み込みニューラルネットワークモデルの決定装置及び決定方法 | |
CN116250020A (zh) | 使用潜在邻域图检测对抗性示例 | |
CN111949993B (zh) | 模型安全性评估方法、介质、装置和计算设备 | |
CN111586071B (zh) | 一种基于循环神经网络模型的加密攻击检测方法及装置 | |
JP7047498B2 (ja) | 学習プログラム、学習方法および学習装置 | |
JP7491370B2 (ja) | 物体認識装置、物体認識方法、学習装置、学習方法、及び、プログラム | |
CN111930634B (zh) | 模型处理方法、装置、介质和计算设备 | |
WO2021262573A1 (en) | Systems and methods of detecting anomalous websites | |
US20200160119A1 (en) | Sequential learning maintaining a learned concept | |
KR102247182B1 (ko) | 클러스터링 기법을 이용한 신규 데이터 생성 방법, 장치 및 프로그램 | |
KR20190028880A (ko) | 봇넷 탐지 시스템을 학습하기 위한 학습 데이터를 생성하는 방법 및 그 장치 | |
CN117150402A (zh) | 基于生成式对抗网络的电力数据异常检测方法及模型 | |
US20210241021A1 (en) | Information processing method and information processing system | |
AU2015204339A1 (en) | Information processing apparatus and information processing program | |
JP7600883B2 (ja) | データクラスタリングプログラム、データクラスタリング方法および情報処理装置 | |
KR20220009662A (ko) | 신경망 모델 학습 방법 및 이를 제공하는 장치 | |
US11798265B2 (en) | Teaching data correction method for training image, teaching data correction device and program | |
CN113902922A (zh) | 图片识别方法、介质、装置和计算设备 | |
JP7600882B2 (ja) | 特徴量算出プログラム、特徴量算出方法および情報処理装置 | |
KR20220049932A (ko) | 인공지능 알고리즘의 정확도 향상을 위한 데이터 변환 방법 및 시스템 | |
CN115496666B (zh) | 用于目标检测的热图生成方法和装置 | |
JP2021182243A (ja) | 画像判定装置、方法、及びプログラム | |
CN112418307B (zh) | 一种结合深度学习和集成学习的辐射源个体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20201218 |
|
PA0201 | Request for examination | ||
PA0302 | Request for accelerated examination |
Patent event date: 20201223 Patent event code: PA03022R01D Comment text: Request for Accelerated Examination Patent event date: 20201218 Patent event code: PA03021R01I Comment text: Patent Application |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20210317 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20210427 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20210427 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20240317 Start annual number: 4 End annual number: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20250305 Start annual number: 5 End annual number: 5 |