KR102367859B1 - 특징 벡터를 이용하여 데이터를 분류하는 장치 및 방법 - Google Patents
특징 벡터를 이용하여 데이터를 분류하는 장치 및 방법 Download PDFInfo
- Publication number
- KR102367859B1 KR102367859B1 KR1020170070948A KR20170070948A KR102367859B1 KR 102367859 B1 KR102367859 B1 KR 102367859B1 KR 1020170070948 A KR1020170070948 A KR 1020170070948A KR 20170070948 A KR20170070948 A KR 20170070948A KR 102367859 B1 KR102367859 B1 KR 102367859B1
- Authority
- KR
- South Korea
- Prior art keywords
- data
- feature vector
- signatures
- section
- sections
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 title claims abstract description 94
- 238000000034 method Methods 0.000 title claims description 46
- 238000012549 training Methods 0.000 claims abstract description 44
- 238000010801 machine learning Methods 0.000 claims abstract description 26
- 238000013507 mapping Methods 0.000 claims abstract description 19
- 238000009795 derivation Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 20
- 239000000284 extract Substances 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 244000035744 Hura crepitans Species 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 238000010367 cloning Methods 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- ZXQYGBMAQZUVMI-GCMPRSNUSA-N gamma-cyhalothrin Chemical compound CC1(C)[C@@H](\C=C(/Cl)C(F)(F)F)[C@H]1C(=O)O[C@H](C#N)C1=CC=CC(OC=2C=CC=CC=2)=C1 ZXQYGBMAQZUVMI-GCMPRSNUSA-N 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Virology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
도 2a 및 도 2b는 본 발명의 일 실시예에 따른 학습 데이터로부터 복수의 시그니처를 추출하는 과정을 설명하기 위한 예시적인 도면이다.
도 3은 본 발명의 일 실시예에 따른 복수의 시그니처 별로 복수의 구간을 설정하는 과정을 설명하기 위한 예시적인 도면이다.
도 4는 본 발명의 일 실시예에 따른 복수의 학습 데이터로부터 복수의 시그니처에 대한 각각의 빈도수를 추출하는 과정을 설명하기 위한 예시적인 도면이다.
도 5는 본 발명의 일 실시예에 따른 추출된 각각의 빈도수와 복수의 구간 중 해당하는 구간과 매핑하는 과정을 설명하기 위한 예시적인 도면이다.
도 6a 내지 도 6c는 본 발명의 일 실시예에 따른 복수의 학습 데이터로부터 생성된 특징 벡터에 기초하여 복수의 학습 데이터 간의 거리를 도출하여 복수의 클래스 중 어느 하나의 클래스로 분류하는 과정을 설명하기 위한 예시적인 도면이다.
도 7a 및 도 7b는 본 발명의 일 실시예에 따른 복수의 학습 데이터로부터 생성된 특징 벡터를 비교한 예시적인 도면이다.
도 8은 본 발명의 일 실시예에 따른 데이터 분류 장치에서 학습 데이터의 특징 벡터를 이용하여 기계 학습을 수행하는 방법의 순서도이다.
110: 구간 설정부
120: 빈도 추출부
130: 구간 매핑부
140: 특징 벡터 생성부
150: 거리 도출부
160: 분류부
Claims (16)
- 기계 학습을 수행하기 위한 학습 데이터의 특징 벡터를 이용하여 데이터를 분류하는 장치에 있어서,
복수의 시그니처 별로 복수의 구간을 설정하는 구간 설정부;
복수의 학습 데이터로부터 복수의 시그니처에 대한 각각의 빈도수를 추출하는 빈도 추출부;
상기 추출된 각각의 빈도수를 상기 복수의 구간 중 해당하는 구간과 매핑하는 구간 매핑부;
상기 복수의 시그니처 각각이 매핑된 구간에 해당하는 엘리먼트를 추출하여 특징 벡터를 생성하는 특징 벡터 생성부; 및
상기 생성된 특징 벡터를 입력 데이터로 하여 상기 입력 데이터를 복수의 클래스 중 어느 하나로 분류하도록 기계 학습을 수행하는 분류부
를 포함하는 것인, 데이터 분류 장치.
- 제 1 항에 있어서,
상기 복수의 시그니처는 상기 복수의 학습 데이터의 클래스를 분류하기 위한 특징으로 선택되어 상기 학습 데이터로부터 추출되는 것인, 데이터 분류 장치.
- 제 1 항에 있어서,
상기 구간 설정부는 상기 복수의 시그니처 별로 각 시그니처의 빈도수에 따라 균등하게 나눠진 복수의 구간을 설정하는 것인, 데이터 분류 장치.
- 제 3 항에 있어서,
상기 구간 설정부는 상기 복수의 구간을 각 시그니처 별로 다르게 설정하는 것인, 데이터 분류 장치.
- 제 4 항에 있어서,
상기 구간 설정부는 상기 복수의 구간을 상기 각 시그니처 간의 중요도에 따라 다르게 설정하는 것인, 데이터 분류 장치.
- 제 3 항에 있어서,
상기 구간 매핑부는 상기 추출된 복수의 시그니처의 빈도수에 따라 상기 각 시그니처를 상기 복수의 구간 중 어느 하나에 매핑하는 것인, 데이터 분류 장치.
- 제 6 항에 있어서,
상기 특징 벡터 생성부는 상기 복수의 시그니처의 종류보다 적은 차원의 특징 벡터를 생성하는 것인, 데이터 분류 장치.
- 제 6 항에 있어서,
상기 특징 벡터 생성부는 상기 복수의 시그니처의 종류에 해당하는 사이즈를 가지는 집합으로 이루어진 특징 벡터를 생성하는 것인, 데이터 분류 장치.
- 제 1 항에 있어서,
상기 복수의 학습 데이터로부터 생성된 각각의 특징 벡터에 기초하여 상기 복수의 학습 데이터 간의 거리를 도출하는 거리 도출부
를 더 포함하는 것인, 데이터 분류 장치.
- 제 9 항에 있어서,
상기 분류부는 상기 도출된 복수의 학습 데이터 간의 거리에 기초하여 상기 입력 데이터를 상기 복수의 클래스 중 어느 하나로 분류하는 것인, 데이터 분류 장치.
- 제 10 항에 있어서,
상기 복수의 학습 데이터 간의 거리는 적어도 두 개의 학습 데이터의 특징 벡터에 대한 합집합의 원소 수로부터 상기 적어도 두 개의 학습 데이터의 특징 벡터에 대한 교집합의 원소 수를 뺀 값인 것인, 데이터 분류 장치.
- 미확인 데이터의 특징 벡터를 이용하여 데이터를 분류하는 장치에 있어서,
복수의 시그니처 별로 복수의 구간을 설정하는 구간 설정부;
미확인 데이터로부터 복수의 시그니처에 대한 각각의 빈도수를 추출하는 추출부;
상기 추출된 각각의 빈도수를 상기 복수의 구간 중 해당하는 구간과 매핑하는 구간 매핑부;
상기 복수의 시그니처 각각이 매핑된 구간에 해당하는 엘리먼트를 추출하여 특징 벡터를 생성하는 특징 벡터 생성부; 및
상기 생성된 특징 벡터를 입력 데이터로 하여 상기 입력 데이터를 복수의 클래스 중 어느 하나로 분류하는 분류부
를 포함하는 것인, 데이터 분류 장치.
- 제 12 항에 있어서,
상기 생성된 특징 벡터 및 기입력된 복수의 데이터로부터 생성된 특징 벡터에 기초하여 상기 미확인 데이터와 상기 기입력된 복수의 데이터 간의 거리를 도출하는 거리 도출부를 더 포함하는 것인, 데이터 분류 장치.
- 제 13 항에 있어서,
상기 분류부는 상기 미확인 데이터와 상기 기입력된 복수의 데이터 간의 거리에 기초하여 상기 입력 데이터를 상기 복수의 클래스 중 어느 하나로 분류하는 것인, 데이터 분류 장치.
- 제 14 항에 있어서,
상기 분류부는 상기 입력 데이터를 상기 기입력된 복수의 데이터 중 상기 미확인 데이터로부터 기설정된 거리 안에서 가장 빈도수가 높은 데이터의 클래스로 분류하는 것인, 데이터 분류 장치.
- 데이터 분류 장치에 의해 각 단계가 수행되는 학습 데이터의 특징 벡터를 이용하여 기계 학습을 수행하는 방법에 있어서,
복수의 시그니처 별로 복수의 구간을 설정하는 단계;
복수의 학습 데이터로부터 복수의 시그니처에 대한 각각의 빈도수를 추출하는 단계;
상기 추출된 각각의 빈도수를 상기 복수의 구간 중 해당하는 구간과 매핑하는 단계;
상기 복수의 시그니처 각각이 매핑된 구간에 해당하는 엘리먼트를 추출하여 특징 벡터를 생성하는 단계; 및
상기 생성된 특징 벡터를 입력 데이터로 하여 상기 입력 데이터를 복수의 클래스 중 어느 하나로 분류하도록 기계 학습을 수행하는 단계
를 포함하는 것인, 데이터 분류 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170070948A KR102367859B1 (ko) | 2017-06-07 | 2017-06-07 | 특징 벡터를 이용하여 데이터를 분류하는 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170070948A KR102367859B1 (ko) | 2017-06-07 | 2017-06-07 | 특징 벡터를 이용하여 데이터를 분류하는 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20180133726A KR20180133726A (ko) | 2018-12-17 |
KR102367859B1 true KR102367859B1 (ko) | 2022-02-25 |
Family
ID=65007726
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020170070948A Active KR102367859B1 (ko) | 2017-06-07 | 2017-06-07 | 특징 벡터를 이용하여 데이터를 분류하는 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102367859B1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102590575B1 (ko) | 2023-04-19 | 2023-10-17 | 주식회사 에이오디컨설팅 | 컬럼 의미 분류 기반의 데이터 구조 분석을 통한 동적 데이터 분류 방법 |
KR102590576B1 (ko) | 2023-04-19 | 2023-10-24 | 주식회사 에이오디컨설팅 | 데이터 의미론적 분류를 이용한 동적 데이터 구조 검색 방법 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111338974B (zh) | 2018-12-19 | 2025-05-16 | 超威半导体公司 | 用于矩阵数学指令集的图块化算法 |
KR102289401B1 (ko) * | 2019-10-14 | 2021-08-12 | 국민대학교산학협력단 | 라벨 정보가 포함된 특징 벡터 생성 장치 및 방법 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101480244B1 (ko) | 2013-08-23 | 2015-01-12 | 한양대학교 산학협력단 | 클래스 단위의 시그니처를 이용한 악성 어플리케이션 탐지 방법 및 장치 |
-
2017
- 2017-06-07 KR KR1020170070948A patent/KR102367859B1/ko active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101480244B1 (ko) | 2013-08-23 | 2015-01-12 | 한양대학교 산학협력단 | 클래스 단위의 시그니처를 이용한 악성 어플리케이션 탐지 방법 및 장치 |
Non-Patent Citations (2)
Title |
---|
"Native API 의 효과적인 전처리 방법을 이용한 악성 코드 탐지 방법에 관한 연구", 정보보호학회논문지 22(4)(pp. 785-796), 2012년. |
"안드로이드 모바일 악성 앱 탐지를 위한 확률적 K-인접 이웃 분류기", Journal of The Korea Institute of Information Security & Cryptology VOL.25 NO.4.(pp. 817-827), 2015년. |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102590575B1 (ko) | 2023-04-19 | 2023-10-17 | 주식회사 에이오디컨설팅 | 컬럼 의미 분류 기반의 데이터 구조 분석을 통한 동적 데이터 분류 방법 |
KR102590576B1 (ko) | 2023-04-19 | 2023-10-24 | 주식회사 에이오디컨설팅 | 데이터 의미론적 분류를 이용한 동적 데이터 구조 검색 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR20180133726A (ko) | 2018-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10581888B1 (en) | Classifying software scripts utilizing deep learning networks | |
Liu et al. | A new learning approach to malware classification using discriminative feature extraction | |
US8955120B2 (en) | Flexible fingerprint for detection of malware | |
Kong et al. | Discriminant malware distance learning on structural information for automated malware classification | |
RU2654146C1 (ru) | Система и способ обнаружения вредоносных файлов с использованием элементов статического анализа | |
KR102367859B1 (ko) | 특징 벡터를 이용하여 데이터를 분류하는 장치 및 방법 | |
CN113469366B (zh) | 一种加密流量的识别方法、装置及设备 | |
Narra et al. | Clustering versus SVM for malware detection | |
Mantoo et al. | Static, dynamic and intrinsic features based android malware detection using machine learning | |
RU2587429C2 (ru) | Система и способ оценки надежности правила категоризации | |
CN112241530A (zh) | 恶意pdf文档的检测方法及电子设备 | |
US20180268141A1 (en) | Identifying signatures for data sets | |
Chavan et al. | A comparative analysis of android malware | |
More et al. | Trust-based voting method for efficient malware detection | |
Yan et al. | Automatic malware classification via PRICoLBP | |
KR102437278B1 (ko) | 머신러닝과 시그니처 매칭을 결합한 문서형 악성코드 탐지 장치 및 방법 | |
Zhang et al. | Smartdetect: a smart detection scheme for malicious web shell codes via ensemble learning | |
Chen et al. | ELAMD: An ensemble learning framework for adversarial malware defense | |
Bouchaib et al. | Transfer learning and smote algorithm for image-based malware classification | |
Li et al. | Tri-channel visualised malicious code classification based on improved ResNet | |
Pranav et al. | Detection of botnets in IoT networks using graph theory and machine learning | |
KR101628602B1 (ko) | 프로그램의 유사도를 판단하기 위한 유사도 판단 방법 및 유사도 판단 장치 | |
CN105138918B (zh) | 一种安全文件的识别方法及装置 | |
KR20220060203A (ko) | 악성코드 탐지모델 학습방법 및 악성코드 탐지방법 | |
EP2819054B1 (en) | Flexible fingerprint for detection of malware |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20170607 |
|
PG1501 | Laying open of application | ||
A201 | Request for examination | ||
PA0201 | Request for examination |
Patent event code: PA02012R01D Patent event date: 20200528 Comment text: Request for Examination of Application Patent event code: PA02011R01I Patent event date: 20170607 Comment text: Patent Application |
|
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20211120 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20220112 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20220222 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20220223 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20250122 Start annual number: 4 End annual number: 4 |