KR102069621B1 - 문서 구조와 딥러닝을 이용한 문서 분류 장치 및 방법 - Google Patents
문서 구조와 딥러닝을 이용한 문서 분류 장치 및 방법 Download PDFInfo
- Publication number
- KR102069621B1 KR102069621B1 KR1020180060185A KR20180060185A KR102069621B1 KR 102069621 B1 KR102069621 B1 KR 102069621B1 KR 1020180060185 A KR1020180060185 A KR 1020180060185A KR 20180060185 A KR20180060185 A KR 20180060185A KR 102069621 B1 KR102069621 B1 KR 102069621B1
- Authority
- KR
- South Korea
- Prior art keywords
- document
- documents
- collection
- text
- feature
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 238000013135 deep learning Methods 0.000 title claims abstract description 10
- 230000008520 organization Effects 0.000 title 1
- 238000005259 measurement Methods 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims description 58
- 230000008569 process Effects 0.000 claims description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000012706 support-vector machine Methods 0.000 claims description 8
- 238000003066 decision tree Methods 0.000 claims description 6
- 230000000877 morphologic effect Effects 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000000691 measurement method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Business, Economics & Management (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
문서 분류 시 문서에 부여되는 가중치 부여 방식과 이에 대응하는 지도 학습 기술을 F 측정값을 비교하고 가장 높은 측정값의 분류기를 선택하여 우수한 성능의 분류기를 적용할 수 있다.
Description
도 2는 본 발명의 실시예에 따른 문서 구조와 딥러닝을 이용한 문서 분류 장치의 구성을 간략하게 나타낸 도면이다.
도 3 및 도 4는 본 발명의 제1 실시예에 따른 텍스트 분류기에서 가중치 부여 방식과 지도 학습 기술을 선택하는 과정을 나타낸 도면이다.
도 5 및 도 6은 본 발명의 제2 실시예에 따른 텍스트 분류기에서 가중치 부여 방식과 지도 학습 기술을 선택하는 과정을 나타낸 도면이다.
도 7 및 도 8은 본 발명의 제3 실시예에 따른 텍스트 분류기에서 가중치 부여 방식과 지도 학습 기술을 선택하는 과정을 나타낸 도면이다.
110: 문서 데이터베이스부
120: 전처리부
130: 특징 벡터 생성부
140: 텍스트 분류기
Claims (7)
- 적어도 하나의 문서를 포함하는 문서 데이터베이스부;
상기 문서 데이터베이스부로부터 수신한 문서를 문자열로 변환하고, 전치사, 접속사, 대명사 등의 정보가 없는 단어를 제거하며, 동일한 개념적 의미를 가진 단어 그룹을 만드는 단어의 형태소 분석을 수행하는 전처리부;
벡터 공간 모델을 이용한 인덱싱 처리를 수행하여 문서에 포함된 단어에 가중치 부여 방식에 의해 가중치를 부여하여 특징 벡터들의 특징 세트를 구성하는 특징 벡터 생성부; 및
상기 특징 벡터 생성부로부터 구성된 특징 벡터들의 특징 세트를 수신하고, 상기 수신한 특징 세트를 결정 트리(Decision Tree), 나이브 베이즈(Naive Bayes), 서포트 벡터 머신(Support Vector Machine) 중 하나의 지도 학습 기술을 이용하여 텍스트를 분류하는 텍스트 분류기를 포함하며,
상기 가중치 부여 방식은 Binary, TFIDF(Term Frequency Inverse Document Frequency), TFC(Term Frequency Collection), LTC(Length Term Collection), Entropy 중 하나의 방식을 적용하며,
상기 텍스트 분류기에서 텍스트를 분류할 문서는 객체 지향 문서가 포함된 Gang-of-Four 문서 컬렉션, 시스템 관련 문서가 포함된 더글라스 문서 컬렉션, 기업 보안 및 리스크 관리 문서가 포함된 보안 문서 컬렉션으로 나누어지고,
상기 텍스트 분류기는 상기 결정 트리, 상기 나이브 베이즈, 상기 서포트 벡터 머신의 각각에 대하여 상기 5개의 가중치 부여 방식마다 공지된 F-Measure 방법에 적용하여 F 측정값을 각각 계산하고, 상기 계산된 F 측정값이 가장 높은 가중치 부여 방식을 상기 특징 벡터 생성부의 가중치 부여 방식으로 선택하고, 상기 가장 높은 가중치 부여 방식과 이에 대응하는 지도 학습 기술을 통해 구성된 순위가 결정된 상위 n개의 특징 벡터들이 텍스트 분류 기술로 적용되며,
상기 텍스트 분류기는 상기 더글라스 문서 컬렉션 및 상기 보안 문서 컬렉션의 경우, 상기 지도 학습 기술로 상기 서포트 벡터 머신을 적용하고, 상기 Gang-of-Four 문서 컬렉션 및 상기 더글라스 문서 컬렉션의 경우, 가중치 부여 방식으로 상기 TFIDF를 적용하는 것을 특징으로 하는 문서 구조와 딥러닝을 이용한 문서 분류 장치. - 삭제
- 제1항에 있어서,
상기 특징 벡터 생성부는 상기 전처리부로부터 전처리된 문서를 입력받아 문서를 적절한 클래스로 분류하기 위하여 Deep Belief Network(DBN) 알고리즘을 이용하여 학습 데이터와 특징 벡터들의 특징 세트를 구성하는 것을 특징으로 하는 문서 구조와 딥러닝을 이용한 문서 분류 장치. - 삭제
- 삭제
- 삭제
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180060185A KR102069621B1 (ko) | 2018-05-28 | 2018-05-28 | 문서 구조와 딥러닝을 이용한 문서 분류 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180060185A KR102069621B1 (ko) | 2018-05-28 | 2018-05-28 | 문서 구조와 딥러닝을 이용한 문서 분류 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20190135129A KR20190135129A (ko) | 2019-12-06 |
KR102069621B1 true KR102069621B1 (ko) | 2020-01-23 |
Family
ID=68837280
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180060185A KR102069621B1 (ko) | 2018-05-28 | 2018-05-28 | 문서 구조와 딥러닝을 이용한 문서 분류 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102069621B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2832840C1 (ru) * | 2023-12-26 | 2025-01-09 | Федеральное государственное автономное образовательное учреждение высшего образования "Национальный исследовательский технологический университет "МИСиС" | Способ разметки и верификации текстовых данных |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113128211B (zh) * | 2020-01-14 | 2024-06-21 | 北京京东振世信息技术有限公司 | 一种物品分类方法及装置 |
KR102357630B1 (ko) * | 2020-07-10 | 2022-02-07 | 한국전자통신연구원 | 제어시스템 보안이벤트의 공격전략 분류 장치 및 방법 |
CN112214991B (zh) * | 2020-10-10 | 2024-05-14 | 上海海事大学 | 一种基于多特征融合加权的微博文本立场检测方法 |
KR102318674B1 (ko) * | 2020-10-27 | 2021-10-28 | (주)메디아이플러스 | 임상 시험 주요 키워드 예측 방법 및 이를 실행하는 서버 |
CN112365202B (zh) * | 2021-01-15 | 2021-04-16 | 平安科技(深圳)有限公司 | 一种多目标对象的评价因子筛选方法及其相关设备 |
CN112766788A (zh) * | 2021-01-29 | 2021-05-07 | 北京明略软件系统有限公司 | 高新技术企业评价方法、系统、计算机设备及存储介质 |
KR102277643B1 (ko) * | 2021-02-05 | 2021-07-14 | 한국기술교육대학교 산학협력단 | 계층적 다중 레이블 분류를 위한 데이터 분류 방법 및 장치 |
KR102618313B1 (ko) * | 2021-03-31 | 2023-12-27 | 한양대학교 산학협력단 | 미술학습 평가 방법 및 그 장치 |
KR20230079967A (ko) | 2021-11-29 | 2023-06-07 | 주식회사 위고 | 문서 자동분류를 위한 점수산정 장치 및 방법 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101027864B1 (ko) * | 2004-01-09 | 2011-04-07 | 마이크로소프트 코포레이션 | 대량의 전자 문서 검색을 위한 문서 관련성을 판정하기위한 기계-학습 접근법 |
KR101681109B1 (ko) * | 2015-10-01 | 2016-11-30 | 한국외국어대학교 연구산학협력단 | 대표 색인어와 유사도를 이용한 문서 자동 분류 방법 |
JP2016224847A (ja) * | 2015-06-03 | 2016-12-28 | 明 潮田 | 文書素性抽出装置、文書素性抽出方法、文書分類装置、文書分類方法、文書検索装置、文書検索方法、コンピュータプログラム、および、コンピュータプログラムを記録した記録媒体 |
KR101697875B1 (ko) * | 2015-10-30 | 2017-01-18 | 아주대학교산학협력단 | 그래프 모델에 기반하는 문서 분석 방법 및 그 시스템 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101178068B1 (ko) | 2005-07-14 | 2012-08-30 | 주식회사 케이티 | 텍스트의 카테고리 분류 장치 및 그 방법 |
-
2018
- 2018-05-28 KR KR1020180060185A patent/KR102069621B1/ko active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101027864B1 (ko) * | 2004-01-09 | 2011-04-07 | 마이크로소프트 코포레이션 | 대량의 전자 문서 검색을 위한 문서 관련성을 판정하기위한 기계-학습 접근법 |
JP2016224847A (ja) * | 2015-06-03 | 2016-12-28 | 明 潮田 | 文書素性抽出装置、文書素性抽出方法、文書分類装置、文書分類方法、文書検索装置、文書検索方法、コンピュータプログラム、および、コンピュータプログラムを記録した記録媒体 |
KR101681109B1 (ko) * | 2015-10-01 | 2016-11-30 | 한국외국어대학교 연구산학협력단 | 대표 색인어와 유사도를 이용한 문서 자동 분류 방법 |
KR101697875B1 (ko) * | 2015-10-30 | 2017-01-18 | 아주대학교산학협력단 | 그래프 모델에 기반하는 문서 분석 방법 및 그 시스템 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2832840C1 (ru) * | 2023-12-26 | 2025-01-09 | Федеральное государственное автономное образовательное учреждение высшего образования "Национальный исследовательский технологический университет "МИСиС" | Способ разметки и верификации текстовых данных |
Also Published As
Publication number | Publication date |
---|---|
KR20190135129A (ko) | 2019-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102069621B1 (ko) | 문서 구조와 딥러닝을 이용한 문서 분류 장치 및 방법 | |
Alghamdi et al. | A survey of topic modeling in text mining | |
Han et al. | Sentiment analysis via semi-supervised learning: a model based on dynamic threshold and multi-classifiers | |
Gargiulo et al. | Deep Convolution Neural Network for Extreme Multi-label Text Classification. | |
Nezhadi et al. | Ontology alignment using machine learning techniques | |
CN110059181A (zh) | 面向大规模分类体系的短文本标签方法、系统、装置 | |
Romanov et al. | Application of natural language processing algorithms to the task of automatic classification of Russian scientific texts | |
Keyvanpour et al. | Semi-supervised text categorization: Exploiting unlabeled data using ensemble learning algorithms | |
Saleh et al. | A semantic based Web page classification strategy using multi-layered domain ontology | |
Safae et al. | A review of machine learning algorithms for web page classification | |
Lee et al. | Automatic folder allocation system using Bayesian-support vector machines hybrid classification approach | |
Saleh et al. | A web page distillation strategy for efficient focused crawling based on optimized Naïve bayes (ONB) classifier | |
MidhunChakkaravarthy | Evolutionary and incremental text document classifier using deep learning | |
Tanha | A multiclass boosting algorithm to labeled and unlabeled data | |
Gupta et al. | Fake news detection using machine learning | |
Jivani | The novel k nearest neighbor algorithm | |
Davoudi et al. | A semantic-based feature extraction method using categorical clustering for Persian document classification | |
Zobeidi et al. | Effective text classification using multi-level fuzzy neural network | |
Bahrami et al. | Automatic image annotation using an evolutionary algorithm (IAGA) | |
Mahalakshmi et al. | An overview of categorization techniques | |
Patil et al. | Class-specific features using j48 classifier for text classification | |
Bordbar et al. | A new opinion mining method based on fuzzy classifier and particle swarm optimization (PSO) algorithm | |
Ahmad et al. | Comparative analysis using machine learning techniques for fine grain sentiments | |
Huang et al. | [Retracted] Hybrid Graph Neural Network Model Design and Modeling Reasoning for Text Feature Extraction and Recognition | |
Shadgara et al. | Ontology alignment using machine learning techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20180528 |
|
PA0201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20190619 Patent event code: PE09021S01D |
|
PG1501 | Laying open of application | ||
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20200115 |
|
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20200117 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20200117 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20221130 Start annual number: 4 End annual number: 4 |
|
PC1903 | Unpaid annual fee |
Termination category: Default of registration fee Termination date: 20240820 |
|
PR0401 | Registration of restoration |
Patent event code: PR04011E01D Patent event date: 20240820 Comment text: Registration of Restoration |
|
PR1001 | Payment of annual fee |
Payment date: 20240820 Start annual number: 5 End annual number: 5 |
|
R401 | Registration of restoration |