KR100420096B1 - 각 범주의 핵심어와 문장간 유사도 측정 기법을 이용한비지도 학습을 기반으로 하는 자동 문서 범주화 방법 - Google Patents
각 범주의 핵심어와 문장간 유사도 측정 기법을 이용한비지도 학습을 기반으로 하는 자동 문서 범주화 방법 Download PDFInfo
- Publication number
- KR100420096B1 KR100420096B1 KR10-2001-0012318A KR20010012318A KR100420096B1 KR 100420096 B1 KR100420096 B1 KR 100420096B1 KR 20010012318 A KR20010012318 A KR 20010012318A KR 100420096 B1 KR100420096 B1 KR 100420096B1
- Authority
- KR
- South Korea
- Prior art keywords
- sentence
- sentences
- category
- learning
- representative
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Claims (7)
- 인터넷에서 수집된 문서의 자동 문서 범주화 방법에서,수집된 문서를 정규화하고, 상기 정규화된 문서를 문장 단위로 분할하며, 상기 분할된 문장 단위를 언어적 분석을 통해 각 문장의 내용어를 추출하는 단계; 및상기 정규화, 분할화 및 추출화된 문장 단위의 집합에서 대표 문장을 추출하고, 단어 유사도 행렬과 문장 유사도 행렬을 사용하여 상기 대표 문장과 상기 문장 단위의 유사도를 측정하여 각 범주별로 분류하는 것에 의해 학습 문장을 생성하는 단계를 포함하는 것을 특징으로 하는 자동 문서 범주화 방법.
- (a)수집된 문서를 문장 단위로 분할하고 형태소 분석하여 내용어를 추출하는 단계;(b)입력된 핵심어를 이용하여 각 범주의 대표 문장을 추출하는 단계;(c)상기 추출된 대표 문장이 각 범주의 특성을 잘 나타내고 있는지를 검증하여 순위화하는 단계;(d)상기 추출된 대표 문장과 대표 문장으로 추출되지 못한 미 분류 문장과의 문장간 유사도 측정을 통하여 학습에 사용될 학습 문장 집합을 생성하는 단계; 및(e)상기 생성된 학습 문장 집합을 사용하여 학습에 사용할 자질을 추출하고 학습하여 문서에 범주를 할당하는 단계를 포함하는 비지도 방식의 자동 문서 범주화 방법.
- 제 2항에 있어서, 상기 수집된 문서의 내용어 추출단계는 수집된 문서를 기계적 처리가 가능하게 하는 문서 정규화 단계와; 정규화된 문서의 문장을 문장 단위로 분할하는 문장 분할 단계와; 분할된 문장의 형태소 분석 및 태깅 단계를 포함하고, 내용어의 추출은 불용어 사전을 사용하는 것을 특징으로 하는 자동 문서 범주화 방법.
- 제 2항에 있어서, 상기 대표 문장을 추출하는 단계는 입력된 범주별 핵심어가 내용어로 직접 포함되어 있는 문장들을 추출하고 이들을 각 범주의 특성을 가장 잘 나타내는 문장으로 간주하는 것을 특징으로 하는 자동 문서 범주화 방법.
- 제 2항에 있어서, 상기 대표 문장 검증 및 순위화 단계는 용어 빈도(TF)와 역범주 빈도(ICF)를 사용하여 추출된 대표 문장의 각 내용어에 가중치를 부여하는 단계를 포함하는 것을 특징으로 하는 자동 문서 범주화 방법.
- 제 2항에 있어서, 상기 학습 문장 집합 생성단계에서 문장간 유사도 측정은 단어 유사도 행렬과 문장 유사도 행렬을 사용하여 반복 계산을 통해 얻어지는 것을특징으로 하는 자동 문서 범주화 방법.
- 제 6항에 있어서, 상기 단어 유사도 행렬의 행과 열은 유사도를 측정하고자 하는 범주별 대표 문장과 미 분류 문장들에 포함되어 있는 모든 내용어들로 구성되어 내용어 사이의 유사도 값을 가지며, 문장 유사도 행렬은 대표 문장과 미 분류 문장들의 유사도 값을 가지고 있는 것을 특징으로 하는 자동 문서 범주화 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2001-0012318A KR100420096B1 (ko) | 2001-03-09 | 2001-03-09 | 각 범주의 핵심어와 문장간 유사도 측정 기법을 이용한비지도 학습을 기반으로 하는 자동 문서 범주화 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2001-0012318A KR100420096B1 (ko) | 2001-03-09 | 2001-03-09 | 각 범주의 핵심어와 문장간 유사도 측정 기법을 이용한비지도 학습을 기반으로 하는 자동 문서 범주화 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20020072140A KR20020072140A (ko) | 2002-09-14 |
KR100420096B1 true KR100420096B1 (ko) | 2004-02-25 |
Family
ID=27696963
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR10-2001-0012318A KR100420096B1 (ko) | 2001-03-09 | 2001-03-09 | 각 범주의 핵심어와 문장간 유사도 측정 기법을 이용한비지도 학습을 기반으로 하는 자동 문서 범주화 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100420096B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021154539A1 (en) * | 2020-01-28 | 2021-08-05 | Schlumberger Technology Corporation | Oilfield data file classification and information processing systems |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100505848B1 (ko) * | 2002-10-02 | 2005-08-04 | 씨씨알 주식회사 | 검색 시스템 |
KR100484943B1 (ko) * | 2002-12-10 | 2005-04-25 | 한국전자통신연구원 | 한국어 텍스트 상의 개체명 인식 방법 |
US7379867B2 (en) * | 2003-06-03 | 2008-05-27 | Microsoft Corporation | Discriminative training of language models for text and speech classification |
KR100731283B1 (ko) * | 2005-05-04 | 2007-06-21 | 주식회사 알에스엔 | 질의어에 따른 대량문서기반 성향 분석시스템 |
KR20070035786A (ko) * | 2005-09-28 | 2007-04-02 | 강기만 | 단어 교차 관계 기반 질의어 확장에 의한 문서 검색 장치및 그 방법 |
KR100659370B1 (ko) * | 2006-02-15 | 2006-12-19 | 한국과학기술정보연구원 | 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법 |
KR100829401B1 (ko) * | 2006-12-06 | 2008-05-15 | 한국전자통신연구원 | 세부분류 개체명 인식 장치 및 방법 |
KR100842216B1 (ko) * | 2006-12-08 | 2008-06-30 | 포항공과대학교 산학협력단 | 연관규칙 탐사 기법을 이용하여 추출한 다수의 연관분류규칙에 의한 다중범주 문서의 자동 분류 방법 및 장치 |
KR100893629B1 (ko) * | 2007-02-12 | 2009-04-20 | 주식회사 이지씨앤씨 | 전자교재 컨텐츠의 구문에 식별코드를 부여하는 시스템 및방법, 전자교재 컨텐츠의 데이터 검색 시스템 및 방법,전자교재 컨텐츠의 사용과 제공에 관한 포인트 관리 시스템및 방법 |
KR100932841B1 (ko) * | 2007-11-09 | 2009-12-21 | 엔에이치엔(주) | 검색 문서 품질 측정 방법 및 그 시스템 |
KR100900467B1 (ko) * | 2008-01-16 | 2009-06-02 | 넷다이버(주) | 개인 미디어 검색 서비스 시스템 및 방법 |
KR101120038B1 (ko) * | 2008-12-22 | 2012-03-23 | 한국전자통신연구원 | 신조어 선정 장치 및 그 방법 |
KR100970783B1 (ko) * | 2009-12-11 | 2010-07-16 | (주)자숨 | 손 세척장치 |
KR101688660B1 (ko) * | 2010-07-29 | 2016-12-21 | 에스케이커뮤니케이션즈 주식회사 | 용어/불용어 배열 구조를 이용한 문서 분석 방법 및 시스템과 이를 위한 프로그램 기록매체 |
KR101035038B1 (ko) * | 2010-10-12 | 2011-05-19 | 한국과학기술정보연구원 | 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템 및 방법 |
KR102196508B1 (ko) * | 2013-12-06 | 2020-12-30 | 주식회사 케이티 | 비지도 학습을 통한 개체명 사전 구축 방법 및 시스템 |
US9582486B2 (en) | 2014-05-13 | 2017-02-28 | Lc Cns Co., Ltd. | Apparatus and method for classifying and analyzing documents including text |
KR101680007B1 (ko) * | 2015-10-08 | 2016-11-28 | 한국교육과정평가원 | 서답형 답안 채점 방법, 그를 위한 컴퓨터 프로그램과 기록매체 |
KR102123974B1 (ko) * | 2018-07-24 | 2020-06-17 | 배재대학교 산학협력단 | 유사 특허 검색 서비스 시스템 및 방법 |
KR102315213B1 (ko) * | 2019-10-02 | 2021-10-20 | (주)디앤아이파비스 | 클러스터링을 이용한 특허문서의 유사도 판단 방법, 장치 및 시스템 |
KR102507192B1 (ko) * | 2020-12-07 | 2023-03-07 | 고려대학교 산학협력단 | 문서 유사도 측정 모델 생성 방법 및 이를 이용한 문서 유사도 측정 방법 |
KR102580512B1 (ko) * | 2023-04-12 | 2023-09-20 | (주)유알피 | 자동 문장 클러스터링 딥러닝 모델 학습을 위한 자동화된 rpa 학습 장치 및 방법 |
KR102640811B1 (ko) * | 2023-09-01 | 2024-02-27 | (주)유알피 | 핵심 키워드 추출 시 정확도 향상을 위한 딥러닝 기반 사용자 사전 키워드 추천 시스템 |
KR102640803B1 (ko) * | 2023-09-01 | 2024-02-27 | (주)유알피 | 사용자 사전 구축을 위한 딥러닝 기반 사용자 키워드 추천 방법 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5895470A (en) * | 1997-04-09 | 1999-04-20 | Xerox Corporation | System for categorizing documents in a linked collection of documents |
-
2001
- 2001-03-09 KR KR10-2001-0012318A patent/KR100420096B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5895470A (en) * | 1997-04-09 | 1999-04-20 | Xerox Corporation | System for categorizing documents in a linked collection of documents |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021154539A1 (en) * | 2020-01-28 | 2021-08-05 | Schlumberger Technology Corporation | Oilfield data file classification and information processing systems |
Also Published As
Publication number | Publication date |
---|---|
KR20020072140A (ko) | 2002-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100420096B1 (ko) | 각 범주의 핵심어와 문장간 유사도 측정 기법을 이용한비지도 학습을 기반으로 하는 자동 문서 범주화 방법 | |
CN110442760B (zh) | 一种问答检索系统的同义词挖掘方法及装置 | |
Gamon | Linguistic correlates of style: authorship classification with deep linguistic analysis features | |
Stamatatos et al. | Automatic text categorization in terms of genre and author | |
US5680511A (en) | Systems and methods for word recognition | |
Ahmed et al. | Language identification from text using n-gram based cumulative frequency addition | |
US20230069935A1 (en) | Dialog system answering method based on sentence paraphrase recognition | |
US11893537B2 (en) | Linguistic analysis of seed documents and peer groups | |
KR100481580B1 (ko) | 문서에서 이벤트 문장을 추출하는 장치 및 그 방법 | |
Dyevre | Text-mining for lawyers: How machine learning techniques can advance our understanding of legal discourse | |
Hughes | Automatically acquiring a classification of words | |
Fauziah et al. | Lexicon Based Sentiment Analysis in Indonesia Languages: A Systematic Literature Review | |
CN114970536A (zh) | 一种分词、词性标注和命名实体识别的联合词法分析方法 | |
Galvez et al. | Term conflation methods in information retrieval: Non‐linguistic and linguistic approaches | |
KR20230077588A (ko) | 금융 용어 언어 모델에 기반하여 금융 도메인의 다양한 질의에 대한 의도를 분류하고 및 답변을 검색하는 방법 및 시스템 | |
CN114579695A (zh) | 一种事件抽取方法、装置、设备及存储介质 | |
Hirpassa | Information extraction system for Amharic text | |
Vicedo et al. | University of Alicante at TREC-10 | |
Polshchykova et al. | Synonymy in the terminology of computational linguistics | |
Awwalu et al. | A corpus based transformation-based learning for Hausa text parts of speech tagging | |
Farkas et al. | Named entity recognition for Hungarian using various machine learning algorithms | |
Karunarathna et al. | Learning to Use Normalization Techniques for Preprocessing and Classification of Text Documents | |
US11928427B2 (en) | Linguistic analysis of seed documents and peer groups | |
Paliouras et al. | Learning rules for large vocabulary word sense disambiguation | |
Zmandar et al. | Multilingual Financial Word Embeddings for Arabic, English and French |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
N231 | Notification of change of applicant | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130212 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20140212 Year of fee payment: 11 |
|
FPAY | Annual fee payment |
Payment date: 20150212 Year of fee payment: 12 |
|
FPAY | Annual fee payment |
Payment date: 20160212 Year of fee payment: 13 |
|
FPAY | Annual fee payment |
Payment date: 20170213 Year of fee payment: 14 |
|
FPAY | Annual fee payment |
Payment date: 20180212 Year of fee payment: 15 |
|
FPAY | Annual fee payment |
Payment date: 20190212 Year of fee payment: 16 |
|
FPAY | Annual fee payment |
Payment date: 20200212 Year of fee payment: 17 |