KR101681109B1 - 대표 색인어와 유사도를 이용한 문서 자동 분류 방법 - Google Patents

대표 색인어와 유사도를 이용한 문서 자동 분류 방법 Download PDF

Info

Publication number
KR101681109B1
KR101681109B1 KR1020150138705A KR20150138705A KR101681109B1 KR 101681109 B1 KR101681109 B1 KR 101681109B1 KR 1020150138705 A KR1020150138705 A KR 1020150138705A KR 20150138705 A KR20150138705 A KR 20150138705A KR 101681109 B1 KR101681109 B1 KR 101681109B1
Authority
KR
South Korea
Prior art keywords
word
document
words
documents
similarity
Prior art date
Application number
KR1020150138705A
Other languages
English (en)
Inventor
김문수
강민수
김상기
김용욱
최종현
Original Assignee
한국외국어대학교 연구산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국외국어대학교 연구산학협력단 filed Critical 한국외국어대학교 연구산학협력단
Priority to KR1020150138705A priority Critical patent/KR101681109B1/ko
Application granted granted Critical
Publication of KR101681109B1 publication Critical patent/KR101681109B1/ko

Links

Images

Classifications

    • G06F17/30705
    • G06F17/21
    • G06F17/273
    • G06F17/2755
    • G06F17/277

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

문서에서 의미 있는 단어를 추출하고, 단어의 출현 횟수와 문서의 수에 따른 각 단어의 가중치를 산출하고, 가중치가 높은 단어들에 대하여 연관용어 집합을 구성하고 분야별 대표 색인어를 추출하고, 추출된 대표 색인어와 문서간의 유사도를 이용하여 문서를 자동으로 분류하는, 대표 색인어와 유사도를 이용한 문서 자동 분류 방법에 관한 것으로서, (a) 샘플 문서들로부터 본문 텍스트를 추출하는 단계; (b) 상기 본문 텍스트에서 형태소 분석을 하여, 불용어를 제거하고, 동의어를 처리하여, 단어들을 추출하는 단계; (c) 추출한 각 단어들에 대하여, 각 문서에 대한 단어 가중치를 계산하고, 상기 문서에 대한 단어 가중치를 평균하여, 해당 단어의 단어 가중치를 산출하는 단계; (d) 가중치가 높은 상위 단어들을 선택하고, 상기 상위 단어들로부터 각 분야별 대표 색인어를 구성하는 단계; 및, (e) 각 분야별 대표 색인어와 문서 간의 유사도를 이용하여 문서를 분야별로 분류하는 단계를 포함하는 구성을 마련한다.
상기와 같은 문서 자동 분류 방법에 의하여, 분야별 대표 색인어를 추출하고 이를 이용하여 문서 유사도에 의하여 분류함으로써. 문서나 산출물들을 보다 정확하게 분야별로 분류할 수 있고, 이를 통해, 보다 정확한 분야별 검색을 제공할 수 있다.

Description

대표 색인어와 유사도를 이용한 문서 자동 분류 방법 { An automatic method for classifying documents by using presentative words and similarity }
본 발명은 문서에서 의미 있는 단어를 추출하고, 단어의 출현 횟수와 문서의 수에 따른 각 단어의 가중치를 산출하고, 가중치가 높은 단어들에 대하여 연관용어 집합을 구성하고 분야별 대표 색인어를 추출하고, 추출된 대표 색인어와 문서간의 유사도를 이용하여 문서를 자동으로 분류하는, 대표 색인어와 유사도를 이용한 문서 자동 분류 방법에 관한 것이다.
일반적으로, 지식관리 시스템(knowledge management system)은 지식을 얻기 위한 과정인 수집, 축적, 공유, 활용에서 공유와, 활용에 초점을 맞춰 자료를 찾는 사용자들이 정확한 자료를 찾고 활용할 수 있도록 지원해주는 시스템을 말한다. 지식 관리 시스템은 조직구성원의 지식자산에 대한 자세, 조직의 지식 평가/보상 체계, 지식공유 문화 등 조직차원의 인프라와 통신 네트워크, 하드웨어, 각종 소프트웨어 및 도구 등 정보기술 차원의 인프라를 기본 전제로 하고 있다.
지식관리시스템은 지식베이스, 지식스키마, 지식맵의 3가지 요소로 구성되어 있다. 지식베이스가 원시데이터를 저장하는 데이터베이스에 비유된다면, 지식스키마는 원시데이터에 대한 메타데이터를 담고 있는 데이터 사전 또는 데이터베이스 스키마에 비유될 수 있다. 지식스키마 내에는 개별 지식의 유형, 중요도, 동의어, 주요 인덱스, 보안단계, 생성-조회-갱신-관리 부서 정보등과 전사적인 지식분류체계 등의 내용이 들어 있다. 집을 지을 때 설계가 중요하듯이 지식관리시스템을 구축할 때에도 먼저 지식스키마가 잘 구축되어야만 향후 저장된 지식을 활용하거나 유지-보수하는 작업이 효율적으로 수행될 수 있다.
기업 등 조직들은 지식을 체계적으로 관리하고, 그것을 바탕으로 지식경영을 완성하기 위하여 지식관리시스템을 도입한다. 여기에서 지식관리란, "기업의 목표달성을 위하여 조직 내외에 산재해 있는 지식을 획득하고 조합하여 체계적으로 공유시키는 제반 행위"를 말한다. 지식관리에 관하여 자주 인용되곤 하는 가트너 그룹에 의하면 "지식경영이란 기업의 지적 자산을 생성, 채집, 구조화, 접근 및 사용을 하기 위한 관리방법론으로, 데이터베이스, 문서, 업무규정 및 절차뿐만 아니라 직원들 머리속에 담겨있는 전문지식이나 경험들까지 포함하는 것이다" 라고 하였다. 확실히, 지식이란 것은 특정폴더나 서류박스 안에 담겨있는 것은 아니라. 위로 CEO로부터 아래로 청소부에 이르기까지 전 임직원의 머리속에 담겨있는 것이 지식, 노하우이다. 이것을 꺼내어 체계적으로 공유하고자 하는 것이 바로 지식관리다. 그리고 지식경영이란, "지식관리활동을 기업의 비즈니스에 연결함으로써 어떠한 가치를 창출해 내는 일련의 과정"을 말한다. 결과적으로 말하자면, 기업이 지식관리시스템을 도입하는 이유는 개개인의 머리속에 담겨있는 지식과 노하우를 꺼내어 체계적으로 공유, 관리하고, 그것을 이용하여 기업만의 고유한 가치를 창출하기 위함이라고 볼 수 있다.
특히, 기업 등 조직에서는 특정한 과제(또는 프로젝트)가 정해지거나 주어지면, 일정한 기간 내에 해당 과제를 진행하여 완성시키는 경우가 많다. 이때, 해당 과제 또는 프로젝트를 수행하면서, 수 많은 문서나 자료들을 참고하고, 또한, 새로운 문서나 자료들을 생산한다. 이렇게 프로젝트 진행중에 참고되거나 생산된 문서들은 해당 조직에게는 매우 소중한 지식과 노하우들 포함하고 있다. 따라서 상기와 같은 프로젝트 결과물들을 지식 베이스화하여 관리하는 것인 매우 중요한 일이다.
특히, 기업 등 조직에서 수행하는 프로젝트들은 서로 연관성을 갖거나 유사한 경우가 많다. 따라서 기업 등 조직의 담당자가 과거에 진행된 프로젝트의 결과물들을 손쉽게 접근하여 자신이 원하는 문서 등 결과들을 정확하게 검색할 수 있다면, 이들 검색 결과를 활용하여 자신의 프로젝트를 보다 빠르고 품질 높은 결과물들을 도출할 수 있을 것이다.
이를 위한 지식관리 시스템은 프로젝트 진행시 참고한 문서나 새로 생산된 산출물을 수집하는 수집 기능, 수집한 자료들을 색인화하고 분류하여 축적하는 축적 기능, 축적된 지식을 쉽게 검색하도록 제공하는 공유 기능, 및, 검색된 자료들을 프로젝트에 활용하도록 지원하는 활용 기능 등을 제공해야 한다.
특히, 문서나 결과물(또는 산출물)의 검색을 위해서는 색인화하고 분류하여 축적하는 기능은 매우 중요하다. 특히, 수집한 자료들을 분야별로 검색할 수 있도록, 문서나 산출물들을 정확하게 분류하는 기술이 필요하다.
[비특허문헌 1] 노동부(2010). 2010년 지식관리시스템 개선사업 [비특허문헌 2] 강효정, 강인태, 이용호, 박용태(2002). 상용 지식 경영 시스템(KMS)의 유형 분류와 유형별 특성의 비교 분석. 2002 대한 산업공학회/경영과학회 공동 학술대회 [비특허문헌 3] 김지숙, 문현정, 우용태(2001). 효율적인 문서 자동 분류를 위한 대표 색인어 추출 기법. 정보기술과 데이터베이스저널, 8(1), 117-128 [비특허문헌 4] 황재영, 이응봉(2003). 자동문헌분류를 위한 대표색인어 추출에 관한 연구. 제 10회 한국정보관리학회 학술대회 논문집, 55-64 [비특허문헌 5] 승현우, 박미영(2003). 연관규칙을 이용한 문헌정보학 전문용어 클러스터링 기법에 관한 연구. 한국문헌정보학회지, 37(2), 89-105 [비특허문헌 6] 이정화, 남상엽, 문현정, 우용태. 데이터마이닝 기법을 이용한 효율적인 전문용어 클러스터링. 210-215 [비특허문헌 7] M. O. Nassar, G. Kanaan, and H. A.H. Awad(2010). Comparison between Different Global Weighting Schemes. IMECS, 2010(1) [비특허문헌 8] E. Chisholm and T. G. Kolda(1999). New Term Weighting Formulas For The Vector Space Method In Information Retrieval. Computer Science and Mathematics Division [비특허문헌 9] 홍성조(2013). 산업공학 교과과정 이수체계에 관한 연구. 공학교육연구, 16(6), 78-86. [비특허문헌 10] M., Goldszmidt and M., Sahami(1998). A Probabilistic Approach to Full-Text Document Clustering. Technical Report, ITAD-433-MS-98-044,SRI International, 434-444 [비특허문헌 11] D., Lewis and W.A., Gale(1994). A Sequential Algorithm for Training Text Classifiers. In proceedings of the 17th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, London, Springer-Verlag, 3-12. [비특허문헌 12] 조태연, 윤성필(2006). Kano 모델과 QFD 통합을 통한 신제품 개발전략 수립에 관한 연구. 대한안정경영과학회지, 8, 57-70. [비특허문헌 13] 김수연, 이상복(2006). Kano 모델을 기반으로 한 공연장 고객의 니즈 파악에 관한 연구. 대한산업공학회 추계학술대회 논문집 16, 116-123. [비특허문헌 14] 특허청 지식관리시스템 사용자 매뉴얼 [비특허문헌 15] 노희승, 윤경희(2011). 경찰지식관리시스템의 활성화 방안에 관한 연구. 한국치안행정논집, 8(1), 243-264.
본 발명의 목적은 상술한 바와 같은 문제점을 해결하기 위한 것으로, 문서에서 의미 있는 단어를 추출하고, 단어의 출현 횟수와 문서의 수에 따른 각 단어의 가중치를 산출하고, 가중치가 높은 단어들에 대하여 연관용어 집합을 구성하고 분야별 대표 색인어를 추출하고, 추출된 대표 색인어와 문서간의 유사도를 이용하여 문서를 자동으로 분류하는, 대표 색인어와 유사도를 이용한 문서 자동 분류 방법을 제공하는 것이다.
상기 목적을 달성하기 위해 본 발명은 대표 색인어와 유사도를 이용한 문서 자동 분류 방법에 관한 것으로서, (a) 샘플 문서들로부터 본문 텍스트를 추출하는 단계; (b) 상기 본문 텍스트에서 형태소 분석을 하여, 불용어를 제거하고, 동의어를 처리하여, 단어들을 추출하는 단계; (c) 추출한 각 단어들에 대하여, 각 문서에 대한 단어 가중치를 계산하고, 상기 문서에 대한 단어 가중치를 평균하여, 해당 단어의 단어 가중치를 산출하는 단계; (d) 가중치가 높은 상위 단어들을 선택하고, 상기 상위 단어들로부터 각 분야별 대표 색인어를 구성하는 단계; 및, (e) 각 분야별 대표 색인어와 문서 간의 유사도를 이용하여 문서를 분야별로 분류하는 단계를 포함하는 것을 특징으로 한다.
또, 본 발명은 대표 색인어와 유사도를 이용한 문서 자동 분류 방법에 있어서, 상기 (b)단계에서, 형태소 분석 결과, 조사, 동사, 접속사, 형용사를 포함하는 불용어들을 추출된 단어들에서 제거하는 것을 특징으로 한다.
또, 본 발명은 대표 색인어와 유사도를 이용한 문서 자동 분류 방법에 있어서, 상기 (b)단계에서, 전문용어 사전을 참조하여, 동의어이나 서로 다른 형태로 표시되는 단어들을 동일한 단어로 처리하는 것을 특징으로 한다.
또, 본 발명은 대표 색인어와 유사도를 이용한 문서 자동 분류 방법에 있어서, 상기 (c)단계에서, 각 문서에 대한 단어 가중치는 문서 d에서 단어 t에 대한 출현 횟수를 나타내는 단어 빈도 TF와, 단어 t가 여러 문서에 나타날 경우 중요도가 낮아지는 정도를 나타내는 역문헌 빈도 IDF를 이용하여 연산되는 것을 특징으로 한다.
또, 본 발명은 대표 색인어와 유사도를 이용한 문서 자동 분류 방법에 있어서, 문서 d에 대한 단어 t의 단어 가중치를 w't,d 를 다음 수식 1에 의해 연산되는 것을 특징으로 한다.
[수식 1]
Figure 112015095325015-pat00001
n은 문서 d에서 나타나는 서로 상이한 단어들의 개수이고, tft,d 는 문서 d에 대한 단어 t의 단어 빈도이고, idft 는 단어 t에 대한 역문헌 빈도임.
또, 본 발명은 대표 색인어와 유사도를 이용한 문서 자동 분류 방법에 있어서, 상기 (d)단계에서, 상기 상위 단어들이 동일한 문서 내의 단어와 일치하는 것을 연관규칙으로 하여 연관성 분석을 수행하고, 상기 연관성 분석으로 상위 단어들을 연관성 집합으로 그룹화하고, 사용자의 입력에 의하여 상기 연관성 집합을 각 분야로 분류시켜서, 해당 분야로 분류된 연관성 집합에 속하는 단어들을 대표 색인어로 구성하는 것을 특징으로 한다.
또, 본 발명은 대표 색인어와 유사도를 이용한 문서 자동 분류 방법에 있어서, 상기 연관성 분석을 수행할 때, 최소 지지도와 신뢰도는 각각 10 및, 55로 설정되는 것을 특징으로 한다.
또, 본 발명은 대표 색인어와 유사도를 이용한 문서 자동 분류 방법에 있어서, 상기 (d)단계에서, 사용자의 입력에 의하여, 연관성 집합 내의 단어들이 수정되는 것을 특징으로 한다.
또, 본 발명은 대표 색인어와 유사도를 이용한 문서 자동 분류 방법에 있어서, 상기 (e)단계에서, 각 분야별 대표 색인어와 문서 간의 유사도는 다음 [수식 2]에 의해 연산되는 것을 특징으로 한다.
[수식 2]
Figure 112015095325015-pat00002
단, cosθ(X,Y)는 문서와 분야별 대표 색인어 간의 유사도이도, n은 분야별 대표 색인어의 개수이고, i는 대표 색인어의 인덱스이고, Xi는 분류될 문서에 대한 단어 가중치이고, Yi는 대표 색인어의 단어 가중치임.
또, 본 발명은 대표 색인어와 유사도를 이용한 문서 자동 분류 방법에 있어서, 상기 (e)단계에서, 상기 분류될 문서에 대한 단어 가중치 Xi는 단어 빈도 및 역문헌 빈도에 의해 구해지되, 역문헌 빈도는 상기 (c)단계에서 구한 해당 단어의 역문헌 빈도를 사용하는 것을 특징으로 한다.
또한, 본 발명은 대표 색인어와 유사도를 이용한 문서 자동 분류 방법을 수행하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.
상술한 바와 같이, 본 발명에 따른 대표 색인어와 유사도를 이용한 문서 자동 분류 방법에 의하면, 분야별 대표 색인어를 추출하고 이를 이용하여 문서 유사도에 의하여 분류함으로써. 문서나 산출물들을 보다 정확하게 분야별로 분류할 수 있고, 이를 통해, 보다 정확한 분야별 검색을 제공할 수 있는 효과가 얻어진다.
도 1은 본 발명을 실시하기 위한 전체 시스템 일례의 구성에 대한 블록도.
도 2는 본 발명의 일실시예에 따른 대표 색인어와 유사도를 이용한 문서 자동 분류 방법을 설명하는 흐름도.
도 3은 본 발명의 일실시예에 따라 수집 문서에서 본문 내용을 추출한 결과에 대한 예시도.
도 4는 본 발명의 일실시예에 따른 형태소 분석기에 의한 실행 결과에 대한 예시도.
도 5는 본 발명의 일실시예에 따른 전문용어 시소러스의 일부분에 대한 예시도.
도 6은 본 발명의 일실시예에 따른 문서 및 그 내의 단어에 대한 통계적 수치를 나타낸 표.
도 7은 본 발명의 일실시예에 따른 가중치가 높은 상위의 단어들의 일부를 나타낸 표.
도 8은 본 발명의 일실시예에 따른 상위 단위에 대한 문서 유무 판별 예시를 나타낸 표.
도 9는 본 발명의 일실시예에 따른 전문용어 "품질"에 대한 지지도/신뢰도별 연관 규칙의 수를 나타낸 표.
도 10은 본 발명의 일실시예에 따른 1차 연관 용어 집합 일부분을 나타낸 표.
도 11은 본 발명의 일실시예에 따른 분야별 대표 단어들로 추출한 것을 예시로 나타낸 표.
도 12는 본 발명의 일실시예에 따른 문서 분류에 대한 정확률, 재현율, F-Measure 결과를 나타낸 그래프.
이하, 본 발명의 실시를 위한 구체적인 내용을 도면에 따라서 설명한다.
또한, 본 발명을 설명하는데 있어서 동일 부분은 동일 부호를 붙이고, 그 반복 설명은 생략한다.
먼저, 본 발명을 실시하기 위한 전체 시스템의 구성에 대하여 도 1을 참조하여 설명한다.
도 1a 또는 도 1b에서 보는 바와 같이, 본 발명에 따른 대표 색인어와 유사도를 이용한 문서 자동 분류 방법은 네트워크 상의 서버 시스템 또는 컴퓨터 단말 상의 프로그램 시스템으로 실시될 수 있다.
도 1a와 같이, 본 발명의 실시를 위한 전체 시스템의 일례는 사용자 단말(10)과 분류 서버(30)로 구성되고 서로 네트워크(20)로 연결된다. 또, 필요한 데이터를 저장하기 위한 데이터베이스(40)를 더 구비할 수 있다.
사용자 단말(10)은 사용자가 이용하는 PC, 노트북, 넷북, PDA, 모바일, 태블릿, 패블릿 등의 통상의 컴퓨팅 단말기이다. 사용자는 사용자 단말(10)을 이용하여 문서나 산출물(또는 프로젝트 결과물) 등을 분류 서버(30)로 전송하거나, 전송된 문서 등을 분류하도록 분류 서버(30)에 요청한다.
분류 서버(30)는 통상의 서버로서 네트워크(20)에 연결되어 문서나 산출물을 수신하여, 문서 등으로부터 단어를 추출하고, 대표 색인어를 추출하거나, 대표 색인어와 문서 간의 유사도를 이용하여 문서를 분류한다.
한편, 분류 서버(30)는 상기 각 서비스들을 인터넷 상의 웹페이지로 제공하는 웹서버 또는 웹어플리케이션 서버 등으로 구현될 수 있다. 또한, 분류 서버(30)는 지식관리 시스템 내에 어플리케이션이나 어플리케이션 서버로서 구축될 수 있다. 즉, 지식관리 시스템이 전체적으로 문서의 수집하여 축적하고, 축적된 문서를 지식 베이스로 구성하여 사용자에게 해당 문서를 검색할 수 있도록 제공한다. 이때, 지식관리 시스템의 하나의 구성 요소로서 문서를 자동으로 분류하는 분류 서버(30)가 구축될 수 있다.
데이터베이스(40)는 분류 서버(30)에서 필요한 데이터를 저장하는 통상의 저장매체로서, 문서 분류를 위한 대표 색인어, 분야 등 데이터를 저장하거나, 분류된 문서들을 지식 베이스로 구축하여 저장한다.
도 1b와 같이, 본 발명의 실시를 위한 전체 시스템의 다른 예는 컴퓨터 단말(13)에 설치되는 프로그램 형태의 분류 장치(30)로 구성된다. 즉, 분류 장치(30)의 각 기능들은 컴퓨터 프로그램으로 구현되어 컴퓨터 단말(13)에 설치되어, 문서나 산출물 등을 컴퓨터 단말(13)의 입력장치를 통해 입력받아, 이들 문서 등을 분류하고, 분류 결과를 컴퓨터 단말(13)의 출력장치를 통해 출력하거나 저장한다. 한편, 분류 장치(30)에서 필요한 데이터들은 컴퓨터 단말(13)의 하드디스크 등 저장공간에 저장되어 이용된다.
즉, 본 발명에 따른 대표 색인어와 유사도를 이용한 문서 자동 분류 방법은 네트워크 상의 서버 시스템 또는 컴퓨터 단말 등 컴퓨팅 장치 상의 프로그램 시스템으로 실시될 수 있다.
다음으로, 본 발명의 일실시예에 따른 대표 색인어와 유사도를 이용한 문서 자동 분류 방법을 도 2를 참조하여 설명한다.
도 2에서 보는 바와 같이, 본 발명에 따른 대표 색인어와 유사도를 이용한 문서 자동 분류 방법은 본문 텍스트 추출 단계(S10), 본문 텍스트에서 단어들을 추출하는 단계(S20), 추출된 단어들에 대한 가중치를 산출하는 단계(S30), 추출된 단어로부터 각 분야별 대표 색인어들 추출하는 단계(S40), 대표 색인어와의 유사도를 이용하여 문서를 분류하는 단계(S50)로 구성된다.
먼저, 수집한 문서(샘플 문서)들로부터 문서의 본문 텍스트를 추출한다(S10). 즉, 수집한 문서에서 문서의 본문 내용만을 텍스트로 추출한다.
상기 샘플 문서들은 대표 단어를 추출하기 위한 것으로서, 전체 문서 중 일부 샘플링된 문서들을 사용하거나, 현재 데이터베이스(40)에 저장된 문서들을 모두 사용할 수 있다. 문서는 관련 분야의 문서, 논문, 프로젝트 산출물 등이다. 대표 색인어(또는 대표 단어)를 추출하기 위하여, 각 분야에 모두 속하는 충분히 양의 문서들을 분석하여, 해당 문서들로부터 각 분야별 대표 색인어를 추출할 수 있다.
바람직하게는, 상기 샘플 문서들을 아파치 티카(Apache Tika)를 이용하여 문서의 본문을 추출한다. 아파치 티카는 특정 문서에서 본문 텍스트와 메타정보를 제공하는 API(Application Program Interface)이다. 즉, 아파치 티카는 문서 타입 검출 및 다양한 파일 형식에서 콘텐츠를 추출하는 기능을 제공하는 라이브러리이다. 아파치 티카는 PDF, 마이크로소프트사의 오피스 문서, 텍스트(txt) 등 다양한 문서를 지원한다.
수집한 문서에서 추출한 본문 또는 문서 내용은 *, &, ^ 등 특수 문자와 공백을 제거되고, 텍스트 파일로 저장된다. 도 3은 아파치 티카의 실행 결과를 도시하고 있다.
다음으로, 상기 본문 텍스트로부터 단어(또는 색인 단어)들을 추출한다(S20). 구체적으로, 문서의 본문 텍스트에서 형태소를 분석하여, 불용어들을 제거하고, 전문용어 사전을 참조하여 동의어를 처리한다. 즉, 상기 단어 추출 단계(S20)는 형태소 분석 단계(S21), 불용어 제거 단계(S22), 및, 전문용어에 의한 동의어 처리 단계(S23)로 구성된다.
구체적으로, 문서의 저장된 본문 내용으로부터 형태소를 분석하여, 어절 단위와 품사 구별을 수행한다(S21). 텍스트 형태로 저장된 문서 본문 내용에 형태소 분석기를 적용하여, 상기 본문 내용을 각각의 형태소로 구분한다.
바람직하게는, 상기 형태소 분석기로서, 샤인웨어(SHINEWARE)가 제작한 코모란(KOMORAN) 등의 상용화된 도구를 이용한다. 그외에도 강승식(국민대)교수가 제작한 HAM, 서울대학교IDS 에서 제작한 꼬꼬마 형태소 분석기 등 어느 형태소 분석기도 적용될 수 있다. 상기 형태소 분석기를 이용하여 어절단위와 품사구별을 한다. 도 4는 형태소 분석기에 의한 실행 결과이다.
다음으로, 구분된 형태소들에서 불용어들을 제거한다(S22). 즉, 형태소 분석기로 나누어진 형태소 중 색인단어로는 의미가 없는 불용어들을 제거한다. 불용어 제거는 형태소 분석기에 저장된 명사와 복합명사를 제외하고 조사, 동사, 접속사, 형용사 등과 같은 다른 품사는 모두 제거한다.
예를 들어, 색인 단어로 필요하지 않은 ‘와’, ‘같습니다’ 등은 불용어로서, 제거되어야 한다. 구체적으로, “생산관리는 산업공학 분야에서 기업의 생산을 향상시키는 중요한 과목이다”라는 문장을 형태소 분석기로 분석하면, ‘생산관리’+ ‘산업공학’ + ‘분야’+ ‘기업’ + ‘생산’+ ‘향상’ + ‘과목’으로 분리한다. 위의 예문과 같이 복합명사, 명사를 제외하고는 모두 제외한다고 볼 수 있다.
다음으로, 전문용어 사전을 이용하여, 단어에 대하여 전문용어의 동의어를 처리한다(S23). 즉, 동일한 의미이지만 서로 다른 형태로 표시되는 단어(또는 용어)들을 동일한 단어 또는 동일한 용어로 처리한다. 바람직하게는, 동일한 의미를 가지는 다수의 단어 중에서 대표 단어를 선택하고, 대표 색인 단어와 동일한 의미를 갖는 모든 단어 또는 용어들을 대표 단어 또는 대표 용어로 처리한다.
문서분류 과정에서 동의어 처리는 꼭 필요한 부분이라고 할 수 있다. 예를 들어 ‘공급망관리, 공급사슬관리, SCM, Supply Chain Management’는 의미가 같은 전문용어다. 이를 같은 용어로 처리하기 위해서는 동의어 처리가 필요 하다.
바람직하게는, 전문용어는 전문용어 사전을 이용한다. 즉, 전문용어 사전의 전문용어들을 토대로 전문용어 시소러스를 제작한다. 시소러스란 데이터 검색을 위한 키워드(색인어)간의 관계, 즉 동의어, 하위어, 관련어 등의 관계를 나타낸 사전을 말한다. 도 5는 전문용어 시소러스의 일부분을 보여준다.
도 5에서 보는 바와 같이, 간반, 간판, 칸반, 칸반 시스템과 같은 의미는 같은데 형태가 다르게 나타난 단어들이 있다. 산업공학 용어 사전을 참고해 의미는 같은데 형태가 다른 단어들을 대표 단어 하나로 취급한다. 즉, 간반, 간판, 칸반을 칸반 시스템으로 통합하고 칸반 시스템이라는 단어가 총 4번 나온 것으로 처리한다. 즉, 의미는 같지만 형태가 다르게 나타난 단어를 처리한다.
다음으로, 추출한 단어들에 대하여, 단어의 가중치를 계산한다(S30). 각 문서에 대한 단어의 가중치를 계산하고, 이들을 평균하여 각 단어의 가중치를 계산한다.
문서에 대한 단어 가중치는 단어 빈도(TF, Term Frequency)와 역문헌 빈도(IDF, Inverse Document Frequency)에 의해 계산한다. 즉, 하나의 문서 D에서 단어 w에 대한 가중치(weight)값을 산출하여, 여러 문서들 중 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치로 표현한다.
문서와 단어에 대한 통계적 수치들은 다음과 같다.
TF(Term Frequency)는 하나의 문서 d에서 단어 t에 대한 출현 횟수를 의미하며, tft,d로 표시한다. 이를 단어 빈도라 부르기로 한다.
또한, DF(Document Frequency)는 단어 t를 포함한 문서의 수를 의미하며, 이를 dft로 표시한다. 이를 문서 빈도라 부르기로 한다.
또한, IDF(Inverse Document Frequency)는 단어 t가 여러 문서에 나타날 경우 중요도가 낮아짐을 나타내며, 이를 idft 로 표시한다. 또한, 이를 역문헌 빈도라 부르기로 한다.,
즉, 역문헌 빈도 IDF는 다음 [수학식 1]과 같이 표현될 수 있다.
[수학식 1]
Figure 112015095325015-pat00003
여기서, N은 문서의 총수를 의미한다.
따라서 문서에서 단어 가중치는 다음 [수학식 2]에 의해 계산한다.
[수학식 2]
Figure 112015095325015-pat00004
여기서, wt,d는 하나의 문서 d에서 단어 t에 대한 가중치이다.
상기와 같은 문서에 대한 통계적 수치를 세부적으로 나타내면, 도 6과 같이 다양하게 표시될 수 있다.
도 6의 TF 공식들의 정확도를 살펴본다. 길이가 긴 문서는 일반적으로 단어들이 반복적으로 나타나기 때문에 길이가 짧은 문서에 비하여 비교적 높은 가중치를 나타낸다. 또한, 동일한 단어가 짧은 문서에서 3번 나타나는 것과 긴 문서에서 3번 나타나는 것이 같은 가중치를 가진다고 말하기 어렵기 때문에 각 문서의 크기와 단어의 비중을 같게 만들기 위해 문서길이 정규화를 추가로 적용한다.
즉, 문서 길이에 대하여 문서를 정규화하고, 정규화된 문서 d에 대하여 단어 가중치를 구한다. 다음 수학식 3은 정규화된 문서 d에 대한 단어 가중치 w't,d를 나타낸 것이다.
[수학식 3]
Figure 112015095325015-pat00005
여기서, n은 문서에서 나타나는 단어(서로 상이한 단어들)의 개수를 나타낸다.
문서분류 과정에서는 상기와 같은 단어 가중치를 적용하여 문서에서 공통적으로 출현하는 단어에 대한 가중치를 정규화하여 조정한다.
그리고 동일한 단어에 대하여, 각 문서에 대한 단어 가중치들을 평균하여, 해당 단어에 대한 가중치(이하 단어 가중치)를 계산한다.
다음으로, 추출된 단어들로부터 각 분야별 대표 색인어를 구성한다(S40).
상기 각 분야별 대표 단어를 구성하는 단계(S40)는 추출된 단어에서 가중치가 높은 상위 단어들을 선정하는 단계(S41), 상위 단어들이 동일한 문서에 나타나는 것을 연관규칙으로 하여 연관성 분석을 수행하는 단계(S42), 연관성 분석에 의해 단어들을 연관성 집합으로 그룹화하는 단계(S43), 사용자의 입력에 의하여 연관성 집합을 각 분야로 분류시키는 단계(S44), 및, 사용자의 입력에 의하여 연관성 집합 내의 단어들을 보정하여 각 분야별 대표 단어들을 구성하는 단계(S45)로 구성된다.
먼저, 추출된 단어에서 가중치가 높은 상위 단어들을 선정한다. 즉, 앞서 단계(S20)에서 추출한 단어들 중 가중치가 높은 상위 M개의 단어들 또는 상위 M%의 단어들을 선정한다. 이하에서 가중치가 높아 선정된 단어들을 상위 단어라 부르기로 한다.
예를 들어, 전처리 과정을 거쳐 35000개의 단어들 중 분야별 대표 색인어 추출을 위해 TF*IDF 가중치가 높은 순으로 상위 5%인 1500개의 단어를 추출한다. 도 6의 표는 TF*IDF 가중치 상위 단어 추출 일부를 나타낸 표이다.
다음으로, 연관성 분석을 수행하여(S42), 상위 단어들을 연관성 집합으로 구성한다(S43)
상위 단어들이 문서 내의 단어와 일치하는지 여부를 나타내는 값을 구하고, 구한 값을 이용하여 연관성 분석을 수행한다. 즉, 상위 단어 A가 하나의 문서 내의 단어와 일치하는 것이 X이고, 다른 상위 단어 B가 해당 문서 내의 단어와 일치하는 것이 Y로 표시하면, 다음과 같은 연관규칙으로 표시할 수 있다.
R : X -> Y
연관성 분석은 다음과 같은 선험적(Apriori) 규칙이 적용된다.
1) 한 단어집합(또는 항목집합)이 빈발하다면, 이 단어집합의 모든 부분집합은 역시 빈발항목집합이다.
2) 한 단어집합이 비빈발하다면, 이 단어집합을 포함하는 모든 집합은 비빈발항목 집합이다.
예를 들어, 모든 단어들의 집합을 I={a,b,c,d}라 한다. 만일 {b,c,d}가 빈발항목집합(빈발단어집합)이라면 ,이 단어의 부분집합{b,c},{b,d},{c,d},{b},{c},{d}는 역시 빈발단어집합이 되는데 ,이를 선험적 규칙이라고 한다. 만일 {a,b}가 최소 지지도 기준을 넘지못한 비빈발 단어집합이라면, 이 집합을 포함하는 {a,b,c},{a,b,d},{a,b,c,d}는 빈발단어집합이 될 수 없다. 이 사실을 이용하면 최소 지지도 기준을 넘지 못하는 단어집합들을 쉽게 가지치기 할 수 있는데, 이를 선험적 규칙을 이용한 빈발단어집합 추출 방법이라고 한다[비특허문헌 5].
상기와 같은 선험적 규칙에 따라 각 문서마다 단어들의 유/무 판단을 하여 빈발단어집합 I를 찾아낸다. 그런 다음 모든 빈발 단어집합 I에 대하여 I의 모든 공집합이 아닌 부분집합들을 찾는다.
도 9의 표에서 보는 바와 같이, 연관 규칙은 최소 지지도와 신뢰도의 변화에 따라 다양하게 출력된다. 여기서 지지도는 전체 문서에서 연관 규칙을 이루는 단어 쌍이 동시에 출현한 문서 수를 의미한다. 지지도가 너무 낮을 경우에는 연관성이 높지 않은 단어에 대해서도 연관 규칙은 만족하므로 지나치게 많은 수의 군집을 형성한다.
구체적으로, 문서 300편의 3.3% 정도인 지지도 10을 최소지지도로 설정한다. 그리고 신뢰도는 연관규칙 a -> b에서 a 단어를 기준으로 a와 b가 동시에 출현하는 비율을 의미한다. 신뢰도를 높이면 b의 출현 빈도에 따라 연관 규칙의 수는 줄어든다. 따라서 바람직하게는, 지지도와 신뢰도를 정적치인 10/55로 설정한다.
구체적으로, 데이터마이닝 툴 IBM SPSS Modeler 14.2를 사용하기 위해 상위 1500개의 단어들을 추출한 후, 각 문서 내의 단어들과 비교하여 유무 판별을 한다. 즉, 상위 1500개의 단어들이 문서 내의 단어와 일치할 때 T, 불일치 할 때 F로 표기한다. 도 8의 표는 상위 단어들과 문서 내의 단어 유무 판별을 한 예시이다.
SPSS Modeler 14.2를 통해 분야별 전문용어와 관련이 없는 단어들은 필터 노드(Node)를 통해 제거한다.
또한, 대표 색인어를 추출하는데 지지도와 신뢰도를 각각 다르게 설정하여 적절한 연관 규칙의 수를 설정한다. 도 9의 표는 전문용어 ‘품질’에 대한 지지도/신뢰도별 연관 규칙의 수를 나타낸 것이다. 바람직하게는, 본 문서분류 과정에서는 대표 색인어 추출을 위해 지지도 10, 신뢰도 55로 설정한다.
그리고 연관성 분석 후 각 단어들 간의 연관성 집합을 구성한다. 연관성 집합을 구성한 후 분야 영역(시스템분석, 생산/물류, 품질/서비스, 인간공학, 정보시스템, 경영공학 분야 등)으로 단어 집합을 재구성한다[비특허문헌 9].
도 10의 표는 연관성 집합 일부분을 나타낸다.
다음으로, 사용자의 입력을 통해, 상기 연관성 집합들을 각 분야로 분류하고(S44), 상기 연관성 집합 내 단어들을 보정하여 최종적으로 분야별 대표 단어 또는 대표 색인어를 추출한다(S45).
앞서 연관성 분석을 통해 다수의 연관성 집합들이 구성되면, 각 연관성 집합들이 어느 분야에 속하는지를 결정한다. 이때, 사용자의 입력을 통해 분야가 정해진다.
또한, 보다 정확한 연관용어 집합 및 대표 색인어 추출을 위하여, 관리자 등 사용자의 입력을 받는다. 사용자의 입력에 의하여, 해당 영역에 대표 용어 또는 대표 단어라고 보기 어려운 단어들을 제거하고, 상기 연관성 집합에서 지지도가 임계치 이하여서 추출되지 못한 해당 영역과 밀접한 관련이 있는 단어들을 추출한다.
예를 들어, 연관성 집합에서 추출된 공급, 기업, 고객 등과 같이 “생산/물류” 영역을 대표하는 단어라고 보기 어려운 단어들을 제거한다. 또한, 연관성 집합에서 지지도가 임계치 이하여서 추출되지 못한 납기, 자재, 주문 등과 같은 용어들은 “생산/물류” 분야와 밀접한 관련이 있는 단어로 추출한다.
또한, TF*IDF 가중치가 낮아 상위 단어에 포함되지 않았던 단어들 중 각 분야 영역을 대표하는 단어 또는 용어들을 추가로 포함하여 분야별 대표 단어를 일정한 개수만큼 추출한다. 바람직하게는, 각 분야별 30개씩 총 180개 추출한다.
도 11은 분야별 대표 단어들로 추출한 것을 나타내고 있다.
다음으로, 대표 색인어와 문서 간의 유사도를 이용하여 문서를 분류한다(S50).
먼저, 해당 분야별로 대표 색인어와 문서 간의 유사도를 산출한다(S51).
대표 색인어와 문서간의 유사도 계산을 위해 코사인 계수를 사용한다. 코사인 계수는 비교하고자 하는 두 대상에 대한 특징 간의 일치 정도를 측정할 수 있다[비특허문헌 10]. 코사인 계수의 식은 다음과 같다.
[수학식 4]
Figure 112015095325015-pat00006
여기서, X는 분류하고자 하는 문서에 대한 문서에 대한 단어 가중치 벡터이고, Y는 해당 분야에서의 대표 색인어의 가중치 벡터이다. n은 분야별 또는 영역별 대표 색인어(또는 대표 단어)의 개수를 말하고, i는 대표 단어의 인덱스를 말한다.
즉, Xi는 분류될 문서 단어의 가중치이며, Yi의 대표 단어 가중치의 대표 단어와 동일한 의미를 갖는 단어에 대한 가중치이다. 한편, Xi는 해당 문서에서의 해당 단어의 문서 빈도(df)에 역문헌 빈도(idf)를 곱하여 구해진다.
특히, 대표 단어의 가중치 Yi는 앞서 구한 단어 가중치를 이용한다. 또한, 분류할 문서의 가중치 Xi는 수학식 2 또는 수학식 3의 문서에 대한 단어 가중치를 구하여 사용한다. 이때, 문서 빈도 tf는 해당 문서에서 직접 구하고, 역문헌 빈도 idf는 샘플 문서를 대상으로 구한 각 단어의 idf를 그대로 사용한다.
예를 들어, 인간공학 대표 단어에 ‘의자’가 있다고 가정하면, ‘의자’라는 단어가 분류될 문서에 몇 개 있는지 확인후(빈도수) 빈도수 곱하기 대표단어 ‘의자’의 역문헌 빈도(idf)를 한다. 이렇게 하면 분류될 문서 단어의 가중치 Xi값이 나오게 된다. 이때, i는 "의자"를 나타내는 대표 단어의 인덱스를 말한다.
즉, 앞서 수학식 4의 유사도는 해당 분야에서의 문서의 유사도로서, 해당 문서가 해당 분야에 얼마나 속하는지를 나타내는 지표이다.
따라서 분야 또는 영역의 수만큼, 각 분야의 유사도를 구하고, 가장 높은 유사도를 가지는 분야(또는 영역)가 해당 문서의 분야로 분류한다.
다음으로, 문서 분류에 대한 평가를 설명한다.
산업공학 대표단어들을 가지고 문서분류를 한 뒤 문서분류 정확도를 평가했다. 정확도를 평가하는 방법으로는 정확률과 재현율, F-Measure가 있다.
첫째로, 정확률(Precision)은 분류된 문서 중에서 정확하게 분류된 문서의 비율을 의미한다. 정확률의 단점은 분류 자체의 오류에 대해서는 고려하지 못하는 문제가 있다. 정확률의 식은 다음과 같다.
[수학식 5]
Figure 112015095325015-pat00007
둘째, 재현률(Recall)은 해당 분야별 문서 중에서 정확하게 분류된 문서의 비율을 의마한다. 재현율은 다른 분야의 문서가 해당 분야로 오분류 된 문서에 대해서는 고려하기 힘든 단점이 있다. 재현률의 식은 다음과 같다.
[수학식 6]
Figure 112015095325015-pat00008
셋째, F-평가(F-Measure)는 정확률과 재현률의 문제점을 보완하기 위한 식이다[비특허문헌 11].
[수학식 7]
Figure 112015095325015-pat00009
위의 식에서 β=1일 경우 정확률과 재현률에 동일한 가중치를 적용하여 문서분류 정확도를 평가하게 된다. 바람직하게는, 문서분류 과정에서는 F-Measure로 정확도 평가한다.
도 12의 표는 정확률, 재현율 그리고 F-Measure 결과를 도표로 나타낸 것이다.
이상, 본 발명자에 의해서 이루어진 발명을 실시 예에 따라 구체적으로 설명하였지만, 본 발명은 실시 예에 한정되는 것은 아니고, 그 요지를 이탈하지 않는 범위에서 여러 가지로 변경 가능한 것은 물론이다.
10 : 사용자 단말 13 : 컴퓨터 단말
20 : 네트워크 30 : 분류 서버
40 : 데이터베이스

Claims (11)

  1. 대표 색인어와 유사도를 이용한 문서 자동 분류 방법에 있어서,
    (a) 샘플 문서들로부터 본문 텍스트를 추출하는 단계;
    (b) 상기 본문 텍스트에서 형태소 분석을 하여, 불용어를 제거하고, 동의어를 처리하여, 단어들을 추출하는 단계;
    (c) 추출한 각 단어들에 대하여, 각 문서에 대한 단어 가중치를 계산하고, 상기 문서에 대한 단어 가중치를 평균하여, 해당 단어의 단어 가중치를 산출하는 단계;
    (d) 가중치가 높은 상위 단어들을 선택하고, 상기 상위 단어들로부터 각 분야별 대표 색인어를 구성하는 단계; 및,
    (e) 각 분야별 대표 색인어와 문서 간의 유사도를 이용하여 문서를 분야별로 분류하는 단계를 포함하는 것을 특징으로 하는 대표 색인어와 유사도를 이용한 문서 자동 분류 방법.
  2. 제1항에 있어서,
    상기 (b)단계에서, 형태소 분석 결과, 조사, 동사, 접속사, 형용사를 포함하는 불용어들을 추출된 단어들에서 제거하는 것을 특징으로 하는 대표 색인어와 유사도를 이용한 문서 자동 분류 방법.
  3. 제1항에 있어서,
    상기 (b)단계에서, 전문용어 사전을 참조하여, 동의어이나 서로 다른 형태로 표시되는 단어들을 동일한 단어로 처리하는 것을 특징으로 하는 대표 색인어와 유사도를 이용한 문서 자동 분류 방법.
  4. 제1항에 있어서,
    상기 (c)단계에서, 각 문서에 대한 단어 가중치는 문서 d에서 단어 t에 대한 출현 횟수를 나타내는 단어 빈도 TF와, 단어 t가 여러 문서에 나타날 경우 중요도가 낮아지는 정도를 나타내는 역문헌 빈도 IDF를 이용하여 연산되는 것을 특징으로 하는 대표 색인어와 유사도를 이용한 문서 자동 분류 방법.
  5. 제4항에 있어서,
    문서 d에 대한 단어 t의 단어 가중치를 w't,d 를 다음 수식 1에 의해 연산되는 것을 특징으로 하는 대표 색인어와 유사도를 이용한 문서 자동 분류 방법.
    [수식 1]
    Figure 112015095325015-pat00010

    n은 문서 d에서 나타나는 서로 상이한 단어들의 개수이고, tft,d 는 문서 d에 대한 단어 t의 단어 빈도이고, idft 는 단어 t에 대한 역문헌 빈도임.
  6. 제1항에 있어서,
    상기 (d)단계에서, 상기 상위 단어들이 동일한 문서 내의 단어와 일치하는 것을 연관규칙으로 하여 연관성 분석을 수행하고, 상기 연관성 분석으로 상위 단어들을 연관성 집합으로 그룹화하고, 사용자의 입력에 의하여 상기 연관성 집합을 각 분야로 분류시켜서, 해당 분야로 분류된 연관성 집합에 속하는 단어들을 대표 색인어로 구성하는 것을 특징으로 하는 대표 색인어와 유사도를 이용한 문서 자동 분류 방법.
  7. 제6항에 있어서,
    상기 연관성 분석을 수행할 때, 최소 지지도와 신뢰도는 각각 10 및, 55로 설정되는 것을 특징으로 하는 대표 색인어와 유사도를 이용한 문서 자동 분류 방법.
  8. 제6항에 있어서,
    상기 (d)단계에서, 사용자의 입력에 의하여, 연관성 집합 내의 단어들이 수정되는 것을 특징으로 하는 대표 색인어와 유사도를 이용한 문서 자동 분류 방법.
  9. 제5항에 있어서,
    상기 (e)단계에서, 각 분야별 대표 색인어와 문서 간의 유사도는 다음 [수식 2]에 의해 연산되는 것을 특징으로 하는 대표 색인어와 유사도를 이용한 문서 자동 분류 방법.
    [수식 2]
    Figure 112015095325015-pat00011

    단, cosθ(X,Y)는 문서와 분야별 대표 색인어 간의 유사도이도, n은 분야별 대표 색인어의 개수이고, i는 대표 색인어의 인덱스이고, Xi는 분류될 문서에 대한 단어 가중치이고, Yi는 대표 색인어의 단어 가중치임.
  10. 제9항에 있어서,
    상기 (e)단계에서, 상기 분류될 문서에 대한 단어 가중치 Xi는 단어 빈도 및 역문헌 빈도에 의해 구해지되, 역문헌 빈도는 상기 (c)단계에서 구한 해당 단어의 역문헌 빈도를 사용하는 것을 특징으로 하는 대표 색인어와 유사도를 이용한 문서 자동 분류 방법.
  11. 제1항 내지 제10항 중 어느 한 항의 대표 색인어와 유사도를 이용한 문서 자동 분류 방법을 수행하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020150138705A 2015-10-01 2015-10-01 대표 색인어와 유사도를 이용한 문서 자동 분류 방법 KR101681109B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150138705A KR101681109B1 (ko) 2015-10-01 2015-10-01 대표 색인어와 유사도를 이용한 문서 자동 분류 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150138705A KR101681109B1 (ko) 2015-10-01 2015-10-01 대표 색인어와 유사도를 이용한 문서 자동 분류 방법

Publications (1)

Publication Number Publication Date
KR101681109B1 true KR101681109B1 (ko) 2016-11-30

Family

ID=57707754

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150138705A KR101681109B1 (ko) 2015-10-01 2015-10-01 대표 색인어와 유사도를 이용한 문서 자동 분류 방법

Country Status (1)

Country Link
KR (1) KR101681109B1 (ko)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609113A (zh) * 2017-09-13 2018-01-19 北京科技大学 一种文本自动分类方法
KR101846122B1 (ko) * 2017-05-15 2018-04-05 주식회사 케이콘테스트 빅데이터 분석을 활용한 공모전 관리 시스템
KR20180117458A (ko) 2017-04-19 2018-10-29 아시아나아이디티 주식회사 문장 분류에 기반하는 문서 자동분류 방법 및 그 장치
WO2019035699A1 (ko) * 2017-08-18 2019-02-21 경희대학교 산학협력단 인문 사상의 분류 방법
KR20190135129A (ko) * 2018-05-28 2019-12-06 인천대학교 산학협력단 문서 구조와 딥러닝을 이용한 문서 분류 장치 및 방법
KR102068507B1 (ko) * 2019-07-11 2020-01-21 (주)시큐레이어 기계 학습 모델의 신뢰도를 판단하기 위한 후처리 방법 및 이를 사용한 후처리 장치
CN110717092A (zh) * 2018-06-27 2020-01-21 北京京东尚科信息技术有限公司 为文章匹配对象的方法、系统、设备及存储介质
CN111444319A (zh) * 2020-06-12 2020-07-24 支付宝(杭州)信息技术有限公司 文本匹配方法、装置和电子设备
CN112270183A (zh) * 2020-10-21 2021-01-26 北京钛氪新媒体科技有限公司 一种基于文本的新闻传播效果监测系统
KR20210089962A (ko) * 2020-01-09 2021-07-19 (주)미소정보기술 컨셉 사전을 기반으로 생성된 규칙을 이용한 텍스트 분석 장치 및 방법
CN113449078A (zh) * 2021-06-25 2021-09-28 完美世界控股集团有限公司 相似新闻识别方法、设备、系统及存储介质
US11176179B2 (en) 2019-09-24 2021-11-16 International Business Machines Corporation Assigning a new problem record based on a similarity to previous problem records
KR102404478B1 (ko) * 2021-07-29 2022-06-07 주식회사 데이터아이 기업 내부 문서의 리스크를 분석하는 서비스를 제공하는 장치 및 방법
CN116975296A (zh) * 2023-09-22 2023-10-31 北京数语科技有限公司 一种基于词向量的数据安全分类方法及系统

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180117458A (ko) 2017-04-19 2018-10-29 아시아나아이디티 주식회사 문장 분류에 기반하는 문서 자동분류 방법 및 그 장치
KR101846122B1 (ko) * 2017-05-15 2018-04-05 주식회사 케이콘테스트 빅데이터 분석을 활용한 공모전 관리 시스템
WO2019035699A1 (ko) * 2017-08-18 2019-02-21 경희대학교 산학협력단 인문 사상의 분류 방법
KR20190019637A (ko) * 2017-08-18 2019-02-27 경희대학교 산학협력단 인문 사상의 분류 방법
KR102079931B1 (ko) * 2017-08-18 2020-02-21 경희대학교 산학협력단 인문 사상의 분류 방법
CN107609113A (zh) * 2017-09-13 2018-01-19 北京科技大学 一种文本自动分类方法
KR102069621B1 (ko) * 2018-05-28 2020-01-23 인천대학교 산학협력단 문서 구조와 딥러닝을 이용한 문서 분류 장치 및 방법
KR20190135129A (ko) * 2018-05-28 2019-12-06 인천대학교 산학협력단 문서 구조와 딥러닝을 이용한 문서 분류 장치 및 방법
CN110717092A (zh) * 2018-06-27 2020-01-21 北京京东尚科信息技术有限公司 为文章匹配对象的方法、系统、设备及存储介质
KR102068507B1 (ko) * 2019-07-11 2020-01-21 (주)시큐레이어 기계 학습 모델의 신뢰도를 판단하기 위한 후처리 방법 및 이를 사용한 후처리 장치
US11176179B2 (en) 2019-09-24 2021-11-16 International Business Machines Corporation Assigning a new problem record based on a similarity to previous problem records
KR20210089962A (ko) * 2020-01-09 2021-07-19 (주)미소정보기술 컨셉 사전을 기반으로 생성된 규칙을 이용한 텍스트 분석 장치 및 방법
KR102505821B1 (ko) 2020-01-09 2023-03-06 (주)미소정보기술 컨셉 사전을 기반으로 생성된 규칙을 이용한 텍스트 분석 장치 및 방법
CN111444319A (zh) * 2020-06-12 2020-07-24 支付宝(杭州)信息技术有限公司 文本匹配方法、装置和电子设备
CN112270183A (zh) * 2020-10-21 2021-01-26 北京钛氪新媒体科技有限公司 一种基于文本的新闻传播效果监测系统
CN112270183B (zh) * 2020-10-21 2024-03-19 北京钛氪新媒体科技有限公司 一种基于文本的新闻传播效果监测系统
CN113449078A (zh) * 2021-06-25 2021-09-28 完美世界控股集团有限公司 相似新闻识别方法、设备、系统及存储介质
KR102404478B1 (ko) * 2021-07-29 2022-06-07 주식회사 데이터아이 기업 내부 문서의 리스크를 분석하는 서비스를 제공하는 장치 및 방법
CN116975296A (zh) * 2023-09-22 2023-10-31 北京数语科技有限公司 一种基于词向量的数据安全分类方法及系统

Similar Documents

Publication Publication Date Title
KR101681109B1 (ko) 대표 색인어와 유사도를 이용한 문서 자동 분류 방법
Ceccarelli et al. Learning relatedness measures for entity linking
US8577834B2 (en) Methodologies and analytics tools for locating experts with specific sets of expertise
US8983963B2 (en) Techniques for comparing and clustering documents
US20060179051A1 (en) Methods and apparatus for steering the analyses of collections of documents
CN105159932B (zh) 一种数据检索引擎和排序系统和方法
CN106383836B (zh) 将可操作属性归于描述个人身份的数据
Trappey et al. An R&D knowledge management method for patent document summarization
CN112632228A (zh) 一种基于文本挖掘的辅助评标方法及系统
CN114911917B (zh) 资产元信息搜索方法、装置、计算机设备及可读存储介质
EP2045732A2 (en) Determining the depths of words and documents
Patil et al. A novel feature selection based on information gain using WordNet
KR101753768B1 (ko) 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템
JP4426041B2 (ja) カテゴリ因子による情報検索方法
Francis Taming text: An introduction to text mining
Mohemad et al. Performance analysis in text clustering using k-means and k-medoids algorithms for Malay crime documents
Fatudimu et al. Knowledge discovery in online repositories: a text mining approach
Ayre Data Mining for Information Professionals
JP5679400B2 (ja) カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体
Boden et al. FactCrawl: A Fact Retrieval Framework for Full-Text Indices.
Galiotou et al. On the effect of stemming algorithms on extractive summarization: a case study
Ajitha et al. EFFECTIVE FEATURE EXTRACTION FOR DOCUMENT CLUSTERING TO ENHANCE SEARCH ENGINE USING XML.
Nikitinsky et al. An information retrieval system for technology analysis and forecasting
Ma Text classification on imbalanced data: Application to Systematic Reviews Automation
CN117556112B (zh) 电子档案信息智能管理系统

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20191107

Year of fee payment: 4