KR20230079967A - 문서 자동분류를 위한 점수산정 장치 및 방법 - Google Patents

문서 자동분류를 위한 점수산정 장치 및 방법 Download PDF

Info

Publication number
KR20230079967A
KR20230079967A KR1020210167262A KR20210167262A KR20230079967A KR 20230079967 A KR20230079967 A KR 20230079967A KR 1020210167262 A KR1020210167262 A KR 1020210167262A KR 20210167262 A KR20210167262 A KR 20210167262A KR 20230079967 A KR20230079967 A KR 20230079967A
Authority
KR
South Korea
Prior art keywords
score
ranking
documents
word
learning
Prior art date
Application number
KR1020210167262A
Other languages
English (en)
Inventor
고영률
김용수
Original Assignee
주식회사 위고
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 위고 filed Critical 주식회사 위고
Priority to KR1020210167262A priority Critical patent/KR20230079967A/ko
Publication of KR20230079967A publication Critical patent/KR20230079967A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 실시간 및/또는 대용량의 빅데이터와 같이 그룹성을 갖는 문서에 적용되어 문서의 정확한 분류를 위한 문서 자동분류를 위한 점수산정 장치 및 방법을 제공하기 위한 것으로서, 본 발명에 따른 문서 자동분류를 위한 점수산정 장치의 특징은 한 그룹의 학습문서 내에서의 출현 빈도를 기반으로 단어의 랭킹을 산출하여, 랭킹단어별 초기점수를 설정하는 랭킹점수 산출부와, 상기 랭킹점수 산출부에서 설정된 랭킹단어가 전체 그룹의 학습문서에서 검색되는 출현 빈도를 이용하여 랭킹단어별 분별력 점수를 설정하는 비교점수 산출부와, 하나의 학습문서 당 출현 횟수를 한 그룹의 모든 학습문서에서 출현된 단어의 평균 출현횟수로 적용하여 상기 비교점수 산출부에서 설정된 랭킹단어별 분별력 점수를 보정하는 점수 보정부와, 상기 점수 보정부에서 보정된 랭킹단어별 분별력 점수를 기반으로 분류 대상이 되는 특성을 갖는 분야로 분류문서를 분류하는 분류 처리부를 포함할 수 있다.

Description

문서 자동분류를 위한 점수산정 장치 및 방법{SCORE CALCULATION APPARATUS METHOD FOR AUTOMATICALLY CLASSIFICATION OF DOCUMENT AND METHOD THEREOF}
본 발명은 정보 검색과 텍스트 마이닝에서 이용하는 가중치 산정을 위한 장치 및 방법으로, 특히, 실시간 및/또는 대용량의 빅데이터와 같이 그룹성을 갖는 문서에 적용되어 문서의 정확한 분류를 위한 문서 자동분류를 위한 점수산정 장치 및 방법에 관한 것이다.
인터넷의 급속한 발전과 함께 정보의 공유는 인류에 많은 혜택을 주었다. 컴퓨터와 인터넷의 발달을 통해 다양한 정보를 제공하거나 제공받을 수 있다. 그리고 최근 빅데이터와 데이터를 분류 및 예측하는 기계 학습 분야의 연구가 활발히 진행되고 있다. 특히 패턴 분류 기술은 뉴스, 블로그, SNS 등의 문서 분류, 이슈 분류, 감성 분류에 활용되고 있다. 이처럼 엄청나게 폭증하는 정보량에 비해 인간의 정보 습득 능력에는 한계가 있는바 다양한 정보 검색 기능에 대한 연구가 이루어지고 있다.
TFIDF(Term Frequency Inverse Document Frequency) 기법은 특정 문서에서 복수의 대표 단어를 추출하는 방식으로, 하나의 문서에서 단어의 사용 빈도와 여러 문서에서 사용된 횟수 등을 가중하여 해당 문서에서 각 단어의 중요도를 평가하는 방식이다. 상기 TFIDF는 문서의 핵심어를 추출하거나, 검색 엔진에서 검색 결과의 순위를 결정하거나, 문서들 사이의 비슷한 정도를 구하는 등의 용도로 사용할 수 있다.
다만, TFIDF는 하나의 문서를 기준으로 이용되는 기법으로, 실시간 및/또는 대용량의 빅데이터에서 문서를 분류할 수 없는 이론으로, 현실적으로 이용되지 못하는 문제점이 있다.
공개특허공보 제10-2019-0135129호(공개일자 2019.12.06.) 등록특허공보 제10-1413444호(등록일자 2014.06.24.) 등록특허공보 제10-1399272호(등록일자 2014.05.20.)
따라서 본 발명은 상기와 같은 문제점을 해결하기 위해 안출한 것으로서, 실시간 및/또는 대용량의 빅데이터와 같이 그룹성을 갖는 문서에 적용되어 문서의 정확한 분류를 위한 문서 자동분류를 위한 점수산정 장치 및 방법을 제공하는데 그 목적이 있다.
본 발명은 그룹문서에 특성을 부여하여, 그룹을 나타내는 특성을 가지는 문서를 찾기 위한 문서 자동분류를 위한 점수산정 장치 및 방법을 제공하는데 그 목적이 있다.
본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있고, 본 발명의 실시예에 의해 보다 분명하게 이해될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
상기와 같은 목적을 달성하기 위한 본 발명에 따른 문서 자동분류를 위한 점수산정 장치의 특징은 한 그룹의 학습문서 내에서의 출현 빈도를 기반으로 단어의 랭킹을 산출하여, 랭킹단어별 초기점수를 설정하는 랭킹점수 산출부와, 상기 랭킹점수 산출부에서 설정된 랭킹단어가 전체 그룹의 학습문서에서 검색되는 출현 빈도를 이용하여 랭킹단어별 분별력 점수를 설정하는 비교점수 산출부와, 하나의 학습문서 당 출현 횟수를 한 그룹의 모든 학습문서에서 출현된 단어의 평균 출현횟수로 적용하여 상기 비교점수 산출부에서 설정된 랭킹단어별 분별력 점수를 보정하는 점수 보정부와, 상기 점수 보정부에서 보정된 랭킹단어별 분별력 점수를 기반으로 분류 대상이 되는 특성을 갖는 분야로 분류문서를 분류하는 분류 처리부를 포함할 수 있다.
바람직하게 상기 분별력 점수는 단어가 검색되는 그룹의 수가 작을수록 높아지고, 그룹의 수가 많을수록 '0'에 가까워지며, 상기 분별력 점수는 '0'에 가까워지는 것은 분별력이 점점 없어지는 것을 특징으로 할 수 있다.
상기와 같은 목적을 달성하기 위한 본 발명에 따른 문서 자동분류를 위한 점수산정 방법의 특징은 (A) 랭킹점수 산출부를 이용하여 한 그룹의 학습문서 내에서의 출현 빈도를 기반으로 단어랭킹을 산출하여, 랭킹단어별 초기 랭킹점수를 설정하는 단계와, (B) 비교점수 산출부를 이용하여 상기 설정된 랭킹단어가 전체 그룹의 학습문서에서 검색되는 출현 빈도를 이용하여 랭킹단어별 분별력 점수를 설정하는 단계와, (C) 점수 보정부를 이용하여 하나의 학습문서 당 출현 횟수를 한 그룹의 모든 학습문서에서 출현된 단어의 평균 출현횟수로 적용하여 상기 설정된 랭킹단어별 분별력 점수를 보정하는 단계와, (D) 분류 처리부를 이용하여 상기 보정된 랭킹단어별 분별력 점수를 기반으로 자동 분류율을 기반으로 분류 대상이 되는 특성을 갖는 분야로 분류문서를 분류하는 단계를 포함할 수 있다.
이상에서 설명한 바와 같은 본 발명에 따른 문서 자동분류를 위한 점수산정 장치 및 방법은 실시간 및/또는 대용량의 빅데이터와 같이 그룹성을 갖는 문서에 적용되어 문서의 정확한 분류를 제공할 수 있다. 특히, 그룹문서에 특성을 부여하여, 그룹을 나타내는 특성을 가지는 문서를 보다 효과적으로 찾을 수 있다.
상술한 효과와 더불어 본 발명의 구체적인 효과는 이하 발명을 실시하기 위한 구체적인 사항을 설명하면서 함께 기술한다.
도 1은 본 발명의 실시예에 따른 문서 자동분류를 위한 점수산정 장치의 구성을 나타낸 블록도이다.
도 2는 본 발명의 실시예에 따른 문서 자동분류를 위한 점수산정 방법을 설명하기 위한 흐름도이다.
본 발명의 다른 목적, 특성 및 이점들은 첨부한 도면을 참조한 실시예들의 상세한 설명을 통해 명백해질 것이다.
본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
본 발명에 따른 문서 자동분류를 위한 점수산정 장치 및 방법의 바람직한 실시예에 대하여 첨부한 도면을 참조하여 설명하면 다음과 같다. 그러나 본 발명은 이하에서 개시되는 실시예에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예는 본 발명의 개시가 완전하도록하며 통상의 지식을 가진자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이다. 따라서 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.
이하에서 어떤 구성요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 상기 구성요소들은 서로 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성요소 사이에 다른 구성요소가 "개재"되거나, 각 구성요소가 다른 구성요소를 통해 "연결", "결합" 또는 "접속"될 수도 있는 것으로 이해되어야 할 것이다.
도 1은 본 발명의 실시예에 따른 문서 자동분류를 위한 점수산정 장치의 구성을 나타낸 블록도이다. 도 1에 도시된 점수산정 장치는 일 실시예에 따른 것이고, 그 구성요소들이 도 1에 도시된 실시예에 한정되는 것은 아니며, 필요에 따라 일부 구성요소가 부가, 변경 또는 삭제될 수 있다.
도 1에서 도시하고 있는 것과 같이, 본 발명의 점수산정 장치는 한 그룹의 학습문서 내에서의 출현 빈도를 기반으로 단어의 랭킹을 산출하여, 랭킹단어별 초기점수를 설정하는 랭킹점수 산출부(100)와, 상기 랭킹점수 산출부(100)에서 설정된 랭킹단어가 전체 그룹의 학습문서에서 검색되는 출현 빈도를 이용하여 랭킹단어별 분별력 점수를 설정하는 비교점수 산출부(200)와, 하나의 학습문서 당 출현 횟수를 한 그룹의 모든 학습문서에서 출현된 단어의 평균 출현횟수로 적용하여 상기 비교점수 산출부(200)에서 설정된 랭킹단어별 분별력 점수를 보정하는 점수 보정부(300)와, 상기 점수 보정부(300)에서 보정된 랭킹단어별 분별력 점수를 기반으로 분류 대상이 되는 특성을 갖는 분야로 분류문서를 분류하는 분류 처리부(400)를 포함할 수 있다.
상기 분류 대상은 상품분야, 업무분야, 감성분야 등을 포함하며, 이에 한정되는 것은 아니다. 다만, 분류되는 대상이 그룹의 학습문서 중 하나의 특성에 부여되어 분야의 결과로 분류하기 위한 것이다. 다만, 분류된 문서가 학습이라고 하면 학습과정에서 이런 과정을 수행하여 학습문서를 생성하는 것이며, 또한, 비교문서를 분류하기 위한 것이라면, 학습된 데이터를 이용하여 원하는 문서에서 나오는 단어들이 어느 그룹에 가까운 것인지 분류를 하기 위한 것이다.
상기 랭킹점수 산출부(100)는 랭킹을 산출할 때 이용되는 학습문서의 개수가 많을수록 가산점을 높게 줌으로써, 이용되는 학습문서의 개수가 많을수록 더 높은 랭킹점수가 산출되도록 구성할 수 있다. 예로서, 10개 중인 학습문서에서 10개의 단어가 나오는 경우와, 100의 학습문서에서 100개의 단어가 나오는 경우는 모두 출현 빈도의 확률이 100%로 동일하지만, 10개 중인 학습문서에서 10개의 단어가 나오는 것 보다 100개의 학습문서에서 100개의 단어가 나오는 것이 더 나오기가 어려우므로, 더 높은 랭킹점수가 산출되도록 구성할 수 있다.
상기 비교점수 산출부(200)는 전체 그룹의 학습문서에서 검색되는 출현 빈도를 이용하여 단어별로 서로 비교하여 분별력 점수를 산출할 수 있다. 이때, 산출되는 분별력 점수는 단어가 검색되는 그룹의 수가 작을수록 높아지고, 그룹의 수가 많을수록 '0'에 가까워질 수 있다. 예로서, 한 그룹의 학습문서들에서 검색되는 단어가 다른 그룹의 학습문서들 모두에서 검색된다면, 분별력 점수는 '0'이 될 수 있다.
이처럼, 상기 분별력 점수는 단어가 다른 그룹의 학습문서들에는 없고 한 그룹의 학습문서들에만 있다만 그 단어의 분별력 점수가 높아지고, 그 단어가 검색되는 다른 그룹의 학습문서들이 많을수록 그 단어의 분별력 점수는 '0'에 가까워지게 된다. 상기 분별력 점수는 '0'에 가까워지는 것은 분별력이 점점 없어지는 것을 뜻한다.
상기 점수 보정부(300)는 학습문서에 출현한 단어 출현횟수가 많이 나온 경우 또는 출현횟수가 적게 나온 경우, 상기 비교점수 산출부(200)에서 산출되는 분별력 점수가 과도하게 높거나 낮게 산출되는 것을 막기 위한 구성이다. 즉, 상기 점수 보정부(300)는 특성을 갖는 분야로 학습문서를 분류할 때, 하나의 학습문서에서 해당 단어를 1번만 이용하는데, 분별력 점수를 산출할 때 2번 검색되었다고 2배로 적용하면 높게 산출되는 분별력 점수로 인해 분류에 노이즈를 발생시키게 된다. 이를 해결하기 위해, 상기 점수 보정부(300)는 한 그룹에 해당되는 모든 학습문서에서 출현된 단어의 평균 출현횟수로 적용하여 평균이 넘는 개수를 이용하지 않도록 구성할 수 있다.
상기 분류 처리부(400)는 상기 점수 보정부(300)에서 보정된 랭킹단어별 분별력 점수와 분류문서에서 나온 단어의 개수를 이용하여 학습문서를 분류할 수 있다. 이처럼, 상기 분류 처리부(400)는 분류문서를 여러 그룹의 학습문서 중 어느 하나의 특성을 가지는 그룹의 문서로 분류하기 위한 것이다.
이와 같이 구성된 본 발명에 따른 문서 자동분류를 위한 점수산정 방법을 첨부한 도면을 참조하여 상세히 설명하면 다음과 같다. 도 1과 동일한 참조부호는 동일한 기능을 수행하는 동일한 부재를 지칭한다.
도 2는 본 발명의 실시예에 따른 문서 자동분류를 위한 점수산정 방법을 설명하기 위한 흐름도이다.
도 2를 참조하여 설명하면, 먼저 랭킹점수 산출부(100)를 이용하여 한 그룹의 학습문서 내에서의 출현 빈도를 기반으로 다음 수학식1을 통해 단어랭킹을 산출하여, 랭킹단어별 초기 랭킹점수를 설정할 수 있다(S10). 상기 랭킹점수는 한 그룹 내에서 단어들의 초기 랭킹을 정하기 위한 점수로서, 단어별 초기점수에 해당된다. 이 점수대로 랭킹이 그룹 내에서 취해지게 된다.
Figure pat00001
이때, 상기 분자로그는 자연로그이고, 상기 분모로그는 자연로그보다 지수를 높게 설정할 수 있다. 분모로그 지수를 분자로그보다 더 높게 설정한 이유는 10개의 학습문서 중에서 단어 10개가 나온 것 보다 100개의 학습문서 중에서 단어 100개가 나온 대상에 더 높은 랭킹점수를 주기 위해서다. 그리고 상기 전체단어수는 훈련문서에 단어가 출현되는 출현횟수이다.
예로서, 학습문서를 지정할 때, 분류 대상이 감성분야로서 긍정, 부정, 중립이 있다고 할 때, 긍정문서 10개, 부정문서 50개, 중립문서 30개로 학습문서의 개수가 다를 수 있다, 이처럼 학습문서의 분류 대상의 개수가 다를 때, 많은 개수를 갖는 학습문서에 가산점을 주기 위한 것이다. 즉, 학습문서가 많을수록 가산점이 높게 설정된다.
이어서, 비교점수 산출부(200)를 이용하여 상기 설정된 랭킹단어가 전체 그룹의 학습문서에서 검색되는 출현 빈도를 이용하여 다음 수학식 2 및 3을 통해 랭킹단어별 분별력 점수를 설정할 수 있다(S20). 상기 비교점수 산출부(200)는 내 그룹에 있는 특성 단어들만 분별력 점수를 올리기 위한 구성이다.
Figure pat00002
Figure pat00003
이때, 상기 max score는 모든 분류단어의 분별력 점수 중 최대점수로서, 랭킹점수에서의 최고점수를 말한다. 그리고 상기 df값은 분별력 정도를 나타낸다.
예를 들면, 단어 A가 그룹 AA, BB, CC, DD에 각각 존재할 때, AA그룹에서 랭킹점수가 가장 높으면, max score는 AA그룹의 A 단어의 랭킹점수의 값이다. 그리고 상기 df는 AA그룹의 A, BB그룹의 A, CC그룹의 A, DD그룹의 A를 최고의 랭킹점수로 나눈 값의 합이다.
그리고 단어 A가 AA, BB, CC, DD 그룹에서 같은 랭킹점수로 분포될 경우, df값은 1이 되며, 상기 df값이 1이 되는 것은 분별력이 낮은 것을 의미한다. 상기 df값은 기존의 TFIDF를 집단 성격으로 변환한 공식으로 새롭게 구현한 구성이다.
한편, 분별력이 낮을수록 수학식 2에서 계산되는 분별력 점수는 '0'에 가까워진다. 즉, log(1)=0이 되므로, df값이 1될수록 분별력 점수는 '0'에 가까워지게 된다.
이처럼, 상기 비교점수 산출부(200)는 전체 그룹의 학습문서에서 검색되는 출현 빈도를 이용하여 단어별로 서로 비교하여 df값을 산출할 수 있다. 그리고 산출되는 df값은 단어가 검색되는 그룹의 수가 작을수록 높아지고, 그룹의 수가 많을수록 계산되는 분별력 점수는 '0'에 가까워 진다.
따라서 df점수는 단어가 다른 그룹의 학습문서들에는 없고, 한 그룹의 학습문서들에만 있다만 그 단어의 df값이 높아지고, 그 단어가 검색되는 다른 그룹의 학습문서들이 많을수록 그 단어의 df값은 1이 되며, 분별력 점수는 '0'에 가까워지게 된다. 즉, 분별력 점수가 '0'에 가까워지는 것은 분별력이 점점 없어지는 것을 뜻한다.
예를 들면, 날씨라는 단어를 가지고 있는 문서를 긍정문서, 부정문서, 중립문서로 분류할 때, 날씨라는 단어가 모든 학습문서에 비슷한 분포로 존재한다면, 날찌라는 단어가 나왔을 때, 긍정, 부정, 중립의 분별력 점수를 가산 안 될 것이다. 왜냐하면, 긍정문서, 부정문서, 중립문서에 모두 비슷하게 들어있는 단어이기 때문에, 이런 단어들은 0점의 분별력 점수가 나오게 함으로써, 분류 시에 사용되는 단어에서 분별력 없는 단어로 배제시킬 수 있다.
다른 예를 들면, 온도와 날씨라는 단어가 문서에 존재하는 경우, 온도라는 단어가 A, B, C 집단에 모두 존재하며 각각 df점수가 5점이고, 날씨라는 단어는 A라는 집단에만 존재하며 df값이 1점이다. 그러면, 온도라는 단어는 A, B, C 집단에 똑같이 df값이 5점이기 때문에, df값은 1이 된다. 따라서 온도라는 단어는 분별력이 없게 되는 것이다. 그리고 날씨라는 단어는 A라는 집단에만 있기 때문에 df값은 감소되지 않게 되어 분별력이 있는 단어가 되는 것이다.
이처럼, 부정적인 문서만 모아놓은 문서에는 욕설하는 단어만이 남게 되고, 긍정적인 문서만 모아놓은 문서에는 칭찬하는 단어만이 남게 되서, 도중에 필요 없는 단어는 분별력 점수를 0에 가까워지게 되도록 만드는 것이다.
한편, 분류의 대상은 긍정, 부정, 중립에 한정되는 것은 아니고, 상품분야, 업무분야, 감성분야 등을 포함하는 다양한 분류 대상으로 적용될 수 있다.
이어서, 점수 보정부(300)를 이용하여 하나의 학습문서 당 출현 횟수를 한 그룹의 모든 학습문서에서 출현된 단어의 평균 출현횟수로 적용하여 다음 수학식 4, 5를 통해 상기 설정된 랭킹단어별 분별력 점수를 보정할 수 있다(S30).
Figure pat00004
Figure pat00005
이때, 상기 해당단어의 최대분별력 점수는 해당 단어가 모든 그룹의 학습문서에서 가장 높은 분별력 점수이다.
이러한 1, 2차 보정을 통해 특정 그룹의 학습문서에 출현한 단어 출현횟수가 많이 나온 경우 또는 출현횟수가 적게 나온 경우, 산출되는 분별력 점수가 과도하게 높거나 낮게 산출되는 것을 방지할 수 있다.
즉, 특성을 갖는 분야로 학습문서를 분류할 때, 하나의 학습문서에서 해당 단어를 1번만 이용하는데, 분별력 점수를 산출할 때 2번 검색되었다고 2배로 적용하면 높게 산출되는 분별력 점수로 인해 분류에 노이즈를 발생시키게 된다. 이를 해결하기 위해, 1, 2차 보정을 통해 한 그룹에 해당되는 모든 학습문서에서 출현된 단어의 평균 출현횟수로 적용하여 평균이 넘는 개수를 이용하지 않도록 할 수 있다.
그리고 분류 처리부(400)를 이용하여 상기 보정된 랭킹단어별 분별력 점수를 기반으로 다음 수학식 6을 통해 산출된 자동 분류율로 분류 대상이 되는 특성을 갖는 분야로 분류문서를 분류할 수 있다(S40). 즉, 산출된 자동 분류율이 가장 높은 특성으로 분류문서를 분류할 수 있다.
Figure pat00006
이처럼, 상기 보정된 랭킹단어별 분별력 점수와 분류문서에서 나온 단어의 개수를 이용하여 자동 분류율을 산출하고, 산출된 자동 분류율이 가장 높은 그룹의 학습문서로 분류문서를 분류할 수 있다.
(실시예)
예를 들면, 분류문서에서 '개최', '협약', '우수'가 검색되고, 분류 대상으로 A분류 그룹과, B분류 그룹으로 학습문서가 존재할 때, 다음 표 1과 같이, 검색된 단어들은 A분류 그룹 및 B분류 그룹별로 분별력 점수, 최대점수, 보정점수가 산출된 것으로 한다.
분류체계 단어 분별력 점수 랭킹 최대점수
(max score)
보정점수
A분류 개최 1.2 1.2 1
A분류 협약 0.8 0.8 1
B분류 개최 0.9 1.2 0.75
B분류 우수 0.2 0.8 1
표 1에서 나타내고 있는 것과 같이, 분류를 하고 싶은 문서인 분류문서에서 개최, 협약, 우수가 검색 된다. 그리고 A분류 그룹에서는 개최, 협약의 단어가 검색되고, 개최의 랭킹점수로 1.2점, 협약의 랭킹점수로 0.8점이 산출되었다. 또한, B분류 그룹에서는 개최, 우수의 단어가 검색되고, 개최의 랭킹점수로 1.2점, 우수의 랭킹점수로 0.8점이 산출되었다.
그리고 수학식 2, 3을 이용하여, A분류에서 개최의 분별력 점수로 1.2점, 협약의 분별력 점수로 0.8점이 산출되고, B분류에서 개최의 분별력 점수로 0.9점, 우수의 분별력 점수로 0.2점이 산출된다.
다음으로, 수학식 4, 5를 이용하여, 분별력 점수를 보정하게 되는데, A분류에서 개최의 분별력 점수가 1.2점, B분류에서 개최의 분별력 점수가 0.9점으로 산출되었지만, 출현된 단어의 평균 출현횟수를 적용하여 최고 점수를 확률값으로 주기 위해 모두 1.2로 나누어 준다. 그러면, 보정점수는 최고가 1점이 되고, 나머지는 0~1사이의 값으로 보정된다. 이에 따라, 산출된 보정점수는 A분류에서 개최가 1점, B분류에서 개최가 0.75점으로 보정된다.
그러면, 수학식 6을 이용하여 자동 분류율을 산출함으로써, 상기 분류문서가 A분류 그룹인지, B분류 그룹인지 최종적으로 분류할 수 있다.
즉, 수학식 6에 적용하면, 문서 단어의 개수는 3으로, 'A분류 = (1+1)/3'으로 자동 분류율은 0.6이 산출되고, 'B분류 = (0.75+1)/3'으로 자동 분류율은 0.58이 산출된다.
따라서 상기 분류문서는 A분류 그룹이 B분류 그룹보다 자동 분류율이 크기 때문에, A분류 그룹으로 판단할 수 있다.
한편, 개시된 실시예에 따른 장치는 프로세서, 프로그램 데이터를 저장하고 실행하는 메모리, 디스크 드라이브와 같은 영구 저장부(permanent storage), 외부 장치와 통신하는 통신 포트, 터치 패널, 키(key), 버튼 등과 같은 사용자 인터페이스 장치 등을 포함할 수 있다.  소프트웨어 모듈 또는 알고리즘으로 구현되는 방법들은 상기 프로세서 상에서 실행 가능한 컴퓨터가 읽을 수 있는 코드들 또는 프로그램 명령들로서 컴퓨터가 읽을 수 있는 기록매체 상에 저장될 수 있다. 여기서 컴퓨터가 읽을 수 있는 기록 매체로 마그네틱 저장 매체(예컨대, ROM(read-only memory), RAM(random-access memory), 플로피 디스크, 하드 디스크 등) 및 광학적 판독 매체(예컨대, 시디롬(CD-ROM), 디브이디(DVD: Digital Versatile Disc)) 등이 있다. 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템들에 분산되어, 분산 방식으로 컴퓨터가 판독 가능한 코드가 저장되고 실행될 수 있다.  매체는 컴퓨터에 의해 판독가능하며, 메모리에 저장되고, 프로세서에서 실행될 수 있다.
개시된 실시예에서 인용하는 공개 문헌, 특허 출원, 특허 등을 포함하는 모든 문헌들은 각 인용 문헌이 개별적으로 및 구체적으로 병합하여 나타내는 것 또는 게시된 실시예에서 전체적으로 병합하여 나타낸 것과 동일하게 개시된 실시예에 병합될 수 있다.
개시된 실시예의 이해를 위하여, 도면에 도시된 바람직한 실시 예들에서 참조 부호를 기재하였으며, 개시된 실시 예들을 설명하기 위하여 특정 용어들을 사용하였으나, 특정 용어에 의해 개시된 실시예가 한정되는 것은 아니며, 개시된 실시예들은 당업자에 있어서 통상적으로 생각할 수 있는 모든 구성 요소들을 포함할 수 있다.
개시된 실시예는 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들은 특정 기능들을 실행하는 다양한 개수의 하드웨어 또는/및 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 개시된 실시예는 하나 이상의 마이크로프로세서들의 제어 또는 다른 제어 장치들에 의해서 다양한 기능들을 실행할 수 있는, 메모리, 프로세싱, 로직(logic), 룩업 테이블(look-up table) 등과 같은 직접 회로 구성들을 채용할 수 있다. 개시된 실시예의 구성 요소들이 소프트웨어 프로그래밍 또는 소프트웨어 요소들로 실행될 수 있는 것과 유사하게, 개시된 실시예는 데이터 구조, 프로세스들, 루틴들 또는 다른 프로그래밍 구성들의 조합으로 구현되는 다양한 알고리즘을 포함하여, C, C++, 자바(Java), 어셈블러(assembler) 등과 같은 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능적인 측면들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다.  또한, 개시된 실시예는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. "매커니즘", "요소", "수단", "구성"과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다.  상기 용어는 프로세서 등과 연계하여 소프트웨어의 일련의 처리들(routines)의 의미를 포함할 수 있다.
개시된 실시예에서 설명하는 특정 실행들은 일 실시 예들로서, 어떠한 방법으로도 개시된 실시예의 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어 시스템들, 소프트웨어, 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다.  또한, 도면에 도시된 구성 요소들 간의 선들의 연결 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것으로서, 실제 장치에서는 대체 가능하거나 추가의 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들로서 나타내어질 수 있다.  또한, "필수적인", "중요하게" 등과 같이 구체적인 언급이 없다면 개시된 실시예의 적용을 위하여 반드시 필요한 구성 요소가 아닐 수 있다. 또한, 본 발명의 기술적 분야의 통상의 지식을 가진자라면 본 발명의 기술적 사상의 범위 내에서 다양한 실시예가 가능함을 이해할 수 있을 것이다. 따라서 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.
100: 랭킹점수 산출부
200: 비교점수 산출부
300: 점수 보정부
400: 분류 처리부

Claims (3)

  1. 한 그룹의 학습문서 내에서의 출현 빈도를 기반으로 단어의 랭킹을 산출하여, 랭킹단어별 초기점수를 설정하는 랭킹점수 산출부와,
    상기 랭킹점수 산출부에서 설정된 랭킹단어가 전체 그룹의 학습문서에서 검색되는 출현 빈도를 이용하여 랭킹단어별 분별력 점수를 설정하는 비교점수 산출부와,
    하나의 학습문서 당 출현 횟수를 한 그룹의 모든 학습문서에서 출현된 단어의 평균 출현횟수로 적용하여 상기 비교점수 산출부에서 설정된 랭킹단어별 분별력 점수를 보정하는 점수 보정부와,
    상기 점수 보정부에서 보정된 랭킹단어별 분별력 점수를 기반으로 분류 대상이 되는 특성을 갖는 분야로 분류문서를 분류하는 분류 처리부를 포함하는 문서 자동분류를 위한 점수산정 장치.
  2. 제 1 항에 있어서,
    상기 분별력 점수는 단어가 검색되는 그룹의 수가 작을수록 높아지고, 그룹의 수가 많을수록 '0'에 가까워지며, 상기 분별력 점수는 '0'에 가까워지는 것은 분별력이 점점 없어지는 것을 특징으로 하는 문서 자동분류를 위한 점수산정 장치.
  3. (A) 랭킹점수 산출부를 이용하여 한 그룹의 학습문서 내에서의 출현 빈도를 기반으로 단어랭킹을 산출하여, 랭킹단어별 초기 랭킹점수를 설정하는 단계와,
    (B) 비교점수 산출부를 이용하여 상기 설정된 랭킹단어가 전체 그룹의 학습문서에서 검색되는 출현 빈도를 이용하여 랭킹단어별 분별력 점수를 설정하는 단계와,
    (C) 점수 보정부를 이용하여 하나의 학습문서 당 출현 횟수를 한 그룹의 모든 학습문서에서 출현된 단어의 평균 출현횟수로 적용하여 상기 설정된 랭킹단어별 분별력 점수를 보정하는 단계와,
    (D) 분류 처리부를 이용하여 상기 보정된 랭킹단어별 분별력 점수를 기반으로 자동 분류율을 기반으로 분류 대상이 되는 특성을 갖는 분야로 분류문서를 분류하는 단계를 포함하는 문서 자동분류를 위한 점수산정 방법.
KR1020210167262A 2021-11-29 2021-11-29 문서 자동분류를 위한 점수산정 장치 및 방법 KR20230079967A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210167262A KR20230079967A (ko) 2021-11-29 2021-11-29 문서 자동분류를 위한 점수산정 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210167262A KR20230079967A (ko) 2021-11-29 2021-11-29 문서 자동분류를 위한 점수산정 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20230079967A true KR20230079967A (ko) 2023-06-07

Family

ID=86762377

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210167262A KR20230079967A (ko) 2021-11-29 2021-11-29 문서 자동분류를 위한 점수산정 장치 및 방법

Country Status (1)

Country Link
KR (1) KR20230079967A (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101399272B1 (ko) 2013-03-04 2014-05-27 한국과학기술원 문서의 유사도 추론방법
KR101413444B1 (ko) 2013-04-05 2014-07-01 한국과학기술원 문서 분석 방법
KR20190135129A (ko) 2018-05-28 2019-12-06 인천대학교 산학협력단 문서 구조와 딥러닝을 이용한 문서 분류 장치 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101399272B1 (ko) 2013-03-04 2014-05-27 한국과학기술원 문서의 유사도 추론방법
KR101413444B1 (ko) 2013-04-05 2014-07-01 한국과학기술원 문서 분석 방법
KR20190135129A (ko) 2018-05-28 2019-12-06 인천대학교 산학협력단 문서 구조와 딥러닝을 이용한 문서 분류 장치 및 방법

Similar Documents

Publication Publication Date Title
Stephenson et al. Comparing measures of injury severity for use with large databases
US10346257B2 (en) Method and device for deduplicating web page
US8909645B2 (en) Methods and apparatus to classify text communications
US10353925B2 (en) Document classification device, document classification method, and computer readable medium
US10637826B1 (en) Policy compliance verification using semantic distance and nearest neighbor search of labeled content
US10452627B2 (en) Column weight calculation for data deduplication
US20120303624A1 (en) Dynamic rule reordering for message classification
JP7024515B2 (ja) 学習プログラム、学習方法および学習装置
WO2019218527A1 (zh) 多系统相结合的自然语言处理方法及装置
EP3699779A1 (en) Error correction method and apparatus, and computer readable medium
EP4202799A1 (en) Machine learning data generation program, machine learning data generation method, machine learning data generation device, classification data generation program, classification data generation method, and classification data generation device
WO2019041528A1 (zh) 新闻情感方向判断方法、电子设备及计算机可读存储介质
CN110825868A (zh) 一种基于话题热度的文本推送方法、终端设备及存储介质
CN113807940A (zh) 信息处理和欺诈行为识别方法、装置、设备及存储介质
CN114117141A (zh) 一种自适应密度聚类方法、存储介质及系统
CN110457599B (zh) 热点话题追踪方法、装置、服务器及可读存储介质
KR20230079967A (ko) 문서 자동분류를 위한 점수산정 장치 및 방법
CN104408036A (zh) 关联话题的识别方法和装置
CN110019783B (zh) 属性词聚类方法及装置
US20170293863A1 (en) Data analysis system, and control method, program, and recording medium therefor
WO2022267168A1 (zh) 语音识别方法、装置、计算机设备及存储介质
US11366819B2 (en) Method, apparatus, electronic device and computer readable medium for obtaining answer to question
JP5211000B2 (ja) ランキング関数生成装置、ランキング関数生成方法、ランキング関数生成プログラム
CN111199148B (zh) 文本相似度确定方法、装置、存储介质和电子设备
US10552459B2 (en) Classifying a document using patterns