KR101968309B1

KR101968309B1 - 문서 분류 시스템 및 그 방법

Info

Publication number: KR101968309B1
Application number: KR1020170113578A
Authority: KR
Inventors: 김한준; 김태준
Original assignee: 서울시립대학교 산학협력단
Priority date: 2017-09-05
Filing date: 2017-09-05
Publication date: 2019-04-11
Also published as: KR20190026529A

Abstract

문서 분류 시스템은, 문서로부터 메타 데이터를 추출하는 메타 데이터 추출부, 상기 메타 데이터로부터 상기 문서의 메타 속성을 획득하고, 상기 메타 데이터를 이용하여 상기 문서에 포함된 각 단어에 대해 상기 문서 내 위치에 따른 출현 빈도를 포함하는 단어 속성을 획득하는 속성 획득부, 상기 메타 속성 및 상기 단어 속성에 대한 기계 학습을 수행하는 기계 학습부, 및 상기 메타 속성 및 상기 단어 속성에 대한 기계 학습 결과를 토대로 상기 문서의 분류 결과를 예측하는 예측부를 포함할 수 있다.

Description

문서 분류 시스템 및 그 방법{SYSTEM AND METHOD FOR text classification}

본 발명의 실시 예는 문서 분류 시스템 및 그 방법에 관한 것으로서, 더욱 상세하게는 주제 기반 크롤링을 통해 수집된 문서에 대한 문서 분류 시스템 및 그 방법에 관한 것이다.

최근 방대한 양의 정보를 가지고 있는 인터넷으로부터 관심 있는 특정 주제의 문서만을 수집하는 주제 기반 크롤링(crawling)에 대한 연구가 활발하다.

주제와 관련 있는 문서만을 수집하는 알고리즘을 적용하더라도 크롤링을 통해 수집된 문서 중에는 원하는 주제에서 벗어난 문제가 존재하기 마련이다. 따라서, 크롤링을 통해 수집된 문서들을 데이터 분석에 사용하기 위해서는, 주제와 관련이 없는 문서들을 분류해내는 필터링 작업이 필수적이다. 이러한 필터링 작업을 적은 비용으로 수행하기 위해 능동적 학습(active learning), 준지도 학습 (semi-supervised learning), 또는 이 두 가지 학습 방법을 모두 사용하는 문서 분류(classification)에 대한 연구들이 진행되어왔다.

BoW(bag-of-words) 기법은 문서 분류에 가장 널리 쓰이는 방식으로, 문서 내 단어의 빈도를 고려하는 방식이다. 한편, 주제 기반 크롤러(topical crawler)가 수집하는 문서들은 비슷한 단어들을 포함하기 때문에, 기존의 BoW 방식으로 주제 기반 크롤러에 의해 수집된 문서들을 분류할 경우 일반 문서들을 분류하는 경우에 비해 분류 성능이 떨어지는 한계가 있다.

본 발명의 실시 예를 통해 해결하려는 과제는 주제 기반 크롤링을 통해 수집된 문서들에 대한 필터링 성능이 향상된 문서 분류 시스템 및 그 방법을 제공하는 것이다.

상기 과제를 해결하기 위한 본 발명의 일 실시 예에 따른 문서 분류 시스템은, 문서로부터 메타 데이터를 추출하는 메타 데이터 추출부, 상기 메타 데이터로부터 상기 문서의 메타 속성을 획득하고, 상기 메타 데이터를 이용하여 상기 문서에 포함된 각 단어에 대해 상기 문서 내 위치에 따른 출현 빈도를 포함하는 단어 속성을 획득하는 속성 획득부, 상기 메타 속성 및 상기 단어 속성에 대한 기계 학습을 수행하는 기계 학습부, 및 상기 메타 속성 및 상기 단어 속성에 대한 기계 학습 결과를 토대로 상기 문서의 분류 결과를 예측하는 예측부를 포함할 수 있다.

상기 문서 분류 시스템은 복수의 기계 학습 모델들로부터 학습 결과들 수신하고, 상기 복수의 기계 학습 모듈로부터 수신된 학습 결과들을 융합하여 상기 문서의 분류 결과를 출력하는 융합부를 더 포함하며, 상기 기계 학습부는, 상기 복수의 기계 학습 모델을 통해 상기 메타 속성 및 상기 단어 속성에 대한 기계 학습을 수행할 수 있다.

상기 예측부는 앙상블 기법으로 상기 복수의 기계 학습 모듈로부터 수신된 학습 결과들을 융합할 수 있다.

상기 문서 분류 시스템은 로지스틱 회귀(logistic regression) 학습 알고리즘, 랜덤 포레스트(random forest) 학습 알고리즘, 나이브 베이즈(naive Bays) 학습 알고리즘 및 서포트 벡터 기계(support vector machine) 학습 알고리즘 중 적어도 하나를 이용하여 상기 복수의 기계 학습 모델을 생성하는 학습 모델 관리부를 더 포함할 수 있다.

상기 기계 학습부는, 상기 메타 속성에 대해서는, 상기 로지스틱 회귀 학습 알고리즘 기반의 기계 학습 모델과 상기 랜덤 포레스트 학습 알고리즘 기반의 기계 학습 모델을 이용하여 기계 학습을 수행하고, 상기 단어 속성에 대해서는 상기 나이브 베이즈 학습 알고리즘 기반의 기계 학습 모델과 상기 서포트 벡터 기계 학습 알고리즘 기반의 기계 학습 모델을 이용하여 기계 학습을 수행할 수 있다.

상기 학습 모델 관리부는, 10-겹 교차 검증(10-fold cross validation) 및 격자 탐색(grid search)를 수행하여 상기 복수의 기계 학습 모델 각각의 초모수(hyperparameter)를 최적화할 수 있다.

상기 학습 모델 관리부는, 외부로부터 입력되는 제어 입력을 토대로, 상기 복수의 기계 학습 모델 각각의 예측 경계선을 조정할 수 있다.

상기 단어 속성은, 상기 문서에 포함된 각 단어에 대해 상기 문서 내 출현 빈도를 포함하며, 상기 속성 획득부는, BoW(bag-of words) 기법으로 상기 문서 내 출현 빈도를 획득할 수 있다.

상기 문서 내 위치에 따른 출현 빈도는, 상기 문서에 포함된 각 단어에 대한 상기 문서의 제목에서의 출현 빈도와 상기 문서의 본문에서의 출현 빈도를 포함할 수 있다.

또한, 실시 예에 따른 문서 분류 시스템의 문서 분류 방법은, 문서로부터 메타 데이터를 추출하는 단계, 상기 메타 데이터로부터 상기 문서의 메타 속성을 획득하는 단계, 상기 메타 데이터를 이용하여 상기 문서에 포함된 각 단어에 대해 상기 문서 내 위치에 따른 출현 빈도를 포함하는 단어 속성을 획득하는 단계, 상기 메타 속성 및 상기 단어 속성에 대한 기계 학습을 수행하는 단계, 및 상기 메타 속성 및 상기 단어 속성에 대한 기계 학습 결과를 토대로 상기 문서의 분류 결과를 출력하는 단계를 포함할 수 있다.

상기 기계 학습을 수행하는 단계는, 복수의 기계 학습 모델 중 상기 메타 속성에 대해 최적의 학습 모델로 설정된 적어도 하나의 기계 학습 모델을 이용하여 상기 메타 속성에 대한 기계 학습을 수행하는 단계, 및 상기 복수의 기계 학습 모델 중 상기 단어 속성에 대해 최적의 학습 모델로 설정된 적어도 하나의 기계 학습 모델을 이용하여 상기 단어 속성에 대한 기계 학습을 수행하는 단계를 포함하고, 상기 문서의 분류 결과를 출력하는 단계는, 상기 복수의 기계 학습 모델들로부터 출력되는 학습 결과들을 앙상블 기법으로 융합하여 상기 문서의 분류 결과를 출력하는 단계를 포함할 수 있다.

로지스틱 회귀(logistic regression) 학습 알고리즘, 랜덤 포레스트(random forest) 학습 알고리즘, 나이브 베이즈(naive Bays) 학습 알고리즘 및 서포트 벡터 기계(support vector machine) 학습 알고리즘 중 적어도 하나를 이용하여 상기 복수의 기계 학습 모델을 생성하는 단계, 10-겹 교차 검증(10-fold cross validation) 및 격자 탐색(grid search)를 수행하여 상기 복수의 기계 학습 모델 각각의 초모수(hyperparameter)를 최적화하는 단계, 및 외부로부터 입력되는 제어 입력을 토대로, 상기 복수의 기계 학습 모델 각각의 예측 경계선을 조정하는 단계를 더 포함할 수 있다.

상기 메타 속성에 기계 학습을 수행하는 단계는, 상기 로지스틱 회귀 학습 알고리즘 기반의 기계 학습 모델과 상기 랜덤 포레스트 학습 알고리즘 기반의 기계 학습 모델을 이용하여 기계 학습을 수행하는 단계를 포함하고, 상기 단어 속성에 대한 기계 학습을 수행하는 단계는, 상기 단어 속성에 대해서는 상기 나이브 베이즈 학습 알고리즘 기반의 기계 학습 모델과 상기 서포트 벡터 기계 학습 알고리즘 기반의 기계 학습 모델을 이용하여 기계 학습을 수행하는 단계를 포함할 수 있다.

본 발명의 실시 예에 의하면, 주제 기반 크롤링을 통해 수집된 문서들에 대한 필터링 성능이 향상된 문서 분류 시스템 및 그 방법을 제공할 수 있다.

도 1은 본 발명의 실시 예에 따른 문서 분류 시스템을 개략적으로 도시한 것이다.
도 2는 화재 기사와 비화재 기사로 구분한 산점도의 일 예를 도시한 것이다.
도 3은 각 학습 모델에 대한 정밀도-재현율 곡선의 예를 도시한 것이다.
도 4는 본 발명의 실시 예에 따른 문서 분류 시스템의 문서 분류 방법을 개략적으로 도시한 것이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 및 청구범위 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.

이하, 필요한 도면들을 참조하여 본 발명의 실시 예에 따른 주제 기반 크롤링을 통해 수집된 문서에 대한 문서 분류 시스템 및 방법에 대해 상세히 설명하기로 한다.

본 문서에서는 문서 분류 시스템에 의해 수집되는 문서가 뉴스 기사이고, 관심 주제가 화재(fire)인 경우를 예로 들어 설명한다. 그러나, 본 발명이 이로 한정되는 것은 아니어서, 실시 예에 따른 문서 분류 시스템은 뉴스 기사가 아닌 다른 종류의 문서를 수집하는 경우에도 적용될 수 있으며, 문서 분류 시스템의 관심 주제 또한 변경이 가능하다.

도 1은 본 발명의 실시 예에 따른 문서 분류 시스템을 개략적으로 도시한 것이다.

도 1을 참조하면, 문서 분류 시스템(10)은 문서 데이터베이스(100), 학습 모델 데이터베이스(110), 메타 데이터 추출부(120), 속성 획득부(130), 기계 학습부(140), 및 예측부(150)를 포함할 수 있다.

문서 데이터베이스(100)는 주제 기반 크롤러(미도시)가 특정 주제와 관련하여 수집한 문서들을 저장할 수 있다.

학습 모델 데이터베이스(110)는 문서 분류 시스템(10)에 의해 사용되는 기계 학습 모델들을 저장하고 관리할 수 있다. 학습 모델 데이터베이스(110)에 저장되는 기계 학습 모델들은 복수의 기계 학습 알고리즘을 통해 생성된 기계 학습 모델들일 수 있다. 예를 들어, 기계 학습 모델들은 로지스틱 회귀(logistic regression) 학습 알고리즘, 랜덤 포레스트(random forest) 학습 알고리즘, 나이브 베이즈(naive Bays) 학습 알고리즘 및 서포트 벡터 기계(support vector machine, SVM) 학습 알고리즘에 의해 생성된 것일 수 있다.

메타 데이터 추출부(120)는 문서 데이터베이스(100)로부터 분류 대상이 되는 문서들을 읽어온다. 그리고, 문서 데이터베이스(100)로부터 읽어온 각 문서로부터 메타 데이터들을 추출한다.

메타 데이터는 대응하는 문서를 설명해주는 문서 속성 정보로서, 문서 내 글자 수, 단어 특성, 위치에 따른 단어 빈도 수, 단어 태그 등을 포함할 수 있다.

메타 데이터에서 글자 수는, 제목(title)의 글자 수 및 본문(body)의 글자 수(word count)를 포함할 수 있다. 도 2는 화재 기사와 비화재 기사로 구분한 산점도의 일 예를 도시한 것이다. 도 2를 참조하면, 비화재(Non-fire) 기사의 표본들은 고르게 퍼져 있는 반면에, 화재(Fire) 기사의 표본들은 특정 영역에 밀집해 있음을 알 수 있다. 특히, 화재 기사의 표본들은 본문의 글자 수가 적은 곳에 밀집해 있다. 따라서, 본문의 글자 수는 화재 기사와 비 화재 기사를 분류하기 위한 메타 데이터로 사용될 수 있다.

메타 데이터에서 단어 특성은, 대응하는 문서에 포함된 각 단어가 어느 카테고리(예를 들어, 인명, 지명 등)에 포함되는지를 나타낼 수 있다.

아래 표 1은 뉴스 기사에 나온 단어들의 특성과, 위치에 따른 평균 출현 빈도수의 일 예를 나타낸다.

표 1. 단어의 특성과 위치에 따른 평균 출현 빈도 수

위 표 1을 예로 들면, 비화재 기사의 제목에는 인명에 해당하는 단어가 평균 0.13개 포함되고, 화재 기사의 제목에는 인명에 해당하는 단어가 평균 0.04개 포함되어 있다. 이로부터 비화재 기사의 제목에 인명에 해당하는 단어가 포함될 확률이, 화재 기사의 제목에 인명에 해당하는 단어가 포함될 확률에 비해 상대적으로 높게(약 2.94배) 나타남을 알 수 있다. 따라서, 단어 특성과, 동일한 단어 특성을 가지는 단어들의 문서 내 위치에 따른 평균 출현 빈도 수 또한 화재 기사와 비 화재 기사를 분류하기 위한 메타 데이터로 사용될 수 있다.

메타 데이터에서 단어 태그는, 대응하는 문서에 포함되는 각 단어의 태그 정보로서, 품사(예를 들어, 한글인 경우 체언, 용언, 긍정지정사, 어근 등), 유형(예를 들어, 한글, 외국어, 숫자 등) 등을 포함할 수 있다.

아래 표 2는 뉴스 기사의 단어들의 태그 비율 중 화재 기사보다 비화재 기사에 출현 빈도가 높은 상위 5개의 단어 태그를 예로 든 것이다.

표 2. 단어 태그 비율

위 표 2를 예로 들면, 제목에 외국어 단어가 포함될 확률은 비화재 기사가 화재 기사에 비해 대략 7배 정도로 높게 나타난다. 이와 같이, 화재 기사와 비화재 기사는 기사에 많이 출현하는 단어 태그가 서로 다르므로, 단어 태그 또한 화재 기사와 비 화재 기사를 분류하기 위한 메타 데이터로 사용될 수 있다.

Bag of Words(BoW) 기법은 문서 내 단어의 출현 빈도를 고려하여 문서를 분류하는 텍스트 마이닝 기법이다. 이에 따라, BoW 기법은 비슷한 단어들이 포함된 문서들을 분류하는 경우에 분류 성능이 떨어질 수 있다.

아래 표 3은 의 화재/비화재 기사 내에서의 특정 단어('공장')의 출현 빈도 순위 즉, 화재/비화재 기사 내에서 해당 단어가 몇 번째로 많이 나오는 단어인지를 보여주는 예이다.

표 3. 단어 '공장'의 출현 빈도 순위

표 3을 예로 들면, '공장'은 기사 전체를 고려할 경우 화재 기사들에서 14 번째로, 비화재 기사들에서 182번째로 많이 출현하는 단어이다. 따라서, '공장'이라는 단어가 포함된 뉴스 기사는 화재 기사일 확률이 높다.

위 표 3에서, 화재 기사들의 제목에서의 '공장'의 출현 빈도 순위는 기사 전체를 고려한 경우에 비해 11 계단 상승하고, 비화재 기사들의 제목에서의 '공장'의 출현 빈도 순위는 기사 전체를 고려한 경우에 비해 380 계단 하락하여, 그 격차가 더욱 벌어진다. 반면에, 화재 기사들의 본문에서의 '공장'의 출현 빈도 순위는 기사 전체를 고려한 경우에 비해 5 계단 하락하고, 비화재 기사들의 제목에서의 '공장'의 출현 빈도 순위는 기사 전체를 고려한 경우에 비해 8 계단 상승하여, 그 격차가 더욱 좁혀진다. 이로부터, 뉴스 기사의 본문에 '공장'이 포함된 경우는, 제목에 '공장'이 포함된 경우에 비해, 그 기사가 화재 기사일 확률이 낮음을 추론할 수 있다.

따라서, 각 단어의 출현 빈도와 함께 각 단어가 출현한 위치에 대한 정보를 이용할 경우, 문서 분류의 성능을 개선할 수 있다.

속성 획득부(130)는 메타 데이터 추출부(120)를 통해 추출된 메타 데이터들을 이용하여 각 문서에 대한 메타 속성(meta feature) 및 단어 속성(word feature)을 획득할 수 있다.

아래 표 4는 메타 속성에 포함된 구성 요소들의 일 예를 나타낸다.

표 4. 메타 속성(V_meta)의 구성 요소

위 표 4에서, 'element'는 각 문서의 메타 속성을 구성하는 구성 요소들을 나타내고, 'length'는 각 문서의 메타 속성에서 각 구성 요소가 차지하는 바이트 수(또는 워드 수)를 나타내다.

표 4를 예로 들면, 메타 속성(V_meta)은 제목과 본문의 단어 수(word count of title and body), 제목과 본문에 포함된 지명 단어 수(place name count of title and body), 제목과 본문에 포함된 인명 단어 수(person name count of title and body), 제목 단어 태그의 구성 요소 비율(component ratio of title word tags), 본문 단어 태그의 구성 요소 비율(component ratio of title word tags) 등을 포함할 수 있다.

단어 속성은, 문서 내에서의 각 단어의 출현 위치(제목 또는 본문)에 따른 출현 빈도에 해당하는 메타 BoW 속성(V_mbow)을 포함할 수 있다. 메타 BoW 속성(V_mbow)은 기존의 BoW 속성에 메타 데이터가 융합된 형태이다.

속성 획득부(120)는 메타 데이터로부터 하나의 문서 내에서 각 단어가 출현한 위치와 각 출현 위치에서의 출현 빈도를 획득하고, 이를 토대로 벡터 형태의 메타 BoW 속성(V_mbow)을 생성할 수 있다.

메타 BoW 속성(V_mbow)은 제목에 포함된 단어에 대한 단어 빈도(term frequency) 벡터(V_title)와, 본문에 포함된 단어의 단어 빈도 벡터(V_body)에 의해 아래 수학식 1과 같이 정의될 수 있다.

[수학식 1]

위 수학식 1에서 벡터 연결 연산(||)은 서로 다른 차원 수 또는 서로 같은 차원 수를 가지는 두 벡터를 연결하는 연산이다. 예를 들어, 차원 수가 서로 다른 두 벡터 A(1, 2), B(3, 4, 5)가 주어졌을 때, A||B는 (1, 2, 3, 4, 5)가 된다.

위 수학식 1에서, 두 개의 단어 빈도 벡터(V_title, V_body)는 서로 다른 차원 수를 가지도록 정의된다. 따라서, 같은 단어라도 문서 내 출현 위치(제목 또는 본문)에 따라 차원이 다르게 할당되어, 하나의 단어가 두 개의 차원을 가질 수도 있다. 즉, 동일한 단어가 제목과 본문 모두에 포함된 경우 해당 단어는 차원 수가 서로 다르며 서로 다른 의미가 부여된 두 개의 단어 빈도 벡터(V_title, V_body)를 가질 수 있다.

단어 속성은, 하나의 문서 내에서의 각 단어의 출현 빈도에 해당하는 BoW 속성(V_bow)을 더 포함할 수 있다. 즉, BoW 속성(V_bow)은 출현 위치에 상관 없이 문서 전체에서의 단어 출현 빈도를 나타낸다.

속성 획득부(120)는 기존의 BoW 기법을 사용하여 아래의 수학식 2와 같이 벡터 형태의 BoW 속성(V_bow)을 획득할 수 있다.

[수학식 2]

위 수학식 2에서 벡터 덧셈 연산(+)은 같은 차원 수를 가지는 두 벡터를 더하는 연산이다. 예를 들어, 예를 들어, 두 벡터 A(1, 2), B(3, 4)에 대한 A+B는 (4, 6)가 된다.

위 수학식 1 및 2를 참조하면, 메타 BoW 속성(V_mbow)은 기존의 방식으로 표현되는 BoW 속성(V_bow)과 달리, 각 단어의 출현 위치에 대한 정보를 포함한다.

단어 속성은, 메타 BoW 속성(V_mbow)과 기존 방식으로 정의된 BoW 속성(V_bow)을 벡터 연결 연산으로 융합하여 생성된 BoW 속성(V_all)을 더 포함할 수도 있다.

속성 획득부(120)는 아래의 수학식 3과 같이 두 속성(V_mbow,V_bow)을 연결하여 연결 BoW 속성(V_all)을 획득할 수 있다.

[수학식 3]

기계 학습부(140)는 속성 획득부(130)에 의해 각 문서로부터 획득된 속성들에 대한 기계 학습을 수행할 수 있다.

기계 학습부(140)는 속성 획득부(130)로부터 문서의 속성(V_mbow, V_bow, V_all)들이 입력되면, 학습 모델 데이터베이스(110)로부터 각 속성에 대응하는 적어도 하나의 기계 학습 모델들을 가져와 실행시킴으로써 기계 학습을 진행한다.

실시 예에 따른 문서 시스템(10)에서는 각 속성(V_mbow, V_bow, V_all)에 대해 적어도 하나의 기계 학습 모델을 설정하고, 각 속성(V_mbow, V_bow, V_all)이 입력되면 대응하는 기계 학습 모델들을 이용해 해당 속성에 대한 기계 학습을 수행할 수 있다.

아래 표 5는 각 속성과 이에 대응하는 기계 학습 모델의 예들을 도시한 것이다.

표 5. 학습 모델 예

표 5를 예로 들면, 메타 속성(V_meta)에 대해서는 로지스틱 회귀 학습 모델과 및 랜덤 포레스트 학습 모델을 통해 학습이 이루어지고, 각 단어 속성(V_mbow, V_bow, V_all)에 대해서는 나이브 베이즈 학습 모델 및 SVM 학습 모델을 통해 학습이 이루어질 수 있다.

각 기계 학습 모델은 속성 획득부(130)로부터 속성이 입력되면, 대응하는 기계 학습 알고리즘을 통해 입력된 속성에 대한 기계 학습을 수행하고, 학습에 따른 예측 결과(예를 들어, 문서 분류 결과)를 출력한다.

로지스틱 회귀 학습 모델은 종속 변수가 범주형인 회귀 모델이다. 로지스틱회귀 학습 모델에서 OWL-QN(Orthant-Wise Limited-memory Quasi-Newton)을 최적화 알고리즘으로 사용할 경우, 최적화 대상인 손실 함수(loss function)는 정규화(regularized)되어, 아래의 수학식 5와 같이 나타낼 수 있다.

[수학식 5]

위 수학식 5에서,

는 정규 손실 함수(regularized loss function)을 나타낸다. 또한,

는 모델 고유의 손실 함수로, 로지스틱 손실 함수(logistic loss function)을 사용한다. 또한,

는 정규 파라미터(regularization parameter)로 정규화 강도를 나타낸다. 또한,

는 정규화 함수로 엘라스틱 넷(eastic net) 정규화 기법을 사용한다. 이는 L1, L2 정규화 기법을 결합한 것으로서,

는 [0, 1] 범위의 값으로, L1과 L2 중 L1이 정규화에 사용되는 비율을 나타낸다.

랜덤 포레스트 학습 모델은 의사 결정 나무(decision tree)들의 앙상블로 이루어진 분류기이다. 랜덤 포레스트 학습 모델은 성능의 최적화를 위해, 의사 결정 나무들의 수(T) 또는 각 의사 결정 나무의 최대 깊이(D)가 조절될 수 있다.

나이브 베이즈 학습 모델은 베이즈 정리 (Bayes' theorem) 기반 확률 분류기 중 하나이다. 나이브 베이즈 학습 모델에서 사용되는 베이즈 정리는 문서로부터 추출된 속성들(V_mbow, V_bow, V_all) 간의 관계가 독립적이라는 가정 하에 아래의 수학식 6과 같이 나타낼 수 있다.

[수학식 6]

위 수학식 6에서,

는 어느 한 데이터 샘플의 속성 벡터 x₁, …, x_n가 주어졌을 때, 해당 데이터 샘플이 클래스 C_k에 속할 확률을 나타낸다.

나이브 베이즈 학습 모델은 위 수학식 6을 토대로, 아래의 수학식 7과 같이 데이터 샘플이 속할 확률이 가증 높은 클래스 C_k를 획득한다.

[수학식 7]

위 수학식 7에서, 확률

의 분포는 아래의 수학식 8과 같이 나타낼 수 있다.

[수학식 8]

위 수학식 8에서, N_ki는 속성 i가 클래스 k에서 관찰된 횟수이고, N_k는 모든 속성이 클래스k에서 관찰된 총 횟수를 나타낸다. 한편, 위 수학식 8에서 확률

이 0이 되는 것을 방지하기 위해 스무딩(additive smoothing) 기법이 사용되었다. 위 수학식 8에서

는 스무딩(smoothing) 정도를 결정하는 스무딩 파라미터(smoothing parameter)이다.

위 수학식 8을 참조하면, 나이브 베이즈 학습 모델은 베르누이(Bernoulli)와 다항(Multinomial) 모델 중 다항 모델을 사용하여 기계 학습을 수행한다.

SVM 학습 모델은 비확률적(non-probabilistic) 이진 분류기이다. SVM 학습 모델은 최적화 기법으로 SGD(Stochastic Gradient Descent)를 사용하고, 정규 손실 함수로는 로지스틱 회귀 학습 모델에서 사용된 정규 손실 함수

를 사용한다. 그러나, SVM 학습 모델에서 사용되는 손실 함수

는 힌지 손실 함수(hinge loss function)로, 로지스틱 회귀 학습 모델과는 다른 손실 함수를 사용한다.

한편, 실시 예에서는 문서 분류 시스템(10)에서 사용하는 기계 학습 모델들이, 로지스틱 회귀, 랜덤 포레스트, 나이브 베이즈 및 SVM 학습 알고리즘을 사용하는 경우를 예로 들어 설명하였으나, 본 발명이 이로 한정되는 것인 아니어서, 문서 분류 시스템(10)에서 사용하는 기계 학습 알고리즘은 변경이 가능하다.

예측부(150)은 각 기계 학습 모델로부터 학습 결과(문서 분류 결과)가 수신되면, 앙상블(ensemble) 기법으로 이들을 결합하여 최종 예측 결과(최종 문서 분류 결과)를 출력한다.

앙상블 기법은, 학습 결과가 많이 모이는 것을 최종 결과로 선택하는 다수결 투표(majority voting) 기법이다. 앙상블 기법으로, 클래스 투표(class vote) 기법과, 확률 투표(probability vote) 기법이 사용될 수 있다.

클래스 투표 기법은 기계 학습 모델의 예측 값들 중 가장 많이 나온 값을 최종 예측 값으로 출력하는 방식으로 다음의 수학식 9로 나타낼 수 있다.

[수학식 9]

여기서, d_ij는 C_i의 예측 값이 j이면 1, 아니면 0인 값이다.

확률 투표 기법은 기계 학습 모델들의 각 클래스에 대한 예측 확률들을 합계하여 합계된 확률이 더 높은 클래스를 선택하는 방식으로, 확률 투표 기법의 최종 예측 값

은 아래의 수학식 10과 같이 산출된다.

[수학식 10]

위 수학식 10에서 r_ij는 클래스 j에 대한 모델 C_i의 예측 확률을 나타낸다.

아래의 표 6은 예측부(150)에 의해 사용되는 앙상블 모델의 예들을 나타낸다.

아래 표 6. 앙상블 모델 예

위 표 6을 참조하면, M1은 메타 속성(V_meta)에 대한 로지스틱 회귀 모델(LR_meta)의 학습 결과, 메타 속성(V_meta)에 대한 랜덤 포레스트 모델(RF_meta)의 학습 결과 및 메타 BoW 속성(V_mbow)에 대한 SVM 모델(SVM_mbow)의 학습 결과를 클래스 투표 방식으로 융합하는 앙상블 모델이다. M2는, 메타 속성(V_meta)에 대한 랜덤 포레스트 모델(RF_meta)의 학습 결과, 메타 BoW 속성(V_meta)에 대한 나이브 베이즈 모델(NB_mbow)의 학습 결과 및 메타 BoW 속성(V_mbow)에 대한 SVM 모델(SVM_mbow)의 학습 결과를 클래스 투표 방식으로 융합하는 앙상블 모델이다. P1은 메타 속성(V_meta)에 대한 로지스틱 회귀 모델(LR_meta)의 학습 결과, 메타 속성(V_meta)에 대한 랜덤 포레스트 모델(RF_meta)의 학습 결과 및 메타 BoW 속성(V_mbow)에 대한 SVM 모델(SVM_mbow)의 학습 결과를 확률 투표 방식으로 융합하는 앙상블 모델이다. P2는, 메타 속성(V_meta)에 대한 랜덤 포레스트 모델(RF_meta)의 학습 결과, 메타 BoW 속성(V_meta)에 대한 나이브 베이즈 모델(NB_mbow)의 학습 결과 및 메타 BoW 속성(V_mbow)에 대한 SVM 모델(SVM_mbow)의 학습 결과를 확률 투표 방식으로 융합하는 앙상블 모델이다.

실시 예에 따른 문서 분류 시스템(10)은 학습 모델 관리부(160)를 더 포함할 수 있다.

학습 모델 관리부(120)는 기계 학습 모델의 생성, 튜닝 등 기계 학습 모델의 관리 기능을 수행할 수 있다.

문서 데이터베이스(10)는 학습 모델의 생성을 위해, 주제 기반 크롤러에 의해 수집된 문서들 중 전문가에 의해 분류가 완료된 문서들을 더 저장할 수 있다. 전문가에 의해 분류가 완료된 문서들에는, 전문가에 의한 분류 정보(예를 들어, 화재 기사인지 아니면 비화재 기사인지)가 대응되어 저장될 수 있다.

학습 모델 관리부(160)는 기계 학습 모델 생성 또는 갱신이 요청되면, 문서 데이터베이스(100)로부터 전문가에 의해 이미 분류가 완료된 문서들을 읽어온다. 그리고, 이들 문서들로부터 추출된 속성들에 대해 대응하는 기계 학습 알고리즘에 해당하는 기계 학습 과정을 수행하여 기계 학습 모델들을 생성하거나 갱신한다. 여기서, 학습 모델 관리부(160)에 의해 수행되는 기계 학습 과정은, 전술한 메타 데이터 추출부(120), 속성 획득부(130) 및 기계 학습부(140)에 의해 수행되는 기계 학습 과정과 동일한 절차에 따라 수행될 수 있다.

학습 모델 관리부(160)는 기계 학습 모델들이 생성되면, 각 기계 학습 모델의 튜닝 과정을 더 수행할 수 있다.

예를 들어, 학습 모델 관리부(160)는 10-겹 교차 검증(10-fold cross validation) 및 격자 탐색(grid search)를 수행하여 각 기계 학습 모델의 초모수(hyperparameter)를 최적화하는 과정을 수행할 수 있다. 각 학습 모델의 초모수는 정규 파라미터(

), L1 정규 비율 (

), 나무의 수(T), 나무의 최대 깊이(D), 스무딩 파라미터(

) 등을 포함할 수 있다. 아래 표 7은 격자 탐색을 수행 후 각 학습 모델 별로 선택된 최적의 초모수 값들의 예를 도시한 것이다.

표 7. 초모수 예

또한, 예를 들어, 학습 모델 관리부(160)는 외부로부터 입력되는 제어 입력을 토대로, 각 기계 학습 모델의 예측 경계선을 조정하는 과정을 수행할 수도 있다. 문서 분류 시스템(10)의 경우 필터링 성능의 향상을 위해서는 학습 결과의 정밀도(precision)가 재현율(recall)보다 중요하다. 따라서, 재현율을 손해보더라도 정밀도를 향상시키기 위해, 각 학습 모델의 예측 경계선이 조정될 수 있다.

도 3은 각 학습 모델에 대한 정밀도-재현율 곡선(precision-recall curve)의 예를 도시한 것으로서, 정밀도-재현율 곡선은 각 학습 모델의 예측 경계선 조정 시 획득 가능한 재현율과 그 때의 정밀도를 도시한 것이다.

도 3을 참조하면, 재현율과 정밀도는 트레이드 오프(trade-off) 관계에 있음을 알 수 있다. 따라서, 각 학습 모델의 정밀도-재현율 곡선을 통해 재현율과 정밀도의 관계를 분석하면 적절한 예측 경계선을 정할 수 있다.

도 4는 본 발명의 실시 예에 따른 문서 분류 시스템의 문서 분류 방법을 개략적으로 도시한 것이다.

도 4를 참조하면, 실시 예에 따른 문서 분류 시스템(10)은 각 속성에 대응하는 기계 학습 모델들을 생성한다(S400).

상기 S400 단계에서, 문서 분류 시스템(10)은 주제 기반 크롤링을 통해 수집된 문서들 중 전문가에 의해 분류가 완료된 문서들로부터 속성들을 추출하고, 이들에 대한 기계 학습을 수행하여 각 속성에 대응하는 기계 학습 모델들을 생성할 수 있다. 이 과정에서, 속성 추출 및 기계 학습 절차는 후술하는 문서 분류를 위한 학습과 동일한 과정(S420 내지 S450)으로 수행될 수 있다.

문서 분류 시스템(10)은 기계 학습 모델들이 생성되면 각 학습 모델의 튜닝 과정을 더 수행할 수 있다(S410).

S410 단계에서, 문서 분류 시스템(10)은 10-겹 교차 검증(10-fold cross validation) 및 격자 탐색(grid search)를 수행하여 각 기계 학습 모델의 초모수(hyperparameter)를 최적화하는 과정을 수행할 수 있다. 각 학습 모델의 초모수는 정규 파라미터(

), L1 정규 비율 (

), 나무의 수(T), 나무의 최대 깊이(D), 스무딩 파라미터(

) 등을 포함할 수 있다.

S410 단계에서, 문서 분류 시스템(10)은 각 학습 모델의 예측 경계선을 조정할 수도 있다. 문서 분류 시스템(10)의 경우 학습 결과의 정밀도(precision)가 재현율(recall)보다 중요하다. 따라서, 문서 분류 시스템(10)은 각 학습 모델의 정밀도를 향상시키기 위해 각 기계 학습 모델의 예측 경계선을 조정할 수 있다.

이후, 문서 분류 시스템(10)은 문서 분류를 위해 주제 기반 크롤링을 통해 수집됨 문서가 입력되면(S420), 이로부터 메타 데이터들을 추출한다(S430).

S430 단계에서, 문서로부터 추출되는 메타 데이터는 각 문서의 글자 수, 단어 특성, 위치에 따른 빈도 수, 단어 태그 등의 정보를 포함할 수 있다.

이후, 문서 분류 시스템(10)은 문서로부터 추출된 메타 데이터들을 이용하여 문서에 대한 메타 속성(meta feature) 및 단어 속성(word feature)을 획득한다(S440).

상기 S440 단계에서, 메타 속성은 제목과 본문의 단어 수(word count of title and body), 제목과 본문에 포함된 지명 단어 수(place name count of title and body), 제목과 본문에 포함된 인명 단어 수(person name count of title and body), 제목 단어 태그의 구성 요소 비율(component ratio of title word tags), 본문 단어 태그의 구성 요소 비율(component ratio of title word tags) 등을 포함할 수 있다.

상기 S440 단계에서, 단어 속성은, 문서 내에서의 각 단어의 출현 위치(제목 또는 본문)에 따른 출현 빈도에 해당하는 메타 BoW 속성(V_mbow)을 포함할 수 있다. 또한, 단어 속성은, 문서 내에서의 각 단어의 출현 빈도에 해당하는 BoW 속성(V_bow)을 더 포함할 수 있다. 또한, 단어 속성은, 메타 BoW 속성(V_mbow)과 기존 방식으로 정의된 BoW 속성(V_bow)을 벡터 연결 연산으로 융합하여 생성된 BoW 속성(V_all)을 더 포함할 수도 있다.

문서에 대한 속성들(V_mbow, V_bow, V_all)이 획득됨에 따라, 문서 분류 시스템(10)은 복수의 기계 학습 모델들을 이용하여 각 속성(V_mbow, V_bow, V_all)에 대한 기계 학습을 수행한다(S450).

상기 S450 단계에서, 문서 분류 시스템(10)은 문서로부터 추출된 각 속성(V_mbow,V_bow, V_all)의 특성에 따라, 각 속성에 최적인 적어도 하나의 기계 학습 모델을 선택하고, 이를 이용하여 대응하는 속성에 대한 기계 학습을 수행할 수 있다.

이후, 문서 분류 시스템(10)은 복수의 기계 학습 모델들로부터 각 속성(V_mbow,V_bow, V_all)을 이용한 학습 결과 즉, 문서 분류 결과가 출력됨에 따라, 앙상블 기법으로 이들을 융합하여 최종 예측 결과 즉, 최종 문서 분류 결과를 출력한다(S460).

전술한 실시 예에 따르면, 문서 분류 시스템(10)은 주제 기반 크롤링을 통해 수집되는 문서들을 분류하기 위해 기계 학습을 수행하는 과정에서, 메타 데이터를 이용하여 획득한 메타 속성과, 기존의 BoW 속성의 변형인 메타 BoW 속성을 정의하여 기계 학습에 사용하였다. 또한, 각 속성에 대해 복수의 학습 알고리즘을 적용하여 기계 학습 모델들을 수립하고, 이렇게 수립된 기계 학습 모델들의 학습 결과를 앙상블 기법으로 융합하는 앙상블 모델을 정의하여 사용하였다.

이에 따라, 실시 예에 따른 문서 분류 시스템(10)은 기존에 BoW를 이용한 기계 학습에 비해 정확도, 정밀도, F1-측도 등이 향상되었으며, 이에 따라 실제 문서 필터링에 적용 시 필터링 성능이 향상되는 효과가 있다.

본 발명의 실시 예는 이상에서 설명한 장치 및/또는 방법을 통해서만 구현되는 것은 아니며, 본 발명의 실시 예의 구성에 대응하는 기능을 실현하기 위해 기록매체에 기록된 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있으며, 이러한 구현은 앞서 설명한 실시 예의 기재로부터 본 발명이 속하는 기술 분야의 전문가라면 쉽게 구현할 수 있는 것이다.

이상에서 본 발명의 실시 예에 대하여 상세하게 설명하였지만 본 발명의 권리 범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리 범위에 속하는 것이다.

Claims

문서로부터 메타 데이터를 추출하는 메타 데이터 추출부,
상기 메타 데이터로부터 상기 문서의 메타 속성을 획득하고, 상기 메타 데이터를 이용하여 상기 문서에 포함된 각 단어에 대한 상기 문서 전체에서의 출현 빈도 및 상기 문서 내 위치에 따른 출현 빈도가 포함된 단어 속성을 획득하는 속성 획득부,
상기 메타 속성 및 상기 단어 속성에 대한 기계 학습을 수행하는 기계 학습부, 및
상기 메타 속성 및 상기 단어 속성에 대한 기계 학습 결과를 토대로 상기 문서의 분류 결과를 예측하는 예측부를 포함하며,
상기 기계 학습부는, 서로 다른 복수의 기계 학습 모델을 통해 상기 메타 속성 및 상기 단어 속성에 대한 기계 학습을 수행하고,
상기 예측부는 상기 복수의 기계 학습 모델로부터 학습 결과들을 수신하고, 상기 복수의 기계 학습 모델로부터 수신된 학습 결과들을 융합하여 상기 문서의 분류 결과를 출력하는 문서 분류 시스템.
삭제
제1항에 있어서,
상기 예측부는 상기 복수의 기계 학습 모델로부터 수신된 학습 결과들을 앙상블 기법으로 융합하는 문서 분류 시스템.
제1항에 있어서,
로지스틱 회귀(logistic regression) 학습 알고리즘, 랜덤 포레스트(random forest) 학습 알고리즘, 나이브 베이즈(naive Bays) 학습 알고리즘 및 서포트 벡터 기계(support vector machine) 학습 알고리즘 중 적어도 하나를 이용하여 상기 복수의 기계 학습 모델을 생성하는 학습 모델 관리부를 더 포함하는 문서 분류 시스템.
제4항에 있어서,
상기 기계 학습부는,
상기 메타 속성에 대해서는, 상기 로지스틱 회귀 학습 알고리즘 기반의 기계 학습 모델과 상기 랜덤 포레스트 학습 알고리즘 기반의 기계 학습 모델을 이용하여 기계 학습을 수행하고,
상기 단어 속성에 대해서는 상기 나이브 베이즈 학습 알고리즘 기반의 기계 학습 모델과 상기 서포트 벡터 기계 학습 알고리즘 기반의 기계 학습 모델을 이용하여 기계 학습을 수행하는 문서 분류 시스템.
제4항에 있어서,
상기 학습 모델 관리부는,
10-겹 교차 검증(10-fold cross validation) 및 격자 탐색(grid search)를 수행하여 상기 복수의 기계 학습 모델 각각의 초모수(hyperparameter)를 최적화하는 문서 분류 시스템.
제4항에 있어서,
상기 학습 모델 관리부는,
외부로부터 입력되는 제어 입력을 토대로, 상기 복수의 기계 학습 모델 각각의 예측 경계선을 조정하는 문서 분류 시스템.
제1항에 있어서,
상기 속성 획득부는, BoW(bag-of words) 기법으로 상기 각 단어의 상기 문서 전체에서의 출현 빈도를 획득하는 문서 분류 시스템.
제1항에 있어서,
상기 각 단어의 상기 문서 내 위치에 따른 출현 빈도는, 상기 각 단어의 상기 문서의 제목에서의 출현 빈도와 상기 문서의 본문에서의 출현 빈도를 포함하는 문서 분류 시스템.
문서 분류 시스템의 문서 분류 방법에 있어서,
문서로부터 메타 데이터를 추출하는 단계,
상기 메타 데이터로부터 상기 문서의 메타 속성을 획득하는 단계,
상기 메타 데이터를 이용하여, 상기 문서에 포함된 각 단어에 대해 상기 문서 전체에서의 출현 빈도 및 상기 문서 내 위치에 따른 출현 빈도를 포함하는 단어 속성을 획득하는 단계,
상기 메타 속성 및 상기 단어 속성에 대한 기계 학습을 수행하는 단계, 및
상기 메타 속성 및 상기 단어 속성에 대한 기계 학습 결과를 토대로 상기 문서의 분류 결과를 출력하는 단계를 포함하며,
상기 기계 학습을 수행하는 단계는,
복수의 기계 학습 모델 중 상기 메타 속성에 대해 최적의 학습 모델로 설정된 적어도 하나의 기계 학습 모델을 이용하여 상기 메타 속성에 대한 기계 학습을 수행하는 단계, 및
상기 복수의 기계 학습 모델 중 상기 단어 속성에 대해 최적의 학습 모델로 설정된 적어도 하나의 기계 학습 모델을 이용하여 상기 단어 속성에 대한 기계 학습을 수행하는 단계를 포함하고,
상기 문서의 분류 결과를 출력하는 단계는,
상기 복수의 기계 학습 모델들로부터 출력되는 학습 결과들을 앙상블 기법으로 융합하여 상기 문서의 분류 결과를 출력하는 단계를 포함하는 문서 분류 방법.
삭제
제10항에서,
로지스틱 회귀(logistic regression) 학습 알고리즘, 랜덤 포레스트(random forest) 학습 알고리즘, 나이브 베이즈(naive Bays) 학습 알고리즘 및 서포트 벡터 기계(support vector machine) 학습 알고리즘 중 적어도 하나를 이용하여 상기 복수의 기계 학습 모델을 생성하는 단계,
10-겹 교차 검증(10-fold cross validation) 및 격자 탐색(grid search)를 수행하여 상기 복수의 기계 학습 모델 각각의 초모수(hyperparameter)를 최적화하는 단계, 및
외부로부터 입력되는 제어 입력을 토대로, 상기 복수의 기계 학습 모델 각각의 예측 경계선을 조정하는 단계를 더 포함하는 문서 분류 방법.
제12항에 있어서,
상기 메타 속성에 기계 학습을 수행하는 단계는,
상기 로지스틱 회귀 학습 알고리즘 기반의 기계 학습 모델과 상기 랜덤 포레스트 학습 알고리즘 기반의 기계 학습 모델을 이용하여 기계 학습을 수행하는 단계를 포함하고,
상기 단어 속성에 대한 기계 학습을 수행하는 단계는,
상기 단어 속성에 대해서는 상기 나이브 베이즈 학습 알고리즘 기반의 기계 학습 모델과 상기 서포트 벡터 기계 학습 알고리즘 기반의 기계 학습 모델을 이용하여 기계 학습을 수행하는 단계를 포함하는 문서 분류 방법.
제13항에 있어서,
상기 단어 속성을 획득하는 단계는,
BoW(bag-of words) 기법으로 상기 각 단어의 상기 문서 전체에서의 출현 빈도를 획득하는 단계를 포함하는 문서 분류 방법.