KR20160075974A

KR20160075974A - 문맥기반 공공민원 빅 데이터 자동 분류 방법

Info

Publication number: KR20160075974A
Application number: KR1020140184762A
Authority: KR
Inventors: 남준
Original assignee: 케이웨어 (주)
Priority date: 2014-12-19
Filing date: 2014-12-19
Publication date: 2016-06-30

Abstract

본 발명은 문맥기반 공공민원 빅 데이터 자동 분류 방법에 관한 것으로, 공공기관의 민원 데이터를 수집하고 분석하여 주제별로 해당 부서에 민원 데이터를 자동으로 할당하는 시스템이다. 현재까지 수동적으로 처리하던 민원데이터를 담당자 입장을 고려한 고차원의 공공민원 빅 데이터 자동 분류 시스템으로 향후 민원 처리 사항 및 민원 대응 사례를 통계적으로 가시화 할 수 있는 시스템이다. 또한 민원 빅 데이터를 분석함으로써 민원 종류, 주제 등 분석을 통하여 점차 증가하는 다양한 민원 데이터 형태의 추이 분석이 가능하다.

Description

문맥기반 공공민원 빅 데이터 자동 분류 방법{Auto grouping method for public complaints of context basis}

본 발명은 문맥 기반 공공민원 빅 데이터 자동 분류 방법에 관한 것으로, 보다 상세하게는, 일반 공공민원 빅 데이터를 문맥기반으로 자동 분류하여 수동적으로 민원을 각 부서에 할당하지 않고 자동으로 각 부서에 할당하도록 한 문맥기반 공공민원 빅 데이터 자동 분류 방법에 관한 것이다.

현재 정부 및 공공기관, 지자체에서 보유하고 있는 민원 데이터는 단지 민원의 글 내용에 따라 담당자가 각 부서별로 민원 데이터를 할당하였다. 따라서 국내 다양한 공공기관에서 게시된 민원 빅 데이터는 실시간으로 민원 데이터를 수집하여 문맥에 따라 자동으로 분류하여 해당 부서에 자동으로 할당하는 시스템이 필요하다.

현재 수집된 민원 데이터는 비정형화된 자연어로서 어휘적 모호성, 의미적 모호성, 구문적 모호성을 가지고 있다. 어휘적 모호성은 문장에 사용된 단어 또는 어절이 하나 이상의 품사 또는 형태소 분석 결과를 낳을 수 있음을 의미한 다. 구문적 모호성은 하나의 문법 구조가 두 가지 이상의 해석이 가능한 현상을 의미하며, 의미 모호성은 단어 또는 어절의 의미가 두 가지 이상으로 해석 가능한 현상을 의미한다. 품사 태깅(POS: part-of-speech tagging)이란 문장 내에서 단어가 사용된 문맥에 따라 각 단어에 올바른 품사 정보를 할당하는 과정을 말한다. 품사 태깅은 어휘 모호성으로 인한 구문 분석 단계에서의 과다한 부담을 줄이기 위한 전처리 과정으로 사용되며, 정보 검색 시스템에서 높은 재현율 및 정확도를 갖는 색인어와 검색어 추출을 위해 사용될 수 있다. 품사 태깅을 위한 접근법은 자연어 처리를 위한 접근법의 분류와 같이 규칙 기반 품사 태깅 방법과 통계 기반 품사 태깅 방법으로 구분할 수 있다. 통계 기반 접근 방법은 확률 또는 불확실성을 나타내는 통계 정보를 사용하므로 거의 모든 언어 현상에 적용할 수 있다는 확장성과 견고성을 갖는다. 하지만 실세계 언어 현상을 충분히 대표할 수 있는 양질의 코퍼스(corpus)가 존재하지 않아 데이터 부족 문제(data sparseness problem)로 인해 태깅의 정확도가 저하되는 단점이 있다. 규칙 기반 접근 방법은 품사 태깅에 적용되는 공통적인 원리나 결정적인 규칙을 찾아내고, 이를 이용하여 어휘적 모호성을 결정적으로 해결하는 방법이다. 규칙 기반 접근법은 일관성 있는 결정적 규칙을 얻기가 어렵고, 많은 규칙들을 제어하기가 쉽지 않아 일반적으로 견고하지 못하지만 규칙이 적용될 수 있는 현상에 대해서는 높은 정확도를 갖고 모호성을 해결할 수 있다.

본 발명은 상기한 종래 기술의 요망에 부응하기 위하여 발명된 것으로서, 민원데이터를 처리하는 담당자 입장을 고려한 고차원의 공공민원 빅 데이터 자동 분류 방법을 제공하는데 있다.

본 발명의 문맥기반 공공민원 빅 데이터 자동 분류 방법은, 민원의 문장을 어절별로 형태소를 분석하여 가능한 모든 어절 태그의 리스트를 포함하는 형태소 분석 결과를 생성하는 단계; 상기 형태소 분석 결과에 따라 불필요한 어절 태그를 제거하는 규칙 기반 품사 태깅 단계; 상기 규칙 기반 품사 태깅 단계 후, 통계적으로 빈도수가 많은 단어를 추출한 후, 단어들 간 클러스터링 하여 대표 단어를 추출하는 통계 기반 품사 태깅 단계; 상기 규칙 기반 및 통계 기반 품사 태깅 단계 후, 결과의 오류를 보정하는 오류수정단계; 로 이루어진 것을 특징으로 한다.

상기 규칙 기반 및 통계 기반 품사 태깅 단계 후 품사 태깅 처리된 민원 데이터를 주제별 분류된 민원 데이터 DB와 매칭되면 해당 부서로 할당하고, 매칭이 되지 않으면 주제별 분류된 민원 데이터 DB를 갱신한 다음 해당 부서로 할당하는 단계를 더 포함하는 것을 특징으로 한다.

본 발명의 문맥기반 공공민원 빅 데이터 자동 분류 방법에 의하면, 공공민원 빅 데이터 통계 및 분석을 통하여 대국민 민원 트랜드 및 정책 반영에 기여하는 효과를 가지고 있다.

도 1은 본 발명에 의한 품사 태깅 과정을 도식화한 흐름도이다.
도 2은 본 발명에 의한 주제 자동 분류기를 도식화한 흐름도이다.
도 3은 본 발명에 의한 계층적인 민원 주제별 카테고리 DB을 간략화한 것을 도시한 블록도이다.

이하, 첨부된 도면을 참조해서 본 발명의 실시 예를 상세히 설명하면 다음과 같다.

본 발명은 비정형화된 공공민원 데이터(웹 문서)를 정확하게 부서별로 할당하기 위하여 다음과 같은 방법을 하였다. 첫째, 공공민원 데이터 수집대상은 우리나라 공공기관에 등록된 민원데이터이고, 수집기간은 2003년부터 현재까지 등록된 민원 데이터이다. 둘째, 수집된 비정형 데이터를 정형화 데이터로 변환하기 위하여 도 1와 같이 최적의 품사 태깅(Part of speech tagging)을 한다. 이때 품사 태깅을 위한 접근법은 자연어 처리를 위한 접근법의 분류와 같이 규칙 기반 품사 태깅 방법과 통계 기반 품사 태깅 방법으로 구분할 수 있지만, 본 발명에서는 규칙 기반 품사 태깅 방법과 통계 기반 태깅 방법을 혼합한 하이브리드 기반 태깅 방법을 사용한다. 셋째, 수집된 민원 데이터는 도 2와 같이 기존 부서별로 분류된 민원 데이터와 매칭을 하여 같으면 민원 데이터를 부서별로 할당하고, 같지 않은 경우는 기존 민원 데이터 DB을 갱신한다. 기존 민원 데이터 DB은 도 3와 같이 지역별, 부서별로 구성되어 있다.

도 1은 본 발명의 실시 예에 따른 품사 태깅 과정을 도식화한 흐름도이다. 공공기관으로부터 수집된 민원의 문장에서 품사를 태깅하는 방법에 있어서, 민원의 문장을 어절별로 형태소를 분석하여 가능한 모든 어절 태그의 리스트를 포함하는 형태소 분석 결과를 생성하는 단계이다. 이때 형태소 분석기는 민원의 문장을 입력하고 사전 데이터베이스를 이용하여 어절별로 형태소를 분석하고 가능한 모든 어절 태그의 리스트를 포함하는 형태소 분석결과를 생성한다.

상기 형태소 분석 결과에 따라 불필요한 어절 태그를 제거하는 규칙 기반 품사태깅 단계이다. 이때 규칙 기반 품사 태깅은 어절 단위의 어휘 규칙, 관용어구 어휘 규칙 등을 적용한다.

상기 규칙기반 품사 태깅 단계 후, 통계적으로 빈도수가 많은 단어를 추출한 후, 단어들 간 클러스터링 하여 주제 단어를 추출하는 통계 기반 품사 태깅 단계이다.

이때 단어 빈도수를 계산하기 위하여 아래 수식과 같이 Naive Bayes classifier 알고리즘을 사용한다.

K _i 는 문장내에서 있는 키워드(i=0,1,..n)

P _Local 는 전체문장이 아닌 부분적인 어절단위

P _global 는 전체문장의 어절

λ는 가중치로 범위는 0부터 1이다.

또한, 단어간 관계를 분류하기 위하기 k-NN(k-Nearest Neighbors) 알고리즘 사용한다. 정확한 문장내에서 주제를 추출하기 위하여 k는 4개로 한다.

최종적으로 규칙 기반 및 통계기반 태깅 단계 후의 결과의 오류를 보정하는 단계인 오류수정단계이다.

도 2은 본 발명에 의한 주제 자동 분류기를 도식화한 흐름도이다.

상기에서 수행한 최적의 품사 태깅은 정확한 주제를 분류할 수 있다. 이때 품사 태깅이 처리된 민원 데이터는 주제별 분류된 민원 데이터 DB와 매칭하여 존재하면 민원 데이터는 해당 부서로 할당한다. 만약 매칭이 되지 않으면 주제별 분류된 민원 데이터 DB를 갱신한 다음, 민원 데이터는 해당 부서로 할당한다.

도 3은 본 발명에 의한 계층적인 민원 주제 카테고리 DB을 간략화 한다.

계층적인 민원 주제 카테고리는 지역별로 공공기관의 부서별로 DB하였다.

Claims

민원의 문장을 어절별로 형태소를 분석하여 가능한 모든 어절 태그의 리스트를 포함하는 형태소 분석 결과를 생성하는 단계;
상기 형태소 분석 결과에 따라 불필요한 어절 태그를 제거하는 규칙 기반 품사 태깅 단계;
상기 규칙 기반 품사 태깅 단계 후, 통계적으로 빈도수가 많은 단어를 추출한 후, 단어들 간 클러스터링하여 대표 단어를 추출하는 통계 기반 품사 태깅 단계;
상기 규칙 기반 및 통계 기반 품사 태깅 단계 후, 결과의 오류를 보정하는 오류수정단계; 로 이루어진 것을 특징으로 하는 문맥기반 공공민원 빅 데이터 자동 분류 방법.
청구항 1에 있어서,
상기 규칙 기반 및 통계 기반 품사 태깅 단계 후 품사 태깅 처리된 민원 데이터를 주제별 분류된 민원 데이터 DB와 매칭되면 해당 부서로 할당하고, 매칭이 되지 않으면 주제별 분류된 민원 데이터 DB를 갱신한 다음 해당 부서로 할당하는 단계를 더 포함하는 것을 특징으로 하는 문맥기반 공공민원 빅 데이터 자동 분류 방법.