KR20160075974A - 문맥기반 공공민원 빅 데이터 자동 분류 방법 - Google Patents

문맥기반 공공민원 빅 데이터 자동 분류 방법 Download PDF

Info

Publication number
KR20160075974A
KR20160075974A KR1020140184762A KR20140184762A KR20160075974A KR 20160075974 A KR20160075974 A KR 20160075974A KR 1020140184762 A KR1020140184762 A KR 1020140184762A KR 20140184762 A KR20140184762 A KR 20140184762A KR 20160075974 A KR20160075974 A KR 20160075974A
Authority
KR
South Korea
Prior art keywords
data
complaint
rule
civil
speech tagging
Prior art date
Application number
KR1020140184762A
Other languages
English (en)
Inventor
남준
Original Assignee
케이웨어 (주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 케이웨어 (주) filed Critical 케이웨어 (주)
Priority to KR1020140184762A priority Critical patent/KR20160075974A/ko
Publication of KR20160075974A publication Critical patent/KR20160075974A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 문맥기반 공공민원 빅 데이터 자동 분류 방법에 관한 것으로, 공공기관의 민원 데이터를 수집하고 분석하여 주제별로 해당 부서에 민원 데이터를 자동으로 할당하는 시스템이다. 현재까지 수동적으로 처리하던 민원데이터를 담당자 입장을 고려한 고차원의 공공민원 빅 데이터 자동 분류 시스템으로 향후 민원 처리 사항 및 민원 대응 사례를 통계적으로 가시화 할 수 있는 시스템이다. 또한 민원 빅 데이터를 분석함으로써 민원 종류, 주제 등 분석을 통하여 점차 증가하는 다양한 민원 데이터 형태의 추이 분석이 가능하다.

Description

문맥기반 공공민원 빅 데이터 자동 분류 방법{Auto grouping method for public complaints of context basis}
본 발명은 문맥 기반 공공민원 빅 데이터 자동 분류 방법에 관한 것으로, 보다 상세하게는, 일반 공공민원 빅 데이터를 문맥기반으로 자동 분류하여 수동적으로 민원을 각 부서에 할당하지 않고 자동으로 각 부서에 할당하도록 한 문맥기반 공공민원 빅 데이터 자동 분류 방법에 관한 것이다.
현재 정부 및 공공기관, 지자체에서 보유하고 있는 민원 데이터는 단지 민원의 글 내용에 따라 담당자가 각 부서별로 민원 데이터를 할당하였다. 따라서 국내 다양한 공공기관에서 게시된 민원 빅 데이터는 실시간으로 민원 데이터를 수집하여 문맥에 따라 자동으로 분류하여 해당 부서에 자동으로 할당하는 시스템이 필요하다.
현재 수집된 민원 데이터는 비정형화된 자연어로서 어휘적 모호성, 의미적 모호성, 구문적 모호성을 가지고 있다. 어휘적 모호성은 문장에 사용된 단어 또는 어절이 하나 이상의 품사 또는 형태소 분석 결과를 낳을 수 있음을 의미한 다. 구문적 모호성은 하나의 문법 구조가 두 가지 이상의 해석이 가능한 현상을 의미하며, 의미 모호성은 단어 또는 어절의 의미가 두 가지 이상으로 해석 가능한 현상을 의미한다. 품사 태깅(POS: part-of-speech tagging)이란 문장 내에서 단어가 사용된 문맥에 따라 각 단어에 올바른 품사 정보를 할당하는 과정을 말한다. 품사 태깅은 어휘 모호성으로 인한 구문 분석 단계에서의 과다한 부담을 줄이기 위한 전처리 과정으로 사용되며, 정보 검색 시스템에서 높은 재현율 및 정확도를 갖는 색인어와 검색어 추출을 위해 사용될 수 있다. 품사 태깅을 위한 접근법은 자연어 처리를 위한 접근법의 분류와 같이 규칙 기반 품사 태깅 방법과 통계 기반 품사 태깅 방법으로 구분할 수 있다. 통계 기반 접근 방법은 확률 또는 불확실성을 나타내는 통계 정보를 사용하므로 거의 모든 언어 현상에 적용할 수 있다는 확장성과 견고성을 갖는다. 하지만 실세계 언어 현상을 충분히 대표할 수 있는 양질의 코퍼스(corpus)가 존재하지 않아 데이터 부족 문제(data sparseness problem)로 인해 태깅의 정확도가 저하되는 단점이 있다. 규칙 기반 접근 방법은 품사 태깅에 적용되는 공통적인 원리나 결정적인 규칙을 찾아내고, 이를 이용하여 어휘적 모호성을 결정적으로 해결하는 방법이다. 규칙 기반 접근법은 일관성 있는 결정적 규칙을 얻기가 어렵고, 많은 규칙들을 제어하기가 쉽지 않아 일반적으로 견고하지 못하지만 규칙이 적용될 수 있는 현상에 대해서는 높은 정확도를 갖고 모호성을 해결할 수 있다.
본 발명은 상기한 종래 기술의 요망에 부응하기 위하여 발명된 것으로서, 민원데이터를 처리하는 담당자 입장을 고려한 고차원의 공공민원 빅 데이터 자동 분류 방법을 제공하는데 있다.
본 발명의 문맥기반 공공민원 빅 데이터 자동 분류 방법은, 민원의 문장을 어절별로 형태소를 분석하여 가능한 모든 어절 태그의 리스트를 포함하는 형태소 분석 결과를 생성하는 단계; 상기 형태소 분석 결과에 따라 불필요한 어절 태그를 제거하는 규칙 기반 품사 태깅 단계; 상기 규칙 기반 품사 태깅 단계 후, 통계적으로 빈도수가 많은 단어를 추출한 후, 단어들 간 클러스터링 하여 대표 단어를 추출하는 통계 기반 품사 태깅 단계; 상기 규칙 기반 및 통계 기반 품사 태깅 단계 후, 결과의 오류를 보정하는 오류수정단계; 로 이루어진 것을 특징으로 한다.
상기 규칙 기반 및 통계 기반 품사 태깅 단계 후 품사 태깅 처리된 민원 데이터를 주제별 분류된 민원 데이터 DB와 매칭되면 해당 부서로 할당하고, 매칭이 되지 않으면 주제별 분류된 민원 데이터 DB를 갱신한 다음 해당 부서로 할당하는 단계를 더 포함하는 것을 특징으로 한다.
본 발명의 문맥기반 공공민원 빅 데이터 자동 분류 방법에 의하면, 공공민원 빅 데이터 통계 및 분석을 통하여 대국민 민원 트랜드 및 정책 반영에 기여하는 효과를 가지고 있다.
도 1은 본 발명에 의한 품사 태깅 과정을 도식화한 흐름도이다.
도 2은 본 발명에 의한 주제 자동 분류기를 도식화한 흐름도이다.
도 3은 본 발명에 의한 계층적인 민원 주제별 카테고리 DB을 간략화한 것을 도시한 블록도이다.
이하, 첨부된 도면을 참조해서 본 발명의 실시 예를 상세히 설명하면 다음과 같다.
본 발명은 비정형화된 공공민원 데이터(웹 문서)를 정확하게 부서별로 할당하기 위하여 다음과 같은 방법을 하였다. 첫째, 공공민원 데이터 수집대상은 우리나라 공공기관에 등록된 민원데이터이고, 수집기간은 2003년부터 현재까지 등록된 민원 데이터이다. 둘째, 수집된 비정형 데이터를 정형화 데이터로 변환하기 위하여 도 1와 같이 최적의 품사 태깅(Part of speech tagging)을 한다. 이때 품사 태깅을 위한 접근법은 자연어 처리를 위한 접근법의 분류와 같이 규칙 기반 품사 태깅 방법과 통계 기반 품사 태깅 방법으로 구분할 수 있지만, 본 발명에서는 규칙 기반 품사 태깅 방법과 통계 기반 태깅 방법을 혼합한 하이브리드 기반 태깅 방법을 사용한다. 셋째, 수집된 민원 데이터는 도 2와 같이 기존 부서별로 분류된 민원 데이터와 매칭을 하여 같으면 민원 데이터를 부서별로 할당하고, 같지 않은 경우는 기존 민원 데이터 DB을 갱신한다. 기존 민원 데이터 DB은 도 3와 같이 지역별, 부서별로 구성되어 있다.
도 1은 본 발명의 실시 예에 따른 품사 태깅 과정을 도식화한 흐름도이다. 공공기관으로부터 수집된 민원의 문장에서 품사를 태깅하는 방법에 있어서, 민원의 문장을 어절별로 형태소를 분석하여 가능한 모든 어절 태그의 리스트를 포함하는 형태소 분석 결과를 생성하는 단계이다. 이때 형태소 분석기는 민원의 문장을 입력하고 사전 데이터베이스를 이용하여 어절별로 형태소를 분석하고 가능한 모든 어절 태그의 리스트를 포함하는 형태소 분석결과를 생성한다.
상기 형태소 분석 결과에 따라 불필요한 어절 태그를 제거하는 규칙 기반 품사태깅 단계이다. 이때 규칙 기반 품사 태깅은 어절 단위의 어휘 규칙, 관용어구 어휘 규칙 등을 적용한다.
상기 규칙기반 품사 태깅 단계 후, 통계적으로 빈도수가 많은 단어를 추출한 후, 단어들 간 클러스터링 하여 주제 단어를 추출하는 통계 기반 품사 태깅 단계이다.
이때 단어 빈도수를 계산하기 위하여 아래 수식과 같이 Naive Bayes classifier 알고리즘을 사용한다.
Figure pat00001
K i 는 문장내에서 있는 키워드(i=0,1,..n)
P Local 는 전체문장이 아닌 부분적인 어절단위
P global 는 전체문장의 어절
λ는 가중치로 범위는 0부터 1이다.
또한, 단어간 관계를 분류하기 위하기 k-NN(k-Nearest Neighbors) 알고리즘 사용한다. 정확한 문장내에서 주제를 추출하기 위하여 k는 4개로 한다.
최종적으로 규칙 기반 및 통계기반 태깅 단계 후의 결과의 오류를 보정하는 단계인 오류수정단계이다.
도 2은 본 발명에 의한 주제 자동 분류기를 도식화한 흐름도이다.
상기에서 수행한 최적의 품사 태깅은 정확한 주제를 분류할 수 있다. 이때 품사 태깅이 처리된 민원 데이터는 주제별 분류된 민원 데이터 DB와 매칭하여 존재하면 민원 데이터는 해당 부서로 할당한다. 만약 매칭이 되지 않으면 주제별 분류된 민원 데이터 DB를 갱신한 다음, 민원 데이터는 해당 부서로 할당한다.
도 3은 본 발명에 의한 계층적인 민원 주제 카테고리 DB을 간략화 한다.
계층적인 민원 주제 카테고리는 지역별로 공공기관의 부서별로 DB하였다.

Claims (2)

  1. 민원의 문장을 어절별로 형태소를 분석하여 가능한 모든 어절 태그의 리스트를 포함하는 형태소 분석 결과를 생성하는 단계;
    상기 형태소 분석 결과에 따라 불필요한 어절 태그를 제거하는 규칙 기반 품사 태깅 단계;
    상기 규칙 기반 품사 태깅 단계 후, 통계적으로 빈도수가 많은 단어를 추출한 후, 단어들 간 클러스터링하여 대표 단어를 추출하는 통계 기반 품사 태깅 단계;
    상기 규칙 기반 및 통계 기반 품사 태깅 단계 후, 결과의 오류를 보정하는 오류수정단계; 로 이루어진 것을 특징으로 하는 문맥기반 공공민원 빅 데이터 자동 분류 방법.
  2. 청구항 1에 있어서,
    상기 규칙 기반 및 통계 기반 품사 태깅 단계 후 품사 태깅 처리된 민원 데이터를 주제별 분류된 민원 데이터 DB와 매칭되면 해당 부서로 할당하고, 매칭이 되지 않으면 주제별 분류된 민원 데이터 DB를 갱신한 다음 해당 부서로 할당하는 단계를 더 포함하는 것을 특징으로 하는 문맥기반 공공민원 빅 데이터 자동 분류 방법.
KR1020140184762A 2014-12-19 2014-12-19 문맥기반 공공민원 빅 데이터 자동 분류 방법 KR20160075974A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140184762A KR20160075974A (ko) 2014-12-19 2014-12-19 문맥기반 공공민원 빅 데이터 자동 분류 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140184762A KR20160075974A (ko) 2014-12-19 2014-12-19 문맥기반 공공민원 빅 데이터 자동 분류 방법

Publications (1)

Publication Number Publication Date
KR20160075974A true KR20160075974A (ko) 2016-06-30

Family

ID=56352510

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140184762A KR20160075974A (ko) 2014-12-19 2014-12-19 문맥기반 공공민원 빅 데이터 자동 분류 방법

Country Status (1)

Country Link
KR (1) KR20160075974A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190091011A (ko) 2018-01-26 2019-08-05 (주) 에스알포스트 민원 이슈어 분석 추출 시스템 및 민원 이슈어 분석 추출 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190091011A (ko) 2018-01-26 2019-08-05 (주) 에스알포스트 민원 이슈어 분석 추출 시스템 및 민원 이슈어 분석 추출 방법

Similar Documents

Publication Publication Date Title
US8374844B2 (en) Hybrid system for named entity resolution
EP2664997B1 (en) System and method for resolving named entity coreference
WO2011030752A1 (ja) 単語対取得装置、単語対取得方法、およびプログラム
CN109460552B (zh) 基于规则和语料库的汉语语病自动检测方法及设备
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
Dai et al. A new statistical formula for Chinese text segmentation incorporating contextual information
CN110929520A (zh) 非命名实体对象抽取方法、装置、电子设备及存储介质
CN113157859A (zh) 一种基于上位概念信息的事件检测方法
CN114896305A (zh) 一种基于大数据技术的智慧互联网安全平台
Ng et al. Application of natural language processing algorithms for extracting information from news articles in event-based surveillance.
Balazevic et al. Language detection for short text messages in social media
Zhang et al. Neural recovery machine for Chinese dropped pronoun
Cordell et al. Disaggregating repression: Identifying physical integrity rights allegations in human rights reports
Meselhi et al. A novel hybrid approach to arabic named entity recognition
Hkiri et al. Integrating bilingual named entities lexicon with conditional random fields model for Arabic named entities recognition
Kariyawasam et al. A rule based stemmer for Sinhala language
Saini et al. Intrinsic plagiarism detection system using stylometric features and DBSCAN
KR20120088032A (ko) 실시간 번역 지식 자동 추출/검증 방법 및 그 장치
Scarton et al. Verb clustering for brazilian portuguese
KR20160075974A (ko) 문맥기반 공공민원 빅 데이터 자동 분류 방법
CN108573025B (zh) 基于混合模板抽取句子分类特征的方法及装置
Chang et al. Zero pronoun identification in chinese language with deep neural networks
Arnfield Enhanced Content-Based Fake News Detection Methods with Context-Labeled News Sources
KR20210012606A (ko) 바이오 정보 분석 방법 및 이를 수행하기 위한 프로그램을 저장하는 저장 매체
Fialho et al. INESC-ID at ASSIN:: measuring semantic similarity and recognizing textual entailment

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application