KR20220143230A - 악성민원 검출장치 및 그 방법 - Google Patents

악성민원 검출장치 및 그 방법 Download PDF

Info

Publication number
KR20220143230A
KR20220143230A KR1020210049430A KR20210049430A KR20220143230A KR 20220143230 A KR20220143230 A KR 20220143230A KR 1020210049430 A KR1020210049430 A KR 1020210049430A KR 20210049430 A KR20210049430 A KR 20210049430A KR 20220143230 A KR20220143230 A KR 20220143230A
Authority
KR
South Korea
Prior art keywords
document data
malicious
nouns
data
cluster
Prior art date
Application number
KR1020210049430A
Other languages
English (en)
Other versions
KR102471408B1 (ko
Inventor
양승호
손영두
최치현
Original Assignee
동국대학교 산학협력단
주식회사 인사이저
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 동국대학교 산학협력단, 주식회사 인사이저 filed Critical 동국대학교 산학협력단
Priority to KR1020210049430A priority Critical patent/KR102471408B1/ko
Publication of KR20220143230A publication Critical patent/KR20220143230A/ko
Application granted granted Critical
Publication of KR102471408B1 publication Critical patent/KR102471408B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • G06K9/6223

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 악성민원 검출장치 및 그 방법에 관한 것으로서, 일실시예에 따른 악성민원 검출장치는 복수의 문서 데이터를 수신하고, 수신된 문서 데이터 중 중복된 문서 데이터를 제거하는 전처리를 수행하는 전처리부와, 전처리된 문서 데이터로부터 적어도 하나 이상의 특징 명사를 추출하고, 추출된 특징 명사 각각에 대한 군집을 형성하며, 형성된 군집 각각을 유형화하는 데이터 유형화부 및 유형화된 군집 각각에 대한 하위 군집을 형성하고, 형성된 하위 군집 각각의 실루엣 계수에 기초하여 악성민원을 검출하는 악성민원 검출부를 포함한다.

Description

악성민원 검출장치 및 그 방법{APPARATUS AND METHOD DETECTING MALICIOUS COMPLAINT}
본 발명은 악성민원 검출장치 및 그 방법에 관한 것으로, 보다 상세하게는 민원문서에 대한 군집화 및 유형화를 통해 악성 민원을 검출하는 기술적 사상에 관한 것이다.
민원이란 국민이 행정기관에 대하여 허가, 인가 등의 신청, 행정업무에 대한 상담, 운영개선 및 고충사항에 대한 처리 등을 요구하는 것으로, 국민이라면 누구나 행정기관에 대하여 문서, 구술, 전화, 우편, 인터넷 등으로 민원을 제기할 수 있다.
행정기관은 접수된 민원의 종류에 따라서 특정 기한 내에 민원을 처리해야 하며, 신속한 민원 처리는 건강한 지역사회를 건설하기 위한 필수적인 요소 중 하나이다.
그러나, 현재 민원은 이를 처리하는 인력에 비해 감당하기 힘들 정도로 많은 양이 접수되고 있다. 서울을 포함한 주요 도시에서 하루에 접수되는 민원의 수는 약 30,000건에서 40,000건 정도이며 한 달 동안 접수되는 민원의 수는 몇 십만 건에서 많게는 백만 건이 넘는다.
인력에 비해 너무나도 많은 민원으로 인해 민원 처리가 지연되는 상황이 빈번하게 발생하고, 이러한 상황에서 처리된 민원에 대해 만족하지 못하는 목소리도 곳곳에서 들리고 있다.
특정한 카테고리 없이 접수되는 민원을 유형별로 분류하여 처리한다면 처리 시간도 절약할 수 있고 양질의 서비스도 함께 제공할 수 있겠지만, 민원을 유형별로 분류하려면 이를 위한 추가적인 인력을 필요하고 인력이 확보된다고 하더라도 민원의 특성상 시간과 지역에 따라 민원의 유형이 다르기 때문에 민원을 매번 일일이 분석하여 올바른 분류를 하는 것은 시간이 많이 소요되는 어려운 일이다.
또한, 민원들 중 같은 민원이 여러번 반복되어 접수되는 악성민원을 구별해 내는 것 또한 까다롭다는 문제가 있다.
한국등록특허 제10-1769035호, "한국어 텍스트 클러스터링 시스템 및 방법"
본 발명은 민원 문서로부터 추출된 특징에 기초하는 군집화 및 유형화를 통해 민원 문서 내에서 악성민원을 용이하게 검출할 수 있는 악성민원 검출장치 및 그 방법을 제공하고자 한다.
또한, 본 발명은 민원 문서에 대한 군집 분석을 통해 보다 정확하고 효율적으로 악성민원을 검출할 수 있는 악성민원 검출장치 및 그 방법을 제공하고자 한다.
본 발명의 일실시예에 따른 악성민원 검출장치는 복수의 문서 데이터를 수신하고, 수신된 문서 데이터 중 중복된 문서 데이터를 제거하는 전처리를 수행하는 전처리부와, 전처리된 문서 데이터로부터 적어도 하나 이상의 특징 명사를 추출하고, 추출된 특징 명사 각각에 대한 군집을 형성하며, 형성된 군집 각각을 유형화하는 데이터 유형화부 및 유형화된 군집 각각에 대한 하위 군집을 형성하고, 형성된 하위 군집 각각의 실루엣 계수에 기초하여 악성민원을 검출하는 악성민원 검출부를 포함할 수 있다.
일측에 따르면, 전처리부는 중복된 데이터가 제거된 문서 데이터에 대하여 노이즈 제거, 띄어쓰기 교정 및 맞춤법 교정 중 적어도 하나의 전처리를 수행할 수 있다.
일측에 따르면, 데이터 유형화부는 전처리된 문서 데이터로부터 복수의 명사를 추출하고, 추출된 명사 각각에 대한 명사 빈도수 및 IDF(inverse document frequency) 값에 기초하여 특징 명사를 추출할 수 있다.
일측에 따르면, 데이터 유형화부는 전처리된 문서 데이터의 개수와, 전처리된 문서 데이터에서 추출된 명사 중 어느 하나의 명사를 포함하는 문서 데이터의 개수에 기초하여 어느 하나의 명사에 대한 IDF 값을 산출할 수 있다.
일측에 따르면, 데이터 유형화부는 추출된 특징 명사 각각과 전처리된 문서 데이터에 기초하여 TF-IDF(term frequency-inverse document frequency) 행렬을 구성하고, 구성된 TF-IDF 행렬 각각에 대응되는 군집을 형성하며, 형성된 군집에 수신된 문서 데이터 중 대응되는 문서 데이터를 할당할 수 있다.
일측에 따르면, 데이터 유형화부는 K-평균 군집화 알고리즘(K-means clustering algorithm) 및 코사인 유사도에 기초하여 군집을 형성하고, 형성된 군집에 수신된 문서 데이터 중 대응되는 문서 데이터를 할당할 수 있다.
일측에 따르면, 데이터 유형화부는 K-평균 군집화 알고리즘을 통해 형성된 군집 각각의 중심점을 구성하고, 구성된 중심점 각각과 수신된 문서 데이터 각각에 대한 코사인 유사도를 산출하며, 산출된 코사인 유사도에 기초하여 형성된 군집에 수신된 문서 데이터 중 대응되는 문서 데이터를 할당할 수 있다.
일측에 따르면, 데이터 유형화부는 형성된 군집 각각에 포함된 특징 명사 각각에 대한 TF-IDF 평균값을 산출하고, 산출된 TF-IDF 평균값이 가장 높은 특징 명사를 대응되는 군집의 대표 유형으로 설정하는 유형화를 수행할 수 있다.
일측에 따르면, 악성민원 검출부는 유형화된 군집 각각에 대한 하위 특징 명사를 추출하고, 추출된 하위 특징 명사 각각에 대한 하위 군집을 형성할 수 있다.
일측에 따르면, 악성민원 검출부는 K-평균 군집화 알고리즘 및 유클리디안 거리에 기초하여 하위 군집을 형성할 수 있다.
일측에 따르면, 악성민원 검출부는 형성된 하위 군집 각각에 대한 실루엣 계수를 산출하고, 산출된 실루엣 계수간의 유사도에 기초하여 악성민원을 검출할 수 있다.
본 발명의 일실시예에 따른 악성민원 검출방법은 전처리부에서 복수의 문서 데이터를 수신하고, 수신된 문서 데이터 중 중복된 문서 데이터를 제거하는 전처리를 수행하는 단계와, 데이터 유형화부에서 전처리된 문서 데이터로부터 적어도 하나 이상의 특징 명사를 추출하고, 추출된 특징 명사 각각에 대한 군집을 형성하며, 형성된 군집 각각을 유형화하는 단계 및 악성민원 검출부에서 유형화된 군집 각각에 대한 하위 군집을 형성하고, 형성된 하위 군집 각각의 실루엣 계수에 기초하여 악성민원을 검출하는 단계를 포함할 수 있다.
일실시예에 따르면, 본 발명은 민원 문서로부터 추출된 특징에 기초하는 군집화 및 유형화를 통해 민원 문서 내에서 악성민원을 용이하게 검출할 수 있다.
일실시예에 따르면, 본 발명은 민원 문서에 대한 군집 분석을 통해 보다 정확하고 효율적이고 정확하게 악성민원을 검출할 수 있다.
도 1은 일실시예에 따른 악성민원 검출장치를 설명하기 위한 도면이다.
도 2는 일실시예에 따른 악성민원 검출장치에서 전처리를 수행하는 예시를 설명하기 위한 도면이다.
도 3a 내지 도 3b는 일실시예에 따른 악성민원 검출장치에서 특징 명사를 추출하는 예시를 설명하기 위한 도면이다.
도 4a 내지 도 4b는 일실시예에 따른 악성민원 검출장치에서 문서 데이터의 군집을 유형화하는 예시를 설명하기 위한 도면이다.
도 5a 내지 도 5b는 일실시예에 따른 악성민원 검출장치에서 악성민원을 검출하는 예시를 설명하기 위한 도면이다.
도 6은 일실시예에 따른 악성민원 검출방법을 설명하기 위한 도면이다.
도 7은 일실시예에 따른 악성민원 검출방법에서 전처리를 수행하는 단계를 보다 구체적으로 설명하기 위한 도면이다.
도 8은 일실시예에 따른 악성민원 검출방법에서 군집을 유형화하는 단계를 보다 구체적으로 설명하기 위한 도면이다.
도 9는 일실시예에 따른 악성민원 검출방법에서 악성민원을 검출하는 단계를 보다 구체적으로 설명하기 위한 도면이다.
이하, 본 문서의 다양한 실시 예들이 첨부된 도면을 참조하여 기재된다.
실시 예 및 이에 사용된 용어들은 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 해당 실시 예의 다양한 변경, 균등물, 및/또는 대체물을 포함하는 것으로 이해되어야 한다.
하기에서 다양한 실시 예들을 설명에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다.
그리고 후술되는 용어들은 다양한 실시 예들에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다.
본 문서에서, "A 또는 B" 또는 "A 및/또는 B 중 적어도 하나" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다.
"제1," "제2," "첫째," 또는 "둘째," 등의 표현들은 해당 구성요소들을, 순서 또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.
어떤(예: 제1) 구성요소가 다른(예: 제2) 구성요소에 "(기능적으로 또는 통신적으로) 연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다.
본 명세서에서, "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, 하드웨어적 또는 소프트웨어적으로 "~에 적합한," "~하는 능력을 가지는," "~하도록 변경된," "~하도록 만들어진," "~를 할 수 있는," 또는 "~하도록 설계된"과 상호 호환적으로(interchangeably) 사용될 수 있다.
어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다.
예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(예: CPU 또는 application processor)를 의미할 수 있다.
또한, '또는' 이라는 용어는 배타적 논리합 'exclusive or' 이기보다는 포함적인 논리합 'inclusive or' 를 의미한다.
즉, 달리 언급되지 않는 한 또는 문맥으로부터 명확하지 않는 한, 'x가 a 또는 b를 이용한다' 라는 표현은 포함적인 자연 순열들(natural inclusive permutations) 중 어느 하나를 의미한다.
상술한 구체적인 실시 예들에서, 발명에 포함되는 구성 요소는 제시된 구체적인 실시 예에 따라 단수 또는 복수로 표현되었다.
그러나, 단수 또는 복수의 표현은 설명의 편의를 위해 제시한 상황에 적합하게 선택된 것으로서, 상술한 실시 예들이 단수 또는 복수의 구성 요소에 제한되는 것은 아니며, 복수로 표현된 구성 요소라 하더라도 단수로 구성되거나, 단수로 표현된 구성 요소라 하더라도 복수로 구성될 수 있다.
한편 발명의 설명에서는 구체적인 실시 예에 관해 설명하였으나, 다양한 실시 예들이 내포하는 기술적 사상의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다.
그러므로 본 발명의 범위는 설명된 실시 예에 국한되어 정해져서는 아니되며 후술하는 청구범위뿐만 아니라 이 청구범위와 균등한 것들에 의해 정해져야 한다.
도 1은 일실시예에 따른 악성민원 검출장치를 설명하기 위한 도면이다.
도 1을 참조하면, 일실시예에 따른 악성민원 검출장치(100)는 민원 문서로부터 추출된 특징에 기초하는 군집화 및 유형화를 통해 민원 문서 내에서 악성민원을 용이하게 검출할 수 있다.
또한, 악성민원 검출장치(100)는 민원 문서에 대한 군집 분석을 통해 보다 정확하고 효율적으로 악성민원을 검출할 수 있다.
구체적으로, 데이터 마이닝 기법 중 군집 분석은 주어진 데이터를 의미 있는 그룹으로 분할하는 방법으로, 군집 분석의 목적은 유사한 특성을 가진 개체를 모아 군집을 형성하여 군집 간의 특성을 관찰하거나 군집 내의 특성을 관찰하는 것이다.
즉, 군집 분석은 특정 기준을 바탕으로 개체 간의 거리를 측정하여 같은 군집 내 개체들의 거리를 최소화 하여 군집 내 응집도를 최대화 하고 서로 다른 군집 간의 거리를 최대화 하여 군집 간의 분리도를 최대화함으로써 군집을 형성할 수 있고, 형성된 군집의 특성을 관찰할 수 있다.
여러 형태로 접수되는 민원 중 텍스트 형태를 갖는 민원에도 군집 분석 방법을 적용할 수 있다. 민원 문서에서 빈번하게 등장하는 단어를 바탕으로 군집을 형성하여 민원의 유형을 파악할 수 있고, 유형 파악이 된 여러 군집에서 다시 하위 군집을 형성하여 악성민원 또한 추출할 수 있다.
즉, 민원을 유형별로 분류하면 민원 처리시간을 감소시킬 수 있고, 더 나아가 지역사회의 이슈 또한 함께 확인할 수 있다. 뿐만 아니라 악성민원 추출을 통해 해당 민원에 대한 알맞은 조치를 취할 수도 있다.
수많은 민원을 유형화 하고, 또 그 안에서 악성민원까지 추출하는 것은 결코 쉬운 작업이 아니지만, 이하에서 설명하는 일실시예에 따른 악성민원 검출장치(100)를 이용하면, 민원 문서를 군집화하여 다수의 민원을 효율적으로 처리할 수 있다.
악성민원 검출장치(100)는 전처리부(110), 데이터 유형화부(120) 및 악성민원 검출부(130)를 포함할 수 있다.
일실시예에 따른 전처리부(110)는 복수의 문서 데이터를 수신하고, 수신된 문서 데이터 중 중복된 문서 데이터를 제거하는 전처리를 수행할 수 있다. 여기서, 문서 데이터는 민원 문서에 대응되는 데이터일 수 있다.
다시 말해, 전처리부(110)는 복수의 문서 데이터 중 제1 문서 데이터와 내용이 일치하는 적어도 하나 이상의 문서 데이터가 존재하면, 제1 문서 데이터와 내용이 일치하는 적어도 하나 이상의 문서 데이터를 제거할 수 있다.
일측에 따르면, 전처리부(110)는 중복된 데이터가 제거된 문서 데이터에 대하여 노이즈 제거, 띄어쓰기 교정 및 맞춤법 교정 중 적어도 하나의 전처리를 수행할 수 있다.
바람직하게는, 전처리부(110)는 수신된 문서 데이터에 대한 전처리 과정으로 중복 데이터 제거, 노이즈 제거, 띄어쓰기 교정 및 맞춤법 교정을 순차적으로 수행할 수 있다.
구체적으로, 민원의 특성상 동일한 민원을 여러번 제기하는 경우가 있기 때문에 중복되는 문서 데이터가 존재할 수 있으며, 중복되는 민원 전체에 대해서 문서의 특징을 추출하면 중복되는 민원에 편향되어 문서의 특징이 추출될 수 있다.
이에, 전처리부(110)는 중복되는 문서 데이터를 식별/제거하는 전처리 과정을 수행할 수 있다.
또한, 민원문서를 민원 내용에 따라 군집화하기 위해서는 노이즈와 민원 내용이 섞여있는 민원문서 중 민원 내용을 추출해야하며, 이때 문서 데이터에는 민원의 특성 상 공통적인 형식을 갖는 5가지 유형(처리 담당자 관련 내용, 국민신문고 관련 내용, 스마트폰 신고 관련 내용, 첨부파일 관련 내용 및 차량신고 관련 내용)의 노이즈가 존재할 수 있다.
이에, 전처리부(110)는 상술한 5가지 유형의 노이즈, 즉 민원문서에서 공통적인 형식을 갖는 노이즈를 제거한 뒤 여러 민원문서에서 민원 내용과 관련 없이 등장하는 불용어를 제거하여 정제된 문서 데이터를 획득할 수 있다.
한편, 문서 데이터에 대한 전처리 과정이 마무리된 이후에 문서 데이터를 군집화하는 과정에서는 문서 데이터에 대한 형태소 분석을 통해 특징 단어를 추출하게 되는데, 이때 띄어쓰기와 맞춤법이 올바르게 교정되어 있지 않는 문서 데이터를 이용하여 형태소 분석을 하게 되면, 문장의 형태소 분석이 제대로 이뤄지지 않게 되어, 데이터 분석의 신뢰성에 문제가 발생될 수 있다.
이에, 전처리부(110)는 문서 데이터에 대한 올바른 형태소 분석을 수행하기 위해, 문서 데이터의 띄어쓰기와 맞춤법을 교정하는 전처리 과정을 수행하여 정제된 문서 데이터를 획득할 수 있다.
일실시예에 따른 데이터 유형화부(120)는 전처리부(110)를 통해 전처리된 문서 데이터로부터 적어도 하나 이상의 특징 명사를 추출하고, 추출된 특징 명사 각각에 대한 군집을 형성하며, 형성된 군집 각각을 유형화할 수 있다.
일측에 따르면, 데이터 유형화부(120)는 전처리된 문서 데이터로부터 복수의 명사를 추출하고, 추출된 명사 각각에 대한 명사 빈도수 및 IDF(inverse document frequency) 값에 기초하여 특징 명사를 추출할 수 있다.
구체적으로, 데이터 유형화부(120)는 전처리된 문서 데이터에 대한 형태소 분석을 실시하여 문서 데이터에 존재하는 복수의 명사를 추출할 수 있다.
예를 들면, 데이터 유형화부(120)는 형태소 분석을 통하여 문장을 이루는 형태소를 비롯하여 어근, 접두사, 접미사 및 품사 등 다양한 언어적 속성을 분석할 수 있으며, 이때 문서 데이터는 어떠한 키워드, 즉 명사를 기준으로 하여 유형별로 나뉠 수 있기 때문에 형태소 분석을 통하여 전체 민원문서에서 복수의 명사를 추출할 수 있다.
다음으로, 데이터 유형화부(120)는 명사 빈도수 및 IDF 값을 기준으로, 추출된 명사 중 일부 명사를 특징 명사로 추출할 수 있다.
여기서, 명사 빈도수는 민원문서에서 추출된 각 명사가 전체 문서 데이터에서 몇 번 등장했는지 분석한 결과를 나타내며, IDF 값은 특정 명사가 전체 문서 데이터 중 얼마나 많은 문서 데이터에 나타났는지를 분석한 결과를 나타낸다.
보다 구체적으로, 데이터 유형화부(120)는 전처리된 문서 데이터의 개수(
Figure pat00001
)와, 전처리된 문서 데이터에서 추출된 명사 중 어느 하나의 명사(즉, 특정명사 t)를 포함하는 문서 데이터의 개수(
Figure pat00002
)에 기초하는 하기 수학식1을 통해 어느 하나의 명사(t)에 대한 IDF 값(
Figure pat00003
)을 산출할 수 있다.
[수학식1]
Figure pat00004
여기서,
Figure pat00005
는 문서 데이터 집합 D의 크기(즉, 전체 문서 데이터의 개수)를 의미하고,
Figure pat00006
는 명사 t가 포함된 문서 데이터의 개수를 의미한다.
한편, 민원문서를 유형별로 나눌 때, 전체 문서 중 가장 두드러지게 나타나는 명사를 기준으로 하여 나눠야 하며, 이를 위해 데이터 유형화부(120)는 명사 빈도수가 기설정된 상한 임계값 보다 높은 명사와 IDF값이 기설정된 하한 임계값 보다 낮은 명사를 추출하고, 추출된 각각의 명사 중 공통으로 등장한 명사를 특징 명사로 추출할 수 있다.
보다 구체적인 예를 들면, 데이터 유형화부(120)는 문서 데이터 내에서 명사 빈도수가 가장 많은 상위 200개의 명사를 추출하고, 문서 데이터 내에서 IDF 값이 가장 적은 하위 200개의 명사를 추출하며, 추출된 상위 200개의 명사와 하위 200개의 명사 중 서로 공통된 명사(즉, 추출된 상위 200개의 명사와 하위 200개의 명사의 교집합)를 특징 명사로 추출할 수 있다.
바람직하게는, 데이터 유형화부는 공통된 명사들 중 불용어를 제거하고 키워드로 사용될 수 있는 명사만을 특징 명사로 추출할 수도 있다.
일측에 따르면, 데이터 유형화부(120)는 추출된 특징 명사 각각과 전처리된 문서 데이터에 기초하여 TF-IDF(term frequency-inverse document frequency) 행렬을 구성하고, 구성된 TF-IDF 행렬 각각에 대응되는 군집을 형성하며, 형성된 군집에 수신된 문서 데이터 중 대응되는 문서 데이터를 할당할 수 있다.
다시 말해, 데이터 유형화부(120)는 추출된 특징 명사와 전처리된 문서 데이터(즉, 중복이 없는 문서 데이터)로 TF-IDF 행렬을 구성하여 군집을 형성하고, 수신된 문서 데이터(즉, 전처리되지 않아 중복이 있는 문서 데이터)를 각 군집에 할당할 수 있다.
여기서, TF-IDF는 여러 문서로 이뤄진 문서 집합에서 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치를 의미한다.
보다 구체적으로, TF(term frequency)는 특정한 단어가 문서 내에 얼마나 자주 등장하는지를 나타내는 값으로, 값이 높을수록 문서에서 중요한 단어라고 생각할 수 있다. 하지만 특정 단어가 문서 집합 전체에서 자주 사용 되는 경우, 이는 그 단어가 흔하게 등장하여 중요한 단어가 아니라고 생각할 수 있다.
또한, 문서 데이터 집합 전체에서 특정 단어가 등장하는 문서의 빈도를 DF(document frequency)라고 하고, 이 값의 역수를 IDF라고 하며, TF-IDF는 TF와 IDF를 곱한 값을 의미한다.
일측에 따르면, 데이터 유형화부(120)는 구성된 TF-IDF 행렬, K-평균 군집화 알고리즘(K-means clustering algorithm) 및 코사인 유사도에 기초하여 군집을 형성하고, 형성된 군집에 수신된 문서 데이터 중 대응되는 문서 데이터를 할당할 수 있다.
구체적으로, K-평균 군집화 알고리즘은 K개의 중심점과 각 중심점에 할당된 여러 데이터들과 중심점과의 거리가 작아지도록 반복하여 군집을 구성하는 기법으로, 문서 데이터의 유형화를 위해 군집화 할 때 '유클리디안 거리'를 거리 측도로 사용하면 특정한 2건의 문서 데이터에서 등장한 명사도 비슷하고 등장한 명사의 빈도수도 비슷해야만 두 문서의 거리가 짧게 측정되어 비슷한 문서로 군집화 될 수 있지만, '코사인 유사도'를 거리 측도로 사용하면 2건의 문서 데이터에서 등장한 명사가 비슷하면 등장한 명사의 빈도수에 크게 영향 받지 않고 비슷한 문서로 군집화 할 수 있다.
이에, 데이터 유형화부(120)는 K-평균 군집화 알고리즘을 통해 형성된 군집 각각의 중심점을 구성하고, 구성된 중심점 각각과 수신된 문서 데이터 각각에 대한 코사인 유사도를 산출하며, 산출된 코사인 유사도에 기초하여 형성된 군집에 수신된 문서 데이터 중 대응되는 문서 데이터를 할당할 수 있다.
다시 말해, 데이터 유형화부(120)는 문서 데이터를 유형별로 나눌 때, 문서 데이터에서 비슷한 명사가 등장하면 같은 군집에 속할 수 있도록 코사인 유사도를 거리 측도로 사용하여 K개 군집의 중심점을 구성하고, 그 다음 수신된 문서 데이터와 형성된 K개 군집의 중심점과의 코사인 유사도를 측정하여 수신된 문서 데이터를 가장 유사하다고 측정된 K개 군집의 중심점 중 하나에 각각 할당하여 문서 데이터의 군집 구성을 완료할 수 있다.
일측에 따르면, 데이터 유형화부(120)는 형성된 군집 각각에 포함된 특징 명사 각각에 대한 TF-IDF 평균값을 산출하고, 산출된 TF-IDF 평균값이 가장 높은 특징 명사를 대응되는 군집의 대표 유형으로 설정하는 유형화를 수행할 수 있다.
다시 말해, 데이터 유형화부(120)는 추출된 특징 명사를 기반으로 형성된 군집에서 어떤 특징 명사가 중요하게 작용했는지 확인하기 위해 군집에 할당된 문서 데이터의 각 특징 명사에 대응되는 TF-IDF의 평균값을 확인하되, TF-IDF 평균값이 가장 높은 특징 명사를 확인하여 군집의 유형을 판단할 수 있다.
일실시예에 따른 악성민원 검출부(130)는 데이터 유형화부(120)를 통해 유형화된 군집 각각에 대한 하위 군집을 형성하고, 형성된 하위 군집 각각의 실루엣 계수에 기초하여 악성민원을 검출할 수 있다.
일측에 따르면, 악성민원 검출부(130)는 유형화된 군집 각각에 대한 하위 특징 명사를 추출하고, 추출된 하위 특징 명사 각각에 대한 하위 군집을 형성할 수 있다.
다시 말해, 데이터 유형화부(120)에서 전체 문서 데이터를 유형별로 나누어 군집을 형성 하였다면, 악성민원 검출부(130)는 데이터 유형화부(120)를 통해 유형화된 군집 각각을 다시 군집화하여 하위 군집을 형성한 후에 하위 군집으로부터 악성민원을 추출할 수 있다.
이를 위해, 악성민원 검출부(130)는 데이터 유형화부(120)와 마찬가지로, 군집 각각에서 명사 빈도수가 높은 명사와 IDF 값이 낮은 명사를 각각 추출하여 공통으로 등장한 명사를 하위 특징 명사로 추출할 수 있다.
일측에 따르면, 악성민원 검출부(130)는 군집 각각에서 추출된 공통으로 등장한 명사 중 불용어를 제거한 나머지 명사를 하위 특징 명사로 추출할 수도 있다.
또한, 악성민원 검출부(130)는 데이터 유형화부(120)와 마찬가지로, 하위 특징 명사를 이용하여 TF-IDF 행렬을 구성하고, K-평균 군집화 알고리즘을 이용하여 구성된 TF-IDF 행렬 각각에 대응되는 하위 군집을 형성할 수 있다.
일측에 따르면, 악성민원 검출부(130)는 K-평균 군집화 알고리즘 및 유클리디안 거리에 기초하여 하위 군집을 형성할 수 있다.
다시 말해, 악성민원 검출부(130)는 데이터 유형화부(120)와는 달리 데이터간의 거리 측도로 유클리디안 거리를 사용할 수 있다.
구체적으로, 악성민원은 기존 문서 데이터와 동일한 문서 데이터가 여러번 반복되는 민원 또는 기존 문서 데이터의 내용 중 몇 단어만 바꾸어 반복되는 민원을 의미하며, 이러한 악성민원을 동일한 하위 군집으로 군집화하여 탐지하기 위해서는 문서 데이터에서 나타나는 단어도 비슷하고 단어의 빈도 또한 비슷해야 문서 데이터가 같은 군집에 속할 수 있다.
이에, 악성민원 검출부(130)는 데이터 유형화부(120)와는 달리 유클리디안 거리를 거리 측도로 사용하여 하위 군집을 구성하며, 악성민원의 개수를 사전에 알 수 없기 때문에 충분한 크기의 개수로 하위 군집의 크기를 설정하여 군집화할 수 있다.
일측에 따르면, 악성민원 검출부(130)는 형성된 하위 군집 각각에 대한 실루엣 계수를 산출하고, 산출된 실루엣 계수간의 유사도에 기초하여 악성민원을 검출할 수 있다.
구체적으로, 악성민원 검출부(130)는 형성된 하위 군집 각각에 대한 실루엣 계수(
Figure pat00007
)를 하기 수학식2를 통해 산출하고, 산출된 실루엣 계수를 서로 비교하여 악성민원이 존재할 만한 하위 군집을 도출하고, 도출된 하위 군집에서 악성민원을 검출할 수 있다.
[수학식2]
Figure pat00008
여기서,
Figure pat00009
는 데이터 i와 같은 군집에 속한 다른 데이터와의 평균 거리,
Figure pat00010
는 데이터 i가 속하지 않은 다른 군집 내의 모든 데이터와 데이터 i와의 평균 거리 중 최솟값을 의미한다.
보다 구체적으로, 악성민원 검출부(130)는 같은 하위 군집에 할당된 다수의 문서 데이터의 실루엣 계수 값이 동일하다면 TF-IDF 값이 거의 동일하거나 같은 문서라고 판단할 수 있으며, 악성민원의 감지를 위해 특징 명사를 구성하는 과정에서 충분히 많은 수의 특징 명사를 추출하는데 이러한 상황에서 어떤 하위 군집을 이루는 문서들의 실루엣 계수 값이 비슷하다면 그 하위 군집은 악성민원이 있을 만한 후보 군집이라 판단할 수 있다.
즉, 악성민원 검출부(130)는 각 하위 군집의 실루엣 계수를 그래프로 그려 분포를 확인하고 악성민원 후보 군집을 파악한 뒤 악성민원 후보 군집들을 도출할 수 있으며, 도출된 악성민원 후보 군집에 포함된 문서 데이터를 확인하여 악성민원을 검출할 수 있다.
도 2는 일실시예에 따른 악성민원 검출장치에서 전처리를 수행하는 예시를 설명하기 위한 도면이다.
도 2를 참조하면, 일실시예에 따른 악성민원 검출장치는 민원 문서에 대응되는 문서 데이터(210)를 수신하고, 수신된 문서 데이터(210)에 대한 전처리 과정을 수행하여 정제된 문서 데이터(220)를 획득할 수 있다.
구체적으로, 악성민원 검출장치는 수신된 문서 데이터(210)에 대한 중복 데이터 제거하고, 처리 담당자 관련 내용, 국민신문고 관련 내용, 스마트폰 신고 관련 내용, 첨부파일 관련 내용 및 차량신고 관련 내용 등의 노이즈와 불용어를 제거한 이후, 띄어쓰기와 맞춤법을 교정하는 전처리 과정을 수행하여 정제된 문서 데이터(220)를 획득할 수 있다.
도 3a 내지 도 3b는 일실시예에 따른 악성민원 검출장치에서 특징 명사를 추출하는 예시를 설명하기 위한 도면이다.
도 3a 내지 도 3b를 참조하면, 일실시예에 따른 악성민원 검출장치는 전처리된 문서 데이터에 대한 형태소 분석을 실시하여 참조부호 310에 도시된 것과 같은 전처리된 문서 데이터에 존재하는 복수의 명사를 추출할 수 있다.
다음으로, 악성민원 검출장치는 참조부호 310에 도시된 명사들에 대한 명사 빈도수 및 IDF 값에 기초하여, 참조부호 320에 도시된 것과 같은 44개의 특징 명사를 추출할 수 있다.
구체적으로, 악성민원 검출장치는 참조부호 310에 도시된 명사들 중 명사 빈도수가 기설정된 상한 임계값 보다 높은 명사와 IDF값이 기설정된 하한 임계값 보다 낮은 명사를 추출하고, 상한 임계값 보다 높은 명사와 하한 임계값 보다 낮은 명사들에 공통으로 등장하는 명사, 즉 참조부호 320에 도시된 44개의 명사를 특징 명사로 추출할 수 있다.
한편, 악성민원 검출장치는 참조부호 320에 도시된 44개의 특징 명사 각각과 전처리된 문서 데이터에 기초하여 TF-IDF 행렬을 구성하고, 구성된 TF-IDF 행렬 각각에 대응되는 군집을 형성할 수 있다.
도 4a 내지 도 4b는 일실시예에 따른 악성민원 검출장치에서 문서 데이터의 군집을 유형화하는 예시를 설명하기 위한 도면이다.
도 4a 내지 도 4b를 참조하면, 참조부호 410은 일실시예에 따른 악성민원 검출장치에서 TD-IDF의 평균값을 이용하여 문서 데이터의 군집을 유형화하는 예시를 도시하고, 참조부호 420은 유형화된 군집에 포함된 문서 데이터의 예시를 도시한다.
또한, 참조부호 410에서 x축(score)은 특징 명사의 TF-IDF의 평균값, y축(features)은 TF-IDF의 평균값을 기준으로 추출된 상위 10개의 특징 명사를 나타낸다.
참조부호 410에 따르면, 악성민원 검출장치는 문서 데이터의 군집에 포함된 특징 명사들에 대한 TF-IDF 평균값을 산출하고, 산출된 TF-IDF 평균값이 가장 높은 '불법'이라는 특징 명사를 문서 데이터의 군집에 대표 유형으로 설정할 수 있다.
참조부호 420에 따르면, 대표 유형이 '불법'으로 설정된 군집에는 '불법'과 관련한 민원 내용을 포함하는 문서 데이터가 주로 포함이 되어 있으며, 이를 통해 일실시예에 따른 악성민원 검출장치가 높은 정확도와 신뢰도로 군집을 유형화할 수 있다는 점을 확인할 수 있다.
도 5a 내지 도 5b는 일실시예에 따른 악성민원 검출장치에서 악성민원을 검출하는 예시를 설명하기 위한 도면이다.
도 5a 내지 도 5b를 참조하면, 참조부호 510은 일실시예에 따른 악성민원 검출장치에서 유형화된 군집 각각에서 하위 군집을 형성하기 위해 하위 특징 명사를 추출하는 예시를 도시하고, 참조부호 520은 형성된 하위 군집 각각에 대한 실루엣 계수에 기초하여 악성민원을 검출하는 예시를 도시한다.
또한, 참조부호 520에서 x축은 실루엣 계수의 값, y축은 하위 군집 내 문서의 개수를 나타내며, 여기서 하위 군집은 '학교', '초등학교' 및 '아이'를 하위 특징 명사로 포함하는 문서 데이터의 군집에서의 하위 군집을 의미하고, '원'으로 표기된 데이터는 악성민원 후보 군집으로 선정된 하위 군집을 의미한다.
참조부호 510에 따르면, 악성민원 검출장치는 유형화된 군집 각각에 대한 하위 특징 명사를 추출하고, 추출된 하위 특징 명사 각각에 대한 하위 군집을 형성할 수 있다.
참조부호 520에 따르면, 악성민원 검출장치는 형성된 하위 군집 각각에 대한 실루엣 계수를 산출하고, 산출된 실루엣 계수간의 유사도에 기초하여 악성민원을 검출할 수 있다.
구체적으로, 악성민원 검출장치는 참조부호 520에 도시된 것과 같이, 각 하위 군집의 실루엣 계수를 그래프로 그려 분포를 확인하고, 이를 통해 악성민원이 존재하는 것으로 판단되는 하위 군집인 악성민원 후보 군집들을 도출할 수 있으며, 도출된 악성민원 후보 군집에 포함된 문서 데이터들을 세부적으로 확인하여 악성민원을 검출할 수 있다.
예를 들면, 악성민원 검출장치는 도출된 악성민원 후보 군집에 포함된 어느 하나의 문서 데이터의 내용과 기설정된 유사도 이상인 내용을 포함하는 문서 데이터의 수가 기설정된 반복 횟수 이상인 경우에, 어느 하나의 문서 데이터를 악성민원으로 검출할 수 있다.
도 6은 일실시예에 따른 악성민원 검출방법을 설명하기 위한 도면이다.
다시 말해, 도 6은 도 1 내지 도 5b를 통해 설명한 일실시예에 따른 악성민원 검출장치의 동작방법을 설명하기 위한 도면으로, 이하에서 도 6을 통해 설명하는 내용 중 도 1 내지 도 5b를 통해 설명한 내용과 중복되는 설명은 생략하기로 한다.
도 6을 참조하면, 610 단계에서 일실시예에 따른 악성민원 검출방법은 전처리부에서 복수의 문서 데이터를 수신하고, 수신된 문서 데이터 중 중복된 문서 데이터를 제거하는 전처리를 수행할 수 있다.
다음으로, 620 단계에서 일실시예에 따른 악성민원 검출방법은 데이터 유형화부에서 전처리된 문서 데이터로부터 적어도 하나 이상의 특징 명사를 추출하고, 추출된 특징 명사 각각에 대한 군집을 형성하며, 형성된 군집 각각을 유형화할 수 있다.
다음으로, 630 단계에서 일실시예에 따른 악성민원 검출방법은 악성민원 검출부에서 유형화된 군집 각각에 대한 하위 군집을 형성하고, 형성된 하위 군집 각각의 실루엣 계수에 기초하여 악성민원을 검출할 수 있다.
일실시예에 따른 악성민원 검출방법은 이후 실시예 도 7 내지 도 9를 통해 보다 구체적으로 설명하기로 한다.
도 7은 일실시예에 따른 악성민원 검출방법에서 전처리를 수행하는 단계를 보다 구체적으로 설명하기 위한 도면이다.
다시 말해, 도 7은 도 6을 통해 설명한 일실시예에 따른 악성민원 검출방법의 610 단계에서 수행될 수 있다.
도 7을 참조하면, 710 단계에서 일실시예에 따른 악성민원 검출방법은 복수의 문서 데이터 중 중복된 문서 데이터를 제거할 수 있다.
다음으로, 720 단계에서 일실시예에 따른 악성민원 검출방법은 중복된 데이터가 제거된 문서 데이터에 포함된 노이즈를 제거할 수 있다.
구체적으로, 720 단계에서 일실시예에 따른 악성민원 검출방법은 중복된 데이터가 제거된 문서 데이터에서 민원 특성에 따른 5가지 유형(처리 담당자 관련 내용, 국민신문고 관련 내용, 스마트폰 신고 관련 내용, 첨부파일 관련 내용 및 차량신고 관련 내용)의 노이즈의 존재 여부를 판단하고, 판단 결과에 따라 5가지 유형에 따른 노이즈를 제거할 수 있다.
또한, 720 단계에서 일실시예에 따른 악성민원 검출방법은 민원 내용과 관련 없이 등장하는 불용어를 제거할 수 있다.
다음으로, 730 단계에서 일실시예에 따른 악성민원 검출방법은 불용어가 제거된 문서 데이터에 대한 띄어쓰기 및 맞춤법을 교정하여 정제된 문서 데이터(즉 전처리된 문서 데이터)를 획득할 수 있다.
도 8은 일실시예에 따른 악성민원 검출방법에서 군집을 유형화하는 단계를 보다 구체적으로 설명하기 위한 도면이다.
다시 말해, 도 8은 도 6을 통해 설명한 일실시예에 따른 악성민원 검출방법의 620 단계에서 수행될 수 있다.
도 8을 참조하면, 810 단계에서 일실시예에 따른 악성민원 검출방법은 전처리된 문서 데이터로부터 복수의 명사를 추출하고, 추출된 명사 각각에 대한 명사 빈도수 및 IDF 값을 산출할 수 있다.
다음으로, 820 단계에서 일실시예에 따른 악성민원 검출방법은 산출된 명사 빈도수 및 IDF 값을 기준으로, 복수의 명사 중 일부 명사를 특징 명사로 추출할 수 있다.
예를 들면, 820 단계에서 일실시예에 따른 악성민원 검출방법은 문서 데이터 내에서 명사 빈도수가 가장 많은 상위 200개의 명사를 추출하고, 문서 데이터 내에서 IDF 값이 가장 적은 하위 200개의 명사를 추출하며, 추출된 상위 200개의 명사와 하위 200개의 명사 중 서로 공통된 명사(즉, 추출된 상위 200개의 명사와 하위 200개의 명사의 교집합)를 특징 명사로 추출할 수 있다.
바람직하게는, 820 단계에서 일실시예에 따른 악성민원 검출방법은 서로 공통된 명사 중에서 불용어가 아닌 명사만을 특징 명사로 추출할 수 있다.
다음으로, 830 단계에서 일실시예에 따른 악성민원 검출방법은 추출된 특징 명사와 전처리된 문서 데이터(즉, 중복이 없는 문서 데이터)로 TF-IDF 행렬을 구성하여 군집을 형성하고, 전처리되지 않아 중복이 있는 문서 데이터를 각 군집에 할당할 수 있다.
다음으로, 840 단계에서 일실시예에 따른 악성민원 검출방법은 형성된 군집 각각에 포함된 특징 명사 각각에 대한 TF-IDF 평균값을 산출하고, 산출된 TF-IDF 평균값이 가장 높은 특징 명사를 대응되는 군집의 대표 유형으로 설정하는 유형화를 수행할 수 있다.
도 9는 일실시예에 따른 악성민원 검출방법에서 악성민원을 검출하는 단계를 보다 구체적으로 설명하기 위한 도면이다.
다시 말해, 도 9은 도 6을 통해 설명한 일실시예에 따른 악성민원 검출방법의 630 단계에서 수행될 수 있다.
도 9를 참조하면, 910 단계에서 일실시예에 따른 악성민원 검출방법은 유형화된 군집 각각에 대한 명사 빈도수 및 IDF 값을 산출할 수 있다.
다음으로, 920 단계에서 일실시예에 따른 악성민원 검출방법은 유형화된 군집 각각에서 명사 빈도수가 높은 명사와 IDF 값이 낮은 명사를 각각 추출하여 공통으로 등장한 명사를 하위 특징 명사로 추출할 수 있다.
바람직하게는, 920 단계에서 일실시예에 따른 악성민원 검출방법은 공통으로 등장한 명사 중 불용어가 아닌 명사만을 하위 특징 명사로 추출할 수 있다.
다음으로, 930 단계에서 일실시예에 따른 악성민원 검출방법은 하위 특징 명사를 이용하여 TF-IDF 행렬을 구성할 수 있다.
다음으로, 940 단계에서 일실시예에 따른 악성민원 검출방법은 구성된 TF-IDF 행렬 각각에 대응되는 하위 군집을 형성할 수 있다.
다음으로, 950 단계에서 일실시예에 따른 악성민원 검출방법은 형성된 하위 군집 각각에 대한 실루엣 계수를 산출할 수 있다.
다음으로, 960 단계에서 일실시예에 따른 악성민원 검출방법은 산출된 실루엣 계수간의 유사도에 기초하여 악성민원 후보 군집을 도출하고, 도출된 악성민원 후보 군집 내에 포함된 문서 데이터의 내용을 분석하여 악성민원을 최종 검출할 수 있다.
결국, 본 발명을 이용하면, 민원 문서로부터 추출된 특징에 기초하는 군집화 및 유형화를 통해 민원 문서 내에서 악성민원을 용이하게 검출할 수 있다.
또한, 본 발명을 이용하면, 민원 문서에 대한 군집 분석을 통해 보다 정확하고 효율적으로 악성민원을 검출할 수 있다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
100: 악성민원 검출장치 110: 전처리부
120: 데이터 유형화부 130: 악성민원 검출부

Claims (12)

  1. 복수의 문서 데이터를 수신하고, 상기 수신된 문서 데이터 중 중복된 문서 데이터를 제거하는 전처리를 수행하는 전처리부;
    상기 전처리된 문서 데이터로부터 적어도 하나 이상의 특징 명사를 추출하고, 상기 추출된 특징 명사 각각에 대한 군집을 형성하며, 상기 형성된 군집 각각을 유형화하는 데이터 유형화부 및
    상기 유형화된 군집 각각에 대한 하위 군집을 형성하고, 상기 형성된 하위 군집 각각의 실루엣 계수에 기초하여 악성민원을 검출하는 악성민원 검출부
    를 포함하는 악성민원 검출장치.
  2. 제1항에 있어서,
    상기 전처리부는,
    상기 중복된 데이터가 제거된 문서 데이터에 대하여 노이즈 제거, 띄어쓰기 교정 및 맞춤법 교정 중 적어도 하나의 상기 전처리를 수행하는
    악성민원 검출장치.
  3. 제1항에 있어서,
    상기 데이터 유형화부는,
    상기 전처리된 문서 데이터로부터 복수의 명사를 추출하고, 상기 추출된 명사 각각에 대한 명사 빈도수 및 IDF(inverse document frequency) 값에 기초하여 상기 특징 명사를 추출하는
    악성민원 검출장치.
  4. 제3항에 있어서,
    상기 데이터 유형화부는,
    상기 전처리된 문서 데이터의 개수와, 상기 전처리된 문서 데이터에서 상기 추출된 명사 중 어느 하나의 명사를 포함하는 문서 데이터의 개수에 기초하여 상기 어느 하나의 명사에 대한 IDF 값을 산출하는
    악성민원 검출장치.
  5. 제1항에 있어서,
    상기 데이터 유형화부는,
    상기 추출된 특징 명사 각각과 상기 전처리된 문서 데이터에 기초하여 TF-IDF(term frequency-inverse document frequency) 행렬을 구성하고, 상기 구성된 TF-IDF 행렬 각각에 대응되는 상기 군집을 형성하며, 상기 형성된 군집에 상기 수신된 문서 데이터 중 대응되는 문서 데이터를 할당하는
    악성민원 검출장치.
  6. 제5항에 있어서,
    상기 데이터 유형화부는,
    K-평균 군집화 알고리즘(K-means clustering algorithm) 및 코사인 유사도에 기초하여 상기 군집을 형성하고, 상기 형성된 군집에 상기 수신된 문서 데이터 중 대응되는 문서 데이터를 할당하는
    악성민원 검출장치.
  7. 제6항에 있어서,
    상기 데이터 유형화부는,
    상기 K-평균 군집화 알고리즘을 통해 형성된 군집 각각의 중심점을 구성하고, 상기 구성된 중심점 각각과 상기 수신된 문서 데이터 각각에 대한 상기 코사인 유사도를 산출하며, 상기 산출된 코사인 유사도에 기초하여 상기 형성된 군집에 상기 수신된 문서 데이터 중 대응되는 문서 데이터를 할당하는
    악성민원 검출장치.
  8. 제5항에 있어서,
    상기 데이터 유형화부는,
    상기 형성된 군집 각각에 포함된 특징 명사 각각에 대한 TF-IDF 평균값을 산출하고, 상기 산출된 TF-IDF 평균값이 가장 높은 특징 명사를 대응되는 군집의 대표 유형으로 설정하는 상기 유형화를 수행하는
    악성민원 검출장치.
  9. 제1항에 있어서,
    상기 악성민원 검출부는,
    상기 유형화된 군집 각각에 대한 하위 특징 명사를 추출하고, 상기 추출된 하위 특징 명사 각각에 대한 상기 하위 군집을 형성하는
    악성민원 검출장치.
  10. 제9항에 있어서,
    상기 악성민원 검출부는,
    K-평균 군집화 알고리즘 및 유클리디안 거리에 기초하여 상기 하위 군집을 형성하는
    악성민원 검출장치.
  11. 제1항에 있어서,
    상기 악성민원 검출부는,
    상기 형성된 하위 군집 각각에 대한 상기 실루엣 계수를 산출하고, 상기 산출된 실루엣 계수간의 유사도에 기초하여 상기 악성민원을 검출하는
    악성민원 검출장치.
  12. 전처리부에서, 복수의 문서 데이터를 수신하고, 상기 수신된 문서 데이터 중 중복된 문서 데이터를 제거하는 전처리를 수행하는 단계;
    데이터 유형화부에서, 상기 전처리된 문서 데이터로부터 적어도 하나 이상의 특징 명사를 추출하고, 상기 추출된 특징 명사 각각에 대한 군집을 형성하며, 상기 형성된 군집 각각을 유형화하는 단계 및
    악성민원 검출부에서, 상기 유형화된 군집 각각에 대한 하위 군집을 형성하고, 상기 형성된 하위 군집 각각의 실루엣 계수에 기초하여 악성민원을 검출하는 단계
    를 포함하는 악성민원 검출방법.
KR1020210049430A 2021-04-15 2021-04-15 악성민원 검출장치 및 그 방법 KR102471408B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210049430A KR102471408B1 (ko) 2021-04-15 2021-04-15 악성민원 검출장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210049430A KR102471408B1 (ko) 2021-04-15 2021-04-15 악성민원 검출장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20220143230A true KR20220143230A (ko) 2022-10-25
KR102471408B1 KR102471408B1 (ko) 2022-11-30

Family

ID=83804032

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210049430A KR102471408B1 (ko) 2021-04-15 2021-04-15 악성민원 검출장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR102471408B1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015056020A (ja) * 2013-09-11 2015-03-23 株式会社東芝 文書分類装置
KR20160075971A (ko) * 2014-12-19 2016-06-30 케이웨어 (주) 공공민원 데이터 서비스를 위한 빅 데이터 관리시스템
KR101769035B1 (ko) 2016-03-28 2017-08-18 울산과학기술원 한국어 텍스트 클러스터링 시스템 및 방법
KR20200103177A (ko) * 2019-02-13 2020-09-02 강원대학교산학협력단 빅데이터 분석을 위한 시장 세분화 반딧불 알고리즘 방법 및 시스템

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015056020A (ja) * 2013-09-11 2015-03-23 株式会社東芝 文書分類装置
KR20160075971A (ko) * 2014-12-19 2016-06-30 케이웨어 (주) 공공민원 데이터 서비스를 위한 빅 데이터 관리시스템
KR101769035B1 (ko) 2016-03-28 2017-08-18 울산과학기술원 한국어 텍스트 클러스터링 시스템 및 방법
KR20200103177A (ko) * 2019-02-13 2020-09-02 강원대학교산학협력단 빅데이터 분석을 위한 시장 세분화 반딧불 알고리즘 방법 및 시스템

Also Published As

Publication number Publication date
KR102471408B1 (ko) 2022-11-30

Similar Documents

Publication Publication Date Title
KR101715432B1 (ko) 단어쌍취득장치, 단어쌍취득방법 및 기록 매체
CN108376151B (zh) 问题分类方法、装置、计算机设备和存储介质
KR101737887B1 (ko) 크로스 미디어 분석에 기반한 소셜 미디어 텍스트의 주제 카테고리 자동 분류 방법 및 그 장치
Abbasi et al. Visualizing authorship for identification
CN108052500B (zh) 一种基于语义分析的文本关键信息提取方法及装置
KR102021057B1 (ko) 문서 내 문단 추출 장치 및 방법
US20150095769A1 (en) Layout Analysis Method And System
TW201737118A (zh) 網頁文本分類的方法和裝置,網頁文本識別的方法和裝置
US9251248B2 (en) Using context to extract entities from a document collection
US20190121905A1 (en) Identifying categories within textual data
US10417285B2 (en) Corpus generation based upon document attributes
CN106897290B (zh) 一种建立关键词模型的方法及装置
CN107729520B (zh) 文件分类方法、装置、计算机设备及计算机可读介质
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN110516259B (zh) 一种技术关键词的识别方法、装置、计算机设备和存储介质
Swanson et al. Extracting the native language signal for second language acquisition
CN109214445A (zh) 一种基于人工智能的多标签分类方法
KR101585644B1 (ko) 단어 연관성 분석을 이용한 문서 분류 장치, 방법 및 이를 위한 컴퓨터 프로그램
Wiedemann et al. Page stream segmentation with convolutional neural nets combining textual and visual features
KR102280490B1 (ko) 상담 의도 분류용 인공지능 모델을 위한 훈련 데이터를 자동으로 생성하는 훈련 데이터 구축 방법
WO2018161824A1 (zh) 异常数据检测方法和装置
KR102471408B1 (ko) 악성민원 검출장치 및 그 방법
KR102110523B1 (ko) 문서 분석 기반 주요 요소 추출 시스템 및 방법
CN108021595A (zh) 检验知识库三元组的方法及装置
CN111930885A (zh) 文本话题的抽取方法、装置及计算机设备

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right