WO2023085499A1

WO2023085499A1 - 분류기의 오류를 검출하고, 분류기를 수정하는 기계 학습 기반 텍스트 분류 시스템 및 텍스트 분류 방법

Info

Publication number: WO2023085499A1
Application number: PCT/KR2021/018452
Authority: WO
Inventors: 이경일; 박상석
Original assignee: 주식회사 솔트룩스
Priority date: 2021-11-12
Filing date: 2021-12-07
Publication date: 2023-05-19
Also published as: KR20230069730A

Abstract

본 발명의 기술적 사상의 일측면에 따라 텍스트 분류 시스템은, 기계 학습을 기반으로 입력 텍스트들에 대한 메인 분류를 수행하도록 구성된 메인 분류부, 상기 분류 결과를 기반으로 설정된 복수의 분류기들을 구비하고, 상기 입력 텍스트들에 대한 보완 분류를 수행하도록 구성된 보완 분류부, 상기 메인 분류 결과 및 상기 보완 분류 결과로부터 분류 출력들을 생성하도록 구성된 출력 생성부 및 상기 분류 출력들을 가공하여 지식 데이터를 생성하도록 구성된 출력 가공부를 포함한다.

Description

분류기의 오류를 검출하고, 분류기를 수정하는 기계 학습 기반 텍스트 분류 시스템 및 텍스트 분류 방법

본 발명의 기술적 사상은 텍스트 분류 시스템에 관한 것으로, 구체적으로는, 수집된 입력 텍스트들을 원하는 목적에 맞게 분류하여 입력 텍스트들을 의미있는 데이터로서 정리하는 텍스트 분류 시스템에 관한 것이다.

본 발명은 과학기술정보통신부의 혁신성장동력 프로젝트(인공지능) 사업의 일환으로 (주)솔트룩스가 주관하고 연구하여 수행된 연구로부터 도출된 것이다. [연구기간: 2021.01.01~2021.12.31, 연구관리 전문기관: 정보통신기획평과원, 연구과제명:[엑소브레인2 세부과제]WiseKB: 빅데이터 이해 기반 자가학습형 지식베이스 및 추론 기술 개발, 과제 고유번호: 2013-2-00109-009]

입력 텍스트들을 통합하여 분류하는 텍스트 분류 시스템에 관하여 활발하게 연구되고 있다. 입력 텍스트는 책, 지식 백과, 뉴스 등에서 읽을 수 있는 글들을 의미한다. 텍스트 분류 시스템에는 기계 학습 기반 분류 방법이 적용될 수 있다. 머신 러닝 기반 분류 방법은 분류 코드가 포함된 대량의 입력 텍스트들을 학습하고, 학습된 통계 결과로부터 입력 텍스트들을 분류한다.

종래의 기계 학습 기반 분류 방법은 텍스트 분류 시스템 내의 분류기에 오류가 발생하여도 오류를 검출하고, 오류를 수정하기가 어려워 분류 결과에 대한 신뢰성이 낮을 수 있다. 이에 따라, 기계 학습 기반 분류 방법의 신뢰성을 개선하기 위한 다양한 연구가 진행되고 있다.

본 발명의 기술적 사상이 해결하려는 과제는 사용자로부터 질의를 수신하였을 때, 질의의 문장과 유사한 문장을 향상된 정확도로 출력하는 유사 문장 검색 시스템을 제공함에 있다.

상기와 같은 목적을 달성하기 위하여, 본 발명의 기술적 사상의 일측면에 따라 텍스트 분류 시스템은, 기계 학습을 기반으로 입력 텍스트들에 대한 메인 분류를 수행하도록 구성된 메인 분류부, 상기 분류 결과를 기반으로 설정된 복수의 분류기들을 구비하고, 상기 입력 텍스트들에 대한 보완 분류를 수행하도록 구성된 보완 분류부, 상기 메인 분류 결과 및 상기 보완 분류 결과로부터 분류 출력들을 생성하도록 구성된 출력 생성부 및 상기 분류 출력들을 가공하여 지식 데이터를 생성하도록 구성된 출력 가공부를 포함한다.

본 발명의 예시적 실시예에 따라, 상기 보완 분류부는, 상기 복수의 분류기들의 제1 우선 순위를 관리하도록 구성된 분류기 우선 순위 관리부 및 상기 복수의 분류기들 각각의 규칙들의 제2 우선 순위를 관리하도록 구성된 규칙 우선 순위 관리부를 포함하고, 상기 보완 분류부는, 상기 제1 및 제2 우선 순위를 기반으로 상기 보완 분류를 수행하도록 구성된 것을 특징으로 한다.

본 발명의 예시적 실시예에 따라, 상기 보완 분류부는, 상기 제1 우선 순위에 따라 상기 복수의 분류기들을 나열하고, 상기 제2 우선 순위에 따라 상기 규칙들을 나열하며, 상기 나열 결과에 따른 순서대로 상기 입력 텍스트들을 통과시켜 상기 보완 분류를 수행하도록 구성된 것을 특징으로 한다.

본 발명의 예시적 실시예에 따라, 상기 규칙들은, 단어 공백이 포함된 패턴 및 키워드 중 어느 하나에 해당하는 것을 특징으로 한다.

본 발명의 예시적 실시예에 따라, 상기 규칙들은, 복수의 패턴들을 포함하고, 상기 복수의 패턴들 각각은, 복수의 키워드들 및 상기 복수의 키워드들 중 둘 사이의 적어도 하나의 단어 공백을 포함하며, 상기 복수의 패턴들 중 적어도 일부는 길이가 상이한 것을 특징으로 한다.

본 발명의 예시적 실시예에 따라, 상기 분류기 우선 순위 관리부는, 상기 입력 테스트들 각각에 대응하는 메타 데이터 별로 상기 제1 우선 순위를 관리하도록 구성되고, 상기 규칙 우선 순위 관리부는, 상기 메타 데이터 별로 상기 제2 우선 순위를 관리하도록 구성된 것을 특징으로 한다.

본 발명의 예시적 실시예에 따라, 상기 분류 출력들과 정답들을 비교하여 상기 복수의 분류기들의 오류를 검출하도록 구성된 오류 검출부 및 상기 오류 검출 결과를 기반으로 상기 보완 분류부를 수정하도록 구성된 보완 분류 수정부를 더 포함하는 것을 특징으로 한다.

본 발명의 예시적 실시예에 따라, 상기 오류 검출부는, 상기 복수의 분류기들 중 오류가 검출된 분류기를 식별하기 위한 식별자를 생성하도록 구성되고, 상기 보완 분류 수정부는, 상기 식별자에 대응하는 수정 대상 분류기에 대한 우선 순위를 수정하거나, 상기 수정 대상 분류기의 규칙들에 대한 우선 순위를 수정하도록 구성된 것을 특징으로 한다.

본 발명의 예시적 실시예에 따라, 상기 보완 분류 수정부는, 상기 수정 대상 분류기 내의 상기 규칙들 중 적어도 하나를 삭제하거나, 새로운 규칙을 상기 수정 대상 분류기에 추가하도록 구성된 것을 특징으로 한다.

본 발명의 기술적 사상의 다른 일측면에 따른 텍스트 분류 방법은, 기계 학습을 기반으로 입력 텍스트들에 대한 메인 분류를 수행하는 단계, 상기 입력 텍스트들에 대한 보완 분류를 수행하는 단계, 상기 메인 분류 결과 및 상기 보완 분류 결과로부터 분류 출력들을 생성하는 단계 및 상기 분류 출력들을 가공하여 지식 데이터를 생성하는 단계를 포함하고, 상기 보완 분류를 수행하는 단계는, 복수의 분류기들을 제1 우선 순위에 따라 나열하는 단계, 상기 복수의 분류기들 각각의 규칙들을 제2 우선 순위에 따라 나열하는 단계 및 상기 나열 결과에 따른 순서대로 상기 입력 텍스트들을 통과시키는 단계를 포함하는 것을 특징으로 한다.

본 발명의 예시적 실시예에 따라, 상기 분류 출력들과 정답들을 비교하는 단계, 상기 비교 결과를 기반으로 오류가 검출된 분류기에 대한 식별자를 생성하는 단계, 상기 식별자에 대응하는 수정 대상 분류기에 대한 우선 순위 또는 상기 수정 대상 분류기의 규칙들에 대한 우선 순위를 수정하는 단계를 더 포함하는 것을 특징으로 한다.

본 발명의 예시적 실시예에 따라, 상기 제1 및 제2 우선 순위는, 상기 입력 텍스트들 각각에 대응하는 메타 데이터 별로 설정된 것을 특징으로 한다.

본 발명의 예시적 실시예에 따라, 상기 분류 출력들 각각은, 분류 기준에 부합하는지 여부를 나타내는 n(단, n은 1이상의 정수)비트 데이터로 구성된 것을 특징으로 한다.

본 개시의 예시적 실시예에 따른 텍스트 분류 시스템은 기계 학습 기반 메인 분류부에 대한 수정이 어려운 점을 감안하여 이를 보완할 수 있는 보완 분류부를 포함하고, 보완 분류부를 오류 검출 결과에 따라 용이하게 수정함으로써 전체적인 텍스트 분류 시스템의 신뢰성을 개선할 수 있는 효과가 있다.

본 개시의 예시적 실시 예들에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 아니하며, 언급되지 아니한 다른 효과들은 이하의 기재로부터 본 개시의 예시적 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 도출되고 이해될 수 있다. 즉, 본 개시의 예시적 실시예들을 실시함에 따른 의도하지 아니한 효과들 역시 본 개시의 예시적 실시예들로부터 당해 기술분야의 통상의 지식을 가진 자에 의해 도출될 수 있다.

도 1은 본 개시의 예시적 실시예에 따른 텍스트 분류 시스템 및 그의 입출력 관계를 나타내는 블록도이다.

도 2a 및 도 2b는 도 1의 메인 분류부와 보완 분류부의 구성 및 관계를 설명하기 위한 도면이다.

도 3a 및 도 3b는 제1 및 제2 분류기의 동작을 설명하기 위한 도면이다.

도 4는 도 3a의 제1 분류기의 보완 분류 동작을 설명하기 위한 도면이다.

도 5a는 본 개시의 예시적 실시예에 따른 보완 분류부를 나타내는 블록도이고, 도 5b는 도 5a의 보완 분류부의 보완 분류 동작을 설명하기 위한 순서도이다.

도 6a 내지 도 6c는 본 개시의 예시적 실시예에 따라 메타 데이터를 고려한 보완 분류 동작을 설명하기 위한 도면들이다.

도 7a 내지 도 7c는 본 개시의 예시적 실시예에 따라 보완 분류부를 수정하는 방법을 설명하기 위한 도면들이다.

이하, 첨부한 도면을 참조하여 본 발명의 실시예에 대해 상세히 설명한다. 본 발명의 실시예는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위하여 제공되는 것이다. 본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용한다. 첨부된 도면에 있어서, 구조물들의 치수는 본 발명의 명확성을 기하기 위하여 실제보다 확대하거나 축소하여 도시한 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

또한, 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로 사용될 수 있다. 예를 들어, 본 발명의 권리 범위로부터 벗어나지 않으면서, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하 도면 및 설명에서, 하나의 블록으로 표시 또는 설명되는 구성요소는 하드웨어 블록 또는 소프트웨어 블록일 수 있다. 예를 들면, 구성요소들 각각은 서로 신호를 주고 받는 독립적인 하드웨어 블록일 수 있고, 또는 하나의 프로세서에서 실행되는 소프트웨어 블록일 수도 있다. 또한, 본 명세서에서 "시스템" 또는 "데이터베이스"는 적어도 하나의 프로세서 및 프로세서에 의해서 액세스되는 메모리를 포함하는 컴퓨팅 시스템을 지칭할 수 있다.

도 1은 본 개시의 예시적 실시예에 따른 텍스트 분류 시스템(100) 및 그의 입출력 관계를 나타내는 블록도이다. 이하에서 서술되는 텍스트 분류 시스템(100)은 유저 단말, 휴대폰, 스마트 폰, 데스크 탑, 노트북 컴퓨터, 디지털 방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 네비게이션, 슬레이트 PC(slate PC), 태블릿 PC(tablet PC), 울트라북(ultrabook), 웨어러블 디바이스(wearable device), 서버 등에 적용될 수 있다.

도 1을 참조하면, 텍스트 분류 시스템(100)은 입력 텍스트들(10)을 수신할 수 있고, 입력 텍스트들(10)을 사용자가 원하는 분류 기준들로 분류하여 유의미한 데이터들로 가공할 수 있으며, 사용자가 요청하는 때에 데이터들을 사용자가 용이하게 인지할 수 있도록 인터페이스를 제공할 수 있다. 본 명세서에서 텍스트 분류 시스템(100)은 기계 학습 기반 텍스트 분류 시스템으로도 지칭될 수 있다.

입력 텍스트들(10)은 다양한 종류의 텍스트들을 포함하는 데이터를 지칭할 수 있다. 일부 실시예에서, 텍스트 분류 시스템(100)은 인터넷을 통해서 입력 텍스트들(10)을 수집할 수 있다. 예를 들면, 입력 텍스트들(10)은 특정 인터넷 사이트에서 제공하는 서비스들에서 작성된 텍스트들(예를 들면, 댓글, 블로그, 뉴스 기사 등)일 수 있고, 위키백과(Wikipedia.org)에서 제공하는 정보 텍스트들일 수 있고, 소셜 네트워크 서비스에서 작성된 텍스트들일 수 있다. 또한, 일부 실시예들에서, 텍스트 분류 시스템(100)은 로컬 네트워크를 통해서 입력 텍스트들(10)을 수신할 수 있고, 저장 매체에 액세스함으로써 저장 매체에 저장된 입력 텍스트들(10)을 수신할 수도 있다.

도 1에 도시된 바와 같이, 텍스트 분류 시스템(100)은 전처리부(110), 메인 분류부(120), 보완 분류부(130), 출력 생성부(140), 오류 검출부(150), 정답 DB(DataBase)(160), 보완 분류 수정부(170), 출력 가공부(180) 및 지식 DB(190)를 포함할 수 있다.

예시적 실시예로, 전처리부(110)는 메인 분류부(120) 및 보완 분류부(130)가 입력 텍스트들(10)에 대한 분류를 용이하게 할 수 있도록 입력 텍스트들(10)에 대한 필터링, 교정 등의 전처리 동작을 수행할 수 있다. 일부 실시예들에서, 입력 텍스트들(10)에 포함된 키워드들, 패턴들(또는, 정규 표현식)들을 메인 분류부(120) 및 보완 분류부(130)가 용이하게 인식할 수 있도록 전처리부(110)에 의해 추출될 수 있다. 본 명세서에서 패턴은 복수의 키워드들과 키워드들 사이의 단어 공백으로 구성된 문장으로 정의될 수 있다. 본 명세서에서 단어 공백은 키워드가 아닌 단어로서 메인 분류부(120) 및 보완 분류부(130)에서는 공백으로 인식되는 것을 지칭한다. 일 예로, "(k1)(단어 공백)(k2)"로 구성된 패턴의 경우, "k1" 키워드와 "k2" 키워드, 이들 사이의 소정의 길이를 갖는 "단어 공백"을 포함할 수 있다. 단어 공백은 음절 등의 단위로 정의될 수 있다. 다른 예로, "(k1)(단어 공백 1)(k2)(단어 공백 2)(k3)"로 구성된 패턴의 경우, "k1" 키워드, "k2" 키워드, "k3" 키워드, 이들 사이의 소정의 길이를 갖는 "단어 공백 1", "단어 공백 2"을 포함할 수 있다. 한편, 키워드 및 패턴은 후술될 보완 분류부(130)의 분류기들 각각의 규칙에 해당될 수 있다. 한편, 일부 실시예에서 단어 공백은 형태소 공백을 포함할 수 있다.

예시적 실시예로, 메인 분류부(120)는 입력 텍스트들(10)에 대하여 기계 학습 기반 메인 분류 동작을 수행할 수 있다. 일 예로, 메인 분류부(120)는 인공 신경망(Artificial Neural Network: ANN)을 사용하여 메인 분류 동작을 수행할 수 있다. 인공 신경망은 뉴런(neuron)(또는, 뉴런 모델)들이 상호 연결된 집합들을 구현하는 구조를 지칭할 수 있다. 인공 뉴런은 입력 텍스트들(10)에 대한 단순 연산들을 수행함으로써 출력을 생성할 수 있고, 출력은 다른 뉴런에 입력으로서 전달될 수 있다. 한편, 인공 신경망(ANN)은 딥 러닝(deep learning) 네트워크로서 지칭될 수 있고, 심층 신경망(Deep Neural Network; DNN), 합성곱 신경망(Convolution Neural Network; CNN), 순환 신경망(Recurrent Neural Network; RNN), 제한 볼츠만 머신(Restricted Boltzmann Machine; RBM), 심층 신뢰 신경망(Deep Belief Network; DBN), 심층 Q-네트워크(Deep Q-Network)를 포함할 수도 있다.

예시적 실시예로, 보완 분류부(130)는 메인 분류부(120)를 보완하기 위한 것으로, 입력 텍스트들(10)에 대한 보완 분류 동작을 수행할 수 있다. 보완 분류부(130)는 보완 분류 동작을 위해 복수의 분류기들을 포함할 수 있다. 일부 실시예들에서, 복수의 분류기들은 동일 또는 상이한 종류일 수 있다. 예를 들어, 복수의 분류기들 중 일부는 화이트 리스트 분류기일 수 있고, 다른 일부는 블랙 리스트 분류기일 수 있다. 화이트 리스트 분류기는 자신의 규칙들에 부합하는 입력 텍스트들을 통과시킨 후에 통과된 입력 텍스트들을 분류하고, 블랙 리스트 분류기는 자신의 규칙들에 부합하는 입력 텍스트들을 차단시킨 후에 나머지 입력 텍스트들을 분류하는 동작을 수행할 수 있다. 예시적 실시예로, 보완 분류부(130)는 복수의 분류기들에 대한 제1 우선 순위 및 복수의 분류기들 각각의 규칙들에 대한 제2 우선 순위를 기반으로 보완 분류 동작을 수행할 수 있다. 일부 실시예들에서, 제1 우선 순위와 제2 우선 순위는 입력 텍스트들(10) 각각에 대응하는 메타 데이터 별로 관리될 수 있다. 이에 대한 구체적인 내용은 후술한다.

예시적 실시예로, 출력 생성부(140)는 메인 분류부(120)로부터의 메인 분류 결과 및 보완 분류부(130)로부터의 보완 분류 결과로부터 분류 출력들을 생성할 수 있다. 본 명세서에서 분류 출력은 분류 기준에 부합하는지 여부를 나타내는 n(단, n은 1이상의 정수)비트 데이터로 구성될 수 있다. 예를 들어, 영화 관련 인터넷 뉴스 기사의 댓글에 해당하는 입력 텍스트가 영화에 대한 긍정적 반응을 나타내는 내용인지 여부가 분류 기준에 해당되는 때에, 분류 출력은 긍정적 반응으로 분류된 때에는 '1' 값을 갖고, 부정으로 분류된 때에는 '0' 값을 가질 수 있다.

예시적 실시예로, 오류 검출부(150)는 출력 생성부(140)로부터 수신된 분류 결과들을 정답 DB(160)에 저장된 정답들과 비교하여 비교 결과를 기반으로 보완 분류부(130)의 분류기들 중 오류가 검출된 분류기에 대한 식별자를 생성할 수 있다.

예시적 실시예로, 보완 분류 수정부(170)는 오류 검출부(150)에서 생성된 식별자에 대응하는 수정 대상 분류기에 대한 우선 순위 또는 수정 대상 분류기의 규칙들에 대한 우선 순위를 수정할 수 있다. 그 결과, 보완 분류 수정부(170)는 보완 분류부(130)의 전술된 제1 우선 순위 또는 제2 우선 순위를 수정할 수 있다. 또한, 보완 분류 수정부(170)는 수정 대상 분류기의 규칙들 중 일부를 삭제하거나, 새로운 규칙을 추가함으로써 규칙들을 업데이트할 수 있으며, 업데이트된 규칙들에 대한 우선 순위를 수정 또는 설정할 수 있다. 이에 대한 구체적인 예는 도 7c에서 후술한다.

일부 실시예들에서, 보완 분류 수정부(170)는 메인 분류부(120)에서 적절하게 분류하지 못한 입력 텍스트들이 적절하게 분류될 수 있도록 오류 검출부(150)의 검출 결과를 기반으로 보완 분류부(130)를 수정할 수 있다.

예시적 실시예로, 출력 가공부(180)는 출력 생성부(140)로부터 수신된 분류 출력들을 사용자가 용이하게 확인할 수 있는 지식 데이터로 가공할 수 있으며, 가공된 지식 데이터를 지식 DB(190)에 저장힐 수 있다. 일부 실시예들에 있어서, 사용자가 입력 텍스트들(10)에 대한 지식 데이터를 요청하는 때에 텍스트 분류 시스템(100)은 지식 DB(190)로부터 지식 데이터를 리드하여 사용자에게 소정의 인터페이스를 통해 제공할 수 있다.

본 발명의 예시적 실시예들에 따른 텍스트 분류 시스템(100)은 기계 학습 기반 메인 분류부(120)에 대한 수정이 어려운 점을 감안하여 이를 보완할 수 있는 보완 분류부(130)를 포함하고, 보완 분류부(130)를 오류 검출 결과에 따라 용이하게 수정함으로써 전체적인 텍스트 분류 시스템(100)의 신뢰성을 개선할 수 있는 효과가 있다.

도 2a 및 도 2b는 도 1의 메인 분류부(120)와 보완 분류부(130)의 구성 및 관계를 설명하기 위한 도면이다.

도 2a를 참조하면, 메인 분류부(120)는 딥 러닝 네트워크(121)를 포함할 수 있다. 딥 러닝 네트워크(121)는 다양한 분류 기준들을 기반으로 샘플 텍스트들을 분류하는 학습을 통해 구축된 상태일 수 있다. 딥 러닝 네트워크(121)는 미리 모델링되어 구축된 것으로서 사용자가 원하는 분류를 제대로 수행하지 못하는 경우에 즉각적인 수정이 어려울 수 있다. 이러한 문제를 개선하기 위해 보완 분류부(130)는 메인 분류부(120)와 연계하여 동작할 수 있다.

예시적 실시예로, 보완 분류부(130)는 제1 내지 제m 분류기(130_1~130_m)를 포함할 수 있다. 보완 분류부(130)는 메인 분류부(120)의 후단에 위치하여 메인 분류부(120)의 출력에 대한 후처리 동작으로서 보완 분류 동작을 수행할 수 있다. 구체적으로, 메인 분류부(120)는 딥 러닝 네트워크(121)를 이용하여 입력 텍스트들(TEXT_IN)을 메인 분류하고, 메인 분류 결과(RS1)를 보완 분류부(130)로 출력할 수 있다. 보완 분류부(130)는 메인 분류 결과(RS1)에 대하여 보완 분류 동작을 수행하여 메인 분류기(120)가 잘못 분류한 입력 텍스트들을 옳게 정정하여 분류할 수 있다.

예시적 실시예로, 보완 분류부(130)는 제1 우선 순위를 기반으로 제1 내지 제m 분류기(130_1~130_m)를 나열하고, 제2 우선 순위를 기반으로 제1 내지 제m 분류기(130_1~130_m)의 각각의 규칙들을 나열할 수 있다. 보완 분류부(130)는 메인 분류 결과(RS1)를 나열 결과에 따른 순서대로 통과시킴으로써 보완 분류 동작을 수행할 수 있다. 보완 분류부(130)는 보완 분류 동작을 수행하여 보완 분류 결과(RS2)를 출력할 수 있다.

도 2b를 더 참조하면, 보완 분류부(130)는 메인 분류부(120)의 전단에 위치하여 메인 분류부(120)의 입력에 대한 전처리 동작으로서 보완 분류 동작을 수행할 수 있다. 구체적으로, 보완 분류부(130)는 제1 내지 제m 분류기(130_1~130_m)를 이용하여 입력 텍스트들(TEXT_IN)을 보완 분류하고, 보완 분류 결과(RS1')를 메인 분류부(120)로 출력할 수 있다. 메인 분류부(120)는 보완 분류 결과(RS1')에 대하여 딥 러닝 네트워크(121)를 이용하여 메인 분류 동작을 수행하고, 메인 분류 결과(RS2')를 출력할 수 있다.

다만, 이는 예시적 실시예들에 불과하며, 이에 국한되지 않고, 메인 분류부(120)와 보완 분류부(130)는 병렬적으로 입력 텍스트들(TEXT_IN)을 수신하고, 메인 분류 동작과 보완 분류 동작을 각각 병렬적으로 수행할 수 있다.

도 3a 및 도 3b는 제1 및 제2 분류기(130_1, 130_2)의 동작을 설명하기 위한 도면이다. 이하에서는, 도 2a의 실시예와 보완 분류부가 제1 및 제2 분류기(130_1, 130_2)를 포함하는 예시를 중심으로 서술한다.

도 3a를 참조하면, 제1 분류기(130_1)는 화이트 리스트 분류기로서 제1 규칙 그룹을 포함하며, 제1 규칙 그룹은 키워드 또는 패턴인 'A', 'B' 및 'C'를 포함할 수 있다. 일 예로, 제1 분류기(130_1)는 제1 내지 제3 입력 텍스트(T_A, T_B, T_C)와 각각의 '0' 값을 갖는 분류 출력을 포함하는 메인 분류 결과(RS1)를 수신할 수 있다. 제1 입력 텍스트(T_A)에는 'A' 패턴이 포함되고, 제2 입력 텍스트(T_B)에는 'B' 패턴이 포함되며, 제3 입력 텍스트(T_C)에는 'C' 패턴이 포함될 수 있다. 제1 분류기(130_1)는 메인 분류 결과(RS1)에 제1 규칙 그룹을 적용하여 제1 내지 제3 입력 텍스트(T_A, T_B, T_C)와 각각의 '1' 값을 갖는 분류 출력을 포함하는 보완 분류 결과(RS2)를 출력할 수 있다.

도 3b를 더 참조하면, 제2 분류기(130_2)는 블랙 리스트 분류기로서 제2 규칙 그룹을 포함하며, 제2 규칙 그룹은 키워드 또는 패턴인 'D', 'E' 및 'F'를 포함할 수 있다. 일 예로, 제2 분류기(130_2)는 제4 내지 제6 입력 텍스트(T_D, T_E, T_F)와 각각의 '1' 값을 갖는 분류 출력을 포함하는 메인 분류 결과(RS1)를 수신할 수 있다. 제4 입력 텍스트(T_D)에는 'D' 패턴이 포함되고, 제5 입력 텍스트(T_E)에는 'E' 패턴이 포함되며, 제6 입력 텍스트(T_F)에는 'F' 패턴이 포함될 수 있다. 제2 분류기(130_2)는 메인 분류 결과(RS1)에 제2 규칙 그룹을 적용하여 제4 내지 제6 입력 텍스트(T_D, T_E, T_F)와 각각의 '0' 값을 갖는 분류 출력을 포함하는 보완 분류 결과(RS2)를 출력할 수 있다.

도 4는 도 3a의 제1 분류기(130_1)의 보완 분류 동작을 설명하기 위한 도면이다.

도 4를 참조하면, 제1 분류기(130_1)는 소정의 우선 순위에 따른 규칙들(A, B, C)를 이용하여 입력 텍스트들에 대한 보완 분류 동작을 수행할 수 있다. 일 예로, 제1 분류기(130_1)는 'A', 'B', 'C' 순으로 규칙들을 나열하고, 나열된 순서대로 입력 텍스트들을 분류할 수 있다. 일부 실시예들에 있어서, 'A', 'B', 'C'의 길이는 상이할 수 있으며, 각 규칙의 길이는 우선 순위를 결정하는 데에 있어 고려될 수 있다.

예시적 실시예로, 제1 분류기(130_1)의 규칙들(A, B, C)의 우선 순위는 수정될 수 있으며, 이에 대한 구체적인 내용은 후술한다.

도 5a는 본 개시의 예시적 실시예에 따른 보완 분류부(130)를 나타내는 블록도이고, 도 5b는 도 5a의 보완 분류부(130)의 보완 분류 동작을 설명하기 위한 순서도이다.

도 5a를 참조하면, 보완 분류부(130)는 제1 분류기(130_1), 제2 분류기(130_2) 및 보완 분류 제어부(132)를 포함할 수 있다. 한편, 보완 분류부(130)의 구성예는 예시적인 것에 불과한 바, 이에 국한되지 않고, 더 많은 분류기들을 포함하는 보완 분류부에도 본 개시의 기술적 사상이 적용될 수 있음은 분명하다.

예시적 실시예로, 제1 분류기(130_1)는 제1 규칙 그룹 내의 규칙들(R11, R21,쪋,Rn1)을 포함할 수 있고, 제2 분류기(130_2)는 제2 규칙 그룹 내의 규칙들(R12, R22,쪋, Rm2)을 포함할 수 있다.

예시적 실시예로, 보완 분류 제어부(132)는 분류기 우선 순위 관리부(132_1) 및 규칙 우선 순위 관리부(132_2)를 포함할 수 있다. 분류기 우선 순위 관리부(132_1)는 제1 분류기(130_1) 및 제2 분류기(130_2)에 대한 우선 순위를 관리할 수 있다. 일 예로, 분류기 우선 순위 관리부(132_1)는 제1 분류기(130_1)를 제2 분류기(130_2)보다 높은 우선 순위로 관리할 수 있으며, 이에 따라, 제1 분류기(130_1)는 제2 분류기(130_2)보다 우선하여 분류 동작을 수행할 수 있다. 규칙 우선 순위 관리부(132_2)는 제1 분류기(130_1)의 규칙들(R11, R21,쪋, Rn1)의 우선 순위와 제2 분류기(130_2)의 규칙들(R12, R22, 쪋, Rm2)의 우선 순위를 관리할 수 있다.

예시적 실시예로, 보완 분류부(130)는 분류기 우선 순위 관리부(132_1)에 의해 설정된 우선 순위를 기반으로 분류기들(130_1, 130_2)을 나열하고, 규칙 우선 순위 관리부(132_2)에 의해 설정된 우선 순위를 기반으로 분류기들(130_1, 130_2) 내의 규칙들(R11, R21,쪋, Rn1/R12, R22,쪋, Rm2)을 나열한 후, 나열 결과에 따른 순서대로 입력 텍스트들을 통과시켜 보완 분류 동작을 수행할 수 있다.

도 5b를 더 참조하면, 단계 S100에서 보완 분류부(130)는 분류기 우선 순위 관리부(132_1)에 의한 분류기 우선 순위를 기반으로 분류기들(130_1, 130_2)에 대한 코어스(coarse) 분류 순서를 결정할 수 있다.

단계 S110에서 보완 분류부(130)는 규칙 우선 순위 관리부(132_2)에 의한 규칙 우선 순위를 기반으로 각각의 분류기들(130_1, 130_2) 내의 규칙들(R11, R21,쪋, Rn1/R12, R22,쪋, Rm2)에 대한 파인(fine) 분류 순서를 결정할 수 있다.

단계 S120에서 보완 분류부(130)는 결정된 분류 순서들에 따라 입력 텍스트들을 분류할 수 있다.

도 6a에는 메타 데이터 별로 분류기들의 제1 우선 순위를 관리하는 예시를 나타내는 제1 테이블(TB1)이 도시되어 있다. 본 명세서에서, 메타 데이터는 입력 텍스트의 카테고리를 포함할 수 있다. 일 예로, 메타 데이터는 영화 관련 인터넷 뉴스 기사에서의 영화의 카테고리를 나타내는 것으로, 메타 데이터는 '드라마', '애니메이션', '판타지' 등을 가르키는 값들을 가질 수 있다. 더 나아가, 메타 데이터는 입력 텍스트들을 식별할 수 있는 인덱스들도 포함할 수 있다.

일 예로, 메타 데이터가 '드라마'인 경우와 '애니메이션'인 경우에 영화 관련 인터넷 뉴시 기사의 댓글을 작성하는 연령층, 취향, 성별 등이 다를 수 있으며, 이에 따라, 긍정적 반응 또는 부정적 반응을 나타내는 방식이 상이할 수 있다. 이에 따라, 메타 데이터는 입력 텍스트들을 분류하는 데에 고려되어야 할 필요가 있으며, 본 발명의 보완 분류부는 입력 텍스트들의 메타 데이터를 기반으로 분류기들의 제1 우선 순위, 분류기들 각각의 규칙들의 제2 우선 순위를 설정 또는 결정할 수 있다.

본 명세서에서 분류기 나열은 복수의 분류기들이 소정의 우선 순위에 따라 나열된 상태를 지칭할 수 있다. 메타 데이터 별로 분류기 나열은 다르게 관리될 수 있으며, 이는 메타 데이터 별로 분류기들에 대한 제1 우선 순위가 다르게 관리됨과 동등하게 해석될 수 있다. 또한, 본 명세서에서 규칙 나열은 분류기들 각각에 포함된 규칙들이 소정의 우선 순위에 따라 나열된 상태를 지칭할 수 있다. 메타 데이터 별로 규칙 나열은 다르게 관리될 수 있으며, 이는 메타 데이터 별로 분류기들 각각에 포함된 규칙들에 대한 제2 우선 순위가 다르게 관리됨과 동등하게 해석될 수 있다.

도 6a의 제1 테이블(TB1)을 참조하면, 제1 메타 데이터(M1)에 대응하는 입력 텍스트들에 대해서는 제1 분류기 나열(CL1)이 적용된 보완 분류 동작이 수행될 수 있다. 제2 메타 데이터(M2)에 대응하는 입력 텍스트들에 대해서는 제2 분류기 나열(CL2)이 적용된 보완 분류 동작이 수행될 수 있다. 제3 메타 데이터(M3)에 대응하는 입력 텍스트들에 대해서는 제3 분류기 나열(CL3)이 적용된 보완 분류 동작이 수행될 수 있다.

도 6b의 제2 테이블(TB2)을 참조하면, 제1 분류기(C1)와 관련하여 제1 메타 데이터(M1)에 대응하는 입력 텍스트들에 대해서는 제1 규칙 나열(RL11)이 적용된 보완 분류 동작이 수행될 수 있다. 제2 메타 데이터(M2)에 대응하는 입력 텍스트들에 대해서는 제2 규칙 나열(RL21)이 적용된 보완 분류 동작이 수행될 수 있다. 제3 메타 데이터(M3)에 대응하는 입력 텍스트들에 대해서는 제3 규칙 나열(RL31)이 적용된 보완 분류 동작이 수행될 수 있다.

제2 분류기(C2)와 관련하여 제1 메타 데이터(M1)에 대응하는 입력 텍스트들에 대해서는 제4 규칙 나열(RL12)이 적용된 보완 분류 동작이 수행될 수 있다. 제2 메타 데이터(M2)에 대응하는 입력 텍스트들에 대해서는 제5 규칙 나열(RL22)이 적용된 보완 분류 동작이 수행될 수 있다. 제3 메타 데이터(M3)에 대응하는 입력 텍스트들에 대해서는 제6 규칙 나열(RL32)이 적용된 보완 분류 동작이 수행될 수 있다.

한편, 도 6a 및 도 6b에서는 메타 데이터 별로 분류기 또는 규칙들에 대한 우선 순위를 다르게 관리하는 예시들이 중심으로 도시되었으나, 이에 국한되지 않고, 본 발명의 기술적 사상은 메타 데이터 별로 분류기들 중 보완 분류 동작에 참여하는 분류기들이 다르게 선택될 수 있고, 선택된 분류기들 각각에 포함된 규칙들 중 보완 분류 동작에 참여하는 규칙들이 다르게 선택되는 실시예도 포함할 수 있다.

도 6c를 더 참조하면, 단계 S200에서 보완 분류부는 입력 텍스트들에 대응하는 메타 데이터를 기반으로 분류기들에 대한 코어스 분류 순서를 결정할 수 있다. 구체적으로, 보완 분류부는 도 6a의 제1 테이블(TB1)을 참조하여 입력 텍스트들에 대응하는 메타 데이터에 설정된 분류기 나열에 부합하도록 분류기들을 나열할 수 있다.

단계 S210에서 보완 분류부는 입력 텍스트들에 대응하는 메타 데이터를 기반으로 분류기들 각각의 규칙들에 대한 파인 분류 순서를 결정할 수 있다. 구체적으로, 보완 분류부는 도 6b의 제2 테이블(TB2)을 참조하여 입력 텍스트들에 대응하는 메타 데이터에 설정된 규칙 나열에 부합하도록 분류기들 각각의 규칙들을 나열할 수 있다.

단계 S220에서 보완 분류부는 입력 텍스트들의 메타 데이터를 고려하여 단계 S200 및 단계 S210를 통해 결정된 분류 순서에 따라 입력 텍스트들을 분류할 수 있다.

도 7a에는 보완 분류부를 수정하는 도 1의 오류 검출부(150) 및 보완 분류 수정부(170)의 동작 실시예를 설명하기 위한 순서도가 도시되어 있다.

도 7a를 참조하면, 단계 S300에서 오류 검출부(150, 도 1)는 분류 출력들을 정답들과 비교할 수 있다. 단계 S310에서 오류 검출부(150, 도 1)는 비교 결과를 기반으로 오류 발생 식별자를 생성할 수 있다. 단계 S320에서 보완 분류 수정부(170, 도 1)는 오류 발생 분류기 식별자를 기반으로 해당 분류기를 수정할 수 있다.

도 7b에는 분류기들에 대한 오류 검출 결과로서 오류 발생 분류기 식별자를 포함하는 제3 테이블(TB3)이 도시되어 있다.

도 7b를 더 참조하면, 오류 검출부(150, 도 1)는 제3 테이블(TB3)과 같이 입력 텍스트를 잘못된 값을 갖는 분류 출력으로 분류한 분류기를 가르키는 오류 발생 분류기 식별자를 생성할 수 있다. 일 예로, 입력 텍스트들(IN1~IN4) 각각에 대응하는 분류 출력들이 잘못된 값을 갖는 때에, 원인이되는 분류기를 나타내는 오류 발생 분류기 식별자들(CI1, CI2)을 생성할 수 있다. 보완 분류 수정부(170, 도 1)는 오류 발생 분류기 식별자들(CI1, CI2)을 확인하여 확인된 분류기들에 대하여 수정 동작을 수행할 수 있다.

도 7c에는 보완 분류부를 수정하는 다양한 방법을 설명하기 위한 그림(a) 내지 그림(c)가 도시되어 있다. 이하에서는, 도 4의 예시로부터 수정되는 실시예들이 서술된다.

예시적 실시예로, 보완 분류 수정부(170, 도 1)는 그림(a)와 같이 도 4에 도시된 우선 순위를 수정하여 제1 분류기(130_1, 도 3a)의 'B', 'A', 'C' 순으로 규칙들을 나열하고, 보완 분류부(130)는 나열된 순서대로 입력 텍스트들을 분류할 수 있다. 보완 분류 수정부(170, 도 1)는 그림(b)와 같이 도 4에 도시된 규칙들(A, B, C)에 새로운 규칙(G)을 추가하고, 제1 분류기(130_1, 도 3a)의 'A', 'B', 'C', 'G' 순으로 규칙들을 나열하여 보완 분류부(130)는 나열된 순서대로 입력 텍스트들을 분류할 수 있다. 보완 분류 수정부(170, 도 1)는 그림(c)와 같이 도 4에 도시된 규칙들(A, B, C)에서 일부 규칙(B)을 삭제하고, 제1 분류기(130_1, 도 3a)의 'A', 'C' 순으로 규칙들을 나열하여 보완 분류부(130)는 나열된 순서대로 입력 텍스트들을 분류할 수 있다.

본 개시는 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 다른 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 개시의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의하여 정해져야 할 것이다.

Claims

기계 학습을 기반으로 입력 텍스트들에 대한 메인 분류를 수행하도록 구성된 메인 분류부;

상기 분류 결과를 기반으로 설정된 복수의 분류기들을 구비하고, 상기 입력 텍스트들에 대한 보완 분류를 수행하도록 구성된 보완 분류부;

상기 메인 분류 결과 및 상기 보완 분류 결과로부터 분류 출력들을 생성하도록 구성된 출력 생성부; 및

상기 분류 출력들을 가공하여 지식 데이터를 생성하도록 구성된 출력 가공부를 포함하는 텍스트 분류 시스템.
제1항에 있어서,

상기 보완 분류부는,

상기 복수의 분류기들의 제1 우선 순위를 관리하도록 구성된 분류기 우선 순위 관리부; 및

상기 복수의 분류기들 각각의 규칙들의 제2 우선 순위를 관리하도록 구성된 규칙 우선 순위 관리부를 포함하고,

상기 보완 분류부는,

상기 제1 및 제2 우선 순위를 기반으로 상기 보완 분류를 수행하도록 구성된 것을 특징으로 하는 텍스트 분류 시스템.
제2항에 있어서,

상기 보완 분류부는,

상기 제1 우선 순위에 따라 상기 복수의 분류기들을 나열하고, 상기 제2 우선 순위에 따라 상기 규칙들을 나열하며, 상기 나열 결과에 따른 순서대로 상기 입력 텍스트들을 통과시켜 상기 보완 분류를 수행하도록 구성된 것을 특징으로 하는 텍스트 분류 시스템.
제2항에 있어서,

상기 규칙들은,

단어 공백이 포함된 패턴 및 키워드 중 어느 하나에 해당하는 것을 특징으로 하는 텍스트 분류 시스템.
제2항에 있어서,

상기 규칙들은,

복수의 패턴들을 포함하고,

상기 복수의 패턴들 각각은,

복수의 키워드들 및 상기 복수의 키워드들 중 둘 사이의 적어도 하나의 단어 공백을 포함하며,

상기 복수의 패턴들 중 적어도 일부는 길이가 상이한 것을 특징으로 하는 텍스트 분류 시스템.
제2항에 있어서,

상기 분류기 우선 순위 관리부는,

상기 입력 테스트들 각각에 대응하는 메타 데이터 별로 상기 제1 우선 순위를 관리하도록 구성되고,

상기 규칙 우선 순위 관리부는,

상기 메타 데이터 별로 상기 제2 우선 순위를 관리하도록 구성된 것을 특징으로 하는 텍스트 분류 시스템.
제2항에 있어서,

상기 분류 출력들과 정답들을 비교하여 상기 복수의 분류기들의 오류를 검출하도록 구성된 오류 검출부; 및

상기 오류 검출 결과를 기반으로 상기 보완 분류부를 수정하도록 구성된 보완 분류 수정부를 더 포함하는 것을 특징으로 하는 텍스트 분류 시스템.
제7항에 있어서,

상기 오류 검출부는,

상기 복수의 분류기들 중 오류가 검출된 분류기를 식별하기 위한 식별자를 생성하도록 구성되고,

상기 보완 분류 수정부는,

상기 식별자에 대응하는 수정 대상 분류기에 대한 우선 순위를 수정하거나, 상기 수정 대상 분류기의 규칙들에 대한 우선 순위를 수정하도록 구성된 것을 특징으로 하는 텍스트 분류 시스템.
제8항에 있어서,

상기 보완 분류 수정부는,

상기 수정 대상 분류기 내의 상기 규칙들 중 적어도 하나를 삭제하거나, 새로운 규칙을 상기 수정 대상 분류기에 추가하도록 구성된 것을 특징으로 하는 텍스트 분류 시스템.
텍스트 분류 방법에 있어서,

기계 학습을 기반으로 입력 텍스트들에 대한 메인 분류를 수행하는 단계;

상기 입력 텍스트들에 대한 보완 분류를 수행하는 단계;

상기 메인 분류 결과 및 상기 보완 분류 결과로부터 분류 출력들을 생성하는 단계; 및

상기 분류 출력들을 가공하여 지식 데이터를 생성하는 단계를 포함하고,

상기 보완 분류를 수행하는 단계는,

복수의 분류기들을 제1 우선 순위에 따라 나열하는 단계;

상기 복수의 분류기들 각각의 규칙들을 제2 우선 순위에 따라 나열하는 단계; 및

상기 나열 결과에 따른 순서대로 상기 입력 텍스트들을 통과시키는 단계를 포함하는 것을 특징으로 하는 텍스트 분류 방법.
제10항에 있어서,

상기 분류 출력들과 정답들을 비교하는 단계;

상기 비교 결과를 기반으로 오류가 검출된 분류기에 대한 식별자를 생성하는 단계;

상기 식별자에 대응하는 수정 대상 분류기에 대한 우선 순위 또는 상기 수정 대상 분류기의 규칙들에 대한 우선 순위를 수정하는 단계를 더 포함하는 것을 특징으로 하는 텍스트 분류 방법.
제10항에 있어서,

상기 제1 및 제2 우선 순위는,

상기 입력 텍스트들 각각에 대응하는 메타 데이터 별로 설정된 것을 특징으로 하는 텍스트 분류 방법.
제10항에 있어서,

상기 분류 출력들 각각은, 분류 기준에 부합하는지 여부를 나타내는 n(단, n은 1이상의 정수)비트 데이터로 구성된 것을 특징으로 하는 텍스트 분류 방법.