KR20200131736A - 다중작업 학습을 이용한 텍스트 분류 방법 및 서버 - Google Patents

다중작업 학습을 이용한 텍스트 분류 방법 및 서버 Download PDF

Info

Publication number
KR20200131736A
KR20200131736A KR1020200040780A KR20200040780A KR20200131736A KR 20200131736 A KR20200131736 A KR 20200131736A KR 1020200040780 A KR1020200040780 A KR 1020200040780A KR 20200040780 A KR20200040780 A KR 20200040780A KR 20200131736 A KR20200131736 A KR 20200131736A
Authority
KR
South Korea
Prior art keywords
classification
text
text classification
learning
category
Prior art date
Application number
KR1020200040780A
Other languages
English (en)
Other versions
KR102347031B1 (ko
Inventor
이상근
김강민
이중호
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to US15/931,216 priority Critical patent/US11328125B2/en
Publication of KR20200131736A publication Critical patent/KR20200131736A/ko
Application granted granted Critical
Publication of KR102347031B1 publication Critical patent/KR102347031B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2219Large Object storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본원의 일 측면에 따른 서버에 의해 수행되는 다중작업 학습을 이용한 텍스트 분류 방법은, 네트워크를 통해 수집된 원시 데이터에 전처리 프로세스를 수행하여 텍스트 분류 학습 데이터를 생성하는 단계; 상기 텍스트 분류 학습 데이터를 입력으로 제1 텍스트 분류 모델을 통해 기설정된 제1 분류체계로 카테고리 분류를 학습시키는 단계; 상기 텍스트 분류 학습 데이터를 입력으로 제2 텍스트 분류 모델을 통해 기설정된 제2 분류체계로 카테고리 분류를 학습시키는 단계; 및 사용자 단말로부터 수신된 텍스트 데이터를 상기 제2 텍스트 분류 모델에 입력하여 상기 제2 분류체계로 카테고리를 분류하는 단계;를 포함한다. 상기 제1 텍스트 분류 모델 및 제2 텍스트 분류 모델은 인공신경망 기반 다중작업 학습 프레임워크를 통해 공유층(Shared layer)으로부터 생성된 카테고리 분류에 사용되는 특질을 공유해서 학습되는 것이고, 상기 제1 분류체계 및 제2 분류체계는 오픈 디렉토리 프로젝트(ODP, Open Directory Project)에 기초한 카테고리 데이터를 이용하여 생성된 것이다.

Description

다중작업 학습을 이용한 텍스트 분류 방법 및 서버{METHOD AND SERVER FOR TEXT CLASSIFICATION USING MULTI-TASK LEARNING}
본 발명은 다중작업 학습 프레임워크를 이용하여 주어진 텍스트를 카테고리별로 분류하는 방법에 관한 것으로, 보다 상세하게는 서로 다른 규모의 텍스트 분류 작업을 딥러닝 기반의 다중작업 학습 프레임워크를 활용해 동시에 학습하고, 이를 통해 텍스트를 분류하는 방법에 관한 것이다.
딥러닝 기술이 컴퓨터비전시스템의 큰 발전을 가져옴에 따라 딥러닝을 이용한 자연어처리시스템에 관한 연구도 급속도로 진행되고 있다. 특히, 자연어처리시스템에서 핵심이 되는 텍스트 분류 기술은 딥러닝 기술을 통해 큰 성능 향상을 달성했다. 하지만 분류해야하는 카테고리가 수 천, 수 만개에 달하는 대규모 텍스트 분류 작업에서는 카테고리당 학습 문서 부족과 카테고리간에 학습데이터양의 불균형 문제로 딥러닝 기술이 좋지 못한 성능을 보이고 있다.
대규모 텍스트 분류를 위해 대규모 분류체계의 카테고리들을 명시적 표현 모델을 사용하여 표현해왔다. 이러한 방법은 분류체계의 트리구조를 이용하여 학습 데이터를 공유하면서 안정적이 성능을 보였지만 연관된 지식베이스에 성능이 종속된다는 문제가 있다. 또한 명시적 표현 모델은 서로 다른 단어 간에 의미적 유사도를 계산하지 못한다는 단점이 있다. 반면 딥러닝, 임베딩 등 단어 및 문장 간에 의미적 유사도 계산이 가능한 암묵적 표현 모델은 학습 데이터를 공유하기 위해 다중작업 학습을 활용해왔다. 하지만, 딥러닝 기반 다중작업 학습을 위한 기술 역시 최소 2개에서 최대 수십 개의 카테고리로 텍스트를 분류하는 소규모 텍스트 분류 작업에서 큰 성능 향상을 보였지만 수 천, 수만 개에 달하는 대규모 텍스트 분류 작업끼리는 효과적으로 데이터를 공유하지 못했다. 이러한 한계를 극복하기 위해 대규모 분류 체계에서도 데이터를 공유할 수 있는 딥러닝 학습 방법이 있다면 막강한 성능을 보이고 있는 딥러닝 기술을 대규모 텍스트 분류 작업에도 사용할 수 있을 것이다.
대한민국 등록특허공보 제 10-1860472호 (발명의 명칭: 오픈 디렉터리 프로젝트 기반의 텍스트 분류기, 및 텍스트 분류기의 생성 및 분류 방법)
본 발명은 전술한 문제점을 해결하기 위한 것으로, 단어간 의미적 유사도를 계산하여 텍스트를 효과적으로 분류하는 방법을 방법을 제공하는 것을 기술적 과제로 한다.
또한 서로 다른 규모의 텍스트 분류 작업에서 학습 데이터를 공유하여 학습 데이터 부족 문제를 해결하는 것을 목적으로 한다.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 해결하기 위한 기술적 수단으로서, 본 개시의 제 1측면에 따른 서버에 의해 수행되는 다중작업 학습을 이용한 텍스트 분류 방법은, 네트워크를 통해 수집된 원시 데이터에 전처리 프로세스를 수행하여 텍스트 분류 학습 데이터를 생성하는 단계; 상기 텍스트 분류 학습 데이터를 입력으로 제1 텍스트 분류 모델을 통해 기설정된 제1 분류체계로 카테고리 분류를 학습시키는 단계; 상기 텍스트 분류 학습 데이터를 입력으로 제2 텍스트 분류 모델을 통해 기설정된 제2 분류체계로 카테고리 분류를 학습시키는 단계; 및 사용자 단말로부터 수신된 텍스트 데이터를 상기 제2 텍스트 분류 모델에 입력하여 상기 제2 분류체계로 카테고리를 분류하는 단계;를 포함한다. 상기 제1 텍스트 분류 모델 및 제2 텍스트 분류 모델은 인공신경망 기반 다중작업 학습 프레임워크를 통해 공유층(Shared layer)으로부터 생성된 카테고리 분류에 사용되는 특질을 공유해서 학습되는 것이고, 상기 제1 분류체계 및 제2 분류체계는 오픈 디렉토리 프로젝트(ODP, Open Directory Project)에 기초한 카테고리 데이터를 이용하여 생성된 것이다.
또한, 본 개시의 제 2 측면에 따른 다중작업 학습을 이용한 텍스트 분류 서버는, 다중작업 학습을 이용한 텍스트 분류 프로그램이 저장된 메모리; 상기 메모리에 저장된 프로그램을 실행하는 프로세서를 포함한다. 상기 프로세서는 상기 프로그램의 실행에 의해, 네트워크를 통해 수집된 원시 데이터에 전처리 프로세스를 수행하여 텍스트 분류 학습 데이터를 생성하고, 상기 텍스트 분류 학습 데이터를 입력으로 제1 텍스트 분류 모델을 통해 기설정된 제1 분류체계로 카테고리 분류를 학습시키고, 상기 텍스트 분류 학습 데이터를 입력으로 제2 텍스트 분류 모델을 통해 기설정된 제2 분류체계로 카테고리 분류를 학습시키고, 사용자 단말로부터 수신된 텍스트 데이터를 상기 제2 텍스트 분류 모델에 입력하여 상기 제2 분류체계로 카테고리를 분류한다. 상기 제1 텍스트 분류 모델 및 제2 텍스트 분류 모델은 인공신경망 기반 다중작업 학습 프레임워크를 통해 공유층(Shared layer)으로부터 생성된 카테고리 분류에 사용되는 특질을 공유해서 학습되는 것이고, 상기 제1 분류체계 및 제2 분류체계는 오픈 디렉토리 프로젝트(ODP, Open Directory Project)에 기초한 카테고리 데이터를 이용하여 생성된 것이다.
전술한 본원의 과제 해결 수단 중 어느 하나에 의하면, 학습 문서가 부족한 대규모 텍스트 분류에서 학습 데이터 증강 효과를 얻을 수 있다.
본 발명은 대규모 텍스트 분류에 적합한 합성곱 신경망에 다중작업 학습 방법을 적용하며 전술한 본 발명의 과제를 수행하기 때문에 순환 신경망 대비 학습 및 분류시간이 적게 걸리면 서도 더 높은 분류 정확도를 보인다. 따라서 대규모 텍스트 분류에 있어 효율성과 효과성을 모두 취할 수 있다는 장점이 있다.
도 1은 본 발명의 일 실시예에 따른 다중작업 학습을 이용한 텍스트 분류 시스템의 구성을 도시한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 다중작업 학습을 이용한 텍스트 분류 서버의 구성을 도시한 블록도이다.
도 3은 본 발명의 일 실시예에 따른 다중작업 학습을 이용한 텍스트 분류 시스템을 설명하는 도면이다.
도 4는 본 발명의 일 실시예에 따른 다중작업 학습을 이용한 텍스트 분류 방법을 설명하는 순서도이다.
도 5는 본 발명의 일 실시예에 따른 다중작업 학습을 이용한 텍스트 분류 방법에서 오픈 디렉토리 프로젝트 테스트 데이터에 적용했을 때의 분류 실험 결과를 나타낸 표이다.
도 6은 본 발명의 일 실시예에 따른 다중작업 학습을 이용한 텍스트 분류 방법을 실제 뉴스 기사 분류에 적용했을 때의 실험 결과를 나타낸 표이다.
도 7은 본 발명의 일 실시예에 따른 다중작업 학습을 이용한 텍스트 분류 방법에서 텍스트 분류 모델을 픈 디렉토리 프로젝트 학습 데이터로 학습시켰을 때 걸리는 학습시간이다.
아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본원 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다.
본원 명세서 전체에서, 어떤 부재가 다른 부재 “상에” 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.
이하 첨부된 도면을 참고하여 본 발명의 일 실시예를 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 다중작업 학습을 이용한 텍스트 분류 시스템의 구성을 도시한 블록도이다.
다중작업 학습을 이용한 텍스트 분류 방법은 서버(100) 또는 사용자 단말(200)에서 실시될 수 있다. 다중작업 학습을 이용한 텍스트 분류 방법에서 원시 데이터 수집은 사용자 단말(200)에서 이루어질 수 있다. 텍스트 분류 모델을 학습시키고 분류하는 과정은 서버(100)에서 이루어지고, 분류된 결과가 사용자 단말(200)에 제공될 수 있다. 복수의 사용자는 각각 자신의 사용자 단말(200)을 통해 다중작업 학습을 이용한 텍스트 분류 방법을 실시할 수 있다.
도 2는 본 발명의 일 실시예에 따른 다중작업 학습을 이용한 텍스트 분류 서버의 구성을 도시한 블록도이다.
도시된 바와 같이 다중작업 학습을 이용한 텍스트 분류 서버(100)는 통신 모듈(110), 메모리(120), 프로세서(130), 데이터베이스(140) 및 입력모듈(150)을 포함할 수 있다.
통신모듈(110)은 접속된 사용자 단말(200)과 데이터를 송수신할 수 있다. 통신모듈(110)은 다른 네트워크 장치와 유무선 연결을 통해 제어 신호 또는 데이터 신호와 같은 신호를 송수신하기 위해 필요한 하드웨어 및 소프트웨어를 포함하는 장치일 수 있다.
메모리(120)에는 다중작업 학습을 이용한 텍스트 분류 프로그램이 저장된다. 다중작업 학습을 이용한 텍스트 분류 프로그램은 네트워크를 통해 수집된 원시 데이터에 전처리 프로세스를 수행하여 텍스트 분류 학습 데이터를 생성하고, 상기 텍스트 분류 학습 데이터를 입력으로 제1 텍스트 분류 모델을 통해 기설정된 제1 분류체계로 카테고리 분류를 학습시키고, 상기 텍스트 분류 학습 데이터를 입력으로 제2 텍스트 분류 모델을 통해 기설정된 제2 분류체계로 카테고리 분류를 학습시키고, 사용자 단말로부터 수신된 텍스트 데이터를 상기 제2 텍스트 분류 모델에 입력하여 상기 제2 분류체계로 카테고리를 분류한다.
이러한 메모리(120)에는 다중작업 학습을 이용한 텍스트 분류 서버(100)의 구동을 위한 운영 체제나 다중작업 학습을 이용한 텍스트 분류 프로그램의 실행 과정에서 발생되는 여러 종류가 데이터가 저장된다.
이때, 메모리(120)는 전원이 공급되지 않아도 저장된 정보를 계속 유지하는 비휘발성 저장장치 및 저장된 정보를 유지하기 위하여 전력이 필요한 휘발성 저장장치를 통칭하는 것이다.
또한, 메모리(120)는 프로세서(130)가 처리하는 데이터를 일시적 또는 영구적으로 저장하는 기능을 수행할 수 있다. 여기서, 메모리(120)는 저장된 정보를 유지하기 위하여 전력이 필요한 휘발성 저장장치 외에 자기 저장 매체(magnetic storage media) 또는 플래시 저장 매체(flash storage media)를 포함할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.
프로세서(130)는 메모리(120)에 저장된 프로그램을 실행하되, 다중작업 학습을 이용한 텍스트 분류 프로그램의 실행에 따르는 전체 과정을 제어한다. 프로세서(130)가 수행하는 각각의 동작에 대해서는 추후 보다 상세히 살펴보기로 한다.
이러한 프로세서(130)는 데이터를 처리할 수 있는 모든 종류의 장치를 포함할 수 있다. 예를 들어 프로그램 내에 포함된 코드 또는 명령으로 표현된 기능을 수행하기 위해 물리적으로 구조화된 회로를 갖는, 하드웨어에 내장된 데이터 처리 장치를 의미할 수 있다. 이와 같이 하드웨어에 내장된 데이터 처리 장치의 일 예로써, 마이 크로프로세서(microprocessor), 중앙처리장치(central processing unit: CPU), 프로세서 코어(processor core), 멀티프로세서(multiprocessor), ASIC(application-specific integrated circuit), FPGA(field programmable gate array) 등의 처리 장치를 망라할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.
데이터베이스(140)는 프로세서(130)의 제어에 따라, 다중작업 학습을 이용한 텍스트 분류 시스템에 필요한 데이터를 저장 또는 제공한다. 이러한 데이터베이스(140)는 메모리(120)와는 별도의 구성 요소로서 포함되거나, 또는 메모리(120)의 일부 영역에 구축될 수도 있다.
도 3은 본 발명의 일 실시예에 따른 다중작업 학습을 이용한 텍스트 분류 방법에서 인공신경망 기반 다중작업 학습 프레임워크상의 텍스트 분류 모델을 설명하는 도면이다.
본 발명의 텍스트 분류 모델에서 사용하는 다중 작업은 소규모 분류 작업과 대규모 분류작업으로 구별될 수 있다. 대규모 분류 작업을 위해서 오픈 디렉토리 프로젝트 (Open Directory Project; ODP)의 데이터를 활용할 수 있다. 오픈 디렉토리 프로젝트는 웹 문서를 계층적 온톨로지를 이용하여 카테고리로 세분화한 웹 디렉토리로, 많은 사람들로 구성된 커뮤니티에 의해 관리된다. 텍스트 분류 모델에서 사용하기 위한 대규모 분류체계는 오픈 디렉토리 프로젝트의 전체 카테고리에서 너무 상세하거나 구체적인 카테고리를 휴리스틱하게 제거한 것일 수 있다. 소규모 분류체계는 대규모 분류체계에서 최상위 레벨의 카테고리만을 사용할 수 있다. 예를 들어 대규모 분류체계에서 스포츠, 축구, 농구, 배구, 야구, 투수 등을 사용하는 경우 소규모 분류체계는 최상위 레벨의 카테고리인 스포츠를 사용할 수 있다. 본 발명에서 대규모 분류작업과 소규모 분류작업은 상대적인 개념일 수 있고, 소규모 분류작업을 위한 분류 체계는 대규모 분류작업의 분류체계에서 상위개념만을 선택하는 작업 등을 통해 간략화된 분류 체계일 수 있다.
본 발명에서는 소규모 분류 작업을 위한 텍스트 분류 모델로 제1 텍스트 분류 모델이 사용되고 대규모 분류작업을 위한 텍스트 분류 모델로 제2 텍스트 분류 모델이 사용될 수 있다. 이때 소규모 분류 작업을 위한 제1 텍스트 분류 모델 및 대규모 분류 작업을 위한 제2 텍스트 분류 모델은 각각 자신만의 합성곱층, 풀링층, 완전연결층을 포함하는 사유층을 가질 수 있다. 또한 제1 텍스트 분류 모델 및 제2 텍스트 분류 모델은 단어 임베딩층, 공유 합성곱층, 공유 풀링층을 공유층을 통해 공유할 수 있다. 또한 본 발명에서는 공유층을 이용한 데이터 공유를 보완하기 위해 게이트 메커니즘을 사용하여 상대적으로 충분한 데이터로부터 표현된 제1 텍스트 분류 모델의 소규모 분류 작업의 데이터를 제2 텍스트 분류 모델의 대규모 분류 작업에서 직접 빌려올 수도 있다.
텍스트 분류 모델이 학습하는 과정에서 입력 데이터는 분류하고자 하는 텍스트일 수 있다. 원시 데이터인 입력 텍스트는 전처리 프로세스를 거칠 수 있다. 전처리 프로세스에서 텍스트에 존재하는 각 단어를 나타내기 위한 표현인 '원-핫 인코딩 (one-hot encoding)'을 사용할 수 있다. 원-핫 인코딩이란 단 하나의 값만 참이고 나머지는 모두 거짓인 인코딩을 의미한다. 이 과정을 거치면 텍스트 데이터 형태가 0-1로 구성되기 때문에 컴퓨터가 인식하고 학습하기에 용이하다.
다음으로, 단어 임베딩의 어휘에 존재하는 입력 텍스트 내 단어에 대응하는 표현을 연결함으로써 텍스트에 대한 표현을 생성하고, 이는 하기 수학식 1과 같은 형태로 계산된다. 이때,
Figure pat00001
는 텍스트를 이루는 단어에 대한 표현이고,
Figure pat00002
은 텍스트에 대한 표현이다.
[수학식 1]
Figure pat00003
예를 들어 본 발명의 텍스트 분류 모델에 "Donald Trump criticizes Dodgers manager for bullpen moves."와 같은 텍스트가 입력되면 Word2Vec과 같은 단어 임베딩 기법을 사용해서 문장 내의 각 단어들을 하나의 벡터로 표현할 수 있다. Donald -> W1, Trump -> W2, ??, moves ->W8 이 되고 "Donald Trump criticizes Dodgers manager for bullpen moves."에 대한 표현은 W1:8이 된다. 또한 원-핫 인코딩을 통해 Donald =[1,0,0,??,0], Trump =[ 0,1,0,??,0], criticizes =[0,0,1,??,0] ?? 과 같은 형태로 표시될 수 있다.
본 발명에서 텍스트 표현에 컴퓨터비전 분야 및 텍스트 분류 작업에서 높은 성능을 보이고 있는 합성곱 신경망을 적용할 수 있고, 텍스트표현과의 합성은 하기 수학식 2를 통해 계산할 수 있다. 이때 f, b는 합성곱 신경망에서 사용하는 필터 (filter)와 편차 (bias)를 나타낸다. 이러한 합성곱 신경망은 입력 텍스트에서 특질을 추출하는 역할을 할 수 있다.
[수학식 2]
Figure pat00004
추출된 특질 중에서 가장 의미 있는 특질만을 뽑기 위해 맥스 풀링 연산을 적용하였고, 계산은 하기 수학식3과 같이할 수 있다.
[수학식 3]
Figure pat00005
풀링으로 추출된 특질들을 모두 연결 (concatenate)하여 최종적으로 합성곱을 통한 특질벡터를 만들고, 수식4와 같이 표현 할 수 있다.
[수학식 4]
Figure pat00006
본 발명에서는 대규모 분류 작업에 존재하는 학습 데이터 부족 문제를 해결하기 위해 대규모 분류 작업과 소규모 분류 작업 각각의 특질벡터를 합성곱 신경망 기반 다중작업 학습 프레임워크인 텍스트 분류 모델을 통해 생성한다. 소규모 분류 작업과 대규모 분류 작업은 단어 임베딩층, 공유 합성곱층, 공유 풀링층을 공유층을 통해 공유하면서 각각 자신만의 합성곱층, 풀링층, 완전연결층을 포함하는 사유층을 갖는다. 공유층은 소규모 분류 작업과 대규모 분류 작업이 서로에게 유용한 특질을 공유할 수 있도록 해주지만 유용한 특질이 완벽하게 공유되는 것은 아니다. 따라서 상대적으로 충분한 데이터로부터 표현된 소규모 분류 작업을 대규모 분류 작업에서 직접 빌려올 수 있도록 게이트 메커니즘을 사용하며, 하기 수학식 5와 같이 표현 할 수 있다.
[수학식 5]
Figure pat00007
이때,
Figure pat00008
Figure pat00009
는 각각 학습해야할 가중치와 편차이며
Figure pat00010
는 시그모이드 (sigmoid) 활성화 함수를 나타낸다.
Figure pat00011
은 소규모 분류 작업의 사유 특질이다.
따라서 게이트 메커니즘과 다중작업 학습 구조를 통해 생성한 소규모 분류 작업과 대규모 분류 작업의 최종 특질은 하기 수학식 6과 같이 표현 할 수 있다. 이때
Figure pat00012
는 공유층으로부터 생성된 특질이며
Figure pat00013
Figure pat00014
은 각각 소규모 분류 작업과 대규모 분류 작업의 최종 특질이다.
[수학식 6]
Figure pat00015
각각의 작업의 말단층에서
Figure pat00016
Figure pat00017
은 완전 연결 소프트맥스 층으로 넣어지고 각각의 작업은 카테고리별 예측 확률 분포를 출력하며, 하기 수학식7과 같이 표현 할 수 있다.
Figure pat00018
Figure pat00019
은 각각 대규모 분류 작업과 소규모 분류 작업의 예측 결과이다.
[수학식 7]
Figure pat00020
상기 예측 분포와 실제 정답 분포 사이의 크로스 엔트로피 (cross-entropy)를 통해 손실을 구하고 손실을 최소화 하는 방향으로 학습이 진행된다. 계산은 하기 수학식8을 통해 할 수 있다. 이때,
Figure pat00021
Figure pat00022
은 대규모 분류 작업과 소규모 분류 작업의 손실에 부여되는 가중치이다.
[수학식 8]
Figure pat00023
본 발명에서 입력 텍스트 예시로 "Donald Trump criticizes Dodgers manager for bullpen moves."를 입력한 경우, 앞에 세 단어(Donald Trump criticizes)까지 처리되면 소규모 분류작업을 위한 제1 텍스트 분류 모델은 Top/Society을 반환하고, 대규모 분류작업을 위한 제2 텍스트 분류 모델은 Top/Society/Issues/ Warfare_and_Conflict를 반환한다. 마지막 단어까지 분석된 이후에는 소규모 분류작업을 위한 제1 텍스트 분류 모델은 Top/Sports 를 반환하고, 대규모 분류작업을 위한 제2 텍스트 분류 모델은 Top/Sports/Baseball/Major_League/Teams/Los_Angeles_Dodgers/News_and_Media를 반환한다.
도 4는 본 발명의 일 실시예에 따른 다중작업 학습을 이용한 텍스트 분류 방법을 설명하는 순서도이다.
프로세서(130)는 네트워크를 통해 수집된 원시 데이터에 전처리 프로세스를 수행하여 텍스트 분류 학습 데이터를 생성한다(S110).
전처리 프로세스는 표현하고 싶은 텍스트의 인덱스에 1의 값을 부여하고 나머지 텍스트의 인덱스에는 0을 부여하는 원-핫 인코딩(one-hot encoding)을 사용하여 텍스트에 대한 표현을 생성하는 것일 수 있다.
프로세서(130)는 텍스트 분류 학습 데이터를 입력으로 제1 텍스트 분류 모델을 통해 기설정된 제1 분류체계로 카테고리 분류를 학습시킨다(S120).
프로세서(130)는 텍스트 분류 학습 데이터를 입력으로 제2 텍스트 분류 모델을 통해 기설정된 제2 분류체계로 카테고리 분류를 학습시킨다(S130).
제1 텍스트 분류 모델 및 제2 텍스트 분류 모델은 합성곱신경망(CNN, Convolutional Neural Network)을 통해 학습된 것일 수 있다. 텍스트 분류는 순환신경망, 합성곱 신경망, 다중작업 신경망을 포함하는 다양한 신경망에서 이루어 질 수 있으며 본 발명은 합성곱 신경망에 다중작업 학습 방법을 적용하여 기존 순환 신경망 대비 학습 및 분류시간을 단축시키면서 더 높은 분류 정확도를 보일 수 있다.
본 발명의 텍스트 분류 모델의 성능 테스트에 대한 결과는 도5 내지 도7에 도시된 바와 같다.
도5는 본 발명을 오픈 디렉토리 프로젝트 테스트 데이터에 적용했을 때의 분류 실험 결과를 나타낸 표이다. 성능 평가 척도는 Micro-F1 스코어와 Macro-F1 스코어이다. F1 스코어는 정확률과 재현률의 조화 평균으로써 Micro-F1 스코어는 전체 테스트 문서에 대한 F1 스코어의 평균이고 Macro-F1 스코어는 각 카테고리에 대한 F1 스코어의 평균이다. 표를 통해 기존의 다양한 신경망 또는 다중작업 신경망 보다 본 발명의 텍스트 분류 방법을 통해 대규모 분류를 시행하는 것이 효과적이라는 것을 확인할 수 있다.
도6은 본 발명을 실제 뉴스 기사 분류에 적용했을 때의 실험 결과를 나타낸 표이다. 성능평가 척도는 precision@k이다. precision@k는 분류기가 출력한 상위 k개의 카테고리에 대해 3명의 채점자가 세 가지 평가기준(관련있음, 약간관련있음, 관련없음)으로 채점한다. 표를 통해 실제 뉴스 기사 분류에서도 기존의 다양한 신경망 또는 다중작업 신경망 보다 본 발명의 텍스트 분류 방법을 통해 대규모 분류를 시행하는 것이 효과적이라는 것을 확인할 수 있다.
도 7은 본 발명을 오픈 디렉토리 프로젝트 학습 데이터로 학습시켰을 때 걸리는 학습시간이다. 학습 시간은 한 에포크 (Epoch) 기준으로 측정하였고 표를 통해 본 발명의 텍스트 분류 방법이 성능 대비 효율성 또한 뛰어난 것을 확인할 수 있다.
다시 도 4로 돌아가서, 제2 텍스트 분류 모델은 게이트 메커니즘을 사용하여 상기 제1 텍스트 분류 모델에서 생성된 카테고리 분류에 사용되는 특질을 공유하는 것일 수 있다. 이 때, 상기 게이트 메커니즘은 학습해야 할 가중치, 편차 및 시그모이드 활성화 함수를 이용하여 상기 제1 텍스트 분류 모델에서 생성된 카테고리 분류에 사용되는 특질을 상기 제2 텍스트 분류 모델에 공유하는 것일 수 있다.
프로세서(130)는 사용자 단말로부터 수신된 텍스트 데이터를 제2 텍스트 분류 모델에 입력하여 제2 분류체계로 카테고리를 분류한다(S140). 학습된 텍스트 분류 모델을 이용하여 대규모 분류 작업에서 카테고리를 분류할 수 있다.
본 발명은 대규모 텍스트 분류를 처리하기 위해 CNN 기반 다중작업 학습 프레임 워크를 사용하며, 특히 소규모 분류 작업의 유용한 기능을 선택적으로 활용하기 위해 게이트 메커니즘을 활용할 수 있다. 본 발명은 먼저 대규모 분류 작업을 소규모 분류 작업으로 변환하고, 이후 게이트 메커니즘으로 소규모 및 대규모 분류 작업을 다중 작업 학습 모델에 기초한 텍스트 분류 모델을 이용하여 동시에 학습하는 두 단계로 구성될 수 있다. 이를 통해 학습 데이터가 부족한 대규모 분류 작업에서도 더 빠른 속도로 더 정확한 분류가 가능하다.
본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
본 발명의 방법 및 시스템은 특정 실시예와 관련하여 설명되었지만, 그것들의 구성 요소 또는 동작의 일부 또는 전부는 범용 하드웨어 아키텍쳐를 갖는 컴퓨터 시스템을 사용하여 구현될 수 있다.
전술한 본원의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본원의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본원의 범위에 포함되는 것으로 해석되어야 한다.
100: 서버
110: 통신 모듈
120: 메모리
130: 프로세서
140: 데이터베이스
150: 입력모듈
200: 사용자 단말

Claims (15)

  1. 서버에 의해 수행되는 다중작업 학습을 이용한 텍스트 분류 방법에 있어서,
    (a) 네트워크를 통해 수집된 원시 데이터에 전처리 프로세스를 수행하여 텍스트 분류 학습 데이터를 생성하는 단계;
    (b) 상기 텍스트 분류 학습 데이터를 입력으로 제1 텍스트 분류 모델을 통해 기설정된 제1 분류체계로 카테고리 분류를 학습시키는 단계;
    (c) 상기 텍스트 분류 학습 데이터를 입력으로 제2 텍스트 분류 모델을 통해 기설정된 제2 분류체계로 카테고리 분류를 학습시키는 단계; 및
    (d) 사용자 단말로부터 수신된 텍스트 데이터를 상기 제2 텍스트 분류 모델에 입력하여 상기 제2 분류체계로 카테고리를 분류하는 단계;를 포함하고,
    상기 제1 텍스트 분류 모델 및 제2 텍스트 분류 모델은 인공신경망 기반 다중작업 학습 프레임워크를 통해 공유층(Shared layer)으로부터 생성된 카테고리 분류에 사용되는 특질을 공유해서 학습되는 것이고,
    상기 제1 분류체계 및 제2 분류체계는 오픈 디렉토리 프로젝트(ODP, Open Directory Project)에 기초한 카테고리 데이터를 이용하여 생성된 것인,
    다중작업 학습을 이용한 텍스트 분류 방법.
  2. 제 1 항에 있어서,
    상기 전처리 프로세스는 표현하고 싶은 텍스트의 인덱스에 1의 값을 부여하고 나머지 텍스트의 인덱스에는 0을 부여하는 원-핫 인코딩(one-hot encoding)을 사용하여 텍스트에 대한 표현을 생성하는 것인,
    다중작업 학습을 이용한 텍스트 분류 방법.
  3. 제 1 항에 있어서,
    상기 제1 텍스트 분류 모델 및 제2 텍스트 분류 모델은 합성곱신경망(CNN, Convolutional Neural Network)을 통해 학습된 것인,
    다중작업 학습을 이용한 텍스트 분류 방법.
  4. 제 1 항에 있어서,
    상기 제2 텍스트 분류 모델은 게이트 메커니즘을 사용하여 상기 제1 텍스트 분류 모델에서 생성된 카테고리 분류에 사용되는 특질을 공유하는 것인,
    다중작업 학습을 이용한 텍스트 분류 방법.
  5. 제 4 항에 있어서,
    상기 게이트 메커니즘은 학습해야할 가중치, 편차 및 시그모이드 활성화 함수를 이용하여 상기 제1 텍스트 분류 모델에서 생성된 카테고리 분류에 사용되는 특질을 상기 제2 텍스트 분류 모델에 공유하는 것인,
    다중작업 학습을 이용한 텍스트 분류 방법.
  6. 제 1 항에 있어서,
    상기(b)단계 및 상기 (c)단계는 제1 텍스트 분류 모델 및 제2 텍스트 분류 모델을 통해 예측된 카테고리 분류 분포와 실제 카테고리 분류 분포 사이의 크로스 엔트로피를 통해 손실을 구하고, 손실을 최소화 하도록 카테고리 분류를 학습하는 단계를 더 포함하는 것인,
    다중작업 학습을 이용한 텍스트 분류 방법.
  7. 제 1 항에 있어서,
    상기 제2 분류체계는 기설정된 규모 이상의 분류 작업을 위한 카테고리로 구성되고, 상기 제1 분류체계는 상기 제2 분류체계의 최상위 단계의 카테고리만을 사용하여 구성된 것인,
    다중작업 학습을 이용한 텍스트 분류 방법.
  8. 다중작업 학습을 이용한 텍스트 분류 서버에 있어서,
    다중작업 학습을 이용한 텍스트 분류 프로그램이 저장된 메모리;
    상기 메모리에 저장된 프로그램을 실행하는 프로세서를 포함하며,
    상기 프로세서는 상기 프로그램의 실행에 의해, 네트워크를 통해 수집된 원시 데이터에 전처리 프로세스를 수행하여 텍스트 분류 학습 데이터를 생성하고, 상기 텍스트 분류 학습 데이터를 입력으로 제1 텍스트 분류 모델을 통해 기설정된 제1 분류체계로 카테고리 분류를 학습시키고, 상기 텍스트 분류 학습 데이터를 입력으로 제2 텍스트 분류 모델을 통해 기설정된 제2 분류체계로 카테고리 분류를 학습시키고, 사용자 단말로부터 수신된 텍스트 데이터를 상기 제2 텍스트 분류 모델에 입력하여 상기 제2 분류체계로 카테고리를 분류하고,
    상기 제1 텍스트 분류 모델 및 제2 텍스트 분류 모델은 인공신경망 기반 다중작업 학습 프레임워크를 통해 공유층(Shared layer)으로부터 생성된 카테고리 분류에 사용되는 특질을 공유해서 학습되는 것이고,
    상기 제1 분류체계 및 제2 분류체계는 오픈 디렉토리 프로젝트(ODP, Open Directory Project)에 기초한 카테고리 데이터를 이용하여 생성된 것인
    다중작업 학습을 이용한 텍스트 분류 서버.
  9. 제 8 항에 있어서,
    상기 전처리 프로세스는 표현하고 싶은 텍스트의 인덱스에 1의 값을 부여하고 나머지 텍스트의 인덱스에는 0을 부여하는 원-핫 인코딩(one-hot encoding)을 사용하여 텍스트에 대한 표현을 생성하는 것인,
    다중작업 학습을 이용한 텍스트 분류 서버.
  10. 제 8 항에 있어서,
    상기 제1 텍스트 분류 모델 및 제2 텍스트 분류 모델은 합성곱신경망(CNN, Convolutional Neural Network)을 통해 학습된 것인,
    다중작업 학습을 이용한 텍스트 분류 서버.
  11. 제 8 항에 있어서,
    상기 제2 텍스트 분류 모델은 게이트 메커니즘을 사용하여 상기 제1 텍스트 분류 모델에서 생성된 카테고리 분류에 사용되는 특질을 공유하는 것인,
    다중작업 학습을 이용한 텍스트 분류 서버.
  12. 제 11 항에 있어서,
    상기 게이트 메커니즘은 학습해야할 가중치, 편차 및 시그모이드 활성화 함수를 이용하여 상기 제1 텍스트 분류 모델에서 생성된 카테고리 분류에 사용되는 특질을 상기 제2 텍스트 분류 모델에 공유하는 것인,
    다중작업 학습을 이용한 텍스트 분류 서버.
  13. 제 8 항에 있어서,
    상기 프로세서는 제1 텍스트 분류 모델 및 제2 텍스트 분류 모델을 통해 예측된 카테고리 분류 분포와 실제 카테고리 분류 분포 사이의 크로스 엔트로피를 통해 손실을 구하고, 손실을 최소화 하도록 카테고리 분류를 학습하는 것인,
    다중작업 학습을 이용한 텍스트 분류 서버.
  14. 제 8 항에 있어서,
    상기 제2 분류체계는 기설정된 규모 이상의 분류 작업을 위한 카테고리로 구성되고, 상기 제1 분류체계는 상기 제2 분류체계의 최상위 단계의 카테고리만을 사용하여 구성된 것인,
    다중작업 학습을 이용한 텍스트 분류 서버.
  15. 제 1 항에 따르는 다중작업 학습을 이용한 텍스트 분류 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 비일시적 컴퓨터 판독가능 기록매체.
KR1020200040780A 2019-05-14 2020-04-03 다중작업 학습을 이용한 텍스트 분류 방법 및 서버 KR102347031B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US15/931,216 US11328125B2 (en) 2019-05-14 2020-05-13 Method and server for text classification using multi-task learning

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020190056169 2019-05-14
KR20190056169 2019-05-14

Publications (2)

Publication Number Publication Date
KR20200131736A true KR20200131736A (ko) 2020-11-24
KR102347031B1 KR102347031B1 (ko) 2022-01-04

Family

ID=73679429

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200040780A KR102347031B1 (ko) 2019-05-14 2020-04-03 다중작업 학습을 이용한 텍스트 분류 방법 및 서버

Country Status (1)

Country Link
KR (1) KR102347031B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116932832A (zh) * 2023-09-15 2023-10-24 深圳市智慧城市科技发展集团有限公司 数据资产目录生成方法、设备及计算机可读存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230125933A (ko) 2022-02-22 2023-08-29 오브젠 주식회사 전이학습 기반 마케팅 퍼널 전환 예측 시스템 및 그 제어방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160043601A (ko) * 2014-10-13 2016-04-22 고려대학교 산학협력단 디지털 컨텐츠 추천 단말 및 방법
KR20170131893A (ko) * 2016-05-23 2017-12-01 고려대학교 산학협력단 오픈 디렉터리 프로젝트 기반의 텍스트 분류기, 및 텍스트 분류기의 생성 및 분류 방법
KR20180111979A (ko) * 2016-02-11 2018-10-11 이베이 인크. 의미론적 카테고리 분류법
KR20180119939A (ko) * 2017-04-26 2018-11-05 주식회사 노타 신경망 다운사이징 방법 및 시스템
KR20180137168A (ko) * 2017-06-16 2018-12-27 (주)이스트소프트 신경망 기반의 텍스트의 카테고리를 분류하기 위한 장치, 이를 위한 방법 및 이 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160043601A (ko) * 2014-10-13 2016-04-22 고려대학교 산학협력단 디지털 컨텐츠 추천 단말 및 방법
KR20180111979A (ko) * 2016-02-11 2018-10-11 이베이 인크. 의미론적 카테고리 분류법
KR20170131893A (ko) * 2016-05-23 2017-12-01 고려대학교 산학협력단 오픈 디렉터리 프로젝트 기반의 텍스트 분류기, 및 텍스트 분류기의 생성 및 분류 방법
KR101860472B1 (ko) 2016-05-23 2018-05-23 고려대학교 산학협력단 오픈 디렉터리 프로젝트 기반의 텍스트 분류기, 및 텍스트 분류기의 생성 및 분류 방법
KR20180119939A (ko) * 2017-04-26 2018-11-05 주식회사 노타 신경망 다운사이징 방법 및 시스템
KR20180137168A (ko) * 2017-06-16 2018-12-27 (주)이스트소프트 신경망 기반의 텍스트의 카테고리를 분류하기 위한 장치, 이를 위한 방법 및 이 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116932832A (zh) * 2023-09-15 2023-10-24 深圳市智慧城市科技发展集团有限公司 数据资产目录生成方法、设备及计算机可读存储介质
CN116932832B (zh) * 2023-09-15 2024-01-23 深圳市智慧城市科技发展集团有限公司 数据资产目录生成方法、设备及计算机可读存储介质

Also Published As

Publication number Publication date
KR102347031B1 (ko) 2022-01-04

Similar Documents

Publication Publication Date Title
US11328125B2 (en) Method and server for text classification using multi-task learning
CN112199375B (zh) 跨模态的数据处理方法、装置、存储介质以及电子装置
CN111026842B (zh) 自然语言处理方法、自然语言处理装置及智能问答系统
CN110851596B (zh) 文本分类方法、装置及计算机可读存储介质
Leroux et al. The cascading neural network: building the internet of smart things
CN112800170A (zh) 问题的匹配方法及装置、问题的回复方法及装置
KR20200007969A (ko) 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체
CN109582956A (zh) 应用于句子嵌入的文本表示方法和装置
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN112633010A (zh) 基于多头注意力和图卷积网络的方面级情感分析方法及系统
CN111191002A (zh) 一种基于分层嵌入的神经代码搜索方法及装置
KR20180094664A (ko) 텍스트 데이터로부터 정보를 추출하기 위한 정보 추출 방법 및 장치
CN111274822A (zh) 语义匹配方法、装置、设备及存储介质
KR102347031B1 (ko) 다중작업 학습을 이용한 텍스트 분류 방법 및 서버
CN114547267A (zh) 智能问答模型的生成方法、装置、计算设备和存储介质
CN114647713A (zh) 基于虚拟对抗的知识图谱问答方法、设备及存储介质
JP5650440B2 (ja) 素性重み学習装置、N−bestスコアリング装置、N−bestリランキング装置、それらの方法およびプログラム
CN116541492A (zh) 一种数据处理方法及相关设备
Korade et al. Strengthening Sentence Similarity Identification Through OpenAI Embeddings and Deep Learning.
Cífka et al. Black-box language model explanation by context length probing
CN116954418A (zh) 展厅数字人实现方法、装置、设备及存储介质
CN115422369B (zh) 基于改进TextRank的知识图谱补全方法和装置
CN111666375A (zh) 文本相似度的匹配方法、电子设备和计算机可读介质
CN114970666A (zh) 一种口语处理方法、装置、电子设备及存储介质
CN113792540A (zh) 意图识别模型更新方法及相关设备

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant