KR102011667B1 - 딥러닝-기반 키워드에 연관된 단어를 도출하는 방법과 컴퓨터프로그램 - Google Patents

딥러닝-기반 키워드에 연관된 단어를 도출하는 방법과 컴퓨터프로그램 Download PDF

Info

Publication number
KR102011667B1
KR102011667B1 KR1020170056160A KR20170056160A KR102011667B1 KR 102011667 B1 KR102011667 B1 KR 102011667B1 KR 1020170056160 A KR1020170056160 A KR 1020170056160A KR 20170056160 A KR20170056160 A KR 20170056160A KR 102011667 B1 KR102011667 B1 KR 102011667B1
Authority
KR
South Korea
Prior art keywords
morphemes
vectors
document
documents
selecting
Prior art date
Application number
KR1020170056160A
Other languages
English (en)
Other versions
KR20180062321A (ko
Inventor
박외진
오성식
임창대
Original Assignee
(주)아크릴
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)아크릴 filed Critical (주)아크릴
Publication of KR20180062321A publication Critical patent/KR20180062321A/ko
Application granted granted Critical
Publication of KR102011667B1 publication Critical patent/KR102011667B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F17/2755
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Abstract

본 발명의 실시 예들에 따른 프로세서와 메모리를 포함하는 장치에서 실행되는 프로그램의 작동에 따라 주제어를 판단하는 방법은, 복수의 문서들을 포함하는 문서 데이터베이스로부터 제1문서를 수신하는 단계와, 상기 제1문서에 포함된 형태소들 중에서 연관 형태소들을 선택하는 단계와, 상기 연관 형태소들을 벡터들로 변환하는 단계 및 상기 벡터들을 합성곱 신경망(convolution neural network)에 입력하여, 상기 형태소들을 대표하는 주제어를 판단하는 단계를 포함한다.

Description

딥러닝-기반 키워드에 연관된 단어를 도출하는 방법과 컴퓨터프로그램 {METHOD FOR DRAWING WORD RELATED KEYWORD BASED ON DEEP LEARNING AND COMPUTERPROGRAM}
본 발명의 개념에 따른 실시 예는 단어들의 주제어를 도출하는 방법에 관한 것으로, 특히 상기 단어들에 대하여 합성곱 신경망(convolution neural network)을 적용하여 상기 단어들의 주제어를 도출하는 방법, 상기 방법을 실행시키기 위한 컴퓨터프로그램을 기록한 컴퓨터로 읽을 수 있는 매체, 및 상기 매체에 저장된 상기 컴퓨터프로그램에 관한 것이다.
주제어란 복수의 단어들이 설명하는 특정 주제를 나타내는 단어를 의미한다. 일반적으로 문서에는 단어들이 포함되어 있는데, 이러한 단어들의 주제어를 이용하면 상기 문서를 쉽게 이해할 수 있으며 또한 상기 주제어를 이용하여 상기 문서를 분류할 수도 있다.
기존에는 문서 내에서 단어들 각각이 기재되는 빈도에만 기반하여 상기 문서의 주제어를 도출하였다. 이러한 빈도에만 기초하여 문서의 주제어를 도출하는 경우, 상기 문서와 도출된 주제어와의 연관성이 낮을 수 있다.
한국 공개특허공보 제10-2008-0017686호 (2008. 02. 27.) 한국 공개특허공보 제10-2016-0083900호 (2016. 07. 12.)
본 발명이 해결하고자 하는 과제는 합성곱 신경망(convolution neural network)을 이용하여 단어들의 주제어를 판단하는 방법, 하드웨어와 결합되어 상기 방법을 실행시키기 위하여 매체에 저장된 컴퓨터프로그램, 및 상기 방법을 수행하기 위한 컴퓨터프로그램을 기록한 컴퓨터로 읽을 수 있는 매체를 제공하는 것에 있다.
본 발명의 실시 예들에 따른 프로세서 및 메모리를 포함하는 장치에서 실행되는 프로그램의 작동에 따라 주제어를 판단하는 방법은, 복수의 문서들을 포함하는 문서 데이터베이스로부터 제1문서를 수신하는 단계와, 상기 제1문서에 포함된 형태소들 각각이 상기 복수의 문서들 각각에 기재된 빈도에 기초하여 상기 형태소들 중에서 상기 제1문서와 연관도가 높은 형태소들을 의미하는 연관 형태소들을 선택하는 단계와, 상기 연관 형태소들을 벡터들로 변환하는 단계 및 상기 벡터들을 합성곱 신경망(convolution neural network)에 입력하여, 상기 형태소들을 대표하는 주제어를 판단하는 단계를 포함한다.
본 발명의 실시 예들에 따른 프로세서 및 메모리를 포함하는 장치에서 실행되는 프로그램의 작동에 따라 주제어를 판단하는 방법은, 복수의 문서들을 포함하는 문서 데이터베이스로부터 제1문서를 수신하는 단계와, 상기 제1문서에 포함된 형태소들 각각이 상기 복수의 문서들 각각에 기재된 빈도에 기초하여 상기 형태소들 중에서 상기 제1문서와 연관도가 높은 형태소들을 의미하는 연관 형태소들을 선택하는 단계와, 상기 연관 형태소들을 벡터들로 변환하는 단계와, 상기 벡터들 각각의 방향과 크기에 기초하여 상기 벡터들 각각을 복수의 군집들로 군집화하는 단계 및 상기 벡터들 중에서 상기 복수의 군집들 중에서 제1군집으로 군집화된 제1벡터들을 합성곱 신경망(convolution neural network)에 입력하여, 상기 제1군집을 대표하는 제1주제어를 판단하는 단계를 포함한다.
본 발명의 실시 예들에 따른 프로세서 및 메모리를 포함하는 장치에서 실행되는 프로그램의 작동에 따라 주제어를 판단하는 방법은, 복수의 문서들을 포함하는 문서 데이터베이스로부터 제1문서를 수신하는 단계와, 상기 제1문서에 포함된 형태소들 각각이 상기 복수의 문서들 각각에 기재된 빈도에 기초하여 상기 형태소들 중에서 상기 제1문서와 연관도가 높은 형태소들을 의미하는 연관 형태소들을 선택하는 단계와, 상기 연관 형태소들을 벡터들로 변환하는 단계 및 상기 벡터들을 합성곱 신경망(convolution neural network)에 입력하여, 상기 형태소들을 대표하는 주제어를 판단하는 단계를 포함하고, 상기 연관 형태소들을 선택하는 단계는, 상기 형태소들 각각이 상기 제1문서에 기재된 제1빈도를 계산하는 단계와, 상기 형태소들 각각이 상기 복수의 문서들 중 상기 제1문서를 제외한 나머지 문서들에 기재된 제2빈도를 계산하는 단계 및 계산된 제1빈도들과 계산된 제2빈도들에 기초하여 상기 형태소들 중에서 상기 연관 형태소들을 선택하는 단계를 포함한다.
본 발명의 실시 예들에 따른 하드웨어와 결합되어 단계들을 실행시키기 위하여 매체에 저장된 컴퓨터프로그램에서, 상기 단계들은 복수의 문서들을 포함하는 문서 데이터베이스로부터 제1문서를 수신하는 단계와, 상기 제1문서에 포함된 형태소들 각각이 상기 복수의 문서들 각각에 기재된 빈도에 기초하여 상기 형태소들 중에서 상기 제1문서와 연관도가 높은 형태소들을 의미하는 연관 형태소들을 선택하는 단계와, 상기 연관 형태소들을 벡터들로 변환하는 단계 및 상기 벡터들을 합성곱 신경망(convolution neural network)에 입력하여, 상기 형태소들을 대표하는 주제어를 판단하는 단계를 포함한다.
본 발명의 실시 예들에 따른 하드웨어와 결합되어 단계들을 실행시키기 위하여 매체에 저장된 컴퓨터프로그램에서, 상기 단계들은 복수의 문서들을 포함하는 문서 데이터베이스로부터 제1문서를 수신하는 단계와, 상기 제1문서에 포함된 형태소들 각각이 상기 복수의 문서들 각각에 기재된 빈도에 기초하여 상기 형태소들 중에서 상기 제1문서와 연관도가 높은 형태소들을 의미하는 연관 형태소들을 선택하는 단계와, 상기 연관 형태소들을 벡터들로 변환하는 단계와, 상기 벡터들 각각의 방향과 크기에 기초하여 상기 벡터들 각각을 복수의 군집들로 군집화하는 단계 및 상기 벡터들 중에서 상기 복수의 군집들 중에서 제1군집으로 군집화된 제1벡터들을 합성곱 신경망(convolution neural network)에 입력하여, 상기 제1군집을 대표하는 주제어를 판단하는 단계를 포함한다.
본 발명의 실시 예들에 따른 하드웨어와 결합되어 단계들을 실행시키기 위하여 매체에 저장된 컴퓨터프로그램에서, 상기 단계들은 복수의 문서들을 포함하는 문서 데이터베이스로부터 제1문서를 수신하는 단계와, 상기 제1문서에 포함된 형태소들 각각이 상기 복수의 문서들 각각에 기재된 빈도에 기초하여 상기 형태소들 중에서 상기 제1문서와 연관도가 높은 형태소들을 의미하는 연관 형태소들을 선택하는 단계와, 상기 연관 형태소들을 벡터들로 변환하는 단계 및 상기 벡터들을 합성곱 신경망에 입력하여, 상기 형태소들을 대표하는 주제어를 판단하는 단계를 포함하고, 상기 연관 형태소들을 선택하는 단계는, 상기 형태소들 각각이 상기 제1문서에 기재된 제1빈도를 계산하는 단계와, 상기 형태소들 각각이 상기 복수의 문서들 중 상기 제1문서를 제외한 나머지 문서들에 기재된 제2빈도를 계산하는 단계 및 계산된 제1빈도들과 계산된 제2빈도들에 기초하여 상기 형태소들 중에서 상기 연관 형태소들을 선택하는 단계를 포함한다.
본 발명의 실시 예들에 따른 주제어 판단 방법은 컴퓨터로 읽을 수 있는 컴퓨터 프로그램(또는 프로그램 코드)으로 작성되고, 컴퓨터로 판독 가능한 기록 매체(예컨대, 메모리 장치, 데이터베이스, 또는 프로세서)에 저장되고 실행될 수 있다.
본 발명의 실시 예들에 따른 주제어를 판단할 수 있는 방법, 매체, 및/또는 컴퓨터프로그램은 합성곱 신경망을 이용하여 연관 형태소들의 주제어를 판단할 수 있으므로, 주제어 판단 프로그램에 의해 판단된 연관 형태소들의 주제어는 연관 형태소들의 실제 주제를 높은 정확도로 나타내는 효과가 있다.
본 발명의 실시 예들에 따른 주제어 판단 프로그램은 벡터들을 복수의 군집들로 군집화하고, 합성곱 신경망을 이용하여 각 군집의 주제어를 판단하므로, 주제어 판단 프로그램에 의해 판단된 각 군집의 주제어는 각 군집의 실제 주제를 높은 정확도로 나타내는 효과가 있다.
도 1은 본 발명의 실시 예들에 따른 주제어 판단 시스템을 개념적으로 나타낸다.
도 2는 본 발명의 실시 예들에 따라 형태소들의 주제어를 판단하는 방법을 설명하기 위한 도면이다.
도 3은 본 발명의 실시 예들에 따라 형태소들의 주제어를 판단하는 방법을 나타내는 플로우 차트이다.
도 4는 본 발명의 실시 예들에 따라 형태소들 중에서 연관 형태소를 선택하는 방법을 설명하기 위한 도면이다.
도 5는 본 발명의 실시 예들에 따라 형태소들을 복수의 군집들로 군집화한 후에, 각 군집의 주제어를 판단하는 방법을 설명하기 위한 도면이다.
이하, 본 명세서에 첨부된 도면들을 참조하여 본 발명의 실시 예들을 상세히 설명한다.
본 명세서에서 설명될 주제어를 판단하는 방법은 하드웨어(예컨대, 컴퓨터, 서버, 또는 상기 방법을 실행하도록 구현된 컴퓨터프로그램을 실행하는 CPU 또는 프로세서)와 결합되어 특정 과제(예컨대, 주제어를 판단하는 과제)를 해결하기 위하여 매체(예컨대, 상기 컴퓨터프로그램을 저장하는 일시적이지 않은 컴퓨터로 읽을 수 있는 저장 매체(non-transitory computer readable recording medium))에 저장된 컴퓨터프로그램(또는 프로그램)에 의해 실행 또는 구현될 수 있다.
도 1은 본 발명의 실시 예들에 따른 주제어 판단 시스템을 개념적으로 나타낸다. 도 1을 참조하면, 주제어 판단 시스템(10)은 장치(100)와 문서 데이터베이스 (이하, 문서 DB; 200)를 포함한다.
장치(100)는 연산 또는 작업을 수행할 수 있는 하드웨어, 예컨대 컴퓨터 (computer), 또는 서버를 의미할 수 있다. 장치(100)는 프로세서(110)와 메모리 (120)를 포함할 수 있다.
장치(100)는 단어들에 대하여 합성곱 신경망(convolution neural network)을 적용하여 상기 단어들의 주제어를 판단할 수 있다. 장치(100)에 설치된 주제어 판단 프로그램(300)이 실행됨에 따라, 장치(100)는 주제어 판단 프로그램(300)의 제어에 따라 단어들에 대하여 합성곱 신경망을 적용하여 상기 단어들의 주제어를 판단할 수 있다.
프로세서(110)는 다양한 연산을 수행할 수 있고, 장치(100)의 작동을 제어할 수 있다. 예컨대, 프로세서(110)는 주제어를 판단하는 과제를 해결하기 위해 메모리(120)에 저장된 컴퓨터프로그램(예컨대, 본 명세서에서 설명될 주제어를 판단하는 방법을 수행 또는 실행할 수 있는 컴퓨터프로그램)을 수행 또는 실행할 수 있는 CPU(central processing unit), GPU(graphics processing unit) 또는 GPGPU (general-purpose computing on graphics processing units)를 의미할 수 있으나 이에 한정되는 것은 아니다. 상기 컴퓨터프로그램은 라이브러리 형태로 구현되고, 라이브러리 형태로 구현된 컴퓨터프로그램은 다른 컴퓨터프로그램에 머지 (merge)되어 일체의 하나의 컴퓨터프로그램을 구성할 수 있다.
프로세서(110)는 인공 신경망(artificial neural network)와 같은 딥러닝 (deep learning) 또는 립러닝 알고리즘을 지원(또는 사용)할 수 있다.
메모리(120)는 장치(100)의 작동에 필요한 데이터 또는 정보를 저장할 수 있는 데이터 저장 장치이다. 메모리(120)는 본 발명의 실시 예들에 따른 주제어 판단 프로그램(300)을 저장할 수 있는 일시적이지 않은 컴퓨터로 읽을 수 있는 저장 매체, 예컨대 불휘발성(nonvolatile) 메모리 장치의 일 실시 예이다.
주제어 판단 프로그램(300)은 장치(100)에 의해 실행될 수 있는 소프트웨어, 컴퓨터프로그램, 또는 컴퓨터프로그램 코드들의 집합일 수 있다. 주제어 판단 프로그램(300)은 컴퓨터로 읽을 수 있는 컴퓨터프로그램(또는 컴퓨터프로그램 코드)으로 작성되고, 컴퓨터로 판독 가능한 기록 매체(예컨대, 메모리 장치, 데이터베이스, 또는 프로세서)에 저장되고 실행될 수 있다.
주제어 판단 프로그램(300)은 형태소 분석기(310), 형태소 선택기(320), 벡터 변환기(330), 주제어 판단기(340), 합성곱 신경망(345), 군집화기(350), 및 연관도 계산기(360)를 포함할 수 있다. 각 구성요소(310, 320, 330, 340, 345, 350, 및 360)는 주제어 판단 프로그램(300)에 대한 설명의 편의를 위해 기능적으로 분리된 것으로서 각 구성요소(310, 320, 330, 340, 345, 350, 및 360)는 주제어 판단 프로그램(300)의 일부를 의미할 수 있다. 각 구성요소(310, 320, 330, 340, 345, 350, 및 360)는 다른 구성요소와 컴퓨터프로그램을 통해 유기적으로 연결될 수 있다. 예컨대, 주제어 판단 프로그램(300)은 하나의 컴퓨터프로그램으로 유통되고 사용될 수 있다. 또한, 주제어 판단 프로그램(300)은 다른 컴퓨터프로그램과 유기적으로 실행될 수 있다.
도 1에 도시된 형태소 분석기(310), 벡터 변환기(330), 주제어 판단기(340), 및 군집화기(350)는 장치(100)에서 실행되고, 리드(read)될 수 있는 소프트웨어, 컴퓨터프로그램, 또는 컴퓨터프로그램 코드들의 집합으로서, 각각은 주제어 판단 프로그램(300)의 일부로서의 기능을 수행할 수 있다.
프로세서(110)는 메모리(120)에 저장된 주제어 판단 프로그램(300)을 실행시키는 하드웨어로서, 실행된 주제어 판단 프로그램(300)의 제어에 따라 장치(100)가 주제어 판단 방법을 수행할 수 있도록 장치(100)를 전반적으로 제어할 수 있다.
문서 DB(200)는 복수의 문서들(D1~Dn, n은 2 이상의 자연수)을 저장하는 데이터베이스 또는 데이터 저장 장치를 의미한다. 실시 예들에 따라, 복수의 문서들 (D1~Dn)은 적어도 하나의 키워드(KEYWORD)를 포함하는 문서로서, 웹 크롤링 (web crawling)에 의해 수집된 문서들일 수 있다. 키워드(KEYWORD)는 미리 정해지거나 외부로부터 입력될 수 있다. 키워드(KEYWORD)의 개수는 제한되지 않는다.
실시 예들에 따라, 복수의 문서들(D1~Dn) 각각은 키워드(KEYWORD)를 포함하는 문서로서, 주제어 판단 프로그램(300)에 의해 수집된 문서들일 수 있으나 이에 한정되는 것은 아니며, 주제어 판단 프로그램(300)과 별도로 구현된 웹 크롤러와 같은 프로그램에 의해 수집된 문서들일 수 있다.
비록 도 1에는 문서 DB(200)가 장치(100)의 외부에 위치하는 것으로 도시되어 있으나, 실시 예들에 따라 문서 DB(200)는 장치(100)의 내부에 포함될 수 있다. 즉, 문서 DB(200)는 장치(100)의 내부에 포함되는 메모리 장치일 수 있다. 상기 메모리 장치는 메모리(120)와 별개일 수 있다.
도 2는 본 발명의 실시 예들에 따라 형태소들의 주제어를 판단하는 방법을 설명하기 위한 도면이고, 도 3은 본 발명의 실시 예들에 따라 형태소들의 주제어를 판단하는 방법을 나타내는 플로우 차트이다. 도 1 내지 도 3을 참조하여 메모리(120)에 저장된 주제어 판단 프로그램(300)을 실행하여 단어들의 주제어를 판단하는 장치(100)의 작동을 설명한다.
장치(100)는 문서 DB(200)로부터 제1문서(D1)를 수신할 수 있다(S1000). 실시 예들에 따라, 장치(100)는 주제어 판단 프로그램(300)의 작동에 따라 제1문서 (D1)을 문서 DB(200)로부터 읽어올 수 있다.
형태소 분석기(310)는 제1문서(D1)에 포함된 문자열들(또는 텍스트들)을 구문 분석하고, 상기 구문 분석의 결과에 따라 제1문서(D1)에 포함된 형태소들 (M1~Mn)을 식별(또는 추출)할 수 있다(1100).
언어학에서 구문 분석(構文分析, 구문해석, 또는 문장해석)은 문장을 그것을 이루고 있는 구성 성분으로 분해하고 그들 사이의 위계 관계를 분석하여 문장의 구조를 결정하는 것을 말한다.
형태소(the minimal unit of meaning 또는 morpheme)는 언어학에서(일반적인 정의를 따르면) 일정한 의미가 있는 가장 작은 말의 단위로 발화체 내에서 따로 떼어낼 수 있는 것을 말한다. 즉, 형태소는 더 분석하면 뜻이 없어지는 말의 단위이다. 음소와 마찬가지로 형태소는 추상적인 실체이며 발화(發話)에서 다양한 형태로 실현될 수 있다.
형태소 선택기(320)는 형태소들(M1~Mn) 중에서 연관 형태소들(RM1~RMm; m은 n 이하인 2 이상의 자연수, 예컨대, n=m 또는 n≠m)을 선택할 수 있다(S1200).
실시 예들에 따라, 연관 형태소들(RM1~RMm)은 형태소들(M1~Mn) 중에서 의미 정보를 가지는 형태소들을 의미할 수 있다. 예컨대, 연관 형태소들(RM1~RMm)은 실체적 의미를 포함하는 실질 형태소를 의미할 수 있다.
실시 예들에 따라, 연관 형태소들(RM1~RMm)은 형태소들(M1~Mn) 중에서 제1문서(D1)와 연관도가 높은 형태소들을 의미할 수 있다. 예컨대, 형태소 선택기(320)는 형태소들(M1~Mn) 각각이 복수의 문서들(D1~Dn) 각각에 기재된 빈도에 기초하여 형태소들(M1~Mn) 중에서 연관 형태소들(RM1~RMm)을 선택할 수 있다.
벡터 변환기(330)는 연관 형태소들(RM1~RMm) 각각을 k-차원(k은 자연수) 좌표 공간상의 벡터들 각각으로 변환(convert) 또는 매핑(mapping)할 수 있다 (S1300). 실시 예들에 따라, 벡터 변환기(330)는 워드 임베딩(word embedding) 모델에 따라, 연관 형태소들(RM1~RMm) 각각을 의미 정보를 가지는 벡터들(V1~Vm) 각각으로 변환할 수 있다. 연관 형태소들(RM1~RMm) 각각의 의미 정보는 각각의 벡터 (V1~Vm)의 크기와 방향(또는 좌표)에 반영된다.
예컨대, 제1연관 형태소의 의미와 제2연관 형태소의 의미가 유사하다면, 상기 제1연관 형태소에 해당하는 제1벡터와 상기 제2연관 형태소에 해당하는 제2벡터 사이의 거리(distance)는 가까울 수 있다. 다시 말하면, 상기 제1벡터의 크기와 방향은 상기 제2벡터의 크기와 방향과 유사할 수 있다. 즉, 제1벡터와 제2벡터의 코사인 유사도(cosine similarity)는 높게 계산된다.
벡터 변환기(330)는 CBOW(continuos bag-of-word) 또는 skip-gram을 이용하여 연관 형태소들(RM1~RMm) 각각을 의미 정보를 가지는 벡터들(V1~Vm) 각각으로 변환할 수 있다. 이 경우, 벡터 변환기(330)는 인공 신경망을 이용할 수도 있다.
벡터 변환기(330)는 복수의 문서들(D1~Dn) 모두에 포함된 형태소들에 대해서 워드 임베딩 모델을 학습하고, 학습 결과에 따라 연관 형태소들(RM1~RMm) 각각을 벡터들(V1~Vm) 각각으로 변환할 수 있다.
실시 예들에 따라, 벡터 변환기(330)는 문서 DB(200)에 포함된 복수의 문서들(D1~Dn) 모두에 포함된 형태소들에 대해서 워드 임베딩 모델을 학습하고, 복수의 문서들(D1~Dn)에 포함된 형태소들 각각을 k-차원(k은 자연수) 좌표 공간상의 벡터들 각각으로 매핑하여 매핑 정보를 미리 생성한 후에, 상기 미리 생성된 매핑 정보를 이용하여 제1문서(D1)에 포함된 연관 형태소들(RM1~RMm) 각각을 벡터들(V1~Vm) 각각으로 변환할 수 있다. 이러한 과정에 의해 상기 매핑의 정확도가 높아질 수 있는 효과가 있다.
주제어 판단기(340)는 벡터들(V1~Vm)(또는 연관 형태소들(RM1~RMm))을 대표하는 주제어(SW)를 판단할 수 있다(S1400). 실시 예들에 따라, 주제어 판단기(340)는 인공 신경망(artificial neural network)을 이용하여 벡터들(V1~Vm)의 주제어 (SW)를 판단할 수 있다.
인공 신경망은 연결선으로 연결된 많은 수의 인공 뉴런들을 이용하여 생물학적인 신경망 시스템의 계산 능력을 모방하는 소프트웨어나 하드웨어로 구현된 알고리즘을 의미할 수 있다. 즉, 인공 신경망은 사람의 두뇌와 비슷한 방식으로 문제를 해결할 수 있다. 인공 신경망의 종류로서, 합성곱 신경망(convolution neural network), 전방 전달 신경망(feedfowrad nerual network), 순환 인공 신경망 (recurrent neural network), 또는 심층 신경망(deep neural network) 등이 있다.
실시 예들에 따라, 주제어 판단기(340)는 벡터들(V1~Vm)을 합성곱 신경망 (345)에 입력하여, 연관 형태소들(RM1~RMm)을 대표하는 주제어(SW)를 판단할 수 있다.
실시 예들에 따라, 주제어 판단기(340)는 벡터들(V1~Vm)을 합성곱 신경망 (345)에 입력하여, 연관 형태소들(RM1~RMm)의 주제어(SW)가 미리 선정된(selected) 후보 주제어들 각각이 될 확률들(P1~P5)을 계산할 수 있다. 이때, 확률들(P1~P5)의 합은 1이다.
미리 선정된 후보 주제어들은 장치(100)의 사용자에 의해 설정 또는 변경될 수 있다. 미리 선정된 후보 주제어들은 합성곱 신경망(345)의 학습 단계에서 설정될 수 있다.
비록, 도 2에서는 5개의 후보 주제어들을 가정하여 5개의 확률들(P1~P5)을 도시하고 설명하였으나, 본 발명의 개념에 따른 실시 예들은 후보 주제어들의 수에 한정되는 것이 아니다.
예컨대, 제1확률(P1)은 연관 형태소들(RM1~RMm)의 주제어(SW)가 미리 선정된 후보 주제어들 중에서 제1후보 주제어일 확률을 의미한다. 다르게 말하면, 제1확률 (P1)은 연관 형태소들(RM1~RMm)의 주제어(SW)가 상기 제1후보 주제어로 판단될 확률을 의미한다.
합성곱 신경망(345)은 학습이 가능한 인공 신경망의 종류 중 하나이다. 실시 예들에 따라, 주제어 판단기(340)에 의해 이용되는 합성곱 신경망(345)은 미리 학습될 수 있다. 합성곱 신경망(345)의 학습은 이하에서 상세히 설명한다.
합성곱 신경망(345)은 콘볼루션-풀링층(convolution-pooling layer; 347)과 완전 연결층(fully connected lyaer; 349)을 포함할 수 있다.
콘볼루션-풀링층(347)은 벡터들(V1~Vm)에 대하여 콘볼루션(convolution) 연산을 수행하여, 벡터들(V1~Vm)에 대한 특징 맵들(features maps)을 생성(또는 추출)할 수 있다. 예컨대, 콘볼루션-풀링층(347)은 (m×k)-차원의 입력 행렬(즉, m개의 행과 k개의 열로 이루어진 행렬)로 표현되는 벡터들(V1~Vm)에 대하여 콘볼루션 연산을 수행하여 상기 입력 행렬에 대한 특징 맵들을 추출할 수 있다.
콘볼루션 연산이란 어떠한 입력 데이터(예컨대, V1~Vm)에 대하여 상기 입력 데이터의 특징을 추출하는 연산을 의미한다. 실시 예들에 따라, 콘볼루션 연산은 입력 데이터(예컨대, V1~Vm)에 대하여 필터(예컨대, 컨볼루션 커널(kernel))를 적용하여, 상기 입력 데이터의 특징이 부각된 특징 맵을 추출하는 연산을 의미한다. 예컨대, 주어진 입력 데이터(x(t))에 대해 필터(w(t))를 적용하여 특징 맵(s(t))을 도출하는 콘볼루션 연산은 수학식 1과 같다.
[수학식 1]
Figure 112017042716743-pat00001
실시 예들에 따라, 콘볼루션-풀링층(347)은 벡터들(V1~Vm)에 대하여 적어도 하나의 콘볼루션 커널을 적용하여 콘볼루션 연산을 수행하고, 수행 결과에 따라 벡터들(V1~Vm)의 특징 맵들을 생성할 수 있다. 예컨대, 벡터들(V1~Vm)이 (m×k)-차원의 입력 행렬로 표현될 때, 콘볼루션 커널은 (m1×k1)-차원의 행렬로 표현될 수 있다(여기서, m1은 m이하의 자연수이고, k1은 k 이하의 자연수이다).
콘볼루션-풀링층(347)은 콘볼루션 연산에 따라 생성된 특징 맵에 대하여 상기 특징 맵의 차원을 감소시키는 서브샘플링을 수행하여 샘플링된 특징 맵을 생성할 수 있다.
서브샘플링(subsampling)은 풀링(pooling)을 의미할 수 있다. 상기 풀링은 최대 값 풀링(max-pooling) 또는 평균 값 풀링(average pooling)을 의미할 수 있으나 이에 한정되는 것은 아니다.
비록 본 명세서에서는 합성곱 신경망(345)이 한 번의 콘볼루션 연산과 한 번의 서브 샘플링을 수행하는 것으로 설명하였으나, 합성곱 신경망(345)는 벡터들(V1~Vm)에 대하여 복수의 콘볼루션 연산들과 복수의 서브 샘플링들을 수행할 수 있다.
예컨대, 합성곱 신경망(345)는 벡터들(V1~Vm)(또는 k-차원 벡터들(V1~Vm)을 포함하는 (m×k)-차원의 입력 행렬)에 대하여 복수 번의 콘볼루션 연산과 복수 번의 서브 샘플링들을 수행하여 벡터로 표현되는 샘플링된 특징 맵을 생성할 수 있다.
완전 연결층(349)은 벡터들(V1~Vm)(또는 연관 형태소들(RM1~RMm))을 대표하는 주제어를 샘플링된 특징 맵을 이용하여 추출할 수 있다. 실시 예들에 따라, 완전 연결층(349)은 선택된 연관 형태소들(RM1~RMm)의 주제어(SW)가 미리 선정된 후보 주제어들 각각이 될 확률들(P1~P5)을 샘플링된 특징 맵을 이용하여 계산할 수 있다.
예컨대, 완전 연결층(349)은 샘플링된 특징 맵과 소프트맥스(softmax) 함수를 이용하여 연관 형태소들(RM1~RMm)의 주제어(SW)가 미리 선정된 후보 주제어들 각각이 될 확률들(P1~P5)을 계산할 수 있다.
합성곱 신경망(345)은 학습용 데이터를 이용하여 학습할 수 있다. 본 명세서에서, 학습용 신경망(345)이 학습한다는 말은, 학습용 신경망(345)이 콘볼루션-풀링층(347)에서 이루어지는 콘볼루션 연산에서 사용되는 콘볼루션 커널을 생성하고, 생성된 콘볼루션 커널을 스스로 보정한다는 의미이다.
예컨대, 합성곱 신경망(345)은 헤비안(Hebbian) 알고리즘, 퍼셉트론 룰(perceptron rule), 경사 하강법(gradient descent) 또는 역전파 (backpropagation)를 이용하여 학습할 수 있다.
합성곱 신경망(345)은 학습용 단어들과 상기 학습용 단어들을 대표하는 학습용 주제어를 포함하는 학습용 데이터를 입력받을 수 있다. 합성곱 신경망(345)은 학습용 데이터에 포함된 학습용 단어들을 입력으로 하고 상기 학습용 데이터에 포함된 학습용 주제어를 출력으로 하여 학습함으로써 콘볼루션 연산에서 사용되는 콘볼루션 커널을 자동으로 생성 및 보정할 수 있다.
예컨대, 합성곱 신경망(345)은 제1학습용 데이터에 포함된 제1학습용 단어들을 입력으로 하고, 상기 제1학습용 단어들에 대하여 적어도 하나의 콘볼루션 커널을 적용하여 제1학습 결과(즉, 주제어)를 생성한다. 그 후에, 합성곱 신경망(345)는 제1학습 결과와 제1학습용 단어들에 해당하는 제1학습용 주제어를 비교하고, 비교 결과에 기초하여 상기 적어도 하나의 콘볼루션 커널을 보정할 수 있다.
따라서, 주제어 판단 프로그램(300)은 이미 학습된 합성곱 신경망(345)을 이용하여, 형태소들(M1~Mn)을 대표하는 주제어(SW)를 보다 정확하게 판단할 수 있다.
실시 예들에 따라, 합성곱 신경망(345)의 학습은 장치(100)의 프로세서(110)에 의해 수행될 수 있으나, 이에 한정되는 것은 아니다. 예컨대, 합성곱 신경망 (345)은 미리 학습되어 있을 수 있다.
주제어 판단기(340)는 합성곱 신경망(345)에 의해 계산된 확률들(P1~P5) 중에서 가장 높은 확률에 해당하는 후보 주제어를 연관 형태소들(RM1~RMm)의 주제어 (SW)로 판단할 수 있다. 예컨대, 제1확률(P1)이 0.1이고, 제2확률(P2)이 0.1이고, 제3확률(P3)이 0.2이고, 제4확률(P4)이 0.2이고, 제5확률(P5)이 0.4일 때, 주제어 판단기(340)는 제5확률(P5)에 해당하는 제5후보 주제어를 연관 형태소들(RM1~RMm)의 주제어(SW)로 판단할 수 있다.
주제어 판단 프로그램(300)은 합성곱 신경망(345)을 이용하여 연관 형태소들 (RM1~RMm)의 주제어를 판단할 수 있으므로, 주제어 판단 프로그램(300)에 의해 판단된 연관 형태소들(RM1~RMm)의 주제어(SW)는 연관 형태소들(RM1~RMm)의 실제 주제를 높은 정확도로 나타내는 효과가 있다.
연관도 계산기(360)는 대상 단어와 제1문서(D1)와의 연관도를 계산할 수 있다. 상기 대상 단어는 임의의 단어로서 미리 정해진 단어일 수도 있고, 외부로부터 입력된 단어일 수도 있다. 예컨대, 대상 단어는 키워드(KEYWORD)일 수 있다. 이하에서는 설명의 편의상 대상 단어가 키워드(KEYWORD)임을 가정하고 설명한다.
실시 예들에 따라, 연관도 계산기(360)는 제1문서(D1)에 포함된 벡터들 (V1~Vm) 각각과, 키워드(KEYWORD) 사이의 코사인 유사도를 계산하고, 계산된 코사인 유사도들에 기초하여 키워드(KEYWORD)와 제1문서(D1)와의 사이의 연관도를 계산할 수 있다.
예컨대, 연관도 계산기(360)는 계산된 코사인 유사도들의 평균을 제1문서 (D1)와 키워드(KEYWORD) 사이의 연관도로서 계산할 수 있다.
도 4는 본 발명의 실시 예들에 따라 형태소들 중에서 연관 형태소를 선택하는 방법을 설명하기 위한 도면이다. 도 1 내지 도 4를 참조하면, 형태소 선택기 (320)는 제1문서(D1)에 포함된 형태소들(M1~Mn) 각각이 복수의 문서들(D1~Dn) 각각에 기재된 빈도(또는 횟수)에 기초하여, 형태소들(M1~Mn) 각각의 가중치(WV1~WVn)를 계산할 수 있다.
실시 예들에 따라, 형태소 선택기(320)는 형태소들(M1~Mn) 각각이 제1문서 (D1)에 기재된 제1빈도(F11~F1n)를 계산하고, 제1빈도(F11~F1n)에 기초하여 형태소들(M1~Mn) 각각의 가중치(WV1~WVn)를 계산할 수 있다. 예컨대, 형태소들(M1~Mn) 각각의 가중치(WV1~WVn)는 형태소들(M1~Mn) 각각이 제1문서(D1)에 기재된 제1빈도(F11~F1n)와 동일할 수 있다.
실시 예들에 따라, 형태소 선택기(320)는 형태소들(M1~Mn) 각각이 제1문서 (D1)를 제외한 나머지 문서들(D2~Dn)에 기재된 제2빈도(F21~F2n)를 계산하고, 제1빈도(F11~F1n)와 제2빈도(F21~F2n)에 기초하여 형태소들(M1~Mn) 각각의 가중치(WV1~WVn)를 계산할 수 있다. 예컨대, 형태소들(M1~Mn) 각각의 가중치(WV1~WVn)는 형태소들(M1~Mn) 각각이 제1문서(D1)에 기재된 제1빈도(F11~F1n)와, 형태소들(M1~Mn) 각각이 나머지 문서들 (D2~Dn)에 기재된 제2빈도(F21~F2n)의 역수(즉, (F21)-1~(F2n)-1)의 곱일 수 있다.
예컨대, 제1형태소(M1)가 제1문서(D1)에 기재된 제1빈도(예컨대, F11)가 10이고, 제1형태소 (M1)가 제1문서(D1)를 제외한 나머지 문서들(D2~Dn)에 기재된 제2빈도(예컨대, F21)가 2이면, 제1형태소(M1)의 제1가중치(WV1)는 10과 1/2의 곱인 5가 된다.
형태소 선택기(320)는, 계산된 가중치들(WV1~WVn)에 기초하여, 형태소들 (M1~Mn) 중에서 연관 형태소들(RM1~RMm)을 선택할 수 있다. 실시 예들에 따라, 형태소 선택기(320)는 형태소들(M1~Mn) 중에서 기준 가중치 이상의 가중치를 가지는 형태소들을 연관 형태소들(RM1~RMm)로서 선택할 수 있다. 형태소 선택기(320)는 기준 가중치보다 큰 가중치에 해당하는 형태소들을 연관 형태소들(RM1~RMm)로서 선택할 수 있다.
예컨대, 도 4에 도시된 제1형태소(M1)의 제1가중치(WV1), 제3형태소(M3)의 제3가중치(WV3), 및 제5형태소(M5)의 제5가중치(WV5)는 기준 가중치 이상일 수 있다. 따라서, 제1형태소(M1), 제3형태소(M3), 및 제5형태소(M5)는 연관 형태소(RM1, RM2, 및 RM3)로서 선택될 수 있다.
비록 도 4에서는 3개의 형태소들(M1, M3, 및 M5)이 연관 형태소들(RM1~RM3)로서 선택된 것으로 도시되어 있으나, 본 발명의 개념에 따른 실시 예들은 연관 형태소의 개수에 한정되는 것은 아니다.
도 5는 본 발명의 실시 예들에 따라 형태소들을 복수의 군집들로 군집화한 후에, 각 군집의 주제어를 판단하는 방법을 설명하기 위한 도면이다. 도 1과 도 5를 참조하면, 군집화기(350)는 벡터들(V1~Vm) 각각을 복수의 군집들(C1와 C2) 중에서 대응되는 군집(group)으로 군집화할 수 있다. 예컨대, 군집화기(350)는 벡터들 (V1~Vm) 각각을 제1군집(C1)과 제2군집(C2) 중에서 해당하는 군집으로 군집화할 수 있다. 비록, 도 3에는 2개의 군집들(C1와 C2)이 예시적으로 도시되어 있으나, 본 발명의 개념에 따른 실시 예들은 군집의 개수에 한정되는 것은 아니다.
군집들(C1과 C2) 각각은 중심 벡터를 가질 수 있다. 제1군집(C1)은 제1중심 벡터를 가지고, 제2군집(C2)은 제2중심 벡터를 가질 수 있다. 중심 벡터들 각각은 해당하는 군집에 포함되는 벡터들의 특성들에 따라 설정(또는 결정)될 수 있다. 예컨대, 제1중심 벡터는 제1군집(C1)으로 군집화되는 벡터들의 무게 중심일 수 있다.
실시 예들에 따라, 군집화기(350)는 K-평균(K-means) 알고리즘, 퍼지 군집화 (fuzzy clustering) 알고리즘, 중심 밀도(center density) 군집화 알고리즘, 격차 기반(grid-based) 군집화 알고리즘, 커널 기반(kernel-based) 군집화 알고리즘, 코호넨(kohonen) 군집화 알고리즘, 또는 가우시안 믹스쳐(Gaussian mixture) 모델을 이용하여 벡터들(V1~Vm) 각각을 복수의 군집들(C1와 C2) 중에서 대응되는 군집으로 군집화할 수 있다.
예컨대, 군집화기(350)는 벡터들(V1~Vm) 중에서 방향과 크기가 서로 유사한 벡터들을 복수의 군집들(C1와 C2) 각각으로 군집화할 수 있다. 예컨대, 제1군집 (C1)으로 군집화된 제1벡터들의 방향들과 크기들은 서로 유사하고, 제2군집(C2)으로 군집화된 제2벡터들의 방향들과 크기들은 서로 유사할 수 있다.
주제어 판단기(340)는 도 2에 도시된 것처럼 벡터들(V1~Vm)을 합성곱 신경망 (345)에 입력하는 대신에, 제1군집(C1)으로 군집화된 제1벡터들을 합성곱 신경망 (345)에 입력하여 제1군집(C1)을 대표하는 제1주제어(SW1)를 판단하고, 제2군집 (C2)으로 군집화된 제2벡터들을 합성곱 신경망(345)에 입력하여, 제2군집(C2)을 대표하는 제2주제어(SW2)를 판단할 수 있다.
실시 예들에 따라, 주제어 판단기(340)는 제1군집(C1)으로 군집화된 제1벡터들을 합성곱 신경망 (345)에 입력하고, 합성곱 신경망(345)를 이용하여 제1군집(C1)을 대표하는 제1주제어(SW1)가 미리 선정된(selected) 후보 주제어들 각각이 될 확률들(P11~P15)을 계산할 수 있다. 이때, 확률들(P11~P15)의 합은 1이다.
실시 예들에 따라, 주제어 판단기(340)는 제2군집(C2)으로 군집화된 제2벡터들을 합성곱 신경망 (345)에 입력하고, 합성곱 신경망(345)를 이용하여 제2군집(C2)을 대표하는 제2주제어(SW2)가 미리 선정된(selected) 후보 주제어들 각각이 될 확률들(P21~P52)을 계산할 수 있다. 이때, 확률들(P21~P25)의 합은 1이다.
비록, 도 5에서는 5개의 후보 주제어들을 가정하여 5개의 확률들(P11~P15 및 P21~P25)을 도시하고 설명하였으나, 본 발명의 개념에 따른 실시 예들은 후보 주제어들의 수에 한정되는 것이 아니다.
실시 예들에 따라, 주제어 판단기(340)는 제1군집(C1)으로 군집화된 제1벡터들 각각과 제1군집(C1)의 제1중심 벡터 사이의 코사인 유사도들 각각을 계산하고, 계산된 코사인 유사도들에 기초하여 상기 제1벡터들 중에서 제1연관 벡터들을 선택하고, 선택된 제1연관 벡터들을 합성곱 신경망(345)에 입력하여 제1군집(C1)을 대표하는 제1주제어(SW1)를 판단할 수 있다.
예컨대, 주제어 판단기(340)는 제1군집(C1)으로 군집화된 제1벡터들 중에서 기준 값 이상의 코사인 유사도를 가지는 벡터들을 제1연관 벡터들로서 선택할 수 있다. 제1연관 벡터들은 제1군집(C1)을 대표하는 벡터들로 여겨질 수 있다.
주제어 판단 프로그램(300)은 벡터들(V1~Vm) 각각을 복수의 군집들(C1과 C2) 중에서 대응되는 군집으로 군집화하고, 각 군집(C1과 C2)에 포함된 벡터들 중에서 각 군집(C1과 C2)을 대표하는 연관 벡터들을 이용하여 각 군집(C1과 C2)의 주제어를 판단하므로, 주제어 판단 프로그램(300)에 의해 판단된 각 군집(C1과 C2)의 주제어(SW1과 SW2)는 각 군집(C1과 C2)의 실제 주제(또는 주제어)를 높은 정확도로 나타내는 효과가 있다.
연관도 계산기(360)는 키워드(KEYWORD)와 군집들(C1과 C2) 각각과의 연관도를 계산할 수 있다. 실시 예들에 따라, 연관도 계산기(360)는 제1군집(C1)으로 군집화된 제1벡터들 각각과 키워드(KEYWORD) 사이의 코사인 유사도들을 계산하고, 계산된 코사인 유사도들에 기초하여 키워드(KEYWORD)와 제1군집(C1) 사이의 연관도를 계산할 수 있다. 예컨대, 연관도 계산기(360)는 계산된 코사인 유사도들의 평균을 제1군집(C1)과 키워드(KEYWORD) 사이의 연관도로서 계산할 수 있다.
본 발명의 실시 예들에 따른 주제어 판단 방법은 컴퓨터로 읽을 수 있는 컴퓨터프로그램(또는 컴퓨터프로그램 코드)으로 작성되고, 컴퓨터로 읽을 수 있는 매체(예컨대, 메모리 장치, 데이터베이스, 프로세서, 또는 앱 스토어의 서버에 의해 액세스 가능한 데이터베이스)에 저장되고 상기 컴퓨터에 의해 실행될 수 있다.
본 발명은 도면에 도시된 실시 예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.
10: 주제어 판단 시스템
100: 장치
110: 프로세서
120: 메모리
300: 주제어 판단 프로그램
200: 문서 데이터베이스
D1~Dn: 문서들
M1~Mn: 형태소들
RM1~RMm: 연관 형태소들
V1~Vm: 벡터들
P1~P5: 확률들

Claims (15)

  1. 프로세서와 메모리를 포함하는 장치에서 실행되는 프로그램의 작동에 따라 주제어를 판단하는 방법에 있어서,
    복수의 문서들을 포함하는 문서 데이터베이스로부터 제1문서를 수신하는 단계;
    상기 제1문서에 포함된 형태소들 각각이 상기 복수의 문서들 각각에 기재된 빈도에 기초하여 상기 형태소들 중에서 상기 제1문서와 연관도가 높은 형태소들을 의미하는 연관 형태소들을 선택하는 단계;
    상기 연관 형태소들을 벡터들로 변환하는 단계; 및
    상기 벡터들을 합성곱 신경망(convolution neural network)에 입력하여, 상기 형태소들을 대표하는 주제어를 판단하는 단계를 포함하는 주제어 판단 방법.
  2. 제1항에 있어서, 상기 연관 형태소들을 선택하는 단계는,
    상기 형태소들 각각이 상기 복수의 문서들 각각에 기재된 빈도에 기초하여, 상기 형태소들 각각의 가중치를 계산하는 단계;
    계산된 가중치들에 기초하여 상기 형태소들 중에서 상기 연관 형태소들을 선택하는 단계를 포함하는 주제어 판단 방법.
  3. 제2항에 있어서, 상기 형태소들 각각의 가중치를 계산하는 단계는,
    상기 형태소들 각각이 상기 제1문서에 기재된 제1빈도를 계산하는 단계;
    상기 형태소들 각각이 상기 복수의 문서들 중에서 상기 제1문서를 제외한 나머지 문서들에 기재된 제2빈도를 계산하는 단계; 및
    계산된 제1빈도들과 계산된 제2빈도들에 기초하여 상기 형태소들 각각의 가중치를 계산하는 단계를 포함하는 주제어 판단 방법.
  4. 제1항에 있어서, 상기 주제어를 판단하는 단계는,
    상기 벡터들에 대하여 콘볼루션(convolution) 연산을 수행하여, 상기 벡터들에 관한 특징 맵들을 생성하는 단계;
    상기 특징 맵들 각각에 대하여, 상기 특징 맵들 각각의 차원을 감소시키는 서브샘플링(subsampling)을 수행하여 샘플링된 특징 맵들을 생성하는 단계; 및
    상기 샘플링된 특징 맵들을 이용하여 상기 주제어를 판단하는 단계를 포함하는 주제어 판단 방법.
  5. 프로세서와 메모리를 포함하는 장치에서 실행되는 프로그램의 작동에 따라 주제어를 판단하는 방법에 있어서,
    복수의 문서들을 포함하는 문서 데이터베이스로부터 제1문서를 수신하는 단계;
    상기 제1문서에 포함된 형태소들 각각이 상기 복수의 문서들 각각에 기재된 빈도에 기초하여 상기 형태소들 중에서 상기 제1문서와 연관도가 높은 형태소들을 의미하는 연관 형태소들을 선택하는 단계;
    상기 연관 형태소들을 벡터들로 변환하는 단계;
    상기 벡터들 각각의 방향과 크기에 기초하여 상기 벡터들 각각을 복수의 군집들로 군집화하는 단계; 및
    상기 벡터들 중에서 상기 복수의 군집들 중에서 제1군집으로 군집화된 제1벡터들을 합성곱 신경망(convolution neural network)에 입력하여, 상기 제1군집을 대표하는 제1주제어를 판단하는 단계를 포함하는 주제어 판단 방법.
  6. 제5항에 있어서, 상기 연관 형태소들을 선택하는 단계는,
    상기 형태소들 각각이 상기 복수의 문서들 각각에 기재된 빈도에 기초하여, 상기 형태소들 각각의 가중치를 계산하는 단계;
    계산된 가중치들에 기초하여 상기 형태소들 중에서 상기 연관 형태소들을 선택하는 단계를 포함하는 주제어 판단 방법.
  7. 제6항에 있어서, 상기 형태소들 각각의 가중치를 계산하는 단계는,
    상기 형태소들 각각이 상기 제1문서에 기재된 제1빈도를 계산하는 단계;
    상기 형태소들 각각이 상기 복수의 문서들 중 상기 제1문서를 제외한 나머지 문서들에 기재된 제2빈도를 계산하는 단계; 및
    계산된 제1빈도들과 계산된 제2빈도들에 기초하여 상기 형태소들 각각의 가중치를 계산하는 단계를 포함하는 주제어 판단 방법.
  8. 제5항에 있어서, 상기 제1주제어를 판단하는 단계는,
    상기 제1벡터들에 대하여 콘볼루션(convolution) 연산을 수행하여, 상기 제1벡터들에 관한 특징 맵들을 생성하는 단계;
    상기 특징 맵들 각각에 대하여, 상기 특징 맵들 각각의 차원을 감소시키는 서브샘플링(subsampling)을 수행하여 샘플링된 특징 맵들을 생성하는 단계; 및
    상기 샘플링된 특징 맵들을 이용하여 상기 제1주제어를 판단하는 단계를 포함하는 주제어 판단 방법.
  9. 제5항에 있어서, 상기 제1주제어를 판단하는 단계는,
    각각이 상기 제1벡터들 각각과 상기 제1군집의 제1중심 벡터 사이의 코사인 유사도(cosine similarity)를 계산하는 단계;
    계산된 코사인 유사도들에 기초하여 상기 제1벡터들 중에서 제1연관 벡터들을 선택하는 단계; 및
    상기 제1연관 벡터들을 상기 합성곱 신경망에 입력하여, 상기 제1군집을 대표하는 상기 제1주제어를 판단하는 단계를 포함하는 주제어 판단 방법.
  10. 프로세서와 메모리를 포함하는 장치에서 실행되는 프로그램의 작동에 따라 주제어를 판단하는 방법에 있어서,
    복수의 문서들을 포함하는 문서 데이터베이스로부터 제1문서를 수신하는 단계;
    상기 제1문서에 포함된 형태소들 각각이 상기 복수의 문서들 각각에 기재된 빈도에 기초하여 상기 형태소들 중에서 상기 제1문서와 연관도가 높은 형태소들을 의미하는 연관 형태소들을 선택하는 단계;
    상기 연관 형태소들을 벡터들로 변환하는 단계; 및
    상기 벡터들을 합성곱 신경망(convolution neural network)에 입력하여, 상기 형태소들을 대표하는 주제어를 판단하는 단계를 포함하고,
    상기 연관 형태소들을 선택하는 단계는,
    상기 형태소들 각각이 상기 제1문서에 기재된 제1빈도를 계산하는 단계;
    상기 형태소들 각각이 상기 복수의 문서들 중 상기 제1문서를 제외한 나머지 문서들에 기재된 제2빈도를 계산하는 단계; 및
    계산된 제1빈도들과 계산된 제2빈도들에 기초하여 상기 형태소들 중에서 상기 연관 형태소들을 선택하는 단계를 포함하는 주제어 판단 방법.
  11. 제10항에 있어서, 상기 주제어를 판단하는 단계는,
    상기 벡터들에 대하여 콘볼루션(convolution) 연산을 수행하여, 상기 벡터들에 관한 특징 맵들을 생성하는 단계;
    상기 특징 맵들 각각에 대하여, 상기 특징 맵들 각각의 차원을 감소시키는 서브샘플링(subsampling)을 수행하여 샘플링된 특징 맵들을 생성하는 단계; 및
    상기 샘플링된 특징 맵들을 이용하여 상기 주제어를 판단하는 단계를 포함하는 주제어 판단 방법.
  12. 하드웨어와 결합되어 단계들을 실행시키기 위하여 매체에 저장된 컴퓨터프로그램에 있어서,
    상기 단계들은,
    복수의 문서들을 포함하는 문서 데이터베이스로부터 제1문서를 수신하는 단계;
    상기 제1문서에 포함된 형태소들 각각이 상기 복수의 문서들 각각에 기재된 빈도에 기초하여 상기 형태소들 중에서 상기 제1문서와 연관도가 높은 형태소들을 의미하는 연관 형태소들을 선택하는 단계;
    상기 연관 형태소들을 벡터들로 변환하는 단계; 및
    상기 벡터들을 합성곱 신경망(convolution neural network)에 입력하여, 상기 형태소들을 대표하는 주제어를 판단하는 단계를 포함하는 매체에 저장된 컴퓨터프로그램.
  13. 하드웨어와 결합되어 단계들을 실행시키기 위하여 매체에 저장된 컴퓨터프로그램에 있어서,
    상기 단계들은,
    복수의 문서들을 포함하는 문서 데이터베이스로부터 제1문서를 수신하는 단계;
    상기 제1문서에 포함된 형태소들 각각이 상기 복수의 문서들 각각에 기재된 빈도에 기초하여 상기 형태소들 중에서 상기 제1문서와 연관도가 높은 형태소들을 의미하는 연관 형태소들을 선택하는 단계;
    상기 연관 형태소들을 벡터들로 변환하는 단계;
    상기 벡터들 각각의 방향과 크기에 기초하여 상기 벡터들 각각을 복수의 군집들로 군집화하는 단계; 및
    상기 벡터들 중에서 상기 복수의 군집들 중에서 제1군집으로 군집화된 제1벡터들을 합성곱 신경망(convolution neural network)에 입력하여, 상기 제1군집을 대표하는 주제어를 판단하는 단계를 포함하는 매체에 저장된 컴퓨터프로그램.
  14. 하드웨어와 결합되어 단계들을 실행시키기 위하여 매체에 저장된 컴퓨터프로그램에 있어서,
    상기 단계들은,
    복수의 문서들을 포함하는 문서 데이터베이스로부터 제1문서를 수신하는 단계; 및
    상기 제1문서에 포함된 형태소들 각각이 상기 복수의 문서들 각각에 기재된 빈도에 기초하여 상기 형태소들 중에서 상기 제1문서와 연관도가 높은 형태소들을 의미하는 연관 형태소들을 선택하는 단계;
    상기 연관 형태소들을 벡터들로 변환하는 단계; 및
    상기 벡터들을 합성곱 신경망(convolution neural network)에 입력하여, 상기 형태소들을 대표하는 주제어를 판단하는 단계를 포함하고,
    상기 연관 형태소들을 선택하는 단계는,
    상기 형태소들 각각이 상기 제1문서에 기재된 제1빈도를 계산하는 단계;
    상기 형태소들 각각이 상기 복수의 문서들 중 상기 제1문서를 제외한 나머지 문서들에 기재된 제2빈도를 계산하는 단계; 및
    계산된 제1빈도들과 계산된 제2빈도들에 기초하여 상기 형태소들 중에서 상기 연관 형태소들을 선택하는 단계를 포함하는 매체에 저장된 컴퓨터프로그램.
  15. 제1항 내지 제11항 중 어느 한 항에 기재된 주제어 판단 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 판독가능한 저장 매체.
KR1020170056160A 2016-11-29 2017-05-02 딥러닝-기반 키워드에 연관된 단어를 도출하는 방법과 컴퓨터프로그램 KR102011667B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020160159767 2016-11-29
KR20160159767 2016-11-29

Publications (2)

Publication Number Publication Date
KR20180062321A KR20180062321A (ko) 2018-06-08
KR102011667B1 true KR102011667B1 (ko) 2019-08-20

Family

ID=62600172

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170056160A KR102011667B1 (ko) 2016-11-29 2017-05-02 딥러닝-기반 키워드에 연관된 단어를 도출하는 방법과 컴퓨터프로그램

Country Status (1)

Country Link
KR (1) KR102011667B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210062934A (ko) * 2019-11-22 2021-06-01 주식회사 와이즈넛 단어 랭킹 기반의 텍스트 문서 군집 및 주제 생성 장치 및 그 방법

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102035658B1 (ko) * 2019-04-01 2019-10-23 한국과학기술정보연구원 신약 재창출 후보 추천 시스템 및 이 시스템의 각 기능을 실행시키기 위해 매체에 저장된 컴퓨터 프로그램
KR102330190B1 (ko) * 2019-07-02 2021-11-23 국민대학교산학협력단 복합 문서의 의미적 분해를 통한 다중 벡터 문서 임베딩 장치 및 방법
KR102403168B1 (ko) * 2019-10-02 2022-05-27 (주)디앤아이파비스 세부 중요도를 이용하여 단어의 중요도 스코어 산출 방법
KR102085355B1 (ko) * 2019-10-02 2020-03-05 (주)디앤아이파비스 특허문서의 유의어 사전 생성 방법, 장치 및 컴퓨터프로그램
KR102472200B1 (ko) * 2019-10-02 2022-11-29 (주)디앤아이파비스 단어의 출현 비율을 이용한 중요도 스코어 산출 방법
KR102360080B1 (ko) * 2019-10-02 2022-02-09 (주)디앤아이파비스 검색특허문헌의 참조 정보에 기반한 단어의 중요도 스코어 산출 방법
KR102095892B1 (ko) * 2019-10-02 2020-04-01 (주)디앤아이파비스 인공지능 모델을 이용한 특허문서의 유사도 판단 방법, 장치 및 시스템
KR102085216B1 (ko) * 2019-10-02 2020-03-04 (주)디앤아이파비스 단어의 중요도 스코어 산출 방법, 장치 및 컴퓨터프로그램
KR102405867B1 (ko) * 2019-10-02 2022-06-08 (주)디앤아이파비스 인공지능 모델을 이용한 특허문서의 중요도 판단 방법, 장치 및 시스템
KR102315213B1 (ko) * 2019-10-02 2021-10-20 (주)디앤아이파비스 클러스터링을 이용한 특허문서의 유사도 판단 방법, 장치 및 시스템
KR102383965B1 (ko) * 2019-10-14 2022-05-11 (주)디앤아이파비스 유사도 점수 및 비유사도 점수를 바탕으로 특허문서의 유사도를 판단하기 위한 방법, 장치 및 시스템
KR102085217B1 (ko) * 2019-10-14 2020-03-04 (주)디앤아이파비스 특허문서의 유사도 판단 방법, 장치 및 시스템
KR102300352B1 (ko) * 2019-10-14 2021-09-09 (주)디앤아이파비스 중요도 스코어를 바탕으로 특허문서의 유사도를 판단하기 위한 방법, 장치 및 시스템
KR102411204B1 (ko) * 2019-11-14 2022-06-21 주식회사 셀바스에이아이 텍스트 임베딩 방법 및 장치
KR102149541B1 (ko) * 2019-11-28 2020-08-28 (주)위세아이텍 보험금 부당청구 패턴 탐지를 위한 음성 데이터의 변수 도출 장치 및 방법
KR102114267B1 (ko) * 2019-12-10 2020-05-22 셀렉트스타 주식회사 딥러닝 기반 유사 텍스트를 필터링하는 방법 및 그를 이용한 장치
KR20220075815A (ko) * 2020-11-30 2022-06-08 (주)메디아이플러스 유사 임상 시험 데이터 제공 방법 및 이를 실행하는 서버
WO2022197033A1 (ko) * 2021-03-15 2022-09-22 주식회사 원티드랩 채용 중개 서비스에서 구직자 및 구인자의 매칭 확률 예측을 위한 신경망 모델 제공 전자 장치 및 방법
KR102601803B1 (ko) * 2021-03-15 2023-11-14 주식회사 원티드랩 채용 중개 서비스에서 구직자 및 구인자의 매칭 확률 예측을 위한 신경망 모델 제공 전자 장치 및 방법
KR102601804B1 (ko) * 2021-03-15 2023-11-15 주식회사 원티드랩 신경망 모델 기반의 채용 추천 서비스 제공 전자 장치 및 방법
KR102344075B1 (ko) * 2021-07-08 2021-12-29 이인익 데이터 마이닝기반 온라인 마케팅 플랫폼
KR102465571B1 (ko) * 2021-12-21 2022-11-11 주식회사 티맥스에이아이 문서 데이터의 주제어 분류를 수행하는 기법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101249183B1 (ko) 2006-08-22 2013-04-03 에스케이커뮤니케이션즈 주식회사 검색엔진의 주제 생성 및 문서 분류방법, 이를 수행할 수있는 프로그램이 수록된 컴퓨터로 읽을 수 있는 기록매체
KR101057072B1 (ko) * 2009-07-01 2011-08-16 주식회사 솔트룩스 시맨틱 데이터 추출 시스템 및 이를 이용한 검색 엔진
US10095917B2 (en) 2013-11-04 2018-10-09 Facebook, Inc. Systems and methods for facial representation

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210062934A (ko) * 2019-11-22 2021-06-01 주식회사 와이즈넛 단어 랭킹 기반의 텍스트 문서 군집 및 주제 생성 장치 및 그 방법
KR102376489B1 (ko) * 2019-11-22 2022-03-18 주식회사 와이즈넛 단어 랭킹 기반의 텍스트 문서 군집 및 주제 생성 장치 및 그 방법

Also Published As

Publication number Publication date
KR20180062321A (ko) 2018-06-08

Similar Documents

Publication Publication Date Title
KR102011667B1 (ko) 딥러닝-기반 키워드에 연관된 단어를 도출하는 방법과 컴퓨터프로그램
Das et al. A group incremental feature selection for classification using rough set theory based genetic algorithm
CN109948149B (zh) 一种文本分类方法及装置
US11625540B2 (en) Encoder, system and method for metaphor detection in natural language processing
Buscema et al. Training With Input Selection and Testing (TWIST) algorithm: a significant advance in pattern recognition performance of machine learning
CN111444320A (zh) 文本检索方法、装置、计算机设备和存储介质
Celeux et al. Variable selection in model-based clustering and discriminant analysis with a regularization approach
KR20180094664A (ko) 텍스트 데이터로부터 정보를 추출하기 위한 정보 추출 방법 및 장치
CN111695349A (zh) 文本匹配方法和文本匹配系统
Banik et al. Gru based named entity recognition system for bangla online newspapers
JPWO2019106965A1 (ja) 情報処理装置、情報処理方法、及びプログラム
CN112100377A (zh) 文本分类方法、装置、计算机设备和存储介质
Ruiz-Munoz et al. Dictionary learning for bioacoustics monitoring with applications to species classification
Kharlamov et al. Social network sentiment analysis and message clustering
CN113220865B (zh) 一种文本相似词汇检索方法、系统、介质及电子设备
Dönmez Introduction to Machine Learning, by Ethem Alpaydın. Cambridge, MA: The MIT Press2010. ISBN: 978-0-262-01243-0. $54/£ 39.95+ 584 pages.
Bandela et al. Speech emotion recognition using unsupervised feature selection algorithms
JP6899973B2 (ja) 意味関係学習装置、意味関係学習方法、及び意味関係学習プログラム
Zhang et al. A new active set method for nonnegative matrix factorization
Possemato et al. Automatic text categorization by a granular computing approach: facing unbalanced data sets
Kim et al. On using prototype reduction schemes and classifier fusion strategies to optimize kernel-based nonlinear subspace methods
CN113868424A (zh) 文本主题的确定方法、装置、计算机设备及存储介质
CN114490949A (zh) 基于bm25算法的文档检索方法、装置、设备及介质
Camastra et al. Clustering methods
Bagirov et al. A DC Optimization Algorithm for Clustering Problems with $ 𝑳_𝟏 $-norm

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant