KR20170141570A - 토픽 추출 장치 및 방법, 이를 수행하기 위한 기록 매체 - Google Patents

토픽 추출 장치 및 방법, 이를 수행하기 위한 기록 매체 Download PDF

Info

Publication number
KR20170141570A
KR20170141570A KR1020160084881A KR20160084881A KR20170141570A KR 20170141570 A KR20170141570 A KR 20170141570A KR 1020160084881 A KR1020160084881 A KR 1020160084881A KR 20160084881 A KR20160084881 A KR 20160084881A KR 20170141570 A KR20170141570 A KR 20170141570A
Authority
KR
South Korea
Prior art keywords
topic
word
words
extracting
value
Prior art date
Application number
KR1020160084881A
Other languages
English (en)
Other versions
KR101815309B1 (ko
Inventor
이수원
김희찬
김종훈
Original Assignee
숭실대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 숭실대학교산학협력단 filed Critical 숭실대학교산학협력단
Publication of KR20170141570A publication Critical patent/KR20170141570A/ko
Application granted granted Critical
Publication of KR101815309B1 publication Critical patent/KR101815309B1/ko

Links

Images

Classifications

    • G06F17/30699
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F17/30011
    • G06F17/30861
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 토픽 추출 장치 및 방법, 이를 수행하기 위한 기록 매체를 개시한다. 본 발명의 일 측면에 따른 토픽 추출 장치는, 문서에 포함된 텍스트 데이터를 전처리하는 전처리부; 상기 전처리된 텍스트 데이터를 잠재 디리클레 할당을 이용하여 토픽을 추출하는 토픽 추출부; 및 상기 추출된 토픽의 단어 집합 중 토픽의 의미를 대표적으로 표현하는 단어를 찾아 상기 토픽의 레이블로 지정하는 토픽 레이블링부;를 포함한다.

Description

토픽 추출 장치 및 방법, 이를 수행하기 위한 기록 매체{METHOD AND DEVICE FOR EXTRACTING TOPIC, RECORDING MEDIUM FOR PERFORMING THE METHOD}
본 발명은 토픽 추출 장치 및 방법, 이를 수행하기 위한 기록 매체에 관한 것으로, 더욱 상세하게는 토픽을 대표하는 단어를 선정하는 토픽 레이블링 방법을 통해 포털 사이트의 월별 뉴스 데이터로부터 월별 이슈를 추출하는 토픽 추출 장치 및 방법, 이를 수행하기 위한 기록 매체에 관한 것이다.
인터넷이 발달함에 따라 웹 문서의 양이 급격하게 증가하고 있으며, 상기 인터넷에 생성되는 수많은 대용량의 문서를 주제별로 분류하는 토픽 추출에 대한 연구가 진행되고 있다.
종래 기술에 따른 토픽 추출 방법 중 하나는 Blei가 제안한 대표적인 토픽 모델인 LDA(Latent Dirichlet Allocation : 이하 잠재 디리클레 할당)를 이용하여 토픽을 추출하는 것이다. 토픽 모델이란 문서 집합으로부터 토픽을 추출하는 모델이며, 자연어 처리 등에서 사용된다. 단어의 분포가 특정 토픽에 따라 다르다는 것을 기반으로 문서에 포함된 토픽을 확률 분포로 표현한다.
상기 토픽 모델을 이용하여 토픽을 추출하면 하나의 토픽은 단어의 집합으로 표현이 된다. 하지만, 이러한 토픽 모델은 해당 도메인에 대한 지식이 없으면 단어 집합이 의미하는 바에 대한 이해가 어려울 수 있다. 또한, 해석하는 사람에 따라 추출된 토픽이 다르게 해석 될 수 있어, 정확성이 떨어진다는 문제점이 발생한다.
한국등록특허 제10-1616544호(2016.04.28 공고)
본 발명은 상기와 같은 문제점을 해결하기 위해 제안된 것으로서, 단말 이중등록 탐지 장치를 통해 단말의 인증 시도 시점에 단말인증정보에 대한 변경이력을 실시간으로 탐지하여 위험도를 판단하고 블랙리스트를 관리함며, 상기 블랙리스트 정보를 이용하여 불법 인터넷 국제 발신호를 탐지하는 경우, 이를 차단하는 단말 이중 등록 검출을 이용한 불법 인터넷 국제 발신호 탐지 장치 및 방법을 제공하는데 그 목적이 있다.
본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 일 실시 예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허청구범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
상기와 같은 목적을 달성하기 위한 본 발명의 일 측면에 따른 토픽 추출 장치는, 문서에 포함된 텍스트 데이터를 전처리하는 전처리부; 상기 전처리된 텍스트 데이터를 잠재 디리클레 할당을 이용하여 토픽을 추출하는 토픽 추출부; 및 상기 추출된 토픽의 단어 집합 중 토픽의 의미를 대표적으로 표현하는 단어를 찾아 상기 토픽의 레이블로 지정하는 토픽 레이블링부;를 포함한다.
상기 전처리부는, 문서에 포함된 텍스트 데이터에서 문장을 분리하여 형태소별로 태깅하는 형태소 분석부; 상기 형태소별로 태깅된 결과 중 명사만 추출하는 명사 추출부; 및 상기 추출된 명사 중에서 불용어를 제거하는 불용어 제거부;를 포함한다.
상기 토픽 레이블링부는, 상기 전처리된 텍스트 데이터를 Word2vec 알고리즘으로 학습하여 모든 단어를 벡터값으로 추출하여 표현하는 벡터값 추출부; 및 상기 추출된 벡터값 중에서 토픽 내의 단어 집합의 벡터값으로 토픽 내의 단어 간 거리를 계산하는 단어 간 거리 계산부;를 포함한다.
상기 단어 간 거리 계산부는, 토픽별 단어들의 벡터값을 이용하여 추출된 토픽 단어의 벡터값으로 중앙값을 구하고, 상기 계산된 중앙값으로부터 가장 가까운 벡터값을 구하여 토픽 내의 단어 간 거리를 계산할 수 있다.
상기 중앙값은, 토픽별 단어집합이 n개의 단어로 구성될 경우, n번째까지의 단어 벡터값들의 총합을 상기 토픽별 단어집합에 포함된 n개의 단어 개수로 나누어 산출될 수 있다.
상기 토픽 내의 단어 간 거리는, 차원(dimension)이 k일 경우, 1부터 k번째까지의 중앙값의 k차원의 값과 토픽 내 특정 단어의 k차원의 값의 차를 제곱하여 합산한 값을 거듭 제곱하여 산출될 수 있다.
상기와 같은 목적을 달성하기 위한 본 발명의 다른 측면에 따른 토픽 추출 장치에서의 토픽 추출 방법은, 문서에 포함된 텍스트 데이터를 전처리하는 전처리 단계; 상기 전처리된 텍스트 데이터를 LDA를 이용하여 토픽을 추출하는 토픽 추출 단계; 및 상기 추출된 토픽의 단어 집합 중 토픽의 의미를 대표적으로 표현하는 단어를 찾아 상기 토픽의 레이블로 지정하는 토픽 레이블링 단계;를 포함한다.
상기 전처리 단계는, 문서에 포함된 텍스트 데이터에서 문장을 분리하여 형태소별로 태깅하는 형태소 분석 단계; 상기 형태소별로 태깅된 결과 중 명사만 추출하는 명사 추출 단계; 및 상기 추출된 명사 중에서 불용어를 제거하는 불용어 제거 단계;를 포함한다.
상기 토픽 레이블링 단계는, 상기 전처리된 텍스트 데이터를 Word2vec 알고리즘으로 학습하여 모든 단어를 벡터값으로 추출하여 표현하는 벡터값 추출 단계; 및 상기 추출된 벡터값 중에서 토픽 내의 단어 집합의 벡터값으로 토픽 내의 단어 간 거리를 계산하는 단어 간 거리 계산 단계;를 포함한다.
상기 단어 간 거리 계산 단계는, 토픽별 단어들의 벡터값을 이용하여 추출된 토픽 단어의 벡터값으로 중앙값을 구하고, 상기 계산된 중앙값으로부터 가장 가까운 벡터값을 구하여 토픽 내의 단어 간 거리를 계산할 수 있다.
상기 중앙값은, 토픽별 단어집합이 n개의 단어로 구성될 경우, n번째까지의 단어 벡터값들의 총합을 상기 토픽별 단어집합에 포함된 n개의 단어 개수로 나누어 산출될 수 있다.
상기 토픽 내의 단어 간 거리는, 차원(dimension)이 k일 경우, 1부터 k번째까지의 중앙값의 k차원의 값과 토픽 내 특정 단어의 k차원의 값의 차를 제곱하여 합산한 값을 거듭 제곱하여 산출될 수 있다.
상기와 같은 목적을 달성하기 위한 본 발명의 다른 측면에 따른 기록 매체는, 토픽 추출 방법을 수행하기 위한, 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체일 수 있다.
본 발명의 일 측면에 따르면, 토픽을 보다 정확하게 추출할 수 있는 효과가 있다.
본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 명세서에 첨부되는 다음의 도면들은 본 발명의 바람직한 실시 예를 예시하는 것이며, 발명을 실시하기 위한 구체적인 내용들과 함께 본 발명의 기술사상을 더욱 이해시키는 역할을 하는 것이므로, 본 발명은 그러한 도면에 기재된 사항에만 한정되어 해석되어서는 아니 된다.
도 1은 본 발명의 일 실시 예에 따른 토픽 추출 장치의 구성도,
도 2는 도 1의 전처리부의 기능 블록도,
도 3은 도 1의 토픽 레이블링부의 기능 블록도,
도 4는 본 발명의 일 실시 예에 따른 토픽 추출 방법에 대한 흐름도이다.
상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일 실시 예를 상세히 설명하기로 한다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 “포함”한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 “…부” 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도 1은 본 발명의 일 실시 예에 따른 토픽 추출 장치의 구성도, 도 2는 도 1의 전처리부의 기능 블록도, 도 3은 도 1의 토픽 레이블링부의 기능 블록도이다.
본 실시 예를 설명함에 있어서, 각 구성요소들이 독립적으로 동작되는 것으로 설명하지만 이에 한하지 않으며, 제어부(미도시)의 제어에 의해 각 구성요소들이 동작될 수도 있다.
토픽 추출(Topic Extration)의 대표적인 방법은 잠재 디리클레 할당(Latent Dirichlet Allocation : 이하 LDA)이다. 잠재 디리클레 할당(LDA)은 주어진 문서로부터 문서들의 주제별 단어 분포를 추정하고 주어진 문서에서 발견된 단어의 분포를 분석하는 알고리즘으로 해당 문서가 어떤 주제들을 다루고 있는지 알 수 있다.
도 1을 참조하면, 본 실시 예에 따른 토픽 추출 장치(100)는 전처리부(110), 토픽 추출부(130) 및 토픽 레이블링부(150)를 포함한다.
전처리부(110)는 문서에 포함된 데이터를 전처리한다. 문서에 포함된 데이터는 텍스트 데이터이므로, 토픽을 추출하기 위해서는 문서의 전처리를 하여야 한다. 즉, 전처리부(110)는 토픽을 추출하기 위해 텍스트 데이터를 전처리한다.
한편, 전처리부(110)는 도 2에 도시된 바와 같이, 형태소 분석부(210), 명사 추출부(230) 및 불용어 제거부(250)를 포함할 수 있다.
형태소 분석부(210)는, 문서에 포함된 텍스트 데이터에서 문장을 분리하여 형태소별로 태깅할 수 있다. 형태소란, 뜻을 가진 가장 작은 말을 뜻한다. 형태소 분석부(210)는 문서에 포함된 텍스트 데이터에서 문장을 분리하여 뜻을 가진 가장 작은 말 즉, 형태소별로 태깅할 수 있다.
명사 추출부(230)는, 형태소별로 태깅된 결과 중 명사만 추출할 수 있다.
불용어 제거부(250)는, 추출된 명사 중에서 불용어를 제거할 수 있다. 추출된 명사 중에는 의미가 중요하지 않거나 변별력이 없는 용어가 있을 수 있다. 따라서, 불용어 제거부(250)는 추출된 명사 중에서 의미가 중요하지 않거나, 변별력이 없는 용어를 제거할 수 있다.
토픽 추출부(130)는 전처리된 텍스트 데이터를 LDA를 이용하여 토픽을 추출한다. 즉, 토픽 추출부(130)는 전처리된 텍스트 데이터를 LDA를 이용하여 토픽을 추출함으로써, 단어의 집합으로 표현할 수 있다.
토픽 레이블링부(150)는 추출된 토픽의 단어 집합 중 토픽의 의미를 대표적으로 표현하는 단어를 찾아 토픽의 레이블로 지정한다. 토픽 레이블링은 추출된 토픽의 단어 집합 중 토픽의 의미를 가장 대표적으로 표현하는 단어를 찾는 것이다. 예컨대, 토픽 레이블링은, 토픽 추출부(130)에서 추출된 단어 집합 중 토픽의 의미를 가장 대표적으로 표현하는 단어를 찾는 것이다.
토픽 레이블링부(150)는 도 3에 도시된 바와 같이, 벡터값 추출부(310) 및 단어 간 거리 계산부(330)를 포함할 수 있다.
벡터값 추출부(310)는, 추출된 단어 집합에 나오는 단어들을 벡터값으로 표현한다.
벡터값 추출부(310)는, 전처리된 텍스트 데이터를 Word2vec 알고리즘으로 학습하여 모든 단어를 벡터값으로 추출하여 표현할 수 있다.
Word2vec 알고리즘은, 텍스트마이닝을 위한 알고리즘으로, 각 단어 간의 앞, 뒤 관계를 보고 근접도를 정하는 알고리즘이다. Word2vec 알고리즘은 비지도 학습 알고리즘이다. Word2vec 알고리즘은 이름이 나타내는 바와 같이 단어의 의미를 벡터형태로 표현하는 계량기법일 수 있다. Word2vec 알고리즘은 각 단어를 200차원 정도의 공간에서 백터로 표현할 수 있다. Word2vec 알고리즘을 이용하면, 각 단어마다 단어에 해당하는 벡터를 구할 수 있다. Word2vec 알고리즘은 종래의 다른 알고리즘에 비해 자연어 처리 분야에서 비약적인 정밀도 향상을 가능하게 할 수 있다. Word2vec은 입력한 말뭉치의 문장에 있는 단어와 인접 단어의 관계를 이용해 단어의 의미를 학습할 수 있다. Word2vec 알고리즘은 인공 신경망에 근거한 것으로, 같은 맥락을 지닌 단어는 가까운 의미를 지니고 있다는 전제에서 출발한다. Word2vec 알고리즘은 텍스트 문서를 통해 학습을 진행하며, 한 단어에 대해 근처(전후 5 내지 10 단어 정도)에 출현하는 다른 단어들을 관련 단어로서 인공 신경망에 학습시킨다. 연관된 의미의 단어들은 문서상에서 가까운 곳에 출현할 가능성이 높기 때문에 학습을 반복해 나가는 과정에서 두 단어는 점차 가까운 벡터를 지닐 수 있다. Word2vec 알고리즘의 학습 방법은 CBOW(Continous Bag Of Words) 방식과 skip-gram 방식이 있다. CBOW 방식은 주변 단어가 만드는 맥락을 이용해 타겟 단어를 예측하는 것이다. skip-gram 방식은 한 단어를 기준으로 주변에 올 수 있는 단어를 예측하는 것이다. 대규모 데이터셋에서는 skip-gram 방식이 더 정확한 것으로 알려져 있다. 따라서, 본 발명의 실시 예에서는 skip-gram 방식을 이용한 Word2vec 알고리즘을 사용한다. 예컨대, Word2vec 알고리즘을 통해 학습이 잘 완료되면, 고차원 공간에서 비슷한 단어는 근처에 위치할 수 있다. 예를 들어, 나무의 종류인 oak, elm 및 birch는 비슷한 곳에 모일 수 있다. 또한, 의미의 유사성이 있는 war(전쟁), conflict(갈등) 및 strife(불화)는 다른 위치에 모일 수 있다. 즉, 비슷한 물체나 개념은 가까이에 위치할 수 있다. Word2vec 알고리즘은 공지된 기술이므로 벡터값 계산과 관련한 보다 상세한 설명은 생략하기로 한다.
단어 간 거리 계산부(330)는, 벡터값 추출부(310)에서 나온 단어의 벡터값 중에서, 토픽 내의 단어 집합의 벡터값으로 토픽 내의 단어 간 거리를 계산할 수 있다. 보다 구체적으로, 단어 간 거리 계산부(330)는, 토픽별 단어들의 벡터값을 이용하여 추출된 토픽 단어의 벡터값으로 중앙값을 구하고, 계산된 중앙값으로부터 가장 가까운 벡터값을 구하여 토픽 내의 단어 간 거리를 계산할 수 있다. 이때, 중앙값은, 아래의 수학식1에 의해 산출될 수 있다.
Figure pat00001
수학식 1은 n개 단어로 구성된 토픽에서의 중앙값을 산출하기 위해 사용될 수 있다. 이때, wn는 토픽별 단어 집합에서 n번째 단어의 벡터값을 의미하며, m은 토픽별 단어들의 벡터값으로 연산된 중앙값을 의미한다.
즉, 단어 간 거리 계산부(330)는, 토픽별 단어집합이 n개의 단어로 구성될 경우, n번째까지의 단어 벡터값들의 총합을 토픽별 단어집합에 포함된 n개의 단어 개수로 나누어 산출하여 중앙값을 구할 수 있다.
토픽 내의 단어 간 거리는, 중앙값과 특정 단어 간의 거리를 산출하는 것일 수 있다.
토픽 내의 단어 간 거리는, 아래의 수학식 2에 의해 산출될 수 있다.
Figure pat00002
수학식 2는 n개 단어의 중앙값(m)과 특정 단어(wi)의 거리를 산출하기 위해 사용될 수 있다. 이때, k는 차원(dimension), mk는 중앙값 k차원의 값, vik는 토픽 내 특정 단어 wi의 k차원의 값, distance(m,wi)는 중앙값 m과 특정 단어(wi) 간 거리를 의미할 수 있다.
단어 간 거리 계산부(330)는, 수학식 1을 기초로 토픽별 단어들의 벡터값으로 중앙값을 구하고, 수학식 2를 기초로 중앙값과 토픽별 단어 간의 거리를 계산할 수 있다. 이에 따라, 중앙값에서 가장 가까운 벡터에 해당하는 단어를 찾을 수 있다. 이와 같이 찾아진 단어는 추출된 토픽의 단어 집합 중 토픽의 의미를 대표적으로 표현하는 단어일 수 있으며, 단어는 토픽의 레이블로 지정할 수 있다.
상술한 바에 따르면, 토픽 레이블링부(150)는, 수학식 1 및 수학식 2를 기초로 토픽별 단어들의 벡터값으로 중앙값을 구하고, 중앙값과 토픽별 단어 간의 거리를 계산하여 중앙값에서 가장 가까운 벡터에 해당하는 단어를 찾아 토픽의 레이블로 지정할 수 있다.
도 4는 본 발명의 일 실시 예에 따른 토픽 추출 방법에 대한 흐름도이다.
토픽 추출(Topic Extration)의 대표적인 방법은 잠재 디리클레 할당(Latent Dirichlet Allocation : 이하 LDA)이다. 잠재 디리클레 할당(LDA)은 주어진 문서로부터 문서들의 주제별 단어 분포를 추정하고 주어진 문서에서 발견된 단어의 분포를 분석하는 알고리즘으로 해당 문서가 어떤 주제들을 다루고 있는지 알 수 있다.
도 4를 참조하면, 본 실시 예에 따른 토픽 추출 장치(100)에서의 토픽 추출 방법은, 전처리 단계, 토픽 추출 단계 및 토픽 레이블링 단계를 포함한다.
전처리 단계에서는, 토픽 추출 장치(100)가 문서에 포함된 데이터를 전처리한다. 문서에 포함된 데이터는 텍스트 데이터이므로, 토픽 추출을 위해서는 전처리를 하여야 한다. 따라서, 토픽 추출 장치(100)는 토픽을 추출하기 위해 텍스트 데이터를 전처리한다.
한편, 전처리 단계는, 형태소 분석 단계, 명사 추출 단계 및 불용어 제거 단계를 포함할 수 있다.
형태소 분석 단계에서는, 토픽 추출 장치(100)가 문서에 포함된 텍스트 데이터에서 문장을 분리하여 형태소 별로 태깅할 수 있다. 형태소란, 뜻을 가진 가장 작은 말을 뜻한다. 형태소 분석부(210)는 문서에 포함된 텍스트 데이터에서 문장을 분리하여 뜻을 가진 가장 작은 말 즉, 형태소별로 태깅할 수 있다.
명사 추출 단계에서는, 토픽 추출 장치(100)가 형태소별로 태깅된 결과 중 명사만 추출할 수 있다.
불용어 제거 단계에서는, 토픽 추출 장치(100)가 추출된 명사 중에서 불용어를 제거할 수 있다. 추출된 명사 중에는 의미가 중요하지 않거나 변별력이 없는 용어가 있을 수 있다. 따라서, 토픽 추출 장치(100)는 추출된 명사 중에서 의미가 중요하지 않거나, 변별력이 없는 용어를 제거할 수 있다.
토픽 추출 단계에서는, 토픽 추출 장치(100)가 전처리된 텍스트 데이터를 LDA를 이용하여 토픽을 추출한다. 토픽 추출 장치(100)는 전처리된 텍스트 데이터를 LDA를 이용하여 토픽을 추출함으로써, 단어의 집합으로 표현할 수 있다.
토픽 레이블링 단계에서는, 토픽 추출 장치(100)가 추출된 토픽의 단어 집합 중 토픽의 의미를 대표적으로 표현하는 단어를 찾아 토픽의 레이블로 지정한다. 토픽 레이블링은 추출된 토픽의 단어 집합 중 토픽의 의미를 가장 대표적으로 표현하는 단어를 찾는 것이다. 예컨대, 토픽 레이블링은 토픽 추출 단계에서 추출된 단어 집합 중 토픽의 의미를 가장 대표적으로 표현하는 단어를 찾는 것일 수 있다.
한편, 토픽 레이블링 단계는, 벡터값 추출 단계 및 단어 간 거리 계산 단계를 포함할 수 있다.
벡터값 추출 단계에서는, 토픽 추출 장치(100)가 전처리된 텍스트 데이터를 Word2vec 알고리즘으로 학습하여 모든 단어를 벡터값으로 추출하여 표현할 수 있다.
단어 간 거리 계산 단계에서는, 토픽 추출 장치(100)가 벡터값 추출 단계에서 나온 단어의 벡터값 중에서, 토픽 내의 단어 집합의 벡터값으로 토픽 내의 단어 간 거리를 계산할 수 있다. 보다 구체적으로, 토픽 추출 장치(100)는 토픽별 단어들의 벡터값을 이용하여 추출된 토픽 단어의 벡터값으로 중앙값을 구하고, 계산된 중앙값으로부터 가장 가까운 벡터값을 구하여 토픽 내의 단어 간 거리를 계산할 수 있다. 이때, 중앙값은 상술한 수학식 1에 의해 산출될 수 있다. 또한, 토픽 내의 단어 간 거리는, 중앙값과 특정 단어 간의 거리를 산출하는 것일 수 있으며, 상술한 수학식 2에 의해 산출될 수 있다.
상술한 바와 같은 본 발명의 실시 예에 따르면, 배경 지식이 없어도, 추출된 토픽에 포함된 단어 집합이 의미하는 내용을 이해하기 쉽다는 장점이 있다.
또한, 토픽을 보다 정확하게 추출할 수 있는 효과가 있다.
본 발명의 실시예에 따른 방법들은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는, 본 발명을 위한 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
본 명세서는 많은 특징을 포함하는 반면, 그러한 특징은 본 발명의 범위 또는 특허청구범위를 제한하는 것으로 해석되어서는 아니 된다. 또한, 본 명세서의 개별적인 실시 예에서 설명된 특징들은 단일 실시 예에서 결합되어 구현될 수 있다. 반대로, 본 명세서의 단일 실시 예에서 설명된 다양한 특징들은 개별적으로 다양한 실시 예에서 구현되거나, 적절히 결합되어 구현될 수 있다.
도면에서 동작들이 특정한 순서로 설명되었으나, 그러한 동작들이 도시된 바와 같은 특정한 순서로 수행되는 것으로 또는 일련의 연속된 순서, 또는 원하는 결과를 얻기 위해 모든 설명된 동작이 수행되는 것으로 이해되어서는 안 된다. 특정 환경에서 멀티태스킹 및 병렬 프로세싱이 유리할 수 있다. 아울러, 상술한 실시 예에서 다양한 시스템 구성요소의 구분은 모든 실시 예에서 그러한 구분을 요구하지 않는 것으로 이해되어야 한다. 상술한 앱 구성요소 및 시스템은 일반적으로 단일 소프트웨어 제품 또는 멀티플 소프트웨어 제품에 패키지로 구현될 수 있다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시 예 및 첨부된 도면에 의해 한정되는 것은 아니다.
100 : 토픽 추출 장치
110 : 전처리부
130 : 토픽 추출부
150 : 토픽 레이블링부
210 : 형태소 분석부
230 : 명사 추출부
250 : 불용어 제거부
310 : 벡터값 추출부
330 : 단어 간 거리 계산부

Claims (13)

  1. 문서에 포함된 텍스트 데이터를 전처리하는 전처리부;
    상기 전처리된 텍스트 데이터를 잠재 디리클레 할당을 이용하여 토픽을 추출하는 토픽 추출부; 및
    상기 추출된 토픽의 단어 집합 중 토픽의 의미를 대표적으로 표현하는 단어를 찾아 상기 토픽의 레이블로 지정하는 토픽 레이블링부;를 포함하는 토픽 추출 장치.
  2. 제 1 항에 있어서,
    상기 전처리부는,
    문서에 포함된 텍스트 데이터에서 문장을 분리하여 형태소별로 태깅하는 형태소 분석부;
    상기 형태소별로 태깅된 결과 중 명사만 추출하는 명사 추출부; 및
    상기 추출된 명사 중에서 불용어를 제거하는 불용어 제거부;를 포함하는 토픽 추출 장치.
  3. 제 1 항에 있어서,
    상기 토픽 레이블링부는,
    상기 전처리된 텍스트 데이터를 Word2vec 알고리즘으로 학습하여 모든 단어를 벡터값으로 추출하여 표현하는 벡터값 추출부; 및
    상기 추출된 벡터값 중에서 토픽 내의 단어 집합의 벡터값으로 토픽 내의 단어 간 거리를 계산하는 단어 간 거리 계산부;를 포함하는 토픽 추출 장치.
  4. 제 3 항에 있어서,
    상기 단어 간 거리 계산부는,
    토픽별 단어들의 벡터값을 이용하여 추출된 토픽 단어의 벡터값으로 중앙값을 구하고, 상기 계산된 중앙값으로부터 가장 가까운 벡터값을 구하여 토픽 내의 단어 간 거리를 계산하는 토픽 추출 장치.
  5. 제 4 항에 있어서,
    상기 중앙값은, 토픽별 단어집합이 n개의 단어로 구성될 경우, n번째까지의 단어 벡터값들의 총합을 상기 토픽별 단어집합에 포함된 n개의 단어 개수로 나누어 산출되는 토픽 추출 장치.
  6. 제 5 항에 있어서,
    상기 토픽 내의 단어 간 거리는,
    차원(dimension)이 k일 경우, 1부터 k번째까지의 중앙값의 k차원의 값과 토픽 내 특정 단어의 k차원의 값의 차를 제곱하여 합산한 값을 거듭 제곱하여 산출되는 토픽 추출 장치.
  7. 토픽 추출 장치에서의 토픽 추출 방법에 있어서,
    문서에 포함된 텍스트 데이터를 전처리하는 전처리 단계;
    상기 전처리된 텍스트 데이터를 LDA를 이용하여 토픽을 추출하는 토픽 추출 단계; 및
    상기 추출된 토픽의 단어 집합 중 토픽의 의미를 대표적으로 표현하는 단어를 찾아 상기 토픽의 레이블로 지정하는 토픽 레이블링 단계;를 포함하는 토픽 추출 방법.
  8. 제 7 항에 있어서,
    상기 전처리 단계는,
    문서에 포함된 텍스트 데이터에서 문장을 분리하여 형태소별로 태깅하는 형태소 분석 단계;
    상기 형태소별로 태깅된 결과 중 명사만 추출하는 명사 추출 단계; 및
    상기 추출된 명사 중에서 불용어를 제거하는 불용어 제거 단계;를 포함하는 토픽 추출 방법.
  9. 제 7 항에 있어서,
    상기 토픽 레이블링 단계는,
    상기 전처리된 텍스트 데이터를 Word2vec 알고리즘으로 학습하여 모든 단어를 벡터값으로 추출하여 표현하는 벡터값 추출 단계; 및
    상기 추출된 벡터값 중에서 토픽 내의 단어 집합의 벡터값으로 토픽 내의 단어 간 거리를 계산하는 단어 간 거리 계산 단계;를 포함하는 토픽 추출 방법.
  10. 제 9 항에 있어서,
    상기 단어 간 거리 계산 단계는,
    토픽별 단어들의 벡터값을 이용하여 추출된 토픽 단어의 벡터값으로 중앙값을 구하고, 상기 계산된 중앙값으로부터 가장 가까운 벡터값을 구하여 토픽 내의 단어 간 거리를 계산하는 토픽 추출 방법.
  11. 제 10 항에 있어서,
    상기 중앙값은, 토픽별 단어집합이 n개의 단어로 구성될 경우, n번째까지의 단어 벡터값들의 총합을 상기 토픽별 단어집합에 포함된 n개의 단어 개수로 나누어 산출되는 토픽 추출 방법.
  12. 제 11 항에 있어서,
    상기 토픽 내의 단어 간 거리는,
    차원(dimension)이 k일 경우, 1부터 k번째까지의 중앙값의 k차원의 값과 토픽 내 특정 단어의 k차원의 값의 차를 제곱하여 합산한 값을 거듭 제곱하여 산출되는 토픽 추출 방법.
  13. 제 7 항 내지 제 12 항 중 어느 한 항에 따른 토픽 추출 방법을 수행하기 위한, 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.
KR1020160084881A 2016-06-15 2016-07-05 토픽 추출 장치 및 방법, 이를 수행하기 위한 기록 매체 KR101815309B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20160074689 2016-06-15
KR1020160074689 2016-06-15

Publications (2)

Publication Number Publication Date
KR20170141570A true KR20170141570A (ko) 2017-12-26
KR101815309B1 KR101815309B1 (ko) 2018-01-04

Family

ID=60937080

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160084881A KR101815309B1 (ko) 2016-06-15 2016-07-05 토픽 추출 장치 및 방법, 이를 수행하기 위한 기록 매체

Country Status (1)

Country Link
KR (1) KR101815309B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200026351A (ko) * 2018-08-29 2020-03-11 동국대학교 산학협력단 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 장치 및 방법
WO2020050706A1 (ko) * 2018-09-06 2020-03-12 엘지전자 주식회사 워드벡터 보정 방법
US11256869B2 (en) 2018-09-06 2022-02-22 Lg Electronics Inc. Word vector correction method

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210030837A (ko) 2019-09-10 2021-03-18 한국전자통신연구원 전자 장치, 온라인 문서 기반 범죄 유형 결정 방법 및 기록 매체
KR20220099308A (ko) 2021-01-06 2022-07-13 서강대학교산학협력단 특허문헌의 제품별 분석방법 및 장치

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9575952B2 (en) * 2014-10-21 2017-02-21 At&T Intellectual Property I, L.P. Unsupervised topic modeling for short texts

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200026351A (ko) * 2018-08-29 2020-03-11 동국대학교 산학협력단 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 장치 및 방법
WO2020050706A1 (ko) * 2018-09-06 2020-03-12 엘지전자 주식회사 워드벡터 보정 방법
US11256869B2 (en) 2018-09-06 2022-02-22 Lg Electronics Inc. Word vector correction method

Also Published As

Publication number Publication date
KR101815309B1 (ko) 2018-01-04

Similar Documents

Publication Publication Date Title
KR101815309B1 (ko) 토픽 추출 장치 및 방법, 이를 수행하기 위한 기록 매체
KR101806151B1 (ko) 대체어 자동 추출 장치 및 방법, 이를 수행하기 위한 기록 매체
JP6727610B2 (ja) 文脈解析装置及びそのためのコンピュータプログラム
KR101500900B1 (ko) 학습 데이터로부터 생성된 최종 분류기를 이용하여 텍스트를 분류하는 방법 및 시스템
US20210124876A1 (en) Evaluating the Factual Consistency of Abstractive Text Summarization
WO2017177809A1 (zh) 语言文本的分词方法和系统
CN104462053A (zh) 一种文本内的基于语义特征的人称代词指代消解方法
CN111428493A (zh) 实体关系获取方法、装置、设备及存储介质
KR101851790B1 (ko) 질문 데이터 세트 확장 장치 및 방법
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
Aravinda Reddy et al. LSTM based paraphrase identification using combined word embedding features
CN109635275A (zh) 文献内容检索与识别方法及装置
KR20220122455A (ko) 영상 데이터에 포함된 객체 분할 방법 및 이를 수행하는 장치
Nogueira dos Santos et al. Portuguese part-of-speech tagging using entropy guided transformation learning
CN113918936A (zh) Sql注入攻击检测的方法以及装置
Nguyen et al. Improving named entity recognition in vietnamese texts by a character-level deep lifelong learning model
CN109542766A (zh) 基于代码映射和词法分析的大规模程序相似性快速检测与证据生成方法
KR20180060871A (ko) 증권사 리포트 기반의 감성 사전 구축 장치 및 방법, 이를 이용한 주가 등락 예측 시스템
KR101705804B1 (ko) 시맨틱 콘텐츠 분류 장치 및 이를 이용한 콘텐츠 분류 방법
Aziz et al. Instance segmentation of fire safety equipment using mask R-CNN
CN114780678A (zh) 文本检索方法、装置、设备及存储介质
Mansouri et al. Text-to-concept: a semantic indexing framework for arabic news videos
Balahur et al. Multilingual feature-driven opinion extraction and summarization from customer reviews
KR20230020116A (ko) 상표 관련 서비스를 제공하는 컴퓨팅 장치 및 그 방법
Kokane et al. An adaptive algorithm for polysemous words in natural language processing

Legal Events

Date Code Title Description
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant