KR101327159B1

KR101327159B1 - 문서의 토픽 흐름 분석방법

Info

Publication number: KR101327159B1
Application number: KR1020120006473A
Authority: KR
Inventors: 최호진; 정영섭
Original assignee: 한국과학기술원
Priority date: 2012-01-20
Filing date: 2012-01-20
Publication date: 2013-11-06
Also published as: KR20130085601A

Abstract

본 발명의 문서의 토픽 흐름 분석방법은 문서의 소정 구간에 대해 하나 이상의 객체 집단 각각에 대한 토픽의 확률 분포를 구하는 제1단계; 상기 소정 구간에 대해, 상기 하나 이상의 객체 집단 중 상기 소정 구간에 포함되는 문장에 실제로 등장한 객체 집단들의 토픽의 확률 분포들을 서로 곱하는 제2단계; 상기 제2단계의 결과값으로부터 토픽을 샘플링하는 제3단계; 및 상기 토픽에 해당하는 토픽-워드 분포로부터 단어들을 샘플링하는 제4단계를 포함한다.

Description

문서의 토픽 흐름 분석방법 {Topic Flow Analysis Method for Document}

본 발명은 문서의 토픽 흐름 분석방법에 관한 것으로, 특히 객체 또는 객체 집단의 관점에서 문서의 토픽 흐름을 분석할 수 있는 방법에 관한 것이다.

문서의 양은 시간이 지남에 따라 천문학적으로 증가하므로 문서의 토픽을 자동으로 분석하는 여러 가지 기법들이 소개되고 있다.

이러한 상황에서, 하나의 이야기 구조를 가지는 문서에서 객체 또는 객체 집단의 관점에서 토픽의 흐름을 구하는 연구가 진행될 필요가 있다. 예를 들어, 소설의 주인공의 관점에서 이야기의 흐름을 분석하고자 할 때, 이를 자동으로 수행해주는 토픽 모델에 대한 필요성이 대두되고 있다.

한국공개공보 제10-2010-0038378호 (2010.04.14)

본 발명은 종래의 필요성을 충족시키기 위해 안출된 것으로써, 객체 또는 객체 집단의 관점에서 하나의 이야기 흐름을 갖는 문서의 토픽 흐름을 구할 수 있는 기법을 제공하기 위한 것이다.

본 발명이 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 본 발명의 기재로부터 당해 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 발명에 따른 문서의 토픽 흐름 분석방법은 문서의 소정 구간에 대해 하나 이상의 객체 집단 각각에 대한 토픽의 확률 분포를 구하는 제1단계; 상기 소정 구간에 대해, 상기 하나 이상의 객체 집단 중 상기 소정 구간에 포함되는 문장에 실제로 등장한 객체 집단들의 토픽의 확률 분포들을 서로 곱하는 제2단계; 상기 제2단계의 결과값으로부터 토픽을 샘플링하는 제3단계; 및 상기 토픽에 해당하는 토픽-워드 분포로부터 단어들을 샘플링하는 제4단계를 포함한다.

본 발명의 실시예에서, 상기 문서에는 상기 소정 구간이 복수개 포함되고 상기 제1단계는 상기 소정 구간의 개수만큼 반복되며, 그리고 상기 복수의 소정 구간 중 특정 소정 구간의 상기 토픽의 확률 분포는 상기 특정 소정 구간 이전의 소정 구간의 상기 토픽의 확률 분포로부터 영향을 받을 수 있다.

또한, 상기 문서 자체에 대해서 상기 하나 이상의 객체 집단 각각에 대한 토픽의 확률 분포를 구하는 단계를 더 포함하며, 상기 복수의 소정 구간 중 첫번째 소정 구간의 상기 토픽의 확률 분포는 상기 문서 자체의 상기 토픽의 확률 분포로부터 영향을 받을 수 있다.

본 발명의 실시예에 따르면 객체 또는 객체 집단의 관점에서 하나의 이야기 흐름을 갖는 문서의 토픽 흐름을 구할 수 있는 기법을 제공할 수 있다. 또한, 본 발명의 실시예에 따르면 문서의 단어 빈도수를 이용하여 토픽을 분석하는 토픽 마이닝을 이용하므로 문서 이외의 추가적인 데이터나 메타 데이터를 필요로 하지 않는다.

도1은 본 발명의 실시예에 따라 객체 또는 객체 집단의 관점에서 토픽 흐름을 분석을 위한 토픽 모델이다.
도2는 도1에 표시된 용어 및 기호에 대한 설명을 나타낸다.

이하, 본 발명의 바람직한 실시예의 상세한 설명이 첨부된 도면들을 참조하여 설명된다. 그러나, 본 발명의 실시형태는 여러 가지의 다른 형태로 변형될 수 있으며, 본 발명의 범위가 이하 설명하는 실시형태로만 한정되는 것은 아니다. 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있으며, 도면들 중 인용부호들 및 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 인용부호들로 표시됨을 유의해야 한다. 참고로 본 발명을 설명함에 있어서 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

문서에 내재된 토픽(topic)을 분석하기 위한 확률적 토픽 모델이 존재한다. 토픽은 순서가 매겨진 단어의 목록이며, 문서에 함께 등장한 단어들이 하나의 토픽의 확률 분포를 공유하므로 함께 등장한 단어들은 한 토픽 내에서 그만큼 더 높은 순위를 갖게된다. 토픽 마이닝(topic mining)은 문서의 각 단어들의 빈도수만을 고려하므로 인간이 개입하여 직접 토픽을 분석할 필요가 없다. 따라서, 대량의 문서에서 다루는 토픽이 무엇인지 결정되지 않은 상태에서, 토픽 마이닝은 문서를 그 자체로서 데이터로 사용하므로 문서들에 내재된 토픽의 확률 분포를 구할 수 있다는 점에서 매우 효과적이고 유용하다.

문서에 내재된 토픽을 분석할 때, 객체의 관점에서 토픽을 분석할 수 있다. 객체는 사람, 물건, 혹은 개념 등이 될 수 있다. 따라서, 객체는 하나 혹은 여러 개의 단어로 이루어진 절이 될 수 있다. 객체의 관점에서 토픽을 구한다는 것은, 문서의 토픽을 문서의 관점이 아닌 객체의 관점에서 분석하는 것을 의미한다. 예를 들어, 소설의 주인공의 관점에서 토픽의 분포를 구하는 경우, 주인공이라는 객체의 관점에서 토픽을 구해야 하는 것이다.

문서에 내재된 토픽의 분포를 구하는 것은, 토픽의 순서에 무관하게 그 비율만을 구하는 것을 의미한다. 토픽의 흐름은 시간 또는 장소의 차원에서 분석할 수도 있지만, 하나의 문서 내의 토픽의 흐름을 문단 또는 단원 등의 흐름에 따라 분석할 수 있다. 소설 또는 역사와 같은 문서는 그 자체가 하나의 이야기이므로, 문단이나 단원에 따라 토픽의 흐름을 분석하는 것이 가능하다. 이는 각 문단이나 단원이 그 이전의 문단이나 단원에 영향을 받기 때문이다. 이러한 점을 이용하여 하나의 문서 내의 토픽 흐름을 분석할 수 있다.

본 발명의 실시예에서는 문서의 토픽 흐름을 문단 또는 단원의 진행에 따라서 구하는 것을 예시한다. 하지만, 이러한 토픽 흐름은 문단이나 단원을 넘어 소설 시리즈의 각 권의 진행에 따라 구해질 수 있다. 다만, 토픽 흐름을 구하는 단위가 각 권으로 확장되는 경우 본 발명의 실시예에 따른 모델을 구동하기 위한 하드웨어 메모리가 부족할 수 있다. 또한, 토픽의 흐름은 소정 개수의 문장의 단위로 구해질 수도 있다. 이하에서는 문단 단위로 토픽 흐름을 구하는 것을 예로하여 본 발명의 실시예를 설명한다.

도1은 본 발명의 실시예에 따라 객체 또는 객체 집단의 관점에서 토픽 흐름을 분석을 위한 토픽 모델을 나타낸다. 도2는 도1에 표시된 용어 및 기호에 대한 설명을 나타낸다.

객체는 예컨대, 사람, 물건, 장소, 사건 또는 개념 등이 될 수 있다. 객체 집단은 0개 이상의 객체를 포함하는 유일한 집단을 의미한다. 예컨대, A, B 및 C라는 3개의 객체가 존재하는 경우, 2³으로서 공집합을 포함하여 총 8개의 유일한 객체 집단을 가질 수 있다. 이는, 각 객체 집단은 부분집합으로써의 객체 집단을 파워셋(power-set)으로 가짐을 의미한다.

본 발명의 실시예에 따른 토픽 모델에서는, 객체 집단을 하나의 문장으로서 취급한다. 따라서, 문서에서 고려하는 객체의 개수가 증가하더라도 유일한 객체 집단의 개수는 선형적으로 증가한다. 객체 집단을 취급하는 단위를 문장을 넘어, 복수 개의 문장이나 문단 단위 등으로 확장이 가능하다. 이에 따라 더 많은 종류의 객체 집단을 취급할 수 있으며, 객체 집단의 토픽의 확률 분포 또한 영향을 받게된다. 다만, 이러한 경우 객체 집단의 수가 폭발적으로 증가할 수 있다.

본 발명의 실시예에 따른 토픽 모델은 하나의 이야기 흐름을 갖는 실재 문서로부터 파라메터를 추론하는 모델로서, 생성 모델(generative model)이다. 본 발명의 실시예에 따른 토픽 모델에서는 하나의 문서를 생성하는 과정을 가지며, 이하에서는 각 파라메터 별로 문서를 생성해가는 순서에 따라 설명된다.

도1에서 반복되어야 하는 샘플링 단계들이 사각형의 플레이트 기호(plate notation)로 표시된다. 이때, 반복 횟수는 각 플레이트의 우측 상단 또는 우측 하단에 표시된다. 예컨대, 플레이트의 우측 상단에 M이라고 표시된 경우, 해당 플레이트의 샘플링 단계가 문장의 개수 M만큼 반복됨을 의미한다. 또한, 도1에서 실제 문서에서 관찰된 변수는 상기 변수를 둘러싸는 원내부를 음영처리 함으로써 관찰되지 않은 변수와 구별된다. 또한, 도1에서 화살표는 화살표에 의해 이어진 두 개의 변수 사이의 조건부 의존성을 나타낸다. 예컨대, 변수 W는 변수 Z에 조건부 의존한다.

θ는 각 객체 집단에 대한 토픽 분포, 즉 토픽의 확률 분포를 나타낸다. 이러한 θ를 구하는 과정은 객체 집단의 개수(E)만큼 반복되며, 또한 문서 D에 포함된 모든 문단(1~J)에 대해서 수행된다. 여기서 α는 θ에 대한 사전지식을 의미하는 벡터이며, 이값을 통하여 잘못된 데이터로 인한 오류를 줄일 수 있다. 여기서, 확률 분포인 θ가 어떤 분포를 가질 것인지에 대한 정보가 존재하는 경우, 사전지식 α는 가중치 값으로 상기 정보를 제공할 수 있다. 예컨대, α는 θ의 디리클레 프라이어 벡터(Dirichlet prior vector)일 수 있다. 이때, 사전지식이 없는 경우에는 α벡터의 각 요소에 동일한 값, 예컨대 1을 설정할 수 있다.

각 문단의 θ는 이전 문단의 θ로부터 영향을 받는다. 이는 각 문단의 토픽의 확률 분포가 이전 문단의 토픽의 확률 분포로부터 크게 변하지 않도록 완화되는 것을 의미한다. 예컨대, 각 문단의 토픽의 확률 분포에 대한 사전지식으로서 이전 문단의 토픽의 확률 분포가 사용될 수 있다. 이는 도1에서 점선 화살표로 표시된다. 단, 첫문단의 θ₁는 문서(D) 자체의 토픽의 확률 분포 θ₀로부터 영향을 받는다. 이러한 점선 화살표는 θ_t~PDP(a,b,θ_t-1)를 의미한다. PDP는 프와송 디리클레 프라세스(Poisson Dirichlet Process)를 나타낸다. 본 발명의 실시예에서, PDP는 θ_t-1과 유사하게 θ_t를 만들어주는 도구로써, 또는 θ_t와 θ_t-1이 얼마나 비슷한지를 평가하는 지표로서 이용될 수 있다. 이를 통해, 문단 사이의 토픽의 확률 분포의 차이를 감소시키는 효과를 얻을 수 있다. 결과적으로, 각 객체 집단 별로 각 문단에 대해서 토픽의 확률 분포가 자연스럽게 흐르는 결과를 얻을 수 있다.

π는 각 객체 집단별로 문서 내에서 나타나는 비율을 나타낸다. 예컨대, π₀는 문서(D) 자체 내에서의 나타나는 비율을 나타내며, π_J는 문단(J)에서 각 객체 집단이 나타나는 비율을 나타낸다. π에 대한 사전지식을 의미하는 벡터로서 η를 설정하며, η는 π의 디리클레 프라이어 벡터(Dirichlet prior vector)일 수 있다.

x는 각 문장에 대해서 실제로 등장하는 객체 집단을 의미한다. x를 이용하여 문장들에 등장한 객체 집단들의 비율을 π로서 표현하고, 이에 따라 해당 문단에서 각 객체 집단이 나타나는 비율을 나타낼 수 있다. 문장에 실제로 등장한 객체 집단(x)들의 토픽의 확률 분포(θ)들을 곱함으로써 v를 획득할 수 있다.

Φ는 각각의 토픽(z)에 대한 토픽 워드 분포를 나타내며, 이는 K개의 토픽에 대해서 반복적으로 샘플링된다. β는 토픽 워드 분포 Φ에 대한 사전지식을 의미하는 벡터로서 디리클레 프라이어 벡터(Dirichlet prior vector)일 수 있다.

본 발명의 실시예에서, 문서의 각 문단의 각 문장에 존재하는 단어들을 생성하기 위해 토픽(z)가 선택되어야 한다. 토픽(z)가 v로부터 샘플링될 수 있다. 문서(D)의 문단(J)의 문장(M)에서 N개의 단어가 획득될 때까지, 상기 획득된 토픽(z)에 대한 토픽 워드 분포 Φ(z)로부터 단어(w)가 샘플링될 수 있다. 이러한 단어 샘플링 단계는 해당 문단의 모든 문장에 대해서 수행된다. 각 문단의 토픽은 이렇게 샘플링된 단어(w)의 조합으로 이루어진 문서로 생성될 수 있다.

이와 같이, 본 발명의 실시예에 따른 토픽 모델에 따르면 하나의 이야기 흐름을 갖는 문서의 문단 단위로 객체 또는 객체 집단의 관점에서 토픽 흐름이 분석될 수 있다.

본 발명의 실시예와 같은 토픽 모델을 학습하는 데는 변분 근사법(variational approximation), 라플라스 근사법(laplace approximation), 마코프체인 몬테 카를로(Markov-chain monte carlo) 방법등이 이용될 수 있지만, 이는 단지 예시일 뿐이며 다른 방법의 적용도 가능하다.

본 발명의 실시예에 따른 토픽 모델의 전술한 3개의 파라미터들은 아래의 수식으로부터 추론할 수 있다.

수학식(1)

여기서, Φ_kw는 P(w|k)를 의미하는 것으로서, 토픽 k에서 단어(w)가 선택될 확률값을 나타낸다.

수학식 (2)

여기서, θ_dek는 P(k|d,e)를 의미하는 것으로서, 문서 d내에서, 객체집단 e에 대하여, 토픽 k가 선택될 확률값을 나타낸다.

수학식 (3)

여기서, π_de는 P(e|d)를 의미하는 것으로서, 문서 d내에서, 객체집단 e가 나타나는 비율을 나타낸다.

상기 모델에서 문서에서 해당 단어의 빈도수를 데이터로써 입력하여, 문단의 진행에 따라서 각 객체 집단 별로 토픽의 흐름을 얻을 수 있다.

본 발명의 실시예에 따른 객체 또는 객체 집단의 관점에서 문서의 토픽 흐름을 분석할 수 있는 토픽 모델은 프로그램 언어로 구현되어 컴퓨터에서 실행될 수 있다.

이상에서 살펴본 바와 같이, 본 발명의 실시예에 따른 토픽 모델을 이용함으로써 객체 또는 객체 집단의 관점에서 소설이나 역사 문서와 같이 하나의 이야기 흐름을 가지는 데이터를 문단의 흐름, 또는 소정의 구간의 흐름에 따라 토픽을 분석할 수 있다. 또한, 문서의 독자들은 문서를 판독함이 없이 등장인물, 장소 또는 사건 등을 중심으로 이야기가 어떻게 진행되는지에 대해서 자동으로 결과를 얻을 수 있다. 또한, 본 발명의 실시예에 따르면 추가의 데이터 또는 메타 데이터 없이 문서 그 자체만을 데이터로 이용하여 토픽 흐름을 분석할 수 있다.

이상 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해되어야 하고, 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims

문서의 소정 구간에 대해 하나 이상의 객체 집단 각각에 대한 토픽의 확률 분포를 구하는 제1단계;
상기 소정 구간에 대해, 상기 하나 이상의 객체 집단 중 상기 소정 구간에 포함되는 문장에 실제로 등장한 객체 집단들의 토픽의 확률 분포들을 서로 곱하는 제2단계;
상기 제2단계의 결과값으로부터 토픽을 샘플링하는 제3단계; 및
상기 토픽에 해당하는 토픽-워드 분포로부터 단어들을 샘플링하는 제4단계를 포함하는,
문서의 토픽 흐름 분석방법.
제1항에 있어서,
상기 문서에는 상기 소정 구간이 복수개 포함되고 상기 제1단계는 상기 소정 구간의 개수만큼 반복되며, 그리고
상기 복수의 소정 구간 중 특정 소정 구간의 상기 토픽의 확률 분포는 상기 특정 소정 구간 이전의 소정 구간의 상기 토픽의 확률 분포로부터 영향을 받는 것을 특징으로 하는 문서의 토픽 흐름 분석방법.
제2항에 있어서,
상기 문서 자체에 대해서 상기 하나 이상의 객체 집단 각각에 대한 토픽의 확률 분포를 구하는 단계를 더 포함하며,
상기 복수의 소정 구간 중 첫번째 소정 구간의 상기 토픽의 확률 분포는 상기 문서 자체의 상기 토픽의 확률 분포로부터 영향을 받는 것을 특징으로 하는 문서의 토픽 흐름 분석방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 객체 집단은 유일한 객체 집단인 것을 특징으로 하는 문서의 토픽 흐름 분석방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 소정 구간은 상기 문서의 문단 단위인 것을 특징으로 하는 문서의 토픽 흐름 분석방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 제4단계에서 샘플링된 단어들은 상기 문장에 실제로 관찰되는 단어들인 것을 특징으로 하는 문서의 토픽 흐름 분석방법.
제2항 또는 제3항에 있어서,
상기 제4단계에서 샘플링된 단어들은 상기 복수의 소정 구간 각각에 대해서 생성되는 것을 특징으로 하는 문서의 토픽 흐름 분석방법.
청구항 제1항 내지 제3항 중 어느 한 항에 따른 문서의 토픽 흐름 분석방법을 컴퓨터에 실행시키기 위한 프로그램을 저장한 컴퓨터 판독 가능 매체.