KR101290439B1

KR101290439B1 - 문장 네트워크 기반 회의록 요약 방법

Info

Publication number: KR101290439B1
Application number: KR1020110034968A
Authority: KR
Inventors: 박성배; 이재걸
Original assignee: 경북대학교 산학협력단
Priority date: 2011-04-15
Filing date: 2011-04-15
Publication date: 2013-07-26
Also published as: KR20120117297A

Abstract

회의록에서 중요 문장을 추출하고 이들 문장간의 관계를 파악하여 트리 구조의 회의록 요약본을 생성하는 문장 네트워크 기반 회의록 요약 방법이 개시된다. 상기 문장 네트워크 기반 회의록 요약 방법은, 회의록으로부터 복수의 주제에 대한 중요 문장을 추출하는 중요 문장 추출 단계 및 상기 중요 문장 추출 단계에서 추출된 중요 문장의 종속 관계에 따라 상기 중요 문장을 트리 구조로 표현하는 트리 생성 단계를 포함한다.

Description

문장 네트워크 기반 회의록 요약 방법{METHOD FOR SUMMERIZING MEETING MINUTES BASED ON SENTENCE NETWORK}

본 발명은 회의록 요약 방법에 관한 것으로, 더욱 상세하게는 회의록에서 중요 문장을 추출하고 이들 문장간의 관계를 파악하여 트리 구조의 회의록 요약본을 생성하는 문장 네트워크 기반 회의록 요약 방법에 관한 것이다.

일반적으로, 국회 및 지방의회, 공공기관 및 일반기업에서는 많은 회의를 하고 진행된 회의의 내용을 회의록 형태로 기록하여 보관한다. 최근에는 기록된 회의록을 전자문서 형태로 변환하여 인터넷에 공개함으로써 일반인들이 쉽게 접근하여 그 내용을 볼 수 있다.

그러나, 통상의 회의록은 보관의 용도로 작성되는 것으로서, 회의의 시작에서 끝까지 모든 의사에 관한 발언을 모두 기재하므로, 일반인들이 회의의 전체적인 흐름이나 대략적인 내용을 파악하기에는 적합하지 않다.

따라서, 회의록의 주요 내용을 유지하면서, 회의록의 전체적인 흐름 파악을 용이하게 하기 위한 문서요약 기술이 요구된다.

문서요약 기술이란, 문서가 포함하고 있는 핵심 주제를 유지하면서 문서의 크기를 효과적으로 감소시킨 요약본을 생성하는 기술로서, 종래에 이에 관련된 많은 연구들이 이루어져 왔다.

그러나, 종래의 문서요약 기술에 관련된 연구들은 하나의 문서 전체가 하나의 주제를 갖는 것으로 간주하고 요약을 수행하기 때문에, 하나의 문서에서 여러 가지 세부 주제들이 나타나는 회의록의 요약에는 적합하지 않은 문제가 있다.

이에, 회의록을 요약하기 위해서는, 복수의 주제를 포함하는 회의록의 특징을 고려한 새로운 문서요약 기법이 요구된다.

본 발명은, 복수의 주제를 갖는 회의록의 요약에 적합한 문장 네트워크 기반 회의록 요약 방법을 제공하는 것을 해결하고자 하는 기술적 과제로 한다.

또한, 본 발명은, 복수의 주제를 갖는 회의록의 용이한 흐름 파악이 가능한 문장 네트워크 기반 회의록 요약 방법을 제공하는 것을 해결하고자 하는 기술적 과제로 한다.

상기 기술적 과제를 해결하기 위한 수단으로서 본 발명은,

회의록으로부터 복수의 주제에 대한 중요 문장을 추출하는 중요 문장 추출 단계; 및

상기 중요 문장 추출 단계에서 추출된 중요 문장의 종속 관계에 따라 상기 중요 문장을 트리 구조로 표현하는 트리 생성 단계

를 포함하는 문장 네트워크 기반 회의록 요약 방법을 제공한다.

본 발명의 일 실시형태에서, 상기 중요 문장 추출 단계는, 상기 회의록에서 회의 진행자의 발언 문장에 기초하여 회의 주제별로 문장을 분리하여 주제 문장의 집합을 생성하는 단계; 및 상기 주제 문장 집합에서, 문장에 사용된 단어에 기초하여 상기 주제 문장과 그 이외의 문장 사이의 유사도를 산출하고 그에 따라 상기 중요 문장을 추출하는 단계를 포함할 수 있다.

본 발명의 일 실시형태에서, 상기 주제 문장 집합을 생성하는 단계는, 상기 회의록에서 상기 진행자의 발언 문장들을 포함하는 진행자 발언 문장 집합을 생성하는 단계; 상기 진행자 발언 문장 집합에 포함된 문장의 중요도값을 연산하는 단계; 상기 진행자 발언 문장 집합에 포함된 문장들 중, 기 작성된 회의록 단어 사전에 포함된 단어가 존재하는 경우, 해당 문장의 중요도값에 가중치를 적용하는 단계-상기 회의록 단어 사전은, 상기 진행자 발언 중 세부 주제를 변화시키는 단어, 상투어 및 불용어를 포함하는 높은 빈도수의 단어를 포함함-; 상기 가중치가 적용된 최종 중요도 값을 내림차순으로 정렬하고 기 설정된 상위

퍼센트의 최종 중요도 값을 갖는 문장을 상기 중요 문장으로 추출하는 단계-

는 기 설정된 요약 비율-; 및 상기 최종 중요도 값을 갖는 문장을 추출하는 단계에 의해 추출되는 하나의 중요 문장부터 그 다음 중요 문장 이전까지의 문장을 포함하는, 세부 주제별 주제 문장 집합을 생성하는 단계를 포함할 수 있다.

본 발명의 일 실시형태에서, 상기 중요도값을 연산하는 단계는, 상기 진행자 발언 문장 집합에 포함된 문장에 페이지랭크(PageRank) 알고리즘을 적용하여 문장의 중요도값을 연산하는 단계일 수 있다.

본 발명의 일 실시형태에서, 상기 중요도값을 연산하는 단계는, 상기 페이지랭크 알고리즘의 하기 식 1을 이용하여 결정될 수 있다.

[식 1]

상기 식 1에서,

는 문장

의 중요도 값,

는 현재 문장에서 다른 문장으로 이동할 확률(damping factor) 값으로 상기 페이지랭크 알고리즘에서 제안하는 0.85,

는 문장

와 연결된 문장들의 집합,

, 단어

는 문장

와 문장

사이에 공통으로 포함된 단어 중 명사,

는 문장

의 단어 개수이다.

본 발명의 일 실시형태에서, 상기 가중치를 적용하는 단계는, 하기 식 4와 같이 상기 중요도값에 가중치를 적용하는 단계일 수 있다.

[식 4]

상기 식 4에서,

는 회의록 단어사전,

는 가중치 값으로, 0<

<1 이다.

본 발명의 일 실시형태에서, 상기 가중치는, 상기 세부 주제를 변화시키는 단어를 포함하는 긍정 단어에 대해서 양수가 적용되고, 상기 상투어 및 불용어를 포함하는 부정 단어에 대해 음수가 적용될 수 있다.

본 발명의 일 실시형태에서, 상기 유사도를 산출하고 그에 따라 상기 중요 문장을 추출하는 단계는, 상기 세부 주제별 주제 문장 집합을 생성하는 단계에서 생성된 주제 문장 집합을 이용하여 회의록의 문장들을 주제별로 분리하는 단계; 상기 주제 문장 집합에 포함된 주제 문장과 진행자의 발언 문장을 제외한 참석자들의 발언 문장을 각각 벡터로 표현하는 단계; 하기 식 5을 이용하여 상기 벡터로 표현하는 단계에서 벡터로 표현된 문장들 사이의 유사도 값을 연산하는 단계; 상기 벡터로 표현된 문장들 사이의 유사도 값을 연산하는 단계에서 연산된 유사도 값을 내림차순으로 정렬하여 기 설정된 기준인 상위 y 퍼센트의 문장을 추출하는 단계; 및 상기 주제 문장 집합에 포함된 진행자의 중요 문장들과 상기 상위 y 퍼센트의 문장을 추출하는 단계에서 추출한 문장들을 발언 순서대로 정렬하여 상기 회의록의 중요 문장 집합을 생성하는 단계를 포함할 수 있다.

[식 5]

(

는 유사도 값이고,

는 벡터로 표현된 진행자의 발언 문장을 제외한 참석자의 문장이고,

는 벡터로 표현된 주제문장이며,

는 벡터

의 크기임)

본 발명의 일 실시형태에서, 상기 트리 생성 단계는, 상기 중요 문장을 발언 기회 별로 분리하는 단계-상기 발언 기회는 발언자가 연속으로 발언하는 문장들을 포함하는 집합임-; 상기 분리하는 단계에서 분리된 각 발언 기회 별로 그 이전에 나온 발언 기회들과 유사도를 측정하는 단계; 및 상기 진행자의 발언 기회를 루트 노드의 하위 노드로 추가하고, 상기 진행자의 발언 기회를 제외한 나머지 발언 기회는 상기 유사도를 측정하는 단계에서 측정된 유사도가 가장 높은 해당 발언 기회 이전의 노드의 하위 노드로 추가하는 단계를 포함할 수 있다.

본 발명에 따르면, 회의록의 진행자 문장에서 세부 주제를 찾고 각 세부 주제에 따라 중요한 문장들을 추출함으로써, 복수의 주제를 갖는 회의록을 세부 주제별로 효과적으로 요약할 수 있다.

또한, 본 발명에 따르면, 회의록의 문장들이 대화문인 특징을 반영하여, 추출된 중요 문장들 사이의 종속관계를 분석하여 트리 형태로 요약본을 작성하므로, 회의록의 전체 흐름 파악을 더욱 용이하게 할 수 있다.

도 1은 본 발명의 일 실시형태에 따른 네트워크 기반 회의록 요약 방법을 도시한 흐름도이다.
도 2는 본 발명의 일 실시형태에 따른 문장 네트워크 기반 회의록 요약 방법의 중요 문장 추출 단계를 더욱 상세하게 도시한 흐름도이다.
도 3은 도 2에 도시된 주제 문장 집합을 생성하는 단계를 더욱 상세하게 도시한 흐름도이다.
도 4는 도 2에 도시된 중요 문장을 추출하는 단계에 적용되는 백오브워드 모델을 이용하여 유사도를 계산하는 방법을 도시한 흐름도이다.
도 5는 본 발명의 일 실시형태에 따른 문장 네트워크 기반 회의록 요약 방법의 트리 생성 단계를 더욱 상세하게 도시한 흐름도이다.

이하, 첨부된 도면을 참조하여 본 발명의 실시형태를 보다 상세하게 설명한다. 그러나, 본 발명의 실시형태는 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 이하 설명되는 실시형태로 한정되는 것은 아니다. 본 발명의 실시형태는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 또한, 본 발명을 설명함에 있어서, 정의되는 용어들은 본 발명에서의 기능을 고려하여 정의 내려진 것으로, 이는 당 분야에 종사하는 기술자의 의도 또는 관례 등에 따라 달라질 수 있으므로, 본 발명의 기술적 구성요소를 한정하는 의미로 이해되어서는 아니 될 것이다.

도 1은 본 발명의 일 실시형태에 따른 문장 네트워크 기반 회의록 요약 방법을 도시한 흐름도이다.

도 1에 도시한 것과 같이, 본 발명의 일 실시형태에 따른 문장 네트워크 기반 회의록 요약 방법은 크게 회의록으로부터 복수의 주제에 대한 중요 문장을 추출하는 중요 문장 추출 단계(S1)와, 상기 추출된 중요 문장의 종속 관계에 따라 상기 중요 문장을 트리 구조로 표현하는 트리 생성 단계(S2)를 포함할 수 있다.

일반적으로, 회의록은 회의가 진행되면서 나타나는 참석자들의 모든 발언을 시간 순서대로 기록한 문서로 일반적인 문서와는 달리 다음과 같은 세 가지 특징이 있다.

첫째, 회의의 진행에 따라 여러 세부 주제들이 나타나고 그 흐름을 진행자가 주도한다. 회의록은 회의가 진행됨에 따라서 하나의 안건에 대해서 내용설명, 의견제시, 토론 등과 같은 여러 세부 주제들이 나타난다. 그리고 이런 세부 주제들은 진행자의 발언에 따라서 변화하게 된다.

둘째, 회의의 흐름을 판단하는데 중요한 역할을 하는 단어들이 존재한다. 세부 주제를 변화시키는 진행자의 발언에 자주 포함되는 “상정”, “의사진행발언”, “반대토론” 등과 같은 단어들이 존재한다. 이러한 단어들은 회의록의 세부 주제를 변화시키는 단어로 회의의 흐름을 파악하는데 중요한 역할을 한다.

셋째, 참석자들 사이의 대화를 기록한 문서로 대화들 사이에 종속관계가 나타난다. 진행자의 발언 이후에 나오는 참석자들의 발언은 진행자의 발언에 종속적이고, 참석자들의 발언 사이에서도 종속적인 관계가 나타날 수 있다.

본 발명은 전술한 회의록의 특징들을 반영한 회의록 요약 방법을 제공한다. 즉, 본 발명은, 회의록의 세부 주제별로 중요 문장을 추출하여 문서 크기를 감소시키고, 회의록의 표현을 트리 형태로 바꾸어 전체적인 흐름을 쉽게 파악할 수 있게 하는 두 가지 측면을 고려한 회의록 요약 방법을 제공한다.

상기 중요 문장 추출 단계(S1)는, 회의록의 세부 주제들을 찾는 주제문장 추출단계와 각 주제별로 회의록의 중요한 문장들만 선택하는 중요 문장 추출단계를 포함할 수 있다.

상기 주제문장 추출단계에서는 요약할 회의록과, 회의의 흐름을 파악하는데 중요한 역할을 하는 단어들의 집합인 회의록 단어사전을 입력으로 받는다. 상기 주제문장 추출단계는, 회의록으로부터 진행자의 발언 문장들만을 대상으로 회의록 단어사전을 고려하여 세부 주제에 적합한 문장들을 선택하여 주제문장 집합을 생성하는 단계이다.

상기 중요 문장 추출단계는 요약할 회의록과, 이전 단계에서 생성된 주제문장 집합을 입력으로 받는다. 상기 중요 문장 추출단계는, 주제문장 집합을 기준으로 회의록 전체를 주제별로 분리하고, 분리된 주제별로 각 주제와 관련이 깊은 문장만을 추출하여 회의록의 중요 문장 집합을 생성하는 단계이다.

상기 트리 생성 단계(S2)에서는, 상기 중요 문장 집합을 입력으로 받는다. 상기 트리 생성 단계(S2)에서는, 회의록의 중요 문장 집합의 문장들을 주제별로 분리하여 노드를 생성하고 각 주제 안에서 문장들의 종속관계를 분석하여 트리에서 노드 문장들의 위치를 결정한다. 상기 트리 생성 단계(S2)에서, 회의록의 중요 문장 집합의 모든 문장들에 대한 위치가 결정되면 이를 트리 구조로 표현하여 회의록 요약문을 생성한다.

이하, 본 발명의 일 실시형태에 따른 문장 네트워크 기반 회의록 요약 방법의 구성요소인 중요 문장 추출 단계(S1) 및 트리 생성 단계(S2)의 세부 구성 및 그 작용 효과에 대해 더욱 상세하게 설명하기로 한다.

중요 문장 추출 단계(S1)

도 2는 본 발명의 일 실시형태에 따른 문장 네트워크 기반 회의록 요약 방법의 중요 문장 추출 단계를 더욱 상세하게 도시한 흐름도이다.

도 2에 도시한 바와 같이, 중요 문장 추출 단계(도 1의 S1)는, 진행자 발언을 이용하여 주제 문장 집합을 생성하는 단계(S11)와, 상기 주제 문장 집합에서, 문장에 사용된 단어에 기초하여 상기 주제 문장과 그 이외의 문장 사이의 유사도를 산출하고 그에 따라 상기 중요 문장을 추출하는 단계(S12)를 포함할 수 있다.

회의록에서 중요한 문장을 추출하기 위해서는 우선 회의록의 세부 주제를 찾아서 회의록 전체를 각 주제별로 나누는 작업이 필요하다. 상기 진행자 발언을 이용하여 주제 문장 집합을 생성하는 단계(S11)에서는 회의록과 회의록 단어사전을 입력으로 받아서 진행자의 발언 문장으로부터 회의록의 세부 주제를 찾고 찾아진 결과를 이용하여 주제문장 집합을 생성할 수 있다. 입력으로 받는 회의록은 시간 순서대로 기록된 발언 내용들로 이루어져 있고, 각 발언 내용은 발언자와 발언문장의 쌍으로 구성된다. 그리고 회의록 단어사전은 회의의 흐름을 파악하는데 중요한 역할을 하는 단어들의 집합으로 이루어져 있다.

도 3은 도 2에 도시된 주제 문장 집합을 생성하는 단계(S11)를 더욱 상세하게 도시한 흐름도이다.

주제 문장 집합을 생성하는 단계(도 2의 S11)는, 회의록에서 회의 진행자의 발언 문장들을 선택하여 이를 포함하는 진행자 발언 문장 집합을 생성하는 단계(S111)로부터 시작된다.

이어, 진행자 발언 문장 집합에 포함된 문장들의 중요도값을 연산하는 단계(S112)가 수행된다. 이 진행자 발언 문장 집합에 포함된 문장들의 중요도값을 연산하는 단계(S112)는, 상기 진행자 발언 문장 집합에 포함된 문장에 페이지랭크(PageRank) 알고리즘을 적용하여 문장의 중요도값을 연산하는 단계일 수 있다.

통상, 회의록은 기존에 구축되어 있는 학습 데이터가 적고 학습 데이터를 직접 구축하기 위해서는 비용이 많이 들기 때문에 문장의 중요도 값 계산에 지도 (Supervised) 학습 방법을 사용하기 어렵다. 따라서 본 발명에서는 비지도 (Unsupervised) 학습 방법 중 우수한 성능을 보이는 페이지랭크(PageRank) 알고리즘을 사용하여 중요도값을 연산할 수 있다.

페이지랭크(PageRank) 알고리즘을 사용하기 위해서는 문서를 그래프 형태로 변환하여야 한다. 본 발명에서는 문서에 포함된 문장들을 노드로 보고 서로 다른 문장에서 같은 단어가 나오는 문장들을 연결하여 그래프를 생성한다. 이렇게 생성된 그래프에 페이지랭크(PageRank)의 노드 중요도를 연산하는 하기 식 1을 이용하여 상기 진행자 발언 문장 집합에 포함된 각 문장의 중요도를 계산한다.

[식 1]

상기 식 1에서,

는 문장

의 페이지랭크(PageRank) 값을 의미하고,

는 현재 문장에서 다른 문장으로 이동할 확률(damping factor) 값으로 페이지랭크(PageRank)에서 제안한 값 0.85를 사용한다.

는 문장

로 들어오는 연결을 갖는 문장들의 집합이고,

는 문장

에서 나가는 연결을 갖는 문장들의 집합이다.

는 문장

와 문장

사이의 연결 가중치를 의미한다. 본 발명에서는 문장

와 문장

사이에 공통적으로 존재하는 단어들의 빈도수를 이용하여 유사도 식을 하기 식 2와 같이 정의하였으며, 하기 식2로 계산된 유사도 값을 가중치

로 사용한다.

[식 2]

상기 식 2에서, 단어

는 문장

와 문장 사이에 공통으로 포함된 단어들을 의미한다. 본 발명에서는 문장에 포함된 단어들 중에서 명사만을 사용한다. 이 식에서

는 문장

의 단어 개수를 의미하고 문장에 포함된 단어가 많을수록 유사도 값이 커지는 것을 막기 위해 각 문장의 단어의 개수에 대해

를 취해 나누어 주었다.

상기 식 1 및 식 2를 통해, 본 발명에서 적용되는 페이지랭크 알고리즘의 중요도값 계산은 하기 식 3과 같이 결정될 수 있다.

[식 3]

본 발명에 적용되는 페이지랭크 알고리즘에서 생성한 그래프는 무향 그래프 (Undirected Graph)이므로, 원래 페이지랭크(PageRank) 식에서 사용된 문장

로 들어오는 문장들의 집합

와 문장

에서 나가는 문장들의 집합

는 문장

와 연결된 문장들의 집합인

로 대체된다. 또한, 문장

와 문장

사이의 연결 가중치

역시 마찬가지로 상기 식 2의

로 대체된다.

이어, 회의록 단어 사전을 이용하여 전술한 단계(S112)에서 연산된 중요도 값에 가중치를 부여하는 단계(S113)가 수행된다.

회의록에서 진행자의 발언 중에서 세부 주제를 변화시키는 발언에는 빈번하게 사용되는 단어들이 존재한다. 또한, 중요한 의미 없이 상투적으로 쓰이는 상투어들이나 불용어와 같은 단어들도 존재한다. 상기 회의록 단어 사전은, 진행자의 발언 중에서 전술한 것과 같은 단어들을 모아서 긍정 단어와 부정 단어로 분리하여 구축될 수 있다. 회의록 사전에 포함된 단어가 해당 문장에서 나타날 경우에, 전술한 단계(S112)에서 연산된 문장의 중요도값에 가중치 값

을 부여할 수 있다. 이 가중치 값은 긍정 단어의 경우에는 양수 값을 가지고, 부정 단어의 경우에는 음수 값을 가질 수 있다. 상기 회의록 단어사전을 이용한 가중치까지 모두 적용하여 최종적으로 결정되는 진행자의 발언 문장의 중요도 값은 하기 식 4와 같이 결정될 수 있다.

[식 4]

상기 식 4에서,

는 회의록 단어사전이고 단어

가 회의록 단어 사전

와 문장

에 공통으로 포함되어 있을 경우 문장의 중요도 값

에 해당 가중치 값

를 곱한다. 문장

에 회의록 단어 사전

의 단어가 포함되어 있지 않은 경우는 기존에 계산된 문장의 중요도 값

를 그대로 사용할 수 있다.

이어, 상기 가중치가 적용된 최종 중요도 값을 내림차순으로 정렬하고 기 설정된 상위

퍼센트의 최종 중요도 값을 갖는 문장을 추출하는 단계(S114)가 수행된다. 이 단계(S114)에서, 매개변수

는 최종적으로 생성할 요약문의 요약 비율로서 기 설정되는 값이다.

이어, 상기 회의록에서, 상기 단계(S114)에 의해 추출되는 하나의 문장부터 그 다음 문장 이전까지의 문장을 포함하는 세부 주제별 주제 문장 집합을 생성하는 단계(S115)가 수행된다.

다시 설명하면, 회의록에 포함되는 문장들 중에서, 상기 단계(S114)에 의해 추출되는 진행자의 중요문장부터 그 다음에 추출된 진행자의 중요문장 이전까지의 문장들을 하나의 개별 주제 문장으로 결정할 수 있다. 회의 중 발언을 하는 경우, 일반적으로 한 번에 여러 문장을 발언한다. 예를 들어, 회의에서 상대편의 의견에 대한 반대토론을 할 때 그 내용을 한 문장으로 발언하는 것이 아니라 여러 문장에 걸쳐서 발언하게 된다. 이렇게 같은 발언자가 연속으로 발언하는 문장들을 하나의 집합으로 묶어 발언 기회로 정의한다. 진행자의 중요 문장을 주제별로 분리하면 하나의 주제에 진행자의 중요 문장이 둘 이상 포함이 될 수 있다. 하지만 이렇게 같은 발언 기회에 나온 문장들은 서로 관련된 주제에 관해 발언한 문장들이므로 이들을 묶어 하나의 주제 문장 집합을 생성할 수 있다.

전술한 것과 같이 주제 문장 집합의 생성이 종료되면, 상기 주제 문장 집합에서 문장 간의 유사도를 사용하여 중요 문장을 추출하는 단계(S12)가 수행된다.

이 단계(S12)에서는, 상기 단계(S11)에서 생성된 주제 문장 집합과 회의록을 입력 받아 각 주제 문장 집합 별로 해당 주제와 관련이 깊은 문장만을 추출한다. 입력 받은 회의록은 전술한 주제 문장 집합 생성 단계(S11)에서의 회의록과 같고, 주제 문장 집합은 이전 단계에서 생성된 개별 주제별로 묶인 진행자의 중요 문장들의 집합이다.

이 단계(S12)에서는, 회의록에 포함된 문장의 중요도를, 상기 주제 문장 집합에 포함된 문장과 타 문장간의 유사한 정도로 측정한다. 두 문장 사이의 유사도를 계산하는 방법에는 여러 가지가 있지만, 본 발명에서는 가장 일반적인 방법으로 백오브워드(bag of word) 모델을 이용하여 문장을 벡터로 표현한 뒤 두 벡터의 코사인 유사도(Cosine Similarity)를 계산하는 방법을 사용할 수 있다.

도 4는 백오브워드 모델을 이용하여 유사도를 계산하는 방법을 도시한 흐름도이다.

도 4에 도시된 바와 같이, 백오브워드 모델을 이용하여 유사도를 계산하는 방법은, 먼저 유사도 계산을 위해 회의록의 문장들을 전술한 단계(S115)에서 생성된 주제 문장 집합을 이용하여 주제별로 분리한다(S121).

이어, 주제 문장 집합에 포함된 주제 문장들과 진행자의 발언 문장을 제외한 참석자들의 발언 문장들을 각각 벡터로 표현한다(S122).

이어, 상기 단계(S122)에서 벡터로 표현된 문장은 하기 식 5를 이용하여 상호간의 유사도 값을 계산할 수 있다(S123).

[식 5]

상기 식 5에서,

는 유사도 값이고,

는 벡터로 표현된 주제문장이다. 또한,

는 벡터

의 크기(Norm)이다.

이어, 연산된 유사도 값

을 내림차순으로 정렬하여 기 설정된 기준인 상위 y 퍼센트의 문장을 추출한다(S124).

이어, 상기 단계(S114)에서 추출한 진행자의 중요 문장들과 상기 단계(S124)에서 추출한 중요 문장들을 발언 순서대로 정렬하여 최종적으로 회의록의 중요 문장 집합을 생성한다(S125).

트리 생성 단계(S2)

회의록 문서의 크기를 줄이는 과정인 상기의 중요 문장 추출 단계(S1)가 종료되면, 문서의 표현을 다르게 하여 전체적인 내용과 흐름을 쉽게 파악할 수 있도록 하는 트리 생성 단계(S2)을 진행한다.

이 트리 생성 단계(S2)는, 전술한 중요 문장 추출 단계(S1)에서 생성된 회의록의 중요 문장 집합을 입력으로 받아 각 문장들 사이의 종속 관계를 분석하여 트리 형태로 표현한다.

도 5는 본 발명의 일 실시형태에 따른 문장 네트워크 기반 회의록 요약 방법의 트리 생성 단계를 더욱 상세하게 도시한 흐름도이다.

도 5를 참조하면, 트리 생성 단계는, 상기 중요 문장 집합 내의 중요 문장을 발언 기회 별로 분리하여 발언 집합을 생성하는 단계(S21)부터 시작될 수 있다.

일반적으로 회의록에서 발언 문장은 이전에 발언한 문장들에 대한 응답이므로 본 발명에서는 종속관계 분석은 이전에 나온 문장들과 관계만 분석한다. 또한, 종속관계 분석의 단위를 발언한 각 문장이 아닌 각 발언 기회 별로 분리된 문장 집합으로 한다. 전술한 바와 같이, 발언자가 연속으로 발언하는 문장들을 하나의 집합으로 묶어 발언 기회로 정의한다.

회의록의 발언 문장들은 한 번의 발언 기회에 한 문장만을 발언하는 것이 아니라 여러 문장을 발언한다. 그러므로 입력 받은 회의록의 중요 문장 집합도 같은 발언 기회에 두 개 이상의 문장이 중요 문장으로 선택될 수 있다. 이런 문장들을 각 발언 기회 별로 분리하여 발언 집합

을 생성한다.

이렇게 발언 기회 별로 분리된 문장들에서, 동일한 발언 기회

에 포함된 문장

중 하나가 그 이전의 발언 기회들 M_n(n<k)중의 하나의 발언 기회와 종속관계가 있으면, 상기 발언 기회

에 포함된 다른 문장들도 발언 기회 M_n와 종속관계가 있다고 할 수 있다.

이어, 각 발언 기회 별로 그 이전에 나온 발언 기회들과 유사도를 측정하는 단계(S22)가 수행될 수 있다. 유사도의 측정은 당 기술분야에 알려진 다양한 방법이 적용될 수 있으며, 전술한 것과 같은 백오브워드(bag of word) 모델이 적용될 수도 있다.

이어, 최종적으로, 상기 진행자의 발언 기회를 루트 노드의 하위 노드로 추가하고, 상기 진행자의 발언 기회를 제외한 나머지 발언 기회는 상기 유사도를 측정하는 단계에서 측정된 유사도가 가장 높은 해당 발언 기회 이전의 노드의 하위 노드로 추가하여 트리를 완성할 수 있다(S23).

이상에서 설명한 바와 같이, 본 발명은, 회의록의 진행자 문장에서 세부 주제를 찾고 각 세부 주제에 따라 중요한 문장들을 추출함으로써, 복수의 주제를 갖는 회의록을 세부 주제별로 효과적으로 요약할 수 있다. 더하여, 본 발명은, 회의록의 문장들이 대화문인 특징을 반영하여, 추출된 중요 문장들 사이의 종속관계를 분석하여 트리 형태로 요약본을 작성하므로, 회의록의 전체 흐름 파악을 더욱 용이하게 할 수 있다.

Claims

회의록으로부터 복수의 주제에 대한 중요 문장을 추출하는 중요 문장 추출 단계; 및
상기 중요 문장 추출 단계에서 추출된 중요 문장의 종속 관계에 따라 상기 중요 문장을 트리 구조로 표현하는 트리 생성 단계를 포함하며,
상기 중요 문장 추출 단계는,
상기 회의록에서 회의 진행자의 발언 문장에 기초하여 회의 주제별로 문장을 분리하여 주제 문장의 집합을 생성하는 단계; 및
상기 주제 문장 집합에서, 문장에 사용된 단어에 기초하여 상기 주제 문장과 그 이외의 문장 사이의 유사도를 산출하고 그에 따라 상기 중요 문장을 추출하는 단계를 포함하는 것을 특징으로 하는 문장 네트워크 기반 회의록 요약 방법.
삭제
제1항에 있어서, 상기 주제 문장 집합을 생성하는 단계는,
상기 회의록에서 상기 진행자의 발언 문장들을 포함하는 진행자 발언 문장 집합을 생성하는 단계;
상기 진행자 발언 문장 집합에 포함된 문장의 중요도값을 연산하는 단계;
상기 진행자 발언 문장 집합에 포함된 문장들 중, 기 작성된 회의록 단어 사전에 포함된 단어가 존재하는 경우, 해당 문장의 중요도값에 가중치를 적용하는 단계-상기 회의록 단어 사전은, 상기 진행자 발언 중 세부 주제를 변화시키는 단어, 상투어 및 불용어를 포함하는 높은 빈도수의 단어를 포함함-;
상기 가중치가 적용된 최종 중요도 값을 내림차순으로 정렬하고 기 설정된 상위
퍼센트의 최종 중요도 값을 갖는 문장을 상기 중요 문장으로 추출하는 단계-
는 기 설정된 요약 비율-; 및
상기 최종 중요도 값을 갖는 문장을 추출하는 단계에 의해 추출되는 하나의 중요 문장부터 그 다음 중요 문장 이전까지의 문장을 포함하는, 세부 주제별 주제 문장 집합을 생성하는 단계를 포함하는 문장 네트워크 기반 회의록 요약 방법.
제3항에 있어서, 상기 중요도값을 연산하는 단계는,
상기 진행자 발언 문장 집합에 포함된 문장에 페이지랭크(PageRank) 알고리즘을 적용하여 문장의 중요도값을 연산하는 단계인 것을 특징으로 하는 문장 네트워크 기반 회의록 요약 방법.
제4항에 있어서, 상기 중요도값을 연산하는 단계는,
상기 페이지랭크 알고리즘의 하기 식을 이용하여 결정되는 것을 특징으로 하는 네트워크 기반 회의록 요약 방법.
[식]

(
는 문장
의 중요도 값,
는 현재 문장에서 다른 문장으로 이동할 확률(damping factor) 값으로 상기 페이지랭크 알고리즘에서 제안하는 0.85,
는 문장
와 연결된 문장들의 집합,
, 단어
는 문장
와 문장
사이에 공통으로 포함된 단어 중 명사,
는 문장
의 단어 개수임)
제5항에 있어서, 상기 가중치를 적용하는 단계는,
하기 식과 같이 상기 중요도값에 가중치를 적용하는 단계인 것을 특징으로 하는 네트워크 기반 회의록 요약 방법.
[식]

(
는 회의록 단어사전,
는 가중치 값으로, 0<
<1 임)
제3항 또는 제6항에 있어서,
상기 가중치는, 상기 세부 주제를 변화시키는 단어를 포함하는 긍정 단어에 대해서 양수가 적용되고, 상기 상투어 및 불용어를 포함하는 부정 단어에 대해 음수가 적용되는 것을 특징으로 하는 네트워크 기반 회의록 요약 방법.
제3항에 있어서, 상기 유사도를 산출하고 그에 따라 상기 중요 문장을 추출하는 단계는,
상기 세부 주제별 주제 문장 집합을 생성하는 단계에서 생성된 주제 문장 집합을 이용하여 회의록의 문장들을 주제별로 분리하는 단계;
상기 주제 문장 집합에 포함된 주제 문장과 진행자의 발언 문장을 제외한 참석자들의 발언 문장을 각각 벡터로 표현하는 단계;
하기 식을 이용하여 상기 벡터로 표현하는 단계에서 벡터로 표현된 문장들 사이의 유사도 값을 연산하는 단계;
[식]

(
는 유사도 값이고,
는 벡터로 표현된 진행자의 발언 문장을 제외한 참석자의 문장이고,
는 벡터로 표현된 주제문장이며,
는 벡터
의 크기임)
상기 벡터로 표현된 문장들 사이의 유사도 값을 연산하는 단계에서 연산된 유사도 값을 내림차순으로 정렬하여 기 설정된 기준인 상위 y 퍼센트의 문장을 추출하는 단계; 및
상기 주제 문장 집합에 포함된 진행자의 중요 문장들과 상기 상위 y 퍼센트의 문장을 추출하는 단계에서 추출한 문장들을 발언 순서대로 정렬하여 상기 회의록의 중요 문장 집합을 생성하는 단계를 포함하는 것을 특징으로 하는 네트워크 기반 회의록 요약 방법.
제1항 또는 제3항에 있어서, 상기 트리 생성 단계는,
상기 중요 문장을 발언 기회 별로 분리하는 단계-상기 발언 기회는 발언자가 연속으로 발언하는 문장들을 포함하는 집합임-;
상기 분리하는 단계에서 분리된 각 발언 기회 별로 그 이전에 나온 발언 기회들과 유사도를 측정하는 단계; 및
상기 진행자의 발언 기회를 루트 노드의 하위 노드로 추가하고, 상기 진행자의 발언 기회를 제외한 나머지 발언 기회는 상기 유사도를 측정하는 단계에서 측정된 유사도가 가장 높은 해당 발언 기회 이전의 노드의 하위 노드로 추가하는 단계를 포함하는 것을 특징으로 하는 네트워크 기반 회의록 요약 방법.