KR101290439B1 - 문장 네트워크 기반 회의록 요약 방법 - Google Patents

문장 네트워크 기반 회의록 요약 방법 Download PDF

Info

Publication number
KR101290439B1
KR101290439B1 KR1020110034968A KR20110034968A KR101290439B1 KR 101290439 B1 KR101290439 B1 KR 101290439B1 KR 1020110034968 A KR1020110034968 A KR 1020110034968A KR 20110034968 A KR20110034968 A KR 20110034968A KR 101290439 B1 KR101290439 B1 KR 101290439B1
Authority
KR
South Korea
Prior art keywords
sentence
sentences
minutes
important
topic
Prior art date
Application number
KR1020110034968A
Other languages
English (en)
Other versions
KR20120117297A (ko
Inventor
박성배
이재걸
Original Assignee
경북대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경북대학교 산학협력단 filed Critical 경북대학교 산학협력단
Priority to KR1020110034968A priority Critical patent/KR101290439B1/ko
Publication of KR20120117297A publication Critical patent/KR20120117297A/ko
Application granted granted Critical
Publication of KR101290439B1 publication Critical patent/KR101290439B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language

Abstract

회의록에서 중요 문장을 추출하고 이들 문장간의 관계를 파악하여 트리 구조의 회의록 요약본을 생성하는 문장 네트워크 기반 회의록 요약 방법이 개시된다. 상기 문장 네트워크 기반 회의록 요약 방법은, 회의록으로부터 복수의 주제에 대한 중요 문장을 추출하는 중요 문장 추출 단계 및 상기 중요 문장 추출 단계에서 추출된 중요 문장의 종속 관계에 따라 상기 중요 문장을 트리 구조로 표현하는 트리 생성 단계를 포함한다.

Description

문장 네트워크 기반 회의록 요약 방법{METHOD FOR SUMMERIZING MEETING MINUTES BASED ON SENTENCE NETWORK}
본 발명은 회의록 요약 방법에 관한 것으로, 더욱 상세하게는 회의록에서 중요 문장을 추출하고 이들 문장간의 관계를 파악하여 트리 구조의 회의록 요약본을 생성하는 문장 네트워크 기반 회의록 요약 방법에 관한 것이다.
일반적으로, 국회 및 지방의회, 공공기관 및 일반기업에서는 많은 회의를 하고 진행된 회의의 내용을 회의록 형태로 기록하여 보관한다. 최근에는 기록된 회의록을 전자문서 형태로 변환하여 인터넷에 공개함으로써 일반인들이 쉽게 접근하여 그 내용을 볼 수 있다.
그러나, 통상의 회의록은 보관의 용도로 작성되는 것으로서, 회의의 시작에서 끝까지 모든 의사에 관한 발언을 모두 기재하므로, 일반인들이 회의의 전체적인 흐름이나 대략적인 내용을 파악하기에는 적합하지 않다.
따라서, 회의록의 주요 내용을 유지하면서, 회의록의 전체적인 흐름 파악을 용이하게 하기 위한 문서요약 기술이 요구된다.
문서요약 기술이란, 문서가 포함하고 있는 핵심 주제를 유지하면서 문서의 크기를 효과적으로 감소시킨 요약본을 생성하는 기술로서, 종래에 이에 관련된 많은 연구들이 이루어져 왔다.
그러나, 종래의 문서요약 기술에 관련된 연구들은 하나의 문서 전체가 하나의 주제를 갖는 것으로 간주하고 요약을 수행하기 때문에, 하나의 문서에서 여러 가지 세부 주제들이 나타나는 회의록의 요약에는 적합하지 않은 문제가 있다.
이에, 회의록을 요약하기 위해서는, 복수의 주제를 포함하는 회의록의 특징을 고려한 새로운 문서요약 기법이 요구된다.
본 발명은, 복수의 주제를 갖는 회의록의 요약에 적합한 문장 네트워크 기반 회의록 요약 방법을 제공하는 것을 해결하고자 하는 기술적 과제로 한다.
또한, 본 발명은, 복수의 주제를 갖는 회의록의 용이한 흐름 파악이 가능한 문장 네트워크 기반 회의록 요약 방법을 제공하는 것을 해결하고자 하는 기술적 과제로 한다.
상기 기술적 과제를 해결하기 위한 수단으로서 본 발명은,
회의록으로부터 복수의 주제에 대한 중요 문장을 추출하는 중요 문장 추출 단계; 및
상기 중요 문장 추출 단계에서 추출된 중요 문장의 종속 관계에 따라 상기 중요 문장을 트리 구조로 표현하는 트리 생성 단계
를 포함하는 문장 네트워크 기반 회의록 요약 방법을 제공한다.
본 발명의 일 실시형태에서, 상기 중요 문장 추출 단계는, 상기 회의록에서 회의 진행자의 발언 문장에 기초하여 회의 주제별로 문장을 분리하여 주제 문장의 집합을 생성하는 단계; 및 상기 주제 문장 집합에서, 문장에 사용된 단어에 기초하여 상기 주제 문장과 그 이외의 문장 사이의 유사도를 산출하고 그에 따라 상기 중요 문장을 추출하는 단계를 포함할 수 있다.
본 발명의 일 실시형태에서, 상기 주제 문장 집합을 생성하는 단계는, 상기 회의록에서 상기 진행자의 발언 문장들을 포함하는 진행자 발언 문장 집합을 생성하는 단계; 상기 진행자 발언 문장 집합에 포함된 문장의 중요도값을 연산하는 단계; 상기 진행자 발언 문장 집합에 포함된 문장들 중, 기 작성된 회의록 단어 사전에 포함된 단어가 존재하는 경우, 해당 문장의 중요도값에 가중치를 적용하는 단계-상기 회의록 단어 사전은, 상기 진행자 발언 중 세부 주제를 변화시키는 단어, 상투어 및 불용어를 포함하는 높은 빈도수의 단어를 포함함-; 상기 가중치가 적용된 최종 중요도 값을 내림차순으로 정렬하고 기 설정된 상위
Figure 112011027778502-pat00001
퍼센트의 최종 중요도 값을 갖는 문장을 상기 중요 문장으로 추출하는 단계-
Figure 112011027778502-pat00002
는 기 설정된 요약 비율-; 및 상기 최종 중요도 값을 갖는 문장을 추출하는 단계에 의해 추출되는 하나의 중요 문장부터 그 다음 중요 문장 이전까지의 문장을 포함하는, 세부 주제별 주제 문장 집합을 생성하는 단계를 포함할 수 있다.
본 발명의 일 실시형태에서, 상기 중요도값을 연산하는 단계는, 상기 진행자 발언 문장 집합에 포함된 문장에 페이지랭크(PageRank) 알고리즘을 적용하여 문장의 중요도값을 연산하는 단계일 수 있다.
본 발명의 일 실시형태에서, 상기 중요도값을 연산하는 단계는, 상기 페이지랭크 알고리즘의 하기 식 1을 이용하여 결정될 수 있다.
[식 1]
Figure 112011027778502-pat00003
상기 식 1에서,
Figure 112011027778502-pat00004
는 문장
Figure 112011027778502-pat00005
의 중요도 값,
Figure 112011027778502-pat00006
는 현재 문장에서 다른 문장으로 이동할 확률(damping factor) 값으로 상기 페이지랭크 알고리즘에서 제안하는 0.85,
Figure 112011027778502-pat00007
는 문장
Figure 112011027778502-pat00008
와 연결된 문장들의 집합,
Figure 112011027778502-pat00009
, 단어
Figure 112011027778502-pat00010
는 문장
Figure 112011027778502-pat00011
와 문장
Figure 112011027778502-pat00012
사이에 공통으로 포함된 단어 중 명사,
Figure 112011027778502-pat00013
는 문장
Figure 112011027778502-pat00014
의 단어 개수이다.
본 발명의 일 실시형태에서, 상기 가중치를 적용하는 단계는, 하기 식 4와 같이 상기 중요도값에 가중치를 적용하는 단계일 수 있다.
[식 4]
Figure 112011027778502-pat00015
상기 식 4에서,
Figure 112011027778502-pat00016
는 회의록 단어사전,
Figure 112011027778502-pat00017
는 가중치 값으로, 0<
Figure 112011027778502-pat00018
<1 이다.
본 발명의 일 실시형태에서, 상기 가중치는, 상기 세부 주제를 변화시키는 단어를 포함하는 긍정 단어에 대해서 양수가 적용되고, 상기 상투어 및 불용어를 포함하는 부정 단어에 대해 음수가 적용될 수 있다.
본 발명의 일 실시형태에서, 상기 유사도를 산출하고 그에 따라 상기 중요 문장을 추출하는 단계는, 상기 세부 주제별 주제 문장 집합을 생성하는 단계에서 생성된 주제 문장 집합을 이용하여 회의록의 문장들을 주제별로 분리하는 단계; 상기 주제 문장 집합에 포함된 주제 문장과 진행자의 발언 문장을 제외한 참석자들의 발언 문장을 각각 벡터로 표현하는 단계; 하기 식 5을 이용하여 상기 벡터로 표현하는 단계에서 벡터로 표현된 문장들 사이의 유사도 값을 연산하는 단계; 상기 벡터로 표현된 문장들 사이의 유사도 값을 연산하는 단계에서 연산된 유사도 값을 내림차순으로 정렬하여 기 설정된 기준인 상위 y 퍼센트의 문장을 추출하는 단계; 및 상기 주제 문장 집합에 포함된 진행자의 중요 문장들과 상기 상위 y 퍼센트의 문장을 추출하는 단계에서 추출한 문장들을 발언 순서대로 정렬하여 상기 회의록의 중요 문장 집합을 생성하는 단계를 포함할 수 있다.
[식 5]
Figure 112011027778502-pat00019
(
Figure 112011027778502-pat00020
는 유사도 값이고,
Figure 112011027778502-pat00021
는 벡터로 표현된 진행자의 발언 문장을 제외한 참석자의 문장이고,
Figure 112011027778502-pat00022
는 벡터로 표현된 주제문장이며,
Figure 112011027778502-pat00023
는 벡터
Figure 112011027778502-pat00024
의 크기임)
본 발명의 일 실시형태에서, 상기 트리 생성 단계는, 상기 중요 문장을 발언 기회 별로 분리하는 단계-상기 발언 기회는 발언자가 연속으로 발언하는 문장들을 포함하는 집합임-; 상기 분리하는 단계에서 분리된 각 발언 기회 별로 그 이전에 나온 발언 기회들과 유사도를 측정하는 단계; 및 상기 진행자의 발언 기회를 루트 노드의 하위 노드로 추가하고, 상기 진행자의 발언 기회를 제외한 나머지 발언 기회는 상기 유사도를 측정하는 단계에서 측정된 유사도가 가장 높은 해당 발언 기회 이전의 노드의 하위 노드로 추가하는 단계를 포함할 수 있다.
본 발명에 따르면, 회의록의 진행자 문장에서 세부 주제를 찾고 각 세부 주제에 따라 중요한 문장들을 추출함으로써, 복수의 주제를 갖는 회의록을 세부 주제별로 효과적으로 요약할 수 있다.
또한, 본 발명에 따르면, 회의록의 문장들이 대화문인 특징을 반영하여, 추출된 중요 문장들 사이의 종속관계를 분석하여 트리 형태로 요약본을 작성하므로, 회의록의 전체 흐름 파악을 더욱 용이하게 할 수 있다.
도 1은 본 발명의 일 실시형태에 따른 네트워크 기반 회의록 요약 방법을 도시한 흐름도이다.
도 2는 본 발명의 일 실시형태에 따른 문장 네트워크 기반 회의록 요약 방법의 중요 문장 추출 단계를 더욱 상세하게 도시한 흐름도이다.
도 3은 도 2에 도시된 주제 문장 집합을 생성하는 단계를 더욱 상세하게 도시한 흐름도이다.
도 4는 도 2에 도시된 중요 문장을 추출하는 단계에 적용되는 백오브워드 모델을 이용하여 유사도를 계산하는 방법을 도시한 흐름도이다.
도 5는 본 발명의 일 실시형태에 따른 문장 네트워크 기반 회의록 요약 방법의 트리 생성 단계를 더욱 상세하게 도시한 흐름도이다.
이하, 첨부된 도면을 참조하여 본 발명의 실시형태를 보다 상세하게 설명한다. 그러나, 본 발명의 실시형태는 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 이하 설명되는 실시형태로 한정되는 것은 아니다. 본 발명의 실시형태는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 또한, 본 발명을 설명함에 있어서, 정의되는 용어들은 본 발명에서의 기능을 고려하여 정의 내려진 것으로, 이는 당 분야에 종사하는 기술자의 의도 또는 관례 등에 따라 달라질 수 있으므로, 본 발명의 기술적 구성요소를 한정하는 의미로 이해되어서는 아니 될 것이다.
도 1은 본 발명의 일 실시형태에 따른 문장 네트워크 기반 회의록 요약 방법을 도시한 흐름도이다.
도 1에 도시한 것과 같이, 본 발명의 일 실시형태에 따른 문장 네트워크 기반 회의록 요약 방법은 크게 회의록으로부터 복수의 주제에 대한 중요 문장을 추출하는 중요 문장 추출 단계(S1)와, 상기 추출된 중요 문장의 종속 관계에 따라 상기 중요 문장을 트리 구조로 표현하는 트리 생성 단계(S2)를 포함할 수 있다.
일반적으로, 회의록은 회의가 진행되면서 나타나는 참석자들의 모든 발언을 시간 순서대로 기록한 문서로 일반적인 문서와는 달리 다음과 같은 세 가지 특징이 있다.
첫째, 회의의 진행에 따라 여러 세부 주제들이 나타나고 그 흐름을 진행자가 주도한다. 회의록은 회의가 진행됨에 따라서 하나의 안건에 대해서 내용설명, 의견제시, 토론 등과 같은 여러 세부 주제들이 나타난다. 그리고 이런 세부 주제들은 진행자의 발언에 따라서 변화하게 된다.
둘째, 회의의 흐름을 판단하는데 중요한 역할을 하는 단어들이 존재한다. 세부 주제를 변화시키는 진행자의 발언에 자주 포함되는 “상정”, “의사진행발언”, “반대토론” 등과 같은 단어들이 존재한다. 이러한 단어들은 회의록의 세부 주제를 변화시키는 단어로 회의의 흐름을 파악하는데 중요한 역할을 한다.
셋째, 참석자들 사이의 대화를 기록한 문서로 대화들 사이에 종속관계가 나타난다. 진행자의 발언 이후에 나오는 참석자들의 발언은 진행자의 발언에 종속적이고, 참석자들의 발언 사이에서도 종속적인 관계가 나타날 수 있다.
본 발명은 전술한 회의록의 특징들을 반영한 회의록 요약 방법을 제공한다. 즉, 본 발명은, 회의록의 세부 주제별로 중요 문장을 추출하여 문서 크기를 감소시키고, 회의록의 표현을 트리 형태로 바꾸어 전체적인 흐름을 쉽게 파악할 수 있게 하는 두 가지 측면을 고려한 회의록 요약 방법을 제공한다.
상기 중요 문장 추출 단계(S1)는, 회의록의 세부 주제들을 찾는 주제문장 추출단계와 각 주제별로 회의록의 중요한 문장들만 선택하는 중요 문장 추출단계를 포함할 수 있다.
상기 주제문장 추출단계에서는 요약할 회의록과, 회의의 흐름을 파악하는데 중요한 역할을 하는 단어들의 집합인 회의록 단어사전을 입력으로 받는다. 상기 주제문장 추출단계는, 회의록으로부터 진행자의 발언 문장들만을 대상으로 회의록 단어사전을 고려하여 세부 주제에 적합한 문장들을 선택하여 주제문장 집합을 생성하는 단계이다.
상기 중요 문장 추출단계는 요약할 회의록과, 이전 단계에서 생성된 주제문장 집합을 입력으로 받는다. 상기 중요 문장 추출단계는, 주제문장 집합을 기준으로 회의록 전체를 주제별로 분리하고, 분리된 주제별로 각 주제와 관련이 깊은 문장만을 추출하여 회의록의 중요 문장 집합을 생성하는 단계이다.
상기 트리 생성 단계(S2)에서는, 상기 중요 문장 집합을 입력으로 받는다. 상기 트리 생성 단계(S2)에서는, 회의록의 중요 문장 집합의 문장들을 주제별로 분리하여 노드를 생성하고 각 주제 안에서 문장들의 종속관계를 분석하여 트리에서 노드 문장들의 위치를 결정한다. 상기 트리 생성 단계(S2)에서, 회의록의 중요 문장 집합의 모든 문장들에 대한 위치가 결정되면 이를 트리 구조로 표현하여 회의록 요약문을 생성한다.
이하, 본 발명의 일 실시형태에 따른 문장 네트워크 기반 회의록 요약 방법의 구성요소인 중요 문장 추출 단계(S1) 및 트리 생성 단계(S2)의 세부 구성 및 그 작용 효과에 대해 더욱 상세하게 설명하기로 한다.
중요 문장 추출 단계(S1)
도 2는 본 발명의 일 실시형태에 따른 문장 네트워크 기반 회의록 요약 방법의 중요 문장 추출 단계를 더욱 상세하게 도시한 흐름도이다.
도 2에 도시한 바와 같이, 중요 문장 추출 단계(도 1의 S1)는, 진행자 발언을 이용하여 주제 문장 집합을 생성하는 단계(S11)와, 상기 주제 문장 집합에서, 문장에 사용된 단어에 기초하여 상기 주제 문장과 그 이외의 문장 사이의 유사도를 산출하고 그에 따라 상기 중요 문장을 추출하는 단계(S12)를 포함할 수 있다.
회의록에서 중요한 문장을 추출하기 위해서는 우선 회의록의 세부 주제를 찾아서 회의록 전체를 각 주제별로 나누는 작업이 필요하다. 상기 진행자 발언을 이용하여 주제 문장 집합을 생성하는 단계(S11)에서는 회의록과 회의록 단어사전을 입력으로 받아서 진행자의 발언 문장으로부터 회의록의 세부 주제를 찾고 찾아진 결과를 이용하여 주제문장 집합을 생성할 수 있다. 입력으로 받는 회의록은 시간 순서대로 기록된 발언 내용들로 이루어져 있고, 각 발언 내용은 발언자와 발언문장의 쌍으로 구성된다. 그리고 회의록 단어사전은 회의의 흐름을 파악하는데 중요한 역할을 하는 단어들의 집합으로 이루어져 있다.
도 3은 도 2에 도시된 주제 문장 집합을 생성하는 단계(S11)를 더욱 상세하게 도시한 흐름도이다.
주제 문장 집합을 생성하는 단계(도 2의 S11)는, 회의록에서 회의 진행자의 발언 문장들을 선택하여 이를 포함하는 진행자 발언 문장 집합을 생성하는 단계(S111)로부터 시작된다.
이어, 진행자 발언 문장 집합에 포함된 문장들의 중요도값을 연산하는 단계(S112)가 수행된다. 이 진행자 발언 문장 집합에 포함된 문장들의 중요도값을 연산하는 단계(S112)는, 상기 진행자 발언 문장 집합에 포함된 문장에 페이지랭크(PageRank) 알고리즘을 적용하여 문장의 중요도값을 연산하는 단계일 수 있다.
통상, 회의록은 기존에 구축되어 있는 학습 데이터가 적고 학습 데이터를 직접 구축하기 위해서는 비용이 많이 들기 때문에 문장의 중요도 값 계산에 지도 (Supervised) 학습 방법을 사용하기 어렵다. 따라서 본 발명에서는 비지도 (Unsupervised) 학습 방법 중 우수한 성능을 보이는 페이지랭크(PageRank) 알고리즘을 사용하여 중요도값을 연산할 수 있다.
페이지랭크(PageRank) 알고리즘을 사용하기 위해서는 문서를 그래프 형태로 변환하여야 한다. 본 발명에서는 문서에 포함된 문장들을 노드로 보고 서로 다른 문장에서 같은 단어가 나오는 문장들을 연결하여 그래프를 생성한다. 이렇게 생성된 그래프에 페이지랭크(PageRank)의 노드 중요도를 연산하는 하기 식 1을 이용하여 상기 진행자 발언 문장 집합에 포함된 각 문장의 중요도를 계산한다.
[식 1]
Figure 112011027778502-pat00025
상기 식 1에서,
Figure 112011027778502-pat00026
는 문장
Figure 112011027778502-pat00027
의 페이지랭크(PageRank) 값을 의미하고,
Figure 112011027778502-pat00028
는 현재 문장에서 다른 문장으로 이동할 확률(damping factor) 값으로 페이지랭크(PageRank)에서 제안한 값 0.85를 사용한다.
Figure 112011027778502-pat00029
는 문장
Figure 112011027778502-pat00030
로 들어오는 연결을 갖는 문장들의 집합이고,
Figure 112011027778502-pat00031
는 문장
Figure 112011027778502-pat00032
에서 나가는 연결을 갖는 문장들의 집합이다.
Figure 112011027778502-pat00033
는 문장
Figure 112011027778502-pat00034
와 문장
Figure 112011027778502-pat00035
사이의 연결 가중치를 의미한다. 본 발명에서는 문장
Figure 112011027778502-pat00036
와 문장
Figure 112011027778502-pat00037
사이에 공통적으로 존재하는 단어들의 빈도수를 이용하여 유사도 식을 하기 식 2와 같이 정의하였으며, 하기 식2로 계산된 유사도 값을 가중치
Figure 112011027778502-pat00038
로 사용한다.
[식 2]
Figure 112011027778502-pat00039
상기 식 2에서, 단어
Figure 112011027778502-pat00040
는 문장
Figure 112011027778502-pat00041
와 문장 사이에 공통으로 포함된 단어들을 의미한다. 본 발명에서는 문장에 포함된 단어들 중에서 명사만을 사용한다. 이 식에서
Figure 112011027778502-pat00043
는 문장
Figure 112011027778502-pat00044
의 단어 개수를 의미하고 문장에 포함된 단어가 많을수록 유사도 값이 커지는 것을 막기 위해 각 문장의 단어의 개수에 대해
Figure 112011027778502-pat00045
를 취해 나누어 주었다.
상기 식 1 및 식 2를 통해, 본 발명에서 적용되는 페이지랭크 알고리즘의 중요도값 계산은 하기 식 3과 같이 결정될 수 있다.
[식 3]
Figure 112011027778502-pat00046
본 발명에 적용되는 페이지랭크 알고리즘에서 생성한 그래프는 무향 그래프 (Undirected Graph)이므로, 원래 페이지랭크(PageRank) 식에서 사용된 문장
Figure 112011027778502-pat00047
로 들어오는 문장들의 집합
Figure 112011027778502-pat00048
와 문장
Figure 112011027778502-pat00049
에서 나가는 문장들의 집합
Figure 112011027778502-pat00050
는 문장
Figure 112011027778502-pat00051
와 연결된 문장들의 집합인
Figure 112011027778502-pat00052
로 대체된다. 또한, 문장
Figure 112011027778502-pat00053
와 문장
Figure 112011027778502-pat00054
사이의 연결 가중치
Figure 112011027778502-pat00055
역시 마찬가지로 상기 식 2의
Figure 112011027778502-pat00056
로 대체된다.
이어, 회의록 단어 사전을 이용하여 전술한 단계(S112)에서 연산된 중요도 값에 가중치를 부여하는 단계(S113)가 수행된다.
회의록에서 진행자의 발언 중에서 세부 주제를 변화시키는 발언에는 빈번하게 사용되는 단어들이 존재한다. 또한, 중요한 의미 없이 상투적으로 쓰이는 상투어들이나 불용어와 같은 단어들도 존재한다. 상기 회의록 단어 사전은, 진행자의 발언 중에서 전술한 것과 같은 단어들을 모아서 긍정 단어와 부정 단어로 분리하여 구축될 수 있다. 회의록 사전에 포함된 단어가 해당 문장에서 나타날 경우에, 전술한 단계(S112)에서 연산된 문장의 중요도값에 가중치 값
Figure 112011027778502-pat00057
을 부여할 수 있다. 이 가중치 값은 긍정 단어의 경우에는 양수 값을 가지고, 부정 단어의 경우에는 음수 값을 가질 수 있다. 상기 회의록 단어사전을 이용한 가중치까지 모두 적용하여 최종적으로 결정되는 진행자의 발언 문장의 중요도 값은 하기 식 4와 같이 결정될 수 있다.
[식 4]
Figure 112011027778502-pat00058
상기 식 4에서,
Figure 112011027778502-pat00059
는 회의록 단어사전이고 단어
Figure 112011027778502-pat00060
가 회의록 단어 사전
Figure 112011027778502-pat00061
와 문장
Figure 112011027778502-pat00062
에 공통으로 포함되어 있을 경우 문장의 중요도 값
Figure 112011027778502-pat00063
에 해당 가중치 값
Figure 112011027778502-pat00064
를 곱한다. 문장
Figure 112011027778502-pat00065
에 회의록 단어 사전
Figure 112011027778502-pat00066
의 단어가 포함되어 있지 않은 경우는 기존에 계산된 문장의 중요도 값
Figure 112011027778502-pat00067
를 그대로 사용할 수 있다.
이어, 상기 가중치가 적용된 최종 중요도 값을 내림차순으로 정렬하고 기 설정된 상위
Figure 112011027778502-pat00068
퍼센트의 최종 중요도 값을 갖는 문장을 추출하는 단계(S114)가 수행된다. 이 단계(S114)에서, 매개변수
Figure 112011027778502-pat00069
는 최종적으로 생성할 요약문의 요약 비율로서 기 설정되는 값이다.
이어, 상기 회의록에서, 상기 단계(S114)에 의해 추출되는 하나의 문장부터 그 다음 문장 이전까지의 문장을 포함하는 세부 주제별 주제 문장 집합을 생성하는 단계(S115)가 수행된다.
다시 설명하면, 회의록에 포함되는 문장들 중에서, 상기 단계(S114)에 의해 추출되는 진행자의 중요문장부터 그 다음에 추출된 진행자의 중요문장 이전까지의 문장들을 하나의 개별 주제 문장으로 결정할 수 있다. 회의 중 발언을 하는 경우, 일반적으로 한 번에 여러 문장을 발언한다. 예를 들어, 회의에서 상대편의 의견에 대한 반대토론을 할 때 그 내용을 한 문장으로 발언하는 것이 아니라 여러 문장에 걸쳐서 발언하게 된다. 이렇게 같은 발언자가 연속으로 발언하는 문장들을 하나의 집합으로 묶어 발언 기회로 정의한다. 진행자의 중요 문장을 주제별로 분리하면 하나의 주제에 진행자의 중요 문장이 둘 이상 포함이 될 수 있다. 하지만 이렇게 같은 발언 기회에 나온 문장들은 서로 관련된 주제에 관해 발언한 문장들이므로 이들을 묶어 하나의 주제 문장 집합을 생성할 수 있다.
전술한 것과 같이 주제 문장 집합의 생성이 종료되면, 상기 주제 문장 집합에서 문장 간의 유사도를 사용하여 중요 문장을 추출하는 단계(S12)가 수행된다.
이 단계(S12)에서는, 상기 단계(S11)에서 생성된 주제 문장 집합과 회의록을 입력 받아 각 주제 문장 집합 별로 해당 주제와 관련이 깊은 문장만을 추출한다. 입력 받은 회의록은 전술한 주제 문장 집합 생성 단계(S11)에서의 회의록과 같고, 주제 문장 집합은 이전 단계에서 생성된 개별 주제별로 묶인 진행자의 중요 문장들의 집합이다.
이 단계(S12)에서는, 회의록에 포함된 문장의 중요도를, 상기 주제 문장 집합에 포함된 문장과 타 문장간의 유사한 정도로 측정한다. 두 문장 사이의 유사도를 계산하는 방법에는 여러 가지가 있지만, 본 발명에서는 가장 일반적인 방법으로 백오브워드(bag of word) 모델을 이용하여 문장을 벡터로 표현한 뒤 두 벡터의 코사인 유사도(Cosine Similarity)를 계산하는 방법을 사용할 수 있다.
도 4는 백오브워드 모델을 이용하여 유사도를 계산하는 방법을 도시한 흐름도이다.
도 4에 도시된 바와 같이, 백오브워드 모델을 이용하여 유사도를 계산하는 방법은, 먼저 유사도 계산을 위해 회의록의 문장들을 전술한 단계(S115)에서 생성된 주제 문장 집합을 이용하여 주제별로 분리한다(S121).
이어, 주제 문장 집합에 포함된 주제 문장들과 진행자의 발언 문장을 제외한 참석자들의 발언 문장들을 각각 벡터로 표현한다(S122).
이어, 상기 단계(S122)에서 벡터로 표현된 문장은 하기 식 5를 이용하여 상호간의 유사도 값을 계산할 수 있다(S123).
[식 5]
Figure 112011027778502-pat00070
상기 식 5에서,
Figure 112011027778502-pat00071
는 유사도 값이고,
Figure 112011027778502-pat00072
는 벡터로 표현된 진행자의 발언 문장을 제외한 참석자의 문장이고,
Figure 112011027778502-pat00073
는 벡터로 표현된 주제문장이다. 또한,
Figure 112011027778502-pat00074
는 벡터
Figure 112011027778502-pat00075
의 크기(Norm)이다.
이어, 연산된 유사도 값
Figure 112011027778502-pat00076
을 내림차순으로 정렬하여 기 설정된 기준인 상위 y 퍼센트의 문장을 추출한다(S124).
이어, 상기 단계(S114)에서 추출한 진행자의 중요 문장들과 상기 단계(S124)에서 추출한 중요 문장들을 발언 순서대로 정렬하여 최종적으로 회의록의 중요 문장 집합을 생성한다(S125).
트리 생성 단계(S2)
회의록 문서의 크기를 줄이는 과정인 상기의 중요 문장 추출 단계(S1)가 종료되면, 문서의 표현을 다르게 하여 전체적인 내용과 흐름을 쉽게 파악할 수 있도록 하는 트리 생성 단계(S2)을 진행한다.
이 트리 생성 단계(S2)는, 전술한 중요 문장 추출 단계(S1)에서 생성된 회의록의 중요 문장 집합을 입력으로 받아 각 문장들 사이의 종속 관계를 분석하여 트리 형태로 표현한다.
도 5는 본 발명의 일 실시형태에 따른 문장 네트워크 기반 회의록 요약 방법의 트리 생성 단계를 더욱 상세하게 도시한 흐름도이다.
도 5를 참조하면, 트리 생성 단계는, 상기 중요 문장 집합 내의 중요 문장을 발언 기회 별로 분리하여 발언 집합을 생성하는 단계(S21)부터 시작될 수 있다.
일반적으로 회의록에서 발언 문장은 이전에 발언한 문장들에 대한 응답이므로 본 발명에서는 종속관계 분석은 이전에 나온 문장들과 관계만 분석한다. 또한, 종속관계 분석의 단위를 발언한 각 문장이 아닌 각 발언 기회 별로 분리된 문장 집합으로 한다. 전술한 바와 같이, 발언자가 연속으로 발언하는 문장들을 하나의 집합으로 묶어 발언 기회로 정의한다.
회의록의 발언 문장들은 한 번의 발언 기회에 한 문장만을 발언하는 것이 아니라 여러 문장을 발언한다. 그러므로 입력 받은 회의록의 중요 문장 집합도 같은 발언 기회에 두 개 이상의 문장이 중요 문장으로 선택될 수 있다. 이런 문장들을 각 발언 기회 별로 분리하여 발언 집합
Figure 112011027778502-pat00077
을 생성한다.
이렇게 발언 기회 별로 분리된 문장들에서, 동일한 발언 기회
Figure 112011027778502-pat00078
에 포함된 문장
Figure 112011027778502-pat00079
중 하나가 그 이전의 발언 기회들 Mn(n<k)중의 하나의 발언 기회와 종속관계가 있으면, 상기 발언 기회
Figure 112011027778502-pat00080
에 포함된 다른 문장들도 발언 기회 Mn와 종속관계가 있다고 할 수 있다.
이어, 각 발언 기회 별로 그 이전에 나온 발언 기회들과 유사도를 측정하는 단계(S22)가 수행될 수 있다. 유사도의 측정은 당 기술분야에 알려진 다양한 방법이 적용될 수 있으며, 전술한 것과 같은 백오브워드(bag of word) 모델이 적용될 수도 있다.
이어, 최종적으로, 상기 진행자의 발언 기회를 루트 노드의 하위 노드로 추가하고, 상기 진행자의 발언 기회를 제외한 나머지 발언 기회는 상기 유사도를 측정하는 단계에서 측정된 유사도가 가장 높은 해당 발언 기회 이전의 노드의 하위 노드로 추가하여 트리를 완성할 수 있다(S23).
이상에서 설명한 바와 같이, 본 발명은, 회의록의 진행자 문장에서 세부 주제를 찾고 각 세부 주제에 따라 중요한 문장들을 추출함으로써, 복수의 주제를 갖는 회의록을 세부 주제별로 효과적으로 요약할 수 있다. 더하여, 본 발명은, 회의록의 문장들이 대화문인 특징을 반영하여, 추출된 중요 문장들 사이의 종속관계를 분석하여 트리 형태로 요약본을 작성하므로, 회의록의 전체 흐름 파악을 더욱 용이하게 할 수 있다.

Claims (9)

  1. 회의록으로부터 복수의 주제에 대한 중요 문장을 추출하는 중요 문장 추출 단계; 및
    상기 중요 문장 추출 단계에서 추출된 중요 문장의 종속 관계에 따라 상기 중요 문장을 트리 구조로 표현하는 트리 생성 단계를 포함하며,
    상기 중요 문장 추출 단계는,
    상기 회의록에서 회의 진행자의 발언 문장에 기초하여 회의 주제별로 문장을 분리하여 주제 문장의 집합을 생성하는 단계; 및
    상기 주제 문장 집합에서, 문장에 사용된 단어에 기초하여 상기 주제 문장과 그 이외의 문장 사이의 유사도를 산출하고 그에 따라 상기 중요 문장을 추출하는 단계를 포함하는 것을 특징으로 하는 문장 네트워크 기반 회의록 요약 방법.
  2. 삭제
  3. 제1항에 있어서, 상기 주제 문장 집합을 생성하는 단계는,
    상기 회의록에서 상기 진행자의 발언 문장들을 포함하는 진행자 발언 문장 집합을 생성하는 단계;
    상기 진행자 발언 문장 집합에 포함된 문장의 중요도값을 연산하는 단계;
    상기 진행자 발언 문장 집합에 포함된 문장들 중, 기 작성된 회의록 단어 사전에 포함된 단어가 존재하는 경우, 해당 문장의 중요도값에 가중치를 적용하는 단계-상기 회의록 단어 사전은, 상기 진행자 발언 중 세부 주제를 변화시키는 단어, 상투어 및 불용어를 포함하는 높은 빈도수의 단어를 포함함-;
    상기 가중치가 적용된 최종 중요도 값을 내림차순으로 정렬하고 기 설정된 상위
    Figure 112013015840725-pat00081
    퍼센트의 최종 중요도 값을 갖는 문장을 상기 중요 문장으로 추출하는 단계-
    Figure 112013015840725-pat00082
    는 기 설정된 요약 비율-; 및
    상기 최종 중요도 값을 갖는 문장을 추출하는 단계에 의해 추출되는 하나의 중요 문장부터 그 다음 중요 문장 이전까지의 문장을 포함하는, 세부 주제별 주제 문장 집합을 생성하는 단계를 포함하는 문장 네트워크 기반 회의록 요약 방법.
  4. 제3항에 있어서, 상기 중요도값을 연산하는 단계는,
    상기 진행자 발언 문장 집합에 포함된 문장에 페이지랭크(PageRank) 알고리즘을 적용하여 문장의 중요도값을 연산하는 단계인 것을 특징으로 하는 문장 네트워크 기반 회의록 요약 방법.
  5. 제4항에 있어서, 상기 중요도값을 연산하는 단계는,
    상기 페이지랭크 알고리즘의 하기 식을 이용하여 결정되는 것을 특징으로 하는 네트워크 기반 회의록 요약 방법.
    [식]
    Figure 112011027778502-pat00083

    (
    Figure 112011027778502-pat00084
    는 문장
    Figure 112011027778502-pat00085
    의 중요도 값,
    Figure 112011027778502-pat00086
    는 현재 문장에서 다른 문장으로 이동할 확률(damping factor) 값으로 상기 페이지랭크 알고리즘에서 제안하는 0.85,
    Figure 112011027778502-pat00087
    는 문장
    Figure 112011027778502-pat00088
    와 연결된 문장들의 집합,
    Figure 112011027778502-pat00089
    , 단어
    Figure 112011027778502-pat00090
    는 문장
    Figure 112011027778502-pat00091
    와 문장
    Figure 112011027778502-pat00092
    사이에 공통으로 포함된 단어 중 명사,
    Figure 112011027778502-pat00093
    는 문장
    Figure 112011027778502-pat00094
    의 단어 개수임)
  6. 제5항에 있어서, 상기 가중치를 적용하는 단계는,
    하기 식과 같이 상기 중요도값에 가중치를 적용하는 단계인 것을 특징으로 하는 네트워크 기반 회의록 요약 방법.
    [식]
    Figure 112011027778502-pat00095

    (
    Figure 112011027778502-pat00096
    는 회의록 단어사전,
    Figure 112011027778502-pat00097
    는 가중치 값으로, 0<
    Figure 112011027778502-pat00098
    <1 임)
  7. 제3항 또는 제6항에 있어서,
    상기 가중치는, 상기 세부 주제를 변화시키는 단어를 포함하는 긍정 단어에 대해서 양수가 적용되고, 상기 상투어 및 불용어를 포함하는 부정 단어에 대해 음수가 적용되는 것을 특징으로 하는 네트워크 기반 회의록 요약 방법.
  8. 제3항에 있어서, 상기 유사도를 산출하고 그에 따라 상기 중요 문장을 추출하는 단계는,
    상기 세부 주제별 주제 문장 집합을 생성하는 단계에서 생성된 주제 문장 집합을 이용하여 회의록의 문장들을 주제별로 분리하는 단계;
    상기 주제 문장 집합에 포함된 주제 문장과 진행자의 발언 문장을 제외한 참석자들의 발언 문장을 각각 벡터로 표현하는 단계;
    하기 식을 이용하여 상기 벡터로 표현하는 단계에서 벡터로 표현된 문장들 사이의 유사도 값을 연산하는 단계;
    [식]
    Figure 112011027778502-pat00099

    (
    Figure 112011027778502-pat00100
    는 유사도 값이고,
    Figure 112011027778502-pat00101
    는 벡터로 표현된 진행자의 발언 문장을 제외한 참석자의 문장이고,
    Figure 112011027778502-pat00102
    는 벡터로 표현된 주제문장이며,
    Figure 112011027778502-pat00103
    는 벡터
    Figure 112011027778502-pat00104
    의 크기임)
    상기 벡터로 표현된 문장들 사이의 유사도 값을 연산하는 단계에서 연산된 유사도 값을 내림차순으로 정렬하여 기 설정된 기준인 상위 y 퍼센트의 문장을 추출하는 단계; 및
    상기 주제 문장 집합에 포함된 진행자의 중요 문장들과 상기 상위 y 퍼센트의 문장을 추출하는 단계에서 추출한 문장들을 발언 순서대로 정렬하여 상기 회의록의 중요 문장 집합을 생성하는 단계를 포함하는 것을 특징으로 하는 네트워크 기반 회의록 요약 방법.
  9. 제1항 또는 제3항에 있어서, 상기 트리 생성 단계는,
    상기 중요 문장을 발언 기회 별로 분리하는 단계-상기 발언 기회는 발언자가 연속으로 발언하는 문장들을 포함하는 집합임-;
    상기 분리하는 단계에서 분리된 각 발언 기회 별로 그 이전에 나온 발언 기회들과 유사도를 측정하는 단계; 및
    상기 진행자의 발언 기회를 루트 노드의 하위 노드로 추가하고, 상기 진행자의 발언 기회를 제외한 나머지 발언 기회는 상기 유사도를 측정하는 단계에서 측정된 유사도가 가장 높은 해당 발언 기회 이전의 노드의 하위 노드로 추가하는 단계를 포함하는 것을 특징으로 하는 네트워크 기반 회의록 요약 방법.
KR1020110034968A 2011-04-15 2011-04-15 문장 네트워크 기반 회의록 요약 방법 KR101290439B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020110034968A KR101290439B1 (ko) 2011-04-15 2011-04-15 문장 네트워크 기반 회의록 요약 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110034968A KR101290439B1 (ko) 2011-04-15 2011-04-15 문장 네트워크 기반 회의록 요약 방법

Publications (2)

Publication Number Publication Date
KR20120117297A KR20120117297A (ko) 2012-10-24
KR101290439B1 true KR101290439B1 (ko) 2013-07-26

Family

ID=47285274

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110034968A KR101290439B1 (ko) 2011-04-15 2011-04-15 문장 네트워크 기반 회의록 요약 방법

Country Status (1)

Country Link
KR (1) KR101290439B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102252096B1 (ko) * 2020-02-20 2021-05-17 (주)폴리티카 빅데이터 기반 회의록 가공 서비스 제공 시스템

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101656245B1 (ko) * 2015-09-09 2016-09-09 주식회사 위버플 문장 추출 방법 및 시스템
KR20200055511A (ko) 2018-11-13 2020-05-21 대구대학교 산학협력단 웹 기반 실시간 공유 오브젝트 전송 시스템 및 방법
KR102332268B1 (ko) * 2019-11-08 2021-11-29 주식회사 엘지유플러스 고객 상담 요약 장치 및 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050278325A1 (en) * 2004-06-14 2005-12-15 Rada Mihalcea Graph-based ranking algorithms for text processing

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050278325A1 (en) * 2004-06-14 2005-12-15 Rada Mihalcea Graph-based ranking algorithms for text processing

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"2단계 문장 추출 방법을 이용한 회의록 요약", 한국지능시스템학회 20주년 기념 2010년도 추계학술대회 학술발표논문집 제20권 제2호, 2010.11,page121-124, 이재걸, 박성배, 이상조 *
Nikhil Garg, et al. ClusterRank: A Graph Based Method for Meeting Summarization", INTERSPEECH 2009 BRIGHTON, pp.1499-1502, (2009.09.10.) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102252096B1 (ko) * 2020-02-20 2021-05-17 (주)폴리티카 빅데이터 기반 회의록 가공 서비스 제공 시스템

Also Published As

Publication number Publication date
KR20120117297A (ko) 2012-10-24

Similar Documents

Publication Publication Date Title
US20210297275A1 (en) Organizing and aggregating meetings into threaded representations
Chen et al. Structure-aware abstractive conversation summarization via discourse and action graphs
US8676586B2 (en) Method and apparatus for interaction or discourse analytics
Elnagar et al. An annotated huge dataset for standard and colloquial arabic reviews for subjective sentiment analysis
WO2018066445A1 (ja) 因果関係認識装置及びそのためのコンピュータプログラム
US8996371B2 (en) Method and system for automatic domain adaptation in speech recognition applications
CN108538286A (zh) 一种语音识别的方法以及计算机
CN110334110A (zh) 自然语言分类方法、装置、计算机设备以及存储介质
US20200137224A1 (en) Comprehensive log derivation using a cognitive system
KR20190015797A (ko) 인공지능(ai)을 통한 딥러닝훈련모듈과, 순위화프레임워크모듈을 활용하여, 법률전문가에게 최적화된 모범답안을 제시하는 한편, 법률정보를 의미 벡터로 변환하여, 데이터베이스에 저장하고, 이에 대한 문자열 사전모듈을 활용한 온라인 법률정보사전을 제공하는 시스템 및 그 방법
CN106610955A (zh) 基于词典的多维度情感分析方法
CN107273359A (zh) 一种文本相似度确定方法
CN103699525A (zh) 一种基于文本多维度特征自动生成摘要的方法和装置
Klavan et al. The Use of Multivariate Statistical Classification Models for Predicting Constructional Choice in Spoken, Non-Standard Varieties of Estonian.
CN111694940A (zh) 一种用户报告的生成方法及终端设备
CN110992957B (zh) 基于隐私保护的语音数据处理方法
KR101290439B1 (ko) 문장 네트워크 기반 회의록 요약 방법
Meladianos et al. Real-time keyword extraction from conversations
Kaushik et al. Automatic audio sentiment extraction using keyword spotting.
CN108108462A (zh) 一种基于特征分类的文本情感分析方法
KR20200137924A (ko) 텍스트 스트리밍 환경에서의 실시간 키워드 추출 방법 및 장치
US9786274B2 (en) Analysis of professional-client interactions
Burkhardt et al. Nkululeko: A tool for rapid speaker characteristics detection
Hiemstra et al. SIGIR's 30th Anniversary: An Analysis of Trends in IR Research and the Topology of its Community
CN110532551A (zh) 文本关键词自动提取的方法、设备和存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160617

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170621

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20180626

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20190627

Year of fee payment: 7