WO2016125949A1 - 문서 자동 요약 방법 및 서버 - Google Patents

문서 자동 요약 방법 및 서버 Download PDF

Info

Publication number
WO2016125949A1
WO2016125949A1 PCT/KR2015/004566 KR2015004566W WO2016125949A1 WO 2016125949 A1 WO2016125949 A1 WO 2016125949A1 KR 2015004566 W KR2015004566 W KR 2015004566W WO 2016125949 A1 WO2016125949 A1 WO 2016125949A1
Authority
WO
WIPO (PCT)
Prior art keywords
word
words
graph
sentence
similarity
Prior art date
Application number
PCT/KR2015/004566
Other languages
English (en)
French (fr)
Inventor
이수원
김희찬
Original Assignee
숭실대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 숭실대학교 산학협력단 filed Critical 숭실대학교 산학협력단
Publication of WO2016125949A1 publication Critical patent/WO2016125949A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing

Definitions

  • the present invention relates to a technique for extracting the most influential sentences in a document as a summary of the document.
  • the automatic document extraction summary technology is a part of the text mining field, and it is a research field that extracts the most important sentences in a document and presents them as a summary.
  • the conventional document summarization method is mainly focused on the rank algorithm for document summarization, and there is a problem in that the semantic similarities between words in sentences are not sufficiently considered when calculating the similarity between sentences.
  • the present invention is to solve the above-mentioned problems of the prior art, it is to propose a method that can minimize the information loss of the document by calculating the similarity between sentences in consideration of the semantic elements of the document when the sentence summary.
  • a method for automatically summarizing a document by a server includes: (a) simultaneous appearance relationships of nodes representing the words of each sentence included in the document; Generating a first graph (G word ) by connecting to a first edge having a weight with respect to (b) inter-sentence nodes representing each sentence using the first graph (G word ); Generating a second graph (G sentence ) by connecting to a second edge having a weight for similarity and (c) extracting a main sentence from the plurality of sentences by applying a rank algorithm to the second graph (G sentence ) Characterized in that it comprises a step.
  • a server for automatically summarizing a document includes weighting one node representing a word of each sentence included in the document for the simultaneous appearance relationship in the sentence. by having used the first edge (edge) first graph (G word) the first graph (G word) relation graph generating unit between the words, for generating in conjunction with, the degree of similarity between text nodes representing each of the sentences.
  • a main sentence is extracted from the plurality of sentences by applying a rank algorithm to the second graph (G sentence ) and a relationship graph generator for generating a second graph (G sentence ) by connecting to a second edge having a weight for the second sentence (G sentence ).
  • a rank algorithm application unit is used to the first edge (edge) first graph (G word) the first graph (G word) relation graph generating unit between the words, for generating in conjunction with, the degree of similarity between text nodes representing each of the sentences.
  • the loss of information of a document may be minimized by calculating the similarity between sentences in consideration of the semantic elements of the document.
  • FIG. 1 is a block diagram showing the configuration of a document summary server according to an embodiment of the present invention.
  • FIG. 2 is a diagram illustrating a word relationship graph G word according to an embodiment of the present invention.
  • FIG. 3 is a diagram in which synonyms are added to a graph (G word ) between words shown in FIG. 2.
  • FIG. 4 is a table showing an application result of a sentence vector according to an embodiment of the present invention.
  • FIG. 5 is a flowchart illustrating a document summarizing process according to an embodiment of the present invention.
  • FIG. 6 is a diagram illustrating a word relationship graph (G word ) and an algorithm according to another embodiment of the present invention.
  • FIG. 7 is a diagram illustrating a maximum similarity path applied to a graph of word relationships (G word ) illustrated in FIG. 6.
  • FIG. 8 is a flowchart illustrating a document summarizing process according to another embodiment of the present invention.
  • FIG. 9 is an algorithm for performing the document summary process of FIG. 8.
  • FIG. 1 is a block diagram showing the configuration of a document summary server according to an embodiment of the present invention.
  • Document summary server 100 is the relationship between the graph generating unit 110, the word synonym extraction unit 120, inter-sentence relationship graph generation unit 130 and rank algorithm application unit 140 It may include.
  • the inter-word relationship graph generator 110 may extract the nouns, adjectives, and verbs by dividing the input document D into a sentence unit for document summary and performing morphological analysis on each sentence.
  • the word-to-word relationship graph generator 110 represents each word extracted by morphological analysis as a node, and connects each word to an edge having a weight indicating a relationship in which two words appear simultaneously in the same sentence.
  • a graph showing a co-occurrence relationship between words hereinafter, referred to as a 'word relationship graph') may be generated (G word ).
  • an edge may be added and displayed several times, or may be displayed as one edge and then the frequency of the edge may be displayed as metadata.
  • inter-word relationship graph generation unit 110 may additionally reflect the synonyms of words expressed by each node to the inter-word relationship graph G word as a new node.
  • the synonyms may be extracted by the synonym extraction unit 120 to be described later.
  • inter-word relationship graph generator 110 may calculate semantic similarities between nodes expressing two words in the inter-word relationship graph (G word ).
  • the inter-word relationship graph generator 110 may calculate semantic similarities between words using shortest paths of two nodes.
  • the weight co-occurrence of the word relationship graph (G word ) is a weight indicating the similarity between words and thus cannot be defined as a distance. Therefore, the inter-word relationship graph generator 110 defines the distance between nodes of the inter- word relationship graph (G word ) as 1-weight to calculate the shortest path.
  • the word-to-word relationship graph generator 110 calculates the shortest paths between nodes representing two words in the semantic similarity Sim word (w i , w j ) of two words w i and w j . It can be calculated by multiplying the weights of the post edge e k , which can be expressed as Equation 1 below.
  • the inter-word relationship graph generator 110 may calculate the semantic similarity between two words in the inter- word relationship graph G word using the maximum similarity path of the two nodes.
  • the 'maximum similarity path' is a path having the largest product of the edge weights among the paths between the two words w i and w j , and the maximum similarity level may be defined as the similarity between the two words.
  • the weights can be set higher according to the frequency of simultaneous appearance, and the word-to-word relationship graph generator 110 generates a word-to-word relationship graph (G word). ) can be calculated using the formula 2-1 under the similarity Sim i, j of the adjoining two words w i and w j.
  • ⁇ ( ) Is expressed as an edge as a weight of whether words appear simultaneously. Is the frequency of simultaneous appearance of two words, ⁇ ( ) Is a weight for the frequency of simultaneous appearance.
  • Equation 2-2 The maximum similarity between the two words w i and w j may be calculated using Equation 2-2 below.
  • Equation 2-2 may mean a value of the i th row and the j th column in the maximum similarity matrix, and an algorithm for extracting the maximum similarity matrix will be described later with reference to FIG. 7. .
  • the synonym extractor 120 may extract the synonyms of all the words expressed by the nodes of the word relationship graph (G word ).
  • the synonym extractor 120 may be connected to a thesaurus (not shown), and the synonym for each word may be searched for and extracted from the thesaurus (not shown).
  • the synonym of each word extracted by the synonym extraction unit 120 may be further reflected in the inter-word relationship graph G word as a new node by the inter-word relationship graph generation unit 110.
  • a node representing a specific word and a node further reflected as a synonym of the specific word may be connected to an edge having a weight weight synonym indicating a degree of significance.
  • the synonym extractor 120 may further reflect the synonym of the additionally reflected synonym, but if the synonym relationship is continuously reflected further, the actual meaning may be completely different, so the synonym additional reflection
  • the number of times (depth) may be set to a specific number of times (for example, three times).
  • the synonym extraction of the synonym extraction unit 120 according to an embodiment of the above-described inter-word relationship graph generation unit 110-using the shortest path (shortest path) of the two nodes relationship graph (G word In the case of calculating the similarity between words in the ()) can be applied to, in accordance with another embodiment of the above-described inter-word relationship graph generator 110-using the maximum similarity path of the two nodes graph (G) It does not apply to-when calculating the similarity between two words in word ).
  • the inter-sentence relationship graph generation unit 130 may express each sentence divided in the document as a node and connect the similarity between the sentences to the edge to generate the inter-sentence relationship graph (G sentence ).
  • the inter-sentence relationship graph generation unit 130 may be graphed while minimizing the loss of semantic information of the document by expressing it as an edge reflecting the similarity between words in the word-to- word relationship graph (G word ) when calculating the similarity between sentences. Can be.
  • the G sentence between the sentences is used for each sentence S i , and the edge representing the similarity between the nodes can be calculated using Equation 3 below. have.
  • the inter-sentence relationship graph generator 130 may calculate the similarity between sentences using cosine similarity similarity cosine .
  • the vector function for calculating the similarity between two sentences S i and S j is to reflect the similarity between words in the word-to- word relationship graph (G word ) to the similarity between sentences (hereinafter, referred to as a sentence vector function).
  • G word word-to- word relationship graph
  • sentence vector function the similarity between sentences
  • words that appear together in a sentence may be defined on the premise that mutual relationships exist, and synonyms of a specific word may not have the same meaning but have similar meanings.
  • the sentence vector function may calculate a similarity between the number of words that appear in two sentences and the words that do not appear, and return a vector by adding the averaged values.
  • the inter-sentence relationship graph generator 130 calculates a sentence vector function using Equation 3 as follows.
  • the word dimension of the vector returned by the sentence vector function has n dimensions of the union of the words in S i and S j , and fills in the frequency of occurrence of the word in S i in each word dimension.
  • the rank algorithm application unit 140 may extract the most influential sentence from the inter-sentence relationship graph (G sentence ) generated by the inter-sentence relationship graph generator 130 using a graph-based rank algorithm.
  • An embodiment of the present invention may extract the top N sentences as a summary using the TextRank rank algorithm.
  • the ranking algorithm used in TextRank can calculate the rank score of the sentence by reflecting the similarity between the sentences in the PageRank ranking algorithm, that is, the weight of the edges between the nodes, and expressed by the following equation [Equation 5] Is the same as
  • the rank algorithm application unit 140 may apply the algorithm of [Equation 5] to the relationship sentence (G sentence ) between sentences, extract the top N sentences by sorting the rank scores of the sentences in descending order, and present them as a summary of the document D. have.
  • FIG. 2 is a diagram illustrating a word relationship graph G word according to an embodiment of the present invention.
  • the word-to-word relationship graph (G word ) shown in FIG. 2 is a noun, an adjective, and a verb extracted by performing morphological analysis for each sentence in two sentences S 1 and S 2 , and shows a simultaneous appearance relationship in a sentence.
  • Weight Co-occurrence is an edge-to-word relationship.
  • FIG. 3 is a diagram in which synonyms are added to a graph (G word ) between words shown in FIG. 2.
  • FIG. 3 is a synonym added to the graph (G word ) between the words shown in FIG. 2, wherein a node representing a specific word and a node added as a synonym are connected to an edge having a weight weight synonym indicating a degree of significance. can see.
  • the semantic similarity of two words can be calculated by multiplying the weights of the edges after obtaining the shortest path between the nodes that represent the two words in the G- word relationship graph, which can be calculated using Equation 1 above. have.
  • FIG. 4 is a table showing an application result of a sentence vector according to an embodiment of the present invention.
  • Table 1 of FIG. 4 shows two sentences calculated using Equation 4 when the weight weight co-occurrence and the weight synonym are 0.2 and 0.7, respectively, in the word-to-word relationship graph (G word ) shown in FIG. 3.
  • the cosine similarity Simialrity cosine (S 1 , S 2 ) of sentences S 1 and S 2 calculated through Equation 3 based on Table 1 of FIG. 4 is 0.295.
  • the similarity between sentences should be calculated with a higher value in consideration of this (the similarity between two sentences according to an embodiment of the present invention is 0.295, which is higher than that of the conventional 0.167). Calculated).
  • FIG. 5 is a flowchart illustrating a document summarizing process according to an embodiment of the present invention.
  • the process of FIG. 5 may be performed by the document summary server 100 illustrated in FIG. 1. Hereinafter, the process of FIG. 5 will be described based on the document summary server 100.
  • the document summary server 100 divides the input document for sentence summary into sentence units and performs morphological analysis on each sentence (S501).
  • the document summary server 100 expresses each word (noun, adjective, and verb) extracted through morphological analysis as a node, and weights co-occurrence indicating a relationship that appears simultaneously in the same sentence. Branches are connected by edges to generate a word relationship graph (G word ) (S502).
  • the document summary server 100 reflected in addition to the relationship graph (G word) between words as a new node extracts synonyms of all the words in the node is represented in the relationship graph (G word) between the words (S503) .
  • the document summary server 100 may calculate a similarity between two words (including a synonym) in the relationship word G word .
  • the document summary server 100 expresses each sentence divided in the document as a node and connects the similarity between sentences to the edge to generate a relationship sentence (G sentence ) between sentences (S504).
  • the document summary server 100 may calculate the similarity between sentences, and minimize the loss of semantic information of the document by expressing it as an edge reflecting the similarity between words in the relationship word (G word ) between words. Can be graphed
  • the document summary server 100 extracts the most influential sentence from the inter-sentence relationship graph G sentence generated in S504 by using a graph-based rank algorithm (S505).
  • FIG. 6 is a diagram illustrating a word relationship graph (G word ) and an algorithm according to another embodiment of the present invention.
  • FIG. 6 (a) shows the result of generating a word co-occurrence relationship with the following two sentences.
  • sentence S 3 appears in the document and is another sentence related to S 1 and S 2 , which has several nodes but only one node for clarity.
  • the solid edges represent the co-occurrence relationship between words and do not indicate the frequency of the edges.
  • 6 (b) is a word relationship graph generation algorithm. After dividing the document D into sentences and extracting only nouns, adjectives, and verbs through morphological analysis for each sentence, the words extracted from each sentence are expressed as nodes and relationships between words. Is an algorithm that expresses the edges having a weight ⁇ according to whether two words appear simultaneously in a sentence.
  • nouns may be represented by proper nouns NNP and general nouns NNG, adjectives by VA, and verbs by VV.
  • FIG. 7 is a diagram illustrating a maximum similarity path applied to a graph of word relationships (G word ) illustrated in FIG. 6.
  • FIG. 7A ⁇ and ⁇ are '0.2' and '1', respectively, in the word relationship graph G word generated from the two sentences S 1 and S 2 of FIG. 6, and the two words are 'performance', respectively. And 'influence', it shows the maximum similarity and frequency of the two words 'performance' and 'influence',
  • Figure 7 (b) is an algorithm for calculating the maximum similarity path.
  • the maximum similarity path is a path having the largest product of the weights of the edges among the paths between the two words w i and w j , and the maximum similarity at this time may be defined as the similarity between the two words.
  • FIG. 8 is a flowchart illustrating a document summarizing process according to another embodiment of the present invention.
  • the process illustrated in FIG. 8 may be performed by the document summary server 100 illustrated in FIG. 1. Hereinafter, the process of FIG. 8 will be described based on the document summary server 100.
  • the document summary server 100 divides the input document for sentence summary into sentence units and performs morphological analysis on each sentence (S801).
  • the document summary server 100 expresses each word (noun, adjective, and verb) extracted through morphological analysis as a node, and has an edge having a weight ⁇ indicating whether the same sentence appears simultaneously. ) To generate a relationship word (G word ) between the words (S802).
  • the document summary server 100 calculates the similarity between adjacent words by reflecting the weight ⁇ for the appearance frequency in the word-to-word relationship graph G word (S803).
  • the document summary server 100 may use a maximum similarity path between nodes representing two words in the word-to- word relationship graph (G word ).
  • the document summary server 100 After S803, the document summary server 100 generates a sentence vector for applying the similarity calculated in S803 to the similarity between sentences (S804).
  • the document summary server 100 expresses each sentence divided in the document as a node, and uses the sentence vector generated in S804 to connect the similarity between sentences between all the vectors to the edges, thereby comparing the sentences between sentences (G sentence ). To generate (S805).
  • the document summary server 100 may calculate the similarity between sentences, and minimize the loss of semantic information of the document by expressing it as an edge reflecting the similarity between words in the relationship word (G word ) between words. Can be graphed
  • the document summary server 100 extracts the most influential sentence from the inter-sentence relationship graph G sentence generated in S805 using a graph-based rank algorithm (S806).
  • FIG. 9 is an algorithm for performing the document summary process of FIG. 8.
  • the pseudo code corresponding to the number 2 on the left side represents the generation of the word relationship graph (G word ) by reflecting the word coincidence relationship, and the pseudo code corresponding to 3 is represented in the relationship word (G word ) between the words. It gives the similarity between adjacent words.
  • the pseudo code corresponding to 4 indicates extracting the maximum similarity path from the word- to- word relationship graph (G word ), and the pseudo code corresponding to 5 indicates generating the sentence vector reflecting the maximum similarity path.
  • the pseudo code corresponding to 6 indicates generating a relation sentence (G sentence ) between sentences by reflecting a sentence vector, and the pseudo code corresponding to 7 indicates applying a rank algorithm.
  • each component described as a single type may be implemented in a distributed manner, and similarly, components described as distributed may be implemented in a combined form.
  • the semantic similarity is calculated by considering the semantic elements of the document, thereby minimizing the information loss of the document and improving the accuracy of the summary information.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

문서 자동 요약 방법 및 서버가 제공된다. 본 발명의 일 실시예에 따른 서버가 문서를 자동으로 요약하는 방법은 (a) 문서에 포함된 각 문장의 단어를 나타내는 노드(node)들을 문장 내 동시 출현 관계에 대한 가중치를 가지는 제 1 엣지(edge)로 연결하여 제 1 그래프(Gword)를 생성하는 단계, (b) 상기 제 1 그래프(Gword)를 이용하여, 상기 각 문장을 나타내는 노드들을 문장간 유사도에 대한 가중치를 가지는 제 2 엣지로 연결하여 제 2 그래프(Gsentence)를 생성하는 단계 및 (c) 상기 제 2 그래프(Gsentence)에 랭크 알고리즘을 적용하여 상기 복수의 문장 중에서 주요 문장을 추출하는 단계를 포함하는 것을 특징으로 한다.

Description

문서 자동 요약 방법 및 서버
본 발명은 문서 내에서 가장 영향력 있는 문장들을 해당 문서의 요약으로서 추출하는 기술에 관한 것이다.
문서 자동 추출 요약 기술은 텍스트 마이닝 분야의 한 부분으로서, 문서 내에서 가장 중요한 문장을 추출하여 이를 요약으로 제시하는 연구 분야이다.
문서 요약의 초창기에는 가장 중요한 문서를 뽑기 위한 랭크 알고리즘 위주로 연구가 진행되었으나, 이는 결국 그래프에 문서의 중요한 정보가 전부 담겨있어야 원활이 작동되는 것이기 때문에 최근에는 문서를 그래프화 할 때 생기는 정보의 손실을 최소화하는 방법을 활발히 연구 중이다.
그러나, 종래의 문서 요약 방식은 문서 요약을 위해 랭크 알고리즘에 주로 초점이 맞추어져 있으며, 문장간 유사도를 계산할 때 문장 내 단어간의 의미적 유사성을 충분히 고려하지 못하는 문제가 있다.
본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로, 문장 요약 시 문서의 의미적 요소까지 고려하여 문장간 유사도를 계산함으로써 문서의 정보 손실을 최소화할 수 있는 방안을 제안하고자 한다.
상기와 같은 목적을 달성하기 위해, 본 발명의 일 실시예에 따른 서버가 문서를 자동으로 요약하는 방법은 (a) 문서에 포함된 각 문장의 단어를 나타내는 노드(node)들을 문장 내 동시 출현 관계에 대한 가중치를 가지는 제 1 엣지(edge)로 연결하여 제 1 그래프(Gword)를 생성하는 단계, (b) 상기 제 1 그래프(Gword)를 이용하여, 상기 각 문장을 나타내는 노드들을 문장간 유사도에 대한 가중치를 가지는 제 2 엣지로 연결하여 제 2 그래프(Gsentence)를 생성하는 단계 및 (c) 상기 제 2 그래프(Gsentence)에 랭크 알고리즘을 적용하여 상기 복수의 문장 중에서 주요 문장을 추출하는 단계를 포함하는 것을 특징으로 한다.
상기와 같은 목적을 달성하기 위해, 본 발명의 일 실시예에 따른 문서를 자동으로 요약하는 서버는 문서에 포함된 각 문장의 단어를 나타내는 1 노드(node)들을 문장 내 동시 출현 관계에 대한 가중치를 가지는 제 1 엣지(edge)로 연결하여 제 1 그래프(Gword)를 생성하는 단어간 관계 그래프 생성부, 상기 제 1 그래프(Gword)를 이용하여, 상기 각 문장을 나타내는 노드들을 문장간 유사도에 대한 가중치를 가지는 제 2 엣지로 연결하여 제 2 그래프(Gsentence)를 생성하는 문장간 관계 그래프 생성부 및 상기 제 2 그래프(Gsentence)에 랭크 알고리즘을 적용하여 상기 복수의 문장 중에서 주요 문장을 추출하는 랭크 알고리즘 적용부를 포함하는 것을 특징으로 한다.
본 발명의 일 실시예에 따르면, 문장 요약 시 문서의 의미적 요소까지 고려하여 문장간 유사도를 계산함으로써 문서의 정보 손실을 최소화할 수 있다.
또한, 문장에 등장하는 단어들의 관계(유사도)를 그래프로 표현함으로써 직관적으로 이해할 수 있다.
본 발명의 효과는 상기한 효과로 한정되는 것은 아니며, 본 발명의 상세한 설명 또는 특허청구범위에 기재된 발명의 구성으로부터 추론 가능한 모든 효과를 포함하는 것으로 이해되어야 한다.
도 1은 본 발명의 일 실시예에 따른 문서 요약 서버의 구성을 도시한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 단어간 관계 그래프(Gword)를 도시한 도면이다.
도 3은 도 2에 도시된 단어간 관계 그래프(Gword)에 유의어를 추가한 도면이다.
도 4는 본 발명의 일 실시예에 따른 문장 벡터의 적용 결과를 나타낸 표이다.
도 5는 본 발명의 일 실시예에 따른 문서 요약 과정을 도시한 흐름도이다.
도 6은 본 발명의 다른 실시예에 따른 단어간 관계 그래프(Gword)와 알고리즘을 도시한 도면이다.
도 7은 도 6에 도시된 단어간 관계 그래프(Gword)에 최대 유사도 경로를 적용한 도면이다.
도 8은 본 발명의 다른 실시예에 따른 문서 요약 과정을 도시한 흐름도이다.
도 9는 도 8의 문서 요약 과정을 수행하기 위한 알고리즘이다.
이하에서는 첨부한 도면을 참조하여 본 발명을 설명하기로 한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 따라서 여기에서 설명하는 실시예로 한정되는 것은 아니다.
그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 부재를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함한다.
또한 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 구비할 수 있다는 것을 의미한다.
이하 첨부된 도면을 참고하여 본 발명의 실시예를 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 문서 요약 서버의 구성을 도시한 블록도이다.
본 발명의 일 실시예에 따른 문서 요약 서버(100)는 단어간 관계 그래프 생성부(110), 단어 유의어 추출부(120), 문장간 관계 그래프 생성부(130) 및 랭크 알고리즘 적용부(140)를 포함할 수 있다.
각 구성 요소를 설명하면, 단어간 관계 그래프 생성부(110)는 문서 요약을 위해 입력된 문서 D를 문장 단위로 나누고 각 문장에 대한 형태소 분석을 수행하여 명사, 형용사 및 동사를 추출할 수 있다.
이후, 단어간 관계 그래프 생성부(110)는 형태소 분석으로 추출된 각 단어들을 노드(node)로 표현하고, 두 단어가 같은 문장에 동시 출현한 관계를 나타내는 가중치를 가지는 엣지(edge)로 연결하여 단어간 동시 출현 관계를 나타내는 그래프(이하, ‘단어간 관계 그래프’라 칭함)(Gword)를 생성할 수 있다.
참고로, 특정 단어 쌍이 여러 문장에 동시 출현하는 경우, 엣지를 여러 번 추가하여 표시할 수도 있고, 하나의 엣지로 표시한 후 해당 엣지의 빈도를 메타데이터로서 표시할 수도 있다.
또한, 단어간 관계 그래프 생성부(110)는 각 노드가 표현하고 있는 단어들의 유의어를 새로운 노드로서 단어간 관계 그래프(Gword)에 추가로 반영할 수 있다.
참고로, 상기 유의어는 후술하는 유의어 추출부(120)에 의해 추출될 수 있다.
또한, 단어간 관계 그래프 생성부(110)는 단어간 관계 그래프(Gword) 내의 두 단어를 표현하고 있는 노드간 의미적 유사도를 계산할 수 있다.
일 실시예로서, 단어간 관계 그래프 생성부(110)는 두 노드의 최단 경로(shortest path)를 이용하여 단어간 의미적 유사도를 계산할 수 있다.
참고로, 단어간 관계 그래프(Gword)의 엣지 가중치(weightco-occurrence)는 단어 사이의 유사도를 나타내는 가중치이므로 거리로 정의할 수 없다. 따라서 단어간 관계 그래프 생성부(110)는 최단 경로를 계산하기 위해 단어간 관계 그래프(Gword)의 노드간 거리를 1-weight로 정의한다.
단어간 관계 그래프 생성부(110)는 두 단어 wi와 wj의 의미적 유사도 Simword(wi, wj)를 단어간 관계 그래프(Gword) 내에서 두 단어를 나타내는 노드간의 최단 경로를 구한 후 엣지 ek의 가중치들을 곱하여 계산할 수 있으며, 이는 아래의 수학식 1과 같이 표현할 수 있다.
[수학식 1]
Figure PCTKR2015004566-appb-I000001
다른 실시예로서, 단어간 관계 그래프 생성부(110)는 두 노드의 최대 유사도 경로를 이용하여 단어간 관계 그래프(Gword)에서의 두 단어간 의미적 유사도를 계산할 수 있다.
여기서 ‘최대 유사도 경로’는 두 단어 wi와 wj 사이의 경로 중 엣지의 가중치의 곱이 가장 큰 경로이며 이때의 최대 유사도는 두 단어 간의 유사도로 정의될 수 있다.
여러 문장에 등장한 단어 쌍은 다른 단어 쌍보다 단어간 유사도가 더 높다고 판단할 수 있으므로 동시 출현 빈도에 따라서 가중치를 높게 설정할 수 있으며, 단어간 관계 그래프 생성부(110)는 단어간 관계 그래프(Gword) 내 인접한 두 단어 wi와 wj의 유사도 Simi,j를 아래의 [수학식 2-1]을 이용하여 계산할 수 있다.
[수학식 2-1]
Figure PCTKR2015004566-appb-I000002
여기서, α(
Figure PCTKR2015004566-appb-I000003
)는 단어간 동시 출현 여부에 대한 가중치로서 엣지로 표현되고,
Figure PCTKR2015004566-appb-I000004
는 두 단어의 동시 출현 빈도이며, λ(
Figure PCTKR2015004566-appb-I000005
)는 동시 출현 빈도에 대한 가중치이다.
λ가 0일 때, 동시 출현 빈도가 α에 미치는 영향은 없으며, 1일 때 최대가 된다.
그리고, 두 단어 wi와 wj의 최대 유사도는 아래의 [수학식 2-2]를 이용하여 계산할 수 있다.
[수학식 2-2]
Figure PCTKR2015004566-appb-I000006
예를 들어, 두 문장 S1과 S2로부터 생성된 단어간 관계 그래프(Gword)에서 α와 λ가 각각 ‘0.2’와 ‘1’이고, 두 단어가 각각 ‘성능’과 ‘영향’이라고 할 때, 두 단어 ‘성능’과 ‘영향’의 최대 유사도는 아래와 같이 계산될 수 있다.
Figure PCTKR2015004566-appb-I000007
참고로, 상기 [수학식 2-2]의 값은 최대 유사도 행렬에서 i번째 행과 j번째 열의 값을 의미할 수 있으며, 최대 유사도 행렬을 추출하기 위한 알고리즘에 대해서는 도 7을 참조하여 후술하도록 한다.
한편, 유의어 추출부(120)는 상기 단어간 관계 그래프(Gword)의 노드가 표현하고 있는 모든 단어들의 유의어를 추출할 수 있다.
이를 위해 유의어 추출부(120)는 유의어 사전(미도시)과 연결될 수 있으며, 각 단어에 대한 유의어를 유의어 사전(미도시)에서 검색하고 추출할 수 있다.
유의어 추출부(120)에 의해 추출된 각 단어의 유의어는 단어간 관계 그래프 생성부(110)에 의해 새로운 노드로서 단어간 관계 그래프(Gword)에 추가로 반영될 수 있다.
이때, 특정 단어를 나타내는 노드와, 해당 특정 단어의 유의어로서 추가 반영되는 노드는 유의 정도를 나타내는 가중치 weightsynonym를 가지는 엣지로 연결될 수 있다.
참고로, 유의어 추출부(120)는 상기 추가로 반영된 유의어의 유의어를 더 추가로 반영할 수도 있는데, 유의어 관계가 연속해서 추가로 반영될 경우 실제 의미가 전혀 다른 경우가 발생할 수 있으므로 유의어의 추가 반영 횟수(깊이)는 특정 회수(예를 들어 3회)로 설정될 수 있다.
그리고, 유의어 추출부(120)의 유의어 추출은 전술한 단어간 관계 그래프 생성부(110)의 일 실시예에 따른 경우 - 두 노드의 최단 경로(shortest path)를 이용하여 단어간 관계 그래프(Gword)에서의 단어간 유사도를 계산하는 경우 - 에 적용될 수 있으며, 전술한 단어간 관계 그래프 생성부(110)의 다른 실시예에 따른 경우 - 두 노드의 최대 유사도 경로를 이용하여 단어간 관계 그래프(Gword)에서의 두 단어간 유사도를 계산하는 경우 - 에는 적용하지 않을 수 있다.
한편, 문장간 관계 그래프 생성부(130)는 문서에서 나누어진 각 문장을 노드로 표현하고 문장간 유사도를 엣지로 연결하여 문장간 관계 그래프(Gsentence)를 생성할 수 있다.
여기서 문장간 관계 그래프 생성부(130)는 문장간 유사도를 계산 시 상기 단어간 관계 그래프(Gword)의 단어간 유사도를 반영하여 엣지로 표현함으로써 문서의 의미적 정보의 손실을 최소화하며 그래프화 할 수 있다.
문서에서 가장 영향력 있는 문장을 추출하기 위해 생성하는 문장간 관계 그래프(Gsentence)는 각 문장 Si를 노드로 하며, 이때 노드간 유사도를 나타내는 엣지는 아래의 [수학식 3]을 이용하여 계산할 수 있다.
참고로, 문장간 관계 그래프 생성부(130)는 코사인 유사도 Similaritycosine를 이용하여 문장간 유사도를 계산할 수 있다.
[수학식 3]
Figure PCTKR2015004566-appb-I000008
여기서 두 문장 Si와 Sj의 유사도 계산을 위한 상기 벡터 함수는 단어간 관계 그래프(Gword)의 단어간 유사도를 문장간 유사도에 반영하기 위한 것(이하, ‘문장 벡터 함수’라 칭함)으로서, 한 문장 내에 같이 등장하는 단어들은 상호 연관 관계가 존재하고, 특정 단어의 유의어들은 같은 의미는 아니지만 상호 유사한 의미를 가진다는 전제하에 정의될 수 있다.
문장 벡터 함수는 두 문장에 각각 등장한 단어의 횟수와 등장하지 않은 단어 간의 유사도를 계산하고 이를 평균 낸 값을 합하여 하나의 벡터를 반환할 수 있다.
문장간 관계 그래프 생성부(130)가 상기 [수학식 3]을 이용하여 문장 벡터 함수를 계산하는 방법은 다음과 같다.
먼저, 문장 벡터 함수에 의해 반환된 벡터의 단어 차원은 Si와 Sj에 등장한 단어들의 합집합의 크기 n개의 차원을 가지고, 각 단어 차원에 Si에 등장한 단어의 등장 빈도를 채워 넣는다.
이후, 등장 빈도를 채우고 난 벡터에서 값이 0으로 채워진 차원의 단어와 Si에 출현한 단어와 유사도를 계산하여 유사도의 평균을 구하고 문장의 길이로 표준화한 값을 해당 차원의 값으로 지정한다.
이를 수학식으로 표현하면 아래의 [수학식 4]와 같다.
[수학식 4]
Figure PCTKR2015004566-appb-I000009
한편, 랭크 알고리즘 적용부(140)는 그래프 기반의 랭크 알고리즘을 사용하여 문장간 관계 그래프 생성부(130)에 의해 생성된 문장간 관계 그래프(Gsentence)에서 가장 영향력 있는 문장을 추출할 수 있다.
본 발명의 일 실시예서는 TextRank 랭크 알고리즘을 사용하여 상위 N개의 문장을 요약으로서 추출할 수 있다.
참고로, TextRank에서 사용하는 랭킹 알고리즘은 PageRank의 랭킹 알고리즘에 문장 간의 유사성, 즉 노드 간의 엣지의 가중치를 반영하여 해당 문장의 랭크 점수를 계산할 수 있으며, 이를 수학식으로 표현하면 아래의 [수학식 5]와 같다.
[수학식 5]
Figure PCTKR2015004566-appb-I000010
랭크 알고리즘 적용부(140)는 문장간 관계 그래프(Gsentence)에 [수학식 5]의 알고리즘을 적용한 후 문장들의 랭크 점수를 내림차순 정렬하여 상위 N개의 문장을 추출하여 문서 D의 요약으로 제시할 수 있다.
도 2는 본 발명의 일 실시예에 따른 단어간 관계 그래프(Gword)를 도시한 도면이다.
도 2에 도시된 단어간 관계 그래프(Gword)는 두 문장 S1과 S2에서 각 문장 별로 형태소 분석을 수행하여 추출된 명사, 형용사, 동사를 노드로 하고, 문장 내에서 동시 출현 관계를 나타내는 가중치 weightco-occurrence를 엣지로 단어간 관계를 표현한 것이다.
여기서, 두 문장 S1과 S2는 다음과 같다.
S1=“의존 관계를 가지는 어절은 다음 단계에서는 삭제되어 더 이상 다른 어절의 의존 구조에 영향을 미치지 못한다.”
S2=“성능 측정은 의존 구조와 의존 관계명이 모두 일치하는 경우만 정답으로 하였다.”
도 3은 도 2에 도시된 단어간 관계 그래프(Gword)에 유의어를 추가한 도면이다.
도 3은 도 2에 도시된 단어간 관계 그래프(Gword)에 유의어를 추가한 것으로서, 특정 단어를 나타내는 노드와 유의어로 추가되는 노드가 유의 정도를 나타내는 가중치 weightsynonym을 가지는 엣지로 연결되어 있음을 볼 수 있다.
두 단어의 의미적 유사도는 단어간 관계 그래프(Gword) 내에서 두 단어를 나타내는 노드간의 최단 경로를 구한 후 엣지의 가중치들을 곱하여 계산할 수 있으며, 이는 전술한 [수학식 1]을 이용하여 계산할 수 있다.
예를 들어 실험 데이터로 사용된 입력으로부터 생성한 단어간 관계 그래프(Gword)에서 가중치 weightco-occurrence와 weightsynonym가 각각 0.2와 0.7이라고 가정할 때 특정 두 단어의 의미적 유사도는 아래와 같다.
Simword(관계명(310), 성능(320)) = 0.2
Simword(성능(320), 기능(330)) = 0.7
Simword(성능(320), 영향(340)) = 0.7 * 0.7 * 0.7 = 0.343
도 4는 본 발명의 일 실시예에 따른 문장 벡터의 적용 결과를 나타낸 표이다.
도 4의 [표 1]은 도 3에 도시된 단어간 관계 그래프(Gword)에서 가중치 weightco-occurrence와 weightsynonym를 각각 0.2와 0.7이라 할 때 [수학식 4]를 이용하여 계산된 두 문장(S1과 S2)의 문장 벡터이다.
그리고, 도 4의 [표 1]에 근거하여 [수학식 3]을 통해 계산된 문장 S1과 S2의 코사인 유사도 Simialritycosine(S1, S2)는 0.295가 된다.
참고로, 종래의 문장 S1과 S2에 대한 단어 차원의 벡터 표현은 도 4의 [표 2]와 같다.
[표 2]를 보면, 동일한 단어가 많지 않기 때문에 코사인 유사도를 계산하면 유사도가 0.167로 높지 않게 산출된다.
그러나 두 문장 벡터의 차원을 보면 서로 자주 사용되는 단어들이기 때문에 문장간 유사도는 이를 고려하여 보다 높은 수치로 산출되어야 한다(본 발명의 일 실시예에 따른 두 문장간의 유사도는 0.295로서 종래의 0.167보다 높게 산출되었다).
도 5는 본 발명의 일 실시예에 따른 문서 요약 과정을 도시한 흐름도이다.
도 5의 과정은 도 1에 도시된 문서 요약 서버(100)에 의해 수행될 수 있으며, 이하에서는 문서 요약 서버(100)를 수행 주체로 도 5의 과정을 설명하도록 한다.
문서 요약 서버(100)는 문서 요약을 위해 입력된 문서를 문장 단위로 나누고 각 문장에 대하여 형태소 분석을 수행한다(S501).
S501 후, 문서 요약 서버(100)는 형태소 분석을 통해 추출된 각 단어들(명사, 형용사 및 동사)을 노드(node)로 표현하고, 같은 문장에 동시 출현한 관계를 나타내는 가중치 weightco-occurrence를 가지는 엣지(edge)로 연결하여 단어간 관계 그래프(Gword)를 생성한다(S502).
S502 후, 문서 요약 서버(100)는 단어간 관계 그래프(Gword)의 노드가 표현하고 있는 모든 단어들의 유의어를 추출하여 새로운 노드로서 단어간 관계 그래프(Gword)에 추가로 반영한다(S503).
참고로, S502 및 S503에서 문서 요약 서버(100)는 단어간 관계 그래프(Gword) 내의 두 단어간(유의어도 포함) 유사도를 계산할 수 있다.
S503 후, 문서 요약 서버(100)는 문서에서 나누어진 각 문장을 노드로 표현하고 문장간 유사도를 엣지로 연결하여 문장간 관계 그래프(Gsentence)를 생성한다(S504).
이때 문서 요약 서버(100)는 문장간 유사도를 계산할 수 있으며, 문장간 유사도 계산 시 단어간 관계 그래프(Gword)의 단어간 유사도를 반영하여 엣지로 표현함으로써 문서의 의미적 정보의 손실을 최소화하며 그래프화 할 수 있다.
S504 후, 문서 요약 서버(100)는 그래프 기반의 랭크 알고리즘을 사용하여 S504에서 생성된 문장간 관계 그래프(Gsentence)에서 가장 영향력 있는 문장을 추출한다(S505).
도 6은 본 발명의 다른 실시예에 따른 단어간 관계 그래프(Gword)와 알고리즘을 도시한 도면이다.
도 6의 (a)는 아래의 두 문장으로 단어 동시 출현 관계를 생성한 결과이다.
S1=“의존 관계를 가지는 어절은 다음 단계에서는 삭제되어 더 이상 다른 어절의 의존 구조에 영향을 미치지 못한다.”
S2=“성능 측정은 의존 구조와 의존 관계명이 모두 일치하는 경우만 정답으로 하였다.”
참고로, 문장 S3는 문서 내에 등장하며 S1 및 S2와 연관성이 있는 또 다른 문장으로서 여러 개의 노드를 가지고 있지만 명료한 도식을 위해 하나의 노드만을 나타내었다.
실선으로 표현된 엣지는 단어간 동시 출현 관계를 나타내며 에지의 빈도는 표시하지 않았다.
그리고 도 6의 (b)는 단어 관계 그래프 생성 알고리즘으로서, 문서 D를 문장으로 나누고 각 문장별로 형태소 분석을 통해 명사, 형용사, 동사만을 추출한 후, 각 문장에서 추출한 단어를 노드로 표현하고 단어간 관계를 두 단어의 문장 내 동시 출현 유무에 따라 가중치 α를 가지는 엣지로 표현하는 알고리즘이다.
참고로 각 품사의 태그 표시에 있어서, 명사는 고유 명사 NNP와 일반 명사 NNG로, 형용사는 VA로, 동사는 VV로 나타낼 수 있다.
도 7은 도 6에 도시된 단어간 관계 그래프(Gword)에 최대 유사도 경로를 적용한 도면이다.
도 7의 (a)는 도 6의 두 문장 S1과 S2로부터 생성된 단어간 관계 그래프(Gword)에서 α와 λ가 각각 ‘0.2’와 ‘1’이고, 두 단어가 각각 ‘성능’과 ‘영향’이라고 할 때, 두 단어 ‘성능’과 ‘영향’의 최대 유사도와 빈도를 표시한 것이며, 도 7의 (b)는 최대 유사도 경로를 계산하기 위한 알고리즘이다.
최대 유사도 경로는 두 단어 wi와 wj 사이의 경로 중 엣지의 가중치의 곱이 가장 큰 경로이며, 이때의 최대 유사도는 두 단어간의 유사도로 정의될 수 있다.
도 8은 본 발명의 다른 실시예에 따른 문서 요약 과정을 도시한 흐름도이다.
도 8에 도시된 과정은 도 1에 도시된 문서 요약 서버(100)에 의해 수행될 수 있으며, 이하에서는 문서 요약 서버(100)를 수행 주체로 도 8의 과정을 설명하도록 한다.
문서 요약 서버(100)는 문서 요약을 위해 입력된 문서를 문장 단위로 나누고 각 문장에 대하여 형태소 분석을 수행한다(S801).
S801 후, 문서 요약 서버(100)는 형태소 분석을 통해 추출된 각 단어들(명사, 형용사 및 동사)을 노드(node)로 표현하고, 같은 문장에 동시 출현 여부를 나타내는 가중치 α를 가지는 엣지(edge)로 연결하여 단어간 관계 그래프(Gword)를 생성한다(S802).
S802 후, 문서 요약 서버(100)는 단어간 관계 그래프(Gword)에서 출현 빈도에 대한 가중치 λ를 반영하여 인접 단어간 유사도를 계산한다(S803).
이때, 문서 요약 서버(100)는 단어간 관계 그래프(Gword) 내 두 단어를 표현하는 노드 사이의 최대 유사도 경로를 이용할 수 있다.
S803 후, 문서 요약 서버(100)는 S803에서 계산된 유사도를 문장간 유사도에 적용하기 위한 문장 벡터를 생성한다(S804).
S804 후, 문서 요약 서버(100)는 문서에서 나누어진 각 문장을 노드로 표현하고, S804에서 생성된 문장 벡터를 이용하여 모든 벡터간의 문장간 유사도를 엣지로 연결하여 문장간 관계 그래프(Gsentence)를 생성한다(S805).
이때 문서 요약 서버(100)는 문장간 유사도를 계산할 수 있으며, 문장간 유사도 계산 시 단어간 관계 그래프(Gword)의 단어간 유사도를 반영하여 엣지로 표현함으로써 문서의 의미적 정보의 손실을 최소화하며 그래프화 할 수 있다.
S805 후, 문서 요약 서버(100)는 그래프 기반의 랭크 알고리즘을 사용하여 S805에서 생성된 문장간 관계 그래프(Gsentence)에서 가장 영향력 있는 문장을 추출한다(S806).
도 9는 도 8의 문서 요약 과정을 수행하기 위한 알고리즘이다.
도 9에서 좌측의 숫자 2에 해당하는 의사코드는 단어 동시 출현 관계를 반영하여 단어간 관계 그래프(Gword)를 생성하는 것을 나타내며, 3에 해당하는 의사코드는 단어간 관계 그래프(Gword)에 인접 단어간 유사도를 부여하는 것을 나타낸다.
또한, 4에 해당하는 의사코드는 단어간 관계 그래프(Gword)로부터 최대 유사도 경로를 추출하는 것을 나타내며, 5에 해당하는 의사코드는 최대 유사도 경로를 반영하여 문장 벡터를 생성하는 것을 나타낸다.
그리고, 6에 해당하는 의사코드는 문장 벡터를 반영하여 문장간 관계 그래프(Gsentence)를 생성하는 것을 나타내며, 7에 해당하는 의사코드는 랭크 알고리즘을 적용하는 것을 나타낸다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다.
그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
문서와 같은 텍스트 정보를 요약 시 문서의 의미적 요소까지 고려하여 문장간 유사도를 계산함으로써 문서의 정보 손실을 최소화할 수 있으며 요약 정보의 정확도를 높일 수 있다.
또한, 사용자들은 다양한 텍스트 정보로부터 자신이 실질적으로 필요로 하는 요약된 정보를 손쉽게 획득할 수 있다.

Claims (14)

  1. 서버가 문서를 자동으로 요약하는 방법에 있어서,
    (a) 문서에 포함된 각 문장의 단어를 나타내는 노드(node)들을 문장 내 동시 출현 관계에 대한 가중치를 가지는 제 1 엣지(edge)로 연결하여 제 1 그래프(Gword)를 생성하는 단계;
    (b) 상기 제 1 그래프(Gword)를 이용하여, 상기 각 문장을 나타내는 노드들을 문장간 유사도에 대한 가중치를 가지는 제 2 엣지로 연결하여 제 2 그래프(Gsentence)를 생성하는 단계; 및
    (c) 상기 제 2 그래프(Gsentence)에 랭크 알고리즘을 적용하여 상기 복수의 문장 중에서 주요 문장을 추출하는 단계
    를 포함하는 것을 특징으로 하는 문서 자동 요약 방법.
  2. 제 1 항에 있어서,
    상기 (a) 단계는,
    상기 제 1 그래프(Gword)에 포함된 단어들에 대하여 단어간 의미적 유사도를 계산하는 단계
    를 포함하고,
    상기 (b) 단계는,
    상기 단어간 의미적 유사도를 반영하여 상기 문장간 유사도를 계산하는 단계
    를 포함하는 것을 특징으로 하는 문서 자동 요약 방법.
  3. 제 2 항에 있어서,
    상기 (a) 단계는,
    상기 단어들의 유의어를 추출하는 단계; 및
    상기 유의어를 나타내는 노드를 상기 제 1 그래프(Gword)에 추가하는 단계
    를 포함하는 것을 특징으로 하는 문서 자동 요약 방법.
  4. 제 3 항에 있어서,
    상기 유의어를 나타내는 노드를 상기 제 1 그래프(Gword)에 추가하는 단계는,
    상기 제 1 그래프(Gword)에 기 포함된 노드와 상기 유의어를 나타내는 노드를 제 3 엣지로 연결하되,
    상기 제 3 엣지는 노드간 유의 정도를 나타내는 가중치를 가지는 것을 특징으로 하는 문서 자동 요약 방법.
  5. 제 2 항에 있어서,
    상기 (a) 단계는,
    상기 제 1 그래프(Gword) 내에서 노드간 최단 경로를 구한 후 해당 노드들을 연결하는 상기 제 1 엣지의 가중치들을 곱하여 상기 단어간 의미적 유사도를 계산하는 것을 특징으로 하는 문서 자동 요약 방법.
  6. 제 2 항에 있어서,
    상기 (a) 단계는,
    상기 제 1 그래프(Gword) 내에서 두 단어 사이의 경로 중 상기 제 1 엣지의 가중치의 곱이 가장 큰 경로인 최대 유사도 경로를 반영하여 상기 단어간 의미적 유사도를 계산하는 것을 특징으로 하는 문서 자동 요약 방법.
  7. 제 6 항에 있어서,
    상기 (a) 단계는,
    상기 두 단어의 동시 출현 여부에 대한 가중치, 상기 두 단어의 동시 출현 빈도 및 상기 동시 출현 빈도에 대한 가중치 중 하나 이상을 포함하는 상기 제 1 엣지에 대한 가중치를 반영하여 상기 단어간 의미적 유사도를 계산하는 것을 특징으로 하는 문서 자동 요약 방법.
  8. 제 2 항에 있어서,
    상기 (b) 단계는,
    코사인 유사도를 이용하여 상기 문장간 유사도를 계산하되,
    벡터 함수를 이용하여 상기 단어간 의미적 유사도를 상기 문장간 유사도에 적용하는 단계
    를 포함하며,
    상기 벡터 함수로부터 반환되는 벡터의 단어 차원은,
    제 1 문장과 제 2 문장에 등장한 단어들의 합집합의 크기인 n개의 차원을 가지고, 각 단어의 차원에 상기 제 1 문장에 등장한 단어의 등장 빈도를 카운트하는 단계; 및
    상기 등장 빈도를 카운트한 벡터에서 값이 0인 차원의 단어와 상기 제 1 문장에 출현한 단어와 유사도를 계산하여 유사도의 평균을 구하고 문장의 길이로 표준화한 값을 해당 차원의 값으로 지정하는 단계
    를 통해 반환되는 것을 특징으로 하는 문서 자동 요약 방법.
  9. 제 2 항에 있어서,
    상기 (c) 단계는,
    TextRank의 랭킹 알고리즘을 사용하여 문장들의 랭크 점수를 내림차순으로 정렬한 후 상위 n개의 문장을 추출하여 상기 문서의 요약으로 제공하되,
    상기 TextRank의 랭킹 알고리즘은 PageRank의 랭킹 알고리즘에 상기 제 2 엣지를 반영하여 문장의 랭크 점수를 계산하는 것을 특징으로 하는 문서 자동 요약 방법.
  10. 문서를 자동으로 요약하는 서버에 있어서,
    문서에 포함된 각 문장의 단어를 나타내는 1 노드(node)들을 문장 내 동시 출현 관계에 대한 가중치를 가지는 제 1 엣지(edge)로 연결하여 제 1 그래프(Gword)를 생성하는 단어간 관계 그래프 생성부;
    상기 제 1 그래프(Gword)를 이용하여, 상기 각 문장을 나타내는 노드들을 문장간 유사도에 대한 가중치를 가지는 제 2 엣지로 연결하여 제 2 그래프(Gsentence)를 생성하는 문장간 관계 그래프 생성부; 및
    상기 제 2 그래프(Gsentence)에 랭크 알고리즘을 적용하여 상기 복수의 문장 중에서 주요 문장을 추출하는 랭크 알고리즘 적용부
    를 포함하는 것을 특징으로 하는 서버.
  11. 제 10 항에 있어서,
    상기 단어간 관계 그래프 생성부는,
    상기 제 1 그래프(Gword)에 포함된 단어들에 대하여 단어간 의미적 유사도를 계산하고,
    상기 문장간 관계 그래프 생성부는,
    상기 단어간 의미적 유사도를 반영하여 상기 문장간 유사도를 계산하는 것을 특징으로 하는 서버.
  12. 제 11 항에 있어서,
    상기 단어들의 유의어를 추출하는 유의어 추출부
    를 더 포함하되,
    상기 단어간 관계 그래프 생성부는 상기 유의어를 나타내는 노드를 상기 제 1 그래프(Gword)에 추가하며,
    상기 제 1 그래프(Gword)에 추가되는 상기 유의어를 나타내는 노드는 상기 제 1 그래프(Gword)에 기 포함된 노드와 유의 정도를 나타내는 가중치를 가지는 제 3 엣지로 연결되는 것을 특징으로 하는 서버.
  13. 제 11 항에 있어서,
    단어간 관계 그래프 생성부는,
    상기 제 1 그래프(Gword) 내에서 두 단어 사이의 경로 중 상기 제 1 엣지의 가중치의 곱이 가장 큰 경로인 최대 유사도 경로를 반영하여 상기 단어간 의미적 유사도를 계산하는 것을 특징으로 하는 서버.
  14. 제 13 항에 있어서,
    단어간 관계 그래프 생성부는,
    상기 두 단어의 동시 출현 여부에 대한 가중치, 상기 두 단어의 동시 출현 빈도 및 상기 동시 출현 빈도에 대한 가중치 중 하나 이상을 포함하는 상기 제 1 엣지에 대한 가중치를 반영하여 상기 단어간 의미적 유사도를 계산하는 것을 특징으로 하는 서버.
PCT/KR2015/004566 2015-02-02 2015-05-07 문서 자동 요약 방법 및 서버 WO2016125949A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2015-0015803 2015-02-02
KR1020150015803A KR101548096B1 (ko) 2015-02-02 2015-02-02 문서 자동 요약 방법 및 서버

Publications (1)

Publication Number Publication Date
WO2016125949A1 true WO2016125949A1 (ko) 2016-08-11

Family

ID=54062184

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2015/004566 WO2016125949A1 (ko) 2015-02-02 2015-05-07 문서 자동 요약 방법 및 서버

Country Status (2)

Country Link
KR (1) KR101548096B1 (ko)
WO (1) WO2016125949A1 (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577665A (zh) * 2017-09-11 2018-01-12 电子科技大学 文本情感倾向的判别方法
CN109033066A (zh) * 2018-06-04 2018-12-18 浪潮软件股份有限公司 一种摘要形成方法及装置
CN109684630A (zh) * 2018-12-05 2019-04-26 南京邮电大学 专利相似性的对比分析方法
CN110852110A (zh) * 2018-07-25 2020-02-28 富士通株式会社 目标语句提取方法、问题生成方法以及信息处理设备
CN112287080A (zh) * 2020-10-23 2021-01-29 平安科技(深圳)有限公司 问题语句的改写方法、装置、计算机设备和存储介质
CN114328900A (zh) * 2022-03-14 2022-04-12 深圳格隆汇信息科技有限公司 一种基于关键词的资讯摘要提取方法
WO2022262266A1 (zh) * 2021-06-18 2022-12-22 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及存储介质

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101656245B1 (ko) * 2015-09-09 2016-09-09 주식회사 위버플 문장 추출 방법 및 시스템
KR101717230B1 (ko) * 2015-12-30 2017-03-16 성균관대학교산학협력단 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법 및 문서 요약 시스템
KR101842274B1 (ko) * 2016-09-05 2018-03-27 주식회사 위버플 문장 추출 방법 및 시스템
KR102128659B1 (ko) * 2018-10-16 2020-06-30 주식회사 포스코아이씨티 키워드 추출 및 요약문 생성 시스템 및 방법
KR102125407B1 (ko) * 2019-10-14 2020-06-22 주식회사 딥서치 문장 추출 방법 및 시스템
KR102540562B1 (ko) * 2020-03-11 2023-06-05 삼성생명보험주식회사 상담 데이터 분석 방법
KR102539601B1 (ko) * 2020-12-03 2023-06-02 주식회사 포티투마루 텍스트 요약 성능 개선 방법 및 시스템
KR20240019992A (ko) 2022-08-05 2024-02-14 (주)메인라인 문서 요약 장치 및 그 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1196177A (ja) * 1997-09-22 1999-04-09 Nippon Telegr & Teleph Corp <Ntt> 用語辞書生成方法および用語辞書生成プログラムを記録した記録媒体
JP2003308318A (ja) * 2002-04-17 2003-10-31 Hitachi Ltd 文書読解支援方法
JP2007286861A (ja) * 2006-04-17 2007-11-01 Hitachi Ltd 文書構造抽出方法および文書検索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1196177A (ja) * 1997-09-22 1999-04-09 Nippon Telegr & Teleph Corp <Ntt> 用語辞書生成方法および用語辞書生成プログラムを記録した記録媒体
JP2003308318A (ja) * 2002-04-17 2003-10-31 Hitachi Ltd 文書読解支援方法
JP2007286861A (ja) * 2006-04-17 2007-11-01 Hitachi Ltd 文書構造抽出方法および文書検索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KIM, HUI CHAN ET AL.: "Automatic Summarization of a Korean Text using Semantically Expanded Sentence Similarity", 2014 FALL CONFERENCE PROGRAM, November 2014 (2014-11-01) *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577665A (zh) * 2017-09-11 2018-01-12 电子科技大学 文本情感倾向的判别方法
CN109033066A (zh) * 2018-06-04 2018-12-18 浪潮软件股份有限公司 一种摘要形成方法及装置
CN109033066B (zh) * 2018-06-04 2022-05-17 浪潮软件股份有限公司 一种摘要形成方法及装置
CN110852110A (zh) * 2018-07-25 2020-02-28 富士通株式会社 目标语句提取方法、问题生成方法以及信息处理设备
CN110852110B (zh) * 2018-07-25 2023-08-04 富士通株式会社 目标语句提取方法、问题生成方法以及信息处理设备
CN109684630A (zh) * 2018-12-05 2019-04-26 南京邮电大学 专利相似性的对比分析方法
CN112287080A (zh) * 2020-10-23 2021-01-29 平安科技(深圳)有限公司 问题语句的改写方法、装置、计算机设备和存储介质
CN112287080B (zh) * 2020-10-23 2023-10-03 平安科技(深圳)有限公司 问题语句的改写方法、装置、计算机设备和存储介质
WO2022262266A1 (zh) * 2021-06-18 2022-12-22 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及存储介质
CN114328900A (zh) * 2022-03-14 2022-04-12 深圳格隆汇信息科技有限公司 一种基于关键词的资讯摘要提取方法

Also Published As

Publication number Publication date
KR101548096B1 (ko) 2015-08-27

Similar Documents

Publication Publication Date Title
WO2016125949A1 (ko) 문서 자동 요약 방법 및 서버
WO2015167074A1 (ko) 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버
Pan et al. Course concept extraction in moocs via embedding-based graph propagation
JP3001047B2 (ja) 文書要約装置
WO2019103224A1 (ko) 문서 내 핵심 키워드 추출 시스템 및 방법
WO2012134180A2 (ko) 문장에 내재한 감정 분석을 위한 감정 분류 방법 및 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법
WO2020251233A1 (ko) 영상데이터의 추상적특성 획득 방법, 장치 및 프로그램
WO2017007084A1 (ko) 토픽 추출 장치 및 방법
WO2016099019A1 (ko) 특허문서 분류 시스템 및 방법
WO2020082766A1 (zh) 输入法的联想方法、装置、设备及可读存储介质
Li et al. A generalized method for word sense disambiguation based on wikipedia
WO2019039673A1 (ko) 인공지능 기반의 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치 및 방법
WO2022060066A1 (ko) 전자 장치, 컨텐츠 검색 시스템 및 검색 방법
WO2015133856A1 (ko) 정답 키워드 제공 방법 및 장치
WO2016125950A1 (ko) 단어의 감성 수치 추정 방법 및 서버
WO2013032198A1 (ko) 높은 연관성을 가지는 아이템을 추천하는 아이템 기반의 추천 엔진
WO2017159906A1 (ko) 원문의 번역어순을 결정하는 데이터 구조, 상기 구조를 생성하는 프로그램 및 이를 저장하는 컴퓨터 판독가능 저장매체
WO2018147543A1 (ko) 개념 그래프 기반 질의응답 시스템 및 이를 이용한 문맥 검색 방법
Mehta et al. Sentiment analysis on product reviews using Hadoop
WO2010095807A2 (ko) 기여 점수에 기초한 문서 순위 결정 시스템 및 방법
WO2016088954A1 (ko) 스팸 분류 방법, 이를 수행하기 위한 기록 매체 및 스팸 분류 장치
WO2017094967A1 (ko) 자연 언어 처리 스키마 및 그 지식 데이터베이스 구축 방법 및 시스템
WO2016072772A1 (ko) 레퍼런스 의미 지도를 이용한 데이터 시각화 방법 및 시스템
Chakraborty et al. Semantic clustering: an attempt to identify multiword expressions in Bengali
WO2023013826A1 (ko) 기본 문형 단위 분해에 기반한 외국어 구문 학습 시스템

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15881267

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15881267

Country of ref document: EP

Kind code of ref document: A1