KR101399272B1 - Document similarity estimation method - Google Patents

Document similarity estimation method Download PDF

Info

Publication number
KR101399272B1
KR101399272B1 KR1020130022697A KR20130022697A KR101399272B1 KR 101399272 B1 KR101399272 B1 KR 101399272B1 KR 1020130022697 A KR1020130022697 A KR 1020130022697A KR 20130022697 A KR20130022697 A KR 20130022697A KR 101399272 B1 KR101399272 B1 KR 101399272B1
Authority
KR
South Korea
Prior art keywords
group
document
representative
similarity
words
Prior art date
Application number
KR1020130022697A
Other languages
Korean (ko)
Inventor
최호진
김승석
정영섭
오교중
임채균
김준범
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020130022697A priority Critical patent/KR101399272B1/en
Application granted granted Critical
Publication of KR101399272B1 publication Critical patent/KR101399272B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The present invention relates to a method for estimating document similarity, wherein the method comprises: a step of extracting multiple first representative words from a first group including at least one document, and extracting weighted values indicating the degree of representing the first group for each of the multiple first representative words together; a step of extracting multiple second representative words from a second group including at least one document, and extracting weighted values indicating the degree of representing the second group for each of the multiple second representative words; and a step of estimating the similarity between the first group and the second group by measuring the similarity between the multiple first representative words and the multiple second representative words.

Description

문서의 유사도 추론방법 {Document Similarity Estimation Method}{Document Similarity Estimation Method}

본 발명은 문서의 유사도 추론방법에 관한 것으로, 보다 구체적으로 문서와 문서 사이, 문서와 문서 집단 사이, 및 문서 집단과 문서 집단 사이의 유사도를 추론하는 방법에 관한 것이다.The present invention relates to a method for inferring similarity of a document, and more particularly, to a method for inferring a similarity between a document and a document, between a document and a document group, and between a document group and a document group.

인터넷의 급속한 발전과 함께 정보의 공유는 인류에 많은 혜택을 주었다. 컴퓨터와 인터넷의 발달을 통해 다양한 정보를 제공하거나 제공받을 수 있다. 전문 학술 단체의 학술지의 경우에도 온라인을 통한 논문 제공 및 구독을 가능하게 하고 있다. With the rapid development of the Internet, the sharing of information has benefited mankind. Through the development of computers and the Internet, various information can be provided or provided. Even in the case of academic journals of specialized academic organizations, it is possible to offer and subscribe to papers online.

엄청나게 폭증하는 정보량에 비해 인간의 정보 습득 능력에는 한계가 있는 바 다양한 정보 검색 기능에 대한 연구가 이루어지고 있다. 특히, 학술 논문은 텍스트(text: 문자)를 이용하는 경우가 대부분이다. 이러한 텍스트로 이루어진 자료의 처리가 유용한 텍스트 마이닝(text mining)에 관련된 연구가 활발하게 이루어지고 있다. There is a limit to human information acquisition ability compared to the massive amount of information, and various information search functions are being studied. Especially, most of the academic papers use text (text). Research on text mining, which is useful for the processing of data composed of such texts, is actively being conducted.

이러한 환경에서 작성된 논문의 적절한 투고 분야나 논문 검색 등과 같은 서비스를 제공할 필요가 있다. It is necessary to provide services such as appropriate submission of articles written in such an environment or search for articles.

한국공개공보 제10-2010-0038378호 (2010.04.14)Korean Patent Publication No. 10-2010-0038378 (Apr. 14, 2010)

본 발명은 종래의 필요성을 충족시키기 위해 안출된 것으로써, 문서의 유사도를 추론하는 방법을 제공하기 위한 것이다. 이때, 문서의 유사도는 문서와 문서 사이뿐 아니라, 문서와 문서의 집단 사이, 문서의 집단과 다른 문서의 집단 사이의 유사도를 포함할 수 있다. SUMMARY OF THE INVENTION The present invention is directed to provide a method of inferring similarity of a document, which has been devised to meet the needs of the prior art. At this time, the similarity of the document may include not only between the document and the document, but also between the document and the document group, between the document group and the other document group.

본 발명이 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 본 발명의 기재로부터 당해 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.The technical objects to be achieved by the present invention are not limited to the above-mentioned technical problems, and other technical subjects which are not mentioned can be clearly understood by those skilled in the art from the description of the present invention .

본 발명의 실시예에 따른 문서 유사도 추론방법은 하나 이상의 문서를 포함하는 제1집단으로부터 복수의 제1대표 단어를 추출하되, 상기 복수의 제1대표 단어 각각에 대해서 상기 제1집단을 대표하는 정도를 나타내는 가중치와 함께 추출하는 단계; 하나 이상의 문서를 포함하는 제2집단으로부터 복수의 제2대표 단어를 추출하되, 상기 복수의 제2대표 단어 각각에 대해서 상기 제2집단을 대표하는 정도를 나타내는 가중치와 함께 추출하는 단계; 및 상기 복수의 제1대표 단어와 상기 복수의 제2대표 단어 사이의 유사도를 측정함으로써 상기 제1집단과 상기 제2집단 사이의 유사도를 추론하는 단계를 포함한다.A document similarity reasoning method according to an embodiment of the present invention includes extracting a plurality of first representative words from a first group including one or more documents, the degree of representing the first group for each of the plurality of first representative words Extracting a weight with a weight indicating a weight; Extracting a plurality of second representative words from a second group including one or more documents together with a weight indicating a degree of representing the second group for each of the plurality of second representative words; And inferring the similarity between the first group and the second group by measuring a degree of similarity between the plurality of first representative words and the plurality of second representative words.

본 발명의 실시예에서, 상기 복수의 제1대표 단어의 추출 및 상기 복수의 제2대표 단어의 추출은 TFIDF(Term Frequency Inverse Document Frequency) 기법을 이용하여 수행될 수 있다.In an embodiment of the present invention, the extraction of the plurality of first representative words and the extraction of the plurality of second representative words may be performed using a TFIDF (Term Frequency Inverse Document Frequency) technique.

본 발명의 실시예에 따르면 문서의 유사도를 추론하는 방법을 제공할 수 있다. According to an embodiment of the present invention, a method of deducing the similarity of a document can be provided.

본 발명의 실시예에서 문서의 유사도는 문서와 문서 사이뿐 아니라, 문서와 문서의 집단 사이, 문서의 집단과 다른 문서의 집단 사이의 유사도를 포함할 수 있다. 따라서, 본 발명의 실시예에 따르면 특정 문서 집단과 또 다른 문서 집단 사이의 주제 또는 연구분야 사이의 유사도를 추론할 수 있다. 또한, 본 발명의 실시예에 따르면 작성된 문서와 특정 문서 집단 사이의 연구분야 사이의 유사도를 추론할 수 있다. 또한, 본 발명의 실시예에 따르면 작성된 문서와 특정 문서 사이의 유사도를 추론할 수 있다. In embodiments of the present invention, the similarity of a document may include not only between the document and the document, but also between the document and the group of documents, between the group of documents and the group of other documents. Thus, according to embodiments of the present invention, the similarity between a particular document set and another document set can be deduced. In addition, according to the embodiment of the present invention, it is possible to deduce the similarity between the created document and the research field between the specific document group. In addition, according to the embodiment of the present invention, the degree of similarity between the created document and the specific document can be deduced.

또한, 본 발명의 실시예에 따르면 작성된 논문과 연구분야 및 주제면에 적절한 투고 학회 및 분야를 찾을 수 있고 논문 단위 검색 서비스를 가능하게 할 수 있다.Also, according to the embodiment of the present invention, it is possible to find a suitable publication society and field suitable for the thesis, research field, and subject field, and enable the thesis unit search service.

도1은 본 발명의 실시예에 따른 문서 유사도 추론방법의 흐름도를 나타낸다.
도2a는 문서와 집단에서 단어 가중치의 크기 및 개념을 상대적으로 나타낸다.
도2b는 두 개의 서로 다른 집단에서 단어 가중치의 크기 및 개념을 상대적으로 나타낸다.
도2c는 두 개의 서로 다른 문서에서 단어 가중치의 크기 및 개념을 상대적으로 나타낸다.
1 shows a flowchart of a document similarity reasoning method according to an embodiment of the present invention.
Figure 2a relatively illustrates the size and concept of word weights in documents and groups.
Figure 2b shows the magnitude and concept of word weights relatively in two different groups.
Figure 2c shows the magnitude and concept of word weights relatively in two different documents.

이하, 본 발명의 바람직한 실시예의 상세한 설명이 첨부된 도면들을 참조하여 설명된다. 그러나, 본 발명의 실시형태는 여러 가지의 다른 형태로 변형될 수 있으며, 본 발명의 범위가 이하 설명하는 실시형태로만 한정되는 것은 아니다. 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있으며, 도면들 중 인용부호들 및 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 인용부호들로 표시됨을 유의해야 한다. 참고로 본 발명을 설명함에 있어서 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, a detailed description of preferred embodiments of the present invention will be given with reference to the accompanying drawings. However, the embodiments of the present invention may be modified into various other forms, and the scope of the present invention is not limited to the embodiments described below. The shape and the size of the elements in the drawings may be exaggerated for clarity of explanation and the same reference numerals are used for the same elements and the same elements are denoted by the same quote symbols as possible even if they are displayed on different drawings Should be. In the following description, well-known functions or constructions are not described in detail to avoid unnecessarily obscuring the subject matter of the present invention.

도1은 본 발명의 실시예에 따른 문서 유사도 추론방법의 흐름도를 나타낸다. 도1에 도시된 바와 같이, 본 발명의 실시예에 따른 문서 유사도 추론방법은 제1집단에서 복수의 제1대표 단어를 추출하되, 복수의 제1대표 단어 각각에 대해서 제1집단을 대표하는 정도를 나타내는 가중치와 함께 추출하는 단계(S110), 제2집단으로부터 복수의 제2대표 단어를 추출하되, 복수의 제2대표 단어 각각에 대해서 제2집단을 대표하는 정도를 나타내는 가중치와 함께 추출하는 단계(S120), 복수의 제1대표 단어와 복수의 제2대표 단어 사이의 유사도를 측정하는 단계(S200), 및 S200 단계의 결과를 바탕으로 제1집단과 제2집단 사이의 유사도를 추론하는 단계(S300)를 포함할 수 있다. 1 shows a flowchart of a document similarity reasoning method according to an embodiment of the present invention. As shown in FIG. 1, a document similarity inference method according to an exemplary embodiment of the present invention extracts a plurality of first representative words from a first group, extracts a first representative word from a plurality of first representative words, (S110) extracting a plurality of second representative words from the second group, and extracting the second representative words together with a weight indicating a degree of representing the second group for each of the plurality of second representative words (S120), measuring a degree of similarity between a plurality of first representative words and a plurality of second representative words (S200), and estimating a degree of similarity between the first and second groups based on the result of step S200 (S300).

제1집단은 하나 이상의 문서를 포함할 수 있다. 문서는 글이나 기호와 같은 텍스트로 일정한 의사나 관념 또는 사상을 나타낸 것일 수 있다. 본 발명의 실시예에서 독립된 문서는 특정 연구 주제에 대해서 작성된 논문일 수 있다. 제1집단은 하나 이상의 논문의 집합체를 나타낼 수 있다. 예컨대, 제1집단은 특정 학회에 속하는 논문 집합이나 동일한 연구 분야의 논문 집합일 수 있다. 제1집단에 대한 설명은 제2집단에 대해서도 동일하게 적용될 수 있다. The first group may include one or more documents. A document may represent a certain doctrine, idea, or thought in text, such as a letter or symbol. In the embodiment of the present invention, the independent document may be a paper prepared for a specific research topic. The first group may represent a collection of one or more articles. For example, the first group may be a set of papers belonging to a specific society or a set of papers belonging to the same research field. The description of the first group can be equally applied to the second group.

제1집단을 대표하는 복수의 제1대표 단어는 제1집단에 포함되는 하나 이상의 문서 중 상대적으로 중요도가 높은 하나 이상의 문서로부터 추출될 수 있다. 예컨대, 특정 연구 주제에 대한 하나 이상의 논문들의 집합인 제1집단을 대표적으로 나타내는 대표 단어들이 추출될 수 있다. 이때, 상기 대표 단어들은 제1집단의 연구 주제를 나타내는 단어일 수 있다. 이때, 추출되는 대표 단어들의 신뢰도를 높이기 위해서, 제1집단에 포함되는 문서들 중 중요도가 높은 문서들로부터 대표 단어들이 추출될 수 있다. The plurality of first representative words representing the first group may be extracted from one or more documents of relatively high importance among the one or more documents included in the first group. For example, representative words representative of a first group, which is a collection of one or more articles for a particular research topic, may be extracted. At this time, the representative words may be words representing the research topic of the first group. At this time, in order to increase the reliability of extracted representative words, representative words can be extracted from documents having high importance among documents included in the first group.

제1집단에서 중요도가 높은 문서는 예컨대 제1집단 중 인지도가 높은 문서일 수 있다. 예컨대, 제1집단이 하나 이상의 논문 집합체인 경우, 중요도가 높은 논문은 구글(google)과 같은 검색 엔진에서 인용(citation)의 개수가 많은 논문일 수 있다. 또한, 중요도가 높은 논문은 마이크로소프트(Microsoft)사에서 이용하는 인지도 조사 방식을 통해서 선정될 수 있다. 이는 동일한 학회 또는 동일한 연구 분야에서 우수한 논문일수록 높은 인지도 및 이에 따라 많이 인용될 것이기 때문이다. 이때, 중요도의 판단은 실시예에 따라 다양하게 이루어질 수 있다. 이를 통해, 이들 중요도가 높은 논문들로부터 추출된 대표 단어들의 신뢰도가 높아질 수 있다. 이때, 제1집단을 나타내는 대표 단어에 대해서 요구되는 신뢰도에 따라 제1집단에서 몇 개의 논문이 중요도가 높은 논문으로 선정될 지가 결정될 수 있다. A document of high importance in the first group may be, for example, a document of high recognition among the first group. For example, if the first group is a collection of one or more articles, the article with a high degree of importance may be a article having a large number of citations in a search engine such as google. In addition, high-priority papers can be selected through the recognition method used by Microsoft. This is because superior papers in the same academic or research field will be highly recognized and cited accordingly. At this time, the determination of importance can be variously performed according to the embodiment. Thus, reliability of representative words extracted from papers with high importance can be increased. At this time, depending on the reliability required for the representative word representing the first group, how many papers in the first group can be selected as the papers with high importance can be determined.

제1집단에 하나의 문서만이 포함된 경우에는 하나의 문서를 대표하는 단어들이 추출될 수 있다. 이때는 제1집단에 포함되는 문서 그 자체가 제1집단을 나타낼 수 있다. 이상의 제1집단에 대한 설명은 제2집단에도 동일하게 적용될 수 있다.If only one document is included in the first group, words representative of one document can be extracted. At this time, the document itself included in the first group may represent the first group. The description of the first group can be applied to the second group as well.

특정 집단에서 복수의 대표 단어를 추출하는 단계(S100)는 TFIDF(Term Frequency Inverse Document Frequency) 기법을 이용하여 수행될 수 있다. TFIDF는 하나의 문서에서 단어의 사용 빈도와 여러 문서에서 사용된 횟수 등을 가중하여 해당 문서에서 각 단어의 중요도를 평가하는 방식이다. 해당 문서에서 자주 사용될수록 사용 빈도(Term Frequency, TF)가 높아 가중치가 올라가지만, 해당 문서 이외의 여러 문서에서도 자주 언급이 되는 단어일수록 가중치가 낮아진다(Inverse Document Frequency, IDF). 이는 해당 문서 이외의 여러 문서에서도 언급이 자주되는 단어라면 일반적인 단어일 확률이 높기 때문에 해당 문서를 대표하는 단어로 부적합하기 때문이다. The step S100 of extracting a plurality of representative words from a specific group may be performed using a TFIDF (Term Frequency Inverse Document Frequency) technique. TFIDF is a method of evaluating the importance of each word in the document by weighting the frequency of use of the word and the number of times used in various documents in one document. The more frequently used words in a document are, the higher the term frequency (TF) is, which increases the weight. However, the word often referred to in many documents other than the document has a lower weight (Inverse Document Frequency, IDF). This is because, if a word is frequently referred to in a document other than the document, the word is likely to be a general word, which is inappropriate as a representative word of the document.

이때, 특정 집단을 대표하는 대표 단어들은 해당 집단에서 나타나는 단어들 중 가중치가 높은 순으로 정렬될 수 있다. 여기서 가중치가 높은 단어는 우선 순위가 높은 단어로 지칭될 수도 있다. 특정 집단을 대표하는 대표 단어들은 해당 집단에서 나타나는 단어들 중 가중치가 높은 순서로 특정 개수, 또는 특정 비율의 단어들을 포함할 수 있다. 이때 특정 개수 또는 특정 비율은 실시예마다 다르게 적용될 수 있다. At this time, representative words representing a specific group can be sorted in descending order of weight among words appearing in the group. Here, a word having a high weight may be referred to as a word having a high priority. Representative words representing a particular group may include a certain number or a certain percentage of words in the order of the highest weight among the words appearing in the group. The specific number or specific ratio may be applied differently in each embodiment.

이때, 해당 집단에 하나의 문서만이 포함된 경우, 즉, 문서 그 자체가 집단을 나타내는 경우에는 이로부터 추출되는 대표 단어들은 해당 문서의 주제 또는 연구 주제 등을 나타내는 중요한 용어들일 수 있다. 해당 집단에 복수의 문서가 포함된 경우, 이로부터 추출되는 대표 단어들은 해당 집단의 주제, 연구 주제 또는 연구 분야 등을 나타내는 중요한 용어들일 수 있다. In this case, if only one document is included in the group, that is, if the document itself represents a group, the representative words extracted from the group may be important terms indicating the subject or research topic of the document. If the group contains multiple documents, the representative words extracted from the group may be important terms that indicate the subject of the group, the research topic, or the field of research.

도2a는 하나의 문서와 집단에서 단어 가중치의 크기 및 개념을 상대적으로 나타낸다. 예컨대, 문서와 집단에 대해서 TFIDF 기법에 따라 추출되는 대표 단어의 가중치 차이가 도2a에 개념적으로 도시된다. 도2a 내지 도2c에서 문서는 예컨대 하나의 연구 주제를 갖는 개별의 논문일 수 있고, 집단은 특정 연구 분야의 복수의 논문을 포함하는 논문 집합체일 수 있다. Figure 2a relatively illustrates the size and concept of word weights in one document and group. For example, the difference in weights of representative words extracted according to the TFIDF technique for documents and groups is conceptually shown in FIG. 2A. In Figs. 2A-2C, the document may be, for example, a separate article having a research topic, and the group may be a collection of articles including a plurality of articles in a specific research field.

일반적으로 특정 단어에 대해서 집단에서의 가중치가 하나의 문서에서의 가중치보다 크게 나타난다. 도2a에서, 단어1 내지 단어3의 집단에서의 가중치가 문서에서의 가중치보다 큰 것이 예시된다. 문서와 집단이 유사한 연구분야를 가지는 경우, 해당 연구 분야를 대표하는 단어는 하나의 문서보다 집단에서 더 많이 언급되기 때문이다. Generally, for a particular word, the weight in the group is greater than the weight in one document. In FIG. 2A, it is exemplified that the weight in the group of words 1 to 3 is larger than the weight in the document. If a document and a group have a similar research field, the word representing that research field is mentioned more often in a group than in a single document.

도2b는 두 개의 서로 다른 집단에서 단어 가중치의 크기 및 개념을 상대적으로 나타낸다. 예컨대, 두 개의 서로 다른 집단에 대해서 TFIDF 기법에 따라 추출되는 대표 단어의 가중치 차이가 도2b에 개념적으로 도시된다. Figure 2b shows the magnitude and concept of word weights relatively in two different groups. For example, the weight difference of the representative words extracted according to the TFIDF scheme for two different groups is conceptually shown in FIG. 2B.

동일한 단어라고 하더라도 서로 연구 분야 또는 주제가 다른 2개의 집단에서 가중치가 다를 수 있다. 도2b에서는, 단어1 및 단어2의 제1집단에서의 가중치는 제2집단에서의 가중치보다 크지만 단어3의 제1집단에서의 가중치는 제2집단에서의 가중치보다 작은 것을 예시한다. Even with the same word, the weights may be different in the two groups of research fields or subjects with each other. 2B illustrates that the weights in the first group of words 1 and 2 are greater than the weights in the second group but the weights in the first group of words 3 are less than the weights in the second group.

도2c는 두 개의 서로 다른 문서에서 단어 가중치의 크기 및 개념을 상대적으로 나타낸다. 예컨대, 두 개의 서로 다른 문서에 대해서 TFIDF 기법에 따라 추출되는 대표 단어의 가중치 차이가 도2c에 개념적으로 도시된다. Figure 2c shows the magnitude and concept of word weights relatively in two different documents. For example, the weight difference of the representative words extracted according to the TFIDF technique for two different documents is conceptually shown in FIG. 2C.

동일한 단어라고 하더라도 서로 연구 분야 또는 주제에서 차이가 있는 2개의 문서에서 가중치가 다를 수 있다. 도2c에서는, 단어1 내지 단어3의 제1문서에서의 가중치는 제2문서에서의 가중치보다 큰 것을 예시한다. Even with the same word, the weights may be different in the two documents that differ from each other in the research field or subject. 2C, the weights in the first document of words 1 to 3 are larger than the weights in the second document.

다시 도1을 참조하여, 본 발명의 실시예에 따른 문서 유사도 추론방법에서 S100에서 추출된 복수의 제1대표 단어와 복수의 제2대표 단어 사이의 유사도가 측정될 수 있다(S200). 이러한 대표 단어들 사이의 유사도는 다양한 방법에 의해 측정될 수 있으며 이하에서 3가지 방법을 예시한다. Referring again to FIG. 1, in the document similarity inference method according to the embodiment of the present invention, similarity between a plurality of first representative words extracted in S100 and a plurality of second representative words may be measured (S200). The similarity between these representative words can be measured by various methods and the following three methods are exemplified.

첫째, 복수의 제1대표 단어와 복수의 제2대표 단어 사이의 유사도의 측정은, 복수의 제1대표 단어와 복수의 제2대표 단어 사이의 공통된 단어에 대한 제1집단에서의 가중치와 제2집단에서의 가중치의 차이를 이용하여 측정될 수 있다. 첫째 방법에 따른 제1대표 단어와 제2대표 단어 사이의 유사도는 아래의 수식(1)에 따라 연산될 수 있다.First, the measurement of the degree of similarity between the plurality of first representative words and the plurality of second representative words is performed based on the weight in the first group for the common word between the plurality of first representative words and the plurality of second representative words, Can be measured using the difference in weights in the group. The similarity between the first representative word and the second representative word according to the first method can be calculated according to the following equation (1).

Figure 112013018699540-pat00001
수식(1)
Figure 112013018699540-pat00001
Equation (1)

여기서, w1 내지 wn는 제1대표 단어와 제2대표 단어 모두에 공통된 단어들 각각의 제1집단에서의 가중치를 나타낸다. c1 내지 cn은, 가중치 값 w1 내지 wn에 해당하는 단어들 각각의 제2집단에서의 가중치를 나타낸다. 이와 같이 제1대표 단어와 제2대표 단어 중 공통된 단어들의 가중치 차이값을 각각 제곱하여 합한 후 해당 합의 값에 제곱근을 취함으로써, 제1대표 단어들과 제2대표단어들 사이의 유사도(Sall)를 연산할 수 있다. Here, w1 to wn represent weights in the first group of words common to both the first representative word and the second representative word. c1 to cn represent weights in the second group of words corresponding to the weight values w1 to wn. As described above, the similarity Sall between the first representative words and the second representative words is calculated by summing the weight difference values of common words among the first representative word and the second representative word, Can be calculated.

첫째 유사도 측정방법은 제2집단이 하나의 문서만을 포함하여 문서 그 자체가 제2집단이고 제1집단은 복수의 문서를 포함하는 경우에 적합할 수 있다. 수식(1)은 도2a에 예시된 바와 같이, 제1집단에서의 단어의 가중치가 상대적으로 하나의 문서로 이루어진 제2집단에서의 가중치기보다 매우 큰 점을 이용하고 있다. 제1집단에서의 단어의 가중치가 제2집단(문서 그 자체)에서의 동일한 단어의 가중치보다 매우 크므로, 수식(1)에 따르면 제1대표 단어와 제2대표 단어 사이의 공통된 단어의 존재 유무가 유사도(Sall) 값에 기여하는 영향력이 클 수 있다. 다만, 제1대표 단어와 제2대표 단어에 대해서 공통된 단어의 제2집단에서의 가중치가 큰 경우에는 오히려 유사도(Sall) 값이 낮게 측정될 수도 있다. The first similarity measure method may be suitable for a case where the second group includes only one document, the document itself is a second group, and the first group includes a plurality of documents. Equation (1) utilizes the fact that the weight of words in the first group is much larger than the weight in the second group, which is relatively one document, as illustrated in FIG. 2A. Since the weight of the word in the first group is much larger than the weight of the same word in the second group (the document itself), according to Equation (1), the presence or absence of a common word between the first representative word and the second representative word May have a large influence on the similarity value (Sall). However, if the weights in the second group of words common to the first representative word and the second representative word are large, the similarity value Sall may be measured to be low.

둘째, 복수의 제1대표 단어와 복수의 제2대표 단어 사이의 유사도의 측정은, 복수의 제1대표 단어와 복수의 제2대표 단어 사이에 공통된 단어의 존재 유무를 검사함으로써 이루어질 수 있다. 둘째 방법에 따른 제1대표 단어와 제2대표 단어 사이의 유사도는 아래의 수식(2)에 따라 연산될 수 있다.Second, the measurement of the degree of similarity between the plurality of first representative words and the plurality of second representative words can be performed by examining the presence or absence of a common word between a plurality of first representative words and a plurality of second representative words. The similarity between the first representative word and the second representative word according to the second method can be calculated according to the following equation (2).

Figure 112013018699540-pat00002
수식(2)
Figure 112013018699540-pat00002
Equation (2)

여기서, n은 제2집단으로부터 추출된 복수의 제2대표 단어의 개수를 나타낸다. 이때, 제2대표 단어 중 i번째 단어가 제1대표 단어 및 제2대표 단어에 공통적으로 존재하는 때 Si 값은 1의 값을 갖는다. 제2대표 단어 중 i번째 단어가 제2대표 단어에는 있지만 제1대표 단어에는 존재하지 않는 때 Si 값은 0의 값을 갖는다. 둘째 방법에 따른 제1대표 단어와 제2대표 단어 사이의 유사도(Sall) 값은 제1대표 단어와 제2대표 단어 사이의 공통된 단어의 개수의 값을 가질 수 있다. 다만, 실시예에 따라 제1집단에서의 공통된 단어의 가중치나 제2집단에서의 공통된 단어의 가중치를 추가로 부가하여 수치적으로 차별화된 유사도(Sall)를 연산할 수 있다. Here, n represents the number of a plurality of second representative words extracted from the second group. At this time, when the i-th word among the second representative words is common to the first representative word and the second representative word, the Si value has a value of one. The Si value has a value of 0 when the i-th word of the second representative word is present in the second representative word but not in the first representative word. The similarity value (Sall) value between the first representative word and the second representative word according to the second method may have a value of the number of common words between the first representative word and the second representative word. However, according to the embodiment, it is possible to calculate the similarity Sall which is numerically differentiated by additionally adding the weights of the common words in the first group or the weights of the common words in the second group.

둘째 유사도 측정방법 또한 제2집단이 하나의 문서만을 포함하여 문서 그 자체가 제2집단이고 제1집단은 복수의 문서를 포함하는 경우에 적합할 수 있다. The second similarity measure method may also be suitable when the second group includes only one document, the document itself is a second group, and the first group includes a plurality of documents.

셋째, 상기 복수의 제1대표 단어와 상기 복수의 제2대표 단어 사이의 유사도 측정은, 상기 복수의 제1대표 단어와 상기 복수의 제2대표 단어 사이의 공통된 단어에 대한 상기 제1집단에서의 가중치와 상기 제2집단에서의 가중치의 차이가 작을수록 더 큰 유사도를 갖도록 지수함수를 이용함으로써 이루어질 수 있다. 셋째 방법에 따른 제1대표 단어와 제2대표 단어 사이의 유사도는 아래의 수식(3)에 따라 연산될 수 있다.Third, the similarity measure between the plurality of first representative words and the plurality of second representative words may be performed by measuring the degree of similarity between the plurality of first representative words and the plurality of second representative words in the first group By using an exponential function such that the smaller the difference between the weights and the weights in the second group is, the greater the degree of similarity is. The similarity between the first representative word and the second representative word according to the third method can be calculated according to the following equation (3).

Figure 112013018699540-pat00003
수식(3)
Figure 112013018699540-pat00003
Equation (3)

여기서, n은 제1대표 단어와 제2대표 단어 사이의 공통된 단어의 개수를 나타낸다. σ는 유사도의 크기 배율을 조정하는 변수이다. σ의 값이 작게 설정되면 결과적인 유사도 값이 크게 나오며 이와 반대로 σ의 값이 크게 설정되면 유사도 값이 작게 나올 수 있다. 이러한 σ 값의 크기는 실시예에 따라 필요한 유사도 값의 스케일에 따라 설정될 수 있다. 수식(3)은 제1대표 단어와 제2대표 단어 사이의 공통된 단어들이 제1집단과 제2집단에서 유사한 가중치를 가지는 경우에 차별화된 유사도(Sall)를 측정하기 위해서 이용될 수 있다. 수식(3)에 따르면 지수함수를 적용하여 공통 단어의 제1집단에서의 가중치(wi)와 제2집단에서의 가중치(ci)가 비슷한 값을 가질수록 더 높은 유사도(Sall)가 계산될 수 있다. 이러한 셋째 유사도 측정방법은 제1집단 및 제2집단 모두 복수의 문서를 포함하는 경우, 또는 제1집단 및 제2집단 각각 하나의 문서만을 포함하여 문서 그 자체가 제1집단 및 제2집단인 경우에 적합할 수 있다. Here, n represents the number of common words between the first representative word and the second representative word. σ is a variable for adjusting the magnification of the degree of similarity. If the value of σ is set small, the resultant similarity value becomes large. On the contrary, if the value of σ is set large, the similarity value may become small. The magnitude of this sigma value can be set according to the scale of the similarity value value required according to the embodiment. Equation (3) can be used to measure the differentiated similarity (Sall) when the common words between the first representative word and the second representative word have similar weights in the first and second groups. According to Equation (3), as the weight wi in the first group and the weight ci in the second group have similar values by applying the exponential function, higher similarity Sall can be calculated . This third similarity measurement method is a method in which both the first group and the second group include a plurality of documents or the document itself is a first group and a second group including only one document for each of the first group and the second group Lt; / RTI >

또한, 이상에서 설명된 첫째 내지 셋째 유사도 측정 방법은 하나 이상 서로 혼용하여 이용될 수 있다. In addition, the first through third similarity measurement methods described above can be used in combination of one or more of them.

본 발명의 문서 유사도 추론방법은, 이상에서 설명된 바와 같이 측정된 제1대표 단어와 제2대표 단어 사이의 유사도(Sall)를 근거로 제1집단과 제2집단 사이의 유사도를 추론할 수 있다. 예컨대, 제1대표 단어와 제2대표 단어 사이의 유사도(Sall) 그 자체가 제1집단과 제2집단 사이의 유사도로 추정될 수도 있다. The document similarity inference method of the present invention can infer the similarity between the first group and the second group based on the similarity (Sall) between the first representative word and the second representative word measured as described above . For example, the similarity (Sall) itself between the first representative word and the second representative word may be estimated as the similarity between the first group and the second group.

본 발명의 실시예에 다른 문서 유사도 추론방법은 프로그램 언어로 구현되어 컴퓨터에서 실행될 수 있다. The document similarity reasoning method according to the embodiment of the present invention may be implemented in a programming language and executed in a computer.

이상에서 본 발명의 실시예에서 문서 그 자체를 대표 단어를 추출하는데 이용하였으나, 하나의 문서에 포함된 복수의 문단들 중에 대표 단어들이 가장 많이 포함된 문단을 해당 문서를 대표하는 것으로 부가적으로 이용할 수 있다. Although the document itself has been used for extracting representative words in the embodiment of the present invention, a paragraph including the largest number of representative words among a plurality of paragraphs included in one document is additionally used as a representative document .

본 발명의 실시예에 따르면, 문서의 유사도를 추론하는 방법을 제공할 수 있다. According to an embodiment of the present invention, a method of deducing the similarity of a document can be provided.

본 발명의 실시예에서 문서의 유사도는 문서와 문서 사이뿐 아니라, 문서와 문서의 집단 사이, 문서의 집단과 다른 문서의 집단 사이의 유사도를 포함할 수 있다. In embodiments of the present invention, the similarity of a document may include not only between the document and the document, but also between the document and the group of documents, between the group of documents and the group of other documents.

따라서, 본 발명의 실시예에 따르면 특정 문서 집단과 또 다른 문서 집단 사이의 주제 또는 연구분야 사이의 유사도를 추론할 수 있다. 또한, 본 발명의 실시예에 따르면 작성된 문서와 특정 문서 집단 사이의 연구분야 사이의 유사도를 추론할 수 있다. 또한, 본 발명의 실시예에 따르면 작성된 문서와 특정 문서 사이의 연구분야 또는 주제 사이의 유사도를 추론할 수 있다. Thus, according to embodiments of the present invention, the similarity between a particular document set and another document set can be deduced. In addition, according to the embodiment of the present invention, it is possible to deduce the similarity between the created document and the research field between the specific document group. In addition, according to the embodiment of the present invention, it is possible to infer the similarity between a research field and a subject between a created document and a specific document.

또한, 본 발명의 실시예에 따르면 작성된 논문과 연구분야 및 주제면에서 적절한 투고 학회 및 분야를 찾을 수 있고 논문 단위 검색 서비스를 가능하게 할 수 있다. In addition, according to the embodiment of the present invention, it is possible to search for appropriate articles and societies in terms of articles, research fields and subjects, and to enable a thesis unit search service.

본 발명의 실시예에 따르면 키워드(key word) 기반 검색이 아니라 문서(또는 논문) 그 자체를 기반으로 자료 검색 시스템 및 서비스를 제공할 수 있다. 따라서, 본 발명의 실시예에 따르면 논문 자체를 검색에 이용하여 유사도가 높은 순으로 검색된 논문의 결과를 제시할 수 있다. According to an embodiment of the present invention, a data search system and a service can be provided based on a document (or a thesis) itself, rather than a key word based search. Therefore, according to the embodiment of the present invention, it is possible to present the results of the articles retrieved in descending order of similarity by using the articles themselves for retrieval.

또한, 본 발명의 실시예에 따르면 작성된 논문과 투고할 학회의 연구 분야 사이의 연관도 또는 유사도를 추론할 수 있다. In addition, according to the embodiment of the present invention, it is possible to infer the degree of association or similarity between the article prepared and the research field of the society to be submitted.

이상에서 살펴본 바와 같이, 본 발명의 실시예에 따른 토픽 모델을 이용함으로써 객체 또는 객체 집단의 관점에서 소설이나 역사 문서와 같이 하나의 이야기 흐름을 가지는 데이터를 문단의 흐름, 또는 소정의 구간의 흐름에 따라 토픽을 분석할 수 있다. 또한, 문서의 독자들은 문서를 판독함이 없이 등장인물, 장소 또는 사건 등을 중심으로 이야기가 어떻게 진행되는지에 대해서 자동으로 결과를 얻을 수 있다. 또한, 본 발명의 실시예에 따르면 추가의 데이터 또는 메타 데이터 없이 문서 그 자체만을 데이터로 이용하여 토픽 흐름을 분석할 수 있다. As described above, by using the topic model according to the embodiment of the present invention, data having a story flow such as a novel or a history document from the viewpoint of an object or an object group can be divided into a flow of a paragraph or a flow of a predetermined section You can then analyze the topic. In addition, readers of the document can automatically obtain results about how the story is going, centering on characters, places, or events without reading the document. In addition, according to the embodiment of the present invention, the topic flow can be analyzed using only the document itself as data without additional data or metadata.

이상 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해되어야 하고, 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is evident that many alternatives, modifications and variations will be apparent to those skilled in the art. will be. Therefore, it should be understood that the above-described embodiments are to be considered in all respects as illustrative and not restrictive, the scope of the invention being indicated by the appended claims rather than the foregoing description, It is intended that all changes and modifications derived from the equivalent concept be included within the scope of the present invention.

Claims (7)

적어도 두 개 이상의 문서를 포함하는 제1집단으로부터 복수의 제1대표 단어를 추출하되, 상기 복수의 제1대표 단어 각각에 대해서 상기 제1집단을 대표하는 정도를 나타내는 가중치와 함께 추출하는 단계;
적어도 두 개 이상의 문서를 포함하는 제2집단으로부터 복수의 제2대표 단어를 추출하되, 상기 복수의 제2대표 단어 각각에 대해서 상기 제2집단을 대표하는 정도를 나타내는 가중치와 함께 추출하는 단계; 및
상기 복수의 제1대표 단어와 상기 복수의 제2대표 단어 사이의 유사도를 측정함으로써 상기 제1집단과 상기 제2집단 사이의 유사도를 추론하는 단계를 포함하며,
상기 복수의 제1대표 단어와 상기 복수의 제2대표 단어 사이의 유사도(Sall)는
Figure 112014030783695-pat00008
에 따라서 연산될 수 있으며,
여기서, n은 상기 복수의 제1대표 단어와 상기 복수의 제2대표 단어에 공통된 단어의 개수이며, wi는 상기 제1집단에서 상기 공통된 단어의 가중치를 나타내고 ci는 상기 제2집단에서 상기 공통된 단어의 가중치를 나타내는,
문서 유사도 추론방법.
Extracting a plurality of first representative words from a first group including at least two documents and extracting the plurality of first representative words together with a weight indicating a degree of representing the first group for each of the plurality of first representative words;
Extracting a plurality of second representative words from a second group including at least two documents and extracting the second representative words together with a weight indicating a degree of representing the second group for each of the plurality of second representative words; And
And inferring the similarity between the first group and the second group by measuring the similarity between the plurality of first representative words and the plurality of second representative words,
The similarity (Sall) between the plurality of first representative words and the plurality of second representative words is
Figure 112014030783695-pat00008
, ≪ / RTI >
Where n is the number of words common to the plurality of first representative words and the plurality of second representative words, wi represents the weight of the common word in the first group, and ci represents the weight of the common word in the second group ≪ / RTI >
Document similarity inference method.
제1항에 있어서,
상기 복수의 제1대표 단어의 추출 및 상기 복수의 제2대표 단어의 추출은 TFIDF(Term Frequency Inverse Document Frequency) 기법을 이용하여 수행되는 것을 특징으로 하는,
문서 유사도 추론방법.
The method according to claim 1,
Wherein the extraction of the plurality of first representative words and the extraction of the plurality of second representative words are performed using a TFIDF (Term Frequency Inverse Document Frequency) technique.
Document similarity inference method.
제1항에 있어서,
상기 복수의 제1대표 단어는 상기 제1집단에 포함되는 상기 적어도 두 개 이상의 문서 중 하나 이상의 문서로부터 추출되는 것을 특징으로 하는,
문서 유사도 추론방법.
The method according to claim 1,
Wherein the plurality of first representative words are extracted from at least one of the at least two documents included in the first group.
Document similarity inference method.
삭제delete 삭제delete 삭제delete 청구항 제1항 내지 제3항 중 어느 한 항에 따른 문서 유사도 추론방법을 컴퓨터에서 실행시키기 위한 프로그램을 저장한 컴퓨터 판독 가능 매체.A computer-readable medium storing a program for causing a computer to execute a document similarity inference method according to any one of claims 1 to 3.
KR1020130022697A 2013-03-04 2013-03-04 Document similarity estimation method KR101399272B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130022697A KR101399272B1 (en) 2013-03-04 2013-03-04 Document similarity estimation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130022697A KR101399272B1 (en) 2013-03-04 2013-03-04 Document similarity estimation method

Publications (1)

Publication Number Publication Date
KR101399272B1 true KR101399272B1 (en) 2014-05-27

Family

ID=50895243

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130022697A KR101399272B1 (en) 2013-03-04 2013-03-04 Document similarity estimation method

Country Status (1)

Country Link
KR (1) KR101399272B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210039914A (en) * 2019-10-02 2021-04-12 (주)디앤아이파비스 Method, apparatus and system for determining similarity of patent documents using clustering
KR20230079967A (en) 2021-11-29 2023-06-07 주식회사 위고 Score calculation apparatus method for automatically classification of document and method thereof

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110058593A (en) * 2009-11-26 2011-06-01 주식회사 알에스엔 Classification device of similar document using exposure analysis

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110058593A (en) * 2009-11-26 2011-06-01 주식회사 알에스엔 Classification device of similar document using exposure analysis

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210039914A (en) * 2019-10-02 2021-04-12 (주)디앤아이파비스 Method, apparatus and system for determining similarity of patent documents using clustering
KR102315213B1 (en) 2019-10-02 2021-10-20 (주)디앤아이파비스 Method, apparatus and system for determining similarity of patent documents using clustering
KR20230079967A (en) 2021-11-29 2023-06-07 주식회사 위고 Score calculation apparatus method for automatically classification of document and method thereof

Similar Documents

Publication Publication Date Title
Hasan et al. Normalized approach to find optimal number of topics in Latent Dirichlet Allocation (LDA)
Jockers et al. Significant themes in 19th-century literature
Karisani et al. A query term re-weighting approach using document similarity
JP5965260B2 (en) Document classification program and document classification apparatus
CN113011689B (en) Evaluation method and device for software development workload and computing equipment
CN110032650B (en) Training sample data generation method and device and electronic equipment
Färber et al. To cite, or not to cite? Detecting citation contexts in text
KR101413444B1 (en) Document Analysis Method
CN104731772B (en) Improved feature evaluation function based Bayesian spam filtering method
JP2008210024A (en) Apparatus for analyzing set of documents, method for analyzing set of documents, program implementing this method, and recording medium storing this program
Raghav et al. Text and citations based cluster analysis of legal judgments
KR101399272B1 (en) Document similarity estimation method
Filannino DBWorld e-mail classification using a very small corpus
Ronzano et al. An empirical assessment of citation information in scientific summarization
Trivedi et al. Capturing user sentiments for online Indian movie reviews: A comparative analysis of different machine-learning models
Zakzouk et al. Comparing text classifiers for sports news
KR101492016B1 (en) Document Analysis Method
Dittman et al. Is data sampling required when using random forest for classification on imbalanced bioinformatics data?
JP5361090B2 (en) Topic word acquisition apparatus, method, and program
WO2014027999A1 (en) Dynamic content preview
Jockers et al. Topic modeling
Balaji et al. Finding related research papers using semantic and co-citation proximity analysis
Walkowiak et al. Utilizing local outlier factor for open-set classification in high-dimensional data-case study applied for text documents
Congleton et al. Tracing Political Positioning of Dutch Newspapers
Kernot Can Three Pronouns Discriminate Identity in Writing?

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee