KR101413444B1

KR101413444B1 - 문서 분석 방법

Info

Publication number: KR101413444B1
Application number: KR1020130037441A
Authority: KR
Inventors: 최호진; 김승석; 정영섭; 오교중; 임채균; 김준범
Original assignee: 한국과학기술원
Priority date: 2013-04-05
Filing date: 2013-04-05
Publication date: 2014-07-01

Abstract

본 발명의 문서 분석 방법은 참조 문헌 추적을 통하여 기준 문서에 대한 복수개의 참조 문서를 수집하는 단계; 상기 기준 문서로부터 복수의 기준 대표 단어를 추출하되, 상기 복수의 기준 대표 단어 각각에 대해서 상기 기준 문서를 대표하는 정도를 나타내는 가중치를 함께 추출하는 단계; 상기 복수개의 참조 문서 각각에 대해서 복수의 참조 대표 단어를 추출하되, 상기 복수의 참조 대표 단어 각각에 대해서 해당 참조 문서를 대표하는 정도를 나타내는 가중치를 함께 추출하는 단계; 상기 복수의 기준 대표 단어와 상기 복수의 참조 대표 단어를 이용하여 상기 기준 문서와 상기 복수의 참조 대표 단어가 대표하는 해당 참조 문서 사이의 유사도를 추론하는 단계를 포함한다.

Description

문서 분석 방법 {Document Analysis Method}

본 발명은 문서 분석 방법에 관한 것으로, 보다 구체적으로 기준 문서와 연관된 최근 동향의 문서들을 수집하고 기준 문서와 수집된 문서들 사이의 유사도를 측정하여 유용한 정보를 추출할 수 있는 기법에 관한 것이다.

인터넷의 급속한 발전과 함께 정보의 공유는 인류에 많은 혜택을 주었다. 컴퓨터와 인터넷의 발달을 통해 다양한 정보를 제공하거나 제공받을 수 있다. 전문 학술 단체의 학술지의 경우에도 온라인을 통한 논문 제공 및 구독을 가능하게 하고 있다.

엄청나게 폭증하는 정보량에 비해 인간의 정보 습득 능력에는 한계가 있는 바 다양한 정보 검색 기능에 대한 연구가 이루어지고 있다. 특히, 학술 논문은 텍스트(text: 문자)를 이용하는 경우가 대부분이다. 이러한 텍스트로 이루어진 자료의 처리가 유용한 텍스트 마이닝(text mining)에 관련된 연구가 활발하게 이루어지고 있다.

특히, 관심 분야에 대한 관련 논문을 검색하는 것은 연구자에게 중요한 과제이다. 관련 논문 조사는 논문을 작성할 때 필수적인 과정이며, 이 과정이 얼마나 잘 수행되었는지에 따라 이후 논문의 질이 좌우될 수 있다. 현재 인터넷을 통해 논문 검색이 이루어질 수 있으나 이를 모두 연구자가 읽고 내용을 파악하는 것은 매우 어려운 일이다.

따라서, 연구자가 원하는 관심 분야와 밀접한 논문을 신뢰도 높게 제공해줄 수 있는 기법에 대한 필요성이 야기되고 있다.

한국공개공보 제10-2010-0038378호 (2010.04.14)

본 발명은 종래의 필요성을 충족시키기 위해 안출된 것으로써, 관심 분야의 문서를 추출하고 특히 해당 관심 분야와 밀접한 문서를 제공할 수 있는 문서 분석 방법을 제공하기 위한 것이다.

본 발명이 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 본 발명의 기재로부터 당해 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 발명의 실시형태에 따른 문서 분석 방법은 참조 문헌 추적을 통하여 기준 문서에 대한 복수개의 참조 문서를 수집하는 단계; 상기 기준 문서로부터 복수의 기준 대표 단어를 추출하되, 상기 복수의 기준 대표 단어 각각에 대해서 상기 기준 문서를 대표하는 정도를 나타내는 가중치를 함께 추출하는 단계; 상기 복수개의 참조 문서 각각에 대해서 복수의 참조 대표 단어를 추출하되, 상기 복수의 참조 대표 단어 각각에 대해서 해당 참조 문서를 대표하는 정도를 나타내는 가중치를 함께 추출하는 단계; 상기 복수의 기준 대표 단어와 상기 복수의 참조 대표 단어를 이용하여 상기 기준 문서와 상기 복수의 참조 대표 단어가 대표하는 해당 참조 문서 사이의 유사도를 추론하는 단계를 포함한다.

본 발명의 실시형태에서, 상기 복수개의 참조 문서는 최근 소정 시간 구간 동안의 문서만을 포함할 수 있다.

본 발명의 실시형태에 따르면 관심 분야의 문서를 추출하고 특히 해당 관심 분야와 밀접한 문서를 제공할 수 있는 문서 분석 방법을 제공할 수 있다.

본 발명의 실시형태에 따르면, 관심 분야를 기준 문서로서 제공하여 이와 관련된 분야의 문서들을 참조 문헌 추적을 통하여 수집하고 이중 밀접한 논문들을 단어 유사도 기법을 통해서 제공할 수 있다.

본 발명의 실시형태에 따르면, 연구 분야에 속하는 각 논문마다 등장하는 단어들의 중요도와 참조 문헌 네트워크를 동시에 활용하여 많은 논문들을 직접 정독하지 않고도 연구자가 필요로 하는 정보를 획득할 수 있다.

본 발명의 실시형태에 따르면, 최근 논문으로부터 참조 문헌을 추적함으로써 최신 동향을 유지하면서 동일한 분야에 속하는 문헌들만을 추출할 수 있다.

본 발명의 실시형태에 따르면, 다의어, 동음 이의어 등으로 인해 야기되는 문제점을 내포하는 일반적인 키워드 방식의 논문 검색과 달리, 참조 문헌 추적을 통해 확실히 기준 논문과 연관된 논문들만을 수집할 수 있으므로 데이터 처리시에 적은 메모리를 소모하고 고속으로 수행할 수 있다.

도1은 본 발명의 실시형태에 따른 문서 분석 방법의 흐름도를 나타낸다.
도2는 본 발명의 실시형태에 따른 참조 문헌 네트워크를 예시한다.
도3은 본 발명의 실시형태에 따른 문서간 유사도 측정 방식의 개념을 예시한다.

이하, 본 발명의 바람직한 실시예의 상세한 설명이 첨부된 도면들을 참조하여 설명된다. 그러나, 본 발명의 실시형태는 여러 가지의 다른 형태로 변형될 수 있으며, 본 발명의 범위가 이하 설명하는 실시형태로만 한정되는 것은 아니다. 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있으며, 도면들 중 인용부호들 및 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 인용부호들로 표시됨을 유의해야 한다. 참고로 본 발명을 설명함에 있어서 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

도1은 본 발명의 실시형태에 따른 문서 분석 방법의 흐름도를 나타낸다. 도1에 도시된 바와 같이, 본 발명의 실시형태에 따른 문서 분석 방법은 참조 문헌 추적을 통하여 기준 문서에 대한 복수개의 참조 문서를 수집하는 단계(S100), 기준 문서로부터 복수의 기준 대표 단어를 추출하되, 상기 복수의 기준 대표 단어 각각에 대해서 상기 기준 문서를 대표하는 정도를 나타내는 가중치를 함께 추출하는 단계(S210), 복수개의 참조 문서 각각에 대해서 복수의 참조 대표 단어를 추출하되, 상기 복수의 참조 대표 단어 각각에 대해서 해당 참조 문서를 대표하는 정도를 나타내는 가중치를 함께 추출하는 단계(S220) 및 복수의 기준 대표 단어와 복수의 참조 대표 단어를 이용하여 상기 기준 문서와 상기 복수의 참조 대표 단어가 대표하는 해당 참조 문서 사이의 유사도를 추론하는 단계(S300)를 포함할 수 있다.

기준 문서 및/또는 참조 문서에서 문서는 글이나 기호와 같은 텍스트로 일정한 의사나 관념 또는 사상을 나타낸 것일 수 있다. 본 발명의 실시형태에서 독립된 문서는 특정 연구 주제에 대해서 작성된 논문일 수 있다. 본 발명의 실시형태에 따른 기준 문서는 해당 주제 분야를 파악하고 이와 유사도가 높은 문서를 찾기를 원하는 대상의 문서일 수 있다. 또한, 본 발명의 실시형태에 따라 기준 문서는 연구자가 연구 분야를 알기 원하는 관심 분야의 논문일 수 있다.

본 발명의 실시형태에서, 기준 문서에 대한 복수개의 참조 문서를 수집하는 단계(S100)는 참조 문헌 추적을 통하여 수행될 수 있다. 본 발명의 실시형태에서, 기준 문서 및 수집 대상이 되는 참조 문서는 각각 자신과 관련된 참조 문헌의 리스트를 해당 문서 내부 또는 관련 데이터 저장소에 포함하고 있을 수 있다. 예컨대, 기준 문서 내에는 기준 문서의 내용과 관련이 있는 참조 문헌의 리스트를 포함할 수 있다. 참조 문헌은 기준 문서 작성시에 인용된 문서일 수 있다.

특정 논문과 같은 문서에서 참조 문헌으로 인용된 논문과 해당 특정 논문 사이에는 연구 주제 간에 관련이 있는 것으로 추정될 수 있다. 따라서, 이러한 특성을 이용하여, 본 발명의 실시형태에서 기준 문서에 대한 참조 문서를 수집하는 단계(S100)는 참조 문헌 추적을 통해서 수행될 수 있다.

참조 문헌 추적을 통해서 기준 문서에 대한 복수의 참조 문서를 수집하는 과정은 아래와 같다. 첫 번째로, 복수의 참조 문서 집단으로서 기준 문서에서 인용된 제1 참조 문헌들이 수집될 수 있다. 두 번째로, 복수의 참조 문서 집단으로서 상기 제1참조 문헌들 각각에서 인용된 제2 참조 문헌들이 수집될 수 있다. 세 번째로, 복수의 참조 문서 집단으로서 상기 제2 참조 문헌들 각각에서 인용된 제3 참조 문헌들이 수집될 수 있다. 이러한 과정은 재귀적으로 반복적으로 수행될 수 있다. 즉, 제3 참조 문헌들에서 인용된 제4 참조 문헌들 및 그 이하의 참조 문헌들이 지속적으로 수집될 수 있다.

참조 문헌 추적을 통한 재귀적 참조 문서 수집의 수행 깊이는 실시형태에 따라 적절히 설정될 수 있다. 하나의 문서는 많은 수의 참조 문헌 목록을 지니며 각 참조 문헌은 또한 자신만의 참조 문헌 목록을 가질 수 있다. 따라서, 참조 문헌 네트워크는 기준 문서로부터 매우 큰 네트워크를 구성할 수 있으며 이는 수행 깊이에 따라 기하급수적으로 커지게 되기 때문이다.

본 발명의 실시형태에서, 수집 단계(S100)에서 수집된 복수개의 참조 문서에 대해서 참조 문헌 네트워크를 통해 연결 네트워크가 생성될 수 있다. 도2는 본 발명의 실시형태에 따른 참조 문헌 네트워크를 예시한다. 도2에서 기준 문서는 Paper로 표시되고 참조 문헌 추적은 수행 깊이 3까지 수행된 것을 예시한다.

도2에서, 기준 문서(Paper)에서 인용된 제1참조 문헌들이 R11 내지 R15로 표시되고, 제1참조 문헌들에서 인용된 제2참조 문헌들이 R21 내지 R211로 표시되고, 제2참조 문헌들에서 인용된 제3참조 문헌들이 R31 내지 R35로 표시된다. 도2에서는, 네트워크의 간소화를 위해, 제1참조 문헌 중 R11 내지 R13에 대해서만 인용된 문헌들이 제2참조 문헌들로 도시되고 제2참조 문헌 중 R21에 대해서만 인용된 문헌들이 제3참조 문헌들로 도시되고 있다.

이때, 도2에서는 R32는 R21에서 인용된 문서이면서 동시에 R11에서 인용된 문헌임이 표시되고, R33는 R21에서 인용된 문서이면서 동시에 기준 문서(Paper)에서 인용된 문서임이 표시된다. R25 및 R210의 경우에도 각각 두 개 이상의 문서에서 인용되고 있음이 표시되어 있다. 도2에 도시된 바와 같이, 참조 문서들 사이에 참조 문헌 네트워크를 이용하여 연결 네트워크를 생성함으로써 수집된 참조 문서들 사이의 관계를 용이하게 파악할 수 있다. 따라서, 사용자는 이하의 분석 과정을 거치지 않고도 직관적으로 기준 문서와 참조 문서 사이의 연관성을 파악할 수 있다.

본 발명의 실시형태에 따라, 참조 문서 수집 단계(S100)에서 수집되는 복수개의 참조 문서는 최근 소정 시간 구간 동안의 문서만을 포함할 수 있다. 예컨대, 참조 문서 수집(S100) 시에 최근 몇 년 동안에 발간된 논문들만이 참조 문서 수집의 대상이 되도록 함으로써 최신 동향을 유지하면서 참조 문서 집단을 수집할 수 있다.

이상에서 살펴본 바와 같이, 기준 문서에 대해서 참조 문헌 추적을 통하여 복수개의 참조 문서가 수집될 수 있다. 이러한 복수개의 참조 문서는 참조 문헌 네트워크로 구성되는 특정 주제 또는 연구분야의 군집을 생성한다. 예컨대, 참조 문서 집단을 통해 기준 문서와 관련있는 연구 분야가 생성될 수 있다. 예컨대, 생물정보학(bioinformatics)과 같은 넓은 개념 내에 포함되어 있는 기준 문서를 이용하여, 상기 기준 문서가 유전자 발현(gene expression) 또는 게놈 분석(genome analysis)과 같은 상기 생물정보학에 대한 하위의 연구 분야 중 어느 분야에 관련되어 있는지 확인할 수 있다.

본 발명의 실시형태에서, 기준 문서 및 참조 문서 각각에 대해서 대표 단어가 추출될 수 있다(S200). 대표 단어를 추출하는 단계(S200)는 기준 문서로부터 복수의 기준 대표 단어를 추출하는 단계(S210) 및 복수개의 참조 문서 각각에 대해서 복수의 참조 대표 단어를 추출하는 단계(S220)를 포함할 수 있다.

이때, 대표 단어들은 각 문서의 주제 또는 연구 주제를 나타내는 단어일 수 있다. 특정 문서에서 복수의 대표 단어를 추출하는 단계(S200)는 TFIDF(Term Frequency Inverse Document Frequency) 기법을 이용하여 수행될 수 있다. TFIDF는 하나의 문서에서 단어의 사용 빈도와 여러 문서에서 사용된 횟수 등을 가중하여 해당 문서에서 각 단어의 중요도를 평가하는 방식이다. 해당 문서에서 자주 사용될수록 사용 빈도(Term Frequency, TF)가 높아 가중치가 올라가지만, 해당 문서 이외의 여러 문서에서도 자주 언급이 되는 단어일수록 가중치가 낮아진다(Inverse Document Frequency, IDF). 이는 해당 문서 이외의 여러 문서에서도 언급이 자주되는 단어라면 일반적인 단어일 확률이 높기 때문에 해당 문서를 대표하는 단어로 부적합하기 때문이다.

이때, 특정 문서를 대표하는 대표 단어들은 해당 문서에서 나타나는 단어들 중 가중치가 높은 순으로 정렬될 수 있다. 여기서 가중치가 높은 단어는 우선 순위가 높은 단어로 지칭될 수도 있다. 특정 문서를 대표하는 대표 단어들은 해당 문서에서 나타나는 단어들 중 가중치가 높은 순서로 특정 개수, 또는 특정 비율의 단어들을 포함할 수 있다. 이때 특정 개수 또는 특정 비율은 실시예마다 다르게 적용될 수 있다.

여기서, 동일한 단어라고 하더라도 서로 연구 분야 또는 주제에서 차이가 있는 2개의 문서 각각에서 해당 단어의 가중치가 다를 수 있음은 자명하다. 예컨대, 특정 단어가 제1문서에서 가지는 가중치는 제2문서에서 가중치와 서로 다를 수 있다. 예컨대, 특정 단어가 제1문서에서 100회 출현하는 경우 제1문서에서 상기 특정 단어의 가중치는 100의 값을 가질 수 있다. 이에 반하여, 상기 특정 단어가 제2문서에서 50회 출현하는 경우 제2문서에서 상기 특정 단어의 가중치는 50의 값을 가질 수 있다. 이는 단순한 설명을 위한 것이며, 해당 문서에서 특정 단어의 가중치는 해당 단어의 출현 횟수뿐 아니라 다른 중요 단어들과의 관계에 따라 조정될 수 있다. 이때, 특정 문서로부터 추출되는 대표 단어들은 해당 문서의 주제 또는 연구 주제 등을 나타내는 중요한 용어들일 수 있다.

단계(S200)를 통해서, 기준 문서를 대표하는 복수의 기준 대표 단어들이 각각의 가중치와 함께 추출될 수 있다(S210). 또한, 복수개의 참조 문서 각각에 대해서 복수의 참조 대표 단어들이 각각의 가중치와 함께 추출될 수 있다.

다시 도1을 참조하여, 본 발명의 실시형태에 따른 문서 분석 방법은 기준 문서와 참조 문서 사이의 유사도를 추론하는 단계(S300)를 포함할 수 있다. S200에서 추출된 복수의 기준 대표 단어와 복수의 참조 대표 단어를 이용하여 상기 기준 문서와 상기 복수의 참조 대표 단어가 대표하는 해당 참조 문서 사이의 유사도를 추론할 수 있다(S300). 이러한 유사도를 추론하는 단계는 기준 문서와 수집된 복수개의 참조 문서 각각의 사이에 수행될 수 있다.

이하에서는 기준 문서와, 복수의 참조 문서 중 임의의 하나의 참조 문서 사이의 유사도를 추론하는 것을 예로서 기술하며, 이는 기준 문서와 다른 참조 문서 사이의 유사도 추론에도 동일하게 적용될 수 있다.

도3은 본 발명의 실시형태에 따른 문서간 유사도 측정 방식의 개념을 예시한다. 설명의 편의를 위해, 기준 문서는 이하에서 제1문서로 지칭되고 상기 기준 문서와의 유사도 추론 대상인 참조 문서는 제2문서로 지칭한다.

도3에 도시된 바와 같이, 제1문서의 대표 단어 각각이 특정 방향을 가지고 해당 가중치 값을 그 크기로 갖는 벡터로 표현되고 제2문서의 대표 단어 각각이 특정 방향을 가지고 해당 가중치 값을 그 크기로 갖는 벡터로 표현될 수 있다. 예컨대, 각 축은 대표 단어(W1, W2 및 W3)의 방향을 나타내고 이때 각 벡터의 크기는 대표 단어 각각이 제1문서와 제2문서에서 제1문서와 제2문서를 대표하는 정도인 가중치 값을 갖는다. 벡터의 값, 즉 벡터의 크기는 도3에서 화살표의 길이로 표현될 수 있다.

예컨대, W1의 제1문서(paper1)에서의 가중치 값을 그 크기로 갖는 벡터와 제2문서(paper2)에서의 가중치 값을 그 크기로 갖는 벡터가 동일 축 방향으로 평행하게 표시된다. 또한, W2의 제1문서에서의 가중치 값을 그 크기로 갖는 벡터와 제2문서에서의 가중치 값을 그 크기로 갖는 벡터가 동일 축 방향으로 평행하게 표시된다. 또한, W3의 제1문서에서의 가중치 값을 그 크기로 갖는 벡터와 제2문서에서의 가중치 값을 그 크기로 갖는 벡터가 동일 축 방향으로 평행하게 표시된다. 특정 단어의 벡터는 특정 방향을 가지고 각 문서에서의 가중치가 해당 벡터 값으로 표시될 수 있다. 동일 단어는 동일한 방향을 가진다. 만약 특정 대표 단어가 제1문서에는 포함되지만 제2문서에는 포함되지 않는 경우, 제2문서에 대한 해당 대표 단어를 나타내는 벡터는 0의 크기를 가지므로 존재하지 않는다. 도3에서는 각 대표 단어에 대한 벡터의 방향이 서로 직교(orthogonal)한 것을 예시하고 있으나, 이는 단지 실시예일 뿐이며 대표 단어 사이에 유사성을 가지는 경우 이러한 대표 단어를 나타내는 벡터의 방향이 직교할 필요는 없다.

이때, 제1문서의 모든 대표 단어 각각의 벡터의 합과 제2문서의 모든 대표 단어 각각의 벡터의 합 사이의 거리를 측정함으로써 제1문서와 제2문서 사이의 유사도가 추론될 수 있다. 즉, 제1문서의 벡터의 합은 특정 방향과 크기를 갖는 하나의 제1벡터로 표현될 수 있고 제2문서의 벡터의 합 또한 특정 방향과 크기를 갖는 하나의 제2벡터로 표현될 수 있다. 이때, 제1벡터와 제2벡터 사이의 거리가 짧을수록 제1문서와 제2문서 사이의 유사도가 높으며 거리가 멀수록 유사도가 낮다고 할 수 있다.

이외에도 제1문서와 제2문서 사이의 유사도는 아래와 같은 다양한 방법을 통해서, 제1 대표 단어와 제2 대표 단어 사이의 유사도를 측정함으로써 간접적으로 추론될 수 있다.

첫째, 복수의 제1대표 단어와 복수의 제2대표 단어 사이의 유사도의 측정은, 복수의 제1대표 단어와 복수의 제2대표 단어 사이의 공통된 단어에 대한 제1문서에서의 가중치와 제2문서에서의 가중치의 차이를 이용하여 측정될 수 있다. 첫째 방법에 따른 제1대표 단어와 제2대표 단어 사이의 유사도는 아래의 수식(1)에 따라 연산될 수 있다.

수식(1)

여기서, w1 내지 wn는 제1대표 단어와 제2대표 단어 모두에 공통된 단어들 각각의 제1문서에서의 가중치를 나타낸다. c1 내지 cn은, 가중치 값 w1 내지 wn에 해당하는 단어들 각각의 제2문서에서의 가중치를 나타낸다. 이와 같이 제1대표 단어와 제2대표 단어 중 공통된 단어들의 가중치 차이값을 각각 제곱하여 합한 후 해당 합의 값에 제곱근을 취함으로써, 제1대표 단어들과 제2대표단어들 사이의 유사도(Sall)를 연산할 수 있다. 둘째, 복수의 제1대표 단어와 복수의 제2대표 단어 사이의 유사도의 측정은, 복수의 제1대표 단어와 복수의 제2대표 단어 사이에 공통된 단어의 존재 유무를 검사함으로써 이루어질 수 있다. 이때, 제1대표 단어와 제2대표 단어 사이의 유사도는 아래의 수식(2)에 따라 연산될 수 있다.

수식(2)

여기서, n은 제2문서로부터 추출된 복수의 제2대표 단어의 개수를 나타낸다. 이때, 제2대표 단어 중 i번째 단어가 제1대표 단어 및 제2대표 단어에 공통적으로 존재하는 때 Si 값은 1의 값을 갖는다. 제2대표 단어 중 i번째 단어가 제2대표 단어에는 있지만 제1대표 단어에는 존재하지 않는 때 Si 값은 0의 값을 갖는다. 여기서, 제1대표 단어와 제2대표 단어 사이의 유사도(Sall) 값은 제1대표 단어와 제2대표 단어 사이의 공통된 단어의 개수의 값을 가질 수 있다. 다만, 실시예에 따라 제1문서에서의 공통된 단어의 가중치나 제2문서에서의 공통된 단어의 가중치를 추가로 부가하여 수치적으로 차별화된 유사도(Sall)를 연산할 수 있다.

마지막으로, 복수의 제1대표 단어와 복수의 제2대표 단어 사이의 유사도 측정은, 복수의 제1대표 단어와 복수의 제2대표 단어 사이의 공통된 단어에 대한 제1문서에서의 가중치와 제2문서에서의 가중치의 차이가 작을수록 더 큰 유사도를 갖도록 지수함수를 이용함으로써 이루어질 수 있다. 여기서, 제1대표 단어와 제2대표 단어 사이의 유사도는 아래의 수식(3)에 따라 연산될 수 있다.

수식(3)

여기서, n은 제1대표 단어와 제2대표 단어 사이의 공통된 단어의 개수를 나타낸다. σ는 유사도의 크기 배율을 조정하는 변수이다. σ의 값이 작게 설정되면 결과적인 유사도 값이 크게 나오며 이와 반대로 σ의 값이 크게 설정되면 유사도 값이 작게 나올 수 있다. 이러한 σ 값의 크기는 실시예에 따라 필요한 유사도 값의 스케일에 따라 설정될 수 있다. 수식(2)는 제1대표 단어와 제2대표 단어 사이의 공통된 단어들이 제1문서와 제2문서에서 유사한 가중치를 가지는 경우에 차별화된 유사도(Sall)를 측정하기 위해서 이용될 수 있다. 수식(2)에 따르면 지수함수를 적용하여 공통 단어의 제1문서에서의 가중치(wi)와 제2문서에서의 가중치(ci)가 비슷한 값을 가질수록 더 높은 유사도(Sall)가 계산될 수 있다.

또한, 이상에서 설명된 유사도 측정 방법은 하나 이상 서로 혼용하여 이용될 수 있다.

다시 도1을 참조하면, S300 단계에서 복수개의 참조 문서 각각과 기준 문서 사이의 유사도가 추론되며, 이후 S400 단계에서 복수개의 참조 문서 중 기준 문서와의 유사도가 높은 순서로 소정 개수의 참조 문서 리스트가 생성될 수 있다. 이에 따라, 기준 문서와 연구 분야 등에서 밀접한 관련이 있어 유사도가 높게 나타나는 참조 문서들의 리스트를 연구자가 확인할 수 있다. 이때, 참조 문서 리스트는 복수개의 참조 문서 전체를 유사도가 높은 순으로 정렬하여 포함할 수 있다. 또한, 사용자의 설정에 따라 참조 문서 리스트는 복수개의 참조 문서 중 기준 문서와 유사도가 높은 소정 개소의 참조 문서를 포함할 수 있다.

본 발명의 실시형태에 따른 문서 분석 방법은 프로그램 언어로 구현되어 컴퓨터에서 실행될 수 있다.

이상에서 살펴본 바와 같이, 본 발명의 실시형태에 따른 문서 분석 방법은 논문 검색 서비스에 유용하게 이용될 수 있다. 또한, 본 발명의 실시형태에 따르면 종래 키워드 기반 검색이 아닌 기초 논문을 기반으로 하여 참조 문헌 추적을 통해 검색을 수행하므로, 신뢰성이 강하고 기초 논문과 밀접한 논문들을 검색할 수 있으며 이를 통해 사용자에게 논문을 추천해줄 수 있다.

이상 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해되어야 하고, 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims

컴퓨터에 의해 수행되는 문서 분석 방법으로서,
참조 문헌 추적을 통하여 기준 문서에 대한 복수개의 참조 문서를 수집하는 단계;
상기 기준 문서로부터 복수의 기준 대표 단어를 추출하되, 상기 복수의 기준 대표 단어 각각에 대해서 상기 기준 문서를 대표하는 정도를 나타내는 가중치를 함께 추출하는 단계;
상기 복수개의 참조 문서 각각에 대해서 복수의 참조 대표 단어를 추출하되, 상기 복수의 참조 대표 단어 각각에 대해서 해당 참조 문서를 대표하는 정도를 나타내는 가중치를 함께 추출하는 단계;
상기 복수의 기준 대표 단어와 상기 복수의 참조 대표 단어를 이용하여 상기 기준 문서와 상기 복수의 참조 대표 단어가 대표하는 해당 참조 문서 사이의 유사도를 추론하는 단계를 포함하는,
문서 분석 방법.
제1항에 있어서,
상기 복수개의 참조 문서 중 상기 기준 문서와의 유사도가 높은 소정 개수의 참조 문서 리스트를 생성하는 단계를 더 포함하는 것을 특징으로 하는,
문서 분석 방법.
제1항에 있어서,
상기 복수개의 참조 문서는 최근 소정 시간 구간 동안의 문서만을 포함하는 것을 특징으로 하는,
문서 분석 방법.
제1항에 있어서,
상기 복수개의 참조 문서에 대해서 참조 문헌 네트워크를 통해 연결 네트워크가 생성되는 것을 특징으로 하는,
문서 분석 방법.
제1항에 있어서,
상기 복수의 기준 대표 단어 및 상기 복수의 참조 대표 단어의 추출은 TFIDF(Term Frequency Inverse Document Frequency) 기법을 이용하여 수행되는 것을 특징으로 하는,
문서 분석 방법.
제1항에 있어서,
상기 유사도를 추론하는 단계는:
상기 복수의 기준 대표 단어 각각을 해당 가중치 값을 그 크기로 갖는 벡터로 표현하고 그리고 상기 복수의 참조 대표 단어 각각을 해당 가중치 값을 그 크기로 갖는 벡터로 표현한 후,
상기 복수의 기준 대표 단어 각각의 벡터 합과 상기 복수의 참조 대표 단어 각각의 벡터 합 사이의 거리를 측정함으로써 수행되는 것을 특징으로 하는,
문서 분석 방법.
제1항 내지 제6항 중 어느 한 항에 따른 문서 분석 방법을 컴퓨터에 실행시키기 위한 프로그램을 저장한 컴퓨터 판독 가능 매체.