KR101413444B1 - 문서 분석 방법 - Google Patents

문서 분석 방법 Download PDF

Info

Publication number
KR101413444B1
KR101413444B1 KR1020130037441A KR20130037441A KR101413444B1 KR 101413444 B1 KR101413444 B1 KR 101413444B1 KR 1020130037441 A KR1020130037441 A KR 1020130037441A KR 20130037441 A KR20130037441 A KR 20130037441A KR 101413444 B1 KR101413444 B1 KR 101413444B1
Authority
KR
South Korea
Prior art keywords
document
representative words
words
documents
representative
Prior art date
Application number
KR1020130037441A
Other languages
English (en)
Inventor
최호진
김승석
정영섭
오교중
임채균
김준범
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020130037441A priority Critical patent/KR101413444B1/ko
Application granted granted Critical
Publication of KR101413444B1 publication Critical patent/KR101413444B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 문서 분석 방법은 참조 문헌 추적을 통하여 기준 문서에 대한 복수개의 참조 문서를 수집하는 단계; 상기 기준 문서로부터 복수의 기준 대표 단어를 추출하되, 상기 복수의 기준 대표 단어 각각에 대해서 상기 기준 문서를 대표하는 정도를 나타내는 가중치를 함께 추출하는 단계; 상기 복수개의 참조 문서 각각에 대해서 복수의 참조 대표 단어를 추출하되, 상기 복수의 참조 대표 단어 각각에 대해서 해당 참조 문서를 대표하는 정도를 나타내는 가중치를 함께 추출하는 단계; 상기 복수의 기준 대표 단어와 상기 복수의 참조 대표 단어를 이용하여 상기 기준 문서와 상기 복수의 참조 대표 단어가 대표하는 해당 참조 문서 사이의 유사도를 추론하는 단계를 포함한다.

Description

문서 분석 방법 {Document Analysis Method}
본 발명은 문서 분석 방법에 관한 것으로, 보다 구체적으로 기준 문서와 연관된 최근 동향의 문서들을 수집하고 기준 문서와 수집된 문서들 사이의 유사도를 측정하여 유용한 정보를 추출할 수 있는 기법에 관한 것이다.
인터넷의 급속한 발전과 함께 정보의 공유는 인류에 많은 혜택을 주었다. 컴퓨터와 인터넷의 발달을 통해 다양한 정보를 제공하거나 제공받을 수 있다. 전문 학술 단체의 학술지의 경우에도 온라인을 통한 논문 제공 및 구독을 가능하게 하고 있다.
엄청나게 폭증하는 정보량에 비해 인간의 정보 습득 능력에는 한계가 있는 바 다양한 정보 검색 기능에 대한 연구가 이루어지고 있다. 특히, 학술 논문은 텍스트(text: 문자)를 이용하는 경우가 대부분이다. 이러한 텍스트로 이루어진 자료의 처리가 유용한 텍스트 마이닝(text mining)에 관련된 연구가 활발하게 이루어지고 있다.
특히, 관심 분야에 대한 관련 논문을 검색하는 것은 연구자에게 중요한 과제이다. 관련 논문 조사는 논문을 작성할 때 필수적인 과정이며, 이 과정이 얼마나 잘 수행되었는지에 따라 이후 논문의 질이 좌우될 수 있다. 현재 인터넷을 통해 논문 검색이 이루어질 수 있으나 이를 모두 연구자가 읽고 내용을 파악하는 것은 매우 어려운 일이다.
따라서, 연구자가 원하는 관심 분야와 밀접한 논문을 신뢰도 높게 제공해줄 수 있는 기법에 대한 필요성이 야기되고 있다.
한국공개공보 제10-2010-0038378호 (2010.04.14)
본 발명은 종래의 필요성을 충족시키기 위해 안출된 것으로써, 관심 분야의 문서를 추출하고 특히 해당 관심 분야와 밀접한 문서를 제공할 수 있는 문서 분석 방법을 제공하기 위한 것이다.
본 발명이 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 본 발명의 기재로부터 당해 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 발명의 실시형태에 따른 문서 분석 방법은 참조 문헌 추적을 통하여 기준 문서에 대한 복수개의 참조 문서를 수집하는 단계; 상기 기준 문서로부터 복수의 기준 대표 단어를 추출하되, 상기 복수의 기준 대표 단어 각각에 대해서 상기 기준 문서를 대표하는 정도를 나타내는 가중치를 함께 추출하는 단계; 상기 복수개의 참조 문서 각각에 대해서 복수의 참조 대표 단어를 추출하되, 상기 복수의 참조 대표 단어 각각에 대해서 해당 참조 문서를 대표하는 정도를 나타내는 가중치를 함께 추출하는 단계; 상기 복수의 기준 대표 단어와 상기 복수의 참조 대표 단어를 이용하여 상기 기준 문서와 상기 복수의 참조 대표 단어가 대표하는 해당 참조 문서 사이의 유사도를 추론하는 단계를 포함한다.
본 발명의 실시형태에서, 상기 복수개의 참조 문서는 최근 소정 시간 구간 동안의 문서만을 포함할 수 있다.
본 발명의 실시형태에 따르면 관심 분야의 문서를 추출하고 특히 해당 관심 분야와 밀접한 문서를 제공할 수 있는 문서 분석 방법을 제공할 수 있다.
본 발명의 실시형태에 따르면, 관심 분야를 기준 문서로서 제공하여 이와 관련된 분야의 문서들을 참조 문헌 추적을 통하여 수집하고 이중 밀접한 논문들을 단어 유사도 기법을 통해서 제공할 수 있다.
본 발명의 실시형태에 따르면, 연구 분야에 속하는 각 논문마다 등장하는 단어들의 중요도와 참조 문헌 네트워크를 동시에 활용하여 많은 논문들을 직접 정독하지 않고도 연구자가 필요로 하는 정보를 획득할 수 있다.
본 발명의 실시형태에 따르면, 최근 논문으로부터 참조 문헌을 추적함으로써 최신 동향을 유지하면서 동일한 분야에 속하는 문헌들만을 추출할 수 있다.
본 발명의 실시형태에 따르면, 다의어, 동음 이의어 등으로 인해 야기되는 문제점을 내포하는 일반적인 키워드 방식의 논문 검색과 달리, 참조 문헌 추적을 통해 확실히 기준 논문과 연관된 논문들만을 수집할 수 있으므로 데이터 처리시에 적은 메모리를 소모하고 고속으로 수행할 수 있다.
도1은 본 발명의 실시형태에 따른 문서 분석 방법의 흐름도를 나타낸다.
도2는 본 발명의 실시형태에 따른 참조 문헌 네트워크를 예시한다.
도3은 본 발명의 실시형태에 따른 문서간 유사도 측정 방식의 개념을 예시한다.
이하, 본 발명의 바람직한 실시예의 상세한 설명이 첨부된 도면들을 참조하여 설명된다. 그러나, 본 발명의 실시형태는 여러 가지의 다른 형태로 변형될 수 있으며, 본 발명의 범위가 이하 설명하는 실시형태로만 한정되는 것은 아니다. 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있으며, 도면들 중 인용부호들 및 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 인용부호들로 표시됨을 유의해야 한다. 참고로 본 발명을 설명함에 있어서 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
도1은 본 발명의 실시형태에 따른 문서 분석 방법의 흐름도를 나타낸다. 도1에 도시된 바와 같이, 본 발명의 실시형태에 따른 문서 분석 방법은 참조 문헌 추적을 통하여 기준 문서에 대한 복수개의 참조 문서를 수집하는 단계(S100), 기준 문서로부터 복수의 기준 대표 단어를 추출하되, 상기 복수의 기준 대표 단어 각각에 대해서 상기 기준 문서를 대표하는 정도를 나타내는 가중치를 함께 추출하는 단계(S210), 복수개의 참조 문서 각각에 대해서 복수의 참조 대표 단어를 추출하되, 상기 복수의 참조 대표 단어 각각에 대해서 해당 참조 문서를 대표하는 정도를 나타내는 가중치를 함께 추출하는 단계(S220) 및 복수의 기준 대표 단어와 복수의 참조 대표 단어를 이용하여 상기 기준 문서와 상기 복수의 참조 대표 단어가 대표하는 해당 참조 문서 사이의 유사도를 추론하는 단계(S300)를 포함할 수 있다.
기준 문서 및/또는 참조 문서에서 문서는 글이나 기호와 같은 텍스트로 일정한 의사나 관념 또는 사상을 나타낸 것일 수 있다. 본 발명의 실시형태에서 독립된 문서는 특정 연구 주제에 대해서 작성된 논문일 수 있다. 본 발명의 실시형태에 따른 기준 문서는 해당 주제 분야를 파악하고 이와 유사도가 높은 문서를 찾기를 원하는 대상의 문서일 수 있다. 또한, 본 발명의 실시형태에 따라 기준 문서는 연구자가 연구 분야를 알기 원하는 관심 분야의 논문일 수 있다.
본 발명의 실시형태에서, 기준 문서에 대한 복수개의 참조 문서를 수집하는 단계(S100)는 참조 문헌 추적을 통하여 수행될 수 있다. 본 발명의 실시형태에서, 기준 문서 및 수집 대상이 되는 참조 문서는 각각 자신과 관련된 참조 문헌의 리스트를 해당 문서 내부 또는 관련 데이터 저장소에 포함하고 있을 수 있다. 예컨대, 기준 문서 내에는 기준 문서의 내용과 관련이 있는 참조 문헌의 리스트를 포함할 수 있다. 참조 문헌은 기준 문서 작성시에 인용된 문서일 수 있다.
특정 논문과 같은 문서에서 참조 문헌으로 인용된 논문과 해당 특정 논문 사이에는 연구 주제 간에 관련이 있는 것으로 추정될 수 있다. 따라서, 이러한 특성을 이용하여, 본 발명의 실시형태에서 기준 문서에 대한 참조 문서를 수집하는 단계(S100)는 참조 문헌 추적을 통해서 수행될 수 있다.
참조 문헌 추적을 통해서 기준 문서에 대한 복수의 참조 문서를 수집하는 과정은 아래와 같다. 첫 번째로, 복수의 참조 문서 집단으로서 기준 문서에서 인용된 제1 참조 문헌들이 수집될 수 있다. 두 번째로, 복수의 참조 문서 집단으로서 상기 제1참조 문헌들 각각에서 인용된 제2 참조 문헌들이 수집될 수 있다. 세 번째로, 복수의 참조 문서 집단으로서 상기 제2 참조 문헌들 각각에서 인용된 제3 참조 문헌들이 수집될 수 있다. 이러한 과정은 재귀적으로 반복적으로 수행될 수 있다. 즉, 제3 참조 문헌들에서 인용된 제4 참조 문헌들 및 그 이하의 참조 문헌들이 지속적으로 수집될 수 있다.
참조 문헌 추적을 통한 재귀적 참조 문서 수집의 수행 깊이는 실시형태에 따라 적절히 설정될 수 있다. 하나의 문서는 많은 수의 참조 문헌 목록을 지니며 각 참조 문헌은 또한 자신만의 참조 문헌 목록을 가질 수 있다. 따라서, 참조 문헌 네트워크는 기준 문서로부터 매우 큰 네트워크를 구성할 수 있으며 이는 수행 깊이에 따라 기하급수적으로 커지게 되기 때문이다.
본 발명의 실시형태에서, 수집 단계(S100)에서 수집된 복수개의 참조 문서에 대해서 참조 문헌 네트워크를 통해 연결 네트워크가 생성될 수 있다. 도2는 본 발명의 실시형태에 따른 참조 문헌 네트워크를 예시한다. 도2에서 기준 문서는 Paper로 표시되고 참조 문헌 추적은 수행 깊이 3까지 수행된 것을 예시한다.
도2에서, 기준 문서(Paper)에서 인용된 제1참조 문헌들이 R11 내지 R15로 표시되고, 제1참조 문헌들에서 인용된 제2참조 문헌들이 R21 내지 R211로 표시되고, 제2참조 문헌들에서 인용된 제3참조 문헌들이 R31 내지 R35로 표시된다. 도2에서는, 네트워크의 간소화를 위해, 제1참조 문헌 중 R11 내지 R13에 대해서만 인용된 문헌들이 제2참조 문헌들로 도시되고 제2참조 문헌 중 R21에 대해서만 인용된 문헌들이 제3참조 문헌들로 도시되고 있다.
이때, 도2에서는 R32는 R21에서 인용된 문서이면서 동시에 R11에서 인용된 문헌임이 표시되고, R33는 R21에서 인용된 문서이면서 동시에 기준 문서(Paper)에서 인용된 문서임이 표시된다. R25 및 R210의 경우에도 각각 두 개 이상의 문서에서 인용되고 있음이 표시되어 있다. 도2에 도시된 바와 같이, 참조 문서들 사이에 참조 문헌 네트워크를 이용하여 연결 네트워크를 생성함으로써 수집된 참조 문서들 사이의 관계를 용이하게 파악할 수 있다. 따라서, 사용자는 이하의 분석 과정을 거치지 않고도 직관적으로 기준 문서와 참조 문서 사이의 연관성을 파악할 수 있다.
본 발명의 실시형태에 따라, 참조 문서 수집 단계(S100)에서 수집되는 복수개의 참조 문서는 최근 소정 시간 구간 동안의 문서만을 포함할 수 있다. 예컨대, 참조 문서 수집(S100) 시에 최근 몇 년 동안에 발간된 논문들만이 참조 문서 수집의 대상이 되도록 함으로써 최신 동향을 유지하면서 참조 문서 집단을 수집할 수 있다.
이상에서 살펴본 바와 같이, 기준 문서에 대해서 참조 문헌 추적을 통하여 복수개의 참조 문서가 수집될 수 있다. 이러한 복수개의 참조 문서는 참조 문헌 네트워크로 구성되는 특정 주제 또는 연구분야의 군집을 생성한다. 예컨대, 참조 문서 집단을 통해 기준 문서와 관련있는 연구 분야가 생성될 수 있다. 예컨대, 생물정보학(bioinformatics)과 같은 넓은 개념 내에 포함되어 있는 기준 문서를 이용하여, 상기 기준 문서가 유전자 발현(gene expression) 또는 게놈 분석(genome analysis)과 같은 상기 생물정보학에 대한 하위의 연구 분야 중 어느 분야에 관련되어 있는지 확인할 수 있다.
본 발명의 실시형태에서, 기준 문서 및 참조 문서 각각에 대해서 대표 단어가 추출될 수 있다(S200). 대표 단어를 추출하는 단계(S200)는 기준 문서로부터 복수의 기준 대표 단어를 추출하는 단계(S210) 및 복수개의 참조 문서 각각에 대해서 복수의 참조 대표 단어를 추출하는 단계(S220)를 포함할 수 있다.
이때, 대표 단어들은 각 문서의 주제 또는 연구 주제를 나타내는 단어일 수 있다. 특정 문서에서 복수의 대표 단어를 추출하는 단계(S200)는 TFIDF(Term Frequency Inverse Document Frequency) 기법을 이용하여 수행될 수 있다. TFIDF는 하나의 문서에서 단어의 사용 빈도와 여러 문서에서 사용된 횟수 등을 가중하여 해당 문서에서 각 단어의 중요도를 평가하는 방식이다. 해당 문서에서 자주 사용될수록 사용 빈도(Term Frequency, TF)가 높아 가중치가 올라가지만, 해당 문서 이외의 여러 문서에서도 자주 언급이 되는 단어일수록 가중치가 낮아진다(Inverse Document Frequency, IDF). 이는 해당 문서 이외의 여러 문서에서도 언급이 자주되는 단어라면 일반적인 단어일 확률이 높기 때문에 해당 문서를 대표하는 단어로 부적합하기 때문이다.
이때, 특정 문서를 대표하는 대표 단어들은 해당 문서에서 나타나는 단어들 중 가중치가 높은 순으로 정렬될 수 있다. 여기서 가중치가 높은 단어는 우선 순위가 높은 단어로 지칭될 수도 있다. 특정 문서를 대표하는 대표 단어들은 해당 문서에서 나타나는 단어들 중 가중치가 높은 순서로 특정 개수, 또는 특정 비율의 단어들을 포함할 수 있다. 이때 특정 개수 또는 특정 비율은 실시예마다 다르게 적용될 수 있다.
여기서, 동일한 단어라고 하더라도 서로 연구 분야 또는 주제에서 차이가 있는 2개의 문서 각각에서 해당 단어의 가중치가 다를 수 있음은 자명하다. 예컨대, 특정 단어가 제1문서에서 가지는 가중치는 제2문서에서 가중치와 서로 다를 수 있다. 예컨대, 특정 단어가 제1문서에서 100회 출현하는 경우 제1문서에서 상기 특정 단어의 가중치는 100의 값을 가질 수 있다. 이에 반하여, 상기 특정 단어가 제2문서에서 50회 출현하는 경우 제2문서에서 상기 특정 단어의 가중치는 50의 값을 가질 수 있다. 이는 단순한 설명을 위한 것이며, 해당 문서에서 특정 단어의 가중치는 해당 단어의 출현 횟수뿐 아니라 다른 중요 단어들과의 관계에 따라 조정될 수 있다. 이때, 특정 문서로부터 추출되는 대표 단어들은 해당 문서의 주제 또는 연구 주제 등을 나타내는 중요한 용어들일 수 있다.
단계(S200)를 통해서, 기준 문서를 대표하는 복수의 기준 대표 단어들이 각각의 가중치와 함께 추출될 수 있다(S210). 또한, 복수개의 참조 문서 각각에 대해서 복수의 참조 대표 단어들이 각각의 가중치와 함께 추출될 수 있다.
다시 도1을 참조하여, 본 발명의 실시형태에 따른 문서 분석 방법은 기준 문서와 참조 문서 사이의 유사도를 추론하는 단계(S300)를 포함할 수 있다. S200에서 추출된 복수의 기준 대표 단어와 복수의 참조 대표 단어를 이용하여 상기 기준 문서와 상기 복수의 참조 대표 단어가 대표하는 해당 참조 문서 사이의 유사도를 추론할 수 있다(S300). 이러한 유사도를 추론하는 단계는 기준 문서와 수집된 복수개의 참조 문서 각각의 사이에 수행될 수 있다.
이하에서는 기준 문서와, 복수의 참조 문서 중 임의의 하나의 참조 문서 사이의 유사도를 추론하는 것을 예로서 기술하며, 이는 기준 문서와 다른 참조 문서 사이의 유사도 추론에도 동일하게 적용될 수 있다.
도3은 본 발명의 실시형태에 따른 문서간 유사도 측정 방식의 개념을 예시한다. 설명의 편의를 위해, 기준 문서는 이하에서 제1문서로 지칭되고 상기 기준 문서와의 유사도 추론 대상인 참조 문서는 제2문서로 지칭한다.
도3에 도시된 바와 같이, 제1문서의 대표 단어 각각이 특정 방향을 가지고 해당 가중치 값을 그 크기로 갖는 벡터로 표현되고 제2문서의 대표 단어 각각이 특정 방향을 가지고 해당 가중치 값을 그 크기로 갖는 벡터로 표현될 수 있다. 예컨대, 각 축은 대표 단어(W1, W2 및 W3)의 방향을 나타내고 이때 각 벡터의 크기는 대표 단어 각각이 제1문서와 제2문서에서 제1문서와 제2문서를 대표하는 정도인 가중치 값을 갖는다. 벡터의 값, 즉 벡터의 크기는 도3에서 화살표의 길이로 표현될 수 있다.
예컨대, W1의 제1문서(paper1)에서의 가중치 값을 그 크기로 갖는 벡터와 제2문서(paper2)에서의 가중치 값을 그 크기로 갖는 벡터가 동일 축 방향으로 평행하게 표시된다. 또한, W2의 제1문서에서의 가중치 값을 그 크기로 갖는 벡터와 제2문서에서의 가중치 값을 그 크기로 갖는 벡터가 동일 축 방향으로 평행하게 표시된다. 또한, W3의 제1문서에서의 가중치 값을 그 크기로 갖는 벡터와 제2문서에서의 가중치 값을 그 크기로 갖는 벡터가 동일 축 방향으로 평행하게 표시된다. 특정 단어의 벡터는 특정 방향을 가지고 각 문서에서의 가중치가 해당 벡터 값으로 표시될 수 있다. 동일 단어는 동일한 방향을 가진다. 만약 특정 대표 단어가 제1문서에는 포함되지만 제2문서에는 포함되지 않는 경우, 제2문서에 대한 해당 대표 단어를 나타내는 벡터는 0의 크기를 가지므로 존재하지 않는다. 도3에서는 각 대표 단어에 대한 벡터의 방향이 서로 직교(orthogonal)한 것을 예시하고 있으나, 이는 단지 실시예일 뿐이며 대표 단어 사이에 유사성을 가지는 경우 이러한 대표 단어를 나타내는 벡터의 방향이 직교할 필요는 없다.
이때, 제1문서의 모든 대표 단어 각각의 벡터의 합과 제2문서의 모든 대표 단어 각각의 벡터의 합 사이의 거리를 측정함으로써 제1문서와 제2문서 사이의 유사도가 추론될 수 있다. 즉, 제1문서의 벡터의 합은 특정 방향과 크기를 갖는 하나의 제1벡터로 표현될 수 있고 제2문서의 벡터의 합 또한 특정 방향과 크기를 갖는 하나의 제2벡터로 표현될 수 있다. 이때, 제1벡터와 제2벡터 사이의 거리가 짧을수록 제1문서와 제2문서 사이의 유사도가 높으며 거리가 멀수록 유사도가 낮다고 할 수 있다.
이외에도 제1문서와 제2문서 사이의 유사도는 아래와 같은 다양한 방법을 통해서, 제1 대표 단어와 제2 대표 단어 사이의 유사도를 측정함으로써 간접적으로 추론될 수 있다.
첫째, 복수의 제1대표 단어와 복수의 제2대표 단어 사이의 유사도의 측정은, 복수의 제1대표 단어와 복수의 제2대표 단어 사이의 공통된 단어에 대한 제1문서에서의 가중치와 제2문서에서의 가중치의 차이를 이용하여 측정될 수 있다. 첫째 방법에 따른 제1대표 단어와 제2대표 단어 사이의 유사도는 아래의 수식(1)에 따라 연산될 수 있다.
Figure 112013029852600-pat00001
수식(1)
여기서, w1 내지 wn는 제1대표 단어와 제2대표 단어 모두에 공통된 단어들 각각의 제1문서에서의 가중치를 나타낸다. c1 내지 cn은, 가중치 값 w1 내지 wn에 해당하는 단어들 각각의 제2문서에서의 가중치를 나타낸다. 이와 같이 제1대표 단어와 제2대표 단어 중 공통된 단어들의 가중치 차이값을 각각 제곱하여 합한 후 해당 합의 값에 제곱근을 취함으로써, 제1대표 단어들과 제2대표단어들 사이의 유사도(Sall)를 연산할 수 있다. 둘째, 복수의 제1대표 단어와 복수의 제2대표 단어 사이의 유사도의 측정은, 복수의 제1대표 단어와 복수의 제2대표 단어 사이에 공통된 단어의 존재 유무를 검사함으로써 이루어질 수 있다. 이때, 제1대표 단어와 제2대표 단어 사이의 유사도는 아래의 수식(2)에 따라 연산될 수 있다.
Figure 112013029852600-pat00002
수식(2)
여기서, n은 제2문서로부터 추출된 복수의 제2대표 단어의 개수를 나타낸다. 이때, 제2대표 단어 중 i번째 단어가 제1대표 단어 및 제2대표 단어에 공통적으로 존재하는 때 Si 값은 1의 값을 갖는다. 제2대표 단어 중 i번째 단어가 제2대표 단어에는 있지만 제1대표 단어에는 존재하지 않는 때 Si 값은 0의 값을 갖는다. 여기서, 제1대표 단어와 제2대표 단어 사이의 유사도(Sall) 값은 제1대표 단어와 제2대표 단어 사이의 공통된 단어의 개수의 값을 가질 수 있다. 다만, 실시예에 따라 제1문서에서의 공통된 단어의 가중치나 제2문서에서의 공통된 단어의 가중치를 추가로 부가하여 수치적으로 차별화된 유사도(Sall)를 연산할 수 있다.
마지막으로, 복수의 제1대표 단어와 복수의 제2대표 단어 사이의 유사도 측정은, 복수의 제1대표 단어와 복수의 제2대표 단어 사이의 공통된 단어에 대한 제1문서에서의 가중치와 제2문서에서의 가중치의 차이가 작을수록 더 큰 유사도를 갖도록 지수함수를 이용함으로써 이루어질 수 있다. 여기서, 제1대표 단어와 제2대표 단어 사이의 유사도는 아래의 수식(3)에 따라 연산될 수 있다.
Figure 112013029852600-pat00003
수식(3)
여기서, n은 제1대표 단어와 제2대표 단어 사이의 공통된 단어의 개수를 나타낸다. σ는 유사도의 크기 배율을 조정하는 변수이다. σ의 값이 작게 설정되면 결과적인 유사도 값이 크게 나오며 이와 반대로 σ의 값이 크게 설정되면 유사도 값이 작게 나올 수 있다. 이러한 σ 값의 크기는 실시예에 따라 필요한 유사도 값의 스케일에 따라 설정될 수 있다. 수식(2)는 제1대표 단어와 제2대표 단어 사이의 공통된 단어들이 제1문서와 제2문서에서 유사한 가중치를 가지는 경우에 차별화된 유사도(Sall)를 측정하기 위해서 이용될 수 있다. 수식(2)에 따르면 지수함수를 적용하여 공통 단어의 제1문서에서의 가중치(wi)와 제2문서에서의 가중치(ci)가 비슷한 값을 가질수록 더 높은 유사도(Sall)가 계산될 수 있다.
또한, 이상에서 설명된 유사도 측정 방법은 하나 이상 서로 혼용하여 이용될 수 있다.
다시 도1을 참조하면, S300 단계에서 복수개의 참조 문서 각각과 기준 문서 사이의 유사도가 추론되며, 이후 S400 단계에서 복수개의 참조 문서 중 기준 문서와의 유사도가 높은 순서로 소정 개수의 참조 문서 리스트가 생성될 수 있다. 이에 따라, 기준 문서와 연구 분야 등에서 밀접한 관련이 있어 유사도가 높게 나타나는 참조 문서들의 리스트를 연구자가 확인할 수 있다. 이때, 참조 문서 리스트는 복수개의 참조 문서 전체를 유사도가 높은 순으로 정렬하여 포함할 수 있다. 또한, 사용자의 설정에 따라 참조 문서 리스트는 복수개의 참조 문서 중 기준 문서와 유사도가 높은 소정 개소의 참조 문서를 포함할 수 있다.
본 발명의 실시형태에 따른 문서 분석 방법은 프로그램 언어로 구현되어 컴퓨터에서 실행될 수 있다.
이상에서 살펴본 바와 같이, 본 발명의 실시형태에 따른 문서 분석 방법은 논문 검색 서비스에 유용하게 이용될 수 있다. 또한, 본 발명의 실시형태에 따르면 종래 키워드 기반 검색이 아닌 기초 논문을 기반으로 하여 참조 문헌 추적을 통해 검색을 수행하므로, 신뢰성이 강하고 기초 논문과 밀접한 논문들을 검색할 수 있으며 이를 통해 사용자에게 논문을 추천해줄 수 있다.
이상 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해되어야 하고, 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (7)

  1. 컴퓨터에 의해 수행되는 문서 분석 방법으로서,
    참조 문헌 추적을 통하여 기준 문서에 대한 복수개의 참조 문서를 수집하는 단계;
    상기 기준 문서로부터 복수의 기준 대표 단어를 추출하되, 상기 복수의 기준 대표 단어 각각에 대해서 상기 기준 문서를 대표하는 정도를 나타내는 가중치를 함께 추출하는 단계;
    상기 복수개의 참조 문서 각각에 대해서 복수의 참조 대표 단어를 추출하되, 상기 복수의 참조 대표 단어 각각에 대해서 해당 참조 문서를 대표하는 정도를 나타내는 가중치를 함께 추출하는 단계;
    상기 복수의 기준 대표 단어와 상기 복수의 참조 대표 단어를 이용하여 상기 기준 문서와 상기 복수의 참조 대표 단어가 대표하는 해당 참조 문서 사이의 유사도를 추론하는 단계를 포함하는,
    문서 분석 방법.
  2. 제1항에 있어서,
    상기 복수개의 참조 문서 중 상기 기준 문서와의 유사도가 높은 소정 개수의 참조 문서 리스트를 생성하는 단계를 더 포함하는 것을 특징으로 하는,
    문서 분석 방법.
  3. 제1항에 있어서,
    상기 복수개의 참조 문서는 최근 소정 시간 구간 동안의 문서만을 포함하는 것을 특징으로 하는,
    문서 분석 방법.
  4. 제1항에 있어서,
    상기 복수개의 참조 문서에 대해서 참조 문헌 네트워크를 통해 연결 네트워크가 생성되는 것을 특징으로 하는,
    문서 분석 방법.
  5. 제1항에 있어서,
    상기 복수의 기준 대표 단어 및 상기 복수의 참조 대표 단어의 추출은 TFIDF(Term Frequency Inverse Document Frequency) 기법을 이용하여 수행되는 것을 특징으로 하는,
    문서 분석 방법.
  6. 제1항에 있어서,
    상기 유사도를 추론하는 단계는:
    상기 복수의 기준 대표 단어 각각을 해당 가중치 값을 그 크기로 갖는 벡터로 표현하고 그리고 상기 복수의 참조 대표 단어 각각을 해당 가중치 값을 그 크기로 갖는 벡터로 표현한 후,
    상기 복수의 기준 대표 단어 각각의 벡터 합과 상기 복수의 참조 대표 단어 각각의 벡터 합 사이의 거리를 측정함으로써 수행되는 것을 특징으로 하는,
    문서 분석 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 따른 문서 분석 방법을 컴퓨터에 실행시키기 위한 프로그램을 저장한 컴퓨터 판독 가능 매체.
KR1020130037441A 2013-04-05 2013-04-05 문서 분석 방법 KR101413444B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130037441A KR101413444B1 (ko) 2013-04-05 2013-04-05 문서 분석 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130037441A KR101413444B1 (ko) 2013-04-05 2013-04-05 문서 분석 방법

Publications (1)

Publication Number Publication Date
KR101413444B1 true KR101413444B1 (ko) 2014-07-01

Family

ID=51740738

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130037441A KR101413444B1 (ko) 2013-04-05 2013-04-05 문서 분석 방법

Country Status (1)

Country Link
KR (1) KR101413444B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101629210B1 (ko) * 2015-01-30 2016-06-13 인하대학교 산학협력단 온라인 서비스가 가능한 참고문헌 인용부호 자동부착 지원 시스템 및 서비스 제공 방법
KR20180042710A (ko) * 2016-10-18 2018-04-26 삼성에스디에스 주식회사 유사도 분석 기반 이음 동의 항목 관리 방법 및 장치
KR20190081622A (ko) * 2017-12-29 2019-07-09 건국대학교 산학협력단 유사성 판단 방법 및 그 장치
KR20200063841A (ko) * 2018-11-28 2020-06-05 삼성생명보험주식회사 문서 이미지로부터 인식된 용어를 표준화하기 위한 방법
KR20230079967A (ko) 2021-11-29 2023-06-07 주식회사 위고 문서 자동분류를 위한 점수산정 장치 및 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030039576A (ko) * 2001-11-13 2003-05-22 주식회사 포스코 유사성 판단을 위한 예제기반 검색 방법 및 검색 시스템
KR101033611B1 (ko) * 2010-07-09 2011-05-11 한국과학기술정보연구원 참고 문헌 적합성 판정 시스템 및 방법
KR20110117440A (ko) * 2010-04-21 2011-10-27 엔에이치엔(주) 문서 간 유사도 계산 시스템 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030039576A (ko) * 2001-11-13 2003-05-22 주식회사 포스코 유사성 판단을 위한 예제기반 검색 방법 및 검색 시스템
KR20110117440A (ko) * 2010-04-21 2011-10-27 엔에이치엔(주) 문서 간 유사도 계산 시스템 및 방법
KR101033611B1 (ko) * 2010-07-09 2011-05-11 한국과학기술정보연구원 참고 문헌 적합성 판정 시스템 및 방법

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101629210B1 (ko) * 2015-01-30 2016-06-13 인하대학교 산학협력단 온라인 서비스가 가능한 참고문헌 인용부호 자동부착 지원 시스템 및 서비스 제공 방법
KR20180042710A (ko) * 2016-10-18 2018-04-26 삼성에스디에스 주식회사 유사도 분석 기반 이음 동의 항목 관리 방법 및 장치
KR102476812B1 (ko) 2016-10-18 2022-12-09 삼성에스디에스 주식회사 유사도 분석 기반 이음 동의 항목 관리 방법 및 장치
KR20190081622A (ko) * 2017-12-29 2019-07-09 건국대학교 산학협력단 유사성 판단 방법 및 그 장치
KR102073686B1 (ko) 2017-12-29 2020-02-05 건국대학교 산학협력단 유사성 판단 방법 및 그 장치
KR20200063841A (ko) * 2018-11-28 2020-06-05 삼성생명보험주식회사 문서 이미지로부터 인식된 용어를 표준화하기 위한 방법
KR102145858B1 (ko) 2018-11-28 2020-08-19 삼성생명보험주식회사 문서 이미지로부터 인식된 용어를 표준화하기 위한 방법
KR20230079967A (ko) 2021-11-29 2023-06-07 주식회사 위고 문서 자동분류를 위한 점수산정 장치 및 방법

Similar Documents

Publication Publication Date Title
Hasan et al. Normalized approach to find optimal number of topics in Latent Dirichlet Allocation (LDA)
Alfaro et al. Bayes or bootstrap? A simulation study comparing the performance of Bayesian Markov chain Monte Carlo sampling and bootstrapping in assessing phylogenetic confidence
KR101413444B1 (ko) 문서 분석 방법
Ivanović et al. Independent publications from Serbia in the Science Citation Index Expanded: a bibliometric analysis
JP2008234338A (ja) 旬度解析システム、旬度解析方法、及び旬度解析プログラム
Wolcott et al. Modeling time-dependent and-independent indicators to facilitate identification of breakthrough research papers
Strbenac et al. ClassifyR: an R package for performance assessment of classification with applications to transcriptomics
Jiang et al. Integrating image caption information into biomedical document classification in support of biocuration
Rattray et al. Propagating uncertainty in microarray data analysis
Potharaju et al. A novel LtR and RtL framework for subset feature selection (reduction) for improving the classification accuracy
Bach et al. Cost-sensitive feature selection for class imbalance problem
KR101399272B1 (ko) 문서의 유사도 추론방법
Cao et al. Effective mashup service clustering method by exploiting LDA topic model from multiple data sources
Alexander et al. Capturing discrete latent structures: choose LDs over PCs
El-shafeiy et al. Medical imbalanced data classification based on random forests
JP5361090B2 (ja) 話題語獲得装置、方法、及びプログラム
Singer et al. HypTrails: a Bayesian approach for comparing hypotheses about human trails
Chen et al. Kernel tests for one, two, and k-sample goodness-of-fit: state of the art and implementation considerations
Thakur et al. An improved dictionary based genre classification based on title and abstract of e-book using machine learning algorithms
Wishkerman et al. DiaCurv: a value-based curvature analysis application in diatom taxonomy
Kölbl et al. Obtaining More Specific Topics and Detecting Weak Signals by Topic Word Selection
Mungloo-Dilmohamud et al. A meta-review of feature selection techniques in the context of microarray data
JP6025796B2 (ja) 行動予測装置、行動予測方法及びプログラム
Patel et al. Comparative analytical study for news text classification techniques applied for stock market price extrapolation
CN112148865B (zh) 信息推送方法和装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170530

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180525

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190603

Year of fee payment: 6