KR100837751B1 - 문서 집합을 기반으로 단어 간의 연관도를 측정하는 방법및 상기 방법을 수행하는 시스템 - Google Patents

문서 집합을 기반으로 단어 간의 연관도를 측정하는 방법및 상기 방법을 수행하는 시스템 Download PDF

Info

Publication number
KR100837751B1
KR100837751B1 KR1020060126272A KR20060126272A KR100837751B1 KR 100837751 B1 KR100837751 B1 KR 100837751B1 KR 1020060126272 A KR1020060126272 A KR 1020060126272A KR 20060126272 A KR20060126272 A KR 20060126272A KR 100837751 B1 KR100837751 B1 KR 100837751B1
Authority
KR
South Korea
Prior art keywords
word
frequency
document
association
measuring
Prior art date
Application number
KR1020060126272A
Other languages
English (en)
Inventor
송기호
김병학
김민욱
곽태영
Original Assignee
엔에이치엔(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엔에이치엔(주) filed Critical 엔에이치엔(주)
Priority to KR1020060126272A priority Critical patent/KR100837751B1/ko
Priority to JP2007314279A priority patent/JP2008146648A/ja
Priority to US11/953,769 priority patent/US8407233B2/en
Application granted granted Critical
Publication of KR100837751B1 publication Critical patent/KR100837751B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Algebra (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

본 발명은 문서 집합을 기반으로 단어 간의 연관도를 측정하는 방법 및 상기 방법을 수행하는 시스템에 관한 것이다. 본 발명에 따른 문서 집합을 기반으로 단어 간의 연관도를 측정하는 방법은, 문서 집합이 포함하는 단어, 문서, 상기 단어에 대한 단어분류 또는 상기 문서에 대한 문서분류를 통해 단어 통계 정보를 획득하는 단계, 상기 단어 통계 정보를 정형화하는 단계 및 상기 정형화된 단어 통계 정보에 기초하여 상기 단어 간의 단어 연관도를 측정하는 단계를 포함한다.
단어 연관도, 벡터, 랜덤변수, 결합확률분포, 상호정보

Description

문서 집합을 기반으로 단어 간의 연관도를 측정하는 방법 및 상기 방법을 수행하는 시스템{METHOD FOR MEASURING RELEVANCE BETWEEN WORDS BASED ON DOCUMENT SET AND SYSTEM FOR EXECUTING THE METHOD}
도 1은 본 발명의 제1 실시예에 있어서, 문서 집합을 기반으로 단어 간의 연관도를 측정하는 방법을 도시한 흐름도이다.
도 2는 발생빈도를 설명하기 위한 일례이다.
도 3은 교차빈도를 설명하기 위한 일례이다.
도 4는 단어-문서분류 발생빈도를 설명하기 위한 일례이다.
도 5는 문서빈도 및 문서분류빈도를 설명하기 위한 일례이다.
도 6은 단어-단어분류 교차빈도를 설명하기 위한 일례이다.
도 7은 단어-단어 결합빈도를 설명하기 위한 일례이다.
도 8은 본 발명의 제2 실시예에 있어서, 문서 집합을 기반으로 단어 간의 연관도를 측정하는 방법을 도시한 흐름도이다.
도 9는 본 발명의 제3 실시예에 있어서, 문서 집합을 기반으로 단어 간의 연관도를 측정하는 방법을 도시한 흐름도이다.
도 10은 본 발명의 제4 실시예에 있어서, 문서 집합을 기반으로 단어 간의 연관도를 측정하는 방법을 도시한 흐름도이다.
도 11은 상호정보를 설명하기 위한 일례이다.
도 12는 사건별 상호정보를 설명하기 위한 일례이다.
도 13은 본 발명의 제5 실시예에 있어서, 문서 집합을 기반으로 단어 간의 연관도를 측정하는 방법을 도시한 흐름도이다.
도 14는 다양한 방법으로 측정된 단어 연관도에 대한 일례이다.
도 15는 본 발명의 제6 실시예에 있어서, 단어 연관도 측정 시스템의 내부 구성을 설명하기 위한 블록도이다.
<도면의 주요 부분에 대한 부호의 설명>
1500: 단어 연관도 측정 시스템
1501: 단어 통계 정보 획득부
1502: 정형화부
1503: 단어 연관도 측정부
본 발명은 문서 집합을 기반으로 단어 간의 연관도를 측정하는 방법 및 상기 방법을 수행하는 시스템에 관한 것으로, 더욱 자세하게는 상기 문서 집합의 단어들을 다양한 종류의 특징에 따라 빈도를 측정하여 단어 통계 정보를 획득 및 정형화하여 상기 정형화된 단어 통계 정보에 기초한 단어 연관도를 측정함으로써 상기 단어들간의 연관도를 수치화하는 방법 및 상기 방법을 수행하는 시스템에 관한 것이 다.
일반적으로 사람은 사용되는 단어 간의 의미 관계를 직관적으로 파악할 수 있는 능력이 있다. 예를 들어, ‘축구화’와 ‘축구공’간에는 서로 밀접한 관계가 있지만, ‘축구화’와 ‘자동차’간에는 특별한 관계가 없음을 알 수 있다. 그렇기 때문에 사람들은 문서를 읽는 과정에서 이러한 문서가 어떤 단어와 연관되어 있는지를 알 수 있고, 심지어 이는 연관된 단어가 문서 내에 포함되어 있지 않은 경우에도 문서를 통해 연관된 단어를 떠올릴 수 있게 한다.
그러나 너무나 당연하게도 검색엔진 등의 컴퓨터 시스템에서는 이러한 단어 간의 의미 관계를 파악할 수 없기 때문에 어떠한 문서 집합에 대해 단어 또는 문서를 분류하는 작업은 사람의 손을 거치지 않고서는 수행되기 불가능하고, 질의어에 대해 문서 집합에서 특정 문서를 검색하는 경우에도 질의어와 특별한 관련이 없는 즉, 단순히 질의어를 포함하기만 하는 문서를 검색 결과로서 제공하는 문제점이 있다.
만약, 이러한 단어들간의 연관된 정도를 수치화할 수 있다면 컴퓨터 시스템에서도 이러한 단어 연관도에 기초하여 단어 또는 문서를 분류할 수 있고, 문서 검색 등에 이용될 수 있다. 예를 들어, ‘축구화’와 ‘축구공’ 사이의 단어 연관도를 0.95로, ‘축구화’와 ‘나이키’간의 단어 연관도를 0.3으로 또는 ‘축구화’와 ‘자동차’간의 단어 연관도를 0.001로 설정할 수 있다.
그러나 단어 연관도를 사람들이 직접 결정하기에 그 분량이 너무나 광대하고, 사람에 의해 결정된 단어 연관도는 결정 단계에서 사람의 주관적인 개념이 포 함되어 객관적이지 못하다는 문제점이 있다. 예를 들어, 20만개의 단어에 대해 400억 개의 단어 연관도가 결정되어야 하기 때문에 초당 1개씩 단어 연관도를 결정할 수 있다 하더라도 400억 초(1268년)라는 엄청난 시간이 소요되고, ‘자동차’와 ‘현대자동차’ 사이의 단어 연관도를 몇으로 할 것인지에 대해서 객관적인 결정을 하기 어렵기 때문에 결정된 단어 연관도를 신뢰할 수 없다.
즉, 빠르고 객관적으로 단어 간의 단어 연관도를 측정할 수 있는 방법 및 시스템이 절실히 요구된다.
본 발명은 상기와 같은 종래기술의 문제점을 해결하기 위해, 문서 집합을 기반으로 단어 간의 연관도를 측정하는 방법 및 상기 방법을 수행하는 시스템에 관한 새로운 기술을 제안한다.
본 발명은 자동으로 문서 집합이 포함하는 단어 또는 문서를 분류하거나 질의어를 통한 문서 검색을 더욱 효율적으로 수행하기 위해 단어 사이의 관계를 수치화한 단어 연관도를 측정하는 것을 목적으로 한다.
본 발명의 다른 목적은 상기 문서 집합과 연관된 단어, 문서, 단어분류 또는 문서분류간의 다양한 특징에 따른 빈도를 측정하여 단어 통계 정보를 생성하고 벡터, 랜덤변수, 결합확률분포 등을 이용하여 상기 단어 통계 정보를 정형화하고 해석함으로써, 상기 단어 사이의 관계에 대해 수치화된 단어 연관도를 측정하는 것이다.
본 발명의 또 다른 목적은 상기 단어 간의 교차빈도를 이산 랜덤변수 집합으 로 이용하여 상기 단어 간의 서로 비대칭적인 단어 연관도를 측정하는 것이다.
상기의 목적을 달성하고, 상술한 종래기술의 문제점을 해결하기 위하여, 본 발명의 일실시예에 따른 문서 집합을 기반으로 단어 간의 연관도를 측정하는 방법은, 문서 집합이 포함하는 단어, 문서, 상기 단어에 대한 단어분류 또는 상기 문서에 대한 문서분류를 통해 단어 통계 정보를 획득하는 단계, 상기 단어 통계 정보를 정형화하는 단계 및 상기 정형화된 단어 통계 정보에 기초하여 상기 단어 간의 단어 연관도를 측정하는 단계를 포함한다.
본 발명의 일측에 따르면, 문서 집합이 포함하는 단어, 문서, 상기 단어에 대한 단어분류 또는 상기 문서에 대한 문서분류를 통해 단어 통계 정보를 획득하는 상기 단계는 상기 단어마다 상기 단어가 등장한 횟수인 발생빈도를 측정하는 단계, 상기 단어가 다른 단어와 같이 등장한 문서의 개수인 교차빈도를 상기 단어마다 측정하는 단계, 상기 발생빈도 또는 상기 교차빈도에 기초하여 빈도 정보를 생성하는 단계 및 상기 발생빈도, 상기 교차빈도 또는 상기 빈도 정보를 상기 단어 통계 정보로서 획득하는 단계를 포함할 수 있다.
본 발명의 다른 측면에 따르면, 상기 발생빈도 또는 상기 교차빈도에 기초하여 빈도 정보를 생성하는 상기 단계는, 상기 발생빈도 또는 상기 교차빈도를 통해 단어-문서분류 발생빈도, 문서빈도, 문서분류빈도, 단어-단어분류 교차빈도 또는 단어-단어 결합빈도를 상기 빈도 정보로서 생성하는 단계일 수 있다.
본 발명의 또 다른 측면에 따르면, 상기 단어-문서분류 발생빈도는 상기 단 어마다 상기 문서분류에 속하는 문서에 등장한 횟수일 수 있다.
본 발명의 다른 실시예에 있어서, 문서 집합을 기반으로 단어 간의 연관도를 측정하는 방법은, 문서 집합이 포함하는 단어, 문서, 상기 단어에 대한 단어분류 또는 상기 문서에 대한 문서분류를 통해 단어 통계 정보를 획득하는 단계, 상기 단어 통계 정보를 다차원 벡터 집합으로 정형화하는 단계 및 상기 다차원 벡터 집합을 통해 상기 단어 간의 단어 연관도를 측정하는 단계를 포함한다.
이하 첨부된 도면을 참조하여 본 발명에 따른 다양한 실시예를 상세히 설명하기로 한다.
도 1은 본 발명의 제1 실시예에 있어서, 문서 집합을 기반으로 단어 간의 연관도를 측정하는 방법을 도시한 흐름도이다.
단계(S101)에서 단어 간의 연관도를 측정하는 단어 연관도 측정 시스템은 문서 집합이 포함하는 단어, 문서, 상기 단어에 대한 단어분류 또는 상기 문서에 대한 문서분류를 통해 단어 통계 정보를 획득한다.
이때, 상기 단어분류 및 상기 문서분류는 기선정된(predetermined) 분류 방식을 이용하여 분류된 상기 문서 집합이 포함하는 상기 단어 또는 상기 문서의 집합을 의미할 수 있다.
이러한 단계(S101)에서 상기 단어 연관도 측정 시스템은 상기 단어마다 상기 단어가 등장한 횟수인 발생빈도를 측정하고, 상기 단어가 다른 단어와 같이 등장한 문서의 개수인 교차빈도를 상기 단어마다 측정한다.
도 2는 상기 발생빈도를 설명하기 위한 일례이고, 도 3은 상기 교차빈도를 설명하기 위한 일례이다.
도면부호(200)는 문서 집합이 포함하는 7개의 문서(문서1 내지 문서7)와 4개의 단어(단어1 내지 단어4) 간의 발생빈도를 나타내고 있다. 예를 들어, 상기 단어4는 상기 문서5에 도면부호(201)에서와 같이 5번 등장함을 알 수 있다. 즉, 상기 단어4의 상기 문서5에 대한 상기 발생빈도는 5임을 알 수 있다.
도면부호(300)는 상기 단어1 내지 상기 단어4간의 교차빈도를 나타내는 일례로서 상기 단어1 내지 상기 단어4간에 같이 등장하는 문서의 개수를 도시하고 있다. 예를 들어, 상기 단어3 및 상기 단어4가 함께 등장하는 문서의 개수는 도면부호(301)에서와 같이 3개이다. 즉, 상기 단어3 및 상기 단어4에 대한 교차빈도가 3임을 알 수 있다.
또한, 상기 단어 연관도 측정 시스템은 이러한 상기 발생빈도 또는 상기 교차빈도에 기초하여 빈도 정보를 생성하고, 상기 발생빈도, 상기 교차빈도 또는 상기 빈도 정보를 상기 단어 통계 정보로서 획득한다. 이때, 상기 단어 연관도 측정 시스템은 상기 발생빈도 또는 상기 교차빈도를 통해 단어-문서분류 발생빈도, 문서빈도, 문서분류빈도, 단어-단어분류 교차빈도 및 단어-단어 결합빈도를 상기 빈도 정보로서 생성할 수 있다. 이러한 빈도 정보에 대해서는 위에서 설명한 도 2 및 도 3과 다음 도 4 내지 도 7을 통해 더욱 자세히 설명한다.
도 4는 단어-문서분류 발생빈도를 설명하기 위한 일례이다. 이때, 상기 단어-문서분류 발생빈도는 상기 단어마다 상기 문서분류에 속하는 문서에 등장한 횟수로서, 상기 발생빈도에 기초하여 생성될 수 있다.
도면부호(400)에 도시된 문서분류1은 상기 문서분류로서 도 2에서 설명한 문서1 내지 문서4를 포함하고, 문서분류2는 도 2에서 설명한 문서5 내지 문서7을 포함한다. 이때, 도면부호(400)는 도 2에 도시된 단어1 내지 단어4가 문서분류1 및 문서분류2에 등장하는 횟수를 상기 단어-문서분류 발생빈도로서 나타내고 있다.
예를 들어, 도 2에서 볼 수 있는 것과 같이, 상기 단어1은 상기 문서분류1이 포함하는 상기 문서1 내지 상기 문서4에 대해 상기 문서1에 5번, 상기 문서2에 7번, 상기 문서 3에 0번 및 상기 문서4에 2번 등장하기 때문에 도면부호(400)에는 상기 단어1이 상기 문서분류1에 도면부호(401)와 같이 14번(5 + 7 + 0 + 2) 등장하는 것으로 나타난다. 즉, 상기 단어1의 상기 문서분류1에 대한 상기 단어-문서분류 발생빈도는 14임을 알 수 있다.
도 5는 문서빈도 및 문서분류빈도를 설명하기 위한 일례이다. 상기 문서빈도는 상기 단어마다 상기 단어가 등장한 문서의 개수를, 상기 문서분류빈도는 상기 단어마다 상기 단어가 등장한 문서분류의 개수를 의미할 수 있다.
도면부호(500)는 상기 단어1 내지 상기 단어4에 대한 문서빈도(501) 및 문서분류빈도(502)를 나타낸다. 예를 들어, 상기 단어4가 등장하는 문서의 수는 도면부호(503)와 같이 3개, 문서분류의 수는 도면부호(504)와 같이 2개임을 알 수 있다.
즉, 상기 발생빈도의 일례인 도 2에서 보여지듯이 상기 단어4는 상기 문서4, 상기 문서5 및 상기 문서7에 등장하기 때문에 상기 단어4의 문서빈도(501)는 3이고, 도 4에서의 상기 문서분류1 및 상기 문서분류2에 모두 등장하기 때문에 문서분 류빈도(502)는 2가 된다.
도 6은 단어-단어분류 교차빈도를 설명하기 위한 일례이다. 상기 단어-단어분류 교차빈도는 상기 단어마다 상기 단어분류에 속하는 단어와 같이 등장한 문서의 개수를 의미할 수 있다.
도면부호(600)는 상기 단어1 내지 상기 단어4가 단어분류1 내지 단어분류3에 대해 상기 단어-단어분류 교차빈도를 나타내고 있다. 이때, 상기 단어분류1은 상기 단어1 및 상기 단어2를, 상기 단어분류2는 상기 단어3을 그리고 상기 단어분류3은 상기 단어4를 포함한다.
예를 들어, 상기 단어1은 상기 단어분류1에 대해 도면부호(601)과 같이 6의 단어-단어분류 교차빈도를 갖는다. 이는 상기 교차빈도를 나타내는 도 3에서 상기 단어1이 상기 단어분류1이 포함하는 상기 단어1에 대해 3의 교차빈도를 갖고, 상기 단어2에 대해 3의 교차빈도를 갖기 때문에 상기 단어1의 상기 단어분류1에 대한 단어-단어분류 교차빈도는 6(3 + 3)임을 알 수 있다.
도 7은 단어-단어 결합빈도를 설명하기 위한 일례이다. 상기 단어-단어 결합빈도는 상기 단어에 대한 단어 쌍마다 두 단어가 함께 등장한 문서의 개수, 상기 두 단어가 모두 등장하지 않는 문서의 개수 및 상기 두 단어가 각각 따로 등장하는 문서의 개수를 의미할 수 있다.
도면부호(700)는 상기 단어1 및 상기 단어2에 대한 단어-단어 결합빈도를 나타내고 있다. 이때, 위 첨자 o 및 위 첨자 x는 상기 단어1 또는 상기 단어2의 등장 여부를 나타낸다. 예를 들어, 단어1o(701) 및 단어2o(702)는 상기 단어1 및 상기 단어2가 모두 등장한 문서의 개수(“3”)(703)를 나타내고, 단어1x (704) 및 단어2o(702)에 대해서는 상기 단어1은 등장하지 않고 상기 단어2만 등장하는 문서의 개수(“1”)(705)를 나타낸다.
이러한 상기 단어-단어 결합빈도는 상기 발생빈도에 기초하여 생성할 수 있다. 즉, 도 2에서 상기 단어1 및 상기 단어 2를 모두 포함하는 문서의 개수는 상기 문서1, 상기 문서2 및 상기 문서4의 3개로 도면부호(700)에 도시된 문서의 개수(703)와 같다.
이와 같이, 상기 단어 연관도 측정 시스템은 상기 문서 집합을 이용하여 상기 발생빈도 및 상기 교차빈도를 측정하고, 이에 기초하여 상기 단어-문서분류 발생빈도, 상기 문서빈도, 상기 문서분류빈도, 상기 단어-단어분류 교차빈도 또는 상기 단어-단어 결합빈도를 상기 빈도 정보로서 생성할 수 있고, 상기 발생빈도, 상기 교차빈도 또는 상기 빈도 정보를 상기 단어 통계 정보로서 획득할 수 있다.
단계(S102)에서 상기 단어 연관도 측정 시스템은 상기 단어 통계 정보를 정형화한다. 이는 복수의 종류로 이루어진 상기 단어 통계 정보를 어떻게 해석할 것인가에 대한 것과 상기 단어 연관도 측정 시스템에서 이용할 수 있는 형태로 정형화하기 위한 것에 대한 단계로서 상기 단어 연관도 측정 시스템은 상기 단어 통계 정보를 다차원 벡터 집합, 실수형 랜덤변수 집합, 랜덤변수의 결합확률분포 또는 이산 랜덤변수 집합의 형태로 정형화할 수 있다.
즉, 이와 같이 상기 단어 통계 정보를 정형화하는 단계(S102)는 다음 (1) 내지 (4) 중 어느 하나의 방법을 이용할 수 있다.
(1) 상기 다차원 벡터 집합으로의 정형화 방법은 상기 단어, 상기 문서, 상기 단어분류 또는 상기 문서분류를 다차원 공간의 독립된 각 차원을 갖는 상기 다차원 벡터 집합의 열(column)로서 설정하고, 상기 단어를 각각 상기 다차원 공간의 벡터와 대응시켜 상기 다차원 벡터 집합의 행(row)으로서 설정함으로써 상기 단어 통계 정보를 정형화하는 방법일 수 있다.
예를 들어, 상기 단어4에 대해서 상기 발생빈도에 대해 문서벡터(0, 0, 0, 3, 5, 0, 6)와 같이, 각 문서에서의 포함 여부를 이진문서벡터(0, 0, 0, 1, 1, 0, 1)와 같이, 각 단어와의 교차빈도를 교차빈도벡터(1, 1, 3, 3)와 같이 또는 각 단어와 동일한 문서에 포함될 확률을 교차확률벡터(1/3, 1/3, 3/3, 3/3)와 같이 표현되도록 정형화할 수 있다.
(2) 상기 실수형 랜덤변수 집합으로의 정형화 방법은 상기 단어, 상기 문서, 상기 단어분류 또는 상기 문서분류를 상기 실수형 랜덤변수 집합의 열로서 설정하고, 상기 단어를 각각 실수값을 갖는 랜덤변수와 대응시켜 상기 실수형 랜덤변수 집합의 행으로서 설정함으로써 상기 단어 통계 정보를 정형화하는 방법일 수 있다.
예를 들어, 상기 단어4에 대한 발생빈도를 나타내는 문서변수는 0, 0, 0, 3, 5, 0, 6의 랜덤변수값을 가질 수 있고, 상기 단어 3에 대한 문서변수는 4, 6, 4, 5, 8, 7, 3의 랜덤변수값을 가질 수 있다. 또한, 상기 단어 4에 대한 상기 교차빈도를 나타내는 단어변수는 1, 1, 3, 3의 랜덤변수값을 가질 수 있다.
(3) 상기 결합확률분포로의 정형화 방법은 상기 단어에 대한 단어쌍마다 두 단어가 함께 등장한 문서의 개수, 상기 두 단어가 모두 등장하지 않는 문서의 개수 및 상기 두 단어가 각각 따로 등장하는 문서의 개수인 단어-단어 결합빈도에 기초하여 상기 단어쌍마다 대응되는 랜덤변수의 결합확률분포를 생성하여 상기 단어 통계 정보를 정형화하는 방법일 수 있다. 이때, 상기 랜덤변수는 상기 단어의 발생 또는 비발생 사건만을 포함하는 행과 열의 사건 공간 상에서 정의될 수 있다.
즉, 단어쌍마다 대응되는 결합확률분포가 존재할 수 있다. 예를 들어, 도 7의 일례를 통해 설명한 단어-단어 결합빈도에 기초하여 상기 단어1 및 상기 단어2에 대해 (단어1o, 단어2o) = 3 / 7, (단어1o, 단어2x) = 0, (단어1x, 단어2o) = 1 / 7, (단어1x, 단어2x) = 3 / 7과 같은 상기 결합확률분포를 가질 수 있다. 또는, 상기 단어4 및 상기 단어2에 대해 (단어4o, 단어2o) = 1 / 7, (단어4o, 단어2x) = 2 / 7, (단어4x, 단어2o) = 3 / 7, (단어4x, 단어2x) = 1 / 7과 같은 상기 결합확률분포를 가질 수 있다. 이러한 상기 결합확률분포의 각 결합사건에 대한 확률은 상기 단어마다 상기 단어가 등장한 문서의 개수인 문서빈도 및 상기 단어가 다른 단어와 같이 등장한 문서의 개수인 교차빈도에 기초하여 계산될 수 있다.
(4) 이산 랜덤변수 집합으로의 정형화 방법은 상기 단어를 랜덤변수가 정의된 사건 공간의 독립된 각 사건을 의미하도록 이산 랜덤변수 집합의 열로서 설정하고, 상기 단어를 이산 랜덤변수를 의미하도록 상기 이산 랜덤변수 집합의 행으로서 설정함으로써 상기 단어 통계 정보를 정형화하는 방법일 수 있다.
이러한 상기 이산 랜덤변수는 상기 단어가 다른 단어와 같이 등장한 문서의 개수인 교차빈도를 이용하여 생성될 수 있고, 상기 이산 랜덤변수 집합의 각 빈도값은 임의의 문서에 존재하는 하나의 단어(행)에 대해 다른 단어(열)가 존재할 확률과 대응할 수 있다.
예를 들어, 상기 교차정보의 일례를 나타낸 도 3을 통해 상기 임의의 문서에 상기 단어4가 존재할 때 상기 단어1이 존재할 확률은 1 / 8이고, 상기 단어 3이 존재할 확률은 3 / 8임을 알 수 있다.
단계(S103)에서 상기 단어 연관도 측정 시스템은 상기 정형화된 단어 통계 정보에 기초하여 상기 단어 연관도를 측정한다. 이때, 상기 단어 연관도 측정 시스템은 상기 다차원 벡터 집합의 경우, 상기 다차원 벡터 집합이 포함하는 벡터간의 거리 또는 각도에 기초하여 상기 단어 연관도를 측정할 수 있고, 상기 실수형 랜덤변수 집합의 경우에는, 상기 실수형 랜덤변수 집합이 포함하는 랜덤변수 사이의 통계적 상관도에 기초하여 상기 단어 연관도를 측정할 수 있다.
또한, 상기 결합확률분포의 경우에는 상기 단어 통계 정보를 통해 생성된 결합확률분포에서 상기 결합확률분포의 두 랜덤변수에 대한 상호정보에 기초하여 상기 단어 연관도를 측정할 수 있고, 상기 이산 랜덤변수 집합의 경우에는 상기 단어마다 상기 단어가 등장한 문서의 개수인 문서빈도 및 상기 단어가 다른 단어와 같이 등장한 문서의 개수인 교차빈도에 기초하여 상기 단어 연관도를 측정할 수 있다.
이와 같이, 자동으로 문서 집합이 포함하는 단어 또는 문서를 분류하거나 질의어를 통한 문서 검색을 더욱 효율적으로 수행하기 위해 단어 사이의 관계를 수치화한 단어 연관도를 측정할 수 있고, 상기 문서 집합과 연관된 단어, 문서, 단어분류 또는 문서분류간의 다양한 특징에 따른 빈도를 측정하여 단어 통계 정보를 생성하고 벡터, 랜덤변수, 결합확률분포 등을 이용하여 상기 단어 통계 정보를 정형화하고 해석함으로써, 상기 단어 사이의 관계에 대해 수치화된 단어 연관도를 측정할 수 있다.
도 8은 본 발명의 제2 실시예에 있어서, 문서 집합을 기반으로 단어 간의 연관도를 측정하는 방법을 도시한 흐름도이다.
단계(S801)에서 단어 간의 연관도를 측정하는 단어 연관도 측정 시스템은 문서 집합이 포함하는 단어, 문서, 상기 단어에 대한 단어분류 또는 상기 문서에 대한 문서분류를 통해 단어 통계 정보를 획득한다. 이때, 상기 단어분류 및 상기 문서분류는 기선정된 분류 방식을 이용하여 분류된 상기 문서 집합이 포함하는 상기 단어 또는 상기 문서의 집합을 의미할 수 있다.
이러한 단계(S801)에서 상기 단어 연관도 측정 시스템은 상기 단어마다 상기 단어가 등장한 횟수인 발생빈도를 측정하고, 상기 단어가 다른 단어와 같이 등장한 문서의 개수인 교차빈도를 상기 단어마다 측정한다.
또한, 상기 단어 연관도 측정 시스템은 이러한 상기 발생빈도 또는 상기 교차빈도에 기초하여 빈도 정보를 생성하고, 상기 발생빈도, 상기 교차빈도 또는 상기 빈도 정보를 상기 단어 통계 정보로서 획득한다. 이때, 상기 단어 연관도 측정 시스템은 상기 발생빈도 또는 상기 교차빈도를 통해 단어-문서분류 발생빈도, 문서빈도, 문서분류빈도, 단어-단어분류 교차빈도 및 단어-단어 결합빈도를 상기 빈도 정보로서 생성할 수 있다.
단계(S802)에서 상기 단어 연관도 측정 시스템은 상기 단어 통계 정보를 다차원 벡터 집합으로 정형화한다. 이때, 상기 단어 연관도 측정 시스템은 상기 단어, 상기 문서, 상기 단어분류 또는 상기 문서분류를 다차원 공간의 독립된 각 차원을 갖는 상기 다차원 벡터 집합의 열로서 설정하고, 상기 단어를 각각 상기 다차원 공간의 벡터와 대응시켜 상기 다차원 벡터 집합의 행으로서 설정함으로써 상기 단어 통계 정보를 정형화할 수 있다.
단계(S803)에서 상기 단어 연관도 측정 시스템은 상기 다차원 벡터 집합을 통해 상기 단어 간의 단어 연관도를 측정한다. 이때, 상기 단어 연관도 측정 시스템은 상기 다차원 벡터 집합의 두 벡터 a, b에 대해 다음 수학식 1과 같이 계산되는 임버스(inverse) L p , 다음 수학식 2와 같이 계산되는 코사인 계수(cosine coefficient), 다음 수학식 3과 같이 계산되는 확장된 다이스 계수(extended Dice coefficient), 다음 수학식 4와 같이 계산되는 확장된 자카드 계수(extended Jaccard’s coefficient) 또는 다음 수학식 5와 같이 계산되는 상관관계(correlation)를 이용하여 상기 단어 연관도를 측정할 수 있다.
임버스 L p = 1 / (1 + <a - b>p p)
여기서 <V>p는 벡터 V의 p-norm으로서 나타나는 값을 의미할 수 있다.
코사인 계수 = (aㆍb) / (<a>2<b>2)
확장된 다이스 계수 = 2(aㆍb) / (<a>2 2 + <b>2 2)
확장된 자카드 계수 = (aㆍb) / (<a>2 2 + <b>2 2 - (aㆍb))
상기 확장된 다이스 계수 및 상기 확장된 자카드 계수는 비교하고자 하는 두 대상을 표현하고 있는 속성간의 일치정도를 측정하는 계수로서 대표적인 연관계수(association coefficient)인 다이스 계수(Dice coefficient) 및 자카드 계수(Jaccard’s coefficient)를 확장하여 이용할 수 있다.
상관관계 = (a*ㆍb*) / (<a*>2<b*>2)
여기서 a*i = ai - <a>1 / n으로 나타나고 <a*>1 = 0으로 나타낼 수 있다.
이와 같은 벡터의 차원은 매우 크기 위해 상기 벡터를 이용하여 상기 단어 연관도를 측정하기 위해 차원 축소 기법(SVD: Singular-Value Decomposition)을 이용할 수 있다.
도 9는 본 발명의 제3 실시예에 있어서, 문서 집합을 기반으로 단어 간의 연관도를 측정하는 방법을 도시한 흐름도이다.
단계(S901)에서 단어 간의 연관도를 측정하는 단어 연관도 측정 시스템은 문서 집합이 포함하는 단어, 문서, 상기 단어에 대한 단어분류 또는 상기 문서에 대한 문서분류를 통해 단어 통계 정보를 획득한다. 이때, 상기 단어분류 및 상기 문서분류는 기선정된 분류 방식을 이용하여 분류된 상기 문서 집합이 포함하는 상기 단어 또는 상기 문서의 집합을 의미할 수 있다.
이러한 단계(S901)에서 상기 단어 연관도 측정 시스템은 상기 단어마다 상기 단어가 등장한 횟수인 발생빈도를 측정하고, 상기 단어가 다른 단어와 같이 등장한 문서의 개수인 교차빈도를 상기 단어마다 측정한다.
또한, 상기 단어 연관도 측정 시스템은 이러한 상기 발생빈도 또는 상기 교차빈도에 기초하여 빈도 정보를 생성하고, 상기 발생빈도, 상기 교차빈도 또는 상기 빈도 정보를 상기 단어 통계 정보로서 획득한다. 이때, 상기 단어 연관도 측정 시스템은 상기 발생빈도 또는 상기 교차빈도를 통해 단어-문서분류 발생빈도, 문서빈도, 문서분류빈도, 단어-단어분류 교차빈도 및 단어-단어 결합빈도를 상기 빈도 정보로서 생성할 수 있다.
단계(S902)에서 상기 단어 연관도 측정 시스템은 상기 단어 통계 정보를 실수형 랜덤변수 집합으로 정형화한다. 이때, 상기 단어 연관도 측정 시스템은 상기 단어, 상기 문서, 상기 단어분류 또는 상기 문서분류를 상기 실수형 랜덤변수 집합의 열로서 설정하고, 상기 단어를 각각 실수값을 갖는 랜덤변수와 대응시켜 상기 실수형 랜덤변수 집합의 행으로서 설정함으로써 상기 단어 통계 정보를 정형화할 수 있다.
단계(S903)에서 상기 단어 연관도 측정 시스템은 상기 실수형 랜덤변수 집합을 통해 상기 단어 간의 단어 연관도를 측정한다. 이때, 상기 단어 연관도 측정 시스템은 상기 실수형 랜덤변수 집합의 두 랜덤변수 X, Y에 대해 다음 수학식 6과 같이 계산되는 피어슨 상관 계수(Pearson’s correlation coefficient) 또는 다음 수학식 7과 같이 계산되는 일관성(coherence)을 계산하여 상기 단어 연관도로서 측정할 수 있다.
피어슨 상관 계수 = (E(XY) - E(X)E(Y)) / (σXσY)
여기서 σ는 표준편차를 의미할 수 있다.
이때, 상기 피어슨 상관 계수는 상기 제2 실시예에서의 상관관계와 같은 값을 가질 수 있다.
일관성 = (E(|XY|)2 / (E(X2)E(Y2)))0.5
이때, 상기 일관성은 상기 X ≥ 0 이고, 상기 Y ≥ 0인 경우, 상기 제2 실시예에서의 코사인 계수와 같은 값을 가질 수 있다.
상기 랜덤변수에 대한 추출 시도를 독립된 차원으로 가정하면 상기 제2 실시예에서의 다차원 벡터와 같아진다. 상기 추출 시도에 대한 측정값의 개수가 대체 로 크기 때문에 실수형 랜덤변수 집합을 이용하여 측정한 단어 연관도에 있어서도 차원 축소 기법을 이용할 수 있다.
또한, 상기 실수형 랜덤변수 집합을 이용하여 상기 단어 연관도를 측정하는 방법에 있어서, 상기 피어슨 상관 계수 및 상기 일관성 이외에도 스피어만의 로(Spearman’s rho) 또는 켄달의 타우(Kendall’s tau) 등을 이용할 수 있다.
도 10은 본 발명의 제4 실시예에 있어서, 문서 집합을 기반으로 단어 간의 연관도를 측정하는 방법을 도시한 흐름도이다.
단계(S1001)에서 단어 간의 연관도를 측정하는 단어 연관도 측정 시스템은 문서 집합이 포함하는 단어, 문서, 상기 단어에 대한 단어분류 또는 상기 문서에 대한 문서분류를 통해 단어 통계 정보를 획득한다. 이때, 상기 단어분류 및 상기 문서분류는 기선정된 분류 방식을 이용하여 분류된 상기 문서 집합이 포함하는 상기 단어 또는 상기 문서의 집합을 의미할 수 있다.
이러한 단계(S1001)에서 상기 단어 연관도 측정 시스템은 상기 단어마다 상기 단어가 등장한 횟수인 발생빈도를 측정하고, 상기 단어가 다른 단어와 같이 등장한 문서의 개수인 교차빈도를 상기 단어마다 측정한다.
또한, 상기 단어 연관도 측정 시스템은 이러한 상기 발생빈도 또는 상기 교차빈도에 기초하여 빈도 정보를 생성하고, 상기 발생빈도, 상기 교차빈도 또는 상기 빈도 정보를 상기 단어 통계 정보로서 획득한다. 이때, 상기 단어 연관도 측정 시스템은 상기 발생빈도 또는 상기 교차빈도를 통해 단어-문서분류 발생빈도, 문서빈도, 문서분류빈도, 단어-단어분류 교차빈도 및 단어-단어 결합빈도를 상기 빈도 정보로서 생성할 수 있다.
단계(S1002)에서 상기 단어 연관도 측정 시스템은 상기 단어 통계 정보를 랜덤변수의 결합확률분포로 정형화한다. 상기 단어 연관도 측정 시스템은 상기 단어에 대한 단어쌍마다 두 단어가 함께 등장한 문서의 개수, 상기 두 단어가 모두 등장하지 않는 문서의 개수 및 상기 두 단어가 각각 따로 등장하는 문서의 개수인 단어-단어 결합빈도에 기초하여 상기 단어쌍마다 대응되는 랜덤변수의 결합확률분포를 생성하여 상기 단어 통계 정보를 정형화할 수 있다.
즉, 단어쌍마다 대응되는 결합확률분포가 존재할 수 있고, 상기 랜덤변수는 상기 단어의 발생 또는 비발생 사건만을 포함하는 행과 열의 사건 공간 상에서 정의될 수 있다.
단계(S1003)에서 상기 단어 연관도 측정 시스템은 상기 결합확률분포를 통해 상기 단어 간의 단어 연관도를 측정한다. 이때, 상기 단어 연관도 측정 시스템은 두 랜덤변수 A, B에 대해 다음 수학식 8과 같이 표현되는 상기 결합확률분포를 이용하여 다음 수학식 9와 같이 계산되는 자카드 계수, 다음 수학식 10과 같이 계산되는 다이스 계수, 다음 수학식 11과 같이 계산되는 오즈비(odds-ratio), 상호정보(mutual information) 또는 사건별 상호정보(point-wise mutual information)를 계산하여 상기 단어 연관도로서 측정할 수 있다.
p(A = ao, B = bo) = poo, p(A = ao, B = bx) = pox,
p(A = ax, B = bo) = pxo, p(A = ax, B = bx) = pxx
자카드 계수 = poo / (poo + pox + pxo)
이때, 상기 자카드 계수는 본 발명의 제2 실시예에서 이진문서벡터를 기반으로 한 확장된 자카드 계수와 동일할 수 있다.
다이스 계수 = 2ㆍpoo / (2ㆍpoo + pox + pxo)
이때, 상기 다이스 계수는 상기 제2 실시예에서 이진문서벡터 기반의 확장된 다이스 계수와 동일할 수 있다.
오즈비 = log(poo + 0.5)(pxx + 0.5) - log(pox + 0.5)(pxo +0.5)
또한, 상기 상호정보는 다음 수학식 12와 같이 표현될 수 있다.
상호정보(I(X, Y)) = H(X) + H(Y) - H(X, Y)
여기서, 상기 H(X)는 상기 정보량으로서 사건 공간 X내의 각 사건 x에 대한 (- p(x)log p(x))의 합을 나타낼 수 있다. 이러한 상기 정보량을 바탕으로 하는 상기 상호정보는 결합 사건 공간(X, Y) 내의 각 결합 사건(x, y)에 대한 p(x, y)(log p(x, y) - log p(x)p(y))의 합을 의미할 수 있다. 도 11은 상호정보를 설명하기 위한 일례이다. 도면부호(1101)에서와 같이 상기 상호정보는 상기 랜덤변 수 X, Y가 공유하는 정보량의 크기를 의미할 수 있고, 이러한 상기 상호정보 자체는 공유되는 정보량의 절대값일 수 있다.
이러한 상기 상호정보는 다음 수학식 13과 같이 상기 자카드 계수의 형태로 정규화되거나 또는 하기 수학식 14과 같이 상기 다이스 계수의 형태로 정규화될 수 있다.
I(X, Y) / (H(X) + H(Y) - I(X, Y)) = I(X, Y) / H(X, Y)
2I(X, Y) / (H(X) + (H(Y))
또한, 상기 상호정보는 다음 수학식 15 또는 다음 수학식 16과 같이 다른 형태로서 정의될 수도 있다.
MI(mutual information) = log p(x, y) - log p(x)p(y)
Average-MI = ∑xy p(x, y)(log p(x, y) - log p(x)p(y))
마지막으로 상기 사건별 상호정보는 두 랜덤변수 X, Y에 대해 결합 사건 공간(X, Y) 내의 특정 결합 사건(x, y)이 갖는 정보량으로서, 다음 수학식 17과 같이 표현될 수 있다.
사건별 상호정보 = p(x, y)(log p(x, y) - log p(x)p(y))
도 12는 사건별 상호정보를 설명하기 위한 일례이다. 문서 내에서 임의의 단어를 선택하는 사건을 X, 그 바로 뒤에 오는 단어를 선택하는 사건을 Y라고 할 때, 문서가 {a, b, c, a, b, d}인 경우, 상기 X 및 상기 Y에 대한 빈도는 도면부호(1201)와 같이 표현할 수 있고, 위에서 설명한 p(x, y)(log p(x, y) - log p(x)p(y))의 합으로 나타나는 상기 상호정보는 도면부호(1202)와 같이 계산될 수 있다.
또한, 특정 결합 사건에 대한 정보량인 사건별 상호정보(pmi: point-wise mutual information)는 각각 도면부호(1203)와 같이 계산될 수 있다. 즉, 상기 사건 X 및 Y에 대해 만족하는 문서 쌍인 (a, b), (b, c), (b, d) 및 (c, a)에 대한 사건별 상호정보를 나타내고 있다.
도 13은 본 발명의 제5 실시예에 있어서, 문서 집합을 기반으로 단어 간의 연관도를 측정하는 방법을 도시한 흐름도이다.
상기 제2 실시예 내지 상기 제4 실시예에서 측정된 단어 연관도들은 기본적으로 모두 대칭적이다. 즉, 문서 집합의 두 단어 a, b에 대해 단어 연관도(a, b)와 단어 연관도(b, a)의 값이 동일하였다.
그러나, 상기 단어 a에 대한 상기 단어 b의 연관도와 상기 단어 b에 대한 상기 단어 a의 연관도는 서로 다를 수 있다. 예를 들어, ‘카클리닉’에 대한 ‘기아자동차’의 연관도와 ‘기아자동차’에 대한 ‘카클리닉’의 연관도는 서로 다를 수 있다.
상기 제5 실시예에서는 이러한 비대칭적인 단어 연관도 측정 방법에 대해서 설명한다.
단계(S1301)에서 단어 간의 연관도를 측정하는 단어 연관도 측정 시스템은 문서 집합이 포함하는 단어가 다른 단어와 같이 등장한 문서의 개수인 교차빈도를 상기 단어마다 측정한다.
단계(S1302)에서 상기 단어 연관도 측정 시스템은 상기 교차빈도를 이산 랜덤변수 집합으로 정형화한다. 이때, 상기 단어 연관도 측정 시스템은 상기 이산 랜덤변수 집합의 열이 포함하는 각 단어를 랜덤변수가 정의된 사건 공간의 독립된 각 사건으로 설정하고, 상기 이산 랜덤변수 집합의 행이 포함하는 각 단어를 이산 랜덤변수로 설정할 수 있고, 이러한 상기 이산 랜덤변수에 대한 교차빈도값은 상기 행에 포함되는 단어 v가 존재할 때 상기 열이 포함하는 단어 w가 존재할 확률과 대응되는 값으로서 다음 수학식 18과 같이 표현될 수 있다.
교차빈도값 = p(w|v)
여기서 상기 교차빈도값은 교차빈도(상기 v 및 상기 w에 대한)의 교차빈도(상기 v 및 k에 대한)의 합에 대한 비율을 나타내고, 상기 k는 모든 단어를 나타낼 수 있다. 예를 들어, 위에서 설명한 도 3을 이용하면 p(단어1|단어4) = 1 / 8, p(단어3|단어4) = 3 / 8, p(단어4|단어4) = 3 / 8와 같이 계산됨을 알 수 있다.
단계(S1303)에서 상기 단어 연관도 측정 시스템은 상기 이산 랜덤변수 집합을 이용하여 상기 단어 간의 단어 연관도를 측정한다. 이때, 상기 단어 연관 도(f(w|v))는 다음 수학식 19를 이용하여 측정될 수 있다.
f(w|v) = p(w|v) - C1 · p*(w) · (1 + 0.01 / (C2 + p*(w)))
여기서, 상기 단어 연관도는 0보다 작은 경우에는 0으로 간주할 수 있고, 상기 p*(w)는 모든 단어 v에 대한 p(w|v)p(v)의 합을 나타낼 수 있다. 또한, 상기 p(v)는 문서빈도(상기 v에 대한)의 문서빈도(k에 대한)의 합에 대한 비율을 나타낼 수 있고, 상기 k는 모든 단어를 나타낼 수 있다.
도 14는 다양한 방법으로 측정된 단어 연관도에 대한 일례이다. 도 14에서는 도시한 바와 같이 도 2 내지 도 7에서 설명한 단어1 내지 단어4에 있어서, 상기 단어1의 다른 단어(상기 단어2 내지 상기 단어4)에 대한 단어 연관도를 나타내고 있다.
도면부호(1401)는 상기 단어1에 대한 문서벡터에 대해 임버스 Lp를 이용한 단어 연관도를 나타내고 있고, 도면부호(1402)는 상기 문서벡터에 대해 코사인 계수를 이용한 단어 연관도를 나타내고 있다. 또한, 도면부호(1403)는 상기 문서벡터에 대해 확장된 다이스 계수를 이용한 단어 연관도를 나타내고 있고, 도면부호(1404)는 상기 문서벡터에 대해 확장된 자카드 계수를 이용한 단어 연관도를 나타내고 있다. 이에 더해, 도면부호(1405)는 상기 문서벡터에 대해 상관관계를 이용한 단어 연관도를 나타내고 있다.
뿐만 아니라, 상기 문서벡터 이외에 상기 단어1에 대한 빈도벡터 및 이진문서벡터에 대해서도 상기 임버스 Lp, 상기 코사인 계수, 상기 확장된 다이스 계수, 상기 확장된 자카드 계수 및 상기 상관관계를 이용한 단어 연관도를 각각 나타내고 있다.
도면부호(1406)는 상기 단어1에 대한 결합확률분포에 대해 오즈비를 이용한 단어 연관도를 나타내고 있고, 도면부호(1407)는 상기 결합확률분포에 대해 상기 상호정보를 이용한 단어 연관도를 나타내고 있다. 또한, 도면부호(1408)는 상기 결합확률분포에 대해 자카드 계수의 형태로 정규화된 상호정보를 이용한 단어 연관도를 나타내고 있다.
도면부호(1409)는 상기 단어1에 대한 이산 랜덤변수 집합에 대해 상기 다른 단어가 존재할 때 상기 단어 1이 존재할 확률을 나타내고 있고, 도면부호(1410)는 이러한 상기 확률을 이용한 단어 연관도를 나타내고 있다.
이와 같이 측정된 복수의 단어 연관도들은 이미 설명한 바와 같이 이후 단어 또는 문서를 분류하거나 또는 문서 검색 등에 이용될 수 있다. 예를 들어, 단어를 분류하기 위해 ‘수비수’, ‘포워드’, ‘골키퍼’, ‘축구공’, ‘미드필더’, ‘잔디구장’ 또는 ‘축구화’와 같이 연관된 단어들을 상기 단어 연관도를 이용하여 클러스터링하고, ‘축구’와 같은 단어분류이름을 지정하여 상기 단어를 분류할 수 있다. 또는 이러한 상기 단어 연관도를 이용하여 단어와 문서간의 연관도를 생성하고 이를 통해 문서 검색을 할 수 있고, 상기 문서가 어떠한 단어와 연관되어 있는지 파악하여 문서를 분류하기 위해 이용할 수도 있다.
도 15는 본 발명의 제6 실시예에 있어서, 단어 연관도 측정 시스템의 내부 구성을 설명하기 위한 블록도이다. 도 15에 도시된 바와 같이 단어 연관도 측정 시스템(1500)은 단어 통계 정보 획득부(1501), 정형화부(1502) 및 단어 연관도 측정부(1503)를 포함할 수 있다.
단어 통계 정보 획득부(1501)는 문서 집합이 포함하는 단어, 문서, 상기 단어에 대한 단어분류 또는 상기 문서에 대한 문서분류를 통해 단어 통계 정보를 획득한다. 이때, 단어 통계 정보 획득부(1501)는 상기 단어마다 상기 단어가 등장한 횟수인 발생빈도를 측정하는 발생빈도 측정부(미도시), 상기 단어가 다른 단어와 같이 등장한 문서의 개수인 교차빈도를 상기 단어마다 측정하는 교차빈도 측정부(미도시), 상기 발생빈도 또는 상기 교차빈도에 기초하여 빈도 정보를 생성하는 빈도 정보 생성부(미도시) 및 상기 발생빈도, 상기 교차빈도 또는 상기 빈도 정보를 상기 단어 통계 정보로서 획득하는 획득부(미도시)를 포함할 수 있다.
상기 빈도 정보는 상기 발생빈도 또는 상기 교차빈도를 통해 측정될 수 있는 단어-문서분류 발생빈도, 문서빈도, 문서분류빈도, 단어-단어분류 교차빈도 또는 단어-단어 결합빈도를 포함할 수 있다.
상기 단어-문서분류 발생빈도는 상기 단어마다 상기 문서분류에 속하는 문서에 등장한 횟수로서 상기 발생빈도에 기초하여 측정될 수 있다.
또한, 상기 문서빈도는 상기 단어마다 상기 단어가 등장한 문서의 개수일 수 있고, 상기 문서분류빈도는 상기 단어마다 상기 단어가 등장한 단어분류의 개수일 수 있다. 이러한 상기 문서빈도 및 상기 문서분류빈도 또한 상기 발생빈도에 기초하여 측정될 수 있다.
상기 단어-단어분류 교차빈도는 상기 단어마다 상기 단어분류에 속하는 단어 와 같이 등장한 문서의 개수로서 상기 교차빈도를 이용하여 측정될 수 있고, 상기 단어-단어 결합빈도는 상기 단어에 대한 단어쌍마다 두 단어가 함께 등장한 문서의 개수, 상기 두 단어가 모두 등장하지 않는 문서의 개수 및 상기 두 단어가 각각 따로 등장하는 문서의 개수로서 상기 발생빈도에 기초하여 측정될 수 있다.
정형화부(1502)는 상기 단어 통계 정보를 정형화한다. 이때, 정형화부(1502)는 상기 단어 통계 정보를 다차원 벡터 집합, 실수형 랜덤변수 집합, 랜덤변수의 결합확률분포 또는 이산 랜덤변수 집합으로 정형화할 수 있다.
즉, 정형화부(1502)는 다음 (1) 내지 (4) 중 어느 하나의 방법을 이용하여 상기 단어 통계 정보를 정형화할 수 있다.
(1) 상기 단어, 상기 문서, 상기 단어분류 또는 상기 문서분류를 다차원 공간의 독립된 각 차원을 갖는 상기 다차원 벡터 집합의 열(column)로서 설정하고, 상기 단어를 각각 상기 다차원 공간의 벡터와 대응시켜 상기 다차원 벡터 집합의 행(row)으로서 설정함으로써 상기 단어 통계 정보를 정형화한다.
(2) 상기 단어, 상기 문서, 상기 단어분류 또는 상기 문서분류를 상기 실수형 랜덤변수 집합의 열로서 설정하고, 상기 단어를 각각 실수값을 갖는 랜덤변수와 대응시켜 상기 실수형 랜덤변수 집합의 행으로서 설정함으로써 상기 단어 통계 정보를 정형화한다.
(3) 상기 결합확률분포로의 정형화 방법은 상기 단어에 대한 단어쌍마다 두 단어가 함께 등장한 문서의 개수, 상기 두 단어가 모두 등장하지 않는 문서의 개수 및 상기 두 단어가 각각 따로 등장하는 문서의 개수인 단어-단어 결합빈도에 기초 하여 상기 단어쌍마다 대응되는 랜덤변수의 결합확률분포를 생성하여 상기 단어 통계 정보를 정형화한다. 이때, 단어쌍마다 대응되는 결합확률분포가 존재할 수 있고 상기 랜덤변수는 상기 단어의 발생 또는 비발생 사건만을 포함하는 행과 열의 사건 공간 상에서 정의될 수 있다.
(4) 이산 랜덤변수 집합으로의 정형화 방법은 상기 단어를 랜덤변수가 정의된 사건 공간의 독립된 각 사건을 의미하도록 이산 랜덤변수 집합의 열로서 설정하고, 상기 단어를 이산 랜덤변수를 의미하도록 상기 이산 랜덤변수 집합의 행으로서 설정함으로써 상기 단어 통계 정보를 정형화한다. 이러한 상기 이산 랜덤변수는 상기 단어가 다른 단어와 같이 등장한 문서의 개수인 교차빈도를 이용하여 생성될 수 있고, 상기 이산 랜덤변수 집합의 각 빈도값은 임의의 문서에 존재하는 하나의 단어(행)에 대해 다른 단어(열)가 존재할 확률과 대응할 수 있다.
단어 연관도 측정부(1503)는 상기 정형화된 단어 통계 정보에 기초하여 상기 단어 간의 단어 연관도를 측정한다. 이때, 단어 연관도 측정부(1503)는 상기 다차원 벡터 집합으로 정형화된 단어 통계 정보에 기초하는 경우, 상기 다차원 벡터 집합의 두 벡터에 대한 임버스 L p , 코사인 계수, 확장된 다이스 계수, 확장된 자카드 계수 또는 상관관계를 계산하여 상기 단어 연관도로서 측정할 수 있다.
또한, 단어 연관도 측정부(1503)는 상기 실수형 랜덤변수 집합으로 정형화된 단어 통계 정보에 기초하는 경우, 상기 실수형 랜덤변수 집합의 두 랜덤변수에 대해 피어슨 상관 계수 또는 일관성을 계산하여 상기 단어 연관도로서 측정할 수 있다.
이에 더해, 단어 연관도 측정부(1503)는 상기 결합확률분포로 정형화된 단어 통계 정보에 기초하는 경우, 두 랜덤변수에 대해 상기 결합확률분포를 이용하여 자카드 계수, 다이스 계수, 오즈비, 상호정보 또는 사건별 상호정보를 계산하여 상기 단어 연관도로서 측정할 수 있다.
마지막으로 단어 연관도 측정부(1503)는 상기 이산 랜덤변수 집합으로 정형화된 단어 통계 정보에 기초하는 경우, 상기 단어 연관도(f(w|v))를 다음 수학식 20을 이용하여 측정할 수 있다.
f(w|v) = p(w|v) - C1ㆍp*(w)ㆍ(1 + 0.01 / (C2 + p*(w)))
이때, 상기 단어 연관도는 0보다 작은 경우에는 0으로 간주하고, 상기 p*(w)는 모든 단어 v에 대한 p(w|v)p(v)의 합을 나타낼 수 있다. 또한, 상기 p(v)는 문서빈도(상기 v에 대한)의 문서빈도(k에 대한)의 합에 대한 비율을 나타낼 수 있고, 상기 k는 모든 단어를 나타낼 수 있다.
이와 같이, 단어 연관도 측정 시스템을 통해 자동으로 문서 집합이 포함하는 단어 또는 문서를 분류하거나 질의어를 통한 문서 검색을 더욱 효율적으로 수행하기 위해 단어 사이의 관계를 수치화한 단어 연관도를 측정할 수 있고, 상기 문서 집합과 연관된 단어, 문서, 단어분류 또는 문서분류간의 다양한 특징에 따른 빈도를 측정하여 단어 통계 정보를 생성하고 벡터, 랜덤변수, 결합확률분포 등을 이용하여 상기 단어 통계 정보를 정형화하고 해석함으로써, 상기 단어 사이의 관계에 대해 수치화된 단어 연관도를 측정할 수 있다.
뿐만 아니라, 상기 단어 간의 교차빈도를 이산 랜덤변수 집합으로 이용하여 상기 단어 간의 서로 비대칭적인 단어 연관도를 측정할 수 있다.
본 발명에 따른 실시예들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(Floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양 한 수정 및 변형이 가능하다.
따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.
본 발명에 따르면, 자동으로 문서 집합이 포함하는 단어 또는 문서를 분류하거나 질의어를 통한 문서 검색을 더욱 효율적으로 수행하기 위해 단어 사이의 관계를 수치화한 단어 연관도를 측정할 수 있다.
본 발명에 따르면, 상기 문서 집합과 연관된 단어, 문서, 단어분류 또는 문서분류간의 다양한 특징에 따른 빈도를 측정하여 단어 통계 정보를 생성하고 벡터, 랜덤변수, 결합확률분포 등을 이용하여 상기 단어 통계 정보를 정형화하고 해석함으로써, 상기 단어 사이의 관계에 대해 수치화된 단어 연관도를 측정할 수 있다.
본 발명에 따르면, 상기 단어 간의 교차빈도를 이산 랜덤변수 집합으로 이용하여 상기 단어 간의 서로 비대칭적인 단어 연관도를 측정할 수 있다.

Claims (46)

  1. 문서 집합을 기반으로 단어 간의 연관도를 측정하는 방법에 있어서,
    문서 집합이 포함하는 단어, 문서, 상기 단어에 대한 단어분류 또는 상기 문서에 대한 문서분류를 통해 단어 통계 정보를 획득하는 단계;
    상기 단어 통계 정보를 정형화하는 단계; 및
    상기 정형화된 단어 통계 정보에 기초하여 상기 단어 간의 단어 연관도를 측정하는 단계
    를 포함하는 것을 특징으로 하는 단어 연관도 측정 방법.
  2. 제1항에 있어서,
    문서 집합이 포함하는 단어, 문서, 상기 단어에 대한 단어분류 또는 상기 문서에 대한 문서분류를 통해 단어 통계 정보를 획득하는 상기 단계는,
    상기 단어마다 상기 단어가 등장한 횟수인 발생빈도를 측정하는 단계;
    상기 단어가 다른 단어와 같이 등장한 문서의 개수인 교차빈도를 상기 단어마다 측정하는 단계;
    상기 발생빈도 또는 상기 교차빈도에 기초하여 빈도 정보를 생성하는 단계; 및
    상기 발생빈도, 상기 교차빈도 또는 상기 빈도 정보를 상기 단어 통계 정보로서 획득하는 단계
    를 포함하는 것을 특징으로 하는 단어 연관도 측정 방법.
  3. 제2항에 있어서,
    상기 발생빈도 또는 상기 교차빈도에 기초하여 빈도 정보를 생성하는 상기 단계는,
    상기 발생빈도 또는 상기 교차빈도를 통해 단어-문서분류 발생빈도, 문서빈도, 문서분류빈도, 단어-단어분류 교차빈도 또는 단어-단어 결합빈도를 상기 빈도 정보로서 생성하는 단계인 것을 특징으로 하는 단어 연관도 측정 방법.
  4. 제3항에 있어서,
    상기 단어-문서분류 발생빈도는 상기 단어마다 상기 문서분류에 속하는 문서에 등장한 횟수인 것을 특징으로 하는 단어 연관도 측정 방법.
  5. 제3항에 있어서,
    상기 문서빈도는 상기 단어마다 상기 단어가 등장한 문서의 개수이고,
    상기 문서분류빈도는 상기 단어마다 상기 단어가 등장한 단어분류의 개수인 것을 특징으로 하는 단어 연관도 측정 방법.
  6. 제3항에 있어서,
    상기 단어-단어분류 교차빈도는 상기 단어마다 상기 단어분류에 속하는 단어 와 같이 등장한 문서의 개수인 것을 특징으로 하는 단어 연관도 측정 방법.
  7. 제3항에 있어서,
    상기 단어-단어 결합빈도는 상기 단어에 대한 단어쌍마다 두 단어가 함께 등장한 문서의 개수, 상기 두 단어가 모두 등장하지 않는 문서의 개수 및 상기 두 단어가 각각 따로 등장하는 문서의 개수인 것을 특징으로 하는 단어 연관도 측정 방법.
  8. 제1항에 있어서,
    상기 단어 통계 정보를 정형화하는 상기 단계는,
    상기 단어, 상기 문서, 상기 단어분류 또는 상기 문서분류를 다차원 공간의 독립된 각 차원을 갖는 다차원 벡터 집합의 열(column)로서 설정하는 단계; 및
    상기 단어를 각각 상기 다차원 공간의 벡터와 대응시켜 상기 다차원 벡터 집합의 행(row)으로서 설정하는 단계
    를 포함하는 것을 특징으로 하는 단어 연관도 측정 방법.
  9. 제1항에 있어서,
    상기 단어 통계 정보를 정형화하는 상기 단계는,
    상기 단어, 상기 문서, 상기 단어분류 또는 상기 문서분류를 실수형 랜덤변수 집합의 열로서 설정하는 단계; 및
    상기 단어를 각각 실수값을 갖는 랜덤변수와 대응시켜 실수형 랜덤변수 집합의 행으로서 설정하는 단계
    를 포함하고,
    상기 랜덤변수는 상기 열 및 상기 행간에 대응되는 빈도값을 랜덤변수값으로서 갖는 것을 특징으로 하는 단어 연관도 측정 방법.
  10. 제1항에 있어서,
    상기 단어 통계 정보를 정형화하는 상기 단계는,
    상기 단어에 대한 단어쌍마다 두 단어가 함께 등장한 문서의 개수, 상기 두 단어가 모두 등장하지 않는 문서의 개수 및 상기 두 단어가 각각 따로 등장하는 문서의 개수인 단어-단어 결합빈도에 기초하여 상기 단어쌍마다 대응되는 랜덤변수의 결합확률분포를 생성하여 상기 단어 통계 정보를 정형화하는 단계이고,
    상기 랜덤변수는 상기 단어의 발생 또는 비발생 사건만을 포함하는 행과 열의 사건 공간 상에서 정의되는 것을 특징으로 하는 단어 연관도 측정 방법.
  11. 제10항에 있어서,
    상기 결합확률분포의 각 결합사건에 대한 확률은 상기 단어마다 상기 단어가 등장한 문서의 개수인 문서빈도 및 상기 단어가 다른 단어와 같이 등장한 문서의 개수인 교차빈도에 기초하여 계산되는 것을 특징으로 하는 단어 연관도 측정 방법.
  12. 제1항에 있어서,
    상기 단어 통계 정보를 정형화하는 상기 단계는,
    상기 단어를 랜덤변수가 정의된 사건 공간의 독립된 각 사건을 의미하도록 이산 랜덤변수 집합의 열로서 설정하는 단계; 및
    상기 단어를 이산 랜덤변수를 의미하도록 상기 이산 랜덤변수 집합의 행으로서 설정하는 단계를 포함하고,
    상기 이산 랜덤변수는 상기 단어가 다른 단어와 같이 등장한 문서의 개수인 교차빈도를 이용하여 생성되는 것을 특징으로 하는 단어 연관도 측정 방법.
  13. 제1항에 있어서,
    정형화된 상기 단어 통계 정보에 기초하여 상기 단어에 대한 단어 연관도를 측정하는 상기 단계는,
    상기 단어 통계 정보를 통해 생성된 다차원 벡터 집합이 포함하는 벡터간의 거리 또는 각도에 기초하여 상기 단어 연관도를 측정하는 단계인 것을 특징으로 하는 단어 연관도 측정 방법.
  14. 제1항에 있어서,
    정형화된 상기 단어 통계 정보에 기초하여 상기 단어에 대한 단어 연관도를 측정하는 상기 단계는,
    상기 단어 통계 정보를 통해 생성된 실수형 랜덤변수 집합이 포함하는 랜덤 변수 사이의 통계적 상관도에 기초하여 상기 단어 연관도를 측정하는 단계인 것을 특징으로 하는 단어 연관도 측정 방법.
  15. 제1항에 있어서,
    정형화된 상기 단어 통계 정보에 기초하여 상기 단어에 대한 단어 연관도를 측정하는 상기 단계는,
    상기 단어 통계 정보를 통해 생성된 결합확률분포에서 상기 결합확률분포의 두 랜덤변수에 대한 상호정보에 기초하여 상기 단어 연관도를 측정하는 단계인 것을 특징으로 하는 단어 연관도 측정 방법.
  16. 제1항에 있어서,
    정형화된 상기 단어 통계 정보에 기초하여 상기 단어에 대한 단어 연관도를 측정하는 상기 단계는,
    상기 단어마다 상기 단어가 등장한 문서의 개수인 문서빈도 및 상기 단어가 다른 단어와 같이 등장한 문서의 개수인 교차빈도에 기초하여 상기 단어 연관도를 측정하는 단계인 것을 특징으로 하는 단어 연관도 측정 방법.
  17. 문서 집합을 기반으로 단어 간의 연관도를 측정하는 방법에 있어서,
    문서 집합이 포함하는 단어, 문서, 상기 단어에 대한 단어분류 또는 상기 문서에 대한 문서분류를 통해 단어 통계 정보를 획득하는 단계;
    상기 단어 통계 정보를 다차원 벡터 집합으로 정형화하는 단계; 및
    상기 다차원 벡터 집합을 통해 상기 단어 간의 단어 연관도를 측정하는 단계
    를 포함하는 것을 특징으로 하는 단어 연관도 측정 방법.
  18. 제17항에 있어서,
    상기 다차원 벡터 집합을 통해 상기 단어에 대한 단어 연관도를 측정하는 상기 단계는,
    상기 다차원 벡터 집합의 두 벡터 a, b에 대한 임버스(inverse) L p , 코사인 계수(cosine coefficient), 확장된 다이스 계수(extended Dice coefficient), 확장된 자카드 계수(extended Jaccard’s coefficient) 또는 상관관계(correlation)를 계산하여 상기 단어 연관도로서 측정하는 단계인 것을 특징으로 하는 단어 연관도 측정 방법.
  19. 제18항에 있어서,
    상기 임버스 L p 는 하기 수학식 21을 이용하여 계산되는 것을 특징으로 하는 단어 연관도 측정 방법.
    임버스 L p = 1 / (1 + <a - b>p p)
    여기서 <V>p는 벡터 V의 p-norm으로서 나타나는 값을 의미.
  20. 제18항에 있어서,
    상기 코사인 계수는 하기 수학식 22를 이용하여 계산되는 것을 특징으로 하는 단어 연관도 측정 방법.
    코사인 계수 = (aㆍb) / (<a>2<b>2)
    여기서 <V>p는 벡터 V의 p-norm으로서 나타나는 값을 의미.
  21. 제18항에 있어서,
    상기 확장된 다이스 계수는 하기 수학식 23을 이용하여 계산되는 것을 특징으로 하는 단어 연관도 측정 방법.
    확장된 다이스 계수 = 2(aㆍb) / (<a>2 2 + <b>2 2)
    여기서 <V>p는 벡터 V의 p-norm으로서 나타나는 값을 의미.
  22. 제18항에 있어서,
    상기 확장된 자카드 계수는 하기 수학식 24를 이용하여 계산되는 것을 특징으로 하는 단어 연관도 측정 방법.
    확장된 자카드 계수 = (aㆍb) / (<a>2 2 + <b>2 2 - (aㆍb))
    여기서 <V>p는 벡터 V의 p-norm으로서 나타나는 값을 의미.
  23. 제18항에 있어서,
    상기 상관관계는 하기 수학식 25를 이용하여 계산되는 것을 특징으로 하는 단어 연관도 측정 방법.
    상관관계 = (a*ㆍb*) / (<a*>2<b*>2)
    여기서 <V>p는 벡터 V의 p-norm으로서 나타나는 값을 의미하고, a*i = ai - <a>1 / n으로 나타나고 <a*>1 = 0으로 나타나고, ai는 벡터 a의 i 번째 원소의 값을 의미하고, 상기 n은 상기 벡터 a의 원소의 수를 의미함.
  24. 문서 집합을 기반으로 단어 간의 연관도를 측정하는 방법에 있어서,
    문서 집합이 포함하는 단어, 문서, 상기 단어에 대한 단어분류 또는 상기 문서에 대한 문서분류를 통해 단어 통계 정보를 획득하는 단계;
    상기 단어 통계 정보를 실수형 랜덤변수 집합으로 정형화하는 단계; 및
    상기 실수형 랜덤변수 집합을 통해 상기 단어 간의 단어 연관도를 측정하는 단계
    를 포함하는 것을 특징으로 하는 단어 연관도 측정 방법.
  25. 제24항에 있어서,
    상기 실수형 랜덤변수 집합을 통해 상기 단어에 대한 단어 연관도를 측정하는 상기 단계는,
    상기 실수형 랜덤변수 집합의 두 랜덤변수 X, Y 대해 피어슨 상관 계수(Pearson’s correlation coefficient) 또는 일관성(coherence)을 계산하여 상기 단어 연관도로서 측정하는 단계인 것을 특징으로 하는 단어 연관도 측정 방법.
  26. 제25항에 있어서,
    상기 피어슨 상관 계수는 하기 수학식 26을 이용하여 계산되는 것을 특징으로 하는 단어 연관도 측정 방법.
    피어슨 상관 계수 = (E(XY) - E(X)E(Y)) / (σXσY)
    여기서 E(V)는 변수 V의 기대값을, σ는 표준편차를 각각 의미함.
  27. 제25항에 있어서,
    상기 일관성은 하기 수학식 27을 이용하여 계산되는 것을 특징으로 하는 단어 연관도 측정 방법.
    일관성 = (E(|XY|)2 / (E(X2)E(Y2)))0.5
    여기서, E(V)는 변수 V의 기대값을 의미함.
  28. 문서 집합을 기반으로 단어 간의 연관도를 측정하는 방법에 있어서,
    문서 집합이 포함하는 단어, 문서, 상기 단어에 대한 단어분류 또는 상기 문서에 대한 문서분류를 통해 단어 통계 정보를 획득하는 단계;
    상기 단어 통계 정보를 랜덤변수의 결합확률분포로 정형화하는 단계; 및
    상기 결합확률분포를 통해 상기 단어 간의 단어 연관도를 측정하는 단계
    를 포함하는 것을 특징으로 하는 단어 연관도 측정 방법.
  29. 제28항에 있어서,
    상기 결합확률분포를 통해 상기 단어에 대한 단어 연관도를 측정하는 상기 단계는,
    두 랜덤변수 A, B에 대해 하기 수학식 28과 같이 표현되는 상기 결합확률분포를 이용하여 자카드 계수, 다이스 계수, 오즈비(odds-ratio), 상호정보(mutual information) 또는 사건별 상호정보(point-wise mutual information)를 계산하여 상기 단어 연관도로서 측정하는 단계인 것을 특징으로 하는 단어 연관도 측정 방법.
    p(A = ao, B = bo) = poo, p(A = ao, B = bx) = pox,
    p(A = ax, B = bo) = pxo, p(A = ax, B = bx) = pxx
    여기서, 상기 a°, 상기 ax, 상기 b°, 상기 bx는 상기 랜덤변수에 주어진 기선정된 값을, p(A, B)는 상기 A 및 상기 B에 대한 결합확률분포를 각각 의미함.
  30. 제29항에 있어서,
    상기 자카드 계수는 하기 수학식 29를 이용하여 계산되는 것을 특징으로 하는 단어 연관도 측정 방법.
    자카드 계수 = poo / (poo + pox + pxo)
  31. 제29항에 있어서,
    상기 다이스 계수는 하기 수학식 30을 이용하여 계산되는 것을 특징으로 하는 단어 연관도 측정 방법.
    다이스 계수 = 2ㆍpoo / (2ㆍpoo + pox + pxo)
  32. 제29항에 있어서,
    상기 오즈비는 하기 수학식 31을 이용하여 계산되는 것을 특징으로 하는 단어 연관도 측정 방법.
    오즈비 = log(poo + 0.5)(pxx + 0.5) - log(pox + 0.5)(pxo +0.5)
  33. 제29항에 있어서,
    상기 상호정보는 두 랜덤변수 X, Y에 대해 하기 수학식 32와 같이 표현되는 것을 특징으로 하는 단어 연관도 측정 방법.
    상호정보(I(X, Y)) = H(X) + H(Y) - H(X, Y)
    여기서 H(X)는 정보량으로서 사건 공간 X내의 각 사건 x에 대한 (- p(x)log p(x))의 합을 나타내고, 상기 p(x)는 x에 대한 확률분포를 의미함.
  34. 제33항에 있어서,
    상기 상호정보는 하기 수학식 33과 같이 상기 자카드 계수의 형태로 정규화되거나 또는 하기 수학식 34과 같이 상기 다이스 계수의 형태로 정규화되는 것을 특징으로 하는 단어 연관도 측정 방법.
    I(X, Y) / (H(X) + H(Y) - I(X, Y)) = I(X, Y) / H(X, Y)
    2I(X, Y) / (H(X) + (H(Y))
  35. 제29항에 있어서,
    상기 사건별 상호정보는 두 랜덤변수 X, Y에 대해 결합 사건 공간(X, Y) 내의 특정 결합 사건(x, y)이 갖는 정보량으로서, 하기 수학식 35와 같이 표현되는 것을 특징으로 하는 단어 연관도 측정 방법.
    사건별 상호정보 = p(x, y)(log p(x, y) - log p(x)p(y))
    여기서, 상기 p(x)는 x에 대한 확률분포를 의미함.
  36. 문서 집합을 기반으로 단어 간의 연관도를 측정하는 방법에 있어서,
    문서 집합이 포함하는 단어가 다른 단어와 같이 등장한 문서의 개수인 교차빈도를 상기 단어마다 측정하는 단계;
    상기 교차빈도를 이산 랜덤변수 집합으로 정형화하는 단계; 및
    상기 이산 랜덤변수 집합을 이용하여 상기 단어 간의 단어 연관도를 측정하는 단계
    를 포함하는 것을 특징으로 하는 단어 연관도 측정 방법.
  37. 제36항에 있어서,
    상기 교차빈도를 이산 랜덤변수 집합으로 정형화하는 상기 단계는,
    상기 이산 랜덤변수 집합의 열이 포함하는 각 단어를 랜덤변수가 정의된 사건 공간의 독립된 각 사건으로 설정하고, 상기 이산 랜덤변수 집합의 행이 포함하는 각 단어를 이산 랜덤변수로 설정하는 단계이고,
    상기 이산 랜덤변수에 대한 교차빈도값은 상기 행에 포함되는 단어 v가 존재할 때 상기 열이 포함하는 단어 w가 존재할 확률과 대응되는 값으로서 하기 수학식 36과 같이 표현되는 것을 특징으로 하는 단어 연관도 측정 방법.
    교차빈도값 = p(w|v)
    여기서 상기 교차빈도값은 교차빈도(상기 v 및 상기 w에 대한)의 교차빈도 (상기 v 및 k에 대한)의 합에 대한 비율을 나타내고, 상기 k는 모든 단어를 나타냄.
  38. 제36항에 있어서,
    상기 이산 랜덤변수 집합을 이용하여 상기 단어에 대한 단어 연관도를 측정하는 상기 단계는,
    상기 단어 연관도(f(w|v))는 하기 수학식 37을 이용하여 측정되는 것을 특징으로 하는 단어 연관도 측정 방법.
    f(w|v) = p(w|v) - C1ㆍp*(w)ㆍ(1 + 0.01 / (C2 + p*(w)))
    여기서, 상기 단어 연관도는 0보다 작은 경우, 0으로 간주하고, 상기 p*(w)는 모든 단어 v에 대한 p(w|v)p(v)의 합을 나타내고, 상기 p(v)는 문서빈도(상기 v에 대한)의 문서빈도(k에 대한)의 합에 대한 비율을 나타내고 상기 k는 모든 단어를 나타내고, 상기 p(w|v)는 교차빈도(상기 v 및 상기 w에 대한)의 교차빈도(상기 v 및 k에 대한)의 합에 대한 비율을 의미하고, 상기 C1 및 상기 C2는 각각 기선정된 가중치를 의미함.
  39. 제1항 내지 제38항 중 어느 한 항의 방법을 실행하기 위한 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터에서 판독 가능한 기록 매체.
  40. 문서 집합을 기반으로 단어 간의 연관도를 측정하는 시스템에 있어서,
    문서 집합이 포함하는 단어, 문서, 상기 단어에 대한 단어분류 또는 상기 문 서에 대한 문서분류를 통해 단어 통계 정보를 획득하는 단어 통계 정보 획득부;
    상기 단어 통계 정보를 정형화하는 정형화부; 및
    상기 정형화된 단어 통계 정보에 기초하여 상기 단어 간의 단어 연관도를 측정하는 단어 연관도 측정부
    를 포함하는 것을 특징으로 하는 단어 연관도 측정 시스템.
  41. 제40항에 있어서,
    상기 단어 통계 정보 획득부는,
    상기 단어마다 상기 단어가 등장한 횟수인 발생빈도를 측정하는 발생빈도 측정부;
    상기 단어가 다른 단어와 같이 등장한 문서의 개수인 교차빈도를 상기 단어마다 측정하는 교차빈도 측정부;
    상기 발생빈도 또는 상기 교차빈도에 기초하여 빈도 정보를 생성하는 빈도 정보 생성부; 및
    상기 발생빈도, 상기 교차빈도 또는 상기 빈도 정보를 상기 단어 통계 정보로서 획득하는 획득부
    를 포함하는 것을 특징으로 하는 단어 연관도 측정 시스템.
  42. 제40항에 있어서,
    상기 정형화부는,
    상기 단어 통계 정보를 다차원 벡터 집합, 실수형 랜덤변수 집합, 랜덤변수의 결합확률분포 또는 이산 랜덤변수 집합으로 정형화하는 것을 특징으로 하는 단어 연관도 측정 시스템.
  43. 제40항에 있어서,
    상기 단어 연관도 측정부는,
    상기 다차원 벡터 집합의 두 벡터에 대한 임버스(inverse) L p , 코사인 계수(cosine coefficient), 확장된 다이스 계수(extended Dice coefficient), 확장된 자카드 계수(extended Jaccard’s coefficient) 또는 상관관계(correlation)를 계산하여 상기 단어 연관도로서 측정하는 것을 특징으로 하는 단어 연관도 측정 시스템.
  44. 제40항에 있어서,
    상기 단어 연관도 측정부는,
    상기 실수형 랜덤변수 집합의 두 랜덤변수에 대해 피어슨 상관 계수(Pearson’s correlation coefficient) 또는 일관성(coherence)을 계산하여 상기 단어 연관도로서 측정하는 것을 특징으로 하는 단어 연관도 측정 시스템.
  45. 제40항에 있어서,
    상기 단어 연관도 측정부는,
    두 랜덤변수에 대해 상기 결합확률분포를 이용하여 자카드 계수, 다이스 계수, 오즈비(odds-ratio), 상호정보(mutual information) 또는 사건별 상호정보(point-wise mutual information)을 계산하여 상기 단어 연관도로서 측정하는 것을 특징으로 하는 단어 연관도 측정 시스템.
  46. 제40항에 있어서,
    상기 단어 연관도 측정부는,
    상기 단어 연관도(f(w|v))는 하기 수학식 38을 이용하여 측정되는 것을 특징으로 하는 단어 연관도 측정 시스템.
    f(w|v) = p(w|v) - C1ㆍp*(w)ㆍ(1 + 0.01 / (C2 + p*(w)))
    여기서, 상기 단어 연관도는 0보다 작은 경우, 0으로 간주하고, 상기 p*(w)는 모든 단어 v에 대한 p(w|v)p(v)의 합을 나타내고, 상기 p(v)는 문서빈도(상기 v에 대한)의 문서빈도(k에 대한)의 합에 대한 비율을 나타내고 상기 k는 모든 단어를 나타내고, 상기 p(w|v)는 교차빈도(상기 v 및 상기 w에 대한)의 교차빈도(상기 v 및 k에 대한)의 합에 대한 비율을 의미하고, 상기 C1 및 상기 C2는 각각 기선정된 가중치를 의미함.
KR1020060126272A 2006-12-12 2006-12-12 문서 집합을 기반으로 단어 간의 연관도를 측정하는 방법및 상기 방법을 수행하는 시스템 KR100837751B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020060126272A KR100837751B1 (ko) 2006-12-12 2006-12-12 문서 집합을 기반으로 단어 간의 연관도를 측정하는 방법및 상기 방법을 수행하는 시스템
JP2007314279A JP2008146648A (ja) 2006-12-12 2007-12-05 文章集合に基づいて単語間の連関度を測定する方法及びこの方法を実行するシステム
US11/953,769 US8407233B2 (en) 2006-12-12 2007-12-10 Method for calculating relevance between words based on document set and system for executing the method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060126272A KR100837751B1 (ko) 2006-12-12 2006-12-12 문서 집합을 기반으로 단어 간의 연관도를 측정하는 방법및 상기 방법을 수행하는 시스템

Publications (1)

Publication Number Publication Date
KR100837751B1 true KR100837751B1 (ko) 2008-06-13

Family

ID=39499484

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060126272A KR100837751B1 (ko) 2006-12-12 2006-12-12 문서 집합을 기반으로 단어 간의 연관도를 측정하는 방법및 상기 방법을 수행하는 시스템

Country Status (3)

Country Link
US (1) US8407233B2 (ko)
JP (1) JP2008146648A (ko)
KR (1) KR100837751B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011097053A2 (en) * 2010-02-05 2011-08-11 Microsoft Corporation Generating and presenting lateral concepts
US8150859B2 (en) 2010-02-05 2012-04-03 Microsoft Corporation Semantic table of contents for search results
US8260664B2 (en) 2010-02-05 2012-09-04 Microsoft Corporation Semantic advertising selection from lateral concepts and topics
US8983989B2 (en) 2010-02-05 2015-03-17 Microsoft Technology Licensing, Llc Contextual queries

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090171929A1 (en) * 2007-12-26 2009-07-02 Microsoft Corporation Toward optimized query suggeston: user interfaces and algorithms
JP5472640B2 (ja) * 2008-08-29 2014-04-16 日本電気株式会社 テキストマイニング装置、テキストマイニング方法、及びプログラム
US8271483B2 (en) * 2008-09-10 2012-09-18 Palo Alto Research Center Incorporated Method and apparatus for detecting sensitive content in a document
JP5786718B2 (ja) * 2010-01-19 2015-09-30 日本電気株式会社 動向情報検索装置、動向情報検索方法およびプログラム
US20110295861A1 (en) * 2010-05-26 2011-12-01 Cpa Global Patent Research Limited Searching using taxonomy
JP6042789B2 (ja) * 2013-11-15 2016-12-14 日本電信電話株式会社 プロフィール語抽出装置、プロフィール語抽出方法およびプロフィール語抽出プログラム
US11487991B2 (en) * 2019-09-04 2022-11-01 The Dun And Bradstreet Corporation Classifying business summaries against a hierarchical industry classification structure using supervised machine learning

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005250762A (ja) 2004-03-03 2005-09-15 Mitsubishi Electric Corp 辞書生成装置、辞書生成方法および辞書生成プログラム
KR20060048583A (ko) * 2004-06-30 2006-05-18 마이크로소프트 코포레이션 자동 분류 생성 방법
KR20060115261A (ko) * 2005-05-04 2006-11-08 주식회사 알에스엔 질의어에 따른 대량문서기반 성향 분석시스템
KR20060122276A (ko) * 2005-05-26 2006-11-30 주식회사 다음기술 온톨로지 자동 구축을 위한 문서로부터 개념 간의 관계추출

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU7563191A (en) * 1990-03-28 1991-10-21 John R. Koza Non-linear genetic algorithms for solving problems by finding a fit composition of functions
US5598557A (en) * 1992-09-22 1997-01-28 Caere Corporation Apparatus and method for retrieving and grouping images representing text files based on the relevance of key words extracted from a selected file to the text files
JP3408291B2 (ja) * 1993-09-20 2003-05-19 株式会社東芝 辞書作成支援装置
US5920854A (en) * 1996-08-14 1999-07-06 Infoseek Corporation Real-time document collection search engine with phrase indexing
US5870740A (en) * 1996-09-30 1999-02-09 Apple Computer, Inc. System and method for improving the ranking of information retrieval results for short queries
JP3598742B2 (ja) * 1996-11-25 2004-12-08 富士ゼロックス株式会社 文書検索装置及び文書検索方法
US6044376A (en) * 1997-04-24 2000-03-28 Imgis, Inc. Content stream analysis
JP3664874B2 (ja) * 1998-03-28 2005-06-29 松下電器産業株式会社 文書検索装置
US6216123B1 (en) * 1998-06-24 2001-04-10 Novell, Inc. Method and system for rapid retrieval in a full text indexing system
US6751621B1 (en) * 2000-01-27 2004-06-15 Manning & Napier Information Services, Llc. Construction of trainable semantic vectors and clustering, classification, and searching using trainable semantic vectors
US7113943B2 (en) * 2000-12-06 2006-09-26 Content Analyst Company, Llc Method for document comparison and selection
JP2004326565A (ja) * 2003-04-25 2004-11-18 Oki Electric Ind Co Ltd 電子文書検索装置
JP4525154B2 (ja) * 2004-04-21 2010-08-18 富士ゼロックス株式会社 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム
US7451124B2 (en) * 2005-05-12 2008-11-11 Xerox Corporation Method of analyzing documents
JP4251652B2 (ja) * 2006-06-09 2009-04-08 インターナショナル・ビジネス・マシーンズ・コーポレーション 検索装置、検索プログラムおよび検索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005250762A (ja) 2004-03-03 2005-09-15 Mitsubishi Electric Corp 辞書生成装置、辞書生成方法および辞書生成プログラム
KR20060048583A (ko) * 2004-06-30 2006-05-18 마이크로소프트 코포레이션 자동 분류 생성 방법
KR20060115261A (ko) * 2005-05-04 2006-11-08 주식회사 알에스엔 질의어에 따른 대량문서기반 성향 분석시스템
KR20060122276A (ko) * 2005-05-26 2006-11-30 주식회사 다음기술 온톨로지 자동 구축을 위한 문서로부터 개념 간의 관계추출

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
한국정보처리학회논문지B, 11B(4), pp.491-500 (2004)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011097053A2 (en) * 2010-02-05 2011-08-11 Microsoft Corporation Generating and presenting lateral concepts
WO2011097053A3 (en) * 2010-02-05 2011-11-17 Microsoft Corporation Generating and presenting lateral concepts
US8150859B2 (en) 2010-02-05 2012-04-03 Microsoft Corporation Semantic table of contents for search results
US8260664B2 (en) 2010-02-05 2012-09-04 Microsoft Corporation Semantic advertising selection from lateral concepts and topics
US8903794B2 (en) 2010-02-05 2014-12-02 Microsoft Corporation Generating and presenting lateral concepts
US8983989B2 (en) 2010-02-05 2015-03-17 Microsoft Technology Licensing, Llc Contextual queries

Also Published As

Publication number Publication date
US20080140648A1 (en) 2008-06-12
US8407233B2 (en) 2013-03-26
JP2008146648A (ja) 2008-06-26

Similar Documents

Publication Publication Date Title
KR100837751B1 (ko) 문서 집합을 기반으로 단어 간의 연관도를 측정하는 방법및 상기 방법을 수행하는 시스템
US11734233B2 (en) Method for classifying an unmanaged dataset
Wilson et al. A study of graph spectra for comparing graphs and trees
TW202029079A (zh) 異常群體識別方法及裝置
Gao et al. Accurate lithography hotspot detection based on PCA-SVM classifier with hierarchical data clustering
Maher et al. Effectiveness of different similarity measures for text classification and clustering
Shahbazi et al. A survey on techniques for identifying and resolving representation bias in data
Viegas et al. Semantically-enhanced topic modeling
Wang et al. Approximate truth discovery via problem scale reduction
Anahideh et al. Local explanations of global rankings: insights for competitive rankings
Bond et al. An unsupervised machine learning approach for ground‐motion spectra clustering and selection
Temple et al. Empirical assessment of multimorphic testing
El Moudden et al. Automatic speech analysis in patients with parkinson's disease using feature dimension reduction
Luo et al. Automatic modal parameters identification and uncertainty quantification based on block-bootstrap and multi-stage clustering under ambient excitation
Li et al. Dataset complexity assessment based on cumulative maximum scaled area under Laplacian spectrum
Batarseh et al. Pattern similarity profiling using semi-supervised learning algorithm
Callegari et al. Speedpath analysis based on hypothesis pruning and ranking
Nambiar et al. Dropping diversity of products of large US firms: Models and measures
Prakoso et al. Kernelized eigenspace based fuzzy C-means for sensing trending topics on twitter
KR100936595B1 (ko) 단어 연관도를 기반으로 카테고리 연관도를 측정하는 방법및 상기 방법을 수행하는 시스템
Ghodsi et al. Affinity clustering framework for data debiasing using pairwise distribution discrepancy
US20220237484A1 (en) Forecasting technology phase using unsupervised clustering with wardley maps
Grube et al. On a systematic test of ML-based systems: Experiments on test statistics
Esmaeilzadeh Information-Theoretic Model Diagnostics (InfoMoD)
Charron et al. Performing Transaction Synthesis through Machine Learning Models

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20110411

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20130329

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20160329

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20170328

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20190401

Year of fee payment: 12