KR100936595B1 - 단어 연관도를 기반으로 카테고리 연관도를 측정하는 방법및 상기 방법을 수행하는 시스템 - Google Patents

단어 연관도를 기반으로 카테고리 연관도를 측정하는 방법및 상기 방법을 수행하는 시스템 Download PDF

Info

Publication number
KR100936595B1
KR100936595B1 KR1020070081885A KR20070081885A KR100936595B1 KR 100936595 B1 KR100936595 B1 KR 100936595B1 KR 1020070081885 A KR1020070081885 A KR 1020070081885A KR 20070081885 A KR20070081885 A KR 20070081885A KR 100936595 B1 KR100936595 B1 KR 100936595B1
Authority
KR
South Korea
Prior art keywords
word
category
association
degree
query
Prior art date
Application number
KR1020070081885A
Other languages
English (en)
Other versions
KR20090017269A (ko
Inventor
윤보라
김민욱
김병학
Original Assignee
엔에이치엔비즈니스플랫폼 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엔에이치엔비즈니스플랫폼 주식회사 filed Critical 엔에이치엔비즈니스플랫폼 주식회사
Priority to KR1020070081885A priority Critical patent/KR100936595B1/ko
Publication of KR20090017269A publication Critical patent/KR20090017269A/ko
Application granted granted Critical
Publication of KR100936595B1 publication Critical patent/KR100936595B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Abstract

단어 연관도를 기반으로 카테고리 연관도를 측정하는 방법 및 그 방법을 수행하는 시스템을 개시한다. 단어 연관도를 기반으로 카테고리 연관도를 측정하는 방법은, 소정의 질의어에 대하여 단어 간의 연관도에 따라 적어도 하나의 연관단어를 획득하는 단계; 상기 연관단어 각각에 대하여 카테고리를 분류하는 단계; 및, 상기 분류된 각 카테고리 별 연관도를 측정하는 단계를 포함한다.
카테고리 연관도, 단어 연관도, 카테고리 추천, 단어 추천

Description

단어 연관도를 기반으로 카테고리 연관도를 측정하는 방법 및 상기 방법을 수행하는 시스템{METHOD FOR MEASURING CATEGORY RELEVANCE BASED ON WORD ELEVANCE AND SYSTEM FOR EXECUTING THE METHOD}
본 발명은 단어 연관도 측정 시스템에 관한 것으로, 더욱 상세하게는 단어 간의 연관도를 이용하여 연관 카테고리를 결정할 수 있도록 한 단어 연관도를 기반으로 카테고리 연관도를 측정하는 방법 및 상기 방법을 수행하는 시스템에 관한 것이다.
일반적으로 사람은 사용되는 단어 간의 의미 관계를 직관적으로 파악할 수 있는 능력이 있다. 예를 들어, '축구화'와 '축구공' 간에는 서로 밀접한 관계가 있지만, '축구화'와 '자동차' 간에는 특별한 관계가 없음을 알 수 있다. 그렇기 때문에 사람들은 문서를 읽는 과정에서 이러한 문서가 어떤 단어와 연관되어 있는지를 알 수 있고, 심지어 이는 연관된 단어가 문서 내에 포함되어 있지 않은 경우에도 문서를 통해 연관된 단어를 떠올릴 수 있게 한다.
그러나 너무나 당연하게도 검색엔진 등의 컴퓨터 시스템에서는 이러한 단어 간의 의미 관계를 파악할 수 없기 때문에 어떠한 문서 집합에 대해 단어 또는 문서 를 분류하는 작업은 사람의 손을 거치지 않고서는 수행되기 불가능하고, 질의어에 대해 문서 집합에서 특정 문서를 검색하는 경우에도 질의어와 특별한 관련이 없는 즉, 단순히 질의어를 포함하기만 하는 문서를 검색 결과로서 제공하는 문제점이 있다.
만약, 이러한 단어들간의 연관된 정도를 수치화할 수 있다면 컴퓨터 시스템에서도 이러한 단어 연관도에 기초하여 단어 또는 문서를 분류할 수 있고, 문서 검색 등에 이용될 수 있다. 예를 들어, '축구화'와 '축구공' 사이의 단어 연관도를 0.95로, '축구화'와 '나이키' 간의 단어 연관도를 0.3으로 또는 '축구화'와 '자동차' 간의 단어 연관도를 0.001로 설정할 수 있다.
그러나, 상기 단어 연관도를 사람들이 직접 결정하기에는 그 분량이 너무나 광대하고, 사람에 의해 결정된 단어 연관도는 결정 단계에서 사람의 주관적인 개념이 포함되어 객관적이지 못하다는 문제점이 있다. 예를 들어, '축구화'와 '축구공' 사이의 단어 연관도를 몇으로 할 것인지에 대해서 객관적인 결정을 하기 어렵기 때문에 단어 연관도를 신뢰할 수 없다.
한편, 상기 검색엔진 등의 컴퓨터 시스템에서는 각 단어에 대하여 카테고리 별로 계층화하여 분류함으로써 그 관리 및 검색의 용이를 도모할 수 있다. 예를 들어, 카메라, 디카 등의 단어는 가전/카메라/디지털카메라의 카테고리에 저장하고 핸드폰, 컴퓨터 및 MP3플레이어 등의 단어는 각각 가전/핸드폰, 컴퓨터/주변기기 및 가전/음향/MP3 등의 카테고리에 저장될 수 있다.
기존의 컴퓨터 시스템은 질의어를 포함하는 문서나 단어를 검색 결과로서 제 공하는 방식이 일반적이었으며, 질의어에 대하여 카테고리의 연관도를 수치적으로 측정하거나 질의어에 연관된 특정 카테고리를 제공하는 검색 방식은 마련되지 않고 있다.
즉, 빠르고 객관적으로 단어 간의 단어 연관도를 측정함과 더불어 상기 단어 연관도를 이용하여 각 단어에 대한 카테고리 연관도를 측정할 수 있는 방법 및 시스템이 절실히 요구되고 있다.
본 발명은 단어 간의 연관도를 측정함과 아울러 단어 연관도를 기초로 카테고리 연관도를 측정하는 방법 및 상기 방법을 수행하기 위한 시스템을 제공한다.
본 발명은 카테고리 연관도를 측정하여 연관 카테고리를 추천하거나, 상기 연관 카테고리 내 단어를 연관단어로 추천하기 위한 카테고리 연관도 측정 방법 및 상기 방법을 수행하기 위한 시스템을 제공한다.
본 발명은 소정의 질의어에 대하여 단어 간의 연관도에 따라 적어도 하나의 연관단어를 획득하는 단계; 상기 연관단어 각각에 대하여 카테고리를 분류하는 단계; 및, 상기 분류된 각 카테고리 별 연관도를 측정하는 단계를 포함하는 카테고리 연관도 측정 방법을 제공한다.
그리고, 본 발명은 소정의 질의어에 대하여 단어 간의 연관도에 따라 적어도 하나의 연관단어를 획득하는 연관단어 획득부; 상기 연관단어 각각에 대하여 카테고리를 분류하는 카테고리 분류부; 및, 상기 분류된 각 카테고리 별로 연관도를 측정하는 카테고리 연관도 연산부를 포함하는 카테고리 연관도 측정 시스템을 제공한다.
본 발명에 따른 카테고리 연관도 측정 방법 및 상기 방법을 수행하기 위한 시스템은, 단어간의 관계를 수치화하여 이를 이용하여 단어 연관도를 측정함과 아 울러 단어 연관도를 이용하여 카테고리 연관도를 측정할 수 있다.
따라서, 본 발명에 따르면 카테고리 연관도를 기초로 사용자 질의어에 대하여 연관되는 카테고리를 추천할 수 있으며 상기 연관 카테고리 내 단어를 질의어에 대한 연관단어로 추천할 수 있다.
이하에서는, 첨부된 도면을 참조하여 본 발명에 따른 카테고리 연관도 측정 방법 및 상기 방법을 수행하기 위한 시스템을 설명한다.
도1은 본 발명에 있어 단어 연관도를 기초로 카테고리 연관도를 측정하는 방법을 도시한 도면이다.
단계(S101)에서는 단어 연관도 측정 과정을 통해 단어 간의 연관도를 측정하고 상기 단어 간의 연관도를 기초로 카테고리 연관도 측정에 필요한 적어도 하나의 연관단어를 획득한다.
상기 단계(S101)에서의 단어 연관도 측정 과정을 상세하게 설명한다. 도2는 단어 간의 연관도 측정 과정과 카테고리 연관도 측정을 위해 필요한 연관단어 획득 과정을 도시한 도면이다.
단계(S201)에서는 문서 집합이 포함하는 단어, 문서, 상기 단어에 대한 단어 분류 또는 상기 문서에 대한 문서 분류를 통해 단어 통계 정보를 획득한다.
이때, 상기 단어분류 및 상기 문서분류는 기 선정된 분류 방식을 이용하여 분류된 상기 문서 집합이 포함하는 상기 단어 또는 상기 문서의 집합을 의미할 수 있다.
이러한 단계(S201)에서 상기 단어마다 상기 단어가 등장한 횟수인 발생빈도를 측정하고 상기 단어가 다른 단어와 같이 등장한 문서의 개수인 교차빈도를 상기 단어마다 측정한다. 그리고, 상기 발생빈도 또는 상기 교차빈도에 기초하여 빈도 정보를 생성하여 상기 발생빈도, 상기 교차빈도 또는 상기 빈도 정보를 상기 단어 통계 정보로서 획득한다.
상기 빈도 정보는 상기 발생빈도 또는 상기 교차빈도를 통해 측정될 수 있는 단어-문서분류 발생빈도, 문서빈도, 문서분류빈도, 단어-단어분류 교차빈도 또는 단어-단어 결합빈도를 포함할 수 있다.
상기 단어-문서분류 발생빈도는 상기 단어마다 상기 문서분류에 속하는 문서에 등장한 횟수로서 상기 발생빈도에 기초하여 측정될 수 있다.
또한, 상기 문서빈도는 상기 단어마다 상기 단어가 등장한 문서의 개수일 수 있고, 상기 문서분류빈도는 상기 단어마다 상기 단어가 등장한 문서분류의 개수일 수 있다. 이러한 상기 문서빈도 및 상기 문서분류빈도 또한 상기 발생빈도에 기초하여 측정될 수 있다.
상기 단어-단어분류 교차빈도는 상기 단어마다 상기 단어분류에 속하는 단어와 같이 등장한 문서의 개수로서 상기 교차빈도를 이용하여 측정될 수 있고, 상기 단어-단어 결합빈도는 상기 단어에 대한 단어쌍마다 두 단어가 함께 등장한 문서의 개수, 상기 두 단어가 모두 등장하지 않는 문서의 개수 및 상기 두 단어가 각각 따로 등장하는 문서의 개수로서 상기 발생빈도에 기초하여 측정될 수 있다.
단계(S202)에서는 상기 단계(S201)에서 획득한 단어 통계 정보를 정형화하 는데, 이때, 상기 단어 통계 정보를 다차원 벡터 집합, 실수형 랜덤변수 집합, 랜덤변수의 결합확률분포 또는 이산 랜덤변수 집합으로 정형화할 수 있다.
상기 단계(S202)에서 다음 (1) 내지 (4) 중 어느 하나의 방법을 이용하여 상기 단어 통계 정보를 정형화할 수 있다.
(1) 상기 단어, 상기 문서, 상기 단어분류 또는 상기 문서분류를 다차원 공간의 독립된 각 차원을 갖는 상기 다차원 벡터 집합의 열(column)로서 설정하고, 상기 단어를 각각 상기 다차원 공간의 벡터와 대응시켜 상기 다차원 벡터 집합의 행(row)으로서 설정함으로써 상기 단어 통계 정보를 정형화한다.
(2) 상기 단어, 상기 문서, 상기 단어분류 또는 상기 문서분류를 상기 실수형 랜덤변수 집합의 열로서 설정하고, 상기 단어를 각각 실수값을 갖는 랜덤변수와 대응시켜 상기 실수형 랜덤변수 집합의 행으로서 설정함으로써 상기 단어 통계 정보를 정형화한다.
(3) 상기 결합확률분포로의 정형화 방법은 상기 단어에 대한 단어쌍마다 두 단어가 함께 등장한 문서의 개수, 상기 두 단어가 모두 등장하지 않는 문서의 개수 및 상기 두 단어가 각각 따로 등장하는 문서의 개수인 단어-단어 결합빈도에 기초하여 상기 단어쌍마다 대응되는 랜덤변수의 결합확률분포를 생성하여 상기 단어 통계 정보를 정형화한다. 이때, 단어쌍마다 대응되는 결합확률분포가 존재할 수 있고 상기 랜덤변수는 상기 단어의 발생 또는 비발생 사건만을 포함하는 행과 열의 사건 공간 상에서 정의될 수 있다.
(4) 이산 랜덤변수 집합으로의 정형화 방법은 상기 단어를 랜덤변수가 정의 된 사건 공간의 독립된 각 사건을 의미하도록 이산 랜덤변수 집합의 열로서 설정하고, 상기 단어를 이산 랜덤변수를 의미하도록 상기 이산 랜덤변수 집합의 행으로서 설정함으로써 상기 단어 통계 정보를 정형화한다. 이러한 상기 이산 랜덤변수는 상기 단어가 다른 단어와 같이 등장한 문서의 개수인 교차빈도를 이용하여 생성될 수 있고, 상기 이산 랜덤변수 집합의 각 빈도값은 임의의 문서에 존재하는 하나의 단어(행)에 대해 다른 단어(열)가 존재할 확률과 대응할 수 있다.
단계(S203)에서는 상기 단계(S202)에서 정형화된 단어 통계 정보에 기초하여 상기 단어 간의 단어 연관도를 측정한다. 이때, 상기 다차원 벡터 집합으로 정형화된 단어 통계 정보에 기초하는 경우, 상기 다차원 벡터 집합의 두 벡터에 대한 임버스 L p , 코사인 계수, 확장된 다이스 계수, 확장된 자카드 계수 또는 상관관계를 계산하여 상기 단어 연관도로서 측정할 수 있다.
한편, 상기 실수형 랜덤변수 집합으로 정형화된 단어 통계 정보에 기초하는 경우, 상기 실수형 랜덤변수 집합의 두 랜덤변수에 대해 퍼슨 상관 계수 또는 일관성을 계산하여 상기 단어 연관도로서 측정할 수 있다.
이에 더해, 상기 결합확률분포로 정형화된 단어 통계 정보에 기초하는 경우, 두 랜덤변수에 대해 상기 결합확률분포를 이용하여 자카드 계수, 다이스 계수, 오즈비, 상호정보 또는 사건별 상호정보를 계산하여 상기 단어 연관도로서 측정할 수 있다.
마지막으로, 상기 이산 랜덤변수 집합으로 정형화된 단어 통계 정보에 기초 하는 경우, 이산 랜덤변수 집합의 열이 포함하는 각 단어를 랜덤변수가 정의된 사건 공간의 독립된 각 사건으로 설정하고 상기 이산 랜덤변수 집합의 행이 포함하는 각 단어를 이산 랜덤변수로 설정할 수 있으며, 이러한 이산 랜덤변수 집합을 이용하여 상기 단어 연관도를 측정할 수 있다.
이와 같이, 상기 문서 집합과 연관된 단어, 문서, 단어분류 또는 문서분류간의 다양한 특징에 따른 빈도를 측정하여 단어 통계 정보를 생성하고 벡터, 랜덤변수, 결합확률분포 등을 이용하여 상기 단어 통계 정보를 정형화하고 해석함으로써 상기 단어 사이의 관계에 대해 수치화된 단어 연관도를 측정할 수 있다. 뿐만 아니라, 상기 단어 간의 교차빈도를 이산 랜덤변수 집합으로 이용하여 상기 단어 간의 서로 비대칭적인 단어 연관도를 측정할 수 있다.
상기 단어 연관도 측정 과정을 통해 측정된 단어 간의 연관도를 기초로 카테고리 연관도를 측정하는데 필요한 연관단어들을 획득한다. 예를 들어, 소정의 질의어에 대하여 상기 단어 연관도 측정 과정에서 측정된 상기 단어 연관도(f(w|v))가 기 설정된 연관도 이상인 단어를 수집하여 상기 질의어에 대한 연관단어로 이용할 수 있다.
다시, 도1의 단계(S102)에서는 상기 단계(S101)에서 획득한 상기 연관단어 각각에 대하여 카테고리를 분류한다. 상기 각 연관단어에 대하여 카테고리를 분류하는 방식은 광고단어를 구매하는 광고주의 구매 데이터(이하, '광고주 데이터'라 칭함) 또는 검색엔진이나 쇼핑사이트에서의 사용자의 검색 데이터(이하, '사용자 데이터'라 칭함)를 바탕으로 이루어진다.
여기서, 상기 광고주 데이터에 의한 카테고리 분류는 동일한 광고주는 동일한 카테고리의 광고단어를 구매한다는 원칙을 적용한다. 한편, 상기 사용자 데이터에 의한 카테고리 분류는 검색엔진이나 쇼핑 사이트를 통해 사용자들이 질의어를 입력하고 가장 많이 선택한 카테고리를 해당 단어의 카테고리로 지정하는 방식을 적용한다.
단계(S103)에서는 상기 단계(S102)에서 각 연관단어마다 분류한 상기 카테고리에 대하여 해당 연관단어에 대한 카테고리 연관도를 산출한다.
이때, 상기 광고주 데이터에 의하여 카테고리를 분류할 경우 각 카테고리 별로 10개 내지 20개의 광고단어를 수작업으로 선택하여 입력한 후, 나머지 모든 광고단어는 상기 원칙에 의거해서 하나의 광고단어가 특정 카테고리에 속하는 확률을 계산함으로써 카테고리 별 연관도를 산출할 수 있다.
한편, 상기 사용자 데이터에 의하여 카테고리를 분류할 경우 소정의 질의어에 대한 검색결과에서 사용자들이 상기 질의어의 카테고리로 특정 카테고리를 선택하는 확률을 계산함으로써 카테고리 별 연관도를 산출할 수 있다.
단계(S104)에서는 상기 단계(S103)에서 산출된 상기 카테고리 별 연관도를 기초로 특정 단어(질의어)에 대한 연관 카테고리를 결정할 수 있다.
도3은 연관단어 별로 카테고리를 분류하고 카테고리 연관도를 연산하는 과정을 설명하기 위해 '카메라'에 해당하는 질의어에 대한 연관단어 및 카테고리 분류표의 일례를 도시한 도면이다.
카메라(301)라는 질의어와 연관되는 단어로는 단어 간의 연관도에 따라 디 카, 렌즈, 삼각대, 폴라로이드 카메라 등 수많은 연관단어(302)들이 결정될 수 있다.
그리고, 상기 광고주 데이터 또는 사용자 데이터를 이용하여 상기 연관단어(302) 각각에 대한 카테고리(303)를 분류한다. 이때, 하나의 연관단어(302)에 대하여 적어도 하나 이상의 카테고리(303)가 존재하며 각 카테고리는 상기 광고주 데이터 또는 사용자 데이터에 의해 확률 즉, 연관도(304)가 결정된다.
예를 들어, 카메라(301)의 연관단어(302)인 '디카'는 가전/카메라/디지털 카메라, 가전/카메라/카메라용품 등의 카테고리(303)로 분류될 수 있으며 상기 가전/카메라/디지털 카메라의 카테고리와 가전/카메라/카메라용품의 카테고리는 상기 광고주 데이터 또는 사용자 데이터에 따라 서로 다른 연관도(304)를 가질 수 있다.
이와 같이, 카메라(301)에 해당하는 각 연관단어(302)마다 카테고리(303)를 분류하고 분류된 각 카테고리의 연관도(304)를 산출한다.
이어, 상기 각 연관단어(302)에 대하여 분류된 카테고리(303)를 동일 카테고리 별로 연관도(304)를 합산한다. 도3에 의하면, 동일 카테고리 별로, (1) 가전/카메라/디지털카메라 = 0.8+0.2+0.10 = 1.10, (2) 가전/카메라/카메라용품 = 0.15+0.1+0.7 = 0.95, (3) 가전/카메라/카메라렌즈 = 0.6 와 같이 각 카테고리의 연관도를 합산할 수 있다.
상기 카메라(301)와 연관된 카테고리로는 가전/카메라/디지털카메라, 가전/카메라/카메라용품, 가전/카메라/카메라렌즈 등이 있음을 알 수 있다.
또한, 질의어를 '청바지'로 할 경우 단어 간의 연관도에 따라 '청바지'에 대하여 남자 청바지, 남성 청바지, 리바이스, 일자 청바지, 리바이스 스키니진 등의 연관단어를 획득할 수 있고, 동일한 방법으로 각 연관단어를 카테고리 별로 분류하고 카테고리 연관도를 산출할 수 있다.
따라서, 소정의 질의어에 연관된 적어도 하나의 카테고리를 얻을 수 있으므로 반대로 카테고리 연관도에 따라 결정된 연관 카테고리 내 단어를 상기 질의어에 해당하는 연관단어로 추천할 수 있다.
이에 더해, 상기 합산된 카테고리 연관도 중 가장 높은 연관도를 가진 카테고리를 해당 질의어의 연관 카테고리로 최종 결정하여 상기 질의어에 대하여 상기 연관 카테고리를 추천할 수도 있다.
이와 같은 카테고리 연관도를 측정하는 방법을 수행하기 위한 카테고리 연관도 측정 시스템을 설명한다. 도4는 본 발명에 따른 카테고리 연관도 측정 시스템의 내부 구성을 도시한 도면이다.
도4에 도시한 바와 같이, 카테고리 연관도 측정 시스템(400)은 연관단어 획득부(401), 카테고리 분류부(402), 카테고리 연관도 연산부(403), 카테고리 및 단어 추천부(404)를 포함할 수 있다.
연관단어 획득부(401)는 문서 집합이 포함하는 단어, 문서, 상기 단어에 대한 단어 분류 또는 상기 문서에 대한 문서분류를 통해 단어 통계 정보를 획득하는 단어 통계 정보 획득부와, 상기 단어 통계 정보를 정형화하는 정형화부와, 상기 정형화된 단어 통계 정보에 기초하여 상기 단어 간의 단어 연관도를 측정하는 단어 연관도 측정부를 포함할 수 있다.
정형화부는 상기 단어 통계 정보를 다차원 벡터 집합, 실수형 랜덤변수 집합, 랜덤변수의 결합확률분포 또는 이산 랜덤변수 집합으로 정형화할 수 있다.
연관단어 획득부(401)는 측정된 상기 단어 간의 단어 연관도를 기초로 소정의 질의어에 대하여 단어 연관도가 기 설정된 연관도 이상인 적어도 하나의 단어를 획득하여 이들 단어를 상기 질의어에 대한 연관단어로 사용할 수 있다.
카테고리 분류부(402)는 상기 연관단어 획득부(401)에서 획득한 연관단어 각각을 카테고리 별로 분류한다. 이는 광고단어를 구매하는 광고주의 구매 데이터(광고주 데이터) 또는 검색엔진이나 쇼핑사이트에서의 사용자의 검색 데이터(사용자 데이터)를 바탕으로 분류할 수 있다.
카테고리 연관도 연산부(403)는 각 연관단어에 대한 카테고리 별 연관도를 산출한다. 이때, 카테고리 별 연관도는 상기 광고주 데이터에 의하여 카테고리를 분류할 경우 각 카테고리 별로 10개 내지 20개의 광고단어를 수작업으로 선택하여 입력한 후, 나머지 모든 광고단어는 상기 원칙에 의거해서 하나의 광고단어가 특정 카테고리에 속하는 확률을 계산함으로써 산출할 수 있다.
한편, 상기 사용자 데이터에 의하여 카테고리를 분류할 경우 소정의 질의어에 대한 검색결과에서 사용자들이 상기 질의어의 카테고리로 특정 카테고리를 선택하는 확률을 계산함으로써 카테고리 별 연관도를 산출할 수 있다.
상기 카테고리 연관도 연산부(403)는 각 연관단어에 대한 카테고리 별 연관도를 산출한 후, 산출된 상기 연관도를 동일한 카테고리 별로 합산한다.
카테고리 및 단어 추천부(404)는 카테고리 연관도 연산부(403)에서 산출된 카테고리 연관도를 이용하여 상기 질의어에 대한 연관 카테고리를 얻을 수 있다. 예를 들어, 상기 합산된 카테고리 연관도가 기 설정된 연관도 이상인 적어도 하나의 카테고리를 상기 질의어에 대한 연관 카테고리로 지정하거나, 가장 높은 연관도를 가진 하나의 카테고리를 상기 질의어에 대한 연관 카테고리로 지정할 수 있다.
따라서, 카테고리 연관도에 따라 특정 카테고리를 소정 질의어의 연관 카테고리로 추천할 수 있으며, 이에 더해 질의어에 대한 연관 카테고리를 얻을 수 있으므로 연관 카테고리 내 단어를 상기 질의어에 대한 연관단어로 안내할 수도 있다.
본 발명에 따른 단어 연관도를 기반으로 카테고리 연관도를 측정하는 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드 웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
도1은 본 발명에 따른 단어 간의 연관도를 기초로 한 카테고리 연관도 측정 방법의 전 과정을 도시한 도면이다.
도2는 카테고리 연관도 측정을 위해 필요한 연관단어 획득 과정을 도시한 도면이다.
도3은 연관단어 별로 카테고리를 분류하고 카테고리 연관도를 연산하는 과정을 설명하기 위해 '카메라'에 해당하는 질의어에 대한 연관단어 및 카테고리 분류표의 일례를 도시한 도면이다.
도4는 본 발명에 따른 카테고리 연관도 측정 시스템의 내부 구성을 도시한 도면이다.
<도면의 주요 부분에 대한 부호의 설명>
401: 연관단어 획득부
402: 카테고리 분류부
403: 카테고리 연관도 연산부
404: 카테고리 및 단어 추천부

Claims (26)

  1. 연관단어 획득부, 카테고리 분류부, 카테고리 연관도 연산부, 카테고리 및 단어 추천부를 포함한 카테고리 연관도 측정 시스템의 카테고리 연관도 측정 방법에 있어서,
    상기 연관단어 획득부에서 소정의 질의어에 대하여 단어 간의 연관도에 따라 적어도 하나의 연관단어를 획득하는 단계;
    상기 카테고리 분류부에서 상기 연관단어 각각에 대하여 카테고리를 분류하는 단계;
    상기 카테고리 연관도 연산부에서 상기 분류된 각 카테고리 별 연관도를 측정하는 단계; 및,
    상기 카테고리 및 단어 추천부에서 상기 측정된 카테고리 별 연관도를 기초로 상기 질의어에 대한 연관 카테고리를 추천하거나, 상기 연관 카테고리 내 단어를 상기 질의어에 대한 연관단어로 추천하는 단계를 포함하고,
    각 카테고리 별 연관도를 측정하는 단계는,
    상기 카테고리 별로 각 카테고리에 상기 연관단어가 속하는 연관도를 계산하는 단계와,
    상기 계산된 연관도를 동일한 카테고리 별로 합산하는 단계를 포함하는, 카테고리 연관도 측정 방법.
  2. 제1항에 있어서,
    상기 연관단어 각각에 대하여 카테고리를 분류하는 단계는,
    광고주가 구매하는 광고단어에 대한 카테고리 분류 방식에 의하여 상기 연관단어 각각에 대한 카테고리를 분류하는 단계인 것을 특징으로 하는 카테고리 연관도 측정 방법.
  3. 제2항에 있어서,
    상기 광고주에 의한 카테고리 분류 방식은,
    동일한 광고주의 경우 동일한 카테고리의 광고단어를 구매한다는 원칙에 의거하여 상기 연관단어에 해당하는 광고단어가 속하는 카테고리를 분류하는 것을 특징으로 하는 카테고리 연관도 측정 방법.
  4. 제1항에 있어서,
    상기 연관단어 각각에 대하여 카테고리를 분류하는 단계는,
    소정의 질의어에 대하여 사용자가 지정한 카테고리를 분류하는 방식에 의하여 상기 연관단어 각각에 대한 카테고리를 분류하는 단계인 것을 특징으로 하는 카테고리 연관도 측정 방법.
  5. 제4항에 있어서,
    상기 사용자에 의한 카테고리 분류 방식은,
    상기 질의어에 대한 검색 결과에서 사용자가 상기 질의어의 카테고리로 지정한 카테고리를 분류하는 것을 특징으로 하는 카테고리 연관도 측정 방법.
  6. 삭제
  7. 제1항에 있어서,
    상기 연관단어가 속하는 연관도를 계산하는 단계는,
    상기 카테고리 연관도 연산부에서 동일한 광고주의 경우 동일한 카테고리의 광고 단어를 구매한다는 원칙에 의거하여 상기 연관단어에 해당하는 광고 단어가 특정 카테고리에 속하는 확률을 산출하는 단계인 것을 특징으로 하는 카테고리 연관도 측정 방법.
  8. 제1항에 있어서,
    상기 연관단어가 속하는 연관도를 계산하는 단계는,
    상기 카테고리 연관도 연산부에서 상기 질의어에 대한 검색 결과에서 사용자가 상기 질의어의 카테고리로 특정 카테고리를 선택하는 확률을 산출하는 단계인 것을 특징으로 하는 카테고리 연관도 측정 방법.
  9. 삭제
  10. 제1항에 있어서,
    상기 연관 카테고리를 추천하는 단계는,
    상기 카테고리 연관도 연산부를 통해 측정된 카테고리 별 연관도 중 연관도가 가장 높은 카테고리를 상기 질의어의 카테고리로 추천하는 단계인 것을 특징으로 하는 카테고리 연관도 측정 방법.
  11. 제1항에 있어서,
    상기 연관단어 획득부는,
    단어 통계 정보 획득부와, 정형화부와, 단어 연관도 측정부를 포함하고,
    단어 간의 연관도에 따라 적어도 하나의 연관단어를 획득하는 단계는,
    상기 단어 통계 정보 획득부에서 문서 집합이 포함하는 단어, 문서, 상기 단어에 대한 단어분류 또는 상기 문서에 대한 문서분류를 통해 단어 통계 정보를 획득하는 단계와,
    상기 정형화부에서 상기 단어 통계 정보를 정형화하는 단계와,
    상기 단어 연관도 측정부에서 상기 정형화된 단어 통계 정보에 기초하여 상기 단어 간의 단어 연관도를 측정하는 단계를 포함하고,
    상기 질의어에 대하여 상기 단어 연관도가 기 설정된 연관도 이상인 연관단어를 획득하는 것을 특징으로 하는 카테고리 연관도 측정 방법.
  12. 제11항에 있어서,
    상기 단어 통계 정보를 정형화하는 단계는,
    상기 단어 통계 정보를 다차원 벡터 집합, 실수형 랜덤변수 집합, 랜덤변수의 결합확률분포, 이산 랜덤변수 집합 중 어느 하나로 정형화하는 것을 특징으로 하는 카테고리 연관도 측정 방법.
  13. 제12항에 있어서,
    정형화된 상기 단어 통계 정보에 기초하여 상기 단어에 대한 단어 연관도를 측정하는 단계는,
    상기 단어 통계 정보를 통해 생성된 다차원 벡터 집합이 포함하는 벡터간의 거리 또는 각도에 기초하여 상기 단어 연관도를 측정하는 단계인 것을 특징으로 하는 카테고리 연관도 측정 방법.
  14. 제12항에 있어서,
    정형화된 상기 단어 통계 정보에 기초하여 상기 단어에 대한 단어 연관도를 측정하는 단계는,
    상기 단어 통계 정보를 통해 생성된 실수형 랜덤변수 집합이 포함하는 랜덤변수 사이의 통계적 상관도에 기초하여 상기 단어 연관도를 측정하는 단계인 것을 특징으로 하는 카테고리 연관도 측정 방법.
  15. 제12항에 있어서,
    정형화된 상기 단어 통계 정보에 기초하여 상기 단어에 대한 단어 연관도를 측정하는 단계는,
    상기 단어 통계 정보를 통해 생성된 랜덤변수의 결합확률분포에서 상기 결합확률분포의 두 랜덤변수에 대한 상호정보에 기초하여 상기 단어 연관도를 측정하는 단계인 것을 특징으로 하는 카테고리 연관도 측정 방법.
  16. 제12항에 있어서,
    정형화된 상기 단어 통계 정보에 기초하여 상기 단어에 대한 단어 연관도를 측정하는 단계는,
    상기 단어 통계 정보를 통해 생성된 이산 랜덤변수 집합에서 상기 이산 랜덤변수에 대한 교차빈도에 기초하여 상기 단어 연관도를 측정하는 단계인 것을 특징으로 하는 카테고리 연관도 측정 방법.
  17. 제1항 내지 제5항, 제7항, 제8항, 제10항 내지 제16항 중 어느 한 항의 방법을 실행하기 위한 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터에서 판독 가능한 기록 매체.
  18. 소정의 질의어에 대하여 단어 간의 연관도에 따라 적어도 하나의 연관단어를 획득하는 연관단어 획득부;
    상기 연관단어 각각에 대하여 카테고리를 분류하는 카테고리 분류부;
    상기 분류된 각 카테고리 별로 연관도를 측정하는 카테고리 연관도 연산부; 및,상기 측정된 카테고리 별 연관도를 기초로 상기 질의어에 대한 연관 카테고리를 추천하거나, 상기 질의어에 대한 연관단어로 상기 연관 카테고리 내 단어를 추천하는 카테고리 및 단어 추천부를 포함하고,
    상기 카테고리 연관도 연산부는,
    상기 카테고리 별로 각 카테고리에 상기 연관단어가 속하는 연관도를 계산한 후, 상기 계산된 연관도를 동일한 카테고리 별로 합산하는 것을 특징으로 하는, 카테고리 연관도 측정 시스템.
  19. 제18항에 있어서,
    상기 카테고리 분류부는,
    동일한 광고주의 경우 동일한 카테고리의 광고 단어를 구매한다는 원칙에 의거하여 상기 연관단어에 해당하는 광고 단어가 속하는 카테고리를 분류하는 것을 특징으로 하는 카테고리 연관도 측정 시스템.
  20. 제18항에 있어서,
    상기 카테고리 분류부는,
    상기 질의어에 대한 검색 결과에서 사용자가 상기 질의어의 카테고리로 지정한 카테고리를 분류하는 것을 특징으로 하는 카테고리 연관도 측정 시스템.
  21. 삭제
  22. 제18항에 있어서,
    상기 연관단어가 속하는 연관도는,
    동일한 광고주의 경우 동일한 카테고리의 광고 단어를 구매한다는 원칙에 의거하여 상기 연관단어에 해당하는 광고 단어가 특정 카테고리에 속하는 확률로 산출하는 것을 특징으로 하는 카테고리 연관도 측정 시스템.
  23. 제18항에 있어서,
    상기 연관단어가 속하는 연관도는,
    상기 질의어에 대한 검색 결과에서 사용자가 상기 질의어의 카테고리로 특정 카테고리를 선택하는 확률로 산출하는 것을 특징으로 하는 카테고리 연관도 측정 시스템.
  24. 삭제
  25. 제18항에 있어서,
    상기 카테고리 및 단어 추전부는,
    상기 카테고리 연관도 연산부를 통해 측정된 카테고리 별 연관도 중 연관도가 가장 높은 카테고리를 상기 질의어의 카테고리로 추천하는 것을 특징으로 하는 카테고리 연관도 측정 시스템.
  26. 제18항에 있어서,
    상기 연관단어 획득부는,
    문서 집합이 포함하는 단어, 문서, 상기 단어에 대한 단어분류 또는 상기 문서에 대한 문서분류를 통해 단어 통계 정보를 획득하는 단어 통계 정보 획득부와,
    상기 단어 통계 정보를 정형화하는 정형화부와,
    상기 정형화된 단어 통계 정보에 기초하여 상기 단어 간의 단어 연관도를 측정하는 단어 연관도 측정부를 포함하고,
    상기 질의어에 대하여 상기 단어 연관도 측정부에서 측정된 단어 연관도가 기 설정된 연관도 이상인 적어도 하나의 연관단어를 획득하는 것을 특징으로 하는 카테고리 연관도 측정 시스템.
KR1020070081885A 2007-08-14 2007-08-14 단어 연관도를 기반으로 카테고리 연관도를 측정하는 방법및 상기 방법을 수행하는 시스템 KR100936595B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070081885A KR100936595B1 (ko) 2007-08-14 2007-08-14 단어 연관도를 기반으로 카테고리 연관도를 측정하는 방법및 상기 방법을 수행하는 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070081885A KR100936595B1 (ko) 2007-08-14 2007-08-14 단어 연관도를 기반으로 카테고리 연관도를 측정하는 방법및 상기 방법을 수행하는 시스템

Publications (2)

Publication Number Publication Date
KR20090017269A KR20090017269A (ko) 2009-02-18
KR100936595B1 true KR100936595B1 (ko) 2010-01-13

Family

ID=40686120

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070081885A KR100936595B1 (ko) 2007-08-14 2007-08-14 단어 연관도를 기반으로 카테고리 연관도를 측정하는 방법및 상기 방법을 수행하는 시스템

Country Status (1)

Country Link
KR (1) KR100936595B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101677096B1 (ko) * 2009-09-16 2016-11-17 네이버 주식회사 동의어 확장 검색 서비스 제공 방법 및 시스템
KR101624909B1 (ko) * 2014-12-10 2016-05-27 주식회사 와이즈넛 정규화된 키워드 가중치에 기반한 연관 키워드 추출 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060006377A (ko) * 2004-07-16 2006-01-19 정의신 웹 사이트에서의 1차 키워드 검색에 대해 관련성 있는 2차키워드의 리스트를 제공하는 방법 및 장치
KR20060025726A (ko) * 2004-09-17 2006-03-22 주식회사 코난테크놀로지 내용 기반 분류를 이용한 웹사이트 광고 제공 방법 및 그시스템
KR20060045786A (ko) * 2004-04-15 2006-05-17 마이크로소프트 코포레이션 키워드와 웹 사이트 콘텐츠 사이의 관련성 검증
KR20060115261A (ko) * 2005-05-04 2006-11-08 주식회사 알에스엔 질의어에 따른 대량문서기반 성향 분석시스템

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060045786A (ko) * 2004-04-15 2006-05-17 마이크로소프트 코포레이션 키워드와 웹 사이트 콘텐츠 사이의 관련성 검증
KR20060006377A (ko) * 2004-07-16 2006-01-19 정의신 웹 사이트에서의 1차 키워드 검색에 대해 관련성 있는 2차키워드의 리스트를 제공하는 방법 및 장치
KR20060025726A (ko) * 2004-09-17 2006-03-22 주식회사 코난테크놀로지 내용 기반 분류를 이용한 웹사이트 광고 제공 방법 및 그시스템
KR20060115261A (ko) * 2005-05-04 2006-11-08 주식회사 알에스엔 질의어에 따른 대량문서기반 성향 분석시스템

Also Published As

Publication number Publication date
KR20090017269A (ko) 2009-02-18

Similar Documents

Publication Publication Date Title
US11176272B2 (en) Methods, systems, articles of manufacture and apparatus to privatize consumer data
US10430727B1 (en) Systems and methods for privacy-preserving generation of models for estimating consumer behavior
US7668826B2 (en) Predicting apparatus, predicting method, and computer product
KR100970335B1 (ko) 사용자의 관심 키워드를 업데이트 하는 방법과 그 방법을수행하기 위한 시스템
KR100837751B1 (ko) 문서 집합을 기반으로 단어 간의 연관도를 측정하는 방법및 상기 방법을 수행하는 시스템
WO2018040069A1 (zh) 信息推荐系统及方法
KR101897080B1 (ko) 의료 기록 문서에서의 의료 단어의 연관 규칙 생성 방법 및 그 장치
US20160004757A1 (en) Data management method, data management device and storage medium
KR20090033989A (ko) 위치정보를 기반으로 한 지역정보 광고 방법과 상기 방법을수행하기 위한 시스템
KR102464783B1 (ko) 소비자의 비정형 평가 정보를 이용한 소비자 니즈 분석 방법 및 장치
CN111125376B (zh) 知识图谱生成方法、装置、数据处理设备及存储介质
US20150120634A1 (en) Information processing device, information processing method, and program
JP2013058192A (ja) 区画を評価するシステム、方法、及びコンピュータプログラム製品
JP2018073429A (ja) 検索装置、検索方法および検索プログラム
Liu et al. Inferring gender and age of customers in shopping malls via indoor positioning data
WO2022111095A1 (zh) 一种产品推荐方法、装置、计算机存储介质及系统
JP5373743B2 (ja) 類似ユーザ抽出方法、類似ユーザ抽出装置、類似ユーザ抽出プログラム
JPWO2017203672A1 (ja) アイテム推奨方法、アイテム推奨プログラムおよびアイテム推奨装置
JP2017182724A (ja) アイテム推薦プログラム、アイテム推薦方法およびアイテム推薦装置
JP7041299B1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
KR100936595B1 (ko) 단어 연관도를 기반으로 카테고리 연관도를 측정하는 방법및 상기 방법을 수행하는 시스템
JP6198708B2 (ja) 評価生成装置、評価生成方法および評価生成プログラム
KR20100038344A (ko) 위치정보를 기반으로 한 지역정보 광고 방법과 상기 방법을 수행하기 위한 시스템
JP6310529B1 (ja) 検索装置、検索方法および検索プログラム
JP7143599B2 (ja) メタデータ評価装置、メタデータ評価方法、およびメタデータ評価プログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
N231 Notification of change of applicant
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130102

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20131231

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20151223

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20170102

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20180102

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20190102

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20200102

Year of fee payment: 11