WO2010120101A2

WO2010120101A2 - 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치

Info

Publication number: WO2010120101A2
Application number: PCT/KR2010/002280
Authority: WO
Inventors: 윤지영; 노상규
Original assignee: (주)미디어레
Priority date: 2009-04-13
Filing date: 2010-04-13
Publication date: 2010-10-21
Also published as: KR20100113423A; WO2010120101A3

Abstract

개시된 내용은 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치에 관한 것으로서, 역 벡터 공간 모델을 이용하여 키워드 추천 서비스를 제공하는 서버 컴퓨터는, 의미적으로 연관되어 있는 2개 이상의 키워드로 구성된 키워드 셋과 키워드 셋의 각 키워드가 의미하는 항목별 가중치 정보를 데이터베이스로 구축하고, 각 키워드의 항목에 대한 가중치를 기반으로 각 키워드 셋을 벡터화하고, 사용자 컴퓨터로부터 직접 작성한 글이 입력되면 형태소 분석을 통해 사용자가 작성한 글에 포함된 단어와 그 단어들의 출현빈도를 추출하고, 추출된 단어들의 출현빈도에 기초하여 가중치를 부여한 후 가중치를 기반으로 사용자가 직접 작성한 글을 벡터화하고, 벡터화된 각 키워드 셋과 사용자가 직접 작성한 글간의 유사도를 계산하며, 유사도가 높은 상위 n개의 키워드 셋으로부터 키워드를 추출하여 사용자 컴퓨터로 추천한다. 이에 따라 본 발명은 많은 문서들 중에서 입력된 키워드(질문)와 가장 근접한 문서를 찾는 벡터 공간 모델을 역으로 적용하여 여러 키워드 중에서 입력된 글과 가장 근접한 키워드를 찾아 추천함으로써, 사용자는 추천받은 키워드를 이용하여 자신이 직접 작성한 글의 키워드를 손쉽게 선택하게 된다.

Description

역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치

본 발명은 역 벡터 공간 모델(inversed vector space model)을 이용한 키워드 추천방법 및 그 장치에 관한 것이다.

일반적으로 인터넷은 전세계 어디서나, 누구나 접속하고자 하는 상대편 컴퓨터에 자유롭게 연결하여 사용할 수 있도록 구성된 개방형 네트워크로서, 기본적인 문자정보의 전달은 물론 압축기술의 발전과 더불어 멀티미디어 정보의 전달에 이용되는 등 전자 우편, 파일 전송 등의 다양한 서비스를 이용할 수 있다.

이와 같은 인터넷은 국내를 비롯하여 세계적으로 사용이 급격하게 증가하면서 기존 산업의 전 부분에 걸쳐 효율성과 생산성 제고를 위한 전략적인 도구로서 중요성이 급속히 증대하고 있으며, 인터넷을 통한 새로운 비즈니스 기회가 지속적으로 창출됨은 물론, 그 영역도 확장되고 있는 추세여서 인터넷을 이용한 사업자들도 점차 증가하고 있다.

즉, 인터넷을 통한 비즈니스의 일환으로 인터넷 광고, 인터넷 방송, 온라인 게임, 인터넷 신문/잡지, 검색 서비스, 포탈 서비스, 전자 상거래 등의 다양한 컨텐츠를 제공하는 사이트들이 급속히 증가하고 있는 것이다.

이러한 사이트들중 최근에는 많은 정보를 손쉽게 접할 수 있는 검색 서비스를 제공하는 사이트들이 많아지고 있으며, 원하는 정보를 보다 빠르고 쉽게 찾기 위한 사용자들의 이용 또한 나날이 증가하고 있다.

검색 서비스를 제공하는 사이트에서는 통상적으로 인터넷 상에 존재하는 원시데이터를 수집하여 해당 자료별로 키워드를 선정한 후 데이터베이스로 구축하고, 사용자들이 찾고자 하는 자료의 일부 키워드를 입력하여 검색을 요청하면 해당 키워드로 지정되어 있는 자료들을 사용자들에게 제공하는 형태로 서비스를 수행하고 있다.

이때 검색 서비스를 제공하는 사이트에서는 사용자들의 검색에 따라 제공되는 자료를 문서의 정확도, 중요도 등에 따라 상위의 문서들을 상위에 배치하여 사용자들에게 제공한다.

이와 같은 문서의 중요도를 분석하는 많은 방법 중에서 벡터 공간 모델(Vector Space Model)은 Term Space Model이라고도 불리우는 정보 필터링, 문서 내에서의 정보검색, 색인과 유사도를 계산하기 위한 수학모델로서, 다차원 선형공간에서의 벡터 정보를 이용하여 자연어를 포함한 문서의 중요도를 분석하기 위한 방법을 제시하고 있다.

각 문서는 그 문서가 포함하고 있는 색인단어의 벡터로 나타낼 수 있고, 문서의 유사도는 벡터에 위치한 단어들간의 거리로 계산할 수 있다는 것이 벡터 공간 모델의 대전제이며, 벡터에 위치한 단어들의 유사도는 다음의 코사인공식으로 계산한다.

그리고 연산 결과에 따라 사용자의 질의에 대하여 어느 문서가 유사한 문서인지를 확인할 수 있다. 도 1을 예로 하면, 문서 D2의 벡터가 문서 D1의 벡터보다 사용자 질의인 Q에 더 가까이 위치해 있으므로 문서 D2가 사용자 질의 Q에 대하여 보다 유사한 문서라고 할 수 있다.

벡터 공간 모델을 사용하기 위해서는 문서의 벡터 공간에 있는 단어(Term)의 가중치를 계산하고 있어야 한다.

이를 위해서 TF-IDF(Term Frequency-inverse document frequency) 모델이 주로 사용되고 있다.

TF ; 문서 벡터에 존재하는 단어의 개수

IDF ; 단어를 벡터에 포함하고 있는 모든 문서들

가중치 = TF * IDF

이때, TF가 크고, DF가 작을수록 가중치는 커진다. 그리고, 전체문서에서 공통적으로 등장하는 단어들은 걸러지게 된다. 이는 많은 문서에서 출현하는 단어는 의미가 없다는 것을 뜻한다.

그리고, 문서 d가 있다면, 벡터 d는 다음과 같다.

그러나, 상술한 바와 같은 종래의 벡터 공간 모델은, 사용자가 질문을 입력한 경우 그 질문과 가장 유사한 문서를 찾아주기 위하여 질문과 각 문서들의 거리를 측정하고, 측정된 값에 따라 질문과 유사한 문서를 사용자에게 제시하지만, 문서에 적합한 키워드를 추천하는 데는 한계가 있었다.

즉 벡터 공간 모델과 역 벡터 공간 모델을 비교하기 위한 도면인 도 2에 나타낸 바와 같이, 벡터 공간 모델은 많은 문서들 중에서 입력한 질문, 즉 키워드 셋과 가장 근접한 문서를 찾는 방식이지만, 후술되는 본 발명의 역 벡터 공간 모델에서와 같이 여러 키워드 셋 중에서 입력된 글과 가장 근접한 키워드 셋을 찾아내는 것은 아니다.

본 발명의 목적은, 데이터베이스로 구축하고 있는 여러 키워드 중에서 입력된 글과 가장 근접한 키워드를 찾아 추천하도록 하는 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치를 제공하는 데 있다.

본 발명의 다른 목적은, 키워드 셋 중 의미적으로 연관되어 있는 2개 이상의 키워드로 구성된 키워드 셋과 입력된 글에 포함된 단어들의 유사도를 계산하고, 유사도가 높은 키워드를 추천하도록 하는 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치를 제공하는 데 있다.

이러한 목적을 달성하기 위한 본 발명에 따른 역 벡터 공간 모델을 이용한 키워드 추천방법은, (1) 역 벡터 공간 모델을 이용하여 키워드 추천 서비스를 제공하는 서버 컴퓨터는, 의미적으로 연관되어 있는 2개 이상의 키워드로 구성된 키워드 셋과, 키워드 셋의 각 키워드가 의미하는 항목별 가중치 정보를 데이터베이스로 구축하고, 데이터베이스로 구축된 각 키워드의 항목에 대한 가중치를 기반으로 각 키워드 셋을 벡터화하는 단계와, (2) 서버 컴퓨터는 네트워크 통신망을 통해 접속한 사용자 컴퓨터로부터 직접 작성한 글이 입력되는지를 판단하는 단계와, (3) 사용자 컴퓨터로부터 사용자가 직접 작성한 글이 입력되면, 서버 컴퓨터는 형태소 분석을 통해 사용자가 직접 작성한 글에 포함된 단어와 그 단어들의 출현빈도를 추출하고, 추출된 단어들의 출현빈도에 기초하여 가중치를 부여하며, 가중치를 기반으로 사용자가 직접 작성한 글을 벡터화하는 단계와, (4) 서버 컴퓨터는, (1) 단계에서 벡터화된 각 키워드 셋과 (3) 단계에서 벡터화된 사용자가 직접 작성한 글을 토대로 각 키워드 셋과 사용자가 작성한 글간의 유사도를 계산하는 단계, 그리고 (5) 서버 컴퓨터는, (4) 단계를 통해 계산된 유사도가 높은 상위 n개의 키워드 셋으로부터 키워드를 추출하여 사용자 컴퓨터로 추천하는 단계를 포함한다.

또한, 본 발명에 따른 역 벡터 공간 모델을 이용한 키워드 추천장치는, 불특정 다수의 통신회선을 연결하여 상호간에 사용자가 직접 작성한 글, 키워드 추천에 관련된 데이터 통신이 이루어지도록 하는 네트워크 통신망과, 네트워크 통신망을 통해 키워드 추천 서비스를 제공하는 서버 컴퓨터와 통신 접속을 수행하고, 직접 작성한 글을 서버 컴퓨터로부터 출력하며, 사용자가 직접 작성한 글에 대한 키워드를 서버 컴퓨터로부터 추천받는 복수의 사용자 컴퓨터, 그리고 데이터베이스로 구축된 의미적으로 연관되어 있는 2개의 이상의 키워드로 구성된 키워드 셋과 키워드 셋의 각 키워드가 의미하는 항목별 가중치 정보를 기반으로 각 키워드 셋을 벡터화하고, 네트워크 통신망을 통해 접속한 사용자 컴퓨터의 회원 접속을 수행하고, 사용자 컴퓨터로부터 사용자가 직접 작성된 글이 입력되면 형태소 분석을 통해 사용자가 직접 작성한 글에 포함된 단어와 그 단어들의 출현빈도를 추출하고 추출된 단어들의 출현빈도에 기초하여 가중치를 부여한 후 가중치를 기반으로 사용자가 직접 작성한 글을 벡터화하고, 벡터화한 각 키워드 셋과 사용자가 직접 작성한 글간의 유사도를 계산하며, 유사도가 높은 상위 n개의 키워드 셋으로부터 키워드를 추출하여 사용자 컴퓨터로 추천하는 서버 컴퓨터를 포함한다.

이상에서와 같이 본 발명의 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치에 따르면, 많은 문서들 중에서 입력된 키워드(질문)와 가장 근접한 문서를 찾는 종래의 벡터 공간 모델을 역으로 적용하여 여러 키워드 중에서 입력된 글과 가장 근접한 키워드를 찾아 추천함으로써, 사용자는 추천받은 키워드를 이용하여 자신이 직접 작성한 글의 키워드를 손쉽게 선택할 수 있는 효과가 있다.

도 1은 종래의 벡터 공간 모델에 따른 사용자 질의와 각 문서의 벡터를 표시한 도면,

도 2는 벡터 공간 모델과 역 벡터 공간 모델을 비교하기 위한 도면,

도 3은 본 발명에 따른 역 벡터 공간 모델을 이용한 키워드 추천장치의 구성을 개략적으로 나타낸 블록도,

도 4는 본 발명에 따른 역 벡터 공간 모델을 이용한 키워드 추천방법의 동작과정을 나타낸 순서도,

도 5 내지 도 8은 본 발명의 역 벡터 공간 모델을 이용한 키워드 추천방법에 사용되는 키워드 셋(트리플) 데이터베이스, 항목별 가중치 테이블, 입력된 글, 입력된 글의 TF의 예를 각각 나타낸 도면,

도 9는 본 발명에 따른 잇글 키워드 추천을 위한 시스템의 구조를 개략적으로 나타낸 도면,

도 10은 변환된 키워드 인덱스와 웨이트의 예를 나타낸 표,

도 11은 keyword set의 예를 나타낸 표,

도 12는 모든 keyword set에 대하여 구해진 vector length의 예를 나타낸 표,

도 13은 잇글의 예,

도 14는 형태소분석기를 통해 추출된 도 13의 잇글의 용어와 출현빈도의 예를 나타낸 표,

도 15는 형태소 분석된 잇글의 용어의 그 가중치의 예를 나타낸 표,

도 16은 변환된 키워드 인덱스와 웨이트의 예를 나타낸 표,

도 17은 도 16의 요약된 Inverted keyword index & weight의 예를 나타낸 표,

도 18은 도 17의 유사도 계산된 결과를 나타낸 표이다.

이하, 첨부된 도면을 참조하여 본 발명의 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치를 상세하게 설명한다.

도 3은 본 발명에 따른 역 벡터 공간 모델을 이용한 키워드 추천장치의 구성을 개략적으로 나타낸 블록도이다.

도시된 바와 같이 본 발명의 키워드 추천장치는, 네트워크 통신망(100), 복수의 사용자 컴퓨터(200), 서버 컴퓨터(300) 등으로 구성된다.

네트워크 통신망(100)은 유/무선 인터넷 등의 통신망으로서, 복수의 사용자 컴퓨터(200)와 서버 컴퓨터(300)의 통신회선을 연결하여 상호간에 사용자가 직접 작성한 글, 키워드 추천에 관련된 데이터 통신이 이루어지도록 한다.

사용자 컴퓨터(200)는 네트워크 통신망(100)을 통해 키워드 추천 서비스를 제공하는 서버 컴퓨터(300)와 통신 접속을 수행하고, 사용자가 직접 작성한 글(본 발명의 다른 표현으로 '잇글'이라 표현할 수 있음)을 서버 컴퓨터(300)로부터 출력하며, 사용자가 직접 작성한 글에 대한 추천 키워드를 서버 컴퓨터(300)로부터 제공받는다.

서버 컴퓨터(300)는 의미적으로 연관되어 있는 2개 이상의 키워드로 구성된 키워드 셋과, 키워드 셋의 각 키워드가 의미하는 항목별 가중치 정보를 데이터베이스로 구축하고 있고, 항목에 대한 가중치 정보를 기반으로 각 키워드 셋을 벡터화한다. 그리고 네트워크 통신망(100)을 통해 접속한 사용자 컴퓨터(200)의 회원 로그인 또는 신규회원가입을 수행하고, 해당 사용자 컴퓨터(200)로부터 사용자가 직접 작성된 글이 입력되면 형태소 분석을 통해 사용자가 직접 작성한 글에 포함된 단어와 그 단어들의 출현빈도를 추출하고, 추출된 단어들의 출현빈도에 기초하여 가중치를 부여한 후 가중치를 기반으로 사용자가 직접 작성한 글을 벡터화한다. 그리고 벡터화한 각 키워드 셋과 사용자가 직접 작성한 글간의 유사도를 계산하며, 유사도가 높은 상위 n개의 키워드 셋으로부터 키워드를 추출하여 사용자 컴퓨터(200)로 추천한다.

서버 컴퓨터(300)는 형태소 분석수단(310), 키워드 트리플 데이터베이스(320), 가중치 데이터베이스(330), 제어수단(340) 등으로 구성된다.

형태소 분석수단(310)은 서버 컴퓨터(300)로 회원 접속을 수행한 사용자 컴퓨터(200)로부터 입력된 사용자가 직접 작성된 글에 포함되어 있는 단어와 그 단어들의 출현빈도를 추출하고, 추출 정보를 제어수단(340)으로 출력한다.

키워드 셋 데이터베이스(320)는 의미적으로 연관되어 있는 2개 이상의 키워드로 구성된 키워드 셋을 저장하고 있다.

가중치 데이터베이스(330)는 키워드 셋 데이터베이스(320)에 저장되어 있는 각 키워드 셋들의 각 키워드가 의미하는 항목별 가중치 정보를 저장하고 있다.

제어수단(340)은 키워드 셋 데이터베이스(320)에 저장되어 있는 키워드 셋과 가중치 데이터베이스(330)에 저장되어 있는 키워드 셋의 각 키워드가 의미하는 항목별 가중치 정보를 기반으로 각 키워드 셋을 벡터화하고, 회원 접속을 수행한 사용자 컴퓨터(200)로부터 사용자가 직접 작성된 글이 입력되면 형태소 분석수단(310)을 통해 사용자가 작성한 글에 포함된 단어와 그 단어들의 출현빈도를 추출하도록 제어한다. 그리고 형태소 분석수단(310)에서 추출된 단어들의 출현빈도에 기초하여 가중치를 부여한 후 가중치를 기반으로 사용자가 직접 작성한 글을 벡터화하고, 벡터화한 각 키워드 셋과 사용자가 직접 작성한 글간의 유사도를 계산하여 유사도가 높은 상위 n개의 키워드 셋으로부터 키워드를 추출하며, 중복된 키워드를 제거한 추천 키워드를 사용자 컴퓨터(200)로 출력한다.

이와 같이 구성된 본 발명에 따른 역 벡터 공간 모델을 이용한 키워드 추천방법을 도 4를 참조하여 설명하면 다음과 같다.

도 4는 본 발명에 따른 역 벡터 공간 모델을 이용한 키워드 추천방법의 동작과정을 나타낸 순서도이다.

우선, 역 벡터 공간 모델을 이용하여 키워드 추천 서비스를 제공하는 서버 컴퓨터(300)는 의미적으로 연관되어 있는 2개 이상의 키워드로 구성된 키워드 셋을 데이터베이스로 구축하고(S10), 키워드 트리플을 포함한 키워드 셋 내의 각 키워드가 의미하는 항목별 가중치 정보를 데이터베이스로 구축한다(20).

그리고 데이터베이스로 구축된 각 키워드의 항목에 대한 가중치를 기반으로 각 키워드 셋들을 벡터화한다(S30). 즉 데이터베이스로 구축된 모든 키워드 셋을 각 키워드 셋이 포함하고 있는 키워드에 기초하여 벡터화하는 것이다. 키워드 셋 내의 각 키워드마다 그것이 의미하는 항목의 유형에 대한 정보를 지니고 있으므로 가중치 테이블에 정의된 각 항목의 유형에 대한 가중치에 따라 각 키워드 셋에 가중치가 부여된다. 기존의 벡터 공간 모델에서는 단어의 출현빈도(term frequency)에 기반하여 가중치를 설정하였으나, 역 벡터 공간 모델을 이용하는 본 발명의 키워드 트리플에서는 각 키워드의 출현빈도는 무의미하므로 특정 키워드의 출현빈도가 많다고 그 키워드가 중요한 키워드라고 간주할 수 없다. 즉 각 키워드가 의미하는 항목에 대한 정보가 중요하기 때문에 각 키워드의 항목에 대한 값에 기초하여 가중치를 부여한다.

S30 단계를 통해 구해지는 키워드 셋 중 키워드 트리플의 벡터 Ti는, 다음의 식과 같이 키워드 트리플의 각 키워드의 항목에 대한 가중치의 제곱의 합의 양의 제곱근으로 구한다. 이러한 식은 모든 키워드 셋에도 적용가능하다.

상술한 S10 단계 내지 S30 단계를 통해 데이터베이스로 구축된 각 키워드의 항목에 대한 가중치를 기반으로 각 키워드 셋을 벡터화한 이후, 서버 컴퓨터(300)는 네트워크 통신망(100)을 통해 접속한 사용자 컴퓨터(200)의 회원 로그인 또는 신규회원가입을 처리하고(S40), 회원 접속을 수행한 사용자 컴퓨터(200)로부터 직접 작성한 글(잇글)이 입력되는지를 판단한다(S50).

판단결과 사용자 컴퓨터(200)로부터 사용자가 직접 작성한 글인 잇글이 입력되면, 서버 컴퓨터(300)는 형태소 분석을 통해 사용자가 직접 작성한 글에 포함된 단어와 그 단어들의 출현빈도를 추출하고(S60), 추출된 단어들의 출현빈도에 기초하여 가중치를 부여한 후 가중치를 기반으로 사용자가 직접 작성한 글을 벡터화한다(S70).

S70 단계를 통해 구해지는 사용자가 직접 작성한 글의 벡터 D는, 다음의 식과 같이 구해진다.

상술한 S60 단계와 S70 단계를 통해 사용자가 직접 작성한 글인 잇글을 벡터화한 이후, 서버 컴퓨터(300)는 S30 단계에서 벡터화된 각 키워드 셋과 S70 단계에서 벡터화된 사용자가 직접 작성한 글을 토대로 각 키워드 셋과 사용자가 작성한 글간의 유사도를 계산한다(S80).

즉 다음과 같은 코사인 공식에 의하여 유사도 계산을 수행하는 것이다.

S80 단계를 통해 벡터화된 각 키워드 셋과 사용자가 작성한 글간의 유사도를 계산한 결과를 토대로 서버 컴퓨터(300)는, 유사도가 높은 상위 n개의 키워드 셋으로부터 추천 키워드를 추출하고(S90), 추출된 추천 키워드를 네트워크 통신망(100)을 통해 사용자 컴퓨터(200)로 출력한다(S100).

이때, 유사도가 높은 상위 n개의 키워드 셋로부터 키워드를 추출하여 사용자 컴퓨터(200)로 추천할 때, 서버 컴퓨터(300)는 중복된 키워드는 제거한 후 사용자 컴퓨터(200)로 제공한다.

다음에는, 도 5 내지 도 8을 참조하여 본 발명에 따른 역 벡터 공간 모델을 이용한 키워드 추천방법의 일 실시 예를 보다 상세하게 설명한다. 이 예에서는 이해를 돕기 위해 3개의 키워드로 이루어진 키워드 트리플을 중심으로 설명한다.

도 5 내지 도 8은 본 발명의 역 벡터 공간 모델을 이용한 키워드 추천방법에 사용되는 키워드 트리플 데이터베이스, 항목별 가중치 테이블, 입력된 글, 입력된 글의 TF(출현빈도, Term Frequency)의 예를 각각 나타낸 도면이다.

우선, 도 5와 같이 키워드 1이 망토/유형은 제품이고, 키워드 2가 미니스커트/유형은 제품이고, 키워드 3이 스트랩슈즈/유형은 제품인 첫 번째 키워드 트리플과, 키워드 1이 미니스커트/유형은 제품이고, 키워드 2가 스쿨룩/유형은 스타일이고, 키워드 3이 이의정/유형은 연예인인 두 번째 키워드 트리플과, 키워드 1이 에스닉스타일/유형은 스타일이고, 키워드 2가 정려원/유형은 연예인이고, 키워드 3이 루즈핏/유형은 형용사 및 수식어인 세 번째 키워드 트리플과, 키워드 1이 망토/유형은 제품이고, 키워드 2가 루즈핏/유형은 스타일이고, 키워드 3이 크롭팬츠/유형은 제품인 네 번째 키워드 트리플과, 키워드 1이 크롭팬츠/유형은 제품이고, 키워드 2가 블루종/유형은 제품이고, 키워드 3이 스트랩슈즈/유형은 제품인 다섯 번째 키워드 트리플로 된 키워드 트리플 데이터베이스가 존재한다고 가정한다.

그리고 도 6과 같이 기사제품 항목의 가중치가 0.2, 연예인 항목의 가중치가 0.4, 매체 항목의 가중치가 0.4, 스타일 항목의 가중치가 0.4, 시즌 항목의 가중치가 0.2, 제품유형_뷰티 항목의 가중치가 0.2, 제품유형_의류 항목의 가중치가 0.2, 제품유형_패션잡화 항목의 가중치가 0.2, 브랜드 항목의 가중치가 0.3, 제품 항목의 가중치가 0.3, 색상 항목의 가중치가 0.1, 무늬 항목의 가중치가 0.1, 소재 항목의 가중치가 0.1, 장식 항목의 가중치가 0.2, 형용사 및 수식어 항목의 가중치가 0.1, 상점정보 항목의 가중치가 0.2, 기타추가정보 항목의 가중치가 0.1인 항목별 가중치 테이블이 존재한다고 가정하면, 서버 컴퓨터(300)각 키워드 트리플의 벡터 T를 다음과 같이 구할 수 있다.

이처럼 다섯 개의 키워드 트리플의 벡터 T를 구한 이후, 도 7에서와 같이 "삼순이에서의 정려원은 망토나 블루종과 같이 루즈핏 스타일을 즐겨입었다. 또한 에스닉스타일을 레이아웃해서 입어 새로운 유행을 선도했다. 정려원같이 마른 사람은 뭘 입어두 이쁘다."라는 사용자가 직접 작성한 글(잇글)이 입력되면, 서버 컴퓨터(300)는 도 8에서와 같이 사용자가 직접 작성한 글에서 형태소 분석을 통해 단어를 추출하여 각 단어의 출현빈도 TF를 구하고, 출현빈도 TF를 정규화한다.

사용자가 작성한 글은 글에 포함된 단어들의 벡터 D로 표현할 수 있는데, 이것은 다음과 같이 글에 포함된 단어들의 빈도수를 고려하여 정규화된 출현빈도(TF)의 제곱의 합의 양의 제곱근값을 구하여 얻어진다.

이후, 서버 컴퓨터(300)는 벡터화된 각 키워드 트리플과 사용자가 직접 작성한 글간의 유사도를 계산하는데, 유사도 계산을 위한 코사인 공식을 적용하기 이전에 각 키워드 트리플과 사용자가 작성한 글과의 내적(dot product)을 구하면 다음과 같다.

위와 같이 구해진 내적을 유사도 계산을 위한 코사인 공식에 적용하면, 다음과 같이 각 키워드 트리플과 사용자가 작성한 글(잇글)간의 유사도가 계산된다.

위와 같이 각 키워드 트리플과 사용자가 작성한 글(잇글)간의 유사도가 계산되면, 각 키워드 트리플의 순위는, T3 > T4 > T1, T5 > T2가 된다.

마지막으로 서버 컴퓨터(300)는 유사도가 높은 상위 2개의 키워드 트리플로부터 추천 키워드를 추출한다고 가정하면, 상술한 예에서는 세 번째와 네 번째 키워드 트리플로부터 에스닉스타일, 정려원, 루즈핏, 망토, 루즈핏, 크롭팬츠 등의 6개 키워드가 추출되고, 중복된 루즈핏 1개를 제외한 나머지 5개의 키워드인 에스닉스타일, 정려원, 루즈핏, 망토, 크롭팬츠가 사용자에게 추천된다.

다음에는, 본 발명에 따른 잇글 키워드 추천을 위한 시스템의 구조에 대하여 보다 상세하게 설명한다.

도 9는 본 발명에 따른 잇글 키워드 추천을 위한 시스템의 구조를 개략적으로 나타낸 도면이다.

1. Keyword Sets Processing

Keyword sets processing 단계에서는 inverted keyword index & weight 테이블이 만들어지며, 모든 keyword sets의 vector length가 계산된다.

(1) Inverted keyword index & weight table

Inverted keyword index & weight table은 keyword set들이 포함하고 있는 모든 키워드들에 대해서 (a) 각 키워드가 keyword set에 나타나는 빈도수 (Keyword Frequency: KF), (b) 각 키워드의 빈도수에 기초한 가중치(weight), 그리고 (c) 인덱스 정보(이 키워드들이 어떤 keyword set에 포함되어 있는지에 대한 정보)를 가진다.(도 10 참조)

이때, (b)의 keyword weight는 다음의 식으로 계산된다.

keyword weight(kw) = 0.5 + 0.5*(KF/Max KF)

(2) Keyword set vector length 계산

각 keyword set의 vector length를 구하기 위해서는 각 키워드들의 keyword weight가 필요하며, 이것은 Inverted keyword index & weight table에 포함되어 있다. 각 keyword set의 vector length는 periodic하게 갱신되며 다음의 식과 같이 계산된다.

예를 들어, 도 11과 같은 keyword set 테이블이 있을 때, 5번 keyword set의 vector length는 다음과 같이 계산된다.

모든 keyword set에 대해서 도 12와 같이 vector length를 구할 수 있다.

2. 잇글 Processing

잇글 역시 그 글에 포함된 단어들의 vector로서 표현될 수 있다. 이를 위해, '잇글 processing' 단계에서는 사용자가 웹 페이지에 입력한 잇글이 실시간으로 형태소 분석기에 의해 처리되어, 잇글이 포함한 단어와 그 단어들의 출현빈도가 추출된다.

예를 들어, 도 13의 잇글이 입력되었다고 할 때, 입력된 잇글은 도 14와 같이 형태소분석기를 통해 용어와 출현빈도가 추출된다.

3. 유사도 계산

유사도 계산을 위해서는 입력된 잇글의 벡터값과, 각 keyword set의 vector length, 그리고 잇글과 keyword set간의 내적이 계산되어야 한다. 각 keyword set의 vector length는 주기적으로 업데이트된 값이 저장되어 있고, 잇글의 벡터값은 포함된 용어와 용어빈도로 실시간으로 간단히 계산될 수 있다. 그러나 잇글과 각 keyword set 간의 내적을 계산하기 위해 잇글이 포함한 단어와 각 keyword set들의 키워드를 비교하는 것은 꽤 긴 시간을 요하므로 실시간으로 키워드를 추천하는 것은 현실적으로 불가능하다.

따라서 우선 keyword set 중에서 잇글에 있는 단어들을 2개 이상 키워드로서 포함하고 있는 keyword set 들을 우선 선택하여 이 keyword set 중에서 유사도가 높은 keyword set 을 최종적으로 선택한다. 이를 위해 keyword set 이 포함하고 있는 키워드들에 대한 inverted index 테이블이 필요한데, 이는 'keyword sets processing' 단계를 통해 이미 만들어져 있다.

형태소분석을 통해 추출된 잇글의 단어들에 대해서 그 단어들이 Inverted index 테이블에 키워드로서 존재하는지 확인하고 그것들이 어떤 keyword set 들에 포함되는지에 대한 정보를 가져온다. 여기서, 공통된 keyword set 에 존재하는 단어들은 의미적으로 연관되어있다고 판단할 수 있으며, 한 keyword set 에 잇글에 사용된 단어가 많이 포함되어 있을수록 그 keyword set 은 잇글과의 유사도가 높을 가능성이 높다고 간주할 수 있다. 따라서 잇글에 사용된 단어들을 2개 이상 키워드로서 갖고 있는 keyword set 들에 대해서만 유사도를 계산한다(만약, 잇글에 사용된 단어들을 2개이상 키워드로서 갖고 있는 keyword set이 존재하지 않는 경우, 4. 키워드 추천의 '키워드 추출' 단계로 바로 이동).

(1) 잇글 벡터 연산

'잇글 Processing' 단계를 통해 추출된 용어와 용어 출현빈도(Term frequency)는 우선 정규화하여 잇글내의 출현빈도에 기초된 가중치(Frequency weight: fw)가 만들어진다. 여기에 Inverted keyword index & weight table에 있는 각 키워드의 출현빈도를 기준으로 만들어진 가중치(keyword weight: kw)를 적용하여 다음의 식으로 잇글을 벡터화한다.

'잇글 Processing' 단계에서 제시된 예를 가지고 살펴보면, 입력된 잇글은 '잇글 Processing' 단계를 통해 잇글에 포함된 용어와 그 빈도가 추출되며, 이 빈도는 총합으로 나눔으로써 정규화할 수 있다. 추출된 각 용어는 정규화된 빈도와 그 용어가 키워드로서 keyword set 테이블에 포함되는 빈도에 기초하여 계산된 가중치(kw) 정보를 사용하여 벡터화된다.

도 15에 제시된 정보를 기준으로 입력된 잇글은 다음과 같이 벡터화된다.

(2) 유사도 계산

각 keyword set과 입력된 글과의 유사도를 다음의 코사인 공식에 의해 계산한다.

구체적으로 보면, Inverted index 테이블에 잇글에 포함된 단어들을 키워드로 포함하고 있는 keyword set 들을 조사한다. 즉, 잇글에 '송혜교', '그들만이 사는 세상', '롱니트' 라는 단어들이 포함되어 있다면, 우선 Inverted index 테이블에서 '송혜교', '그들만이사는세상', '롱니트' 라는 키워드가 keyword set 에 존재하는지를 먼저 확인하고, 존재한다면 이들이 어떤 keyword set 에 포함되었는지를 확인한다. 확인 후 잇글에 포함된 단어들이 한 keyword set에 적어도 2개 이상의 키워드로 갖고 있는 keyword set들에 대해서만 코사인값을 구하여 유사도를 비교한다(그렇지 않은 경우는 바로 '키워드 추천' 단계로 이동). 예를 들어, 송혜교가 keyword set 1, 2, 5, 12, 13, 15번에 포함되어 있고, 그들이사는세상은 keyword set 5, 12, 13, 16에, 그리고 롱니트는 keyword set 2, 12, 15에 포함되어 있다면, 2, 5, 12, 13, 15번의 keyword set 들은 잇글에 포함된 단어중 2개의 단어를 키워드로서 포함하고 있으므로 이 keyword set 들에 대해서만 유사도를 계산하여 비교한다.

유사도 계산 예

잇글에는 '송혜교', '현빈', '그들만이 사는 세상', '스타일링', '롱니트', '머플러'가 포함되어 있다. 이 단어들을 키워드로 가지고 있는 keyword set을 찾기 위해 Inverted keyword index & weight 테이블을 살펴본 결과, 도 17과 같다.

예를 들어, 그들이사는세상은 총 4개의 keyword set에 포함되어 있으며, keyword set 번호 5, 12, 13, 16에 포함되어 있음을 알려준다.

inverted keyword index & weight로부터 잇글에 포함된 모든 단어들이 어떤 keyword set에 포함되었는지를 확인할 수 있으며, 그 결과 동일한 keyword set에 포함된 단어들을 찾을 수 있다. 예를 들어 '그들이사는세상'과 '롱니트'는 keyword set 번호 12에 함께 존재함을 확인할 수 있다. 이와 같은 정보로부터 공통된 keyword set 에 존재하는 단어들은 의미적으로 연관되어 있다고 판단할 수 있으며, 한 keyword set에 잇글에 사용된 단어가 많이 포함되어 있을수록 그 keyword set은 잇글과의 유사도가 높을 가능성이 높다. 따라서 잇글에 사용된 단어들을 2개 이상 키워드로서 갖고 있는 keyword set 들에 대해서만 유사도를 계산다(잇글에 사용된 단어들을 2개이상 키워드로서 갖고 있는 keyword set 이 존재하지 않는 경우, '키워드 추천' 단계로 바로 이동). 제시된 예에서는 keyword set 번호 2, 5, 12, 13, 15, 16이 잇글에 사용된 단어들을 2개 이상 키워드로 포함하고 있다. 이들에 대해서만 유사도를 계산하며, 계산된 결과는 도 18과 같다.

4. 키워드 추천

(1) 키워드 추출

'유사도 계산' 단계에서 코사인 값, 즉 유사도 값이 계산되었으며, 그 결과 유사도 값이 큰 상위 n개의 keyword set을 추출할 수 있다. 유사도가 높은 n개의 keyword set에서 중복된 키워드를 제거하여 유니크한 키워드들을 추출한다.

'유사도 계산'의 예에서 이어서 보면, 3개의 keyword set이라고 가정하면, 유사도값의 순위가 높은 순으로 keyword set번호 15, 12, 5번이 추출된다. 여기서 중복된 키워드를 제거하고 (머플러, 송혜교, 그들이사는세상, 롱니트)의 키워드가 추출된다.

또한 만약 잇글에 사용된 단어들을 2개 이상 키워드로서 갖고 있는 keyword set이 존재하지 않는다면, 잇글에 포함된 단어가 keyword set에 키워드로서 갖는 가중치를 기준으로 용어간의 우선순위를 정한다. 예를 들어, 공통된 keyword set이 없는 상황에서 송혜교는 가중치 1, 그들이사는세상은 0.83333이라면 키워드추천에 있어서 송혜교가 그들이사는세상보다 보다 높은 우선순위를 가진다.

(2) 최종 키워드 추천

키워드 추출단계에서 선택된 유니크한 키워드들과, 윗글이 존재하는 경우 윗글에서 지정한 키워드를 사용자에게 추천한다. 이때 윗글에 지정된 키워드가 5개 이상인 경우는 앞에 있는 5개만을 가져오며, 최종적으로 윗글이 지정한 키워드와 keyword set에서 추출한 키워드가 중복되지 않도록 사용자에게 추천한다.

키워드 추출 예에서 이어서 보면, 키워드 추출과정을 통해 (머플러, 송혜교, 그들이사는세상, 롱니트)가 추출되었다. 이것과 함께 만약 키워드 추천을 하고자 하는 잇글에 윗글이 존재한다면 윗글이 지정한 키워드들 중 차례대로 최대 5개를 추출된 키워드와 함께 추천한다. 예를 들어 현재 잇글의 윗글에 (드라마, 연예인, 스타일링, 동절기, 송혜교, 구혜선, 이연희)가 키워드로 지정되었다면 사용자에게는 (머플러, 송혜교, 그들이사는세상, 롱니트, 드라마, 연예인, 스타일링, 동절기, 송혜교)가 최종적으로 잇글의 키워드로서 추천된다.

여기에서, 상술한 본 발명에서는 바람직한 실시예를 참조하여 설명하였지만, 해당 기술분야의 숙련된 당업자는 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경할 수 있음을 이해할 수 있을 것이다.

Claims

(1) 역 벡터 공간 모델을 이용하여 키워드 추천 서비스를 제공하는 서버 컴퓨터는, 의미적으로 연관되어 있는 2개 이상의 키워드로 구성된 키워드 셋과, 키워드 셋의 각 키워드가 의미하는 항목별 가중치 정보를 데이터베이스로 구축하고, 데이터베이스로 구축된 각 키워드의 항목에 대한 가중치를 기반으로 각 키워드 셋을 벡터화하는 단계,

(2) 상기 서버 컴퓨터는 네트워크 통신망을 통해 접속한 사용자 컴퓨터로부터 직접 작성한 글이 입력되는지를 판단하는 단계,

(3) 상기 사용자 컴퓨터로부터 사용자가 직접 작성한 글이 입력되면, 상기 서버 컴퓨터는 형태소 분석을 통해 사용자가 직접 작성한 글에 포함된 단어와 그 단어들의 출현빈도를 추출하고, 추출된 단어들의 출현빈도에 기초하여 가중치를 부여하며, 가중치를 기반으로 사용자가 직접 작성한 글을 벡터화하는 단계,

(4) 상기 서버 컴퓨터는, 상기 (1) 단계에서 벡터화된 각 키워드 셋과 상기 (3) 단계에서 벡터화된 사용자가 직접 작성한 글을 토대로 각 키워드 셋과 사용자가 작성한 글간의 유사도를 계산하는 단계, 그리고

(5) 상기 서버 컴퓨터는, 상기 (4) 단계를 통해 계산된 유사도가 높은 상위 n개의 키워드 셋으로부터 키워드를 추출하여 상기 사용자 컴퓨터로 추천하는 단계를

포함하는 역 벡터 공간 모델을 이용한 키워드 추천방법.
제 1 항에 있어서,

상기 (1) 단계를 통해 구해지는 각 키워드 트리플의 벡터는,

의 수학식으로 구하는 역 벡터 공간 모델을 이용한 키워드 추천방법.
제 1 항에 있어서,

상기 (3) 단계를 통해 구해지는 사용자가 직접 작성한 글의 벡터는,

의 수학식으로 구하는 역 벡터 공간 모델을 이용한 키워드 추천방법.
제 1 항에 있어서,

상기 (4) 단계에서 수행되는 유사도 계산은,

의 수학식으로 구하는 역 벡터 공간 모델을 이용한 키워드 추천방법.
제 1 항에 있어서,

상기 (5) 단계를 통해 유사도가 높은 상위 n개의 키워드 셋으로부터 키워드를 추출하여 상기 사용자 컴퓨터로 추천할 때,

중복된 키워드는 제거한 후 상기 사용자 컴퓨터로 추천하는 역 벡터 공간 모델을 이용한 키워드 추천방법.
불특정 다수의 통신회선을 연결하여 상호간에 사용자가 직접 작성한 글, 키워드 추천에 관련된 데이터 통신이 이루어지도록 하는 네트워크 통신망,

상기 네트워크 통신망을 통해 키워드 추천 서비스를 제공하는 서버 컴퓨터와 통신 접속을 수행하고, 직접 작성한 글을 서버 컴퓨터로부터 출력하며, 사용자가 직접 작성한 글에 대한 키워드를 서버 컴퓨터로부터 추천받는 복수의 사용자 컴퓨터, 그리고

데이터베이스로 구축된 의미적으로 연관되어 있는 2개 이상의 키워드로 구성된 키워드 셋(키워드 트리플 포함)과 키워드 셋의 각 키워드가 의미하는 항목별 가중치 정보를 기반으로 각 키워드 셋을 벡터화하고, 상기 네트워크 통신망을 통해 접속한 상기 사용자 컴퓨터의 회원 접속을 수행하고, 상기 사용자 컴퓨터로부터 사용자가 직접 작성된 글이 입력되면 형태소 분석을 통해 사용자가 직접 작성한 글에 포함된 단어와 그 단어들의 출현빈도를 추출하고 추출된 단어들의 출현빈도에 기초하여 가중치를 부여한 후 가중치를 기반으로 사용자가 직접 작성한 글을 벡터화하고, 벡터화한 각 키워드 셋과 사용자가 직접 작성한 글간의 유사도를 계산하며, 유사도가 높은 상위 n개의 키워드 셋으로부터 키워드를 추출하여 상기 사용자 컴퓨터로 추천하는 서버 컴퓨터를

포함하는 역 벡터 공간 모델을 이용한 키워드 추천장치.
제 6 항에 있어서,

상기 서버 컴퓨터는,

상기 사용자 컴퓨터로부터 입력된 사용자가 직접 작성된 글에 포함되어 있는 단어와 그 단어들의 출현빈도를 추출하는 형태소 분석수단,

의미적으로 연관되어 있는 2개 이상의 키워드로 구성된 키워드 셋을 저장하고 있는 키워드 셋 데이터베이스,

상기 키워드 셋 데이터베이스에 저장되어 있는 각 키워드 셋들의 각 키워드가 의미하는 항목별 가중치 정보를 저장하고 있는 가중치 데이터베이스, 그리고

상기 키워드 셋 데이터베이스에 저장되어 있는 키워드 셋과 상기 가중치 데이터베이스에 저장되어 있는 키워드 셋의 각 키워드가 의미하는 항목별 가중치 정보를 기반으로 각 키워드 셋을 벡터화하고, 회원 접속을 수행한 상기 사용자 컴퓨터로부터 사용자가 직접 작성된 글이 입력되면 상기 형태소 분석수단을 통해 사용자가 작성한 글에 포함된 단어와 그 단어들의 출현빈도를 추출하도록 제어하고, 상기 형태소 분석수단에서 추출된 단어들의 출현빈도에 기초하여 가중치를 부여한 후 가중치를 기반으로 사용자가 직접 작성한 글을 벡터화하고, 벡터화한 각 키워드 셋과 사용자가 직접 작성한 글간의 유사도를 계산하여 유사도가 높은 상위 n개의 키워드 셋으로부터 키워드를 추출하며, 중복된 키워드를 제거한 추천 키워드를 상기 사용자 컴퓨터로 출력하는 제어수단을

포함하는 역 벡터 공간 모델을 이용한 키워드 추천장치.