KR20130091392A

KR20130091392A - 키워드 추천 장치 및 그 방법

Info

Publication number: KR20130091392A
Application number: KR1020120012622A
Authority: KR
Inventors: 황규백; 주상훈
Original assignee: 숭실대학교산학협력단
Priority date: 2012-02-08
Filing date: 2012-02-08
Publication date: 2013-08-19
Also published as: KR101382069B1

Abstract

본 발명은 키워드 추천 장치 및 그 방법에 관한 것으로, 본 발명의 일 실시예에 따른 키워드 추천 장치는, 문서 또는 사용자와 관련된 복수의 키워드 집합을 이용하여 상기 문서에 대한 복수의 후보 키워드를 설정하는 후보 키워드 설정부와, 설정된 상기 복수의 후보 키워드 각각에 대한 복수의 특징 벡터의 중요도 값을 연산하는 중요도 연산부와, 기 설정된 평가 척도를 기준으로 진화 알고리즘을 이용하여 상기 복수의 특징 벡터의 가중치를 연산하는 가중치 연산부와, 상기 복수의 후보 키워드 중에서 상기 복수의 특징 벡터의 중요도 값에 상기 가중치를 부여한 값이 기 설정된 순위 내에 포함되는 후보 키워드를 추천 키워드로 결정하는 추천 키워드 결정부를 포함한다.
이와 같이 본 발명에 따르면, 진화 알고리즘을 이용하여 후보 키워드에 대한 가중치를 계산하여 키워드를 결정함으로써 사용자에게 최적의 키워드를 추천할 수 있다.

Description

키워드 추천 장치 및 그 방법{APPARATUS AND METHOD FOR RECOMMENDING KEYWORD}

본 발명은 키워드 추천 장치 및 그 방법에 관한 것으로, 더욱 상세하게는 진화 알고리즘을 이용한 키워드 추천 기술이 개시된다.

소셜 북마킹(social bookmarking) 시스템은 사용자가 북마크를 저장하고 공유할 수 있는 플랫폼을 제공하는 웹 기반(web-based) 시스템으로 폭소노미(folksonomy)를 이용한 대표적인 웹 2.0 서비스이다. 웹 2.0에 대한 명확한 정의는 없으나, 웹 2.0은 매쉬업, 블로그, 위키, 피드, 태깅, 사용자 제작 출판물, 소셜 네트워킹과 같은 몇몇 특징과 연관된다. 이에 따라 웹은 Ajax, SOAP, REST, XML 등과 같은 몇몇 기술들에 의해 보다 동적이고 창의적, 생산적인 공간이 되었다.

웹 2.0의 다양한 특징들 가운데 소셜 네트워킹 시스템은 가장 대표적인 어플리케이션 중 하나로, 사용자가 그들의 생각, 활동, 관심을 공유하여 웹에서 그들의 사회적 관계를 형성하도록 지원해 준다. Facebook, Youtube, Delicious, Twitter와 같은 소셜 네트워킹 시스템은 이미 우리에게 잘 알려져 있다. 대부분의 소셜 네트워킹 시스템은 사용자가 업로드 과정에 있을 때 그들의 자원에 일련의 태그를 할당하도록 지원해준다. 태그는 자원에 대한 추가적인 설명을 제공하는 메타데이터이다.

폭소노미는 이러한 태그의 집합체로, 자원을 범주화하고, 항해하고, 검색하는데 사용될 수 있다. 이는 태그의 집합체일 뿐 아니라 방대한 사용자의 참여로 만들어진 유연하고 확장 가능한 지식이다. 폭소노미는 전통적인 범주화 방법인 택소노미와 몇몇 다른점이 있다. 잘 정의된 단어들과 계층적 구조는 택소노미를 대표하는 반면, 자유로운 텍스트와 비 계층적인 구조는 폭소노미를 대표한다. 그러나 이 둘은 상호 보완적으로 관련되어 있다. 폭소노미는 웹 2.0의 큰 장점 중 하나인 소셜 네트워킹의 집단지성 표현의 한 종류이다.

태그 추천 시스템은 폭소노미의 훼손을 방지하며, 태그의 오용을 피하는데 필요하다. 또한 사용자가 업로드를 할 때 부담이 되고 대기 시간이 필요한 태깅 과정에 있어 적절한 태그의 집합을 제공함으로써 사용자를 도와줄 수 있다. 따라서, 단순히 문서 내의 단어의 출현 빈도 등에 의한 단순한 키워드 추천이 아닌 보다 정확한 키워드 추천을 제공하는 방법이 필요하게 되었다.

본 발명의 배경이 된 기술은 대한민국 등록특허공보 제10-1060594호(2011. 08. 24)에 기재되어 있다.

본 발명이 이루고자 하는 기술적인 과제는, 진화 알고리즘을 이용하여 후보 키워드에 대한 가중치를 계산하여 사용자에게 최적의 키워드를 추천하는 기술을 제공하기 위함이다.

본 발명의 일 실시예에 따른 키워드 추천 장치는, 문서 또는 사용자와 관련된 복수의 키워드 집합을 이용하여 상기 문서에 대한 복수의 후보 키워드를 설정하는 후보 키워드 설정부와, 설정된 상기 복수의 후보 키워드 각각에 대한 복수의 특징 벡터의 중요도 값을 연산하는 중요도 연산부와, 기 설정된 평가 척도를 기준으로 진화 알고리즘을 이용하여 상기 복수의 특징 벡터의 가중치를 연산하는 가중치 연산부와, 상기 복수의 후보 키워드 중에서 상기 복수의 특징 벡터의 중요도 값에 상기 가중치를 부여한 값이 기 설정된 순위 내에 포함되는 후보 키워드를 추천 키워드로 결정하는 추천 키워드 결정부를 포함한다.

또한, 상기 복수의 키워드 집합은, 상기 문서에 포함된 단어가 키워드로 설정된 문서 키워드 집합, 상기 문서에 대해 타 사용자에 의해 기 설정된 타 사용자 키워드 집합 및 다른 문서에 대해 동일 사용자에 의해 기 설정된 동일 사용자 키워드 집합 중 적어도 하나를 포함할 수 있다.

또한, 상기 복수의 특징 벡터는, 상기 문서 키워드 집합에 대응하는 특징 벡터, 상기 타 사용자 키워드 집합에 대응하는 특징 벡터, 상기 동일 사용자 키워드 집합에 대응하는 특징 벡터, 상기 복수의 후보 키워드의 출현 빈도 특징 벡터 및 상기 복수의 후보 키워드 간의 동시 출현 빈도 특징 벡터 중 적어도 하나를 포함할 수 있다.

또한, 상기 문서 키워드 집합에 대응하는 특징 벡터의 중요도 값(IV_DS(k))은 다음의 수학식을 이용하여 연산될 수 있다:

여기서, C(k, p)는 문서 p에 대한 키워드 k의 합계, AR(k)는 키워드 k의 정확도를 나타낸다.

또한, 상기 타 사용자 키워드 집합에 대응하는 특징 벡터의 중요도 값(IV_RS(k))은 다음의 수학식을 이용하여 연산될 수 있다:

여기서, 타 사용자가 키워드를 설정한 문서 p에서 키워드 k가 출현하는 경우, Th(k, p)는 1의 값을 가지고, 이외의 경우에는 0의 값을 가진다.

또한, 상기 동일 사용자 키워드 집합에 대응하는 특징 벡터의 중요도 값(IV_US(k))은 다음의 수학식을 이용하여 연산될 수 있다:

여기서, 동일 사용자가 키워드를 설정한 문서 p에서 키워드 k가 출현하는 경우, Th(k, p)는 1의 값을 가지고, 이외의 경우에는 0의 값을 가진다.

또한, 상기 복수의 후보 키워드의 출현 빈도 특징 벡터의 중요도 값(F_TF(k))은 다음의 수학식을 이용하여 연산될 수 있다:

여기서, 상기 문서 p에서 키워드 k가 출현하는 경우, Th(k, p)는 1의 값을 가지고, 이외의 경우에는 0의 값을 가지며, 상기 문서 p에서 학습 문서에 포함된 키워드 t가 출현하는 경우, Th(k, t)는 1의 값을 가지고, 이외의 경우에는 0의 값을 가진다.

또한, 상기 평가 척도는, 조화 평균값(F1), 재현율, 정확률 중 적어도 하나를 포함할 수 있다.

본 발명의 또 다른 실시예에 따른 키워드 추천 장치를 이용한 문서에 대한 키워드 추천 방법은, 상기 문서 또는 사용자와 관련된 복수의 키워드 집합을 이용하여 상기 문서에 대한 복수의 후보 키워드를 설정하는 단계와, 설정된 상기 복수의 후보 키워드 각각에 대한 복수의 특징 벡터의 중요도 값을 연산하는 단계와, 기 설정된 평가 척도를 기준으로 진화 알고리즘을 이용하여 상기 복수의 특징 벡터의 가중치를 연산하는 단계와, 상기 복수의 후보 키워드 중에서 상기 복수의 특징 벡터의 중요도 값에 상기 가중치를 부여한 값이 기 설정된 순위 내에 포함되는 후보 키워드를 추천 키워드로 결정하는 단계를 포함한다.

이와 같이 본 발명에 따르면, 진화 알고리즘을 이용하여 후보 키워드에 대한 가중치를 계산하여 키워드를 결정함으로써 사용자에게 최적의 키워드를 추천할 수 있다.

도 1은 본 발명의 실시예에 따른 키워드 추천 장치의 구성도,
도 2는 도 1에 따른 키워드 추천 장치를 통해 구현되는 키워드 추천 방법의 흐름도,
도 3은 도 2에 따른 키워드 추천 방법의 성능을 다른 방법과 비교 설명하기 위한 예시도이다.

이하, 첨부된 도면들을 참조하여 본 발명의 실시예를 상세하게 설명한다. 사용되는 용어들은 실시예에서의 기능을 고려하여 선택된 용어들로서, 그 용어의 의미는 사용자, 운용자의 의도 또는 판례 등에 따라 달라질 수 있다. 그러므로 후술하는 실시예들에서 사용된 용어의 의미는, 본 명세서에 구체적으로 정의된 경우에는 그 정의에 따르며, 구체적인 정의가 없는 경우는 당업자들이 일반적으로 인식하는 의미로 해석되어야 할 것이다.

도 1은 본 발명의 실시예에 따른 키워드 추천 장치의 구성도이고, 도 2는 도 1에 따른 키워드 추천 장치를 통해 구현되는 키워드 추천 방법의 흐름도이다.

도 1 및 도 2를 참조하면, 본 발명의 실시예에 다른 키워드 추천 장치(100)는 후보 키워드 설정부(110), 키워드 DB(115), 중요도 연산부(120), 가중치 연산부(130), 추천 키워드 결정부(140)를 포함한다.

후보 키워드 설정부(110)는 문서 또는 사용자와 관련된 복수의 키워드 집합을 이용하여 문서에 대한 복수의 후보 키워드를 설정한다(S210). 여기서, 문서는 웹 게시물 내의 북마크 테이블의 URL(Uniform Resource Locator)주소, 서술, 그리고 확장된 서술의 열과 BibTeX 테이블의 저널, 책 제목, 서술, 그리고 제목 열을 포함하는 개념을 나타내며, 키워드는 태그, 색인어를 포함하는 의미로 사용된다. 기본적으로 공백으로 구분되는 문서의 서술에 나타나는 모든 단어는 후보 키워드로 설정될 수 있다.

또한, 복수의 키워드 집합은 문서에 포함된 모든 단어가 키워드로 설정된 문서 키워드 집합, 문서에 대해 타 사용자에 의해 기 설정된 타 사용자 키워드 집합 및 다른 문서에 대해 동일 사용자에 의해 기 설정된 동일 사용자 키워드 집합을 포함하며, 각각의 키워드 집합은 대상 문서 또는 사용자와 관련성이 있다. 이러한 복수의 키워드 집합은 키워드 DB(115)에 저장되며, 후보 키워드 설정부(110)는 이들 키워드 집합으로부터 후보 키워드를 설정하게 된다.

다음으로, 중요도 연산부(120)는 설정된 복수의 후보 키워드 각각에 대한 복수의 특징 벡터의 중요도 값을 연산한다(S220). 설정된 복수의 후보 키워드는 자신의 중요도 값을 가지며, 중요도 값은 해당 키워드가 얼마나 중요한지를 수치적으로 나타낸다. 후보 키워드의 중요도 값을 구하기 위해 사용되는 후보 키워드(k)의 정확도 비율(AR(k))과 출현 빈도 비율(FR(k))은 다음의 수학식 1 및 수학식 2를 통해 계산할 수 있다.

수학식 1에서, P는 전체 문서의 집합을, p는 대상 문서를 나타내고, C(k, p)는 대상 문서 p에 대한 키워드 k의 합계를 나타내고, MC(k, p)는 대상 문서 p의 키워드 k와 문서(p⁵)의 키워드가 매칭되어 연산된 합계를 나타낸다.

수학식 2에서, C(k, p)는 대상 문서 p에 대한 키워드 k의 합계를 나타내고, TC(p)는 대상 문서 p에 포함되는 키워드의 합계를 나타낸다.

또한, 후보 키워드는 복수의 특징 벡터로 구성되며, 복수의 특징 벡터는 문서 키워드 집합에 대응하는 특징 벡터, 타 사용자 키워드 집합에 대응하는 특징 벡터, 동일 사용자 키워드 집합에 대응하는 특징 벡터, 복수의 후보 키워드의 출현 빈도 특징 벡터, 복수의 후보 키워드 간의 동시 출현 빈도 특징 벡터 중 적어도 하나를 포함한다.

문서 키워드 집합(DS)에 대응하는 특징 벡터는 문서에 포함되는 모든 단어에 대한 특징 벡터이며, 이 경우 빈 공간, 불용어(stopword), 기호와 같이 의미상 불필요한 요소가 제거된 키워드 집합을 말한다. 예를 들어, 문서 키워드 집합에 대응하는 특징 벡터의 중요도 값(IV_DS(k))은 다음의 수학식 3을 이용하여 계산할 수 있다.

수학식 3에서, C(k, p)는 대상 문서 p에 대한 키워드 k의 합계, AR(k)는 키워드 k의 정확도 비율을 나타내며, 앞서 설명한 수학식 1을 이용하여 계산할 수 있다.

한편, 타 사용자 키워드 집합(RS)에 대응하는 특징 벡터는 대상 문서에 대해 다른 사용자에 의해 기 설정된 키워드 집합의 특성을 나타낸다. 예를 들어, 타 사용자 키워드 집합에 대응하는 특징 벡터의 중요도 값(IV_RS(k))은 다음의 수학식 4를 이용하여 계산할 수 있다.

수학식 4에서, 타 사용자가 키워드를 설정한 문서 p에서 키워드 k가 출현하는 경우, Th(k, p)는 1의 값을 가지고, 이외의 경우에는 0의 값을 가진다.

한편, 동일 사용자 키워드 집합(US)은 동일 사용자가 대상 문서와 별개인 문서에 대해 이전에 설정한 키워드 집합의 특성을 나타낸다. 예를 들어, 동일 사용자 키워드 집합에 대응하는 특징 벡터의 중요도 값(IV_US(k))은 다음의 수학식 5를 이용하여 계산할 수 있다.

수학식 5에서, 동일 사용자가 키워드를 설정한 문서 p에서 키워드 k가 출현하는 경우, Th(k, p)는 1의 값을 가지고, 이외의 경우에는 0의 값을 가진다.

한편, 수학식 3 내지 수학식 5의 계산식은 다음의 수학식 6을 이용하여 정규화될 수 있다.

수학식 6에서, F_DS(k)는 문서 키워드 집합(DS)에 대응하는 특징 벡터의 중요도 값(IV_DS(k))을 정규화한 값이고, F_RS(k)는 타 사용자 키워드 집합(RS)에 대응하는 특징 벡터의 중요도 값(IV_RS(k))을 정규화한 값이며, F_US(k)는 동일 사용자 키워드 집합(US)에 대응하는 특징 벡터의 중요도 값(IV_US(k))을 정규화한 값이다.

한편, 복수의 후보 키워드의 출현 빈도 특징 벡터는 후보 키워드 중 반복적으로 출현하는 빈도의 특성을 의미한다. 예를 들어, 복수의 후보 키워드의 출현 빈도 특징 벡터의 중요도 값(F_TF(k))은 다음의 수학식 7을 이용하여 계산할 수 있다.

여기서, 문서 p에서 키워드 k가 출현하는 경우, Th(k, p)는 1의 값을 가지고, 이외의 경우에는 0의 값을 가지며, 문서 p에서 학습 문서에 포함된 키워드 t가 출현하는 경우, Th(k, t)는 1의 값을 가지고, 이외의 경우에는 0의 값을 가진다.

한편, 복수의 후보 키워드 간의 동시 출현 빈도 특징 벡터는 연합 정보를 이용하여 두 후보 키워드가 문서 내에서 같이 출현하는 빈도의 특성을 의미한다. 또한, 복수의 후보 키워드 간의 동시 출현 빈도 특징 벡터의 중요도 값은 지지도(support, F_SP(k)), 신뢰도(confidence, F_CF(k)) 및 향상도(lift, F_LT(k))를 포함한다.

지지도(F_SP(k))는 두 개의 키워드를 포함하는 처리의 비율로 정의되고, 그 값의 범위는 0에서 1로 설정되며, 그 값이 높을수록 키워드 간의 관련성이 높음을 나타낸다. 그러나 실제 연관성이 높을지라도 처리의 횟수가 전체 처리의 횟수와 비교했을 때 너무 작으면 지지도 값이 작게 나올 수 있다.

신뢰도(F_CF(k))는 지지도의 단점을 극복하는 또 하나의 개념이다. 이 값 또한 처리의 비율로 정의되지만 전체 처리에 비해 DS와 RS 후보 키에 대해 보다 상대적인 빈도를 갖는다. 0부터 1을 범위로 갖고, 그 중 큰 값은 또한 더 높은 관련성을 나타낸다.

향상도(F_LT(k))는 두 태그가 독립적인지 여부를 결정할 수 있는 기준이다. 값이 1인 경우엔 두 태그가 독립적이 된다. 1보다 큰 값은 양의 상관 관계를 나타내고, 1보다 작은 값은 음의 상관 관계를 나타낸다. 두 태그가 독립적일 경우 0을, 양의 상관 관계에 대해선 양수를, 음의 상관 관계에 대해선 음수를 갖도록 하기 위해 위의 두 방법과 달리 log 함수를 적용하였다.

예를 들어, 지지도(F_SP(k)), 신뢰도(F_CF(k)) 및 향상도(F_LT(k))는 다음의 수학식 8을 이용하여 계산할 수 있다.

수학식 8의 지지도(F_SP(k)), 신뢰도(F_CF(k)) 및 향상도(F_LT(k))는 키워드 집합(K*)은 문서에 포함된 모든 단어가 키워드로 설정된 문서 키워드 집합 및 문서에 대해 타 사용자에 의해 기 설정된 타 사용자 키워드 집합과 모든 후보키 사이에서 연산될 수 있다.

다음으로, 가중치 연산부(130)는 기 설정된 평가 척도를 기준으로 진화 알고리즘을 이용하여 복수의 특징 벡터의 가중치를 연산한다(S230). 평가 척도는 조화 평균값(F1-measure), 재현율(recall), 정확률(precision) 중 적어도 하나를 포함할 수 있다. 진화 알고리즘(evolutionary algorithms) 자연세계의 진화과정을 컴퓨터상에서 시뮬레이션함으로써 복잡한 실세계의 문제를 해결하고자 하는 계산모델이다. 진화 알고리즘은 구조가 간단하고 방법이 일반적이어서 응용범위가 매우 넓으며, 특히 적응적 탐색과 학습 및 최적화를 통한 공학적인 문제의 해결에 많이 이용되고 있다. 또한, 최근에는 신경망, 퍼지 로직과의 결합으로 그 응용범위는 점점 늘어나고 있는 추세이다.

또한, 가중치 연산부(130)는 다음의 수학식 9를 이용하여 가중치 벡터(w)를 최적화 시킨다.

여기서 K_p는 문서 p에서 추출된 후보 키워드의 집합을 나타낸고, F1@5는 다섯 개의 추천 키워드에 대한 F1 값을 나타낸다. 또한, Top5(K_p, w)는 가중치가 부여된 값이 최대로 설정되는 후보 키워드 다섯 개의 값으로, 다음의 수학식 10을 이용하여 구할 수 있다.

수학식 10에서, |FS(k)|는 후보 키워드(k)의 특징 벡터(FS(k))의 크기를 나타내며, 후보 키워드의 특징 벡터(FS(k))는 다음의 수학식 11과 같이 나타낼 수 있다.

수학식 11에서, F_DS(k)는 문서에 포함된 모든 단어가 키워드로 설정된 문서 키워드 집합(DS)에 대응하는 특징 벡터, F_RS(k)는 타 사용자 키워드 집합(RS)에 대응하는 특징 벡터, F_US(k)는 동일 사용자 키워드 집합(US)에 대응하는 특징 벡터, F_TF(k)는 복수의 후보 키워드의 출현 빈도(TF)에 대응하는 특징 벡터, 복수의 후보 키워드 간의 동시 출현 빈도 특징 벡터 중 지지도(F_SP(k)), 신뢰도(F_CF(k)) 및 향상도(F_LT(k))에 대응하는 특징 벡터를 나타낸다.

다음으로, 추천 키워드 결정부(140)는 복수의 후보 키워드 중 복수의 특징 벡터의 중요도 값에 가중치를 부여한 값이 기 설정된 순위 내에 포함되는 후보 키워드를 추천 키워드로 결정한다(S240). 즉, 조화 평균값(F1-measure), 재현율(recall), 정확률(precision) 중 적어도 하나의 평가 척도가 설정된 경우, 그 평가 척도 값이 사용자 설정에 따른 순위 내에 해당하는 후보 키워드를 추천 키워드로 결정한다. 앞의 수학식 9의 경우 F1 값을 평가 척도로 하여 상위 5개의 후보 키워드를 추천 키워드를 결정할 수 있다.

Bookmark (id=7937554)
URL	http://www.youtube.com/watch?v=9hIAjrMHTv4
Description	YouTube - History of the Internet
True Tags	history, internet, video
Recommended tags
Evolutionary algorithms	youtube, video , bookmarks, history , internet
Multilayer preceptrons	youtube, bookmarks, video , music, ee

표 1은 7937554의 아이디를 가지는 북마크에 대한 추천 키워드의 예를 보여준다. 대상 문서는 'http://www.youtube.com/watch?v=9hIAjrMHTv4'이라는 URL 주소를 가지며, 해당 주소의 문서는 유튜브에서 제공하는 인터넷의 역사에 대한 비디오이다. 이 경우, 정확한 키워드 'history', 'internet', 'video'이며, 본 발명의 실시예에 따른 진화 알고리즘을 적용한 결과 추천 키워드는 'youtube', ' video ', 'bookmarks', ' history ', ' internet '이며, 정확한 키워드를 모두 추천한 반면, 다층의 퍼셉트론 방식의 경우 추천 키워드가 'youtube' 'bookmarks', ' video ', 'music'으로 나타나 정확도가 떨어짐을 알 수 있다.

도 3은 도 2에 따른 키워드 추천 방법의 성능을 다른 방법과 비교 설명하기 위한 예시도이다.

본 발명의 실시예에 따른 키워드 추천 방법을 평가하기 위해 빕소노미로부터 얻은 실제 소셜 북마킹 데이터를 사용하였다. 또한, 자바 진화 알고리즘 패키지인 JGAP7 패키지와 다층 퍼셉트론, 의사 결정 트리, 로지스틱 회귀분석, 나이브 베이즈, 최근접 이웃 등의 기계 학습 알고리즘이 구현되어 있는 WEKA8 패키지를 사용하였다.

도 3을 참조하면, 재현율, 정밀도, F1-척도에 관한 다른 기계 학습 기법 간의 성능 측정을 보여준다. 진화 알고리즘은 다른 기계 학습 기법 가운데 최고의 성능을 나타냈다. 최근접 이웃 방법은 가장 나쁜 성능을 나타냈다. 이러한 결과가 나온 주된 이유는 진화 알고리즘은 F1-척도와 같은 성능 척도를 직접 최적화할 수 있는 반면, 다른 방법들은 그렇지 못하기 때문이다.

이와 같이 본 발명의 실시예에 따르면, 진화 알고리즘을 이용하여 후보 키워드에 대한 가중치를 계산하여 키워드를 결정함으로써 사용자에게 최적의 키워드를 추천할 수 있다.

이상에서 본 발명은 도면을 참조하면서 기술되는 바람직한 실시예를 중심으로 설명되었지만 이에 한정되는 것은 아니다. 따라서 본 발명은 기재된 실시예로부터 도출 가능한 자명한 변형예를 포괄하도록 의도된 특허청구범위의 기재에 의해 해석되어져야 한다.

100 : 키워드 추천 장치
110 : 후보 키워드 설정부
115 : 키워드 DB
120 : 중요도 연산부
130 : 가중치 연산부
140 : 추천 키워드 결정부

Claims

문서 또는 사용자와 관련된 복수의 키워드 집합을 이용하여 상기 문서에 대한 복수의 후보 키워드를 설정하는 후보 키워드 설정부;
설정된 상기 복수의 후보 키워드 각각에 대한 복수의 특징 벡터의 중요도 값을 연산하는 중요도 연산부;
기 설정된 평가 척도를 기준으로 진화 알고리즘을 이용하여 상기 복수의 특징 벡터의 가중치를 연산하는 가중치 연산부; 및
상기 복수의 후보 키워드 중에서 상기 복수의 특징 벡터의 중요도 값에 상기 가중치를 부여한 값이 기 설정된 순위 내에 포함되는 후보 키워드를 추천 키워드로 결정하는 추천 키워드 결정부를 포함하는 키워드 추천 장치.
제1항에 있어서,
상기 복수의 키워드 집합은,
상기 문서에 포함된 단어가 키워드로 설정된 문서 키워드 집합, 상기 문서에 대해 타 사용자에 의해 기 설정된 타 사용자 키워드 집합 및 다른 문서에 대해 동일 사용자에 의해 기 설정된 동일 사용자 키워드 집합 중 적어도 하나를 포함하는 키워드 추천 장치.
제2항에 있어서,
상기 복수의 특징 벡터는,
상기 문서 키워드 집합에 대응하는 특징 벡터, 상기 타 사용자 키워드 집합에 대응하는 특징 벡터, 상기 동일 사용자 키워드 집합에 대응하는 특징 벡터, 상기 복수의 후보 키워드의 출현 빈도 특징 벡터 및 상기 복수의 후보 키워드 간의 동시 출현 빈도 특징 벡터 중 적어도 하나를 포함하는 연산하는 키워드 추천 장치.
제3항에 있어서,
상기 문서 키워드 집합에 대응하는 특징 벡터의 중요도 값(IV_DS(k))은 다음의 수학식을 이용하여 연산되는 키워드 추천 장치:

여기서, C(k, p)는 문서 p에 대한 키워드 k의 합계, AR(k)는 키워드 k의 정확도를 나타낸다.
제3항에 있어서,
상기 타 사용자 키워드 집합에 대응하는 특징 벡터의 중요도 값(IV_RS(k))은 다음의 수학식을 이용하여 연산되는 키워드 추천 장치:

여기서, 타 사용자가 키워드를 설정한 문서 p에서 키워드 k가 출현하는 경우, Th(k, p)는 1의 값을 가지고, 이외의 경우에는 0의 값을 가진다.
제3항에 있어서,
상기 동일 사용자 키워드 집합에 대응하는 특징 벡터의 중요도 값(IV_US(k))은 다음의 수학식을 이용하여 연산되는 키워드 추천 장치:

여기서, 동일 사용자가 키워드를 설정한 문서 p에서 키워드 k가 출현하는 경우, Th(k, p)는 1의 값을 가지고, 이외의 경우에는 0의 값을 가진다.
제3항에 있어서,
상기 복수의 후보 키워드의 출현 빈도 특징 벡터의 중요도 값(F_TF(k))은 다음의 수학식을 이용하여 연산되는 키워드 추천 장치:

여기서, 상기 문서 p에서 키워드 k가 출현하는 경우, Th(k, p)는 1의 값을 가지고, 이외의 경우에는 0의 값을 가지며, 상기 문서 p에서 학습 문서에 포함된 키워드 t가 출현하는 경우, Th(k, t)는 1의 값을 가지고, 이외의 경우에는 0의 값을 가진다.
제1항에 있어서,
상기 평가 척도는,
조화 평균값(F1), 재현율, 정확률 중 적어도 하나를 포함하는 키워드 추천 장치.
키워드 추천 장치를 이용한 문서에 대한 키워드 추천 방법에 있어서,
상기 문서 또는 사용자와 관련된 복수의 키워드 집합을 이용하여 상기 문서에 대한 복수의 후보 키워드를 설정하는 단계;
설정된 상기 복수의 후보 키워드 각각에 대한 복수의 특징 벡터의 중요도 값을 연산하는 단계;
기 설정된 평가 척도를 기준으로 진화 알고리즘을 이용하여 상기 복수의 특징 벡터의 가중치를 연산하는 단계; 및
상기 복수의 후보 키워드 중에서 상기 복수의 특징 벡터의 중요도 값에 상기 가중치를 부여한 값이 기 설정된 순위 내에 포함되는 후보 키워드를 추천 키워드로 결정하는 단계를 포함하는 키워드 추천 방법.
제9항에 있어서,
상기 복수의 키워드 집합은,
상기 문서에 포함된 단어가 키워드로 설정된 문서 키워드 집합, 상기 문서에 대해 타 사용자에 의해 기 설정된 타 사용자 키워드 집합 및 다른 문서에 대해 동일 사용자에 의해 기 설정된 동일 사용자 키워드 집합 중 적어도 하나를 포함하는 키워드 추천 방법.
제10항에 있어서,
상기 복수의 특징 벡터는,
상기 문서 키워드 집합에 대응하는 특징 벡터, 상기 타 사용자 키워드 집합에 대응하는 특징 벡터, 상기 동일 사용자 키워드 집합에 대응하는 특징 벡터, 상기 복수의 후보 키워드의 출현 빈도 특징 벡터 및 상기 복수의 후보 키워드 간의 동시 출현 빈도 특징 벡터 중 적어도 하나를 포함하는 연산하는 키워드 추천 방법.
제11항에 있어서,
상기 문서 키워드 집합에 대응하는 특징 벡터의 중요도 값(IV_DS(k))은 다음의 수학식을 이용하여 연산되는 키워드 추천 방법:

여기서, C(k, p)는 문서 p에 대한 키워드 k의 합계, AR(k)는 키워드 k의 정확도를 나타낸다.
제11항에 있어서,
상기 타 사용자 키워드 집합에 대응하는 특징 벡터의 중요도 값(IV_RS(k))은 다음의 수학식을 이용하여 연산되는 키워드 추천 방법:

여기서, 타 사용자가 키워드를 설정한 문서 p에서 키워드 k가 출현하는 경우, Th(k, p)는 1의 값을 가지고, 이외의 경우에는 0의 값을 가진다.
제11항에 있어서,
상기 동일 사용자 키워드 집합에 대응하는 특징 벡터의 중요도 값(IV_US(k))은 다음의 수학식을 이용하여 연산되는 키워드 추천 방법:

여기서, 동일 사용자가 키워드를 설정한 문서 p에서 키워드 k가 출현하는 경우, Th(k, p)는 1의 값을 가지고, 이외의 경우에는 0의 값을 가진다.
제11항에 있어서,
상기 복수의 후보 키워드의 출현 빈도 특징 벡터의 중요도 값(F_TF(k))은 다음의 수학식을 이용하여 연산되는 키워드 추천 방법:

여기서, 상기 문서 p에서 키워드 k가 출현하는 경우, Th(k, p)는 1의 값을 가지고, 이외의 경우에는 0의 값을 가지며, 상기 문서 p에서 학습 문서에 포함된 키워드 t가 출현하는 경우, Th(k, t)는 1의 값을 가지고, 이외의 경우에는 0의 값을 가진다.
제9항에 있어서,
상기 평가 척도는,
조화 평균값(F1), 재현율, 정확률 중 적어도 하나를 포함하는 키워드 추천 방법.