KR20130091392A - 키워드 추천 장치 및 그 방법 - Google Patents

키워드 추천 장치 및 그 방법 Download PDF

Info

Publication number
KR20130091392A
KR20130091392A KR1020120012622A KR20120012622A KR20130091392A KR 20130091392 A KR20130091392 A KR 20130091392A KR 1020120012622 A KR1020120012622 A KR 1020120012622A KR 20120012622 A KR20120012622 A KR 20120012622A KR 20130091392 A KR20130091392 A KR 20130091392A
Authority
KR
South Korea
Prior art keywords
keyword
document
value
feature vector
importance
Prior art date
Application number
KR1020120012622A
Other languages
English (en)
Other versions
KR101382069B1 (ko
Inventor
황규백
주상훈
Original Assignee
숭실대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 숭실대학교산학협력단 filed Critical 숭실대학교산학협력단
Priority to KR1020120012622A priority Critical patent/KR101382069B1/ko
Publication of KR20130091392A publication Critical patent/KR20130091392A/ko
Application granted granted Critical
Publication of KR101382069B1 publication Critical patent/KR101382069B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 키워드 추천 장치 및 그 방법에 관한 것으로, 본 발명의 일 실시예에 따른 키워드 추천 장치는, 문서 또는 사용자와 관련된 복수의 키워드 집합을 이용하여 상기 문서에 대한 복수의 후보 키워드를 설정하는 후보 키워드 설정부와, 설정된 상기 복수의 후보 키워드 각각에 대한 복수의 특징 벡터의 중요도 값을 연산하는 중요도 연산부와, 기 설정된 평가 척도를 기준으로 진화 알고리즘을 이용하여 상기 복수의 특징 벡터의 가중치를 연산하는 가중치 연산부와, 상기 복수의 후보 키워드 중에서 상기 복수의 특징 벡터의 중요도 값에 상기 가중치를 부여한 값이 기 설정된 순위 내에 포함되는 후보 키워드를 추천 키워드로 결정하는 추천 키워드 결정부를 포함한다.
이와 같이 본 발명에 따르면, 진화 알고리즘을 이용하여 후보 키워드에 대한 가중치를 계산하여 키워드를 결정함으로써 사용자에게 최적의 키워드를 추천할 수 있다.

Description

키워드 추천 장치 및 그 방법{APPARATUS AND METHOD FOR RECOMMENDING KEYWORD}
본 발명은 키워드 추천 장치 및 그 방법에 관한 것으로, 더욱 상세하게는 진화 알고리즘을 이용한 키워드 추천 기술이 개시된다.
소셜 북마킹(social bookmarking) 시스템은 사용자가 북마크를 저장하고 공유할 수 있는 플랫폼을 제공하는 웹 기반(web-based) 시스템으로 폭소노미(folksonomy)를 이용한 대표적인 웹 2.0 서비스이다. 웹 2.0에 대한 명확한 정의는 없으나, 웹 2.0은 매쉬업, 블로그, 위키, 피드, 태깅, 사용자 제작 출판물, 소셜 네트워킹과 같은 몇몇 특징과 연관된다. 이에 따라 웹은 Ajax, SOAP, REST, XML 등과 같은 몇몇 기술들에 의해 보다 동적이고 창의적, 생산적인 공간이 되었다.
웹 2.0의 다양한 특징들 가운데 소셜 네트워킹 시스템은 가장 대표적인 어플리케이션 중 하나로, 사용자가 그들의 생각, 활동, 관심을 공유하여 웹에서 그들의 사회적 관계를 형성하도록 지원해 준다. Facebook, Youtube, Delicious, Twitter와 같은 소셜 네트워킹 시스템은 이미 우리에게 잘 알려져 있다. 대부분의 소셜 네트워킹 시스템은 사용자가 업로드 과정에 있을 때 그들의 자원에 일련의 태그를 할당하도록 지원해준다. 태그는 자원에 대한 추가적인 설명을 제공하는 메타데이터이다.
폭소노미는 이러한 태그의 집합체로, 자원을 범주화하고, 항해하고, 검색하는데 사용될 수 있다. 이는 태그의 집합체일 뿐 아니라 방대한 사용자의 참여로 만들어진 유연하고 확장 가능한 지식이다. 폭소노미는 전통적인 범주화 방법인 택소노미와 몇몇 다른점이 있다. 잘 정의된 단어들과 계층적 구조는 택소노미를 대표하는 반면, 자유로운 텍스트와 비 계층적인 구조는 폭소노미를 대표한다. 그러나 이 둘은 상호 보완적으로 관련되어 있다. 폭소노미는 웹 2.0의 큰 장점 중 하나인 소셜 네트워킹의 집단지성 표현의 한 종류이다.
태그 추천 시스템은 폭소노미의 훼손을 방지하며, 태그의 오용을 피하는데 필요하다. 또한 사용자가 업로드를 할 때 부담이 되고 대기 시간이 필요한 태깅 과정에 있어 적절한 태그의 집합을 제공함으로써 사용자를 도와줄 수 있다. 따라서, 단순히 문서 내의 단어의 출현 빈도 등에 의한 단순한 키워드 추천이 아닌 보다 정확한 키워드 추천을 제공하는 방법이 필요하게 되었다.
본 발명의 배경이 된 기술은 대한민국 등록특허공보 제10-1060594호(2011. 08. 24)에 기재되어 있다.
본 발명이 이루고자 하는 기술적인 과제는, 진화 알고리즘을 이용하여 후보 키워드에 대한 가중치를 계산하여 사용자에게 최적의 키워드를 추천하는 기술을 제공하기 위함이다.
본 발명의 일 실시예에 따른 키워드 추천 장치는, 문서 또는 사용자와 관련된 복수의 키워드 집합을 이용하여 상기 문서에 대한 복수의 후보 키워드를 설정하는 후보 키워드 설정부와, 설정된 상기 복수의 후보 키워드 각각에 대한 복수의 특징 벡터의 중요도 값을 연산하는 중요도 연산부와, 기 설정된 평가 척도를 기준으로 진화 알고리즘을 이용하여 상기 복수의 특징 벡터의 가중치를 연산하는 가중치 연산부와, 상기 복수의 후보 키워드 중에서 상기 복수의 특징 벡터의 중요도 값에 상기 가중치를 부여한 값이 기 설정된 순위 내에 포함되는 후보 키워드를 추천 키워드로 결정하는 추천 키워드 결정부를 포함한다.
또한, 상기 복수의 키워드 집합은, 상기 문서에 포함된 단어가 키워드로 설정된 문서 키워드 집합, 상기 문서에 대해 타 사용자에 의해 기 설정된 타 사용자 키워드 집합 및 다른 문서에 대해 동일 사용자에 의해 기 설정된 동일 사용자 키워드 집합 중 적어도 하나를 포함할 수 있다.
또한, 상기 복수의 특징 벡터는, 상기 문서 키워드 집합에 대응하는 특징 벡터, 상기 타 사용자 키워드 집합에 대응하는 특징 벡터, 상기 동일 사용자 키워드 집합에 대응하는 특징 벡터, 상기 복수의 후보 키워드의 출현 빈도 특징 벡터 및 상기 복수의 후보 키워드 간의 동시 출현 빈도 특징 벡터 중 적어도 하나를 포함할 수 있다.
또한, 상기 문서 키워드 집합에 대응하는 특징 벡터의 중요도 값(IVDS(k))은 다음의 수학식을 이용하여 연산될 수 있다:
Figure pat00001
여기서, C(k, p)는 문서 p에 대한 키워드 k의 합계, AR(k)는 키워드 k의 정확도를 나타낸다.
또한, 상기 타 사용자 키워드 집합에 대응하는 특징 벡터의 중요도 값(IVRS(k))은 다음의 수학식을 이용하여 연산될 수 있다:
Figure pat00002
여기서, 타 사용자가 키워드를 설정한 문서 p에서 키워드 k가 출현하는 경우, Th(k, p)는 1의 값을 가지고, 이외의 경우에는 0의 값을 가진다.
또한, 상기 동일 사용자 키워드 집합에 대응하는 특징 벡터의 중요도 값(IVUS(k))은 다음의 수학식을 이용하여 연산될 수 있다:
Figure pat00003
여기서, 동일 사용자가 키워드를 설정한 문서 p에서 키워드 k가 출현하는 경우, Th(k, p)는 1의 값을 가지고, 이외의 경우에는 0의 값을 가진다.
또한, 상기 복수의 후보 키워드의 출현 빈도 특징 벡터의 중요도 값(FTF(k))은 다음의 수학식을 이용하여 연산될 수 있다:
Figure pat00004
여기서, 상기 문서 p에서 키워드 k가 출현하는 경우, Th(k, p)는 1의 값을 가지고, 이외의 경우에는 0의 값을 가지며, 상기 문서 p에서 학습 문서에 포함된 키워드 t가 출현하는 경우, Th(k, t)는 1의 값을 가지고, 이외의 경우에는 0의 값을 가진다.
또한, 상기 평가 척도는, 조화 평균값(F1), 재현율, 정확률 중 적어도 하나를 포함할 수 있다.
본 발명의 또 다른 실시예에 따른 키워드 추천 장치를 이용한 문서에 대한 키워드 추천 방법은, 상기 문서 또는 사용자와 관련된 복수의 키워드 집합을 이용하여 상기 문서에 대한 복수의 후보 키워드를 설정하는 단계와, 설정된 상기 복수의 후보 키워드 각각에 대한 복수의 특징 벡터의 중요도 값을 연산하는 단계와, 기 설정된 평가 척도를 기준으로 진화 알고리즘을 이용하여 상기 복수의 특징 벡터의 가중치를 연산하는 단계와, 상기 복수의 후보 키워드 중에서 상기 복수의 특징 벡터의 중요도 값에 상기 가중치를 부여한 값이 기 설정된 순위 내에 포함되는 후보 키워드를 추천 키워드로 결정하는 단계를 포함한다.
이와 같이 본 발명에 따르면, 진화 알고리즘을 이용하여 후보 키워드에 대한 가중치를 계산하여 키워드를 결정함으로써 사용자에게 최적의 키워드를 추천할 수 있다.
도 1은 본 발명의 실시예에 따른 키워드 추천 장치의 구성도,
도 2는 도 1에 따른 키워드 추천 장치를 통해 구현되는 키워드 추천 방법의 흐름도,
도 3은 도 2에 따른 키워드 추천 방법의 성능을 다른 방법과 비교 설명하기 위한 예시도이다.
이하, 첨부된 도면들을 참조하여 본 발명의 실시예를 상세하게 설명한다. 사용되는 용어들은 실시예에서의 기능을 고려하여 선택된 용어들로서, 그 용어의 의미는 사용자, 운용자의 의도 또는 판례 등에 따라 달라질 수 있다. 그러므로 후술하는 실시예들에서 사용된 용어의 의미는, 본 명세서에 구체적으로 정의된 경우에는 그 정의에 따르며, 구체적인 정의가 없는 경우는 당업자들이 일반적으로 인식하는 의미로 해석되어야 할 것이다.
도 1은 본 발명의 실시예에 따른 키워드 추천 장치의 구성도이고, 도 2는 도 1에 따른 키워드 추천 장치를 통해 구현되는 키워드 추천 방법의 흐름도이다.
도 1 및 도 2를 참조하면, 본 발명의 실시예에 다른 키워드 추천 장치(100)는 후보 키워드 설정부(110), 키워드 DB(115), 중요도 연산부(120), 가중치 연산부(130), 추천 키워드 결정부(140)를 포함한다.
후보 키워드 설정부(110)는 문서 또는 사용자와 관련된 복수의 키워드 집합을 이용하여 문서에 대한 복수의 후보 키워드를 설정한다(S210). 여기서, 문서는 웹 게시물 내의 북마크 테이블의 URL(Uniform Resource Locator)주소, 서술, 그리고 확장된 서술의 열과 BibTeX 테이블의 저널, 책 제목, 서술, 그리고 제목 열을 포함하는 개념을 나타내며, 키워드는 태그, 색인어를 포함하는 의미로 사용된다. 기본적으로 공백으로 구분되는 문서의 서술에 나타나는 모든 단어는 후보 키워드로 설정될 수 있다.
또한, 복수의 키워드 집합은 문서에 포함된 모든 단어가 키워드로 설정된 문서 키워드 집합, 문서에 대해 타 사용자에 의해 기 설정된 타 사용자 키워드 집합 및 다른 문서에 대해 동일 사용자에 의해 기 설정된 동일 사용자 키워드 집합을 포함하며, 각각의 키워드 집합은 대상 문서 또는 사용자와 관련성이 있다. 이러한 복수의 키워드 집합은 키워드 DB(115)에 저장되며, 후보 키워드 설정부(110)는 이들 키워드 집합으로부터 후보 키워드를 설정하게 된다.
다음으로, 중요도 연산부(120)는 설정된 복수의 후보 키워드 각각에 대한 복수의 특징 벡터의 중요도 값을 연산한다(S220). 설정된 복수의 후보 키워드는 자신의 중요도 값을 가지며, 중요도 값은 해당 키워드가 얼마나 중요한지를 수치적으로 나타낸다. 후보 키워드의 중요도 값을 구하기 위해 사용되는 후보 키워드(k)의 정확도 비율(AR(k))과 출현 빈도 비율(FR(k))은 다음의 수학식 1 및 수학식 2를 통해 계산할 수 있다.
Figure pat00005
수학식 1에서, P는 전체 문서의 집합을, p는 대상 문서를 나타내고, C(k, p)는 대상 문서 p에 대한 키워드 k의 합계를 나타내고, MC(k, p)는 대상 문서 p의 키워드 k와 문서(p5)의 키워드가 매칭되어 연산된 합계를 나타낸다.
Figure pat00006
수학식 2에서, C(k, p)는 대상 문서 p에 대한 키워드 k의 합계를 나타내고, TC(p)는 대상 문서 p에 포함되는 키워드의 합계를 나타낸다.
또한, 후보 키워드는 복수의 특징 벡터로 구성되며, 복수의 특징 벡터는 문서 키워드 집합에 대응하는 특징 벡터, 타 사용자 키워드 집합에 대응하는 특징 벡터, 동일 사용자 키워드 집합에 대응하는 특징 벡터, 복수의 후보 키워드의 출현 빈도 특징 벡터, 복수의 후보 키워드 간의 동시 출현 빈도 특징 벡터 중 적어도 하나를 포함한다.
문서 키워드 집합(DS)에 대응하는 특징 벡터는 문서에 포함되는 모든 단어에 대한 특징 벡터이며, 이 경우 빈 공간, 불용어(stopword), 기호와 같이 의미상 불필요한 요소가 제거된 키워드 집합을 말한다. 예를 들어, 문서 키워드 집합에 대응하는 특징 벡터의 중요도 값(IVDS(k))은 다음의 수학식 3을 이용하여 계산할 수 있다.
Figure pat00007
수학식 3에서, C(k, p)는 대상 문서 p에 대한 키워드 k의 합계, AR(k)는 키워드 k의 정확도 비율을 나타내며, 앞서 설명한 수학식 1을 이용하여 계산할 수 있다.
한편, 타 사용자 키워드 집합(RS)에 대응하는 특징 벡터는 대상 문서에 대해 다른 사용자에 의해 기 설정된 키워드 집합의 특성을 나타낸다. 예를 들어, 타 사용자 키워드 집합에 대응하는 특징 벡터의 중요도 값(IVRS(k))은 다음의 수학식 4를 이용하여 계산할 수 있다.
Figure pat00008
수학식 4에서, 타 사용자가 키워드를 설정한 문서 p에서 키워드 k가 출현하는 경우, Th(k, p)는 1의 값을 가지고, 이외의 경우에는 0의 값을 가진다.
한편, 동일 사용자 키워드 집합(US)은 동일 사용자가 대상 문서와 별개인 문서에 대해 이전에 설정한 키워드 집합의 특성을 나타낸다. 예를 들어, 동일 사용자 키워드 집합에 대응하는 특징 벡터의 중요도 값(IVUS(k))은 다음의 수학식 5를 이용하여 계산할 수 있다.
Figure pat00009
수학식 5에서, 동일 사용자가 키워드를 설정한 문서 p에서 키워드 k가 출현하는 경우, Th(k, p)는 1의 값을 가지고, 이외의 경우에는 0의 값을 가진다.
한편, 수학식 3 내지 수학식 5의 계산식은 다음의 수학식 6을 이용하여 정규화될 수 있다.
Figure pat00010
수학식 6에서, FDS(k)는 문서 키워드 집합(DS)에 대응하는 특징 벡터의 중요도 값(IVDS(k))을 정규화한 값이고, FRS(k)는 타 사용자 키워드 집합(RS)에 대응하는 특징 벡터의 중요도 값(IVRS(k))을 정규화한 값이며, FUS(k)는 동일 사용자 키워드 집합(US)에 대응하는 특징 벡터의 중요도 값(IVUS(k))을 정규화한 값이다.
한편, 복수의 후보 키워드의 출현 빈도 특징 벡터는 후보 키워드 중 반복적으로 출현하는 빈도의 특성을 의미한다. 예를 들어, 복수의 후보 키워드의 출현 빈도 특징 벡터의 중요도 값(FTF(k))은 다음의 수학식 7을 이용하여 계산할 수 있다.
Figure pat00011
여기서, 문서 p에서 키워드 k가 출현하는 경우, Th(k, p)는 1의 값을 가지고, 이외의 경우에는 0의 값을 가지며, 문서 p에서 학습 문서에 포함된 키워드 t가 출현하는 경우, Th(k, t)는 1의 값을 가지고, 이외의 경우에는 0의 값을 가진다.
한편, 복수의 후보 키워드 간의 동시 출현 빈도 특징 벡터는 연합 정보를 이용하여 두 후보 키워드가 문서 내에서 같이 출현하는 빈도의 특성을 의미한다. 또한, 복수의 후보 키워드 간의 동시 출현 빈도 특징 벡터의 중요도 값은 지지도(support, FSP(k)), 신뢰도(confidence, FCF(k)) 및 향상도(lift, FLT(k))를 포함한다.
지지도(FSP(k))는 두 개의 키워드를 포함하는 처리의 비율로 정의되고, 그 값의 범위는 0에서 1로 설정되며, 그 값이 높을수록 키워드 간의 관련성이 높음을 나타낸다. 그러나 실제 연관성이 높을지라도 처리의 횟수가 전체 처리의 횟수와 비교했을 때 너무 작으면 지지도 값이 작게 나올 수 있다.
신뢰도(FCF(k))는 지지도의 단점을 극복하는 또 하나의 개념이다. 이 값 또한 처리의 비율로 정의되지만 전체 처리에 비해 DS와 RS 후보 키에 대해 보다 상대적인 빈도를 갖는다. 0부터 1을 범위로 갖고, 그 중 큰 값은 또한 더 높은 관련성을 나타낸다.
향상도(FLT(k))는 두 태그가 독립적인지 여부를 결정할 수 있는 기준이다. 값이 1인 경우엔 두 태그가 독립적이 된다. 1보다 큰 값은 양의 상관 관계를 나타내고, 1보다 작은 값은 음의 상관 관계를 나타낸다. 두 태그가 독립적일 경우 0을, 양의 상관 관계에 대해선 양수를, 음의 상관 관계에 대해선 음수를 갖도록 하기 위해 위의 두 방법과 달리 log 함수를 적용하였다.
예를 들어, 지지도(FSP(k)), 신뢰도(FCF(k)) 및 향상도(FLT(k))는 다음의 수학식 8을 이용하여 계산할 수 있다.
Figure pat00012
수학식 8의 지지도(FSP(k)), 신뢰도(FCF(k)) 및 향상도(FLT(k))는 키워드 집합(K*)은 문서에 포함된 모든 단어가 키워드로 설정된 문서 키워드 집합 및 문서에 대해 타 사용자에 의해 기 설정된 타 사용자 키워드 집합과 모든 후보키 사이에서 연산될 수 있다.
다음으로, 가중치 연산부(130)는 기 설정된 평가 척도를 기준으로 진화 알고리즘을 이용하여 복수의 특징 벡터의 가중치를 연산한다(S230). 평가 척도는 조화 평균값(F1-measure), 재현율(recall), 정확률(precision) 중 적어도 하나를 포함할 수 있다. 진화 알고리즘(evolutionary algorithms) 자연세계의 진화과정을 컴퓨터상에서 시뮬레이션함으로써 복잡한 실세계의 문제를 해결하고자 하는 계산모델이다. 진화 알고리즘은 구조가 간단하고 방법이 일반적이어서 응용범위가 매우 넓으며, 특히 적응적 탐색과 학습 및 최적화를 통한 공학적인 문제의 해결에 많이 이용되고 있다. 또한, 최근에는 신경망, 퍼지 로직과의 결합으로 그 응용범위는 점점 늘어나고 있는 추세이다.
또한, 가중치 연산부(130)는 다음의 수학식 9를 이용하여 가중치 벡터(w)를 최적화 시킨다.
여기서 Kp는 문서 p에서 추출된 후보 키워드의 집합을 나타낸고, F1@5는 다섯 개의 추천 키워드에 대한 F1 값을 나타낸다. 또한, Top5(Kp, w)는 가중치가 부여된 값이 최대로 설정되는 후보 키워드 다섯 개의 값으로, 다음의 수학식 10을 이용하여 구할 수 있다.
Figure pat00014
수학식 10에서, |FS(k)|는 후보 키워드(k)의 특징 벡터(FS(k))의 크기를 나타내며, 후보 키워드의 특징 벡터(FS(k))는 다음의 수학식 11과 같이 나타낼 수 있다.
Figure pat00015
수학식 11에서, FDS(k)는 문서에 포함된 모든 단어가 키워드로 설정된 문서 키워드 집합(DS)에 대응하는 특징 벡터, FRS(k)는 타 사용자 키워드 집합(RS)에 대응하는 특징 벡터, FUS(k)는 동일 사용자 키워드 집합(US)에 대응하는 특징 벡터, FTF(k)는 복수의 후보 키워드의 출현 빈도(TF)에 대응하는 특징 벡터, 복수의 후보 키워드 간의 동시 출현 빈도 특징 벡터 중 지지도(FSP(k)), 신뢰도(FCF(k)) 및 향상도(FLT(k))에 대응하는 특징 벡터를 나타낸다.
다음으로, 추천 키워드 결정부(140)는 복수의 후보 키워드 중 복수의 특징 벡터의 중요도 값에 가중치를 부여한 값이 기 설정된 순위 내에 포함되는 후보 키워드를 추천 키워드로 결정한다(S240). 즉, 조화 평균값(F1-measure), 재현율(recall), 정확률(precision) 중 적어도 하나의 평가 척도가 설정된 경우, 그 평가 척도 값이 사용자 설정에 따른 순위 내에 해당하는 후보 키워드를 추천 키워드로 결정한다. 앞의 수학식 9의 경우 F1 값을 평가 척도로 하여 상위 5개의 후보 키워드를 추천 키워드를 결정할 수 있다.
Bookmark (id=7937554)
URL http://www.youtube.com/watch?v=9hIAjrMHTv4
Description YouTube - History of the Internet
True Tags history, internet, video
Recommended tags
Evolutionary algorithms youtube, video , bookmarks, history , internet
Multilayer preceptrons youtube, bookmarks, video , music, ee
표 1은 7937554의 아이디를 가지는 북마크에 대한 추천 키워드의 예를 보여준다. 대상 문서는 'http://www.youtube.com/watch?v=9hIAjrMHTv4'이라는 URL 주소를 가지며, 해당 주소의 문서는 유튜브에서 제공하는 인터넷의 역사에 대한 비디오이다. 이 경우, 정확한 키워드 'history', 'internet', 'video'이며, 본 발명의 실시예에 따른 진화 알고리즘을 적용한 결과 추천 키워드는 'youtube', ' video ', 'bookmarks', ' history ', ' internet '이며, 정확한 키워드를 모두 추천한 반면, 다층의 퍼셉트론 방식의 경우 추천 키워드가 'youtube' 'bookmarks', ' video ', 'music'으로 나타나 정확도가 떨어짐을 알 수 있다.
도 3은 도 2에 따른 키워드 추천 방법의 성능을 다른 방법과 비교 설명하기 위한 예시도이다.
본 발명의 실시예에 따른 키워드 추천 방법을 평가하기 위해 빕소노미로부터 얻은 실제 소셜 북마킹 데이터를 사용하였다. 또한, 자바 진화 알고리즘 패키지인 JGAP7 패키지와 다층 퍼셉트론, 의사 결정 트리, 로지스틱 회귀분석, 나이브 베이즈, 최근접 이웃 등의 기계 학습 알고리즘이 구현되어 있는 WEKA8 패키지를 사용하였다.
도 3을 참조하면, 재현율, 정밀도, F1-척도에 관한 다른 기계 학습 기법 간의 성능 측정을 보여준다. 진화 알고리즘은 다른 기계 학습 기법 가운데 최고의 성능을 나타냈다. 최근접 이웃 방법은 가장 나쁜 성능을 나타냈다. 이러한 결과가 나온 주된 이유는 진화 알고리즘은 F1-척도와 같은 성능 척도를 직접 최적화할 수 있는 반면, 다른 방법들은 그렇지 못하기 때문이다.
이와 같이 본 발명의 실시예에 따르면, 진화 알고리즘을 이용하여 후보 키워드에 대한 가중치를 계산하여 키워드를 결정함으로써 사용자에게 최적의 키워드를 추천할 수 있다.
이상에서 본 발명은 도면을 참조하면서 기술되는 바람직한 실시예를 중심으로 설명되었지만 이에 한정되는 것은 아니다. 따라서 본 발명은 기재된 실시예로부터 도출 가능한 자명한 변형예를 포괄하도록 의도된 특허청구범위의 기재에 의해 해석되어져야 한다.
100 : 키워드 추천 장치
110 : 후보 키워드 설정부
115 : 키워드 DB
120 : 중요도 연산부
130 : 가중치 연산부
140 : 추천 키워드 결정부

Claims (16)

  1. 문서 또는 사용자와 관련된 복수의 키워드 집합을 이용하여 상기 문서에 대한 복수의 후보 키워드를 설정하는 후보 키워드 설정부;
    설정된 상기 복수의 후보 키워드 각각에 대한 복수의 특징 벡터의 중요도 값을 연산하는 중요도 연산부;
    기 설정된 평가 척도를 기준으로 진화 알고리즘을 이용하여 상기 복수의 특징 벡터의 가중치를 연산하는 가중치 연산부; 및
    상기 복수의 후보 키워드 중에서 상기 복수의 특징 벡터의 중요도 값에 상기 가중치를 부여한 값이 기 설정된 순위 내에 포함되는 후보 키워드를 추천 키워드로 결정하는 추천 키워드 결정부를 포함하는 키워드 추천 장치.
  2. 제1항에 있어서,
    상기 복수의 키워드 집합은,
    상기 문서에 포함된 단어가 키워드로 설정된 문서 키워드 집합, 상기 문서에 대해 타 사용자에 의해 기 설정된 타 사용자 키워드 집합 및 다른 문서에 대해 동일 사용자에 의해 기 설정된 동일 사용자 키워드 집합 중 적어도 하나를 포함하는 키워드 추천 장치.
  3. 제2항에 있어서,
    상기 복수의 특징 벡터는,
    상기 문서 키워드 집합에 대응하는 특징 벡터, 상기 타 사용자 키워드 집합에 대응하는 특징 벡터, 상기 동일 사용자 키워드 집합에 대응하는 특징 벡터, 상기 복수의 후보 키워드의 출현 빈도 특징 벡터 및 상기 복수의 후보 키워드 간의 동시 출현 빈도 특징 벡터 중 적어도 하나를 포함하는 연산하는 키워드 추천 장치.
  4. 제3항에 있어서,
    상기 문서 키워드 집합에 대응하는 특징 벡터의 중요도 값(IVDS(k))은 다음의 수학식을 이용하여 연산되는 키워드 추천 장치:
    Figure pat00016

    여기서, C(k, p)는 문서 p에 대한 키워드 k의 합계, AR(k)는 키워드 k의 정확도를 나타낸다.
  5. 제3항에 있어서,
    상기 타 사용자 키워드 집합에 대응하는 특징 벡터의 중요도 값(IVRS(k))은 다음의 수학식을 이용하여 연산되는 키워드 추천 장치:
    Figure pat00017

    여기서, 타 사용자가 키워드를 설정한 문서 p에서 키워드 k가 출현하는 경우, Th(k, p)는 1의 값을 가지고, 이외의 경우에는 0의 값을 가진다.
  6. 제3항에 있어서,
    상기 동일 사용자 키워드 집합에 대응하는 특징 벡터의 중요도 값(IVUS(k))은 다음의 수학식을 이용하여 연산되는 키워드 추천 장치:
    Figure pat00018

    여기서, 동일 사용자가 키워드를 설정한 문서 p에서 키워드 k가 출현하는 경우, Th(k, p)는 1의 값을 가지고, 이외의 경우에는 0의 값을 가진다.
  7. 제3항에 있어서,
    상기 복수의 후보 키워드의 출현 빈도 특징 벡터의 중요도 값(FTF(k))은 다음의 수학식을 이용하여 연산되는 키워드 추천 장치:
    Figure pat00019

    여기서, 상기 문서 p에서 키워드 k가 출현하는 경우, Th(k, p)는 1의 값을 가지고, 이외의 경우에는 0의 값을 가지며, 상기 문서 p에서 학습 문서에 포함된 키워드 t가 출현하는 경우, Th(k, t)는 1의 값을 가지고, 이외의 경우에는 0의 값을 가진다.
  8. 제1항에 있어서,
    상기 평가 척도는,
    조화 평균값(F1), 재현율, 정확률 중 적어도 하나를 포함하는 키워드 추천 장치.
  9. 키워드 추천 장치를 이용한 문서에 대한 키워드 추천 방법에 있어서,
    상기 문서 또는 사용자와 관련된 복수의 키워드 집합을 이용하여 상기 문서에 대한 복수의 후보 키워드를 설정하는 단계;
    설정된 상기 복수의 후보 키워드 각각에 대한 복수의 특징 벡터의 중요도 값을 연산하는 단계;
    기 설정된 평가 척도를 기준으로 진화 알고리즘을 이용하여 상기 복수의 특징 벡터의 가중치를 연산하는 단계; 및
    상기 복수의 후보 키워드 중에서 상기 복수의 특징 벡터의 중요도 값에 상기 가중치를 부여한 값이 기 설정된 순위 내에 포함되는 후보 키워드를 추천 키워드로 결정하는 단계를 포함하는 키워드 추천 방법.
  10. 제9항에 있어서,
    상기 복수의 키워드 집합은,
    상기 문서에 포함된 단어가 키워드로 설정된 문서 키워드 집합, 상기 문서에 대해 타 사용자에 의해 기 설정된 타 사용자 키워드 집합 및 다른 문서에 대해 동일 사용자에 의해 기 설정된 동일 사용자 키워드 집합 중 적어도 하나를 포함하는 키워드 추천 방법.
  11. 제10항에 있어서,
    상기 복수의 특징 벡터는,
    상기 문서 키워드 집합에 대응하는 특징 벡터, 상기 타 사용자 키워드 집합에 대응하는 특징 벡터, 상기 동일 사용자 키워드 집합에 대응하는 특징 벡터, 상기 복수의 후보 키워드의 출현 빈도 특징 벡터 및 상기 복수의 후보 키워드 간의 동시 출현 빈도 특징 벡터 중 적어도 하나를 포함하는 연산하는 키워드 추천 방법.
  12. 제11항에 있어서,
    상기 문서 키워드 집합에 대응하는 특징 벡터의 중요도 값(IVDS(k))은 다음의 수학식을 이용하여 연산되는 키워드 추천 방법:
    Figure pat00020

    여기서, C(k, p)는 문서 p에 대한 키워드 k의 합계, AR(k)는 키워드 k의 정확도를 나타낸다.
  13. 제11항에 있어서,
    상기 타 사용자 키워드 집합에 대응하는 특징 벡터의 중요도 값(IVRS(k))은 다음의 수학식을 이용하여 연산되는 키워드 추천 방법:
    Figure pat00021

    여기서, 타 사용자가 키워드를 설정한 문서 p에서 키워드 k가 출현하는 경우, Th(k, p)는 1의 값을 가지고, 이외의 경우에는 0의 값을 가진다.
  14. 제11항에 있어서,
    상기 동일 사용자 키워드 집합에 대응하는 특징 벡터의 중요도 값(IVUS(k))은 다음의 수학식을 이용하여 연산되는 키워드 추천 방법:
    Figure pat00022

    여기서, 동일 사용자가 키워드를 설정한 문서 p에서 키워드 k가 출현하는 경우, Th(k, p)는 1의 값을 가지고, 이외의 경우에는 0의 값을 가진다.
  15. 제11항에 있어서,
    상기 복수의 후보 키워드의 출현 빈도 특징 벡터의 중요도 값(FTF(k))은 다음의 수학식을 이용하여 연산되는 키워드 추천 방법:
    Figure pat00023

    여기서, 상기 문서 p에서 키워드 k가 출현하는 경우, Th(k, p)는 1의 값을 가지고, 이외의 경우에는 0의 값을 가지며, 상기 문서 p에서 학습 문서에 포함된 키워드 t가 출현하는 경우, Th(k, t)는 1의 값을 가지고, 이외의 경우에는 0의 값을 가진다.
  16. 제9항에 있어서,
    상기 평가 척도는,
    조화 평균값(F1), 재현율, 정확률 중 적어도 하나를 포함하는 키워드 추천 방법.
KR1020120012622A 2012-02-08 2012-02-08 키워드 추천 장치 및 그 방법 KR101382069B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120012622A KR101382069B1 (ko) 2012-02-08 2012-02-08 키워드 추천 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120012622A KR101382069B1 (ko) 2012-02-08 2012-02-08 키워드 추천 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20130091392A true KR20130091392A (ko) 2013-08-19
KR101382069B1 KR101382069B1 (ko) 2014-04-14

Family

ID=49216578

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120012622A KR101382069B1 (ko) 2012-02-08 2012-02-08 키워드 추천 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR101382069B1 (ko)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488161A (zh) * 2015-11-30 2016-04-13 百度在线网络技术(北京)有限公司 信息推送方法和装置
WO2018105979A1 (ko) * 2016-12-07 2018-06-14 서강대학교 산학협력단 온라인 커뮤니티에서 동일 사용자의 닉네임 목록을 추출하는 장치 및 방법
KR20190011176A (ko) * 2017-07-24 2019-02-01 주식회사 마이셀럽스 속성 언어를 이용한 검색 방법 및 장치
KR20190017676A (ko) * 2017-08-11 2019-02-20 고려대학교 산학협력단 토픽 모델링과 주성분 분석을 이용한 특허 공백기술 도출 장치 및 방법
KR20190092055A (ko) * 2018-01-30 2019-08-07 (주)광개토연구소 미래 연구 가능성 높은 기술 키워드 추천 장치 및 방법
KR102082900B1 (ko) * 2019-10-08 2020-02-28 김경록 판매 상품의 최적 검색어 제공 시스템
KR20210110934A (ko) * 2020-03-02 2021-09-10 주식회사 엘지유플러스 추천 장치 및 이의 동작 방법
CN116151242A (zh) * 2023-04-19 2023-05-23 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种编程学习场景的智能习题推荐方法、系统及储存介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102403681B1 (ko) 2020-08-13 2022-05-31 인천대학교 산학협력단 사용자 위치 및 키워드 기반 지능형 퍼지 유도 시스템 및 방법
KR102597657B1 (ko) 2022-03-24 2023-11-03 주식회사 샘빌 키워드 자동 추천 방법 및 시스템

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090016297A (ko) * 2007-08-10 2009-02-13 주식회사 코리아 와이즈넛 온라인 광고를 위한 문맥기반의 키워드 추천 장치 및 방법
KR101671374B1 (ko) * 2009-09-01 2016-11-17 한국전자통신연구원 키워드 추천 장치와 방법 및 키워드 지식베이스 구축 방법

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488161A (zh) * 2015-11-30 2016-04-13 百度在线网络技术(北京)有限公司 信息推送方法和装置
WO2018105979A1 (ko) * 2016-12-07 2018-06-14 서강대학교 산학협력단 온라인 커뮤니티에서 동일 사용자의 닉네임 목록을 추출하는 장치 및 방법
US11010557B2 (en) 2016-12-07 2021-05-18 Sogang University Research Foundation Apparatus and method for extracting nickname list of identical user in online community
KR20190011176A (ko) * 2017-07-24 2019-02-01 주식회사 마이셀럽스 속성 언어를 이용한 검색 방법 및 장치
KR20190017676A (ko) * 2017-08-11 2019-02-20 고려대학교 산학협력단 토픽 모델링과 주성분 분석을 이용한 특허 공백기술 도출 장치 및 방법
KR20190092055A (ko) * 2018-01-30 2019-08-07 (주)광개토연구소 미래 연구 가능성 높은 기술 키워드 추천 장치 및 방법
KR102082900B1 (ko) * 2019-10-08 2020-02-28 김경록 판매 상품의 최적 검색어 제공 시스템
KR20210110934A (ko) * 2020-03-02 2021-09-10 주식회사 엘지유플러스 추천 장치 및 이의 동작 방법
CN116151242A (zh) * 2023-04-19 2023-05-23 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种编程学习场景的智能习题推荐方法、系统及储存介质

Also Published As

Publication number Publication date
KR101382069B1 (ko) 2014-04-14

Similar Documents

Publication Publication Date Title
KR101382069B1 (ko) 키워드 추천 장치 및 그 방법
US11347752B2 (en) Personalized user feed based on monitored activities
CN103339623B (zh) 涉及因特网搜索的方法和设备
CN101551806B (zh) 一种个性化网址导航的方法和系统
US11023506B2 (en) Query pattern matching
US8103667B2 (en) Ranking results of multiple intent queries
US11188830B2 (en) Method and system for user profiling for content recommendation
Nguyen et al. Dynamic clustering of contextual multi-armed bandits
US11294974B1 (en) Golden embeddings
JP5661200B2 (ja) 検索情報の提供
US10437859B2 (en) Entity page generation and entity related searching
US20110307432A1 (en) Relevance for name segment searches
US9607324B1 (en) Topical trust network
US10176260B2 (en) Measuring semantic incongruity within text data
JP6237378B2 (ja) 候補キュレーションアイテムをランキングする方法及びシステム
US20160283564A1 (en) Predictive visual search enginge
US20130031080A1 (en) Surfacing actions from social data
US20190258719A1 (en) Emoji classifier
Chung et al. Categorization for grouping associative items using data mining in item-based collaborative filtering
US8364672B2 (en) Concept disambiguation via search engine search results
CN112732870A (zh) 基于词向量的搜索方法、装置、设备及存储介质
Liu et al. Octopus: Comprehensive and elastic user representation for the generation of recommendation candidates
Bahrani et al. User and item profile expansion for dealing with cold start problem
Jay et al. Review on web search personalization through semantic data
Bhuvaneshwari et al. Top-n recommendation system using explicit feedback and outer product based residual cnn

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170117

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180108

Year of fee payment: 5