KR101346927B1 - 검색 장치, 검색 방법, 및 검색 프로그램을 기억하는 컴퓨터 판독 가능한 기록 매체 - Google Patents

검색 장치, 검색 방법, 및 검색 프로그램을 기억하는 컴퓨터 판독 가능한 기록 매체 Download PDF

Info

Publication number
KR101346927B1
KR101346927B1 KR1020137009165A KR20137009165A KR101346927B1 KR 101346927 B1 KR101346927 B1 KR 101346927B1 KR 1020137009165 A KR1020137009165 A KR 1020137009165A KR 20137009165 A KR20137009165 A KR 20137009165A KR 101346927 B1 KR101346927 B1 KR 101346927B1
Authority
KR
South Korea
Prior art keywords
search
designated
time
frequency
appearance
Prior art date
Application number
KR1020137009165A
Other languages
English (en)
Other versions
KR20130053448A (ko
Inventor
가즈후미 와따나베
마꼬또 오까베
리끼오 오나이
마사히로 산조
히로미 히라노
Original Assignee
라쿠텐 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 라쿠텐 인코포레이티드 filed Critical 라쿠텐 인코포레이티드
Publication of KR20130053448A publication Critical patent/KR20130053448A/ko
Application granted granted Critical
Publication of KR101346927B1 publication Critical patent/KR101346927B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

검색 서버(10)는 프로파일·데이터에 기초하여 검색 조건에 대응하는 검색 대상을 추출하는 추출부(15b)와 추출된 검색 대상을 유저 단말기(T)에 송신하는 송신부(15c)를 구비한다. 검색 조건은, 제1 지정 시기에 있어서의, 유저에 의해 지정된 1 이상의 지정 토픽별 제1 출현 빈도와, 상기 제1 지정 시기보다 후의 제2 지정 시기에 있어서의 상기 지정 토픽별 제2 출현 빈도를 포함한다. 추출부(15b)는 제1 검색 대상 시기에 있어서의 프로파일·데이터로부터 얻어진 지정 토픽별 출현 빈도가 제1 출현 빈도와 동일 또는 유사하고, 또한, 상기 제1 검색 대상 시기보다 후의 제2 검색 대상 시기에 있어서의 프로파일·데이터로부터 얻어진 지정 토픽별 출현 빈도가 제2 출현 빈도와 동일 또는 유사한 검색 대상을 추출한다.

Description

검색 장치, 검색 방법, 및 검색 프로그램을 기억하는 컴퓨터 판독 가능한 기록 매체{SEARCH DEVICE, SEARCH METHOD, AND COMPUTER-READABLE MEMORY MEDIUM FOR RECORDING SEARCH PROGRAM}
본 발명의 일 형태는, 축적된 문서에 기초하여 검색을 실행하는 검색 장치, 검색 방법, 검색 프로그램, 및 그 프로그램을 기억하는 컴퓨터 판독 가능한 기록 매체에 관한 것이다.
최근 들어, 블로그나 마이크로 블로그 등의 전자 문서에 의한 정보 발신이 일반화되어 있다. 또한, 그 전자 문서의 분석 방법에 대해서도 다양한 것들이 검토되고 있다. 문서 분석 방법의 하나로서, 토픽 모델이라고 불리는 문서 생성 모델을 이용한 방법이 있다. 예를 들어 하기 비특허 문헌 1에는, 그 토픽 모델에 시계열 정보를 도입함으로써 시간 정보를 가진 문서로부터 유행하는 변천을 시각적으로 제시하는 것이 기재되어 있다.
비특허 문헌 1: XueruiWang and Andrew McCallum. Topics over time: a non-markov continuous-time modelof topical trends. In Proceedings of the 12th ACM SICKDD international conference on Knowledge discovery and data mining, KDD '06, pp.424-433. NewYork, NY, USA, 2006. ACM.
그런데, 전자 문서의 발신수는 방대하기 때문에, 개인이 자신에게 필요한 정보를 만나는 것은 용이하지 않다. 상기 비특허 문헌 1에 기재된 방법은, 영향력이 높은 필자의 발견이나 화제의 추출, 커뮤니티의 추출을 주목적으로 하고 있어, 유저가 찾고 싶은 상황 변화의 정보를 제공하는 것이라고는 말할 수 없다.
따라서, 원하는 상황 변화에 대응하는 정보를 제시하는 것이 요청되고 있다.
본 발명의 일 형태에 관한 검색 장치는, 소정의 데이터베이스로부터 추출된 문서에 기초하여 생성된 프로파일·데이터이며, 검색 대상을 특정하는 식별자와, 상기 문서의 작성 시각과, 상기 문서 내의 어구를 1 이상의 토픽별로 분류함으로써 구한 상기 토픽별 출현 빈도를 포함하는 상기 프로파일·데이터에 기초하여, 유저에 의해 지정된 검색 조건에 대응하는 검색 대상을 추출하는 검색 수단과, 검색 수단에 의해 추출된 검색 대상을 유저에게 제시하기 위하여 출력하는 출력 수단을 구비하고, 검색 조건이, 제1 지정 시기에 있어서의, 유저에 의해 지정된 1 이상의 지정 토픽별 제1 출현 빈도와, 상기 제1 지정 시기보다 후의 제2 지정 시기에 있어서의 상기 지정 토픽별 제2 출현 빈도를 포함하고, 검색 수단이, 제1 검색 대상 시기에 있어서의 프로파일·데이터로부터 얻어진 지정 토픽별 출현 빈도가 제1 출현 빈도와 동일 또는 유사하고, 또한, 상기 제1 검색 대상 시기보다 후의 제2 검색 대상 시기에 있어서의 프로파일·데이터로부터 얻어진 지정 토픽별 출현 빈도가 제2 출현 빈도와 동일 또는 유사한 검색 대상을 추출한다.
본 발명의 일 형태에 관한 검색 방법은, 검색 장치에 의해 실행되는 검색 방법이며, 소정의 데이터베이스로부터 추출된 문서에 기초하여 생성된 프로파일·데이터이며, 검색 대상을 특정하는 식별자와, 상기 문서의 작성 시각과, 상기 문서 내의 어구를 1 이상의 토픽별로 분류함으로써 구한 상기 토픽별 출현 빈도를 포함하는 상기 프로파일·데이터에 기초하여, 유저에 의해 지정된 검색 조건에 대응하는 검색 대상을 추출하는 검색 스텝과, 검색 스텝에 있어서 추출된 검색 대상을 유저에게 제시하기 위하여 출력하는 출력 스텝을 포함하고, 검색 조건이, 제1 지정 시기에 있어서의, 유저에 의해 지정된 1 이상의 지정 토픽별 제1 출현 빈도와, 상기 제1 지정 시기보다 후의 제2 지정 시기에 있어서의 상기 지정 토픽별 제2 출현 빈도를 포함하고, 검색 스텝에서는, 제1 검색 대상 시기에 있어서의 프로파일·데이터로부터 얻어진 지정 토픽별 출현 빈도가 제1 출현 빈도와 동일 또는 유사하고, 또한, 상기 제1 검색 대상 시기보다 후의 제2 검색 대상 시기에 있어서의 프로파일·데이터로부터 얻어진 지정 토픽별 출현 빈도가 제2 출현 빈도와 동일 또는 유사한 검색 대상이 추출된다.
본 발명의 일 형태에 관한 검색 프로그램은, 컴퓨터를, 소정의 데이터베이스로부터 추출된 문서에 기초하여 생성된 프로파일·데이터이며, 검색 대상을 특정하는 식별자와, 상기 문서의 작성 시각과, 상기 문서 내의 어구를 1 이상의 토픽별로 분류함으로써 구한 상기 토픽별 출현 빈도를 포함하는 상기 프로파일·데이터에 기초하여, 유저에 의해 지정된 검색 조건에 대응하는 검색 대상을 추출하는 검색 수단과, 검색 수단에 의해 추출된 검색 대상을 유저에게 제시하기 위하여 출력하는 출력 수단으로서 기능시키고, 검색 조건이, 제1 지정 시기에 있어서의, 유저에 의해 지정된 1 이상의 지정 토픽별 제1 출현 빈도와, 상기 제1 지정 시기보다 후의 제2 지정 시기에 있어서의 상기 지정 토픽별 제2 출현 빈도를 포함하고, 검색 수단이, 제1 검색 대상 시기에 있어서의 프로파일·데이터로부터 얻어진 지정 토픽별 출현 빈도가 제1 출현 빈도와 동일 또는 유사하고, 또한, 상기 제1 검색 대상 시기보다 후의 제2 검색 대상 시기에 있어서의 프로파일·데이터로부터 얻어진 지정 토픽별 출현 빈도가 제2 출현 빈도와 동일 또는 유사한 검색 대상을 추출한다.
본 발명의 일 형태에 관한 컴퓨터 판독 가능한 기록 매체는, 컴퓨터를, 소정의 데이터베이스로부터 추출된 문서에 기초하여 생성된 프로파일·데이터이며, 검색 대상을 특정하는 식별자와, 상기 문서의 작성 시각과, 상기 문서 내의 어구를 1 이상의 토픽별로 분류함으로써 구한 상기 토픽별 출현 빈도를 포함하는 상기 프로파일·데이터에 기초하여, 유저에 의해 지정된 검색 조건에 대응하는 검색 대상을 추출하는 검색 수단과, 검색 수단에 의해 추출된 검색 대상을 유저에게 제시하기 위하여 출력하는 출력 수단으로서 기능시키고, 검색 조건이, 제1 지정 시기에 있어서의, 유저에 의해 지정된 1 이상의 지정 토픽별 제1 출현 빈도와, 상기 제1 지정 시기보다 후의 제2 지정 시기에 있어서의 상기 지정 토픽별 제2 출현 빈도를 포함하고, 검색 수단이, 제1 검색 대상 시기에 있어서의 프로파일·데이터로부터 얻어진 지정 토픽별 출현 빈도가 제1 출현 빈도와 동일 또는 유사하고, 또한, 상기 제1 검색 대상 시기보다 후의 제2 검색 대상 시기에 있어서의 프로파일·데이터로부터 얻어진 지정 토픽별 출현 빈도가 제2 출현 빈도와 동일 또는 유사한 검색 대상을 추출하는, 검색 프로그램을 기억한다.
이와 같은 형태에 의하면, 두 시기에 있어서의 지정 토픽별 출현 빈도(제1 및 제2 출현 빈도)와 동일 또는 유사한 두 출현 빈도를 갖는 검색 대상이 추출된다. 그리고, 그 검색 대상이 유저에게 제시하기 위하여 출력된다. 이와 같이, 지정된 토픽에 관한 출현 빈도의 변화가 검색 조건과 일치 또는 유사한 검색 대상을 추출함으로써, 원하는 상황 변화에 대응하는 정보를 유저에게 제시할 수 있다.
다른 형태에 관한 검색 장치에서는, 검색 조건이, 또한, 제1 지정 시기와 제2 지정 시기와의 사이에 있어서의 1 이상의 제3 지정 시기 각각에 관한 지정 토픽별 제3 출현 빈도를 포함하고, 검색 수단이, 제1 검색 대상 시기에 있어서의 출현 빈도가 제1 출현 빈도와 동일 또는 유사하고, 제2 검색 대상 시기에 있어서의 출현 빈도가 제2 출현 빈도와 동일 또는 유사하고, 또한, 1 이상의 제3 지정 시기와 시간의 전후 관계가 대응하는 1 이상의 제3 검색 대상 시기 각각에 있어서, 상기 제3 검색 대상 시기에 있어서의 프로파일·데이터로부터 얻어진 지정 토픽별 출현 빈도가, 대응하는 제3 출현 빈도와 동일 또는 유사한 검색 대상을 추출해도 된다.
이 경우에는, 3 이상의 시기에 있어서의 지정 토픽별 출현 빈도와 동일 또는 유사한 복수의 출현 빈도를 갖는 검색 대상이 추출되고, 그 검색 대상이 출력된다. 이에 의해, 상황 변화의 과정을 고려한 검색을 행할 수 있으므로, 원하는 상황 변화에 대응하는 정보를 유저에게 제시할 수 있다.
또한 다른 형태에 관한 검색 장치에서는, 검색 조건이, 또한, 인접하는 지정 시기간의 시간 간격을 더 포함하고, 인접하는 검색 대상 시기간의 시간 간격이, 대응하는 지정 시기간의 시간 간격과 같아도 된다.
이 경우에는, 지정 시기간의 시간 간격이 검색 조건으로서 다시 지정되므로, 원하는 상황 변화 및 그 변화의 속도에 대응하는 정보를 유저에게 제시할 수 있다.
또한 다른 형태에 관한 검색 장치에서는, 프로파일·데이터에서 나타나는 1 이상의 토픽이, 소정의 데이터베이스로부터 추출된 문서에 기초하여 얻어진 토픽 군에서 소정의 불필요 토픽을 제외한 나머지의 토픽이어도 된다.
이 경우에는, 불필요한 토픽이 미리 제거되므로, 검색의 정밀도를 올릴 수 있다.
또한 다른 형태에 관한 검색 장치에서는, 지정 토픽이, 프로파일·데이터에서 나타나는 1 이상의 토픽을 포함하는 상위 계층 토픽이어도 된다.
이 경우에는, 토픽을 계층 구조로 표현함으로써 프로파일·데이터의 토픽이 상위 계층 토픽에 집약되고, 그 상위 계층 토픽을 지정 토픽으로 하는 검색이 행해진다. 이러한 지정 토픽을 사용함으로써 검색 조작의 편리성이 향상된다.
또한 다른 형태에 관한 검색 장치에서는, 지정 토픽이 복수인 경우에, 하나의 지정 시기에 있어서의, 지정 토픽별 출현 빈도의 총합에 대한 일부의 지정 토픽별 출현 빈도의 비율이 변경되면, 상기 지정 시기에 있어서의 나머지의 지정 토픽별 출현 빈도의 비율이 상기 변경에 따라서 조정되어도 된다.
또한 다른 형태에 관한 검색 장치에서는, 하나의 지정 시기에 있어서의 일부의 지정 토픽별 출현 빈도가 변경된 경우에, 상기 하나의 지정 시기에 대응하는 하나의 탐색 시기에 있어서의 프로파일·데이터로부터 얻어진 일부의 지정 토픽별 출현 빈도가, 변경된 일부의 지정 토픽별 출현 빈도와 동일 또는 유사하고, 또한, 다른 지정 시기에 대응하는 다른 탐색 시기에 있어서의 프로파일·데이터로부터 얻어진 지정 토픽별 출현 빈도가, 상기 다른 지정 시기에 있어서의 지정 토픽별 출현 빈도와 동일 또는 유사한 검색 대상이 추출되고, 하나의 탐색 시기에 있어서의 상기 검색 대상의 토픽별 출현 빈도에 기초하여 나머지의 지정 토픽별 출현 빈도의 비율이 조정되고, 하나의 탐색 시기와 다른 탐색 시기와의 전후 관계가, 하나의 지정 시기와 다른 지정 시기와의 전후 관계와 대응해도 된다.
또한 다른 형태에 관한 검색 장치에서는, 어구가 복수의 토픽에 중복하여 출현하는 빈도에 기초하여 설정되는, 지정 토픽 각각의 사이의 관련 강도를 나타내는 가중치와, 일부의 지정 토픽별 출현 빈도의 변경량에 기초하여, 나머지의 지정 토픽별 출현 빈도의 비율이 조정되어도 된다.
이들 경우에는, 유저가 어느 지정 토픽의 출현 빈도를 바꾸면 그 변경에 따라서 다른 지정 토픽의 출현 빈도가 조정되므로, 검색 조작의 편리성이 향상된다.
또한 다른 형태에 관한 검색 장치에서는, 검색 수단이, 또한, 추출된 검색 대상에 대응하는 부가 정보를, 또는 제1 검색 대상 시기에서 제2 검색 대상 시기까지의 사이에 있어서의 상기 검색 대상의 지정 토픽별 출현 빈도에 대응하는 부가 정보를, 추가의 데이터베이스로부터 추출하고, 출력 수단이, 또한, 검색 수단에 의해 추출된 부가 정보를 유저에게 제시하기 위하여 출력해도 된다.
이 경우에는, 추출된 검색 대상에 대응하는 부가 정보도 출력되므로, 원하는 상황 변화에 대응하는 정보뿐만 아니라 상기 부가 정보도 유저에게 제시할 수 있다.
본 발명의 일 측면에 의하면, 지정된 토픽에 관한 출현 빈도의 추이가 검색 조건과 일치 또는 유사한 검색 대상이 추출되므로, 원하는 상황 변화에 대응하는 정보를 제시할 수 있다.
도 1은 제1 실시 형태에 따른 검색 시스템의 전체 구성을 도시하는 도면이다.
도 2는 도 1에 도시하는 검색 서버의 기능 구성을 도시하는 도면이다.
도 3은 도 1에 도시하는 검색 서버의 하드웨어 구성을 도시하는 도면이다.
도 4는 프로파일·데이터의 구성예를 도시하는 도면이다.
도 5는 프로파일·데이터의 작성에 대하여 설명하기 위한 도면이다.
도 6은 프로파일·데이터의 작성에 대하여 설명하기 위한 도면이다.
도 7은 친토픽의 설정에 대하여 설명하기 위한 도면이다.
도 8은 도 1에 도시하는 유저 단말기에서 표시되는 검색 화면의 예를 나타내는 도이다.
도 9는 유저 조작에 따라서 장래 모델을 조정하는 방법의 일례를 설명하기 위한 도면이다.
도 10은 유저 조작에 따라서 장래 모델을 조정하는 방법의 다른 예를 설명하기 위한 도면이다.
도 11은 도 1에 도시하는 검색 시스템의 동작을 나타내는 시퀀스도이다.
도 12는 제1 실시 형태에 따른 검색 프로그램의 구성을 도시하는 도면이다.
도 13은 제2 실시 형태에 따른 검색 시스템의 전체 구성을 도시하는 도면이다.
도 14는 도 13에 나타내는 검색 서버의 기능 구성을 도시하는 도면이다.
도 15는 제2 실시 형태에 따른 검색 프로그램의 구성을 도시하는 도면이다.
이하, 첨부 도면을 참조하면서 본 발명의 실시 형태를 상세하게 설명한다. 또한, 도면의 설명에 있어서 동일 또는 동등한 요소에는 동일한 부호를 부여하고, 중복하는 설명을 생략한다.
(제1 실시 형태)
우선, 도 1 내지 10을 사용하여, 제1 실시 형태에 따른 검색 서버(10)의 기능 및 구성을 설명한다. 검색 서버(10)는 유저에게 지정된 검색 조건에 대응하는 필자(문서 작성자)를 추출하여 그 유저에게 제시하는 검색 장치이다. 도 1에 도시한 바와 같이, 검색 서버(10)는 통신 네트워크(N)를 개재하여 복수의 문서 데이터베이스(소정의 데이터베이스)(D) 및 복수의 유저 단말기(T)와 서로 통신 가능하게 접속되어 있다. 도 1에 도시하는 검색 서버(10), 문서 데이터베이스(D) 및 유저 단말기(T)는 검색 시스템을 구성한다.
검색 서버(10)에 대하여 설명하기 전에, 문서 데이터베이스(D) 및 유저 단말기(T)에 대하여 설명한다. 우선, 문서 데이터베이스(D)는, 인터넷상에 존재하는 문서(전자 문서)를 기억하는 컴퓨터이다. 문서의 예로서는, 블로그나 마이크로 블로그, 소셜·네트워크·서비스(SNS), 온라인·쇼핑·사이트 등에서 투고된 기사를 들 수 있지만 문서의 종류나 내용은 하등 한정되지 않는다. 도 1에서는 문서 데이터베이스(D)를 2개 나타내고 있지만, 문서 데이터베이스(D)의 대수는 임의이다. 또한, 문서 데이터베이스(D)의 설치 개소도 임의이며, 예를 들어 블로그 관리 시스템이나 SNS 시스템, 온라인·쇼핑·시스템에 배치되어도 된다.
유저 단말기(T)는, 검색 조건의 입력을 접수하고, 그 조건에 대응하는 검색 결과를 표시하는 컴퓨터이다. 유저 단말기(T)의 예로서는, 고기능 휴대 전화기(스마트 폰)나 휴대 정보 단말기(PDA), 또는 각종 퍼스널 컴퓨터(태블릿 PC, 데스크탑 PC, 노트 북 등)을 들 수 있지만, 유저 단말기(T)의 예는 이들에 한정되지 않는다. 도 1에서는 유저 단말기(T)를 3대 나타내고 있지만, 유저 단말기(T)의 대수는 임의이다.
이상을 전제로 하여 검색 서버(10)에 대하여 설명한다. 도 2에 도시한 바와 같이, 검색 서버(10)는 기능적 구성 요소로서 프로파일·데이터베이스(11), 인터페이스 제공부(12), 제1 검색부(13), 모델 조정부(14) 및 제2 검색부(15)를 구비한다.
이 검색 서버(10)는 도 3에 도시한 바와 같이, 오퍼레이팅 시스템이나 애플리케이션 프로그램 등을 실행하는 CPU(101)와, ROM 및 RAM으로 구성되는 주기억부(102)와, 하드 디스크 등으로 구성되는 보조 기억부(103)와, 네트워크 카드 등으로 구성되는 통신 제어부(104)와, 키보드나 마우스 등의 입력부(105)와, 모니터 등의 출력부(106)로 구성된다. 검색 서버(10)의 각 기능은, CPU(101)나 주기억부(102) 상에 소정의 소프트웨어를 판독하고, CPU(101)의 제어 하에서 통신 제어부(104)나 입력부(105), 출력부(106) 등을 동작시키고, 주기억부(102)나 보조 기억부(103)에 있어서의 데이터의 판독 및 기입을 행함으로써 실현된다. 처리에 필요한 데이터나 데이터베이스는 주기억부(102)나 보조 기억부(103) 내에 저장된다.
또한, 도 3에서는 검색 서버(10)가 1대의 컴퓨터로 구성되도록 나타내고 있지만, 이 서버의 기능을 복수대의 컴퓨터에 분산시켜도 된다. 예를 들어, 프로파일·데이터베이스(11)를 구비하는 컴퓨터와 그 이외의 기능적 구성 요소를 구비하는 컴퓨터에 의해 검색 서버(10)를 구성해도 된다.
도 2로 돌아와서, 프로파일·데이터베이스(11)는 문서 데이터베이스(D)로부터 추출된 문서에 기초하여 생성된 프로파일·데이터를 기억하는 수단이다.
프로파일·데이터는, 문서가 어떤 토픽(화제)을 다루고 있는지, 바꿔 말하면, 필자가 어떤 토픽에 대하여 언급하고 있는지를 나타내는 데이터이며, 문서마다 작성된다. 도 4에 도시한 바와 같이, 이 프로파일·데이터는, 문서의 필자를 일의적으로 특정하는 필자 ID와, 상기 문서 자체를 일의적으로 특정하는 문서 ID와, 상기 문서의 작성 시각과, 소정의 100개의 토픽(토픽 0 내지 99) 각각에 대하여 상기 토픽에 할당된 단어의 개수를 포함한다. 각 토픽에 할당된 단어의 개수는, 하나의 문서에 있어서의 상기 토픽의 출현 빈도라고도 말할 수 있다.
프로파일·데이터는, 문서의 집합을 분석함으로써 복수의 토픽을 결정하고, 그 토픽 군과 각 문서를 대조함으로써 생성된다. 이 처리의 상세를 설명한다.
구체적으로는, LDA(Latent Dirichlet Allocation) 및 깁스 샘플링을 사용하여, 우선 100개의 토픽을 결정한다. 우선, 토픽을 결정하기 위해서, 소정의 기간에 작성된 충분한 수의 문서를 문서 데이터베이스(D)로부터 수집한다. 예를 들어, 최근 1주일에 작성된 500만 건의 문서를 수집한다. 수집하는 때에는, 소정의 어플리케이션·프로그래밍·인터페이스(API)를 이용해도 된다. 예를 들어, Twitter(등록 상표) 내의 기사를 수집하는 때에는 Streaming API를 사용할 수 있다. 계속해서, 전처리로서, 본문에 포함되는 유저명이나 해시 태그 등을 제거하고, 형태소 해석에 의해 명사만을 문서로부터 추출한다.
계속해서, 추출된 명사의 집합에 대하여 LDA를 적용함으로써 빈출 단어와 토픽과의 대응표를 생성하여, 100개의 토픽을 정한다. 이때는, LDA 처리의 수렴을 위하여 그 처리를 소정의 횟수만 반복한다. 이 반복 횟수는 샘플링 횟수라고도 말할 수 있고, 예를 들어 이 횟수를 1000으로 설정해도 된다. 생성된 대응표의 예를 도 5에 도시한다. 도 5에서는, 상품명 A나 팀 X 등의 고유 명사를 포함하는 여러가지 명사가 토픽마다 집약되어 있다. 또한, 도 5의 예에서는, 편의적으로 각 토픽에 「디지털 기기」와 같은 이름을 붙이고 있다.
이어서, 상기와 마찬가지로 소정의 API를 사용하여, 검색 서비스를 제공하기 위하여 필요한 수의 유저 각각에 대해서, 소정수의 문서를 문서 데이터베이스(D)로부터 수집한다. 예를 들어, 1 유저당 1000건의 문서를 수집한다. 여기서, 이 처리에 있어서의 수집 대상 기간은 토픽을 결정할 때의 기간(상기의 예에서는 최근 1주일)과는 상이하고, 검색 서비스를 제공하기 위하여 필요한 임의의 기간(예를 들어 3개월, 1년, 3년 등)이다. 계속해서, 각 문서에 LDA 및 깁스 샘플링을 적용함으로써 상기 문서 내의 단어를 토픽별로 분류하고, 이에 의해 각 문서에 대하여 토픽별 출현 빈도를 구한다. 또한, 이때는 각 문서에 관한 샘플링 횟수를 50으로 설정한다. 깁스 샘플링에서는 랜덤성을 갖는 요소가 존재하므로, 그 50회 1세트의 처리를 3회 반복하여 얻어진 합계 결과를 토픽별 출현 빈도라고 한다.
계속해서, 검색 서비스의 목적에 따라서 불필요한 토픽을 삭제한다. 본 실시 형태에서는, 단말기 유저(검색자)에 의해 지정된 흥미를 갖는 필자를 검색 결과로서 상기 유저에게 나타내므로, 필자의 취미나 기호와는 관계없는 정보에 대해서는 무시해도 좋다. 따라서, 취미나 기호라고는 말할 수 없는 토픽을 삭제한다. 예를 들어, 도 6에 도시한 바와 같은 토픽을 삭제해도 된다. 또한, 도 6의 예에서도 편의적으로 각 토픽에 「시간」 등과 같은 이름을 붙이고 있다. 이러한 삭제 처리에 의해, 예를 들어 100개의 토픽이 40개로 좁혀진다. 이렇게 불필요한 토픽을 미리 없앰으로써, 필자 검색의 정밀도를 올릴 수 있다.
이상의 처리에 의해, 도 4에 도시하는 데이터 구조를 갖는 프로파일·데이터가 생성되어, 프로파일·데이터베이스(11)에 저장된다. 또한, 이때, 삭제된 토픽에 대응하는 출현 빈도는 0으로 초기화된다.
그런데, 어떤 문서에서 출현하는 토픽수는 비교적 많으므로(예를 들어 40개), 본 실시 형태에서는, 유저의 검색 조작을 용이하게 하기 위하여 이들 토픽을 몇 개의 그룹으로 집약한다. 예를 들어 도 7에 도시한 바와 같이, 상기 처리에 의해 추출된 토픽(삭제 처리 후에 남은 토픽)을 5개의 친토픽(IT, 생활, 정치·경제, 엔터테인먼트 및 게임·애니메이션) 중 어느 하나와 관련짓고, 이 대응 관계를 검색 서버(10) 내에 유지해 둔다. 유저에는 친토픽만이 나타난다. 친토픽은, 대응하는 추출 토픽의 상위 계층에 위치하는 개념이다.
또한, 이러한 프로파일·데이터의 준비 방법은 상기의 예에 한정되지 않고, 하기와 같은 변형이 가능하다.
우선, 문서의 수집 방법은 한정되지 않고, 소정의 클로링에 의해 문서를 수집해도 되고, 수작업을 이용하여 수집을 행해도 된다. 또한, 프로파일·데이터는 정기적으로(동적으로) 행해져도 된다.
각 처리에 있어서 수집하는 문서의 개수나 범위(시간적 범위 및 필자수), 샘플링 횟수, 소정의 샘플링 횟수를 1세트의 처리로 했을 경우의 당해 처리의 반복 횟수는 상기의 예에 한정되지 않고, 임의로 설정해도 좋다. 또한, 불필요한 토픽의 삭제나, 추출된 토픽의 집약(친토픽의 설정)은 생략 가능하다. 또한, 본 실시 형태에서는 단어와 토픽과의 대응을 구하고 있지만, 어구는 단어에 한정되지 않고, 예를 들어 복수의 단어로 이루어지는 구이어도 된다.
도 2로 돌아와서, 인터페이스 제공부(12)는 검색 처리용의 유저·인터페이스, 즉 검색 화면을 유저 단말기(T)에 제공하는 수단이다. 검색 서비스를 이용하고자 하는 단말기 유저가 소정의 조작을 행하면, 검색 화면을 요구하는 신호(예를 들어 HTTP 리퀘스트)를 유저 단말기(T)가 검색 서버(10)에 송신한다. 인터페이스 제공부(12)는 그 신호에 따라, 검색 화면의 데이터(예를 들어 웹페이지)를 유저 단말기(T)에 송신한다. 이에 의해, 유저 단말기(T) 상에 검색 화면이 표시된다. 또한, 검색 화면의 실현 방법은 임의이며, 예를 들어 웹 어플리케이션이 아니고 Java(등록 상표) 어플리케이션에 의해 실장되어도 된다.
검색 화면의 예를 도 8에 나타내었다. 검색 화면(100)은 검색 조건(쿼리)을 입력하기 위한 입력 영역(110)과, 검색 결과를 표시하는 표시 영역(120)으로 크게 나뉘어진다.
입력 영역(110)은 유저 입력란(111), 기간 입력란(112), 현재 모델란(113), 장래 모델란(114), 검색 버튼(115) 및 문서 표시란(116)을 포함한다.
유저 입력란(111)은 필자 검색의 기준이 되는 유저(기준 유저)를 입력하기 위한 인터페이스이다. 단말기 유저는 누구를 기준 유저로서 설정해도 되고, 예를 들어 자기 자신이나 다른 필자를 유저 입력란(111)에 지정해도 좋다.
기간 입력란(112)은 후술하는 현재 모델을 생성하기 위하여 수집하는 문서의 기간(현재부터 얼마만큼 거슬러 올라가서 문서를 수집할지를 나타내는 기간)을 입력하기 위한 인터페이스이다. 이하에서는, 그 기간을 「수집 기간」이라고 말한다.
현재 모델란(113)은 지정된 수집 기간에 있어서 기준 유저에 의해 작성된 문서의 프로파일·데이터를 집계하여 얻어진 친토픽별 출현 빈도(제1 출현 빈도)를 백분율 등의 비율로 표시하는 영역이다. 친토픽별 출현 빈도는 「흥미 모델」이나 「출현 빈도 분포」라고 할 수도 있다. 이하에서는, 이 란에 나타나는 친토픽별 출현 빈도를 「현재 모델」 또는 「현재의 흥미 모델」이라고 말한다. 본 실시 형태에서는, 현재 모델은 후술하는 제1 검색부(13)에 의해 취득되어, 도 8에 도시한 바와 같이 히스토그램으로 표시된다.
장래 모델란(114)은 단말기 유저에 의한 친토픽별 출현 빈도(제2 출현 빈도)의 입력을 접수하는 영역이다. 이하에서는, 이 란에 나타나는 친토픽별 출현 빈도를 「장래 모델」 또는 「장래의 흥미 모델」이라고 말한다. 본 실시 형태에서는, 장래 모델도 비율로 나타나고, 히스토그램으로 표시된다.
장래 모델의 초기값으로서, 현재 모델과 동일값이 설정 및 표시되고, 단말기 유저는 이 란 내에 표시되어 있는 각 막대를 오르내림으로써, 장래 모델(각 친토픽의 출현 빈도의 크기)을 바꿀 수 있다. 각 친토픽의 출현 빈도는 비율로 나타나므로, 단말기 유저가 어느 친토픽에 관한 출현 빈도의 크기를 바꾸면, 다른 토픽의 출현 빈도가 자동으로 조정된다. 구체적으로는, 유저 단말기(T)가, 현재 모델과, 변경된 친토픽을 나타내는 변경 정보와, 상기 친토픽의 변경 후의 출현 빈도를 포함하는 미조정 장래 모델(조정 전의 장래 모델)의 데이터를 검색 서버(10)에 송신한다. 그 후, 유저 단말기(T)는 검색 서버(10)의 모델 조정부(14)(후술)에 있어서 조정된 장래 모델의 데이터를 수신하여 장래 모델란(114)에 표시한다. 이와 같이, 일부의 지정 토픽의 출현 빈도가 변경되면 그 변경에 따라서 다른 지정 토픽의 출현 빈도가 조정되므로, 검색 조작의 편리성이 향상된다.
검색 버튼(115)은 입력 영역(110)에 있어서 지정된 검색 조건에 기초하는 검색 처리를 검색 서버(10)에 지시하기 위한 인터페이스이다.
문서 표시란(116)은 현재 모델을 얻기 위하여 사용한 문서를 단말기 유저의 지시 입력에 따라서 표시하는 영역이다. 이 란에 표시되는 문서는, 필자 ID가 기준 유저 ID이며, 또한 작성 시기가 수집 기간에 포함되는 문서이며, 문서 데이터베이스(D)로부터 판독된다.
표시 영역(120)은 필자 선택란(121), 변화 전 모델란(122), 변화 후 모델란(123) 및 문서 표시란(124)을 포함한다.
필자 선택란(121)은 검색된 1 이상의 필자(검색 조건과 동일 또는 유사한 흥미 모델의 변화를 나타낸 필자) 중의 한 사람을 선택하기 위한 인터페이스이다.
변화 전 모델란(122)은 필자 선택란에서 선택된 필자에 관한, 현재 모델과 동일 또는 유사한 흥미 모델(이하에서는 「변화 전 모델」 또는 「변화 전의 흥미 모델」이라고 함)을 표시하는 영역이다.
변화 후 모델란(123)은 필자 선택란에서 선택된 필자에 관한, 장래 모델과 동일 또는 유사한 흥미 모델(이하에서는 「변화 후 모델」 또는 「변화 후의 흥미 모델」이라고 함)을 표시하는 영역이다.
문서 표시란(124)은 필자 선택란(121)에 선택된 필자의 문서를 단말기 유저의 지시 입력에 따라서 표시하는 영역이다. 이 란에 표시되는 문서는, 필자 ID가 선택된 필자의 것이고, 또한 작성 시기가 변화 전 모델 또는 변화 후 모델에 대응하는 기간에 포함되는 문서이며, 문서 데이터베이스(D)로부터 판독된다.
또한, 흥미 모델의 표현 방법은 히스토그램에 한정되지 않고, 임의로 정해도 좋다. 예를 들어, 원 그래프를 사용하여 흥미 모델을 표현해도 된다.
도 2로 돌아와서, 제1 검색부(13)는 프로파일·데이터베이스(11) 내의 프로파일·데이터에 기초하여 현재 모델을 생성하는 수단이다. 검색 화면(100)에 있어서 기준 유저 및 수집 기간이 입력되면, 유저 단말기(T)는 상기 기준 유저의 유저 ID와 상기 수집 기간을 나타내는 검색 조건(이하에서는 「제1 검색 조건」이라고도 말함)을 검색 서버(10)에 송신한다. 제1 검색부(13)는 그 검색 조건을 수신하면, 필자 ID가 기준 유저의 유저 ID이며, 또한 작성 시각이 수집 기간에 포함되는 프로파일·데이터를 프로파일·데이터베이스(11)로부터 판독한다. 계속해서, 제1 검색부(13)는 추출한 프로파일·데이터에서 나타나는 토픽 0 내지 99의 출현 빈도와, 도 7에 도시한 바와 같은 대응표에 기초하여, 친토픽별로 출현 빈도를 집계한다. 계속해서, 제1 검색부(13)는 각 친토픽의 집계 결과를 비율로 환산하고, 환산 후의 결과를 흥미 모델로서 유저 단말기(T)에 송신한다. 이에 의해, 현재 모델이 히스토그램에서 현재 모델란(113)에 표시된다.
모델 조정부(14)는 검색 화면(100) 상에서의 장래 모델의 변경 조작에 따라, 상기 장래 모델에 있어서의 각 출현 빈도를 조정하는 수단이다. 모델 조정부(14)는 유저 단말기(T)로부터 수신한 현재 모델, 변경 정보, 및 미조정 장래 모델에 기초하여 장래 모델의 각 출현 빈도를 조정한다. 조정의 방법은 임의로 정해도 좋지만, 여기에서는 두 조정 방법을 설명한다.
제1 방법은, 다른 필자의 흥미 모델의 추이를 참조하여, 지정된 변화에 가장 가까운 흥미 모델을 조정 후의 장래 모델로 하는 유사 흥미 모델 참조법이다. 도 9를 사용해서 이 방법을 설명한다.
현재 모델 및 미조정 장래 모델에 있어서의 i번째의 친토픽의 출현 빈도를 각각 Ti C, Ti D로 하면, 현재 모델은 벡터 TC={T0 C, T1 C, T2 C, T3 C, T4 C}t로 표현되고, 미조정 장래 모델(희망의 장래 모델)은 벡터 TD={T0 D, T1 D, T2 D, T3 D, T4 D}t로 표현된다. 또한, t는 전치를 표현한다. 이때, 일부의 친토픽에 대해서만 출현 빈도가 변경된 경우에는, 모델 조정부(14)는 현재 흥미 모델과, 출현 빈도가 변경된 친토픽에만 주목한 미조정 장래 모델 TD에 기초하여 프로파일·데이터베이스(11)를 검색한다.
예를 들어 도 9에 도시한 바와 같이, 3번째 및 4번째의 친토픽에 관한 출현 빈도만이 화살표 A1, A2와 같이 유저에 의해 변경된 경우에는, 모델 조정부(14)는 미조정 장래 모델 TD={T0 D, T1 D, T2 D, T3 D, T4 D}t를 TD={*, *, T2 D, T3 D, *}t로 치환한다. 여기서, 「*」은 와일드 카드이다. 그리고, 모델 조정부(14)는 임의의 기간(다른 탐색 시기)에 있어서의 제1 흥미 모델이 현재 모델과 동일 또는 유사하고, 또한, 상기 기간보다 후의 기간(하나의 탐색 시기)에 있어서의 제2 흥미 모델 TF가 치환 후의 미조정 장래 모델과 동일 또는 유사한 필자를 특정한다. 단, TF={T0 F, T1 F, T2 F, T3 F, T4 F}t이다. 여기서, 동일성 및 유사성을 판정할 때에는, 모델 조정부(14)는 하기 제2 검색부(15)와 마찬가지로 맨해턴 거리라고 하는 개념을 이용한다.
치환 후의 미조정 장래 모델과 동일 또는 유사한 제2 흥미 모델 TF를 검색할 때에는, 모델 조정부(14)는 변경된 출현 빈도에 대해서만(상기의 예에서는 T2 D, T3 D에 대해서만) 맨해턴 거리를 구한다. 또한, 각 모델에 있어서의 출현 빈도의 총합은 일정할 필요가 있고, 이것은 하기 식(1)과 같이 표현된다.
Figure 112013031216405-pct00001
그리고, 모델 조정부(14)는 가장 유사한 필자의 제2 흥미 모델 TF를 장래 모델로서 유저 단말기(T)에 송신한다. 따라서, 검색 화면(100)에서는, 현재 모델TC={T0 C, T1 C, T2 C, T3 C, T4 C}t가 장래 모델 TF={T0 F, T1 F, T2 F(≒T2 D), T3 F(≒T3 D), T4 F}t에로 추이하도록 표시된다.
이러한 제1 방법에 있어서, 모델 조정부(14)는 가장 유사한 흥미 모델 TF 이외를 장래 모델로서 설정해도 된다. 예를 들어, 모델 조정부(14)는 맨해턴 거리가 작은 순서대로 추출한 소정수의 흥미 모델의 평균을 장래 모델로서 유저 단말기(T)에 송신해도 된다. 또한, 모델 조정부(14)는 맨해턴 거리가 소정값 이하가 되는 흥미 모델의 평균을 장래 모델로서 유저 단말기(T)에 송신해도 된다.
제2 방법은, 친토픽 간의 관련성을 고려하여 장래 모델의 각 출현 빈도를 조정하는 토픽 전파법이다. LDA에 의해 각 단어가 토픽과 대응지어질 때에는, 하나의 단어가 복수의 토픽에 소속할 경우가 있다. 이러한 단어의 중복의 빈도에 의해 토픽 간에 관련이 생기고, 따라서, 친토픽 간에도 관련이 생긴다. 토픽 전파법에서는, 친토픽 각각의 사이의 관련 강도를 나타내는 가중치를 이용한다. 도 10을 사용해서 이 방법을 설명한다.
도 10에 도시한 바와 같이, 5개의 친토픽을 노드 n0 내지 n4로 표현하고, 두 토픽 간의 가중치를 wij(i, j는 서로 인접하는 노드의 번호)로 표현하는 것으로 한다. 또한, 가중치 w는 미리 검색 서버(10) 내의 소정의 기억 수단에 저장되어 있고, 모델 조정부(14)에 의해 참조되는 것으로 한다.
이것을 전제로 해서, 예를 들어 노드 n2에 대응하는 출현 빈도가 유저 조작에 의해 v만큼 변경되었다고 하자. 노드 n2에 관련한 가중치는 w02, w12, w23, w24이기 때문에, 노드 n2의 출현 빈도를 바꾸기 위해서는, 이들 가중치를 고려하여, 다른 노드 n0, n1, n3, n4 사이에서 이동시키는 출현 빈도의 양을 정하면 된다. wT=w02+w12+w23+w24라고 하면, 모델 조정부(14)는 다른 노드와 노드 n2와의 사이의 이동량을 이하와 같이 결정한다.
·노드 n0 사이에서는, v (w02/wT)
·노드 n1 사이에서는, v (w12/wT)
·노드 n3 사이에서는, v (w23/wT)
·노드 n4 사이에서는, v (w24/wT)
단, v>0, 즉 노드 n2에 대하여 출현 빈도를 증가시켰을 경우에는, 상기 계산에 의해 출현 빈도가 부가되는 다른 노드가 나타나는 경우가 있다. 그 경우에는, 모델 조정부(14)는 상기 다른 노드에 관한 출현 빈도가 0으로 복귀될 때까지 노드 n2로부터 상기 다른 노드로 출현 빈도를 복귀시킨다. 그리고, 모델 조정부(14)는 노드 n2에 있어서 부족분의 양 v'를 다른 노드(출현 빈도가 0으로 복귀된 노드는 제외함)에서 옮기는 처리를 상기와 마찬가지로 실행한다. 또한, 유저 조작에 의해 복수의 토픽의 출현 빈도가 변경된 경우에는, 모델 조정부(14)는 각 노드(각 토픽)의 변경량 vk(k는 노드 번호)에 대하여 상기의 조정을 행하면 된다. 모델 조정부(14)는 조정 후의 장래 모델을 유저 단말기(T)에 송신한다. 이에 의해, 검색 화면(100)에 조정 후의 장래 모델이 표시된다.
도 2로 돌아와서, 제2 검색부(15)는 검색 화면(100)의 입력 영역(110)에서 지정된 검색 조건(이하에서는 「제2 검색 조건」이라고도 말함)에 대응하는 필자를 검색하는 수단이다. 제2 검색부(15)는 수신부(15a), 추출부(검색 수단)(15b) 및 송신부(출력 수단)(15c)를 구비한다.
수신부(15a)는 유저 단말기(T)로부터 검색 조건을 수신하는 수단이다. 검색 화면(100) 상의 검색 버튼(115)이 단말기 유저에 의해 클릭되면, 유저 단말기(T)가 검색 조건을 검색 서버(10)에 송신하고, 수신부(15a)가 상기 검색 조건을 수신한다. 수신부(15a)는 수신한 검색 조건을 추출부(15b)에 출력한다.
이 검색 조건(제2 검색 조건)에는, 단말기 유저의 유저 ID, 기준 유저의 유저 ID, 수집 기간, 상기 수집 기간에 대응하는 현재 모델 및 장래 모델이 포함된다. 수집 기간에 대응하는 현재 모델은, 제1 지정 시기(수집 기간)에 있어서의 친토픽별 제1 출현 빈도에 상당한다. 또한, 장래 모델은, 제2 지정 시기(장래의 어느 시점 또는 기간)에 있어서의 친토픽별 제2 출현 빈도에 상당한다. 본 실시 형태에서는 5개의 친토픽이 지정 토픽으로서 다루어진다.
추출부(15b)는 프로파일·데이터베이스(11) 내의 프로파일·데이터에 기초하여, 입력된 검색 조건에 대응하는 필자를 추출하는 수단이다. 추출부(15b)는 단말기 유저 및 기준 유저와는 다른 유저를 검색 대상의 필자로서 설정한다. 즉, 추출부(15b)는 입력된 두 유저 ID의 어느 것과도 다른 필자 ID를 갖는 프로파일·데이터에 대하여 검색 처리를 실행한다. 따라서, 검색 대상을 특정하는 식별자는 필자 ID이다.
추출부(15b)는 검색 대상의 각 필자에 대하여 다음과 같은 검색 처리를 실행한다. 즉, 추출부(15b)는 입력된 수집 기간에 대응하는 임의의 기간(이하에서는 「개시 기간」이라고도 말한다. 제1 검색 대상 시기에 상당함)에 대응하는 프로파일·데이터를 프로파일·데이터베이스(11)로부터 판독한다. 여기서, 개시 기간과 수집 기간에서는, 기간의 시점 및 종점은 서로 상이한데, 기간의 길이는 동일하다. 단, 엄밀한 길이는 상이해도 된다. 예를 들어, 수집 기간이 바로 근처의 1개월이며 그것이 4월 1일에서 4월 30일의 30일간일 경우에, 개시 기간이 3월 1일에서 3월 31일의 31일간이거나 2월 1일에서 2월 28일의 28일간이거나 해도 된다.
계속해서, 추출부(15b)는 판독한 1 이상의 프로파일·데이터에서 나타나는 출현 빈도를 친토픽별로 집계함으로써, 개시 기간에 있어서의 흥미 모델을 생성한다. 계속해서, 추출부(15b)는 생성된 흥미 모델이 현재 모델과 동일 또는 유사할 지의 여부를 판정한다.
추출부(15b)는 흥미 모델의 동일성 및 유사성을 판정할 때에 하기 식(1)로 나타내는 맨해턴 거리 d1(x, y)를 사용한다.
Figure 112013031216405-pct00002
여기서, 좌변의 x는 검색 조건으로서 설정된 흥미 모델의 벡터, 좌변의 y는 검색 대상의 필자에 관한 흥미 모델의 벡터이다. 또한, n은 친토픽의 개수이며, 본 실시 형태에서는 n=5이다. 우변의 xk는 검색 조건으로서 설정된 흥미 모델에 있어서의 친토픽 k의 출현 빈도(비율)이며, 우변의 yk는 검색 대상의 필자에 관한 흥미 모델에 있어서의 친토픽 k의 출현 빈도(비율)이다. 벡터 x, y는 각각, x={x1, x2, x3, x4, x5}, y={y1, y2, y3, y4, y5}로 표현된다.
추출부(15b)는 상기 맨해턴 거리가 소정의 임계값 이하인 경우에, 개시 기간에 있어서의 흥미 모델이 현재 모델과 동일 또는 유사하다고 판정한다. 또한, 임계값의 결정 방법은 임의이다. 맨해턴 거리가 0이면, 현재 모델과 동일한 흥미 모델이 얻어지게 된다.
또한, 추출부(15b)는 기간의 길이가 수집 기간과 동일하고, 또한 시점이 개시 기간보다 후인 임의의 기간(이하에서는 「종료 기간」이라고도 말한다. 제2 검색 대상 시기에 상당함)에 대응하는 프로파일·데이터를 프로파일·데이터베이스(11)로부터 판독한다. 여기서, 종료 기간과 수집 기간과의 사이에 있어서의 시점, 종점 및 기간의 길이의 관계는, 개시 기간에 대하여 설명한 것과 마찬가지이다. 계속해서, 추출부(15b)는 판독한 1 이상의 프로파일·데이터에서 나타나는 출현 빈도를 친토픽별로 집계함으로써, 종료 기간에 있어서의 흥미 모델을 생성한다. 계속해서, 추출부(15b)는 생성된 흥미 모델이 장래 모델과 동일 또는 유사한 지의 여부를 판정한다. 이 판정을 행하는 경우도, 추출부(15b)는 상기 식(1)로 표현되는 맨해턴 거리 d1(x, y)를 사용하여 개시 기간의 경우와 마찬가지로 동일성 및 유사성을 판정한다.
추출부(15b)는 하나의 필자에 대하여 개시 기간 및 종료 기간을 바꾸면서, 이들 두 기간에 있어서 맨해턴 거리가 소정의 임계값 이하가 되는 흥미 모델의 조합을 추출한다. 그리고, 이 조합에 관한, 개시 기간 및 종료 기간에 대응하는 두 흥미 모델을, 각각 변화 전 모델 및 변화 후 모델로서 유지한다. 또한, 추출부(15b)는 변화 전후의 흥미 모델에 대응하는 개시 기간 및 종료 기간도 유지한다. 또한, 검색 조건과 동일 또는 유사한 변화 전 및 변화 후의 흥미 모델의 조합이 복수 얻어진 경우에는, 추출부(15b)는 임의의 방법으로 하나의 조합을 선택하면 된다. 예를 들어, 추출부(15b)는 맨해턴 거리의 합 또는 평균값이 최소인 조합을 선택해도 된다.
추출부(15b)는 각 필자에 대하여 이러한 처리를 행하고, 입력된 검색 조건에 합치하는 하나 이상의 필자에 관한 필자 ID, 변경 전 모델, 변경 후 모델, 및, 이들 모델에 대응하는 개시 기간 및 종료 기간을 취득한다. 그리고, 추출부(15b)는 취득한 이들 데이터를 검색 결과로서 송신부(15c)에 출력한다.
송신부(15c)는 입력된 검색 결과를 단말기 유저에게 제시하기 위해서, 상기 검색 결과를 유저 단말기(T)에 송신하는 수단이다. 이에 의해, 유저 단말기(T)에 표시되어 있는 검색 화면(100)의 표시 영역(120)에 변경 전 모델 및 변경 후 모델이 표시된다.
이어서, 도 11을 사용하여, 검색 시스템(특히 검색 서버(10))의 동작을 설명 함과 함께 본 실시 형태에 따른 검색 방법에 대하여 설명한다.
이하에서는, 유저 단말기(T) 상에 검색 화면(100)이 표시된 것을 전제로 하여 설명한다(스텝 S11). 단말기 유저에 의해 현재 모델을 얻기 위한 제1 검색 조건, 즉 기준 유저 및 수집 기간이 지정되면(스텝 S12), 유저 단말기(T)가 상기 제1 검색 조건을 검색 서버(10)에 송신한다(스텝 S13). 검색 서버(10)에서는, 제1 검색부(13)가 그 검색 조건에 기초하여 프로파일·데이터베이스(11)로부터 프로파일·데이터를 추출하고, 그 프로파일·데이터에 기초하여 현재 모델을 생성한다(스텝 S14). 그리고, 제1 검색부(13)는 그 현재 모델을 유저 단말기(T)에 송신한다(스텝 S15). 유저 단말기(T)에서는, 그 현재 모델이 검색 화면(100)에 표시된다(스텝 S16). 이때, 본 실시 형태에서는 현재 모델과 동일값이 장래 모델의 초기값으로서 설정 및 표시된다.
그 후, 단말기 유저에 의해 그 장래 모델 내의 출현 빈도가 변경되면(스텝 S17), 유저 단말기(T)가 그 변경을 나타내는 미조정 장래 모델을 검색 서버(10)에 송신한다(스텝 S18). 검색 서버(10)에서는, 모델 조정부(14)가 그 미조정 장래 모델에 대하여 유사 흥미 모델 참조법이나 토픽 전파법 등의 방법을 적용함으로써 그 장래 모델을 조정하고(스텝 S19), 조정된 장래 모델을 유저 단말기(T)에 송신한다(스텝 S20). 유저 단말기(T)에서는 조정 후의 장래 모델이 검색 화면(100)에 표시된다(스텝 S21). 스텝 S17 내지 S21의 처리는, 단말기 유저의 조작에 따라서 반복 실행될 수 있다.
그 후, 단말기 유저가 검색 버튼(115)을 클릭하여 검색을 지시하면(스텝 S22), 유저 단말기(T)가, 필자를 검색하기 위한 조건, 즉, 현재 및 장래의 흥미 모델을 포함하는 제2 검색 조건을 검색 서버(10)에 송신한다(스텝 S23).
검색 서버(10)에서는, 수신부(15a)가 그 검색 조건을 수신한다. 계속해서, 추출부(15b)가 그 검색 조건에 기초하여 프로파일·데이터베이스(11)로부터 프로파일·데이터를 추출하고, 그 프로파일·데이터에 기초하여 필자를 검색한다(스텝 S24, 검색 스텝). 구체적으로는, 추출부(15b)는 맨해턴 거리라고 하는 개념을 사용하여, 개시 기간에 있어서의 흥미 모델이 현재 모델과 동일 또는 유사하고, 또한 종료 기간에 있어서의 흥미 모델이 장래 모델과 동일 또는 유사한 필자를 추출한다. 이때 추출부(15b)는 생성 및 판정한 흥미 모델을 변화 전 모델 및 변화 후 모델로서 유지한다. 그리고, 송신부(15c)가 추출된 필자를 그 변화 전후의 흥미 모델과 함께 검색 결과로서 유저 단말기(T)에 송신한다(스텝 S25, 송신 스텝). 유저 단말기(T)에서는, 그 검색 결과가 검색 화면(100)에 표시된다(스텝 S26). 이에 의해, 단말기 유저는 검색 결과를 얻을 수 있다.
이어서, 도 12를 사용하여, 컴퓨터를 검색 서버(10)로서 기능시키기 위한 검색 프로그램(P1)을 설명한다.
검색 프로그램(P1)은, 메인 모듈(P10), 프로파일 기억 모듈(P11), 인터페이스 제공 모듈(P12), 제1 검색 모듈(P13), 모델 조정 모듈(P14) 및 제2 검색 모듈(P15)을 구비한다. 제2 검색 모듈(P15)은, 수신 모듈(P15a), 추출 모듈(P15b) 및 송신 모듈(P15c)을 구비한다.
메인 모듈(P10)은, 검색 기능을 통괄적으로 제어하는 부분이다. 프로파일 기억 모듈(P11), 인터페이스 제공 모듈(P12), 제1 검색 모듈(P13), 모델 조정 모듈(P14) 및 제2 검색 모듈(P15)을 실행함으로써 실현되는 기능은 각각, 상기의 프로파일·데이터베이스(11), 인터페이스 제공부(12), 제1 검색부(13), 모델 조정부(14) 및 제2 검색부(15)의 기능과 마찬가지이다. 수신 모듈(P15a), 추출 모듈(P15b) 및 송신 모듈(P15c)을 실행함으로써 실현되는 기능은 각각, 상기의 수신부(15a), 추출부(15b) 및 송신부(15c)의 기능과 마찬가지이다.
검색 프로그램(P1)은, 예를 들어 CD-ROM이나 DVD-ROM, 반도체 메모리 등의 유형의 기록 매체에 고정적으로 기록된 뒤에 제공된다. 또한, 검색 프로그램(P1)은, 반송파에 중첩된 데이터 신호로서 통신 네트워크를 통하여 제공되어도 된다.
이상 설명한 바와 같이, 본 실시 형태에 따르면, 두 시기에 있어서의 지정 토픽별 출현 빈도(현재 및 장래의 흥미 모델)와 동일 또는 유사한 두 출현 빈도(변화 전 및 변화 후의 흥미 모델)를 갖는 필자가 추출된다. 그리고, 추출된 필자가 검색 결과로서 유저 단말기(T)에 송신되어, 검색 화면(100) 상에 표시된다. 이와 같이, 지정된 토픽에 관한 출현 빈도의 변화가 검색 조건과 일치 또는 유사한 필자를 추출함으로써, 유저로 지정된 것 같이 흥미가 변화한 필자의 정보를 그 유저에게 제시할 수 있다. 또한, 필자의 흥미의 변화는 상황 변화의 1종이다.
(제2 실시 형태)
이어서, 도 13, 14를 사용하여, 제2 실시 형태에 따른 검색 서버(10A)의 기능 및 구성을 설명한다. 이 검색 서버(10A)는, 필자 검색뿐만 아니라, 검색된 필자에 의해 구입한 상품이나 상기 필자의 흥미 모델의 변화에 대응하는 상품의 정보를 유저 단말기에 제공하는 점에서, 제1 실시 형태에 있어서의 검색 서버(10)와 상이하다. 이하에서는, 제1 실시 형태와 동일 또는 동등한 사항에 대해서는 설명을 생략한다.
도 13에 도시한 바와 같이, 본 실시 형태의 검색 시스템은, 추가의 데이터베이스인 상품 데이터베이스(P) 및 구입 이력 데이터베이스(R)를 더 구비한다. 상품 데이터베이스(P)는, 상품을 특정하는 상품 ID와, 그 상품의 이름이나 카테고리, 가격, 상품 화상 등의 임의의 상품 속성을 포함하는 상품 데이터를 기억하는 수단이다. 또한, 구입 이력 데이터베이스(R)는, 상품을 구입한 유저를 특정하는 유저 ID와, 그 상품의 상품 ID와, 구입 일시를 포함하는 구입 데이터를 기억하는 수단이다. 상품 데이터베이스(P) 및 구입 이력 데이터베이스(R)의 설치 개소로서는, 예를 들어 온라인·쇼핑·시스템 내를 들 수 있지만, 이들 데이터베이스는 어디에 설치되어도 되고, 동일한 시스템 내에 설치될 필요도 없다. 또한, 도 1에서는 상품 데이터베이스(P) 및 구입 이력 데이터베이스(R)를 하나만 나타내고 있지만, 이들 데이터베이스의 대수도 전혀 한정되지 않는다. 검색 서버(10A)는, 상품 데이터베이스(P) 및 구입 이력 데이터베이스(R) 모두 통신 네트워크(N)를 개재하여 통신가능하다.
도 14에 도시한 바와 같이, 검색 서버(10A)는 기능적 구성 요소로서 프로파일·데이터베이스(11), 인터페이스 제공부(12), 제1 검색부(13), 모델 조정부(14) 및 제2 검색부(15A)를 구비한다. 이하에서는, 제1 실시 형태와는 다른 제2 검색부(15A)에 대하여 설명한다.
제2 검색부(15A)는, 수신부(15a), 추출부(15b), 리커맨드부(검색 수단)(15d) 및 송신부(15c)를 구비한다. 수신부(15a) 및 송신부(15c)의 기능은 제1 실시 형태에서 설명한 것과 마찬가지이다. 또한, 추출부(15b)는 검색 결과를 리커맨드부(15d)에 출력한다는 점에서는 제1 실시 형태와 상이한데, 상기 검색 결과를 얻는 기능의 상세한 것은 제1 실시 형태에서 설명한 것과 마찬가지이다. 따라서, 이하에서는 수신부(15a), 추출부(15b) 및 송신부(15c)의 설명을 생략하고, 리커맨드부(15d)에 대해서만 설명한다.
리커맨드부(15d)는 단말기 유저에게 제시하는 리커맨드 상품(권장 상품)을 추출하는 수단이다. 여기에서는, 두 추출 방법을 설명한다.
제1 방법은, 검색된 필자에 관련한 상품을 추출하는 방법이다. 리커맨드부(15d)는 입력된 검색 결과에서 나타나는 각 필자에 대하여 다음 처리를 실행한다.
리커맨드부(15d)는 하나의 필자의 변화 전 모델 및 변화 후 모델에 대응하는 개시 기간 및 종료 기간을 참조하여, 이들 두 기간의 시간 간격을 추이 기간으로 하여 취득한다. 또한, 추이 기간의 시점은 개시 기간의 시점 또는 종점이며, 추이 기간의 종점은 종료 기간의 시점 또는 종점이다.
계속해서, 리커맨드부(15d)는 유저 ID가 필자의 유저 ID이며, 또한 구입 일시가 그 추이 기간에 포함되는 구입 데이터를 구입 이력 데이터베이스로부터 판독함으로써 필자가 상기 추이 기간에 구입한 상품의 상품 ID를 취득한다.
이때 하나 이상의 상품 ID를 취득할 수 있었을 경우에는, 리커맨드부(15d)는 상기 상품 ID에 대응하는 상품 데이터를 상품 데이터베이스(P)로부터 판독하고, 상품명이나 가격, 상품 화상 등을 포함하는 리커맨드 정보(부가 정보)를 생성한다. 또한, 이때는, 리커맨드부(15d)는 상품 데이터에서 나타나는 상품의 카테고리와 5개의 친토픽을 비교하고, 어느쪽인가의 친토픽에 대응하는 카테고리에 속하는 상품에 대하여만 리커맨드 정보를 생성해도 된다.
예를 들어, 리커맨드부(15d)는 변화 후 모델 중에서 출현 빈도가 가장 높은 친토픽에 대응하는 카테고리에 속하는 상품만을 추출해도 된다. 또한, 리커맨드부(15d)는 변화 후 모델 중에서 출현 빈도가 소정값 이상인 친토픽에 대응하는 카테고리에 속하는 상품만을 추출해도 된다. 또한, 리커맨드부(15d)는 변화 전 모델로부터 변화 후 모델로 추이하는 과정에서 출현 빈도가 가장 증대한 토픽에 대응하는 카테고리에 속하는 상품만을 추출해도 된다. 토픽과 상품 카테고리와의 대응은 임의로 정해도 좋고, 리커맨드부(15d)는 그 대응을 나타내는 데이터를 미리 내부에 유지하고 있다.
이렇게 리커맨드 정보를 생성하면, 리커맨드부(15d)는 그 리커맨드 정보를 입력된 검색 결과에 포함하여 송신부(15c)에 출력한다.
한편, 상품 ID를 하나도 취득할 수 없었을 경우에는, 리커맨드부(15d)는 입력된 검색 결과를 그대로 송신부(15c)에 출력한다.
제2 방법은, 변화 전 모델로부터 변화 후 모델로 어떻게 추이했는지를 나타내는 추이 패턴에 기초하여, 이들 모델에서 나타나는 토픽에 대응하는 카테고리의 상품을 추출하는 방법이다.
변화 전 모델로부터 변화 후 모델에 도달할 때까지 시간 s를 필요로 한다고 하고, 변화 전 모델의 시점을 t=0, 변화 후 모델의 시점을 t=s로 한다. 그리고, 변화 전 및 변화 후의 흥미 모델을 각각 K(0), K(s)로 표현하고, 시각 t에 있어서의 흥미 모델을 나타내는 함수 K(t)={K0 t, K1 t, K2 t, K3 t, K4 t}T로 표현한다. 또한, T는 전치를 나타낸다. 이때, 값 K(t)은 임의의 함수 f(t)를 사용하여 하기 식(3)과 같이 규정할 수 있다.
K(t)=K(0)+(K(s)-K(0))·f(t)
여기서, 함수 f(t)는 단순한 선형 함수(t/s)이어도 되고, 지수 함수적 또는 대수 함수적으로 추이하는 함수이어도 된다. 예를 들어, 함수 f(t)가 선형 함수이면, 함수 K(t)는 「일정한 스피드로 증대하는」 추이 모델(선형 모델)을 나타낸다고 말할 수 있다. 또한, 함수 f(t)가 지수 함수적인 것이면, 함수 K(t)는 「당초는 완만하게 증대하고, 그 후 급격하게 증대하는」 추이 모델(지수 함수적 모델)을 나타낸다고 말할 수 있다. 또한, 함수 f(t)가 대수 함수적인 것이면, 함수 K(t)는 「당초는 급격하게 증대하고, 그 후 완만하게 증대하는」 추이 모델(대수 함수적 모델)을 나타낸다고 말할 수 있다. 또한, 리커맨드부(15d)는 복수의 함수 K(t)를 취득해도 된다.
계속해서, 리커맨드부(15d)는 취득한 추이 모델에 대응하는 상품을 상품 데이터베이스(P)로부터 판독한다. 여기서, 이 처리의 전제로서, 상품 데이터에는, 상품의 카테고리뿐만 아니라, 대응하는 추이 모델의 종류(예를 들어, 선형 모델, 지수 함수적 모델, 대수 함수적 모델)나, 상기 추이 모델의 어느 시점(예를 들어 전반, 중반, 후반 등)에 상품이 대응할지를 나타내는 데이터도 포함되어 있는 것으로 한다. 예를 들어, 리커맨드부(15d)는 취득한 추이 모델(함수 K(t))마다, 상기 추이 모델에서 나타나는 친토픽에 대응하는 카테고리를 갖고, 또한 그 함수 K(t)에 대응하는 추이 모델의 종류가 지정되어 있는 상품을 상품 데이터베이스(P)로부터 판독한다. 하나 이상의 상품 데이터를 취득할 수 있었을 경우에는, 리커맨드부(15d)는 그 상품 데이터에 기초하여 각 추이 모델에 관한 리커맨드 정보(부가 정보)를 생성한다. 그리고, 리커맨드부(15d)는 생성한 리커맨드 정보를 입력된 검색 결과에 포함하여 송신부(15c)에 출력한다.
리커맨드 상품 정보를 포함하는 검색 결과는 유저 단말기(T)에 의해 수신 및 표시된다. 이때, 리커맨드 상품 정보를 어떻게 표시시킬지는 임의로 정해도 좋다. 예를 들어, 리커맨드 상품을 표시하기 위한 영역을 검색 화면 내에 설치하거나, 다른 화면에 리커맨드 상품을 표시시켜도 된다. 어떻든, 단말기 유저는, 검색된 필자의 흥미가 변화하는 과정에서 상기 필자가 어떤 상품을 구입했는지를 알 수 있다.
이어서, 도 15를 사용하여, 컴퓨터를 검색 서버(10A)로서 기능시키기 위한 검색 프로그램(P2)을 설명한다.
검색 프로그램(P2)은, 제2 검색 모듈(P15) 대신에, 리커맨드 모듈(P15d)을 포함하는 제2 검색 모듈(P15A)을 구비하는 점에서, 제1 실시 형태에 있어서의 검색 프로그램(P1)과 상이하다. 제2 검색 모듈(P15A)을 실행함으로써 실현되는 기능은 제2 검색부(15A)의 기능과 마찬가지이다. 리커맨드 모듈(P15d)를 실행함으로써 실현되는 기능은 상기 리커맨드부(15d)의 기능과 마찬가지이다. 검색 프로그램(P2)도 검색 프로그램(P1)과 마찬가지로 제공된다.
본 실시 형태에 있어서도, 제1 실시 형태와 마찬가지의 효과를 얻을 수 있다. 덧붙이면, 본 실시 형태에서는, 필자 또는 추이 패턴에 대응하는 리커맨드 정보도 부가 정보로서 유저 단말기(T)에 송신된다. 따라서, 유저는, 검색 조건에서 지정한 것 같이 흥미 모델이 변화한 필자의 정보뿐만 아니라, 그 필자 또는 추이 패턴에 관련하는 정보도 얻을 수 있다.
이상, 본 발명을 그 실시 형태에 기초하여 상세하게 설명하였다. 그러나, 본 발명은 상기 실시 형태에 한정되는 것은 아니다. 본 발명은 그 요지를 일탈하지 않는 범위에서 여러가지 변형이 가능하다.
상기 각 실시 형태에서는, 검색 조건이 현재 모델 및 장래 모델이라고 하는 두 흥미 모델을 포함하고 있었지만, 검색 조건에 포함하는 흥미 모델(지정 토픽별 출현 빈도)의 개수는 3 이상일 수도 있다. 즉, 현재 모델과 최종 도달 시점에서의 장래 모델뿐만 아니라, 현재부터 상기 최종 도달 시점까지의 사이에 설치된 하나 이상의 중간점에서의 흥미 모델(제3 지정 시기에 있어서의 지정 토픽별 제3 출현 빈도. 이하에서는 「중간 모델」이라고 말함)도 검색 조건에 포함해도 좋다.
상기 각 실시 형태에서는, 현재 모델에 대응하는 수집 기간(제1 지정 시기)이 소정의 과거의 시점부터 현재까지의 기간이며, 장래 모델에 대응하는 기간(제2 지정 시기)이 장래의 1 시점 또는 1 기간이었지만, 이들 지정 시기는 임의로 설정해도 좋다. 예를 들어, 현재부터 3 내지 2개월 전까지의 1개월간을 제1 지정 시기로 하고, 현재부터 2 내지 1개월 전까지의 1개월간을 제2 지정 시기로 해도 된다. 즉, 검색 조건으로서 설정하는 지정 시기가 모두 과거의 시기이어도 된다. 이것과는 반대로, 각 지정 시기가 모두 장래의 시기이어도 된다. 또한, 각 지정 시기는, 폭을 가진 시간이 아니어도 되고, 어느 1 시점(시각)이어도 된다. 이것에 따라, 검색 결과에서 나타나는 각 흥미 모델에 대응하는 기간(검색 대상 기간)도, 시간이 아니고 어느 1 시점(시각)이어도 된다.
이 경우, 추출부(15b)는 하나의 필자에 대하여 개시 기간, 종료 기간 및 이들 기간 동안에 위치하는 1 이상의 중간 기간(제3 검색 대상 시기)을 바꾸면서, 이들 복수의 기간에 있어서 맨해턴 거리가 소정의 임계값 이하가 되는 흥미 모델의 조합을 추출한다. 중간 기간에 있어서의 흥미 모델의 동일성 및 유사성의 판정 방법은, 상술한 변화 전후의 흥미 모델에 대하여 행해지는 방법과 마찬가지이다. 그리고, 추출부(15b)는 추출한 조합에 관한, 개시 기간, 종료 기간 및 1 이상의 중간 기간에 관한 복수의 흥미 모델을, 각각 변화 전 모델, 변화 후 모델 및 1 이상의 중간 결과 모델로서 유지한다. 그리고, 추출부(15b)는 검색한 흥미 모델을 그 대응 기간과 함께 검색 결과로서 송신부(15c)에 출력한다.
예를 들어, 현재 모델 및 장래 모델 외에, 시점 Ta, Tb, Tc(단, Ta <Tb <Tc)에 대응하는 세개의 중간 모델 Ma, Mb, Mc가 검색 조건으로서 추출부(15b)에 입력된 것으로 하자. 이 경우에는, 추출부(15b)는 이들 3 모델과 동일 또는 유사한 세개의 중간 결과 모델 Ma', Mb', Mc'을 추출한다. 이때, 각 중간 결과 모델에 대응하는 검색 대상 시기를 각각 Ta', Tb', Tc'로 하면, Ta' <Tb' <Tc'의 관계가 성립된다. 즉, 검색 대상으로 되는 복수의 중간 기간은, 검색 조건에서 지정된 중간점의 전후 관계를 유지하고 있다.
이렇게 3 이상의 흥미 모델을 사용하여 검색함으로써, 상황 변화의 과정을 고려한 검색을 행할 수 있으므로, 유저로 지정된 것 같이 흥미 모델이 서서히 변화한 필자의 정보를 그 유저에게 제시할 수 있다.
상기 각 실시 형태에 있어서, 현재 모델로부터 장래 모델에 옮겨질 때까지의 기간(추이 기간)을 검색 조건에 포함해도 좋다. 이 경우에는, 추출부(15b)는 개시 기간으로부터 종료 기간까지의 시간 간격이 추이 기간과 일치하는 것도 조건에 변화 전후의 흥미 모델을 추출하고, 맨해턴 거리를 사용하여 흥미 모델의 동일성 및 유사성을 판정한다. 이에 의해, 지정된 시간 범위 내에서 지정된 것 같이 흥미 모델이 변화한 필자의 정보를 유저에게 제시할 수 있다.
상기 각 실시 형태에서는 복수의 토픽을 포함하는 흥미 모델을 사용했지만, 1 토픽만의 출현 빈도로 이루어지는 모델을 사용해도 된다. 이 경우에는, 모델의 추이는, 각 출현 빈도의 비율의 변화가 아니고, 하나의 출현 빈도의 증가율 또는 감소율로 표현된다. 예를 들어, 특정한 자격 시험의 테스트의 평가값(예를 들어 점수나 편차치)에 관한 1 토픽으로 이루어지는 모델을 사용해도 된다. 1 토픽만의 모델을 취급하는 경우에는, 상술한 모델 조정부(14)는 불필요하게 되지만, 필자 검색의 방법 자체는 상기 실시 형태와 마찬가지이다.
상기 각 실시 형태에서는 검색 화면(100)의 장래 모델란(114)에서 일부의 출현 빈도가 유저 조작에 의해 변경되면 다른 출현 빈도가 자동으로 조정되었지만, 이러한 조정 기능을 생략하고, 유저에게 조정을 맡겨도 된다. 이 경우에는, 모델 조정부(14)를 생략할 수 있다. 또한, 현재 모델란(113) 내의 출현 빈도도 유저 조작에 의해 변경 가능하게 해도 된다. 이 경우에는, 모델 조정부(14)는 미조정 현재 모델과 장래 모델에 대하여 상기 유사 흥미 모델 참조법을 적용함으로써 현재 모델을 조정해도 되고, 미조정 현재 모델에 대하여 상기 토픽 전파법을 적용함으로써 현재 모델을 조정해도 된다. 상기와 같이 중간 모델을 검색 조건에 포함할 경우에도 마찬가지로, 모델 조정부(14)는 유저 조작에 따라서 그 중간 모델을 조정할 수 있다.
상기 각 실시 형태에서는 문서의 필자를 검색 대상으로 했지만, 검색 대상은 전혀 한정되지 않는다. 예를 들어, 상품이나 서비스 등을 검색 대상으로 해도 된다. 이 경우에는, 문서 데이터베이스로부터 수집한 소문 정보나 상품 리뷰 등에 기초하여, 그 검색 대상으로 적합했던 토픽을 갖는 프로파일·데이터를 생성해도 된다. 이에 의해 유저는, 예를 들어 최근 인기가 있는 상품이나, 이전보다 평판이 좋은 호텔 등을 찾는 것이 가능하게 된다.
상기 각 실시 형태에서는, 단말기 유저의 목적은 원하는 흥미 변화를 경험한 필자를 검색하는 것에 있었지만, 검색의 목적은 임의이다. 이것에 관련하여, 설정하는 토픽도 임의로 설정 가능하다. 또한, 토픽별 출현 빈도, 즉 모델은 「흥미」이외의 요소를 나타내는 것이어도 좋다. 예를 들어, 학력의 추이를 파악하기에 적합한 토픽을 갖는 프로파일·데이터를 준비해 두고, 교사가 학생에 대하여 목표 설정을 지도하는 목적이나, 어떤 개인이 자신이 목표를 설정할 목적으로 상기와 같은 검색 시스템을 활용해도 된다.
상기 각 실시 형태에서는, 맨해턴 거리를 사용하여 흥미 모델의 동일성 및 유사성을 판정했지만, 유클리드 거리 등과 같은 다른 척도나 지표를 사용하여 그 동일성 및 유사성을 판정해도 된다.
상기 각 실시 형태에서는 프로파일·데이터베이스(11)를 검색 서버(10, 10A) 내에 설치했지만, 프로파일·데이터베이스는 검색 서버의 외부나, 검색 서버를 포함하는 시스템의 외부에 설치되어 있어도 된다.
상기 각 실시 형태에서는, 유저 단말기(T)와 검색 서버(10, 10A)에 의해, 소위 클라이언트·서버형의 검색 시스템이 구축되어 있었지만, 상술한 검색 서버(10, 10A)의 기능을 유저 단말기에 내장해도 된다. 이 경우에는, 유저 단말기 내에서 추출된 검색 결과가 소정의 모니터 상에 출력(표시)된다.
10, 10A… 검색 서버(검색 장치)
11… 프로파일·데이터베이스
12… 인터페이스 제공부
13… 제1 검색부
14… 모델 조정부
15, 15A… 제2 검색부
15a… 수신부
15b… 추출부(검색 수단)
15c… 송신부(출력 수단)
15d… 리커맨드부(검색 수단)
D… 문서 데이터베이스(소정의 데이터베이스)
P… 상품 데이터베이스(추가의 데이터베이스)
R… 구입 이력 데이터베이스(추가의 데이터베이스)
P1, P2… 검색 프로그램
P10… 메인 모듈
P11… 프로파일 기억 모듈
P12… 인터페이스 제공 모듈
P13… 제1 검색 모듈
P14… 모델 조정 모듈
P15, P15A… 검색 모듈
P15a… 수신 모듈
P15b… 추출 모듈
P15c… 송신 모듈
P15d… 리커맨드 모듈
T… 유저 단말기

Claims (15)

  1. 소정의 데이터베이스로부터 추출된 문서마다에 기초하여 생성된 프로파일·데이터이며, 검색 대상을 특정하는 식별자와, 상기 문서의 작성 시각과, 상기 문서 내의 어구를 1 이상의 토픽별로 분류함으로써 구한 상기 토픽별 출현 빈도를 포함하는 복수의 상기 프로파일·데이터에 기초하여, 유저에 의해 지정된 검색 조건에 대응하는 상기 검색 대상을 추출하는 검색 수단과,
    상기 검색 수단에 의해 추출된 검색 대상을 상기 유저에게 제시하기 위하여 출력하는 출력 수단을 구비하고,
    상기 검색 조건이, 제1 지정 시기에 있어서의, 상기 유저에 의해 지정된 1 이상의 지정 토픽별 제1 출현 빈도와, 상기 제1 지정 시기보다 후의 제2 지정 시기에 있어서의 상기 지정 토픽별 제2 출현 빈도를 포함하고,
    상기 검색 수단이, 상기 문서 작성 시각이 제1 검색 대상 시기에 해당하는 상기 프로파일·데이터로부터 얻어진 상기 지정 토픽별 출현 빈도가 상기 제1 출현 빈도와 동일 또는 유사하고, 또한, 상기 문서 작성 시각이 상기 제1 검색 대상 시기보다 후의 제2 검색 대상 시기에 해당하는 상기 프로파일·데이터로부터 얻어진 상기 지정 토픽별 출현 빈도가 상기 제2 출현 빈도와 동일 또는 유사한 상기 검색 대상을 추출하는 검색 장치.
  2. 제1항에 있어서,
    상기 검색 조건이, 또한, 상기 제1 지정 시기와 상기 제2 지정 시기와의 사이에 있어서의 1 이상의 제3 지정 시기 각각에 관한 상기 지정 토픽별 제3 출현 빈도를 포함하고,
    상기 검색 수단이, 상기 제1 검색 대상 시기에 있어서의 상기 출현 빈도가 상기 제1 출현 빈도와 동일 또는 유사하고, 상기 제2 검색 대상 시기에 있어서의 상기 출현 빈도가 상기 제2 출현 빈도와 동일 또는 유사하고, 또한, 상기 1 이상의 제3 지정 시기와 시간의 전후 관계가 대응하는 1 이상의 제3 검색 대상 시기 각각에 있어서, 상기 제3 검색 대상 시기에 있어서의 상기 프로파일·데이터로부터 얻어진 상기 지정 토픽별 출현 빈도가, 대응하는 상기 제3 출현 빈도와 동일 또는 유사한 상기 검색 대상을 추출하는 검색 장치.
  3. 제1항 또는 제2항에 있어서,
    상기 검색 조건이, 인접하는 상기 지정 시기 간의 시간 간격을 더 포함하고, 인접하는 상기 검색 대상 시기 간의 시간 간격이, 대응하는 상기 지정 시기 간의 시간 간격과 같은 검색 장치.
  4. 제1항 또는 제2항에 있어서,
    상기 프로파일·데이터에서 나타나는 1 이상의 상기 토픽이, 상기 소정의 데이터베이스로부터 추출된 상기 문서에 기초하여 얻어진 토픽 군에서 소정의 불필요 토픽을 제외한 나머지의 토픽인 검색 장치.
  5. 제1항 또는 제2항에 있어서,
    상기 지정 토픽이, 상기 프로파일·데이터에서 나타나는 1 이상의 토픽을 포함하는 상위 계층 토픽인 검색 장치.
  6. 제1항 또는 제2항에 있어서,
    상기 지정 토픽이 복수인 경우에, 하나의 상기 지정 시기에 있어서의, 상기 지정 토픽별 출현 빈도의 총합에 대한 일부의 상기 지정 토픽별 출현 빈도의 비율이 변경되면, 상기 지정 시기에 있어서의 나머지의 상기 지정 토픽별 출현 빈도의 비율이 상기 변경에 따라서 조정되는 검색 장치.
  7. 제6항에 있어서,
    상기 하나의 지정 시기에 있어서의 상기 일부의 지정 토픽별 출현 빈도가 변경된 경우에, 상기 하나의 지정 시기에 대응하는 1의 탐색 시기에 있어서의 상기 프로파일·데이터로부터 얻어진 상기 일부의 지정 토픽별 출현 빈도가, 변경된 상기 일부의 지정 토픽별 출현 빈도와 동일 또는 유사하고, 또한, 다른 상기 지정 시기에 대응하는 다른 탐색 시기에 있어서의 상기 프로파일·데이터로부터 얻어진 상기 지정 토픽별 출현 빈도가, 상기 다른 지정 시기에 있어서의 상기 지정 토픽별 출현 빈도와 동일 또는 유사한 상기 검색 대상이 추출되고, 상기 하나의 탐색 시기에 있어서의 상기 검색 대상의 상기 토픽별 출현 빈도에 기초하여 상기 나머지의 지정 토픽별 출현 빈도의 비율이 조정되고,
    상기 하나의 탐색 시기와 상기 다른 탐색 시기와의 전후 관계가, 상기 하나의 지정 시기와 상기 다른 지정 시기와의 전후 관계와 대응하는 검색 장치.
  8. 제6항에 있어서,
    상기 어구가 복수의 상기 토픽에 중복하여 출현하는 빈도에 기초하여 설정되는, 상기 지정 토픽 각각의 사이의 관련의 강도를 나타내는 가중치와, 상기 일부의 지정 토픽별 출현 빈도의 변경량에 기초하여, 상기 나머지의 지정 토픽별 출현 빈도의 비율이 조정되는 검색 장치.
  9. 제1항 또는 제2항에 있어서,
    검색 수단이, 또한, 상기 추출된 검색 대상에 대응하는 부가 정보를, 또는 상기 제1 검색 대상 시기로부터 상기 제2 검색 대상 시기까지의 사이에 있어서의 상기 검색 대상의 상기 지정 토픽별 출현 빈도에 대응하는 부가 정보를, 추가의 데이터베이스로부터 추출하고,
    상기 출력 수단이, 또한, 상기 검색 수단에 의해 추출된 부가 정보를 상기 유저에게 제시하기 위하여 출력하는 검색 장치.
  10. 검색 장치에 의해 실행되는 검색 방법이며,
    소정의 데이터베이스로부터 추출된 문서마다에 기초하여 생성된 프로파일·데이터이며, 검색 대상을 특정하는 식별자와, 상기 문서의 작성 시각과, 상기 문서 내의 어구를 1 이상의 토픽별로 분류함으로써 구한 상기 토픽별 출현 빈도를 포함하는 복수의 상기 프로파일·데이터에 기초하여, 유저에 의해 지정된 검색 조건에 대응하는 상기 검색 대상을 추출하는 검색 스텝과,
    상기 검색 스텝에 있어서 추출된 검색 대상을 상기 유저에게 제시하기 위하여 출력하는 출력 스텝을 포함하고,
    상기 검색 조건이, 제1 지정 시기에 있어서의, 상기 유저에 의해 지정된 1 이상의 지정 토픽별 제1 출현 빈도와, 상기 제1 지정 시기보다 후의 제2 지정 시기에 있어서의 상기 지정 토픽별 제2 출현 빈도를 포함하고,
    상기 검색 스텝에서는, 상기 문서 작성 시각이 제1 검색 대상 시기에 해당하는 상기 프로파일·데이터로부터 얻어진 상기 지정 토픽별 출현 빈도가 상기 제1 출현 빈도와 동일 또는 유사하고, 또한, 상기 문서 작성 시각이 상기 제1 검색 대상 시기보다 후의 제2 검색 대상 시기에 해당하는 상기 프로파일·데이터로부터 얻어진 상기 지정 토픽별 출현 빈도가 상기 제2 출현 빈도와 동일 또는 유사한 상기 검색 대상이 추출되는 검색 방법.
  11. 삭제
  12. 컴퓨터를,
    소정의 데이터베이스로부터 추출된 문서마다에 기초하여 생성된 프로파일·데이터이며, 검색 대상을 특정하는 식별자와, 상기 문서의 작성 시각과, 상기 문서 내의 어구를 1 이상의 토픽별로 분류함으로써 구한 상기 토픽별 출현 빈도를 포함하는 복수의 상기 프로파일·데이터에 기초하여, 유저에 의해 지정된 검색 조건에 대응하는 상기 검색 대상을 추출하는 검색 수단과,
    상기 검색 수단에 의해 추출된 검색 대상을 상기 유저에게 제시하기 위하여 출력하는 출력 수단으로서 기능시키고,
    상기 검색 조건이, 제1 지정 시기에 있어서의, 상기 유저에 의해 지정된 1 이상의 지정 토픽별 제1 출현 빈도와, 상기 제1 지정 시기보다 후의 제2 지정 시기에 있어서의 상기 지정 토픽별 제2 출현 빈도를 포함하고,
    상기 검색 수단이, 상기 문서 작성 시각이 제1 검색 대상 시기에 해당하는 상기 프로파일·데이터로부터 얻어진 상기 지정 토픽별 출현 빈도가 상기 제1 출현 빈도와 동일 또는 유사하고, 또한, 상기 문서 작성 시각이 상기 제1 검색 대상 시기보다 후의 제2 검색 대상 시기에 해당하는 상기 프로파일·데이터로부터 얻어진 상기 지정 토픽별 출현 빈도가 상기 제2 출현 빈도와 동일 또는 유사한 상기 검색 대상을 추출하는, 검색 프로그램을 기억하는 컴퓨터 판독 가능한 기록 매체.
  13. 제1항에 있어서,
    상기 유사라고 함은, 당해 유사의 정도를 나타내는 값이 소정치 이하인 것인 검색 장치.
  14. 제10항에 있어서,
    상기 유사라고 함은, 당해 유사의 정도를 나타내는 값이 소정치 이하인 것인 검색 방법.
  15. 제12항에 있어서,
    상기 유사라고 함은, 당해 유사의 정도를 나타내는 값이 소정치 이하인 것인 기록 매체.
KR1020137009165A 2011-02-25 2012-02-24 검색 장치, 검색 방법, 및 검색 프로그램을 기억하는 컴퓨터 판독 가능한 기록 매체 KR101346927B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2011040259A JP5048852B2 (ja) 2011-02-25 2011-02-25 検索装置、検索方法、検索プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体
JPJP-P-2011-040259 2011-02-25
PCT/JP2012/054663 WO2012115254A1 (ja) 2011-02-25 2012-02-24 検索装置、検索方法、検索プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体

Publications (2)

Publication Number Publication Date
KR20130053448A KR20130053448A (ko) 2013-05-23
KR101346927B1 true KR101346927B1 (ko) 2014-01-03

Family

ID=46721026

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020137009165A KR101346927B1 (ko) 2011-02-25 2012-02-24 검색 장치, 검색 방법, 및 검색 프로그램을 기억하는 컴퓨터 판독 가능한 기록 매체

Country Status (7)

Country Link
US (1) US9058328B2 (ko)
EP (1) EP2613275B1 (ko)
JP (1) JP5048852B2 (ko)
KR (1) KR101346927B1 (ko)
CN (1) CN103262079B (ko)
ES (1) ES2657866T3 (ko)
WO (1) WO2012115254A1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9135311B2 (en) * 2012-03-20 2015-09-15 Tagboard, Inc. Gathering and contributing content across diverse sources
CN104321802B (zh) * 2012-05-24 2017-04-26 株式会社日立制作所 图像分析装置、图像分析系统、图像分析方法
US9244950B2 (en) 2013-07-03 2016-01-26 International Business Machines Corporation Method for synthetic data generation for query workloads
US10810240B2 (en) * 2015-11-06 2020-10-20 RedShred LLC Automatically assessing structured data for decision making
CN107943800A (zh) * 2016-10-09 2018-04-20 郑州大学 一种微博话题舆情计算与分析的方法
CN111723231B (zh) * 2019-03-20 2023-10-17 北京百舸飞驰科技有限公司 一种题目预测方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000020538A (ja) * 1998-07-02 2000-01-21 Mitsubishi Electric Corp 情報検索方法、情報検索装置および情報検索プログラム記憶媒体
JP2001216311A (ja) * 2000-02-01 2001-08-10 Just Syst Corp イベント分析装置、及びイベント分析プログラムが格納されたプログラム装置
JP2009187395A (ja) * 2008-02-07 2009-08-20 Nec Corp トピック分析装置、方法及びプログラム
WO2010035455A1 (ja) * 2008-09-24 2010-04-01 日本電気株式会社 情報分析装置、情報分析方法、及びプログラム

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6493703B1 (en) * 1999-05-11 2002-12-10 Prophet Financial Systems System and method for implementing intelligent online community message board
US6571234B1 (en) * 1999-05-11 2003-05-27 Prophet Financial Systems, Inc. System and method for managing online message board
US6751614B1 (en) * 2000-11-09 2004-06-15 Satyam Computer Services Limited Of Mayfair Centre System and method for topic-based document analysis for information filtering
JP4489994B2 (ja) * 2001-05-11 2010-06-23 富士通株式会社 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体
JP3813837B2 (ja) * 2001-05-25 2006-08-23 株式会社東芝 データ分析装置及びデータ分析方法並びにプログラム
JP4082059B2 (ja) * 2002-03-29 2008-04-30 ソニー株式会社 情報処理装置および方法、記録媒体、並びにプログラム
US7346606B2 (en) * 2003-06-30 2008-03-18 Google, Inc. Rendering advertisements with documents having one or more topics using user topic interest
US20050234877A1 (en) * 2004-04-08 2005-10-20 Yu Philip S System and method for searching using a temporal dimension
US7694311B2 (en) * 2004-09-29 2010-04-06 International Business Machines Corporation Grammar-based task analysis of web logs
KR100731283B1 (ko) * 2005-05-04 2007-06-21 주식회사 알에스엔 질의어에 따른 대량문서기반 성향 분석시스템
US20070005646A1 (en) * 2005-06-30 2007-01-04 Microsoft Corporation Analysis of topic dynamics of web search
KR20070047544A (ko) * 2005-11-02 2007-05-07 김정진 유사도를 적용하여 특허 문서를 검색하는 방법 및 그시스템
US20070214137A1 (en) * 2006-03-07 2007-09-13 Gloor Peter A Process for analyzing actors and their discussion topics through semantic social network analysis
US8296168B2 (en) * 2006-09-13 2012-10-23 University Of Maryland System and method for analysis of an opinion expressed in documents with regard to a particular topic
EP2122506A4 (en) * 2007-01-10 2011-11-30 Sysomos Inc METHOD AND SYSTEM FOR INFORMATION DISCOVERY AND TEXT ANALYSIS
US20080215607A1 (en) * 2007-03-02 2008-09-04 Umbria, Inc. Tribe or group-based analysis of social media including generating intelligence from a tribe's weblogs or blogs
US20090049018A1 (en) * 2007-08-14 2009-02-19 John Nicholas Gross Temporal Document Sorter and Method Using Semantic Decoding and Prediction
WO2009060888A1 (ja) * 2007-11-08 2009-05-14 Nec Corporation 著者影響判定システム、著者影響判定方法、及びプログラム
WO2010048430A2 (en) 2008-10-22 2010-04-29 Fwix, Inc. System and method for identifying trends in web feeds collected from various content servers
US7974983B2 (en) 2008-11-13 2011-07-05 Buzzient, Inc. Website network and advertisement analysis using analytic measurement of online social media content
US8239397B2 (en) * 2009-01-27 2012-08-07 Palo Alto Research Center Incorporated System and method for managing user attention by detecting hot and cold topics in social indexes

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000020538A (ja) * 1998-07-02 2000-01-21 Mitsubishi Electric Corp 情報検索方法、情報検索装置および情報検索プログラム記憶媒体
JP2001216311A (ja) * 2000-02-01 2001-08-10 Just Syst Corp イベント分析装置、及びイベント分析プログラムが格納されたプログラム装置
JP2009187395A (ja) * 2008-02-07 2009-08-20 Nec Corp トピック分析装置、方法及びプログラム
WO2010035455A1 (ja) * 2008-09-24 2010-04-01 日本電気株式会社 情報分析装置、情報分析方法、及びプログラム

Also Published As

Publication number Publication date
US20140012853A1 (en) 2014-01-09
EP2613275A4 (en) 2015-01-14
JP5048852B2 (ja) 2012-10-17
US9058328B2 (en) 2015-06-16
KR20130053448A (ko) 2013-05-23
ES2657866T3 (es) 2018-03-07
WO2012115254A1 (ja) 2012-08-30
JP2012178026A (ja) 2012-09-13
CN103262079A (zh) 2013-08-21
EP2613275A1 (en) 2013-07-10
EP2613275B1 (en) 2017-11-22
CN103262079B (zh) 2015-04-01

Similar Documents

Publication Publication Date Title
US10467278B2 (en) Method, apparatus, and computer program product for user-specific contextual integration for a searchable enterprise platform
TWI636416B (zh) 內容個人化之多相排序方法和系統
US20190179838A1 (en) Method and apparatus for providing book recommendation service
CN108701155B (zh) 社交网络中的专家检测
US20160357872A1 (en) Event networks and event view construction and display
KR101346927B1 (ko) 검색 장치, 검색 방법, 및 검색 프로그램을 기억하는 컴퓨터 판독 가능한 기록 매체
CN107924401A (zh) 基于视频标题的视频推荐
EP2407897A1 (en) Device for determining internet activity
KR20160057475A (ko) 소셜 데이터를 능동적으로 획득하기 위한 시스템 및 방법
CN105045931A (zh) 一种基于Web挖掘的视频推荐方法和系统
CN102073699A (zh) 用于基于用户行为来改善搜索结果的方法、装置和设备
US20110307482A1 (en) Search result driven query intent identification
US9582835B2 (en) Apparatus, system, and method for searching for power user in social media
US20140229487A1 (en) System and method for user preference augmentation through social network inner-circle knowledge discovery
JP5494126B2 (ja) 文書推薦システム、文書推薦装置、文書推薦方法、及びプログラム
US10331685B2 (en) Method and apparatus for sorting related searches
US20180046628A1 (en) Ranking social media content
JP5237353B2 (ja) 検索装置、検索システム、検索方法、検索プログラム、及び検索プログラムを記憶するコンピュータ読取可能な記録媒体
CN103309869A (zh) 数据对象的展示关键词推荐方法及系统
US9336330B2 (en) Associating entities based on resource associations
Bao et al. A topic-rank recommendation model based on Microblog topic relevance & user preference analysis
US20120239657A1 (en) Category classification processing device and method
US8825698B1 (en) Showing prominent users for information retrieval requests
US20170109411A1 (en) Assisted creation of a search query
US9400789B2 (en) Associating resources with entities

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20161216

Year of fee payment: 4