KR20130080059A - 관련어 등록 장치, 정보 처리 장치, 관련어 등록 방법 및 기록 매체 - Google Patents

관련어 등록 장치, 정보 처리 장치, 관련어 등록 방법 및 기록 매체 Download PDF

Info

Publication number
KR20130080059A
KR20130080059A KR1020137015030A KR20137015030A KR20130080059A KR 20130080059 A KR20130080059 A KR 20130080059A KR 1020137015030 A KR1020137015030 A KR 1020137015030A KR 20137015030 A KR20137015030 A KR 20137015030A KR 20130080059 A KR20130080059 A KR 20130080059A
Authority
KR
South Korea
Prior art keywords
search query
word
search
string
related word
Prior art date
Application number
KR1020137015030A
Other languages
English (en)
Other versions
KR101361403B1 (ko
Inventor
유 히라떼
Original Assignee
라쿠텐 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 라쿠텐 인코포레이티드 filed Critical 라쿠텐 인코포레이티드
Publication of KR20130080059A publication Critical patent/KR20130080059A/ko
Application granted granted Critical
Publication of KR101361403B1 publication Critical patent/KR101361403B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Abstract

[과제]
정밀도가 높은 관련어를 등록할 수 있는 관련어 등록 장치 등을 제공한다.
[해결 수단]
유저가 입력한 검색 워드의 검색 쿼리를 수신하고, 수신한 검색 워드를, 수신 순서에 따라 검색 쿼리 기억 수단(12a)에 기억하고, 미리 설정한 검색 쿼리 추출 조건에 기초하여, 수신한 검색 쿼리보다 수신 순서가 빠른 바로 전의 검색 쿼리를, 검색 쿼리 기억 수단으로부터 추출하고, 추출한 바로 바로 전의 검색 쿼리를 구성하는 바로 바로 전의 검색 워드와, 수신한 검색 쿼리를 구성하는 검색 워드를 문자열 조로서 문자열 조 기억 수단(12d)에 기억하고, 미리 설정한 문자열 조 추출 개시 조건에 따라서, 문자열 조 기억 수단으로부터 바로 전의 검색 워드가 동일 또는 유사한 문자열 조를 추출하고(S51), 미리 설정한 등록 조건에 기초하여 추출한 문자열 조로부터 관련어가 되는 문자열 조를 특정하고(S53), 특정된 문자열 조를 관련어로서 관련어 데이터베이스에 등록한다(S54).

Description

관련어 등록 장치, 정보 처리 장치, 관련어 등록 방법 및 기록 매체{RELATED-WORD REGISTRATION DEVICE, INFORMATION PROCESSING DEVICE, RELATED-WORD REGISTRATION METHOD, AND RECORDING MEDIUM}
본 발명은 검색 키워드를 관련어로서 등록하는 관련어 등록 장치, 정보 처리 장치, 관련어 등록 방법 및 기록 매체의 기술 분야에 관한 것이다.
동의어 사전과 같은 단어의 데이터베이스는, 정보 검색 시스템이나, 자연 언어 처리 시스템이나, 기계 번역 시스템 등에 있어서, 검색 키워드의 보완이나, 번역 등의 정밀도를 높이기 위해 이용되고 있다. 이 동의어 사전을 자동으로 구축하기 위한 장치가 다양하게 연구되고 있다. 예를 들면, 특허문헌 1에는, 의미 사전 중의 미리 의미 정보가 부여되어 있는 사전 엔트리 정보를 이용하여, 자동으로 입력 사전 엔트리에 의미 정보를 부여하는 의미 사전 등록 장치가 개시되어 있다.
일본 특허 공개 제2000-268035호 공보
그러나, 특허문헌 1에 기재된 기술에서는, 입력 데이터와 등록을 끝낸 모든 데이터의 단순한 단어 간의 의미적인 거리에 기초하여 유의(類義)를 판정하고 있었기 때문에, 유의의 판정 정밀도가 낮아, 불필요한 동의어와 같은 관련어의 등록 억제가 불가능하였다. 그로 인해, 정밀도가 높은 동의어 사전 등의 관련어 사전을 구축하는 것이 어려웠다.
본 발명은 이러한 문제를 감안하여 이루어진 것으로, 그 과제의 일례는, 정밀도가 높은 관련어를 등록할 수 있는 관련어 등록 장치 등을 제공하는 것을 목적으로 한다.
상기 과제를 해결하기 위해서, 청구항 1에 기재된 발명은, 유저가 입력한 검색 워드의 검색 쿼리를 수신하는 수신 수단과, 상기 수신한 검색 쿼리를, 수신 순서에 따라서 기억하는 검색 쿼리 기억 수단과, 미리 설정한 검색 쿼리 추출 조건에 기초하여, 상기 수신한 검색 쿼리보다 수신 순서가 빠른 바로 전의 검색 쿼리를, 상기 검색 쿼리 기억 수단으로부터 추출하는 검색 쿼리 추출 수단과, 상기 추출한 바로 전의 검색 쿼리를 구성하는 바로 전의 검색 워드와, 상기 수신한 검색 쿼리를 구성하는 검색 워드를 문자열 조로서 기억하는 문자열 조 기억 수단과, 미리 설정한 문자열 조 추출 개시 조건에 따라서, 상기 문자열 조 기억 수단으로부터 상기 바로 전의 검색 워드가 동일 또는 유사한 문자열 조를 추출하는 문자열 추출 수단과, 미리 설정한 등록 조건에 기초하여, 상기 추출한 문자열 조로부터 관련어가 되는 문자열 조를 특정하는 관련어 특정 수단과, 상기 특정된 문자열 조를 관련어로서 관련어 데이터 베이스에 등록하는 관련어 등록 수단을 구비한 것을 특징으로 한다.
청구항 2에 기재된 발명은, 청구항 1에 기재된 관련어 등록 장치에 있어서, 상기 검색 쿼리 기억 수단은, 유저 식별 정보를 또한 기억하고, 상기 검색 쿼리 추출 수단이, 상기 검색 쿼리 추출 조건으로서, 상기 검색 쿼리를 입력한 유저의 유저 식별 정보가 일치하는 상기 바로 전의 검색 쿼리를 추출하는 것을 특징으로 한다.
청구항 3에 기재된 발명은, 청구항 1 또는 청구항 2에 기재된 관련어 등록 장치에 있어서, 상기 검색 쿼리 추출 수단이, 상기 검색 쿼리 추출 조건으로서, 상기 검색 쿼리의 수신 시각부터 소정의 시간 내에 수신한 바로 전의 검색 쿼리를 추출하는 것을 특징으로 한다.
청구항 4에 기재된 발명은, 청구항 1에 기재된 관련어 등록 장치에 있어서, 상기 검색 쿼리 기억 수단은, 카테고리 정보를 또한 기억하고, 상기 검색 쿼리 추출 수단이, 상기 검색 쿼리 추출 조건으로서, 상기 카테고리 정보에 기초하여, 상기 바로 전의 검색 쿼리를 추출하는 것을 특징으로 한다.
청구항 5에 기재된 발명은, 청구항 1에 기재된 관련어 등록 장치에 있어서, 상기 문자열 추출 수단이, 상기 문자열 조 추출 개시 조건으로서, 상기 검색 쿼리 기억 수단에서의 검색 쿼리수가, 또는, 상기 문자열 조 집합의 요소 수가, 소정의 임계값을 초과한 경우에, 상기 문자열 조를 추출하는 것을 특징으로 한다.
청구항 6에 기재된 발명은, 청구항 1에 기재된 관련어 등록 장치에 있어서, 상기 문자열 추출 수단이, 상기 문자열 조 추출 개시 조건을 만족하고 나서 소정의 시간을 경과한 경우에, 상기 문자열 조를 추출하는 것을 특징으로 한다.
청구항 7에 기재된 발명은, 청구항 1에 기재된 관련어 등록 장치에 있어서,상기 관련어 특정 수단이, 상기 등록 조건으로서, 상기 바로 전의 검색 워드가 동일 또는 유사한 문자열 조에 대하여, 동일 또는 유사한 검색 워드를 갖는 문자열 조의 수 또는 동일 또는 유사한 검색 워드를 갖는 문자열 조의 비율이, 소정의 임계값을 초과한 경우에, 이 문자열 조를 관련어로서 특정하는 것을 특징으로 한다.
청구항 8에 기재된 발명은, 청구항 1 내지 청구항 7 중 어느 한 항에 기재된 관련어 등록 장치에 있어서, 검색 쿼리에 관한 로그를 기억한 검색 쿼리 로그로부터, 소정의 조건에 기초해서 관련어의 후보를 추출하여 관련어 후보 집합을 생성하는 관련어 후보 집합 생성 수단과, 상기 검색 워드의 문자열로부터 부분 문자열을 생성하는 부분 문자열 생성 수단과, 상기 생성된 부분 문자열에 기초하여, 상기 관련어 후보 집합으로부터 후보 문자열을 추출하는 후보 문자열 추출 수단과, 상기 후보 문자열과 상기 검색 워드와의 유사도, 상기 후보 문자열의 사용 회수 및 상기 후보 문자열에 의한 검색의 검색 결과 수에 기초하여, 상기 후보 문자열의 적부 스코어를 산출하는 스코어 산출 수단과, 상기 스코어의 순서에 상기 후보 문자열에 대한 랭킹을 매기는 랭킹 수단과, 상기 후보 문자열의 적부 스코어와 랭킹에 기초하여, 상기 후보 문자열을 관련어로서 등록할지 여부의 판정 기준으로서 상기 랭킹에 대한 적부 스코어의 기준 라인을 생성하는 판정 기준 생성 수단과, 상기 적부 스코어와 기준 라인의 괴리가 미리 설정된 임계값 이상인 후보 문자열을 관련어로서 등록하기 위한 등록 문자열로서 추출하는 등록 문자열 추출 수단과, 상기 추출된 등록 문자열과 상기 검색 워드를, 관련어 데이터베이스에 관련어로서 등록하는 관련어 등록 수단를 또한 구비한 것을 특징으로 한다.
청구항 9에 기재된 발명은, 청구항 1에 기재된 관련어 등록 장치에 있어서,상기 관련어 데이타베이스를 참조하여, 상기 수신한 검색 쿼리의 검색 워드에 대응하는 관련어를 추출하는 관련어 추출 수단과, 상기 관련어 추출 수단에 의해 추출된 관련어를 출력하는 관련어 출력 수단을 구비한 것을 특징으로 한다.
청구항 10에 기재된 발명은, 관련어를 등록하는 관련어 등록 장치에 있어서의 관련어 등록 방법으로서, 유저가 입력한 검색 워드의 검색 쿼리를 수신하는 수신 스텝과, 상기 수신한 검색 쿼리를, 수신 순서에 따라서 기억하는 검색 쿼리 기억 수단에 기억하는 검색 쿼리 기억 스텝과, 미리 설정한 검색 쿼리 추출 조건에 기초하여, 상기 수신한 검색 쿼리보다 수신 순서가 빠른 바로 전의 검색 쿼리를, 상기 검색 쿼리 기억 수단으로부터 추출하는 검색 쿼리 추출 스텝과, 상기 추출한 바로 전의 검색 쿼리를 구성하는 바로 전의 검색 워드와 상기 수신한 검색 쿼리를 구성하는 검색 워드를 문자열 조로서 기억하는 문자열 조 기억 수단에 기억하는 문자 열 조기억 스텝과, 미리 설정한 문자열 조 추출 개시 조건에 따라서, 상기 문자열 조 기억 수단으로부터 상기 바로 전의 검색 워드가 동일 또는 유사한 문자열 조를 추출하는 문자열 추출 스텝과, 미리 설정한 등록 조건에 기초하여, 상기 추출한 문자열 조로부터 관련어가 되는 문자열 조를 특정하는 관련어 특정 스텝과, 상기 특정된 문자열 조를 관련어로서 관련어 데이터베이스에 등록하는 관련어 등록 스텝 을 포함하는 것을 특징으로 한다.
청구항 11에 기재된 발명은, 컴퓨터를, 유저가 입력한 검색 워드의 검색 쿼리를 수신하는 수신 수단, 상기 수신한 검색 쿼리를, 수신 순서에 따라서 기억하는 검색 쿼리 기억 수단, 미리 설정한 검색 쿼리 추출 조건에 기초하여, 상기 수신한 검색 쿼리보다 수신 순서가 빠른 바로 전의 검색 쿼리를, 상기 검색 쿼리 기억 수단으로부터 추출하는 검색 쿼리 추출 수단, 상기 추출한 바로 전의 검색 쿼리를 구성하는 바로 전의 검색 워드와 상기 수신한 검색 쿼리를 구성하는 검색 워드를 문자열 조로서 기억하는 문자열 조 기억 수단, 미리 설정한 문자열 조 추출 개시 조건에 따라서, 상기 문자열 조 기억 수단으로부터 상기 바로 전의 검색 워드가 동일 또는 유사한 문자열 조를 추출하는 문자열 추출 수단, 미리 설정한 등록 조건에 기초하여, 상기 추출한 문자열 조로부터 관련어가 되는 문자열 조를 특정하는 관련어 특정 수단, 및 상기 특정된 문자열 조를 관련어로서 관련어 데이터베이스에 등록하는 관련어 등록 수단으로서 기능시키는 관련어 등록 장치용의 프로그램을 기록한다.
본 발명에 의하면, 문자수가 적어진 부분 문자열에 기초하여 관련어 후보 집합으로부터 후보 문자열을 추출하기 때문에, 후보 문자열의 적부 스코어에 의해, 불필요한 관련어의 등록을 억제할 수 있어, 관련어의 정밀도를 향상시킬 수 있다.
도 1은 본 발명의 일 실시 형태에 따른 관련어 등록 시스템의 개요 구성예를 나타낸 모식도이다.
도 2는 도 1의 관련어 등록 서버의 개요 구성의 일례를 나타낸 블록도이다.
도 3은 도 1의 정보 제공 서버의 개요 구성의 일례를 나타낸 블록도이다.
도 4는 도 1의 단말기의 개요 구성의 일례를 나타낸 블록도이다.
도 5는 도 1의 관련어 등록 시스템(1)의 제1 실시 형태의 동작에서, 관련어 등록 서버의 관련어 후보 집합의 생성의 동작예를 나타낸 흐름도이다.
도 6은 도 1의 단말기에 표시된 웹 페이지의 일례를 나타낸 모식도이다.
도 7은 도 1의 관련어 등록 서버에서의 제1 실시 형태의 관련어 등록의 동작예를 나타낸 흐름도이다.
도 8은 부분 문자열 추출의 일례를 나타낸 모식도이다.
도 9의 (a) 및 (b)는 랭킹-스코어·그래프의 일례를 나타낸 모식도이다.
도 10은 도 1의 관련어 등록 서버에서의 적부 스코어를 산출하는 동작예의 서브루틴을 나타낸 흐름도이다.
도 11의 (a) 내지 (c)는 적부 스코어를 산출하기 위한 가용성 패턴의 일례를 나타낸 선도이다.
도 12는 도 1의 관련어 등록 시스템(1)의 제2 실시 형태의 동작에서, 단말기에 표시된 웹 페이지의 일례를 나타낸 모식도이다.
도 13은 도 1의 관련어 등록 서버의 검색 쿼리 로그·데이터베이스 구축의 동작예를 나타낸 흐름도이다.
도 14는 도 1의 단말기에 표시된 웹 페이지의 일례를 나타낸 모식도이다.
도 15는 도 1의 관련어 등록 서버의 관련어 등록의 동작예를 나타낸 흐름도이다.
도 16은 문자열 조의 일례를 나타낸 모식도이다.
이하, 도면을 참조하여 본 발명의 실시 형태에 대하여 설명한다. 또한, 이하에 설명하는 실시 형태는, 관련어 등록 시스템에 대하여 본 발명을 적용한 경우의 실시 형태이다.
[1. 관련어 등록 시스템의 구성 및 기능 개요]
우선, 본 발명의 일 실시 형태에 따른 관련어 등록 시스템의 구성 및 개요 기능에 대하여, 도 1을 이용하여 설명한다.
도 1은, 본 실시 형태에 따른 관련어 등록 시스템(1)의 개요 구성예를 나타낸 모식도이다.
도 1에 도시한 바와 같이, 관련어 등록 시스템(1)은 관련어를 등록하는 관련어 등록 서버(10: 관련어 등록 장치의 일례)와, 유저가 이용하는 정보 제공 사이트의 일례인 쇼핑 사이트(내부 EC(electronic commerce) 사이트의 일례) 운영을 위해 설치되며, 관련어 등록 서버(10)에 등록되어 있는 정보나 상품의 정보를 유저에게 제공하기 위한 정보 제공 서버(20)와, 정보 제공 서버(20)에서 유저가 상품 등의 검색을 행하는 단말기(30)를 구비하고 있다.
관련어 등록 서버(10)와, 정보 제공 서버(20)는, 근거리 네트워크 등에 의해 접속되며, 서로 데이터의 송수신이 가능하게 되도록 서버 시스템(5)을 구성하고 있다. 그리고, 서버 시스템(5)과 단말기(30)는, 네트워크(3)에 의해 접속되며, 통신 프로토콜(예를 들어, TCP/IP)에 의해, 데이터의 송수신이 가능하게 되어 있다. 또한, 네트워크(3)는 예를 들어 인터넷, 전용 통신 회선(예를 들어, CATV(Community Antenna Television) 회선), 이동체 통신망(기지국 등을 포함함) 및 게이트웨이 등에 의해 구축되어 있다.
또한, 관련어 등록 서버(10)는 단말기(30) 등에서의 유저의 검색 행동 등으로부터, 관련어의 데이터베이스를 구축하고, 단말기(30) 등에서의 유저의 검색 행동을 지원한다.
정보 제공 서버(20)는 단말기(30)로부터 검색 워드를 포함한 검색 쿼리를 수신하여 검색을 행하고, 단말기(30)에 검색 결과를 송신한다. 또한, 정보 제공 서버(20)는 관련어의 데이터베이스를 구축하기 위해서, 수신한 검색 쿼리를 관련어 등록 서버(10)에 송신한다. 또한, 정보 제공 서버(20)는 쇼핑 사이트로서, 상품의 검색, 상품의 정보 제공, 광고의 정보 제공 및 상품 구입의 수속 등을 행한다.
유저의 단말기(30)는 복수 존재한다.
[2. 각 서버의 구성 및 기능]
(2.1 관련어 등록 서버(10)의 구성 및 기능)
이어서, 관련어 등록 서버(10)의 구성 및 기능에 대하여, 도 2를 이용하여 설명한다.
도 2는, 관련어 등록 서버(10)의 개요 구성의 일례를 나타낸 블록도이다.
도 2에 도시한 바와 같이, 컴퓨터로서 기능하는 관련어 등록 서버(10)는 통신부(11)와, 기억부(12)와, 입출력 인터페이스부(13)와, 시스템 제어부(14)를 구비하고 있다. 그리고, 시스템 제어부(14)와 입출력 인터페이스부(13)는, 시스템 버스(15)를 통하여 접속되어 있다.
통신부(11)는 네트워크(3)에 접속하여 단말기(30) 등과의 통신 상태를 제어하고, 나아가 근거리 네트워크에 접속하여, 근거리 네트워크상의 정보 제공 서버(20) 등의 다른 서버와 데이터의 송수신을 행한다.
기억부(12)는 예를 들면 하드디스크 드라이브 등에 의해 구성되어 있으며, 오퍼레이팅 시스템 및 서버 프로그램 등의 각종 프로그램이나, 데이터 등을 기억한다. 또한, 각종 프로그램은, 예를 들면 다른 서버 장치 등으로부터 네트워크(3)를 통하여 취득되도록 하거나, 기록 매체에 기록되어 드라이브 장치(도시생략)를 통하여 읽어 들이도록 해도 된다.
또한, 기억부(12)에는, 단말기(30)로부터 수신한 검색 쿼리에 관한 로그를 기억한 검색 쿼리 로그·데이터베이스(12a)(이하 「검색 쿼리 로그 DB(12a)」로 함)와, 검색 쿼리로부터 생성되는 관련어의 후보 문자열을 관련어 후보 집합으로서 기억한 관련어 후보 데이터베이스(12b)(이하 「관련어 후보 DB(12b)」로 함)와, 검색 쿼리로부터 생성되는 관련어를 기억한 관련어 데이터베이스(12c)(이하 「관련어 DB(12c)」로 함)와, 문자열 조 데이터베이스(12d)(이하 「문자열 조 DB(12d)」로 함) 등이 구축되어 있다. 또한, 검색 쿼리 로그 DB(12a), 관련어 후보 DB(12b), 관련어 DB(12c) 및 문자열 조 DB(12d)는, 서버 시스템(5) 내에서, 관련어 등록 서버(10) 이외의 다른 서버에 구축되거나, 서버 시스템(5) 외부에 구축되어도 된다.
검색 쿼리 로그 DB(12a: 검색 쿼리 기억 수단의 일례)에는, 검색 쿼리를 수신한 수신 시각, 유저 ID 등의 유저를 구별하기 위한 유저 식별 정보와 대응지은 검색 쿼리가 기억되어 있다. 또한, 유저 식별 정보로서, 쇼핑 사이트 등의 유저 ID, 유저 단말기나 액세스 포인트의 식별 번호, IP 어드레스 등을 들 수 있다. 또한, 정보 제공 서버(20)에서, 유저가 상품 검색을 행하고 있는 경우, 상품이 속하는 상품 카테고리나, 유저가 열고 있는 웹 페이지가 나타나 있는 상품 카테고리 등의 카테고리 정보에도 대응지어서, 검색 쿼리가 검색 쿼리 로그 DB(12a)에 기억된다.
관련어 후보 DB(12b)에는, 검색 쿼리 로그 DB(12a)의 검색 쿼리 로그로부터 소정의 조건에 기초하여 추출된 관련어의 후보 문자열이 관련어 후보 집합으로서 기억된다.
관련어 DB(12c)에는, 관련어 등록 서버(10)에 의해 생성되는 관련어가 기억된다.
문자열 조 DB(12d: 문자열 조 기억 수단의 일례)에는, 수신한 검색 쿼리의 검색 워드와, 검색 쿼리 로그 DB(12a) 중에서 추출된 검색 쿼리의 검색 워드의 문자열 조가 기억된다.
이어서, 입출력 인터페이스부(13)는 통신부(11) 및 기억부(12)와 시스템 제어부(14) 사이의 인터페이스 처리를 행한다.
시스템 제어부(14)는 CPU(14a: Central Processing Unit), ROM(14b: Read Only Memory), RAM(14c: Random Access Memory) 등에 의해 구성되어 있다. 시스템 제어부(14)는 CPU(14a)가 ROM(14b)이나 기억부(12)에 기억된 각종 프로그램을 판독하고 실행함으로써, 관련어의 등록 처리 등을 행한다.
(2.2 정보 제공 서버(20)의 구성 및 기능)
이어서, 정보 제공 서버(20)의 구성 및 기능에 대하여, 도 3을 이용하여 설명한다.
도 3은, 정보 제공 서버(20)의 개요 구성의 일례를 나타낸 블록도이다.
도 3에 도시한 바와 같이, 정보 제공 서버(20)는 통신부(21)와, 기억부(22)와, 입출력 인터페이스부(23)와, 시스템 제어부(24)를 구비하고, 시스템 제어부(24)와 입출력 인터페이스부(23)는, 시스템 버스(25)를 통하여 접속되어 있다. 또한, 정보 제공 서버(20)의 구성 및 기능은, 관련어 등록 서버(10)의 구성 및 기능과 거의 동일하므로, 관련어 등록 서버(10)의 각 구성이나 각 기능에 있어서, 서로 다른 부분을 중심으로 설명한다.
통신부(21)는 네트워크(3)나 근거리 네트워크 등을 통해서, 단말기(30)나 관련어 등록 서버(10) 등과의 통신 상태를 제어하도록 되어 있다.
기억부(22)에는, 상품 데이터베이스(22a)(이하 「상품 DB」로 함)나, 회원 데이터베이스(22b)(이하 「회원 DB」로 함) 등이 구축되어 있다.
상품 DB(22a)에는, 상품을 식별하기 위한 식별자인 상품 ID에 관련지어져서, 상품명, 종류, 상품의 화상, 스펙 및 상품 정보나, 각 상품에 관한 광고 정보 등이 기억되어 있다. 또한, 상품 DB(22a)에는, HTML(HyperText Markup Language), XML(Extensible Markup Language) 등의 마크업 언어 등에 의해 기술된 상품 웹 페이지의 파일 등이 기억되어 있다.
또한, 상품 DB(22a)에는, 상품을 검색하기 위한 검색 데이터베이스가 구축되어 있다. 상품 DB(22a)는, 서버 시스템(5) 내부의 EC 사이트에서 판매되고 있는 상품에 관련된 검색 워드를 기억하는 검색 워드 기억 수단의 일례이다.
회원 DB(22b)에는, 회원 등록된 유저(쇼핑 사이트의 이용자)의 유저 ID, 명칭, 주소, 전화 번호, 메일 어드레스, 직업, 취미, 구매 이력, 유저가 관심을 갖는 테마나 장르(상품 카테고리) 등의 유저 정보가 등록되어 있다. 또한, 회원 DB(22b)에는, 유저가 단말기(30)로부터 쇼핑 사이트에 로그인할 때에 필요한, 유저 ID, 로그인 ID 및 패스워드가 등록되어 있다. 여기서, 로그인 ID 및 패스워드는, 로그인 처리(유저의 인증 처리)에 사용되는 로그인 정보이다.
시스템 제어부(24)는 CPU(24a), ROM(24b), RAM(24c) 등에 의해 구성되어 있다. 그리고, 시스템 제어부(24)는 CPU(24a)가, ROM(24b)이나 기억부(22)에 기억된 각종 프로그램을 판독하고 실행함으로써, 상품 검색 처리나, 유저에 의한 상품 구입 처리 등을 행한다.
(2.3 단말기(30)의 구성 및 기능)
이어서, 단말기(30)의 구성 및 기능에 대하여, 도 4를 이용하여 설명한다.
도 4는, 단말기(30)의 개요 구성의 일례를 나타낸 블록도이다.
도 4에 도시한 바와 같이, 컴퓨터로서 기능하는 단말기(30)는 예를 들어 퍼스널 컴퓨터나 스마트폰을 포함하는 휴대형 무선 전화기나 PDA 등의 휴대 단말기로서, 통신부(31), 기억부(32), 표시부(33), 조작부(34), 입출력 인터페이스부(35) 및 시스템 제어부(36)를 구비하고 있다. 그리고, 시스템 제어부(36)와 입출력 인터페이스부(35)는, 시스템 버스(37)를 통하여 접속되어 있다.
통신부(31)는 네트워크(3)를 통해서, 정보 제공 서버(20) 등과의 통신을 제어한다. 또한, 단말기(30)가 휴대 단말 장치인 경우, 네트워크(3)의 이동체 통신망에 접속하기 위해서, 통신부(31)는 무선 통신 기능을 갖는다.
기억부(32)는, 예를 들면 하드디스크 드라이브 등으로 이루어지며, 오퍼레이팅 시스템, 웹 브라우저의 프로그램이나 웹 브라우저용 툴 바의 프로그램 등을 기억한다.
표시부(33)는, 예를 들면 액정 표시 소자 또는 EL(Electro Luminescence) 소자 등으로 구성되어 있다. 표시부(33)에는, 검색 화면의 웹 페이지나, 정보 제공 서버(20)로부터 제공된 상품 검색의 결과인 웹 페이지가 웹 브라우저에 의해 표시된다.
조작부(34)는, 예를 들면 키보드 및 마우스 등으로 구성되어 있다. 유저는, 조작부(34)에 의해 응답을 입력한다. 또한, 표시부(33)가 터치 패널과 같은 터치 스위치 방식의 표시 패널인 경우, 조작부(34)는 유저가 접촉 또는 근접한 표시부(33)의 위치 정보를 취득한다.
입출력 인터페이스부(35)는 통신부(31) 및 기억부(32)와 시스템 제어부(36)의 인터페이스이다.
시스템 제어부(36)는, 예를 들면 CPU(36a), ROM(36b) 및 RAM(36c)을 갖는다. 시스템 제어부(36)는 CPU(36a)가, ROM(36b), RAM(36c) 및 기억부(32)에 기억된 각종 프로그램을 판독하고 실행한다. 예를 들어, 시스템 제어부(36)는 웹 브라우저의 프로그램을 실행하고 웹 브라우저로서 기능한다.
[3. 관련어 등록 시스템에서의 제1 실시 형태의 동작]
이어서, 본 발명의 일 실시 형태에 따른 관련어 등록 시스템(1)에서의 제1 실시 형태의 동작에 대하여 도 5 내지 도 11을 이용하여 설명한다.
도 5는, 관련어 등록 서버(10)의 관련어 후보 집합 생성의 동작예를 나타낸 흐름도이다. 도 6은, 단말기(30)에 표시된 웹 페이지의 일례를 나타낸 모식도이다. 도 7은, 관련어 등록 서버의 관련어 등록의 동작예를 나타낸 흐름도이다. 도 8은, 부분 문자열 추출의 일례를 나타낸 모식도이다. 도 9는, 랭킹-스코어·그래프의 일례를 나타낸 모식도이다. 도 10은, 관련어 등록 서버(10)에서의 적부 스코어를 산출하는 동작예의 서브루틴을 나타낸 흐름도이다. 도 11은, 적부 스코어를 산출하기 위한 가용성 패턴의 일례를 나타낸 선도이다.
(3.1 관련어 후보 집합의 생성)
관련어 후보 집합의 생성에 대하여, 도 5를 이용하여 설명한다.
우선, 정보 제공 서버(20)가, 유저가 입력한 검색 워드를 포함하는 검색 쿼리를 단말기(30)로부터 수신하였을 때, 검색을 행함과 함께, 이 검색 쿼리를 관련어 등록 서버(10)에 송신한다. 또한, 정보 제공 서버(20)는 검색 쿼리에 대한 검색 결과의 건수도 관련어 등록 서버(10)에 송신한다.
그리고, 관련어 등록 서버(10)는 정보 제공 서버(20)로부터 검색 쿼리 및 검색 결과의 건수를 수신하여, 검색 쿼리를 검색 결과의 건수에 대응지어서 검색 쿼리 로그 DB(12a)에 기억한다. 이때, 관련어 등록 서버(10)는 검색 쿼리를 수신한 수신 시각, 유저 ID나 IP 어드레스 등의 유저를 구별하기 위한 유저 식별 정보와 대응지어서 검색 쿼리를 기억해도 된다.
이어서, 도 5에 도시한 바와 같이, 관련어 등록 서버(10)는 검색 쿼리 로그로부터 검색 쿼리를 추출한다(스텝 S1). 구체적으로는, 관련어 등록 서버(10)의 시스템 제어부(14)는 검색 쿼리 로그 DB(12a)로부터, 검색 쿼리를 1개 추출한다.
이어서, 관련어 등록 서버(10)는 검색 결과의 건수가 1건 이상의 검색 쿼리인지를 판정한다(스텝 S2). 구체적으로는, 관련어 등록 서버(10)의 시스템 제어부(14)는 추출한 검색 쿼리에 대응한 검색 결과의 건수를 검색 쿼리 로그 DB(12a)로부터 판독하고, 검색 결과의 건수가 1건 이상인지를 판정한다. 또한, 관련어 등록 서버(10)의 시스템 제어부(14)는 검색 쿼리에 의해 히트하는 검색 결과의 건수를 구하기 위해서, 추출한 검색 쿼리를 정보 제공 서버(20)에 송신하고, 히트 건수를 정보 제공 서버(20)로부터 수신하도록 구성해도 된다.
검색 결과의 건수가 1건 이상인 경우(스텝 S2; "예"), 관련어 등록 서버(10)는 추출한 검색 쿼리를 관련어 후보 집합에 등록한다(스텝 S3). 구체적으로는, 관련어 등록 서버(10)의 시스템 제어부(14)는 검색 결과의 건수가 1건 이상, 즉, 검색 결과의 건수가 제로 건이 아닌 검색 쿼리인 경우, 이 검색 쿼리(관련어의 후보 문자열로서의 검색 워드를 포함함)를 관련어 후보 집합으로서, 관련어 후보 DB(12b)에 등록한다.
검색 결과의 건수가 1건 이상이 아닌 경우(스텝 S2; "아니오"), 관련어 등록 서버(10)는 추출한 검색 쿼리를 관련어 후보 집합에 등록하지 않는다.
이어서, 나머지 검색 쿼리가 존재하는지를 판정한다(스텝 S4). 구체적으로는, 관련어 등록 서버(10)의 시스템 제어부(14)는 검색 쿼리 로그 DB(12a)에, 아직 검색 결과의 건수 판정을 행하고 있지 않은 검색 쿼리가 존재하는지를 판정한다.
나머지 검색 쿼리가 존재하는 경우(스텝 S4; "예") 스텝 S1로 되돌아가서, 관련어 등록 서버(10)는 다음 검색 쿼리를 추출하고, 나머지 검색 쿼리가 존재하지 않는 경우(스텝 S4; "아니오"), 관련어 후보 집합의 생성 처리를 종료한다. 이와 같이 관련어 등록 서버(10)는 미리 어느 정도 규모의 관련어 후보 집합을 생성해 둔다. 관련어 등록 서버(10)는 검색 쿼리에 관한 로그를 기억한 검색 쿼리 로그로부터, 소정의 조건에 기초하여 관련어의 후보를 추출하여 관련어 후보 집합을 생성하는 관련어 후보 집합 생성 수단의 일례로서 기능한다.
또한, 정보 제공 서버(20)는 검색 쿼리를 수신하여 검색을 행하였을 때, 검색 결과의 건수가 제로 건이 아니었던 경우, 검색 쿼리에 제로 건이 아닌 정보를 부가하여 관련어 등록 서버(10)에 송신해도 된다. 이 경우, 관련어 등록 서버(10)는 검색 결과의 건수가 제로 건이 아닌 검색 쿼리를 수신하였을 때, 관련어 후보 DB(12b)에 기억한다.
(3.2 관련어의 등록)
이어서, 관련어 등록의 동작에 대하여, 도 6 내지 도 9를 이용하여 설명한다.
우선, 도 6에 도시한 바와 같이, 단말기(30)의 표시부(33)에, 정보 제공 서버(20)로부터 제공된 웹 페이지(40)의 검색 워드 입력란(41)에, 예를 들어 "A씨 가정의 식탁"이라는 검색 워드가 유저에 의해 입력된다. 검색 버튼(42)이 클릭되어 검색이 행해지고, 단말기(30)는 이 검색 워드를 포함하는 검색 쿼리를, 정보 제공 서버(20)에 송신한다. 이어서, 정보 제공 서버(20)가, 유저가 입력한 검색 워드를 포함하는 검색 쿼리를 단말기(30)로부터 수신하였을 때, 이 검색 쿼리를 관련어 등록 서버(10)에 송신한다.
이어서, 도 7에 도시한 바와 같이, 관련어 등록 서버(10)는 유저가 입력한 검색 워드를 포함하는 검색 쿼리를 수신한다(스텝 S10). 구체적으로는, 관련어 등록 서버(10)의 시스템 제어부(14)는 정보 제공 서버(20)로부터, 통신부(11)를 통하여 검색 쿼리를 수신한다. 또한, 상기 관련어 후보 집합의 생성에서 설명한 바와 같이, 관련어 등록 서버(10)는 수신한 검색 쿼리를 검색 쿼리 로그 DB(12a)에 기억한다. 또한, 관련어 등록 서버(10)는 스텝 S2의 조건을 만족한 경우, 검색 쿼리를 관련어 후보 집합에 등록해도 된다.
이어서, 관련어 등록 서버(10)는 검색 워드의 문자수를 취득한다(스텝 S11). 구체적으로는, 관련어 등록 서버(10)의 시스템 제어부(14)는 검색 쿼리에 포함되는 검색 워드가 한자 등인 경우, 일본어의 히라가나와 같은 읽기로 변환하거나, 로마자로 변환한다. 예를 들어, 관련어 등록 서버(10)의 시스템 제어부(14)는 "
Figure pat00001
"을 "
Figure pat00002
"로 표음 변환시켜서 문자수를, 5 문자에서 9 문자로 증가시킨다. 또한, 관련어 등록 서버(10)의 시스템 제어부(14)는 "
Figure pat00003
"을 "eikenoshokutaku"로 로마자 변환하여, 15 문자로 증가시켜도 된다. 그리고, 관련어 등록 서버(10)의 시스템 제어부(14)는 히라가나 변환이나 로마자 변환 등의 표음 변환시킨 검색 워드의 문자수(예를 들어, 9 문자나 15 문자)를 취득한다.
이어서, 관련어 등록 서버(10)는 검색 워드의 문자수가 5 문자 이상인지를 판정한다(스텝 S12). 구체적으로는, 관련어 등록 서버(10)의 시스템 제어부(14)는 표음 변환시킨 검색 워드의 문자수가 5 문자 이상인지를 판정한다.
검색 워드의 문자수가 5 문자 이상인 경우(스텝 S12; "예"), 관련어 등록 서버(10)는 검색 워드로부터 4 문자의 부분 문자열을 추출한다(스텝 S13). 구체적으로는, 관련어 등록 서버(10)의 시스템 제어부(14)는 도 8에 도시한 바와 같이, 검색 워드의 문자열 "eikenoshokutaku"에 대하여 부분 문자열의 길이(Window Size) L을 4로 하고, Window의 슬라이드 폭(Sliding Size) S를 2로 하여, 부분 문자열 p1("eike"), 부분 문자열 p2("keno") 등의 부분 문자열을 생성하여 추출한다. 또한, 스텝 S2의 임계값(5 문자)은 부분 문자열의 길이 L에 기초하여 이 부분 문자열의 길이 L보다 큰 값으로 설정된다.
이와 같이 관련어 등록 서버(10)는 검색 워드의 문자열로부터 부분 문자열을 생성하는 부분 문자열 생성 수단의 일례로서 기능한다. 또한, 관련어 등록 서버(10)는 검색 워드의 문자수에 기초하여 부분 문자열의 길이를 설정하고, 이 설정된 길이의 부분 문자열을 생성하는 부분 문자열 생성 수단의 일례로서 기능한다. 또한, 관련어 등록 서버(10)는 검색 워드의 문자수에 기초하여 부분 문자열을 생성할 때의 검색 워드의 문자수의 이동 폭을 설정하고, 이 설정된 이동 폭으로 부분 문자열을 생성하는 부분 문자열 생성 수단의 일례로서 기능한다. 또한, 관련어 등록 서버(10)는 검색 워드를 표음 변환시킨 검색 워드에 대하여 부분 문자열을 생성하는 부분 문자열 생성 수단의 일례로서 기능한다.
이어서, 관련어 등록 서버(10)는 부분 문자열과 부분 일치하는 관련어의 후보 문자열을 관련어 후보 집합으로부터 추출한다(스텝 S14). 구체적으로는, 관련어 등록 서버(10)의 시스템 제어부(14)는 도 8에 도시한, 부분 문자열로부터, 검색 쿼리 Query="eike" OR "keno" OR "nosh" OR "shok" OR "okut" OR "utak"을 생성하고, 이 검색 쿼리에 의해, 관련어 후보 DB(12b)로부터, 관련어의 후보 문자열을 추출한다. 즉, 관련어 등록 서버(10)의 시스템 제어부(14)는 추출된 각 부분 문자열에 부분 일치하는 후보 문자열을 추출한다. 여기서 부분 일치한다는 것은, 예를 들어 부분 문자열 "eike"의 경우, "eike"를 포함하는 후보 문자열이나, "eike"의 일부 "eik"를 포함하는 후보 문자열이다. 이와 같이, 관련어 등록 서버(10)는 생성된 부분 문자열에 기초하여, 관련어 후보 집합으로부터 후보 문자열을 추출하는 후보 문자열 추출 수단의 일례로서 기능한다.
또한, 검색 워드의 문자수가 5 문자 이상이 아닌 경우(스텝 S12; "아니오"), 관련어 등록 서버(10)는 검색 워드와 부분 일치하는 관련어의 후보 문자열을 관련어 후보 집합으로부터 추출한다(스텝 S15). 구체적으로는, 관련어 등록 서버(10)의 시스템 제어부(14)는 부분 문자열을 추출하지 않고, 수신한 검색 워드 자체인지, 표음 변환한 검색 워드를 부분 일치하는 후보 문자열을 관련어 후보 DB(12b)로부터 추출한다.
또한, 관련어 등록 서버(10)의 시스템 제어부(14)는 유사도에 기초하여, 부분 문자열이나 검색 워드에 유사한 후보 문자열을 추출해도 된다. 또한, 유사도로서는, 자로-윙클러 거리(Jaro-Winkler distance), 레벤슈타인 거리(Levenshtein distance) 등의 문자열 간의 거리를 들 수 있다.
이어서, 관련어 등록 서버(10)는 각 관련어의 후보 문자열의 적부 스코어를 산출한다(스텝 S16). 구체적으로는, 관련어 등록 서버(10)의 시스템 제어부(14)는 후술하는 적부 스코어 서브루틴에 의해, 추출된 각 후보 문자열의 적부 스코어를 산출한다.
이어서, 관련어 등록 서버(10)는 적부 스코어 순으로 랭킹을 구한다(스텝 S17). 구체적으로는, 관련어 등록 서버(10)의 시스템 제어부(14)는 적부 스코어가 높은 순으로, 각 후보 문자열을 배열하는 처리를 행한다. 그리고, 관련어 등록 서버(10)의 시스템 제어부(14)는 상위 일정 수, 예를 들어 상위 50위의 후보 문자열을 골라내고, 후보 문자열을 더 좁힌다. 이와 같이 관련어 등록 서버(10)는 스코어의 순으로 후보 문자열에 대한 랭킹을 매기는 랭킹 수단의 일례로서 기능한다.
이어서, 관련어 등록 서버(10)는 적부 스코어의 기준 라인을 생성한다(스텝 S18). 구체적으로는, 관련어 등록 서버(10)의 시스템 제어부(14)는 골라낸 상위의 관련어의 후보 문자열 중, 적부 스코어가 상위 랭킹의 워드로부터 기준 라인을 결정하여 생성한다. 더 구체적으로는, 도 9의 (a)에 도시한 바와 같이, 랭킹에 대한 상대적인 적부 스코어를 나타낸 그래프에서, 시스템 제어부(14)가 예를 들어 1위부터 n위의 적부 스코어의 점을 근사하는 근사 함수를 기준 라인 L1로 한다.
여기서, 기준 라인의 일례로서의 근사 함수로는, 대수 함수, 지수 함수, 일차 함수, 이차 함수나 삼차 함수 등의 누승 함수, 쌍곡선과 같은 원추곡선의 함수 등을 들 수 있다. 근사 함수는, 랭킹-스코어·그래프의 각 점을 근사하거나, 보간하는 함수이면 된다. 근사 함수를 구할 때, 최소제곱법 등의 기준을 이용하면 된다. 또한, 상대적 적부 스코어는, 예를 들어 랭킹 1위의 적부 스코어의 값으로, 각 스코어를 나눈 값이다. 또한, 기준 라인 L1을 정할 때, 하위의 적부 스코어, 50위부터 10위의 각 스코어를 최소제곱법에 의해 정해도 된다. 또한, 랭킹-스코어의 곡선은, 적부 스코어의 랭킹 순으로 배열하고 있으므로, 광의의 단조 감소 그래프로 된다.
이와 같이 관련어 등록 서버(10)는 후보 문자열의 적부 스코어와 랭킹에 기초하여, 후보 문자열을 관련어로서 등록할지 여부의 판정 기준으로서 랭킹에 대한 적부 스코어의 기준 라인을 생성하는 판정 기준 생성 수단의 일례로서 기능한다. 또한, 관련어 등록 서버(10)는 랭킹과 적부 스코어의 관련을 근사하는 근사 함수로부터 기준 라인을 구하는 판정 기준 생성 수단의 일례로서 기능한다. 또한, 관련어 등록 서버(10)는 소정의 범위인 랭킹 데이터로부터, 기준 라인을 구하는 판정 기준 생성 수단의 일례로서 기능한다.
이어서, 관련어 등록 서버(10)는 각 적부 스코어와 기준 라인의 괴리가 임계값 이상인지를 판정한다(스텝 S19). 구체적으로는, 관련어 등록 서버(10)의 시스템 제어부(14)는 기준 라인 L1과 랭킹 1위의 스코어의 차분이 임계값 이상인지를 판정한다. 더 구체적으로는, 관련어 등록 서버(10)의 시스템 제어부(14)가 기준 라인 L1의 식에 랭킹 값을 대입한 값을 랭킹 1위의 적부 스코어로부터 감산을 하여 차분을 산출한다. 그리고, 차분이 임계값 θ 이상이면, 후보 문자열을 관련어의 등록 문자열로서 추출한다. 여기서, 임계값은, 적부 스코어를 조절하는 파라미터 등을 바꾸어, 시뮬레이션에 의해, 예를 들어 기준 라인의 0.1배와 같이 미리 구해 둔다. 이 경우, 관련어 등록 서버(10)의 시스템 제어부(14)는 적부 스코어가 기준 라인의 1.1배 이상인 후보 문자열을 관련어로서 추출한다.
이와 같이 관련어 등록 서버(10)는 적부 스코어와 기준 라인 L1의 괴리가 미리 설정된 임계값 θ 이상인 후보 문자열을 관련어로서 등록하기 위한 등록 문자열로서 추출하는 등록 문자열 추출 수단의 일례로서 기능한다.
각 적부 스코어와 기준 라인의 괴리가 임계값 이상인 경우(스텝 S19; "예"), 관련어 등록 서버(10)는 기준 라인의 괴리가 임계값 이상인 관련어의 후보 문자열을 관련어로서 등록한다(스텝 S20). 구체적으로는, 관련어 등록 서버(10)의 시스템 제어부(14)는 각 적부 스코어와 기준 라인의 괴리가 임계값 이상인 경우, 랭킹 1위의 후보 문자열을, 수신한 검색 워드의 관련어의 등록 문자열로서 관련어 DB(12c)에 등록한다. 또한, 각 적부 스코어와 기준 라인의 괴리가 임계값 이상인 후보 문자열이 복수(예를 들어, 3개) 존재하는 경우, 관련어 등록 서버(10)의 시스템 제어부(14)는 랭킹 1위의 후보 문자열에 한하지 않고, 랭킹 1위 내지 3위의 후보 문자열이나, 1위 및 3위의 후보 문자열과 같이, 소정수의 후보 문자열을 기억하거나, 랭킹 2위와 같이 소정 순위의 후보 문자열을 기억하여도 된다. 이와 같이 관련어 등록 서버(10)는 추출된 등록 문자열과 검색 워드를, 관련어 데이터베이스에 관련어로서 등록하는 관련어 등록 수단의 일례로서 기능한다.
차분이 임계값 이상이 아닌 경우(스텝 S19; "아니오"), 관련어 등록 서버(10)는 처리를 종료한다.
이어서, 구축된 관련어 데이터베이스의 이용에 대하여 설명한다.
정보 제공 서버(20)는 유저의 단말기(30)로부터 수신한 검색 쿼리에 기초하여 검색할 때, 관련어 추출 수단의 일례로서, 관련어 등록 서버(10)의 관련어 DB(12c)를 참조하여, 검색 쿼리의 검색 워드에 대응하는 관련어를 추출한다. 예를 들어, 정보 제공 서버(20)는 관련어 등록 서버(10)에 수신한 검색 쿼리를 송신한다. 관련어 등록 서버(10)가 정보 제공 서버(20)로부터 검색 쿼리를 수신하고, 관련어 DB(12c)로부터, 검색 쿼리의 검색 워드에 대응하는 등록 문자열을 추출한다. 그리고, 관련어 등록 서버(10)가 관련어 출력 수단의 일례로서, 추출한 등록 문자열을 관련어로서 정보 제공 서버(20)에 송신한다. 정보 제공 서버(20)는 수신한 관련어를 단말기(30)에 송신한다. 그리고, 도 6에 도시한 바와 같이, 단말기(30)는 수신한 관련어를, "혹시 '○○▲'?"와 같이 관련어 표시란(43)에 표시한다. 또한, "랭킹 1의 관련어", "랭킹 2의 관련어"와 같이, 복수 개의 관련어가 표시되어도 된다. 또한, 검색 결과의 건수가 제로 건이거나 적었던 경우에 한하지 않고, 관련어가 표시되어도 된다.
(3.3 적부 스코어 산출의 서브루틴)
이어서, 적부 스코어 산출의 서브루틴에 대하여, 도 10 및 도 11을 이용하여 설명한다.
스텝 S14나 스텝 S15에서, 관련어의 후보 문자열을 추출한 후, 도 10에 도시한 바와 같이, 관련어 등록 서버(10)는 추출한 관련어의 후보 문자열과 검색 워드의 거리를 산출한다(스텝 S30). 구체적으로는, 관련어 등록 서버(10)의 시스템 제어부(14)는 예를 들면 수학식 1에 따라서, 검색 워드 u와 후보 문자열 w의 거리 Distance(w,u)를 산출한다.
Figure pat00004
여기서, Distance(w,u)는 검색 워드 u와 후보 문자열 w의 거리이며, 이들이 어느 정도 닮았는지를 나타내는 지표(유사도의 일례)이다. 또한, Dist(w,u)는 후보 문자열 w와 검색 워드 u의 자로-윙클러 거리이며, Dist.Yomi(w,u)는 후보 문자열 w의 읽기와 검색 워드 u의 읽기의 자로-윙클러 거리이다. 계수 α와 계수 β는, α+β=1의 관계가 있고, 읽기에 무게를 두고자 할 때 계수 β의 비율을 크게 한다(예를 들어, α<β, α=0.3, β=0.7). 또한, Distance(w,u)는 거리로서 0 내지 1로 표현할 수 있는 자로-윙클러 거리가 바람직하지만, 자로-윙클러 거리에 한하지 않고, 레벤슈타인 거리나 검색 워드 u와 후보 문자열 w의 유사도를 나타내는 지표이어도 된다.
이어서, 관련어 등록 서버(10)는 각 관련어의 후보 문자열의 생기 빈도를 취득한다(스텝 S31). 구체적으로는, 관련어 등록 서버(10)의 시스템 제어부(14)는 검색 쿼리 로그에서의 각 관련어의 후보 문자열의 생기 빈도를 산출한다. 더 구체적으로는, 관련어 등록 서버(10)의 시스템 제어부(14)는 수학식 2에 따라서, 검색 쿼리 로그 DB(12a)의 데이터에 기초하여, 각 후보 문자열 w에 대한 P(w)를 산출한다.
Figure pat00005
여기서, P(w)는 후보 문자열 w가, 검색 쿼리 로그 DB(12a)의 검색 로그 데이터에서, 어느 정도 검색되어 있는지의 생기 빈도에 관계한다. 또한, Occ.Count(w)는 검색 쿼리 로그에서의 후보 문자열 w의 출현 횟수(후보 문자열의 사용 횟수)이다. 검색 쿼리 로그 DB(12a)의 검색 쿼리 로그 데이터를 사용하는 경우, P(w)가 높은 워드는, 여러 유저에 의한 검색에서 자주 입력되는 일반적인 단어이다. 이와 같이 관련어 등록 서버(10)의 시스템 제어부(14)는 적부 스코어 산출 수단의 일례로서, 검색 쿼리 기억 수단(검색 쿼리 로그 DB(12a))의 데이터에 기초하여, 적부 스코어를 산출한다.
이어서, 관련어 등록 서버(10)는 각 관련어의 후보 문자열의 상품 DB(22a)에서의 검색 건수로부터 검색 가능성(가용성)을 산출한다(스텝 S32). 구체적으로는, 우선, 관련어 등록 서버(10)의 시스템 제어부(14)가 정보 제공 서버(20)에 각 관련어의 후보 문자열 w를 송신하고, 정보 제공 서버(20)의 시스템 제어부(24)가 상품 DB(22a)에서의 검색 건수(검색 결과수)를 구하고, 관련어 등록 서버(10)에 각 후보 문자열 w의 검색 건수를 송신한다.
그리고, 관련어 등록 서버(10)의 시스템 제어부(14)가 수학식 3에 따라서, 검색 건수로부터 각 후보 문자열 w의 검색 가능성의 값을 산출한다.
Figure pat00006
또한, Availability(w)는 후보 문자열 w에 의한 검색의 검색 결과수(검색 히트수)에 대한 가중 계수이며, 예를 들어 다음 식으로 표현된다. 여기서, #of Search Result(w)는 후보 문자열 w의 검색 결과수이다. 또한, 가용성(Availability)은 도 11의 (a)에 도시한 바와 같이, 수학식 3 외에, 도 11의 (b), (c)에 도시한 바와 같이, 다양한 변형이 있다.
이어서, 관련어 등록 서버(10)는 검색 워드와 관련어의 후보 문자열의 거리, 각 관련어의 후보 문자열의 생기 빈도, 각 관련어의 후보 문자열의 검색 가능성으로부터 각 관련어의 후보 문자열의 적부 스코어를 산출한다(스텝 S33). 구체적으로는, 관련어 등록 서버(10)의 시스템 제어부(14)는 수학식 4에 따라서, 각 후보 문자열 w의 적부 스코어를 산출한다.
Figure pat00007
여기서, γ 및 δ는, 적부 스코어를 조정하기 위한 파라미터이다. 파라미터 γ는, P (w)에 대한 조정값이며, 거의 입력되지 않은 워드에 대한 수정도 허용하는 정도를 나타낸다. 거의 입력되지 않은 워드는 P(w)의 값이 작아지므로, 새로운 단어, 새로운 상품을 검색으로 찾아내기가 어렵다. 아직 거의 사용되고 있지 않은 워드라도, 가능한 한 검색으로 찾을 수 있게 하려는 경우에는, 서버측의 설정에 의해 파라미터 γ의 값을 크게 한다.
또한, 파라미터 δ는, Distance(w,u)에 대한 조정값이며, 주로, Distance(w,u)가 제로로 되어, 스코어의 값이 발산하는 것을 방지하고 있다. 또한, 관련어 등록 서버(10)는 수학식 4에서의 파라미터 γ 및 δ나, 수학식 1에서의 파라미터 α 및 β를 미리 설정해 둔다(예를 들어, γ>δ, γ>1, δ<1, γ=2, δ=0.01).
이들과 같이 관련어 등록 서버(10)는 후보 문자열과 상기 검색 워드의 유사도, 후보 문자열의 사용 횟수 및 후보 문자열에 의한 검색의 검색 결과수에 기초하여, 후보 문자열의 적부 스코어를 산출하는 스코어 산출 수단의 일례로서 기능한다. 또한, 관련어 등록 서버(10)는 유사도와 사용 횟수의 정보를 조절하는 파라미터 조절 수단에 일례로서 기능한다.
이상, 본 실시 형태에 의하면, 검색 쿼리에 관한 로그를 기억한 검색 쿼리 로그 DB(12a)로부터, 검색 결과가 1 이상(소정의 조건의 일례)에 기초하여 관련어의 후보 문자열을 추출한 관련어 후보 집합을 생성하여 관련어 후보 DB(12b)에 기억하고, 유저가 입력한 검색 워드의 검색 쿼리를 수신하여, 검색 워드의 문자열로부터 부분 문자열을 생성하고, 부분 문자열에 기초하여 관련어 후보 DB(12b)의 관련어 후보 집합으로부터 후보 문자열을 추출하고, 후보 문자열과 검색 워드의 유사도, 후보 문자열의 사용 횟수 및 후보 문자열에 의한 검색의 검색 결과수에 기초하여, 후보 문자열의 적부 스코어를 산출하고, 스코어의 순서대로 후보 문자열에 대한 랭킹을 매기고, 후보 문자열의 적부 스코어와 랭킹에 기초하여, 후보 문자열을 관련어로서 등록할지 여부의 판정 기준으로서 랭킹에 대한 적부 스코어의 기준 라인을 생성하고, 적부 스코어와 기준 라인의 괴리가 미리 설정된 임계값 이상인 후보 문자열을 관련어로서 등록하기 위한 등록 문자열로서 추출하고, 추출된 등록 문자열을 검색 워드의 관련어로서 관련어 DB(12c)에 등록함으로써, 문자수가 적어진 부분 문자열에 기초하여 관련어 후보 집합으로부터 후보 문자열을 추출하기 때문에, 후보 문자열의 적부 스코어에 의해, 불필요한 관련어의 등록을 억제할 수 있어, 관련어의 정밀도를 향상시킬 수 있다. 또한, 본 실시 형태에 의하면, 처리를 고속화할 수 있다.
또한, 관련어에 기초하여, 유저에게 검색 워드를 제시하면, 유저가 목표로 하는 검색 대상에 빨리 도달할 수 있다.
또한, 관련어 등록 서버(10)가 검색 워드의 문자수에 기초하여 부분 문자열의 길이를 설정하고, 이 설정된 길이의 부분 문자열을 생성하는 경우, 부분 문자열의 길이를 정함으로써 처리의 효율화를 도모할 수 있어, 처리의 고속화 및 관련어의 정밀도를 향상시킬 수 있다.
또한, 관련어 등록 서버(10)가 검색 워드의 문자수에 기초하여 부분 문자열을 생성할 때의 검색 워드의 문자수의 이동 폭을 설정하고, 이 설정된 이동 폭으로 부분 문자열을 생성하는 경우, 처리를 보다 고속화할 수 있다.
또한, 관련어 등록 서버(10)가 검색 워드를 표음 변환시킨 검색 워드에 대하여 부분 문자열을 생성하는 경우, 짧은 워드이어도, 효율적으로 부분 문자열을 추출할 수 있어, 처리의 고속화 및 관련어의 정밀도를 향상시킬 수 있다.
또한, 관련어 등록 서버(10)가 파라미터 조절 수단으로서, 스코어 산출 수단의 유사도와 사용 횟수의 정보를 조절하는 파라미터 δ, γ를 더 구비한 경우, 파라미터 δ, γ를 조정함으로써, 유저의 특성이나 상황에 따라서 적부 스코어를 바꿀 수 있어, 관련어의 정밀도를 보다 향상시킬 수 있다.
또한, 관련어 등록 서버(10)가 판정 기준 생성 수단으로서, 랭킹과 적부 스코어의 관련을 근사하는 근사 함수로부터 기준 라인을 구함으로써, 근사 함수로부터 벗어난 이상값으로서, 관련어의 등록 문자열을 검출하기 쉬워져서, 관련어의 정밀도를 보다 향상시킬 수 있다.
또한, 관련어 등록 서버(10)가 판정 기준 생성 수단으로서, 소정의 범위(예를 들어, 상위)인 랭킹 데이터로부터, 기준 라인 L1을 구하는 경우, 상위의 랭킹 중에서 기준 라인 L1로부터 벗어나는 후보 문자열을 검출할 수 있기 때문에, 상위의 랭킹에 있는 후보 문자열을 더 적절하게 추출할 수 있다.
내부 또는 외부의 EC 사이트에서 판매되고 있는 상품에 관련된 검색 워드를 기억하는 검색 워드 기억 수단의 일례로서 상품 DB(22a)를 더 구비할 수 있는 경우, 특히, 상품 DB(22a)의 데이터를 이용하여, 가용성을 용이하게 산출할 수 있어, 적부 스코어에 반영시킬 수 있다.
또한, 관련어 등록 서버(10)가 검색 쿼리에 관한 로그를 기억하는 검색 쿼리 기억 수단의 일례로서 검색 쿼리 로그 DB(12a)를 더 구비하고, 검색 쿼리 로그 DB(12a)의 데이터에 기초하여, 적부 스코어를 산출하는 경우, 검색 쿼리 로그 DB(12a)에 축적되어 있는 워드로부터, 후보 문자열을 추출하면, 유저의 흥미가 집약된 후보 문자열로 1차적으로 좁힐 수 있다. 특히, 가장 가까운 로그에 기초한 경우, 유저의 기호가 특히 반영된 후보 문자열을 추출할 수 있다.
또한, 관련어 등록 서버(10)가 스텝 S19에서, 등록 문자열 추출 수단으로서, 추출하는 등록 문자열의 수로 상한을 설정하여도 된다. 이 경우, 불필요한 관련어의 등록을 억제할 수 있어, 관련어의 정밀도를 향상시킬 수 있다.
또한, 정보 제공 서버(20)가 관련어 데이터베이스를 참조하여, 수신한 검색 쿼리의 검색 워드에 대응하는 관련어를 추출하고, 출력하는 경우, 유저가 목표로 하는 검색 대상에 빨리 도달할 수 있는 정밀도가 높은 관련어를, 유저에게 제시할 수 있다.
또한, 골라낸 상위의 관련어의 후보 문자열 중, 적부 스코어가 하위 랭킹인 후보 문자열로부터 기준 라인을 결정해도 된다. 더 구체적으로는, 도 9의 (b)에 도시한 바와 같이, 랭킹에 대한 상대적 적부 스코어를 나타낸 그래프에서, 관련어 등록 서버(10)의 시스템 제어부(14)는 예를 들어 50위와 10위의 적부 스코어를 연결하는 직선(기준 라인 L2)을 결정한다.
기준 라인 L2는, x축이 랭킹, y축이 상대적 적부 스코어의 그래프에서 y=ax+b의 직선의 식으로 표현된다. 여기서, 상대적 적부 스코어는, 예를 들어 랭킹 1위의 적부 스코어의 값으로, 각 스코어를 나눈 값이다. 또한, 기준 라인 L2를 정할 때, 하위의 적부 스코어, 50위부터 10위의 각 스코어를 최소제곱법에 의해 정해도 된다. 여기서, 도 9의 (b)에 도시한 바와 같이, 하위의 적부 스코어는, 상위의 적부 스코어에 비하여, 랭킹 순으로 서로 근사하는 적부 스코어로 되어 있다.
여기서, 기준 라인 L2는, 랭킹과 적부 스코어의 관련을 근사하는 근사 함수의 일례이며, 50위와 10위의 적부 스코어를 연결하는 직선이다. 또한, 근사 함수로서, 직선(일차 함수) 외에, 대수 함수, 지수 함수, 이차 함수나 삼차 함수 등의 누승 함수, 쌍곡선과 같은 원추곡선의 함수 등이어도 된다.
기준 라인 L2가 결정된 후, 관련어 등록 서버(10)는 기준 라인의 y축(상대적인 적부 스코어의 축)의 절편 b의 값을 구하고, 절편 b의 값에, 상수를 곱한 값을 임계값 θ로 한다.
또한, 스텝 S13에서, 관련어 등록 서버(10)가 부분 문자열을 추출하고, 검색 워드의 문자수에 따라서, 부분 문자열의 길이 L이나 Window의 슬라이드 폭 S를 동적으로 변경하여도 된다. 예를 들어, 검색 워드의 문자수가 많은 경우, 부분 문자열의 길이 L을 길게 하고, 슬라이드 폭 S를 넓게 한다. 기준값으로서, 문자수가 15에 대하여 L=4, S=3으로 한 경우, 검색 워드의 문자수가 40일 때, L=8, S=3과 같이 문자열의 길이를 길게 하거나, L=4, S=5와 같이 슬라이드 폭을 넓게 하거나, L=8, S=5와 같이 문자열의 길이 및 슬라이드 폭을 넓게 한다. 이와 같이, 관련어 등록 서버(10)가 검색 워드의 문자수에 따라서, 부분 문자열의 길이 L이나 Window의 슬라이드 폭 S를 동적으로 변경하는 경우, 처리의 고속화 및 관련어의 정밀도를 향상시킬 수 있다.
또한, 쇼핑 사이트는, 네트워크(3)에 접속한 외부 EC 사이트이어도 되고, 정보 제공 서버(20)는 상품 검색에 한하지 않고, 일반 검색 서버이어도 된다. 이 경우, 외부 EC 사이트 등에서의 검색 서버의 검색 건수로부터, 검색 가능성(가용성)을 산출한다.
[4. 관련어 등록 시스템에 있어서의 제2 실시 형태의 동작]
이어서, 본 발명의 일 실시 형태에 따른 관련어 등록 시스템(1)에서의 제2 실시 형태의 동작에 대하여, 도 6 및 도 12 내지 도 16을 이용하여 설명한다. 또한, 상기 제1 실시 형태의 동작과 동일 또는 대응하는 부분에는, 동일한 부호를 이용하여 서로 다른 부분을 주로 설명한다. 그 밖의 실시 형태 및 변형예도 마찬가지로 한다.
(4.1 검색 쿼리 로그 및 문자열 조 집합의 생성)
우선, 검색 쿼리 로그 및 문자열 조 집합의 생성에 대하여, 도 6 및 도 12 내지 도 14를 이용하여 설명한다.
또한, 검색 쿼리 로그 DB(12a)가 어느 정도 구축되어 있는 상태로부터 설명한다. 이 검색 쿼리 로그 DB(12a)에는, 유저 식별 정보와 함께 검색 쿼리의 수신 시각에 대응지은 검색 쿼리가 기억되어 있다. 또한, 상품의 카테고리 정보에도 대응지어져서 검색 쿼리가 기억되어 있다(카테고리 정보에 대해서는 후술함).
이 유저 식별 정보의 일례로서, 예를 들어 쇼핑 사이트에 로그인하고 있는 유저 A의 단말기(30)로부터의 검색 쿼리인 경우, 유저 A의 유저 ID나, 유저 A의 단말기(30)로부터 송신된 검색 쿼리의 헤더에 존재하는 IP 어드레스를 들 수 있다.
이 수신 시각은, 정보 제공 서버(20)가 단말기(30)로부터 검색 쿼리를 수신한 수신 시각이나, 관련어 등록 서버(10)가 이 검색 쿼리를 정보 제공 서버(20)로부터 수신한 수신 시각을 들 수 있다. 단말기로부터 검색 쿼리를 정보 제공 서버(20)가 수신한 시각이면, 정보 제공 서버(20)는 검색 쿼리의 수신 시각도 관련어 등록 서버(10)에 송신한다. 또한, 수신 시각은, 검색 쿼리 로그 DB(12a)에 검색 쿼리가 기억될 때에 붙여지는 타임 스탬프이어도 된다.
우선, 유저(예를 들어 유저 A)가 유저 A의 단말기(30)에서, 쇼핑 사이트에 로그인하면, 도 6에 도시한 바와 같이, 쇼핑 사이트의 톱 페이지인 웹 페이지(40)의 정보가 정보 제공 서버(20)로부터, 이 단말기(30)에 송신된다. 그리고, 단말기(30)의 표시부(33)에 웹 페이지(40)가 표시된다. 이 웹 페이지(40)는, 쇼핑 사이트의 톱 페이지이며, 톱 카테고리 표시(45)가 표시되고, 각 카테고리에 링크가 걸려 있다. 또한, 이 쇼핑 사이트의 관련 그룹 기업의 상품이나 서비스의 카테고리 표시(46)가 표시되고, 각 카테고리에 링크가 걸려 있다. 또한, 웹 페이지(40)에는, 유저 A를 나타내는 정보 "A씨, 안녕하십니까"가 표시되어 있다.
이어서, 도 6에 도시한 바와 같이, 웹 페이지(40)에서, "가전"의 상품 카테고리의 링크가 클릭되면, 도 12에 도시한 바와 같이, "가전"의 웹 페이지(50)가 표시부(33)에 표시된다. 이 웹 페이지(50)에는, 톱 카테고리 "가전"의 카테고리 표시(55)의 서브 카테고리 표시(56)가 표시된다.
이 웹 페이지(50)의 검색 워드 기입란(51)에, 검색 워드 "▼▼○"가 입력되고, 검색 버튼(52)이 클릭되면, 단말기(30)의 시스템 제어부(36)는 통신부(31)를 통해서, 검색 쿼리를 정보 제공 서버(20)에 송신한다. 이 검색 쿼리는, 입력된 검색 워드와, 웹 페이지(50)의 카테고리 정보(톱 카테고리 "가전"의 카테고리 표시(65)를 나타내는 카테고리 식별 번호 등)와, 유저 식별 정보의 일례인 (유저 A의) 유저 ID 등을 갖는다.
이어서, 정보 제공 서버(20)는 이 검색 쿼리를 단말기(30)로부터 수신하고, 관련어 등록 서버(10)에 송신함과 함께, 상품 DB(22a)를 참조하여 상품의 검색을 행한다. 또한, 이 검색 쿼리의 송신원의 IP 어드레스를 특정하고, 이 IP 어드레스도 관련어 등록 서버(10)에 송신한다. 이 IP 어드레스는, 유저 식별 정보의 일례로서, 유저가 로그인하고 있지 않은 경우에, 유저 ID 대신에 사용된다.
이어서, 도 13에 도시한 바와 같이, 관련어 등록 서버(10)는 검색 워드를 포함하는 검색 쿼리를 수신한다(스텝 S41). 구체적으로는, 관련어 등록 서버(10)의 시스템 제어부(14)는 통신부(11)를 통해서 검색 쿼리를 정보 제공 서버(20)로부터 수신하고, 수신한 검색 쿼리와 검색 쿼리의 수신 시각을 대응지어서 검색 쿼리 로그 DB(12a)에 기억한다. 또한, 관련어 등록 서버(10)의 시스템 제어부(14)는 IP 어드레스와 대응지어서 검색 쿼리를 검색 쿼리 로그 DB(12a)에 기억한다. 또한, 관련어 등록 서버(10)의 시스템 제어부(14)는 검색 쿼리에 IP 어드레스를 포함시켜도 된다. 또한, 검색 쿼리의 접수의 전후 관계를 알면 좋기 때문에, 관련어 등록 서버(10)의 시스템 제어부(14)는 수신 시각이 아니라, 수신한 순서를 붙여서, 검색 쿼리를 검색 쿼리 로그 DB(12a)에 기억해도 된다. 이와 같이, 관련어 등록 서버(10)의 시스템 제어부(14)는 수신한 검색 쿼리를, 수신 순서에 따라서 기억하는 검색 쿼리 기억 수단의 일례로서 기능한다.
이어서, 관련어 등록 서버(10)는 유저 ID가 일치하는 바로 전 검색 쿼리가 검색 쿼리 로그에 존재하는지를 판정한다(스텝 S42). 구체적으로는, 관련어 등록 서버(10)의 시스템 제어부(14)는 유저 A의 유저 ID와 일치하고, 수신한 검색 쿼리보다 수신 시각이 빠른 바로 전(수신 순서가 빠른 것의 일례)의 검색 쿼리를, 검색 쿼리 로그 DB(12a)로부터 추출한다. 그리고, 관련어 등록 서버(10)의 시스템 제어부(14)는 바로 전 검색 쿼리를 추출할 수 있는 경우, 바로 전 검색 쿼리가 검색 쿼리 로그에 존재한다고 판정하고, 추출할 수 없는 경우, 바로 전 검색 쿼리가 존재하지 않는다고 판정한다. 또한, 관련어 등록 서버(10)의 시스템 제어부(14)는 수신한 검색 쿼리의 IP 어드레스와 일치하고, 수신한 검색 쿼리보다 수신 시각이 빠른 바로 전 검색 쿼리를, 검색 쿼리 로그 DB(12a)로부터 추출해도 된다.
여기서, 유저 ID와 일치하는 경우나, IP 어드레스와 일치하는 경우가, 미리 설정한 검색 쿼리 추출 조건의 일례이다. 이와 같이 관련어 등록 서버(10)는 검색 쿼리 추출 조건으로서, 검색 쿼리를 입력한 유저의 유저 식별 정보가 일치하는 바로 전 검색 쿼리를 추출하는 검색 쿼리 추출 수단의 일례로서 기능한다.
유저 ID가 일치하는 바로 전 검색 쿼리가 검색 쿼리 로그에 존재하는 경우(스텝 S42; "예"), 관련어 등록 서버(10)는 수신 시각과 바로 전 검색 쿼리의 수신 시각이 소정 시간 내인지를 판정한다(스텝 S43). 구체적으로는, 관련어 등록 서버(10)의 시스템 제어부(14)는 수신한 검색 쿼리의 수신 시각과, 바로 전 검색 쿼리의 수신 시각의 차가, 소정 시간 내(예를 들어, 3초 내지 60초의 사이)에 있는 바로 전 검색 쿼리를 추출한다. 그리고, 관련어 등록 서버(10)의 시스템 제어부(14)는 바로 전 검색 쿼리를 추출할 수 있는 경우, 바로 전 검색 쿼리가 소정 시간 내라고 판정하고, 추출할 수 없는 경우, 소정 시간 내가 아니라고 판정한다.
여기서, 소정 시간 내가, 미리 설정한 검색 쿼리 추출 조건의 일례이다. 이들과 같이, 관련어 등록 서버(10)는 미리 설정한 검색 쿼리 추출 조건에 기초하여, 수신한 검색 쿼리보다 수신 시각이 빠른 바로 전 검색 쿼리를, 검색 쿼리 기억 수단으로부터 추출하는 검색 쿼리 추출 수단의 일례로서 기능한다. 또한, 관련어 등록 서버(10)는 검색 쿼리 추출 조건으로서, 수신 시각이 검색 쿼리의 수신 시각으로부터 소정 시간 내에 있는 바로 전 검색 쿼리를 추출하는 검색 쿼리 추출 수단의 일례로서 기능한다.
수신 시각과 바로 전 검색 쿼리의 수신 시각이 소정 시간 내인 경우(스텝 S43; "예"), 관련어 등록 서버(10)는 수신한 검색 워드와, 수신 시각이 가장 가까운 바로 전 검색 워드의 문자열 조를 기억한다(스텝 S44). 구체적으로는, 관련어 등록 서버(10)의 시스템 제어부(14)는 추출한 바로 전 검색 쿼리 중, 수신한 검색 쿼리를 구성하는 검색 워드와, 수신 시각이 가장 가까운 바로 전 검색 쿼리를 구성하는 검색 워드를 선택하고, 이들 바로 전 검색 워드와 수신한 검색 워드의 문자열 조를 문자열 조 DB(12d)에 기억한다.
또한, 관련어 등록 서버(10)의 시스템 제어부(14)는 미리 설정한 검색 쿼리 추출 조건의 일례로서, 카테고리 정보(예를 들어, 톱 카테고리)가 일치한 바로 전 검색 쿼리로 더 좁혀도 된다.
이어서, 관련어 등록 서버(10)는 유저 ID 및 수신 시각과 대응지어서 검색 쿼리를 검색 쿼리 로그에 기억한다(스텝 S45). 구체적으로는, 관련어 등록 서버(10)의 시스템 제어부(14)는 카테고리 정보, 유저 ID(IP 어드레스이어도 됨) 및 수신 시각과 대응지어서 검색 쿼리를 검색 쿼리 로그 DB(12a)에 기억한다. 또한, 유저 ID가 일치하는 바로 전 검색 쿼리가 검색 쿼리 로그에 존재하지 않는 경우(스텝 S42; "아니오")이거나, 수신 시각과 바로 전 검색 쿼리의 수신 시각이 소정 시간 내가 아닌 경우(스텝 S43; "아니오")에도, 관련어 등록 서버(10)의 시스템 제어부(14)는 유저 ID 및 수신 시각과 대응지어서 검색 쿼리를 검색 쿼리 로그 DB(12a)에 기억한다.
이와 같이 관련어 등록 서버(10)는 추출한 바로 전 검색 쿼리를 구성하는 바로 전 검색 워드와, 수신한 검색 쿼리를 구성하는 검색 워드를 문자열 조로서 기억하는 문자열 조 기억 수단의 일례로서 기능한다.
이어서, 정보 제공 서버(20)가 상품의 검색을 행한 후, 검색 결과로서, 도 14에 도시한 바와 같이, 웹 페이지(60)의 정보를, 단말기(30)에 송신한다.
이어서, 단말기(30)는 웹 페이지(60)의 정보를 정보 제공 서버(20)로부터 수신하고, 표시부(33)에 표시시킨다.
유저 A는, 웹 페이지(60)의 검색 결과를 보고, 원하는 상품이 있는 경우에는, 상품 표시란(63)의 상품을 클릭하지만, 원하는 상품이 없는 경우에는, 검색 워드를 검색 워드 입력란(61)에 더 입력하고, 검색 버튼(62)을 클릭하면, 단말기(30)는 전술한 바와 같이, 검색 워드 "▲▲ ○■"라고 카테고리 정보("가전")를 포함하는 검색 쿼리를 정보 제공 서버(20)에 송신한다. 그리고, 정보 제공 서버(20)는 이 검색 쿼리를 수신하여, 관련어 등록 서버(10)에 송신하고, 검색을 행한다. 관련어 등록 서버(10)는 전술한 바와 같이, 검색 쿼리를 수신하고(스텝 S41), 스텝 S42 내지 스텝 S45의 처리를 행한다.
다른 유저 B 등으로부터의 검색 쿼리에 대해서도 전술한 처리가 행해지고, 카테고리 정보나, 유저 ID마다 또는 IP 어드레스마다 모두 수신 시각과 대응지어진 검색 쿼리의 검색 쿼리 로그가 검색 쿼리 로그 DB(12a)에 생성되고, 문자열을 모은 문자열 조 집합이 문자열 조 DB(12d)에 생성된다.
(4.2 관련어의 등록)
이어서, 관련어의 등록에 대하여, 도 15 및 도 16을 이용하여 설명한다.
우선, 도 15에 도시한 바와 같이, 관련어 등록 서버(10)는 추출 개시 조건을 만족한 것인지를 판정한다(스텝 S50). 구체적으로는, 관련어 등록 서버(10)의 시스템 제어부(14)는 추출 개시 조건의 일례로서, 검색 쿼리 로그 DB(12a)에서의 검색 쿼리 로그의 검색 쿼리수(총 검색 쿼리수)나, 문자열 조 DB(12d)에 기억된 문자열 조 집합의 요소수(문자열 조 집합의 총 수)가 소정의 임계값을 초과하였는지를 판정한다. 또한, 관련어 등록 서버(10)의 시스템 제어부(14)는, 전회의 이 문자열 조 추출 개시 조건을 만족하고 나서 소정 시간을 경과하였는지 판정할 수 있다.
추출 개시 조건을 만족한 경우에(스텝 S50; "예"), 관련어 등록 서버(10)는 문자열 조 집합으로부터 바로 전 검색 워드가 동일한 문자열 조를 추출한다(스텝 S51). 구체적으로는, 관련어 등록 서버(10)의 시스템 제어부(14)는 도 16에 도시한 바와 같이, 문자열 조 DB(12d)로부터 바로 전 검색 워드(71)가 동일(검색 워드가 동일)한 문자열 조(70)를 추출한다. 추출 개시 조건을 만족하지 않는 경우에는(스텝 S50; "아니오"), 관련어 등록의 처리를 종료한다.
또한, 관련어 등록 서버(10)의 시스템 제어부(14)는 미리 설정한 문자열 조 추출 개시 조건에 따라서 문자열 조 DB(12d)로부터 바로 전 검색 워드가 유사한 문자열 조를 추출해도 된다. 검색 워드끼리가 유사하면, 예를 들어 자로-윙클러 거리, 레벤슈타인 거리 등의 문자열 간의 거리에 기초한 유사도의 값이 소정 임계값 이상인 경우이다. 예를 들어, 관련어 등록 서버(10)의 시스템 제어부(14)는 바로 전 검색 워드(71)와 유사한 바로 전 검색 워드 "▼▼●"를 갖는 문자열 조도 추출한다.
이와 같이 관련어 등록 서버(10)는 미리 설정한 문자열 조 추출 개시 조건에 따라, 문자열 조 기억 수단으로부터 상기 바로 전 검색 워드가 동일 또는 유사한 문자열 조를 추출하는 문자열 추출 수단의 일례로서 기능한다.
이어서, 관련어 등록 서버(10)는 추출한 문자열 조의 총 수가 소정 이상인지를 판정한다(스텝 S52). 구체적으로는, 관련어 등록 서버(10)의 시스템 제어부(14)는 임의의 바로 전 검색 워드(71)에 관한 문자열 조의 총 수가 소정 이상(예를 들어, 3 이상)인지를 판정한다. 도 16에 도시한 바와 같이, 바로 전 검색 워드(71)에 관한 문자열 조는, <바로 전 검색 워드(71)-검색 워드(71)>의 문자열 조(70), <바로 전 검색 워드(71)-검색 워드(72)>의 문자열 조(70), <바로 전 검색 워드(71)-검색 워드(73)>의 문자열 조(70)의 합계 3개가 있다.
추출한 문자열 조의 총 수가 소정 이상인 경우(스텝 S52; "예"), 관련어 등록 서버(10)는 추출한 문자열 조 중 등록 조건을 만족하는 문자열 조가 있는지를 판정한다(스텝 S53). 구체적으로는, 관련어 등록 서버(10)의 시스템 제어부(14)는 등록 조건의 일례로서, 각 문자열 조(70)의 수가 소정의 수 이상(예를 들어, 10 이상)인지를 판정한다. 이와 같이, 관련어 등록 서버(10)의 시스템 제어부(14)는 바로 전 검색 워드(71)가 동일 또는 유사한 문자열 조(70)에서, 동일 또는 유사한 검색 워드(72, 73, 74)를 갖는 문자열 조의 수가, 소정의 임계값을 초과하였는지를 판정한다. 관련어 등록 서버(10)의 시스템 제어부(14)는 소정의 임계값을 초과한 문자열 조를 관련어로서 특정한다. 또한, 관련어 등록 서버(10)의 시스템 제어부(14)는 검색 워드(73) "▲▲▲"에 유사한 검색 워드 "▲▲△"가 존재하면, 동일한 문자열 조로서 카운트해도 된다.
이와 같이 관련어 등록 서버(10)는 미리 설정한 등록 조건에 기초하여, 추출한 문자열 조로부터 관련어가 되는 문자열 조를 특정하는 관련어 특정 수단의 일례로서 기능한다. 또한, 관련어 등록 서버(10)는 등록 조건으로서, 바로 전 검색 워드가 동일 또는 유사한 문자열 조에서, 동일 또는 유사한 검색 워드를 갖는 문자열 조의 수가, 소정의 임계값을 초과한 경우에, 이 문자열 조를 관련어로서 특정하는 관련어 특정 수단의 일례로서 기능한다.
또한, 관련어 등록 서버(10)의 시스템 제어부(14)는 등록 조건의 일례로서, 바로 전 검색 워드(71)가 동일 또는 유사한 문자열 조에서, 동일 또는 유사한 검색 워드를 갖는 문자열 조의 비율이, 소정의 임계값(예를 들어 80%)을 초과하였는지를 판정할 수 있다.
이와 같이 관련어 등록 서버(10)는 등록 조건으로서, 바로 전 검색 워드가 동일 또는 유사한 문자열 조에서, 동일 또는 유사한 검색 워드를 갖는 문자열 조의 비율이, 소정의 임계값을 초과한 경우에, 이 문자열 조를 관련어로서 특정하는 관련어 특정 수단의 일례로서 기능한다.
이어서, 등록 조건을 만족하는 문자열 조가 있는 경우(스텝 S53; "예"), 관련어 등록 서버(10)는 문자열 조를 관련어로서 등록한다(스텝 S54). 구체적으로는, 관련어 등록 서버(10)의 시스템 제어부(14)는 도 16에 도시한 바와 같이, <바로 전 검색 워드(71)-검색 워드(71)>의 문자열 조(70)는 3개(15%)이고, <바로 전 검색 워드(71)-검색 워드(72)>의 문자열 조(70)는 16개(80%)이고, <바로 전 검색 워드(71)-검색 워드(73)>의 문자열 조(70)는 1개(5%)이므로, <바로 전 검색 워드(71)-검색 워드(72)>의 문자열 조(70)를 관련어로서 관련어 DB(12c)에 등록한다.
이와 같이 관련어 등록 서버(10)는 특정된 문자열 조를 관련어로서 등록하는 관련어 등록 수단의 일례로서 기능한다.
또한, 등록 조건을 만족하는 문자열 조가 없는 경우(스텝 S53; "아니오"), 관련어 등록 서버(10)는 등록 조건을 만족하지 않는 문자열 조가 관련어 DB에 등록되어 있는지를 판정한다(스텝 S55). 구체적으로는, 관련어 등록 서버(10)의 시스템 제어부(14)는 이미 등록되어 있는 <바로 전 검색 워드-검색 워드>의 문자열 조(70)의 비율이 문자열 조 DB(12d)에서 감소하여 소정의 임계값(예를 들어 80%)을 넘었는지를 판정한다. 이와 같은 일은, 동일 또는 유사한 바로 전 검색 워드를 갖는 다른 문자열 조가 증가한 경우에 발생한다.
등록 조건을 만족하지 않는 경우(스텝 S55; "예"), 관련어 등록 서버(10)는 등록 조건을 만족하지 않는 문자열 조를 관련어 DB로부터 삭제한다(스텝 S56). 구체적으로는, 관련어 등록 서버(10)의 시스템 제어부(14)는 이미 등록되어 있는 문자열 조 중에서 등록 조건을 만족하지 않는 문자열 조를 관련어 DB(12c)로부터 삭제한다.
스텝 S54의 후, 관련어 등록 서버(10)는 모든 문자열 조에 대하여 추출하였는지를 판정한다(스텝 S57). 구체적으로는, 관련어 등록 서버(10)의 시스템 제어부(14)는 문자열 조 DB(12d)의 문자열 조 집합에서의 모든 바로 전 검색 워드에 대하여 스텝 S51의 문자열 조의 추출 처리를 행하였는지를 판정하고, 모든 문자열 조에 대하여 추출하지 않는 경우(스텝 S57; "아니오"), 스텝 S11로 되돌아가고, 모든 문자열 조에 대하여 추출하고 있는 경우(스텝 S57; "예"), 관련어 등록의 처리를 종료한다.
이상, 본 실시 형태에 의하면, 유저가 입력한 검색 워드의 검색 쿼리를 수신하고, 수신한 검색 쿼리보다 시간적으로 바로 전에 취득한 바로 전 검색 쿼리를, 미리 설정한 검색 쿼리 추출 조건에 기초하여 검색 쿼리 로그로부터 추출하고, 추출한 바로 전 검색 쿼리의 바로 전 검색 워드와, 수신한 검색 쿼리의 검색 워드를 문자열 조로서 문자열 조 DB(12d)에 기억하고, 미리 설정한 문자열 조 추출 개시 조건을 만족할 때에, 바로 전 검색 워드가 동일 또는 유사한 문자열 조를 추출하고, 미리 설정한 등록 조건을 만족하는 추출한 문자열 조를 관련어로서 관련어 DB(12c)에 등록함으로써, 수신한 검색 쿼리와 검색 쿼리 추출 조건에 기초한 바로 전 검색 쿼리의 문자열 조가 문자열 조 추출 개시 조건으로 일정량 축적되며, 이 축적된 문자열 조 중에서 등록 조건을 만족하는 문자열 조를 관련어로서 관련어 DB(12c)에 등록하기 때문에, 관련어의 정밀도를 향상시킬 수 있다.
또한, 관련어 등록 서버(10)가 유저 식별 정보를 더 기억하고, 검색 쿼리 추출 조건으로서, 검색 쿼리를 입력한 유저의 유저 식별 정보가 일치하는 바로 전 검색 쿼리를 추출하는 경우, 동일 유저에서의 문자열 조를 생성할 수 있기 때문에, 관련어의 정밀도를 보다 향상시킬 수 있다.
또한, 관련어 등록 서버(10)가 검색 쿼리 추출 조건으로서, 수신 시각이 검색 쿼리의 수신 시각으로부터 소정 시간 내에 있는 바로 전 검색 쿼리를 추출하는 경우, 소정 시간 내에 있고 관련성이 높은 바로 전 검색 쿼리를 추출할 수 있기 때문에, 관련어의 정밀도를 보다 향상시킬 수 있다.
또한, 관련어 등록 서버(10)가 카테고리 정보를 더 기억하고, 검색 쿼리 추출 조건으로서, 카테고리 정보에 기초하여, 바로 전 검색 쿼리를 추출하는 경우, 카테고리가 동일 또는 관련된 검색 워드끼리를 문자열 조로 할 수 있기 때문에, 관련어의 정밀도를 보다 향상시킬 수 있다.
또한, 관련어 등록 서버(10)가 문자열 조 추출 개시 조건으로서, 문자열 조 집합의 요소수가, 소정의 임계값을 초과한 경우에, 문자열 조를 추출하면, 어느 정도 규모의 문자열 조를 축적할 수 있으며, 그 중에서, 적절한 문자열 조를 추출할 수 있기 때문에, 관련어의 정밀도를 보다 향상시킬 수 있다.
또한, 관련어 등록 서버(10)가 등록 조건으로서, 바로 전 검색 워드가 동일 또는 유사한 문자열 조에서, 동일 또는 유사한 검색 워드를 갖는 문자열 조의 수가, 소정의 임계값을 초과한 경우에, 문자열 조를 관련어로서 등록하면, 정밀도가 높은 문자열 조를 선택할 수 있어, 관련어의 정밀도를 보다 향상시킬 수 있다.
또한, 관련어 등록 서버(10)가 등록 조건으로서, 바로 전 검색 워드가 동일 또는 유사한 문자열 조에서, 동일 또는 유사한 검색 워드를 갖는 문자열 조의 비율이, 소정의 임계값을 초과한 경우에, 이 문자열 조를 관련어로서 등록하면, 정밀도가 높은 문자열 조를 선택할 수 있어, 관련어의 정밀도를 보다 향상시킬 수 있다.
또한, 관련어 등록 서버(10)가 스텝 S51에서, 문자열 조 추출 개시 조건으로서, 검색 쿼리 로그 DB(12a)에서의 검색 쿼리수가, 소정의 임계값을 초과한 경우에, 문자열 조를 추출해도 된다. 이 경우, 어느 정도 규모의 문자열 조를 축적할 수 있으며, 그 중에서, 적절한 문자열 조를 추출할 수 있기 때문에, 관련어의 정밀도를 보다 향상시킬 수 있다.
또한, 관련어 등록 서버(10)가 스텝 S50에서, 문자열 조 추출 개시 조건을 만족하고 나서 소정 시간을 경과한 경우에, 문자열 조를 추출해도 된다. 이 경우, 어느 정도 규모의 문자열 조를 축적할 수 있으며, 그 중에서, 적절한 문자열 조를 추출할 수 있기 때문에, 관련어의 정밀도를 보다 향상시킬 수 있다.
또한, 관련어 등록 시스템에서의 제1 및 제2 실시 형태의 동작을 조합하여, 관련어를 등록해도 된다. 이 경우, 제1 실시 형태의 동작과 같이, 문자열끼리의 거리가 고려된 관련어와, 제2 실시 형태의 동작과 같이, 검색 쿼리가 사용된 순서가 고려된 관련어를 구별할 수 있도록, 관련어 DB(12c) 중에, 관련어 데이터베이스가 구축되어도 된다.
관련어 데이터베이스의 활용 방법으로서, 예를 들어 우선, 단말기(30)에서, 「○▽」라고 입력되어 검색이 행해진 경우, 정보 제공 서버(20)가 관련어 DB(12c) 중에 제1 실시 형태의 동작에 의해 구축된 관련어 데이터베이스를 참조하여, 도 6에 도시한 바와 같이, 관련어로서, "혹시 '○○▲'? "가 웹 페이지(40)에 표시된다. 이어서, 단말기(30)에서, "○○▲"가 선택되어 검색이 행해진 경우, 정보 제공 서버(20)가 관련어 DB(12c) 중에 제2 실시 형태의 동작에 의해 구축된 관련어 데이터베이스를 참조하여, 관련어로서, "'…▲·' 입니까?"가 웹 페이지(40)에 표시되도록 해도 된다.
또한, 이와 같이 단계적으로 관련어를 표시하는 대신에, 이들 관련어를 동시에 표시시켜도 된다.
또한, 본 발명은 상기 각 실시 형태에 한정되는 것은 아니다. 상기 각 실시 형태는 예시이며, 본 발명의 특허청구범위에 기재된 기술적 사상과 실질적으로 동일한 구성을 갖고, 마찬가지의 작용 효과를 발휘하는 것은, 어떠한 것도 본 발명의 기술적 범위에 포함된다.
1: 관련어 등록 시스템
10: 관련어 등록 서버(관련어 등록 장치)
12a: 검색 쿼리 로그 DB
12b: 관련어 후보 DB
12c: 관련어 DB
12d: 문자열 조 DB
20: 정보 제공 서버(정보 처리 장치)
22a: 상품 DB
30: 단말기

Claims (11)

  1. 유저가 입력한 검색 워드의 검색 쿼리를 수신하는 수신 수단과,
    상기 수신한 검색 쿼리를, 수신 순서에 따라서 기억하는 검색 쿼리 기억 수단과,
    미리 설정한 검색 쿼리 추출 조건에 기초하여, 상기 수신한 검색 쿼리보다 수신 순서가 빠른 바로 전의 검색 쿼리(preceding search query)를, 상기 검색 쿼리 기억 수단으로부터 추출하는 검색 쿼리 추출 수단과,
    상기 추출한 바로 전의 검색 쿼리를 구성하는 바로 전의 검색 워드와, 상기 수신한 검색 쿼리를 구성하는 검색 워드를 문자열 조로서 기억하는 문자열 조 기억 수단과,
    미리 설정한 문자열 조 추출 개시 조건에 따라서, 상기 문자열 조 기억 수단으로부터 상기 바로 전의 검색 워드가 동일 또는 유사한 문자열 조를 추출하는 문자열 추출 수단과,
    미리 설정한 등록 조건에 기초하여, 상기 추출한 문자열 조로부터 관련어가 되는 문자열 조를 특정하는 관련어 특정 수단과,
    상기 특정된 문자열 조를 관련어로서 관련어 데이터 베이스에 등록하는 관련어 등록 수단
    을 구비한 것을 특징으로 하는 관련어 등록 장치.
  2. 제1항에 있어서,
    상기 검색 쿼리 기억 수단은, 유저 식별 정보를 또한 기억하고,
    상기 검색 쿼리 추출 수단이, 상기 검색 쿼리 추출 조건으로서, 상기 검색 쿼리를 입력한 유저의 유저 식별 정보가 일치하는 상기 바로 전의 검색 쿼리를 추출하는 것을 특징으로 하는 관련어 등록 장치.
  3. 제1항 또는 제2항에 있어서,
    상기 검색 쿼리 추출 수단이, 상기 검색 쿼리 추출 조건으로서, 상기 검색 쿼리의 수신 시각부터 소정의 시간 내에 수신한 바로 전의 검색 쿼리를 추출하는 것을 특징으로 하는 관련어 등록 장치.
  4. 제1항에 있어서,
    상기 검색 쿼리 기억 수단은, 카테고리 정보를 또한 기억하고,
    상기 검색 쿼리 추출 수단이, 상기 검색 쿼리 추출 조건으로서, 상기 카테고리 정보에 기초하여, 상기 바로 전의 검색 쿼리를 추출하는 것을 특징으로 하는 관련어 등록 장치.
  5. 제1항에 있어서,
    상기 문자열 추출 수단이, 상기 문자열 조 추출 개시 조건으로서, 상기 검색 쿼리 기억 수단에서의 검색 쿼리수가, 또는, 상기 문자열 조 집합의 요소 수가, 소정의 임계값을 초과한 경우에, 상기 문자열 조를 추출하는 것을 특징으로 하는 관련어 등록 장치.
  6. 제1항에 있어서,
    상기 문자열 추출 수단이, 상기 문자열 조 추출 개시 조건을 만족하고 나서 소정의 시간을 경과한 경우에, 상기 문자열 조를 추출하는 것을 특징으로 하는 관련어 등록 장치.
  7. 제1항에 있어서,
    상기 관련어 특정 수단이, 상기 등록 조건으로서, 상기 바로 전의 검색 워드가 동일 또는 유사한 문자열 조에 있어서, 동일 또는 유사한 검색 워드를 갖는 문자열 조의 수, 또는, 동일 또는 유사한 검색 워드를 갖는 문자열 조의 비율이, 소정의 임계값을 초과한 경우에, 이 문자열 조를 관련어로서 특정하는 것을 특징으로 하는 관련어 등록 장치.
  8. 제1항에 있어서,
    검색 쿼리에 관한 로그를 기억한 검색 쿼리 로그로부터, 소정의 조건에 기초해서 관련어의 후보를 추출하여 관련어 후보 집합을 생성하는 관련어 후보 집합 생성 수단과,
    상기 검색 워드의 문자열로부터 부분 문자열을 생성하는 부분 문자열 생성 수단과,
    상기 생성된 부분 문자열에 기초하여, 상기 관련어 후보 집합으로부터 후보 문자열을 추출하는 후보 문자열 추출 수단과,
    상기 후보 문자열과 상기 검색 워드와의 유사도, 상기 후보 문자열의 사용 회수 및 상기 후보 문자열에 의한 검색의 검색 결과 수에 기초하여, 상기 후보 문자열의 적부(適否) 스코어를 산출하는 스코어 산출 수단과,
    상기 스코어의 순서로 상기 후보 문자열에 대한 랭킹을 매기는 랭킹 수단과,
    상기 후보 문자열의 적부 스코어와 랭킹에 기초하여, 상기 후보 문자열을 관련어로서 등록할지 여부의 판정 기준으로서 상기 랭킹에 대한 적부 스코어의 기준 라인을 생성하는 판정 기준 생성 수단과,
    상기 적부 스코어와 기준 라인의 괴리(乖離)가 미리 설정된 임계값 이상인 후보 문자열을 관련어로서 등록하기 위한 등록 문자열로서 추출하는 등록 문자열 추출 수단과,
    상기 추출된 등록 문자열과 상기 검색 워드를, 관련어 데이터베이스에 관련어로서 등록하는 관련어 등록 수단
    를 더 구비한 것을 특징으로 하는 관련어 등록 장치.
  9. 제1항에 기재된 관련어 등록 장치의 관련어 데이터베이스를 참조하여 정보처리하는 정보처리 장치로서,
    상기 관련어 데이타베이스를 참조하여, 상기 수신한 검색 쿼리의 검색 워드에 대응하는 관련어를 추출하는 관련어 추출 수단과,
    상기 관련어 추출 수단에 의해 추출된 관련어를 출력하는 관련어 출력 수단
    을 구비한 것을 특징으로 하는 정보처리 장치.
  10. 관련어를 등록하는 관련어 등록 장치에 있어서의 관련어 등록 방법으로서,
    유저가 입력한 검색 워드의 검색 쿼리를 수신하는 수신 스텝과,
    상기 수신한 검색 쿼리를, 수신 순서에 따라서 기억하는 검색 쿼리 기억 수단에 기억하는 검색 쿼리 기억 스텝과,
    미리 설정한 검색 쿼리 추출 조건에 기초하여, 상기 수신한 검색 쿼리보다 수신 순서가 빠른 바로 전의 검색 쿼리를, 상기 검색 쿼리 기억 수단으로부터 추출하는 검색 쿼리 추출 스텝과,
    상기 추출한 바로 전의 검색 쿼리를 구성하는 바로 전의 검색 워드와, 상기 수신한 검색 쿼리를 구성하는 검색 워드를 문자열 조로서 기억하는 문자열 조 기억 수단에 기억하는 문자 열 조기억 스텝과,
    미리 설정한 문자열 조 추출 개시 조건에 따라서, 상기 문자열 조 기억 수단으로부터 상기 바로 전의 검색 워드가 동일 또는 유사한 문자열 조를 추출하는 문자열 추출 스텝과,
    미리 설정한 등록 조건에 기초하여, 상기 추출한 문자열 조로부터 관련어가 되는 문자열 조를 특정하는 관련어 특정 스텝과,
    상기 특정된 문자열 조를 관련어로서 관련어 데이터베이스에 등록하는 관련어 등록 스텝
    을 포함하는 것을 특징으로 하는 관련어 등록 방법.
  11. 컴퓨터를,
    유저가 입력한 검색 워드의 검색 쿼리를 수신하는 수신 수단과,
    상기 수신한 검색 쿼리를, 수신 순서에 따라서 기억하는 검색 쿼리 기억 수단과,
    미리 설정한 검색 쿼리 추출 조건에 기초하여, 상기 수신한 검색 쿼리보다 수신 순서가 빠른 바로 전의 검색 쿼리를, 상기 검색 쿼리 기억 수단으로부터 추출하는 검색 쿼리 추출 수단과,
    상기 추출한 이저의 검색 쿼리를 구성하는 바로 전의 검색 워드와 상기 수신한 검색 쿼리를 구성하는 검색 워드를 문자열 조로서 기억하는 문자열 조 기억 수단과,
    미리 설정한 문자열 조 추출 개시 조건에 따라서, 상기 문자열 조 기억 수단으로부터 상기 바로 전의 검색 워드가 동일 또는 유사한 문자열 조를 추출하는 문자열 추출 수단과,
    미리 설정한 등록 조건에 기초하여, 상기 추출한 문자열 조로부터 관련어가 되는 문자열 조를 특정하는 관련어 특정 수단과,
    상기 특정된 문자열 조를 관련어로서 관련어 데이터베이스에 등록하는 관련어 등록 수단
    으로서 기능시키는 관련어 등록 장치용의 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
KR1020137015030A 2010-11-10 2011-11-07 관련어 등록 장치, 정보 처리 장치, 관련어 등록 방법 및 기록 매체 KR101361403B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2010252326 2010-11-10
JPJP-P-2010-252326 2010-11-10
JPJP-P-2010-252325 2010-11-10
JP2010252325 2010-11-10
PCT/JP2011/075572 WO2012063770A1 (ja) 2010-11-10 2011-11-07 関連語登録装置、情報処理装置、関連語登録方法、関連語登録装置用プログラム、および、記録媒体

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020137014718A Division KR101368594B1 (ko) 2010-11-10 2011-11-07 관련어 등록 장치, 정보 처리 장치, 관련어 등록 방법 및 기록 매체

Publications (2)

Publication Number Publication Date
KR20130080059A true KR20130080059A (ko) 2013-07-11
KR101361403B1 KR101361403B1 (ko) 2014-02-11

Family

ID=46050916

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020137015030A KR101361403B1 (ko) 2010-11-10 2011-11-07 관련어 등록 장치, 정보 처리 장치, 관련어 등록 방법 및 기록 매체
KR1020137014718A KR101368594B1 (ko) 2010-11-10 2011-11-07 관련어 등록 장치, 정보 처리 장치, 관련어 등록 방법 및 기록 매체

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020137014718A KR101368594B1 (ko) 2010-11-10 2011-11-07 관련어 등록 장치, 정보 처리 장치, 관련어 등록 방법 및 기록 매체

Country Status (9)

Country Link
US (2) US8606565B2 (ko)
EP (2) EP2650805B1 (ko)
JP (2) JP5101759B2 (ko)
KR (2) KR101361403B1 (ko)
CN (2) CN103201737B (ko)
BR (2) BR122013013420B1 (ko)
CA (2) CA2817131C (ko)
ES (2) ES2577938T3 (ko)
WO (1) WO2012063770A1 (ko)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
JP5101759B2 (ja) 2010-11-10 2012-12-19 楽天株式会社 関連語登録装置、情報処理装置、関連語登録方法、関連語登録装置用プログラム、および、記録媒体
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US10261994B2 (en) * 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
JP6068901B2 (ja) * 2012-09-26 2017-01-25 京セラ株式会社 情報端末、音声操作プログラムおよび音声操作方法
JP6179971B2 (ja) * 2012-11-29 2017-08-16 Necソリューションイノベータ株式会社 情報提供装置及び情報提供方法
US9280536B2 (en) * 2013-03-28 2016-03-08 Hewlett Packard Enterprise Development Lp Synonym determination among n-grams
JP6342678B2 (ja) * 2014-03-07 2018-06-13 クラリオン株式会社 関連データ生成装置、関連データ生成方法およびプログラム
GB2549240A (en) * 2015-01-06 2017-10-18 What3Words Ltd A method for suggesting one or more multi-word candidates based on an input string received at an electronic device
GB2535439A (en) * 2015-01-06 2016-08-24 What3Words Ltd A method for suggesting candidate words as replacements for an input string received at an electronic device
JP6621652B2 (ja) * 2015-11-18 2019-12-18 シャープ株式会社 電子機器、およびその制御方法
SG11201811108YA (en) * 2016-07-06 2019-01-30 Mastercard International Inc Method and system for providing sales information and insights through a conversational interface
CN106407764A (zh) * 2016-09-30 2017-02-15 深圳天珑无线科技有限公司 信息生成方法及装置
CN106528534A (zh) * 2016-11-09 2017-03-22 天津赛因哲信息技术有限公司 基于专有名词的关联词提取方法
US11537644B2 (en) * 2017-06-06 2022-12-27 Mastercard International Incorporated Method and system for conversational input device with intelligent crowd-sourced options
US10719539B2 (en) * 2017-06-06 2020-07-21 Mastercard International Incorporated Method and system for automatic reporting of analytics and distribution of advice using a conversational interface
JP6762678B2 (ja) * 2018-03-27 2020-09-30 日本電信電話株式会社 違法コンテンツ探索装置、違法コンテンツ探索方法およびプログラム
US11843633B2 (en) * 2018-07-25 2023-12-12 Nippon Telegraph And Telephone Corporation Analysis device, analysis method, and analysis program
JP7443667B2 (ja) * 2019-03-25 2024-03-06 カシオ計算機株式会社 検索装置、辞書検索プログラム、辞書検索方法
JP6780129B1 (ja) * 2019-03-27 2020-11-04 三菱電機ビルテクノサービス株式会社 設備機器情報収集システム
JP7256935B2 (ja) * 2019-09-02 2023-04-13 富士通株式会社 辞書作成装置及び辞書作成方法
CN111261165B (zh) * 2020-01-13 2023-05-16 佳都科技集团股份有限公司 车站名称识别方法、装置、设备及存储介质
US11776529B2 (en) * 2020-04-28 2023-10-03 Samsung Electronics Co., Ltd. Method and apparatus with speech processing
KR20210132855A (ko) * 2020-04-28 2021-11-05 삼성전자주식회사 음성 처리 방법 및 장치
JP7426302B2 (ja) 2020-06-30 2024-02-01 日立建機株式会社 同義語生成装置、及び同義語生成プログラム
CN112818262B (zh) * 2021-01-28 2023-07-21 上海博泰悦臻网络技术服务有限公司 基于用户数据的地图poi搜索方法、系统、设备及介质

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6457004B1 (en) * 1997-07-03 2002-09-24 Hitachi, Ltd. Document retrieval assisting method, system and service using closely displayed areas for titles and topics
JP3219386B2 (ja) * 1997-12-26 2001-10-15 松下電器産業株式会社 情報フィルタ装置及び情報フィルタ方法
US6006225A (en) * 1998-06-15 1999-12-21 Amazon.Com Refining search queries by the suggestion of correlated terms from prior searches
JP3696745B2 (ja) * 1999-02-09 2005-09-21 株式会社日立製作所 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000268035A (ja) 1999-03-12 2000-09-29 Nippon Telegr & Teleph Corp <Ntt> 意味辞書登録装置
US6314419B1 (en) * 1999-06-04 2001-11-06 Oracle Corporation Methods and apparatus for generating query feedback based on co-occurrence patterns
DE19952769B4 (de) * 1999-11-02 2008-07-17 Sap Ag Suchmaschine und Verfahren zum Abrufen von Informationen mit Abfragen in natürlicher Sprache
JP4342753B2 (ja) * 2001-08-10 2009-10-14 株式会社リコー 文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体
US7308404B2 (en) * 2001-09-28 2007-12-11 Sri International Method and apparatus for speech recognition using a dynamic vocabulary
JP4226862B2 (ja) * 2002-08-29 2009-02-18 株式会社リコー 文書検索装置
US7885963B2 (en) * 2003-03-24 2011-02-08 Microsoft Corporation Free text and attribute searching of electronic program guide (EPG) data
US7454393B2 (en) * 2003-08-06 2008-11-18 Microsoft Corporation Cost-benefit approach to automatically composing answers to questions by extracting information from large unstructured corpora
US7636714B1 (en) * 2005-03-31 2009-12-22 Google Inc. Determining query term synonyms within query context
US8438142B2 (en) * 2005-05-04 2013-05-07 Google Inc. Suggesting and refining user input based on original user input
US7617199B2 (en) * 2006-01-31 2009-11-10 Northwestern University Characterizing context-sensitive search results as non-spam
JP2008250625A (ja) * 2007-03-30 2008-10-16 Nomura Research Institute Ltd 検索システム
CN100476800C (zh) * 2007-06-22 2009-04-08 腾讯科技(深圳)有限公司 一种切分索引分词的方法及系统
CN101206673A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 网络搜索过程中关键词的智能纠错系统及方法
US8346534B2 (en) * 2008-11-06 2013-01-01 University of North Texas System Method, system and apparatus for automatic keyword extraction
JP5364412B2 (ja) * 2009-03-26 2013-12-11 富士通テン株式会社 検索装置
JP5101759B2 (ja) 2010-11-10 2012-12-19 楽天株式会社 関連語登録装置、情報処理装置、関連語登録方法、関連語登録装置用プログラム、および、記録媒体

Also Published As

Publication number Publication date
CA2822273C (en) 2014-09-23
BR112013011573B1 (pt) 2021-01-12
KR101368594B1 (ko) 2014-02-27
JPWO2012063770A1 (ja) 2014-05-12
KR20130083468A (ko) 2013-07-22
CN103279557B (zh) 2016-08-17
US8738366B2 (en) 2014-05-27
EP2650805A3 (en) 2014-01-08
JP2013008372A (ja) 2013-01-10
BR112013011573A2 (pt) 2016-08-09
EP2639705B1 (en) 2016-04-13
US20130346391A1 (en) 2013-12-26
BR122013013420B1 (pt) 2020-11-10
ES2642379T3 (es) 2017-11-16
BR122013013420A2 (pt) 2019-08-06
US8606565B2 (en) 2013-12-10
CN103201737A (zh) 2013-07-10
EP2639705A4 (en) 2014-01-08
WO2012063770A1 (ja) 2012-05-18
JP5170804B2 (ja) 2013-03-27
EP2639705A1 (en) 2013-09-18
JP5101759B2 (ja) 2012-12-19
US20130226563A1 (en) 2013-08-29
CA2817131A1 (en) 2012-05-18
CA2822273A1 (en) 2012-05-18
CA2817131C (en) 2014-08-26
KR101361403B1 (ko) 2014-02-11
CN103201737B (zh) 2016-06-29
CN103279557A (zh) 2013-09-04
ES2577938T3 (es) 2016-07-19
EP2650805A2 (en) 2013-10-16
EP2650805B1 (en) 2017-08-30

Similar Documents

Publication Publication Date Title
KR101361403B1 (ko) 관련어 등록 장치, 정보 처리 장치, 관련어 등록 방법 및 기록 매체
US8001135B2 (en) Search support apparatus, computer program product, and search support system
JP5386663B1 (ja) 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体
US9460161B2 (en) Method for determining relevant search results
US11100169B2 (en) Alternative query suggestion in electronic searching
EP2720156B1 (en) Information processing device, information processing method, program for information processing device, and recording medium
JP6506489B1 (ja) 特許評価判定方法、特許評価判定装置、および特許評価判定プログラム
CN106462613A (zh) 基于用户属性来对建议进行排名
US9317606B1 (en) Spell correcting long queries
EP2618277B1 (en) Information processing device, information processing method, program for information processing device, and recording medium
JP4839295B2 (ja) クエリ抽出方法、クエリ抽出装置およびクエリ抽出プログラム
WO2012052983A1 (en) Method for scoring and ranking search engine keywords at a website
KR101308821B1 (ko) 검색엔진용 키워드 추출 시스템 및 추출 방법
TWI757957B (zh) 網頁的自動分類方法及系統
JP2018142149A (ja) 情報処理装置、情報処理方法及びプログラム

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180126

Year of fee payment: 5