JPWO2012063770A1

JPWO2012063770A1 - 関連語登録装置、情報処理装置、関連語登録方法、関連語登録装置用プログラム、および、記録媒体

Info

Publication number: JPWO2012063770A1
Application number: JP2012533417A
Authority: JP
Inventors: 勇宇平手
Original assignee: Rakuten Inc
Current assignee: Rakuten Group Inc
Priority date: 2010-11-10
Filing date: 2011-11-07
Publication date: 2014-05-12
Anticipated expiration: 2031-11-07
Also published as: JP2013008372A; KR101361403B1; JP5170804B2; EP2639705A4; KR20130080059A; CN103201737B; EP2650805B1; CA2822273A1; BR112013011573B1; CN103279557B; US8738366B2; ES2642379T3; JP5101759B2; BR112013011573A2; CN103201737A; KR101368594B1; EP2639705B1; EP2650805A2; BR122013013420A2; US20130346391A1

Abstract

検索クエリログ（１２ａ）から、所定の条件に基づいて関連語の候補を抽出した関連語候補集合（１２ｂ）を生成し（Ｓ１〜Ｓ４）、ユーザが入力した検索ワードの検索クエリを受信し（Ｓ１０）、検索ワードの文字列から部分文字列を生成し（Ｓ１３）、部分文字列に基づいて関連語候補集合から候補文字列を抽出し（Ｓ１４）、候補文字列の適否スコアを算出し（Ｓ１６）、スコアの順に候補文字列に対するランキングを行い（Ｓ１７）、適否スコアとランキングとに基づき、ランキングに対する適否スコアの基準ラインＬ１を生成し（Ｓ１８）、適否スコアと基準ラインとの乖離が予め設定された閾値以上である候補文字列を関連語として登録するための登録文字列として抽出し（Ｓ１９）、抽出された登録文字列と検索ワードとを関連語として関連語ＤＢ１２ｃに登録する（Ｓ２０）。

Description

本発明は、検索キーワードを関連語として登録する関連語登録装置、情報処理装置、関連語登録方法、関連語登録装置用プログラム、および、記録媒体の技術分野に関する。

同義語辞書のような単語のデータベースは、情報検索システムや、自然言語処理システムや、機械翻訳システム等において、検索キーワードの補完や、翻訳等の精度を高めるために利用されている。この同義語辞書を自動的に構築するための装置が様々研究されている。例えば、特許文献１には、意味辞書中の既に意味情報が付与されている辞書エントリーの情報を利用して、自動的に入力辞書エントリーに意味情報を付与する意味辞書登録装置が開示されている。

特開２０００−２６８０３５号公報

しかしながら、特許文献１に記載の技術では、入力データと登録済である全てのデータの単純な単語間の意味的な距離に基づいて類義を判定していたため、類義の判定の精度が低く、不要な同義語のような関連語の登録の抑制ができなかった。そのため、精度の高い同義語辞書等の関連語の辞書を構築することが難しかった。

本発明は、このような問題に鑑みてなされたものであり、その課題の一例は、精度の高い関連語を登録できる関連語登録装置等を提供することを目的とする。

上記課題を解決するために、請求項１に記載の発明は、検索クエリに関するログを記憶した検索クエリログから、所定の条件に基づいて関連語の候補を抽出して関連語候補集合を生成する関連語候補集合生成手段と、ユーザが入力した検索ワードの検索クエリを受信する受信手段と、前記検索ワードの文字列から部分文字列を生成する部分文字列生成手段と、前記生成された部分文字列に基づいて、前記関連語候補集合から候補文字列を抽出する候補文字列抽出手段と、前記候補文字列と前記検索ワードとの類似度、前記候補文字列の使用回数、および、前記候補文字列による検索の検索結果数とに基づいて、前記候補文字列の適否スコアを算出するスコア算出手段と、前記スコアの順に前記候補文字列に対するランキングを行うランキング手段と、前記候補文字列の適否スコアとランキングとに基づき、前記候補文字列を関連語として登録するか否かの判定基準として前記ランキングに対する適否スコアの基準ラインを生成する判定基準生成手段と、前記適否スコアと基準ラインとの乖離が予め設定された閾値以上である候補文字列を関連語として登録するための登録文字列として抽出する登録文字列抽出手段と、前記抽出された登録文字列と前記検索ワードとを、関連語データベースに関連語として登録する関連語登録手段と、を備える。

請求項２に記載の発明は、請求項１に記載の関連語登録装置において、前記部分文字列生成手段が、前記検索ワードの文字数に基づいて部分文字列の長さを設定し、当該設定された長さの部分文字列を生成することを特徴とする。

請求項３に記載の発明は、請求項１に記載の関連語登録装置において、前記部分文字列生成手段が、前記検索ワードの文字数に基づいて部分文字列を生成する際の検索ワードの文字数の移動幅を設定し、当該設定された移動幅で部分文字列を生成することを特徴とする。

請求項４に記載の発明は、請求項１から請求項３のいずれか１項に記載の関連語登録装置において、前記部分文字列生成手段が、前記検索ワードを表音変換させた検索ワードに対して、前記部分文字列を生成することを特徴とする。

請求項５に記載の発明は、請求項１から請求項４のいずれか１項に記載の関連語登録装置において、前記スコア算出手段の前記類似度と前記使用回数の情報とを調節するパラメータ調節手段を更に備えたことを特徴とする。

請求項６に記載の発明は、請求項１から請求項５のいずれか１項に記載の関連語登録装置において、前記判定基準生成手段が、前記ランキングと前記適否スコアとの関連を近似する近似関数より、または、所定の範囲の前記ランキングのデータより、前記基準ラインを求めることを特徴とする。

請求項７に記載の発明は、請求項１から請求項６のいずれか１項に記載の関連語登録装置において、前記登録文字列抽出手段が、抽出する前記登録文字列の数に上限を設けることを特徴とする。

請求項８に記載の発明は、請求項１から請求項７のいずれか１項に記載の関連語登録装置において、内部又は外部のＥＣサイトにおいて販売されている商品に関連した検索ワードを記憶する検索ワード記憶手段を更に備えたことを特徴とする。

請求項９に記載の発明は、請求項１から請求項８のいずれか１項に記載の関連語登録装置において、前記スコア算出手段が、前記検索クエリに関するログのデータに基づき、前記適否スコアを算出すること特徴とする。

請求項１０に記載の発明は、請求項１から請求項９のいずれか１項に記載の関連語登録装置において、前記受信した検索クエリを、受信順に従って記憶する検索クエリ記憶手段と、予め設定した検索クエリ抽出条件に基づいて、前記受信した検索クエリより受信順が早い先の検索クエリを、前記検索クエリ記憶手段から抽出する検索クエリ抽出手段と、前記抽出した先の検索クエリを構成する先の検索ワードと、前記受信した検索クエリを構成する検索ワードと、を文字列組として記憶する文字列組記憶手段と、予め設定した文字列組抽出開始条件に応じて、前記文字列組記憶手段から前記先の検索ワードが同一または類似である文字列組を抽出する文字列抽出手段と、予め設定した登録条件に基づいて、前記抽出した文字列組から関連語となる文字列組を特定する関連語特定手段と、を更に備え、前記関連語登録手段が、前記特定された文字列組を関連語として関連語データベースに登録することを特徴とする。

請求項１１に記載の発明は、請求項１０に記載の関連語登録装置において、前記検索クエリ記憶手段は、ユーザ識別情報をさらに記憶し、前記検索クエリ抽出手段が、前記検索クエリ抽出条件として、前記検索クエリを入力したユーザのユーザ識別情報が一致する前記先の検索クエリを抽出することを特徴とする。

請求項１２に記載の発明は、請求項１０または請求項１１に記載の関連語登録装置において、前記検索クエリ抽出手段が、前記検索クエリ抽出条件として、前記検索クエリの受信時刻から所定の時間内に受信した先の検索クエリを抽出することを特徴とする。

請求項１３に記載の発明は、請求項１０から請求項１２のいずれか１項に記載の関連語登録装置において、前記検索クエリ記憶手段は、カテゴリ情報をさらに記憶し、前記検索クエリ抽出手段が、前記検索クエリ抽出条件として、前記カテゴリ情報に基づき、前記先の検索クエリを抽出することを特徴とする。

請求項１４に記載の発明は、請求項１０から請求項１３いずれか１項に記載の関連語登録装置において、前記文字列抽出手段が、前記文字列組抽出開始条件として、前記検索クエリ記憶手段における検索クエリ数が、または、前記文字列組集合の要素数が、所定の閾値を超えた場合に、前記文字列組を抽出することを特徴とする。

請求項１５に記載の発明は、請求項１０から請求項１３のいずれか１項に記載の関連語登録装置において、前記文字列抽出手段が、前記文字列組抽出開始条件を満たしてから所定の時間を経過した場合に、前記文字列組を抽出することを特徴とする。

請求項１６に記載の発明は、請求項１０から請求項１５のいずれか１項に記載の関連語登録装置において、前記関連語特定手段が、前記登録条件として、前記先の検索ワードが同一または類似である文字列組において、同一または類似の検索ワードを有する文字列組の数、または、同一または類似の検索ワードを有する文字列組の割合が、所定の閾値を超えた場合に、当該文字列組を関連語として特定することを特徴とする。

請求項１７に記載の発明は、請求項１から請求項１６のいずれか１項に記載の関連語登録装置の関連語データベースを参照して情報処理する情報処理装置であって、前記関連語データベースを参照して、前記受信した検索クエリの検索ワードに対応する関連語を抽出する関連語抽出手段と、前記関連語抽出手段により抽出された関連語を出力する関連語出力手段と、を備えたことを特徴とする。

請求項１８に記載の発明は、関連語を登録する関連語登録装置の関連語登録方法において、検索クエリに関するログを記憶した検索クエリログから、所定の条件に基づいて関連語の候補を抽出して関連語候補集合を生成する関連語候補集合生成ステップと、ユーザが入力した検索ワードの検索クエリを受信する受信ステップと、前記検索ワードの文字列から部分文字列を生成する部分文字列生成ステップと、前記生成された部分文字列に基づいて、前記関連語候補集合から候補文字列を抽出する候補文字列抽出ステップと、前記候補文字列と前記検索ワードとの類似度、前記候補文字列の使用回数、および、前記候補文字列による検索の検索結果数とに基づいて、前記候補文字列の適否スコアを算出するスコア算出ステップと、前記スコアの順に前記候補文字列に対するランキングを行うランキングステップと、前記候補文字列の適否スコアとランキングとに基づき、前記候補文字列を関連語として登録するか否かの判定基準として前記ランキングに対する適否スコアの基準ラインを生成する判定基準生成ステップと、前記適否スコアと基準ラインとの乖離が予め設定された閾値以上である候補文字列を関連語として登録するための登録文字列として抽出する登録文字列抽出ステップと、前記抽出された登録文字列と前記検索ワードとを、関連語データベースに関連語として登録する関連語登録ステップと、を含む。

請求項１９に記載の発明は、コンピュータを、検索クエリに関するログを記憶した検索クエリログから、所定の条件に基づいて関連語の候補を抽出して関連語候補集合を生成する関連語候補集合生成手段、ユーザが入力した検索ワードの検索クエリを受信する受信手段、前記検索ワードの文字列から部分文字列を生成する部分文字列生成手段、前記生成された部分文字列に基づいて、前記関連語候補集合から候補文字列を抽出する候補文字列抽出手段、前記候補文字列と前記検索ワードとの類似度、前記候補文字列の使用回数、および、前記候補文字列による検索の検索結果数とに基づいて、前記候補文字列の適否スコアを算出するスコア算出手段、前記スコアの順に前記候補文字列に対するランキングを行うランキング手段、前記候補文字列の適否スコアとランキングとに基づき、前記候補文字列を関連語として登録するか否かの判定基準として前記ランキングに対する適否スコアの基準ラインを生成する判定基準生成手段、前記適否スコアと基準ラインとの乖離が予め設定された閾値以上である候補文字列を関連語として登録するための登録文字列として抽出する登録文字列抽出手段、および、前記抽出された登録文字列と前記検索ワードとを関連語として関連語データベースに登録する関連語登録手段として機能させる。

請求項２０に記載の発明は、コンピュータを、検索クエリに関するログを記憶した検索クエリログから、所定の条件に基づいて関連語の候補を抽出して関連語候補集合を生成する関連語候補集合生成手段、ユーザが入力した検索ワードの検索クエリを受信する受信手段、前記検索ワードの文字列から部分文字列を生成する部分文字列生成手段、前記生成された部分文字列に基づいて、前記関連語候補集合から候補文字列を抽出する候補文字列抽出手段、前記候補文字列と前記検索ワードとの類似度、前記候補文字列の使用回数、および、前記候補文字列による検索の検索結果数とに基づいて、前記候補文字列の適否スコアを算出するスコア算出手段、前記スコアの順に前記候補文字列に対するランキングを行うランキング手段、前記候補文字列の適否スコアとランキングとに基づき、前記候補文字列を関連語として登録するか否かの判定基準として前記ランキングに対する適否スコアの基準ラインを生成する判定基準生成手段、前記適否スコアと基準ラインとの乖離が予め設定された閾値以上である候補文字列を関連語として登録するための登録文字列として抽出する登録文字列抽出手段、および、前記抽出された登録文字列と前記検索ワードとを、関連語データベースに関連語として登録する関連語登録手段として機能させる関連語登録装置用のプログラムを記録する。

本発明によれば、検索クエリに関するログを記憶した検索クエリログから、所定の条件に基づいて関連語の候補を抽出した関連語候補集合を生成し、ユーザが入力した検索ワードの検索クエリを受信し、検索ワードの文字列から部分文字列を生成し、部分文字列に基づいて関連語候補集合から候補文字列を抽出し、候補文字列と検索ワードとの類似度、候補文字列の使用回数、および、候補文字列による検索の検索結果数とに基づいて、候補文字列の適否スコアを算出し、スコアの順に候補文字列に対するランキングを行い、候補文字列の適否スコアとランキングとに基づき、候補文字列を関連語として登録するか否かの判定基準としてランキングに対する適否スコアの基準ラインを生成し、適否スコアと基準ラインとの乖離が予め設定された閾値以上である候補文字列を関連語として登録するための登録文字列として抽出し、抽出された登録文字列と検索ワードとを、関連語データベースに関連語として登録することにより、文字数が少なくなった部分文字列に基づいて関連語候補集合から候補文字列を抽出するため、候補文字列の適否スコアにより、不要な関連語の登録が抑制でき、関連語の精度を向上させることができる。

本発明の一実施形態に係る関連語登録システムの概要構成例を示す模式図である。図１の関連語登録サーバの概要構成の一例を示すブロック図である。図１の情報提供サーバの概要構成の一例を示すブロック図である。図１の端末の概要構成の一例を示すブロック図である。図１の関連語登録システム１の第１実施形態の動作において、関連語登録サーバの関連語候補集合の生成の動作例を示すフローチャートである。図１の端末に表示されたウェブページの一例を示す模式図である。図１の関連語登録サーバにおける第１実施形態の関連語の登録の動作例を示すフローチャートである。部分文字列の抽出の一例を示す模式図である。（Ａ）および（Ｂ）は、ランキング−スコア・グラフの一例を示す模式図である。図１の関連語登録サーバにおける適否スコアを算出する動作例のサブルーチンを示すフローチャートである。（Ａ）〜（Ｃ）は、適否スコアを算出するためのアベイラビリティのパターンの一例を示す線図である。図１の関連語登録システム１の第２実施形態の動作において、端末に表示されたウェブページの一例を示す模式図である。図１の関連語登録サーバの検索クエリログ・データベース構築の動作例を示すフローチャートである。図１の端末に表示されたウェブページの一例を示す模式図である。図１の関連語登録サーバの関連語の登録の動作例を示すフローチャートである。文字列組の一例を示す模式図である。

以下、図面を参照して本発明の実施形態について説明する。なお、以下に説明する実施の形態は、関連語登録システムに対して本発明を適用した場合の実施形態である。

［１．関連語登録システムの構成および機能概要］

まず、本発明の一実施形態に係る関連語登録システムの構成および概要機能について、図１を用いて説明する。

図１は、本実施形態に係る関連語登録システム１の概要構成例を示す模式図である。

図１に示すように、関連語登録システム１は、関連語を登録する関連語登録サーバ１０（関連語登録装置の一例）と、ユーザが利用する情報提供サイトの一例であるショッピングサイト（内部ＥＣ（electronic commerce）サイトの一例）運営のために設置され、関連語登録サーバ１０に登録されている情報や商品の情報をユーザに提供するための情報提供サーバ２０と、情報提供サーバ２０においてユーザが商品等の検索を行う端末３０と、を備えている。

関連語登録サーバ１０と、情報提供サーバ２０とは、ローカルエリアネットワーク等により接続され、相互にデータの送受信が可能になっていて、サーバシステム５を構成している。そして、サーバシステム５と端末３０とは、ネットワーク３により接続され、通信プロトコル（例えば、ＴＣＰ／ＩＰ）により、データの送受信が可能になっている。なお、ネットワーク３は、例えば、インターネット、専用通信回線（例えば、ＣＡＴＶ（Community Antenna Television）回線）、移動体通信網（基地局等を含む）、および、ゲートウェイ等により構築されている。

また、関連語登録サーバ１０は、端末３０等におけるユーザの検索行動等から、関連語のデータベースを構築し、端末３０等におけるユーザの検索行動を支援する。

情報提供サーバ２０は、端末３０から検索ワードを含んだ検索クエリを受信して検索を行い、端末３０に検索結果を送信する。また、情報提供サーバ２０は、関連語のデータベースを構築するために、受信した検索クエリを関連語登録サーバ１０に送信する。また、情報提供サーバ２０は、ショッピングサイトとして、商品の検索、商品の情報の提供、広告の情報の提供、および、商品の購入の手続き等を行う。

ユーザの端末３０は、複数存在する。

［２．各サーバの構成および機能］
（２．１関連語登録サーバ１０の構成および機能）
次に、関連語登録サーバ１０の構成および機能について、図２を用いて説明する。

図２は、関連語登録サーバ１０の概要構成の一例を示すブロック図である。

図２に示すように、コンピュータとして機能する関連語登録サーバ１０は、通信部１１と、記憶部１２と、入出力インターフェース部１３と、システム制御部１４と、を備えている。そして、システム制御部１４と入出力インターフェース部１３とは、システムバス１５を介して接続されている。

通信部１１は、ネットワーク３に接続して端末３０等との通信状態を制御し、さらに、ローカルエリアネットワークに接続して、ローカルエリアネットワーク上の情報提供サーバ２０等の他のサーバとデータの送受信を行う。

記憶部１２は、例えば、ハードディスクドライブ等により構成されており、オペレーティングシステムおよびサーバプログラム等の各種プログラムや、データ等を記憶する。なお、各種プログラムは、例えば、他のサーバ装置等からネットワーク３を介して取得されるようにしてもよいし、記録媒体に記録されてドライブ装置（図示せず）を介して読み込まれるようにしてもよい。

また、記憶部１２には、端末３０から受信した検索クエリに関するログを記憶した検索クエリログ・データベース１２ａ（以下「検索クエリログＤＢ１２ａ」とする。）と、検索クエリから生成される関連語の候補文字列を関連語候補集合として記憶した関連語候補データベース１２ｂ（以下「関連語候補ＤＢ１２ｂ」とする。）と、検索クエリから生成される関連語を記憶した関連語データベース１２ｃ（以下「関連語ＤＢ１２ｃ」とする。）と、文字列組データベース１２ｄ（以下「文字列組ＤＢ１２ｄ」とする。）等が構築されている。なお、検索クエリログＤＢ１２ａ、関連語候補ＤＢ１２ｂ、関連語ＤＢ１２ｃ、および、文字列組ＤＢ１２ｄは、サーバシステム５内において、関連語登録サーバ１０以外の他のサーバに構築されてもよいし、サーバシステム５外部に構築されてもよい。

検索クエリログＤＢ１２ａ（検索クエリ記憶手段の一例）には、検索クエリを受信した受信時刻、ユーザＩＤ等のユーザを区別するためのユーザ識別情報と対応付けた検索クエリが記憶されている。なお、ユーザ識別情報として、ショッピングサイト等のユーザＩＤ、ユーザ端末やアクセスポイントの識別番号、ＩＰアドレス等が挙げられる。さらに、情報提供サーバ２０において、ユーザが商品検索を行って場合、商品の属する商品カテゴリや、ユーザが開いているＷｅｂページが示している商品カテゴリ等のカテゴリ情報にも対応付けて、検索クエリが検索クエリログＤＢ１２ａに記憶される。

関連語候補ＤＢ１２ｂには、検索クエリログＤＢ１２ａの検索クエリログから所定の条件に基づいて抽出された関連語の候補文字列が関連語候補集合として記憶される。

関連語ＤＢ１２ｃには、関連語登録サーバ１０による生成される関連語が記憶される。

文字列組ＤＢ１２ｄ（文字列組記憶手段の一例）には、受信した検索クエリの検索ワードと、検索クエリログＤＢ１２ａの中から抽出された検索クエリの検索ワードとの文字列組が記憶される。

次に、入出力インターフェース部１３は、通信部１１および記憶部１２とシステム制御部１４との間のインターフェース処理を行う。

システム制御部１４は、ＣＰＵ（Central Processing Unit）１４ａ、ＲＯＭ（Read Only Memory）１４ｂ、ＲＡＭ（Random Access Memory）１４ｃ等により構成されている。システム制御部１４は、ＣＰＵ１４ａがＲＯＭ１４ｂや記憶部１２に記憶された各種プログラムを読み出し実行することにより、関連語の登録処理等を行う。

（２．２情報提供サーバ２０の構成および機能）
次に、情報提供サーバ２０の構成および機能について、図３を用いて説明する。
図３は、情報提供サーバ２０の概要構成の一例を示すブロック図である。

図３に示すように、情報提供サーバ２０は、通信部２１と、記憶部２２と、入出力インターフェース部２３と、システム制御部２４と、を備え、システム制御部２４と入出力インターフェース部２３とは、システムバス２５を介して接続されている。なお、情報提供サーバ２０の構成および機能は、関連語登録サーバ１０の構成および機能とほぼ同じであるので、関連語登録サーバ１０の各構成や各機能において、異なるところを中心に説明する。

通信部２１は、ネットワーク３やローカルエリアネットワーク等を通して、端末３０や関連語登録サーバ１０等との通信状態を制御等するようになっている。

記憶部２２には、商品データベース（以下「商品ＤＢ」とする。）２２ａや、会員データベース（以下「会員ＤＢ」とする。）２２ｂ等が構築されている。

商品ＤＢ２２ａには、商品を識別するための識別子である商品ＩＤに関連付けられ、商品名、種類、商品の画像、スペック、および、商品情報や、各商品に関する広告情報等が記憶されている。また、商品ＤＢ２２ａには、ＨＴＭＬ（HyperText Markup Language）、ＸＭＬ（Extensible Markup Language）等のマークアップ言語等により記述された商品ウェブページのファイル等が記憶されている。

さらに、商品ＤＢ２２ａには、商品を検索するための検索データベースが構築されている。商品ＤＢ２２ａは、サーバシステム５内部のＥＣサイトにおいて販売されている商品に関連した検索ワードを記憶する検索ワード記憶手段の一例である。

会員ＤＢ２２ｂには、会員登録されたユーザ（ショッピングサイトの利用者）のユーザＩＤ、名称、住所、電話番号、メールアドレス、職業、趣味、購買履歴、ユーザの関心があるテーマやジャンル（商品カテゴリ）等のユーザ情報が登録されている。また、会員ＤＢ２２ｂには、ユーザが端末３０からショッピングサイトにログインする際に必要な、ユーザＩＤ、ログインＩＤ、および、パスワードが登録されている。ここで、ログインＩＤおよびパスワードは、ログイン処理（ユーザの認証処理）に使用されるログイン情報である。

システム制御部２４は、ＣＰＵ２４ａ、ＲＯＭ２４ｂ、ＲＡＭ２４ｃ等により構成されている。そして、システム制御部２４は、ＣＰＵ２４ａが、ＲＯＭ２４ｂや記憶部２２に記憶された各種プログラムを読み出し実行することにより、商品検索処理や、ユーザによる商品購入処理等を行う。

（２．３端末３０の構成および機能）
次に、端末３０の構成および機能について、図４を用いて説明する。
図４は、端末３０の概要構成の一例を示すブロック図である。

図４に示すように、コンピュータとして機能する端末３０は、例えば、パーソナルコンピュータやスマートフォンを含む携帯型無線電話機やＰＤＡ等の携帯端末であり、通信部３１と、記憶部３２と、表示部３３と、操作部３４と、入出力インターフェース部３５と、システム制御部３６とを備えている。そして、システム制御部３６と入出力インターフェース部３５とは、システムバス３７を介して接続されている。

通信部３１は、ネットワーク３を通して、情報提供サーバ２０等との通信を制御する。なお、端末３０が携帯端末装置の場合、ネットワーク３の移動体通信網に接続するために、通信部３１は、無線通信機能を有する。

記憶部３２は、例えば、ハードディスクドライブ等からなり、オペレーティングシステム、ウェブブラウザのプログラムやウェブブラウザ用ツールバーのプログラム等を記憶する。

表示部３３は、例えば、液晶表示素子またはＥＬ（Electro Luminescence）素子等によって構成されている。表示部３３には、検索画面のウェブページや、情報提供サーバ２０から提供された商品検索の結果のウェブページがウェブブラウザにより表示される。

操作部３４は、例えば、キーボードおよびマウス等によって構成されている。ユーザは、操作部３４により応答を入力する。なお、表示部３３がタッチパネルのようなタッチスイッチ方式の表示パネルの場合、操作部３４は、ユーザが接触または近接した表示部３３の位置情報を取得する。

入出力インターフェース部３５は、通信部３１および記憶部３２とシステム制御部３６とのインターフェースである。

システム制御部３６は、例えば、ＣＰＵ３６ａと、ＲＯＭ３６ｂと、ＲＡＭ３６ｃとを有する。システム制御部３６は、ＣＰＵ３６ａが、ＲＯＭ３６ｂや、ＲＡＭ３６ｃや、記憶部３２に記憶された各種プログラムを読み出して実行する。例えば、システム制御部３６は、ウェブブラウザのプログラムを実行しウェブブラウザとして機能する。

［３．関連語登録システムにおける第１実施形態の動作］
次に、本発明の一実施形態に係る関連語登録システム１における第１実施形態の動作について図５から図１１を用い説明する。

図５は、関連語登録サーバ１０の関連語候補集合の生成の動作例を示すフローチャートである。図６は、端末３０に表示されたウェブページの一例を示す模式図である。図７は、関連語登録サーバの関連語の登録の動作例を示すフローチャートである。図８は、部分文字列の抽出の一例を示す模式図である。図９は、ランキング−スコア・グラフの一例を示す模式図である。図１０は、関連語登録サーバ１０における適否スコアを算出する動作例のサブルーチンを示すフローチャートである。図１１は、適否スコアを算出するためのアベイラビリティのパターンの一例を示す線図である。

（３．１関連語候補集合の生成）

関連語候補集合の生成について、図５を用いて説明する。

まず、情報提供サーバ２０が、ユーザが入力した検索ワードを含む検索クエリを端末３０から受信した際、検索を行うと共に、この検索クエリを関連語登録サーバ１０に送信する。さらに、情報提供サーバ２０は、検索クエリに対する検索結果の件数も関連語登録サーバ１０に送信する。

そして、関連語登録サーバ１０は、情報提供サーバ２０から検索クエリおよび検索結果の件数を受信して、検索クエリを検索結果の件数に対応付けて検索クエリログＤＢ１２ａに記憶する。このとき、関連語登録サーバ１０は、検索クエリを受信した受信時刻、ユーザＩＤやＩＰアドレス等のユーザを区別するためのユーザ識別情報と対応付けて検索クエリを記憶してもよい。

次に、図５に示すように、関連語登録サーバ１０は、検索クエリログから検索クエリを抽出する（ステップＳ１）。具体的には、関連語登録サーバ１０のシステム制御部１４は、検索クエリログＤＢ１２ａから、検索クエリを１つ抽出する。

次に、関連語登録サーバ１０は、検索結果の件数が１件以上の検索クエリか否かを判定する（ステップＳ２）。具体的には、関連語登録サーバ１０のシステム制御部１４は、抽出した検索クエリに対応した検索結果の件数を検索クエリログＤＢ１２ａから読み出し、検索結果の件数が１件以上であるか否かを判定する。なお、関連語登録サーバ１０のシステム制御部１４は、検索クエリによりヒットする検索結果の件数を求めるため、抽出した検索クエリを情報提供サーバ２０に送信し、ヒット件数を情報提供サーバ２０から受信するように構成してもよい。

検索結果の件数が１件以上の場合（ステップＳ２；ＹＥＳ）、関連語登録サーバ１０は、抽出した検索クエリを関連語候補集合に登録する（ステップＳ３）。具体的には、関連語登録サーバ１０のシステム制御部１４は、検索結果の件数が１件以上、すなわち、検索結果の件数がゼロ件で無い検索クエリの場合、この検索クエリ（関連語の候補文字列としての検索ワードを含む）を関連語候補集合として、関連語候補ＤＢ１２ｂに登録する。

検索結果の件数が１件以上で無い場合（ステップＳ２；ＮＯ）、関連語登録サーバ１０は、抽出した検索クエリを関連語候補集合に登録しない。

次に、残りの検索クエリが存在するかを判定する（ステップＳ４）。具体的には、関連語登録サーバ１０のシステム制御部１４は、検索クエリログＤＢ１２ａに、未だ検索結果の件数の判定を行っていない検索クエリが存在するか否かを判定する。

残りの検索クエリが存在する場合（ステップＳ４；ＹＥＳ）、ステップＳ１に戻り、関連語登録サーバ１０は、次の検索クエリを抽出し、残りの検索クエリは存在しない場合（ステップＳ４；ＮＯ）、関連語候補集合の生成の処理を終了する。このように関連語登録サーバ１０は、予めある程度の規模の関連語候補集合を生成しておく。関連語登録サーバ１０は、検索クエリに関するログを記憶した検索クエリログから、所定の条件に基づいて関連語の候補を抽出して関連語候補集合を生成する関連語候補集合生成手段の一例として機能する。

なお、情報提供サーバ２０は、検索クエリを受信して検索を行った際、検索結果の件数がゼロ件で無かった場合、検索クエリにゼロ件で無い情報を付加して関連語登録サーバ１０に送信してもよい。この場合、関連語登録サーバ１０は、検索結果の件数がゼロ件で無ない検索クエリを受信した際、関連語候補ＤＢ１２ｂに記憶する。

（３．２関連語の登録）
次に、関連語の登録の動作について、図６〜図９を用いて説明する。

まず、図６に示すように、端末３０の表示部３３に、情報提供サーバ２０から提供されたＷｅｂページ４０の検索ワード入力欄４１に、例えば、”Ａ家の食卓”と検索ワードがユーザより入力される。検索ボタン４２がクリックされ検索が行われ、端末３０は、この検索ワードを含む検索クエリを、情報提供サーバ２０に送信する。次に、情報提供サーバ２０が、ユーザが入力した検索ワードを含む検索クエリを端末３０から受信した際、この検索クエリを関連語登録サーバ１０に送信する。

次に、図７に示すように、関連語登録サーバ１０は、ユーザが入力した検索ワードを含む検索クエリを受信する（ステップＳ１０）。具体的には、関連語登録サーバ１０のシステム制御部１４は、情報提供サーバ２０から、通信部１１を通して検索クエリを受信する。なお、上記関連語候補集合の生成で説明したように、関連語登録サーバ１０は、受信した検索クエリを検索クエリログＤＢ１２ａに記憶する。また、関連語登録サーバ１０は、ステップＳ２の条件を満たした場合、検索クエリを関連語候補集合に登録してもよい。

次に、関連語登録サーバ１０は、検索ワードの文字数を取得する（ステップＳ１１）。具体的には、関連語登録サーバ１０のシステム制御部１４は、検索クエリに含まれる検索ワードが漢字等の場合、平仮名のような読みに変換したり、ローマ字変換したりする。例えば、関連語登録サーバ１０のシステム制御部１４は、”Ａ家の食卓”を”えいけのしょくたく”に表音変換させて文字数を、５文字から９文字に増加させる。さらに、関連語登録サーバ１０のシステム制御部１４は、”えいけのしょくたく”を”eikenoshokutaku”にローマ字変換し、１５文字に増加させてもよい。そして、関連語登録サーバ１０のシステム制御部１４は、平仮名変換やローマ字変換等の表音変換させた検索ワードの文字数（例えば、９文字や１５文字）を取得する。

次に、関連語登録サーバ１０は、検索ワードの文字数が５文字以上か否かを判定する（ステップＳ１２）。具体的には、関連語登録サーバ１０のシステム制御部１４は、表音変換させた検索ワードの文字数が５文字以上か否かを判定する。

検索ワードの文字数が５文字以上の場合（ステップＳ１２；ＹＥＳ）、関連語登録サーバ１０は、検索ワードから４文字の部分文字列を抽出する（ステップＳ１３）。具体的には、関連語登録サーバ１０のシステム制御部１４は、図８に示すように、検索ワードの文字列”eikenoshokutaku”に対して、部分文字列の長さ（Window Size）Ｌを４として、Windowのスライド幅（Sliding Size）Ｓを２として、部分文字列ｐ１（”eike”）、部分文字列ｐ２（”keno”）等の部分文字列を生成して抽出する。なお、ステップＳ２の閾値（５文字）は、部分文字列の長さＬに基づいて当該部分文字列の長さＬより大きい値に設定される

このように関連語登録サーバ１０は、検索ワードの文字列から部分文字列を生成する部分文字列生成手段の一例として機能する。また、関連語登録サーバ１０は、検索ワードの文字数に基づいて部分文字列の長さを設定し、当該設定された長さの部分文字列を生成する部分文字列生成手段の一例として機能する。また、関連語登録サーバ１０は、検索ワードの文字数に基づいて部分文字列を生成する際の検索ワードの文字数の移動幅を設定し、当該設定された移動幅で部分文字列を生成する部分文字列生成手段の一例として機能する。また、関連語登録サーバ１０は、検索ワードを表音変換させた検索ワードに対して、部分文字列を生成する部分文字列生成手段の一例として機能する。

次に、関連語登録サーバ１０は、部分文字列と部分一致する関連語の候補文字列を関連語候補集合から抽出する（ステップＳ１４）。具体的には、関連語登録サーバ１０のシステム制御部１４は、図８に示す、部分文字列から、検索クエリQuery = "eike" OR "keno" OR "nosh" OR "shok" OR "okut" OR "utak"を生成し、この検索クエリから、関連語候補ＤＢ１２ｂから、関連語の候補文字列を抽出する。すなわち、関連語登録サーバ１０のシステム制御部１４は、抽出された各部分文字列に部分一致する候補文字列を抽出する。ここで部分一致するとは、例えば、部分文字列"eike"の場合、"eike"を含む候補文字列や、"eike"の一部"eik"を含む候補文字列である。このように、関連語登録サーバ１０は、生成された部分文字列に基づいて、関連語候補集合から候補文字列を抽出する候補文字列抽出手段の一例として機能する。

また、検索ワードの文字数が５文字以上で無い場合（ステップＳ１２；ＮＯ）の場合、関連語登録サーバ１０は、検索ワードと部分一致する関連語の候補文字列を関連語候補集合から抽出する（ステップＳ１５）。具体的には、関連語登録サーバ１０のシステム制御部１４は、部分文字列を抽出せず、受信した検索ワード自体か、表音変換した検索ワードを部分一致する候補文字列を関連語候補ＤＢ１２ｂから抽出する。

なお、関連語登録サーバ１０のシステム制御部１４は、類似度に基づき、部分文字列や検索ワードに類似する候補文字列を抽出してもよい。なお、類似度としては、Ｊａｒｏ−Ｗｉｎｋｌｅｒ距離、レーベンシュタイン距離等の文字列間の距離が挙げられる。

次に、関連語登録サーバ１０は、各関連語の候補文字列の適否スコアを算出する（ステップＳ１６）。具体的には、関連語登録サーバ１０のシステム制御部１４は、後述する適否スコアサブルーチンにより、抽出された各候補文字列の適否スコアを算出する。

次に、関連語登録サーバ１０は、適否スコア順にランキングを求める（ステップＳ１７）。具体的には、関連語登録サーバ１０のシステム制御部１４は、適否スコアの高い順に、各候補文字列を並べる処理を行う。そして、関連語登録サーバ１０のシステム制御部１４は、上位一定数、例えば上位５０位の候補文字列を取り出し、候補文字列を更に絞る。このように関連語登録サーバ１０は、スコアの順に候補文字列に対するランキングを行うランキング手段の一例として機能する。

次に、関連語登録サーバ１０は、適否スコアの基準ラインを生成する（ステップＳ１８）。具体的には、関連語登録サーバ１０のシステム制御部１４は、取り出した上位の関連語の候補文字列のうち、適否スコアが上位ランキングのワードより基準ラインを決定して生成する。さらに具体的には、図９（Ａ）に示すように、ランキングに対する相対的な適否スコアを図示したグラフにおいて、システム制御部１４が、例えば１位からｎ位の適否スコアの点を近似する近似関数を基準ラインＬ１とする。

ここで、基準ラインの一例としての近似関数として、対数関数、指数関数、１次関数、２次関数や３次関数等の累乗関数、双曲線のような円錐曲線の関数等が挙げられる。近似関数は、ランキング−スコア・グラフの各点を近似したり、補間したりする関数ならばよい。近似関数を求める際、最小２乗法等の基準を利用すればよい。また、相対的な適否スコアは、例えば、ランキング１位の適否スコアの値で、各スコアを割った値である。なお、基準ラインＬ１を決める際、下位の適否スコア、５０位から１０位の各スコアを最小二乗法により決めてもよい。なお、ランキング−スコアの曲線は、適否スコアのランキング順に並べているので、広義の単調減少のグラフになる。

このように関連語登録サーバ１０は、候補文字列の適否スコアとランキングに基づき、候補文字列を関連語として登録するか否かの判定基準としてランキングに対する適否スコアの基準ラインを生成する判定基準生成手段の一例として機能する。また、関連語登録サーバ１０は、ランキングと適否スコアとの関連を近似する近似関数より基準ラインを求める判定基準生成手段の一例として機能する。また、関連語登録サーバ１０は、所定の範囲のランキングのデータより、基準ラインを求める判定基準生成手段の一例として機能する。

次に、関連語登録サーバ１０は、各適否スコアと基準ラインとの乖離が閾値以上か否かを判定する（ステップＳ１９）。具体的には、関連語登録サーバ１０のシステム制御部１４は、基準ラインＬ１とランキング１位のスコアとの差分が閾値以上か否かを判定する。さらに具体的には、関連語登録サーバ１０のシステム制御部１４が、基準ラインＬ１の式にランキングの値を代入した値をランキング１位の適否スコアから引き算をして差分を算出する。そして、差分が閾値θ以上ならば、候補文字列を関連語の登録文字列として抽出する。ここで、閾値は、適否スコアを調節するパラメータ等を変えて、シミュレーションにより、例えば、基準ラインの０．１倍のように予め求めておく。この場合、関連語登録サーバ１０のシステム制御部１４は、適否スコアが基準ラインの１．１倍以上である候補文字列を関連語として抽出する。

このように関連語登録サーバ１０は、適否スコアと基準ラインＬ１との乖離が予め設定された閾値θ以上である候補文字列を関連語として登録するための登録文字列として抽出する登録文字列抽出手段の一例として機能する。

各適否スコアと基準ラインとの乖離が閾値以上の場合（ステップＳ１９；ＹＥＳ）、関連語登録サーバ１０は、基準ラインとの乖離が閾値以上の関連語の候補文字列を関連語として登録する（ステップＳ２０）。具体的には、関連語登録サーバ１０のシステム制御部１４は、各適否スコアと基準ラインとの乖離が閾値以上の場合、ランキング１位の候補文字列を、受信した検索ワードの関連語の登録文字列として関連語ＤＢ１２ｃに登録する。なお、各適否スコアと基準ラインとの乖離が閾値以上である候補文字列が複数（例えば、３つ）存在する場合、関連語登録サーバ１０のシステム制御部１４は、ランキング１位の候補文字列に限らず、ランキング１位〜３位の候補文字列や、１位および３位の候補文字列のように、所定数の候補文字列を記憶したり、ランキング２位のように所定の順位の候補文字列を記憶したりしてもよい。このように関連語登録サーバ１０は、抽出された登録文字列と検索ワードとを、関連語データベースに関連語として登録する関連語登録手段の一例として機能する。

差分が閾値以上で無い場合（ステップＳ１９；ＮＯ）、関連語登録サーバ１０は、処理を終了する。

次に、構築された関連語データベースの利用について説明する。

情報提供サーバ２０は、ユーザの端末３０から受信した検索クエリに基づき検索する際、関連語抽出手段の一例として、関連語登録サーバ１０の関連語ＤＢ１２ｃを参照して、検索クエリの検索ワードに対応する関連語を抽出する。例えば、情報提供サーバ２０は、関連語登録サーバ１０に受信した検索クエリを送信する。関連語登録サーバ１０が、情報提供サーバ２０から検索クエリを受信し、関連語ＤＢ１２ｃから、検索クエリの検索ワードに対応する登録文字列を抽出する。そして、関連語登録サーバ１０が、関連語出力手段の一例として、抽出した登録文字列を関連語として情報提供サーバ２０に送信する。情報提供サーバ２０は、受信した関連語を端末３０に送信する。そして、図６に示すように、端末３０は、受信した関連語を、”もしかして’○○▲’？”のように関連語表示欄４３に表示する。なお、”ランキング１の関連語”、”ランキング２の関連語”のように、複数個の関連語が表示されてもよい。また、検索結果の件数がゼロ件や少なかったかった場合に限らず、関連語が表示されてもよい。

（３．３適否スコアの算出のサブルーチン）
次に、適否スコアの算出のサブルーチンについて、図１０および図１１を用いて説明する。

ステップＳ１４やステップＳ１５で、関連語の候補文字列を抽出した後、図１０に示すように、関連語登録サーバ１０は、抽出した関連語の候補文字列と検索ワードとの距離を算出する（ステップＳ３０）。具体的には、関連語登録サーバ１０のシステム制御部１４は、例えば、式（１）に従い、検索ワードｕと候補文字列ｗとの距離Distance(w,u)を算出する。

ここで、Distance(w,u)は、検索ワードｕと候補文字列ｗとの距離であり、これらがどのくらい似ているかを示す指標（類似度の一例）である。なお、Dist(w,u)は、候補文字列ｗと検索ワードｕとのＪａｒｏ−Ｗｉｎｋｌｅｒ距離であり、Dist.Yomi(w,u)は、候補文字列ｗの読みと検索ワードｕの読みとのＪａｒｏ−Ｗｉｎｋｌｅｒ距離である。係数αと係数βとは、α＋β＝１の関係があり、読みに重きを置きたいとき係数βの割合を大きくする（例えば、α＜β、α＝０．３、β＝０．７）。なお、Distance(w,u)は、距離として０〜１で表現できるＪａｒｏ−Ｗｉｎｋｌｅｒ距離が好ましいが、Ｊａｒｏ−Ｗｉｎｋｌｅｒ距離に限らず、レーベンシュタイン距離や検索ワードｕと候補文字列ｗとの類似度を表す指標であってもよい。

次に、関連語登録サーバ１０は、各関連語の候補文字列の生起頻度を取得する（ステップＳ３１）。具体的には、関連語登録サーバ１０のシステム制御部１４は、検索クエリログにおける各関連語の候補文字列の生起頻度を算出する。さらに具体的には、関連語登録サーバ１０のシステム制御部１４は、式（２）に従い、検索クエリログＤＢ１２ａのデータに基づき、各候補文字列ｗに対するP（w）を算出する。

ここで、P（w）は、候補文字列ｗが、検索クエリログＤＢ１２ａの検索ログデータにおいて、どのくらい検索されているかの生起頻度に関係する。なお、Occ.Count(w)は、検索クエリログにおける候補文字列ｗの出現回数（候補文字列の使用回数）である。検索クエリログＤＢ１２ａの検索クエリログデータを使用する場合、P（w）が高いワードは、様々なユーザによる検索でよく入力される一般的な単語である。このように関連語登録サーバ１０のシステム制御部１４は、適否スコア算出手段の一例として、検索クエリ記憶手段（検索クエリログＤＢ１２ａ）のデータに基づき、適否スコアを算出する。

次に、関連語登録サーバ１０は、各関連語の候補文字列の商品ＤＢ２２ａにおける検索件数より検索可能性（アベイラビリティ）を算出する（ステップＳ３２）。具体的には、まず、関連語登録サーバ１０のシステム制御部１４が、情報提供サーバ２０に各関連語の候補文字列ｗを送信し、情報提供サーバ２０のシステム制御部２４が、商品ＤＢ２２ａにおける検索件数（検索結果数）を求め、関連語登録サーバ１０に各候補文字列ｗの検索件数を送信する。

そして、関連語登録サーバ１０のシステム制御部１４が、式（３）に従い、検索件数から各候補文字列ｗの検索可能性の値を算出する。

また、Availability(w)は、候補文字列ｗによる検索の検索結果数（検索ヒット数）に対する重み係数であり、例えば、次式で表現される。ここで、＃of Search Result(w)は、候補文字列ｗの検索結果数である。なお、アベイラビリティ（Availability）は、図１１（Ａ）に示すように、式（３）の他に、図１１（Ｂ）（Ｃ）に示すように、様々なバリエーションがある。

次に、関連語登録サーバ１０は、検索ワードと関連語の候補文字列との距離、各関連語の候補文字列の生起頻度、各関連語の候補文字列の検索可能性より各関連語の候補文字列の適否スコアの算出する（ステップＳ３３）。具体的には、関連語登録サーバ１０のシステム制御部１４は、式（４）に従い、各候補文字列ｗの適否スコアを算出する。

ここで、γおよびδは、適否スコアを調整するためのパラメータである。パラメータγは、P（w）に対する調整値であり、あまり入力されないワードへの修正も許す度合いを表す。あまり入力されないワードはP（w）の値が小さくなるので、新しい言葉、新しい商品を検索で拾うことが難しい。まだあまり使われていないワードでも、できるだけ検索で拾えるようにしたい場合は、サーバ側の設定によってパラメータγの値を大きくする。

また、パラメータδは、Distance(w,u)に対する調整値であり、主に、Distance(w,u)がゼロになり、スコアの値が発散することを防止している。なお、関連語登録サーバ１０は、式（４）におけるパラメータγおよびδや、式（１）におけるパラメータαおよびβを予め設定しておく（例えば、γ＞δ、γ＞1、δ＜1、γ＝２、δ＝０．０１）。

これらのように関連語登録サーバ１０は、候補文字列と前記検索ワードとの類似度、候補文字列の使用回数、および、候補文字列による検索の検索結果数とに基づいて、候補文字列の適否スコアを算出するスコア算出手段の一例として機能する。また、関連語登録サーバ１０は、類似度と使用回数の情報とを調節するパラメータ調節手段に一例として機能する。

以上、本実施形態によれば、検索クエリに関するログを記憶した検索クエリログＤＢ１２ａから、検索結果が１以上（所定の条件の一例）に基づいて関連語の候補文字列を抽出した関連語候補集合を生成して関連語候補ＤＢ１２ｂに記憶し、ユーザが入力した検索ワードの検索クエリを受信し、検索ワードの文字列から部分文字列を生成し、部分文字列に基づいて関連語候補ＤＢ１２ｂの関連語候補集合から候補文字列を抽出し、候補文字列と検索ワードとの類似度、候補文字列の使用回数、および、候補文字列による検索の検索結果数とに基づいて、候補文字列の適否スコアを算出し、スコアの順に候補文字列に対するランキングを行い、候補文字列の適否スコアとランキングとに基づき、候補文字列を関連語として登録するか否かの判定基準としてランキングに対する適否スコアの基準ラインを生成し、適否スコアと基準ラインとの乖離が予め設定された閾値以上である候補文字列を関連語として登録するための登録文字列として抽出し、抽出された登録文字列を検索ワードの関連語として関連語ＤＢ１２ｃに登録することにより、文字数が少なくなった部分文字列に基づいて関連語候補集合から候補文字列を抽出するため、候補文字列の適否スコアにより、不要な関連語の登録が抑制でき、関連語の精度を向上させることができる。さらに、本実施形態によれば、処理を高速化することができる。

また、関連語に基づき、ユーザに検索ワードを提示すると、ユーザが目標とする検索対象に早くたどり着くことができる。

また、関連語登録サーバ１０が、検索ワードの文字数に基づいて部分文字列の長さを設定し、当該設定された長さの部分文字列を生成する場合、部分文字列の長さを決めることで、処理の効率化を図ることができ、処理の高速化および関連語の精度を向上させることができる。

また、関連語登録サーバ１０が、検索ワードの文字数に基づいて部分文字列を生成する際の検索ワードの文字数の移動幅を設定し、当該設定された移動幅で部分文字列を生成する場合、処理をより高速化することができる。

また、関連語登録サーバ１０が、検索ワードを表音変換させた検索ワードに対して、部分文字列を生成する場合、短いワードでも、効率的に部分文字列を抽出でき、処理の高速化および関連語の精度を向上させることができる。

また、関連語登録サーバ１０が、パラメータ調節手段として、スコア算出手段の類似度と使用回数の情報とを調節するパラメータδ、γを更に備えた場合、パラメータδ、γを調整することにより、ユーザの特性や状況に応じて、適否スコアを変えることができ、関連語の精度をより向上させることができる。

また、関連語登録サーバ１０が、判定基準生成手段として、ランキングと適否スコアとの関連を近似する近似関数より基準ラインを求めることにより、近似関数から外れた異常値として、関連語の登録文字列を検出しやすくなり、関連語の精度をより向上させることができる。

また、関連語登録サーバ１０が、判定基準生成手段として、所定の範囲（例えば、上位）のランキングのデータより、基準ラインＬ１を求める場合、上位のランキングの中から、基準ラインＬ１から外れる候補文字列を検出できるため、更に上位のランキングにある候補文字列を適切に抽出できる。

内部又は外部のＥＣサイトにおいて販売されている商品に関連した検索ワードを記憶する検索ワード記憶手段の一例として商品ＤＢ２２ａを更に備えられた場合、特に、商品ＤＢ２２ａのデータを用いて、アベイラビリティを容易に算出でき、適否スコアに反映させることができる。

また、関連語登録サーバ１０が、検索クエリに関するログを記憶する検索クエリ記憶手段の一例として検索クエリログＤＢ１２ａを更に備え、検索クエリログＤＢ１２ａのデータに基づき、適否スコアを算出する場合、検索クエリログＤＢ１２ａに蓄積されているワードから、候補文字列を抽出すると、ユーザの興味が集約された候補文字列に一次的に絞ることができる。特に、直近のログに基づいた場合、ユーザの好みが特に反映された候補文字列を抽出できる。

また、関連語登録サーバ１０が、ステップＳ１９において、登録文字列抽出手段として、抽出する登録文字列の数に上限を設けてもよい。この場合、不要な関連語の登録が抑制でき、関連語の精度を向上させることができる。

また、情報提供サーバ２０が、関連語データベースを参照して、受信した検索クエリの検索ワードに対応する関連語を抽出し、出力する場合、ユーザが目標とする検索対象に早くたどり着くことができる精度の高い関連語を、ユーザに提示することができる。

なお、取り出した上位の関連語の候補文字列のうち、適否スコアが下位ランキングの候補文字列より基準ラインを決定してもよい。さらに具体的には、図９（Ｂ）に示すように、ランキングに対する相対的な適否スコアを図示したグラフにおいて、関連語登録サーバ１０のシステム制御部１４は、例えば５０位と１０位の適否スコアを結ぶ直線（基準ラインＬ２）を決定する。

基準ラインＬ２は、ｘ軸がランキング、ｙ軸が相対的な適否スコアのグラフにおいてｙ＝ａｘ＋ｂの直線の式で表現される。ここで、相対的な適否スコアは、例えば、ランキング１位の適否スコアの値で、各スコアを割った値である。なお、基準ラインＬ２を決める際、下位の適否スコア、５０位から１０位の各スコアを最小二乗法により決めてもよい。ここで、図９（Ｂ）に示すように、下位の適否スコアは、上位の適否スコアに比べて、ランキング順で相互に近似する適否スコアになっている。

ここで、基準ラインＬ２は、ランキングと適否スコアとの関連を近似する近似関数の一例であり、５０位と１０位の適否スコアを結ぶ直線である。なお、近似関数として、直線（１次関数）の他に、対数関数、指数関数、２次関数や３次関数等の累乗関数、双曲線のような円錐曲線の関数等でもよい。

基準ラインＬ２が決定した後、関連語登録サーバ１０は、基準ラインのｙ軸（相対的な適否スコアの軸）との切片ｂの値を求め、切片ｂの値に、定数を掛けた値を閾値θとする。

なお、ステップＳ１３において、関連語登録サーバ１０が部分文字列を抽出に、検索ワードの文字数に応じて、部分文字列の長さＬやWindowのスライド幅Ｓを動的に変更してもよい。例えば、検索ワードの文字数が多い場合、部分文字列の長さＬを長くし、スライド幅Ｓを広くする。基準値として、文字数が１５に対してＬ＝４、Ｓ＝３とした場合、検索ワードの文字数が４０のとき、Ｌ＝８、Ｓ＝３のように文字列の長さを長くしたり、Ｌ＝４、Ｓ＝５のようにスライド幅を広くしたり、Ｌ＝８、Ｓ＝５のように文字列の長さおよびスライド幅を広くする。このように、関連語登録サーバ１０が検索ワードの文字数に応じて、部分文字列の長さＬやWindowのスライド幅Ｓを動的に変更する場合、処理の高速化および関連語の精度を向上させることができる。

また、ショッピングサイトは、ネットワーク３に接続した外部ＥＣサイトでもよく、情報提供サーバ２０は、商品検索に限らず、一般の検索サーバでもよい。この場合、外部ＥＣサイト等における検索サーバの検索件数から、検索可能性（アベイラビリティ）を算出する。

［４．関連語登録システムにおける第２実施形態の動作］
次に、本発明の一実施形態に係る関連語登録システム１における第２実施形態の動作について、図６、および、図１２から図１６を用い説明する。なお、前記第１実施形態の動作と同一または対応する部分には、同一の符号を用いて異なるところを主に説明する。その他の実施形態および変形例も同様とする。

（４．１検索クエリログおよび文字列組集合の生成）
まず、検索クエリログおよび文字列組集合の生成について、図６、および、図１２から図１４を用いて説明する。

なお、検索クエリログＤＢ１２ａがある程度構築されている状態から説明する。この検索クエリログＤＢ１２ａには、ユーザ識別情報と共に検索クエリの受信時刻に対応付けた検索クエリが記憶されている。さらに、商品のカテゴリ情報にも対応付けられて検索クエリが記憶されている（カテゴリ情報については後述する）。

このユーザ識別情報の一例として、例えば、ショッピングサイトにログインしているユーザＡの端末３０からの検索クエリの場合、ユーザＡのユーザＩＤや、ユーザＡの端末３０から送信された検索クエリのヘッダに存在するＩＰアドレスが挙げられる。

この受信時刻は、情報提供サーバ２０が、端末３０から検索クエリを受信した受信時刻や、関連語登録サーバ１０が、この検索クエリを情報提供サーバ２０から受信した受信時刻が挙げられる。端末から検索クエリを情報提供サーバ２０が受信した時刻ならば、情報提供サーバ２０は、検索クエリの受信時刻も関連語登録サーバ１０に送信する。また、受信時刻は、検索クエリログＤＢ１２ａに検索クエリが記憶されるときに付されるタイムスタンプでもよい。

まず、ユーザ（例えばユーザＡ）が、ユーザＡの端末３０で、ショッピングサイトにログインすると、図６に示すように、ショッピングサイトのトップページであるＷｅｂページ４０の情報が情報提供サーバ２０から、この端末３０に送信される。そして、端末３０の表示部３３にＷｅｂページ４０が表示される。このＷｅｂページ４０には、ショッピングサイトのトップページであり、トップカテゴリ表示４５が表示され、各カテゴリへのリンクが張られている。さらに、このショッピングサイトの関連グループ企業の商品やサービスのカテゴリ表示４６が表示され、各カテゴリへのリンクが張られている。また、Ｗｅｂページ４０には、ユーザＡを示す情報“Ａさん、こんにちは”が表示されている。

次に、図６に示すように、Ｗｅｂページ４０において、”家電”の商品カテゴリのリンクがクリックされると、図１２に示すように、”家電”のＷｅｂページ５０が表示部３３に表示される。このＷｅｂページ５０には、トップカテゴリ”家電”のカテゴリ表示５５のサブカテゴリ表示５６が表示される。

このＷｅｂページ５０の検索ワード記入欄５１に、検索ワード”▼▼○”が入力され、検索ボタン５２がクリックされると、端末３０のシステム制御部３６は、通信部３１を通して、検索クエリを情報提供サーバ２０に送信する。この検索クエリは、入力された検索ワードと、Ｗｅｂページ５０のカテゴリ情報（トップカテゴリ”家電”のカテゴリ表示６５を示すカテゴリ識別番号等）と、ユーザ識別情報の一例である（ユーザＡの）ユーザＩＤ等を有する。

次に、情報提供サーバ２０は、この検索クエリを端末３０から受信し、関連語登録サーバ１０に送信すると共に、商品ＤＢ２２ａを参照して商品の検索を行う。また、この検索クエリの送信元のＩＰアドレスを特定し、このＩＰアドレスも関連語登録サーバ１０に送信する。このＩＰアドレスは、ユーザ識別情報の一例であり、ユーザがログインしていない場合に、ユーザＩＤの代わりに使用される。

次に、図１３に示すように、関連語登録サーバ１０は、検索ワードを含む検索クエリを受信する（ステップＳ４１）。具体的には、関連語登録サーバ１０のシステム制御部１４は、通信部１１を通して検索クエリを情報提供サーバ２０から受信し、受信した検索クエリと検索クエリの受信時刻を対応付けて検索クエリログＤＢ１２ａに記憶する。さらに、関連語登録サーバ１０のシステム制御部１４は、ＩＰアドレスと対応付けて検索クエリを検索クエリログＤＢ１２ａに記憶する。なお、関連語登録サーバ１０のシステム制御部１４は、検索クエリにＩＰアドレスを含ませてもよい。また、検索クエリの受付の前後関係が分かればよいので、関連語登録サーバ１０のシステム制御部１４は、受信時刻でなく、受信した順番を付けて、検索クエリを検索クエリログＤＢ１２ａに記憶してもよい。このように、関連語登録サーバ１０のシステム制御部１４は、受信した検索クエリを、受信順に従って記憶する検索クエリ記憶手段の一例として機能する。

次に、関連語登録サーバ１０は、ユーザＩＤが一致する先の検索クエリが検索クエリログに存在するか否かを判定する（ステップＳ４２）。具体的には、関連語登録サーバ１０のシステム制御部１４は、ユーザＡのユーザＩＤと一致し、受信した検索クエリより受信時刻が早い先（受信順が早いの一例）の検索クエリを、検索クエリログＤＢ１２ａを抽出する。そして、関連語登録サーバ１０のシステム制御部１４は、先の検索クエリを抽出できた場合、先の検索クエリが検索クエリログに存在すると判定し、抽出できない場合、先の検索クエリが存在しないと判定する。なお、関連語登録サーバ１０のシステム制御部１４は、受信した検索クエリのＩＰアドレスと一致し、受信した検索クエリより受信時刻が早い先の検索クエリを、検索クエリログＤＢ１２ａを抽出してもよい。

ここで、ユーザＩＤと一致する場合や、ＩＰアドレスと一致する場合が、予め設定した検索クエリ抽出条件の一例である。このように関連語登録サーバ１０は、検索クエリ抽出条件として、検索クエリを入力したユーザのユーザ識別情報が一致する先の検索クエリを抽出する検索クエリ抽出手段の一例として機能する。

ユーザＩＤが一致する先の検索クエリが検索クエリログに存在する場合（ステップＳ４２；ＹＥＳ）、関連語登録サーバ１０は、受信時刻と先の検索クエリの受信時刻とが所定時間内か否かを判定する（ステップＳ４３）。具体的には、関連語登録サーバ１０のシステム制御部１４は、受信した検索クエリの受信時刻と、先の検索クエリの受信時刻との差が、所定時間内（例えば、３秒〜６０秒の間）にある先の検索クエリを抽出する。そして、関連語登録サーバ１０のシステム制御部１４は、先の検索クエリを抽出できた場合、先の検索クエリが所定時間内であると判定し、抽出できない場合、所定時間内でないと判定する。

ここで、所定時間内が、予め設定した検索クエリ抽出条件の一例である。これらのように、関連語登録サーバ１０は、予め設定した検索クエリ抽出条件に基づいて、受信した検索クエリより受信時刻が早い先の検索クエリを、検索クエリ記憶手段から抽出する検索クエリ抽出手段の一例として機能する。また、関連語登録サーバ１０は、検索クエリ抽出条件として、受信時刻が検索クエリの受信時刻から所定の時間内にある先の検索クエリを抽出する検索クエリ抽出手段の一例として機能する。

受信時刻と先の検索クエリの受信時刻とが所定時間内である場合（ステップＳ４３；ＹＥＳ）、関連語登録サーバ１０は、受信した検索ワードと、受信時刻が一番近い先の検索ワードとの文字列組を記憶する（ステップＳ４４）。具体的には、関連語登録サーバ１０のシステム制御部１４は、抽出した先の検索クエリのうち、受信した検索クエリを構成する検索ワードと、受信時刻が一番近い先の検索クエリを構成する検索ワードを選択し、これら先の検索ワードと受信した検索ワードとの文字列組を文字列組ＤＢ１２ｄに記憶する。

なお、関連語登録サーバ１０のシステム制御部１４は、予め設定した検索クエリ抽出条件の一例として、カテゴリ情報（例えば、トップカテゴリ）が一致した先の検索クエリに更に絞ってもよい。

次に、関連語登録サーバ１０は、ユーザＩＤおよび受信時刻と対応付けて検索クエリを検索クエリログに記憶する（ステップＳ４５）。具体的には、関連語登録サーバ１０のシステム制御部１４は、カテゴリ情報、ユーザＩＤ（ＩＰアドレスでもよい）および受信時刻と対応付けて検索クエリを検索クエリログＤＢ１２ａに記憶する。また、ユーザＩＤが一致する先の検索クエリが検索クエリログに存在しない場合（ステップＳ４２；ＮＯ）、や、受信時刻と先の検索クエリの受信時刻とが所定時間内でない場合（ステップＳ４３；ＮＯ）も、関連語登録サーバ１０のシステム制御部１４は、ユーザＩＤおよび受信時刻と対応付けて検索クエリを検索クエリログＤＢ１２ａに記憶する。

このように関連語登録サーバ１０は、抽出した先の検索クエリを構成する先の検索ワードと、受信した検索クエリを構成する検索ワードと、を文字列組として記憶する文字列組記憶手段の一例として機能する。

次に、情報提供サーバ２０が商品の検索を行った後、検索結果として、図１４に示すように、Ｗｅｂページ６０の情報を、端末３０に送信する。

次に、端末３０は、Ｗｅｂページ６０の情報を情報提供サーバ２０から受信し、表示部３３に表示させる。

ユーザＡは、Ｗｅｂページ６０の検索結果を見て、目的の商品がある場合は、商品表示欄６３の商品をクリックするが、目的の商品がない場合は、さらに検索ワードを検索ワード入力欄６１に入力し、検索ボタン６２をクリックすると、端末３０は、上述のように、検索ワード“▲▲ Ｏ■”とカテゴリ情報（”家電”）を含む検索クエリを情報提供サーバ２０に送信する。そして、情報提供サーバ２０は、この検索クエリを受信して、関連語登録サーバ１０に送信し、検索を行う。関連語登録サーバ１０は、上述のように、検索クエリを受信し（ステップＳ４１）、ステップＳ４２からステップＳ４５の処理を行う。

他のユーザＢ等からの検索クエリに対しても上述の処理が行われ、カテゴリ情報や、ユーザＩＤ毎やＩＰアドレス毎と共に受信時刻と対応付けられた検索クエリの検索クエリログが検索クエリログＤＢ１２ａに生成され、文字列を集めた文字列組集合が文字列組ＤＢ１２ｄに生成される。

（４．２関連語の登録）
次に、関連語の登録について、図１５および図１６を用いて説明する。

まず、図１５に示すように、関連語登録サーバ１０は、抽出開始条件を満たしたか否かを判定する（ステップＳ５０）。具体的には、関連語登録サーバ１０のシステム制御部１４は、抽出開始条件の一例として、検索クエリログＤＢ１２ａにおける検索クエリログの検索クエリ数（総検索クエリ数）や、文字列組ＤＢ１２ｄに記憶された文字列組集合の要素数（文字列組集合の総数）が、所定の閾値を超えた否かを判定する。また、関連語登録サーバ１０のシステム制御部１４は、前回この文字列組抽出開始条件を満たしてから所定の時間を経過したか否かを判定してもよい。

抽出開始条件を満たした場合に（ステップＳ５０；ＹＥＳ）、関連語登録サーバ１０は、文字列組集合から先の検索ワードが同一である文字列組を抽出する（ステップＳ５１）。具体的には、関連語登録サーバ１０のシステム制御部１４は、図１６に示すように、文字列組ＤＢ１２ｄから先の検索ワード７１が同一（検索ワードが同一）である文字列組７０を抽出する。抽出開始条件を満たしていない場合は（ステップＳ５０；ＮＯ）、関連語登録の処理を終了する。

なお、関連語登録サーバ１０のシステム制御部１４は、予め設定した文字列組抽出開始条件に応じて文字列組ＤＢ１２ｄから先の検索ワードが類似である文字列組を抽出してもよい。検索ワード同士が類似であるとは、例えば、Ｊａｒｏ−Ｗｉｎｋｌｅｒ距離、レーベンシュタイン距離等の文字列間の距離に基づく類似度の値が所定閾値以上の場合である。例えば、関連語登録サーバ１０のシステム制御部１４は、先の検索ワード７１と類似である先の検索ワード”▼▼●”を有する文字列組も抽出する。

このように関連語登録サーバ１０は、予め設定した文字列組抽出開始条件に応じて、文字列組記憶手段から前記先の検索ワードが同一または類似である文字列組を抽出する文字列抽出手段の一例として機能する。

次に、関連語登録サーバ１０は、抽出した文字列組の総数が所定以上か否かを判定する（ステップＳ５２）。具体的には、関連語登録サーバ１０のシステム制御部１４は、ある先の検索ワード７１に関する文字列組の総数が所定以上（例えば、３以上）か否かを判定する。図１６に示すように、先の検索ワード７１に関する文字列組は、＜先の検索ワード７１―検索ワード７１＞の文字列組７０、＜先の検索ワード７１―検索ワード７２＞の文字列組７０、＜先の検索ワード７１―検索ワード７３＞の文字列組７０の計３個ある。

抽出した文字列組の総数が所定以上の場合（ステップＳ５２；ＹＥＳ）、関連語登録サーバ１０は、抽出した文字列組のうち登録条件を満たす文字列組があるか否かを判定する（ステップＳ５３）。具体的には、関連語登録サーバ１０のシステム制御部１４は、登録条件の一例として、各文字列組７０の数が所定の数以上（例えば、１０以上）であるか否かを判定する。このように、関連語登録サーバ１０のシステム制御部１４は、先の検索ワード７１が同一または類似である文字列組７０において、同一または類似の検索ワード７２、７３、７４を有する文字列組の数が、所定の閾値を超えたか否かを判定する。関連語登録サーバ１０のシステム制御部１４は、所定の閾値を超えた文字列組を関連語として特定する。なお、関連語登録サーバ１０のシステム制御部１４は、検索ワード７３”▲▲▲”に類似する検索ワード”▲▲△”が存在するならば、同じ文字列組としてカウントしてもよい。

このように関連語登録サーバ１０は、予め設定した登録条件に基づいて、抽出した文字列組から関連語となる文字列組を特定する関連語特定手段の一例として機能する。また、関連語登録サーバ１０は、登録条件として、先の検索ワードが同一または類似である文字列組において、同一または類似の検索ワードを有する文字列組の数が、所定の閾値を超えた場合に、当該文字列組を関連語として特定する関連語特定手段の一例として機能する。

また、関連語登録サーバ１０のシステム制御部１４は、登録条件の一例として、先の検索ワード７１が同一または類似である文字列組において、同一または類似の検索ワードを有する文字列組の割合が、所定の閾値（例えば８０％）を超えた否かを判定してもよい。

このように関連語登録サーバ１０は、登録条件として、先の検索ワードが同一または類似である文字列組において、同一または類似の検索ワードを有する文字列組の割合が、所定の閾値を超えた場合に、当該文字列組を関連語として特定する関連語特定手段の一例として機能する。

次に、登録条件を満たす文字列組がある場合（ステップＳ５３；ＹＥＳ）、関連語登録サーバ１０は、文字列組を関連語として登録する（ステップＳ５４）。具体的には、関連語登録サーバ１０のシステム制御部１４は、図１６に示すように、＜先の検索ワード７１―検索ワード７１＞の文字列組７０は、３個（１５％）で、＜先の検索ワード７１―検索ワード７２＞の文字列組７０は、１６個（８０％）で、＜先の検索ワード７１―検索ワード７３＞の文字列組７０は、１個（５％）であるので、＜先の検索ワード７１―検索ワード７２＞の文字列組７０を、関連語として関連語ＤＢ１２ｃに登録する。

このように関連語登録サーバ１０は、特定された文字列組を関連語として登録する関連語登録手段の一例として機能する。

なお、登録条件を満たす文字列組がない場合（ステップＳ５３；ＮＯ）、関連語登録サーバ１０は、登録条件を満たさない文字列組が関連語ＤＢに登録されているか否かを判定する（ステップＳ５５）。具体的には、関連語登録サーバ１０のシステム制御部１４は、既に登録してある＜先の検索ワード―検索ワード＞の文字列組７０の割合が、文字列組ＤＢ１２ｄにおいて、減少して、所定の閾値（例えば８０％）を切った否かを判定する。このようなことは、同一または類似の先の検索ワードを有する他の文字列組が増加した場合に発生する。

登録条件を満たさない場合（ステップＳ５５；ＹＥＳ）、関連語登録サーバ１０は、登録条件を満たさない文字列組を関連語ＤＢから削除する（ステップＳ５６）。具体的には、関連語登録サーバ１０のシステム制御部１４は、既に登録されている文字列組の中から、登録条件を満たさない文字列組を関連語ＤＢ１２ｃから削除する。

ステップＳ５４の後、関連語登録サーバ１０は、全ての文字列組に対して抽出したか否かを判定する（ステップＳ５７）。具体的には、関連語登録サーバ１０のシステム制御部１４は、文字列組ＤＢ１２ｄの文字列組集合における全ての先の検索ワードに対して、ステップＳ５１の文字列組の抽出処理を行ったか判定し、全ての文字列組に対して抽出していない場合（ステップＳ５７；ＮＯ）、ステップＳ１１に戻り、全ての文字列組に対して抽出している場合（ステップＳ５７；ＹＥＳ）、関連語登録の処理を終了する。

以上、本実施形態によれば、ユーザが入力した検索ワードの検索クエリを受信し、受信した検索クエリより時間的に先に取得した先の検索クエリを、予め設定した検索クエリ抽出条件に基づいて検索クエリログから抽出し、抽出した先の検索クエリの先の検索ワードと、受信した検索クエリの検索ワードと、を文字列組として文字列組ＤＢ１２ｄに記憶し、予め設定した文字列組抽出開始条件を満たした際に、先の検索ワードが同一または類似である文字列組を抽出し、予め設定した登録条件を満たす抽出した文字列組を関連語として関連語ＤＢ１２ｃに登録することにより、受信した検索クエリと検索クエリ抽出条件に基づいた先の検索クエリとの文字列組が文字列組抽出開始条件で一定量蓄積され、この蓄積された文字列組の中から登録条件を満たす文字列組を関連語として関連語ＤＢ１２ｃに登録するため、関連語の精度を向上させることができる。

また、関連語登録サーバ１０が、ユーザ識別情報をさらに記憶し、検索クエリ抽出条件として、検索クエリを入力したユーザのユーザ識別情報が一致する先の検索クエリを抽出する場合、同一ユーザにおける文字列組が生成できるため、関連語の精度をより向上させることができる。

また、関連語登録サーバ１０が、検索クエリ抽出条件として、受信時刻が検索クエリの受信時刻から所定の時間内にある先の検索クエリを抽出する場合、所定時間内にあり関連性が高い先の検索クエリを抽出できるため、関連語の精度をより向上させることができる。

また、関連語登録サーバ１０が、カテゴリ情報をさらに記憶し、検索クエリ抽出条件として、カテゴリ情報に基づき、先の検索クエリを抽出する場合、カテゴリが同一または関連した検索ワード同士を文字列組にできるため、関連語の精度をより向上させることができる。

また、関連語登録サーバ１０が、文字列組抽出開始条件として、文字列組集合の要素数が、所定の閾値を超えた場合に、文字列組を抽出すると、ある程度の規模の文字列組を蓄積でき、その中から、適切な文字列組を抽出できるため、関連語の精度をより向上させることができる。

また、関連語登録サーバ１０が、登録条件として、先の検索ワードが同一または類似である文字列組において、同一または類似の検索ワードを有する文字列組の数が、所定の閾値を超えた場合に、文字列組を関連語として登録すると、精度の高い文字列組を選択でき、関連語の精度をより向上させることができる。

また、関連語登録サーバ１０が、登録条件として、先の検索ワードが同一または類似である文字列組において、同一または類似の検索ワードを有する文字列組の割合が、所定の閾値を超えた場合に、当該文字列組を関連語として登録すると、精度の高い文字列組を選択でき、関連語の精度をより向上させることができる。

なお、関連語登録サーバ１０が、ステップＳ５１で、文字列組抽出開始条件として、検索クエリログＤＢ１２ａにおける検索クエリ数が、所定の閾値を超えた場合に、文字列組を抽出してもよい。この場合、ある程度の規模の文字列組を蓄積でき、その中から、適切な文字列組を抽出できるため、関連語の精度をより向上させることができる。

また、関連語登録サーバ１０が、ステップＳ５０において、文字列組抽出開始条件を満たしてから所定の時間を経過した場合に、文字列組を抽出してもよい。この場合、ある程度の規模の文字列組を蓄積でき、その中から、適切な文字列組を抽出できるため、関連語の精度をより向上させることができる。

さらに、関連語登録システムにおける第１および第２実施形態の動作を組み合わせて、関連語を登録してもよい。この場合、第１実施形態の動作のように、文字列同士の距離が考慮された関連語と、第２実施形態の動作のように、検索クエリが使用された順序が考慮された関連語と、が区別できるように、関連語ＤＢ１２ｃの中に、関連語データベースが構築されてもよい。

関連語データベースの活用方法として、例えば、まず、端末３０において、「○▽」と入力されて検索が行われ場合、情報提供サーバ２０が、関連語ＤＢ１２ｃの中に第１実施形態の動作により構築された関連語データベースを参照して、図６に示すように、関連語として、”もしかして’○○▲’？”がＷｅｂページ４０に表示される。次に、端末３０において、”○○▲”が選択され検索が行なれた場合、情報提供サーバ２０が、関連語ＤＢ１２ｃの中に第２実施形態の動作により構築された関連語データベースを参照して、関連語として、”’・・・▲・’のことですか？”がＷｅｂページ４０に表示されるようにしてもよい。

なお、このように段階的に関連語を表示する代わりに、これらの関連語を同時に表示させてもよい。

さらに、本発明は、上記各実施形態に限定されるものではない。上記各実施形態は、例示であり、本発明の特許請求の範囲に記載された技術的思想と実質的に同一な構成を有し、同様な作用効果を奏するものは、いかなるものであっても本発明の技術的範囲に包含される。

１：関連語登録システム
１０：関連語登録サーバ（関連語登録装置）
１２ａ：検索クエリログＤＢ
１２ｂ：関連語候補ＤＢ
１２ｃ：関連語ＤＢ
１２ｄ：文字列組ＤＢ
２０：情報提供サーバ（情報処理装置）
２２ａ：商品ＤＢ
３０：端末

上記課題を解決するために、請求項１に記載の発明は、検索クエリに関するログを記憶した検索クエリログから、所定の条件に基づいて関連語の候補を抽出して関連語候補集合を生成する関連語候補集合生成手段と、ユーザが入力した検索ワードの検索クエリを受信する受信手段と、前記検索ワードの文字列から部分文字列を生成する部分文字列生成手段と、前記生成された部分文字列に基づいて、前記関連語候補集合から候補文字列を抽出する候補文字列抽出手段と、前記候補文字列と前記検索ワードとの類似度、前記候補文字列の使用回数、および、前記候補文字列による検索の検索結果数とに基づいて、前記候補文字列の適否スコアを算出するスコア算出手段と、前記スコアの順に前記候補文字列に対するランキングを行うランキング手段と、前記候補文字列の適否スコアとランキングとに基づき、前記候補文字列を関連語として登録するか否かの判定基準として前記ランキングに対する適否スコアの基準ラインを生成する判定基準生成手段と、前記適否スコアと基準ラインとの乖離が予め設定された閾値以上である候補文字列を関連語として登録するための登録文字列として抽出する登録文字列抽出手段と、前記抽出された登録文字列と前記検索ワードとを、関連語データベースに関連語として登録する関連語登録手段と、を備え、前記部分文字列生成手段が、前記検索ワードの文字数に基づいて、前記部分文字列の長さ、および、前記部分文字列を生成する際の検索ワードの文字数の移動幅の少なくとも一方を設定し、当該設定された長さの部分文字列、および、当該設定された移動幅で部分文字列の少なくとも一方を生成することを特徴とする。

請求項２に記載の発明は、請求項１に記載の関連語登録装置において、前記部分文字列生成手段が、前記検索ワードを表音変換させた検索ワードに対して、前記部分文字列を生成することを特徴とする。

請求項３に記載の発明は、請求項１または請求項２に記載の関連語登録装置において、前記スコア算出手段の前記類似度と前記使用回数の情報とを調節するパラメータ調節手段を更に備えたことを特徴とする。

請求項４に記載の発明は、請求項１から請求項３のいずれか１項に記載の関連語登録装置において、前記判定基準生成手段が、前記ランキングと前記適否スコアとの関連を近似する近似関数より、または、所定の範囲の前記ランキングのデータより、前記基準ラインを求めることを特徴とする。

請求項５に記載の発明は、請求項１から請求項４のいずれか１項に記載の関連語登録装置において、前記登録文字列抽出手段が、抽出する前記登録文字列の数に上限を設けることを特徴とする。

請求項６に記載の発明は、請求項１から請求項５のいずれか１項に記載の関連語登録装置において、内部又は外部のＥＣサイトにおいて販売されている商品に関連した検索ワードを記憶する検索ワード記憶手段を更に備えたことを特徴とする。

請求項７に記載の発明は、請求項１から請求項６のいずれか１項に記載の関連語登録装置において、前記スコア算出手段が、前記検索クエリに関するログのデータに基づき、前記適否スコアを算出すること特徴とする。

請求項８に記載の発明は、請求項１から請求項７のいずれか１項に記載の関連語登録装置の関連語データベースを参照して情報処理する情報処理装置であって、前記関連語データベースを参照して、前記受信した検索クエリの検索ワードに対応する関連語を抽出する関連語抽出手段と、前記関連語抽出手段により抽出された関連語を出力する関連語出力手段と、を備えたことを特徴とする。

請求項９に記載の発明は、関連語を登録する関連語登録装置における関連語登録方法において、検索クエリに関するログを記憶した検索クエリログから、所定の条件に基づいて関連語の候補を抽出して関連語候補集合を生成する関連語候補集合生成ステップと、ユーザが入力した検索ワードの検索クエリを受信する受信ステップと、前記検索ワードの文字列から部分文字列を生成する部分文字列生成ステップと、前記生成された部分文字列に基づいて、前記関連語候補集合から候補文字列を抽出する候補文字列抽出ステップと、前記候補文字列と前記検索ワードとの類似度、前記候補文字列の使用回数、および、前記候補文字列による検索の検索結果数とに基づいて、前記候補文字列の適否スコアを算出するスコア算出ステップと、前記スコアの順に前記候補文字列に対するランキングを行うランキングステップと、前記候補文字列の適否スコアとランキングとに基づき、前記候補文字列を関連語として登録するか否かの判定基準として前記ランキングに対する適否スコアの基準ラインを生成する判定基準生成ステップと、前記適否スコアと基準ラインとの乖離が予め設定された閾値以上である候補文字列を関連語として登録するための登録文字列として抽出する登録文字列抽出ステップと、前記抽出された登録文字列と前記検索ワードとを、関連語データベースに関連語として登録する関連語登録ステップと、を含み、前記部分文字列生成ステップにおいて、前記検索ワードの文字数に基づいて、前記部分文字列の長さ、および、前記部分文字列を生成する際の検索ワードの文字数の移動幅の少なくとも一方を設定し、当該設定された長さの部分文字列、および、当該設定された移動幅で部分文字列の少なくとも一方を生成することを特徴とする。

請求項１０に記載の発明は、コンピュータを、検索クエリに関するログを記憶した検索クエリログから、所定の条件に基づいて関連語の候補を抽出して関連語候補集合を生成する関連語候補集合生成手段、ユーザが入力した検索ワードの検索クエリを受信する受信手段、前記検索ワードの文字列から部分文字列を生成する部分文字列生成手段、前記生成された部分文字列に基づいて、前記関連語候補集合から候補文字列を抽出する候補文字列抽出手段、前記候補文字列と前記検索ワードとの類似度、前記候補文字列の使用回数、および、前記候補文字列による検索の検索結果数とに基づいて、前記候補文字列の適否スコアを算出するスコア算出手段、前記スコアの順に前記候補文字列に対するランキングを行うランキング手段、前記候補文字列の適否スコアとランキングとに基づき、前記候補文字列を関連語として登録するか否かの判定基準として前記ランキングに対する適否スコアの基準ラインを生成する判定基準生成手段、前記適否スコアと基準ラインとの乖離が予め設定された閾値以上である候補文字列を関連語として登録するための登録文字列として抽出する登録文字列抽出手段、および、前記抽出された登録文字列と前記検索ワードとを関連語として関連語データベースに登録する関連語登録手段として機能させ、前記部分文字列生成手段が、前記検索ワードの文字数に基づいて、前記部分文字列の長さ、および、前記部分文字列を生成する際の検索ワードの文字数の移動幅の少なくとも一方を設定し、当該設定された長さの部分文字列、および、当該設定された移動幅で部分文字列の少なくとも一方を生成することを特徴とする。

請求項１１に記載の発明は、コンピュータを、検索クエリに関するログを記憶した検索クエリログから、所定の条件に基づいて関連語の候補を抽出して関連語候補集合を生成する関連語候補集合生成手段、ユーザが入力した検索ワードの検索クエリを受信する受信手段、前記検索ワードの文字列から部分文字列を生成する部分文字列生成手段、前記生成された部分文字列に基づいて、前記関連語候補集合から候補文字列を抽出する候補文字列抽出手段、前記候補文字列と前記検索ワードとの類似度、前記候補文字列の使用回数、および、前記候補文字列による検索の検索結果数とに基づいて、前記候補文字列の適否スコアを算出するスコア算出手段、前記スコアの順に前記候補文字列に対するランキングを行うランキング手段、前記候補文字列の適否スコアとランキングとに基づき、前記候補文字列を関連語として登録するか否かの判定基準として前記ランキングに対する適否スコアの基準ラインを生成する判定基準生成手段、前記適否スコアと基準ラインとの乖離が予め設定された閾値以上である候補文字列を関連語として登録するための登録文字列として抽出する登録文字列抽出手段、および、前記抽出された登録文字列と前記検索ワードとを、関連語データベースに関連語として登録する関連語登録手段として機能させ、前記部分文字列生成手段が、前記検索ワードの文字数に基づいて、前記部分文字列の長さ、および、前記部分文字列を生成する際の検索ワードの文字数の移動幅の少なくとも一方を設定し、当該設定された長さの部分文字列、および、当該設定された移動幅で部分文字列の少なくとも一方を生成することを特徴とする関連語登録装置用のプログラムを記録する。

本発明によれば、文字数が少なくなった部分文字列に基づいて関連語候補集合から候補文字列を抽出するため、候補文字列の適否スコアにより、不要な関連語の登録が抑制でき、関連語の精度を向上させることができる。

Claims

検索クエリに関するログを記憶した検索クエリログから、所定の条件に基づいて関連語の候補を抽出して関連語候補集合を生成する関連語候補集合生成手段と、
ユーザが入力した検索ワードの検索クエリを受信する受信手段と、
前記検索ワードの文字列から部分文字列を生成する部分文字列生成手段と、
前記生成された部分文字列に基づいて、前記関連語候補集合から候補文字列を抽出する候補文字列抽出手段と、
前記候補文字列と前記検索ワードとの類似度、前記候補文字列の使用回数、および、前記候補文字列による検索の検索結果数とに基づいて、前記候補文字列の適否スコアを算出するスコア算出手段と、
前記スコアの順に前記候補文字列に対するランキングを行うランキング手段と、
前記候補文字列の適否スコアとランキングとに基づき、前記候補文字列を関連語として登録するか否かの判定基準として前記ランキングに対する適否スコアの基準ラインを生成する判定基準生成手段と、
前記適否スコアと基準ラインとの乖離が予め設定された閾値以上である候補文字列を関連語として登録するための登録文字列として抽出する登録文字列抽出手段と、
前記抽出された登録文字列と前記検索ワードとを、関連語データベースに関連語として登録する関連語登録手段と、
を備えた関連語登録装置。
請求項１に記載の関連語登録装置において、
前記部分文字列生成手段が、前記検索ワードの文字数に基づいて部分文字列の長さを設定し、当該設定された長さの部分文字列を生成することを特徴とする関連語登録装置。
請求項１に記載の関連語登録装置において、
前記部分文字列生成手段が、前記検索ワードの文字数に基づいて部分文字列を生成する際の検索ワードの文字数の移動幅を設定し、当該設定された移動幅で部分文字列を生成することを特徴とする関連語登録装置。
請求項１から請求項３のいずれか１項に記載の関連語登録装置において、
前記部分文字列生成手段が、前記検索ワードを表音変換させた検索ワードに対して、前記部分文字列を生成することを特徴とする関連語登録装置。
請求項１から請求項４のいずれか１項に記載の関連語登録装置において、
前記スコア算出手段の前記類似度と前記使用回数の情報とを調節するパラメータ調節手段を更に備えたことを特徴とする関連語登録装置。
請求項１から請求項５のいずれか１項に記載の関連語登録装置において、
前記判定基準生成手段が、前記ランキングと前記適否スコアとの関連を近似する近似関数より、または、所定の範囲の前記ランキングのデータより、前記基準ラインを求めることを特徴とする関連語登録装置。
請求項１から請求項６のいずれか１項に記載の関連語登録装置において、
前記登録文字列抽出手段が、抽出する前記登録文字列の数に上限を設けることを特徴とする関連語登録装置。
請求項１から請求項７のいずれか１項に記載の関連語登録装置において、
内部又は外部のＥＣサイトにおいて販売されている商品に関連した検索ワードを記憶する検索ワード記憶手段を更に備えたことを特徴とする関連語登録装置。
請求項１から請求項８のいずれか１項に記載の関連語登録装置において、前記スコア算出手段が、前記検索クエリに関するログのデータに基づき、前記適否スコアを算出すること特徴とする関連語登録装置。
請求項１から請求項９のいずれか１項に記載の関連語登録装置において、
前記受信した検索クエリを、受信順に従って記憶する検索クエリ記憶手段と、
予め設定した検索クエリ抽出条件に基づいて、前記受信した検索クエリより受信順が早い先の検索クエリを、前記検索クエリ記憶手段から抽出する検索クエリ抽出手段と、
前記抽出した先の検索クエリを構成する先の検索ワードと、前記受信した検索クエリを構成する検索ワードと、を文字列組として記憶する文字列組記憶手段と、
予め設定した文字列組抽出開始条件に応じて、前記文字列組記憶手段から前記先の検索ワードが同一または類似である文字列組を抽出する文字列抽出手段と、
予め設定した登録条件に基づいて、前記抽出した文字列組から関連語となる文字列組を特定する関連語特定手段と、
を更に備え、
前記関連語登録手段が、前記特定された文字列組を関連語として関連語データベースに登録することを特徴とする関連語登録装置。
請求項１０に記載の関連語登録装置において、
前記検索クエリ記憶手段は、ユーザ識別情報をさらに記憶し、
前記検索クエリ抽出手段が、前記検索クエリ抽出条件として、前記検索クエリを入力したユーザのユーザ識別情報が一致する前記先の検索クエリを抽出することを特徴とする関連語登録装置。
請求項１０または請求項１１に記載の関連語登録装置において、
前記検索クエリ抽出手段が、前記検索クエリ抽出条件として、前記検索クエリの受信時刻から所定の時間内に受信した先の検索クエリを抽出することを特徴とする関連語登録装置。
請求項１０から請求項１２のいずれか１項に記載の関連語登録装置において、
前記検索クエリ記憶手段は、カテゴリ情報をさらに記憶し、
前記検索クエリ抽出手段が、前記検索クエリ抽出条件として、前記カテゴリ情報に基づき、前記先の検索クエリを抽出することを特徴とする関連語登録装置。
請求項１０から請求項１３いずれか１項に記載の関連語登録装置において、
前記文字列抽出手段が、前記文字列組抽出開始条件として、前記検索クエリ記憶手段における検索クエリ数が、または、前記文字列組集合の要素数が、所定の閾値を超えた場合に、前記文字列組を抽出することを特徴とする関連語登録装置。
請求項１０から請求項１３のいずれか１項に記載の関連語登録装置において、
前記文字列抽出手段が、前記文字列組抽出開始条件を満たしてから所定の時間を経過した場合に、前記文字列組を抽出することを特徴とする関連語登録装置。
請求項１０から請求項１５のいずれか１項に記載の関連語登録装置において、
前記関連語特定手段が、前記登録条件として、前記先の検索ワードが同一または類似である文字列組において、同一または類似の検索ワードを有する文字列組の数、または、同一または類似の検索ワードを有する文字列組の割合が、所定の閾値を超えた場合に、当該文字列組を関連語として特定することを特徴とする関連語登録装置。
請求項１から請求項１６のいずれか１項に記載の関連語登録装置の関連語データベースを参照して情報処理する情報処理装置であって、
前記関連語データベースを参照して、前記受信した検索クエリの検索ワードに対応する関連語を抽出する関連語抽出手段と、
前記関連語抽出手段により抽出された関連語を出力する関連語出力手段と、
を備えたことを特徴とする情報処理装置。
関連語を登録する関連語登録装置の関連語登録方法において、
検索クエリに関するログを記憶した検索クエリログから、所定の条件に基づいて関連語の候補を抽出して関連語候補集合を生成する関連語候補集合生成ステップと、
ユーザが入力した検索ワードの検索クエリを受信する受信ステップと、
前記検索ワードの文字列から部分文字列を生成する部分文字列生成ステップと、
前記生成された部分文字列に基づいて、前記関連語候補集合から候補文字列を抽出する候補文字列抽出ステップと、
前記候補文字列と前記検索ワードとの類似度、前記候補文字列の使用回数、および、前記候補文字列による検索の検索結果数とに基づいて、前記候補文字列の適否スコアを算出するスコア算出ステップと、
前記スコアの順に前記候補文字列に対するランキングを行うランキングステップと、
前記候補文字列の適否スコアとランキングとに基づき、前記候補文字列を関連語として登録するか否かの判定基準として前記ランキングに対する適否スコアの基準ラインを生成する判定基準生成ステップと、
前記適否スコアと基準ラインとの乖離が予め設定された閾値以上である候補文字列を関連語として登録するための登録文字列として抽出する登録文字列抽出ステップと、
前記抽出された登録文字列と前記検索ワードとを、関連語データベースに関連語として登録する関連語登録ステップと、
を含む関連語登録方法。
コンピュータを、
検索クエリに関するログを記憶した検索クエリログから、所定の条件に基づいて関連語の候補を抽出して関連語候補集合を生成する関連語候補集合生成手段、
ユーザが入力した検索ワードの検索クエリを受信する受信手段、
前記検索ワードの文字列から部分文字列を生成する部分文字列生成手段、
前記生成された部分文字列に基づいて、前記関連語候補集合から候補文字列を抽出する候補文字列抽出手段、
前記候補文字列と前記検索ワードとの類似度、前記候補文字列の使用回数、および、前記候補文字列による検索の検索結果数とに基づいて、前記候補文字列の適否スコアを算出するスコア算出手段、
前記スコアの順に前記候補文字列に対するランキングを行うランキング手段、
前記候補文字列の適否スコアとランキングとに基づき、前記候補文字列を関連語として登録するか否かの判定基準として前記ランキングに対する適否スコアの基準ラインを生成する判定基準生成手段、
前記適否スコアと基準ラインとの乖離が予め設定された閾値以上である候補文字列を関連語として登録するための登録文字列として抽出する登録文字列抽出手段、および、
前記抽出された登録文字列と前記検索ワードとを関連語として関連語データベースに登録する関連語登録手段として機能させる関連語登録装置用プログラム。
コンピュータを、
検索クエリに関するログを記憶した検索クエリログから、所定の条件に基づいて関連語の候補を抽出して関連語候補集合を生成する関連語候補集合生成手段、
ユーザが入力した検索ワードの検索クエリを受信する受信手段、
前記検索ワードの文字列から部分文字列を生成する部分文字列生成手段、
前記生成された部分文字列に基づいて、前記関連語候補集合から候補文字列を抽出する候補文字列抽出手段、
前記候補文字列と前記検索ワードとの類似度、前記候補文字列の使用回数、および、前記候補文字列による検索の検索結果数とに基づいて、前記候補文字列の適否スコアを算出するスコア算出手段、
前記スコアの順に前記候補文字列に対するランキングを行うランキング手段、
前記候補文字列の適否スコアとランキングとに基づき、前記候補文字列を関連語として登録するか否かの判定基準として前記ランキングに対する適否スコアの基準ラインを生成する判定基準生成手段、
前記適否スコアと基準ラインとの乖離が予め設定された閾値以上である候補文字列を関連語として登録するための登録文字列として抽出する登録文字列抽出手段、および、
前記抽出された登録文字列と前記検索ワードとを、関連語データベースに関連語として登録する関連語登録手段として機能させる関連語登録装置用のプログラムを記録したコンピュータ読み取り可能な記録媒体。