JPWO2012063770A1 - 関連語登録装置、情報処理装置、関連語登録方法、関連語登録装置用プログラム、および、記録媒体 - Google Patents

関連語登録装置、情報処理装置、関連語登録方法、関連語登録装置用プログラム、および、記録媒体 Download PDF

Info

Publication number
JPWO2012063770A1
JPWO2012063770A1 JP2012533417A JP2012533417A JPWO2012063770A1 JP WO2012063770 A1 JPWO2012063770 A1 JP WO2012063770A1 JP 2012533417 A JP2012533417 A JP 2012533417A JP 2012533417 A JP2012533417 A JP 2012533417A JP WO2012063770 A1 JPWO2012063770 A1 JP WO2012063770A1
Authority
JP
Japan
Prior art keywords
character string
related word
search
word
search query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012533417A
Other languages
English (en)
Other versions
JP5101759B2 (ja
Inventor
勇宇 平手
勇宇 平手
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rakuten Group Inc
Original Assignee
Rakuten Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Inc filed Critical Rakuten Inc
Priority to JP2012533417A priority Critical patent/JP5101759B2/ja
Application granted granted Critical
Publication of JP5101759B2 publication Critical patent/JP5101759B2/ja
Publication of JPWO2012063770A1 publication Critical patent/JPWO2012063770A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

検索クエリログ(12a)から、所定の条件に基づいて関連語の候補を抽出した関連語候補集合(12b)を生成し(S1〜S4)、ユーザが入力した検索ワードの検索クエリを受信し(S10)、検索ワードの文字列から部分文字列を生成し(S13)、部分文字列に基づいて関連語候補集合から候補文字列を抽出し(S14)、候補文字列の適否スコアを算出し(S16)、スコアの順に候補文字列に対するランキングを行い(S17)、適否スコアとランキングとに基づき、ランキングに対する適否スコアの基準ラインL1を生成し(S18)、適否スコアと基準ラインとの乖離が予め設定された閾値以上である候補文字列を関連語として登録するための登録文字列として抽出し(S19)、抽出された登録文字列と検索ワードとを関連語として関連語DB12cに登録する(S20)。

Description

本発明は、検索キーワードを関連語として登録する関連語登録装置、情報処理装置、関連語登録方法、関連語登録装置用プログラム、および、記録媒体の技術分野に関する。
同義語辞書のような単語のデータベースは、情報検索システムや、自然言語処理システムや、機械翻訳システム等において、検索キーワードの補完や、翻訳等の精度を高めるために利用されている。この同義語辞書を自動的に構築するための装置が様々研究されている。例えば、特許文献1には、意味辞書中の既に意味情報が付与されている辞書エントリーの情報を利用して、自動的に入力辞書エントリーに意味情報を付与する意味辞書登録装置が開示されている。
特開2000−268035号公報
しかしながら、特許文献1に記載の技術では、入力データと登録済である全てのデータの単純な単語間の意味的な距離に基づいて類義を判定していたため、類義の判定の精度が低く、不要な同義語のような関連語の登録の抑制ができなかった。そのため、精度の高い同義語辞書等の関連語の辞書を構築することが難しかった。
本発明は、このような問題に鑑みてなされたものであり、その課題の一例は、精度の高い関連語を登録できる関連語登録装置等を提供することを目的とする。
上記課題を解決するために、請求項1に記載の発明は、検索クエリに関するログを記憶した検索クエリログから、所定の条件に基づいて関連語の候補を抽出して関連語候補集合を生成する関連語候補集合生成手段と、ユーザが入力した検索ワードの検索クエリを受信する受信手段と、前記検索ワードの文字列から部分文字列を生成する部分文字列生成手段と、前記生成された部分文字列に基づいて、前記関連語候補集合から候補文字列を抽出する候補文字列抽出手段と、前記候補文字列と前記検索ワードとの類似度、前記候補文字列の使用回数、および、前記候補文字列による検索の検索結果数とに基づいて、前記候補文字列の適否スコアを算出するスコア算出手段と、前記スコアの順に前記候補文字列に対するランキングを行うランキング手段と、前記候補文字列の適否スコアとランキングとに基づき、前記候補文字列を関連語として登録するか否かの判定基準として前記ランキングに対する適否スコアの基準ラインを生成する判定基準生成手段と、前記適否スコアと基準ラインとの乖離が予め設定された閾値以上である候補文字列を関連語として登録するための登録文字列として抽出する登録文字列抽出手段と、前記抽出された登録文字列と前記検索ワードとを、関連語データベースに関連語として登録する関連語登録手段と、を備える。
請求項2に記載の発明は、請求項1に記載の関連語登録装置において、前記部分文字列生成手段が、前記検索ワードの文字数に基づいて部分文字列の長さを設定し、当該設定された長さの部分文字列を生成することを特徴とする。
請求項3に記載の発明は、請求項1に記載の関連語登録装置において、前記部分文字列生成手段が、前記検索ワードの文字数に基づいて部分文字列を生成する際の検索ワードの文字数の移動幅を設定し、当該設定された移動幅で部分文字列を生成することを特徴とする。
請求項4に記載の発明は、請求項1から請求項3のいずれか1項に記載の関連語登録装置において、前記部分文字列生成手段が、前記検索ワードを表音変換させた検索ワードに対して、前記部分文字列を生成することを特徴とする。
請求項5に記載の発明は、請求項1から請求項4のいずれか1項に記載の関連語登録装置において、前記スコア算出手段の前記類似度と前記使用回数の情報とを調節するパラメータ調節手段を更に備えたことを特徴とする。
請求項6に記載の発明は、請求項1から請求項5のいずれか1項に記載の関連語登録装置において、前記判定基準生成手段が、前記ランキングと前記適否スコアとの関連を近似する近似関数より、または、所定の範囲の前記ランキングのデータより、前記基準ラインを求めることを特徴とする。
請求項7に記載の発明は、請求項1から請求項6のいずれか1項に記載の関連語登録装置において、前記登録文字列抽出手段が、抽出する前記登録文字列の数に上限を設けることを特徴とする。
請求項8に記載の発明は、請求項1から請求項7のいずれか1項に記載の関連語登録装置において、内部又は外部のECサイトにおいて販売されている商品に関連した検索ワードを記憶する検索ワード記憶手段を更に備えたことを特徴とする。
請求項9に記載の発明は、請求項1から請求項8のいずれか1項に記載の関連語登録装置において、前記スコア算出手段が、前記検索クエリに関するログのデータに基づき、前記適否スコアを算出すること特徴とする。
請求項10に記載の発明は、請求項1から請求項9のいずれか1項に記載の関連語登録装置において、前記受信した検索クエリを、受信順に従って記憶する検索クエリ記憶手段と、予め設定した検索クエリ抽出条件に基づいて、前記受信した検索クエリより受信順が早い先の検索クエリを、前記検索クエリ記憶手段から抽出する検索クエリ抽出手段と、前記抽出した先の検索クエリを構成する先の検索ワードと、前記受信した検索クエリを構成する検索ワードと、を文字列組として記憶する文字列組記憶手段と、予め設定した文字列組抽出開始条件に応じて、前記文字列組記憶手段から前記先の検索ワードが同一または類似である文字列組を抽出する文字列抽出手段と、予め設定した登録条件に基づいて、前記抽出した文字列組から関連語となる文字列組を特定する関連語特定手段と、を更に備え、前記関連語登録手段が、前記特定された文字列組を関連語として関連語データベースに登録することを特徴とする。
請求項11に記載の発明は、請求項10に記載の関連語登録装置において、前記検索クエリ記憶手段は、ユーザ識別情報をさらに記憶し、前記検索クエリ抽出手段が、前記検索クエリ抽出条件として、前記検索クエリを入力したユーザのユーザ識別情報が一致する前記先の検索クエリを抽出することを特徴とする。
請求項12に記載の発明は、請求項10または請求項11に記載の関連語登録装置において、前記検索クエリ抽出手段が、前記検索クエリ抽出条件として、前記検索クエリの受信時刻から所定の時間内に受信した先の検索クエリを抽出することを特徴とする。
請求項13に記載の発明は、請求項10から請求項12のいずれか1項に記載の関連語登録装置において、前記検索クエリ記憶手段は、カテゴリ情報をさらに記憶し、前記検索クエリ抽出手段が、前記検索クエリ抽出条件として、前記カテゴリ情報に基づき、前記先の検索クエリを抽出することを特徴とする。
請求項14に記載の発明は、請求項10から請求項13いずれか1項に記載の関連語登録装置において、前記文字列抽出手段が、前記文字列組抽出開始条件として、前記検索クエリ記憶手段における検索クエリ数が、または、前記文字列組集合の要素数が、所定の閾値を超えた場合に、前記文字列組を抽出することを特徴とする。
請求項15に記載の発明は、請求項10から請求項13のいずれか1項に記載の関連語登録装置において、前記文字列抽出手段が、前記文字列組抽出開始条件を満たしてから所定の時間を経過した場合に、前記文字列組を抽出することを特徴とする。
請求項16に記載の発明は、請求項10から請求項15のいずれか1項に記載の関連語登録装置において、前記関連語特定手段が、前記登録条件として、前記先の検索ワードが同一または類似である文字列組において、同一または類似の検索ワードを有する文字列組の数、または、同一または類似の検索ワードを有する文字列組の割合が、所定の閾値を超えた場合に、当該文字列組を関連語として特定することを特徴とする。
請求項17に記載の発明は、請求項1から請求項16のいずれか1項に記載の関連語登録装置の関連語データベースを参照して情報処理する情報処理装置であって、前記関連語データベースを参照して、前記受信した検索クエリの検索ワードに対応する関連語を抽出する関連語抽出手段と、前記関連語抽出手段により抽出された関連語を出力する関連語出力手段と、を備えたことを特徴とする。
請求項18に記載の発明は、関連語を登録する関連語登録装置の関連語登録方法において、検索クエリに関するログを記憶した検索クエリログから、所定の条件に基づいて関連語の候補を抽出して関連語候補集合を生成する関連語候補集合生成ステップと、ユーザが入力した検索ワードの検索クエリを受信する受信ステップと、前記検索ワードの文字列から部分文字列を生成する部分文字列生成ステップと、前記生成された部分文字列に基づいて、前記関連語候補集合から候補文字列を抽出する候補文字列抽出ステップと、前記候補文字列と前記検索ワードとの類似度、前記候補文字列の使用回数、および、前記候補文字列による検索の検索結果数とに基づいて、前記候補文字列の適否スコアを算出するスコア算出ステップと、前記スコアの順に前記候補文字列に対するランキングを行うランキングステップと、前記候補文字列の適否スコアとランキングとに基づき、前記候補文字列を関連語として登録するか否かの判定基準として前記ランキングに対する適否スコアの基準ラインを生成する判定基準生成ステップと、前記適否スコアと基準ラインとの乖離が予め設定された閾値以上である候補文字列を関連語として登録するための登録文字列として抽出する登録文字列抽出ステップと、前記抽出された登録文字列と前記検索ワードとを、関連語データベースに関連語として登録する関連語登録ステップと、を含む。
請求項19に記載の発明は、コンピュータを、検索クエリに関するログを記憶した検索クエリログから、所定の条件に基づいて関連語の候補を抽出して関連語候補集合を生成する関連語候補集合生成手段、ユーザが入力した検索ワードの検索クエリを受信する受信手段、前記検索ワードの文字列から部分文字列を生成する部分文字列生成手段、前記生成された部分文字列に基づいて、前記関連語候補集合から候補文字列を抽出する候補文字列抽出手段、前記候補文字列と前記検索ワードとの類似度、前記候補文字列の使用回数、および、前記候補文字列による検索の検索結果数とに基づいて、前記候補文字列の適否スコアを算出するスコア算出手段、前記スコアの順に前記候補文字列に対するランキングを行うランキング手段、前記候補文字列の適否スコアとランキングとに基づき、前記候補文字列を関連語として登録するか否かの判定基準として前記ランキングに対する適否スコアの基準ラインを生成する判定基準生成手段、前記適否スコアと基準ラインとの乖離が予め設定された閾値以上である候補文字列を関連語として登録するための登録文字列として抽出する登録文字列抽出手段、および、前記抽出された登録文字列と前記検索ワードとを関連語として関連語データベースに登録する関連語登録手段として機能させる。
請求項20に記載の発明は、コンピュータを、検索クエリに関するログを記憶した検索クエリログから、所定の条件に基づいて関連語の候補を抽出して関連語候補集合を生成する関連語候補集合生成手段、ユーザが入力した検索ワードの検索クエリを受信する受信手段、前記検索ワードの文字列から部分文字列を生成する部分文字列生成手段、前記生成された部分文字列に基づいて、前記関連語候補集合から候補文字列を抽出する候補文字列抽出手段、前記候補文字列と前記検索ワードとの類似度、前記候補文字列の使用回数、および、前記候補文字列による検索の検索結果数とに基づいて、前記候補文字列の適否スコアを算出するスコア算出手段、前記スコアの順に前記候補文字列に対するランキングを行うランキング手段、前記候補文字列の適否スコアとランキングとに基づき、前記候補文字列を関連語として登録するか否かの判定基準として前記ランキングに対する適否スコアの基準ラインを生成する判定基準生成手段、前記適否スコアと基準ラインとの乖離が予め設定された閾値以上である候補文字列を関連語として登録するための登録文字列として抽出する登録文字列抽出手段、および、前記抽出された登録文字列と前記検索ワードとを、関連語データベースに関連語として登録する関連語登録手段として機能させる関連語登録装置用のプログラムを記録する。
本発明によれば、検索クエリに関するログを記憶した検索クエリログから、所定の条件に基づいて関連語の候補を抽出した関連語候補集合を生成し、ユーザが入力した検索ワードの検索クエリを受信し、検索ワードの文字列から部分文字列を生成し、部分文字列に基づいて関連語候補集合から候補文字列を抽出し、候補文字列と検索ワードとの類似度、候補文字列の使用回数、および、候補文字列による検索の検索結果数とに基づいて、候補文字列の適否スコアを算出し、スコアの順に候補文字列に対するランキングを行い、候補文字列の適否スコアとランキングとに基づき、候補文字列を関連語として登録するか否かの判定基準としてランキングに対する適否スコアの基準ラインを生成し、適否スコアと基準ラインとの乖離が予め設定された閾値以上である候補文字列を関連語として登録するための登録文字列として抽出し、抽出された登録文字列と検索ワードとを、関連語データベースに関連語として登録することにより、文字数が少なくなった部分文字列に基づいて関連語候補集合から候補文字列を抽出するため、候補文字列の適否スコアにより、不要な関連語の登録が抑制でき、関連語の精度を向上させることができる。
本発明の一実施形態に係る関連語登録システムの概要構成例を示す模式図である。 図1の関連語登録サーバの概要構成の一例を示すブロック図である。 図1の情報提供サーバの概要構成の一例を示すブロック図である。 図1の端末の概要構成の一例を示すブロック図である。 図1の関連語登録システム1の第1実施形態の動作において、関連語登録サーバの関連語候補集合の生成の動作例を示すフローチャートである。 図1の端末に表示されたウェブページの一例を示す模式図である。 図1の関連語登録サーバにおける第1実施形態の関連語の登録の動作例を示すフローチャートである。 部分文字列の抽出の一例を示す模式図である。 (A)および(B)は、ランキング−スコア・グラフの一例を示す模式図である。 図1の関連語登録サーバにおける適否スコアを算出する動作例のサブルーチンを示すフローチャートである。 (A)〜(C)は、適否スコアを算出するためのアベイラビリティのパターンの一例を示す線図である。 図1の関連語登録システム1の第2実施形態の動作において、端末に表示されたウェブページの一例を示す模式図である。 図1の関連語登録サーバの検索クエリログ・データベース構築の動作例を示すフローチャートである。 図1の端末に表示されたウェブページの一例を示す模式図である。 図1の関連語登録サーバの関連語の登録の動作例を示すフローチャートである。 文字列組の一例を示す模式図である。
以下、図面を参照して本発明の実施形態について説明する。なお、以下に説明する実施の形態は、関連語登録システムに対して本発明を適用した場合の実施形態である。
[1.関連語登録システムの構成および機能概要]
まず、本発明の一実施形態に係る関連語登録システムの構成および概要機能について、図1を用いて説明する。
図1は、本実施形態に係る関連語登録システム1の概要構成例を示す模式図である。
図1に示すように、関連語登録システム1は、関連語を登録する関連語登録サーバ10(関連語登録装置の一例)と、ユーザが利用する情報提供サイトの一例であるショッピングサイト(内部EC(electronic commerce)サイトの一例)運営のために設置され、関連語登録サーバ10に登録されている情報や商品の情報をユーザに提供するための情報提供サーバ20と、情報提供サーバ20においてユーザが商品等の検索を行う端末30と、を備えている。
関連語登録サーバ10と、情報提供サーバ20とは、ローカルエリアネットワーク等により接続され、相互にデータの送受信が可能になっていて、サーバシステム5を構成している。そして、サーバシステム5と端末30とは、ネットワーク3により接続され、通信プロトコル(例えば、TCP/IP)により、データの送受信が可能になっている。なお、ネットワーク3は、例えば、インターネット、専用通信回線(例えば、CATV(Community Antenna Television)回線)、移動体通信網(基地局等を含む)、および、ゲートウェイ等により構築されている。
また、関連語登録サーバ10は、端末30等におけるユーザの検索行動等から、関連語のデータベースを構築し、端末30等におけるユーザの検索行動を支援する。
情報提供サーバ20は、端末30から検索ワードを含んだ検索クエリを受信して検索を行い、端末30に検索結果を送信する。また、情報提供サーバ20は、関連語のデータベースを構築するために、受信した検索クエリを関連語登録サーバ10に送信する。また、情報提供サーバ20は、ショッピングサイトとして、商品の検索、商品の情報の提供、広告の情報の提供、および、商品の購入の手続き等を行う。
ユーザの端末30は、複数存在する。
[2.各サーバの構成および機能]
(2.1 関連語登録サーバ10の構成および機能)
次に、関連語登録サーバ10の構成および機能について、図2を用いて説明する。
図2は、関連語登録サーバ10の概要構成の一例を示すブロック図である。
図2に示すように、コンピュータとして機能する関連語登録サーバ10は、通信部11と、記憶部12と、入出力インターフェース部13と、システム制御部14と、を備えている。そして、システム制御部14と入出力インターフェース部13とは、システムバス15を介して接続されている。
通信部11は、ネットワーク3に接続して端末30等との通信状態を制御し、さらに、ローカルエリアネットワークに接続して、ローカルエリアネットワーク上の情報提供サーバ20等の他のサーバとデータの送受信を行う。
記憶部12は、例えば、ハードディスクドライブ等により構成されており、オペレーティングシステムおよびサーバプログラム等の各種プログラムや、データ等を記憶する。なお、各種プログラムは、例えば、他のサーバ装置等からネットワーク3を介して取得されるようにしてもよいし、記録媒体に記録されてドライブ装置(図示せず)を介して読み込まれるようにしてもよい。
また、記憶部12には、端末30から受信した検索クエリに関するログを記憶した検索クエリログ・データベース12a(以下「検索クエリログDB12a」とする。)と、検索クエリから生成される関連語の候補文字列を関連語候補集合として記憶した関連語候補データベース12b(以下「関連語候補DB12b」とする。)と、検索クエリから生成される関連語を記憶した関連語データベース12c(以下「関連語DB12c」とする。)と、文字列組データベース12d(以下「文字列組DB12d」とする。)等が構築されている。なお、検索クエリログDB12a、関連語候補DB12b、関連語DB12c、および、文字列組DB12dは、サーバシステム5内において、関連語登録サーバ10以外の他のサーバに構築されてもよいし、サーバシステム5外部に構築されてもよい。
検索クエリログDB12a(検索クエリ記憶手段の一例)には、検索クエリを受信した受信時刻、ユーザID等のユーザを区別するためのユーザ識別情報と対応付けた検索クエリが記憶されている。なお、ユーザ識別情報として、ショッピングサイト等のユーザID、ユーザ端末やアクセスポイントの識別番号、IPアドレス等が挙げられる。さらに、情報提供サーバ20において、ユーザが商品検索を行って場合、商品の属する商品カテゴリや、ユーザが開いているWebページが示している商品カテゴリ等のカテゴリ情報にも対応付けて、検索クエリが検索クエリログDB12aに記憶される。
関連語候補DB12bには、検索クエリログDB12aの検索クエリログから所定の条件に基づいて抽出された関連語の候補文字列が関連語候補集合として記憶される。
関連語DB12cには、関連語登録サーバ10による生成される関連語が記憶される。
文字列組DB12d(文字列組記憶手段の一例)には、受信した検索クエリの検索ワードと、検索クエリログDB12aの中から抽出された検索クエリの検索ワードとの文字列組が記憶される。
次に、入出力インターフェース部13は、通信部11および記憶部12とシステム制御部14との間のインターフェース処理を行う。
システム制御部14は、CPU(Central Processing Unit)14a、ROM(Read Only Memory)14b、RAM(Random Access Memory)14c等により構成されている。システム制御部14は、CPU14aがROM14bや記憶部12に記憶された各種プログラムを読み出し実行することにより、関連語の登録処理等を行う。
(2.2 情報提供サーバ20の構成および機能)
次に、情報提供サーバ20の構成および機能について、図3を用いて説明する。
図3は、情報提供サーバ20の概要構成の一例を示すブロック図である。
図3に示すように、情報提供サーバ20は、通信部21と、記憶部22と、入出力インターフェース部23と、システム制御部24と、を備え、システム制御部24と入出力インターフェース部23とは、システムバス25を介して接続されている。なお、情報提供サーバ20の構成および機能は、関連語登録サーバ10の構成および機能とほぼ同じであるので、関連語登録サーバ10の各構成や各機能において、異なるところを中心に説明する。
通信部21は、ネットワーク3やローカルエリアネットワーク等を通して、端末30や関連語登録サーバ10等との通信状態を制御等するようになっている。
記憶部22には、商品データベース(以下「商品DB」とする。)22aや、会員データベース(以下「会員DB」とする。)22b等が構築されている。
商品DB22aには、商品を識別するための識別子である商品IDに関連付けられ、商品名、種類、商品の画像、スペック、および、商品情報や、各商品に関する広告情報等が記憶されている。また、商品DB22aには、HTML(HyperText Markup Language)、XML(Extensible Markup Language)等のマークアップ言語等により記述された商品ウェブページのファイル等が記憶されている。
さらに、商品DB22aには、商品を検索するための検索データベースが構築されている。商品DB22aは、サーバシステム5内部のECサイトにおいて販売されている商品に関連した検索ワードを記憶する検索ワード記憶手段の一例である。
会員DB22bには、会員登録されたユーザ(ショッピングサイトの利用者)のユーザID、名称、住所、電話番号、メールアドレス、職業、趣味、購買履歴、ユーザの関心があるテーマやジャンル(商品カテゴリ)等のユーザ情報が登録されている。また、会員DB22bには、ユーザが端末30からショッピングサイトにログインする際に必要な、ユーザID、ログインID、および、パスワードが登録されている。ここで、ログインIDおよびパスワードは、ログイン処理(ユーザの認証処理)に使用されるログイン情報である。
システム制御部24は、CPU24a、ROM24b、RAM24c等により構成されている。そして、システム制御部24は、CPU24aが、ROM24bや記憶部22に記憶された各種プログラムを読み出し実行することにより、商品検索処理や、ユーザによる商品購入処理等を行う。
(2.3 端末30の構成および機能)
次に、端末30の構成および機能について、図4を用いて説明する。
図4は、端末30の概要構成の一例を示すブロック図である。
図4に示すように、コンピュータとして機能する端末30は、例えば、パーソナルコンピュータやスマートフォンを含む携帯型無線電話機やPDA等の携帯端末であり、通信部31と、記憶部32と、表示部33と、操作部34と、入出力インターフェース部35と、システム制御部36とを備えている。そして、システム制御部36と入出力インターフェース部35とは、システムバス37を介して接続されている。
通信部31は、ネットワーク3を通して、情報提供サーバ20等との通信を制御する。なお、端末30が携帯端末装置の場合、ネットワーク3の移動体通信網に接続するために、通信部31は、無線通信機能を有する。
記憶部32は、例えば、ハードディスクドライブ等からなり、オペレーティングシステム、ウェブブラウザのプログラムやウェブブラウザ用ツールバーのプログラム等を記憶する。
表示部33は、例えば、液晶表示素子またはEL(Electro Luminescence)素子等によって構成されている。表示部33には、検索画面のウェブページや、情報提供サーバ20から提供された商品検索の結果のウェブページがウェブブラウザにより表示される。
操作部34は、例えば、キーボードおよびマウス等によって構成されている。ユーザは、操作部34により応答を入力する。なお、表示部33がタッチパネルのようなタッチスイッチ方式の表示パネルの場合、操作部34は、ユーザが接触または近接した表示部33の位置情報を取得する。
入出力インターフェース部35は、通信部31および記憶部32とシステム制御部36とのインターフェースである。
システム制御部36は、例えば、CPU36aと、ROM36bと、RAM36cとを有する。システム制御部36は、CPU36aが、ROM36bや、RAM36cや、記憶部32に記憶された各種プログラムを読み出して実行する。例えば、システム制御部36は、ウェブブラウザのプログラムを実行しウェブブラウザとして機能する。
[3.関連語登録システムにおける第1実施形態の動作]
次に、本発明の一実施形態に係る関連語登録システム1における第1実施形態の動作について図5から図11を用い説明する。
図5は、関連語登録サーバ10の関連語候補集合の生成の動作例を示すフローチャートである。図6は、端末30に表示されたウェブページの一例を示す模式図である。図7は、関連語登録サーバの関連語の登録の動作例を示すフローチャートである。図8は、部分文字列の抽出の一例を示す模式図である。図9は、ランキング−スコア・グラフの一例を示す模式図である。図10は、関連語登録サーバ10における適否スコアを算出する動作例のサブルーチンを示すフローチャートである。図11は、適否スコアを算出するためのアベイラビリティのパターンの一例を示す線図である。
(3.1 関連語候補集合の生成)
関連語候補集合の生成について、図5を用いて説明する。
まず、情報提供サーバ20が、ユーザが入力した検索ワードを含む検索クエリを端末30から受信した際、検索を行うと共に、この検索クエリを関連語登録サーバ10に送信する。さらに、情報提供サーバ20は、検索クエリに対する検索結果の件数も関連語登録サーバ10に送信する。
そして、関連語登録サーバ10は、情報提供サーバ20から検索クエリおよび検索結果の件数を受信して、検索クエリを検索結果の件数に対応付けて検索クエリログDB12aに記憶する。このとき、関連語登録サーバ10は、検索クエリを受信した受信時刻、ユーザIDやIPアドレス等のユーザを区別するためのユーザ識別情報と対応付けて検索クエリを記憶してもよい。
次に、図5に示すように、関連語登録サーバ10は、検索クエリログから検索クエリを抽出する(ステップS1)。具体的には、関連語登録サーバ10のシステム制御部14は、検索クエリログDB12aから、検索クエリを1つ抽出する。
次に、関連語登録サーバ10は、検索結果の件数が1件以上の検索クエリか否かを判定する(ステップS2)。具体的には、関連語登録サーバ10のシステム制御部14は、抽出した検索クエリに対応した検索結果の件数を検索クエリログDB12aから読み出し、検索結果の件数が1件以上であるか否かを判定する。なお、関連語登録サーバ10のシステム制御部14は、検索クエリによりヒットする検索結果の件数を求めるため、抽出した検索クエリを情報提供サーバ20に送信し、ヒット件数を情報提供サーバ20から受信するように構成してもよい。
検索結果の件数が1件以上の場合(ステップS2;YES)、関連語登録サーバ10は、抽出した検索クエリを関連語候補集合に登録する(ステップS3)。具体的には、関連語登録サーバ10のシステム制御部14は、検索結果の件数が1件以上、すなわち、検索結果の件数がゼロ件で無い検索クエリの場合、この検索クエリ(関連語の候補文字列としての検索ワードを含む)を関連語候補集合として、関連語候補DB12bに登録する。
検索結果の件数が1件以上で無い場合(ステップS2;NO)、関連語登録サーバ10は、抽出した検索クエリを関連語候補集合に登録しない。
次に、残りの検索クエリが存在するかを判定する(ステップS4)。具体的には、関連語登録サーバ10のシステム制御部14は、検索クエリログDB12aに、未だ検索結果の件数の判定を行っていない検索クエリが存在するか否かを判定する。
残りの検索クエリが存在する場合(ステップS4;YES)、ステップS1に戻り、関連語登録サーバ10は、次の検索クエリを抽出し、残りの検索クエリは存在しない場合(ステップS4;NO)、関連語候補集合の生成の処理を終了する。このように関連語登録サーバ10は、予めある程度の規模の関連語候補集合を生成しておく。関連語登録サーバ10は、検索クエリに関するログを記憶した検索クエリログから、所定の条件に基づいて関連語の候補を抽出して関連語候補集合を生成する関連語候補集合生成手段の一例として機能する。
なお、情報提供サーバ20は、検索クエリを受信して検索を行った際、検索結果の件数がゼロ件で無かった場合、検索クエリにゼロ件で無い情報を付加して関連語登録サーバ10に送信してもよい。この場合、関連語登録サーバ10は、検索結果の件数がゼロ件で無ない検索クエリを受信した際、関連語候補DB12bに記憶する。
(3.2 関連語の登録)
次に、関連語の登録の動作について、図6〜図9を用いて説明する。
まず、図6に示すように、端末30の表示部33に、情報提供サーバ20から提供されたWebページ40の検索ワード入力欄41に、例えば、”A家の食卓”と検索ワードがユーザより入力される。検索ボタン42がクリックされ検索が行われ、端末30は、この検索ワードを含む検索クエリを、情報提供サーバ20に送信する。次に、情報提供サーバ20が、ユーザが入力した検索ワードを含む検索クエリを端末30から受信した際、この検索クエリを関連語登録サーバ10に送信する。
次に、図7に示すように、関連語登録サーバ10は、ユーザが入力した検索ワードを含む検索クエリを受信する(ステップS10)。具体的には、関連語登録サーバ10のシステム制御部14は、情報提供サーバ20から、通信部11を通して検索クエリを受信する。なお、上記関連語候補集合の生成で説明したように、関連語登録サーバ10は、受信した検索クエリを検索クエリログDB12aに記憶する。また、関連語登録サーバ10は、ステップS2の条件を満たした場合、検索クエリを関連語候補集合に登録してもよい。
次に、関連語登録サーバ10は、検索ワードの文字数を取得する(ステップS11)。具体的には、関連語登録サーバ10のシステム制御部14は、検索クエリに含まれる検索ワードが漢字等の場合、平仮名のような読みに変換したり、ローマ字変換したりする。例えば、関連語登録サーバ10のシステム制御部14は、”A家の食卓”を”えいけのしょくたく”に表音変換させて文字数を、5文字から9文字に増加させる。さらに、関連語登録サーバ10のシステム制御部14は、”えいけのしょくたく”を”eikenoshokutaku”にローマ字変換し、15文字に増加させてもよい。そして、関連語登録サーバ10のシステム制御部14は、平仮名変換やローマ字変換等の表音変換させた検索ワードの文字数(例えば、9文字や15文字)を取得する。
次に、関連語登録サーバ10は、検索ワードの文字数が5文字以上か否かを判定する(ステップS12)。具体的には、関連語登録サーバ10のシステム制御部14は、表音変換させた検索ワードの文字数が5文字以上か否かを判定する。
検索ワードの文字数が5文字以上の場合(ステップS12;YES)、関連語登録サーバ10は、検索ワードから4文字の部分文字列を抽出する(ステップS13)。具体的には、関連語登録サーバ10のシステム制御部14は、図8に示すように、検索ワードの文字列”eikenoshokutaku”に対して、部分文字列の長さ(Window Size)Lを4として、Windowのスライド幅(Sliding Size)Sを2として、部分文字列p1(”eike”)、部分文字列p2(”keno”)等の部分文字列を生成して抽出する。なお、ステップS2の閾値(5文字)は、部分文字列の長さLに基づいて当該部分文字列の長さLより大きい値に設定される
このように関連語登録サーバ10は、検索ワードの文字列から部分文字列を生成する部分文字列生成手段の一例として機能する。また、関連語登録サーバ10は、検索ワードの文字数に基づいて部分文字列の長さを設定し、当該設定された長さの部分文字列を生成する部分文字列生成手段の一例として機能する。また、関連語登録サーバ10は、検索ワードの文字数に基づいて部分文字列を生成する際の検索ワードの文字数の移動幅を設定し、当該設定された移動幅で部分文字列を生成する部分文字列生成手段の一例として機能する。また、関連語登録サーバ10は、検索ワードを表音変換させた検索ワードに対して、部分文字列を生成する部分文字列生成手段の一例として機能する。
次に、関連語登録サーバ10は、部分文字列と部分一致する関連語の候補文字列を関連語候補集合から抽出する(ステップS14)。具体的には、関連語登録サーバ10のシステム制御部14は、図8に示す、部分文字列から、検索クエリQuery = "eike" OR "keno" OR "nosh" OR "shok" OR "okut" OR "utak"を生成し、この検索クエリから、関連語候補DB12bから、関連語の候補文字列を抽出する。すなわち、関連語登録サーバ10のシステム制御部14は、抽出された各部分文字列に部分一致する候補文字列を抽出する。ここで部分一致するとは、例えば、部分文字列"eike"の場合、"eike"を含む候補文字列や、"eike"の一部"eik"を含む候補文字列である。このように、関連語登録サーバ10は、生成された部分文字列に基づいて、関連語候補集合から候補文字列を抽出する候補文字列抽出手段の一例として機能する。
また、検索ワードの文字数が5文字以上で無い場合(ステップS12;NO)の場合、関連語登録サーバ10は、検索ワードと部分一致する関連語の候補文字列を関連語候補集合から抽出する(ステップS15)。具体的には、関連語登録サーバ10のシステム制御部14は、部分文字列を抽出せず、受信した検索ワード自体か、表音変換した検索ワードを部分一致する候補文字列を関連語候補DB12bから抽出する。
なお、関連語登録サーバ10のシステム制御部14は、類似度に基づき、部分文字列や検索ワードに類似する候補文字列を抽出してもよい。なお、類似度としては、Jaro−Winkler距離、レーベンシュタイン距離等の文字列間の距離が挙げられる。
次に、関連語登録サーバ10は、各関連語の候補文字列の適否スコアを算出する(ステップS16)。具体的には、関連語登録サーバ10のシステム制御部14は、後述する適否スコアサブルーチンにより、抽出された各候補文字列の適否スコアを算出する。
次に、関連語登録サーバ10は、適否スコア順にランキングを求める(ステップS17)。具体的には、関連語登録サーバ10のシステム制御部14は、適否スコアの高い順に、各候補文字列を並べる処理を行う。そして、関連語登録サーバ10のシステム制御部14は、上位一定数、例えば上位50位の候補文字列を取り出し、候補文字列を更に絞る。このように関連語登録サーバ10は、スコアの順に候補文字列に対するランキングを行うランキング手段の一例として機能する。
次に、関連語登録サーバ10は、適否スコアの基準ラインを生成する(ステップS18)。具体的には、関連語登録サーバ10のシステム制御部14は、取り出した上位の関連語の候補文字列のうち、適否スコアが上位ランキングのワードより基準ラインを決定して生成する。さらに具体的には、図9(A)に示すように、ランキングに対する相対的な適否スコアを図示したグラフにおいて、システム制御部14が、例えば1位からn位の適否スコアの点を近似する近似関数を基準ラインL1とする。
ここで、基準ラインの一例としての近似関数として、対数関数、指数関数、1次関数、2次関数や3次関数等の累乗関数、双曲線のような円錐曲線の関数等が挙げられる。近似関数は、ランキング−スコア・グラフの各点を近似したり、補間したりする関数ならばよい。近似関数を求める際、最小2乗法等の基準を利用すればよい。また、相対的な適否スコアは、例えば、ランキング1位の適否スコアの値で、各スコアを割った値である。なお、基準ラインL1を決める際、下位の適否スコア、50位から10位の各スコアを最小二乗法により決めてもよい。なお、ランキング−スコアの曲線は、適否スコアのランキング順に並べているので、広義の単調減少のグラフになる。
このように関連語登録サーバ10は、候補文字列の適否スコアとランキングに基づき、候補文字列を関連語として登録するか否かの判定基準としてランキングに対する適否スコアの基準ラインを生成する判定基準生成手段の一例として機能する。また、関連語登録サーバ10は、ランキングと適否スコアとの関連を近似する近似関数より基準ラインを求める判定基準生成手段の一例として機能する。また、関連語登録サーバ10は、所定の範囲のランキングのデータより、基準ラインを求める判定基準生成手段の一例として機能する。
次に、関連語登録サーバ10は、各適否スコアと基準ラインとの乖離が閾値以上か否かを判定する(ステップS19)。具体的には、関連語登録サーバ10のシステム制御部14は、基準ラインL1とランキング1位のスコアとの差分が閾値以上か否かを判定する。さらに具体的には、関連語登録サーバ10のシステム制御部14が、基準ラインL1の式にランキングの値を代入した値をランキング1位の適否スコアから引き算をして差分を算出する。そして、差分が閾値θ以上ならば、候補文字列を関連語の登録文字列として抽出する。ここで、閾値は、適否スコアを調節するパラメータ等を変えて、シミュレーションにより、例えば、基準ラインの0.1倍のように予め求めておく。この場合、関連語登録サーバ10のシステム制御部14は、適否スコアが基準ラインの1.1倍以上である候補文字列を関連語として抽出する。
このように関連語登録サーバ10は、適否スコアと基準ラインL1との乖離が予め設定された閾値θ以上である候補文字列を関連語として登録するための登録文字列として抽出する登録文字列抽出手段の一例として機能する。
各適否スコアと基準ラインとの乖離が閾値以上の場合(ステップS19;YES)、関連語登録サーバ10は、基準ラインとの乖離が閾値以上の関連語の候補文字列を関連語として登録する(ステップS20)。具体的には、関連語登録サーバ10のシステム制御部14は、各適否スコアと基準ラインとの乖離が閾値以上の場合、ランキング1位の候補文字列を、受信した検索ワードの関連語の登録文字列として関連語DB12cに登録する。なお、各適否スコアと基準ラインとの乖離が閾値以上である候補文字列が複数(例えば、3つ)存在する場合、関連語登録サーバ10のシステム制御部14は、ランキング1位の候補文字列に限らず、ランキング1位〜3位の候補文字列や、1位および3位の候補文字列のように、所定数の候補文字列を記憶したり、ランキング2位のように所定の順位の候補文字列を記憶したりしてもよい。このように関連語登録サーバ10は、抽出された登録文字列と検索ワードとを、関連語データベースに関連語として登録する関連語登録手段の一例として機能する。
差分が閾値以上で無い場合(ステップS19;NO)、関連語登録サーバ10は、処理を終了する。
次に、構築された関連語データベースの利用について説明する。
情報提供サーバ20は、ユーザの端末30から受信した検索クエリに基づき検索する際、関連語抽出手段の一例として、関連語登録サーバ10の関連語DB12cを参照して、検索クエリの検索ワードに対応する関連語を抽出する。例えば、情報提供サーバ20は、関連語登録サーバ10に受信した検索クエリを送信する。関連語登録サーバ10が、情報提供サーバ20から検索クエリを受信し、関連語DB12cから、検索クエリの検索ワードに対応する登録文字列を抽出する。そして、関連語登録サーバ10が、関連語出力手段の一例として、抽出した登録文字列を関連語として情報提供サーバ20に送信する。情報提供サーバ20は、受信した関連語を端末30に送信する。そして、図6に示すように、端末30は、受信した関連語を、”もしかして’○○▲’?”のように関連語表示欄43に表示する。なお、”ランキング1の関連語”、”ランキング2の関連語”のように、複数個の関連語が表示されてもよい。また、検索結果の件数がゼロ件や少なかったかった場合に限らず、関連語が表示されてもよい。
(3.3 適否スコアの算出のサブルーチン)
次に、適否スコアの算出のサブルーチンについて、図10および図11を用いて説明する。
ステップS14やステップS15で、関連語の候補文字列を抽出した後、図10に示すように、関連語登録サーバ10は、抽出した関連語の候補文字列と検索ワードとの距離を算出する(ステップS30)。具体的には、関連語登録サーバ10のシステム制御部14は、例えば、式(1)に従い、検索ワードuと候補文字列wとの距離Distance(w,u)を算出する。
Figure 2012063770
ここで、Distance(w,u)は、検索ワードuと候補文字列wとの距離であり、これらがどのくらい似ているかを示す指標(類似度の一例)である。なお、Dist(w,u)は、候補文字列wと検索ワードuとのJaro−Winkler距離であり、Dist.Yomi(w,u)は、候補文字列wの読みと検索ワードuの読みとのJaro−Winkler距離である。係数αと係数βとは、α+β=1の関係があり、読みに重きを置きたいとき係数βの割合を大きくする(例えば、α<β、α=0.3、β=0.7)。なお、Distance(w,u)は、距離として0〜1で表現できるJaro−Winkler距離が好ましいが、Jaro−Winkler距離に限らず、レーベンシュタイン距離や検索ワードuと候補文字列wとの類似度を表す指標であってもよい。
次に、関連語登録サーバ10は、各関連語の候補文字列の生起頻度を取得する(ステップS31)。具体的には、関連語登録サーバ10のシステム制御部14は、検索クエリログにおける各関連語の候補文字列の生起頻度を算出する。さらに具体的には、関連語登録サーバ10のシステム制御部14は、式(2)に従い、検索クエリログDB12aのデータに基づき、各候補文字列wに対するP(w)を算出する。
Figure 2012063770
ここで、P(w)は、候補文字列wが、検索クエリログDB12aの検索ログデータにおいて、どのくらい検索されているかの生起頻度に関係する。なお、Occ.Count(w)は、検索クエリログにおける候補文字列wの出現回数(候補文字列の使用回数)である。検索クエリログDB12aの検索クエリログデータを使用する場合、P(w)が高いワードは、様々なユーザによる検索でよく入力される一般的な単語である。このように関連語登録サーバ10のシステム制御部14は、適否スコア算出手段の一例として、検索クエリ記憶手段(検索クエリログDB12a)のデータに基づき、適否スコアを算出する。
次に、関連語登録サーバ10は、各関連語の候補文字列の商品DB22aにおける検索件数より検索可能性(アベイラビリティ)を算出する(ステップS32)。具体的には、まず、関連語登録サーバ10のシステム制御部14が、情報提供サーバ20に各関連語の候補文字列wを送信し、情報提供サーバ20のシステム制御部24が、商品DB22aにおける検索件数(検索結果数)を求め、関連語登録サーバ10に各候補文字列wの検索件数を送信する。
そして、関連語登録サーバ10のシステム制御部14が、式(3)に従い、検索件数から各候補文字列wの検索可能性の値を算出する。
Figure 2012063770
また、Availability(w)は、候補文字列wによる検索の検索結果数(検索ヒット数)に対する重み係数であり、例えば、次式で表現される。ここで、#of Search Result(w)は、候補文字列wの検索結果数である。なお、アベイラビリティ(Availability)は、図11(A)に示すように、式(3)の他に、図11(B)(C)に示すように、様々なバリエーションがある。
次に、関連語登録サーバ10は、検索ワードと関連語の候補文字列との距離、各関連語の候補文字列の生起頻度、各関連語の候補文字列の検索可能性より各関連語の候補文字列の適否スコアの算出する(ステップS33)。具体的には、関連語登録サーバ10のシステム制御部14は、式(4)に従い、各候補文字列wの適否スコアを算出する。
Figure 2012063770
ここで、γおよびδは、適否スコアを調整するためのパラメータである。パラメータγは、P(w)に対する調整値であり、あまり入力されないワードへの修正も許す度合いを表す。あまり入力されないワードはP(w)の値が小さくなるので、新しい言葉、新しい商品を検索で拾うことが難しい。まだあまり使われていないワードでも、できるだけ検索で拾えるようにしたい場合は、サーバ側の設定によってパラメータγの値を大きくする。
また、パラメータδは、Distance(w,u)に対する調整値であり、主に、Distance(w,u)がゼロになり、スコアの値が発散することを防止している。なお、関連語登録サーバ10は、式(4)におけるパラメータγおよびδや、式(1)におけるパラメータαおよびβを予め設定しておく(例えば、γ>δ、γ>1、δ<1、γ=2、δ=0.01)。
これらのように関連語登録サーバ10は、候補文字列と前記検索ワードとの類似度、候補文字列の使用回数、および、候補文字列による検索の検索結果数とに基づいて、候補文字列の適否スコアを算出するスコア算出手段の一例として機能する。また、関連語登録サーバ10は、類似度と使用回数の情報とを調節するパラメータ調節手段に一例として機能する。
以上、本実施形態によれば、検索クエリに関するログを記憶した検索クエリログDB12aから、検索結果が1以上(所定の条件の一例)に基づいて関連語の候補文字列を抽出した関連語候補集合を生成して関連語候補DB12bに記憶し、ユーザが入力した検索ワードの検索クエリを受信し、検索ワードの文字列から部分文字列を生成し、部分文字列に基づいて関連語候補DB12bの関連語候補集合から候補文字列を抽出し、候補文字列と検索ワードとの類似度、候補文字列の使用回数、および、候補文字列による検索の検索結果数とに基づいて、候補文字列の適否スコアを算出し、スコアの順に候補文字列に対するランキングを行い、候補文字列の適否スコアとランキングとに基づき、候補文字列を関連語として登録するか否かの判定基準としてランキングに対する適否スコアの基準ラインを生成し、適否スコアと基準ラインとの乖離が予め設定された閾値以上である候補文字列を関連語として登録するための登録文字列として抽出し、抽出された登録文字列を検索ワードの関連語として関連語DB12cに登録することにより、文字数が少なくなった部分文字列に基づいて関連語候補集合から候補文字列を抽出するため、候補文字列の適否スコアにより、不要な関連語の登録が抑制でき、関連語の精度を向上させることができる。さらに、本実施形態によれば、処理を高速化することができる。
また、関連語に基づき、ユーザに検索ワードを提示すると、ユーザが目標とする検索対象に早くたどり着くことができる。
また、関連語登録サーバ10が、検索ワードの文字数に基づいて部分文字列の長さを設定し、当該設定された長さの部分文字列を生成する場合、部分文字列の長さを決めることで、処理の効率化を図ることができ、処理の高速化および関連語の精度を向上させることができる。
また、関連語登録サーバ10が、検索ワードの文字数に基づいて部分文字列を生成する際の検索ワードの文字数の移動幅を設定し、当該設定された移動幅で部分文字列を生成する場合、処理をより高速化することができる。
また、関連語登録サーバ10が、検索ワードを表音変換させた検索ワードに対して、部分文字列を生成する場合、短いワードでも、効率的に部分文字列を抽出でき、処理の高速化および関連語の精度を向上させることができる。
また、関連語登録サーバ10が、パラメータ調節手段として、スコア算出手段の類似度と使用回数の情報とを調節するパラメータδ、γを更に備えた場合、パラメータδ、γを調整することにより、ユーザの特性や状況に応じて、適否スコアを変えることができ、関連語の精度をより向上させることができる。
また、関連語登録サーバ10が、判定基準生成手段として、ランキングと適否スコアとの関連を近似する近似関数より基準ラインを求めることにより、近似関数から外れた異常値として、関連語の登録文字列を検出しやすくなり、関連語の精度をより向上させることができる。
また、関連語登録サーバ10が、判定基準生成手段として、所定の範囲(例えば、上位)のランキングのデータより、基準ラインL1を求める場合、上位のランキングの中から、基準ラインL1から外れる候補文字列を検出できるため、更に上位のランキングにある候補文字列を適切に抽出できる。
内部又は外部のECサイトにおいて販売されている商品に関連した検索ワードを記憶する検索ワード記憶手段の一例として商品DB22aを更に備えられた場合、特に、商品DB22aのデータを用いて、アベイラビリティを容易に算出でき、適否スコアに反映させることができる。
また、関連語登録サーバ10が、検索クエリに関するログを記憶する検索クエリ記憶手段の一例として検索クエリログDB12aを更に備え、検索クエリログDB12aのデータに基づき、適否スコアを算出する場合、検索クエリログDB12aに蓄積されているワードから、候補文字列を抽出すると、ユーザの興味が集約された候補文字列に一次的に絞ることができる。特に、直近のログに基づいた場合、ユーザの好みが特に反映された候補文字列を抽出できる。
また、関連語登録サーバ10が、ステップS19において、登録文字列抽出手段として、抽出する登録文字列の数に上限を設けてもよい。この場合、不要な関連語の登録が抑制でき、関連語の精度を向上させることができる。
また、情報提供サーバ20が、関連語データベースを参照して、受信した検索クエリの検索ワードに対応する関連語を抽出し、出力する場合、ユーザが目標とする検索対象に早くたどり着くことができる精度の高い関連語を、ユーザに提示することができる。
なお、取り出した上位の関連語の候補文字列のうち、適否スコアが下位ランキングの候補文字列より基準ラインを決定してもよい。さらに具体的には、図9(B)に示すように、ランキングに対する相対的な適否スコアを図示したグラフにおいて、関連語登録サーバ10のシステム制御部14は、例えば50位と10位の適否スコアを結ぶ直線(基準ラインL2)を決定する。
基準ラインL2は、x軸がランキング、y軸が相対的な適否スコアのグラフにおいてy=ax+bの直線の式で表現される。ここで、相対的な適否スコアは、例えば、ランキング1位の適否スコアの値で、各スコアを割った値である。なお、基準ラインL2を決める際、下位の適否スコア、50位から10位の各スコアを最小二乗法により決めてもよい。ここで、図9(B)に示すように、下位の適否スコアは、上位の適否スコアに比べて、ランキング順で相互に近似する適否スコアになっている。
ここで、基準ラインL2は、ランキングと適否スコアとの関連を近似する近似関数の一例であり、50位と10位の適否スコアを結ぶ直線である。なお、近似関数として、直線(1次関数)の他に、対数関数、指数関数、2次関数や3次関数等の累乗関数、双曲線のような円錐曲線の関数等でもよい。
基準ラインL2が決定した後、関連語登録サーバ10は、基準ラインのy軸(相対的な適否スコアの軸)との切片bの値を求め、切片bの値に、定数を掛けた値を閾値θとする。
なお、ステップS13において、関連語登録サーバ10が部分文字列を抽出に、検索ワードの文字数に応じて、部分文字列の長さLやWindowのスライド幅Sを動的に変更してもよい。例えば、検索ワードの文字数が多い場合、部分文字列の長さLを長くし、スライド幅Sを広くする。基準値として、文字数が15に対してL=4、S=3とした場合、検索ワードの文字数が40のとき、L=8、S=3のように文字列の長さを長くしたり、L=4、S=5のようにスライド幅を広くしたり、L=8、S=5のように文字列の長さおよびスライド幅を広くする。このように、関連語登録サーバ10が検索ワードの文字数に応じて、部分文字列の長さLやWindowのスライド幅Sを動的に変更する場合、処理の高速化および関連語の精度を向上させることができる。
また、ショッピングサイトは、ネットワーク3に接続した外部ECサイトでもよく、情報提供サーバ20は、商品検索に限らず、一般の検索サーバでもよい。この場合、外部ECサイト等における検索サーバの検索件数から、検索可能性(アベイラビリティ)を算出する。
[4.関連語登録システムにおける第2実施形態の動作]
次に、本発明の一実施形態に係る関連語登録システム1における第2実施形態の動作について、図6、および、図12から図16を用い説明する。なお、前記第1実施形態の動作と同一または対応する部分には、同一の符号を用いて異なるところを主に説明する。その他の実施形態および変形例も同様とする。
(4.1 検索クエリログおよび文字列組集合の生成)
まず、検索クエリログおよび文字列組集合の生成について、図6、および、図12から図14を用いて説明する。
なお、検索クエリログDB12aがある程度構築されている状態から説明する。この検索クエリログDB12aには、ユーザ識別情報と共に検索クエリの受信時刻に対応付けた検索クエリが記憶されている。さらに、商品のカテゴリ情報にも対応付けられて検索クエリが記憶されている(カテゴリ情報については後述する)。
このユーザ識別情報の一例として、例えば、ショッピングサイトにログインしているユーザAの端末30からの検索クエリの場合、ユーザAのユーザIDや、ユーザAの端末30から送信された検索クエリのヘッダに存在するIPアドレスが挙げられる。
この受信時刻は、情報提供サーバ20が、端末30から検索クエリを受信した受信時刻や、関連語登録サーバ10が、この検索クエリを情報提供サーバ20から受信した受信時刻が挙げられる。端末から検索クエリを情報提供サーバ20が受信した時刻ならば、情報提供サーバ20は、検索クエリの受信時刻も関連語登録サーバ10に送信する。また、受信時刻は、検索クエリログDB12aに検索クエリが記憶されるときに付されるタイムスタンプでもよい。
まず、ユーザ(例えばユーザA)が、ユーザAの端末30で、ショッピングサイトにログインすると、図6に示すように、ショッピングサイトのトップページであるWebページ40の情報が情報提供サーバ20から、この端末30に送信される。そして、端末30の表示部33にWebページ40が表示される。このWebページ40には、ショッピングサイトのトップページであり、トップカテゴリ表示45が表示され、各カテゴリへのリンクが張られている。さらに、このショッピングサイトの関連グループ企業の商品やサービスのカテゴリ表示46が表示され、各カテゴリへのリンクが張られている。また、Webページ40には、ユーザAを示す情報“Aさん、こんにちは”が表示されている。
次に、図6に示すように、Webページ40において、”家電”の商品カテゴリのリンクがクリックされると、図12に示すように、”家電”のWebページ50が表示部33に表示される。このWebページ50には、トップカテゴリ”家電”のカテゴリ表示55のサブカテゴリ表示56が表示される。
このWebページ50の検索ワード記入欄51に、検索ワード”▼▼○”が入力され、検索ボタン52がクリックされると、端末30のシステム制御部36は、通信部31を通して、検索クエリを情報提供サーバ20に送信する。この検索クエリは、入力された検索ワードと、Webページ50のカテゴリ情報(トップカテゴリ”家電”のカテゴリ表示65を示すカテゴリ識別番号等)と、ユーザ識別情報の一例である(ユーザAの)ユーザID等を有する。
次に、情報提供サーバ20は、この検索クエリを端末30から受信し、関連語登録サーバ10に送信すると共に、商品DB22aを参照して商品の検索を行う。また、この検索クエリの送信元のIPアドレスを特定し、このIPアドレスも関連語登録サーバ10に送信する。このIPアドレスは、ユーザ識別情報の一例であり、ユーザがログインしていない場合に、ユーザIDの代わりに使用される。
次に、図13に示すように、関連語登録サーバ10は、検索ワードを含む検索クエリを受信する(ステップS41)。具体的には、関連語登録サーバ10のシステム制御部14は、通信部11を通して検索クエリを情報提供サーバ20から受信し、受信した検索クエリと検索クエリの受信時刻を対応付けて検索クエリログDB12aに記憶する。さらに、関連語登録サーバ10のシステム制御部14は、IPアドレスと対応付けて検索クエリを検索クエリログDB12aに記憶する。なお、関連語登録サーバ10のシステム制御部14は、検索クエリにIPアドレスを含ませてもよい。また、検索クエリの受付の前後関係が分かればよいので、関連語登録サーバ10のシステム制御部14は、受信時刻でなく、受信した順番を付けて、検索クエリを検索クエリログDB12aに記憶してもよい。このように、関連語登録サーバ10のシステム制御部14は、受信した検索クエリを、受信順に従って記憶する検索クエリ記憶手段の一例として機能する。
次に、関連語登録サーバ10は、ユーザIDが一致する先の検索クエリが検索クエリログに存在するか否かを判定する(ステップS42)。具体的には、関連語登録サーバ10のシステム制御部14は、ユーザAのユーザIDと一致し、受信した検索クエリより受信時刻が早い先(受信順が早いの一例)の検索クエリを、検索クエリログDB12aを抽出する。そして、関連語登録サーバ10のシステム制御部14は、先の検索クエリを抽出できた場合、先の検索クエリが検索クエリログに存在すると判定し、抽出できない場合、先の検索クエリが存在しないと判定する。なお、関連語登録サーバ10のシステム制御部14は、受信した検索クエリのIPアドレスと一致し、受信した検索クエリより受信時刻が早い先の検索クエリを、検索クエリログDB12aを抽出してもよい。
ここで、ユーザIDと一致する場合や、IPアドレスと一致する場合が、予め設定した検索クエリ抽出条件の一例である。このように関連語登録サーバ10は、検索クエリ抽出条件として、検索クエリを入力したユーザのユーザ識別情報が一致する先の検索クエリを抽出する検索クエリ抽出手段の一例として機能する。
ユーザIDが一致する先の検索クエリが検索クエリログに存在する場合(ステップS42;YES)、関連語登録サーバ10は、受信時刻と先の検索クエリの受信時刻とが所定時間内か否かを判定する(ステップS43)。具体的には、関連語登録サーバ10のシステム制御部14は、受信した検索クエリの受信時刻と、先の検索クエリの受信時刻との差が、所定時間内(例えば、3秒〜60秒の間)にある先の検索クエリを抽出する。そして、関連語登録サーバ10のシステム制御部14は、先の検索クエリを抽出できた場合、先の検索クエリが所定時間内であると判定し、抽出できない場合、所定時間内でないと判定する。
ここで、所定時間内が、予め設定した検索クエリ抽出条件の一例である。これらのように、関連語登録サーバ10は、予め設定した検索クエリ抽出条件に基づいて、受信した検索クエリより受信時刻が早い先の検索クエリを、検索クエリ記憶手段から抽出する検索クエリ抽出手段の一例として機能する。また、関連語登録サーバ10は、検索クエリ抽出条件として、受信時刻が検索クエリの受信時刻から所定の時間内にある先の検索クエリを抽出する検索クエリ抽出手段の一例として機能する。
受信時刻と先の検索クエリの受信時刻とが所定時間内である場合(ステップS43;YES)、関連語登録サーバ10は、受信した検索ワードと、受信時刻が一番近い先の検索ワードとの文字列組を記憶する(ステップS44)。具体的には、関連語登録サーバ10のシステム制御部14は、抽出した先の検索クエリのうち、受信した検索クエリを構成する検索ワードと、受信時刻が一番近い先の検索クエリを構成する検索ワードを選択し、これら先の検索ワードと受信した検索ワードとの文字列組を文字列組DB12dに記憶する。
なお、関連語登録サーバ10のシステム制御部14は、予め設定した検索クエリ抽出条件の一例として、カテゴリ情報(例えば、トップカテゴリ)が一致した先の検索クエリに更に絞ってもよい。
次に、関連語登録サーバ10は、ユーザIDおよび受信時刻と対応付けて検索クエリを検索クエリログに記憶する(ステップS45)。具体的には、関連語登録サーバ10のシステム制御部14は、カテゴリ情報、ユーザID(IPアドレスでもよい)および受信時刻と対応付けて検索クエリを検索クエリログDB12aに記憶する。また、ユーザIDが一致する先の検索クエリが検索クエリログに存在しない場合(ステップS42;NO)、や、受信時刻と先の検索クエリの受信時刻とが所定時間内でない場合(ステップS43;NO)も、関連語登録サーバ10のシステム制御部14は、ユーザIDおよび受信時刻と対応付けて検索クエリを検索クエリログDB12aに記憶する。
このように関連語登録サーバ10は、抽出した先の検索クエリを構成する先の検索ワードと、受信した検索クエリを構成する検索ワードと、を文字列組として記憶する文字列組記憶手段の一例として機能する。
次に、情報提供サーバ20が商品の検索を行った後、検索結果として、図14に示すように、Webページ60の情報を、端末30に送信する。
次に、端末30は、Webページ60の情報を情報提供サーバ20から受信し、表示部33に表示させる。
ユーザAは、Webページ60の検索結果を見て、目的の商品がある場合は、商品表示欄63の商品をクリックするが、目的の商品がない場合は、さらに検索ワードを検索ワード入力欄61に入力し、検索ボタン62をクリックすると、端末30は、上述のように、検索ワード“▲▲ O■”とカテゴリ情報(”家電”)を含む検索クエリを情報提供サーバ20に送信する。そして、情報提供サーバ20は、この検索クエリを受信して、関連語登録サーバ10に送信し、検索を行う。関連語登録サーバ10は、上述のように、検索クエリを受信し(ステップS41)、ステップS42からステップS45の処理を行う。
他のユーザB等からの検索クエリに対しても上述の処理が行われ、カテゴリ情報や、ユーザID毎やIPアドレス毎と共に受信時刻と対応付けられた検索クエリの検索クエリログが検索クエリログDB12aに生成され、文字列を集めた文字列組集合が文字列組DB12dに生成される。
(4.2 関連語の登録)
次に、関連語の登録について、図15および図16を用いて説明する。
まず、図15に示すように、関連語登録サーバ10は、抽出開始条件を満たしたか否かを判定する(ステップS50)。具体的には、関連語登録サーバ10のシステム制御部14は、抽出開始条件の一例として、検索クエリログDB12aにおける検索クエリログの検索クエリ数(総検索クエリ数)や、文字列組DB12dに記憶された文字列組集合の要素数(文字列組集合の総数)が、所定の閾値を超えた否かを判定する。また、関連語登録サーバ10のシステム制御部14は、前回この文字列組抽出開始条件を満たしてから所定の時間を経過したか否かを判定してもよい。
抽出開始条件を満たした場合に(ステップS50;YES)、関連語登録サーバ10は、文字列組集合から先の検索ワードが同一である文字列組を抽出する(ステップS51)。具体的には、関連語登録サーバ10のシステム制御部14は、図16に示すように、文字列組DB12dから先の検索ワード71が同一(検索ワードが同一)である文字列組70を抽出する。抽出開始条件を満たしていない場合は(ステップS50;NO)、関連語登録の処理を終了する。
なお、関連語登録サーバ10のシステム制御部14は、予め設定した文字列組抽出開始条件に応じて文字列組DB12dから先の検索ワードが類似である文字列組を抽出してもよい。検索ワード同士が類似であるとは、例えば、Jaro−Winkler距離、レーベンシュタイン距離等の文字列間の距離に基づく類似度の値が所定閾値以上の場合である。例えば、関連語登録サーバ10のシステム制御部14は、先の検索ワード71と類似である先の検索ワード”▼▼●”を有する文字列組も抽出する。
このように関連語登録サーバ10は、予め設定した文字列組抽出開始条件に応じて、文字列組記憶手段から前記先の検索ワードが同一または類似である文字列組を抽出する文字列抽出手段の一例として機能する。
次に、関連語登録サーバ10は、抽出した文字列組の総数が所定以上か否かを判定する(ステップS52)。具体的には、関連語登録サーバ10のシステム制御部14は、ある先の検索ワード71に関する文字列組の総数が所定以上(例えば、3以上)か否かを判定する。図16に示すように、先の検索ワード71に関する文字列組は、<先の検索ワード71―検索ワード71>の文字列組70、<先の検索ワード71―検索ワード72>の文字列組70、<先の検索ワード71―検索ワード73>の文字列組70の計3個ある。
抽出した文字列組の総数が所定以上の場合(ステップS52;YES)、関連語登録サーバ10は、抽出した文字列組のうち登録条件を満たす文字列組があるか否かを判定する(ステップS53)。具体的には、関連語登録サーバ10のシステム制御部14は、登録条件の一例として、各文字列組70の数が所定の数以上(例えば、10以上)であるか否かを判定する。このように、関連語登録サーバ10のシステム制御部14は、先の検索ワード71が同一または類似である文字列組70において、同一または類似の検索ワード72、73、74を有する文字列組の数が、所定の閾値を超えたか否かを判定する。関連語登録サーバ10のシステム制御部14は、所定の閾値を超えた文字列組を関連語として特定する。なお、関連語登録サーバ10のシステム制御部14は、検索ワード73”▲▲▲”に類似する検索ワード”▲▲△”が存在するならば、同じ文字列組としてカウントしてもよい。
このように関連語登録サーバ10は、予め設定した登録条件に基づいて、抽出した文字列組から関連語となる文字列組を特定する関連語特定手段の一例として機能する。また、関連語登録サーバ10は、登録条件として、先の検索ワードが同一または類似である文字列組において、同一または類似の検索ワードを有する文字列組の数が、所定の閾値を超えた場合に、当該文字列組を関連語として特定する関連語特定手段の一例として機能する。
また、関連語登録サーバ10のシステム制御部14は、登録条件の一例として、先の検索ワード71が同一または類似である文字列組において、同一または類似の検索ワードを有する文字列組の割合が、所定の閾値(例えば80%)を超えた否かを判定してもよい。
このように関連語登録サーバ10は、登録条件として、先の検索ワードが同一または類似である文字列組において、同一または類似の検索ワードを有する文字列組の割合が、所定の閾値を超えた場合に、当該文字列組を関連語として特定する関連語特定手段の一例として機能する。
次に、登録条件を満たす文字列組がある場合(ステップS53;YES)、関連語登録サーバ10は、文字列組を関連語として登録する(ステップS54)。具体的には、関連語登録サーバ10のシステム制御部14は、図16に示すように、<先の検索ワード71―検索ワード71>の文字列組70は、3個(15%)で、<先の検索ワード71―検索ワード72>の文字列組70は、16個(80%)で、<先の検索ワード71―検索ワード73>の文字列組70は、1個(5%)であるので、<先の検索ワード71―検索ワード72>の文字列組70を、関連語として関連語DB12cに登録する。
このように関連語登録サーバ10は、特定された文字列組を関連語として登録する関連語登録手段の一例として機能する。
なお、登録条件を満たす文字列組がない場合(ステップS53;NO)、関連語登録サーバ10は、登録条件を満たさない文字列組が関連語DBに登録されているか否かを判定する(ステップS55)。具体的には、関連語登録サーバ10のシステム制御部14は、既に登録してある<先の検索ワード―検索ワード>の文字列組70の割合が、文字列組DB12dにおいて、減少して、所定の閾値(例えば80%)を切った否かを判定する。このようなことは、同一または類似の先の検索ワードを有する他の文字列組が増加した場合に発生する。
登録条件を満たさない場合(ステップS55;YES)、関連語登録サーバ10は、登録条件を満たさない文字列組を関連語DBから削除する(ステップS56)。具体的には、関連語登録サーバ10のシステム制御部14は、既に登録されている文字列組の中から、登録条件を満たさない文字列組を関連語DB12cから削除する。
ステップS54の後、関連語登録サーバ10は、全ての文字列組に対して抽出したか否かを判定する(ステップS57)。具体的には、関連語登録サーバ10のシステム制御部14は、文字列組DB12dの文字列組集合における全ての先の検索ワードに対して、ステップS51の文字列組の抽出処理を行ったか判定し、全ての文字列組に対して抽出していない場合(ステップS57;NO)、ステップS11に戻り、全ての文字列組に対して抽出している場合(ステップS57;YES)、関連語登録の処理を終了する。
以上、本実施形態によれば、ユーザが入力した検索ワードの検索クエリを受信し、受信した検索クエリより時間的に先に取得した先の検索クエリを、予め設定した検索クエリ抽出条件に基づいて検索クエリログから抽出し、抽出した先の検索クエリの先の検索ワードと、受信した検索クエリの検索ワードと、を文字列組として文字列組DB12dに記憶し、予め設定した文字列組抽出開始条件を満たした際に、先の検索ワードが同一または類似である文字列組を抽出し、予め設定した登録条件を満たす抽出した文字列組を関連語として関連語DB12cに登録することにより、受信した検索クエリと検索クエリ抽出条件に基づいた先の検索クエリとの文字列組が文字列組抽出開始条件で一定量蓄積され、この蓄積された文字列組の中から登録条件を満たす文字列組を関連語として関連語DB12cに登録するため、関連語の精度を向上させることができる。
また、関連語登録サーバ10が、ユーザ識別情報をさらに記憶し、検索クエリ抽出条件として、検索クエリを入力したユーザのユーザ識別情報が一致する先の検索クエリを抽出する場合、同一ユーザにおける文字列組が生成できるため、関連語の精度をより向上させることができる。
また、関連語登録サーバ10が、検索クエリ抽出条件として、受信時刻が検索クエリの受信時刻から所定の時間内にある先の検索クエリを抽出する場合、所定時間内にあり関連性が高い先の検索クエリを抽出できるため、関連語の精度をより向上させることができる。
また、関連語登録サーバ10が、カテゴリ情報をさらに記憶し、検索クエリ抽出条件として、カテゴリ情報に基づき、先の検索クエリを抽出する場合、カテゴリが同一または関連した検索ワード同士を文字列組にできるため、関連語の精度をより向上させることができる。
また、関連語登録サーバ10が、文字列組抽出開始条件として、文字列組集合の要素数が、所定の閾値を超えた場合に、文字列組を抽出すると、ある程度の規模の文字列組を蓄積でき、その中から、適切な文字列組を抽出できるため、関連語の精度をより向上させることができる。
また、関連語登録サーバ10が、登録条件として、先の検索ワードが同一または類似である文字列組において、同一または類似の検索ワードを有する文字列組の数が、所定の閾値を超えた場合に、文字列組を関連語として登録すると、精度の高い文字列組を選択でき、関連語の精度をより向上させることができる。
また、関連語登録サーバ10が、登録条件として、先の検索ワードが同一または類似である文字列組において、同一または類似の検索ワードを有する文字列組の割合が、所定の閾値を超えた場合に、当該文字列組を関連語として登録すると、精度の高い文字列組を選択でき、関連語の精度をより向上させることができる。
なお、関連語登録サーバ10が、ステップS51で、文字列組抽出開始条件として、検索クエリログDB12aにおける検索クエリ数が、所定の閾値を超えた場合に、文字列組を抽出してもよい。この場合、ある程度の規模の文字列組を蓄積でき、その中から、適切な文字列組を抽出できるため、関連語の精度をより向上させることができる。
また、関連語登録サーバ10が、ステップS50において、文字列組抽出開始条件を満たしてから所定の時間を経過した場合に、文字列組を抽出してもよい。この場合、ある程度の規模の文字列組を蓄積でき、その中から、適切な文字列組を抽出できるため、関連語の精度をより向上させることができる。
さらに、関連語登録システムにおける第1および第2実施形態の動作を組み合わせて、関連語を登録してもよい。この場合、第1実施形態の動作のように、文字列同士の距離が考慮された関連語と、第2実施形態の動作のように、検索クエリが使用された順序が考慮された関連語と、が区別できるように、関連語DB12cの中に、関連語データベースが構築されてもよい。
関連語データベースの活用方法として、例えば、まず、端末30において、「○▽」と入力されて検索が行われ場合、情報提供サーバ20が、関連語DB12cの中に第1実施形態の動作により構築された関連語データベースを参照して、図6に示すように、関連語として、”もしかして’○○▲’?”がWebページ40に表示される。次に、端末30において、”○○▲”が選択され検索が行なれた場合、情報提供サーバ20が、関連語DB12cの中に第2実施形態の動作により構築された関連語データベースを参照して、関連語として、”’・・・▲・’のことですか?”がWebページ40に表示されるようにしてもよい。
なお、このように段階的に関連語を表示する代わりに、これらの関連語を同時に表示させてもよい。
さらに、本発明は、上記各実施形態に限定されるものではない。上記各実施形態は、例示であり、本発明の特許請求の範囲に記載された技術的思想と実質的に同一な構成を有し、同様な作用効果を奏するものは、いかなるものであっても本発明の技術的範囲に包含される。
1:関連語登録システム
10:関連語登録サーバ(関連語登録装置)
12a:検索クエリログDB
12b:関連語候補DB
12c:関連語DB
12d:文字列組DB
20:情報提供サーバ(情報処理装置)
22a:商品DB
30:端末
上記課題を解決するために、請求項1に記載の発明は、検索クエリに関するログを記憶した検索クエリログから、所定の条件に基づいて関連語の候補を抽出して関連語候補集合を生成する関連語候補集合生成手段と、ユーザが入力した検索ワードの検索クエリを受信する受信手段と、前記検索ワードの文字列から部分文字列を生成する部分文字列生成手段と、前記生成された部分文字列に基づいて、前記関連語候補集合から候補文字列を抽出する候補文字列抽出手段と、前記候補文字列と前記検索ワードとの類似度、前記候補文字列の使用回数、および、前記候補文字列による検索の検索結果数とに基づいて、前記候補文字列の適否スコアを算出するスコア算出手段と、前記スコアの順に前記候補文字列に対するランキングを行うランキング手段と、前記候補文字列の適否スコアとランキングとに基づき、前記候補文字列を関連語として登録するか否かの判定基準として前記ランキングに対する適否スコアの基準ラインを生成する判定基準生成手段と、前記適否スコアと基準ラインとの乖離が予め設定された閾値以上である候補文字列を関連語として登録するための登録文字列として抽出する登録文字列抽出手段と、前記抽出された登録文字列と前記検索ワードとを、関連語データベースに関連語として登録する関連語登録手段と、を備え、前記部分文字列生成手段が、前記検索ワードの文字数に基づいて、前記部分文字列の長さ、および、前記部分文字列を生成する際の検索ワードの文字数の移動幅の少なくとも一方を設定し、当該設定された長さの部分文字列、および、当該設定された移動幅で部分文字列の少なくとも一方を生成することを特徴とする
請求項に記載の発明は、請求項1記載の関連語登録装置において、前記部分文字列生成手段が、前記検索ワードを表音変換させた検索ワードに対して、前記部分文字列を生成することを特徴とする。
請求項に記載の発明は、請求項1または請求項2に記載の関連語登録装置において、前記スコア算出手段の前記類似度と前記使用回数の情報とを調節するパラメータ調節手段を更に備えたことを特徴とする。
請求項に記載の発明は、請求項1から請求項のいずれか1項に記載の関連語登録装置において、前記判定基準生成手段が、前記ランキングと前記適否スコアとの関連を近似する近似関数より、または、所定の範囲の前記ランキングのデータより、前記基準ラインを求めることを特徴とする。
請求項に記載の発明は、請求項1から請求項のいずれか1項に記載の関連語登録装置において、前記登録文字列抽出手段が、抽出する前記登録文字列の数に上限を設けることを特徴とする。
請求項に記載の発明は、請求項1から請求項のいずれか1項に記載の関連語登録装置において、内部又は外部のECサイトにおいて販売されている商品に関連した検索ワードを記憶する検索ワード記憶手段を更に備えたことを特徴とする。
請求項に記載の発明は、請求項1から請求項のいずれか1項に記載の関連語登録装置において、前記スコア算出手段が、前記検索クエリに関するログのデータに基づき、前記適否スコアを算出すること特徴とする。
請求項に記載の発明は、請求項1から請求項のいずれか1項に記載の関連語登録装置の関連語データベースを参照して情報処理する情報処理装置であって、前記関連語データベースを参照して、前記受信した検索クエリの検索ワードに対応する関連語を抽出する関連語抽出手段と、前記関連語抽出手段により抽出された関連語を出力する関連語出力手段と、を備えたことを特徴とする。
請求項に記載の発明は、関連語を登録する関連語登録装置における関連語登録方法において、検索クエリに関するログを記憶した検索クエリログから、所定の条件に基づいて関連語の候補を抽出して関連語候補集合を生成する関連語候補集合生成ステップと、ユーザが入力した検索ワードの検索クエリを受信する受信ステップと、前記検索ワードの文字列から部分文字列を生成する部分文字列生成ステップと、前記生成された部分文字列に基づいて、前記関連語候補集合から候補文字列を抽出する候補文字列抽出ステップと、前記候補文字列と前記検索ワードとの類似度、前記候補文字列の使用回数、および、前記候補文字列による検索の検索結果数とに基づいて、前記候補文字列の適否スコアを算出するスコア算出ステップと、前記スコアの順に前記候補文字列に対するランキングを行うランキングステップと、前記候補文字列の適否スコアとランキングとに基づき、前記候補文字列を関連語として登録するか否かの判定基準として前記ランキングに対する適否スコアの基準ラインを生成する判定基準生成ステップと、前記適否スコアと基準ラインとの乖離が予め設定された閾値以上である候補文字列を関連語として登録するための登録文字列として抽出する登録文字列抽出ステップと、前記抽出された登録文字列と前記検索ワードとを、関連語データベースに関連語として登録する関連語登録ステップと、を含み、前記部分文字列生成ステップにおいて、前記検索ワードの文字数に基づいて、前記部分文字列の長さ、および、前記部分文字列を生成する際の検索ワードの文字数の移動幅の少なくとも一方を設定し、当該設定された長さの部分文字列、および、当該設定された移動幅で部分文字列の少なくとも一方を生成することを特徴とする
請求項1に記載の発明は、コンピュータを、検索クエリに関するログを記憶した検索クエリログから、所定の条件に基づいて関連語の候補を抽出して関連語候補集合を生成する関連語候補集合生成手段、ユーザが入力した検索ワードの検索クエリを受信する受信手段、前記検索ワードの文字列から部分文字列を生成する部分文字列生成手段、前記生成された部分文字列に基づいて、前記関連語候補集合から候補文字列を抽出する候補文字列抽出手段、前記候補文字列と前記検索ワードとの類似度、前記候補文字列の使用回数、および、前記候補文字列による検索の検索結果数とに基づいて、前記候補文字列の適否スコアを算出するスコア算出手段、前記スコアの順に前記候補文字列に対するランキングを行うランキング手段、前記候補文字列の適否スコアとランキングとに基づき、前記候補文字列を関連語として登録するか否かの判定基準として前記ランキングに対する適否スコアの基準ラインを生成する判定基準生成手段、前記適否スコアと基準ラインとの乖離が予め設定された閾値以上である候補文字列を関連語として登録するための登録文字列として抽出する登録文字列抽出手段、および、前記抽出された登録文字列と前記検索ワードとを関連語として関連語データベースに登録する関連語登録手段として機能させ、前記部分文字列生成手段が、前記検索ワードの文字数に基づいて、前記部分文字列の長さ、および、前記部分文字列を生成する際の検索ワードの文字数の移動幅の少なくとも一方を設定し、当該設定された長さの部分文字列、および、当該設定された移動幅で部分文字列の少なくとも一方を生成することを特徴とする。
請求項11に記載の発明は、コンピュータを、検索クエリに関するログを記憶した検索クエリログから、所定の条件に基づいて関連語の候補を抽出して関連語候補集合を生成する関連語候補集合生成手段、ユーザが入力した検索ワードの検索クエリを受信する受信手段、前記検索ワードの文字列から部分文字列を生成する部分文字列生成手段、前記生成された部分文字列に基づいて、前記関連語候補集合から候補文字列を抽出する候補文字列抽出手段、前記候補文字列と前記検索ワードとの類似度、前記候補文字列の使用回数、および、前記候補文字列による検索の検索結果数とに基づいて、前記候補文字列の適否スコアを算出するスコア算出手段、前記スコアの順に前記候補文字列に対するランキングを行うランキング手段、前記候補文字列の適否スコアとランキングとに基づき、前記候補文字列を関連語として登録するか否かの判定基準として前記ランキングに対する適否スコアの基準ラインを生成する判定基準生成手段、前記適否スコアと基準ラインとの乖離が予め設定された閾値以上である候補文字列を関連語として登録するための登録文字列として抽出する登録文字列抽出手段、および、前記抽出された登録文字列と前記検索ワードとを、関連語データベースに関連語として登録する関連語登録手段として機能させ、前記部分文字列生成手段が、前記検索ワードの文字数に基づいて、前記部分文字列の長さ、および、前記部分文字列を生成する際の検索ワードの文字数の移動幅の少なくとも一方を設定し、当該設定された長さの部分文字列、および、当該設定された移動幅で部分文字列の少なくとも一方を生成することを特徴とする関連語登録装置用のプログラムを記録する。
本発明によれば、字数が少なくなった部分文字列に基づいて関連語候補集合から候補文字列を抽出するため、候補文字列の適否スコアにより、不要な関連語の登録が抑制でき、関連語の精度を向上させることができる。

Claims (20)

  1. 検索クエリに関するログを記憶した検索クエリログから、所定の条件に基づいて関連語の候補を抽出して関連語候補集合を生成する関連語候補集合生成手段と、
    ユーザが入力した検索ワードの検索クエリを受信する受信手段と、
    前記検索ワードの文字列から部分文字列を生成する部分文字列生成手段と、
    前記生成された部分文字列に基づいて、前記関連語候補集合から候補文字列を抽出する候補文字列抽出手段と、
    前記候補文字列と前記検索ワードとの類似度、前記候補文字列の使用回数、および、前記候補文字列による検索の検索結果数とに基づいて、前記候補文字列の適否スコアを算出するスコア算出手段と、
    前記スコアの順に前記候補文字列に対するランキングを行うランキング手段と、
    前記候補文字列の適否スコアとランキングとに基づき、前記候補文字列を関連語として登録するか否かの判定基準として前記ランキングに対する適否スコアの基準ラインを生成する判定基準生成手段と、
    前記適否スコアと基準ラインとの乖離が予め設定された閾値以上である候補文字列を関連語として登録するための登録文字列として抽出する登録文字列抽出手段と、
    前記抽出された登録文字列と前記検索ワードとを、関連語データベースに関連語として登録する関連語登録手段と、
    を備えた関連語登録装置。
  2. 請求項1に記載の関連語登録装置において、
    前記部分文字列生成手段が、前記検索ワードの文字数に基づいて部分文字列の長さを設定し、当該設定された長さの部分文字列を生成することを特徴とする関連語登録装置。
  3. 請求項1に記載の関連語登録装置において、
    前記部分文字列生成手段が、前記検索ワードの文字数に基づいて部分文字列を生成する際の検索ワードの文字数の移動幅を設定し、当該設定された移動幅で部分文字列を生成することを特徴とする関連語登録装置。
  4. 請求項1から請求項3のいずれか1項に記載の関連語登録装置において、
    前記部分文字列生成手段が、前記検索ワードを表音変換させた検索ワードに対して、前記部分文字列を生成することを特徴とする関連語登録装置。
  5. 請求項1から請求項4のいずれか1項に記載の関連語登録装置において、
    前記スコア算出手段の前記類似度と前記使用回数の情報とを調節するパラメータ調節手段を更に備えたことを特徴とする関連語登録装置。
  6. 請求項1から請求項5のいずれか1項に記載の関連語登録装置において、
    前記判定基準生成手段が、前記ランキングと前記適否スコアとの関連を近似する近似関数より、または、所定の範囲の前記ランキングのデータより、前記基準ラインを求めることを特徴とする関連語登録装置。
  7. 請求項1から請求項6のいずれか1項に記載の関連語登録装置において、
    前記登録文字列抽出手段が、抽出する前記登録文字列の数に上限を設けることを特徴とする関連語登録装置。
  8. 請求項1から請求項7のいずれか1項に記載の関連語登録装置において、
    内部又は外部のECサイトにおいて販売されている商品に関連した検索ワードを記憶する検索ワード記憶手段を更に備えたことを特徴とする関連語登録装置。
  9. 請求項1から請求項8のいずれか1項に記載の関連語登録装置において、前記スコア算出手段が、前記検索クエリに関するログのデータに基づき、前記適否スコアを算出すること特徴とする関連語登録装置。
  10. 請求項1から請求項9のいずれか1項に記載の関連語登録装置において、
    前記受信した検索クエリを、受信順に従って記憶する検索クエリ記憶手段と、
    予め設定した検索クエリ抽出条件に基づいて、前記受信した検索クエリより受信順が早い先の検索クエリを、前記検索クエリ記憶手段から抽出する検索クエリ抽出手段と、
    前記抽出した先の検索クエリを構成する先の検索ワードと、前記受信した検索クエリを構成する検索ワードと、を文字列組として記憶する文字列組記憶手段と、
    予め設定した文字列組抽出開始条件に応じて、前記文字列組記憶手段から前記先の検索ワードが同一または類似である文字列組を抽出する文字列抽出手段と、
    予め設定した登録条件に基づいて、前記抽出した文字列組から関連語となる文字列組を特定する関連語特定手段と、
    を更に備え、
    前記関連語登録手段が、前記特定された文字列組を関連語として関連語データベースに登録することを特徴とする関連語登録装置。
  11. 請求項10に記載の関連語登録装置において、
    前記検索クエリ記憶手段は、ユーザ識別情報をさらに記憶し、
    前記検索クエリ抽出手段が、前記検索クエリ抽出条件として、前記検索クエリを入力したユーザのユーザ識別情報が一致する前記先の検索クエリを抽出することを特徴とする関連語登録装置。
  12. 請求項10または請求項11に記載の関連語登録装置において、
    前記検索クエリ抽出手段が、前記検索クエリ抽出条件として、前記検索クエリの受信時刻から所定の時間内に受信した先の検索クエリを抽出することを特徴とする関連語登録装置。
  13. 請求項10から請求項12のいずれか1項に記載の関連語登録装置において、
    前記検索クエリ記憶手段は、カテゴリ情報をさらに記憶し、
    前記検索クエリ抽出手段が、前記検索クエリ抽出条件として、前記カテゴリ情報に基づき、前記先の検索クエリを抽出することを特徴とする関連語登録装置。
  14. 請求項10から請求項13いずれか1項に記載の関連語登録装置において、
    前記文字列抽出手段が、前記文字列組抽出開始条件として、前記検索クエリ記憶手段における検索クエリ数が、または、前記文字列組集合の要素数が、所定の閾値を超えた場合に、前記文字列組を抽出することを特徴とする関連語登録装置。
  15. 請求項10から請求項13のいずれか1項に記載の関連語登録装置において、
    前記文字列抽出手段が、前記文字列組抽出開始条件を満たしてから所定の時間を経過した場合に、前記文字列組を抽出することを特徴とする関連語登録装置。
  16. 請求項10から請求項15のいずれか1項に記載の関連語登録装置において、
    前記関連語特定手段が、前記登録条件として、前記先の検索ワードが同一または類似である文字列組において、同一または類似の検索ワードを有する文字列組の数、または、同一または類似の検索ワードを有する文字列組の割合が、所定の閾値を超えた場合に、当該文字列組を関連語として特定することを特徴とする関連語登録装置。
  17. 請求項1から請求項16のいずれか1項に記載の関連語登録装置の関連語データベースを参照して情報処理する情報処理装置であって、
    前記関連語データベースを参照して、前記受信した検索クエリの検索ワードに対応する関連語を抽出する関連語抽出手段と、
    前記関連語抽出手段により抽出された関連語を出力する関連語出力手段と、
    を備えたことを特徴とする情報処理装置。
  18. 関連語を登録する関連語登録装置の関連語登録方法において、
    検索クエリに関するログを記憶した検索クエリログから、所定の条件に基づいて関連語の候補を抽出して関連語候補集合を生成する関連語候補集合生成ステップと、
    ユーザが入力した検索ワードの検索クエリを受信する受信ステップと、
    前記検索ワードの文字列から部分文字列を生成する部分文字列生成ステップと、
    前記生成された部分文字列に基づいて、前記関連語候補集合から候補文字列を抽出する候補文字列抽出ステップと、
    前記候補文字列と前記検索ワードとの類似度、前記候補文字列の使用回数、および、前記候補文字列による検索の検索結果数とに基づいて、前記候補文字列の適否スコアを算出するスコア算出ステップと、
    前記スコアの順に前記候補文字列に対するランキングを行うランキングステップと、
    前記候補文字列の適否スコアとランキングとに基づき、前記候補文字列を関連語として登録するか否かの判定基準として前記ランキングに対する適否スコアの基準ラインを生成する判定基準生成ステップと、
    前記適否スコアと基準ラインとの乖離が予め設定された閾値以上である候補文字列を関連語として登録するための登録文字列として抽出する登録文字列抽出ステップと、
    前記抽出された登録文字列と前記検索ワードとを、関連語データベースに関連語として登録する関連語登録ステップと、
    を含む関連語登録方法。
  19. コンピュータを、
    検索クエリに関するログを記憶した検索クエリログから、所定の条件に基づいて関連語の候補を抽出して関連語候補集合を生成する関連語候補集合生成手段、
    ユーザが入力した検索ワードの検索クエリを受信する受信手段、
    前記検索ワードの文字列から部分文字列を生成する部分文字列生成手段、
    前記生成された部分文字列に基づいて、前記関連語候補集合から候補文字列を抽出する候補文字列抽出手段、
    前記候補文字列と前記検索ワードとの類似度、前記候補文字列の使用回数、および、前記候補文字列による検索の検索結果数とに基づいて、前記候補文字列の適否スコアを算出するスコア算出手段、
    前記スコアの順に前記候補文字列に対するランキングを行うランキング手段、
    前記候補文字列の適否スコアとランキングとに基づき、前記候補文字列を関連語として登録するか否かの判定基準として前記ランキングに対する適否スコアの基準ラインを生成する判定基準生成手段、
    前記適否スコアと基準ラインとの乖離が予め設定された閾値以上である候補文字列を関連語として登録するための登録文字列として抽出する登録文字列抽出手段、および、
    前記抽出された登録文字列と前記検索ワードとを関連語として関連語データベースに登録する関連語登録手段として機能させる関連語登録装置用プログラム。
  20. コンピュータを、
    検索クエリに関するログを記憶した検索クエリログから、所定の条件に基づいて関連語の候補を抽出して関連語候補集合を生成する関連語候補集合生成手段、
    ユーザが入力した検索ワードの検索クエリを受信する受信手段、
    前記検索ワードの文字列から部分文字列を生成する部分文字列生成手段、
    前記生成された部分文字列に基づいて、前記関連語候補集合から候補文字列を抽出する候補文字列抽出手段、
    前記候補文字列と前記検索ワードとの類似度、前記候補文字列の使用回数、および、前記候補文字列による検索の検索結果数とに基づいて、前記候補文字列の適否スコアを算出するスコア算出手段、
    前記スコアの順に前記候補文字列に対するランキングを行うランキング手段、
    前記候補文字列の適否スコアとランキングとに基づき、前記候補文字列を関連語として登録するか否かの判定基準として前記ランキングに対する適否スコアの基準ラインを生成する判定基準生成手段、
    前記適否スコアと基準ラインとの乖離が予め設定された閾値以上である候補文字列を関連語として登録するための登録文字列として抽出する登録文字列抽出手段、および、
    前記抽出された登録文字列と前記検索ワードとを、関連語データベースに関連語として登録する関連語登録手段として機能させる関連語登録装置用のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2012533417A 2010-11-10 2011-11-07 関連語登録装置、情報処理装置、関連語登録方法、関連語登録装置用プログラム、および、記録媒体 Active JP5101759B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012533417A JP5101759B2 (ja) 2010-11-10 2011-11-07 関連語登録装置、情報処理装置、関連語登録方法、関連語登録装置用プログラム、および、記録媒体

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP2010252325 2010-11-10
JP2010252326 2010-11-10
JP2010252326 2010-11-10
JP2010252325 2010-11-10
PCT/JP2011/075572 WO2012063770A1 (ja) 2010-11-10 2011-11-07 関連語登録装置、情報処理装置、関連語登録方法、関連語登録装置用プログラム、および、記録媒体
JP2012533417A JP5101759B2 (ja) 2010-11-10 2011-11-07 関連語登録装置、情報処理装置、関連語登録方法、関連語登録装置用プログラム、および、記録媒体

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2012163636A Division JP5170804B2 (ja) 2010-11-10 2012-07-24 関連語登録装置、情報処理装置、関連語登録方法、関連語登録装置用プログラム、および、記録媒体

Publications (2)

Publication Number Publication Date
JP5101759B2 JP5101759B2 (ja) 2012-12-19
JPWO2012063770A1 true JPWO2012063770A1 (ja) 2014-05-12

Family

ID=46050916

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2012533417A Active JP5101759B2 (ja) 2010-11-10 2011-11-07 関連語登録装置、情報処理装置、関連語登録方法、関連語登録装置用プログラム、および、記録媒体
JP2012163636A Active JP5170804B2 (ja) 2010-11-10 2012-07-24 関連語登録装置、情報処理装置、関連語登録方法、関連語登録装置用プログラム、および、記録媒体

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2012163636A Active JP5170804B2 (ja) 2010-11-10 2012-07-24 関連語登録装置、情報処理装置、関連語登録方法、関連語登録装置用プログラム、および、記録媒体

Country Status (9)

Country Link
US (2) US8606565B2 (ja)
EP (2) EP2650805B1 (ja)
JP (2) JP5101759B2 (ja)
KR (2) KR101361403B1 (ja)
CN (2) CN103279557B (ja)
BR (2) BR112013011573B1 (ja)
CA (2) CA2817131C (ja)
ES (2) ES2577938T3 (ja)
WO (1) WO2012063770A1 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
CN103279557B (zh) 2010-11-10 2016-08-17 乐天株式会社 关联词登记装置、信息处理装置以及关联词登记方法
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US10261994B2 (en) * 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
JP6068901B2 (ja) * 2012-09-26 2017-01-25 京セラ株式会社 情報端末、音声操作プログラムおよび音声操作方法
JP6179971B2 (ja) * 2012-11-29 2017-08-16 Necソリューションイノベータ株式会社 情報提供装置及び情報提供方法
US9280536B2 (en) * 2013-03-28 2016-03-08 Hewlett Packard Enterprise Development Lp Synonym determination among n-grams
JP6342678B2 (ja) * 2014-03-07 2018-06-13 クラリオン株式会社 関連データ生成装置、関連データ生成方法およびプログラム
GB2549240A (en) * 2015-01-06 2017-10-18 What3Words Ltd A method for suggesting one or more multi-word candidates based on an input string received at an electronic device
GB2535439A (en) * 2015-01-06 2016-08-24 What3Words Ltd A method for suggesting candidate words as replacements for an input string received at an electronic device
JP6621652B2 (ja) * 2015-11-18 2019-12-18 シャープ株式会社 電子機器、およびその制御方法
CN109416803A (zh) * 2016-07-06 2019-03-01 万事达卡国际公司 通过对话界面提供销售信息和见解的方法和系统
CN106407764A (zh) * 2016-09-30 2017-02-15 深圳天珑无线科技有限公司 信息生成方法及装置
CN106528534A (zh) * 2016-11-09 2017-03-22 天津赛因哲信息技术有限公司 基于专有名词的关联词提取方法
US10719539B2 (en) * 2017-06-06 2020-07-21 Mastercard International Incorporated Method and system for automatic reporting of analytics and distribution of advice using a conversational interface
US11537644B2 (en) * 2017-06-06 2022-12-27 Mastercard International Incorporated Method and system for conversational input device with intelligent crowd-sourced options
JP6762678B2 (ja) * 2018-03-27 2020-09-30 日本電信電話株式会社 違法コンテンツ探索装置、違法コンテンツ探索方法およびプログラム
JP6947307B2 (ja) * 2018-07-25 2021-10-13 日本電信電話株式会社 解析装置、解析方法及び解析プログラム
JP7443667B2 (ja) * 2019-03-25 2024-03-06 カシオ計算機株式会社 検索装置、辞書検索プログラム、辞書検索方法
WO2020194576A1 (ja) * 2019-03-27 2020-10-01 三菱電機ビルテクノサービス株式会社 設備機器情報収集システム
JP7256935B2 (ja) * 2019-09-02 2023-04-13 富士通株式会社 辞書作成装置及び辞書作成方法
CN111261165B (zh) * 2020-01-13 2023-05-16 佳都科技集团股份有限公司 车站名称识别方法、装置、设备及存储介质
KR20210132855A (ko) * 2020-04-28 2021-11-05 삼성전자주식회사 음성 처리 방법 및 장치
US11776529B2 (en) * 2020-04-28 2023-10-03 Samsung Electronics Co., Ltd. Method and apparatus with speech processing
JP7426302B2 (ja) 2020-06-30 2024-02-01 日立建機株式会社 同義語生成装置、及び同義語生成プログラム
CN112818262B (zh) * 2021-01-28 2023-07-21 上海博泰悦臻网络技术服务有限公司 基于用户数据的地图poi搜索方法、系统、设备及介质

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6457004B1 (en) * 1997-07-03 2002-09-24 Hitachi, Ltd. Document retrieval assisting method, system and service using closely displayed areas for titles and topics
JP3219386B2 (ja) * 1997-12-26 2001-10-15 松下電器産業株式会社 情報フィルタ装置及び情報フィルタ方法
US6006225A (en) * 1998-06-15 1999-12-21 Amazon.Com Refining search queries by the suggestion of correlated terms from prior searches
JP3696745B2 (ja) * 1999-02-09 2005-09-21 株式会社日立製作所 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000268035A (ja) 1999-03-12 2000-09-29 Nippon Telegr & Teleph Corp <Ntt> 意味辞書登録装置
US6314419B1 (en) * 1999-06-04 2001-11-06 Oracle Corporation Methods and apparatus for generating query feedback based on co-occurrence patterns
DE19952769B4 (de) * 1999-11-02 2008-07-17 Sap Ag Suchmaschine und Verfahren zum Abrufen von Informationen mit Abfragen in natürlicher Sprache
JP4342753B2 (ja) * 2001-08-10 2009-10-14 株式会社リコー 文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体
US7308404B2 (en) * 2001-09-28 2007-12-11 Sri International Method and apparatus for speech recognition using a dynamic vocabulary
JP4226862B2 (ja) * 2002-08-29 2009-02-18 株式会社リコー 文書検索装置
US7885963B2 (en) * 2003-03-24 2011-02-08 Microsoft Corporation Free text and attribute searching of electronic program guide (EPG) data
US7454393B2 (en) * 2003-08-06 2008-11-18 Microsoft Corporation Cost-benefit approach to automatically composing answers to questions by extracting information from large unstructured corpora
US7636714B1 (en) * 2005-03-31 2009-12-22 Google Inc. Determining query term synonyms within query context
US8438142B2 (en) * 2005-05-04 2013-05-07 Google Inc. Suggesting and refining user input based on original user input
US7657518B2 (en) * 2006-01-31 2010-02-02 Northwestern University Chaining context-sensitive search results
JP2008250625A (ja) * 2007-03-30 2008-10-16 Nomura Research Institute Ltd 検索システム
CN100476800C (zh) * 2007-06-22 2009-04-08 腾讯科技(深圳)有限公司 一种切分索引分词的方法及系统
CN101206673A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 网络搜索过程中关键词的智能纠错系统及方法
US8346534B2 (en) * 2008-11-06 2013-01-01 University of North Texas System Method, system and apparatus for automatic keyword extraction
JP5364412B2 (ja) 2009-03-26 2013-12-11 富士通テン株式会社 検索装置
CN103279557B (zh) 2010-11-10 2016-08-17 乐天株式会社 关联词登记装置、信息处理装置以及关联词登记方法

Also Published As

Publication number Publication date
JP2013008372A (ja) 2013-01-10
KR101361403B1 (ko) 2014-02-11
JP5170804B2 (ja) 2013-03-27
EP2639705A4 (en) 2014-01-08
KR20130080059A (ko) 2013-07-11
CN103201737B (zh) 2016-06-29
EP2650805B1 (en) 2017-08-30
CA2822273A1 (en) 2012-05-18
BR112013011573B1 (pt) 2021-01-12
CN103279557B (zh) 2016-08-17
US8738366B2 (en) 2014-05-27
ES2642379T3 (es) 2017-11-16
JP5101759B2 (ja) 2012-12-19
BR112013011573A2 (pt) 2016-08-09
CN103201737A (zh) 2013-07-10
KR101368594B1 (ko) 2014-02-27
EP2639705B1 (en) 2016-04-13
EP2650805A2 (en) 2013-10-16
BR122013013420A2 (pt) 2019-08-06
US20130346391A1 (en) 2013-12-26
CN103279557A (zh) 2013-09-04
CA2817131A1 (en) 2012-05-18
US20130226563A1 (en) 2013-08-29
WO2012063770A1 (ja) 2012-05-18
CA2817131C (en) 2014-08-26
US8606565B2 (en) 2013-12-10
CA2822273C (en) 2014-09-23
BR122013013420B1 (pt) 2020-11-10
ES2577938T3 (es) 2016-07-19
KR20130083468A (ko) 2013-07-22
EP2650805A3 (en) 2014-01-08
EP2639705A1 (en) 2013-09-18

Similar Documents

Publication Publication Date Title
JP5170804B2 (ja) 関連語登録装置、情報処理装置、関連語登録方法、関連語登録装置用プログラム、および、記録媒体
US8868539B2 (en) Search equalizer
US8001135B2 (en) Search support apparatus, computer program product, and search support system
US9990442B2 (en) Method for determining relevant search results
US10691679B2 (en) Providing query completions based on data tuples
JP6506489B1 (ja) 特許評価判定方法、特許評価判定装置、および特許評価判定プログラム
JP2009252070A (ja) 検索クエリに関するスコアを算出する方法
EP2720156B1 (en) Information processing device, information processing method, program for information processing device, and recording medium
US9317606B1 (en) Spell correcting long queries
JP2017045196A (ja) 曖昧性評価装置、曖昧性評価方法、及び曖昧性評価プログラム
TWI529546B (zh) Information processing apparatus, information processing method and recording medium
WO2007124430A2 (en) Search techniques using association graphs
JP4839295B2 (ja) クエリ抽出方法、クエリ抽出装置およびクエリ抽出プログラム
WO2012052983A1 (en) Method for scoring and ranking search engine keywords at a website
JP2020021455A (ja) 特許評価判定方法、特許評価判定装置、および特許評価判定プログラム
JP2013109514A (ja) 関連ワード表示制御装置、関連ワード表示方法、及びプログラム
JP2012128802A (ja) 検索アルゴリズム評価システム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120904

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120926

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151005

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5101759

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250