WO2013122205A1

WO2013122205A1 - 辞書生成装置、辞書生成方法、辞書生成プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体

Info

Publication number: WO2013122205A1
Application number: PCT/JP2013/053695
Authority: WO
Inventors: 浩司村上
Original assignee: 楽天株式会社
Priority date: 2012-02-15
Filing date: 2013-02-15
Publication date: 2013-08-22
Also published as: EP2816491A1; JPWO2013122205A1; US9430793B2; EP2816491A4; JP5567749B2; US20150012264A1

Abstract

　一実施形態に係る辞書生成装置は、（Ａ）名詞連続を含む商品名／商品説明と、商品カテゴリと、当該商品の取扱店舗とをフィールドとして含む複数のレコードを記憶する商品データベースを参照して、各レコードの商品名／商品説明に含まれる名詞連続が商品カテゴリと対応して設定されているか否かを判定し、（Ｂ）そのような名詞連続を含むレコード中の取扱店舗の数をその商品カテゴリごとに計数して、各名詞連続の店舗の集約度を、計数した取扱店舗の数に基づいて算出し、（Ｃ）各商品カテゴリについての店舗の集約度に基づいて、名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定し、（Ｄ）該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定する判定部と、強制語と一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納する登録部とを備える。

Description

辞書生成装置、辞書生成方法、辞書生成プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体

　本発明の一形態は、商品カテゴリの判定に用いる辞書を生成するための装置、方法、プログラム、及び記録媒体に関する。

　インターネットを介して多くの仮想店舗が出店する、いわゆる仮想商店街では、各店舗で取引される商品に商品カテゴリ（以下では単に「カテゴリ」ともいう）が付与されることが多い。商品カテゴリを用いて商品を分類することで、仮想商店街の管理者は、各店舗が独自の販売計画に基づき仕入れるなどした膨大な商品を体系的に管理することができ、また、ユーザはカテゴリを用いて異なる店舗の商品を一度に検索し、比較することができる。例えば、下記特許文献１に記載の商品取引システムは、商品の種類を表す複数のカテゴリに対応する複数の検索データベースを有している。このシステムでは、各カテゴリに対応する検索データベース毎に、そのカテゴリの商品の仕様情報と商品の特徴を現す日常的な生活語とが対応付けられている。

特開２００７－２６４７４７号公報

　商品とカテゴリとの関連付けは店舗により行われることが多いが、店舗の担当者が間違ったカテゴリを商品に割り当ててしまうことがある。すると、商品情報が誤りを含んでしまい、ユーザがカテゴリから或る商品を検索する際に本来抽出されるべき商品が抽出されなくなってしまうなど、検索精度が低下することとなる。これは店舗が販売の機会を失ってしまうばかりでなく、間違ったカテゴリ登録が重なることにより仮想商店街全体における商品情報の使い勝手が著しく悪くなってしまうおそれがあることを意味する。

　このような状況を改善するために、正しい商品カテゴリ、すなわち商品に登録されるべき商品カテゴリに関する辞書を予め用意して、この辞書を参照しながら登録済の商品カテゴリの正否を判定し、必要に応じてそのカテゴリを修正することが考えられる。しかし、商品や商品カテゴリの種類は多岐にわたるので、その辞書を人手で作成するのは容易ではない。

　そこで、商品カテゴリの判定に用いる辞書を容易に生成することが要請されている。

　本発明の一形態に係る辞書生成装置は、（Ａ）名詞、名詞句又はそれらの連続である名詞連続を含む商品名及び／又は商品説明と、商品カテゴリと、当該商品の取扱店舗とをフィールドとして含む複数のレコードを記憶する商品データベースを参照して、各レコードの商品名及び／又は商品説明に含まれる名詞連続が商品カテゴリと対応して設定されているか否かを判定し、（Ｂ）商品カテゴリと対応して設定されている名詞連続を含むレコード中の取扱店舗の数をその商品カテゴリごとに計数して、商品カテゴリと対応して設定されている各名詞連続の店舗の集約度を、計数した取扱店舗の数に基づいて算出し、（Ｃ）各商品カテゴリについての店舗の集約度に基づいて、名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定し、（Ｄ）該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定する判定部と、強制語と一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納する登録部とを備える。

　本発明の一形態に係る辞書生成方法は、（Ａ）名詞、名詞句又はそれらの連続である名詞連続を含む商品名及び／又は商品説明と、商品カテゴリと、当該商品の取扱店舗とをフィールドとして含む複数のレコードを記憶する商品データベースを参照して、各レコードの商品名及び／又は商品説明に含まれる名詞連続が商品カテゴリと対応して設定されているか否かを判定し、（Ｂ）商品カテゴリと対応して設定されている名詞連続を含むレコード中の取扱店舗の数をその商品カテゴリごとに計数して、商品カテゴリと対応して設定されている各名詞連続の店舗の集約度を、計数した取扱店舗の数に基づいて算出し、（Ｃ）各商品カテゴリについての店舗の集約度に基づいて、名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定し、（Ｄ）該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定する判定ステップと、強制語と一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納する登録ステップとを含む。

　本発明の一形態に係る辞書生成プログラムは、（Ａ）名詞、名詞句又はそれらの連続である名詞連続を含む商品名及び／又は商品説明と、商品カテゴリと、当該商品の取扱店舗とをフィールドとして含む複数のレコードを記憶する商品データベースを参照して、各レコードの商品名及び／又は商品説明に含まれる名詞連続が商品カテゴリと対応して設定されているか否かを判定し、（Ｂ）商品カテゴリと対応して設定されている名詞連続を含むレコード中の取扱店舗の数をその商品カテゴリごとに計数して、商品カテゴリと対応して設定されている各名詞連続の店舗の集約度を、計数した取扱店舗の数に基づいて算出し、（Ｃ）各商品カテゴリについての店舗の集約度に基づいて、名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定し、（Ｄ）該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定する判定部と、強制語と一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納する登録部とをコンピュータに実行させる。

　本発明の一形態に係るコンピュータ読取可能な記録媒体は、（Ａ）名詞、名詞句又はそれらの連続である名詞連続を含む商品名及び／又は商品説明と、商品カテゴリと、当該商品の取扱店舗とをフィールドとして含む複数のレコードを記憶する商品データベースを参照して、各レコードの商品名及び／又は商品説明に含まれる名詞連続が商品カテゴリと対応して設定されているか否かを判定し、（Ｂ）商品カテゴリと対応して設定されている名詞連続を含むレコード中の取扱店舗の数をその商品カテゴリごとに計数して、商品カテゴリと対応して設定されている各名詞連続の店舗の集約度を、計数した取扱店舗の数に基づいて算出し、（Ｃ）各商品カテゴリについての店舗の集約度に基づいて、名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定し、（Ｄ）該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定する判定部と、強制語と一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納する登録部とをコンピュータに実行させる辞書生成プログラムを記憶する。

　このような形態によれば、名詞、名詞句又はそれらの連続する名詞連続を含む商品名及び／又は商品説明から１以上の商品カテゴリが特定され、その商品カテゴリのそれぞれについて店舗数が算出される。続いて、各商品カテゴリについて、どのくらい多くの店舗がその商品カテゴリを登録したかを示す指数、すなわち店舗の集約度が各カテゴリの店舗数に基づいて算出される。そして、この集約度に基づいて、一の商品カテゴリを一意に導く強制語が判定され、その強制語及び商品カテゴリが辞書情報として辞書データベースに登録される。このように、ある一つの語句（名詞、名詞句又はそれらの連続する名詞連続、以下、単に「名詞連続」と記す）に関する商品情報に対して、どのくらいの数の店舗がどの商品カテゴリを登録したかという点（店舗の集約度）に着目して辞書情報を生成することで、商品カテゴリの判定に用いる辞書情報を容易に生成することができる。

　別の形態に係る辞書生成装置では、判定部が、特定した各商品カテゴリについて名詞連続の出現回数を算出し、各商品カテゴリについての名詞連続の集約度を出現回数に基づいて算出し、各商品カテゴリについての店舗の集約度及び名詞連続の集約度に基づいて、名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定してもよい。この場合には、各商品カテゴリについての名詞連続の集約度にも着目することで、辞書情報の精度をより向上させることができる。

　更に別の形態に係る辞書生成装置では、判定部が、特定した各商品カテゴリについて、該商品カテゴリに対応する商品数を算出し、各商品カテゴリについての商品の集約度を商品数に基づいて算出し、各商品カテゴリについての店舗の集約度及び商品の集約度に基づいて、名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定してもよい。この場合には、各商品カテゴリについての商品の集約度にも着目することで、辞書情報の精度をより向上させることができる。

　更に別の形態に係る辞書生成装置では、判定部が、商品名に名詞連続を含む商品情報を登録した総店舗数を算出し、総店舗数が所定の閾値以下である場合には、名詞連続を強制語として判定しなくてもよい。これにより、名詞連続がある程度多くの店舗により用いられている場合に限ってその名詞連続が強制語になり得るので、辞書情報の精度をより向上させることができる。

　更に別の形態に係る辞書生成装置では、判定部が、不要語を記憶する不要語辞書を参照して、名詞連続が不要語と一致する場合には、名詞連続を強制語として判定しなくてもよい。このように、強制語として登録する必要がない名詞連続を除くことで、辞書情報の精度をより向上させることができる。

　更に別の形態に係る辞書生成装置では、判定部が、店舗の集約度が最も高い商品カテゴリを多数派カテゴリとして特定するとともに該集約度が該多数派カテゴリよりも低い商品カテゴリを少数派カテゴリとして特定し、該少数派カテゴリの商品名と該多数派カテゴリの商品名との間の語句の重複度を算出し、該重複度が所定の閾値以上である場合に、該多数派カテゴリが名詞連続から一意に導かれる商品カテゴリであると判定してもよい。このように、多数派カテゴリと少数派カテゴリとの間の語句の重複度に着目して、当該多数派カテゴリが強制語と関連付けられるか否かを判定することで、辞書情報の精度をより向上させることができる。

　更に別の形態に係る辞書生成装置では、判定部が、多数派カテゴリ及び少数派カテゴリの第Ｎ階層において重複度が所定の閾値以上である場合には、該多数派カテゴリの第Ｎ階層が名詞連続から一意に導かれると判定して、該多数派カテゴリの第（Ｎ＋１）階層において、多数派カテゴリ及び少数派カテゴリの特定と、重複度の算出と、該重複度に基づく判定とを繰り返してもよい。ここで、Ｎは１以上である。この場合には、カテゴリ・ツリーの最上位階層から順に１階層ずつ多数派カテゴリを確定させながら、強制語と関連付けられるべき商品カテゴリが探索されるので、当該商品カテゴリを的確に特定することができる。

　更に別の形態に係る辞書生成装置では、辞書情報で示される強制語を商品名に含む商品情報の商品カテゴリを、該辞書情報で示される商品カテゴリに更新する更新部を更に備え、更新部により商品情報が更新された後に、判定部、登録部、及び更新部による処理が繰り返し実行され、判定部が、店舗の集約度に関する閾値を前回の判定処理で用いられた値よりも小さく設定した上で、店舗の集約度に基づいて、名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定してもよい。この場合には、店舗の集約度に関する閾値を徐々に下げながら、生成された辞書情報を用いて商品情報の商品カテゴリを正しいものに更新する処理が繰り返される。このように、確度の高い強制語から順に、辞書情報を生成して商品情報を整理するという一連の処理を繰り返すことで、辞書情報の精度をより向上させることができる。

　更に別の形態に係る辞書生成装置では、判定部が、形態素解析により商品名から名詞連続を抽出してもよい。これにより、特別なルールや辞書を用意することなく名詞連続を抽出することができる。

　更に別の形態に係る辞書生成装置では、判定部が、名詞連続の抽出範囲を示す商品名の記載ルールを記憶するルール辞書を参照して、商品名から名詞連続を抽出してもよい。このようにルール辞書を用いることで、名詞連続を容易に抽出することができる。

　更に別の形態に係る辞書生成装置では、判定部が、不要語を記憶する不要語辞書を参照して、商品名から不要語以外の語句を抽出し、抽出された語句から名詞連続を抽出してもよい。このように不要語辞書を用いることで、名詞連続を容易に抽出することができる。

　更に別の形態に係る辞書生成装置では、登録部が、名詞連続と、商品カテゴリのうち一意に導かれる商品カテゴリ以外の商品カテゴリとが関連付けられた推薦情報を別の辞書データベースに格納してもよい。このように、名詞連続と関連する可能性がある商品カテゴリを辞書情報とは別に推薦情報として登録することで、商品カテゴリの選択の幅を広げることができる。

　更に別の形態に係る辞書生成装置では、判定部が、各商品カテゴリについての店舗の集約度に基づいて、名詞連続と店舗又は店舗カテゴリとの組から一意に導かれる一の商品カテゴリが存在するか否かを判定し、該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定し、登録部が、強制語と、店舗又は店舗カテゴリと、一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納してもよい。これにより、店舗の特性を考慮して辞書情報を設定することができる。

　更に別の形態に係る辞書生成装置では、判定部が、表記の揺れに関する情報を記憶する表記辞書を参照して商品名から名詞連続を抽出してもよい。これにより、表記揺れを吸収して辞書情報を生成することができる。

　更に別の形態に係る辞書生成装置では、判定部が、店舗の集約度が第１閾値より大きい商品カテゴリが一つのみ存在する場合には、名詞連続から一意に導かれる一の商品カテゴリが存在すると判定して、該名詞連続を該商品カテゴリの第１種強制語として判定し、店舗の集約度が第１閾値より大きい商品カテゴリが複数存在する場合には、該複数の商品カテゴリのそれぞれについて、該名詞連続が、第１種強制語よりも商品カテゴリの強制力が弱い第２種強制語、又は第２種強制語よりも商品カテゴリの強制力が弱い参考語であると判定し、登録部が、第１種強制語、第２種強制語又は参考語と商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納してもよい。この場合には、名詞連続を第１種及び第２種の強制語と、参考語とに分類することができるので、より細かい辞書情報を生成することができる。

　更に別の形態に係る辞書生成装置では、判定部が、店舗の集約度が第１閾値より大きい商品カテゴリの個数が１でない場合に、該商品カテゴリを除いた残りのカテゴリにおける名詞連続の登録店舗数が第２閾値より大きいか否かを判定し、登録店舗数が第２閾値より大きい場合には、名詞連続が不要語であると判定し、登録部が不要語を所定のデータベースに格納してもよい。この場合には、名詞連続を不要語としても登録することができる。

　更に別の形態に係る辞書生成装置では、登録部が、表記の揺れに関する情報を記憶する表記辞書を参照して強制語に対応する語句を抽出し、該強制語と、該対応する語句と、一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納してもよい。これにより、表記揺れを吸収して辞書情報を生成することができる。

　本発明の一側面によれば、商品カテゴリの判定に用いる辞書情報を容易に生成することができる。

実施形態に係る電子商取引（ＥＣ）システムの全体構成を示す図である。店舗情報の例を示す図である。商品情報の例を示す図である。辞書情報（強制語辞書）の例を示す図である。実施形態に係る辞書生成サーバのハードウェア構成を示す図である。第１及び第２実施形態に係る辞書生成サーバの機能構成を示すブロック図である。第１実施形態における辞書生成サーバの動作を示すフローチャートである。第１及び第２実施形態に係る辞書生成プログラムの構成を示す図である。（ａ），（ｂ）は、辞書情報（強制語辞書）の別の例を示す図である。第２実施形態における辞書生成サーバの動作を示すフローチャートである。第３実施形態に係る辞書生成サーバの機能構成を示すブロック図である。第３実施形態に係る辞書生成プログラムの構成を示す図である。第４及び第５実施形態に係る辞書生成サーバの機能構成を示すブロック図である。第４実施形態における辞書生成サーバの動作を示すフローチャートである。図１４における、名詞連続の重複度に基づく処理の詳細を示すフローチャートである。第４及び第５実施形態に係る辞書生成プログラムの構成を示す図である。第５実施形態における、名詞連続の重複度に基づく処理の詳細を示すフローチャートである。第６実施形態に係る辞書生成サーバの機能構成を示すブロック図である。第６実施形態に係る辞書生成プログラムの構成を示す図である。第７実施形態に係る辞書生成サーバの機能構成を示すブロック図である。第７実施形態に係る辞書生成サーバの動作を示すフローチャートである。第７実施形態に係る辞書情報（強制語辞書）の例を示す図である。

　以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。なお、図面の説明において同一又は同等の要素には同一の符号を付し、重複する説明を省略する。

　（第１実施形態）
　まず、図１～６を用いて、第１実施形態に係る辞書生成サーバ（辞書生成装置）１０の機能及び構成を説明する。辞書生成サーバ１０は、電子商取引（ＥＣ）システム１で用いられる辞書データベース２３を管理するコンピュータである。

　ＥＣシステム１は、ユーザ（一般消費者）に、複数の仮想店舗が出店する仮想商店街のウェブサイト（ＥＣサイト）を提供するコンピュータシステムである。ユーザはそのサイトを介して商品を検索したり、購入手続を行ったりすることができる。店舗運営者は販売する商品を仮想商店街の仮想店舗に登録し、ユーザが購入した商品をそのユーザに配送する。なお、商品の種類は限定されず、任意の有体物でもよいし、サービスなどの無体物でもよい。ＥＣシステム１は、辞書生成サーバ１０の他にＥＣサーバ９０、データベース群２０、各店舗運営者の端末、即ち店舗端末Ｔｓ、及び多数のユーザ端末Ｔｕを備えている。これらの装置は通信ネットワークＮを介して互いに接続されている。

　ＥＣサーバ９０は、ＥＣサイトを管理するコンピュータシステムである。ＥＣサーバ９０は、ユーザ端末Ｔｕからのリクエストに応じて、メインページや商品ページなどの各種ウェブページの提供、商品検索、購入処理の補助（店舗端末Ｔｓからの入力に基づく登録商品の追加や削除、決済手段の提供、ユーザへのポイント付与などを含む）などを実行する。また、ＥＣサーバ９０は、店舗端末Ｔｓからのリクエストに応じて、商品情報更新の処理（商品の登録や削除、在庫の追加など）を実行する。

　データベース群２０は、ＥＣシステム１で必要な各種データベースの集まりである。

　店舗端末Ｔｓは、仮想商店街に参加している店舗の運営者が所有するコンピュータである。店舗端末Ｔｓの種類は限定されず、例えば据置型又は携帯型のパーソナルコンピュータでもよいし、高機能携帯電話機（スマートフォン）や携帯電話機、携帯情報端末（ＰＤＡ）などの携帯端末でもよい。ＥＣシステム１内に存在する店舗端末Ｔｓの台数は限定されない。

　ユーザ端末Ｔｕは、ユーザ（一般消費者）が所有するコンピュータである。店舗端末Ｔｓと同様に、ユーザ端末Ｔｕの種類も限定されず、例えば据置型又は携帯型のパーソナルコンピュータでもよいし、高機能携帯電話機（スマートフォン）や携帯電話機、携帯情報端末（ＰＤＡ）などの携帯端末でもよい。ＥＣシステム１内に存在するユーザ端末Ｔｕの台数も限定されない。

　以上を前提として、辞書生成サーバ１０の詳細を説明する。まず、この辞書生成サーバ１０によりアクセスされる各種データベースについて詳しく説明する。

　店舗データベース２１は、仮想商店街内の各仮想店舗に関する店舗情報を記憶する手段である。店舗情報は、店舗を一意に特定するための店舗ＩＤと、その店舗の各種属性を示す属性情報とを含んでいる。属性情報は店舗の名称や住所、カテゴリ、ＵＲＬを含んでいるが、属性情報に含める情報は限定されない。店舗情報の例を図２に示す。この図から例えば、店舗ＩＤが「Ｓ００１」である店舗が「ＡＢショップ」であり、この店舗のカテゴリが「酒類」であることが分かる。なお、店舗カテゴリはツリー構造により体系的に管理されていてもよい。

　商品データベース２２は、各仮想店舗が販売する商品に関する商品情報を記憶する手段である。商品情報は、商品を提供する店舗（取扱店舗）の店舗ＩＤと、商品を一意に特定する商品ＩＤと、その商品の各種属性を示す属性情報とを含んでいる。属性情報は店舗の名称や価格、ＵＲＬ、在庫数、カテゴリを含んでいるが、属性情報に含める情報は限定されない。ここで、商品カテゴリとは商品の分類を示す概念である。商品情報は、店舗端末Ｔｓから送信された指示に基づいて新規登録、更新、あるいは削除される。ここで、商品名とは、商品の固有名称又は一般名称そのものというよりは、商品ページ（商品情報が掲載されたウェブページ）の商品名欄に表示されるタイトルであり、複数種類の商品に共通する語句（例えば、ブランド名やメーカ名、「送料無料」などの宣伝文句）も含むものである。

　商品情報の例を図３に示す。商品カテゴリとは、店舗により入力及び登録された商品カテゴリのことである。この例では、店舗ＩＤが「Ｓ００１」に対して、商品ＩＤが「Ｔ００２」である商品「ＢＢビール」が関連付けられており、この商品の商品カテゴリが「食品＞日本酒・焼酎」と指定されている。なお、商品カテゴリはツリー構造により体系的に管理されており、例えば「食品＞日本酒・焼酎＞」は、第１階層「食品」の下に位置する第２階層「日本酒・焼酎」を示している。

　本実施形態では、各店舗が商品の価格だけでなく商品ＩＤ及び登録カテゴリも独自に設定するので、同じ商品に対して店舗間で異なる商品ＩＤ及び登録カテゴリが割り当てられ得る。図３の例では、商品「ＡＡ酒」の商品ＩＤが、店舗「Ｓ００１」では「Ｔ００１」であるのに対して、店舗「Ｓ００２」では「Ｔ１０１」に設定されている。また、商品「ＣＣ水」について見ると、商品ＩＤ及び登録カテゴリの双方が店舗「Ｓ００１」及び「Ｓ００２」の間で異なっている。

　このように、全店舗が共通の商品ＩＤ及び商品カテゴリの使用を強制されない状況下では、後述する強制語辞書を用いて正しい商品カテゴリを判定することでＥＣサイト内の商品カテゴリの整合性を取ることが有効である。仮に商品ＩＤが全店舗共通であっても（例えば、ＪＡＮコードなどのバーコードに基づいて店舗共通の商品ＩＤを設定した場合でも）、各店舗が商品カテゴリを自由に設定できるのであれば、やはり強制語辞書を用いたカテゴリ判定は有効である。

　辞書データベース２３は、商品カテゴリの登録等に用いることが可能な強制語辞書を記憶する手段である。強制語辞書とは、強制語（Definitive Category Words (DCW)）と商品カテゴリとが関連付けられた辞書情報の集合であり、強制語とは、一の商品カテゴリを一意に特定する語句である。例えば、商品の固有名詞、メーカ名と商品の固有名詞との組合せ、物の一般名詞、一般名詞の連続などを強制語として設定することが考えられる。辞書生成サーバ１０はこの強制語辞書を生成する。

　強制語辞書の例を図４に示す。この例から、強制語「ＡＡ酒」には一つの商品カテゴリ「食品＞日本酒・焼酎」のみが関連付けられており、強制語「ＢＢビール」には一つの商品カテゴリ「食品＞ビール・洋酒」のみが関連付けられていることが分かる。なお、強制語に関連付けられる商品カテゴリは、カテゴリ・ツリーの末端に位置するリーフ・カテゴリ（leaf category）であってもよいし、最上位又は中位のカテゴリであってもよい。

　店舗データベース２１（店舗情報）、商品データベース２２（商品情報）、及び辞書データベース２３（辞書情報）の構成は図２～４に示すものに限定されず、各データベースに対して任意の正規化又は冗長化を行ってよい。

　なお、データベース群２０は、ユーザ情報（会員情報）を記憶するユーザデータベースや、各ユーザの購入履歴を記憶する購入履歴データベースなども含むが、強制語辞書の生成に直接関連しないこれらのデータベースについては、詳細な説明を省略する。

　次に、辞書生成サーバ１０の機能及び構成を説明する。辞書生成サーバ１０のハードウェア構成を図５に示す。この図に示すように、辞書生成サーバ１０は、オペレーティングシステムやアプリケーション・プログラムなどを実行するＣＰＵ１０１と、ＲＯＭ及びＲＡＭで構成される主記憶部１０２と、ハードディスクなどで構成される補助記憶部１０３と、ネットワークカードなどで構成される通信制御部１０４と、キーボードやマウスなどの入力装置１０５と、ディスプレイなどの出力装置１０６とを備えている。

　後述する辞書生成サーバ１０の各機能的構成要素は、ＣＰＵ１０１や主記憶部１０２の上に所定のソフトウェアを読み込ませ、ＣＰＵ１０１の制御の下で通信制御部１０４や入力装置１０５、出力装置１０６などを動作させ、主記憶部１０２や補助記憶部１０３におけるデータの読み出し及び書き込みを行うことで実現される。処理に必要なデータやデータベースは主記憶部１０２や補助記憶部１０３内に格納される。なお、図５では辞書生成サーバ１０が１台のコンピュータで構成されているように示しているが、辞書生成サーバ１０の機能を複数台のコンピュータに分散させてもよい。

　図６に示すように、辞書生成サーバ１０は機能的構成要素として抽出部１１、算出部１２、判定部１３、及び登録部１４を備えている。

　抽出部１１は、商品データベース２２に記憶されている商品情報の商品名から、一の名詞、一つの名詞句、又は連続して並んでいる複数の名詞又は名詞句（名詞又は名詞句の連続）を「名詞連続」として抽出する手段である。名詞連続は強制語の候補である。なお、以下では商品名から名詞連続を抽出することを前提とするが、抽出部１１は商品情報の商品名以外の項目（例えば商品説明）から名詞連続を抽出してもよい。

　名詞連続の抽出方法は限定されない。例えば、抽出部１１は形態素解析等を用いて商品名から名詞連続を抽出してもよい。これにより、特別なルールや辞書を用意することなく名詞連続を抽出することができる。商品名を構成する語句に、抽出すべき名詞連続として適さない宣伝文句などの販売情報がメタ情報として関連付けられているのであれば、抽出部１１はそのメタ情報を除去して名詞連続のみを選択してもよい。例えば、「送料無料」などのような宣伝文句は様々なカテゴリの様々な商品名に含まれるので強制語として適さないが、そのような宣伝文句をメタ情報により区別可能であれば、抽出部１１は宣伝文句以外の名詞連続のみを抽出する。

　更に別の手法として、抽出部１１は、商品名が所定のルールの下で記載されていることを前提として、そのルールに沿って名詞連続を抽出してもよい。この場合には、抽出部１１はそのルールを示す情報をルール辞書として予め保持している。例えば、商品名の記載ルール（あるいは抽出ルール）が「（ブランド名）＋（抽出対象の文字列）＋（除外すべき他の文字列）」であったとして、処理対象の商品名が「ブランドＸ　ＢＢビール　送料無料」であれば、抽出部１１はこのルールに基づいて商品名から「ＢＢビール」を名詞連続として抽出する。このようにルール辞書を用いることで、名詞連続を容易に抽出することができる。

　抽出部１１は抽出したすべての名詞連続のデータを算出部１２に出力する。

　算出部１２は、名詞連続が商品名に含まれる商品情報を商品データベース２２から読み出し、その商品情報に基づいて、辞書情報を生成する処理に必要な統計値を算出する手段である。算出部１２は入力された名詞連続のそれぞれについて以下の処理を実行する。

　まず、算出部１２は一の名詞連続が商品名に含まれる商品情報を商品データベース２２から読み出し、その商品情報に基づいて、ＴＦ（Term Frequency），ＣＴＦ（Term Frequency in the category），ＤＦ（Document frequency），ＣＤＦ（Document frequency in the category），ＭＦ（Merchant frequency），ＣＭＦ（Merchant frequency in the category）という各種の統計値を算出する。各統計値の定義を以下に示す。

　ＴＦは、読み出した商品情報（１以上のレコード）の商品名において（すなわち、読み出した全商品において）名詞連続が現われる回数である。ＣＴＦは、読み出した商品情報で示される商品カテゴリ毎に算出される値であって、ある１カテゴリに対応する商品名において名詞連続が現われる回数である。

　ＤＦは、商品名に名詞連続が含まれている商品を含む「カテゴリの数」である。ＣＤＦは、読み出した商品情報で示される商品カテゴリ毎に算出される値であって、ある１カテゴリに対応する商品数（レコード数）である。

　ＭＦは、読み出した商品情報を登録した店舗の数（すなわち、読み出した全商品に基づいてカウントされる店舗の数）である。ＣＭＦは、読み出した商品情報で示される商品カテゴリ毎に算出される値であって、ある１カテゴリに属する商品情報を登録した店舗の数である。

　算出部１２は名詞連続のそれぞれについて上記統計値を得ると、その統計データを判定部１３に出力する。

　判定部１３は、算出部１２により特定された各商品カテゴリについての統計値に基づいて、一の商品カテゴリを一意に導く名詞連続を強制語として判定する手段である。判定部１３は抽出された名詞連続のそれぞれについて以下の処理を実行する。

　判定部１３は、処理対象の名詞連続に対して、下記の五つの条件を満たす商品カテゴリを特定する。下記条件１～３は閾値を用いたフィルタリングであり、条件４は名詞連続そのものに関するフィルタリングであり、条件５は商品カテゴリそのものに関するフィルタリングであると言える。

　（条件１）ＭＦ＞閾値ＴＨａ
　（条件２）ＣＭＦ／ＭＦ＞閾値ＴＨｂ
　（条件３）ＣＴＦ／ＴＦ＞閾値ＴＨｃ
　（条件４）名詞連続が所定の語句（例えば、「～用」などの接尾辞や、型番などの数値表現）を含まないこと。
　（条件５）名詞連続に対応する商品カテゴリ（リーフ・カテゴリ（leaf category））の末尾が「その他」でないこと。

　条件１は、ある程度多くの店舗により用いられている名詞連続に限って強制語として扱うことを意図している。条件２は、どのくらい多くの店舗が名詞連続に対応する商品を特定の商品カテゴリに関連付けているかという点に着目して設けられた条件であり、店舗の集約度によるフィルタリングであると言える。条件３は、名詞連続が特定の商品カテゴリにどのくらい多く出現しているかという点に着目して設けられた条件であり、名詞連続の集約度によるフィルタリングであると言える。

　条件１～３における閾値ＴＨａ，ＴＨｂ，ＴＨｃの値は任意に定めてよい。例えば、ＴＨａを１０又は１と設定し、ＴＨｂを０．９又は０．８と設定し、ＴＨｃを０．８又は０．７と設定してもよい。また、条件３についてはＣＴＦ，ＴＦに代えてＣＤＦ，ＤＦを用いてもよく、この場合には、条件３はＣＤＦ／ＤＦ＞閾値ＴＨｄである。この条件は、名詞連続に対応する商品がどのくらい多く特定の商品カテゴリに含まれているかという点に着目して設けられたものであり、商品の集約度によるフィルタリングであると言える。なお、条件１，３を省略してもよい。

　条件４で示される除外対象の語句は、不要語データとして辞書生成サーバ１０内に予め記憶されている。この条件４は名詞連続そのものに関する条件であるので、この処理は上記の抽出部１１において行われてもよい。いずれにしろ、このような不要語辞書を用いることで、処理に必要な名詞連続のみを容易に抽出することができる。条件５は、様々な種類の商品が含まれ得る「その他」カテゴリを除くための条件である。なお、条件４，５も省略可能である。

　特定した商品カテゴリが一つのみであれば、判定部１３はその商品カテゴリが名詞連続から一意に導き出されるものである、言い換えれば、当該名詞連続を強制語として扱えると判定し、この名詞連続及び商品カテゴリのペアを登録部１４に出力する。一方、特定した商品カテゴリが複数であれば、判定部１３は名詞連続から一つの商品カテゴリを一意に導けない、すなわち、名詞連続を強制語として扱えないと判定して、登録部１４へデータを出力することなく処理を終了する。当然ながら、商品カテゴリを一つも特定できなかった場合にも、判定部１３は名詞連続を強制語として扱えないと判定する。

　登録部１４は、辞書情報を生成して辞書データベース２３（強制語辞書）に登録する手段である。登録部１４は判定部１３から入力された名詞連続（強制語）及び商品カテゴリのペアを辞書情報として辞書データベース２３に格納する。

　次に、図７を用いて、辞書生成サーバ１０の動作を説明するとともに本実施形態に係る辞書生成方法について説明する。

　まず、抽出部１１が商品データベース２２から読み出した商品情報から名詞連続を抽出する（ステップＳ１１、抽出ステップ）。上述したように、抽出部１１は様々な方法により名詞連続を抽出し得る。続いて、算出部１２が抽出された名詞連続のそれぞれについて統計値ＴＦ，ＣＴＦ，ＤＦ，ＣＤＦ，ＭＦ，ＣＭＦを算出する（ステップＳ１２、算出ステップ）。

　続いて、判定部１３が名詞連続のそれぞれについて上記の条件１～５によるフィルタリングを行って、名詞連続を強制語として認定するか否かを判定する（判定ステップ）。具体的には、ステップＳ１３におけるフィルタリングの結果、商品カテゴリが一つだけ存在する場合には（ステップＳ１４；「１」）、判定部１３はその名詞連続を強制語として認定する（ステップＳ１５）。この場合には、登録部１４がその名詞連続及び一の商品カテゴリを辞書情報として辞書データベース２３に格納する（ステップＳ１６、登録ステップ）。

　一方、フィルタリングの結果、商品カテゴリを一つも特定できなかった場合、あるいは商品カテゴリが複数残った場合には（ステップＳ１４；「０又は複数」）、判定部１３はその名詞連続を強制語して認定することなく、その時点で処理を終了する。

　判定部１３及び登録部１４によるステップＳ１３～Ｓ１６の処理は、一の商品情報から抽出されたすべての名詞連続に対して実行される（ステップＳ１７参照）。

　次に、図８を用いて、コンピュータを辞書生成サーバ１０として機能させるための辞書生成プログラムＰ１を説明する。

　辞書生成プログラムＰ１は、メインモジュールＰ１０、抽出モジュールＰ１１、算出モジュールＰ１２、判定モジュールＰ１３、及び登録モジュールＰ１４を備えている。

　メインモジュールＰ１０は、辞書生成機能を統括的に制御する部分である。抽出モジュールＰ１１、算出モジュールＰ１２、判定モジュールＰ１３、及び登録モジュールＰ１４を実行することにより実現される機能はそれぞれ、上記の抽出部１１、算出部１２、判定部１３、及び登録部１４の機能と同様である。

　辞書生成プログラムＰ１は、例えば、ＣＤ－ＲＯＭやＤＶＤ－ＲＯＭ、半導体メモリ等の有形の記録媒体に固定的に記録された上で提供される。また、辞書生成プログラムＰ１は、搬送波に重畳されたデータ信号として通信ネットワークを介して提供されてもよい。

　以上説明したように、本実施形態によれば、名詞連続を商品名に含む商品情報から１以上の商品カテゴリが特定され、名詞連続に関する統計値と、特定された商品カテゴリのそれぞれについての統計値とが算出される。これらの統計値には、少なくとも店舗数に関する値が含まれる。続いて、各商品カテゴリについて、どのくらい多くの店舗がその商品カテゴリを登録したかを示す指数、すなわち店舗の集約度がその統計値に基づいて算出される。そして、この集約度に基づいて、一の商品カテゴリを一意に導く強制語が判定され、その強制語及び商品カテゴリが辞書情報として辞書データベース２３に登録される。このように、ある一つの語句（名詞連続）に関する商品情報に対して、どのくらいの数の店舗がどの商品カテゴリを登録したかという点（店舗の集約度。ＣＭＦ／ＭＦ）に着目して、精度の良い辞書情報を容易に生成することができる。

　本実施形態において、各商品カテゴリについての名詞連続の集約度（ＣＴＦ／ＴＦ）又は商品の集約度（ＣＤＦ／ＣＦ）にも着目して強制語を判定すれば、辞書情報の精度をより向上させることができる。また、商品名に名詞連続を含む商品情報を登録した総店舗数（ＭＦ）が所定の閾値を超える場合に限ってその名詞連続が強制語になり得るので、辞書情報の精度をより向上させることができる。さらに、上記条件４を用いて、強制語として登録する必要がない名詞連続を除くことで、辞書情報の精度をより向上させることができる。

　このように自動的に生成された辞書情報を用いて、商品データベース２２内の商品情報を整理することができる。例えば、辞書情報を参照して商品情報の商品カテゴリを正しい値に更新することができる。また、店舗端末Ｔｓにおける商品情報の登録の際に強制語辞書を用いれば、店舗の管理者は自ら考えることなく正しい商品カテゴリを設定することができる。その結果、カテゴリ検索により本来抽出されるべき商品が検索されるようになり、店舗は販売機会をより確実に得ることができる。

　（第２実施形態）
　次に、図９，１０を用いて第２実施形態を説明する。本実施形態では、辞書生成サーバ１０は、店舗又は店舗カテゴリも考慮して強制語を特定する。以下では、第１実施形態と同一又は同様の事項については説明を省略し、本実施形態特有の事項について特に説明する。

　本実施形態では、同じ名詞連続でも店舗又は店舗カテゴリにより異なる商品カテゴリに関連し得る点を考慮して、辞書データベース２３（辞書情報）が図９に示すように構成される。図９（ａ）の例は店舗カテゴリ毎に強制語辞書を用意した場合であり、各レコードは店舗カテゴリ、強制語、及び商品カテゴリを含んでいる。図９（ｂ）の例は店舗毎に強制語辞書を用意した場合であり、各レコードは店舗ＩＤ、強制語、及び商品カテゴリを含んでいる。

　例えば、図９（ａ），（ｂ）の例では、長靴がファッションに関する商品にも、ＤＩＹ（日曜大工）に関する商品にもなり得ることを考慮して、強制語「長靴」に対しては、店舗カテゴリ又は店舗毎に異なる商品カテゴリが関連付けられている。すなわち、図９（ａ）では、日用品を扱う店舗の商品のカテゴリを判定する場合には、強制語「長靴」に対して一つの商品カテゴリ「ＤＩＹ＞ガーデン・ＤＩＹ」が対応し、ファッションを扱う店舗の商品のカテゴリを判定する場合には、強制語「長靴」に対して一つの商品カテゴリ「ファッション＞靴」が対応する。図９（ｂ）についても、図９（ａ）の場合と同様に、店舗ＩＤ「Ｓ１０１」の店舗と店舗ＩＤ「Ｓ２０１」の店舗とで、強制語「長靴」に対応する商品カテゴリが異なっている。

　このような辞書データベース２３を前提とした辞書生成サーバ１０の機能（図６参照）について説明する。以下では、第１実施形態と異なる判定部１３の機能について特に説明する。

　第１実施形態と同様に、判定部１３は処理対象の名詞連続に対して、上記の条件１～５を用いて商品カテゴリを特定する。そして、特定した商品カテゴリが一つのみであれば、判定部１３は各店舗ＩＤあるいは各店舗カテゴリにおいてその商品カテゴリが名詞連続から一意に導き出されるものであると判定する。そして、判定部１３はその名詞連続と、その商品カテゴリと、店舗ＩＤ又は店舗カテゴリとのペアを登録部１４に出力する。ここで、名詞連続及び特定した商品カテゴリに対応する店舗ＩＤ又は店舗カテゴリは、商品データベース２２及び／又は店舗データベース２１から取得すればよい。

　一方、特定した商品カテゴリが複数であれば、判定部１３は店舗データベース２１及び商品データベース２２を参照して、各商品カテゴリに対応する店舗ＩＤ又は店舗カテゴリを取得する。そして、判定部１３は各商品カテゴリについて、名詞連続と、該商品カテゴリと、対応する店舗ＩＤ又は店舗カテゴリとのペアを登録部１４に出力する。

　次に、図１０を用いて、本実施形態における辞書生成サーバ１０の動作及び辞書生成方法について説明する。第１実施形態と異なる点は、ステップＳ１４において、フィルタリングにより残った名詞連続及び商品カテゴリのペアが１以上見つかった場合の処理である。そのペアが１以上見つかった場合には（ステップＳ１４；「１又は複数」）、判定部１３はその名詞連続を強制語として認定する（ステップＳ１５）。そして、登録部１４が強制語と、一の商品カテゴリと、対応する店舗ＩＤ又は店舗カテゴリとのペアを辞書情報として辞書データベースに格納する（ステップＳ１６）。本実施形態では、登録部１４は一つの名詞連続について複数個の辞書情報を生成し得る。一方、商品カテゴリを一つも特定できなかった場合には（ステップＳ１４；「０」）、判定部１３はその名詞連続についての処理を終了する。

　以上説明した第２実施形態によっても、第１実施形態と同様の効果を得ることができる。また、本実施形態では店舗の特性を考慮して辞書情報を設定することができる。

　なお、一つの店舗が複数の店舗カテゴリを有している場合（一つの店舗ＩＤで特定される一つの店舗情報が複数の店舗カテゴリを含んでいる場合）にも本実施形態を適用できる。例えば、図９に示す二つの店舗カテゴリ「日用品」「ファッション」を有する店舗があり、名詞連続「長靴」についての処理が行われたとする。この場合にも、上記条件１～５のフィルタリングの結果次第で、強制語「長靴」に関する辞書情報がそれら二つの店舗カテゴリの双方について生成されるかもしれないし、それらの店舗カテゴリのどちらか一方についてのみ生成されるかもしれない。

　（第３実施形態）
　次に、図１１，１２を用いて第３実施形態を説明する。本実施形態では、辞書生成サーバ１０は生成した辞書情報に基づいて商品情報の商品カテゴリを更新する。そして、辞書生成サーバ１０は、更新後の商品データベース２２を用いて更なる辞書情報の生成を試みる。すなわち、辞書生成サーバ１０は、商品情報の商品カテゴリを正しいものに更新しながら、辞書情報を徐々に蓄積する。以下では、第１実施形態と同一又は同様の事項については説明を省略し、本実施形態特有の事項について特に説明する。

　図１１に示すように、辞書生成サーバ１０は更に更新部１５を備えている。更新部１５は、生成された辞書情報に基づいて商品データベース２２の商品情報を更新する手段である。更新部１５は、今回生成された１以上の辞書情報のそれぞれについて、以下の処理を行う。

　まず、更新部１５は辞書情報で示される強制語を商品名に含み、且つ商品カテゴリがその辞書情報で示されるものと異なる商品情報を特定する。続いて、更新部１５は特定した商品情報の商品カテゴリ（誤り又はノイズと推定される商品カテゴリ）を、その辞書情報で示されている商品カテゴリ（本来登録されるべき商品カテゴリ）で更新する。今回生成された辞書情報のすべてについての更新処理が完了すると、更新後の商品データベース２２に基づいて、抽出部１１から始まる一連の処理（辞書情報の生成及び商品データベースの更新）が繰り返される。

　当該一連の処理が実行される度に、判定部１３は、上記の条件２で用いられる閾値ＴＨｂ、すなわち店舗の集約度に関する閾値を徐々に下げて行く。例えば、判定部１３は１巡目の処理ではＴＨｂ＝１．０とし、２巡目以降はＴｈｂを所定の値ずつ（例えば、０．１ずつ、０．０５ずつ）下げる。

　コンピュータを本実施形態の辞書生成サーバ１０として機能させるための辞書生成プログラムＰ１は図１２の通りである。本実施形態では、辞書生成プログラムＰ１は更新モジュールＰ１５を更に備える。更新モジュールＰ１５を実行することにより実現される機能は上記更新部１５の機能と同様である。

　以上説明した第３実施形態によっても、第１実施形態と同様の効果を得ることができる。更に本実施形態では、店舗の集約度（ＣＭＦ／ＭＦ）に関する閾値を徐々に下げながら、生成された辞書情報を用いて商品情報の商品カテゴリを正しいものに更新する処理が繰り返される。このように、確度の高い強制語から順に、辞書情報を生成して商品情報を整理するという一連の処理を繰り返すことで、辞書情報の精度をより向上させることができる。

　繰り返し処理により辞書情報を生成する手法は第２実施形態にも同様に適用できる。この場合には、更新部１５は一の辞書情報で示される強制語を商品名に含み、店舗ＩＤがその辞書情報で示される店舗ＩＤ又は店舗カテゴリに対応し、且つ商品カテゴリがその辞書情報で示されるものと異なる商品情報について、商品カテゴリの更新を実行する。したがって、更新部１５はこの特定処理において店舗データベース２１を必要に応じて参照する。

　（第４実施形態）
　次に、図１３～１６を用いて第４実施形態を説明する。本実施形態に係る辞書生成サーバ３０は、商品名の一部として使われている語句がカテゴリ間でどのくらい重複するかという点も考慮して強制語を特定する。以下では、第１実施形態と同一又は同様の事項については説明を省略し、本実施形態特有の事項について特に説明する。

　辞書生成サーバ３０のハードウェア構成は図５に示すものと同じである。図１３に示すように、辞書生成サーバ３０は機能的構成要素として抽出部３１、算出部３２、第１判定部３３、第２判定部３４、及び登録部３５を備えている。抽出部３１、算出部３２、及び登録部３５の機能は第１実施形態における抽出部１１、算出部１２、及び登録部１４の機能と同様であるので、以下では第１判定部３３及び第２判定部３４について特に説明する。

　第１判定部３３は、算出部３２により特定された各商品カテゴリについての統計値に基づいて、一の商品カテゴリを一意に導く可能性がある名詞連続を候補語として判定する手段である。第１判定部３３は名詞連続のそれぞれについて以下の処理を実行する。

　第１判定部３３は、上記の判定部１３と同様に上記条件１～５によるフィルタリングを行い、処理対象の名詞連続に対応する商品カテゴリを特定する。そして、特定した商品カテゴリが一つのみであれば、第１判定部３３はその名詞連続を「候補語」とし、その商品カテゴリを「多数派カテゴリ」として認定する。そして、第１判定部３３はその候補語及び多数派カテゴリのペアを第２判定部３４に出力する。一方、特定した商品カテゴリが複数であれば、第１判定部３３は名詞連続から一つの商品カテゴリを一意に導けない、すなわち、名詞連続を強制語として扱えないと判定して、第２判定部３４へデータを出力することなく処理を終了する。商品カテゴリを一つも特定できなかった場合にも、第１判定部３３は名詞連続を強制語として扱えないと判定する。

　第２判定部３４は、商品カテゴリ間の語句の重複度に基づいて、候補語を最終的に強制語とするか否かを判定する手段である。第２判定部３４は各候補語について以下の処理を実行する。

　まず、第２判定部３４は候補語が商品名に含まれる商品情報を商品データベース２２から読み出し、その商品情報で示されている１以上の商品カテゴリを特定する。特定した商品カテゴリには、多数派カテゴリ以外の商品カテゴリが含まれるが、第２判定部３４は当該他の商品カテゴリを「少数派カテゴリ」と認定する。

　続いて、第２判定部３４は商品カテゴリのカテゴリ・ツリーの最上位（第１階層）から順に１階層ずつ下がりながら、多数派カテゴリと各少数派カテゴリとの間で名詞連続（候補語及びそれ以外の名詞連続）がどのくらい重複するかを判定する。すなわち、第２判定部は名詞連続の重複度を判定する。以下では、商品カテゴリの第Ｎ階層を「商品カテゴリ［Ｎ］」ともいう。

　第１階層に対する第２判定部３４の処理を説明する。例えば、候補語に対応する多数派カテゴリ［１］が「日本酒・焼酎」である一方で、「ビール・洋酒」、「レディス・ファッション」、「メンズ・ファッション」が少数派カテゴリ［１］として存在すると仮定する。

　この場合に、第２判定部３４は、多数派カテゴリ［１］に含まれるすべての商品の名詞連続の群と、少数派カテゴリ［１］に含まれる個々の商品の名詞連続の群とが重複する程度（重複度又は重複率）Ｄ＝（Ａ∩Ｂ）／｜Ａ｜を算出する。なお、重複度Ｄを得るための式はこれに限定されない。この重複度Ｄは各少数派カテゴリ［１］の各商品について算出される。変数Ａは、少数派カテゴリ［１］に属し且つ候補語が商品名に含まれる１商品の商品名から抽出した名詞連続の群を示す。変数Ｂは、多数派カテゴリ［１］に属し且つ候補語が商品名に含まれる全商品の商品名から抽出した名詞連続の群を示す。（Ａ∩Ｂ）は、二つの群Ａ，Ｂの双方に現われる名詞の個数である。｜Ａ｜は、群Ａを構成する名詞の個数である。

　重複度Ｄが所定の閾値ＴＨｆ（例えばＴＨｆ＝０．７）以上であれば、第２判定部３４は、少数派カテゴリ［１］に属するその商品が当該少数派カテゴリ［１］ではなく多数派カテゴリ［１］に属するべきであると判定し、候補語をそのまま保持する。一方、重複度Ｄが閾値ＴＨｆ未満であれば、第２判定部３４は、その商品が少数派カテゴリ［１］に属するべきである（すなわち、その商品について正しい商品カテゴリが設定されている）と判定する。この判定は、候補語が多数派カテゴリ［１］だけでなくその少数派カテゴリ［１］にも関連し得ることを意味する。したがって、第２判定部３４は候補語を強制語として認定することなく、この候補語に関する処理を終了する。

　ここで、重複度の計算例を示す。例えば、候補語をＣＷとして、群Ａには候補語ＣＷと、他の名詞連続ｗ１，ｗ２とが含まれているとする。一方、群Ｂには、候補語ＣＷと、他の名詞連続ｗ１，ｗ２，ｗ３，ｗ４，ｗ５，ｗ６，ｗ７，ｗ８，ｗ９とが含まれているとする。この場合には｜Ａ｜＝３である。一方、群Ａに含まれる語句ＣＷ，ｗ１，ｗ２はすべて群Ｂにも存在するので、（Ａ∩Ｂ）＝３である。したがって、この場合の重複度Ｄは３／３＝１．０である。閾値ＴＨｆを０．７とすればＤ≧ＴＨｆであるので、第２判定部３４は、群Ａに対応する商品が多数派カテゴリに属するべきであると判定し、候補語ＣＷを保持し続ける。

　これに対して、群Ａには候補語ＣＷと他の名詞連続ｗ１，ｗ１０とが含まれており、群Ｂには候補語ＣＷと他の名詞連続ｗ１，ｗ２，ｗ３，ｗ４，ｗ５，ｗ６，ｗ７，ｗ８，ｗ９とが含まれているとする。この場合も｜Ａ｜＝３である。一方、群Ａ，Ｂの双方に含まれる語句は二つ（ＣＷ及びｗ１）なので、（Ａ∩Ｂ）＝２である。したがって、この場合の重複度Ｄは２／３＝０．６６である。閾値ＴＨｆを０．７とすればＤ＜ＴＨｆであるので、第２判定部３４は、群Ａに対応する商品がそのまま少数派カテゴリに属するべきであり、候補語ＣＷは強制語ではないと判定する。

　第２判定部３４は各少数派カテゴリ［１］の各商品について重複度Ｄに基づく判定を行い、候補語を最後まで保持し続けることができていれば、第２判定部３４は次に多数派カテゴリの第２階層について名詞連続の重複度を判定する。ここでは、候補語に対応する多数派カテゴリ［２］が「日本酒・焼酎＞日本酒」である一方で、「日本酒・焼酎＞焼酎」、「日本酒・焼酎＞梅酒」、「日本酒・焼酎＞その他」が少数派カテゴリ［２］として存在すると仮定する。

　この場合に、第２判定部３４は第１階層における処理と同様に、商品名に含まれている名詞連続が多数派カテゴリ［２］と少数派カテゴリ［２］との間で重複して用いられている程度（重複度）Ｄ＝（Ａ∩Ｂ）／｜Ａ｜を算出する。この場合には、変数Ａは、少数派カテゴリ［２］に属し且つ候補語が商品名に含まれる１商品の商品名から抽出した名詞連続の群である。また、変数Ｂは、多数派カテゴリ［２］に属し且つ候補語が商品名に含まれる全商品の商品名から抽出した名詞連続の群である。

　第２判定部３４は各少数派カテゴリ［２］の各商品について重複度Ｄ及び閾値ＴＨｆに基づく判定を行う。そして、候補語を最後まで保持し続けることができていれば、第２判定部３４は次に多数派カテゴリの第３階層について名詞連続の重複度を判定する。

　一方、第２階層における判定処理の途中で、Ｄ＜ＴＨｆである商品が見つかった場合には、第２判定部３４は、第２階層以下を考慮すると候補語を強制語として認定することはできない。しかし、第１階層においては候補語から多数派カテゴリ［１］を一意に特定できるので、第２判定部３４は、その候補語を強制語として認定し、当該強制語と当該多数派カテゴリ［１］とのペアを登録部１４に出力する。この場合には、第２判定部３４は、リーフ・カテゴリに至るまでの途中のカテゴリ（上位又は中位のカテゴリ）を一意に導き出せる強制語を認定したことになる。

　このように、少数派カテゴリには、ノイズであって多数派カテゴリに変更すべきものと、ノイズではなく多数派カテゴリに変えるべきでないものとがあり、第２判定部３４は、処理している少数派カテゴリがどちらの場合に該当するかを個々の商品毎に比較する。第２判定部３４は上述した処理を、場合によっては最下層の商品カテゴリ（リーフ・カテゴリ）まで繰り返し行うことで、候補語を強制語として扱えるか否かを判定する。第２判定部３４の処理は以下のようにまとめることができる。

　・多数派カテゴリ［Ｎ］に含まれるすべての商品の名詞連続の群と、各少数派カテゴリ［Ｎ］の各商品の名詞連続の群との間で名詞連続の重複度が高ければ、第２判定部３４は多数派カテゴリ［Ｎ＋１］での処理を行う。ただし、この場合に第Ｎ階層がリーフ・カテゴリであれば、第２判定部３４は候補語をリーフ・カテゴリに対する強制語として認定する。
　・第Ｎ階層において多数派カテゴリとの間で名詞連続の重複度が低い少数派カテゴリが存在すれば、第２判定部３４は候補語を多数派カテゴリ［Ｎ－１］に対する強制語として認定する。ただし、この場合にＮ＝１であれば、第２判定部３４はその候補語を棄却する。あるいは、Ｎ＝１である場合に第２判定部３４はその候補語を不要語辞書に登録してもよい。

　次に、図１４，１５を用いて、辞書生成サーバ３０の動作を説明するとともに本実施形態に係る辞書生成方法について説明する。ただし、ステップＳ２１～２４，Ｓ２７の処理は第１実施形態（図７）におけるステップ１１～１４，Ｓ１７の処理と同様であるので、以下では、第１実施形態と異なるステップＳ２５，Ｓ２６の処理についてのみ説明する。

　フィルタリングの結果、名詞連続に対して一の商品カテゴリのみを特定できた場合には（ステップＳ２４；「１」）、判定部１３はその名詞連続及び商品カテゴリをそれぞれ候補語及び多数派カテゴリとして認定する（ステップＳ２５）。この場合には、多数派カテゴリと少数派カテゴリとの間の名詞連続の重複度を更に考慮して、強制語の判定と辞書情報の登録とが行われる（ステップＳ２６）。

　ステップＳ２６の詳細は図１５に示す通りである。まず、第２判定部３４は候補語に対応する商品情報に基づいて少数派カテゴリ［Ｎ］を特定する（ステップＳ２６１）。なお、Ｎの初期値は１である。続いて、第２判定部３４は多数派カテゴリ［Ｎ］に含まれるすべての商品の名詞連続の群と一の少数派カテゴリ［Ｎ］の一の商品との重複度Ｄ＝（Ａ∩Ｂ）／｜Ａ｜を算出し（ステップＳ２６２）、その重複度が所定の閾値以上であれば（ステップＳ２６３；ＹＥＳ）、その候補語をそのまま保持しつつ（ステップＳ２６４）、比較対象となる更なる商品についてステップＳ２６２～Ｓ２６４の処理を実行する（ステップＳ２６５参照）。各少数派カテゴリ［Ｎ］の各商品について処理した結果、候補語を保持し続けることができた場合には、第２判定部３４は多数派カテゴリ［Ｎ］がリーフ・カテゴリであるか否かを判定する（ステップＳ２６６）。

　多数派カテゴリ［Ｎ］がリーフ・カテゴリでなければ（ステップＳ２６６；ＮＯ）、第２判定部３４は次の第（Ｎ＋１）階層において上記ステップＳ２６１～Ｓ２６５の処理を実行する（ステップＳ２６７）。多数派カテゴリ［Ｎ］がリーフ・カテゴリであれば（ステップＳ２６６；ＹＥＳ）、第２判定部３４は候補語を強制語として認定し（ステップＳ２６８）、登録部３５が該強制語と多数派カテゴリ［Ｎ］とのペアを辞書情報として辞書データベースに格納する（ステップＳ２６９）。

　以上に対して、重複度が閾値未満である場合には（ステップＳ２６３；ＮＯ）、現在処理している階層に応じて処理が実行される。具体的には、第２階層若しくはそれ以下の階層において重複度を判定していたのであれば（ステップＳ２７０；ＹＥＳ）、第２判定部３４は候補語を強制語として認定し（ステップＳ２７１）、登録部３５が該候補語と多数派カテゴリ［Ｎ－１］（すなわち、一つ上の階層のカテゴリ）とのペアを辞書情報として辞書データベースに格納する（ステップＳ２７２）。一方、第１階層において重複度を判定していたのであれば（ステップＳ２７０；ＮＯ）、第２判定部３４は辞書情報を生成することなく処理を終了する。

　次に、図１６を用いて、コンピュータを辞書生成サーバ３０として機能させるための辞書生成プログラムＰ２を説明する。

　辞書生成プログラムＰ２は、メインモジュールＰ２０、抽出モジュールＰ２１、算出モジュールＰ２２、第１判定モジュールＰ２３、第２判定モジュールＰ２４、及び登録モジュールＰ２５を備えている。

　メインモジュールＰ２０は、辞書生成機能を統括的に制御する部分である。抽出モジュールＰ２１、算出モジュールＰ２２、第１判定モジュールＰ２３、第２判定モジュールＰ２４、及び登録モジュールＰ２５を実行することにより実現される機能はそれぞれ、上記の抽出部３１、算出部３２、第１判定部３３、第２判定部３４、及び登録部３５の機能と同様である。

　辞書生成プログラムＰ２も、上記の辞書生成プログラムＰ１と同様に様々な方法で配布しうる。

　以上説明した第４実施形態によっても、第１実施形態と同様の効果を得ることができる。加えて、本実施形態では、多数派カテゴリと少数派カテゴリとの間の語句の重複度に着目して、当該多数派カテゴリが強制語と関連付けられるか否かを判定することで、辞書情報の精度をより向上させることができる。より具体的には、カテゴリ・ツリーの最上位階層から順に１階層ずつ多数派カテゴリを確定させながら、強制語と関連付けられるべき商品カテゴリを探索されるので、当該商品カテゴリを的確に特定することができる。

　（第５実施形態）
　次に、図１７を用いて第５実施形態を説明する。本実施形態は第４実施形態に第２実施形態の技術思想を取り込んだものであり、辞書生成サーバ３０は、店舗又は店舗カテゴリも考慮して強制語を特定する。以下では、第４実施形態と同一又は同様の事項については説明を省略し、本実施形態特有の事項について特に説明する。

　本実施形態では、同じ語句でも店舗又は店舗カテゴリにより異なる商品カテゴリに関連し得る点を考慮して、辞書データベース２３（辞書情報）が第２実施形態（図９）と同様に構成される。

　このような辞書データベース２３を前提とした辞書生成サーバ３０の機能について説明する。以下では、第３実施形態と異なる第２判定部３４の機能について特に説明する。

　まず、第２判定部３４は候補語が商品名に含まれる商品情報を商品データベース２２から読み出して少数派カテゴリを特定する。続いて、第２判定部３４は商品カテゴリのカテゴリ・ツリーの最上位（第１階層）から順に１階層ずつ下がりながら、多数派カテゴリに含まれるすべての商品の名詞連続の群と、各少数派カテゴリの各商品との間で名詞連続の重複度を判定する。重複度Ｄが所定の閾値ＴＨｆ（例えばＴＨｆ＝０．７）以上であれば、第２判定部３４は、少数派カテゴリ［１］に属するその商品が当該少数派カテゴリ［１］ではなく多数派カテゴリ［１］に属するべきであると判定し、候補語をそのまま保持する。そして、第２判定部３４は、この多数派カテゴリ［１］について以降の処理を更に進める。ここまでは第３実施形態と同様である。

　一方、重複度Ｄが閾値ＴＨｆ未満であれば、第２判定部３４は、その商品が少数派カテゴリ［１］に属するべきであると判定し、この少数派カテゴリ［１］の下位の階層において、多数派カテゴリについての処理と同様に、重複度に基づく判定を行う。

　第２判定部３４の処理は以下のようにまとめることができる。

　・多数派カテゴリ［Ｎ］に含まれるすべての商品の名詞連続の群と、各少数派カテゴリ［Ｎ］の各商品の名詞連続の群との間で名詞連続の重複度が高ければ、第２判定部３４は多数派カテゴリ［Ｎ＋１］での処理を行う。ただし、この場合に第Ｎ階層がリーフ・カテゴリであれば、第２判定部３４は候補語をリーフ・カテゴリに対する強制語として認定する（第４実施形態と同じ）。
　・第Ｎ階層において多数派カテゴリとの間で名詞連続の重複度が低い少数派カテゴリが存在すれば、第２判定部３４は候補語が当該少数派カテゴリの第Ｎ階層以下のいずれかに対する強制語にもなり得ると認定する。そして、第２判定部３４は多数派カテゴリ及びその少数派カテゴリのそれぞれについて第（Ｎ＋１）階層での処理を行う。

　本実施形態における辞書生成サーバ１０の動作及び辞書生成方法を図１７に示す。第４実施形態と異なる点としてステップＳ２６９の処理、及びステップＳ２６３において重複度が閾値未満である場合の処理が挙げられる。

　ステップＳ２６９では、第２判定部３４は、ペアに対応する店舗ＩＤ又は店舗カテゴリを商品データベース２２及び／又は店舗データベース２１から取得して辞書情報を生成し、その辞書情報を辞書データベース２３に格納する。

　重複度が閾値未満である場合には（ステップＳ２６３；ＮＯ）、第２判定部３４は多数派カテゴリ［Ｎ］及び少数派カテゴリ［Ｎ］のそれぞれについて、一つ下の階層において重複度に基づく判定を行い、登録部１４が辞書情報を登録する（ステップＳ２８０）。

　以上説明した第５実施形態によっても、第４実施形態と同様の効果を得ることができる。また、本実施形態では店舗の特性を考慮して辞書情報を設定することができる。

　（第６実施形態）
　次に、図１８，１９を用いて第６実施形態を説明する。本実施形態では、辞書生成サーバ３０は商品情報の商品カテゴリを正しいと思われるものに更新しながら辞書情報を徐々に蓄積する。以下では、第４実施形態と同一又は同様の事項については説明を省略し、本実施形態特有の事項について特に説明する。

　本実施形態では、辞書生成サーバ３０は更に更新部３６を備えている。更新部３６は、生成された辞書情報に基づいて商品データベース２２の商品情報を更新する手段である。更新部３６は、今回生成された１以上の辞書情報のそれぞれについて以下の処理を行う。

　まず、更新部３６は一の辞書情報で示される強制語を商品名に含み、且つ商品カテゴリがその辞書情報で示されるものと異なる商品情報を商品データベース２２内で特定する。続いて、更新部３６は特定した商品情報の商品カテゴリ（誤り又はノイズと推定される商品カテゴリ）を、その辞書情報で示されている商品カテゴリ（本来登録されるべき正しい商品カテゴリ）で更新する。今回生成された辞書情報のすべてについての更新処理が完了すると、更新後の商品データベース２２に基づいて、抽出部３１から始まる一連の処理（辞書情報の生成及び商品データベースの更新）が繰り返される。このように、更新部３６の機能は第３実施形態における更新部１５の機能と同様である。

　当該一連の処理が実行される度に、第１判定部３３は、上記の条件２で用いられる閾値ＴＨｂ、すなわち店舗の集約度に関する閾値を徐々に下げて行く。例えば、第１判定部３３は１巡目の処理ではＴＨｂ＝１．０とし、２巡目以降はＴｈｂを所定の値ずつ（例えば、０．１ずつ、０．０５ずつ）下げる。

　コンピュータを本実施形態の辞書生成サーバ３０として機能させるための辞書生成プログラムＰ２は図１９の通りである。本実施形態では、辞書生成プログラムＰ２は更新モジュールＰ２６を更に備える。更新モジュールＰ２６を実行することにより実現される機能は上記更新部３６の機能と同様である。

　以上説明した第６実施形態によっても、第４実施形態と同様の効果を得ることができる。更に本実施形態では、店舗の集約度（ＣＭＦ／ＭＦ）に関する閾値を徐々に下げながら、生成された辞書情報を用いて商品情報の商品カテゴリを正しいものに更新する処理が繰り返される。このように、確度の高い強制語から順に、辞書情報を生成して商品情報を整理するという一連の処理を繰り返すことで、辞書情報の精度をより向上させることができる。

　商品データベース２２を用いた繰り返し処理により辞書情報を生成する手法は、第５実施形態についても同様に適用できる。この場合には、更新部３６は一の辞書情報で示される強制語を商品名に含み、店舗ＩＤがその辞書情報で示される店舗ＩＤ又は店舗カテゴリに対応し、且つ商品カテゴリがその辞書情報で示されるものと異なる商品情報を商品データベース２２内で特定する。したがって、更新部３６はこの特定処理において店舗データベース２１を必要に応じて参照する。

　（第７実施形態）
　次に、図２０～２２を用いて第７実施形態を説明する。本実施形態では、辞書生成サーバ１０Ａが名詞連続を第１種強制語、第２種強制語、参考語、又は不要語のいずれかに設定する。以下では、第１実施形態と同一又は同様の事項については説明を省略し、本実施形態特有の事項について特に説明する。

　第１種強制語は、一の商品カテゴリを一意に特定する語句であり、上記第１～第６実施形態における「強制語」に相当する。第２種強制語は、第１種強制語よりも商品カテゴリの強制力が弱い語句である。参考語は、第２種強制語よりも商品カテゴリの強制力が弱い語句である。

　本実施形態で生成される辞書情報を用いる場合には、商品カテゴリは以下のように設定され得る。ある商品が、第１種強制語に対応する商品カテゴリに属すると判定された場合には、その商品は必ずその商品カテゴリに関連付けられ、店舗側でこの関連付けを変更することはできない。ある商品が、第２種強制語に対応する商品カテゴリに属すると判定された場合には、店舗は条件付きで（例えば、ＥＣサイトの管理者の承認を得ることを条件に）、判定されたものとは別の商品カテゴリにその商品を関連付けることができる。ある商品が、参考語に対応する商品カテゴリに属すると判定された場合には、店舗は無条件で、判定されたものとは別の商品カテゴリにその商品を関連付けることができる。もちろん、各店舗は商品を第２種強制語又は参考語に対応する商品カテゴリと関連付けることもできる。

　一つの語句が複数の商品カテゴリにおいて第２種強制語になる場合もあるし、一つの語句が複数の商品カテゴリにおいて参考語になる場合もある。また、一つの語句がある商品カテゴリにおいて第２種強制語となり且つ別の商品カテゴリにおいて参考語となる場合もある。しかし、一つの第１種強制語が他の商品カテゴリにおいて第１種強制語、第２種強制語、及び参考語になることは無い。不要語は上記条件４で示される除外対象の語句であり、一つの不要語が第１種強制語、第２種強制語、又は参考語を兼ねることは無い。

　辞書生成サーバ１０Ａのハードウェア構成は第１実施形態におけるものと同様である（図５参照）。図２０に示すように、辞書生成サーバ１０Ａは、判定部１３に代えて判定部１３Ａを備える点で、第１実施形態における辞書生成サーバ１０と異なる。

　判定部１３Ａは、算出部１２により特定された各商品カテゴリについての統計値に基づいて、その名詞連続が第１種強制語、第２種強制語、参考語、及び不要語のいずれに該当するかを判定する手段である。

　本実施形態では、判定部１３Ａは第１実施形態における下記条件１，２を用いる。第１閾値ＴＨｂ及び第２閾値ＴＨａの値が任意に設定可能であることは第１実施形態と同様である。本実施形態では、名詞連続が条件１を満たす場合にはその名詞連続は全体でピーク（ｐｅａｋ）に達していると定義する。また、ある一つの商品カテゴリについて名詞連続が条件２を満たす場合にはその名詞連続は該商品カテゴリにおいてピークに達していると定義する。

　（条件１）ＭＦ＞ＴＨａ
　（条件２）ＣＭＦ／ＭＦ＞ＴＨｂ

　図２１を用いて判定部１３Ａの機能及び動作を説明する。第１実施形態と同様にステップＳ１１，Ｓ１２の処理が実行された後、判定部１３Ａは各名詞連続について処理を実行する。

　判定部１３Ａは条件２を用いて、一の名詞連続が一以上の商品カテゴリにおいてピークに達しているか否かを判定する（ステップＳ３１）。その名詞連続が一つの商品カテゴリにおいてのみピークに達していれば（ステップＳ３１；１）、判定部１３Ａはその名詞連続がその商品カテゴリにおける第１種強制語であると判定する（ステップＳ３２）。そして、登録部１４がその名詞連続、商品カテゴリ、及び種別を関連付けて辞書情報を生成し、その辞書情報を辞書データベース２３に格納する（ステップＳ３２）。なお、種別とは、第１種強制語、第２種強制語、参考語、及び不要語のうちのいずれかである。

　名詞連続が複数の商品カテゴリにおいてピークに達していれば（ステップＳ３１；複数）、判定部１３Ａは、該複数の商品カテゴリをピークカテゴリとして判定し、その名詞連続がピークカテゴリを除いた残りのカテゴリの全体でピークか否かを更に判定する（ステップＳ３３）。この判定のために、判定部１３Ａは追加の条件「ＭｐＦ＞閾値ＴＨｘ」を用いる。ここで、Ｍｐｆは下記式で求まる。ＴＨｘ（第２閾値）は任意の基準により定めてよい。
　ＭｐＦ＝ＭＦ－（各ピークカテゴリのＣＭＦの総和）

　その名詞連続が残りのカテゴリ全体でピークでない（すなわち、ＭｐＦ≦ＴＨｘ）場合には（ステップＳ３３；ＮＯ）、判定部１３Ａはその名詞連続がピークである商品カテゴリ（以下では「ピークカテゴリ」とも言う）の個数と各ピークカテゴリでの店舗集約度（ＣＭＦ／ＭＦ）とに基づいて種別を設定する（ステップＳ３４）。このステップＳ３４では、名詞連続は第２種強制語又は参考語に分類される。そして、登録部１４がその名詞連続、商品カテゴリ、及び種別を関連付けて辞書情報を生成し、その辞書情報を辞書データベース２３に格納する（ステップＳ３４）。

　種別の決定方法は限定されない。例えば、判定部１３Ａは、ピークカテゴリの個数が閾値（例えば３や５など）未満であり且つ各ピークカテゴリでの店舗集約度が等しければ、その名詞連続が各ピークカテゴリにおいて第２種強制語であると判定してもよい。また、ピークカテゴリの個数がその閾値以上であり且つ各ピークカテゴリでの店舗集約度（ＣＭＦ／ＭＦ）が等しければ、その名詞連続が各ピークカテゴリにおいて参考語であると判定してもよい。

　あるいは、判定部１３Ａは店舗集約度（ＣＭＦ／ＭＦ）が最も高いピークカテゴリではその名詞連続が第２種強制語であり、他のピークカテゴリではその名詞連続が参考語であると判定してもよい。

　あるいは、判定部１３Ａは第２種強制語と参考語とを区分けするための更なる閾値ＴＨｙ（ＴＨｙ＞ＴＨｂ）を用いる。そして判定部１３Ａは、あるピークカテゴリでの店舗集約度（ＣＭＦ／ＭＦ）がその閾値ＴＨｙより大きければ名詞連続がそのピークカテゴリにおいて第２種強制語であり、その店舗集約度が閾値ＴＨｙ以下であれば名詞連続がそのピークカテゴリにおいて参考語であると判定してもよい。

　名詞連続が残りのカテゴリ全体でピークである（すなわち、ＭｐＦ＞ＴＨｘ）場合には（ステップＳ３３；ＹＥＳ）、判定部１３Ａはその名詞連続が不要語であると判定する（ステップＳ３５）。そして、登録部１４がその名詞連続、商品カテゴリ、及び種別を関連付けて辞書情報を生成し、その辞書情報を辞書データベース２３に格納する（ステップＳ３５）。

　名詞連続がどの商品カテゴリにおいてもピークに達していなければ（ステップＳ３１；０）、判定部１３Ａはその名詞連続が全体でピークであるか否かを判定する（ステップＳ３６）。そして、その名詞連続が全体でピークであれば（ステップＳ３６；ＹＥＳ）、判定部１３Ａはその名詞連続が不要語であると判定し、登録部１４がその名詞連続を不要語として辞書データベース２３に格納する（ステップＳ３５）。一方、その名詞連続が全体でピークでなければ（ステップＳ３６；ＮＯ）、判定部１３Ａはその名詞連続を辞書情報生成の対象外とする（ステップＳ３７）。

　判定部１３Ａ及び登録部１４によるステップＳ３１～Ｓ３７の処理は、一の商品情報から抽出されたすべての名詞連続に対して実行される（ステップＳ３８参照）。

　このように、ある名詞連続が一部のカテゴリでのみピークであれば、その名詞連続はそのカテゴリにおける第１種強制語、第２種強制語又は参考語として登録される。一方、ある名詞連続が商品カテゴリ全体においてピークであると判定された場合には、その名詞連続は第１種強制語、第２種強制語又は参考語として登録されない。

　本実施形態において辞書データベース２３に格納される辞書情報は、各語句（名詞連続）がどの商品カテゴリにおいて第１種強制語、第２種強制語、参考語、又は不要語として設定されているかを示す情報である。その辞書情報の例を図２２に示す。

　この第７実施形態においても第１実施形態と同様の効果を得ることができる。加えて、本実施形態では名詞連続を第１種及び第２種の強制語と、参考語と、不要語という４種類に分類することができるので、より細かい辞書情報を生成することができる。

　本実施形態において、不要語は辞書データベース２３とは別の不要語辞書に格納してもよい。また、不要語の登録は省略可能であり、その場合には、上記ステップＳ３３，Ｓ３５，Ｓ３６の処理が省略される。

　以上、本発明をその実施形態に基づいて詳細に説明した。しかし、本発明は上記実施形態に限定されるものではない。本発明は、その要旨を逸脱しない範囲で様々な変形が可能である。

　言葉の表記揺れ（一つの言葉に対して複数の表記が存在すること）を吸収するために、表記の揺れに関する情報を記憶するデータベース（表記辞書）を用いてもよい。例えば、英単語「interface」を日本語表記すると「インタフェース（intafe-su）」「インターフェイス（inta-feisu）」といった表記揺れが生じ得る。そこで、抽出部、算出部、（第１及び第２）判定部は表記辞書を参照して名詞連続の表記揺れを吸収した上で処理を行ってもよい。また、登録部は強制語として認定された名詞連続だけでなく、当該名詞連続の表記揺れも含む辞書情報を辞書データベース２３に登録してもよい。これにより表記揺れを吸収できる。

　上記第１及び第４実施形態では強制語として認定されない名詞連続は棄却されたが、登録部１４は、この名詞連続に対応する複数の商品カテゴリを推薦カテゴリとして、強制語辞書とは別のデータベース（推薦辞書）に登録してもよい。この場合には、推薦情報は当該名詞連続及び商品カテゴリが関連付けられた情報であり、一の名詞連続に対して複数のレコードが生成される。このような推薦情報により商品カテゴリの選択の幅を広げることができる。例えば、店舗での商品登録時にこの推薦辞書を提示することで、店舗における商品カテゴリの選択の手間をいくらか減らすことができる。

　上記各実施形態では辞書生成サーバをＥＣサーバとは別に設けたが、これら二つのサーバを統合してもよい。

　以上の説明から、本発明を以下のように規定することができる。

　商品データベースから読み出した商品情報の商品名から名詞又は名詞の連続を名詞連続として抽出する抽出部であって、前記商品情報が、前記商品名と、商品カテゴリと、商品の取扱店舗とを含む、該抽出部と、
　前記商品データベースを参照して、前記名詞連続が前記商品名に含まれる商品情報で指定されている１以上の商品カテゴリを特定し、特定した各商品カテゴリについて、該商品カテゴリを指定した店舗数を算出する算出部と、
　前記特定された各商品カテゴリについての店舗の集約度を前記店舗数に基づいて算出し、各商品カテゴリについての前記店舗の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定し、該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定する判定部と、
　前記強制語と前記一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納する登録部と
を備える辞書生成装置。

　前記算出部が、前記特定した各商品カテゴリについて前記名詞連続の出現回数を算出し、
　前記判定部が、前記特定された各商品カテゴリについての名詞連続の集約度を前記出現回数に基づいて算出し、各商品カテゴリについての前記店舗の集約度及び前記名詞連続の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定する、
項１に記載の辞書生成装置。

　前記算出部が、前記特定した各商品カテゴリについて、該商品カテゴリに対応する商品数を算出し、
　前記判定部が、前記特定された各商品カテゴリについての商品の集約度を前記商品数に基づいて算出し、各商品カテゴリについての前記店舗の集約度及び前記商品の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定する、
項１に記載の辞書生成装置。

　前記算出部が、前記商品名に前記名詞連続を含む商品情報を登録した総店舗数を算出し、
　前記判定部が、前記総店舗数が所定の閾値以下である場合には、前記名詞連続を前記強制語として判定しない、
項１～３のいずれか一項に記載の辞書生成装置。

　前記判定部が、不要語を記憶する不要語辞書を参照して、前記名詞連続が前記不要語と一致する場合には、前記名詞連続を前記強制語として判定しない、
項１～４のいずれか一項に記載の辞書生成装置。

　前記判定部が、前記店舗の集約度が最も高い商品カテゴリを多数派カテゴリとして特定するとともに該集約度が該多数派カテゴリよりも低い商品カテゴリを少数派カテゴリとして特定し、該少数派カテゴリの商品名と該多数派カテゴリの商品名との間の語句の重複度を算出し、該重複度が所定の閾値以上である場合に、該多数派カテゴリが前記名詞連続から一意に導かれる商品カテゴリであると判定する、
項１～５のいずれか一項に記載の辞書生成装置。

　前記判定部が、前記多数派カテゴリ及び前記少数派カテゴリの第Ｎ階層において前記重複度が前記所定の閾値以上である場合には、該多数派カテゴリの第Ｎ階層が前記名詞連続から一意に導かれると判定して、該多数派カテゴリの第（Ｎ＋１）階層において、前記多数派カテゴリ及び少数派カテゴリの特定と、前記重複度の算出と、該重複度に基づく判定とを繰り返し、ここで、Ｎは１以上である、
項６に記載の辞書生成装置。

　前記辞書情報で示される前記強制語を商品名に含む前記商品情報の商品カテゴリを、該辞書情報で示される商品カテゴリに更新する更新部を更に備え、
　前記更新部により前記商品情報が更新された後に、前記抽出部、前記算出部、前記判定部、前記登録部、及び前記更新部による処理が繰り返し実行され、
　前記判定部が、前記店舗の集約度に関する閾値を前回の判定処理で用いられた値よりも小さく設定した上で、前記店舗の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定する、
項１～７のいずれか一項に記載の辞書生成装置。

　前記抽出部が、形態素解析により前記商品名から前記名詞連続を抽出する、
項１～８のいずれか一項に記載の辞書生成装置。

　前記抽出部が、前記名詞連続の抽出範囲を示す商品名の記載ルールを記憶するルール辞書を参照して、前記商品名から前記名詞連続を抽出する、
項１～８のいずれか一項に記載の辞書生成装置。

　前記抽出部が、不要語を記憶する不要語辞書を参照して、前記商品名から前記不要語以外の語句を抽出し、抽出された語句から前記名詞連続を抽出する、
項１～８のいずれか一項に記載の辞書生成装置。

　前記登録部が、前記名詞連続と、前記特定された商品カテゴリのうち前記一意に導かれる商品カテゴリ以外の商品カテゴリとが関連付けられた推薦情報を別の辞書データベースに格納する、
項１～１１のいずれか一項に記載の辞書生成装置。

　前記判定部が、前記各商品カテゴリについての店舗の集約度に基づいて、前記名詞連続と店舗又は店舗カテゴリとの組から一意に導かれる一の商品カテゴリが存在するか否かを判定し、該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定し、
　前記登録部が、前記強制語と、前記店舗又は店舗カテゴリと、前記一意に導かれる商品カテゴリとが関連付けられた辞書情報を前記辞書データベースに格納する、
項１～１２のいずれか一項に記載の辞書生成装置。

　前記抽出部が、表記の揺れに関する情報を記憶する表記辞書を参照して前記商品名から前記名詞連続を抽出する、
項１～１３のいずれか一項に記載の辞書生成装置。

　前記登録部が、表記の揺れに関する情報を記憶する表記辞書を参照して前記強制語に対応する語句を抽出し、該強制語と、該対応する語句と、前記一意に導かれる商品カテゴリとが関連付けられた辞書情報を前記辞書データベースに格納する、
項１～１４のいずれか一項に記載の辞書生成装置。

　前記判定部が、
　　前記店舗の集約度が第１閾値より大きい商品カテゴリが一つのみ存在する場合には、前記名詞連続から一意に導かれる一の商品カテゴリが存在すると判定して、該名詞連続を該商品カテゴリの第１種強制語として判定し、
　　前記店舗の集約度が前記第１閾値より大きい商品カテゴリが複数存在する場合には、該複数の商品カテゴリのそれぞれについて、該名詞連続が、前記第１種強制語よりも商品カテゴリの強制力が弱い第２種強制語、又は前記第２種強制語よりも商品カテゴリの強制力が弱い参考語であると判定し、
　前記登録部が、前記第１種強制語、前記第２種強制語又は前記参考語と前記商品カテゴリとが関連付けられた辞書情報を前記辞書データベースに格納する、
項１に記載の辞書生成装置。

　前記判定部が、
　　前記店舗の集約度が前記第１閾値より大きい商品カテゴリの個数が１でない場合に、該商品カテゴリを除いた残りのカテゴリにおける前記名詞連続の登録店舗数が第２閾値より大きいか否かを判定し、
　　前記登録店舗数が前記第２閾値より大きい場合には、前記名詞連続が不要語であると判定し、
　前記登録部が前記不要語を所定のデータベースに格納する、
項１６に記載の辞書生成装置。

　辞書生成装置により実行される辞書生成方法であって、
　商品データベースから読み出した商品情報の商品名から名詞又は名詞の連続を名詞連続として抽出する抽出ステップであって、前記商品情報が、前記商品名と、商品カテゴリと、商品の取扱店舗とを含む、該抽出ステップと、
　前記商品データベースを参照して、前記名詞連続が前記商品名に含まれる商品情報で指定されている１以上の商品カテゴリを特定し、特定した各商品カテゴリについて、該商品カテゴリを指定した店舗数を算出する算出ステップと、
　前記特定された各商品カテゴリについての店舗の集約度を前記店舗数に基づいて算出し、各商品カテゴリについての前記店舗の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定し、該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定する判定ステップと、
　前記強制語と前記一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納する登録ステップと
を含む辞書生成方法。

　商品データベースから読み出した商品情報の商品名から名詞又は名詞の連続を名詞連続として抽出する抽出部であって、前記商品情報が、前記商品名と、商品カテゴリと、商品の取扱店舗とを含む、該抽出部と、
　前記商品データベースを参照して、前記名詞連続が前記商品名に含まれる商品情報で指定されている１以上の商品カテゴリを特定し、特定した各商品カテゴリについて、該商品カテゴリを指定した店舗数を算出する算出部と、
　前記特定された各商品カテゴリについての店舗の集約度を前記店舗数に基づいて算出し、各商品カテゴリについての前記店舗の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定し、該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定する判定部と、
　前記強制語と前記一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納する登録部と
をコンピュータに実行させる辞書生成プログラム。

　商品データベースから読み出した商品情報の商品名から名詞又は名詞の連続を名詞連続として抽出する抽出部であって、前記商品情報が、前記商品名と、商品カテゴリと、商品の取扱店舗とを含む、該抽出部と、
　前記商品データベースを参照して、前記名詞連続が前記商品名に含まれる商品情報で指定されている１以上の商品カテゴリを特定し、特定した各商品カテゴリについて、該商品カテゴリを指定した店舗数を算出する算出部と、
　前記特定された各商品カテゴリについての店舗の集約度を前記店舗数に基づいて算出し、各商品カテゴリについての前記店舗の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定し、該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定する判定部と、
　前記強制語と前記一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納する登録部と
をコンピュータに実行させる辞書生成プログラムを記憶するコンピュータ読取可能な記録媒体。

　１０，１０Ａ…辞書生成サーバ、１１…抽出部、１２…算出部、１３，１３Ａ…判定部、１４…登録部、１５…更新部、２０…データベース群、２１…店舗データベース、２２…商品データベース、２３…辞書データベース、３０…辞書生成サーバ、３１…抽出部、３２…算出部、３３…第１判定部、３４…第２判定部、３５…登録部、３６…更新部、９０…ＥＣサーバ、Ｐ１…辞書生成プログラム、Ｐ１０…メインモジュール、Ｐ１１…抽出モジュール、Ｐ１２…算出モジュール、Ｐ１３…判定モジュール、Ｐ１４…登録モジュール、Ｐ１５…更新モジュール、Ｐ２…辞書生成プログラム、Ｐ２０…メインモジュール、Ｐ２１…抽出モジュール、Ｐ２２…算出モジュール、Ｐ２３…判定モジュール、Ｐ２４…判定モジュール、Ｐ２５…登録モジュール、Ｐ２６…更新モジュール、Ｔｓ…店舗端末、Ｔｕ…ユーザ端末。

Claims

　（Ａ）名詞、名詞句又はそれらの連続である名詞連続を含む商品名及び／又は商品説明と、商品カテゴリと、当該商品の取扱店舗とをフィールドとして含む複数のレコードを記憶する商品データベースを参照して、各レコードの前記商品名及び／又は商品説明に含まれる前記名詞連続が前記商品カテゴリと対応して設定されているか否かを判定し、（Ｂ）前記商品カテゴリと対応して設定されている前記名詞連続を含むレコード中の前記取扱店舗の数をその商品カテゴリごとに計数して、前記商品カテゴリと対応して設定されている各名詞連続の店舗の集約度を、前記計数した取扱店舗の数に基づいて算出し、（Ｃ）各商品カテゴリについての前記店舗の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定し、（Ｄ）該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定する判定部と、
　前記強制語と前記一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納する登録部と
を備える辞書生成装置。
　前記判定部が、各商品カテゴリについて前記名詞連続の出現回数を算出し、各商品カテゴリについての名詞連続の集約度を前記出現回数に基づいて算出し、各商品カテゴリについての前記店舗の集約度及び前記名詞連続の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定する、
請求項１に記載の辞書生成装置。
　前記判定部が、各商品カテゴリについて、該商品カテゴリに対応する商品数を算出し、各商品カテゴリについての商品の集約度を前記商品数に基づいて算出し、各商品カテゴリについての前記店舗の集約度及び前記商品の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定する、
請求項１に記載の辞書生成装置。
　前記判定部が、前記商品名に前記名詞連続を含む商品情報を登録した総店舗数を算出し、前記総店舗数が所定の閾値以下である場合には、前記名詞連続を前記強制語として判定しない、
請求項１～３のいずれか一項に記載の辞書生成装置。
　前記判定部が、不要語を記憶する不要語辞書を参照して、前記名詞連続が前記不要語と一致する場合には、前記名詞連続を前記強制語として判定しない、
請求項１～４のいずれか一項に記載の辞書生成装置。
　前記判定部が、前記店舗の集約度が最も高い商品カテゴリを多数派カテゴリとして特定するとともに該集約度が該多数派カテゴリよりも低い商品カテゴリを少数派カテゴリとして特定し、該少数派カテゴリの商品名と該多数派カテゴリの商品名との間の語句の重複度を算出し、該重複度が所定の閾値以上である場合に、該多数派カテゴリが前記名詞連続から一意に導かれる商品カテゴリであると判定する、
請求項１～５のいずれか一項に記載の辞書生成装置。
　前記判定部が、前記多数派カテゴリ及び前記少数派カテゴリの第Ｎ階層において前記重複度が前記所定の閾値以上である場合には、該多数派カテゴリの第Ｎ階層が前記名詞連続から一意に導かれると判定して、該多数派カテゴリの第（Ｎ＋１）階層において、前記多数派カテゴリ及び少数派カテゴリの特定と、前記重複度の算出と、該重複度に基づく判定とを繰り返し、ここで、Ｎは１以上である、
請求項６に記載の辞書生成装置。
　前記辞書情報で示される前記強制語を商品名に含む商品情報の商品カテゴリを、該辞書情報で示される商品カテゴリに更新する更新部を更に備え、
　前記更新部により前記商品情報が更新された後に、前記判定部、前記登録部、及び前記更新部による処理が繰り返し実行され、
　前記判定部が、前記店舗の集約度に関する閾値を前回の判定処理で用いられた値よりも小さく設定した上で、前記店舗の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定する、
請求項１～７のいずれか一項に記載の辞書生成装置。
　前記判定部が、形態素解析により前記商品名から前記名詞連続を抽出する、
請求項１～８のいずれか一項に記載の辞書生成装置。
　前記判定部が、前記名詞連続の抽出範囲を示す商品名の記載ルールを記憶するルール辞書を参照して、前記商品名から前記名詞連続を抽出する、
請求項１～８のいずれか一項に記載の辞書生成装置。
　前記判定部が、不要語を記憶する不要語辞書を参照して、前記商品名から前記不要語以外の語句を抽出し、抽出された語句から前記名詞連続を抽出する、
請求項１～８のいずれか一項に記載の辞書生成装置。
　前記登録部が、前記名詞連続と、前記商品カテゴリのうち前記一意に導かれる商品カテゴリ以外の商品カテゴリとが関連付けられた推薦情報を別の辞書データベースに格納する、
請求項１～１１のいずれか一項に記載の辞書生成装置。
　前記判定部が、前記各商品カテゴリについての店舗の集約度に基づいて、前記名詞連続と店舗又は店舗カテゴリとの組から一意に導かれる一の商品カテゴリが存在するか否かを判定し、該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定し、
　前記登録部が、前記強制語と、前記店舗又は店舗カテゴリと、前記一意に導かれる商品カテゴリとが関連付けられた辞書情報を前記辞書データベースに格納する、
請求項１～１２のいずれか一項に記載の辞書生成装置。
　前記判定部が、表記の揺れに関する情報を記憶する表記辞書を参照して前記商品名から前記名詞連続を抽出する、
請求項１～１３のいずれか一項に記載の辞書生成装置。
　前記登録部が、表記の揺れに関する情報を記憶する表記辞書を参照して前記強制語に対応する語句を抽出し、該強制語と、該対応する語句と、前記一意に導かれる商品カテゴリとが関連付けられた辞書情報を前記辞書データベースに格納する、
請求項１～１４のいずれか一項に記載の辞書生成装置。
　前記判定部が、
　　前記店舗の集約度が第１閾値より大きい商品カテゴリが一つのみ存在する場合には、前記名詞連続から一意に導かれる一の商品カテゴリが存在すると判定して、該名詞連続を該商品カテゴリの第１種強制語として判定し、
　　前記店舗の集約度が前記第１閾値より大きい商品カテゴリが複数存在する場合には、該複数の商品カテゴリのそれぞれについて、該名詞連続が、前記第１種強制語よりも商品カテゴリの強制力が弱い第２種強制語、又は前記第２種強制語よりも商品カテゴリの強制力が弱い参考語であると判定し、
　前記登録部が、前記第１種強制語、前記第２種強制語又は前記参考語と前記商品カテゴリとが関連付けられた辞書情報を前記辞書データベースに格納する、
請求項１に記載の辞書生成装置。
　前記判定部が、
　　前記店舗の集約度が前記第１閾値より大きい商品カテゴリの個数が１でない場合に、該商品カテゴリを除いた残りのカテゴリにおける前記名詞連続の登録店舗数が第２閾値より大きいか否かを判定し、
　　前記登録店舗数が前記第２閾値より大きい場合には、前記名詞連続が不要語であると判定し、
　前記登録部が前記不要語を所定のデータベースに格納する、
請求項１６に記載の辞書生成装置。
　辞書生成装置により実行される辞書生成方法であって、
　（Ａ）名詞、名詞句又はそれらの連続である名詞連続を含む商品名及び／又は商品説明と、商品カテゴリと、当該商品の取扱店舗とをフィールドとして含む複数のレコードを記憶する商品データベースを参照して、各レコードの前記商品名及び／又は商品説明に含まれる前記名詞連続が前記商品カテゴリと対応して設定されているか否かを判定し、（Ｂ）前記商品カテゴリと対応して設定されている前記名詞連続を含むレコード中の前記取扱店舗の数をその商品カテゴリごとに計数して、前記商品カテゴリと対応して設定されている各名詞連続の店舗の集約度を、前記計数した取扱店舗の数に基づいて算出し、（Ｃ）各商品カテゴリについての前記店舗の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定し、（Ｄ）該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定する判定ステップと、
　前記強制語と前記一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納する登録ステップと
を含む辞書生成方法。
　（Ａ）名詞、名詞句又はそれらの連続である名詞連続を含む商品名及び／又は商品説明と、商品カテゴリと、当該商品の取扱店舗とをフィールドとして含む複数のレコードを記憶する商品データベースを参照して、各レコードの前記商品名及び／又は商品説明に含まれる前記名詞連続が前記商品カテゴリと対応して設定されているか否かを判定し、（Ｂ）前記商品カテゴリと対応して設定されている前記名詞連続を含むレコード中の前記取扱店舗の数をその商品カテゴリごとに計数して、前記商品カテゴリと対応して設定されている各名詞連続の店舗の集約度を、前記計数した取扱店舗の数に基づいて算出し、（Ｃ）各商品カテゴリについての前記店舗の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定し、（Ｄ）該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定する判定部と、
　前記強制語と前記一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納する登録部と
をコンピュータに実行させる辞書生成プログラム。
　（Ａ）名詞、名詞句又はそれらの連続である名詞連続を含む商品名及び／又は商品説明と、商品カテゴリと、当該商品の取扱店舗とをフィールドとして含む複数のレコードを記憶する商品データベースを参照して、各レコードの前記商品名及び／又は商品説明に含まれる前記名詞連続が前記商品カテゴリと対応して設定されているか否かを判定し、（Ｂ）前記商品カテゴリと対応して設定されている前記名詞連続を含むレコード中の前記取扱店舗の数をその商品カテゴリごとに計数して、前記商品カテゴリと対応して設定されている各名詞連続の店舗の集約度を、前記計数した取扱店舗の数に基づいて算出し、（Ｃ）各商品カテゴリについての前記店舗の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定し、（Ｄ）該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定する判定部と、
　前記強制語と前記一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納する登録部と
をコンピュータに実行させる辞書生成プログラムを記憶するコンピュータ読取可能な記録媒体。