WO2023073818A1

WO2023073818A1 - 情報処理装置、更新方法、及び更新プログラム

Info

Publication number: WO2023073818A1
Application number: PCT/JP2021/039576
Authority: WO
Inventors: 誠竹中; 悠介小路; 進也田口
Original assignee: 三菱電機株式会社
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2023-05-04
Also published as: JPWO2023073818A1; JP7378680B2

Abstract

情報処理装置（１００）は、前処理コーパスと、単語とカテゴリとの対応関係を示す情報であるカテゴリ辞書（１１２）とを取得する取得部（１２０）と、カテゴリ辞書（１１２）を用いて、前処理コーパスに含まれる複数の単語のカテゴリを判定するカテゴリ判定部（１４０）と、対象単語に基づいて、対象単語の単語ベクトルを作成し、同一カテゴリ単語に基づいて、同一カテゴリ単語の単語ベクトルを作成する単語ベクトル作成部（１５０）と、前処理コーパスに基づいて、対象単語の出現頻度と同一カテゴリ単語の出現頻度とを算出する出現頻度算出部（１６０）と、対象単語の単語ベクトル、同一カテゴリ単語の単語ベクトル、対象単語の出現頻度、及び同一カテゴリ単語の出現頻度を用いて、正則化項を算出する正則化項算出部（１７０）と、正則化項を用いて、対象単語の単語ベクトルを更新する更新部（１８０）と、を有する。

Description

情報処理装置、更新方法、及び更新プログラム

　本開示は、情報処理装置、更新方法、及び更新プログラムに関する。

　ｗｏｒｄ２ｖｅｃが知られている。ｗｏｒｄ２ｖｅｃは、教師なし学習で、コーパス（すなわち、ラベルの付いていない文）を用いて単語の意味的な特徴を学習することができる。学習された単語の単語ベクトルは、分散表現と呼ばれる。学習された単語の単語ベクトルは、文書検索などで用いることができる。

　一方、単語間の関係知識、単語の属性知識などの外部情報を教師情報として用いて、分散表現の精度を向上させる手法が知られている。例えば、単語間の関係性及びカテゴリ情報に対して外部情報を用いることで、単語の意味的な情報が保たれながら、単語間の関係性を学習する手法が提案されている（非特許文献１を参照）。

Ｃｈａｎｇ　Ｘｕ　ｅｔ　ａｌ．「ＲＣ－ＮＥＴ：Ａ　Ｇｅｎｅｒａｌ　Ｆｒａｍｅｗｏｒｋ　ｆｏｒ　Ｉｎｃｏｒｐｏｒａｔｉｎｇ　Ｋｎｏｗｌｅｄｇｅ　ｉｎｔｏ　Ｗｏｒｄ　Ｒｅｐｒｅｓｅｎｔａｔｉｏｎｓ」、２０１４年Ｔｏｍａｓ　Ｍｉｋｏｌｏｖ　ｅｔ　ａｌ．「Ｄｉｓｔｒｉｂｕｔｅｄ　Ｒｅｐｒｅｓｅｎｔａｔｉｏｎｓ　ｏｆ　Ｗｏｒｄｓ　ａｎｄ　Ｐｈｒａｓｅｓ　ａｎｄ　ｔｈｅｉｒ　Ｃｏｍｐｏｓｉｔｉｏｎａｌｉｔｙ」

　非特許文献１では、同じカテゴリの全ての単語に同じ重みを付加して、対象単語の単語ベクトルが更新される。しかし、出現頻度の少ない単語にも同じ重みを付加することは、更新される単語ベクトルの分散表現に悪影響を及ぼす。よって、非特許文献１の方法は、望ましいと言えない。

　本開示の目的は、分散表現を向上させることである。

　本開示の一態様に係る情報処理装置が提供される。情報処理装置は、前処理が行われたコーパスである前処理コーパスと、単語とカテゴリとの対応関係を示す情報であるカテゴリ辞書とを取得する取得部と、前記カテゴリ辞書を用いて、前記前処理コーパスに含まれる複数の単語のカテゴリを判定するカテゴリ判定部と、前記複数の単語のうちの１つの単語である対象単語に基づいて、前記対象単語の単語ベクトルを作成し、前記複数の単語のうちの１つの単語であり、かつ前記対象単語と同じカテゴリの単語である同一カテゴリ単語に基づいて、前記同一カテゴリ単語の単語ベクトルを作成する単語ベクトル作成部と、前記前処理コーパスに基づいて、前記前処理コーパス内における前記対象単語の出現頻度と、前記前処理コーパス内における前記同一カテゴリ単語の出現頻度とを算出する出現頻度算出部と、前記対象単語の単語ベクトル、前記同一カテゴリ単語の単語ベクトル、前記対象単語の出現頻度、及び前記同一カテゴリ単語の出現頻度を用いて、正則化項を算出する正則化項算出部と、前記正則化項を用いて、前記対象単語の単語ベクトルを更新する更新部と、を有する。

　本開示によれば、分散表現を向上することができる。

実施の形態１の情報処理装置の機能を示すブロック図である。実施の形態１の情報処理装置が有するハードウェアを示す図である。実施の形態１の情報処理装置が実行する処理の例を示すフローチャートである。実施の形態１の意味空間を説明する図である。実施の形態２の情報処理装置の機能を示すブロック図である。実施の形態２の情報処理装置が実行する処理の例を示すフローチャートである。実施の形態２の類義語の表示と類義語の採択との具体例を示す図である。

　以下、図面を参照しながら実施の形態を説明する。以下の実施の形態は、例にすぎず、本開示の範囲内で種々の変更が可能である。

実施の形態１．
　図１は、実施の形態１の情報処理装置の機能を示すブロック図である。情報処理装置１００は、更新方法を実行する装置である。例えば、情報処理装置１００は、パーソナルコンピュータ、サーバ、スマートフォン、又はタブレット装置である。まず、情報処理装置１００が有するハードウェアを説明する。

　図２は、実施の形態１の情報処理装置が有するハードウェアを示す図である。情報処理装置１００は、プロセッサ１０１、揮発性記憶装置１０２、不揮発性記憶装置１０３、ネットワークＩＦ（Ｉｎｔｅｒｆａｃｅ）１０４、入力ＩＦ１０５、及び表示ＩＦ１０６を有する。

　プロセッサ１０１は、情報処理装置１００全体を制御する。例えば、プロセッサ１０１は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）などである。プロセッサ１０１は、マルチプロセッサでもよい。また、情報処理装置１００は、処理回路を有してもよい。さらに、プロセッサ１０１は、マイクロコンピュータ、又はＳｏＣ（Ｓｙｓｔｅｍ　ｏｎ　Ｃｈｉｐ）でもよい。

　揮発性記憶装置１０２は、情報処理装置１００の主記憶装置である。例えば、揮発性記憶装置１０２は、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）である。不揮発性記憶装置１０３は、情報処理装置１００の補助記憶装置である。例えば、不揮発性記憶装置１０３は、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）、又はＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）である。

　ネットワークＩＦ１０４は、ネットワーク１０と通信する。なお、ネットワーク１０は、有線ネットワーク又は無線ネットワークである。
　入力ＩＦ１０５は、キーボード、タッチパネル、マウスなどから情報又は信号を受け付ける。なお、情報処理装置１００は、入力ＩＦ１０５を有していなくてもよい。
　表示ＩＦ１０６は、ディスプレイに情報を出力する。なお、情報処理装置１００は、表示ＩＦ１０６を有していなくてもよい。

　図１に戻って、情報処理装置１００が有する機能を説明する。
　情報処理装置１００は、記憶部１１０、取得部１２０、前処理部１３０、カテゴリ判定部１４０、単語ベクトル作成部１５０、出現頻度算出部１６０、正則化項算出部１７０、及び更新部１８０を有する。

　記憶部１１０は、揮発性記憶装置１０２又は不揮発性記憶装置１０３に確保した記憶領域として実現してもよい。
　取得部１２０、前処理部１３０、カテゴリ判定部１４０、単語ベクトル作成部１５０、出現頻度算出部１６０、正則化項算出部１７０、及び更新部１８０の一部又は全部は、処理回路によって実現してもよい。また、取得部１２０、前処理部１３０、カテゴリ判定部１４０、単語ベクトル作成部１５０、出現頻度算出部１６０、正則化項算出部１７０、及び更新部１８０の一部又は全部は、プロセッサ１０１が実行するプログラムのモジュールとして実現してもよい。例えば、プロセッサ１０１が実行するプログラムは、更新プログラムとも言う。例えば、更新プログラムは、ＣＤ、フラッシュメモリなどの記録媒体に記録される。また、更新プログラムは、記憶部１１０に格納されてもよい。更新プログラムは、ネットワーク１０を介して取得されてもよい。

　記憶部１１０は、コーパス１１１とカテゴリ辞書１１２とを記憶する。コーパス１１１は、学習用データと呼んでもよい。また、コーパス１１１は、文章が登録されたデータベースと考えてもよい。カテゴリ辞書１１２は、名詞又は名詞句の単語と、カテゴリとの対応関係を示す情報である。なお、カテゴリは、名詞又は名詞句の上位概念の表現、商品のカテゴリ、又は固有表現のクラス名でもよい。また、例えば、クラス名は、人名、地名などである。

　取得部１２０は、コーパス１１１とカテゴリ辞書１１２とを記憶部１１０から取得する。また、取得部１２０は、コーパス１１１とカテゴリ辞書１１２とを外部装置から取得してもよい。外部装置の図示は、省略されている。

　前処理部１３０は、コーパス１１１を前処理する。例えば、前処理部１３０は、形態素解析及び単語の正規化を行う。ここで、記憶部１１０は、前処理が行われたコーパスを記憶してもよい。前処理が行われたコーパスが記憶部１１０に格納されている場合、取得部１２０は、前処理が行われたコーパスを取得する。また、前処理が行われたコーパスが記憶部１１０に格納されている場合、情報処理装置１００は、前処理部１３０を有さない。前処理が行われたコーパスは、前処理コーパスと呼ぶ。また、取得部１２０は、前処理コーパスを外部装置から取得してもよい。

　カテゴリ判定部１４０は、カテゴリ辞書１１２を用いて、前処理コーパスに含まれる複数の単語のカテゴリを判定する。詳細には、カテゴリ判定部１４０は、カテゴリ辞書１１２を用いて、前処理コーパスに含まれる、名詞又は名詞句の単語のカテゴリを判定する。
　単語ベクトル作成部１５０、出現頻度算出部１６０、正則化項算出部１７０、及び更新部１８０の詳細な機能は、後で説明する。

　次に、情報処理装置１００が実行する処理を、フローチャートを用いて、説明する。
　図３は、実施の形態１の情報処理装置が実行する処理の例を示すフローチャートである。
　（ステップＳ１１）前処理部１３０は、処理要求を受け付けたか否かを判定する。処理要求を受け付けた場合、処理は、ステップＳ１２に進む。処理要求を受け付けていない場合、前処理部１３０は、待機する。
　（ステップＳ１２）前処理部１３０は、対象単語を含むコーパス１１１に対して前処理を実行する。

　（ステップＳ１３）カテゴリ判定部１４０は、カテゴリ辞書１１２を用いて、前処理コーパスに含まれる、名詞又は名詞句の単語のカテゴリを判定する。
　（ステップＳ１４）単語ベクトル作成部１５０は、前処理コーパスに含まれる複数の単語のうちの１つの単語である対象単語に基づいて、対象単語の単語ベクトルを作成する。例えば、単語ベクトル作成部１５０は、対象単語とｗｏｒｄ２ｖｅｃとを用いて、対象単語の単語ベクトルを作成する。また、単語ベクトル作成部１５０は、当該複数の単語のうちの１つの単語であり、かつ対象単語と同じカテゴリの単語である同一カテゴリ単語に基づいて、同一カテゴリ単語の単語ベクトルを作成する。

　（ステップＳ１５）出現頻度算出部１６０は、前処理コーパスに基づいて、前処理コーパス内における対象単語の出現頻度ｆ（ｗ）を、重みとして算出する。また、出現頻度算出部１６０は、前処理コーパスに基づいて、前処理コーパス内における同一カテゴリ単語の出現頻度ｆ（ｗ_ｔ′）を、重みとして算出する。

　（ステップＳ１６）正則化項算出部１７０は、対象単語の単語ベクトル、同一カテゴリ単語の単語ベクトル、対象単語の出現頻度ｆ（ｗ）、及び同一カテゴリ単語の出現頻度ｆ（ｗ_ｔ′）を用いて、正則化項Ｅ（ｗ_ｔ，ｗ_ｔ′）を算出する。言い換えれば、正則化項算出部１７０は、対象単語の単語ベクトル、同一カテゴリ単語の単語ベクトル、対象単語の出現頻度ｆ（ｗ）、及び同一カテゴリ単語の出現頻度ｆ（ｗ_ｔ′）を用いて、意味空間上における距離であり、出現頻度に応じた距離に基づく正則化項Ｅ（ｗ_ｔ，ｗ_ｔ′）を算出する。詳細には、正則化項算出部１７０は、式（１）を用いて、正則化項Ｅ（ｗ_ｔ，ｗ_ｔ′）を算出する。

　なお、Ｖは、コーパス１１１の語彙集合を示す。ｗ_ｔは、対象単語の単語ベクトルである。ｗ_ｔ′は、同一カテゴリ単語の単語ベクトルである。ｄ（ｗ_ｔ，ｗ_ｔ′）は、対象単語の単語ベクトルと、同一カテゴリ単語の単語ベクトルとの距離である。なお、距離では、ユークリッド距離が用いられる。距離では、コサイン類似度（ｃｏｓ類似度）の逆数、又は、“１－ｃｏｓ類似度”が用いられてもよい。

　ここで、意味空間上における距離を説明する。
　図４は、実施の形態１の意味空間を説明する図である。図４では、意味空間が２次元で表されている。図４は、対象単語２０、出現頻度の多い単語である高頻度単語２１、及び出現頻度の少ない単語である低頻度単語２２を示している。対象単語２０、高頻度単語２１、及び低頻度単語２２は、同一のカテゴリの単語である。

　図４は、信頼領域２３，２４を示している。高頻度単語２１の単語ベクトルは、分散が小さい傾向にある。そのため、信頼領域２３は、小さい。低頻度単語２２の単語ベクトルは、分散が大きい傾向にある。そのため、信頼領域２４は、大きい。また、図４は、対象単語２０と異なるカテゴリの単語３１，３２を示している。

　同一カテゴリ単語の出現頻度ｆ（ｗ_ｔ′）が少ない場合、正則化項算出部１７０は、低頻度単語２２から対象単語２０に対する影響が小さくなるような、正則化項Ｅ（ｗ_ｔ，ｗ_ｔ′）を算出する。また、同一カテゴリ単語の出現頻度ｆ（ｗ_ｔ′）が多い場合、正則化項算出部１７０は、高頻度単語２１から対象単語２０に対する影響が大きくなるような、正則化項Ｅ（ｗ_ｔ，ｗ_ｔ′）を算出する。

　（ステップＳ１７）更新部１８０は、正則化項Ｅ（ｗ_ｔ，ｗ_ｔ′）を用いて、対象単語の単語ベクトルｗ_ｔを更新する。詳細には、更新部１８０は、正則化項Ｅ（ｗ_ｔ，ｗ_ｔ′）とｓｋｉｐ－ｇｒａｍ　ｎｅｇａｔｉｖｅ　ｓａｍｐｌｉｎｇの目的関数とを用いた目的関数に基づいて、対象単語の単語ベクトルｗ_ｔを更新する。具体的には、更新部１８０は、式（２）を用いて、対象単語の単語ベクトルｗ_ｔを更新する。なお、式（２）における総和記号の中の第１項と第２項とは、非特許文献２に記載のｓｋｉｐ－ｇｒａｍ　ｎｅｇａｔｉｖｅ　ｓａｍｐｌｉｎｇの目的関数とは同様である。そのため、同様の箇所の説明は、省略する。

　なお、Ｊは、目的関数を示す。σ（ｘ）（＝１／（１＋ｅｘｐ（－ｘ）））は、シグモイド関数を示す。ｋは、Ｓｋｉｐ－ｇｒａｍ　ｎｅｇａｔｉｖｅ　ｓａｍｐｌｉｎｇの擬似負例数を示す。Ｐｎは、擬似負例のサンプリング分布を示す。なお、Ｐｎは、通常、ユニグラム分布又はユニグラムの０．７５乗した分布である。ｗ_ｎは、擬似負例の単語ベクトルを示す。ｗ_ｃは、ｗ_ｔと共起する単語の単語ベクトルを示す。なお、共起する単語とは、対象単語の前後Ｎ文字以内に存在する単語のことである。また、Ｎは、予め定められた整数である。

　（ステップＳ１８）更新部１８０は、終了要件を満たすか否かを判定する。なお、例えば、終了要件は、対象単語の単語ベクトルｗ_ｔが変動しなくなることである。また、例えば、終了要件は、ステップＳ１６，１７を実行した回数が予め定められた閾値を超えることである。
　終了要件が満たされていない場合、処理は、ステップＳ１６に進む。終了要件が満たされた場合、処理は、終了する。更新部１８０は、対象単語の単語ベクトルｗ_ｔを記憶部１１０に格納する。
　ここで、ステップＳ１６～１８を繰り返すことは、学習と表現してもよい。

　実施の形態１によれば、情報処理装置１００は、同じカテゴリの全ての単語に同じ重みを付加して、対象単語の単語ベクトルを更新しない。情報処理装置１００は、出現頻度に応じた正則化項を算出し、正則化項を用いて、対象単語の単語ベクトルを更新する。例えば、情報処理装置１００は、同一カテゴリ単語の出現頻度が少ない場合、正則化項を用いることで、出現頻度の少ない単語から対象単語に対する影響を小さくする。よって、情報処理装置１００は、対象単語の単語ベクトルの分散表現を向上させることができる。

実施の形態２．
　次に、実施の形態２を説明する。実施の形態２では、実施の形態１と相違する事項を主に説明する。そして、実施の形態２では、実施の形態１と共通する事項の説明を省略する。

　図５は、実施の形態２の情報処理装置の機能を示すブロック図である。図１に示される構成と同じ図５の構成は、図１に示される符号と同じ符号を付している。また、図５では、前処理部１３０、カテゴリ判定部１４０、単語ベクトル作成部１５０、出現頻度算出部１６０、正則化項算出部１７０、及び更新部１８０の図示が、省略されている。

　情報処理装置１００は、さらに、表示部１９１、決定部１９２、判定部１９３、及び再学習部１９４を有する。
　表示部１９１、決定部１９２、判定部１９３、及び再学習部１９４の一部又は全部は、処理回路によって実現してもよい。また、表示部１９１、決定部１９２、判定部１９３、及び再学習部１９４の一部又は全部は、プロセッサ１０１が実行するプログラムのモジュールとして実現してもよい。

　記憶部１１０は、データベース１１３を記憶する。データベース１１３は、学習済モデルと呼んでもよい。データベース１１３は、コーパス１１１に含まれる複数の単語と、当該複数の単語に対応する複数の単語ベクトルとの対応関係を示す。なお、当該複数の単語ベクトルのそれぞれは、実施の形態１で、更新された単語ベクトルである。
　また、記憶部１１０は、再学習対象情報１１４を記憶する。再学習対象情報１１４については、後で説明する。

　表示部１９１、決定部１９２、判定部１９３、及び再学習部１９４の機能については、後で説明する。

　次に、情報処理装置１００が実行する処理を、フローチャートを用いて説明する。
　図６は、実施の形態２の情報処理装置が実行する処理の例を示すフローチャートである。
　（ステップＳ２１）表示部１９１は、検索ユーザインタフェース画面を表示する。例えば、表示部１９１は、検索ユーザインタフェース画面をディスプレイに表示する。
　（ステップＳ２２）取得部１２０は、検索ユーザインタフェース画面を介して、検索キーワードが入力されたか否かを判定する。ユーザによって、検索キーワードが入力された場合、取得部１２０は、ユーザが入力した検索キーワードを取得する。そして、処理は、ステップＳ２３に進む。検索キーワードが入力されていない場合、取得部１２０は、検索キーワードが入力されるまで待機する。

　（ステップＳ２３）決定部１９２は、データベース１１３を用いて、検索キーワードの類義語を決定する。詳細には、決定部１９２は、検索キーワードの単語ベクトルと類似する単語ベクトルをデータベース１１３の中から検出し、検出された単語ベクトルに対応する単語を、検索キーワードの類義語として、決定する。なお、例えば、類似するか否かは、閾値を用いて、判定される。

　（ステップＳ２４）表示部１９１は、検索キーワードの類義語を表示する。なお、検索キーワードの類義語が表示されることを、サジェストとも言う。
　（ステップＳ２５）判定部１９３は、ユーザが当該類義語を採択したか否かを判定する。

　ここで、類義語の表示と類義語の採択とを、具体的に例示する。
　図７は、実施の形態２の類義語の表示と類義語の採択との具体例を示す図である。図７は、“ほげほげ”が検索キーワードとして入力されたことを示している。表示部１９１は、検索キーワード“ほげほげ”の類義語“ふがふが”を表示する。ユーザが類義語“ふがふが”を採択した場合、表示部１９１は、検索キーワード“ほげほげ”と類義語“ふがふが”とを表示する。ユーザが類義語“ふがふが”を採択しない場合、表示部１９１は、検索キーワード“ほげほげ”を表示する。
　このように、ユーザは、表示画面を見て、類義語を採用するか否かを判断する。

　ユーザが類義語を採択した場合、処理は、終了する。ユーザが類義語を採択しない場合、処理は、ステップＳ２６に進む。

　ここで、ユーザが当該類義語を採択しない場合、当該類義語は、ユーザにとって検索キーワードの類義語ではないことを意味する。つまり、当該類義語は、意味空間上において、検索キーワードの近傍に存在するべきでないことを意味する。そこで、再学習部１９４は、検索キーワードと、表示された類義語とを、再学習の対象単語として、再学習対象情報１１４に登録する。

　（ステップＳ２６）判定部１９３は、再学習の要件を満たすか否かを判定する。例えば、再学習の要件は、再学習対象情報１１４に登録されている単語の数が、閾値を超えることである。また、判定部１９３は、再学習対象情報１１４に２つの単語が登録されたタイミングで、再学習の要件を満たすと判定してもよい。
　再学習の要件が満たされる場合、処理は、ステップＳ２７に進む。再学習の要件が満たされない場合、処理は、終了する。

　（ステップＳ２７）取得部１２０は、カテゴリ辞書１１２の更新情報を取得する。例えば、当該更新情報は、ユーザによって作成されてもよい。
　（ステップＳ２８）再学習部１９４は、当該更新情報に基づいて、カテゴリ辞書１１２を更新する。なお、カテゴリ辞書１１２を更新する理由は、後述する再学習で、検索キーワードの単語ベクトルと、類義語の単語ベクトルとを適切な単語ベクトルに更新させるためである。

　（ステップＳ２９）再学習部１９４は、更新されたカテゴリ辞書１１２と、再学習対象情報１１４とを用いて、検索キーワードの単語ベクトルと、類義語の単語ベクトルとを更新するための処理を実行する。詳細には、再学習部１９４は、再学習対象情報１１４に登録されている複数の単語を、コーパス１１１又は前処理コーパスと見立てて、ステップＳ１２～１８を実行する。これにより、再学習対象情報１１４に登録されている複数の単語のそれぞれが、対象単語となる。そして、複数の単語のそれぞれの単語ベクトルが、更新される。
　再学習部１９４は、再学習対象情報１１４に登録されている複数の単語と、更新された複数の単語ベクトルとをデータベース１１３に登録する。

　実施の形態２によれば、情報処理装置１００は、再学習対象情報１１４に登録されている複数の単語を再学習することで、ユーザが望む類義語を表示することができる。

　以上に説明した各実施の形態における特徴は、互いに適宜組み合わせることができる。

　１０　ネットワーク、　２０　対象単語、　２１　高頻度単語、　２２　低頻度単語、　２３　信頼領域、　２４　信頼領域、　３１，３２　単語、　１００　情報処理装置、　１０１　プロセッサ、　１０２　揮発性記憶装置、　１０３　不揮発性記憶装置、　１１０　記憶部、　１１１　コーパス、　１１２　カテゴリ辞書、　１１３　データベース、　１１４　再学習対象情報、　１２０　取得部、　１３０　前処理部、　１４０　カテゴリ判定部、　１５０　単語ベクトル作成部、　１６０　出現頻度算出部、　１７０　正則化項算出部、　１８０　更新部、　１９１　表示部、　１９２　決定部、　１９３　判定部、　１９４　再学習部。

Claims

　前処理が行われたコーパスである前処理コーパスと、単語とカテゴリとの対応関係を示す情報であるカテゴリ辞書とを取得する取得部と、
　前記カテゴリ辞書を用いて、前記前処理コーパスに含まれる複数の単語のカテゴリを判定するカテゴリ判定部と、
　前記複数の単語のうちの１つの単語である対象単語に基づいて、前記対象単語の単語ベクトルを作成し、前記複数の単語のうちの１つの単語であり、かつ前記対象単語と同じカテゴリの単語である同一カテゴリ単語に基づいて、前記同一カテゴリ単語の単語ベクトルを作成する単語ベクトル作成部と、
　前記前処理コーパスに基づいて、前記前処理コーパス内における前記対象単語の出現頻度と、前記前処理コーパス内における前記同一カテゴリ単語の出現頻度とを算出する出現頻度算出部と、
　前記対象単語の単語ベクトル、前記同一カテゴリ単語の単語ベクトル、前記対象単語の出現頻度、及び前記同一カテゴリ単語の出現頻度を用いて、正則化項を算出する正則化項算出部と、
　前記正則化項を用いて、前記対象単語の単語ベクトルを更新する更新部と、
　を有する情報処理装置。
　前処理部をさらに有し、
　前記取得部は、コーパスを取得し、
　前記前処理部は、前記コーパスを前処理し、
　前記前処理コーパスは、前記前処理部によって前処理されたコーパスである、
　請求項１に記載の情報処理装置。
　記憶部と、
　決定部と、
　表示部と、
　判定部と、
　再学習部と、
　をさらに有し、
　前記記憶部は、前記複数の単語と、前記複数の単語に対応する複数の単語ベクトルとの対応関係を示すデータベースを記憶し、
　前記複数の単語ベクトルのうちの１つの単語ベクトルは、更新された単語ベクトルであり、
　前記取得部は、ユーザが入力した検索キーワードを取得し、
　前記決定部は、前記データベースを用いて、前記検索キーワードの類義語を決定し、
　前記表示部は、前記類義語を表示し、
　前記判定部は、前記ユーザが前記類義語を採択したか否かを判定し、
　前記再学習部は、前記ユーザが前記類義語を採択しない場合、前記検索キーワードと前記類義語とを、再学習の対象単語として、再学習対象情報に登録し、
　前記取得部は、前記ユーザが前記類義語を採択しない場合、前記カテゴリ辞書の更新情報を取得し、
　前記再学習部は、前記更新情報が取得された場合、前記更新情報に基づいて、前記カテゴリ辞書を更新し、更新された前記カテゴリ辞書と、前記再学習対象情報とを用いて、前記検索キーワードの単語ベクトルと、前記類義語の単語ベクトルとを更新するための処理を実行する、
　請求項１又は２に記載の情報処理装置。
　情報処理装置が、
　前処理が行われたコーパスである前処理コーパスと、単語とカテゴリとの対応関係を示す情報であるカテゴリ辞書とを取得し、
　前記カテゴリ辞書を用いて、前記前処理コーパスに含まれる複数の単語のカテゴリを判定し、
　前記複数の単語のうちの１つの単語である対象単語に基づいて、前記対象単語の単語ベクトルを作成し、前記複数の単語のうちの１つの単語であり、かつ前記対象単語と同じカテゴリの単語である同一カテゴリ単語に基づいて、前記同一カテゴリ単語の単語ベクトルを作成し、
　前記前処理コーパスに基づいて、前記前処理コーパス内における前記対象単語の出現頻度と、前記前処理コーパス内における前記同一カテゴリ単語の出現頻度とを算出し、
　前記対象単語の単語ベクトル、前記同一カテゴリ単語の単語ベクトル、前記対象単語の出現頻度、及び前記同一カテゴリ単語の出現頻度を用いて、正則化項を算出し、
　前記正則化項を用いて、前記対象単語の単語ベクトルを更新する、
　更新方法。
　情報処理装置に、
　前処理が行われたコーパスである前処理コーパスと、単語とカテゴリとの対応関係を示す情報であるカテゴリ辞書とを取得し、
　前記カテゴリ辞書を用いて、前記前処理コーパスに含まれる複数の単語のカテゴリを判定し、
　前記複数の単語のうちの１つの単語である対象単語に基づいて、前記対象単語の単語ベクトルを作成し、前記複数の単語のうちの１つの単語であり、かつ前記対象単語と同じカテゴリの単語である同一カテゴリ単語に基づいて、前記同一カテゴリ単語の単語ベクトルを作成し、
　前記前処理コーパスに基づいて、前記前処理コーパス内における前記対象単語の出現頻度と、前記前処理コーパス内における前記同一カテゴリ単語の出現頻度とを算出し、
　前記対象単語の単語ベクトル、前記同一カテゴリ単語の単語ベクトル、前記対象単語の出現頻度、及び前記同一カテゴリ単語の出現頻度を用いて、正則化項を算出し、
　前記正則化項を用いて、前記対象単語の単語ベクトルを更新する、
　処理を実行させる更新プログラム。