WO2021152715A1

WO2021152715A1 - 学習装置、検索装置、学習方法、検索方法及びプログラム

Info

Publication number: WO2021152715A1
Application number: PCT/JP2020/003097
Authority: WO
Inventors: 拓長谷川; 京介西田; 準二富田; 久子浅野
Original assignee: 日本電信電話株式会社
Priority date: 2020-01-29
Filing date: 2020-01-29
Publication date: 2021-08-05
Also published as: JPWO2021152715A1; US20230072537A1; JP7363929B2

Abstract

一実施形態に係る学習装置は、検索クエリと、前記検索クエリに関連がある第１の文書と、前記検索クエリに関連がない第２の文書とを入力として、ニューラルネットワークのモデルパラメータを用いて、前記検索クエリの特徴量と、前記第１の文書の特徴量と、前記第２の文書の特徴量とを生成する特徴量生成手段と、前記検索クエリの特徴量と、前記第１の文書の特徴量と、前記第２の文書の特徴量とを入力として、Ｌ０ノルムの微分可能な近似関数をコスト関数が含まれる誤差関数を用いて、前記モデルパラメータを更新する更新手段と、を有することを特徴とする。

Description

学習装置、検索装置、学習方法、検索方法及びプログラム

　本発明は、学習装置、検索装置、学習方法、検索方法及びプログラムに関する。

　文書検索では、大量の文書の中から検索クエリに関連する文書を高速に取り出すことが要求される。この要求を実現する技術として、例えば、文書内に含まれる単語をキー、その単語が含まれる文書の文書番号をバリューとする転置インデックスを作成した上で、この転置インデックスを利用して、検索クエリに含まれる単語で文書検索を行う技術が知られている。

　また、単語の完全一致で文書検索を行う場合、語彙の曖昧性や表記ゆれ等により検索漏れが起こり得る。このため、単語が完全一致しなくても文書検索を行うことができる技術として、ニューラルネットワークで得られたベクトルを潜在的な単語ベクトルとみなして、転置インデックスを作成し、文書検索を行う技術が知られている（例えば、非特許文献１）。

H. Zamani, M. Dehghani, W.B. Croft E. Learned-Miller and J. Kamps, "From Neural Re-Ranking to Neural Ranking: Learning a Sparse Representation for Inverted Indexing", Proceedings of the 27th ACM International Conference on Information and Knowledge Management, Pages 497-506, 2018.

　しかしながら、上記の非特許文献１に記載されている技術では、転置インデックスを利用した高速な検索を実現するために、ニューラルネットワークで得られるベクトルのスパース性を微分可能なＬ１ノルムの近似で評価している。このため、ニューラルネットワークで得られるベクトルがスパース性を十分に獲得できない場合がある。

　一方で、Ｌ０ノルムを直接計算してスパース性を評価することは、微分可能性の観点から現在のニューラルネットワーク技術の枠内では不可能である。

　本発明の一実施形態は、上記の点に鑑みてなされたもので、転置インデックスを利用した文書検索において、ニューラルネットワークで得られるベクトルのスパース性を安定的に獲得することを目的とする。

　上記目的を達成するため、一実施形態に係る学習装置は、検索クエリと、前記検索クエリに関連がある第１の文書と、前記検索クエリに関連がない第２の文書とを入力として、ニューラルネットワークのモデルパラメータを用いて、前記検索クエリの特徴量と、前記第１の文書の特徴量と、前記第２の文書の特徴量とを生成する特徴量生成手段と、前記検索クエリの特徴量と、前記第１の文書の特徴量と、前記第２の文書の特徴量とを入力として、Ｌ０ノルムの微分可能な近似関数をコスト関数が含まれる誤差関数を用いて、前記モデルパラメータを更新する更新手段と、を有することを特徴とする。

　転置インデックスを利用した文書検索において、ニューラルネットワークで得られるベクトルのスパース性を安定的に獲得することができる。

本実施形態に係る検索装置の全体構成の一例を示す図である。本実施形態に係る検索処理の一例を示すフローチャートである。本実施形態に係る転置インデックス生成装置の全体構成の一例を示す図である。本実施形態に係る転置インデックス生成処理の一例を示すフローチャートである。本実施形態に係る学習装置の全体構成の一例を示す図である。本実施形態に係る学習処理の一例を示すフローチャートである。本実施形態に係るモデルパラメータ更新処理の一例を示すフローチャートである。コンピュータのハードウェア構成の一例を示す図である。

　以下、本発明の一実施形態について説明する。本実施形態では、ニューラルネットワークで得られるベクトルと転置インデックスを利用して、検索対象の文書の中から検索クエリに関連する文書を検索する検索装置１０について説明する。また、当該転置インデックスを生成する転置インデックス生成装置２０と、当該ニューラルネットワークの学習を行う学習装置３０についても説明する。

　なお、本実施形態では、検索装置１０と転置インデックス生成装置２０と学習装置３０とがそれぞれ異なる装置であるものとして説明するが、これらの装置のうちの２以上の装置が同一の装置で実現されていてもよい。例えば、検索装置１０と転置インデックス生成装置２０が同一装置で実現されていてもよいし、転置インデックス生成装置２０と学習装置３０が同一装置で実現されていてもよいし、学習装置３０と検索装置１０が同一装置で実現されていてもよいし、検索装置１０と転置インデックス生成装置２０と学習装置３０とが同一装置で実現されていてもよい。

　［実施例１］
　まず、実施例１について説明する。実施例１では、検索装置１０により文書検索を行う場合について説明する。ここで、検索対象の文書集合を｛Ｄ_１，・・・，Ｄ_ｍ｝として、検索装置１０は、検索クエリＱを入力し、この検索クエリＱに関連する文書の順序集合｛Ｄ_１，・・・，Ｄ_ｋ｝とその関連度｛Ｓ_１，・・・，Ｓ_ｋ｝とを出力するものとする。ｍは検索対象の文書数、ｋ（ただし、ｋ≦ｍ）は検索クエリＱに関連する文書数である。

　なお、検索クエリＱ及び各検索対象文書Ｄ_ｉ（ｉ＝１，・・・，ｍ）はテキスト（文字列）である。また、検索クエリＱに関連する文書とは、この検索クエリＱに対する検索結果として得られる文書のことである。

　＜検索装置１０の全体構成＞
　本実施形態に係る検索装置１０の全体構成について、図１を参照しながら説明する。図１は、本実施形態に係る検索装置１０の全体構成の一例を示す図である。

　図１に示すように、本実施形態に係る検索装置１０は、文脈符号化部１０１と、スパース符号化部１０２と、転置インデックス活用部１０３と、ランキング部１０４とを有する。ここで、文脈符号化部１０１及びスパース符号化部１０２はニューラルネットワークで実現されており、そのパラメータは予め学習済みであるものとする。以降では、文脈符号化部１０１及びスパース符号化部１０２を実現するニューラルネットワークのパラメータを「モデルパラメータ」と表す。なお、学習済みモデルパラメータは、例えば、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等の補助記憶装置に記憶されている。

　文脈符号化部１０１は、検索クエリＱを入力として、学習済みモデルパラメータを用いて、この検索クエリＱの特徴量Ｕを出力する。

　ここで、文脈符号化部１０１を実現するニューラルネットワークとしては、例えば、BERT（Bidirectional Encoder Representations from Transformers）等を用いることができる。BERTはTransformerを用いた文脈考慮型の事前学習モデルであり、テキストを入力として、ｄ次元の特徴量を出力する。この特徴量を全結合のニューラルネットワーク１層で変換することで、自然言語処理の様々なタスクで高性能を発揮している。BERTの詳細については、例えば、参考文献１「J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova. Bert:Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018.」等を参照されたい。また、Transformerの詳細については、例えば、参考文献２「Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. Attention Is All You Need. arXiv preprint arXiv:1706.03762, 2017.」等を参照されたい。

　文脈符号化部１０１を実現するニューラルネットワークとしてBERTを用いる場合、検索クエリＱの文頭にCLSタグ、文末にSEPタグを追加した上で、文脈符号化部１０１に入力する。

　なお、BERTは一例であって、文脈符号化部１０１を実現するニューラルネットワークとしては、Transformerを用いた文脈考慮型の他の事前学習モデルが用いられてもよい。より一般には、文脈符号化部１０１を実現するニューラルネットワークとしては、テキストを符号化することが可能な任意のニューラルネットワークが用いられてもよい。ただし、BERT等の文脈考慮型の事前学習モデルで文脈符号化部１０１を実現することで、文脈全体を考慮した特徴量を得ることが可能になる。以降では、文脈符号化部１０１はBERTで実現されているものとして、特徴量Ｕはｄ次元ベクトルであるものとする。

　スパース符号化部１０２は、検索クエリＱの特徴量Ｕを入力として、学習済みモデルパラメータを用いて、検索クエリＱのスパース特徴量Ｕ'を出力する。

　ここで、スパース符号化部１０２を実現するニューラルネットワークとしては、例えば、上記の非特許文献１に記載されている全結合層のモデル等を用いることができる。より具体的には、特徴量Ｕの次元数ｄよりもスパース特徴量Ｕ'の次元数ｄ'の方が大きくなるように全結合層を数層（例えば、３から５層程度）積み上げると共に、これらの全結合層の最終層の発火関数をReLu関数としたモデルを用いることができる。最終層の発火関数をReLu関数とすることで、０を要素に持つスパース特徴量Ｕ'を得ることが可能となる（つまり、スパースな表現能力の獲得が可能となる）。

　なお、上記の非特許文献１に記載されているモデルは一例であって、スパース符号化部１０２を実現するニューラルネットワークとしては、入力次元よりも出力次元の方が高次元であり、かつ、最終層に以下の条件１－１～条件１－３の全てを満たす一般的な発火関数ｆ：Ｒ→Ｒを用いているものであれば任意のモデルを用いることが可能である。

　条件１－１：全てのｘに対して、ｆ（ｘ）≧０であること
　条件１－２：ｆは単調増加であること
　条件１－３：ｆ（ａ）＝０となるａ∈Ｒが存在すること
　また、スパース特徴量Ｕ'の次元数ｄ'は可能な限り高次元であることが好ましい。ただし、次元数ｄ'が高いほどスパース特徴量Ｕ'の表現力は高くなる一方で、スパース特徴量Ｕ'を計算するための計算コストやモデルパラメータを学習するための学習コスト等が高くなる。更に、検索対象の文書集合が持つ情報量と許容可能な計算コストは状況によって異なり得ると共に、次元数ｄ'とスパース符号化部１０２を実現するニューラルネットワークによる写像の終域が張る空間の次元数（つまり、当該写像の表現行列のランク）とは必ずしも一致するとは限らない。そのため、次元数ｄ'をどの程度とするかは、例えば、検索対象の文書集合が持つ情報量や利用可能な計算資源等によって異なり得る。

　なお、本実施形態では、文脈符号化部１０１とスパース符号化部１０２とを異なる機能部として表現しているが、これは便宜上であって、文脈符号化部１０１とスパース符号化部１０２とが１つの機能部であってもよい。

　転置インデックス活用部１０３は、スパース特徴量Ｕ'を入力として、予め生成された転置インデックスを用いて、検索対象文書のスパース特徴量の部分集合｛Ｖ'_ｉ｜ｉ∈Ｋ｝を得る。Ｋは｜Ｋ｜＝ｋであり、検索クエリＱに関連する文書のインデックス（又は、文書番号や文書ＩＤ等）の集合である。また、検索対象文書のスパース特徴量Ｖ'_ｉは、検索対象文書Ｄ_ｉを文脈符号化部１０１及びスパース符号化部１０２に入力することで得られるｄ'次元のベクトルである。以降では、ｉ＝１，・・・，ｍに対して、Ｖ'_ｉ＝（ｖ'_ｉ１，ｖ'_ｉ２，・・・，ｖ'_ｉｄ'）と表す。また、文書のインデックスを「文書インデックス」とも表す。なお、転置インデックスは、例えば、ＨＤＤやＳＳＤ等の補助記憶装置に記憶されている。

　ここで、本実施形態に係る転置インデックスは、スパース特徴量の各次元１，２，・・・，ｄ'（つまり、次元のインデックス又は次元番号）をキーとし、キーｒに関して｛（ｉ，ｖ'_ｉｒ）｜ｖ'_ｉｒ≠０｝_{ｉ∈｛１，・・・，ｍ｝}で表される集合をバリューとして設定した情報である。このとき、転置インデックス活用部１０３は、スパース特徴量Ｕ'＝（ｕ'_１，ｕ'_２，・・・，ｕ'_ｄ'）に関してｕ'_ｒ≠０である各次元ｒをキーとして、バリューの集合｛（ｉ，ｖ'_ｉｒ）｜ｖ'_ｉｒ≠０｝_{ｉ∈｛１，・・・，ｍ｝}を転置インデックスから取得する。そして、転置インデックス活用部１０３は、取得したバリューの集合に含まれる全ての文書インデックスの集合をＫとして、検索対象文書のスパース特徴量の部分集合｛Ｖ'_ｉ｜ｉ∈Ｋ｝を得る。

　ランキング部１０４は、検索クエリＱのスパース特徴量Ｕ'と検索対象文書のスパース特徴量の部分集合｛Ｖ'_ｉ｜ｉ∈Ｋ｝とを入力として、検索クエリＱに関連する文書（以降、「関連文書」とも表す。）の順序集合｛Ｄ_ｉ｜ｉ∈Ｋ｝とその関連度｛Ｓ_ｉ｜ｉ∈Ｋ｝とを出力する。なお、関連文書の順序集合｛Ｄ_ｉ｜ｉ∈Ｋ｝は、関連度Ｓ_ｉの昇順又は降順に順序付けた集合である。

　ここで、関連文書の順序集合｛Ｄ_ｉ｜ｉ∈Ｋ｝とその関連度｛Ｓ_ｉ｜ｉ∈Ｋ｝は、文書インデックスをリナンバリングすることで、それぞれ｛Ｄ_１，・・・，Ｄ_ｋ｝及び｛Ｓ_１，・・・，Ｓ_ｋ｝と表すことができる。また、検索クエリＱと文書Ｄ_ｉの関連度Ｓ_ｉは、適当な距離関数ｄを用いて、Ｓ_ｉ＝ｄ（Ｕ'，Ｖ'_ｉ）で計算される。距離関数ｄとしては、例えば、内積距離等を用いることが可能である。ただし、距離関数ｄとしては、ベクトル間の距離を測ることができる任意の距離関数を用いることが可能である。

　＜検索処理＞
　入力された検索クエリＱの関連文書の順序集合｛Ｄ_ｉ｜ｉ∈Ｋ｝とその関連度｛Ｓ_ｉ｜ｉ∈Ｋ｝とを得るための検索処理について、図２を参照しながら説明する。図２は、本実施形態に係る検索処理の一例を示すフローチャートである。

　ステップＳ１０１：まず、文脈符号化部１０１は、検索クエリＱを入力として、学習済みモデルパラメータを用いて、この検索クエリＱの特徴量Ｕを出力する。

　ステップＳ１０２：次に、スパース符号化部１０２は、上記のステップＳ１０１で得られた特徴量Ｕを入力として、学習済みモデルパラメータを用いて、検索クエリＱのスパース特徴量Ｕ'を出力する。

　ステップＳ１０３：次に、転置インデックス活用部１０３は、上記のステップＳ１０２で得られたスパース特徴量Ｕ'を入力として、予め生成された転置インデックスを用いて、検索対象文書のスパース特徴量の部分集合｛Ｖ'_ｉ｜ｉ∈Ｋ｝を得る。

　ステップＳ１０４：そして、ランキング部１０４は、上記のステップＳ１０２で得られたスパース特徴量Ｕ'と、上記のステップＳ１０３で得られた集合｛Ｖ'_ｉ｜ｉ∈Ｋ｝とを入力として、検索クエリＱの関連文書の順序集合｛Ｄ_ｉ｜ｉ∈Ｋ｝とその関連度｛Ｓ_ｉ｜ｉ∈Ｋ｝とを出力する。

　以上により、本実施形態に係る検索装置１０は、入力された検索クエリＱに関連する文書の順序集合｛Ｄ_ｉ｜ｉ∈Ｋ｝とその関連度｛Ｓ_ｉ｜ｉ∈Ｋ｝とを得ることができる。このとき、本実施形態に係る検索装置１０は、検索クエリＱのスパース特徴量Ｕ'と、転置インデックス生成装置２０によって予め生成された転置インデックスとを用いることで、検索対象文書の文書量のオーダーに依存せずに、高速に関連文書とその関連度とを得ることができる。

　［実施例２］
　次に、実施例２について説明する。実施例２では、転置インデックス生成装置２０により転置インデックスを生成する場合について説明する。ここで、転置インデックス生成装置２０は、検索対象文書の集合｛Ｄ_１，・・・，Ｄ_ｍ｝を入力し、転置インデックスを出力するものとする。

　＜転置インデックス生成装置２０の全体構成＞
　本実施形態に係る転置インデックス生成装置２０の全体構成について、図３を参照しながら説明する。図３は、本実施形態に係る転置インデックス生成装置２０の全体構成の一例を示す図である。

　図３に示すように、本実施形態に係る転置インデックス生成装置２０は、文脈符号化部１０１と、スパース符号化部１０２と、転置インデックス生成部１０５とを有する。ここで、文脈符号化部１０１及びスパース符号化部１０２は、実施例１で説明した文脈符号化部１０１及びスパース符号化部１０２と同一のニューラルネットワークで実現されており、そのモデルパラメータは予め学習済みであるものとする。

　文脈符号化部１０１は、検索対象文書Ｄ_ｉを入力として、学習済みモデルパラメータを用いて、この検索対象文書Ｄ_ｉの特徴量Ｖ_ｉを出力する。

　スパース符号化部１０２は、検索対象文書Ｄ_ｉの特徴量Ｖ_ｉを入力として、学習済みモデルパラメータを用いて、検索対象文書Ｄ_ｉのスパース特徴量Ｖ'_ｉを出力する。

　転置インデックス生成部１０５は、各検索対象文書Ｄ_ｉ（ｉ＝１，・・・，ｍ）のスパース特徴量の集合｛Ｖ'_１，・・・，Ｖ'_ｍ｝を入力として、転置インデックスを生成及び出力する。上述したように、転置インデックスは、スパース特徴量の次元のインデックス又は次元番号をキーとし、キーｒに関して｛（ｉ，ｖ'_ｉｒ）｜ｖ'_ｉｒ≠０｝_{ｉ∈｛１，・・・，ｍ｝}で表される集合をバリューとして設定した情報である。したがって、転置インデックス生成部１０５は、各スパース特徴量Ｖ'_ｉ（ｉ＝１，・・・，ｍ）の各要素ｖ'_ｉｒ（ｒ＝１，・・・，ｄ'）がｖ'_ｉｒ＝０であるか否かを判定し、ｖ'_ｉｒ≠０であればキーがｒであるバリューの集合に（ｉ，ｖ'_ｉｒ）を追加することで、転置インデックスを生成する。

　＜転置インデックス生成処理＞
　入力された検索対象文書の集合｛Ｄ_１，・・・，Ｄ_ｍ｝から転置インデックスを生成するための転置インデックス生成処理について、図４を参照しながら説明する。図４は、本実施形態に係る転置インデックス生成処理の一例を示すフローチャートである。なお、転置インデックス生成処理は、後述する学習処理が終了した後、上述した検索処理を実行する前に実行される。

　ステップＳ２０１：まず、文脈符号化部１０１は、検索対象文書Ｄ_ｉを入力として、学習済みモデルパラメータを用いて、この検索対象文書Ｄ_ｉの特徴量Ｖ_ｉを出力する。

　ステップＳ２０２：次に、スパース符号化部１０２は、検索対象文書Ｄ_ｉの特徴量Ｖ_ｉを入力として、学習済みモデルパラメータを用いて、検索対象文書Ｄ_ｉのスパース特徴量Ｖ'_ｉを出力する。

　上記のステップＳ２０１～ステップＳ２０２は、全ての検索対象文書Ｄ_ｉ（ｉ＝１，・・・，ｍ）に対して繰り返し実行される。

　ステップＳ２０３：そして、転置インデックス生成部１０５は、各検索対象文書Ｄ_ｉ（ｉ＝１，・・・，ｍ）のスパース特徴量の集合｛Ｖ'_１，・・・，Ｖ'_ｍ｝を入力として、転置インデックスを生成及び出力する。

　以上により、本実施形態に係る転置インデックス生成装置２０は、入力された検索対象文書の集合｛Ｄ_１，・・・，Ｄ_ｍ｝から転置インデックスを生成することができる。上述したように、この転置インデックスを用いることで、検索装置１０は、検索対象文書の文書量のオーダーに依存せずに、高速に関連文書とその関連度とを得ることができる（すなわち、検索クエリＱに関連する文書を検索することができる。）。

　［実施例３］
　次に、実施例３について説明する。実施例３では、学習装置３０によりニューラルネットワーク（文脈符号化部１０１及びスパース符号化部１０２を実現するニューラルネットワーク）の学習を行う場合について説明する。ここで、実施例３ではモデルパラメータは学習済みでないものとして、学習装置３０は、訓練データセットを入力し、このモデルパラメータを学習するものとする。訓練データセットはモデルパラメータの学習（訓練）に用いられる訓練データの集合のことである。

　本実施形態では、例えば、参考文献３「Payal Bajaj, Daniel Campos, Nick Craswell, Li Deng, Jianfeng Gao, Xiaodong Liu, Rangan Majumder, Andrew McNamara, Bhaskar Mitra, Tri Nguyen, Mir Rosenberg, Xia Song, Alina Stoica, Saurabh Tiwary, Tong Wang. MS MARCO: A Human Generated MAchine Reading COmprehension Dataset. arXiv preprint arXiv: 1611.09268, 2018.」に記載されているデータセットから訓練データセットを予め作成しておくものとする。

　上記の参考文献３に記載されているデータセットは、検索クエリ集合Ｒ＝｛Ｑ_１，・・・，Ｑ_ｃ｝と検索対象文書の集合Ｇ＝｛Ｄ_１，・・・，Ｄ_ｍ'｝とで構成される。ｃは検索クエリ数、ｍ'は検索対象文書数である。なお、ｍ'＝ｍであってもよいし、ｍ'≠ｍであってもよい。ただし、ｍ'≧ｍであることが好ましい。

　また、検索クエリＱ_ｉ（ｉ＝１，・・・，ｃ）に対して、この検索クエリＱ_ｉに関連する文書の集合Ｇ_ｉ＝｛Ｄ_ｊ｜Ｄ_ｊはＱ_ｉに関連する文書｝が正解データとしてラベル付けされているものとする。

　このとき、検索クエリＱ_ｉに関連する文書の集合Ｇ_ｉからランダムに抽出した１つの文書をＤ_ｉ ^＋、検索クエリＱ_ｉに関連しない文書の集合Ｇ＼Ｇ_ｉからランダムに抽出した１つの文書をＤ_ｉ ^－として、（Ｑ_ｉ，Ｄ_ｉ ^＋，Ｄ_ｉ ^－）を訓練データとする（つまり、検索クエリＱ_ｉとその正例とその負例とで構成されるデータを訓練データとする。）。そして、これらの訓練データの集合｛（Ｑ_ｉ，Ｄ_ｉ ^＋，Ｄ_ｉ ^－）｜ｉ＝１，・・・，ｃ｝を訓練データセットとする。

　＜学習装置３０の全体構成＞
　本実施形態に係る学習装置３０の全体構成について、図５を参照しながら説明する。図５は、本実施形態に係る学習装置３０の全体構成の一例を示す図である。

　図５に示すように、本実施形態に係る学習装置３０は、文脈符号化部１０１と、スパース符号化部１０２と、ランキング部１０４と、分割部１０６と、更新部１０７と、判定部１０８とを有する。ここで、文脈符号化部１０１及びスパース符号化部１０２は、実施例１及び２で説明した文脈符号化部１０１及びスパース符号化部１０２と同一のニューラルネットワークで実現されているが、そのモデルパラメータは学習済みでないものとする。

　分割部１０６は、訓練データセットを入力として、この訓練データセットを複数のミニバッチにランダムに分割する。本実施形態では、ミニバッチ毎にモデルパラメータが繰り返し更新（学習）されるものとする。

　判定部１０８は、モデルパラメータの繰り返し更新を終了するための終了条件を満たしたか否かを判定する。なお、一つの訓練データを何回繰り返して学習させるかをエポックといい、その繰り返し数のことはエポック数という。

　文脈符号化部１０１は、訓練データ（Ｑ_ｉ，Ｄ_ｉ ^＋，Ｄ_ｉ ^－）を入力として、学習済みでないモデルパラメータを用いて、この訓練データ（Ｑ_ｉ，Ｄ_ｉ ^＋，Ｄ_ｉ ^－）の特徴量（Ｕ_ｉ，Ｖ_ｉ ^＋，Ｖ_ｉ ^－）を出力する。すなわち、文脈符号化部１０１は、検索クエリＱ_ｉ、正例Ｄ_ｉ ^＋及び負例Ｄ_ｉ ^－を入力として、それぞれの特徴量Ｕ_ｉ、Ｖ_ｉ ^＋及びＶ_ｉ ^－を出力する。

　スパース符号化部１０２は、訓練データ（Ｑ_ｉ，Ｄ_ｉ ^＋，Ｄ_ｉ ^－）の特徴量（Ｕ_ｉ，Ｖ_ｉ ^＋，Ｖ_ｉ ^－）を入力として、学習済みでないモデルパラメータを用いて、訓練データ（Ｑ_ｉ，Ｄ_ｉ ^＋，Ｄ_ｉ ^－）のスパース特徴量（Ｕ'_ｉ，Ｖ'_ｉ ^＋，Ｖ'_ｉ ^－）を出力する。すなわち、スパース符号化部１０２は、特徴量Ｕ_ｉ、Ｖ_ｉ ^＋及びＶ_ｉ ^－を入力として、それぞれのスパース特徴量Ｕ'_ｉ、Ｖ'_ｉ ^＋及びＶ'_ｉ ^－を出力する。

　ランキング部１０４は、検索クエリＱ_ｉのスパース特徴量Ｕ'_ｉと正例Ｄ_ｉ ^＋のスパース特徴量Ｖ'_ｉ ^＋と負例Ｄ_ｉ ^－のスパース特徴量Ｖ'_ｉ ^－とを入力として、検索クエリＱ_ｉに対する正例Ｄ_ｉ ^＋の関連度Ｓ_ｉ ^＋と検索クエリＱ_ｉに対する負例Ｄ_ｉ ^－の関連度Ｓ_ｉ ^－とを出力する。ここで、関連度Ｓ_ｉ ^＋及びＳ_ｉ ^－は、実施例１で説明した距離関数ｄを用いて、それぞれＳ_ｉ ^＋＝ｄ（Ｕ'_ｉ，Ｖ'_ｉ ^＋）及びＳ_ｉ ^－＝ｄ（Ｕ'_ｉ，Ｖ'_ｉ ^－）で計算される。

　更新部１０７は、スパース特徴量Ｕ'_ｉ，Ｖ'_ｉ ^＋及びＶ'_ｉ ^－と関連度Ｓ_ｉ ^＋及びＳ_ｉ ^－とを入力として、教師あり学習の手法によりモデルパラメータを更新する。ここで、教師あり学習の誤差関数としては、ランキング学習における誤差関数と、Ｌ０ノルムを微分可能な関数で近似したコスト関数とを用いればよい。

　より具体的には、ランキング学習における誤差関数には、上記の非特許文献１に記載されているhinge loss（つまり、非特許文献１に記載されている式（３））を用いる。hinge lossは、任意の設定されるパラメータεを用いて、hinge loss＝ｍａｘ｛０，ε－（Ｓ_ｉ ^＋－Ｓ_ｉ ^－）｝で表される。

　また、コスト関数には、スパース性を厳密に考慮するために、シグモイド関数を変形させた関数

をスパース特徴の各要素に作用させた和で表される関数を用いる。すなわち、

をコスト関数として用いる。ここで、Ｘはスパース特徴量Ｘ＝（ｘ_１，・・・，ｘ_ｄ'）であり、ａは非常に大きい値である。なお、ａとしては、例えば、全てのスパース特徴量の各要素の最大値に対して１０^６倍以上の値とすることが考えられる。

　以上により、教師あり学習の誤差関数lossとしては、例えば、以下の式（３）を用いることができる。

　ここで、λは任意に設定されるパラメータ（学習係数）である。

　上記の式（３）に示す誤差関数loss（すなわち、Ｌ０ノルムの微分可能な近似関数をコスト関数とした誤差関数）を用いることで、スパース特徴量のスパース性を安定的に獲得することが可能となる。すなわち、Ｌ０ノルムの微分可能な近似関数をコスト関数とした誤差関数を用いることで、微分可能性が担保された上でスパース特徴量のゼロ要素を増やすことができるため、スパース特徴量のスパース性を促進することが可能となる。

　＜学習処理＞
　入力された訓練データセットからモデルパラメータを学習するための学習処理について、図６を参照しながら説明する。図６は、本実施形態に係る学習処理の一例を示すフローチャートである。なお、モデルパラメータは適当な値で初期化されているものとする。

　ステップＳ３０１：まず、分割部１０６は、訓練データセットを入力として、この訓練データセットを複数のミニバッチにランダムに分割する。

　ステップＳ３０２：次に、学習装置３０は、各ミニバッチに対して、モデルパラメータの更新処理を実行する。これにより、モデルパラメータ更新処理によってモデルパラメータが更新される。モデルパラメータ更新処理の詳細については後述する。

　ステップＳ３０３：そして、判定部１０８は、所定の終了条件を満たしたか否かを判定する。学習装置３０は、終了条件を満たしたと判定された場合（ステップＳ３０３でＹＥＳ）は学習処理を終了する一方で、終了条件を満たしていないと判定された場合（ステップＳ３０３でＮＯ）はステップＳ３０１に戻る。これにより、所定の終了条件を満たすまで、ステップＳ３０１～ステップＳ３０２が繰り返し実行される。

　なお、所定の終了条件としては、例えば、エポック数が所定の第１の閾値以上となったこと、誤差関数lossが収束したこと（例えば、誤差関数の値が所定の第２の閾値未満となったこと、モデルパラメータの更新の前後で誤差関数lossの変化量が所定の第３の閾値未満となったこと等）等が挙げられる。

　＜モデルパラメータ更新処理＞
　上記のステップＳ３０２のモデルパラメータ更新処理について、図７を参照しながら説明する。図７は、本実施形態に係るモデルパラメータ更新処理の一例を示すフローチャートである。なお、以降では、或るミニバッチを用いてモデルパラメータを更新する場合について説明する。

　ステップＳ４０１：まず、文脈符号化部１０１は、当該ミニバッチ中の訓練データ（Ｑ_ｉ，Ｄ_ｉ ^＋，Ｄ_ｉ ^－）を入力として、学習済みでないモデルパラメータを用いて、この訓練データ（Ｑ_ｉ，Ｄ_ｉ ^＋，Ｄ_ｉ ^－）の特徴量（Ｕ_ｉ，Ｖ_ｉ ^＋，Ｖ_ｉ ^－）を出力する。

　ステップＳ４０２：次に、スパース符号化部１０２は、当該訓練データ（Ｑ_ｉ，Ｄ_ｉ ^＋，Ｄ_ｉ ^－）の特徴量（Ｕ_ｉ，Ｖ_ｉ ^＋，Ｖ_ｉ ^－）を入力として、学習済みでないモデルパラメータを用いて、当該訓練データ（Ｑ_ｉ，Ｄ_ｉ ^＋，Ｄ_ｉ ^－）のスパース特徴量（Ｕ'_ｉ，Ｖ'_ｉ ^＋，Ｖ'_ｉ ^－）を出力する。

　ステップＳ４０３：次に、ランキング部１０４は、検索クエリＱ_ｉのスパース特徴量Ｕ'_ｉと正例Ｄ_ｉ ^＋のスパース特徴量Ｖ'_ｉ ^＋と負例Ｄ_ｉ ^－のスパース特徴量Ｖ'_ｉ ^－とを入力として、検索クエリＱ_ｉに対する正例Ｄ_ｉ ^＋の関連度Ｓ_ｉ ^＋と検索クエリＱ_ｉに対する負例Ｄ_ｉ ^－の関連度Ｓ_ｉ ^－とを出力する。

　上記のステップＳ４０１～ステップＳ４０３は、当該ミニバッチに含まれる全ての訓練データ（Ｑ_ｉ，Ｄ_ｉ ^＋，Ｄ_ｉ ^－）に対して繰り返し実行される。

　ステップＳ４０４：続いて、更新部１０７は、上記のステップＳ４０２で得られた各スパース特徴量と、上記のステップＳ４０３で得られた各関連度とを入力として、例えば上記の式（３）に示す誤差関数lossの値（つまり、誤差又は損失）とモデルパラメータに関する誤差関数lossの勾配とを計算する。なお、モデルパラメータに関する誤差関数lossの勾配は、例えば、誤差逆伝播法等により計算すればよい。

　ステップＳ４０５：そして、更新部１０７は、上記のステップＳ４０４で計算した誤差関数lossの値とその勾配とを用いて、任意の最適化手法によりモデルパラメータを更新する。

　以上により、本実施形態に係る学習装置３０は、入力された訓練データセットを用いて、文脈符号化部１０１及びスパース符号化部１０２を実現するニューラルネットワークのモデルパラメータを学習することができる。このとき、本実施形態では、誤差関数に含まれるコスト関数としてＬ０ノルムの微分可能な近似関数を用いることで、当該ニューラルネットワークの出力として得られるスパース特徴量のスパース性を安定的に獲得することが可能となる。

　なお、本実施形態では、モデルパラメータの学習にミニバッチ学習を用いたが、これに限られず、例えば、バッチ学習やオンライン学習等の他の手法を用いてモデルパラメータを学習してもよい。

　また、本実施形態では、シグモイド関数を変形させた関数σ'（ｘ）（上記の式（１））を用いてＬ０ノルムの微分可能な近似関数を構成したが、例えば、上記の式（１）に示すσ'（ｘ）の代わりに、以下の条件２－１～条件２－３の全てを満たす任意の関数ｇ（ｘ）が用いられてもよい。

　条件２－１：ｘ≧０において値域が０≦ｇ（ｘ）≦１であること
　条件２－２：ｘ≧０において単調増加、かつ、微分可能であること
　条件２－３：ｘ＝０において０、かつ、ｇ（ｘ＋ε_１）が限りなく１に近いこと
　ここで、ε_１はε_１＞０を満たす、非常に小さい値である。なお、上記の条件１－１に示したように発火関数ｆの値域が非負であるため、上記の条件２－１及び条件２－２に対してｘ≧０という条件を付加することが可能となる。

　なお、上記の条件２－１はニューラルネットワークの出力を正に制限（ｘ≧０）した範囲内においてｇ（ｘ）は０以上１以下の値を取り得ることを表している。また、上記の条件２－２における「ｘ≧０において単調増加」はｘ≧０においてｇ（ｘ）が０に近いか１に近いかを判定するための条件であり、ｘが０に近いほどｇ（ｘ）は０に近くなり、ｘが０よりも増加するほどｇ（ｘ）は１に近くなることを意味している。また、上記の条件２－２における「微分可能」はｇの勾配が計算可能であることを表している。更に、上記の条件２－３はｇ（０）＝０であることと、ｘ≧０においてｇ（ｘ）が０に近いか１に近いかを判定するために、ｘ≧０においてｇ（ｘ）は急激な変化を持っている（つまり、０≦ｘ≦ε_１間でｘが増加するとｇ（ｘ）は急激に１に近付く）こととを表している。

　更に、スパース特徴量の特徴空間が特定の低次元の部分空間で表現されることを防ぐため、上記の式（３）に示す誤差関数lossに対して所定のコスト関数が追加されてもよい。このようなコスト関数としては、例えば、以下の式（４）で表されるｐ_ｒの分布を特定の分布へ近付けるコスト関数（具体的には、ｒに対するｐ_ｒの分散等）を用いることが可能である。

　ここで、Ｂは、或る訓練データの集合（例えば、ミニバッチ学習の場合はミニバッチ、バッチ学習の場合は訓練データセット等）に含まれる訓練データ（Ｑ_ｉ，Ｄ_ｉ ^＋，Ｄ_ｉ ^－）のインデックスｉの集合である。

　ただし、ｒに対するｐ_ｒの分散をコスト関数とする以外にも、例えば、適当な確率分布を仮定し、ＫＬ（Kullback-Leibler）ダイバージェンス等の分布間距離尺度を用いてコスト関数が定められてもよい。また、この際、分布パラメータにｐ_ｒの平均等のＬ０ノルムと等価な尺度が存在する場合には、Ｌ０ノルムの微分可能な近似関数をコスト関数として用いなくてもよい。

　＜ハードウェア構成＞
　最後に、本実施形態に係る検索装置１０、転置インデックス生成装置２０及び学習装置３０のハードウェア構成について説明する。検索装置１０、転置インデックス生成装置２０及び学習装置３０は一般的なコンピュータ又はコンピュータシステムのハードウェア構成により実現可能であり、例えば、図８に示すコンピュータ５００のハードウェア構成により実現可能である。図８は、コンピュータ５００のハードウェア構成の一例を示す図である。

　図８に示すコンピュータ５００は、入力装置５０１と、表示装置５０２と、外部Ｉ／Ｆ５０３と、通信Ｉ／Ｆ５０４と、プロセッサ５０５と、メモリ装置５０６とを有する。これら各ハードウェアは、それぞれがバス５０７を介して通信可能に接続されている。

　入力装置５０１は、例えば、キーボードやマウス、タッチパネル等である。表示装置５０２は、例えば、ディスプレイ等である。なお、コンピュータ５００は、入力装置５０１及び表示装置５０２のうちの少なくとも一方を有していなくてもよい。

　外部Ｉ／Ｆ５０３は、外部装置とのインタフェースである。外部装置には、記録媒体５０３ａ等がある。コンピュータ５００は、外部Ｉ／Ｆ５０３を介して、記録媒体５０３ａの読み取りや書き込み等を行うことができる。記録媒体５０３ａには、検索装置１０が有する各機能部（文脈符号化部１０１、スパース符号化部１０２、転置インデックス活用部１０３及びランキング部１０４）を実現する１以上のプログラムが格納されていてもよい。同様に、記録媒体５０３ａには、転置インデックス生成装置２０が有する各機能部（文脈符号化部１０１、スパース符号化部１０２及び転置インデックス生成部１０５）を実現する１以上のプログラムが格納されていてもよい。同様に、記録媒体５０３ａには、学習装置３０が有する各機能部（文脈符号化部１０１、スパース符号化部１０２、ランキング部１０４、分割部１０６及び更新部１０７）を実現する１以上のプログラムが格納されていてもよい。

　なお、記録媒体５０３ａには、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ＳＤメモリカード（Secure Digital memory card）、ＵＳＢ（Universal Serial Bus）メモリカード等がある。

　通信Ｉ／Ｆ５０４は、コンピュータ５００を通信ネットワークに接続するためのインタフェースである。なお、検索装置１０が有する各機能部を実現する１以上のプログラムは、通信Ｉ／Ｆ５０４を介して、所定のサーバ装置等から取得（ダウンロード）されてもよい。同様に、転置インデックス生成装置２０が有する各機能部を実現する１以上のプログラムは、通信Ｉ／Ｆ５０４を介して、所定のサーバ装置等から取得されてもよい。同様に、学習装置３０が有する各機能部を実現する１以上のプログラムは、通信Ｉ／Ｆ５０４を介して、所定のサーバ装置等から取得されてもよい。

　プロセッサ５０５は、例えば、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等の各種演算装置である。検索装置１０が有する各機能部は、例えば、メモリ装置５０６に格納されている１以上のプログラムがプロセッサ５０５に実行させる処理により実現される。同様に、転置インデックス生成装置２０が有する各機能部は、例えば、メモリ装置５０６に格納されている１以上のプログラムがプロセッサ５０５に実行させる処理により実現される。同様に、学習装置３０が有する各機能部は、例えば、メモリ装置５０６に格納されている１以上のプログラムがプロセッサ５０５に実行させる処理により実現される。

　メモリ装置５０６は、例えば、ＨＤＤやＳＳＤ、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ等の各種記憶装置である。

　本実施形態に係る検索装置１０は、図８に示すコンピュータ５００のハードウェア構成を有することにより、上述した検索処理を実現することができる。同様に、本実施形態に係る転置インデックス生成装置２０は、図８に示すコンピュータ５００のハードウェア構成を有することにより、上述した転置インデックス生成処理を実現することができる。同様に、本実施形態に係る学習装置３０は、図８に示すコンピュータ５００のハードウェア構成を有することにより、上述した学習処理を実現することができる。なお、図８に示すコンピュータ５００のハードウェア構成は一例であって、コンピュータ５００は、他のハードウェア構成を有していてもよい。例えば、コンピュータ５００は、複数のプロセッサ５０５を有していてもよいし、複数のメモリ装置５０６を有していてもよい。

　本発明は、具体的に開示された上記の実施形態に限定されるものではなく、請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。

　１０　　　　検索装置
　２０　　　　転置インデックス生成装置
　３０　　　　学習装置
　１０１　　　文脈符号化部
　１０２　　　スパース符号化部
　１０３　　　転置インデックス活用部
　１０４　　　ランキング部
　１０５　　　転置インデックス生成部
　１０６　　　分割部
　１０７　　　更新部
　１０８　　　判定部

Claims

　検索クエリと、前記検索クエリに関連がある第１の文書と、前記検索クエリに関連がない第２の文書とを入力として、ニューラルネットワークのモデルパラメータを用いて、前記検索クエリの特徴量と、前記第１の文書の特徴量と、前記第２の文書の特徴量とを生成する特徴量生成手段と、
　前記検索クエリの特徴量と、前記第１の文書の特徴量と、前記第２の文書の特徴量とを入力として、Ｌ０ノルムの微分可能な近似関数をコスト関数が含まれる誤差関数を用いて、前記モデルパラメータを更新する更新手段と、
　を有することを特徴とする学習装置。
　前記特徴量生成手段は、
　前記検索クエリに関して検索対象となる文書集合を入力として、前記更新手段により更新された前記モデルパラメータを用いて、前記文書集合に含まれる各文書の特徴量をそれぞれ生成し、
　前記学習装置は、
　前記各文書の特徴量の集合を入力として、前記集合に含まれる特徴量毎に、前記特徴量に含まれる非ゼロの要素に対応する次元のインデックスをキー、前記非ゼロの要素と前記特徴量に対応する文書のインデックスとをバリューとする転置インデックスを生成する転置インデックス生成手段、
　を有することを特徴とする請求項１に記載の学習装置。
　検索クエリを入力として、ニューラルネットワークの学習済みモデルパラメータを用いて、前記検索クエリのスパースな特徴量を生成する特徴量生成手段と、
　前記特徴量を入力として、前記特徴量の各次元のインデックスをキー、検索対象の文書のインデックスをバリューに設定した転置インデックスを用いて、前記特徴量に含まれる非ゼロ要素の次元のインデックスをキーとするバリューに設定されたインデックスの文書を、前記検索クエリに関連する文書として検索する検索手段と、
　を有することを特徴とする検索装置。
　検索クエリと、前記検索クエリに関連がある第１の文書と、前記検索クエリに関連がない第２の文書とを入力として、ニューラルネットワークのモデルパラメータを用いて、前記検索クエリの特徴量と、前記第１の文書の特徴量と、前記第２の文書の特徴量とを生成する特徴量生成手順と、
　前記検索クエリの特徴量と、前記第１の文書の特徴量と、前記第２の文書の特徴量とを入力として、Ｌ０ノルムの微分可能な近似関数をコスト関数が含まれる誤差関数を用いて、前記モデルパラメータを更新する更新手順と、
　をコンピュータが実行することを特徴とする学習方法。
　検索クエリを入力として、ニューラルネットワークの学習済みモデルパラメータを用いて、前記検索クエリのスパースな特徴量を生成する特徴量生成手順と、
　前記特徴量を入力として、前記特徴量の各次元のインデックスをキー、検索対象の文書のインデックスをバリューに設定した転置インデックスを用いて、前記特徴量に含まれる非ゼロ要素の次元のインデックスをキーとするバリューに設定されたインデックスの文書を、前記検索クエリに関連する文書として検索する検索手順と、
　をコンピュータが実行することを特徴とする検索方法。
　コンピュータを、請求項１又は２に記載の学習装置における各手段又は請求項３に記載の検索装置における各手段として機能させるためのプログラム。