WO2021106141A1

WO2021106141A1 - 情報処理装置、情報処理方法、及び情報処理プログラム

Info

Publication number: WO2021106141A1
Application number: PCT/JP2019/046557
Authority: WO
Inventors: 隼人内出
Original assignee: 三菱電機株式会社
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2021-06-03
Also published as: JP6840293B1; DE112019007834T5; JPWO2021106141A1; CN114730318A; KR20220073850A; KR102452777B1

Abstract

情報処理装置（１００）は、正解データを作成する装置である。情報処理装置（１００）は、取得部（１４０）と、処理部（１２０）と、を有する。取得部（１４０）は、複数の検索対象文書を取得する。処理部（１２０）は、複数の検索対象文書のうちの第１の検索対象文書の中から文字列を抽出し、文字列に基づいてクエリを作成し、複数の検索対象文書の中からクエリの検索対象を検索し、検索の結果である１以上の検索対象文書とクエリとを含む正解データを作成する。

Description

情報処理装置、情報処理方法、及び情報処理プログラム

　本発明は、情報処理装置、情報処理方法、及び情報処理プログラムに関する。

　近年、コンピュータがアクセス可能なデータ量が増加している。大量のデータの中から、所望のデータを効率的に検索するための技術が求められている。
　検索方法の１つとして、概念検索が知られている。ここで、文書概念検索装置が提案されている（特許文献１を参照）。例えば、文書概念検索装置は、正解情報を受け付ける。正解情報は、検索クエリと、検索クエリに概念的に適合する検索対象文書である正解文書の集合との組の集合である。

特開２０１８－１０４８２号公報

「Ｅｆｆｉｃｉｅｎｔ　Ｅｓｔｉｍａｔｉｏｎ　ｏｆ　Ｗｏｒｄ　Ｒｅｐｒｅｓｅｎｔａｔｉｏｎｓ　ｉｎ　Ｖｅｃｔｏｒ　Ｓｐａｃｅ」、２０１３、Ｔｏｍａｓ　Ｍｉｋｏｌｏｖ、Ｋａｉ　Ｃｈｅｎ、Ｇｒｅｇ　Ｃｏｒｒａｄｏ、Ｊｅｆｆｒｅｙ　Ｄｅａｎ「Ｎｅｕｒａｌ　Ｒａｎｋｉｎｇ　Ｍｏｄｅｌｓ　ｗｉｔｈ　Ｗｅａｋ　Ｓｕｐｅｒｖｉｓｉｏｎ」、２０１７、Ｍｏｓｔａｆａ　Ｄｅｈｇｈａｎｉ、Ｈａｍｅｄ　Ｚａｍａｎｉ、Ａｌｉａｋｓｅｉ　Ｓｅｖｅｒｙｎ、Jａａｐ　Ｋａｍｐｓ、Ｗ．　Ｂｒｕｃｅ　Ｃｒｏｆｔ「ＴｅｘｔＲａｎｋ：Ｂｒｉｎｇｉｎｇ　Ｏｒｄｅｒ　ｉｎｔｏ　Ｔｅｘｔｓ」、２００４、Ｒａｄａ　Ｍｉｈａｌｃｅａ、Ｐａｕｌ　Ｔａｒａｕ「Ｇｅｔ　Ｔｏ　Ｔｈｅ　Ｐｏｉｎｔ：Ｓｕｍｍａｒｉｚａｔｉｏｎ　ｗｉｔｈ　Ｐｏｉｎｔｅｒ－Ｇｅｎｅｒａｔｏｒ　Ｎｅｔｗｏｒｋｓ」２０１７、Ａｂｉｇａｉｌ　Ｓｅｅ、Ｐｅｔｅｒ　Ｊ．Ｌｉｕ、Ｃｈｒｉｓｔｏｐｈｅｒ　Ｄ．Ｍａｎｎｉｎｇ

　上記の正解情報は、予め作成する必要がある。例えば、正解情報は、ユーザのコンピュータ操作によって、作成される。上述したように、データ量が増加している。例えば、検索対象文書の数は、増加している。データ量が増加することは、正解情報を作成するユーザの負担を大きくする。

　本発明の目的は、ユーザの負担を軽減することである。

　本発明の一態様に係る情報処理装置が提供される。情報処理装置は、複数の検索対象文書を取得する取得部と、前記複数の検索対象文書のうちの第１の検索対象文書の中から文字列を抽出し、前記文字列に基づいてクエリを作成し、前記複数の検索対象文書の中から前記クエリの検索対象を検索し、検索の結果である１以上の検索対象文書と前記クエリとを含む正解データを作成する処理部と、を有する。

　本発明によれば、ユーザの負担を軽減することができる。

実施の形態１の情報処理装置が有する機能ブロック図である。実施の形態１の情報処理装置が有するハードウェアの構成を示す図である。実施の形態１の正解データの作成処理の例を示すフローチャートである。実施の形態１の学習処理の例を示すフローチャートである。実施の形態１の学習モデルの例を示す図である。実施の形態１の更新処理の例を示すフローチャートである。実施の形態２の情報処理装置が有する機能ブロック図である。実施の形態２の正解データの作成処理の例を示すフローチャートである。実施の形態３の情報処理装置が有する機能ブロック図である。実施の形態３の正解データの作成処理の例を示すフローチャートである。

　以下、図面を参照しながら実施の形態を説明する。以下の実施の形態は、例にすぎず、本発明の範囲内で種々の変更が可能である。

実施の形態１．
　図１は、実施の形態１の情報処理装置が有する機能ブロック図である。情報処理装置１００は、情報処理方法を実行する装置である。情報処理装置１００は、記憶部１１０、処理部１２０、学習処理部１３０、取得部１４０、検索部１５０、更新処理部１６０、及び出力部１７０を有する。

　ここで、情報処理装置１００が有するハードウェアについて説明する。
　図２は、実施の形態１の情報処理装置が有するハードウェアの構成を示す図である。情報処理装置１００は、プロセッサ１０１、揮発性記憶装置１０２、及び不揮発性記憶装置１０３を有する。

　プロセッサ１０１は、情報処理装置１００全体を制御する。例えば、プロセッサ１０１は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）などである。プロセッサ１０１は、マルチプロセッサでもよい。情報処理装置１００は、処理回路によって実現されてもよく、又は、ソフトウェア、ファームウェア若しくはそれらの組み合わせによって実現されてもよい。なお、処理回路は、単一回路又は複合回路でもよい。

　揮発性記憶装置１０２は、情報処理装置１００の主記憶装置である。例えば、揮発性記憶装置１０２は、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）である。不揮発性記憶装置１０３は、情報処理装置１００の補助記憶装置である。例えば、不揮発性記憶装置１０３は、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）又はＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）である。
　また、情報処理装置１００には、入力装置１１と表示装置１２が接続される。例えば、入力装置１１は、マウス、キーボードなどである。例えば、表示装置１２は、ディスプレイである。

　図１に戻って、情報処理装置１００が有する機能ブロックを説明する。
　記憶部１１０は、揮発性記憶装置１０２又は不揮発性記憶装置１０３に確保した記憶領域として実現される。

　処理部１２０、学習処理部１３０、取得部１４０、検索部１５０、更新処理部１６０、及び出力部１７０の一部又は全部は、プロセッサ１０１によって実現してもよい。処理部１２０、学習処理部１３０、取得部１４０、検索部１５０、更新処理部１６０、及び出力部１７０の一部又は全部は、プロセッサ１０１が実行するプログラムのモジュールとして実現してもよい。例えば、プロセッサ１０１が実行するプログラムは、情報処理プログラムとも言う。例えば、情報処理プログラムは、記録媒体に記録されている。

　記憶部１１０は、検索対象文書群１１１、正解データ記憶部１１２、及び学習モデル記憶部１１３を含む。検索対象文書群１１１は、複数の検索対象文書である。正解データ記憶部１１２は、処理部１２０によって作成された正解データを記憶する。ここで、正解データは、正解情報と考えてもよい。学習モデル記憶部１１３に格納される情報については、後で説明する。
　ここで、記憶部１１０に格納されている情報は、外部装置に格納されてもよい。例えば、外部装置は、クラウドサーバである。

　取得部１４０は、複数の検索対象文書（すなわち、検索対象文書群１１１）を取得する。例えば、取得部１４０は、複数の検索対象文書を記憶部１１０から取得する。また、例えば、取得部１４０は、複数の検索対象文書を外部装置から取得する。

　処理部１２０は、複数の検索対象文書のうちの１つの検索対象文書の中から文字列を抽出する。なお、１つの検索対象文書は、第１の検索対象文書とも言う。処理部１２０は、文字列に基づいてクエリを作成する。処理部１２０は、クエリを用いて、複数の検索対象文書の中からクエリの検索対象を検索する。処理部１２０は、検索の結果である１以上の検索対象文書とクエリとを含む正解データを作成する。詳細には、処理部１２０は、検索の結果である１以上の検索対象文書とクエリと１以上の検索対象文書に対応する番号を含む正解データを作成する。以下、当該番号は、順位と表現する場合がある。

　学習処理部１３０、取得部１４０、検索部１５０、更新処理部１６０、及び出力部１７０については、後で説明する。

　次に、情報処理装置１００が実行する処理について、フローチャートを用いて説明する。
　図３は、実施の形態１の正解データの作成処理の例を示すフローチャートである。例えば、図３の処理は、ユーザの入力操作によって開始する。また、例えば、図３の処理は、予め設定された時刻に開始する。
　（ステップＳ１１）処理部１２０は、検索対象文書群１１１の中から１つの検索対象文書を選択する。例えば、選択された検索対象文書は、第１の検索対象文書と考えてもよい。

　（ステップＳ１２）処理部１２０は、選択された検索対象文書の中から文字列を抽出する。例えば、処理部１２０は、選択された検索対象文書の中の文又は単語を文字列として抽出する。また、例えば、処理部１２０は、予め設定された文字列長で分かち書きが行われるというルールに基づいて、選択された検索対象文書の中から文字列を抽出する。
　（ステップＳ１３）処理部１２０は、文字列に基づいて、クエリを作成する。

　（ステップＳ１４）処理部１２０は、クエリを用いて、検索対象文書群１１１の中からクエリの検索対象を検索する。検索方法は、キーワード検索、ＴＦ－ＩＤＦ又はＯｋａｐｉ　ＢＭ２５の単語の重要度に基づくテキスト検索、クエリの文字列と検索対象文書の中の文字列との類似度を用いる類似度検索などである。

　なお、類似度は、文字の長さの差異、編集距離、形態素解析した単語列の重複度合い、係り受け解析した文節単位の重複度合い、係り受け関係の重複度合い、非特許文献１に記載の方式による多次元ベクトルのユークリッド距離、コサイン類似度のベクトル間の距離などが用いられて算出されてもよい。また、類似度は、機械学習モデルを用いて算出されてもよい。
　また、検索対象は、抽出された文字列が削除された状態の複数の文書である複数の検索対象文書でもよい。

　（ステップＳ１５）処理部１２０は、検索の結果である１以上の検索対象文書とクエリと１以上の検索対象文書に対応する順位を含む正解データを作成する。ここで、順位は、当該重要度又は当該類似度でもよい。また、順位は、検索された順序でもよい。さらに、順位は、選択された検索対象文書が１番でもよい。
　（ステップＳ１６）処理部１２０は、正解データを正解データ記憶部１１２に格納する。

　（ステップＳ１７）処理部１２０は、検索対象文書群１１１の全ての検索対象文書を選択したか否かを判定する。全ての検索対象文書が選択された場合、処理は、終了する。検索対象文書群１１１の中に選択されていない検索対象文書が存在する場合、処理部１２０は、処理をステップＳ１１に進める。

　図４は、実施の形態１の学習処理の例を示すフローチャートである。例えば、図４の処理は、正解データの作成処理が終了した後、開始する。
　（ステップＳ２１）学習処理部１３０は、正解データを用いて、学習モデルのニューラルネットワークで使用される重みを算出する学習処理を実行する。この文章は、次のように表現してもよい。学習処理部１３０は、正解データを用いて、学習モデルのニューラルネットワークに含まれるノードの重みを算出する学習処理を実行する。または、学習処理部１３０は、正解データを用いて、学習モデルのニューラルネットワークに含まれるノードの重みを変更する学習処理を実行する。
　学習処理には、非特許文献２に記載の学習アルゴリズム、又はＳＶＭ（Ｓｕｐｐｏｒｔ　Ｖｅｃｔｏｒ　Ｍａｃｈｉｎｅ)、決定木などの学習アルゴリズムが用いられてもよい。

　具体的に学習処理を説明する。学習処理では、学習モデルが用いられる。例えば、学習モデルには、正解データのクエリと２つ検索対象文書が入力される。そして、２つ検索対象文書のうち、どちらの検索対象文書が上位の検索結果であるかを示す情報が出力される。

　詳細に学習処理を説明する。ここで、正解データのクエリは、クエリＱとする。クエリＱには、正解データに含まれる検索対象文書Ａ，Ｂ，Ｃが対応付けられている。検索対象文書Ａの順位は、１位とする。検索対象文書Ｂの順位は、２位とする。検索対象文書Ｃの順位は、３位とする。ここで、学習モデルを示す。

　図５は、実施の形態１の学習モデルの例を示す図である。図５は、２つニューラルネットワーク（ＮＮ：Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）を示している。以下、２つニューラルネットワークは、ＮＮ１とＮＮ２と表現する。
　例えば、学習データは、クエリＱと検索対象文書Ａの組合せと、クエリＱと検索対象文書Ｂの組合せである。ＮＮ１には、クエリＱと検索対象文書Ａの組合せが入力される。ＮＮ２には、クエリＱと検索対象文書Ｂの組合せが入力される。当該学習データは、学習データ１と呼ぶ。

　また、例えば、学習データは、クエリＱと検索対象文書Ｃの組合せと、クエリＱと検索対象文書Ｂの組合せである。ＮＮ１には、クエリＱと検索対象文書Ｃの組合せが入力される。ＮＮ２には、クエリＱと検索対象文書Ｂの組合せが入力される。当該学習データは、学習データ２と呼ぶ。

　学習モデルでは、スコア１とスコア２とが比較される。比較では、スコア１とスコア２との差分が式（１）を用いて算出される。なお、算出の結果は、差分スコアと呼ぶ。また、例えば、スコア１からスコア２を引くことが決められている。

　差分スコアは、シグモイド関数に入力される。シグモイド関数は、式（２）で定義される。

　差分スコアがシグモイド関数に入力されることで、判定結果が出力される。
　ここで、学習データ１の場合、検索対象文書Ａが検索対象文書Ｂよりも上位であることが期待される。学習データ２の場合、検索対象文書Ｂが検索対象文書Ｃよりも上位であることが期待される。
　学習処理部１３０は、誤差逆伝播法（バックプロパゲーション）を用いて、上記の期待と判定結果との誤差を最小化するように、ＮＮ１に含まれるノードの重みとＮＮ２に含まれるノードの重みとを算出する。

　（ステップＳ２２）学習処理部１３０は、学習後の学習モデルを学習モデル記憶部１１３に格納する。また、学習処理部１３０は、ＮＮ１に含まれるノードの重みとＮＮ２に含まれるノードの重みとを学習モデル記憶部１１３に格納してもよい。

　図６は、実施の形態１の更新処理の例を示すフローチャートである。
　（ステップＳ３１）取得部１４０は、情報処理装置１００に入力された新規クエリを取得する。また、新規クエリは、第１のクエリとも言う。
　（ステップＳ３２）検索部１５０は、新規クエリを用いて、検索対象文書群１１１の中から新規クエリの検索対象を検索する。例えば、検索方法は、キーワード検索である。

　ここで、検索部１５０がキーワード検索を用いる場合、検索部１５０は、新規クエリと検索対象文書群１１１の各検索対象文書とに含まれるキーワードを用いて、スコアを算出する。例えば、新規クエリに含まれるキーワードが多く含まれている検索対象文書のスコアは、高くなる。検索部１５０は、スコアに基づいて、検索対象文書に順位を付ける。
　このように、新規クエリには、検索された１以上の検索対象文書と順位とが対応付けられる。

　（ステップＳ３３）更新処理部１６０は、検索部１５０による検索の結果であり、順位が対応付けられている１以上の検索対象文書のうち、上位Ｎ個の検索対象文書を選択する。なお、Ｎは、１以上の整数であり、予め決められた数である。このように、更新処理部１６０は、上位の予め決められた件数の検索対象文書を選択する。

　更新処理部１６０は、新規クエリと、上位Ｎ個の検索対象文書と、重みを用いるＮＮ１とを用いて、スコア１を算出する。言い換えれば、更新処理部１６０は、新規クエリと、上位Ｎ個の検索対象文書と、重みが付加されているＮＮ１とを用いて、スコア１を算出する。例えば、更新処理部１６０は、新規クエリと、上位Ｎ個の検索対象文書のうちの１つの検索対象文書とをＮＮ１に入力する。これにより、スコア１が算出される。更新処理部１６０は、算出されたスコア１を新たな順位として更新する。同様に、更新処理部１６０は、Ｎ個の検索対象文書のそれぞれのスコア１を算出し、順位を更新する。このように、更新処理部１６０は、Ｎ個の検索対象文書のそれぞれの順位を、新たな順位に更新する。

　また、更新処理部１６０は、検索対象文書の元の順位とスコア１との平均値を、新たな順位としてもよい。
　なお、上記では、ＮＮ１を用いる場合を示した。ＮＮ１とＮＮ２は、等価なモデルである。そのため、ＮＮ２が用いられてもよい。

　（ステップＳ３４）出力部１７０は、新たな順位の組合せを出力する。例えば、出力部１７０は、新規クエリと、Ｎ個の検索対象文書と、更新された新たな順位との組合せを出力する。また、例えば、出力部１７０は、当該組合せを表示装置１２に出力する。これにより、表示装置１２には、Ｎ個の検索対象文書がランキング形式で表示される。

　例えば、ユーザは、表示装置１２を見る。ユーザは、Ｎ個の検索対象文書の中から新規クエリに概念的に適合する検索対象文書を選択することができる。ユーザが新規クエリに概念的に適合する検索対象文書を選択する場合、ユーザは、情報処理装置１００に対して選択操作を行う。

　（ステップＳ３５）取得部１４０は、選択操作によって、新規クエリに概念的に適合する検索対象文書を取得したか否かを判定する。言い換えれば、取得部１４０は、選択操作が行われたか否かを判定する。
　選択操作が行われた場合、取得部１４０は、処理をステップＳ３６に進める。選択操作が行われていない場合、取得部１４０は、処理を終了する。

　（ステップＳ３６）取得部１４０は、新規クエリと、新規クエリに概念的に適合する検索対象文書との組合せを正解データとして、正解データ記憶部１１２に格納する。

　実施の形態１によれば、情報処理装置１００は、正解データを作成する。よって、ユーザは、正解データを作成しなくてよい。よって、情報処理装置１００は、ユーザの負担を軽減することができる。

　また、情報処理装置１００は、ＮＮ１を用いて、検索対象文書の順位を更新する。これにより、情報処理装置１００は、検索部１５０の検索結果だけでは分からない、検索対象文書の順位をユーザに提供することができる。また、情報処理装置１００は、検索部１５０によって検索された検索対象文書のうちＮ個の順位を更新する。情報処理装置１００は、検索部１５０によって検索された全ての検索対象文書の順位を更新しない。このように、情報処理装置１００は、検索対象文書の件数を絞ることで、情報処理装置１００の処理負荷を軽減できる。

実施の形態２．
　次に、実施の形態２を説明する。実施の形態２では、実施の形態１と相違する事項を主に説明する。そして、実施の形態２では、実施の形態１と共通する事項の説明を省略する。実施の形態２の説明では、図１～６を参照する。

　図７は、実施の形態２の情報処理装置が有する機能ブロック図である。図１に示される構成と同じ図７の構成は、図１に示される符号と同じ符号を付している。
　情報処理装置１００ａは、処理部１２０ａを有する。処理部１２０ａについては、後で説明する。

　図８は、実施の形態２の正解データの作成処理の例を示すフローチャートである。図８の処理では、ステップＳ１２が実行されない。また、図８の処理では、ステップＳ１３ａが実行される点が、図３の処理と異なる。そのため、図８では、ステップＳ１３ａを説明する。図８における他のステップについては、図３のステップ番号と同じ番号を付することによって、処理の説明を省略する。また、図８の各ステップは、処理部１２０ａが実行する。

　（ステップＳ１３ａ）処理部１２０ａは、ステップＳ１１で選択された検索対象文書の要約文に基づいて、クエリを作成する。詳細には、処理部１２０ａは、要約文をクエリとして作成する。また、処理部１２０ａは、要約文の中から文字列を抽出し、当該文字列に基づいて、クエリを作成してもよい。
　要約文は、予め記憶部１１０又は外部装置に格納されている。要約文は、取得部１４０によって、取得される。なお、要約文は、非特許文献３に記載の方法で作成されてもよい。

　実施の形態２によれば、情報処理装置１００ａは、正解データを作成する。よって、ユーザは、正解データを作成しなくてよい。よって、情報処理装置１００ａは、ユーザの負担を軽減することができる。

実施の形態３．
　次に、実施の形態３を説明する。実施の形態３では、実施の形態１と相違する事項を主に説明する。そして、実施の形態３では、実施の形態１と共通する事項の説明を省略する。実施の形態３の説明では、図１～６を参照する。

　図９は、実施の形態３の情報処理装置が有する機能ブロック図である。図１に示される構成と同じ図９の構成は、図１に示される符号と同じ符号を付している。
　情報処理装置１００ｂは、処理部１２０ｂを有する。処理部１２０ｂについては、後で説明する。

　図１０は、実施の形態３の正解データの作成処理の例を示すフローチャートである。図１０の処理では、ステップＳ１２が実行されない。また、図１０の処理では、ステップＳ１３ｂが実行される点が、図３の処理と異なる。そのため、図１０では、ステップＳ１３ｂを説明する。図１０における他のステップについては、図３のステップ番号と同じ番号を付することによって、処理の説明を省略する。また、図１０の各ステップは、処理部１２０ｂが実行する。

　（ステップＳ１３ｂ）処理部１２０ｂは、ステップＳ１１で選択された検索対象文書の言い換え文に基づいて、クエリを作成する。詳細には、処理部１２０ｂは、言い換え文をクエリとして作成する。また、処理部１２０ａは、当該言い換え文の中から文字列を抽出し、当該文字列に基づいて、クエリを作成してもよい。

　また、処理部１２０ｂは、ステップＳ１１で選択された検索対象文書の要約文の言い換え文に基づいて、クエリを作成してもよい。さらに、処理部１２０ｂは、当該要約文の言い換え文の中から文字列を抽出し、当該文字列に基づいて、クエリを作成してもよい。

　検索対象文書の言い換え文、又は検索対象文書の要約文の言い換え文は、予め記憶部１１０又は外部装置に格納されている。検索対象文書の言い換え文、又は検索対象文書の要約文の言い換え文は、取得部１４０により、取得される。なお、言い換え文は、同義語辞書を用いた単語の置換による方法によって作成されてもよい。また、言い換え文は、非特許文献４に記載の方法で作成してもよい。

　実施の形態３によれば、情報処理装置１００ｂは、正解データを作成する。よって、ユーザは、正解データを作成しなくてよい。よって、情報処理装置１００ｂは、ユーザの負担を軽減することができる。

　以上に説明した各実施の形態における特徴は、互いに適宜組み合わせることができる。

　１１　入力装置、　１２　表示装置、　１００，１００ａ，１００ｂ　情報処理装置、　１０１　プロセッサ、　１０２　揮発性記憶装置、　１０３　不揮発性記憶装置、　１１０　記憶部、　１１１　検索対象文書群、　１１２　正解データ記憶部、　１１３　学習モデル記憶部、　１２０，１２０ａ，１２０ｂ　処理部、　１３０　学習処理部、　１４０　取得部、　１５０　検索部、　１６０　更新処理部、　１７０　出力部。

Claims

　複数の検索対象文書を取得する取得部と、
　前記複数の検索対象文書のうちの第１の検索対象文書の中から文字列を抽出し、前記文字列に基づいてクエリを作成し、前記複数の検索対象文書の中から前記クエリの検索対象を検索し、検索の結果である１以上の検索対象文書と前記クエリとを含む正解データを作成する処理部と、
　を有する情報処理装置。
　前記取得部は、前記第１の検索対象文書の要約文を取得し、
　前記処理部は、前記要約文に基づいてクエリを作成する、
　請求項１に記載の情報処理装置。
　前記処理部は、前記要約文の中から文字列を抽出し、抽出された文字列に基づいてクエリを作成する、
　請求項２に記載の情報処理装置。
　前記取得部は、前記要約文の言い換え文を取得し、
　前記処理部は、前記言い換え文に基づいてクエリを作成する、
　請求項２に記載の情報処理装置。
　前記処理部は、前記言い換え文の中から文字列を抽出し、抽出された文字列に基づいてクエリを作成する、
　請求項４に記載の情報処理装置。
　前記取得部は、前記第１の検索対象文書の言い換え文を取得し、
　前記処理部は、前記言い換え文に基づいてクエリを作成する、
　請求項１に記載の情報処理装置。
　前記処理部は、前記言い換え文の中から文字列を抽出し、抽出された文字列に基づいてクエリを作成する、
　請求項６に記載の情報処理装置。
　学習処理部と、
　検索部と、
　更新処理部と、
　出力部と、
　をさらに有し、
　前記処理部は、検索の結果である１以上の検索対象文書と前記クエリと前記１以上の検索対象文書に対応する番号を含む正解データを作成し、
　前記学習処理部は、前記処理部が作成した正解データを用いて、学習モデルのニューラルネットワークで使用される重みを算出する学習処理を実行し、
　前記取得部は、第１のクエリを取得し、
　前記検索部は、前記複数の検索対象文書の中から前記第１のクエリの検索対象を検索し、
　前記更新処理部は、前記検索部による検索の結果であり、順位が対応付けられている１以上の検索対象文書のうち、上位の予め決められた件数の検索対象文書を選択し、前記第１のクエリと選択された１以上の検索対象文書と前記重みを用いる前記ニューラルネットワークとを用いて、選択された１以上の検索対象文書の順位を更新し、
　前記出力部は、選択された１以上の検索対象文書と更新された順位とを出力する、
　請求項１から７のいずれか１項に記載の情報処理装置。
　情報処理装置が、
　複数の検索対象文書を取得し、
　前記複数の検索対象文書のうちの第１の検索対象文書の中から文字列を抽出し、
　前記文字列に基づいてクエリを作成し、
　前記複数の検索対象文書の中から前記クエリの検索対象を検索し、
　検索の結果である１以上の検索対象文書と前記クエリとを含む正解データを作成する、
　情報処理方法。
　情報処理装置に、
　複数の検索対象文書を取得し、
　前記複数の検索対象文書のうちの第１の検索対象文書の中から文字列を抽出し、
　前記文字列に基づいてクエリを作成し、
　前記複数の検索対象文書の中から前記クエリの検索対象を検索し、
　検索の結果である１以上の検索対象文書と前記クエリとを含む正解データを作成する、
　処理を実行させる情報処理プログラム。