WO2023100363A1

WO2023100363A1 - モデル学習方法、モデル学習プログラムおよび情報処理装置

Info

Publication number: WO2023100363A1
Application number: PCT/JP2021/044511
Authority: WO
Inventors: 正弘片岡; 昌弘野村; 真樹三浦; 量松村
Original assignee: 富士通株式会社
Priority date: 2021-12-03
Filing date: 2021-12-03
Publication date: 2023-06-08

Abstract

情報処理装置は、テキストデータを基にして、第１ベクトルを算出し、第１ベクトルと、類似する第１ベクトルを区別する識別情報とを対応付けた第１辞書情報を生成する。情報処理装置は、画像または動画データの説明テキストを基にして、第２ベクトルを算出し、第２ベクトルと、類似する第２ベクトルを区別する識別情報とを対応付けた第２辞書情報を生成する。情報処理装置は、第１辞書情報に登録された類似する第１ベクトルと、第２辞書情報に登録された類似する第２ベクトルとを関連付けた教師データを生成し、教師データを基にして、学習モデルの機械学習を実行する。

Description

モデル学習方法、モデル学習プログラムおよび情報処理装置

　本発明は、モデル学習方法等に関する。

　近年、Neural　Network（以下、ＮＮ）を用いた技術の開発が進んでおり、様々な分野でＮＮが利用されている。たとえば、ＮＮは、動画に検出対象となる物体が含まれているか否かを検出することや、ある言語で記載されたテキストを、他の言語に記載されたテキストに変換する場合などに用いられている。

　なお、ＮＮを利用する場合には、大量の教師データを事前に準備し、学習モデルの機械学習を行うことで、上記の処理を行うことが可能となる。教師データを生成する一般的な方法は、人手によって、入力データと、正解ラベルとの関係を確認する方法である。

特開２０２１－０３３３６７号公報

　たとえば、脚本のようなテキストデータを基にして、脚本に対応するイラストや動画データを生成するような学習モデルの作成を想定した場合、かかる学習モデルの機械学習を行うための辞書や教師データをどのように準備するのかという問題がある。

　１つの側面では、本発明は、イラストや動画に関する情報あるいは脚本等を入出力し、変換することができるモデルの提供を実現することができるモデル学習方法、モデル学習プログラムおよび情報処理装置を提供することを目的とする。

　第１の案では、コンピュータに次の処理を実行させる。コンピュータは、テキストデータを基にして、第１ベクトルを算出し、第１ベクトルと、類似する第１ベクトルを区別する識別情報とを対応付けた第１辞書情報を生成する。コンピュータは、画像や動画データの説明テキストを基にして、第２ベクトルを算出し、第２ベクトルと、類似する第２ベクトルを区別する識別情報とを対応付けた第２辞書情報を生成する。コンピュータは、第１辞書情報に登録された類似する第１ベクトルと、第２辞書情報に登録された類似する第２ベクトルとを関連付けた教師データを生成し、教師データを基にして、学習モデルの機械学習を実行する。

　イラストや動画に関する情報あるいは脚本等を出力することができるモデルの提供を実現することができる。

図１は、第１概念インデックスを生成する処理を説明するための図である。図２は、単語ベクトル辞書のデータ構造の一例を示す図である。図３Ａは、文ベクトル辞書のデータ構造の一例を示す図である。図３Ｂは、第１クラスタテーブルの一例を示す図である。図４は、第２概念インデックスを生成する処理を説明するための図である。図５は、スクリプトデータを説明するための図である。図６は、物体ベクトル辞書のデータ構造の一例を示す図である。図７Ａは、映像ベクトル辞書のデータ構造の一例を示す図である。図７Ｂは、第２クラスタテーブルの一例を示す図である。図８は、生成フェーズの処理を説明するための図（１）である。図９は、生成フェーズの処理を説明するための図（２）である。図１０は、生成フェーズの処理を説明するための図（３）である。図１１は、学習フェーズの処理を説明するための図である。図１２は、実行フェーズの処理を説明するための図である。図１３は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。図１４は、本実施例に係る情報処理装置の処理手順を示すフローチャート（１）である。図１５は、本実施例に係る情報処理装置の処理手順を示すフローチャート（２）である。図１６は、情報処理装置のその他の処理を説明するための図である。図１７は、情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

　以下に、本願の開示するモデル学習方法、モデル学習プログラムおよび情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

　本実施例に係る情報処理装置の処理は、準備フェーズ、生成フェーズ、学習フェーズ、実行フェーズの各処理が含まれる。以下において、準備フェーズ、生成フェーズ、学習フェーズ、実行フェーズの各処理を説明する。

　準備フェーズの処理について説明する。たとえば、準備フェーズには、第１概念インデックスを生成する処理、第２概念インデックスを生成する処理が含まれる。

　図１は、第１概念インデックスを生成する処理を説明するための図である。情報処理装置は、入力テキスト１０を受け付けると、入力テキスト１０を、テキストＤＢ５０に登録する。情報処理装置は、入力テキスト１０に対して形態素解析を実行し、複数の単語に分割する。たとえば、「子供は遊園地が好き。」は、「子供」、「は」、「遊園地」、「が」、「好き」、「。」に分割される。情報処理装置は、単語の種別と、テキストＤＢ５０における先頭からの単語の位置（オフセット）との関係を、単語インデックス６０ａに設定する。たとえば、先頭の単語のオフセットは「０」、２番目の単語のオフセットは「１」、ｎ番目の単語のオフセットは「ｎ－１」となる。

　続いて、情報処理装置は、単語ベクトル辞書Ｄ１を基にして、形態素解析を実行した入力テキスト１０に含まれる各単語に対して単語のベクトルを割り当てる。以下の説明では、単語のベクトルを「単語ベクトル」と表記する。情報処理装置は、単語の単語ベクトルと、テキストＤＢ５０における先頭からの単語のオフセットとの関係を、単語ベクトルインデックス６０ｂに設定する。

　単語ベクトル辞書Ｄ１は、単語ベクトルを定義する辞書である。図２は、単語ベクトル辞書のデータ構造の一例を示す図である。図２に示すように、この単語ベクトル辞書Ｄ１は、単語と、圧縮符号と、単語ベクトルとを対応付ける。なお、単語ベクトルは複数の次元の浮動小数点の数値で表現される。

　単語（圧縮符号）に対応するベクトルは、事前にポアンカレエンベッディング等によって、割り当てられているものとする。なお、単語（圧縮符号）のベクトルは、他の従来技術を基にして特定されてもよい。

　ポアンカレエンベッディングは、たとえば、非特許文献「Valentin　Khrulkov1　et　al.「Hyperbolic　Image　Embeddings」Cornell　University,2019　April　3」等に記載された技術を用いればよい。ポアンカレエンベディングでは、ポアンカレ空間に埋め込まれた位置に応じて、ベクトルが割り当てられるものであり、また、類似する情報ほど、近い位置に埋め込まれるという特徴がある。情報処理装置は、単語に対応する圧縮符号をポアンカレ空間に予め埋め込んでおき、圧縮符号に対するベクトルを算出しておく。

　続いて、情報処理装置は、入力テキスト１０に含まれる各単語の単語ベクトルを積算することで、入力テキスト１０の文のベクトルを算出する。以下の説明では、文のベクトルを「文ベクトル」と表記する。情報処理装置は、文ベクトルを、文ベクトル辞書Ｄ２に設定する。

　情報処理装置は、入力テキスト１０の文ベクトルと、テキストＤＢ５０における先頭からの単語（入力テキスト１０の先頭の単語、たとえば、「子供」）のオフセットとの関係を、文ベクトルインデックス６０ｃに登録する。

　情報処理装置は、入力テキストの入力を受け付ける度に、上記処理を繰り返し実行することで、単語インデックス６０ａ、単語ベクトルインデックス６０ｂ、文ベクトルインデックス６０ｃの情報が更新される。

　また、入力テキストの入力を受け付ける度に、上記処理を繰り返し実行することで、文ベクトル辞書Ｄ２には、複数の文ベクトルが登録される。情報処理装置は、文ベクトル辞書Ｄ２に登録された複数の文ベクトルに対して、事前に準備される第１クラスタテーブルを参照し、クラスタリングを実行し、複数の文ベクトルを、複数のクラスタに分類する。同一のクラスタに含まれる各文ベクトルであって、かかる各文ベクトルに対応する各入力テキストの意味は、類似した意味となる。情報処理装置は、文ベクトルと、文ベクトルの属するクラスタを識別するクラスタＩＤとを対応付けた、文ベクトル辞書Ｄ２を生成する。

　図３Ａは、文ベクトル辞書のデータ構造の一例を示す図である。図３Ａに示すように、この文ベクトル辞書Ｄ２は、文ベクトルと、クラスタＩＤとを対応付ける。文ベクトルは、複数の次元のベクトルとなる。図３Ｂは、第１クラスタテーブルの一例を示す図である。第１クラスタテーブルは、クラスタＩＤと、代表ベクトルと、径とを対応付ける。たとえば、ある文ベクトルが、ベクトル空間上において、第１クラスタテーブルのクラスタＩＤ「SCL1-1」の代表ベクトルを中心とする径「0.0152」の球に含まれる場合には、かかる映像ベクトルは、クラスタＩＤ「SCL1-1」に分類される。

　図４は、第２概念インデックスを生成する処理を説明するための図である。情報処理装置は、入力映像情報２０を受け付けると、入力映像情報２０を、映像ＤＢ７０に登録する。入力映像情報２０には、複数の画像情報２０－１，２０－２，２０－３，２０－４，２０－５，２０－６，２０－７等が含まれる。入力映像情報２０には、映像の説明文が添付される。以下の説明では、映像の説明文を「映像説明文」と表記する。たとえば、入力映像情報２０の説明文は、「人が道路を横断した」等のテキストとなる。

　画像情報２０－１は、スクリプト（PostScript）等によって作成された画像情報である。ＳＶＧなどのデータであってもよい。たとえば、画像情報２０－１は、スクリプト（PostScript）等によって記載され、スクリプトのコメントには、画像に含まれる物体を説明する単語が含まれる。たとえば、画像情報２０－１の物体を説明する単語として「人」等の単語があげられる。以下の説明では、物体を説明する単語を、「物体説明単語」と表記する。画像情報２０－２～２０－７に関する説明は、画像情報２０－１に関する説明と同様である。

　情報処理装置は、画像情報２０－１に含まれる物体のアウトライン（Outline）を抽出し、抽出した物体のアウトラインと、映像ＤＢ７０における画像情報２０－１の登録位置（オフセット）との関係を、物体インデックス８０ａに登録する。アウトラインの情報は、スクリプトで定義されたデータであってもよい。スクリプトデータによって、物体のアウトラインを描画することができる。

　図５は、スクリプトデータを説明するための図である。図５では、一例として、アウトライン５に対応するスクリプトデータ６を示す。スクリプトデータ６により、アウトライン５を描画することができる。

　アウトライン５は、直線５ＡＢ、曲線５ＢＣ、直線５ＣＤ、直線５ＤＡからなる。直線５ＡＢは、制御点Ａと制御点Ｂとを結ぶ直線である。直線５ＣＤは、制御点Ｃと制御点Ｄとを結ぶ直線である。直線５ＤＡは、制御点Ｄと制御点Ａとを結ぶ直線である。曲線５ＢＣは、制御点Ｂと制御点Ｃとを結ぶ曲線であり、制御点α，βおよび制御点（端点）Ｂ，Ｃにより、曲線の形状が決定される。

　アウトライン５の制御点Ａ，Ｂ，Ｃ，Ｄ、制御点α，βを基にして、アウトライン５のスクリプトデータ６が生成される。スクリプトデータ６に含まれる「Ｘａ，Ｙａ」は、制御点Ａの座標を示すものである。「Ｘｂ，Ｙｂ」は、制御点Ｂの座標を示すものである。「Ｘｃ，Ｙｃ」は、制御点Ｃの座標を示すものである。「Ｘｄ，Ｙｄ」は、制御点Ｄの座標を示すものである。「Ｘα，Ｙα」は、制御点αの座標を示すものである。「Ｘβ，Ｙβ」は、制御点βの座標を示すものである。スクリプトデータ６には、各種のコマンド「newpath　moveto　lineto　curveto　stroke　showpage」が含まれる。

　また、スクリプトデータ６には、属性情報を格納する属性情報領域６ａが設定されている。属性情報領域６ａには、スクリプトデータ６に描画される物体あるいは物体の部品を説明するテキスト情報が予め格納されている。たとえば、スクリプトデータで描画される輪郭の形状が、人の輪郭の形状である場合には、属性情報領域６ａには、「人」なるテキスト情報が格納される。

　画像情報２０－２～２０－７に関する説明は、画像情報２０－１に関する説明と同様である。

　続いて、情報処理装置は、物体ベクトル辞書Ｄ３と、画像情報２０－１の物体説明単語とを基にして、画像情報２０－１にベクトルを割り当てる。以下の説明では、画像情報に割り当てたベクトルを「物体ベクトル」と表記する。情報処理装置は、物体ベクトルと、映像ＤＢ７０における画像情報２０－１のオフセットとの関係を、物体ベクトルインデックス８０ｂに設定する。

　物体ベクトル辞書Ｄ３は、物体ベクトルを定義する辞書である。図６は、物体ベクトル辞書のデータ構造の一例を示す図である。図６に示すように、この物体ベクトル辞書Ｄ３は、物体説明単語と、物体ベクトルとを対応付ける。物体説明単語のベクトルは、単語ベクトル辞書Ｄ１で説明した単語と同様にして、事前にポアンカレエンベッディング等によって、割り当てられているものとする。たとえば、「人」の単語ベクトルに対して、「人」の物体ベクトルがポアンカレエンベッディングにて近似されているものとする。物体説明単語のベクトルは、他の従来技術を基にして特定されてもよい。たとえば、単語ベクトル辞書Ｄ１の単語と類似する意味の物体説明単語の物体ベクトルは、かかる単語の単語ベクトルと類似するベクトルとなる。

　続いて、情報処理装置は、入力映像情報２０に含まれる各画像情報の物体ベクトルを積算することで、入力映像情報２０のベクトルを算出する。複数の画像情報から成る映像のベクトルを「映像ベクトル」と表記する。情報処理装置は、映像ベクトルを、映像ベクトル辞書Ｄ４に設定する。たとえば、人が横断している各画像情報から生成された入力映像情報２０の映像ベクトルは、「人が横断している」という文のベクトルと類似するベクトルとなる。

　情報処理装置は、入力映像情報２０の映像ベクトルと、映像ＤＢ７０のオフセットとの関係を、映像ベクトルインデックス８０ｃに登録する。

　情報処理装置は、入力映像情報の入力を受け付ける度に、上記処理を繰り返し実行することで、物体インデックス８０ａ、物体ベクトルインデックス８０ｂ、映像ベクトルインデックス８０ｃの情報が更新される。

　また、入力映像情報の入力を受け付ける度に、上記処理を繰り返し実行することで、映像ベクトル辞書Ｄ４には、複数の映像ベクトルが登録される。情報処理装置は、映像ベクトル辞書Ｄ４に登録された複数の映像ベクトルに対して、事前に準備される第２クラスタテーブルを参照し、クラスタリングを実行し、複数の映像ベクトルを、複数のクラスタに分類する。同一のクラスタに含まれる各映像ベクトルであって、かかる各映像ベクトルに対応する映像は、類似した映像となる。情報処理装置は、映像ベクトルと、映像ベクトルの属するクラスタを識別するクラスタＩＤとを対応付けた、映像ベクトル辞書Ｄ４を生成する。

　図７Ａは、映像ベクトル辞書のデータ構造の一例を示す図である。図７Ａに示すように、この映像ベクトル辞書Ｄ４は、映像ベクトルと、クラスタＩＤとを対応付ける。映像ベクトルは、複数の次元のベクトルとなる。図７Ｂは、第２クラスタテーブルの一例を示す図である。第２クラスタテーブルは、クラスタＩＤと、代表ベクトルと、径とを対応付ける。たとえば、ある映像ベクトルが、ベクトル空間上において、第２クラスタテーブルのクラスタＩＤ「MCL2-1」の代表ベクトルを中心とする径「0.0152」の球に含まれる場合には、かかる映像ベクトルは、クラスタＩＤ「MCL2-1」に分類される。

　情報処理装置が、上記処理を実行することで、第１概念インデックス６０と、第２概念インデックス８０とが生成される。

　次に、生成フェーズの処理について説明する。情報処理装置は、生成フェーズにおいて、教師データを生成する。図８、図９、図１０は、生成フェーズの処理を説明するための図である。

　図８について説明する。情報処理装置は、検索クエリ１５を取得すると、検索クエリに含まれるテキストの文ベクトルＳＶｑを算出する。情報処理装置が、テキストから文ベクトルを算出する処理は、上記の処理と同様である。

　情報処理装置は、文ベクトルＳＶｑと、文ベクトル辞書Ｄ２とを比較して、文ベクトル辞書Ｄ２に含まれる文ベクトルのうち、文ベクトルＳＶｑに類似する文ベクトルを特定する。また、情報処理装置は、特定した文ベクトルと同一のクラスタＩＤとなる文ベクトルを、文ベクトル辞書Ｄ２から、特定する。情報処理装置は、特定したベクトルを、第１検索結果１６Ａに格納する。

　図８に示す例では、文ベクトルＳＶｑと、文ベクトルＳＶｅｃ１０１とが類似するものとする。また、文ベクトルＳＶｅｃ１０１と同一のクラスタＩＤに属する文ベクトルを、文ベクトルＳＶｅｃ１０３とする。この場合、情報処理装置は、文ベクトルＳＶｅｃ１０１と、文ベクトルＳＶｅｃ１０３とを、第１検索結果１６Ａに登録する。

　図９の説明に移行する。情報処理装置は、検索クエリ１５の文ベクトルＳＶｑと、映像ベクトル辞書Ｄ４とを比較して、映像ベクトル辞書Ｄ４に含まれる映像ベクトルのうち、文ベクトルＳＶｑに類似する映像ベクトルを特定する。また、情報処理装置は、特定した映像ベクトルと同一のクラスタＩＤとなる映像ベクトルを、映像ベクトル辞書Ｄ４から、特定する。情報処理装置は、特定した映像ベクトルを、第２検索結果１６Ｂに格納する。

　図９に示す例では、文ベクトルＳＶｑと、映像ベクトルＭＶｅｃ２０２とが類似するものとする。また、映像ベクトルＭＶｅｃ２０２と同一のクラスタＩＤに属する映像ベクトルを、映像ベクトルＭＶ２１４とする。この場合、情報処理装置は、映像ベクトルＭＶｅｃ２０２と、映像ベクトルＭＶｅｃ２２９とを、第２検索結果１６Ｂに登録する。

　図１０の説明に移行する。情報処理装置は、第１検索結果１６Ａに含まれる各文ベクトルと、第２検索結果１６Ｂに含まれる各映像データの組合せを基にして、教師データ９０を生成する。たとえば、第１検索結果１６Ａに文ベクトルＳＶｅｃ１０１、ＳＶｅｃ１０３が含まれ、第２検索結果１６Ｂに映像ベクトルＭＶｅｃ２０２、ＭＶｅｃ２２９が含まれるものとする。この場合、情報処理装置は、文ベクトル「ＳＶｅｃ１０１」、映像ベクトル「ＭＶｅｃ２０２」との組、文ベクトル「ＳＶｅｃ１０１」、映像ベクトル「ＭＶｅｃ２１４」との組を、教師データ９０に設定する。また、情報処理装置は、文ベクトル「ＳＶｅｃ１０３」、映像ベクトル「ＭＶｅｃ２０２」との組、文ベクトル「ＳＶｅｃ１０３」、映像ベクトル「ＭＶｅｃ２２９」との組を、教師データ９０に登録する。

　上記のように、利用者は、検索クエリ１５を指定するだけで、検索クエリに類似する文の文ベクトルと、この文ベクトルに対応する映像ベクトルとの組（複数の組）を有する教師データ９０を生成することができる。

　次に、学習フェーズの処理について説明する。図１１は、学習フェーズの処理を説明するための図である。図１１に示すように、情報処理装置は、上記の生成フェーズにおいて生成された教師データ９０を用いて、学習モデルＭ１の機械学習を実行する。学習モデルＭ１は、ＮＮに対応するモデルである。

　本実施例では、教師データ９０の文ベクトルを、機械学習時の入力データとし、映像ベクトルを、機械学習時の正解ラベルとする。情報処理装置は、誤差逆伝播法に基づいて、入力データを、学習モデルＭ１に入力した際の出力が、正解ラベルに近づくように、学習モデルＭ１のパラメータを調整する。

　次に、実行フェーズの処理について説明する。図１２は、実行フェーズの処理を説明するための図である。図１２の学習モデルＭ１は、学習フェーズにおいて機械学習が実行された訓練済みの学習モデルである。

　情報処理装置は、入力テキスト１１を取得すると、入力テキスト１１の文ベクトルＶ１１を算出する。情報処理装置が、テキストから文ベクトルを算出する処理は、上記の処理と同様である。

　情報処理装置は、文ベクトルＶ１１を、学習モデルＭ１に入力することで、映像ベクトルＶ１２を算出する。情報処理装置は、映像ベクトルＶ１２と、映像ベクトルインデックス８０ｃとを比較して、映像ベクトルインデックス８０ｃに設定された映像ベクトルのうち、映像ベクトルＶ１２に最も類似する映像ベクトルを特定する。

　情報処理装置は、映像ベクトルインデックス８０ｃにおいて、映像ベクトルＶ１２に最も類似する映像ベクトルのインデックスの示す映像情報を、映像ＤＢ７０から検索し、検索結果となる映像情報２１を出力する。出力された映像情報２１は、入力テキスト１１に対応する映像の情報となる。

　上記のように、本実施例に係る情報処理装置は、検索クエリ１５の指定を受け付けた場合に、第１概念インデックス６０、第２概念インデックス８０を基にして、教師データ９０を生成する。このため、利用者は、検索クエリ１５を指定するだけで、検索クエリに類似する文の文ベクトルと、この文ベクトルに対応する映像ベクトルとの組（複数の組）を有する教師データ９０を生成することができる。

　また、情報処理装置は、教師データ９０を基にして、学習モデルＭ１の機械学習を実行することで、入力テキストを学習モデルＭ１に入力して、映像ベクトルを算出でき、映像ベクトルに対応する映像情報を、映像ＤＢから得ることができる。たとえば、テキストＤＢ５０に登録する入力テキストを、脚本等のテキストにすることで、脚本を再現する映像情報を容易に取得することができる。

　次に、本実施例に係る情報処理装置の構成例について説明する。図１３は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。図１３に示すように、この情報処理装置１００は、通信部１１０、入力部１２０、表示部１３０、記憶部１４０、制御部１５０を有する。

　通信部１１０は、有線又は無線で外部装置等に接続され、外部装置等との間で情報の送受信を行う。たとえば、通信部１１０は、ＮＩＣ（Network　Interface　Card）等によって実現される。

　入力部１２０は、各種の情報を、情報処理装置１００に入力する入力装置である。入力部１２０は、キーボードやマウス、タッチパネル等に対応する。たとえば、利用者は、入力部１２０を用いて、検索クエリ等を入力する。

　表示部１３０は、制御部１５０から出力される情報を表示する表示装置である。表示部１３０は、液晶ディスプレイ、有機ＥＬ（Electro　Luminescence）ディスプレイ、タッチパネル等に対応する。

　記憶部１４０は、検索クエリ１５、テキストＤＢ５０、第１概念インデックス６０、映像ＤＢ７０、第２概念インデックス８０、教師データ９０を有する。記憶部１４０は、単語ベクトル辞書Ｄ１、文ベクトル辞書Ｄ２、物体ベクトル辞書Ｄ３、映像ベクトル辞書Ｄ４、学習モデルＭ１を有する。記憶部１４０は、たとえば、ＲＡＭ（Random　Access　Memory)、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。

　検索クエリ１５は、図８等で説明したように、生成フェーズの処理で指定される情報（テキスト）である。生成フェーズでは、検索クエリ１５に対応する教師データ９０が生成される。

　テキストＤＢ５０は、図１等で説明したように、入力テキストを保持する。

　第１概念インデックス６０は、準備フェーズで生成される情報である。図１等で説明したように、第１概念インデックス６０は、単語インデックス６０ａ、単語ベクトルインデックス６０ｂ、文ベクトルインデックス６０ｃを有する。

　映像ＤＢ７０は、図４等で説明したように、入力映像情報を保持する。

　第２概念インデックス８０は、準備フェーズで生成される情報である。図４等で説明したように、第２概念インデックス８０は、物体インデックス８０ａ、物体ベクトルインデックス８０ｂ、映像ベクトルインデックス８０ｃを有する。

　教師データ９０は、入力データに対応する文ベクトルと、正解データに対応する映像ベクトルとを対応付ける。教師データ９０に関する説明は、図１０で行った説明と同様である。

　単語ベクトル辞書Ｄ１は、単語ベクトルを定義する辞書である。単語ベクトル辞書Ｄ１に関する説明は、図２で行った説明と同様である。

　文ベクトル辞書Ｄ２は、文ベクトルと、クラスタＩＤとを対応付ける。文ベクトル辞書Ｄ２に関する説明は、図３で行った説明と同様である。

　物体ベクトル辞書Ｄ３は、物体ベクトルを定義する辞書である。物体ベクトル辞書Ｄ３に関する説明は、図６で行った説明と同様である。

　映像ベクトル辞書Ｄ４は、映像ベクトルと、クラスタＩＤとを対応付ける。映像ベクトル辞書Ｄ４に関する説明は、図７で行った説明と同様である。

　学習モデルＭ１は、ＮＮに対応するモデルであり、入力層、隠れ層、出力層等を有する。各層には、パラメータが設定される。学習モデルＭ１のパラメータは、学習フェーズの処理によって訓練される。

　制御部１５０は、準備処理部１５１、生成部１５２、学習部１５３、実行部１５４を有する。制御部１５０は、たとえば、ＣＰＵ（Central　Processing　Unit）やＭＰＵ(Micro　Processing　Unit)により実現される。また、制御部１５０は、例えばＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路により実行されてもよい。

　準備処理部１５１は、準備フェーズの処理を実行する。準備処理部１５１は、通信部１１０または入力部１２０から、入力テキスト１０を受け付けると、入力テキスト１０を、テキストＤＢ５０に登録し、第１概念インデックス６０を更新する。準備処理部１５１は、通信部１１０または入力部１２０から、入力映像情報２０を受け付けると、入力映像情報２０を、映像ＤＢ７０に登録し、第２概念インデックス８０を更新する。

　準備処理部１５１に関するその他の説明は、図１～図７で説明した準備フェーズの処理と同様である。

　生成部１５２は、生成フェーズの処理を実行する。生成部１５２は、検索クエリ１５を受け付けると、文ベクトル辞書Ｄ２と検索クエリ１５の文ベクトルとを比較し、第１検索結果１６Ａを生成する。生成部１５２は、映像ベクトル辞書Ｄ４と検索クエリの文ベクトルとを比較し、第２検索結果１６Ｂを生成する。生成部１５２は、第１検索結果１６Ａと、第２検索結果１６Ｂとを基にして、教師データ９０を生成する。

　生成部１５２に関するその他の説明は、図８～図１０で説明した生成フェーズの処理と同様である。

　学習部１５３は、学習フェーズの処理を実行する。学習部１５３は、生成フェーズにおいて生成された教師データ９０を用いて、学習モデルＭ１の機械学習を実行する。

　学習部１５３は、情報処理装置は、誤差逆伝播法に基づいて、入力データを、学習モデルＭ１に入力した際の出力が、正解ラベルに近づくように、学習モデルＭ１のパラメータを調整する。

　実行部１５４は、実行フェーズの処理を実行する。実行部１５４は、通信部１１０または入力部１２０から、入力テキスト１１を取得し、入力テキスト１１の文ベクトルを、学習モデルＭ１に入力することで、映像ベクトルを算出する。実行部１５４は、情報処理装置は、映像ベクトルと、映像ベクトルインデックスとの比較結果を基にして、入力テキスト１１に対応する映像情報を、映像ベクトル辞書Ｄ４から抽出する。実行部１５４は、抽出した映像情報を、表示部１３０に表示してもよいし、通信部１１０を介して、外部装置に送信してもよい。

　次に、本実施例に係る情報処理装置１００の処理手順の一例について説明する。図１４は、本実施例に係る情報処理装置の処理手順を示すフローチャート（１）である。図１４に示すように、この情報処理装置１００の準備処理部１５１は、入力テキストを取得し、テキストＤＢ５０に登録する（ステップＳ１０１）。

　準備処理部１５１は、第１概念インデックスを更新する（ステップＳ１０２）。準備処理部１５１は、入力映像情報を取得し、映像ＤＢ７０に登録する（ステップＳ１０３）。準備処理部１５１は、第２概念インデックスを更新する（ステップＳ１０４）。

　情報処理装置１００の生成部１５２は、検索クエリを取得する（ステップＳ１０５）。生成部１５２は、検索クエリのベクトル、文ベクトル辞書Ｄ２、第１概念インデックス６０を基にして、第１検索結果を生成する（ステップＳ１０６）。

　生成部１５２は、検索クエリのベクトル、映像ベクトル辞書Ｄ４、第２概念インデックス８０を基にして、第２検索結果を生成する（ステップＳ１０７）。生成部１５２は、第１検索結果と、第２検索結果とを基にして、教師データ９０を生成する（ステップＳ１０８）。

　情報処理装置１００の学習部１５３は、学習モデルＭ１の機械学習を実行する（ステップＳ１０９）。

　図１５は、本実施例に係る情報処理装置の処理手順を示すフローチャート（２）である。図１５に示すように、情報処理装置１００の実行部１５４は、入力テキストを取得する（ステップＳ２０１）。実行部１５４は、入力テキストの文ベクトルを算出する（ステップＳ２０２）。

　実行部１５４は、文ベクトルを学習モデルＭ１に入力し、映像ベクトルを算出する（ステップＳ２０３）。実行部１５４は、映像ベクトルと、映像ベクトルインデックス８０ｃとの比較結果を基にして、映像情報を映像ＤＢＤ４から検索する（ステップＳ２０４）。

　実行部１５４は、検索した映像情報を出力する（ステップＳ２０５）。

　次に、本実施例に係る情報処理装置１００の効果について説明する。情報処理装置１００は、検索クエリ１５の指定を受け付けた場合に、第１概念インデックス６０、第２概念インデックス８０を基にして、教師データ９０を生成する。このため、利用者は、検索クエリ１５を指定するだけで、検索クエリに類似する文の文ベクトルと、この文ベクトルに対応する映像ベクトルとの組（複数の組）を有する教師データ９０を生成することができる。

　情報処理装置１００は、教師データ９０を基にして、学習モデルＭ１の機械学習を実行することで、入力テキストを学習モデルＭ１に入力して、映像ベクトルを算出でき、映像ベクトルに対応する映像情報を、映像ＤＢから得ることができる。たとえば、テキストＤＢ５０に登録する入力テキストを、脚本等のテキストにすることで、脚本を再現する映像情報を容易に取得することができる。

　上記の実施例で説明した情報処理装置１００の処理は一例であり、情報処理装置１００は、その他の処理を実行してもよい。以下において、情報処理装置１００のその他の処理１、２について説明する。

　情報処理装置１００のその他の処理１について説明する。情報処理装置１００は、図１０、図１１で説明した生成フェーズにおいて、入力データを文ベクトル、正解ラベルを映像ベクトルとする教師データ９０を生成し、かかる教師データ９０を用いて、学習モデルＭ１の機械学習を実行していたが、これに限定されない。

　情報処理装置１００は、入力データを映像ベクトル、正解ラベルを文ベクトルとする教師データを生成し、かかる教師データを用いて、学習モデルＭ１の機械学習を実行してもよい。情報処理装置１００が、かかる機械学習を行うことで、映像ベクトルを、学習モデルＭ１に入力した場合に、映像ベクトルに対応する文ベクトルを算出することができる。

　情報処理装置１００は、算出した文ベクトルと、第１概念インデックス６０の文ベクトルインデックス６０ｃとを比較して、文ベクトルインデックス６０ｃに設定された文ベクトルのうち、算出した文ベクトルに最も類似する文ベクトルを特定する。

　情報処理装置１００は、文ベクトルインデックス６０ｃにおいて、特定した文ベクトルのインデックスの示すテキストを、テキストＤＢ５０から検索し、検索結果となるテキストを出力する。出力されたテキストは、入力された映像情報に対応する文（脚本等）の情報となる。

　情報処理装置１００のその他の処理２について説明する。情報処理装置１００は、図８、図９で説明した生成フェーズにおいて、テキストで指定された検索クエリ１５を用いて、相互に関連する文ベクトルと、映像ベクトルとを特定し、教師データ９０を生成していたが、これに限定されるものではない。

　たとえば、情報処理装置は、相互に関連のあるテキストと、映像情報との組を、検索クエリとして取得し、教師データ９０を生成してもよい。

　図１６は、情報処理装置のその他の処理を説明するための図である。図１６に示す検索クエリ２５には、相互に関連するテキスト２５Ａと、映像情報２５Ｂとが含まれる。情報処理装置１００の生成部１５２は、テキスト２５Ａから文ベクトルＳＶｅｃ２５Ａを算出する。生成部１５２は、映像情報２５Ｂから映像ベクトルＭＶｅｃ２５Ｂを算出する。

　テキストから文ベクトルを算出する処理、映像情報から映像情報を算出する処理は、準備フェーズで説明した処理と同様である。

　生成部１５２は、文ベクトルＳＶｅｃ２５Ａと、文ベクトル辞書Ｄ２とを比較して、第１検索結果１６Ａを生成する。生成部１５２は、映像ベクトルＭＶｅｃ２５Ｂと、映像ベクトル辞書Ｄ４とを比較して、第２検索結果１６Ｂを生成する。

　生成部１５２は、第１検索結果１６Ａと、第２検索結果１６Ｂとを基にして、教師データ９０を生成する。

　次に、本実施例で説明した情報処理装置１００と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図１７は、情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

　図１７に示すように、コンピュータ２００は、各種演算処理を実行するＣＰＵ２０１と、ユーザからのデータの入力を受け付ける入力装置２０２と、ディスプレイ２０３とを有する。また、コンピュータ２００は、通信装置２０４と、有線または無線ネットワークを介して他のコンピュータとの間でデータの授受を行うインタフェース装置２０５とを有する。また、コンピュータ２００は、各種情報を一時記憶するＲＡＭ２０６と、ハードディスク装置２０７とを有する。そして、各装置２０１～２０７は、バス２０８に接続される。

　ハードディスク装置２０７は、準備処理プログラム２０７ａ、生成プログラム２０７ｂ、学習プログラム２０７ｃ、実行プログラム２０７ｄを有する。ＣＰＵ２０１は、準備処理プログラム２０７ａ、生成プログラム２０７ｂ、学習プログラム２０７ｃ、実行プログラム２０７ｄを読み出してＲＡＭ２０６に展開する。

　準備処理プログラム２０７ａは、準備処理プロセス２０６ａとして機能する。生成プログラム２０７ｂは、生成プロセス２０６ｂとして機能する。学習プログラム２０７ｃは、学習プロセス２０６ｃとして機能する。実行プログラム２０７ｄは、実行プロセス２０６ｄとして機能する。

　準備処理プロセス２０６ａの処理は、準備処理部１５１の処理に対応する。生成プロセス２０６ｂの処理は、生成部１５２の処理に対応する。学習プロセス２０６ｃの処理は、学習部１５３の処理に対応する。実行プロセス２０６ｄの処理は、実行部１５４の処理に対応する。

　なお、各プログラム２０７ａ～２０７ｄについては、必ずしも最初からハードディスク装置２０７に記憶させておかなくても良い。例えば、コンピュータ２００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＤＶＤ、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ２００が各プログラム２０７ａ～２０７ｄを読み出して実行するようにしても良い。

　１００　　情報処理装置
　１１０　　通信部
　１２０　　入力部
　１３０　　表示部
　１４０　　記憶部
　１５０　　制御部
　１５１　　準備処理部
　１５２　　生成部
　１５３　　学習部
　１５４　　実行部

Claims

　テキストデータを基にして、第１ベクトルを算出し、
　前記第１ベクトルと、類似する第１ベクトルを区別する識別情報とを対応付けた第１辞書情報を生成し、
　画像または動画データの説明テキストを基にして、第２ベクトルを算出し、
　前記第２ベクトルと、類似する第２ベクトルを区別する識別情報とを対応付けた第２辞書情報を生成し、
　前記第１辞書情報に登録された類似する第１ベクトルと、前記第２辞書情報に登録された類似する第２ベクトルとを関連付けた教師データを生成し、
　前記教師データを基にして、学習モデルの機械学習を実行する
　処理をコンピュータが実行することを特徴とするモデル学習方法。
　検索クエリを取得した場合に、前記検索クエリの第３ベクトルを算出し、前記第３ベクトルと、前記第１辞書情報とを基にして、前記第３ベクトルに類似する第１ベクトルと、該第１ベクトルと同一の識別情報が付与された第１ベクトルとを含む第１検索結果情報を生成し、前記第３ベクトルと類似する第２ベクトルと、該第２ベクトルと同一の識別が付与された第２ベクトルとを含む第２検索結果情報を生成する処理を更に実行し、
　前記教師データを生成する処理は、前記第１検索結果情報と、前記第２検索結果情報とを基にして、前記教師データを生成することを特徴とする請求項１に記載のモデル学習方法。
　前記第１ベクトルと、記憶装置における前記テキストデータの位置とを対応付けた第１インデックスを生成し、前記第２ベクトルと、記憶装置における前記画像または動画データの位置とを対応付けた第２インデックスを生成する処理を更に実行することを特徴とする請求項１に記載のモデル学習方法。
　前記実行する処理によって、機械学習された学習モデルに、テキストデータの第１ベクトルを入力することで、第２ベクトルを算出し、算出した第２ベクトルと、前記第２インデックスとを基にして、前記第２ベクトルに対応する映像データを、前記記憶装置から検索する処理を更に実行させることを特徴とする請求項３に記載のモデル学習方法。
　テキストデータを基にして、第１ベクトルを算出し、
　前記第１ベクトルと、類似する第１ベクトルを区別する識別情報とを対応付けた第１辞書情報を生成し、
　画像または動画データの説明テキストを基にして、第２ベクトルを算出し、
　前記第２ベクトルと、類似する第２ベクトルを区別する識別情報とを対応付けた第２辞書情報を生成し、
　前記第１辞書情報に登録された類似する第１ベクトルと、前記第２辞書情報に登録された類似する第２ベクトルとを関連付けた教師データを生成し、
　前記教師データを基にして、学習モデルの機械学習を実行する
　処理をコンピュータに実行させることを特徴とするモデル学習プログラム。
　検索クエリを取得した場合に、前記検索クエリの第３ベクトルを算出し、前記第３ベクトルと、前記第１辞書情報とを基にして、前記第３ベクトルに類似する第１ベクトルと、該第１ベクトルと同一の識別情報が付与された第１ベクトルとを含む第１検索結果情報を生成し、前記第３ベクトルと類似する第２ベクトルと、該第２ベクトルと同一の識別が付与された第２ベクトルとを含む第２検索結果情報を生成する処理を更にコンピュータに実行させ、
　前記教師データを生成する処理は、前記第１検索結果情報と、前記第２検索結果情報とを基にして、前記教師データを生成することを特徴とする請求項５に記載のモデル学習プログラム。
　前記第１ベクトルと、記憶装置における前記テキストデータの位置とを対応付けた第１インデックスを生成し、前記第２ベクトルと、記憶装置における前記画像または動画データの位置とを対応付けた第２インデックスを生成する処理を更に実行することを特徴とする請求項５に記載のモデル学習プログラム。
　前記実行する処理によって、機械学習された学習モデルに、テキストデータの第１ベクトルを入力することで、第２ベクトルを算出し、算出した第２ベクトルと、前記第２インデックスとを基にして、前記第２ベクトルに対応する映像データを、前記記憶装置から検索する処理を更に実行させることを特徴とする請求項７に記載のモデル学習プログラム。
　テキストデータを基にして、第１ベクトルを算出し、前記第１ベクトルと、類似する第１ベクトルを区別する識別情報とを対応付けた第１辞書情報を生成し、画像または動画データの説明テキストを基にして、第２ベクトルを算出し、前記第２ベクトルと、類似する第２ベクトルを区別する識別情報とを対応付けた第２辞書情報を生成する準備処理部と、
　前記第１辞書情報に登録された類似する第１ベクトルと、前記第２辞書情報に登録された類似する第２ベクトルとを関連付けた教師データを生成する生成部と、
　前記教師データを基にして、学習モデルの機械学習を実行する学習部と
　を有することを特徴とする情報処理装置。
　前記生成部は、検索クエリを取得した場合に、前記検索クエリの第３ベクトルを算出し、前記第３ベクトルと、前記第１辞書情報とを基にして、前記第３ベクトルに類似する第１ベクトルと、該第１ベクトルと同一の識別情報が付与された第１ベクトルとを含む第１検索結果情報を生成し、前記第３ベクトルと類似する第２ベクトルと、該第２ベクトルと同一の識別が付与された第２ベクトルとを含む第２検索結果情報を生成する処理を更に実行し、前記第１検索結果情報と、前記第２検索結果情報とを基にして、前記教師データを生成することを特徴とする請求項９に記載の情報処理装置。
　準備処理部は、前記第１ベクトルと、記憶装置における前記テキストデータの位置とを対応付けた第１インデックスを生成し、前記第２ベクトルと、記憶装置における前記画像または動画データの位置とを対応付けた第２インデックスを生成する処理を更に実行することを特徴とする請求項９に記載の情報処理装置。
　前記学習部によって、機械学習された学習モデルに、テキストデータの第１ベクトルを入力することで、第２ベクトルを算出し、算出した第２ベクトルと、前記第２インデックスとを基にして、前記第２ベクトルに対応する映像データを、前記記憶装置から検索する実行部を更に有することを特徴とする情報処理装置。