WO2023166747A1

WO2023166747A1 - 学習データ生成装置、学習データ生成方法、及びプログラム

Info

Publication number: WO2023166747A1
Application number: PCT/JP2022/009576
Authority: WO
Inventors: いつみ斉藤; 京介西田; 仙吉田
Original assignee: 日本電信電話株式会社
Priority date: 2022-03-04
Filing date: 2022-03-04
Publication date: 2023-09-07

Abstract

動画に対する要約テキストを生成する要約モデルの学習のための学習データセットを生成する学習データ生成装置において、前記動画における画像から抽出されたテキストである第１テキスト、前記動画における音声から抽出されたテキストである第２テキスト、及び、前記動画の正解の要約テキストを有する元の学習データセットから、少なくとも１つの更なる学習データセットを生成する学習データ生成部を備える。

Description

学習データ生成装置、学習データ生成方法、及びプログラム

　本発明は、動画から当該動画の要約テキストを生成するための要約モデルの学習に使用する学習データを生成する技術に関連するものである。

　近年オンライン会議などが増加し、会議等のプレゼンテーションの動画がインターネット上に多数公開されている。

　一般にプレゼンテーション動画は時間が長いため、その内容を把握するためには長時間動画を見なければならない。そのため、プレゼンテーション動画の内容を短時間で把握したいという要求がある。

BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension

　プレゼンテーション動画の内容を短時間で把握するために、ニューラルネットワークのモデル（要約モデルと呼ぶ）を用いて、プレゼンテーション動画の要約を表すテキスト（要約テキスト）を生成することが考えられる。

　しかし、プレゼンテーション動画においては、要約モデルを学習する際に使用する正解データ（学習データ）の量が少なく、収集した正解データのみでは十分な精度を持つ要約モデルを生成できなかった。この課題は、プレゼンテーション動画に限らずに、要約を生成する対象となる動画全般に対して生じ得る課題である。

　本発明は上記の点に鑑みてなされたものであり、動画から要約テキストを生成する要約モデルを学習するための学習データを生成することを可能とする技術を提供することを目的とする。

　開示の技術によれば、動画に対する要約テキストを生成する要約モデルの学習のための学習データセットを生成する学習データ生成装置であって、
　前記動画における画像から抽出されたテキストである第１テキスト、前記動画における音声から抽出されたテキストである第２テキスト、及び、前記動画の正解の要約テキストを有する元の学習データセットから、少なくとも１つの更なる学習データセットを生成する学習データ生成部
　を備える学習データ生成装置が提供される。

　開示の技術によれば、動画から要約テキストを生成する要約モデルを学習するための学習データを生成することを可能とする技術が提供される。

プレゼンテーション動画から要約テキストを作成する基本的な処理の流れを示す図である。要約生成装置１００の構成図である。要約生成装置１００の動作を説明するためのフローチャートである。要約モデル学習装置２００の構成図である。要約モデル事前学習のための構成を示す図である。要約モデル学習装置２００の動作を説明するためのフローチャートである。事前学習における、要約モデルへの入力、及び、要約モデルからの出力の例を示す図である。動画からの画像切り出し処理を説明するための図である。画像からのテキスト抽出を説明するための図である。音声からのテキスト抽出を説明するための図である。学習における、要約モデルへの入力、及び、要約モデルからの出力の例を示す図である。データ拡張部４００の構成を示す図である。データ拡張部４００の動作を説明するためのフローチャートである。データ分割の例を示す図である。分割された学習データセットを使用した学習を説明するための図である。装置のハードウェア構成例を示す図である。論文データを事前に学習させた場合の効果を示す図である。スライド概要を事前に学習させた場合の効果を示す図である。元の学習データセットとともに分割により得られた学習データセットを学習させた場合の効果を示す図である。

　以下、図面を参照して本発明の実施の形態（本実施の形態）を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。

　以下で説明する要約生成装置１００及び要約モデル学習装置２００はいずれも、論文から要約を生成するような従来技術に対して特定の改善を提供するものであり、動画から要約を生成する技術に係る技術分野の向上を示すものである。

　以下で説明するデータ拡張部４００（学習データ生成装置４００）は、要約を人手で生成するような従来技術に対して特定の改善を提供するものであり、動画の要約テキストを生成するための要約モデルを学習する技術に係る技術分野の向上を示すものである。

　以下では、要約を生成する対象の動画として、プレゼンテーション動画を用いているが、これは例である。本発明に係る技術は、プレゼンテーション動画に限らない動画全般に適用することが可能である。

　（実施の形態の概要）
　近年オンライン会議などが増加し、会議等のプレゼンテーションの動画が多数公開されている。一般にプレゼンテーション動画は時間が長いため、その内容を短時間で把握したいという要求がある。プレゼンテーション動画の内容を短時間で把握するために、プレゼンテーション動画の要約が生成できることが望ましい。

　そこで、本実施の形態では、プレゼンテーション動画に対応する要約テキストを生成するための技術について説明する。

　＜プレゼンテーション動画の例＞
　一例として、「https://slideslive.com/38928967/predicting-depression-in-screening-interviews-from-latent-categorization-of-interview-prompts」（２０２２年２月２７日検索）、「https://videolectures.net/」（２０２２年２月２７日検索）等に開示されているように、一般的なプレゼンテーション動画は、発表内容を記載したスライドの画像と、発表者の画像と、発表者の音声からなる。なお、発表者の画像が表示されない場合も多い。

　＜プレゼンテーション動画から要約テキストを作成する基本的な処理の流れ＞
　プレゼンテーション動画から要約テキストを作成する基本的な処理の流れを、図１を参照して説明する。なお、以降の説明においては、記載の便宜上、プレゼンテーション動画を「動画」と呼び、要約テキストを「要約」と呼ぶ場合がある。

　まず、要約作成の対象となる動画から、要約生成部１３０への入力データとなる、（Ａ）プレゼンテーションスライド、（Ｂ）動画から切り出した画像、及び（Ｃ）音声を用意する。

　なお、（Ａ）のプレゼンテーションスライドは、動画とは別のファイルであることを想定している。また、入力データとして、（Ａ）、（Ｂ）、（Ｃ）の３つのうちの少なくとも１つがあれば要約生成は可能であるが、より精度の良い要約を生成するために、（Ａ）、（Ｂ）、（Ｃ）の３つ、あるいは、（Ａ）と（Ｃ）の２つ、あるいは、（Ｂ）と（Ｃ）の２つがあることが望ましい。

　次に、画像認識／音声認識によりテキストに変換した入力データを要約生成部１３０に入力し、要約生成部が要約テキストを出力する。要約生成部１３０は、後述する要約生成装置１００に含まれる機能部である。

　＜要約生成技術について＞
　本実施の形態において要約生成部１３０がテキストから要約を生成するために、ニューラルネットワークのモデル（これを要約モデルと呼ぶ）を使用している。

　テキストを入力して要約テキストを出力するモデルであればどのような要約モデルを使用してもよいが、本実施の形態では、一例として、非特許文献１に開示されたＢＡＲＴに基づくモデルを使用している。

　ＢＡＲＴは、エンコーダとデコーダからなるモデルである。学習済みのモデルを使用することで、エンコーダへテキストを入力すると、デコーダから要約テキストが出力される。

　＜課題について＞
　従来から、テキストを入力して要約を出力する技術は存在したが、マルチモーダルの入力データから要約を出力する技術は見られない。すなわち、従来技術においては、プレゼンテーション動画等の、音声と画像（スライド画像等）を含む動画から適切に要約テキストを生成する技術は存在しなかった。

　上記の課題を、実施形態の観点からより具体的な課題に分けるとすると、下記のような課題１～３に分けることができる。

　課題１：動画に対する要約を生成するための要約モデルを学習する際に使用する、正解の要約テキストを含む学習データを作成する作成コストが高い。

　課題２：動画から音声及び画像を抽出して、これらを入力として要約テキストを出力する要約モデルを用いた要約生成技術は存在しない。

　課題３：動画に対する要約を生成するための要約モデルを学習する際に使用する、正解の要約テキストを外部サーバ等から収集できたとしても、その量が少ないため、学習データの量が少なくなり、精度の良い要約モデルを生成できない。

　以下、プレゼンテーション動画から要約を生成する要約生成装置１００、及び、要約生成装置１００において使用される要約モデルを生成（学習）するための要約モデル学習装置２００のそれぞれについて、その構成と動作を説明する。以下で説明する技術により、上記の課題１～３が解決される。

　（要約生成装置１００の構成と動作）
　図２に、本実施の形態における要約生成装置１００の構成図を示す。図２に示すように、要約生成装置１００は、画像処理部１１０、音声処理部１２０、要約生成部１３０、要約モデルＤＢ（データベース）１４０を有する。要約モデルＤＢ１４０には、学習済みの要約モデルが格納されている。なお、本明細書におけるＤＢを記憶部あるいは格納部と呼んでもよい。

　図３のフローチャートを参照して、図２に示す要約生成装置１００の動作の流れを説明する。

　要約を作成する対象の動画から音声情報と画像情報を抽出しておき、Ｓ１０１において、画像情報を画像処理部１１０に入力し、音声情報を音声処理部１２０に入力する。なお、図２の例では、動画から音声情報と画像情報（特に画像情報）を抽出する機能部については、要約生成装置１００の外部にあることを想定するが、要約生成装置１００の内部に当該機能部を備えてもよい。

　Ｓ１０２において、画像処理部１１０が、画像認識技術を用いて、画像からテキストを抽出する。画像処理部１１０は、テキストに加えて、付随する補助情報（スライド中の文字の色など）を抽出してもよい。

　Ｓ１０３において、音声処理部１２０は、音声認識技術を用いて、音声からテキストを抽出する。なお、Ｓ１０２とＳ１０３の処理の順番は逆であってもよいし、Ｓ１０２とＳ１０３を同時に実行してもよい。

　Ｓ１０２で抽出されたテキスト、及び、Ｓ１０２で抽出されたテキストは、要約生成部１３０に入力される。Ｓ１０４において、要約生成部１３０は、要約モデルＤＢ１４０から読み出した要約モデルを用いて、Ｓ１０２で抽出されたテキスト、及び、Ｓ１０３で抽出されたテキストから要約を生成する。要約モデルの学習のところでも説明するとおり、要約モデルへの入力として、テキストに加えて、文字の配置特徴量、画像特徴量、音声特徴量のうちのいずれか１つ、いずれか複数、又は全部を追加した情報を使用してもよい。なお、「要約モデル」の実態は、ニューラルネットワークを構成する関数及び重みパラメータ等からなるデータである。Ｓ１０４において、要約生成部１３０は、生成した要約を出力する。

　上記のように、動画から得られる音声情報と画像情報の双方を用いることで、高品質な要約を生成することができる。

　動画から音声情報と画像情報を抽出する機能部、画像処理部１１０、及び、音声処理部１２０における処理についてはそれぞれ、後述する要約モデル学習装置２００の学習データ入力部２２０、画像処理部２３０、及び、音声処理部２４０における処理と同じであるため、これらの詳細処理については、要約モデル学習装置２２０の説明のところで説明する。

　本実施の形態の要約生成装置１００により、前述した課題２が解決され、動画から音声及び画像を抽出して、これらを入力として要約テキストを出力する要約モデルを用いた要約生成技術を実現できる。なお、要約モデルについては、以下で説明する要約モデル学習装置２００により学習が行われる。

　（要約モデル学習装置の構成と動作）
　図４に、本実施の形態における要約モデル学習装置２００の構成例を示す。図４に示すように、要約モデル学習装置２００は、データ取得部２１０、学習データ入力部２２０、画像処理部２３０、音声処理部２４０、要約モデル学習部２５０、データ拡張部４００、モデル設定部２７０、事前学習済みの要約モデルを格納する要約モデルＤＢ２８０、学習中の要約モデルを格納する要約モデルＤＢ２９０を有する。

　本実施の形態では、要約モデルの学習時において、プレゼンテーションと内容的には類似性が高いと考えられる論文の要約を事前に大量に学習した要約モデルを作成し、その要約モデルに対して少量のプレゼンテーションの要約データを用いてファインチューンする。これにより、プレゼンテーション動画に対する正解の要約データが少量でも高い精度を達成することを可能としている。

　なお、上記のように事前学習を行うことは、課題３の解決方法の１つである。事前学習を行わずに、後述するデータ拡張部４００により生成された更なる学習データを使用することでも、課題３を解決することができる。事前学習を行うことと、後述するデータ拡張部４００により生成された更なる学習データを使用することとを組み合わせてもよい。

　図４に示す構成は、上記の事前学習を行う場合の構成を示しているが、事前学習を行わずにデータ拡張部４００で生成された学習データによる学習を行ってもよい。また、事前学習を行った要約モデルに対して、データ拡張部４００で生成された学習データによる学習を行ってもよい。

　事前学習のための構成を図５に示す。図５に示すように、事前学習のための構成として、要約モデル事前学習部３１０と、事前学習中の要約モデルを格納する要約モデルＤＢ３２０を有する。

　要約モデル事前学習部３１０と要約モデルＤＢ３２０とを有する要約モデル事前学習装置（要約モデル学習装置２００とは別の装置）を構成してもよいし、要約モデル事前学習部３１０と要約モデルＤＢ３２０が要約モデル学習装置２００内に含まれていてもよい。

　図６のフローチャートを参照して、要約モデル学習装置２００及び要約モデル事前学習部３１０の動作の流れを説明する。詳細処理については後述する。

　Ｓ２０１、Ｓ２０２は、図５に示した事前学習のための構成における処理である。Ｓ２０１において、要約モデル事前学習部３１０に事前学習用データを入力する。事前学習用データは、例えば、プレゼンテーションに関連する論文のテキストと、その論文の要約（正解データ）である。

　Ｓ２０２において、要約モデル事前学習部３１０は、入力データを用いて、要約モデルを学習（事前学習）する。事前学習済みの要約モデルは、要約モデル学習装置２００における要約モデルＤＢ２８０に格納される。

　Ｓ２０３～Ｓ２０７は、図４に示した要約モデル学習装置２００における処理である。Ｓ２０３の入力処理において、データ取得部２１０にアクセス情報（例：論文及びプレゼンテーション動画が公開されているＵＲＬ）を入力する。データ取得部２１０は、アクセス情報を用いて、例えばネットワーク上のサーバから、学習データを取得して、学習データ入力部２２０に入力する。学習データは、例えば、論文に関するプレゼンテーション動画と、当該動画に対応する正解の要約テキストである。Ｓ２０３では更に、学習データ入力部２２０が、プレゼンテーション動画を画像情報と音声情報に分ける処理を行い、画像情報を画像処理部２３０に入力し、音声情報を音声処理部２４０に入力し、正解の要約を要約モデル学習部２５０に入力する。

　なお、学習データ入力部２２０が画像処理部２３０へ入力する画像情報は、プレゼンテーション動画とは別ファイルになっているスライド画像等であってもよいし、プレゼンテーション動画から抽出したスライド画像等であってもよい。いずれの場合でも当該画像を「動画における画像」又は「動画に関する画像」と表現してもよい。いずれの場合でも、「動画における画像」又は「動画に関する画像」から画像認識処理により、テキストを抽出できる。

　なお、以降の説明では、画像処理部２３０へ入力する画像情報は、プレゼンテーション動画から抽出したスライド画像等であることを想定している。

　Ｓ２０４において、画像処理部２３０が、画像認識技術を用いて、画像からテキストを抽出する。画像処理部２３０は、テキストに加えて、付随する補助情報（スライド中の文字の色など）、文字の配置特徴量、画像特徴量などを抽出してもよい。

　Ｓ２０５において、音声処理部１２０は、音声認識技術を用いて、音声からテキストを抽出する。音声処理部１２０は、テキストに加えて、音声特徴量などを抽出してもよい。なお、Ｓ２０４とＳ２０５の処理の順番は逆であってもよいし、Ｓ２０４とＳ２０５を同時に実行してもよい。

　Ｓ２０４で抽出されたテキスト、及び、Ｓ２０５で抽出されたテキストは、要約モデル学習部２５０に入力される。また、正解の要約も要約モデル学習部２５０に入力される。

　ここで、モデル設定部２７０により、要約モデルＤＢ２８０から事前学習済みの要約モデルが読み出され、要約モデルＤＢ２９０に、当該事前学習済みの要約モデルが格納されている。この事前学習済みの要約モデルにおけるパラメータを初期値として、以下の学習（ファインチューニング）が行われる。

　Ｓ２０６において、要約モデル学習部２５０は、要約モデルＤＢ２９０から読み出した要約モデルを用いて、Ｓ２０４で抽出されたテキスト、及び、Ｓ２０５で抽出されたテキストから要約を生成するとともに、生成した要約と正解の要約との間の誤差が最小になるように要約モデルの学習（パラメータの更新）を行う。

　学習が終了すると、要約モデル学習部２５０は、学習済みの要約モデルを要約生成装置１００の要約モデルＤＢ１４０に格納する。

　なお、上記の例では、事前学習を行って、事前学習済みの学習モデルをファインチューンする例を示しているが、前述したように、事前学習は必須ではない。事前学習を実施せずに、図６のＳ２０３から処理を開始することとしてもよい。事前学習を実施しない場合における要約モデルのパラメータの初期値はランダムな値であってもよいし、ランダムな値以外の値であってもよい。

　以下では、Ｓ２０１～Ｓ２０７における各ステップの処理内容をより詳細に説明する。

　（Ｓ２０１、Ｓ２０２：事前学習）
　図５に示した要約モデル事前学習部３１０が実行する事前学習の詳細例を説明する。事前学習においては、要約の対象とするプレゼンテーション動画の分野に関連する分野のテキスト（関連分野テキストと呼ぶ）と、その正解の要約を用いて要約モデルの学習を行う。関連分野テキストは、例えば、論文テキスト（論文の本文のテキスト）、スライドのテキスト等である。

　関連分野テキストとして、論文テキストを使用する場合における、要約モデルへの入力、及び、要約モデルからの出力の例を図７に示す。前述したとおり、本実施の形態に係る要約モデルは、エンコーダとデコーダからなるモデルである。

　図７に示すとおり、エンコーダに論文の本文テキストが入力され、デコーダから要約テキストが出力される。出力される要約テキストと正解の要約テキストとの間の誤差が最小になるように要約モデルの学習がなされる。入力としてスライドテキストを使用する場合でも処理内容は論文テキストを用いる場合と同じである。

　なお、テキストのエンコーダへの入力の際には、テキストのトークン列がまずｄ次元の固定次元ベクトルに変換され、その後、エンコーダ‐デコーダを通して要約テキストに変換される。

　入力となる論文テキストの例を以下に示す。

　「We assume familiarity with basic notions of graph theory (see, for instance, 1]) and with elementary notions of polyhedral combinatorics (see, for instance, 6]).", "Our graphs will be undirected and simple (no loops and no multiple edges).", "As usual, K n denotes the complete graph with n vertices; K n;m denotes the complete bipartite graph with n + m vertices and n m edges.", "Let G be a graph; G is connected if for every pair of distinct vertices there exists a path in G joining them; G is twoconnected if for every vertex v of G, the graph G ?", "v is connected; G is planar if it can be embedded in the plane.", "A subgraph H of a G is spanning if the vertex sets of H and G are the same.", "Subdivision of an edge uv of G consists of removing edge uv, and adding a new vertex w and the two edges uw and vw; w is called subdivision vertex.", "If G and H are two graphs, we say that G contains a subdivision of H, if H arises by subdivision of the edges of some subgraph of G. As usual, (u) denotes the set of all edges that are incident in the vertex u.", "In automatic graph drawing the following problem arises: nd in a complete graph with weights on its edges a two-connected planar spanning subgraph with weight as Partially supported by DFG-Grant JU204/7-1 Forschungsschwerpunkt \" E ziente Algorithmen f ur diskrete Probleme und ihre Anw…」
　上記入力に対する出力（あるいは正解データである要約テキスト）の例を以下に示す。

　「The problem of finding a two-connected planar spanning subgraph of maximum weight in a complete edge-weighted graph is important in automatic graph drawing.", "We investigate the problem from a polyhedral point of view."」
　プレゼンテーション動画のサイト等において、スライドのファイルを動画とは別ファイルとして取得できる場合がある。また、スライドのファイルには、スライドそのもののデータ（スライドテキスト）と、スライドの概要（要約テキスト）が含まれる場合も多い。このような場合、スライドテキストをエンコーダ‐デコーダの入力として、上記要約テキストを正解として使用することで要約モデルの事前学習を行うことができる。

　入力となるスライドテキストの例を以下に示す。

　「[["ssn"], ["MASTERS", "IN", "AUTOMOTIVE"], ["ENGINEERING"], ["Karthiek", "Nagaraj"], ["PRESENTED", "AT", "IRIS", ",", "DEPARTMENT", "OF", "MECHANICAL", "ENGINEERING"], ["SSN"], ["WHY", "AUTOMOBILE", "ENGINEERING", "?"], ["Its", "scope", "is", "irrefutable", "and", "job", "prospects", "are", "very", "strong", "in", "any", "part", "of", "the", "world", ".", "Also", "the", "prospect", "of", "returning", "to", "India", "to", "work", "is", "bright", "as", "the", "indian", "automotive", "industry", "is", "making", "tremendous", "progress", "."], [">", "It", "is", "a", "stream", "which", "blends", "passion", "for", "vehicles", "and", "technical", "knowledge", ",", "thus", "making", "it", "all", "the", "more", "interesting", "."], ["It", "is", "an", "interdisciplinary", "field", "which", "encompasses", "mechanical", "engineering", ",", "electrical", "and", "electronics", "engineering", "and", "software", "engineering", ".", "This", "again", "adds", "to", "the", "interest", "factor", "."], ["A", "multitude", "of", "research", "options", "are", "on", "offer", ",", "especially", "in", "hybrid", "powertrains", "and", "fuel", "cells", "."], ["PRESENTED", "AT", "IRIS", ",", "DEPARTMENT", "OF", "MECHANICAL", "ENGINEERING"], ["2"], ["SSN"], ["KEY", "AREAS", "OF", "AUTOMOTIVE", "ENGINEERING"], ["Vehicle", "Propulsion", "~", "Internal", "combustion", "engines"], ["Powertrain", "dynamics", "and", "control"], ["Vehicle", "dynamics", "~", "Handling", "response"], ["~", "Advanced", "transmission"], ["systems"], ["~", "Hybrid", "propulsion", "systems"], ["~", "Terrain", "modelling"], ["~", "Fuel", "cells"], ["~", "Drivetrain", "control", "systems"], ["~", "NVH", "modelling"], ["Automotive", "body", "structures", "~", "Material", "selection"], ["Automotive", "safety", "~", "Active", "and", "passive", "safety"], ["systems"], ["~", "Crash", "worthiness"], ["~", "Human", "factor", "engineering"], ["and",」
　上記入力に対する出力（あるいは正解データであるスライド概要）の例を以下に示す。

　「A guide to Masters in Automotive Engineering at International Destinations」
　（Ｓ２０３：要約モデル学習装置２００の入力処理）
　次に、図４に示した要約モデル学習装置２００における、データ取得部２１０による処理、及び、学習データ入力部２２０による処理の詳細例を説明する。

　データ取得部２１０は、例えばインターネット上にあるプレゼンテーション動画のサイトにアクセスし、そのサイトからプレゼンテーション動画と、動画に対応する正解の要約を取得する。このような動画と要約を取得できるサイトの例として例えば、「https://aclanthology.org/」（２０２２年２月２７日検索）がある。

　上記のように、ネットワーク上のサーバからプレゼンテーション動画とその要約を取得することで、人手で要約を作成することなく、学習データを作成することができ、前述した課題１が解決される。

　学習データ入力部２２０は、データ取得部２１０により取得したプレゼンテーション動画を画像情報と音声情報に分ける処理を行い、画像情報を画像処理部２３０に入力し、音声情報を音声処理部２４０に入力する。

　画像情報は特定の画像に限定されないが、ここでは、画像情報が、プレゼンテーション動画におけるスライド画像であることを想定している。

　図８を参照して、学習データ入力部２２０による、プレゼンテーション動画から画像を切り出す処理例を説明する。

　Ｓ２０３（１－１）：
　学習データ入力部２２０は、プレゼンテーション動画からｋ秒単位で画像を切り出す。ｋは、０より大きな実数であり、予め定めておく数である。図８の上段には、ｋ秒毎に切り出された６つの画像が示されている。

　Ｓ２０３（１－２）：
　学習データ入力部２２０は、Ｓ２０３（１－１）で切り出した画像を時刻ごとに順番に比較し，ｔ番目の画像とｔ－１番目の画像の類似度が閾値以上であればこれらの画像を同じ画像と判定する。なお、画像間の類似度の判定方法としてはどのような判定方法を使用してもよい。図８には、６つの画像における各２画像間の類似度の例が示されている。

　Ｓ２０３（１－３）：
　学習データ入力部２２０は、Ｓ２０３（１－１）とＳ２０３（１－２）を繰り返し、異なり画像集合を抽出する。図８には、閾値が２５である場合の異なり画像集合として、画像１、画像４、画像６が示されている。得られた画像集合は画像処理部２３０に入力される。

　（Ｓ２０４：画像処理）
　次に、画像処理部２３０が実行する画像処理の詳細例を説明する。画像処理部２３０は、学習データ入力部２２０から入力された異なり画像集合に対してＯＣＲ（Optical Character Recognition）処理を実施し、図９に示すように、当該異なり画像集合における各画像から、テキスト、文字の色、文字の大きさ、文字の位置情報等を取得する。なお、取得する情報はテキストのみでもよい。

　（Ｓ２０５：音声処理）
　次に、音声処理部２４０が実行する音声処理の詳細例を説明する。図１０に示すように、音声処理部２４０は、学習データ入力部２２０から入力された音声に対して音声認識処理を実施し、音声認識結果のテキストを取得する。

　（Ｓ２０６：学習処理）
　続いて、要約モデル学習部２５０が実行する学習処理の詳細例を説明する。要約モデル学習部２５０は、画像処理部２３０により得られたテキストと、音声処理部２４０により得られたテキストとを結合し、結合されたテキストを要約モデルに入力する。要約モデル学習部２５０は、要約モデルから出力された要約テキストと、正解の要約テキストとの誤差が最小になるように要約モデルを学習する。要約モデルへの入力については、結合テキストに対して、画像処理部２３０により得られた、文字の配置特徴量、画像特徴量、文字の大きさや色情報等を追加した情報を使用してもよい。また、結合テキストに対して、音声処理部２４０により得られた音声特徴量を追加した情報を使用してもよい。

　なお、上記の要約モデルの初期状態は、Ｓ２０２で事前学習した要約モデルである。ただし、前述したとおり、事前学習を行わないこととしてもよいので、上記の要約モデルの初期状態は、Ｓ２０２で事前学習した要約モデルでなくてもよい。事前学習を行わない場合には、後述するデータ拡張部４００により生成された更なる学習データを用いて学習を行うこととしてもよい。

　要約モデルへの入力、及び、要約モデルからの出力の例を図１１に示す。前述したとおり、本実施の形態に係る要約モデルは、エンコーダとデコーダからなるモデルである。

　図１１に示すとおり、エンコーダに、[SEP]により結合されたテキストと、文字の大きさ、及び色情報が入力され、デコーダから要約テキストが出力される。出力される要約テキストと正解の要約テキストとの間の誤差が最小になるように要約モデルの学習がなされる。

　テキストのエンコーダへの入力の際には、テキストのトークン列がまずｄ次元の固定次元ベクトルに変換され、その後、エンコーダ‐デコーダを通して要約テキストに変換される。また、入力において、文字の大きさ、及び色情報はなくてもよい。

　なお、音声処理部２４０により得られるテキストをＡＳＲ（Automatic Speech Recognition）テキストと呼び、画像処理部２４０により得られるテキストをＯＣＲテキストと呼んでもよい。

　ＡＳＲテキストの例を以下に示す。

　「So to put in context to put my presentation in the context, I will, I would like to begin with the word decision support or decision-making. And first ask the question who, or what is making decisions and obviously we get two branches here. One is that we have a human decision maker who makes a decision and all of us are decision makers and then we are also talking about the decision systems. So computers robots.」
　ＯＣＲテキストの例を以下に示す。下記の例は、「http://videolectures.net/site/normal_dl/tag=1005123/icml2015_schmidt_time_framework_01.pdf」（２０２２年２月２６日検索）において開示されているスライド画像から得られたテキストの例である。

　「Structured sparsity sparsity is widely used in signal processing, machine learning, and statistics (compressive sensing, sparse linear regression, etc.) Examples of sparsity….」
　ＡＳＲテキストとＯＣＲテキストを結合して要約モデルに入力した際に出力される要約テキスト（あるいはその正解）の例を以下に示す。

　「Decision Support is a discipline concerned with human decision making: it aims to provide methods and tools that support, rather than replace, people in making difficult decisions. One of the widely used decision-support approaches relies on decision models, which are developed in the decision process and used to evaluate and analyse decision alternatives. In this lecture, we shall present the method DEX (Decision EXpert), which was heavily influenced by ideas from Artificial Intelligence. DEX is a hierarchical, qualitative, rule-based, multi-criteria modelling method, suitable particularly for solving classification decision problems. DEX combines traditional approaches with those from expert systems and machine learning. DEX is supported by the software called DEXi and has been used in hundreds of real-world decision-making studies. The presentation will be illustrated by recent applications in the areas of electric energy production, food safety and health care.」
　（データ拡張部４００の構成と動作）
　以下では、課題３を解決する技術の１つである、追加の学習データセットを自動的に生成する技術について説明する。

　図４に示した要約モデル学習装置２００におけるデータ拡張部４００の構成を図１２に示す。図１２に示すように、データ拡張部４００は、学習データ生成部４１０、重要文抽出部４２０、タスク情報付与部４３０を有する。なお、データ拡張部４００は要約モデル学習装置２００内の機能部であってもよいし、要約モデル学習装置２００の外部にある別装置であってもよい。データ拡張部４００が要約モデル学習装置２００内にある場合の要約モデル学習装置２００を学習データ生成装置４００と呼んでもよい。データ拡張部４００が要約モデル学習装置２００の外部にある別装置である場合の当該別装置を学習データ生成装置４００と呼んでもよい。

　図１３のフローチャートを参照して、図１２に示すデータ拡張部４００（学習データ生成装置４００）の動作の流れを説明する。Ｓ３０１において、音声処理により得られたＡＳＲテキスト、画像処理により得られたＯＣＲテキスト、及び、これらに対応する正解の要約テキストを学習データ生成部４１０に入力する。

　Ｓ３０２において、データ分割部４１０は、入力されたデータに対して学習データ生成処理（データ分割処理と呼んでもよい）行う。Ｓ３０２においては、重要文抽出部４２０による重要文抽出処理も行われる。なお、重要文抽出部４２０が学習データ生成部４１０内に含まれていてもよい。

　タスク情報付与部４３０は、Ｓ３０３において、生成された学習データセットにタスク情報を付与し、Ｓ３０４において、タスク情報を付与した学習データセットを出力する。出力されたデータは要約モデル学習部２５０に入力され、要約モデルの学習に利用される。以下、上記の各ステップの処理をより詳細に説明する。

　（Ｓ３０１：入力、Ｓ３０２：データ分割）
　学習データ生成部４１０へは、１つのプレゼンテーション動画に対して「ＯＣＲテキスト、ＡＳＲテキスト、正解の要約テキスト」を１セットとしてデータを入力する。学習を行うためのデータセットを学習データセットと呼ぶ。

　学習データ生成部４１０は、上記の入力データに基づいて、図１４に示すように下記の５つの学習データセットを生成する。なお、（１）は、元の学習データセットである。各学習データセットは、タスクを表すので、学習データセットをタスクと呼んでもよい。なお、下記の５つは例であり、元の学習データセットに加えて、更なる学習データセットが少なくとも１つ生成されればよい。下記に加えて、（６）ＯＣＲテキスト、ＯＣＲ重要文、（７）ＡＳＲテキスト、ＡＳＲ重要文が生成されてもよい。

　（１）ＯＣＲテキスト、ＡＳＲテキスト、正解の要約テキスト
　（２）ＯＣＲテキスト、正解の要約テキスト
　（３）ＡＳＲテキスト、正解の要約テキスト
　（４）ＯＣＲテキスト、ＡＳＲ重要文
　（５）ＡＳＲテキスト、ＯＣＲ重要文
　ＡＳＲ重要文、ＯＣＲ重要文はいずれも、疑似正解情報の例である。ＡＳＲ重要文とＯＣＲ重要文は、いずれも重要文抽出部４２０が作成する。これら重要文の作成方法の例を以下に説明する。

　ＡＳＲ重要文に関して、重要文抽出部４２０は、要約テキストとＡＳＲテキストとのマッチングをとることでＡＳＲ重要文を抽出する。例えば、重要文抽出部４２０は、ＡＳＲテキストのうち、要約テキストと類似性の高い部分をＡＳＲ重要文として抽出する。

　ＯＣＲ重要文に関して、重要文抽出部４２０は、要約テキストとＯＣＲテキストとのマッチングをとることでＯＣＲ重要文を抽出する。例えば、重要文抽出部４２０は、ＯＣＲテキストのうち、要約テキストと類似性の高い部分をＯＣＲ重要文として抽出する。

　ＡＳＲ／ＯＣＲ重要文の抽出のためのマッチングの取り方としては任意の手法を適用できるが、抽出要約のデータ作成で用いられる、例えばFine-tune BERT for Extractive Summarization（https://arxiv.org/pdf/1903.10318v2.pdf、２０２２年２月２７日検索）で記載されている方法を用いてもよい。

　（Ｓ３０３：タスク情報付与）
　タスク情報付与部４３０は、学習データ生成部４１０により生成した各学習データセットに、タスクを識別するための識別情報（ラベルと呼んでもよい）を付与する。当該識別情報は特殊トークンである。上記（１）～（５）の例では、例えば、下記のように[task0]等の識別情報を付与する。

　（１）[task0]　ＯＣＲテキスト、ＡＳＲテキスト、正解の要約テキスト
　（２）[task1]　ＯＣＲテキスト、正解の要約テキスト
　（３）[task2]　ＡＳＲテキスト、正解の要約テキスト
　（４）[task3]　ＯＣＲテキスト、ＡＳＲ重要文
　（５）[task4]　ＡＳＲテキスト、ＯＣＲ重要文
　（Ｓ３０４：出力、（及び学習））
　Ｓ３０３において識別情報の付された各タスク（各学習データセット）は、要約モデル学習部２５０へ出力される。

　要約モデル学習部２５０は、識別情報の付されたそれぞれの学習データセットを用いて要約モデルの学習を行う。各学習データセットでの学習方法は、前述したＳ２０６での学習方法と同様である。ただし、ここでは、図１５に示すように、デコーダへの入力において、上記識別情報を付したテキストを用いる。図１５は、上記５つのタスクのうちの（２）のタスクでの学習例を示している。このような学習が、（１）～（５）のそれぞれに対して行われる。

　これにより、学習データ量を増大させることができ、精度の良い要約モデルを生成できる。

　（ハードウェア構成例）
　要約生成装置１００、要約モデル学習装置２００、学習データ生成装置４００はいずれも、例えば、コンピュータにプログラムを実行させることにより実現できる。このコンピュータは、物理的なコンピュータであってもよいし、クラウド上の仮想マシンであってもよい。以下、要約生成装置１００、要約モデル学習装置２００、学習データ生成装置４００を総称して「装置」と呼ぶ。

　すなわち、当該装置は、コンピュータに内蔵されるＣＰＵやメモリ等のハードウェア資源を用いて、当該装置で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体（可搬メモリ等）に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。

　図１６は、上記コンピュータのハードウェア構成例を示す図である。図１６のコンピュータは、それぞれバスＢＳで相互に接続されているドライブ装置１０００、補助記憶装置１００２、メモリ装置１００３、ＣＰＵ１００４、インタフェース装置１００５、表示装置１００６、入力装置１００７、出力装置１００８等を有する。

　当該コンピュータでの処理を実現するプログラムは、例えば、ＣＤ－ＲＯＭ又はメモリカード等の記録媒体１００１によって提供される。プログラムを記憶した記録媒体１００１がドライブ装置１０００にセットされると、プログラムが記録媒体１００１からドライブ装置１０００を介して補助記憶装置１００２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１００１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１００２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

　メモリ装置１００３は、プログラムの起動指示があった場合に、補助記憶装置１００２からプログラムを読み出して格納する。ＣＰＵ１００４は、メモリ装置１００３に格納されたプログラムに従って、ライトタッチ維持装置１００に係る機能を実現する。インタフェース装置１００５は、ネットワーク等に接続するためのインタフェースとして用いられる。表示装置１００６はプログラムによるＧＵＩ（Ｇｒａｐｈｉｃａｌ　Ｕｓｅｒ　Ｉｎｔｅｒｆａｃｅ）等を表示する。入力装置１００７はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置１００８は演算結果を出力する。

　（実施の形態の効果）
　以上説明したとおり、本実施の形態に係る技術により、プレゼンテーション動画等の、音声と画像を含む動画から適切に要約テキストを生成することが可能となる。また、動画から要約テキストを生成する要約モデルを学習するための追加の学習データを自動的に生成することが可能となる。

　特に本実施の形態では、事前学習又はデータ拡張（データ分割による追加学習データ生成）を行うことで、要約モデルの精度を向上させることができる。

　以下、事前学習を行った場合の実験結果に基づく効果、及び、データ分割を行った場合の実験結果に基づく効果を説明する。以下では、評価指標として、ROUGE-1, ROUGE-2, ROUGE-Lを使用しており、それぞれ、Ｒ１、Ｒ２、ＲＬと記載する。

　図１７は、論文データを事前に学習させた場合の効果を示す図である。「ＡＳＲ＋ＯＣＲ」は、比較のための、論文データを事前に学習させない場合の評価結果を示す。「＋論文要約（３０万）」、「＋論文要約（５０万）」はそれぞれ、論文要約をそれぞれ３０万件、５０万件事前に学習させた場合の評価結果を示す。図１７に示すとおり、論文データを事前に学習させることにより、精度が向上していることがわかる。

　図１８は、スライド概要を事前に学習させた場合の効果を示す図である。「ＡＳＲ＋ＯＣＲ（４０９６）」は、比較のための、スライド概要を事前に学習させない場合の評価結果を示す。「＋slideshare」はスライド概要を事前に学習させた場合の評価結果を示す。図１８に示すとおり、スライド概要を事前に学習させることにより、精度が向上していることがわかる。

　図１９は、元の学習データセットとともに分割により得られた更なる学習データセットを学習させた場合の効果を示す図である。「ＡＳＲ＋ＯＣＲ（４０９６）」は、比較のための、元の学習データセットのみを学習させた場合の評価結果を示す。「ＡＳＲ＋ＯＣＲ（４０９６）＋ｅｘｔｅｎｄ」は、元の学習データセットとともに分割により得られた更なる学習データセットを学習させた場合の評価結果を示す。図１９に示すとおり、元の学習データセットとともに分割により得られた学習データセットを学習させることにより精度が向上していることがわかる。

　（付記）
　以上の実施形態に関し、更に以下の付記項を開示する。
（付記項１）
　動画に対する要約テキストを生成する要約モデルの学習のための学習データセットを生成する学習データ生成装置であって、
　メモリと、
　前記メモリに接続された少なくとも１つのプロセッサと、
　を含み、
　前記プロセッサは、
　前記動画における画像から抽出されたテキストである第１テキスト、前記動画における音声から抽出されたテキストである第２テキスト、及び、前記動画の正解の要約テキストを有する元の学習データセットから、少なくとも１つの更なる学習データセットを生成する
　学習データ生成装置。
（付記項２）
　前記プロセッサは、前記更なる学習データセットとして、前記第１テキストを含み、前記第２テキストを含まない学習データセット、又は、前記第２テキストを含み、前記第１テキストを含まない学習データセットを生成する
　付記項１に記載の学習データ生成装置。
（付記項３）
　前記プロセッサは、前記更なる学習データセットとして、前記第１テキストと前記第２テキストのうちのいずれかのテキスト、及び、前記第１テキストと前記第２テキストのうちのいずれかのテキストと前記正解の要約テキストとのマッチングを行うことで得られた重要文を含む学習データセットを生成する
　付記項１に記載の学習データ生成装置。
（付記項４）
　前記プロセッサは、前記更なる学習データセットに対して、当該更なる学習データセットにより行われるタスクを識別するための識別情報を付与する
　付記項１に記載の学習データ生成装置。
（付記項５）
　動画に対する要約テキストを生成する要約モデルの学習のための学習データセットを生成する学習データ生成装置として使用されるコンピュータが実行する学習データ生成方法であって、
　前記動画における画像から抽出されたテキストである第１テキスト、前記動画における音声から抽出されたテキストである第２テキスト、及び、前記動画の正解の要約テキストを有する元の学習データセットから、少なくとも１つの更なる学習データセットを生成する学習データ生成ステップ
　を備える学習データ生成方法。
（付記項６）
　動画に対する要約テキストを生成する要約モデルの学習のための学習データセットを生成する学習データ生成処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
　前記学習データ生成処理は、
　前記動画における画像から抽出されたテキストである第１テキスト、前記動画における音声から抽出されたテキストである第２テキスト、及び、前記動画の正解の要約テキストを有する元の学習データセットから、少なくとも１つの更なる学習データセットを生成する
　非一時的記憶媒体。

　以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１００　要約生成装置
１１０　画像処理部
１２０　音声処理部
１３０　要約生成部
１４０　要約モデルＤＢ
２００　要約モデル学習装置
２１０　データ取得部
２２０　学習データ入力部
２３０　画像処理部
２４０　音声処理部
２５０　要約モデル学習部
２７０　モデル設定部
２８０　要約モデルＤＢ
２９０　要約モデルＤＢ
３１０　要約モデル事前学習部
３２０　要約モデルＤＢ
４００　データ拡張部
４１０　学習データ生成部
４２０　重要文抽出部
４３０　タスク情報付与部
１０００　ドライブ装置
１００１　記録媒体
１００２　補助記憶装置
１００３　メモリ装置
１００４　ＣＰＵ
１００５　インタフェース装置
１００６　表示装置
１００７　入力装置
１００８　出力装置

Claims

　動画に対する要約テキストを生成する要約モデルの学習のための学習データセットを生成する学習データ生成装置であって、
　前記動画における画像から抽出されたテキストである第１テキスト、前記動画における音声から抽出されたテキストである第２テキスト、及び、前記動画の正解の要約テキストを有する元の学習データセットから、少なくとも１つの更なる学習データセットを生成する学習データ生成部
　を備える学習データ生成装置。
　前記学習データ生成部は、前記更なる学習データセットとして、前記第１テキストを含み、前記第２テキストを含まない学習データセット、又は、前記第２テキストを含み、前記第１テキストを含まない学習データセットを生成する
　請求項１に記載の学習データ生成装置。
　前記学習データ生成部は、前記更なる学習データセットとして、前記第１テキストと前記第２テキストのうちのいずれかのテキスト、及び、前記第１テキストと前記第２テキストのうちのいずれかのテキストと前記正解の要約テキストとのマッチングを行うことで得られた重要文を含む学習データセットを生成する
　請求項１に記載の学習データ生成装置。
　前記更なる学習データセットに対して、当該更なる学習データセットにより行われるタスクを識別するための識別情報を付与するタスク情報付与部
　を更に備える請求項１に記載の学習データ生成装置。
　動画に対する要約テキストを生成する要約モデルの学習のための学習データセットを生成する学習データ生成装置として使用されるコンピュータが実行する学習データ生成方法であって、
　前記動画における画像から抽出されたテキストである第１テキスト、前記動画における音声から抽出されたテキストである第２テキスト、及び、前記動画の正解の要約テキストを有する元の学習データセットから、少なくとも１つの更なる学習データセットを生成する学習データ生成ステップ
　を備える学習データ生成方法。
　コンピュータを、請求項１ないし４のうちいずれか１項に記載の学習データ生成装置における各部として機能させるプログラム。