JPWO2019043871A1

JPWO2019043871A1 - 表示タイミング決定装置、表示タイミング決定方法、及びプログラム

Info

Publication number: JPWO2019043871A1
Application number: JP2017564153A
Authority: JP
Inventors: ビヨンシュテンガー
Original assignee: Rakuten Inc
Current assignee: Rakuten Group Inc
Priority date: 2017-08-31
Filing date: 2017-08-31
Publication date: 2019-11-07
Anticipated expiration: 2037-08-31
Also published as: EP3678376A1; JP6295381B1; WO2019043871A1; US10348938B2; US20190132491A1; EP3678376A4

Abstract

表示タイミング決定装置（１０，２０）の第１の比率取得手段（１０２）は、音声ごとに、出力順が第１の順番だけ異なる音声に係る出力タイミングの間隔に対する、出力順が第２の順番だけ異なる音声に係る出力タイミングの間隔の第１の比率を取得する。第２の比率取得手段（１０４）は、文字情報ごとに、表示順が第１の順番又は第１の順番に対応する第３の順番だけ異なる文字情報に係る仮表示タイミングの間隔に対する、表示順が第２の順番又は前記第２の順番に対応する第４の順番だけ異なる文字情報に係る仮表示タイミングの間隔の第２の比率を取得する。特定手段（１０５）は、各音声の第１の比率と各文字情報の第２の比率とに基づいて、各音声と各文字情報との対応関係を特定する。表示タイミング決定手段（１０６）は、対応関係に基づいて、各文字情報の最終的な表示タイミングを決定する。

Description

本発明は、表示タイミング決定装置、表示タイミング決定方法、及びプログラムに関する。

従来、順次出力される複数の音声が格納された音声格納データ（例えば、動画データ）の再生中において、各音声が出力されるたびに、当該音声を示す文字情報（例えば、字幕）を表示させる技術が知られている。

例えば、特許文献１には、生放送のテレビ番組において、出演者の音声を示す文字情報を作成して視聴者に提供するシステムが記載されている。このシステムでは、生放送中の音声を聞いたテレビ関係者が手入力で文字を作成する。このため、各音声の出力タイミングの間隔と、各文字情報の表示タイミングの間隔と、が概ね合っていたとしても、手入力の時間だけ、文字情報の表示タイミングは、音声の出力タイミングに対して全体的に遅延する。この点、特許文献１の技術では、生放送のテレビ番組が録画される場合に、テレビ番組のジャンルコードに基づいて遅延時間を推測し、ジャンルコードに応じた遅延時間分だけ、録画時の文字の表示タイミングを全体的に早めている。

特開２００８−１７２４２１号公報

特許文献１の技術では、テレビ番組のジャンルコードを利用して遅延時間を推定するので、ジャンルコードがなければ、音声の出力タイミングと文字情報の表示タイミングとを合わせることができない。この点、音声と文字情報の対応関係を特定することができれば、ジャンルコードのような情報がなくても、対応する音声の出力タイミングに合うように、文字情報の表示タイミングを調整することができる。

しかしながら、文字情報の作成後に音声格納データが変更された場合には、音声の出力タイミングが変更されるので、単純にタイミングが近いもの同士が対応しているとは限らなくなる。即ち、音声の出力タイミングは、音声格納データの変更に影響を受けてしまうので、音声の出力タイミングと文字情報の表示タイミングを比較しただけでは、音声と文字情報の対応関係を特定することは困難であり、音声の出力タイミングと文字情報の表示タイミングを合わせることができない。

本発明は上記課題に鑑みてなされたものであって、その目的は、音声格納データの変更に影響を受けずに音声と文字情報の対応関係を正確に特定し、音声の出力タイミングと文字情報の表示タイミングを合わせることである。

上記課題を解決するために、本発明に係る表示タイミング決定装置は、順次出力される複数の音声の各々の出力タイミングを取得する出力タイミング取得手段と、音声ごとに、出力順が第１の順番だけ異なる音声に係る出力タイミングの間隔に対する、出力順が第２の順番だけ異なる音声に係る出力タイミングの間隔の第１の比率を取得する第１の比率取得手段と、前記複数の音声の再生中に順次表示され、各音声の内容を示す文字情報の仮表示タイミングを取得する仮表示タイミング取得手段と、文字情報ごとに、表示順が前記第１の順番又は前記第１の順番に対応する第３の順番だけ異なる文字情報に係る仮表示タイミングの間隔に対する、表示順が前記第２の順番又は前記第２の順番に対応する第４の順番だけ異なる文字情報に係る仮表示タイミングの間隔の第２の比率を取得する第２の比率取得手段と、各音声の前記第１の比率と各文字情報の前記第２の比率とに基づいて、各音声と各文字情報との対応関係を特定する特定手段と、前記対応関係に基づいて、各文字情報の最終的な表示タイミングを決定する表示タイミング決定手段と、を含むことを特徴とする。

本発明に係る表示タイミング決定方法は、順次出力される複数の音声の各々の出力タイミングを取得する出力タイミング取得ステップと、音声ごとに、出力順が第１の順番だけ異なる音声に係る出力タイミングの間隔に対する、出力順が第２の順番だけ異なる音声に係る出力タイミングの間隔の第１の比率を取得する第１の比率取得ステップと、前記複数の音声の再生中に順次表示され、各音声の内容を示す文字情報の仮表示タイミングを取得する仮表示タイミング取得ステップと、文字情報ごとに、表示順が前記第１の順番又は前記第１の順番に対応する第３の順番だけ異なる文字情報に係る仮表示タイミングの間隔に対する、表示順が前記第２の順番又は前記第２の順番に対応する第４の順番だけ異なる文字情報に係る仮表示タイミングの間隔の第２の比率を取得する第２の比率取得ステップと、各音声の前記第１の比率と各文字情報の前記第２の比率とに基づいて、各音声と各文字情報との対応関係を特定する特定ステップと、前記対応関係に基づいて、各文字情報の最終的な表示タイミングを決定する表示タイミング決定ステップと、を含むことを特徴とする。

本発明に係るプログラムは、順次出力される複数の音声の各々の出力タイミングを取得する出力タイミング取得手段、音声ごとに、出力順が第１の順番だけ異なる音声に係る出力タイミングの間隔に対する、出力順が第２の順番だけ異なる音声に係る出力タイミングの間隔の第１の比率を取得する第１の比率取得手段、前記複数の音声の再生中に順次表示され、各音声の内容を示す文字情報の仮表示タイミングを取得する仮表示タイミング取得手段、文字情報ごとに、表示順が前記第１の順番又は前記第１の順番に対応する第３の順番だけ異なる文字情報に係る仮表示タイミングの間隔に対する、表示順が前記第２の順番又は前記第２の順番に対応する第４の順番だけ異なる文字情報に係る仮表示タイミングの間隔の第２の比率を取得する第２の比率取得手段、各音声の前記第１の比率と各文字情報の前記第２の比率とに基づいて、各音声と各文字情報との対応関係を特定する特定手段、前記対応関係に基づいて、各文字情報の最終的な表示タイミングを決定する表示タイミング決定手段、としてコンピュータを機能させる。

また、本発明に係る情報記憶媒体は、上記のプログラムが記憶されたコンピュータ読み取り可能な情報記憶媒体である。

また、本発明の一態様では、前記特定手段は、各音声の前記第１の比率と各文字情報の前記第２の比率との差の小ささに基づいて、前記対応関係を特定する、ことを特徴とする。

また、本発明の一態様では、前記特定手段は、各音声の前記第１の比率と各文字情報の前記第２の比率との差の小ささに基づいて、前記対応関係の候補を取得し、候補ごとに、当該候補が示す対応関係が正しい場合の仮表示タイミングの全体的な変更量を取得し、候補ごとに、当該候補に対応する前記変更量に基づいて各文字情報の仮表示タイミングを変更した場合の各音声の出力タイミングとのずれ具合を取得し、各候補のずれ具合に基づいて、候補の中から前記対応関係を特定する、ことを特徴とする。

また、本発明の一態様では、前記特定手段は、動的計画法を利用したアルゴリズムに基づいて、候補の中から前記対応関係を特定する、ことを特徴とする。

また、本発明の一態様では、前記表示タイミング決定手段は、前記対応関係が示す音声と文字情報の組み合わせの中からランダムにサンプルを抽出し、前記サンプルに基づいて、仮表示タイミングの全体的な変更量を取得し、前記変更量に基づいて各文字情報の仮表示タイミングを変更した場合の各音声の出力タイミングとのずれ具合を取得し、前記ずれ具合が閾値未満になるまで、前記サンプルの抽出と前記変更量の取得を繰り返す、ことを特徴とする。

また、本発明の一態様では、前記第１の比率取得手段は、音声ごとに、前記第１の順番と前記第２の順番の複数通りの組み合わせに基づいて複数の前記第１の比率を取得し、前記第２の比率取得手段は、文字情報ごとに、前記第１の順番又は前記第３の順番と、前記第２の順番又は前記第４の順番と、の複数通りの組み合わせに基づいて複数の前記第２の比率を取得し、前記特定手段は、各音声の前記複数の第１の比率と各文字情報の前記複数の第２の比率とに基づいて、前記対応関係を特定する、ことを特徴とする。

また、本発明の一態様では、前記第１の順番と前記第２の順番とは、互いに同じ所定数であり、前記第１の比率取得手段は、出力順が前記所定数だけ前の音声に係る出力タイミングの間隔に対する、出力順が前記所定数だけ後の音声に係る出力タイミングの間隔の前記第１の比率を取得し、前記第２の比率取得手段は、表示順が前記所定数だけ前の文字情報に係る仮表示タイミングの間隔に対する、表示順が前記所定数だけ後の文字情報に係る仮表示タイミングの間隔の前記第２の比率を取得する、ことを特徴とする。

また、本発明の一態様では、前記所定数は１であり、前記第１の比率取得手段は、出力順が１個前の音声に係る出力タイミングの間隔に対する、出力順が１個後の音声に係る出力タイミングの間隔の前記第１の比率を取得し、前記第２の比率取得手段は、表示順が１個前の文字情報に係る仮表示タイミングの間隔に対する、表示順が１個後の文字情報に係る仮表示タイミングの間隔の前記第２の比率を取得する、ことを特徴とする。

本発明によれば、音声格納データの変更に影響を受けずに音声と文字情報の対応関係を正確に特定し、音声の出力タイミングと文字情報の表示タイミングを合わせることが可能になる。

表示タイミング決定システムの全体構成を示す図である。動画が再生される際に実行される処理の概要を示す図である。字幕の表示タイミングと、音声の出力タイミングと、の関係を示す図である。表示タイミング決定システムで実現される機能の一例を示す機能ブロック図である。文字情報データのデータ格納例を示す図である。スペクトログラムの一例を示す図である。音声と文字情報との対応関係の特定方法を示す図である。サーバにおいて実行される処理の一例を示すフロー図である。

［１．表示タイミング決定システムのハードウェア構成］
以下、本発明に関わる表示タイミング決定装置の一例であるサーバを含む表示タイミング決定システムの実施形態の例を説明する。図１は、表示タイミング決定システムの全体構成を示す図である。図１に示すように、表示タイミング決定システム１は、サーバ１０及びユーザ装置２０を含む。これら各装置は、それぞれ有線又は無線によりネットワークを介して通信可能に接続されるようにしてよい。

サーバ１０は、サーバコンピュータであり、例えば、制御部１１、記憶部１２、及び通信部１３を含む。制御部１１は、少なくとも１つのプロセッサを含む。制御部１１は、記憶部１２に記憶されたプログラムやデータに従って処理を実行する。記憶部１２は、主記憶部及び補助記憶部を含む。例えば、主記憶部はＲＡＭなどの揮発性メモリであり、補助記憶部は、ハードディスクやフラッシュメモリなどの不揮発性メモリである。通信部１３は、有線通信又は無線通信用の通信インタフェースを含み、例えば、ネットワークを介してデータ通信を行う。

ユーザ装置２０は、ユーザが操作するコンピュータであり、例えば、パーソナルコンピュータ、携帯情報端末（タブレット型コンピュータを含む）、又は携帯電話機（スマートフォンを含む）等である。ユーザ装置２０は、制御部２１、記憶部２２、通信部２３、操作部２４、表示部２５、及び音声出力部２６を含む。制御部２１、記憶部２２、及び通信部２３のハードウェア構成は、それぞれ制御部１１、記憶部１２、及び通信部１３と同様であってよい。

操作部２４は、ユーザが操作を行うための入力デバイスであり、例えば、タッチパネルやマウス等のポインティングデバイスやキーボード等である。操作部２４は、ユーザの操作内容を制御部２１に伝達する。表示部２５は、例えば、液晶表示部又は有機ＥＬ表示部等であり、動画や静止画などの各種画像を表示可能である。音声出力部２６は、例えば、スピーカー・イヤホン・ヘッドホン等であり、各種音声を出力可能である。

なお、記憶部１２，２２に記憶されるものとして説明するプログラム及びデータは、ネットワークを介してこれらに供給されるようにしてもよい。また、サーバ１０及びユーザ装置２０のハードウェア構成は、上記の例に限られず、種々のコンピュータのハードウェアを適用可能である。例えば、サーバ１０及びユーザ装置２０は、それぞれコンピュータ読み取り可能な情報記憶媒体を読み取る読取部（例えば、光ディスクドライブやメモリカードスロット）や外部機器と直接的に接続するための入出力部（例えば、ＵＳＢポートや映像入出力端子）を含んでもよい。この場合、情報記憶媒体に記憶されたプログラムやデータが読取部又は入出力部を介して、サーバ１０又はユーザ装置２０に供給されるようにしてもよい。

［２．表示タイミング決定システムが実行する処理の概要］
本実施形態では、サーバ１０は、複数の動画を管理する。例えば、ユーザ装置２０において、ユーザが視聴したい動画を指定すると、ダウンロード配信又はストリーミング配信により動画を視聴することができる。ユーザ装置２０において動画が再生されると、動画とともに字幕が表示部２５に表示され、音声出力部２６から動画の音声が出力される。

図２は、動画が再生される際に実行される処理の概要を示す図である。図２では、動画をＶｉｄの符号で示し、動画の音声をＶｏｉの符号で示し、字幕をＳｕｂの符号で示す。図２に示すように、サーバ１０は、動画Ｖｉｄと字幕Ｓｕｂをデータとして別々に管理している。なお、図２に示す字幕Ｓｕｂのｔ軸は時間軸であり、画面に表示される字幕を時系列順に示している。

本実施形態では、字幕Ｓｕｂは、動画Ｖｉｄの中に埋め込まれているのではなく、動画Ｖｉｄとは別物として管理されている。そして、動画Ｖｉｄが表示される場合に、図２に示すように、動画Ｖｉｄと字幕Ｓｕｂが合成される。これにより、動画の音声Ｖｏｉが出力される場合に、当該音声Ｖｏｉに対応する字幕Ｓｕｂが表示される。

例えば、サーバ１０は、動画Ｖｉｄのデータと字幕Ｓｕｂのデータとを別々にユーザ装置２０に送信し、ユーザ装置２０において、字幕Ｓｕｂと動画Ｖｉｄとが合成される。また例えば、サーバ１０は、ユーザが指定した動画Ｖｉｄに字幕Ｓｕｂを合成したうえで、当該合成後の動画Ｖｉｄのデータをユーザ装置２０に送信する。

字幕Ｓｕｂは、サーバ１０に動画Ｖｉｄが登録される前後の任意のタイミングにおいて、任意の方法により作成される。例えば、システムの管理者は、動画Ｖｉｄを視聴しながら字幕Ｓｕｂのテキストと、字幕Ｓｕｂの表示タイミングと、を手入力するようにしてもよいし、音声解析を利用して字幕Ｓｕｂの文字データ及び表示タイミングが生成されるようにしてもよい。

図３は、字幕Ｓｕｂの表示タイミングと、音声の出力タイミングと、の関係を示す図である。図３では、字幕Ｓｕｂの表示タイミングを「ｘ_ｉ」の符号で示し、音声Ｖｏｉの出力タイミングを「ｙ_ｍ」の符号で示している。システムの管理者が動画Ｖｉｄを視聴しながら字幕Ｓｕｂの文字データ及び表示タイミングを作成したとしても、図３に示すように、種々の要因によって、音声Ｖｏｉの出力タイミングと、字幕Ｓｕｂの表示タイミングと、がずれることがある。

例えば、動画Ｖｉｄには、出演者の名前や動画のタイトルなどを表示するタイトルクレジットと呼ばれる部分が含まれていることがある。ユーザに配信される動画Ｖｉｄでは、タイトルクレジットが編集されることがあり、字幕作成用の動画Ｖｉｄのタイトルクレジットの長さと、配信用の動画Ｖｉｄのタイトルクレジットの長さと、が異なることがある。この場合、タイトルクレジットの長さの違いだけ、音声Ｖｏｉの出力タイミングと、字幕Ｓｕｂの表示タイミングと、がずれる可能性がある。タイトルクレジットの長さの違いに起因するずれを調整するには、字幕Ｓｕｂの表示タイミングを全体的にシフトする必要がある。

また例えば、ユーザに配信される動画Ｖｉｄでは、フレームレートが変更されることがあり、字幕作成用の動画Ｖｉｄのフレームレートと、配信用の動画Ｖｉｄのフレームレートと、が異なることがある。この場合、音声Ｖｏｉ同士の出力タイミングの間隔が変わってしまうことがあり、音声Ｖｏｉの出力タイミングと、字幕Ｓｕｂの表示タイミングと、がずれる可能性がある。フレームレートの違いに起因するずれを調整するには、後述するスケール（数式５の係数ｓ）を変更し、字幕Ｓｕｂの表示タイミングの間隔を調整する必要がある。

また例えば、ＤＶＤ又はブルーレイディスク用に字幕Ｓｕｂを作成すると、ファイル形式の関係で字幕Ｓｕｂがタイムジャンプすることがある。この場合、タイムジャンプした分だけ、音声Ｖｏｉの出力タイミングと、字幕Ｓｕｂの表示タイミングと、がずれる可能性がある。タイムジャンプに起因するずれを調整するには、字幕Ｓｕｂの表示タイミングを全体的にシフトする必要がある。

上記のように、種々の要因により、音声Ｖｏｉの出力タイミングと、字幕Ｓｕｂの表示タイミングと、がずれる可能性がある。この点、音声Ｖｏｉと字幕Ｓｕｂとの対応関係を特定することができれば、対応する音声Ｖｏｉの出力タイミングと合うように、字幕Ｓｕｂの表示タイミングを調整することで、タイミングのずれを軽減することができる。しかしながら、先述したように、音声Ｖｏｉの出力タイミングは動画Ｖｉｄの変更に影響を受けるので、音声Ｖｏｉの出力タイミングと、字幕Ｓｕｂの表示タイミングと、を比較しても、音声Ｖｏｉと字幕Ｓｕｂの対応関係を特定することは困難である。

そこで、本実施形態のサーバ１０は、動画Ｖｉｄの変更に影響されない情報（後述する比率）を利用して、各音声と各文字情報との対応関係を特定し、音声の出力タイミングと文字の表示タイミングとを合わせるようにしている。以降、この技術の詳細を説明する。なお、以降の説明では、図２において動画、音声、及び字幕に付した符号は省略する。

［３．本実施形態において実現される機能］
図４は、表示タイミング決定システムで実現される機能の一例を示す機能ブロック図である。図４に示すように、本実施形態では、データ記憶部１００、出力タイミング取得部１０１、第１の比率取得部１０２、仮表示タイミング取得部１０３、第２の比率取得部１０４、特定部１０５、及び表示タイミング決定部１０６が、サーバ１０で実現される。

［３−１．データ記憶部］
データ記憶部１００は、記憶部１２を主として実現される。データ記憶部１００は、音声を出力するためのデータと、文字情報を表示させるためのデータと、を記憶する。本実施形態では、データ記憶部１００が記憶するデータの一例として、音声格納データと文字情報データとを説明する。例えば、音声格納データごとに文字情報データが用意される場合には、データ記憶部１００は、これらの組み合わせを記憶することになる。

［音声格納データ］
音声格納データは、順次出力される複数の音声が格納されたデータである。音声は、人が実際に発した音がマイクで録音されてもよいし、コンピュータで合成された人工的な音であってもよい。音声格納データが再生される期間（再生の開始時点から終了時点までの期間）は、音声が出力される複数の期間を含むことになる。個々の音声は、ある１つの期間内に出力される音声のかたまりといえる。音声は、少なくとも１つの単語を含むようにしてもよいし、文章ごとに区切られていてもよいし、複数の文章から構成されてもよい。更に、音声は、特に意味のある単語を含まない叫び声や悲鳴であってもよい。例えば、音声は、映画・ドラマ・アニメなどにおける個々のセリフであってもよいし、動画に撮影された人の個々の発言であってもよいし、歌や詩などの個々のフレーズであってもよい。

音声格納データは、再生することで音声を出力可能なデータであればよく、例えば、１以上の画像と音声が格納された動画データであってもよいし、画像を含まない音声データであってもよい。動画データ及び音声データのデータ形式及び圧縮形式自体は、公知の種々の形式を適用可能であってよく、例えば、avi形式、mpeg形式、又はmp3形式であってよい。本実施形態では、音声格納データが動画データである場合を説明する。

音声格納データが再生されると、時間経過に応じて、音声格納データに格納された各音声が、予め定められた順番及びタイミングで出力される。別の言い方をすれば、予め定められた順番及びタイミングで出力されるように、各音声が音声格納データに格納されている。なお、音声の出力タイミングは、音声が出力される期間の任意のタイミングであればよく、例えば、音声の出力を開始するタイミングを示してもよいし、音声の出力を終了する終了タイミングを示してもよいし、その中間のタイミングを示してもよい。

［文字情報データ］
文字情報データは、音声格納データの再生中に順次表示され、各音声の内容を示す文字情報に関するデータである。文字情報は、音声の内容を少なくとも１つの文字として示し、例えば、字幕、キャプション、又はテロップと呼ばれるテキストであってよい。文字情報は、１つの文字のみから構成されてもよいし、複数の文字を含む文字列であってもよい。また、文字情報は、文字以外の記号を含んでいてもよい。なお、文字情報は、音声の内容と一言一句まで完全に一致している必要はなく、音声の内容と文字情報の内容とはある程度の違いがあってよい。本実施形態では、音声格納データが動画データを説明するので、文字情報が動画の字幕である場合を説明する。

図５は、文字情報データのデータ格納例を示す図である。図５に示すように、文字情報データは、文字情報を一意に識別する文字情報ＩＤ、文字情報の表示タイミング、及び文字情報が格納される。なお、文字情報データには、少なくとも文字情報の表示タイミングが格納されていればよく、例えば、文字情報そのものは、文字情報データとは別のデータに格納されていてもよい。

文字情報データに格納される表示タイミングは、文字情報が表示される期間内の任意のタイミングを示せばよく、例えば、文字情報の表示を開始する開始タイミングを示してもよいし、文字情報の表示を終了する終了タイミングを示してもよいし、その中間のタイミングを示してもよい。本実施形態では、開始タイミングが表示タイミングとして用いられる場合を説明するが、図５に示すように、終了タイミング及び表示時間の長さも文字情報データに格納されていてよい。表示時間の長さは、文字情報によって異なってもよいし、全ての文字情報で共通であってもよい。

なお、文字情報データに予め設定されている表示タイミングは、後述する表示タイミング決定部１０６により調整されるので、本実施形態では、調整前の表示タイミングを「仮表示タイミング」と記載し、調整後の表示タイミングを「最終的な表示タイミング」と記載する。後述する表示タイミング決定部１０６は、仮表示タイミングに基づいて、音声の出力タイミングと全体的に合うような最終的な表示タイミングを見つけることになる。

以降、文字情報をｉ（ｉ＝１〜Ｎ_ｉの整数。Ｎ_ｉは、文字情報の総数。）と記載し、文字情報データに格納された仮表示タイミングの集合を｛ｘ_ｉ｝と記載する。例えば、図５のように、各文字情報に対し、時系列順に文字情報ＩＤを１から順番に付与する場合には、ｉの数値は、文字情報ＩＤを示し、文字情報の表示順を示すことになる。先述したように、本実施形態では、文字情報ｉの表示が開始される開始タイミングが、当該文字情報ｉの仮表示タイミングｘ_ｉとなる。

なお、文字情報データには、音声以外の情報を示す文字情報が含まれていてもよい。音声以外の情報を示す文字情報は、対応する音声が存在しない文字情報であり、例えば、説明文、タイトル、又は注釈などである。例えば、音声格納データが動画データであれば、動画に写された場所の名前、登場人物の役職・氏名、役者名、又は映画・番組・アニメ・曲のタイトルなどが、音声以外の情報を示す文字情報に相当する。このような文字情報が存在する場合、当該文字情報についても表示タイミングを識別する必要があるので、文字情報データには、当該文字情報の仮表示タイミングも格納される。

［３−２．出力タイミング取得部］
出力タイミング取得部１０１は、制御部１１を主として実現される。出力タイミング取得部１０１は、順次出力される複数の音声の各々の出力タイミングを取得する。各音声の出力タイミングは、音声格納データに含まれていてもよいが、本実施形態では、出力タイミング取得部１０１は、音声格納データの音声波形を解析し、各音声の出力タイミングを取得する。

例えば、出力タイミング取得部１０１は、音声格納データに基づいて、周波数ごとの信号の強さを時系列的に示すスペクトログラムを生成する。スペクトログラムは、公知のソノグラフを利用して生成されるようにすればよく、例えば、バンドパスフィルタを利用してもよいし、短時間フーリエ変換を利用してもよい。なお、ソノグラフは、スペクトログラムの生成アルゴリズムを備えた機器の総称である。出力タイミング取得部１０１は、周波数ごとに、音声波形が示す強さ（振幅）の時系列的な変化を取得することによって、スペクトログラムを生成する。

図６は、スペクトログラムの一例を示す図である。図６のスペクトログラムは、縦軸が周波数を示し、横軸が時間を示す。スペクトログラムは、各周波数の信号の強さをカラーで示すことが多いが、ここでは、各周波数の信号の強さを模式的にモノクロで示す。図６の例では、網点が濃い周波数帯域は音が強いことを示し、網点が薄い周波数帯域は音が弱いことを示す。

出力タイミング取得部１０１は、スペクトログラムに基づいてディープラーニング（機械学習の一種）を実行することにより、各音声の出力タイミングを取得する。ディープラーニングに必要な音声の特性を示すパターン情報は、データ記憶部１００に記憶されているようにしてよい。例えば、出力タイミング取得部１０１は、音声に対応する周波数帯域（例えば、１００Ｈｚ〜数千Ｈｚ程度）の強度が閾値以上である場合は、音声の出力中であると判定し、当該周波数帯域の強度が閾値未満である場合は、音声の出力中ではないと判定する。音声に対応する周波数帯域は、予め指定されていればよく、システム管理者の入力により可変であってよい。

例えば、出力タイミング取得部１０１は、音声が出力中ではない状態から音声が出力中の状態に変化した場合、音声を一意に識別する音声ＩＤを発行し、当該音声ＩＤにより識別される音声の出力の開始タイミングであると判定する。そして、出力タイミング取得部１０１は、音声が出力中の状態から出力中ではない状態に変化した場合、当該音声ＩＤにより識別される音声の出力の終了タイミングであると判定する。開始タイミングから終了タイミングまでの期間は、当該音声ＩＤにより識別される音声が出力される期間となる。先述したように、本実施形態では、音声の開始タイミングが出力タイミングとして用いられる場合を説明するが、終了タイミング及び出力期間の長さも保持されるようにしてもよい。

以降、音声をｍ（ｍ＝１〜Ｎ_ｍの整数。Ｎ_ｍは、音声の総数。）と記載し、出力タイミングの集合を｛ｙ_ｍ｝と記載する。例えば、各音声に対し、時系列順に音声ＩＤを１から順番に付与する場合には、ｍの数値は、音声ＩＤを示し、音声の出力順を示す。本実施形態では、開始タイミングを出力タイミングとして用いるので、音声ｍの出力が開始されるタイミングが、当該音声ｍの出力タイミングｙ_ｍとなる。

なお、本実施形態では、出力タイミング取得部１０１は、データ記憶部１００から音声格納データを取得する場合を説明するが、サーバ１０以外のコンピュータに音声格納データが記憶されている場合には、当該コンピュータから音声格納データを取得してもよい。

［３−３．第１の比率取得部］
第１の比率取得部１０２は、制御部１１を主として実現される。第１の比率取得部１０２は、出力順が第１の順番だけ異なる音声に係る出力タイミングの間隔に対する、出力順が第２の順番だけ異なる音声に係る出力タイミングの間隔の第１の比率を取得する。出力順が異なるとは、出力順が前又は後のことを意味する。第１の比率取得部１０２は、出力タイミング取得部１０１が取得した各音声の出力タイミングに基づいて、音声ごとに第１の比率を取得することになる。

第１の順番と第２の順番は、同じ数であってもよいし、異なる数であってもよい。また、第１の比率は、複数の間隔に基づいて算出されるようにすればよく、例えば、２つの間隔を割ることによって算出されてもよいし、３つ以上の間隔を所定の数式に代入することによって算出されてもよい。例えば、３つの間隔を用いる場合には、第１の間隔と第２の間隔の和と、第３の間隔と、の比率が第１の比率として用いられてもよい。また例えば、４つの間隔を用いる場合には、第１の間隔と第２の間隔の和と、第３の間隔と第４の間隔の和と、の比率が第１の比率として用いられてもよい。５つ以上の間隔を用いる場合も同様に、所定の数式に各間隔を代入することによって第１の比率が算出されるようにすればよい。更に、各音声の第１の比率は、当該音声の出力タイミングの前と後の両方の間隔を利用して算出されてもよいし、当該音声から見て前又は後の何れか一方の間隔だけを利用して算出されてもよいし、当該音声の出力タイミングを含む間隔を利用して算出されてもよい。

本実施形態では、説明の簡略化のために、２つの間隔を用いて第１の比率が算出される場合を説明する。例えば、第１の比率取得部１０２は、下記数式１に基づいて、音声ごとに第１の比率を計算する。音声格納データに含まれる音声の数をＮ_ｍとすると、第１の比率取得部１０２は、数式１に基づいて、Ｎ_ｍ個の第１の比率を算出する。

数式１の左辺は、音声ｍの第１の比率である。数式１の右辺のａ，ｂ，ｃ，ｄは、それぞれ任意の整数であり、正の整数、負の整数、又は０の何れかの値をとる。整数ａ又はｂは、本発明に係る第１の順番に相当し、整数ｃ又はｄは、本発明に係る第２の順番に相当する。

整数ａを例に挙げて説明すると、整数ａが正の場合には、音声ｍ＋ａは、音声ｍから数えて出力順がａ番だけ後の音声となる。一方、整数ａが負の場合には、音声ｍ＋ａは、音声ｍから数えて出力順が整数ａの絶対値だけ前の音声となる。整数ａが０の場合には、音声ｍ＋ａは、音声ｍを意味する。この点は、整数ｂ，ｃ，ｄも同様の意味である。

なお、整数ａが０の場合には、整数ｂも０だと間隔が存在しないことになるので、整数ｂは０以外の整数となる。一方、整数ｂが０の場合には、整数ａも０だと間隔が存在しないことになるので、整数ａは０以外の整数となる。同様に、整数ｃが０の場合には、整数ｄも０だと間隔が存在しないことになるので、整数ｄは０以外の整数となる。一方、整数ｄが０の場合には、整数ｃも０だと間隔が存在しないことになるので、整数ｃは０以外の整数となる。

更に、整数ａ，ｂの組み合わせと、整数ｃ，ｄの組み合わせと、が全く同じだと、数式１の分子と分母が全く同じ値となり、第１の比率Ｆ（ｍ）が固定値（即ち、１）になってしまうので、整数ａ，ｂの組み合わせと、整数ｃ，ｄの組み合わせと、は異なるものとする。

数式１の右辺の分子は、出力順が音声ｍとａ番だけ違う音声ｍ＋ａの出力タイミングｙ_（ｍ＋ａ）と、出力順が音声ｍとｂ番だけ違う音声ｍ＋ｂの出力タイミングｙ_（ｍ＋ａ）と、の間隔を示す。数式１の右辺の分母は、出力順が音声ｍとｃ番だけ違う音声ｍ＋ｃの出力タイミングｙ_（ｍ＋ｃ）と、出力順が音声ｍとｄ番だけ違う音声ｍ＋ｄの出力タイミングｙ_（ｍ＋ｄ）と、の間隔を示す。

例えば、ａ＝１，ｂ＝０，ｃ＝−１，ｄ＝０の場合には、第１の比率取得部１０２は、音声ｍごとに、音声ｍ＋１の出力タイミングｙ_（ｍ＋１）及び音声ｍの出力タイミングｙ_ｍの間隔と、音声ｍ−１の出力タイミングｙ_（ｍ−１）及び音声ｍの出力タイミングｙ_ｍの間隔と、の比率を第１の比率Ｆ（ｍ）として取得することになる。この場合、第１の比率取得部１０２は、音声ｍごとに、１個後の音声ｍ＋１との間隔と、１個前の音声ｍ−１との間隔と、の比率を第１の比率Ｆ（ｍ）として取得する。

以上説明したように、第１の順番と第２の順番とが互いに同じ所定数である場合（例えば、ａ＝１，ｂ＝０，ｃ＝−１，ｄ＝０であり、ａとｃの絶対値が互いに１である場合）には、第１の比率取得部１０２は、出力順が所定数だけ前の音声に係る出力タイミングの間隔に対する、出力順が所定数だけ後の音声に係る出力タイミングの間隔の第１の比率Ｆ（ｍ）を取得することになる。更に、上記所定数が１である場合（例えば、ａ＝１，ｂ＝０，ｃ＝−１，ｄ＝０であり、ａとｃの絶対値が互いに１である場合）には、第１の比率取得部１０２は、出力順が１個前の音声に係る出力タイミングの間隔に対する、出力順が１個後の音声に係る出力タイミングの間隔の第１の比率Ｆ（ｍ）を取得することになる。

［３−４．仮表示タイミング取得部］
仮表示タイミング取得部１０３は、制御部１１を主として実現される。仮表示タイミング取得部１０３は、複数の音声の再生中に順次表示され、各音声の内容を示す文字情報の仮表示タイミングを取得する。本実施形態では、文字情報の仮表示タイミングが文字情報データに格納されているので、仮表示タイミング取得部１０３は、データ記憶部１００から文字情報データを取得する場合を説明するが、サーバ１０以外のコンピュータに文字情報データが記憶されている場合には、当該コンピュータから文字情報データを取得してもよい。

［３−５．第２の比率取得部］
第２の比率取得部１０４は、制御部１１を主として実現される。第２の比率取得部１０４は、文字情報ごとに、表示順が第１の順番又は第１の順番に対応する第３の順番だけ異なる文字情報に係る仮表示タイミングの間隔に対する、表示順が第２の順番又は第２の順番に対応する第４の順番だけ異なる文字情報に係る仮表示タイミングの間隔の第２の比率を取得する。第２の比率取得部１０４は、仮表示タイミング取得部１０３が取得した各文字情報の仮表示タイミングに基づいて、文字情報ごとに第２の比率を取得することになる。

第１の順番と第２の順番の意味は、第１の比率取得部１０２で説明したものと同じである。第３の順番は、第１の順番とは異なる順番であり、第４の順番は、第２の順番とは異なる順番である。第１の順番と第３の順番の違いと、第２の順番と第４の順番の違いと、は同じであってもよいし、異なっていてもよい。例えば、対応する文字情報が存在しない音声（叫び声や効果音など）が特にない場合には、第２の比率を算出するために、第１の順番と第２の順番が用いられるようにしてもよい。また例えば、対応する文字情報が存在しない音声がある場合には、第２の比率を算出するために、第１の順番よりも絶対値が小さい第３の順番と、第２の順番よりも絶対値が小さい第４の順番と、が用いられるようにしてもよい。この場合、対応する文字情報が存在しない音声の数だけ、第１の順番と第３の順番が異なってもよい。また、対応する文字情報が存在しない音声の数だけ、第２の順番と第４の順番が異なってもよい。

第２の比率は、複数の間隔に基づいて算出されるようにすればよく、例えば、２つの間隔を割ることによって算出されてもよいし、３つ以上の間隔を所定の数式に代入することによって算出されてもよい。例えば、３つの間隔を用いる場合には、第１の間隔と第２の間隔の和と、第３の間隔と、の比率が第２の比率として用いられてもよい。また例えば、４つの間隔を用いる場合には、第１の間隔と第２の間隔の和と、第３の間隔と第４の間隔の和と、の比率が第２の比率として用いられてもよい。５つ以上の間隔を用いる場合も同様に、所定の数式に各間隔を代入することによって第２の比率が算出されるようにすればよい。更に、各音声の第２の比率は、当該文字情報の仮表示タイミングの前と後の両方の間隔を利用して算出されてもよいし、当該文字情報から見て前又は後の何れか一方の間隔だけを利用して算出されてもよいし、当該文字情報の出力タイミングを含む間隔を利用して算出されてもよい。

本実施形態では、説明の簡略化のために、２つの間隔を用いて第２の比率が算出される場合を説明する。例えば、第２の比率取得部１０４は、下記数式２に基づいて、文字情報ごとに第２の比率を計算する。文字情報データに含まれる文字情報の数をＮ_ｉとすると、第２の比率取得部１０４は、数式２に基づいて、Ｎ_ｉ個の第２の比率を算出する。

数式２の左辺は、文字情報ｉの第２の比率である。数式２の右辺のａ，ｂ，ｃ，ｄは、音声ｍの第１の比率Ｆ（ｍ）を算出するための数式１で説明したものと同じ値であってもよいし、異なる値であってもよい。整数ａ又はｂは、本発明に係る第１の順番又は第３の順番に相当し、整数ｃ又はｄは、本発明に係る第２の順番又は第４の順番に相当する。

数式１のａ，ｂ，ｃ，ｄと、数式２のａ，ｂ，ｃ，ｄと、が異なる場合には、数式２のａ，ｂ，ｃ，ｄは、数式１のａ，ｂ，ｃ，ｄと所定の関係があればよく、所定値だけ異なる値としてもよい。更に、数式１のａ，ｂ，ｃ，ｄと、数式２のａ，ｂ，ｃ，ｄと、の全てが異なってもよいし、一部だけが異なってもよい。例えば、文字情報が対応しない音声が途中に１つ挿入されている場合に、数式１を（ａ，ｂ，ｃ，ｄ）＝（２，０，−２，０）として、数式２を（ａ，ｂ，ｃ，ｄ）＝（１，０，−１，０）としてもよい。

整数ａを例に挙げて説明すると、整数ａが正の場合には、文字情報ｉ＋ａは、文字情報ｉから数えて表示順がａ番だけ後の文字情報となる。一方、整数ａが負の場合には、文字情報ｉ＋ａは、文字情報ｉから数えて表示順がａの絶対値だけ前の文字情報となる。整数ａが０の場合には、文字情報ｍ＋ａは、文字情報ｍを意味する。この点は、整数ｂ，ｃ，ｄも同様の意味である。

数式１の右辺の分子は、表示順が文字情報ｉとａ番だけ違う文字情報ｉ＋ａの表示タイミングｘ_（ｉ＋ａ）と、表示順が文字情報ｉとｂ番だけ違う文字情報ｉ＋ｂの表示タイミングｘ_（ｉ＋ｂ）と、の間隔を示す。数式１の右辺の分母は、表示順が文字情報ｉとｃ番だけ違う文字情報ｉ＋ｃの表示タイミングｘ_（ｉ＋ｃ）と、表示順が文字情報ｉとｄ番だけ違う文字情報ｉ＋ｄの表示タイミングｘ_（ｉ＋ｄ）と、の間隔を示す。

例えば、ａ＝１，ｂ＝０，ｃ＝−１，ｄ＝０の場合には、第２の比率取得部１０４は、文字情報ｉごとに、文字情報ｉ＋１の表示タイミングｘ_（ｉ＋１）及び文字情報ｉの表示タイミングｘ_ｉの間隔と、文字情報ｉ−１の表示タイミングｘ_（ｉ−１）及び文字情報ｉの表示タイミングｘ_ｉの間隔と、の比率を第２の比率Ｆ（ｉ）として取得することになる。この場合、第２の比率取得部１０４は、文字情報ｉごとに、１個後の文字情報ｉ＋１との間隔と、１個前の文字情報ｉ−１との間隔と、の比率を第２の比率Ｆ（ｉ）として取得する。

以上説明したように、例えば、第１の順番と第２の順番とが互いに同じ所定数である場合（例えば、ａ＝１，ｂ＝０，ｃ＝−１，ｄ＝０であり、ａとｃの絶対値が互いに１である場合）には、第２の比率取得部１０４は、表示順が所定数だけ前の文字情報に係る仮表示タイミングの間隔に対する、表示順が所定数だけ後の文字情報に係る仮表示タイミングの間隔の第２の比率Ｆ（ｉ）を取得することになる。更に、上記所定数が１である場合（例えば、ａ＝１，ｂ＝０，ｃ＝−１，ｄ＝０であり、ａとｃの絶対値が互いに１である場合）には、第２の比率取得部１０４は、表示順が１個前の文字情報ｉ−１に係る仮表示タイミングの間隔に対する、表示順が１個後の文字情報ｉ＋１に係る仮表示タイミングの間隔の第２の比率Ｆ（ｉ）を取得することになる。

［３−６．特定部］
特定部１０５は、制御部１１を主として実現される。特定部１０５は、各音声ｍの第１の比率Ｆ（ｍ）と各文字情報ｉの第２の比率Ｆ（ｉ）とに基づいて、各音声と各文字情報との対応関係を特定する。対応関係とは、どの音声とどの文字情報とが対応しているかを示す情報である。例えば、特定部１０５は、音声ごとに、対応する文字情報を特定してもよいし、文字情報ごとに、対応する音声を特定してもよい。

例えば、特定部１０５は、各音声ｍの第１の比率Ｆ（ｍ）と各文字情報ｉの第２の比率Ｆ（ｉ）との差の小ささに基づいて、対応関係を特定する。例えば、特定部１０５は、これらの差が閾値未満となるように、各音声と各文字情報との対応関係を特定する。この場合、特定部１０５は、音声ｍごとに、当該音声ｍの第１の比率Ｆ（ｍ）との差が閾値未満となる第２の比率Ｆ（ｉ）を有する文字情報ｉを特定してもよいし、文字情報ｉごとに、当該文字情報ｉの第２の比率Ｆ（ｉ）との差が閾値未満となる第１の比率Ｆ（ｍ）を有する音声ｍを特定してもよい。

また例えば、特に閾値を利用しなくてもよく、特定部１０５は、音声ｍごとに、当該音声ｍの第１の比率Ｆ（ｍ）との差が最も小さい第２の比率Ｆ（ｉ）を有する文字情報ｉを特定してもよいし、文字情報ｉごとに、当該文字情報ｉの第２の比率Ｆ（ｉ）との差が最も小さい第１の比率Ｆ（ｍ）を有する音声ｍを特定してもよい。また例えば、特定部１０５は、音声ｍごとに、当該音声ｍの第１の比率Ｆ（ｍ）との差が小さいものから順番に複数の文字情報を特定し、当該複数の文字情報の中から対応する文字情報を選択してもよいし、文字情報ｉごとに、当該文字情報ｉの第２の比率Ｆ（ｉ）との差が小さいものから順番に複数の音声を特定し、当該複数の音声の中から対応する音声を選択してもよい。

本実施形態では、各音声と各文字情報の対応関係の特定方法の一例として、動的計画法を用いる場合を説明する。例えば、特定部１０５は、文字情報ごとに、当該文字情報と対応する可能性のある音声の候補を複数選択し、候補となる音声をノードとして最短経路問題を解決することによって、各音声と各文字情報の対応関係を特定する。例えば、動的計画法としては、一般的なビタビアルゴリズムや隠れマルコフモデルが用いられてもよい。

図７は、音声と文字情報との対応関係の特定方法を示す図である。図７では、水平方向に、文字情報ｉの仮表示タイミングｘ_ｉが並べられており、垂直方向に、各文字情報ｉの第２の比率Ｆ（ｉ）と近い順に複数（ここでは３つとする）の音声の出力タイミングが並べられている。このため、図７の例では、格子状にノードが並べられたグラフとして示している。なお、図７の例とは逆に、水平方向に音声ｍの出力タイミングｙ_ｍを並べて、垂直方向に文字情報ｉの仮表示タイミングｘ_ｉを並べてもよい。

特定部１０５は、図７の格子から最短経路を特定することによって、各音声と各文字情報との対応関係を特定する。最短経路問題では、ノード間を移動する際のコストが定められており、総コストが最小になるような経路が計算される。本実施形態では、特定部１０５は、ノードコストとトランジションコストとの２種類のコストに基づいて、最短経路を特定する。例えば、特定部１０５は、下記の数式３に基づいて、ノードコストを計算する。

数式３の左辺は、文字情報ｉと音声ｍに対応するノードのノードコストである。ノードコストは、図７に示すノードごとに計算される。数式３の右辺に示すように、ノードコストは、文字情報ｉの第２の比率Ｆ（ｉ）と音声ｍの第１の比率Ｆ（ｍ）との距離（差の絶対値）である。ノードコストが低いほど、文字情報ｉの比率と音声ｍの比率が近く、文字情報ｉと音声ｍとが対応している確率が高いことを示す。

また例えば、特定部１０５は、下記の数式４に基づいて、トランジションコストを計算する。

数式４の左辺は、文字情報ｉと音声ｍに対応するノードのトランジションコストである。トランジションコストは、図７に示す格子の各ノードと、直近のノードと、の組み合わせごとに計算される。数式４の右辺のｓは、音声ｍと文字情報ｉの対応関係が正しいと仮定した場合のスケールである。このため、トランジションコストは、音声ｍと文字情報ｉの対応関係が正しいと仮定した場合に、文字情報ｉの表示タイミングｘ_ｉを変更した場合の音声ｍの出力タイミングｙ_ｍとのずれ具合を示す情報といえる。トランジションコストが低いほど、文字情報ｉの最終的な表示タイミングと音声の出力タイミングのずれが小さく、文字情報と音声とが対応している確率が高いことを示す。

特定部１０５は、ノードコストとトランジションコストの総和が最小となる経路を特定し、当該経路上にあるノードに基づいて、各音声と各文字情報の対応関係を特定する。なお、コストの単純な総和ではなく、ビタビアルゴリズムで用いられる公式を利用して最短経路が特定されてもよい。また、ノードコストとトランジションコストの２つを用いることで最短経路問題を解決する場合を説明したが、単一のコストを用いてもよい。

以上説明したように、本実施形態では、特定部１０５は、各音声ｍの第１の比率Ｆ（ｍ）と各文字情報ｉの第２の比率Ｆ（ｉ）との差の小ささに基づいて、対応関係の候補を取得する。図７の例では、格子状に並べられたノードが候補の一例である。そして、特定部１０５は、候補ごとに、当該候補が示す対応関係が正しい場合の仮表示タイミングの全体的な変更量を取得する。例えば、全体的な変更量は、シフト量（後述する数式５の係数ｔ）であってもよいが、ここでは数式４に示したスケール量が変更量に相当する。更に、特定部１０５は、候補ごとに、当該候補に対応する変更量に基づいて各文字情報の仮表示タイミングを変更した場合の各音声の出力タイミングとのずれ具合を取得する。当該ずれ具合は、数式４の左辺である。

特定部１０５は、各候補のずれ具合に基づいて、候補の中から対応関係を特定する。特定部１０５は、複数の候補の中から、ずれ具合が小さい候補を対応関係として決定する。本実施形態では、動的計画法を利用して候補を絞り込むため、特定部１０５は、動的計画法を利用したアルゴリズムに基づいて、候補の中から対応関係を特定することになる。

［３−７．表示タイミング決定部］
表示タイミング決定部１０６は、制御部１１を主として実現される。表示タイミング決定部１０６は、特定部１０５が特定した対応関係に基づいて、各文字情報の最終的な表示タイミングを決定する。表示タイミング決定部１０６は、各文字情報の仮表示タイミングと、当該文字情報に対応する音声の出力タイミングと、のずれが小さくなるように、各文字情報の仮表示タイミングを変更して最終的な表示タイミングを決定する。

例えば、表示タイミング決定部１０６は、特定部１０５が特定した対応関係に基づいて、各文字情報の仮表示タイミングの変更量を決定する。表示タイミング決定部１０６は、各音声ｍの出力タイミングｙ_ｍと、各文字情報ｉの仮表示タイミングｘ_ｉと、のずれが小さくなるような変更量を決定し、当該変更量に基づいて、各文字情報の最終的な表示タイミングを決定する。

例えば、表示タイミング決定部１０６は、各音声ｍの出力タイミングｙ_ｍと、各文字情報ｉの仮表示タイミングｘ_ｉと、に基づいて、一致度情報を取得し、一致度情報が示す一致度が高くなるように、仮表示タイミングｘ_ｉを変更し、最終的な表示タイミングを決定する。一致度情報は、タイミング的にどの程度一致しているかを示す指標である。別の言い方をすれば、一致度情報は、タイミング的なずれ具合を示す指標である。

例えば、一致度情報が示す一致度が高いほど（即ち、一致度が示すずれ具合が小さいほど）タイミングが合っていることを示し、一致度情報が示す一致度が低いほど（即ち、一致度が示すずれ具合が大きいほど）タイミングが合っていないことを示す。一致度情報は、数値により示される。一致度情報は、出力タイミングｙ_ｍと仮表示タイミングｘ_ｉとの時間差に基づいて算出され、これの総和を一致度情報としてもよいし、これらを変数とする数式に基づいて算出される数値を一致度情報としてもよい。

例えば、表示タイミング決定部１０６は、各文字情報の仮表示タイミングの変更量を複数取得し、複数の変更量の中から、一致度情報が示す一致度が最も高い変更量を選択する。この変更量は、仮表示タイミングのタイミング的な移動量であり、時間的にどれだけ前後させるかを示す。文字情報ごとに変更量が異なってもよいし、文字情報全体として共通の変更量が用いられてもよい。本実施形態では、文字情報全体として共通の変更量が用いられる場合を説明する。変更量は、少なくとも１つの数値により示されてよく、例えば、下記の数式５のｓ及びｔの係数が変更量として用いられるようにしてよい。

数式５の左辺は、最終的な表示タイミングの候補である。数式５の右辺の係数ｓは、仮表示タイミングｘ_ｉの個々の間隔の変更量である。係数ｓを変更すると、文字情報ｉ全体の表示時間が伸びるため、係数ｓは、文字情報ｉのスケールを示す。一方、係数ｔは、仮表示タイミングｘ_ｉを全体的にシフトする場合の移動量である。係数ｔを変更すると、文字情報ｉが全体的に前又は後の何れかに移動するため、係数ｔは、平行移動量を示す。

上記説明したように、表示タイミング決定部１０６は、仮表示タイミングｘ_ｉの変更量である係数ｓ及びｔの組み合わせを複数取得することになる。複数の組み合わせの各々は、係数ｓ及びｔの少なくとも一方の値が他の組み合わせと異なっている。係数ｓ及びｔの組み合わせの取得方法自体は、公知のサンプル抽出方法を適用可能であり、例えば、ＲＡＮＳＡＣ（Random Sample Consensus）に基づいて抽出してもよいし、係数ｓ及びｔの組み合わせが予めシステム管理者により指定されているようにしてよい。なお、組み合わせの取得数は任意であってよく、例えば、数十〜数百程度のサンプルが抽出されてよい。

表示タイミング決定部１０６は、変更量ごとに、変更後の各文字情報ｉの仮表示タイミングＴ（ｘ_ｉ）と、対応する音声ｍの出力タイミングｙ_ｍと、の差の総和が最も小さくなる係数ｓ及びｔを特定し、当該係数ｓ及びｔに基づいて、最終的な表示タイミングを決定する。

なお、表示タイミングの決定方法は、上記の例に限られない。全体的な変更量を取得するのではなく、例えば、表示タイミング決定部１０６は、文字情報ごとに、当該文字情報に対応する音声の出力タイミングと一致するように、当該文字情報の表示タイミングを決定してもよい。また例えば、表示タイミング決定部１０６は、文字情報ごとに、当該文字情報に対応する音声の出力タイミングとの差が閾値未満となるように、当該文字情報の表示タイミングを決定してもよい。即ち、表示タイミング決定部１０６は、文字情報ごとに個別に変更量を取得してもよい。他にも例えば、表示タイミング決定部１０６は、第１の比率と第２の比率とが一致するようにスケール等を計算してもよい。

また、本実施形態では、各文字情報の開始タイミングが表示タイミングに相当する場合を説明するが、表示タイミング決定部１０６は、各文字情報の終了タイミング及び表示時間も、開始タイミングの変更に合わせて変更してもよい。

［４．本実施形態において実行される処理］
図８は、サーバ１０において実行される処理の一例を示すフロー図である。図８に示す処理は、図４に示す機能ブロックにより実行される処理の一例であり、制御部１１が、記憶部１２に記憶されたプログラムに従って動作することによって実行される。なお、図８に示す処理は、所定の条件が満たされた場合に実行されるようにすればよく、例えば、音声格納データと文字情報データがサーバ１０に登録された場合に実行されてもよいし、システム管理者の指示などの任意のタイミングで実行されてもよい。

図８に示すように、まず、制御部１１は、記憶部１２に記憶された音声格納データを取得する（Ｓ１）。制御部１１は、Ｓ１で取得した音声格納データに基づいて、スペクトログラムを生成する（Ｓ２）。Ｓ２においては、先述したように、制御部１１は、ソノグラフを利用して音声格納データに対して周波数解析を行い、周波数ごとの信号の強さを時系列的に取得することによって、スペクトログラムを生成する。

制御部１１は、Ｓ２で生成したスペクトログラムに基づいて、各音声ｍの出力タイミングｙ_ｍを取得する（Ｓ３）。Ｓ３においては、制御部１１は、音声格納データの再生時間の最初から時系列順に、所定の周波数帯域の音の強さが閾値以上となる時間を探索することによって、音声の出力を開始する開始タイミングを取得する。制御部１１は、最初の音声の開始タイミングを取得すると、当該音声に音声ＩＤ＝１を付与する。次いで、制御部１１は、所定の周波数帯域の音の強さが閾値未満となる時間を探索することによって、音声の出力を終了する終了タイミングを取得する。制御部１１は、最初の音声の終了タイミングを取得すると、当該終了タイミング及び最初の音声の出力時間を記憶部１２に保持してよい。以降、制御部１１は、音声格納データの再生時間の最後まで、上記の処理を繰り返し、音声の開始タイミングを見つけるたびに、音声ＩＤをインクリメントして、その開始タイミング等を記憶部１２に保持する。

制御部１１は、Ｓ３で取得した各音声ｍの出力タイミングｙ_ｍに基づいて、音声ごとに、第１の比率Ｆ（ｍ）を計算する（Ｓ４）。Ｓ４においては、制御部１１は、先述した数式１に基づいて、各音声ｍの第１の比率Ｆ（ｍ）を計算して記憶部１２に保持する。

制御部１１は、記憶部１２に記憶された文字情報データを取得する（Ｓ５）。制御部１１は、Ｓ５で取得した文字情報データに基づいて、文字情報ｉごとに、第２の比率Ｆ（ｉ）を計算する（Ｓ６）。Ｓ６においては、制御部１１は、先述した数式２に基づいて、各文字情報ｉの第２の比率Ｆ（ｉ）を計算して記憶部１２に保持する。

制御部１１は、Ｓ４で計算した各音声ｍの第１の比率Ｆ（ｍ）と、Ｓ６で計算した各文字情報ｉの第２の比率Ｆ（ｉ）と、に基づいて、各音声と各文字情報との対応関係を特定する（Ｓ７）。Ｓ７においては、制御部１１は、図７を参照して説明した動的計画法のアルゴリズムに基づいて、文字情報ごとに、比率の差が小さい順に所定個数の音声を特定してノードを設定し、先述した数式３と数式４に基づいてノードコストとトランジションコストを計算し、コストの総和が最小となる最短経路を特定する。そして、制御部１１は、当該最短経路上のノードに基づいて、各音声と各文字情報との対応関係を特定する。

制御部１１は、各音声と各文字情報との対応関係に基づいて、各文字情報の最終的な表示タイミングを決定し（Ｓ８）、本処理は終了する。Ｓ８においては、制御部１１は、数式５の係数ｓとｔの候補を複数取得して、文字情報の最終的な表示タイミングの候補を算出する。そして、制御部１１は、対応する音声の出力タイミングとのずれの総和が最小となる係数ｓとｔに基づいて、最終的な表示タイミングを決定する。

以上説明した表示タイミング決定システム１によれば、タイミングの全体的なシフト量やスケールといった要素に影響を受けない比率を利用することで、音声と文字情報の対応関係を正確に特定し、音声の出力タイミングと文字情報の表示タイミングを合わせることができる。即ち、例えば数式１に示すように、音声の出力タイミングが全体的にシフトしたりスケールが変わったりしたとしても、比率の値には影響しないので、音声出力データが変更されたとしても変わらない比率という特徴量を比較することによって、音声と文字情報の対応関係を特定することができる。また、全体的なシフト量やスケールといった要素を考慮せずに対応関係を特定可能なので、比較的簡易な処理によって音声と文字情報の対応関係を特定することができ、サーバ１０の処理速度の向上及び処理負荷の軽減を図ることができる。

また、各音声ｍの第１の比率Ｆ（ｍ）と各文字情報ｉの第２の比率Ｆ（ｉ）との差の小ささに基づいて対応関係を特定することで、音声と文字情報の対応関係を特定する精度を高めることができる。

また、各音声ｍの第１の比率Ｆ（ｍ）と各文字情報ｉの第２の比率Ｆ（ｉ）との差の小ささに基づいて特定される対応関係の候補ごとに文字情報の仮表示タイミングの変更量を算出し、全体的なタイミングのずれ具合に基づいて候補の中から対応関係を特定することで、音声と文字情報の対応関係を特定する精度を効果的に高めることができる。

また、動的計画法を利用したアルゴリズムに基づいて候補の中から対応関係を特定することによって、音声と文字情報の対応関係を特定する精度を効果的に高めることができる。また、動的計画法のアルゴリズム自体は、比較的高速な種々のアルゴリズムが開発されているため、サーバ１０の処理速度の向上及び処理負荷の軽減を効果的に図ることができる。更に、実施形態で説明したように、単一のコストではなく、ノードコストとトランジションコストといった複数のコストを利用することで、音声と文字情報の対応関係を特定する精度を効果的に高めることができる。

また、第１の順番と第２の順番とが互いに同じ所定数であり、音声ｍごとに当該音声ｍの所定数だけ前後の音声との間隔に基づいて第１の比率Ｆ（ｍ）を取得し、文字情報ｉごとに、当該文字情報ｉの所定数だけ前後の文字情報との間隔に基づいて第２の比率Ｆ（ｉ）を取得して対応関係を特定することによって、音声と文字情報の対応関係の精度を高めることができる。更に、アルゴリズムをシンプルにすることができるので、サーバ１０の処理速度の向上及び処理負荷の軽減を図ることができる。

また、音声ｍごとに１個前後の音声との間隔に基づいて第１の比率Ｆ（ｍ）を取得し、文字情報ｉごとに１個前後の文字情報との間隔に基づいて第２の比率Ｆ（ｉ）を取得して対応関係を特定することによって、音声と文字情報の対応関係の精度を高めることができる。更に、アルゴリズムをよりシンプルにすることができるので、サーバ１０の処理速度の向上及び処理負荷の軽減を効果的に図ることができる。

［５．変形例］
なお、本発明は、以上に説明した実施の形態に限定されるものではない。本発明の趣旨を逸脱しない範囲で、適宜変更可能である。

（１）例えば、実施形態では、動的計画法を利用する場合を説明したが、文字情報の表示タイミングの調整は、他の方法によって実行されるようにしてもよい。変形例（１）では、ＲＡＮＳＡＣを利用して文字情報の表示タイミングの調整が行われる場合を説明する。なお、本変形例では、特定部１０５は、各音声ｍの第１の比率Ｆ（ｍ）に最も近い第２の比率Ｆ（ｉ）を有する文字情報ｉを特定するものとするが、実施形態で説明した方法に基づいて、各音声と各文字情報の対応関係を特定してもよい。

表示タイミング決定部１０６は、特定部１０５が特定した対応関係が示す音声と文字情報の組み合わせの中からランダムにサンプルを抽出する。サンプルは、１つの組み合わせだけでもよいし、複数個の組み合わせでもよい。ランダムにサンプルを抽出する方法自体は、ＲＡＮＳＡＣで用いられている方法を利用すればよく、例えば、音声と文字情報のセットの中から、乱数に基づいてサンプルを抽出してもよい。

表示タイミング決定部１０６は、サンプルに基づいて、仮表示タイミングの全体的な変更量を取得する。変更量は、例えば、数式５の係数ｓとｔの組み合わせである。表示タイミング決定部１０６は、サンプルが示す音声の出力タイミングと文字情報の仮表示タイミングとの差が小さくなるように、係数ｓとｔの組み合わせを決定する。

表示タイミング決定部１０６は、変更量に基づいて各文字情報の仮表示タイミングを変更した場合の各音声の出力タイミングとのずれ具合を取得する。ずれ具合は、全体的なタイミングのずれ具合を示せばよく、例えば、各文字情報の仮表示タイミングと、対応する音声の出力タイミングと、の差の総和である。表示タイミング決定部１０６は、ずれ具合が閾値未満になるまで、サンプルの抽出と変更量の取得を繰り返す。表示タイミング決定部１０６は、ずれ具合が閾値未満になった場合、サンプルの抽出と変更量の取得を停止し、現在の変更量に基づいて各文字情報の仮表示タイミングを変更し、最終的な表示タイミングとする。

変形例（１）によれば、比較的簡易な処理によって、音声と文字情報の対応関係を特定してタイミングのずれを調整することができ、サーバ１０の処理速度の向上及び処理負荷の軽減を効果的に図ることができる。

（２）また例えば、音声ｍごとに複数の第１の比率Ｆ（ｍ）が取得され、文字情報ｉごとに複数の第２の比率Ｆ（ｉ）が取得されてもよい。変形例（２）の第１の比率取得部１０２は、音声ｍごとに、第１の順番と第２の順番の複数通りの組み合わせに基づいて複数の第１の比率Ｆ（ｍ）を取得する。第１の順番と第２の順番の複数通りの組み合わせとは、数式１における整数ａ，ｂ，ｃ，ｄの組み合わせが複数通りであることを意味する。第２の比率取得部１０４は、文字情報ｉごとに、第１の順番又は第３の順番と、第２の順番又は第４の順番と、の複数通りの組み合わせに基づいて複数の第２の比率Ｆ（ｉ）を取得する。第１の順番又は第３の順番と、第２の順番又は第４の順番と、の複数通りの組み合わせとは、数式２における整数ａ，ｂ，ｃ，ｄの組み合わせが複数通りであることを意味する。

特定部１０５は、各音声ｍの複数の第１の比率Ｆ（ｍ）と各文字情報ｉの複数の第２の比率Ｆ（ｉ）とに基づいて、対応関係を特定する。例えば、特定部１０５は、各音声ｍの複数の第１の比率Ｆ（ｍ）に基づいて算出した数値と、各文字情報ｉの複数の第２の比率Ｆ（ｉ）に基づいて算出した数値と、の差の小ささに基づいて対応関係を特定する。また例えば、特定部１０５は、各音声ｍの複数の第１の比率Ｆ（ｍ）の各々と、各文字情報ｉの複数の第２の比率Ｆ（ｉ）の各々と、の差の総和の小ささに基づいて対応関係を特定する。

変形例（２）によれば、複数の比率を利用することで、音声と文字情報の対応関係を特定する精度を高めることができる。例えば、文字情報の仮表示タイミングに誤りがあった場合には、音声と文字情報の対応関係に誤差が生じる可能性があるが、複数の比率を利用することで、このような誤差の影響を軽減することができる。

（３）また例えば、実施形態及び上記変形例では、音声の出力タイミングと、文字情報の表示タイミングと、をそれぞれの開始タイミングとしたが、他の情報によって、音声の出力タイミングと文字情報の表示タイミングとが特定されるようにしてもよい。例えば、音声の出力タイミングの時間差を第１の配列に格納し、文字情報の表示タイミングの時間差を第２の配列に格納することによって、音声の出力タイミングと文字情報の表示タイミングとが特定されるようにしてもよい。この場合、表示タイミング決定部１０６は、第２の配列に格納された時間差を変更することによって、各文字情報の最終的な表示タイミングを決定する。

また例えば、出力タイミング取得部１０１、第１の比率取得部１０２、仮表示タイミング取得部１０３、第２の比率取得部１０４、特定部１０５、及び表示タイミング決定部１０６がユーザ装置２０で実現されるようにしてもよい。この場合、これら各機能は、制御部２１を主として実現され、ユーザ装置２０が本発明に係る表示タイミング決定装置に相当する。他にも例えば、サーバ１０及びユーザ装置２０以外のコンピュータにおいて、出力タイミング取得部１０１、第１の比率取得部１０２、仮表示タイミング取得部１０３、第２の比率取得部１０４、特定部１０５、及び表示タイミング決定部１０６が実現されるようにしてもよい。この場合、当該コンピュータが本発明に係る表示タイミング決定装置に相当する。

Claims

順次出力される複数の音声の各々の出力タイミングを取得する出力タイミング取得手段と、
音声ごとに、出力順が第１の順番だけ異なる音声に係る出力タイミングの間隔に対する、出力順が第２の順番だけ異なる音声に係る出力タイミングの間隔の第１の比率を取得する第１の比率取得手段と、
前記複数の音声の再生中に順次表示され、各音声の内容を示す文字情報の仮表示タイミングを取得する仮表示タイミング取得手段と、
文字情報ごとに、表示順が前記第１の順番又は前記第１の順番に対応する第３の順番だけ異なる文字情報に係る仮表示タイミングの間隔に対する、表示順が前記第２の順番又は前記第２の順番に対応する第４の順番だけ異なる文字情報に係る仮表示タイミングの間隔の第２の比率を取得する第２の比率取得手段と、
各音声の前記第１の比率と各文字情報の前記第２の比率とに基づいて、各音声と各文字情報との対応関係を特定する特定手段と、
前記対応関係に基づいて、各文字情報の最終的な表示タイミングを決定する表示タイミング決定手段と、
を含むことを特徴とする表示タイミング決定装置。
前記特定手段は、各音声の前記第１の比率と各文字情報の前記第２の比率との差の小ささに基づいて、前記対応関係を特定する、
ことを特徴とする請求項１に記載の表示タイミング決定装置。
前記特定手段は、
各音声の前記第１の比率と各文字情報の前記第２の比率との差の小ささに基づいて、前記対応関係の候補を取得し、
候補ごとに、当該候補が示す対応関係が正しい場合の仮表示タイミングの全体的な変更量を取得し、
候補ごとに、当該候補に対応する前記変更量に基づいて各文字情報の仮表示タイミングを変更した場合の各音声の出力タイミングとのずれ具合を取得し、
各候補のずれ具合に基づいて、候補の中から前記対応関係を特定する、
ことを特徴とする請求項２に記載の表示タイミング決定装置。
前記特定手段は、動的計画法を利用したアルゴリズムに基づいて、候補の中から前記対応関係を特定する、
ことを特徴とする請求項３に記載の表示タイミング決定装置。
前記表示タイミング決定手段は、
前記対応関係が示す音声と文字情報の組み合わせの中からランダムにサンプルを抽出し、
前記サンプルに基づいて、仮表示タイミングの全体的な変更量を取得し、
前記変更量に基づいて各文字情報の仮表示タイミングを変更した場合の各音声の出力タイミングとのずれ具合を取得し、
前記ずれ具合が閾値未満になるまで、前記サンプルの抽出と前記変更量の取得を繰り返す、
ことを特徴とする請求項１〜４の何れかに記載の表示タイミング決定装置。
前記第１の比率取得手段は、音声ごとに、前記第１の順番と前記第２の順番の複数通りの組み合わせに基づいて複数の前記第１の比率を取得し、
前記第２の比率取得手段は、文字情報ごとに、前記第１の順番又は前記第３の順番と、前記第２の順番又は前記第４の順番と、の複数通りの組み合わせに基づいて複数の前記第２の比率を取得し、
前記特定手段は、各音声の前記複数の第１の比率と各文字情報の前記複数の第２の比率とに基づいて、前記対応関係を特定する、
ことを特徴とする請求項１〜５の何れかに記載の表示タイミング決定装置。
前記第１の順番と前記第２の順番とは、互いに同じ所定数であり、
前記第１の比率取得手段は、出力順が前記所定数だけ前の音声に係る出力タイミングの間隔に対する、出力順が前記所定数だけ後の音声に係る出力タイミングの間隔の前記第１の比率を取得し、
前記第２の比率取得手段は、表示順が前記所定数だけ前の文字情報に係る仮表示タイミングの間隔に対する、表示順が前記所定数だけ後の文字情報に係る仮表示タイミングの間隔の前記第２の比率を取得する、
ことを特徴とする請求項１〜６の何れかに記載の表示タイミング決定装置。
前記所定数は１であり、
前記第１の比率取得手段は、出力順が１個前の音声に係る出力タイミングの間隔に対する、出力順が１個後の音声に係る出力タイミングの間隔の前記第１の比率を取得し、
前記第２の比率取得手段は、表示順が１個前の文字情報に係る仮表示タイミングの間隔に対する、表示順が１個後の文字情報に係る仮表示タイミングの間隔の前記第２の比率を取得する、
ことを特徴とする請求項７に記載の表示タイミング決定装置。
順次出力される複数の音声の各々の出力タイミングを取得する出力タイミング取得ステップと、
音声ごとに、出力順が第１の順番だけ異なる音声に係る出力タイミングの間隔に対する、出力順が第２の順番だけ異なる音声に係る出力タイミングの間隔の第１の比率を取得する第１の比率取得ステップと、
前記複数の音声の再生中に順次表示され、各音声の内容を示す文字情報の仮表示タイミングを取得する仮表示タイミング取得ステップと、
文字情報ごとに、表示順が前記第１の順番又は前記第１の順番に対応する第３の順番だけ異なる文字情報に係る仮表示タイミングの間隔に対する、表示順が前記第２の順番又は前記第２の順番に対応する第４の順番だけ異なる文字情報に係る仮表示タイミングの間隔の第２の比率を取得する第２の比率取得ステップと、
各音声の前記第１の比率と各文字情報の前記第２の比率とに基づいて、各音声と各文字情報との対応関係を特定する特定ステップと、
前記対応関係に基づいて、各文字情報の最終的な表示タイミングを決定する表示タイミング決定ステップと、
を含むことを特徴とする表示タイミング決定方法。
順次出力される複数の音声の各々の出力タイミングを取得する出力タイミング取得手段、
音声ごとに、出力順が第１の順番だけ異なる音声に係る出力タイミングの間隔に対する、出力順が第２の順番だけ異なる音声に係る出力タイミングの間隔の第１の比率を取得する第１の比率取得手段、
前記複数の音声の再生中に順次表示され、各音声の内容を示す文字情報の仮表示タイミングを取得する仮表示タイミング取得手段、
文字情報ごとに、表示順が前記第１の順番又は前記第１の順番に対応する第３の順番だけ異なる文字情報に係る仮表示タイミングの間隔に対する、表示順が前記第２の順番又は前記第２の順番に対応する第４の順番だけ異なる文字情報に係る仮表示タイミングの間隔の第２の比率を取得する第２の比率取得手段、
各音声の前記第１の比率と各文字情報の前記第２の比率とに基づいて、各音声と各文字情報との対応関係を特定する特定手段、
前記対応関係に基づいて、各文字情報の最終的な表示タイミングを決定する表示タイミング決定手段、
としてコンピュータを機能させるためのプログラム。