WO2018047275A1

WO2018047275A1 - 表示タイミング決定装置、表示タイミング決定方法、及びプログラム

Info

Publication number: WO2018047275A1
Application number: PCT/JP2016/076466
Authority: WO
Inventors: ビヨンシュテンガー
Original assignee: 楽天株式会社
Priority date: 2016-09-08
Filing date: 2016-09-08
Publication date: 2018-03-15
Also published as: US10652623B1; JP6359229B1; US20200169791A1; JPWO2018047275A1

Abstract

音声の出力タイミングと文字の表示タイミングとを合わせる。表示タイミング決定装置（１０，２０）の音声格納データ取得手段（１００）は、順次出力される複数の音声が格納された音声格納データを取得する。タイミングデータ取得手段（１０１）は、音声格納データの再生中に順次表示され、それぞれ音声の内容を示す複数の文字情報の仮の表示タイミングに関するタイミングデータを取得する。波形解析手段（１０３）は、音声格納データの音声波形を解析し、各音声の出力タイミングを取得する。表示タイミング決定手段（１０４）は、波形解析手段（１０３）により取得された各音声の出力タイミングと、前記タイミングデータにより定まる各文字情報の仮の表示タイミングと、に基づいて、各文字情報の最終的な表示タイミングを決定する。

Description

表示タイミング決定装置、表示タイミング決定方法、及びプログラム

　本発明は、表示タイミング決定装置、表示タイミング決定方法、及びプログラムに関する。

　従来、順次出力される複数の音声が格納された音声格納データ（例えば、動画データ）の再生中において、各音声が出力されるたびに、当該音声を示す文字情報（例えば、字幕）を表示させる技術が知られている。

　例えば、特許文献１には、生放送のテレビ番組において、出演者の音声を示す文字情報を作成して視聴者に提供するシステムが記載されている。このシステムでは、生放送中の音声を聞いたテレビ関係者が手入力で文字を作成する。このため、各音声の出力タイミングの間隔と、各文字情報の表示タイミングの間隔と、が概ね合っていたとしても、手入力の時間だけ、文字情報の表示タイミングは、音声の出力タイミングに対して全体的に遅延する。この点、特許文献１の技術では、生放送のテレビ番組が録画される場合に、テレビ番組のジャンルコードに基づいて遅延時間を推測し、ジャンルコードに応じた遅延時間分だけ、録画時の文字の表示タイミングを全体的に早めている。

特開２００８－１７２４２１号公報

　しかしながら、特許文献１の技術では、テレビ番組のジャンルコードを利用して遅延時間を推定するので、ジャンルコードがなければ、音声の出力タイミングと文字の表示タイミングとを合わせることができない。更に、音声の出力タイミングに対する文字の表示タイミングの遅延時間は、音声が示す内容の複雑さや文字を入力するテレビ関係者の技能などによって異なるので、ジャンルコードを利用しても、音声の出力タイミングと文字の表示タイミングとを正確に合わせることができない可能性がある。

　本発明は上記課題に鑑みてなされたものであって、その目的は、音声の出力タイミングと文字の表示タイミングとを合わせることである。

　上記課題を解決するために、本発明に係る表示タイミング決定装置は、順次出力される複数の音声が格納された音声格納データを取得する音声格納データ取得手段と、前記音声格納データの再生中に順次表示され、それぞれ音声の内容を示す複数の文字情報の仮の表示タイミングに関するタイミングデータを取得するタイミングデータ取得手段と、前記音声格納データの音声波形を解析し、各音声の出力タイミングを取得する波形解析手段と、前記波形解析手段により取得された各音声の出力タイミングと、前記タイミングデータにより定まる各文字情報の仮の表示タイミングと、に基づいて、各文字情報の最終的な表示タイミングを決定する表示タイミング決定手段と、を含むことを特徴とする。

　本発明に係る表示タイミング決定方法は、順次出力される複数の音声が格納された音声格納データを取得する音声格納データ取得ステップと、前記音声格納データの再生中に順次表示され、それぞれ音声の内容を示す複数の文字情報の仮の表示タイミングに関するタイミングデータを取得するタイミングデータ取得ステップと、前記音声格納データの音声波形を解析し、各音声の出力タイミングを取得する波形解析ステップと、前記波形解析ステップにより取得された各音声の出力タイミングと、前記タイミングデータにより定まる各文字情報の仮の表示タイミングと、に基づいて、各文字情報の最終的な表示タイミングを決定する表示タイミング決定ステップと、を含むことを特徴とする。

　本発明に係るプログラムは、順次出力される複数の音声が格納された音声格納データを取得する音声格納データ取得手段、前記音声格納データの再生中に順次表示され、それぞれ音声の内容を示す複数の文字情報の仮の表示タイミングに関するタイミングデータを取得するタイミングデータ取得手段、前記音声格納データの音声波形を解析し、各音声の出力タイミングを取得する波形解析手段、前記波形解析手段により取得された各音声の出力タイミングと、前記タイミングデータにより定まる各文字情報の仮の表示タイミングと、に基づいて、各文字情報の最終的な表示タイミングを決定する表示タイミング決定手段、としてコンピュータを機能させる。

　また、本発明に係る情報記憶媒体は、上記のプログラムが記憶されたコンピュータ読み取り可能な情報記憶媒体である。

　また、本発明の一態様では、前記表示タイミング決定手段は、各文字情報の仮の表示タイミングの変更量を複数取得し、前記変更量ごとに、変更後の各文字情報の仮の表示タイミングと、各音声の出力タイミングと、の一致度に関する一致度情報を取得し、前記一致度情報が示す一致度が最も高い前記変更量に基づいて、各文字情報の最終的な表示タイミングを決定する、ことを特徴とする。

　また、本発明の一態様では、前記表示タイミング決定手段は、前記文字情報ごとに、当該文字情報の仮の表示タイミングと、当該仮の表示タイミングに最も近い前記出力タイミングと、の一致度に関する個別一致度情報を取得し、前記文字情報ごとに取得した前記個別一致度情報に基づいて、各文字情報の最終的な表示タイミングを決定する、ことを特徴とする。

　また、本発明の一態様では、前記複数の文字情報には、音声以外の情報を示す文字情報が含まれており、前記表示タイミング決定手段は、音声以外の情報を示す文字情報は、前記個別一致度情報の取得対象から除外する、ことを特徴とする。

　また、本発明の一態様では、前記表示タイミング決定手段は、前記音声ごとに、当該音声の出力タイミングと、当該出力タイミングに最も近い前記文字情報の仮の表示タイミングと、の一致度を示す個別一致度情報を取得し、前記音声ごとに取得した前記個別一致度情報に基づいて、各文字情報の最終的な表示タイミングを決定する、ことを特徴とする。

　また、本発明の一態様では、前記音声格納データには、対応する文字情報がない音声も格納されており、前記表示タイミング決定手段は、対応する文字情報がない音声は、前記個別一致度情報の取得対象から除外する、ことを特徴とする。

　また、本発明の一態様では、前記音声格納データには、前記複数の音声と、音声以外の音と、を含む複数の音が格納されており、前記波形解析手段は、前記音声格納データに格納された複数の音の各々の出力タイミングを取得し、前記表示タイミング決定手段は、前記音ごとに、当該音が音声である確率に関する確率情報を取得し、前記音ごとに取得された前記確率情報に更に基づいて、各文字情報の最終的な表示タイミングを決定する、ことを特徴とする。

　また、本発明の一態様では、前記表示タイミング決定手段は、各文字情報の仮の表示タイミングの変更量を繰り返し取得可能であり、前記変更量ごとに、変更後の各文字情報の仮の表示タイミングと、各音声の出力タイミングと、の全体的な一致度を示す全体一致度情報を取得し、一致度が最も高い前記全体一致度情報と、一致度が２番目に高い前記全体一致度情報と、の差が閾値未満である場合は、新たな前記変更量を取得し、前記差が閾値以上である場合は、新たな前記変更量は取得せず、一致度が最も小さい前記全体一致度情報に対応する変更量に基づいて、各文字情報の最終的な表示タイミングを決定する、ことを特徴とする。

　また、本発明の一態様では、前記表示タイミング決定装置は、各音声に対応する発声者に関する音声発声者情報を取得する音声発声者情報取得手段と、各文字情報に対応する発声者に関する文字情報発声者情報を取得する文字情報発声者情報取得手段と、を更に含み、前記表示タイミング決定手段は、各音声の前記音声発声者情報と各文字情報の前記文字情報発声者情報とに更に基づいて、各文字情報の最終的な表示タイミングを決定する、ことを特徴とする。

　本発明によれば、音声の出力タイミングと文字の表示タイミングとを合わせることが可能になる。

表示タイミング決定システムの全体構成を示す図である。動画が再生される際に実行される処理の概要を示す図である。表示タイミング決定システムで実現される機能の一例を示す機能ブロック図である。タイミングデータのデータ格納例を示す図である。スペクトログラムの一例を示す図である。最終的な表示タイミングが取得される様子を示す図である。サーバにおいて実行される処理の一例を示すフロー図である。音声以外の情報を示す文字情報の仮の表示タイミングを示す図である。対応する文字のない音声の出力タイミングを示す図である。変形例における機能ブロック図である。

［１．表示タイミング決定システムのハードウェア構成］
　以下、本発明に関わる表示タイミング決定装置の一例であるサーバを含む表示タイミング決定システムの実施形態の例を説明する。図１は、表示タイミング決定システムの全体構成を示す図である。図１に示すように、表示タイミング決定システム１は、サーバ１０及びユーザ装置２０を含む。これら各装置は、それぞれ有線又は無線によりネットワークを介して通信可能に接続されるようにしてよい。

　サーバ１０は、サーバコンピュータであり、例えば、制御部１１、記憶部１２、及び通信部１３を含む。制御部１１は、少なくとも１つのプロセッサを含む。制御部１１は、記憶部１２に記憶されたプログラムやデータに従って処理を実行する。記憶部１２は、主記憶部及び補助記憶部を含む。例えば、主記憶部はＲＡＭなどの揮発性メモリであり、補助記憶部は、ハードディスクやフラッシュメモリなどの不揮発性メモリである。通信部１３は、有線通信又は無線通信用の通信インタフェースを含み、例えば、ネットワークを介してデータ通信を行う。

　ユーザ装置２０は、ユーザが操作するコンピュータであり、例えば、パーソナルコンピュータ、携帯情報端末（タブレット型コンピュータを含む）、又は携帯電話機（スマートフォンを含む）等である。ユーザ装置２０は、制御部２１、記憶部２２、通信部２３、操作部２４、表示部２５、及び音声出力部２６を含む。制御部２１、記憶部２２、及び通信部２３のハードウェア構成は、それぞれ制御部１１、記憶部１２、及び通信部１３と同様であってよい。

　操作部２４は、ユーザが操作を行うための入力デバイスであり、例えば、タッチパネルやマウス等のポインティングデバイスやキーボード等である。操作部２４は、ユーザの操作内容を制御部２１に伝達する。表示部２５は、例えば、液晶表示部又は有機ＥＬ表示部等であり、動画や静止画などの各種画像を表示可能である。音声出力部２６は、例えば、スピーカーであり、各種音声を出力可能である。

　なお、記憶部１２，２２に記憶されるものとして説明するプログラム及びデータは、ネットワークを介してこれらに供給されるようにしてもよい。また、サーバ１０及びユーザ装置２０のハードウェア構成は、上記の例に限られず、種々のコンピュータのハードウェアを適用可能である。例えば、サーバ１０及びユーザ装置２０は、それぞれコンピュータ読み取り可能な情報記憶媒体を読み取る読取部（例えば、光ディスクドライブやメモリカードスロット）や外部機器と直接的に接続するための入出力部（例えば、ＵＳＢポートや映像入出力端子）を含んでもよい。この場合、情報記憶媒体に記憶されたプログラムやデータが読取部又は入出力部を介して、サーバ１０又はユーザ装置２０に供給されるようにしてもよい。

　本実施形態では、サーバ１０は、複数の動画を管理している。例えば、ユーザ装置２０において、ユーザが視聴したい動画を指定すると、ダウンロード配信又はストリーミング配信により動画を視聴することができる。ユーザ装置２０において動画が再生されると、動画とともに字幕が表示部２５に表示され、音声出力部２６から動画の音声が出力される。

　図２は、動画が再生される際に実行される処理の概要を示す図である。図２では、動画をＶｉｄの符号で示し、動画の音声をＶｏｉの符号で示し、字幕をＳｕｂの符号で示す。図２に示すように、サーバ１０は、動画Ｖｉｄと字幕Ｓｕｂをデータとして別々に管理している。なお、図２に示す字幕Ｓｕｂのｔ軸は、時間軸である。図２の字幕Ｓｕｂは、画面に表示される字幕を時系列順に示している。

　本実施形態では、字幕Ｓｕｂは、動画Ｖｉｄの中に埋め込まれた状態で管理されているのではなく、動画Ｖｉｄとは別物として管理されている。そして、動画Ｖｉｄが表示される場合に、図２に示すように、動画Ｖｉｄと字幕Ｓｕｂが合成される。これにより、動画の音声Ｖｏｉが出力される場合に、当該音声Ｖｏｉに対応する字幕Ｓｕｂが表示される。例えば、サーバ１０は、動画Ｖｉｄのデータと字幕Ｓｕｂのデータとを別々にユーザ装置２０に送信し、ユーザ装置２０において、字幕Ｓｕｂと動画Ｖｉｄとが合成される。また例えば、サーバ１０は、ユーザが指定した動画Ｖｉｄに字幕Ｓｕｂを合成したうえで、当該合成後の動画Ｖｉｄのデータをユーザ装置２０に送信する。

　字幕Ｓｕｂは、サーバ１０に動画Ｖｉｄが登録される前又は後の任意のタイミングにおいて、任意の方法により作成される。例えば、システムの管理者は、動画Ｖｉｄを視聴しながら字幕Ｓｕｂのテキストと、字幕Ｓｕｂの表示タイミングと、を手入力するようにしてよい。字幕Ｓｕｂが作成されたばかりの時点では、音声の出力タイミングと字幕Ｓｕｂの表示タイミングとは合っていなくてもよく、ある程度のタイミング的なずれがあってよい。ただし、各音声の出力順と各字幕Ｓｕｂの表示順とは合っており、出力タイミングの間隔と表示タイミングの間隔とは概ね合っているものとする。

　本実施形態のサーバ１０は、動画Ｖｉｄの音声波形を解析し、動画Ｖｉｄ中の各音声の出力タイミングを取得する。そして、サーバ１０は、各字幕Ｓｕｂの表示タイミングを調整しつつ、音声波形の解析により得られた各音声の出力タイミングと比較し、タイミング的に最も一致する表示タイミングを見つけることによって、各音声の出力タイミングと、各字幕Ｓｕｂの表示タイミングと、を合わせるようにしている。以降、この技術の詳細を説明する。なお、以降の説明では、図２において動画、音声、及び字幕に付した符号は省略する。

［２．本実施形態において実現される機能］
　図３は、表示タイミング決定システム１で実現される機能の一例を示す機能ブロック図である。図３に示すように、本実施形態では、音声格納データ取得部１００、タイミングデータ取得部１０１、データ記憶部１０２、波形解析部１０３、及び表示タイミング決定部１０４が、サーバ１０で実現される。

［２－１．音声格納データ取得部］
　音声格納データ取得部１００は、制御部１１を主として実現される。音声格納データ取得部１００は、順次出力される複数の音声が格納された音声格納データを取得する。本実施形態では、音声格納データ取得部１００は、後述するデータ記憶部１０２から音声格納データを取得する場合を説明するが、サーバ１０以外のコンピュータに音声格納データが記憶されている場合には、当該コンピュータから音声格納データを取得してもよい。

　音声は、人が実際に発した音がマイクで集音されてもよい、コンピュータで合成された人工的な音であってもよい。音声格納データが再生される期間（再生の開始時点から終了時点までの期間）は、各音声がそれぞれ出力される複数の期間を含むことになる。個々の音声は、ある１つの期間内に出力される音声のかたまりといえる。音声は、少なくとも１つの単語を含むようにしてもよいし、文章ごとに区切られていてもよいし、複数の文章から構成されてもよい。更に、音声は、特に意味のある単語を含まない叫び声や悲鳴であってもよい。例えば、音声は、映画・ドラマ・アニメなどにおける個々のセリフであってもよいし、動画に撮影された人の個々の発言であってもよいし、歌や詩などの個々のフレーズであってもよい。

　音声格納データは、再生することで音声を出力可能なデータであればよく、例えば、画像と音声が格納された動画データであってもよいし、画像を含まない音声データであってもよい。動画データ及び音声データのデータ形式及び圧縮形式自体は、公知の種々の形式を適用可能であってよく、例えば、avi形式、mpeg形式、又はmp3形式であってよい。本実施形態では、音声格納データが動画データである場合を説明する。

　音声格納データが再生されると、時間経過に応じて、音声格納データに格納された各音声が、予め定められた順番で、予め定められたタイミングで出力される。別の言い方をすれば、予め定められた順番で予め定められたタイミングで出力されるように、各音声が音声格納データに格納されている。なお、音声の出力タイミングは、音声が出力される期間の任意のタイミングであればよく、例えば、音声の出力を開始するタイミングを示してもよいし、音声の出力を終了する終了タイミングを示してもよいし、その中間のタイミングを示してもよい。

［２－２．タイミングデータ取得部］
　タイミングデータ取得部１０１は、制御部１１を主として実現される。タイミングデータ取得部１０１は、音声格納データの再生中に順次表示され、それぞれ音声の内容を示す複数の文字情報の仮の表示タイミングに関するタイミングデータを取得する。本実施形態では、タイミングデータ取得部１０１は、後述するデータ記憶部１０２からタイミングデータを取得する場合を説明するが、サーバ１０以外のコンピュータにタイミングデータが記憶されている場合には、当該コンピュータからタイミングデータを取得してもよい。

　文字情報は、音声の内容を少なくとも１つの文字として示し、例えば、字幕、キャプション、又はテロップと呼ばれるテキストであってよい。文字情報は、１つの文字のみから構成されてもよいし、複数の文字を含む文字列であってもよい。また、文字情報は、文字以外の記号を含んでいてもよい。なお、文字情報は、音声の内容と一言一句まで完全に一致している必要はなく、音声の内容と文字情報の内容とはある程度の違いがあってよい。本実施形態では、音声格納データが動画データを説明するので、文字情報が動画の字幕である場合を説明する。

　図４は、タイミングデータのデータ格納例を示す図である。図４に示すように、タイミングデータは、文字情報を一意に識別する文字情報ＩＤ、文字情報の表示タイミング、及び文字情報が格納される。なお、文字情報は、タイミングデータとは別のデータに格納されていてもよい。

　タイミングデータに格納される表示タイミングは、文字情報が表示される期間内の任意のタイミングを示せばよく、例えば、文字情報の表示を開始する開始タイミングを示してもよいし、文字情報の表示を終了する終了タイミングを示してもよいし、その中間のタイミングを示してもよい。本実施形態では、開始タイミングが表示タイミングとして用いられる場合を説明するが、図４に示すように、終了タイミング及び表示時間の長さもタイミングデータに格納されていてよい。なお、表示時間の長さは、文字情報によって異なってもよいし、全ての文字情報で共通であってもよい。

　なお、タイミングデータに予め設定されている表示タイミングは、後述する表示タイミング決定部１０４により調整されるので、本実施形態では、調整前の表示タイミングを「仮の表示タイミング」と記載し、調整後の表示タイミングを「最終的な表示タイミング」と記載する。後述する表示タイミング決定部１０４は、仮の表示タイミングの変更し、音声の出力タイミングと全体的に合うような最終的な表示タイミングを見つけることになる。

　以降、文字情報をｉ（ｉ＝１～Ｎ_ｉの整数。Ｎ_ｉは、文字情報の総数。）と記載し、タイミングデータに格納された仮の表示タイミングの集合を｛ｘ_ｉ｝と記載する。例えば、図４のように、各文字情報に対し、時系列順に文字情報ＩＤを１から順番に付与する場合には、ｉの数値は、文字情報ＩＤを示すことになる。先述したように、本実施形態では、文字情報ｉの表示が開始される開始タイミングが、当該文字情報ｉの仮の表示タイミングｘ_ｉとなる。

［２－３．データ記憶部］
　データ記憶部１０２は、記憶部１２を主として実現される。データ記憶部１０２は、音声格納データとタイミングデータとを記憶する。本実施形態では、音声格納データごとにタイミングデータが用意されているので、データ記憶部１０２は、これらの組み合わせを記憶することになる。なお、データ記憶部１０２は、音声格納データ以外のデータを記憶してもよい。

［２－４．波形解析部］
　波形解析部１０３は、制御部１１を主として実現される。波形解析部１０３は、音声格納データの音声波形を解析し、各音声の出力タイミングを取得する。例えば、波形解析部１０３は、音声格納データに基づいて、周波数ごとの信号の強さを時系列的に示すスペクトログラムを生成する。スペクトログラムは、公知のソノグラフを利用して生成されるようにすればよく、例えば、バンドパスフィルタを利用してもよいし、短時間フーリエ変換を利用してもよい。なお、ソノグラフは、スペクトログラムの生成アルゴリズムを備えた機器の総称である。波形解析部１０３は、周波数ごとに、音声波形が示す強さ（振幅）の時系列的な変化を取得することによって、スペクトログラムを生成する。

　図５は、スペクトログラムの一例を示す図である。図５のスペクトログラムは、縦軸が周波数を示し、横軸が時間を示す。スペクトログラムは、各周波数の信号の強さをカラーで示すことが多いが、ここでは、各周波数の信号の強さを模式的にモノクロで示す。図５の例では、網点が濃い周波数帯域は音が強いことを示し、網点が薄い周波数帯域は音が弱いことを示す。

　波形解析部１０３は、スペクトログラムに基づくディープラーニング（機械学習の一種）を実行することにより、各音声の出力タイミングを取得する。ディープラーニングに必要な音声の特性を示すパターン情報は、データ記憶部１０２に記憶されているようにしてよい。例えば、波形解析部１０３は、音声に対応する周波数帯域（例えば、１００Ｈｚ～数千Ｈｚ程度）の強度が閾値以上である場合は、音声の出力中であると判定し、当該周波数帯域の強度が閾値未満である場合は、音声の出力中ではないと判定する。音声に対応する周波数帯域は、予め指定されていればよく、システム管理者の入力により可変であってよい。

　例えば、波形解析部１０３は、音声が出力中ではない状態から音声が出力中の状態に変化した場合、音声を一意に識別する音声ＩＤを発行し、当該音声ＩＤにより識別される音声の出力の開始タイミングであると判定する。そして、波形解析部１０３は、音声が出力中の状態から出力中ではない状態に変化した場合、当該音声ＩＤにより識別される音声の出力の終了タイミングであると判定する。開始タイミングから終了タイミングまでの期間は、当該音声ＩＤにより識別される音声が出力される期間となる。先述したように、本実施形態では、音声の開始タイミングが出力タイミングとして用いられる場合を説明するが、終了タイミング及び出力期間の長さも保持されるようにしてもよい。

　以降、音声をｊ（ｊ＝１～Ｎ_ｊの整数。Ｎ_ｊは、音声の総数。）と記載し、出力タイミングの集合を｛ｙ_ｊ｝と記載する。例えば、各音声に対し、時系列順に音声ＩＤを１から順番に付与する場合には、ｊの数値は、音声ＩＤを示すことになる。本実施形態では、開始タイミングを出力タイミングとして用いるので、音声ｊの出力が開始されるタイミングが、当該音声ｊの出力タイミングｙ_ｊとなる。

［２－５．表示タイミング決定部］
　表示タイミング決定部１０４は、制御部１１を主として実現される。表示タイミング決定部１０４は、波形解析部１０３により取得された各音声の出力タイミング｛ｙ_ｊ｝と、タイミングデータにより定まる各文字情報の仮の表示タイミング｛ｘ_ｉ｝と、に基づいて、各文字情報の最終的な表示タイミングを決定する。

　表示タイミング決定部１０４は、各音声の出力タイミング｛ｙ_ｊ｝と、各文字情報の仮の表示タイミング｛ｘ_ｉ｝と、に基づいて、一致度情報を取得し、一致度情報が示す一致度が高くなるように、仮の表示タイミング｛ｘ_ｉ｝を変更し、最終的な表示タイミングを決定する。一致度情報は、タイミング的にどの程度一致しているかを示す指標である。別の言い方をすれば、一致度情報は、タイミング的なずれ具合を示す指標である。一致度情報は、各音声の出力タイミング｛ｙ_ｊ｝と、後述する変更量により変更される前又は後の各文字情報の仮の表示タイミング｛ｘ_ｉ｝との一致度を示してもよい。

　例えば、一致度情報が示す一致度が高いほど（即ち、一致度が示すずれ具合が小さいほど）タイミングが合っていることを示し、一致度情報が示す一致度が低いほど（即ち、一致度が示すずれ具合が大きいほど）タイミングが合っていないことを示す。一致度情報は、数値により示される。一致度情報は、出力タイミング｛ｙ_ｊ｝と仮の表示タイミング｛ｘ_ｉ｝との時間差に基づいて算出され、これらを変数とする数式に基づいて算出される。この数式は、データ記憶部１０２に記憶されているものとする。

　例えば、表示タイミング決定部１０４は、各文字情報の仮の表示タイミングの変更量を複数取得し、複数の変更量の中から、一致度情報が示す一致度が最も高い変更量を選択する。この変更量は、仮の表示タイミング｛ｘ_ｉ｝のタイミング的な移動量であり、時間的にどれだけ前後させるかを示す。文字情報ごとに変更量が異なってもよいし、文字情報全体として共通の変更量が用いられてもよい。本実施形態では、文字情報全体として共通の変更量が用いられる場合を説明する。変更量は、少なくとも１つの数値により示されてよく、例えば、下記の数式１のａ及びｂの係数が変更量として用いられるようにしてよい。

　数式１の左辺は、変更量である係数ａ及びｂにより変更された後の仮の表示タイミングを示す。即ち、Ｔ（ｘ_ｉ）は、最終的な表示タイミングの候補である。数式１の右辺の係数ａは、仮の表示タイミング｛ｘ_ｉ｝の個々の間隔の変更量である。係数ａを変更すると、文字情報全体の表示時間が伸びるため、係数ａは、文字情報のスケールを示す。一方、係数ｂは、仮の表示タイミング｛ｘ_ｉ｝を全体的にシフトする場合の移動量である。係数ｂを変更すると、文字情報が全体的に前又は後の何れかに移動するため、係数ｂは、平行移動量を示す。

　上記説明したように、表示タイミング決定部１０４は、仮の表示タイミング｛ｘ_ｉ｝の変更量である係数ａ及びｂの組み合わせを複数取得することになる。複数の組み合わせの各々は、係数ａ及びｂの少なくとも一方の値が他の組み合わせと異なっている。係数ａ及びｂの組み合わせの取得方法自体は、公知のサンプル抽出方法を適用可能であり、例えば、ＲＡＮＳＡＣ（Random sample consensus）に基づいて抽出してもよいし、係数ａ及びｂの組み合わせが予めシステム管理者により指定されているようにしてよい。なお、組み合わせの取得数は任意であってよく、例えば、数十～数百程度のサンプルが抽出されてよい。

　表示タイミング決定部１０４は、変更量ごとに、変更後の各文字情報の仮の表示タイミング｛Ｔ（ｘ_ｉ）｝と、各音声の出力タイミング｛ｙ_ｊ｝と、の一致度に関する一致度情報を取得する。一致度情報は、変更後の仮の表示タイミング｛Ｔ（ｘ_ｉ）｝と出力タイミング｛ｙ_ｊ｝とを変数とする数式に基づいて算出される。当該数式は、データ記憶部１０２に記憶されているものとする。本実施形態では、下記の数式２を例に挙げる。

　数式２の左辺は、一致度情報である。一致度情報Ｄは、変更量である係数ａ及びｂによって変わるので、当該変更量による変更後の各文字情報の仮の表示タイミングＴが変数となっている。このため、一致度情報Ｄは、変更量である係数ａ及びｂの組み合わせごとに算出される。

　また、数式２の右辺第１項に示すように、表示タイミング決定部１０４は、文字情報ごとに、当該文字情報の仮の表示タイミングＴ（ｘ_ｉ）と、当該仮の表示タイミングＴ（ｘ_ｉ）に最も近い出力タイミング｛ｙ_ｊ｝と、の一致度に関する個別一致度情報ｄ_１を取得する。例えば、表示タイミング決定部１０４は、ある変更量による変更後の仮の表示タイミングＴ（ｘ_ｉ）ごとに、当該仮の表示タイミングＴ（ｘ_ｉ）に最も近い出力タイミング｛ｙ_ｊ｝との距離（即ち、時間差）を、個別一致度情報ｄ_１として取得する。そして、表示タイミング決定部１０４は、当該個別一致度情報ｄ_１の総和を取得することになる。

　また例えば、数式２の右辺第２項に示すように、表示タイミング決定部１０４は、音声ごとに、当該音声の出力タイミング｛ｙ_ｊ｝と、当該出力タイミング｛ｙ_ｊ｝に最も近い文字情報の仮の表示タイミングＴ（ｘ_ｉ）と、の一致度を示す個別一致度情報ｄ_２を取得する。例えば、表示タイミング決定部１０４は、音声の出力タイミング｛ｙ_ｊ｝ごとに、当該出力タイミング｛ｙ_ｊ｝に最も近い変更後の仮の表示タイミングＴ（ｘ_ｉ）との距離（即ち、時間差）を、個別一致度情報ｄ_２として取得する。そして、表示タイミング決定部１０４は、当該個別一致度情報ｄ_２の総和を取得することになる。

　数式２に示すように、表示タイミング決定部１０４は、文字情報ごとに取得される個別一致度情報ｄ_１の総和（右辺第１項）と、音声ごとに取得される個別一致度情報ｄ_２の総和（右辺第２項）と、を取得する。左辺に示される一致度情報は、全体的なタイミングの一致度を示すので、以降では全体一致度情報Ｄと記載する。即ち、全体一致度情報Ｄは、タイミングの全体的な一致度を示す情報である。ここでは、一致度情報Ｄの数値が小さいほど一致度が高く（ずれが小さく）、一致度情報Ｄの数値が大きいほど一致度が低い（ずれが大きい）ことを示している。

　例えば、表示タイミング決定部１０４は、一致度情報Ｄが示す一致度が最も高い変更量に基づいて、各文字情報の最終的な表示タイミングを決定する。本実施形態では、表示タイミング決定部１０４は、係数ａ及びｂの組み合わせのうち、全体一致度情報Ｄの数値が最も小さい（一致度が最も高い）組み合わせに基づいて変更した仮の表示タイミングＴ（ｘ_ｉ）を、最終的な表示タイミングとして取得する。

　また例えば、本実施形態では、文字情報ごとに個別一致度情報ｄ_１が取得されるので、表示タイミング決定部１０４は、文字情報ごとに取得した個別一致度情報ｄ_１に基づいて、各文字情報の最終的な表示タイミングを決定することになる。更に例えば、本実施形態では、音声ごとに個別一致度情報ｄ_２が取得されるので、表示タイミング決定部１０４は、音声ごとに取得した個別一致度情報ｄ_２に基づいて、各文字情報の最終的な表示タイミングを決定することになる。

　図６は、最終的な表示タイミングが取得される様子を示す図である。図６に示すｔ軸は時間軸であり、一部の音声の出力タイミングｙ_１～ｙ_４と、一部の文字情報の表示タイミングｘ_１～ｘ_４と、を示している。例えば、種々の係数ａ及びｂの組み合わせのうち、係数ａが１．０５であり、かつ、係数ｂが－２．０である場合に、全体一致度情報Ｄが示す一致度が最も高くなるものとする。図６に示すように、音声の出力タイミング｛ｙ_ｊ｝と、各文字情報の仮の表示タイミング｛ｘ_ｉ｝と、のずれがあったとしても、一致度が最も高い全体一致度情報Ｄにより仮の表示タイミング｛ｘ_ｉ｝が変更されることによって、タイミング的なずれが小さくなる。

　なお、本実施形態では、各文字情報の開始タイミングが表示タイミングに相当する場合を説明するが、表示タイミング決定部１０４は、各文字情報の終了タイミング及び表示時間も、開始タイミングの変更に合わせて変更してもよい。例えば、表示タイミング決定部１０４は、全体一致度情報Ｄが示す一致度が最も高くなる変更量に応じて終了タイミング及び表示時間を変更してもよい。また、表示タイミング決定部１０４は、表示時間は変えずに、変更後の開始タイミングと同じ量だけ終了タイミングをずらしてもよい。

［３．本実施形態において実行される処理］
　図７は、サーバ１０において実行される処理の一例を示すフロー図である。図７に示す処理は、図３に示す機能ブロックにより実行される処理の一例であり、制御部１１が、記憶部１２に記憶されたプログラムに従って動作することによって実行される。なお、図７に示す処理は、所定の条件が満たされた場合に実行されるようにすればよく、例えば、音声格納データとタイミングデータがサーバ１０に登録された場合に実行されてもよいし、システム管理者の指示などの任意のタイミングで実行されてもよい。

　図７に示すように、まず、制御部１１は、記憶部１２に記憶された音声格納データを取得する（Ｓ１）。制御部１１は、Ｓ１で取得した音声格納データに基づいて、スペクトログラムを生成する（Ｓ２）。Ｓ２においては、先述したように、制御部１１は、ソノグラフを利用して音声格納データに対して周波数解析を行い、周波数ごとの信号の強さを時系列的に取得することによって、スペクトログラムを生成する。

　制御部１１は、Ｓ２で生成したスペクトログラムに基づいて、各音声の出力タイミング｛ｙ_ｊ｝を取得する（Ｓ３）。Ｓ３においては、制御部１１は、音声格納データの再生時間の最初から時系列順に、所定の周波数帯域の音の強さが閾値以上となる時間を探索することによって、音声の出力を開始する開始タイミングを取得する。制御部１１は、最初の音声の開始タイミングを取得すると、当該音声に音声ＩＤ＝１を付与する。次いで、制御部１１は、所定の周波数帯域の音の強さが閾値未満となる時間を探索することによって、音声の出力を終了する終了タイミングを取得する。制御部１１は、最初の音声の終了タイミングを取得すると、当該終了タイミング及び最初の音声の出力時間を記憶部１２に保持してよい。以降、制御部１１は、音声格納データの再生時間の最後まで、上記の処理を繰り返し、音声の開始タイミングを見つけるたびに、音声ＩＤをインクリメントして、その開始タイミング等を記憶部１２に保持する。

　制御部１１は、記憶部１２に記憶されたタイミングデータを取得する（Ｓ４）。制御部１１は、文字情報の表示タイミングの変更量を複数取得する（Ｓ５）。Ｓ５においては、先述したように、制御部１１は、ＲＡＮＳＡＣを利用して、係数ａ及びｂの組み合わせを一定数以上取得する。

　制御部１１は、Ｓ５で取得した変更量ごとに、全体一致度情報Ｄを取得する（Ｓ６）。Ｓ６においては、制御部１１は、先述した数式１及び２を利用して、変更量ごとに全体一致度情報Ｄを取得して記憶部１２に保持する。

　制御部１１は、全体一致度情報Ｄに基づいて、文字情報の最終的な表示タイミングを決定し（Ｓ７）、本処理は終了する。Ｓ７においては、制御部１１は、全体一致情報が示す一致度が最も高い変更量により変更される仮の表示タイミングＴ（ｘ_ｉ）が最終的な表示タイミングとなるように、タイミングデータを更新する。即ち、制御部１１は、当該変更量により変更された仮の表示タイミングＴ（ｘ_ｉ）に基づいて、タイミングデータを上書きする。これにより、サーバ１０は、音声格納データと、最終的な表示タイミングが決定されたタイミングデータと、に基づいて、音声格納データの再生及び文字情報の表示制御を実行可能となる。

　以上説明した表示タイミング決定システム１によれば、音声格納データに対する音声波形の解析により得られる各音声の出力タイミングと、各文字情報の仮の表示タイミングと、に基づいて、各文字情報の最終的な表示タイミングが決定されるので、音声の出力タイミングと文字の表示タイミングとを合わせることができる。音声波形は、音声格納データさえあれば解析可能なので、例えば、番組のジャンルコードのような情報が無かったとしても、音声の出力タイミングと文字の表示タイミングとを合わせることができる。別の言い方をすれば、番組のジャンルコードが存在しない音声格納データであっても、音声の出力タイミングと文字の表示タイミングとを合わせることができる。

　また、表示タイミング決定システム１は、仮の表示タイミングの複数の変更量の中からタイミング的な一致度が最も高い変更量に基づいて最終的な表示タイミングを決定する。即ち、表示タイミング決定システム１は、文字情報ごとに別個の変更量を計算するのではなく、全体的にタイミングの合う変更量（各文字情報に共通の変更量）を決定するため、より簡易的な処理によって、サーバ１０の処理負荷を軽減しつつ、タイミングが合った表示タイミングを迅速に取得することができる。

　また、文字情報ごとに個別一致度情報ｄ_１が取得されることにより、文字情報の表示タイミングの個々の一致度を考慮して、文字情報の最終的な表示タイミングを決定することができる。このため、音声と文字情報のタイミング合わせの精度をより高めることができる。

　また、音声ごとに個別一致度情報ｄ_２が取得されることにより、音声の出力タイミングの個々の一致度を考慮して、文字情報の最終的な表示タイミングを決定することができる。このため、音声と文字情報のタイミング合わせの精度をより高めることができる。

［４．変形例］
　なお、本発明は、以上に説明した実施の形態に限定されるものではない。本発明の趣旨を逸脱しない範囲で、適宜変更可能である。

　（１）例えば、実施形態では、全ての文字情報に対して個別一致度情報ｄ_１が取得されたが、タイミングデータに仮の表示タイミング｛ｘ_ｉ｝が格納されている複数の文字情報の中に、音声以外の情報を示す文字情報が含まれている場合には、対応する音声が存在しないので、この文字情報に対しては、個別一致度情報ｄ_１が取得されないようにしてもよい。

　音声以外の情報を示す文字情報は、対応する音声が存在しない文字情報であり、例えば、説明文、タイトル、又は注釈などである。例えば、音声格納データが動画データであれば、動画に写された場所の名前、登場人物の役職・氏名、役者名、又は映画・番組・アニメ・曲のタイトルなどが、音声以外の情報を示す文字情報に相当する。このような文字情報が存在する場合、当該文字情報についても表示タイミングを識別する必要があるので、タイミングデータには、当該文字情報の仮の表示タイミングも格納される。

　図８は、音声以外の情報を示す文字情報の仮の表示タイミングを示す図である。図８に示すように、仮の表示タイミングがｘ_１２とｘ_１４の文字情報は、動画中の場所や登場人物の役職を示す説明文であり、所定時間以内に音声の出力タイミングが存在しないので、対応する音声が存在しない。このような文字情報は、そもそも対応する音声が存在せずタイミングを合わせる必要がないので、個別一致度情報ｄ_１を取得するとノイズになってしまう。このため、表示タイミング決定部１０４は、音声以外の情報を示す文字は、個別一致度情報ｄ_１の取得対象から除外する。

　例えば、表示タイミング決定部１０４は、仮の表示タイミング｛ｘ_ｉ｝の所定時間以内に出力タイミング｛ｙ_ｊ｝が存在するかを判定する。表示タイミング決定部１０４は、所定時間以内に出力タイミング｛ｙ_ｊ｝が存在する仮の表示タイミング｛ｘ_ｉ｝は、対応する音声が存在すると判定し、所定時間以内に出力タイミング｛ｙ_ｊ｝が存在しない仮の表示タイミング｛ｘ_ｉ｝は、対応する音声が存在しないと判定する。表示タイミング決定部１０４は、対応する音声が存在する文字情報だけ、実施形態で説明した方法と同様に個別一致度情報ｄ_１を取得し、対応する音声が存在しない文字情報は、個別一致度情報ｄ_１を取得しない。

　変形例（１）によれば、音声以外の情報を示す文字は個別一致度情報ｄ_１の取得対象から除外されるので、タイミングの一致度を判定する際のノイズを低減することができ、音声と文字情報のタイミング合わせの精度をより向上させることができる。

　（２）また例えば、実施形態では、全ての音声に対して個別一致度情報ｄ_２が取得されたが、音声格納データに格納された複数の音声の中に、対応する文字情報がない音声が含まれている場合には、個別一致度情報ｄ_２が取得されないようにしてもよい。

　対応する文字情報がない音声は、当該音声を示す文字情報が存在しない音声であり、例えば、感動詞、相槌、叫び声、又は悲鳴などである。別の言い方をすれば、対応する文字がない音声は、当該音声が出力されても文字情報が表示されない音声である。音声波形の解析では、対応する文字情報があるか否かは関係ないので、波形解析部１０３は、このような音声であったとしても、音声の出力タイミングを取得してしまうことになる。

　図９は、対応する文字のない音声の出力タイミングを示す図である。図９に示すように、出力タイミングがｙ_２２，ｙ_２３の音声は、感動詞や掛け声などであり、対応する文字情報が存在しない。このような音声は、そもそもタイミングを合わせるべき文字情報が存在しないので、個別一致度情報ｄ_２を取得するとノイズになってしまう。このため、表示タイミング決定部１０４は、対応する文字がない音声は、個別一致度情報ｄ_２の取得対象から除外する。

　例えば、表示タイミング決定部１０４は、出力タイミング｛ｙ_ｊ｝の所定時間以内に仮の表示タイミング｛ｘ_ｉ｝が存在するかを判定する。表示タイミング決定部１０４は、所定時間以内に仮の表示タイミング｛ｘ_ｉ｝が存在する出力タイミング｛ｙ_ｊ｝は、対応する文字情報が存在すると判定し、所定時間以内に仮の表示タイミング｛ｘ_ｉ｝が存在しない出力タイミング｛ｙ_ｊ｝は、対応する音声が存在しないと判定する。表示タイミング決定部１０４は、対応する文字情報が存在する音声だけ、実施形態で説明した方法と同様に個別一致度情報ｄ_２を取得し、対応する文字情報が存在しない音声は、個別一致度情報ｄ_２を取得しない。

　変形例（２）によれば、対応する文字情報がない音声は個別一致度情報ｄ_２の取得対象から除外されるので、タイミングの一致度を判定する際のノイズを低減することができ、音声と文字情報のタイミング合わせの精度をより向上させることができる。

　（３）また例えば、音声に対応する文字情報が存在しなかったり、文字情報に対応する音声が存在しなかったりすると、タイミングのずれが非常に大きな個別一致度情報ｄ_１，ｄ_２が存在することがある。このような個別一致度情報ｄ_１，ｄ_２をそのまま加算して全体一致度情報Ｄが取得されると、他の部分のタイミングが合っていたとしても、全体としてタイミングが合っていないことになってしまう。このため、ある一定以上のずれを示す個別一致度情報ｄ_１，ｄ_２については、そのずれを低減させたうえで全体一致度情報Ｄが計算されるようにしてよい。

　本変形例でも、実施形態で説明したように、表示タイミング決定部１０４は、個別一致度情報ｄ_１，ｄ_２により定まる全体的な一致度に関する全体一致度情報Ｄに基づいて、各文字の最終的な表示タイミングを決定することになる。ただし、本変形例の表示タイミング決定部１０４は、一致度が閾値未満の個別一致度情報ｄ_１，ｄ_２は、当該一致度を増加させたうえで、全体一致度情報Ｄを取得する。

　例えば、表示タイミング決定部１０４は、個別一致度情報ｄ_１，ｄ_２の数値が閾値未満（即ち、一致度が閾値以上）である場合は、下記の数式３により最終的な個別一致度情報ｄ_１，ｄ_２を再取得し、個別一致度情報ｄ_１，ｄ_２の数値が閾値以上（即ち、一致度が閾値未満）である場合は、下記の数式４により最終的な個別一致度情報ｄ_１，ｄ_２を再取得する。なお、下記の数式３及び４では、個別一致度情報ｄ_１，ｄ_２をそれぞれｄで示し、閾値をｃで示す。

　なお、表示タイミング決定部１０４が個別一致度情報ｄ_１，ｄ_２が示す一致度を増加させる方法は、数式３及び４に限られない。表示タイミング決定部１０４は、一致度が閾値未満の個別一致度情報ｄ_１，ｄ_２については、その一致度が上がるように変化すればよく、例えば、個別一致度情報ｄ_１，ｄ_２を変数とした数式により変化量が算出されてもよいし、個別一致度情報ｄ_１，ｄ_２を一律で所定値にしてもよい。表示タイミング決定部１０４は、一致度が閾値未満の個別一致度情報ｄ_１，ｄ_２が全体一致度情報Ｄに与える影響を低減するように、当該個別一致度情報ｄ_１，ｄ_２の一致度を上げるようにすればよい。

　変形例（３）によれば、一致度が閾値未満の個別一致度情報ｄ_１，ｄ_２は、その一致度を増加させたうえで全体一致度情報Ｄが取得されるので、一部の低い個別一致度情報ｄ_１，ｄ_２のために、全体としてタイミングが一致していないとみなされることを防止することができる。その結果、音声と文字情報のタイミング合わせの精度を向上させることができる。

　（４）また例えば、音声格納データに、複数の音声と、音声以外の音と、を含む複数の音が格納されている場合、波形パターンの傾向により、各音が音声を示すか他の音を示すかを推測可能である。このため、音が音声である確率を考慮して全体一致度情報Ｄが取得されるようにしてもよい。なお、本変形例において、波形解析部１０３が音声格納データに格納された複数の音の各々の出力タイミングを取得する方法は、実施形態で説明した方法と同様であってよい。

　表示タイミング決定部１０４は、音ごとに、当該音が音声である確率に関する確率情報を取得する。表示タイミング決定部１０４は、音声格納データの音声波形を解析することによって、確率情報を取得する。確率情報の取得方法自体は、公知の手法を適用可能であり、例えば、ＶＡＤ（Voice Activity Detection）分類を利用してよい。例えば、音声波形の基本パターンをデータ記憶部１０２に記憶しておき、表示タイミング決定部１０４は、当該基本パターンと、音声格納データが示す音声波形と、の一致度に基づいて確率情報を取得してもよい。確率情報は、数値で示され、例えば、０以上１以下の数値で示されてよい。ここでは、確率情報が示す数値が０に近いほど、音声である確率が低く、確率情報が示す数値が１に近いほど、音声である確率が高いことを示すものとする。

　表示タイミング決定部１０４は、音ごとに取得された確率情報に更に基づいて、各文字情報の最終的な表示タイミングを決定する。例えば、表示タイミング決定部１０４は、下記の数式５に基づいて、全体一致度情報Ｄを取得するようにしてよい。なお、下記の数式５では、確率情報をｃ（ｙ_ｊ）で示す。全体一致度情報Ｄに基づいて最終的な表示タイミングを決定する方法自体は、実施形態で説明した方法と同様である。

　なお、表示タイミング決定部１０４が確率情報に基づいて文字情報の最終的な表示タイミングを決定する方法は、上記の例に限られない。例えば、数式５以外の数式を用いてもよく、表示タイミング決定部１０４は、確率情報の低い音声に基づく個別一致度情報ｄ_１，ｄ_２が全体一致度情報Ｄに与える影響を低くし、確率情報の高い音声に基づく個別一致度情報ｄ_１，ｄ_２が全体一致度情報Ｄに与える影響を高くすればよく、確率情報に基づいて、全体一致度情報Ｄを取得する際の重み付けが行われるようにすればよい。他にも例えば、表示タイミング決定部１０４は、確率情報が閾値未満の音声の出力タイミングは、全体一致度情報Ｄを算出する際に参照しないようにしてもよい。

　変形例（４）によれば、音声であるか否かの確率情報を利用して文字情報の最終的な表示タイミングが決定されるので、音声と文字情報のタイミング合わせの精度をより向上させることができる。

　（５）また例えば、実施形態では、複数の変更量の全てについて全体一致度情報Ｄを計算し、最も一致度の高い変更量を探す場合を説明したが、タイミングが合っている変更量は、その次にタイミングが合っている変更量と、全体一致度情報Ｄの差が大きいことがある。このため、このような変更量が見つかった時点で変更量の探索を停止してもよい。

　実施形態で説明したように、本変形例でも、表示タイミング決定部１０４は、各文字の仮の表示タイミングの変更量を繰り返し取得可能であり、変更量ごとに、変更後の各文字の仮の表示タイミング｛ｘ_ｉ｝と、各音声の出力タイミング｛ｙ_ｊ｝と、の全体的な一致度を示す全体一致度情報Ｄを取得するようにしてよい。

　本変形例の表示タイミング決定部１０４は、一致度が最も高い全体一致度情報Ｄと、一致度が２番目に高い全体一致度情報Ｄと、の差が閾値未満である場合は、新たな変更量を取得し、取得した新たな変更量に基づいて、全体一致度情報Ｄを取得する。例えば、表示タイミング決定部１０４は、全体一致度情報Ｄを取得するたびに、過去に取得した全体一致度情報Ｄと比較し、一致度が最も高いかを判定する。そして、表示タイミング決定部１０４は、一致度が最も高いと判定した場合、最新の全体一致度情報Ｄ（即ち、一致度が最も高い全体一致度情報Ｄ）と、その次に一致度の高い全体一致度情報Ｄと、の差が閾値未満であるかを判定する。閾値は、予め定められた値であればよく、固定値であってもよいし、可変値であってもよい。表示タイミング決定部１０４は、差が閾値未満であれば、実施形態で説明した方法と同様にして、次の変更量に対応する全体一致度情報Ｄを取得することになる。

　一方、表示タイミング決定部１０４は、差が閾値以上である場合は、新たな変更量は取得せず、一致度が最も小さい全体一致度情報Ｄに対応する変更量に基づいて、各文字情報の最終的な表示タイミングを決定する。即ち、表示タイミング決定部１０４は、差が閾値以上の全体一致度情報Ｄが存在する場合、それ以上の全体一致度情報Ｄの取得は実行せず、その時点で一致度が最も高い全体一致度情報Ｄに基づいて、最終的な表示タイミングを決定する。なお、表示タイミング決定部１０４は、全ての変更量に対応する全体一致度情報Ｄを取得しても、差が閾値以上にならなかった場合は、その時点で最も一致度の高い全体一致度情報Ｄに対応する変更量に基づいて、最終的な表示タイミングを決定してよい。

　変形例（５）によれば、ある程度タイミングの合う変更量が見つかった時点で変更量の取得が停止されるので、不必要な処理を実行する必要がなくなり、最終的な表示タイミングをより迅速に見つけることが可能になるとともに、サーバ１０の処理負荷を軽減することができる。

　（６）また例えば、各音声の波形パターンの傾向から、音声の発声者が男性であるか女性であるかを特定可能である。各文字情報に、男性の音声であるか女性の音声であるかを関連付けて記録しておき、発声者に関する情報を利用して各文字情報の表示タイミングが決定されてもよい。

　図１０は、変形例における機能ブロック図である。図１０に示すように変形例では、実施形態で説明した機能の他に、音声発声者情報取得部１０５と文字発声者情報取得部１０６とが実現される。これらは、制御部１１を主として実現される。

　音声発声者情報取得部１０５は、各音声に対応する発声者に関する音声発声者情報を取得する。音声発声者情報は、音声の発声者の特性を示し、例えば、発声者の性別又は年齢である。ここでは、音声発声者情報が発声者の性別を示す場合を説明する。男性の声は女性の声よりも周波数が低いため、音声発声者情報取得部１０５は、スペクトログラムが示す音声の周波数に基づいて、音声発声者情報を取得するようにしてよい。

　文字発声者情報取得部１０６は、各文字に対応する発声者に関する文字発声者情報を取得する。文字発声者情報は、文字情報が示す音声の発声者の特性を示し、例えば、発声者の性別又は年齢である。ここでは、文字発声者情報が発声者の性別を示す場合を説明する。文字発声者情報取得部１０６は、文字情報の入力者が指定した文字発声者情報を取得するようにしてよい。この場合、タイミングデータにおいて、文字情報ＩＤに関連付けて文字発声者情報が格納されているようにしてよい。

　表示タイミング決定部１０４は、各音声の音声発声者情報と各文字情報の文字発声者情報とに更に基づいて、各文字情報の最終的な表示タイミングを決定する。例えば、表示タイミング決定部１０４は、各文字情報の仮の表示タイミングと比較する出力タイミングを探す場合に、当該文字情報の文字発声者情報と音声発声者情報とが一致する出力タイミングを特定する。そして、表示タイミング決定部１０４は、当該特定した出力タイミングと仮の表示タイミングとを比較することになる。

　変形例（６）によれば、音声発声者情報と文字発声者情報とを利用することによって、音声と文字情報との対応関係を見つけやすくなるので、音声と文字情報のタイミング合わせの精度をより向上させることができる。

　（７）また例えば、実施形態及び上記変形例では、音声の出力タイミングと、文字情報の表示タイミングと、をそれぞれの開始タイミングとしたが、他の情報によって、音声の出力タイミングと文字情報の表示タイミングとが特定されるようにしてもよい。例えば、音声の出力タイミングの時間差を第１の配列に格納し、文字情報の表示タイミングの時間差を第２の配列に格納することによって、音声の出力タイミングと文字情報の表示タイミングとが特定されるようにしてもよい。この場合、表示タイミング決定部１０４は、第２の配列に格納された時間差を変更することによって、各文字情報の最終的な表示タイミングを決定する。

　また例えば、全体一致度情報Ｄは、全体的なタイミングの一致度を示せばよく、時間差の総和ではなく、タイミングのずれが閾値未満である文字情報又は音声の数を示してもよい。また例えば、実施形態では、複数の変更量を取得して、変更量ごとに全体一致度情報Ｄが取得される場合を説明したが、他の方法に基づいて、各文字情報の最終的な表示タイミングが決定されてもよい。例えば、表示タイミング決定部１０４は、各文字情報の仮の表示タイミング｛ｘ_ｉ｝を、最も近い音声の出力タイミング｛ｙ_ｊ｝と一致又はずれが閾値未満となるように変更してもよい。即ち、表示タイミング決定部１０４は、全体的なタイミングの変更量ではなく、個別のタイミングの変更量に基づいて、各文字情報の仮の表示タイミング｛ｘ_ｉ｝を変更してもよい。この場合、特に全体一致度情報Ｄは取得されなくてもよい。

　また例えば、文字情報ごとに個別一致度情報ｄ_１が取得される場合を説明したが、音声ごとの個別一致度情報ｄ_２だけが取得されてもよいし、ランダムに選出した一部の文字情報だけに対して個別一致度情報ｄ_１が取得されるようにしてもよい。同様に、音声ごとに個別一致度情報ｄ_２が取得される場を説明したが、文字情報ごとの個別一致度情報ｄ_１だけが取得されてもよいし、ランダムに選出した一部の音声だけに対して個別一致度情報ｄ_２が取得されるようにしてもよい。

　また例えば、音声格納データ取得部１００、タイミングデータ取得部１０１、波形解析部１０３、及び表示タイミング決定部１０４は、ユーザ装置２０で実現されるようにしてもよい。この場合、これら各機能は、制御部２１を主として実現され、ユーザ装置２０が本発明に係る表示タイミング決定装置に相当する。他にも例えば、サーバ１０及びユーザ装置２０以外のコンピュータにおいて、音声格納データ取得部１００、タイミングデータ取得部１０１、波形解析部１０３、及び表示タイミング決定部１０４が実現されるようにしてもよい。この場合、当該コンピュータが本発明に係る表示タイミング決定装置に相当する。

Claims

　順次出力される複数の音声が格納された音声格納データを取得する音声格納データ取得手段と、
　前記音声格納データの再生中に順次表示され、それぞれ音声の内容を示す複数の文字情報の仮の表示タイミングに関するタイミングデータを取得するタイミングデータ取得手段と、
　前記音声格納データの音声波形を解析し、各音声の出力タイミングを取得する波形解析手段と、
　前記波形解析手段により取得された各音声の出力タイミングと、前記タイミングデータにより定まる各文字情報の仮の表示タイミングと、に基づいて、各文字情報の最終的な表示タイミングを決定する表示タイミング決定手段と、
　を含むことを特徴とする表示タイミング決定装置。
　前記表示タイミング決定手段は、
　各文字情報の仮の表示タイミングの変更量を複数取得し、
　前記変更量ごとに、変更後の各文字情報の仮の表示タイミングと、各音声の出力タイミングと、の一致度に関する一致度情報を取得し、
　前記一致度情報が示す一致度が最も高い前記変更量に基づいて、各文字情報の最終的な表示タイミングを決定する、
　ことを特徴とする請求項１に記載の表示タイミング決定装置。
　前記表示タイミング決定手段は、
　前記文字情報ごとに、当該文字情報の仮の表示タイミングと、当該仮の表示タイミングに最も近い前記出力タイミングと、の一致度に関する個別一致度情報を取得し、
　前記文字情報ごとに取得した前記個別一致度情報に基づいて、各文字情報の最終的な表示タイミングを決定する、
　ことを特徴とする請求項１又は２に記載の表示タイミング決定装置。
　前記複数の文字情報には、音声以外の情報を示す文字情報が含まれており、
　前記表示タイミング決定手段は、音声以外の情報を示す文字情報は、前記個別一致度情報の取得対象から除外する、
　ことを特徴とする請求項３に記載の表示タイミング決定装置。
　前記表示タイミング決定手段は、
　前記音声ごとに、当該音声の出力タイミングと、当該出力タイミングに最も近い前記文字情報の仮の表示タイミングと、の一致度を示す個別一致度情報を取得し、
　前記音声ごとに取得した前記個別一致度情報に基づいて、各文字情報の最終的な表示タイミングを決定する、
　ことを特徴とする請求項１～４の何れかに記載の表示タイミング決定装置。
　前記音声格納データには、対応する文字情報がない音声も格納されており、
　前記表示タイミング決定手段は、対応する文字情報がない音声は、前記個別一致度情報の取得対象から除外する、
　ことを特徴とする請求項５に記載の表示タイミング決定装置。
　前記音声格納データには、前記複数の音声と、音声以外の音と、を含む複数の音が格納されており、
　前記波形解析手段は、前記音声格納データに格納された複数の音の各々の出力タイミングを取得し、
　前記表示タイミング決定手段は、
　前記音ごとに、当該音が音声である確率に関する確率情報を取得し、
　前記音ごとに取得された前記確率情報に更に基づいて、各文字情報の最終的な表示タイミングを決定する、
　ことを特徴とする請求項１～６の何れかに記載の表示タイミング決定装置。
　前記表示タイミング決定手段は、
　各文字情報の仮の表示タイミングの変更量を繰り返し取得可能であり、
　前記変更量ごとに、変更後の各文字情報の仮の表示タイミングと、各音声の出力タイミングと、の全体的な一致度を示す全体一致度情報を取得し、
　一致度が最も高い前記全体一致度情報と、一致度が２番目に高い前記全体一致度情報と、の差が閾値未満である場合は、新たな前記変更量を取得し、
　前記差が閾値以上である場合は、新たな前記変更量は取得せず、一致度が最も小さい前記全体一致度情報に対応する変更量に基づいて、各文字情報の最終的な表示タイミングを決定する、
　ことを特徴とする請求項１～７の何れかに記載の表示タイミング決定装置。
　前記表示タイミング決定装置は、
　各音声に対応する発声者に関する音声発声者情報を取得する音声発声者情報取得手段と、
　各文字情報に対応する発声者に関する文字情報発声者情報を取得する文字情報発声者情報取得手段と、
　を更に含み、
　前記表示タイミング決定手段は、各音声の前記音声発声者情報と各文字情報の前記文字情報発声者情報とに更に基づいて、各文字情報の最終的な表示タイミングを決定する、
　ことを特徴とする請求項１～８の何れかに記載の表示タイミング決定装置。
　順次出力される複数の音声が格納された音声格納データを取得する音声格納データ取得ステップと、
　前記音声格納データの再生中に順次表示され、それぞれ音声の内容を示す複数の文字情報の仮の表示タイミングに関するタイミングデータを取得するタイミングデータ取得ステップと、
　前記音声格納データの音声波形を解析し、各音声の出力タイミングを取得する波形解析ステップと、
　前記波形解析ステップにより取得された各音声の出力タイミングと、前記タイミングデータにより定まる各文字情報の仮の表示タイミングと、に基づいて、各文字情報の最終的な表示タイミングを決定する表示タイミング決定ステップと、
　を含むことを特徴とする表示タイミング決定方法。
　順次出力される複数の音声が格納された音声格納データを取得する音声格納データ取得手段、
　前記音声格納データの再生中に順次表示され、それぞれ音声の内容を示す複数の文字情報の仮の表示タイミングに関するタイミングデータを取得するタイミングデータ取得手段、
　前記音声格納データの音声波形を解析し、各音声の出力タイミングを取得する波形解析手段、
　前記波形解析手段により取得された各音声の出力タイミングと、前記タイミングデータにより定まる各文字情報の仮の表示タイミングと、に基づいて、各文字情報の最終的な表示タイミングを決定する表示タイミング決定手段、
　としてコンピュータを機能させるためのプログラム。