JPWO2019043871A1 - 表示タイミング決定装置、表示タイミング決定方法、及びプログラム - Google Patents

表示タイミング決定装置、表示タイミング決定方法、及びプログラム Download PDF

Info

Publication number
JPWO2019043871A1
JPWO2019043871A1 JP2017564153A JP2017564153A JPWO2019043871A1 JP WO2019043871 A1 JPWO2019043871 A1 JP WO2019043871A1 JP 2017564153 A JP2017564153 A JP 2017564153A JP 2017564153 A JP2017564153 A JP 2017564153A JP WO2019043871 A1 JPWO2019043871 A1 JP WO2019043871A1
Authority
JP
Japan
Prior art keywords
order
character information
ratio
display timing
timing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017564153A
Other languages
English (en)
Other versions
JP6295381B1 (ja
Inventor
ビヨン シュテンガー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rakuten Group Inc
Original Assignee
Rakuten Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Inc filed Critical Rakuten Inc
Application granted granted Critical
Publication of JP6295381B1 publication Critical patent/JP6295381B1/ja
Publication of JPWO2019043871A1 publication Critical patent/JPWO2019043871A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/04Synchronising
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/242Synchronization processes, e.g. processing of PCR [Program Clock References]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)
  • Controls And Circuits For Display Device (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

表示タイミング決定装置(10,20)の第1の比率取得手段(102)は、音声ごとに、出力順が第1の順番だけ異なる音声に係る出力タイミングの間隔に対する、出力順が第2の順番だけ異なる音声に係る出力タイミングの間隔の第1の比率を取得する。第2の比率取得手段(104)は、文字情報ごとに、表示順が第1の順番又は第1の順番に対応する第3の順番だけ異なる文字情報に係る仮表示タイミングの間隔に対する、表示順が第2の順番又は前記第2の順番に対応する第4の順番だけ異なる文字情報に係る仮表示タイミングの間隔の第2の比率を取得する。特定手段(105)は、各音声の第1の比率と各文字情報の第2の比率とに基づいて、各音声と各文字情報との対応関係を特定する。表示タイミング決定手段(106)は、対応関係に基づいて、各文字情報の最終的な表示タイミングを決定する。

Description

本発明は、表示タイミング決定装置、表示タイミング決定方法、及びプログラムに関する。
従来、順次出力される複数の音声が格納された音声格納データ(例えば、動画データ)の再生中において、各音声が出力されるたびに、当該音声を示す文字情報(例えば、字幕)を表示させる技術が知られている。
例えば、特許文献1には、生放送のテレビ番組において、出演者の音声を示す文字情報を作成して視聴者に提供するシステムが記載されている。このシステムでは、生放送中の音声を聞いたテレビ関係者が手入力で文字を作成する。このため、各音声の出力タイミングの間隔と、各文字情報の表示タイミングの間隔と、が概ね合っていたとしても、手入力の時間だけ、文字情報の表示タイミングは、音声の出力タイミングに対して全体的に遅延する。この点、特許文献1の技術では、生放送のテレビ番組が録画される場合に、テレビ番組のジャンルコードに基づいて遅延時間を推測し、ジャンルコードに応じた遅延時間分だけ、録画時の文字の表示タイミングを全体的に早めている。
特開2008−172421号公報
特許文献1の技術では、テレビ番組のジャンルコードを利用して遅延時間を推定するので、ジャンルコードがなければ、音声の出力タイミングと文字情報の表示タイミングとを合わせることができない。この点、音声と文字情報の対応関係を特定することができれば、ジャンルコードのような情報がなくても、対応する音声の出力タイミングに合うように、文字情報の表示タイミングを調整することができる。
しかしながら、文字情報の作成後に音声格納データが変更された場合には、音声の出力タイミングが変更されるので、単純にタイミングが近いもの同士が対応しているとは限らなくなる。即ち、音声の出力タイミングは、音声格納データの変更に影響を受けてしまうので、音声の出力タイミングと文字情報の表示タイミングを比較しただけでは、音声と文字情報の対応関係を特定することは困難であり、音声の出力タイミングと文字情報の表示タイミングを合わせることができない。
本発明は上記課題に鑑みてなされたものであって、その目的は、音声格納データの変更に影響を受けずに音声と文字情報の対応関係を正確に特定し、音声の出力タイミングと文字情報の表示タイミングを合わせることである。
上記課題を解決するために、本発明に係る表示タイミング決定装置は、順次出力される複数の音声の各々の出力タイミングを取得する出力タイミング取得手段と、音声ごとに、出力順が第1の順番だけ異なる音声に係る出力タイミングの間隔に対する、出力順が第2の順番だけ異なる音声に係る出力タイミングの間隔の第1の比率を取得する第1の比率取得手段と、前記複数の音声の再生中に順次表示され、各音声の内容を示す文字情報の仮表示タイミングを取得する仮表示タイミング取得手段と、文字情報ごとに、表示順が前記第1の順番又は前記第1の順番に対応する第3の順番だけ異なる文字情報に係る仮表示タイミングの間隔に対する、表示順が前記第2の順番又は前記第2の順番に対応する第4の順番だけ異なる文字情報に係る仮表示タイミングの間隔の第2の比率を取得する第2の比率取得手段と、各音声の前記第1の比率と各文字情報の前記第2の比率とに基づいて、各音声と各文字情報との対応関係を特定する特定手段と、前記対応関係に基づいて、各文字情報の最終的な表示タイミングを決定する表示タイミング決定手段と、を含むことを特徴とする。
本発明に係る表示タイミング決定方法は、順次出力される複数の音声の各々の出力タイミングを取得する出力タイミング取得ステップと、音声ごとに、出力順が第1の順番だけ異なる音声に係る出力タイミングの間隔に対する、出力順が第2の順番だけ異なる音声に係る出力タイミングの間隔の第1の比率を取得する第1の比率取得ステップと、前記複数の音声の再生中に順次表示され、各音声の内容を示す文字情報の仮表示タイミングを取得する仮表示タイミング取得ステップと、文字情報ごとに、表示順が前記第1の順番又は前記第1の順番に対応する第3の順番だけ異なる文字情報に係る仮表示タイミングの間隔に対する、表示順が前記第2の順番又は前記第2の順番に対応する第4の順番だけ異なる文字情報に係る仮表示タイミングの間隔の第2の比率を取得する第2の比率取得ステップと、各音声の前記第1の比率と各文字情報の前記第2の比率とに基づいて、各音声と各文字情報との対応関係を特定する特定ステップと、前記対応関係に基づいて、各文字情報の最終的な表示タイミングを決定する表示タイミング決定ステップと、を含むことを特徴とする。
本発明に係るプログラムは、順次出力される複数の音声の各々の出力タイミングを取得する出力タイミング取得手段、音声ごとに、出力順が第1の順番だけ異なる音声に係る出力タイミングの間隔に対する、出力順が第2の順番だけ異なる音声に係る出力タイミングの間隔の第1の比率を取得する第1の比率取得手段、前記複数の音声の再生中に順次表示され、各音声の内容を示す文字情報の仮表示タイミングを取得する仮表示タイミング取得手段、文字情報ごとに、表示順が前記第1の順番又は前記第1の順番に対応する第3の順番だけ異なる文字情報に係る仮表示タイミングの間隔に対する、表示順が前記第2の順番又は前記第2の順番に対応する第4の順番だけ異なる文字情報に係る仮表示タイミングの間隔の第2の比率を取得する第2の比率取得手段、各音声の前記第1の比率と各文字情報の前記第2の比率とに基づいて、各音声と各文字情報との対応関係を特定する特定手段、前記対応関係に基づいて、各文字情報の最終的な表示タイミングを決定する表示タイミング決定手段、としてコンピュータを機能させる。
また、本発明に係る情報記憶媒体は、上記のプログラムが記憶されたコンピュータ読み取り可能な情報記憶媒体である。
また、本発明の一態様では、前記特定手段は、各音声の前記第1の比率と各文字情報の前記第2の比率との差の小ささに基づいて、前記対応関係を特定する、ことを特徴とする。
また、本発明の一態様では、前記特定手段は、各音声の前記第1の比率と各文字情報の前記第2の比率との差の小ささに基づいて、前記対応関係の候補を取得し、候補ごとに、当該候補が示す対応関係が正しい場合の仮表示タイミングの全体的な変更量を取得し、候補ごとに、当該候補に対応する前記変更量に基づいて各文字情報の仮表示タイミングを変更した場合の各音声の出力タイミングとのずれ具合を取得し、各候補のずれ具合に基づいて、候補の中から前記対応関係を特定する、ことを特徴とする。
また、本発明の一態様では、前記特定手段は、動的計画法を利用したアルゴリズムに基づいて、候補の中から前記対応関係を特定する、ことを特徴とする。
また、本発明の一態様では、前記表示タイミング決定手段は、前記対応関係が示す音声と文字情報の組み合わせの中からランダムにサンプルを抽出し、前記サンプルに基づいて、仮表示タイミングの全体的な変更量を取得し、前記変更量に基づいて各文字情報の仮表示タイミングを変更した場合の各音声の出力タイミングとのずれ具合を取得し、前記ずれ具合が閾値未満になるまで、前記サンプルの抽出と前記変更量の取得を繰り返す、ことを特徴とする。
また、本発明の一態様では、前記第1の比率取得手段は、音声ごとに、前記第1の順番と前記第2の順番の複数通りの組み合わせに基づいて複数の前記第1の比率を取得し、前記第2の比率取得手段は、文字情報ごとに、前記第1の順番又は前記第3の順番と、前記第2の順番又は前記第4の順番と、の複数通りの組み合わせに基づいて複数の前記第2の比率を取得し、前記特定手段は、各音声の前記複数の第1の比率と各文字情報の前記複数の第2の比率とに基づいて、前記対応関係を特定する、ことを特徴とする。
また、本発明の一態様では、前記第1の順番と前記第2の順番とは、互いに同じ所定数であり、前記第1の比率取得手段は、出力順が前記所定数だけ前の音声に係る出力タイミングの間隔に対する、出力順が前記所定数だけ後の音声に係る出力タイミングの間隔の前記第1の比率を取得し、前記第2の比率取得手段は、表示順が前記所定数だけ前の文字情報に係る仮表示タイミングの間隔に対する、表示順が前記所定数だけ後の文字情報に係る仮表示タイミングの間隔の前記第2の比率を取得する、ことを特徴とする。
また、本発明の一態様では、前記所定数は1であり、前記第1の比率取得手段は、出力順が1個前の音声に係る出力タイミングの間隔に対する、出力順が1個後の音声に係る出力タイミングの間隔の前記第1の比率を取得し、前記第2の比率取得手段は、表示順が1個前の文字情報に係る仮表示タイミングの間隔に対する、表示順が1個後の文字情報に係る仮表示タイミングの間隔の前記第2の比率を取得する、ことを特徴とする。
本発明によれば、音声格納データの変更に影響を受けずに音声と文字情報の対応関係を正確に特定し、音声の出力タイミングと文字情報の表示タイミングを合わせることが可能になる。
表示タイミング決定システムの全体構成を示す図である。 動画が再生される際に実行される処理の概要を示す図である。 字幕の表示タイミングと、音声の出力タイミングと、の関係を示す図である。 表示タイミング決定システムで実現される機能の一例を示す機能ブロック図である。 文字情報データのデータ格納例を示す図である。 スペクトログラムの一例を示す図である。 音声と文字情報との対応関係の特定方法を示す図である。 サーバにおいて実行される処理の一例を示すフロー図である。
[1.表示タイミング決定システムのハードウェア構成]
以下、本発明に関わる表示タイミング決定装置の一例であるサーバを含む表示タイミング決定システムの実施形態の例を説明する。図1は、表示タイミング決定システムの全体構成を示す図である。図1に示すように、表示タイミング決定システム1は、サーバ10及びユーザ装置20を含む。これら各装置は、それぞれ有線又は無線によりネットワークを介して通信可能に接続されるようにしてよい。
サーバ10は、サーバコンピュータであり、例えば、制御部11、記憶部12、及び通信部13を含む。制御部11は、少なくとも1つのプロセッサを含む。制御部11は、記憶部12に記憶されたプログラムやデータに従って処理を実行する。記憶部12は、主記憶部及び補助記憶部を含む。例えば、主記憶部はRAMなどの揮発性メモリであり、補助記憶部は、ハードディスクやフラッシュメモリなどの不揮発性メモリである。通信部13は、有線通信又は無線通信用の通信インタフェースを含み、例えば、ネットワークを介してデータ通信を行う。
ユーザ装置20は、ユーザが操作するコンピュータであり、例えば、パーソナルコンピュータ、携帯情報端末(タブレット型コンピュータを含む)、又は携帯電話機(スマートフォンを含む)等である。ユーザ装置20は、制御部21、記憶部22、通信部23、操作部24、表示部25、及び音声出力部26を含む。制御部21、記憶部22、及び通信部23のハードウェア構成は、それぞれ制御部11、記憶部12、及び通信部13と同様であってよい。
操作部24は、ユーザが操作を行うための入力デバイスであり、例えば、タッチパネルやマウス等のポインティングデバイスやキーボード等である。操作部24は、ユーザの操作内容を制御部21に伝達する。表示部25は、例えば、液晶表示部又は有機EL表示部等であり、動画や静止画などの各種画像を表示可能である。音声出力部26は、例えば、スピーカー・イヤホン・ヘッドホン等であり、各種音声を出力可能である。
なお、記憶部12,22に記憶されるものとして説明するプログラム及びデータは、ネットワークを介してこれらに供給されるようにしてもよい。また、サーバ10及びユーザ装置20のハードウェア構成は、上記の例に限られず、種々のコンピュータのハードウェアを適用可能である。例えば、サーバ10及びユーザ装置20は、それぞれコンピュータ読み取り可能な情報記憶媒体を読み取る読取部(例えば、光ディスクドライブやメモリカードスロット)や外部機器と直接的に接続するための入出力部(例えば、USBポートや映像入出力端子)を含んでもよい。この場合、情報記憶媒体に記憶されたプログラムやデータが読取部又は入出力部を介して、サーバ10又はユーザ装置20に供給されるようにしてもよい。
[2.表示タイミング決定システムが実行する処理の概要]
本実施形態では、サーバ10は、複数の動画を管理する。例えば、ユーザ装置20において、ユーザが視聴したい動画を指定すると、ダウンロード配信又はストリーミング配信により動画を視聴することができる。ユーザ装置20において動画が再生されると、動画とともに字幕が表示部25に表示され、音声出力部26から動画の音声が出力される。
図2は、動画が再生される際に実行される処理の概要を示す図である。図2では、動画をVidの符号で示し、動画の音声をVoiの符号で示し、字幕をSubの符号で示す。図2に示すように、サーバ10は、動画Vidと字幕Subをデータとして別々に管理している。なお、図2に示す字幕Subのt軸は時間軸であり、画面に表示される字幕を時系列順に示している。
本実施形態では、字幕Subは、動画Vidの中に埋め込まれているのではなく、動画Vidとは別物として管理されている。そして、動画Vidが表示される場合に、図2に示すように、動画Vidと字幕Subが合成される。これにより、動画の音声Voiが出力される場合に、当該音声Voiに対応する字幕Subが表示される。
例えば、サーバ10は、動画Vidのデータと字幕Subのデータとを別々にユーザ装置20に送信し、ユーザ装置20において、字幕Subと動画Vidとが合成される。また例えば、サーバ10は、ユーザが指定した動画Vidに字幕Subを合成したうえで、当該合成後の動画Vidのデータをユーザ装置20に送信する。
字幕Subは、サーバ10に動画Vidが登録される前後の任意のタイミングにおいて、任意の方法により作成される。例えば、システムの管理者は、動画Vidを視聴しながら字幕Subのテキストと、字幕Subの表示タイミングと、を手入力するようにしてもよいし、音声解析を利用して字幕Subの文字データ及び表示タイミングが生成されるようにしてもよい。
図3は、字幕Subの表示タイミングと、音声の出力タイミングと、の関係を示す図である。図3では、字幕Subの表示タイミングを「x_i」の符号で示し、音声Voiの出力タイミングを「y_m」の符号で示している。システムの管理者が動画Vidを視聴しながら字幕Subの文字データ及び表示タイミングを作成したとしても、図3に示すように、種々の要因によって、音声Voiの出力タイミングと、字幕Subの表示タイミングと、がずれることがある。
例えば、動画Vidには、出演者の名前や動画のタイトルなどを表示するタイトルクレジットと呼ばれる部分が含まれていることがある。ユーザに配信される動画Vidでは、タイトルクレジットが編集されることがあり、字幕作成用の動画Vidのタイトルクレジットの長さと、配信用の動画Vidのタイトルクレジットの長さと、が異なることがある。この場合、タイトルクレジットの長さの違いだけ、音声Voiの出力タイミングと、字幕Subの表示タイミングと、がずれる可能性がある。タイトルクレジットの長さの違いに起因するずれを調整するには、字幕Subの表示タイミングを全体的にシフトする必要がある。
また例えば、ユーザに配信される動画Vidでは、フレームレートが変更されることがあり、字幕作成用の動画Vidのフレームレートと、配信用の動画Vidのフレームレートと、が異なることがある。この場合、音声Voi同士の出力タイミングの間隔が変わってしまうことがあり、音声Voiの出力タイミングと、字幕Subの表示タイミングと、がずれる可能性がある。フレームレートの違いに起因するずれを調整するには、後述するスケール(数式5の係数s)を変更し、字幕Subの表示タイミングの間隔を調整する必要がある。
また例えば、DVD又はブルーレイディスク用に字幕Subを作成すると、ファイル形式の関係で字幕Subがタイムジャンプすることがある。この場合、タイムジャンプした分だけ、音声Voiの出力タイミングと、字幕Subの表示タイミングと、がずれる可能性がある。タイムジャンプに起因するずれを調整するには、字幕Subの表示タイミングを全体的にシフトする必要がある。
上記のように、種々の要因により、音声Voiの出力タイミングと、字幕Subの表示タイミングと、がずれる可能性がある。この点、音声Voiと字幕Subとの対応関係を特定することができれば、対応する音声Voiの出力タイミングと合うように、字幕Subの表示タイミングを調整することで、タイミングのずれを軽減することができる。しかしながら、先述したように、音声Voiの出力タイミングは動画Vidの変更に影響を受けるので、音声Voiの出力タイミングと、字幕Subの表示タイミングと、を比較しても、音声Voiと字幕Subの対応関係を特定することは困難である。
そこで、本実施形態のサーバ10は、動画Vidの変更に影響されない情報(後述する比率)を利用して、各音声と各文字情報との対応関係を特定し、音声の出力タイミングと文字の表示タイミングとを合わせるようにしている。以降、この技術の詳細を説明する。なお、以降の説明では、図2において動画、音声、及び字幕に付した符号は省略する。
[3.本実施形態において実現される機能]
図4は、表示タイミング決定システムで実現される機能の一例を示す機能ブロック図である。図4に示すように、本実施形態では、データ記憶部100、出力タイミング取得部101、第1の比率取得部102、仮表示タイミング取得部103、第2の比率取得部104、特定部105、及び表示タイミング決定部106が、サーバ10で実現される。
[3−1.データ記憶部]
データ記憶部100は、記憶部12を主として実現される。データ記憶部100は、音声を出力するためのデータと、文字情報を表示させるためのデータと、を記憶する。本実施形態では、データ記憶部100が記憶するデータの一例として、音声格納データと文字情報データとを説明する。例えば、音声格納データごとに文字情報データが用意される場合には、データ記憶部100は、これらの組み合わせを記憶することになる。
[音声格納データ]
音声格納データは、順次出力される複数の音声が格納されたデータである。音声は、人が実際に発した音がマイクで録音されてもよいし、コンピュータで合成された人工的な音であってもよい。音声格納データが再生される期間(再生の開始時点から終了時点までの期間)は、音声が出力される複数の期間を含むことになる。個々の音声は、ある1つの期間内に出力される音声のかたまりといえる。音声は、少なくとも1つの単語を含むようにしてもよいし、文章ごとに区切られていてもよいし、複数の文章から構成されてもよい。更に、音声は、特に意味のある単語を含まない叫び声や悲鳴であってもよい。例えば、音声は、映画・ドラマ・アニメなどにおける個々のセリフであってもよいし、動画に撮影された人の個々の発言であってもよいし、歌や詩などの個々のフレーズであってもよい。
音声格納データは、再生することで音声を出力可能なデータであればよく、例えば、1以上の画像と音声が格納された動画データであってもよいし、画像を含まない音声データであってもよい。動画データ及び音声データのデータ形式及び圧縮形式自体は、公知の種々の形式を適用可能であってよく、例えば、avi形式、mpeg形式、又はmp3形式であってよい。本実施形態では、音声格納データが動画データである場合を説明する。
音声格納データが再生されると、時間経過に応じて、音声格納データに格納された各音声が、予め定められた順番及びタイミングで出力される。別の言い方をすれば、予め定められた順番及びタイミングで出力されるように、各音声が音声格納データに格納されている。なお、音声の出力タイミングは、音声が出力される期間の任意のタイミングであればよく、例えば、音声の出力を開始するタイミングを示してもよいし、音声の出力を終了する終了タイミングを示してもよいし、その中間のタイミングを示してもよい。
[文字情報データ]
文字情報データは、音声格納データの再生中に順次表示され、各音声の内容を示す文字情報に関するデータである。文字情報は、音声の内容を少なくとも1つの文字として示し、例えば、字幕、キャプション、又はテロップと呼ばれるテキストであってよい。文字情報は、1つの文字のみから構成されてもよいし、複数の文字を含む文字列であってもよい。また、文字情報は、文字以外の記号を含んでいてもよい。なお、文字情報は、音声の内容と一言一句まで完全に一致している必要はなく、音声の内容と文字情報の内容とはある程度の違いがあってよい。本実施形態では、音声格納データが動画データを説明するので、文字情報が動画の字幕である場合を説明する。
図5は、文字情報データのデータ格納例を示す図である。図5に示すように、文字情報データは、文字情報を一意に識別する文字情報ID、文字情報の表示タイミング、及び文字情報が格納される。なお、文字情報データには、少なくとも文字情報の表示タイミングが格納されていればよく、例えば、文字情報そのものは、文字情報データとは別のデータに格納されていてもよい。
文字情報データに格納される表示タイミングは、文字情報が表示される期間内の任意のタイミングを示せばよく、例えば、文字情報の表示を開始する開始タイミングを示してもよいし、文字情報の表示を終了する終了タイミングを示してもよいし、その中間のタイミングを示してもよい。本実施形態では、開始タイミングが表示タイミングとして用いられる場合を説明するが、図5に示すように、終了タイミング及び表示時間の長さも文字情報データに格納されていてよい。表示時間の長さは、文字情報によって異なってもよいし、全ての文字情報で共通であってもよい。
なお、文字情報データに予め設定されている表示タイミングは、後述する表示タイミング決定部106により調整されるので、本実施形態では、調整前の表示タイミングを「仮表示タイミング」と記載し、調整後の表示タイミングを「最終的な表示タイミング」と記載する。後述する表示タイミング決定部106は、仮表示タイミングに基づいて、音声の出力タイミングと全体的に合うような最終的な表示タイミングを見つけることになる。
以降、文字情報をi(i=1〜Nの整数。Nは、文字情報の総数。)と記載し、文字情報データに格納された仮表示タイミングの集合を{x_i}と記載する。例えば、図5のように、各文字情報に対し、時系列順に文字情報IDを1から順番に付与する場合には、iの数値は、文字情報IDを示し、文字情報の表示順を示すことになる。先述したように、本実施形態では、文字情報iの表示が開始される開始タイミングが、当該文字情報iの仮表示タイミングx_iとなる。
なお、文字情報データには、音声以外の情報を示す文字情報が含まれていてもよい。音声以外の情報を示す文字情報は、対応する音声が存在しない文字情報であり、例えば、説明文、タイトル、又は注釈などである。例えば、音声格納データが動画データであれば、動画に写された場所の名前、登場人物の役職・氏名、役者名、又は映画・番組・アニメ・曲のタイトルなどが、音声以外の情報を示す文字情報に相当する。このような文字情報が存在する場合、当該文字情報についても表示タイミングを識別する必要があるので、文字情報データには、当該文字情報の仮表示タイミングも格納される。
[3−2.出力タイミング取得部]
出力タイミング取得部101は、制御部11を主として実現される。出力タイミング取得部101は、順次出力される複数の音声の各々の出力タイミングを取得する。各音声の出力タイミングは、音声格納データに含まれていてもよいが、本実施形態では、出力タイミング取得部101は、音声格納データの音声波形を解析し、各音声の出力タイミングを取得する。
例えば、出力タイミング取得部101は、音声格納データに基づいて、周波数ごとの信号の強さを時系列的に示すスペクトログラムを生成する。スペクトログラムは、公知のソノグラフを利用して生成されるようにすればよく、例えば、バンドパスフィルタを利用してもよいし、短時間フーリエ変換を利用してもよい。なお、ソノグラフは、スペクトログラムの生成アルゴリズムを備えた機器の総称である。出力タイミング取得部101は、周波数ごとに、音声波形が示す強さ(振幅)の時系列的な変化を取得することによって、スペクトログラムを生成する。
図6は、スペクトログラムの一例を示す図である。図6のスペクトログラムは、縦軸が周波数を示し、横軸が時間を示す。スペクトログラムは、各周波数の信号の強さをカラーで示すことが多いが、ここでは、各周波数の信号の強さを模式的にモノクロで示す。図6の例では、網点が濃い周波数帯域は音が強いことを示し、網点が薄い周波数帯域は音が弱いことを示す。
出力タイミング取得部101は、スペクトログラムに基づいてディープラーニング(機械学習の一種)を実行することにより、各音声の出力タイミングを取得する。ディープラーニングに必要な音声の特性を示すパターン情報は、データ記憶部100に記憶されているようにしてよい。例えば、出力タイミング取得部101は、音声に対応する周波数帯域(例えば、100Hz〜数千Hz程度)の強度が閾値以上である場合は、音声の出力中であると判定し、当該周波数帯域の強度が閾値未満である場合は、音声の出力中ではないと判定する。音声に対応する周波数帯域は、予め指定されていればよく、システム管理者の入力により可変であってよい。
例えば、出力タイミング取得部101は、音声が出力中ではない状態から音声が出力中の状態に変化した場合、音声を一意に識別する音声IDを発行し、当該音声IDにより識別される音声の出力の開始タイミングであると判定する。そして、出力タイミング取得部101は、音声が出力中の状態から出力中ではない状態に変化した場合、当該音声IDにより識別される音声の出力の終了タイミングであると判定する。開始タイミングから終了タイミングまでの期間は、当該音声IDにより識別される音声が出力される期間となる。先述したように、本実施形態では、音声の開始タイミングが出力タイミングとして用いられる場合を説明するが、終了タイミング及び出力期間の長さも保持されるようにしてもよい。
以降、音声をm(m=1〜Nの整数。Nは、音声の総数。)と記載し、出力タイミングの集合を{y_m}と記載する。例えば、各音声に対し、時系列順に音声IDを1から順番に付与する場合には、mの数値は、音声IDを示し、音声の出力順を示す。本実施形態では、開始タイミングを出力タイミングとして用いるので、音声mの出力が開始されるタイミングが、当該音声mの出力タイミングy_mとなる。
なお、本実施形態では、出力タイミング取得部101は、データ記憶部100から音声格納データを取得する場合を説明するが、サーバ10以外のコンピュータに音声格納データが記憶されている場合には、当該コンピュータから音声格納データを取得してもよい。
[3−3.第1の比率取得部]
第1の比率取得部102は、制御部11を主として実現される。第1の比率取得部102は、出力順が第1の順番だけ異なる音声に係る出力タイミングの間隔に対する、出力順が第2の順番だけ異なる音声に係る出力タイミングの間隔の第1の比率を取得する。出力順が異なるとは、出力順が前又は後のことを意味する。第1の比率取得部102は、出力タイミング取得部101が取得した各音声の出力タイミングに基づいて、音声ごとに第1の比率を取得することになる。
第1の順番と第2の順番は、同じ数であってもよいし、異なる数であってもよい。また、第1の比率は、複数の間隔に基づいて算出されるようにすればよく、例えば、2つの間隔を割ることによって算出されてもよいし、3つ以上の間隔を所定の数式に代入することによって算出されてもよい。例えば、3つの間隔を用いる場合には、第1の間隔と第2の間隔の和と、第3の間隔と、の比率が第1の比率として用いられてもよい。また例えば、4つの間隔を用いる場合には、第1の間隔と第2の間隔の和と、第3の間隔と第4の間隔の和と、の比率が第1の比率として用いられてもよい。5つ以上の間隔を用いる場合も同様に、所定の数式に各間隔を代入することによって第1の比率が算出されるようにすればよい。更に、各音声の第1の比率は、当該音声の出力タイミングの前と後の両方の間隔を利用して算出されてもよいし、当該音声から見て前又は後の何れか一方の間隔だけを利用して算出されてもよいし、当該音声の出力タイミングを含む間隔を利用して算出されてもよい。
本実施形態では、説明の簡略化のために、2つの間隔を用いて第1の比率が算出される場合を説明する。例えば、第1の比率取得部102は、下記数式1に基づいて、音声ごとに第1の比率を計算する。音声格納データに含まれる音声の数をNとすると、第1の比率取得部102は、数式1に基づいて、N個の第1の比率を算出する。
Figure 2019043871
数式1の左辺は、音声mの第1の比率である。数式1の右辺のa,b,c,dは、それぞれ任意の整数であり、正の整数、負の整数、又は0の何れかの値をとる。整数a又はbは、本発明に係る第1の順番に相当し、整数c又はdは、本発明に係る第2の順番に相当する。
整数aを例に挙げて説明すると、整数aが正の場合には、音声m+aは、音声mから数えて出力順がa番だけ後の音声となる。一方、整数aが負の場合には、音声m+aは、音声mから数えて出力順が整数aの絶対値だけ前の音声となる。整数aが0の場合には、音声m+aは、音声mを意味する。この点は、整数b,c,dも同様の意味である。
なお、整数aが0の場合には、整数bも0だと間隔が存在しないことになるので、整数bは0以外の整数となる。一方、整数bが0の場合には、整数aも0だと間隔が存在しないことになるので、整数aは0以外の整数となる。同様に、整数cが0の場合には、整数dも0だと間隔が存在しないことになるので、整数dは0以外の整数となる。一方、整数dが0の場合には、整数cも0だと間隔が存在しないことになるので、整数cは0以外の整数となる。
更に、整数a,bの組み合わせと、整数c,dの組み合わせと、が全く同じだと、数式1の分子と分母が全く同じ値となり、第1の比率F(m)が固定値(即ち、1)になってしまうので、整数a,bの組み合わせと、整数c,dの組み合わせと、は異なるものとする。
数式1の右辺の分子は、出力順が音声mとa番だけ違う音声m+aの出力タイミングy_(m+a)と、出力順が音声mとb番だけ違う音声m+bの出力タイミングy_(m+a)と、の間隔を示す。数式1の右辺の分母は、出力順が音声mとc番だけ違う音声m+cの出力タイミングy_(m+c)と、出力順が音声mとd番だけ違う音声m+dの出力タイミングy_(m+d)と、の間隔を示す。
例えば、a=1,b=0,c=−1,d=0の場合には、第1の比率取得部102は、音声mごとに、音声m+1の出力タイミングy_(m+1)及び音声mの出力タイミングy_mの間隔と、音声m−1の出力タイミングy_(m−1)及び音声mの出力タイミングy_mの間隔と、の比率を第1の比率F(m)として取得することになる。この場合、第1の比率取得部102は、音声mごとに、1個後の音声m+1との間隔と、1個前の音声m−1との間隔と、の比率を第1の比率F(m)として取得する。
以上説明したように、第1の順番と第2の順番とが互いに同じ所定数である場合(例えば、a=1,b=0,c=−1,d=0であり、aとcの絶対値が互いに1である場合)には、第1の比率取得部102は、出力順が所定数だけ前の音声に係る出力タイミングの間隔に対する、出力順が所定数だけ後の音声に係る出力タイミングの間隔の第1の比率F(m)を取得することになる。更に、上記所定数が1である場合(例えば、a=1,b=0,c=−1,d=0であり、aとcの絶対値が互いに1である場合)には、第1の比率取得部102は、出力順が1個前の音声に係る出力タイミングの間隔に対する、出力順が1個後の音声に係る出力タイミングの間隔の第1の比率F(m)を取得することになる。
[3−4.仮表示タイミング取得部]
仮表示タイミング取得部103は、制御部11を主として実現される。仮表示タイミング取得部103は、複数の音声の再生中に順次表示され、各音声の内容を示す文字情報の仮表示タイミングを取得する。本実施形態では、文字情報の仮表示タイミングが文字情報データに格納されているので、仮表示タイミング取得部103は、データ記憶部100から文字情報データを取得する場合を説明するが、サーバ10以外のコンピュータに文字情報データが記憶されている場合には、当該コンピュータから文字情報データを取得してもよい。
[3−5.第2の比率取得部]
第2の比率取得部104は、制御部11を主として実現される。第2の比率取得部104は、文字情報ごとに、表示順が第1の順番又は第1の順番に対応する第3の順番だけ異なる文字情報に係る仮表示タイミングの間隔に対する、表示順が第2の順番又は第2の順番に対応する第4の順番だけ異なる文字情報に係る仮表示タイミングの間隔の第2の比率を取得する。第2の比率取得部104は、仮表示タイミング取得部103が取得した各文字情報の仮表示タイミングに基づいて、文字情報ごとに第2の比率を取得することになる。
第1の順番と第2の順番の意味は、第1の比率取得部102で説明したものと同じである。第3の順番は、第1の順番とは異なる順番であり、第4の順番は、第2の順番とは異なる順番である。第1の順番と第3の順番の違いと、第2の順番と第4の順番の違いと、は同じであってもよいし、異なっていてもよい。例えば、対応する文字情報が存在しない音声(叫び声や効果音など)が特にない場合には、第2の比率を算出するために、第1の順番と第2の順番が用いられるようにしてもよい。また例えば、対応する文字情報が存在しない音声がある場合には、第2の比率を算出するために、第1の順番よりも絶対値が小さい第3の順番と、第2の順番よりも絶対値が小さい第4の順番と、が用いられるようにしてもよい。この場合、対応する文字情報が存在しない音声の数だけ、第1の順番と第3の順番が異なってもよい。また、対応する文字情報が存在しない音声の数だけ、第2の順番と第4の順番が異なってもよい。
第2の比率は、複数の間隔に基づいて算出されるようにすればよく、例えば、2つの間隔を割ることによって算出されてもよいし、3つ以上の間隔を所定の数式に代入することによって算出されてもよい。例えば、3つの間隔を用いる場合には、第1の間隔と第2の間隔の和と、第3の間隔と、の比率が第2の比率として用いられてもよい。また例えば、4つの間隔を用いる場合には、第1の間隔と第2の間隔の和と、第3の間隔と第4の間隔の和と、の比率が第2の比率として用いられてもよい。5つ以上の間隔を用いる場合も同様に、所定の数式に各間隔を代入することによって第2の比率が算出されるようにすればよい。更に、各音声の第2の比率は、当該文字情報の仮表示タイミングの前と後の両方の間隔を利用して算出されてもよいし、当該文字情報から見て前又は後の何れか一方の間隔だけを利用して算出されてもよいし、当該文字情報の出力タイミングを含む間隔を利用して算出されてもよい。
本実施形態では、説明の簡略化のために、2つの間隔を用いて第2の比率が算出される場合を説明する。例えば、第2の比率取得部104は、下記数式2に基づいて、文字情報ごとに第2の比率を計算する。文字情報データに含まれる文字情報の数をNとすると、第2の比率取得部104は、数式2に基づいて、N個の第2の比率を算出する。
Figure 2019043871
数式2の左辺は、文字情報iの第2の比率である。数式2の右辺のa,b,c,dは、音声mの第1の比率F(m)を算出するための数式1で説明したものと同じ値であってもよいし、異なる値であってもよい。整数a又はbは、本発明に係る第1の順番又は第3の順番に相当し、整数c又はdは、本発明に係る第2の順番又は第4の順番に相当する。
数式1のa,b,c,dと、数式2のa,b,c,dと、が異なる場合には、数式2のa,b,c,dは、数式1のa,b,c,dと所定の関係があればよく、所定値だけ異なる値としてもよい。更に、数式1のa,b,c,dと、数式2のa,b,c,dと、の全てが異なってもよいし、一部だけが異なってもよい。例えば、文字情報が対応しない音声が途中に1つ挿入されている場合に、数式1を(a,b,c,d)=(2,0,−2,0)として、数式2を(a,b,c,d)=(1,0,−1,0)としてもよい。
整数aを例に挙げて説明すると、整数aが正の場合には、文字情報i+aは、文字情報iから数えて表示順がa番だけ後の文字情報となる。一方、整数aが負の場合には、文字情報i+aは、文字情報iから数えて表示順がaの絶対値だけ前の文字情報となる。整数aが0の場合には、文字情報m+aは、文字情報mを意味する。この点は、整数b,c,dも同様の意味である。
数式1の右辺の分子は、表示順が文字情報iとa番だけ違う文字情報i+aの表示タイミングx_(i+a)と、表示順が文字情報iとb番だけ違う文字情報i+bの表示タイミングx_(i+b)と、の間隔を示す。数式1の右辺の分母は、表示順が文字情報iとc番だけ違う文字情報i+cの表示タイミングx_(i+c)と、表示順が文字情報iとd番だけ違う文字情報i+dの表示タイミングx_(i+d)と、の間隔を示す。
例えば、a=1,b=0,c=−1,d=0の場合には、第2の比率取得部104は、文字情報iごとに、文字情報i+1の表示タイミングx_(i+1)及び文字情報iの表示タイミングx_iの間隔と、文字情報i−1の表示タイミングx_(i−1)及び文字情報iの表示タイミングx_iの間隔と、の比率を第2の比率F(i)として取得することになる。この場合、第2の比率取得部104は、文字情報iごとに、1個後の文字情報i+1との間隔と、1個前の文字情報i−1との間隔と、の比率を第2の比率F(i)として取得する。
以上説明したように、例えば、第1の順番と第2の順番とが互いに同じ所定数である場合(例えば、a=1,b=0,c=−1,d=0であり、aとcの絶対値が互いに1である場合)には、第2の比率取得部104は、表示順が所定数だけ前の文字情報に係る仮表示タイミングの間隔に対する、表示順が所定数だけ後の文字情報に係る仮表示タイミングの間隔の第2の比率F(i)を取得することになる。更に、上記所定数が1である場合(例えば、a=1,b=0,c=−1,d=0であり、aとcの絶対値が互いに1である場合)には、第2の比率取得部104は、表示順が1個前の文字情報i−1に係る仮表示タイミングの間隔に対する、表示順が1個後の文字情報i+1に係る仮表示タイミングの間隔の第2の比率F(i)を取得することになる。
[3−6.特定部]
特定部105は、制御部11を主として実現される。特定部105は、各音声mの第1の比率F(m)と各文字情報iの第2の比率F(i)とに基づいて、各音声と各文字情報との対応関係を特定する。対応関係とは、どの音声とどの文字情報とが対応しているかを示す情報である。例えば、特定部105は、音声ごとに、対応する文字情報を特定してもよいし、文字情報ごとに、対応する音声を特定してもよい。
例えば、特定部105は、各音声mの第1の比率F(m)と各文字情報iの第2の比率F(i)との差の小ささに基づいて、対応関係を特定する。例えば、特定部105は、これらの差が閾値未満となるように、各音声と各文字情報との対応関係を特定する。この場合、特定部105は、音声mごとに、当該音声mの第1の比率F(m)との差が閾値未満となる第2の比率F(i)を有する文字情報iを特定してもよいし、文字情報iごとに、当該文字情報iの第2の比率F(i)との差が閾値未満となる第1の比率F(m)を有する音声mを特定してもよい。
また例えば、特に閾値を利用しなくてもよく、特定部105は、音声mごとに、当該音声mの第1の比率F(m)との差が最も小さい第2の比率F(i)を有する文字情報iを特定してもよいし、文字情報iごとに、当該文字情報iの第2の比率F(i)との差が最も小さい第1の比率F(m)を有する音声mを特定してもよい。また例えば、特定部105は、音声mごとに、当該音声mの第1の比率F(m)との差が小さいものから順番に複数の文字情報を特定し、当該複数の文字情報の中から対応する文字情報を選択してもよいし、文字情報iごとに、当該文字情報iの第2の比率F(i)との差が小さいものから順番に複数の音声を特定し、当該複数の音声の中から対応する音声を選択してもよい。
本実施形態では、各音声と各文字情報の対応関係の特定方法の一例として、動的計画法を用いる場合を説明する。例えば、特定部105は、文字情報ごとに、当該文字情報と対応する可能性のある音声の候補を複数選択し、候補となる音声をノードとして最短経路問題を解決することによって、各音声と各文字情報の対応関係を特定する。例えば、動的計画法としては、一般的なビタビアルゴリズムや隠れマルコフモデルが用いられてもよい。
図7は、音声と文字情報との対応関係の特定方法を示す図である。図7では、水平方向に、文字情報iの仮表示タイミングx_iが並べられており、垂直方向に、各文字情報iの第2の比率F(i)と近い順に複数(ここでは3つとする)の音声の出力タイミングが並べられている。このため、図7の例では、格子状にノードが並べられたグラフとして示している。なお、図7の例とは逆に、水平方向に音声mの出力タイミングy_mを並べて、垂直方向に文字情報iの仮表示タイミングx_iを並べてもよい。
特定部105は、図7の格子から最短経路を特定することによって、各音声と各文字情報との対応関係を特定する。最短経路問題では、ノード間を移動する際のコストが定められており、総コストが最小になるような経路が計算される。本実施形態では、特定部105は、ノードコストとトランジションコストとの2種類のコストに基づいて、最短経路を特定する。例えば、特定部105は、下記の数式3に基づいて、ノードコストを計算する。
Figure 2019043871
数式3の左辺は、文字情報iと音声mに対応するノードのノードコストである。ノードコストは、図7に示すノードごとに計算される。数式3の右辺に示すように、ノードコストは、文字情報iの第2の比率F(i)と音声mの第1の比率F(m)との距離(差の絶対値)である。ノードコストが低いほど、文字情報iの比率と音声mの比率が近く、文字情報iと音声mとが対応している確率が高いことを示す。
また例えば、特定部105は、下記の数式4に基づいて、トランジションコストを計算する。
Figure 2019043871
数式4の左辺は、文字情報iと音声mに対応するノードのトランジションコストである。トランジションコストは、図7に示す格子の各ノードと、直近のノードと、の組み合わせごとに計算される。数式4の右辺のsは、音声mと文字情報iの対応関係が正しいと仮定した場合のスケールである。このため、トランジションコストは、音声mと文字情報iの対応関係が正しいと仮定した場合に、文字情報iの表示タイミングx_iを変更した場合の音声mの出力タイミングy_mとのずれ具合を示す情報といえる。トランジションコストが低いほど、文字情報iの最終的な表示タイミングと音声の出力タイミングのずれが小さく、文字情報と音声とが対応している確率が高いことを示す。
特定部105は、ノードコストとトランジションコストの総和が最小となる経路を特定し、当該経路上にあるノードに基づいて、各音声と各文字情報の対応関係を特定する。なお、コストの単純な総和ではなく、ビタビアルゴリズムで用いられる公式を利用して最短経路が特定されてもよい。また、ノードコストとトランジションコストの2つを用いることで最短経路問題を解決する場合を説明したが、単一のコストを用いてもよい。
以上説明したように、本実施形態では、特定部105は、各音声mの第1の比率F(m)と各文字情報iの第2の比率F(i)との差の小ささに基づいて、対応関係の候補を取得する。図7の例では、格子状に並べられたノードが候補の一例である。そして、特定部105は、候補ごとに、当該候補が示す対応関係が正しい場合の仮表示タイミングの全体的な変更量を取得する。例えば、全体的な変更量は、シフト量(後述する数式5の係数t)であってもよいが、ここでは数式4に示したスケール量が変更量に相当する。更に、特定部105は、候補ごとに、当該候補に対応する変更量に基づいて各文字情報の仮表示タイミングを変更した場合の各音声の出力タイミングとのずれ具合を取得する。当該ずれ具合は、数式4の左辺である。
特定部105は、各候補のずれ具合に基づいて、候補の中から対応関係を特定する。特定部105は、複数の候補の中から、ずれ具合が小さい候補を対応関係として決定する。本実施形態では、動的計画法を利用して候補を絞り込むため、特定部105は、動的計画法を利用したアルゴリズムに基づいて、候補の中から対応関係を特定することになる。
[3−7.表示タイミング決定部]
表示タイミング決定部106は、制御部11を主として実現される。表示タイミング決定部106は、特定部105が特定した対応関係に基づいて、各文字情報の最終的な表示タイミングを決定する。表示タイミング決定部106は、各文字情報の仮表示タイミングと、当該文字情報に対応する音声の出力タイミングと、のずれが小さくなるように、各文字情報の仮表示タイミングを変更して最終的な表示タイミングを決定する。
例えば、表示タイミング決定部106は、特定部105が特定した対応関係に基づいて、各文字情報の仮表示タイミングの変更量を決定する。表示タイミング決定部106は、各音声mの出力タイミングy_mと、各文字情報iの仮表示タイミングx_iと、のずれが小さくなるような変更量を決定し、当該変更量に基づいて、各文字情報の最終的な表示タイミングを決定する。
例えば、表示タイミング決定部106は、各音声mの出力タイミングy_mと、各文字情報iの仮表示タイミングx_iと、に基づいて、一致度情報を取得し、一致度情報が示す一致度が高くなるように、仮表示タイミングx_iを変更し、最終的な表示タイミングを決定する。一致度情報は、タイミング的にどの程度一致しているかを示す指標である。別の言い方をすれば、一致度情報は、タイミング的なずれ具合を示す指標である。
例えば、一致度情報が示す一致度が高いほど(即ち、一致度が示すずれ具合が小さいほど)タイミングが合っていることを示し、一致度情報が示す一致度が低いほど(即ち、一致度が示すずれ具合が大きいほど)タイミングが合っていないことを示す。一致度情報は、数値により示される。一致度情報は、出力タイミングy_mと仮表示タイミングx_iとの時間差に基づいて算出され、これの総和を一致度情報としてもよいし、これらを変数とする数式に基づいて算出される数値を一致度情報としてもよい。
例えば、表示タイミング決定部106は、各文字情報の仮表示タイミングの変更量を複数取得し、複数の変更量の中から、一致度情報が示す一致度が最も高い変更量を選択する。この変更量は、仮表示タイミングのタイミング的な移動量であり、時間的にどれだけ前後させるかを示す。文字情報ごとに変更量が異なってもよいし、文字情報全体として共通の変更量が用いられてもよい。本実施形態では、文字情報全体として共通の変更量が用いられる場合を説明する。変更量は、少なくとも1つの数値により示されてよく、例えば、下記の数式5のs及びtの係数が変更量として用いられるようにしてよい。
Figure 2019043871
数式5の左辺は、最終的な表示タイミングの候補である。数式5の右辺の係数sは、仮表示タイミングx_iの個々の間隔の変更量である。係数sを変更すると、文字情報i全体の表示時間が伸びるため、係数sは、文字情報iのスケールを示す。一方、係数tは、仮表示タイミングx_iを全体的にシフトする場合の移動量である。係数tを変更すると、文字情報iが全体的に前又は後の何れかに移動するため、係数tは、平行移動量を示す。
上記説明したように、表示タイミング決定部106は、仮表示タイミングx_iの変更量である係数s及びtの組み合わせを複数取得することになる。複数の組み合わせの各々は、係数s及びtの少なくとも一方の値が他の組み合わせと異なっている。係数s及びtの組み合わせの取得方法自体は、公知のサンプル抽出方法を適用可能であり、例えば、RANSAC(Random Sample Consensus)に基づいて抽出してもよいし、係数s及びtの組み合わせが予めシステム管理者により指定されているようにしてよい。なお、組み合わせの取得数は任意であってよく、例えば、数十〜数百程度のサンプルが抽出されてよい。
表示タイミング決定部106は、変更量ごとに、変更後の各文字情報iの仮表示タイミングT(x_i)と、対応する音声mの出力タイミングy_mと、の差の総和が最も小さくなる係数s及びtを特定し、当該係数s及びtに基づいて、最終的な表示タイミングを決定する。
なお、表示タイミングの決定方法は、上記の例に限られない。全体的な変更量を取得するのではなく、例えば、表示タイミング決定部106は、文字情報ごとに、当該文字情報に対応する音声の出力タイミングと一致するように、当該文字情報の表示タイミングを決定してもよい。また例えば、表示タイミング決定部106は、文字情報ごとに、当該文字情報に対応する音声の出力タイミングとの差が閾値未満となるように、当該文字情報の表示タイミングを決定してもよい。即ち、表示タイミング決定部106は、文字情報ごとに個別に変更量を取得してもよい。他にも例えば、表示タイミング決定部106は、第1の比率と第2の比率とが一致するようにスケール等を計算してもよい。
また、本実施形態では、各文字情報の開始タイミングが表示タイミングに相当する場合を説明するが、表示タイミング決定部106は、各文字情報の終了タイミング及び表示時間も、開始タイミングの変更に合わせて変更してもよい。
[4.本実施形態において実行される処理]
図8は、サーバ10において実行される処理の一例を示すフロー図である。図8に示す処理は、図4に示す機能ブロックにより実行される処理の一例であり、制御部11が、記憶部12に記憶されたプログラムに従って動作することによって実行される。なお、図8に示す処理は、所定の条件が満たされた場合に実行されるようにすればよく、例えば、音声格納データと文字情報データがサーバ10に登録された場合に実行されてもよいし、システム管理者の指示などの任意のタイミングで実行されてもよい。
図8に示すように、まず、制御部11は、記憶部12に記憶された音声格納データを取得する(S1)。制御部11は、S1で取得した音声格納データに基づいて、スペクトログラムを生成する(S2)。S2においては、先述したように、制御部11は、ソノグラフを利用して音声格納データに対して周波数解析を行い、周波数ごとの信号の強さを時系列的に取得することによって、スペクトログラムを生成する。
制御部11は、S2で生成したスペクトログラムに基づいて、各音声mの出力タイミングy_mを取得する(S3)。S3においては、制御部11は、音声格納データの再生時間の最初から時系列順に、所定の周波数帯域の音の強さが閾値以上となる時間を探索することによって、音声の出力を開始する開始タイミングを取得する。制御部11は、最初の音声の開始タイミングを取得すると、当該音声に音声ID=1を付与する。次いで、制御部11は、所定の周波数帯域の音の強さが閾値未満となる時間を探索することによって、音声の出力を終了する終了タイミングを取得する。制御部11は、最初の音声の終了タイミングを取得すると、当該終了タイミング及び最初の音声の出力時間を記憶部12に保持してよい。以降、制御部11は、音声格納データの再生時間の最後まで、上記の処理を繰り返し、音声の開始タイミングを見つけるたびに、音声IDをインクリメントして、その開始タイミング等を記憶部12に保持する。
制御部11は、S3で取得した各音声mの出力タイミングy_mに基づいて、音声ごとに、第1の比率F(m)を計算する(S4)。S4においては、制御部11は、先述した数式1に基づいて、各音声mの第1の比率F(m)を計算して記憶部12に保持する。
制御部11は、記憶部12に記憶された文字情報データを取得する(S5)。制御部11は、S5で取得した文字情報データに基づいて、文字情報iごとに、第2の比率F(i)を計算する(S6)。S6においては、制御部11は、先述した数式2に基づいて、各文字情報iの第2の比率F(i)を計算して記憶部12に保持する。
制御部11は、S4で計算した各音声mの第1の比率F(m)と、S6で計算した各文字情報iの第2の比率F(i)と、に基づいて、各音声と各文字情報との対応関係を特定する(S7)。S7においては、制御部11は、図7を参照して説明した動的計画法のアルゴリズムに基づいて、文字情報ごとに、比率の差が小さい順に所定個数の音声を特定してノードを設定し、先述した数式3と数式4に基づいてノードコストとトランジションコストを計算し、コストの総和が最小となる最短経路を特定する。そして、制御部11は、当該最短経路上のノードに基づいて、各音声と各文字情報との対応関係を特定する。
制御部11は、各音声と各文字情報との対応関係に基づいて、各文字情報の最終的な表示タイミングを決定し(S8)、本処理は終了する。S8においては、制御部11は、数式5の係数sとtの候補を複数取得して、文字情報の最終的な表示タイミングの候補を算出する。そして、制御部11は、対応する音声の出力タイミングとのずれの総和が最小となる係数sとtに基づいて、最終的な表示タイミングを決定する。
以上説明した表示タイミング決定システム1によれば、タイミングの全体的なシフト量やスケールといった要素に影響を受けない比率を利用することで、音声と文字情報の対応関係を正確に特定し、音声の出力タイミングと文字情報の表示タイミングを合わせることができる。即ち、例えば数式1に示すように、音声の出力タイミングが全体的にシフトしたりスケールが変わったりしたとしても、比率の値には影響しないので、音声出力データが変更されたとしても変わらない比率という特徴量を比較することによって、音声と文字情報の対応関係を特定することができる。また、全体的なシフト量やスケールといった要素を考慮せずに対応関係を特定可能なので、比較的簡易な処理によって音声と文字情報の対応関係を特定することができ、サーバ10の処理速度の向上及び処理負荷の軽減を図ることができる。
また、各音声mの第1の比率F(m)と各文字情報iの第2の比率F(i)との差の小ささに基づいて対応関係を特定することで、音声と文字情報の対応関係を特定する精度を高めることができる。
また、各音声mの第1の比率F(m)と各文字情報iの第2の比率F(i)との差の小ささに基づいて特定される対応関係の候補ごとに文字情報の仮表示タイミングの変更量を算出し、全体的なタイミングのずれ具合に基づいて候補の中から対応関係を特定することで、音声と文字情報の対応関係を特定する精度を効果的に高めることができる。
また、動的計画法を利用したアルゴリズムに基づいて候補の中から対応関係を特定することによって、音声と文字情報の対応関係を特定する精度を効果的に高めることができる。また、動的計画法のアルゴリズム自体は、比較的高速な種々のアルゴリズムが開発されているため、サーバ10の処理速度の向上及び処理負荷の軽減を効果的に図ることができる。更に、実施形態で説明したように、単一のコストではなく、ノードコストとトランジションコストといった複数のコストを利用することで、音声と文字情報の対応関係を特定する精度を効果的に高めることができる。
また、第1の順番と第2の順番とが互いに同じ所定数であり、音声mごとに当該音声mの所定数だけ前後の音声との間隔に基づいて第1の比率F(m)を取得し、文字情報iごとに、当該文字情報iの所定数だけ前後の文字情報との間隔に基づいて第2の比率F(i)を取得して対応関係を特定することによって、音声と文字情報の対応関係の精度を高めることができる。更に、アルゴリズムをシンプルにすることができるので、サーバ10の処理速度の向上及び処理負荷の軽減を図ることができる。
また、音声mごとに1個前後の音声との間隔に基づいて第1の比率F(m)を取得し、文字情報iごとに1個前後の文字情報との間隔に基づいて第2の比率F(i)を取得して対応関係を特定することによって、音声と文字情報の対応関係の精度を高めることができる。更に、アルゴリズムをよりシンプルにすることができるので、サーバ10の処理速度の向上及び処理負荷の軽減を効果的に図ることができる。
[5.変形例]
なお、本発明は、以上に説明した実施の形態に限定されるものではない。本発明の趣旨を逸脱しない範囲で、適宜変更可能である。
(1)例えば、実施形態では、動的計画法を利用する場合を説明したが、文字情報の表示タイミングの調整は、他の方法によって実行されるようにしてもよい。変形例(1)では、RANSACを利用して文字情報の表示タイミングの調整が行われる場合を説明する。なお、本変形例では、特定部105は、各音声mの第1の比率F(m)に最も近い第2の比率F(i)を有する文字情報iを特定するものとするが、実施形態で説明した方法に基づいて、各音声と各文字情報の対応関係を特定してもよい。
表示タイミング決定部106は、特定部105が特定した対応関係が示す音声と文字情報の組み合わせの中からランダムにサンプルを抽出する。サンプルは、1つの組み合わせだけでもよいし、複数個の組み合わせでもよい。ランダムにサンプルを抽出する方法自体は、RANSACで用いられている方法を利用すればよく、例えば、音声と文字情報のセットの中から、乱数に基づいてサンプルを抽出してもよい。
表示タイミング決定部106は、サンプルに基づいて、仮表示タイミングの全体的な変更量を取得する。変更量は、例えば、数式5の係数sとtの組み合わせである。表示タイミング決定部106は、サンプルが示す音声の出力タイミングと文字情報の仮表示タイミングとの差が小さくなるように、係数sとtの組み合わせを決定する。
表示タイミング決定部106は、変更量に基づいて各文字情報の仮表示タイミングを変更した場合の各音声の出力タイミングとのずれ具合を取得する。ずれ具合は、全体的なタイミングのずれ具合を示せばよく、例えば、各文字情報の仮表示タイミングと、対応する音声の出力タイミングと、の差の総和である。表示タイミング決定部106は、ずれ具合が閾値未満になるまで、サンプルの抽出と変更量の取得を繰り返す。表示タイミング決定部106は、ずれ具合が閾値未満になった場合、サンプルの抽出と変更量の取得を停止し、現在の変更量に基づいて各文字情報の仮表示タイミングを変更し、最終的な表示タイミングとする。
変形例(1)によれば、比較的簡易な処理によって、音声と文字情報の対応関係を特定してタイミングのずれを調整することができ、サーバ10の処理速度の向上及び処理負荷の軽減を効果的に図ることができる。
(2)また例えば、音声mごとに複数の第1の比率F(m)が取得され、文字情報iごとに複数の第2の比率F(i)が取得されてもよい。変形例(2)の第1の比率取得部102は、音声mごとに、第1の順番と第2の順番の複数通りの組み合わせに基づいて複数の第1の比率F(m)を取得する。第1の順番と第2の順番の複数通りの組み合わせとは、数式1における整数a,b,c,dの組み合わせが複数通りであることを意味する。第2の比率取得部104は、文字情報iごとに、第1の順番又は第3の順番と、第2の順番又は第4の順番と、の複数通りの組み合わせに基づいて複数の第2の比率F(i)を取得する。第1の順番又は第3の順番と、第2の順番又は第4の順番と、の複数通りの組み合わせとは、数式2における整数a,b,c,dの組み合わせが複数通りであることを意味する。
特定部105は、各音声mの複数の第1の比率F(m)と各文字情報iの複数の第2の比率F(i)とに基づいて、対応関係を特定する。例えば、特定部105は、各音声mの複数の第1の比率F(m)に基づいて算出した数値と、各文字情報iの複数の第2の比率F(i)に基づいて算出した数値と、の差の小ささに基づいて対応関係を特定する。また例えば、特定部105は、各音声mの複数の第1の比率F(m)の各々と、各文字情報iの複数の第2の比率F(i)の各々と、の差の総和の小ささに基づいて対応関係を特定する。
変形例(2)によれば、複数の比率を利用することで、音声と文字情報の対応関係を特定する精度を高めることができる。例えば、文字情報の仮表示タイミングに誤りがあった場合には、音声と文字情報の対応関係に誤差が生じる可能性があるが、複数の比率を利用することで、このような誤差の影響を軽減することができる。
(3)また例えば、実施形態及び上記変形例では、音声の出力タイミングと、文字情報の表示タイミングと、をそれぞれの開始タイミングとしたが、他の情報によって、音声の出力タイミングと文字情報の表示タイミングとが特定されるようにしてもよい。例えば、音声の出力タイミングの時間差を第1の配列に格納し、文字情報の表示タイミングの時間差を第2の配列に格納することによって、音声の出力タイミングと文字情報の表示タイミングとが特定されるようにしてもよい。この場合、表示タイミング決定部106は、第2の配列に格納された時間差を変更することによって、各文字情報の最終的な表示タイミングを決定する。
また例えば、出力タイミング取得部101、第1の比率取得部102、仮表示タイミング取得部103、第2の比率取得部104、特定部105、及び表示タイミング決定部106がユーザ装置20で実現されるようにしてもよい。この場合、これら各機能は、制御部21を主として実現され、ユーザ装置20が本発明に係る表示タイミング決定装置に相当する。他にも例えば、サーバ10及びユーザ装置20以外のコンピュータにおいて、出力タイミング取得部101、第1の比率取得部102、仮表示タイミング取得部103、第2の比率取得部104、特定部105、及び表示タイミング決定部106が実現されるようにしてもよい。この場合、当該コンピュータが本発明に係る表示タイミング決定装置に相当する。

Claims (10)

  1. 順次出力される複数の音声の各々の出力タイミングを取得する出力タイミング取得手段と、
    音声ごとに、出力順が第1の順番だけ異なる音声に係る出力タイミングの間隔に対する、出力順が第2の順番だけ異なる音声に係る出力タイミングの間隔の第1の比率を取得する第1の比率取得手段と、
    前記複数の音声の再生中に順次表示され、各音声の内容を示す文字情報の仮表示タイミングを取得する仮表示タイミング取得手段と、
    文字情報ごとに、表示順が前記第1の順番又は前記第1の順番に対応する第3の順番だけ異なる文字情報に係る仮表示タイミングの間隔に対する、表示順が前記第2の順番又は前記第2の順番に対応する第4の順番だけ異なる文字情報に係る仮表示タイミングの間隔の第2の比率を取得する第2の比率取得手段と、
    各音声の前記第1の比率と各文字情報の前記第2の比率とに基づいて、各音声と各文字情報との対応関係を特定する特定手段と、
    前記対応関係に基づいて、各文字情報の最終的な表示タイミングを決定する表示タイミング決定手段と、
    を含むことを特徴とする表示タイミング決定装置。
  2. 前記特定手段は、各音声の前記第1の比率と各文字情報の前記第2の比率との差の小ささに基づいて、前記対応関係を特定する、
    ことを特徴とする請求項1に記載の表示タイミング決定装置。
  3. 前記特定手段は、
    各音声の前記第1の比率と各文字情報の前記第2の比率との差の小ささに基づいて、前記対応関係の候補を取得し、
    候補ごとに、当該候補が示す対応関係が正しい場合の仮表示タイミングの全体的な変更量を取得し、
    候補ごとに、当該候補に対応する前記変更量に基づいて各文字情報の仮表示タイミングを変更した場合の各音声の出力タイミングとのずれ具合を取得し、
    各候補のずれ具合に基づいて、候補の中から前記対応関係を特定する、
    ことを特徴とする請求項2に記載の表示タイミング決定装置。
  4. 前記特定手段は、動的計画法を利用したアルゴリズムに基づいて、候補の中から前記対応関係を特定する、
    ことを特徴とする請求項3に記載の表示タイミング決定装置。
  5. 前記表示タイミング決定手段は、
    前記対応関係が示す音声と文字情報の組み合わせの中からランダムにサンプルを抽出し、
    前記サンプルに基づいて、仮表示タイミングの全体的な変更量を取得し、
    前記変更量に基づいて各文字情報の仮表示タイミングを変更した場合の各音声の出力タイミングとのずれ具合を取得し、
    前記ずれ具合が閾値未満になるまで、前記サンプルの抽出と前記変更量の取得を繰り返す、
    ことを特徴とする請求項1〜4の何れかに記載の表示タイミング決定装置。
  6. 前記第1の比率取得手段は、音声ごとに、前記第1の順番と前記第2の順番の複数通りの組み合わせに基づいて複数の前記第1の比率を取得し、
    前記第2の比率取得手段は、文字情報ごとに、前記第1の順番又は前記第3の順番と、前記第2の順番又は前記第4の順番と、の複数通りの組み合わせに基づいて複数の前記第2の比率を取得し、
    前記特定手段は、各音声の前記複数の第1の比率と各文字情報の前記複数の第2の比率とに基づいて、前記対応関係を特定する、
    ことを特徴とする請求項1〜5の何れかに記載の表示タイミング決定装置。
  7. 前記第1の順番と前記第2の順番とは、互いに同じ所定数であり、
    前記第1の比率取得手段は、出力順が前記所定数だけ前の音声に係る出力タイミングの間隔に対する、出力順が前記所定数だけ後の音声に係る出力タイミングの間隔の前記第1の比率を取得し、
    前記第2の比率取得手段は、表示順が前記所定数だけ前の文字情報に係る仮表示タイミングの間隔に対する、表示順が前記所定数だけ後の文字情報に係る仮表示タイミングの間隔の前記第2の比率を取得する、
    ことを特徴とする請求項1〜6の何れかに記載の表示タイミング決定装置。
  8. 前記所定数は1であり、
    前記第1の比率取得手段は、出力順が1個前の音声に係る出力タイミングの間隔に対する、出力順が1個後の音声に係る出力タイミングの間隔の前記第1の比率を取得し、
    前記第2の比率取得手段は、表示順が1個前の文字情報に係る仮表示タイミングの間隔に対する、表示順が1個後の文字情報に係る仮表示タイミングの間隔の前記第2の比率を取得する、
    ことを特徴とする請求項7に記載の表示タイミング決定装置。
  9. 順次出力される複数の音声の各々の出力タイミングを取得する出力タイミング取得ステップと、
    音声ごとに、出力順が第1の順番だけ異なる音声に係る出力タイミングの間隔に対する、出力順が第2の順番だけ異なる音声に係る出力タイミングの間隔の第1の比率を取得する第1の比率取得ステップと、
    前記複数の音声の再生中に順次表示され、各音声の内容を示す文字情報の仮表示タイミングを取得する仮表示タイミング取得ステップと、
    文字情報ごとに、表示順が前記第1の順番又は前記第1の順番に対応する第3の順番だけ異なる文字情報に係る仮表示タイミングの間隔に対する、表示順が前記第2の順番又は前記第2の順番に対応する第4の順番だけ異なる文字情報に係る仮表示タイミングの間隔の第2の比率を取得する第2の比率取得ステップと、
    各音声の前記第1の比率と各文字情報の前記第2の比率とに基づいて、各音声と各文字情報との対応関係を特定する特定ステップと、
    前記対応関係に基づいて、各文字情報の最終的な表示タイミングを決定する表示タイミング決定ステップと、
    を含むことを特徴とする表示タイミング決定方法。
  10. 順次出力される複数の音声の各々の出力タイミングを取得する出力タイミング取得手段、
    音声ごとに、出力順が第1の順番だけ異なる音声に係る出力タイミングの間隔に対する、出力順が第2の順番だけ異なる音声に係る出力タイミングの間隔の第1の比率を取得する第1の比率取得手段、
    前記複数の音声の再生中に順次表示され、各音声の内容を示す文字情報の仮表示タイミングを取得する仮表示タイミング取得手段、
    文字情報ごとに、表示順が前記第1の順番又は前記第1の順番に対応する第3の順番だけ異なる文字情報に係る仮表示タイミングの間隔に対する、表示順が前記第2の順番又は前記第2の順番に対応する第4の順番だけ異なる文字情報に係る仮表示タイミングの間隔の第2の比率を取得する第2の比率取得手段、
    各音声の前記第1の比率と各文字情報の前記第2の比率とに基づいて、各音声と各文字情報との対応関係を特定する特定手段、
    前記対応関係に基づいて、各文字情報の最終的な表示タイミングを決定する表示タイミング決定手段、
    としてコンピュータを機能させるためのプログラム。
JP2017564153A 2017-08-31 2017-08-31 表示タイミング決定装置、表示タイミング決定方法、及びプログラム Active JP6295381B1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/031368 WO2019043871A1 (ja) 2017-08-31 2017-08-31 表示タイミング決定装置、表示タイミング決定方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP6295381B1 JP6295381B1 (ja) 2018-03-14
JPWO2019043871A1 true JPWO2019043871A1 (ja) 2019-11-07

Family

ID=61629020

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017564153A Active JP6295381B1 (ja) 2017-08-31 2017-08-31 表示タイミング決定装置、表示タイミング決定方法、及びプログラム

Country Status (4)

Country Link
US (1) US10348938B2 (ja)
EP (1) EP3678376A4 (ja)
JP (1) JP6295381B1 (ja)
WO (1) WO2019043871A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021009607A (ja) * 2019-07-02 2021-01-28 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
JP2021009608A (ja) * 2019-07-02 2021-01-28 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6442518B1 (en) * 1999-07-14 2002-08-27 Compaq Information Technologies Group, L.P. Method for refining time alignments of closed captions
JP4113059B2 (ja) * 2003-07-28 2008-07-02 株式会社東芝 字幕信号処理装置、字幕信号処理方法及び字幕信号処理プログラム
KR100771624B1 (ko) * 2006-03-06 2007-10-30 엘지전자 주식회사 텔레비전 수신기의 언어 설정 장치 및 방법
JP2008172421A (ja) 2007-01-10 2008-07-24 Sony Corp 記録装置および方法、再生装置および方法、並びにプログラム
JP2010157816A (ja) * 2008-12-26 2010-07-15 Toshiba Corp 字幕情報作成装置、字幕情報作成方法及びプログラム
US20100332225A1 (en) * 2009-06-29 2010-12-30 Nexidia Inc. Transcript alignment
US8843368B2 (en) * 2009-08-17 2014-09-23 At&T Intellectual Property I, L.P. Systems, computer-implemented methods, and tangible computer-readable storage media for transcription alignment
US8281231B2 (en) * 2009-09-11 2012-10-02 Digitalsmiths, Inc. Timeline alignment for closed-caption text using speech recognition transcripts
WO2013038636A1 (ja) * 2011-09-14 2013-03-21 シャープ株式会社 表示装置及び録画再生装置
US8947596B2 (en) * 2013-06-27 2015-02-03 Intel Corporation Alignment of closed captions

Also Published As

Publication number Publication date
EP3678376A1 (en) 2020-07-08
JP6295381B1 (ja) 2018-03-14
WO2019043871A1 (ja) 2019-03-07
US10348938B2 (en) 2019-07-09
US20190132491A1 (en) 2019-05-02
EP3678376A4 (en) 2021-04-14

Similar Documents

Publication Publication Date Title
US11863804B2 (en) System and method for continuous media segment identification
US10037313B2 (en) Automatic smoothed captioning of non-speech sounds from audio
KR102085908B1 (ko) 컨텐츠 제공 서버, 컨텐츠 제공 단말 및 컨텐츠 제공 방법
US20180226101A1 (en) Methods and systems for interactive multimedia creation
US10560657B2 (en) Systems and methods for intelligently synchronizing events in visual content with musical features in audio content
US9767825B2 (en) Automatic rate control based on user identities
JP2008022103A (ja) テレビ番組動画像ハイライト抽出装置及び方法
US11871084B2 (en) Systems and methods for displaying subjects of a video portion of content
KR20090026942A (ko) 메타데이터를 자동적으로 생성/갱신하는 멀티미디어 데이터기록 방법 및 장치
JP6295381B1 (ja) 表示タイミング決定装置、表示タイミング決定方法、及びプログラム
KR20160076316A (ko) 리듬 게임 제작 방법, 장치 및 이를 컴퓨터에서 실행하기 위한 컴퓨터 프로그램
KR101389730B1 (ko) 동영상 파일의 주제별 분할 위치 생성 방법
US20210390937A1 (en) System And Method Generating Synchronized Reactive Video Stream From Auditory Input
JP6641045B1 (ja) コンテンツ生成システム、及びコンテンツ生成方法
JP6359229B1 (ja) 表示タイミング決定装置、表示タイミング決定方法、及びプログラム
US20200204856A1 (en) Systems and methods for displaying subjects of an audio portion of content
JP7102826B2 (ja) 情報処理方法および情報処理装置
JP2009135754A (ja) ダイジェスト作成装置及び方法
KR20230034645A (ko) 동영상 추천 장치의 제어방법, 이를 수행하기 위한 기록매체 및 장치
Ištvánek et al. Application of Computational Methods for Comparative Music Analysis
CN116737994A (zh) 视频、唱谱音频和曲谱同步播放方法、装置、设备和介质
CN118196561A (zh) 数字人训练数据处理方法、驱动模型训练方法及相关装置
BR112017011522B1 (pt) Método implementado por computador

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171208

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20171208

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20180129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180219

R150 Certificate of patent or registration of utility model

Ref document number: 6295381

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250