WO2018078768A1

WO2018078768A1 - コンテンツ再生プログラム及びコンテンツ再生装置

Info

Publication number: WO2018078768A1
Application number: PCT/JP2016/081900
Authority: WO
Inventors: 淳瀧川; 久晴鈴木; 猛士那須; 康彦長友
Original assignee: エヴィクサー株式会社
Priority date: 2016-10-27
Filing date: 2016-10-27
Publication date: 2018-05-03
Also published as: JPWO2018078768A1; TWI760383B; CN109983781A; CN109983781B; EP3534618A4; KR20190085938A; US20190253749A1; JP6163680B1; US11303951B2; TW201820316A; KR102607703B1; EP3534618A1

Abstract

あるコンテンツの時間軸を容易かつ確実に判定し、当該コンテンツの再生に連動して別のコンテンツを再生する。コンテンツ再生プログラムは、コンピュータに、コンピュータの外部で再生される第１コンテンツの音声を検出する音声検出部と、検出された音声に基づいて、コンピュータの外部で第１コンテンツに続いて再生される第２コンテンツの時間軸を判定する時間軸判定部と、判定された時間軸に基づいて、第２コンテンツの再生に合わせて、第２コンテンツに応じた第３コンテンツを再生するコンテンツ再生部と、を実現させる。

Description

コンテンツ再生プログラム及びコンテンツ再生装置

　本発明は、コンテンツ再生プログラム及びコンテンツ再生装置に関する。

　音声を伴った映像に対するセカンドスクリーン情報を、音声入出力及び画像表示可能な携帯デバイスに出力する方法が開示されている（特許文献１）。特許文献１に開示されている方法では、音声中に、映像の各映像シーンに対応づけられたタイムコードが透かしデータとして埋め込まれる。そして、セカンドスクリーン情報に相当するデータにタイムコードを対応付けて携帯デバイスに予め格納し、映像の近傍で携帯デバイスに音声を入力し、映像シーンに同期させてセカンドスクリーン情報を出力することが行われる。

特開２０１５－６１１１２号公報

　特許文献１に開示されている方法では、各映像シーンに対応づけて音声中に透かしデータを埋め込む必要がある。そのため、映画等のコンテンツ制作作業の負荷が高く、制作側の都合で透かしデータの埋め込みを行えない場合がある。

　透かしデータではなく、音声の特徴量であるフィンガープリントを用いて映像の時間軸を判定する手法もあるが、無音の場合や、定常的な音声が継続する箇所ではフィンガープリントを作成できない。また、１つの映像の異なる時間帯で全く同じ音声が用いられる場合、フィンガープリントでは、どちらの時間帯であるかを判別することができない。

　そこで、本発明は、あるコンテンツの時間軸を容易かつ確実に判定し、当該コンテンツの再生に連動して別のコンテンツを再生するコンテンツ再生プログラム及びコンテンツ再生装置を提供することを目的とする。

　本発明の一態様に係るコンテンツ再生プログラムは、コンピュータに、コンピュータの外部で再生される第１コンテンツの音声を検出する音声検出部と、検出された音声に基づいて、コンピュータの外部で第１コンテンツに続いて再生される第２コンテンツの時間軸を判定する時間軸判定部と、判定された時間軸に基づいて、第２コンテンツの再生に合わせて、第２コンテンツに応じた第３コンテンツを再生するコンテンツ再生部と、を実現させる。

　また、本発明の一態様に係るコンテンツ再生装置は、外部で再生される第１コンテンツの音声を検出する音声検出部と、検出された音声に基づいて、第１コンテンツに続いて外部で再生される第２コンテンツの時間軸を判定する時間軸判定部と、判定された時間軸に基づいて、第２コンテンツの再生に合わせて、第２コンテンツに応じた第３コンテンツを再生するコンテンツ再生部と、を備える。

　なお、本発明において、「部」とは、単に物理的手段を意味するものではなく、その「部」が有する機能をソフトウェアによって実現する場合も含む。また、１つの「部」や装置が有する機能が２つ以上の物理的手段や装置により実現されても、２つ以上の「部」や装置の機能が１つの物理的手段や装置により実現されてもよい。

　本発明によれば、あるコンテンツの時間軸を容易かつ確実に判定し、当該コンテンツの再生に連動して別のコンテンツを再生するコンテンツ再生プログラム及びコンテンツ再生装置を提供することができる。

本発明の一実施形態であるコンテンツ再生システムの構成を示す図である。コンテンツ再生システムにおけるコンテンツ再生の概要を示す図である。ユーザ端末１００のハードウェア構成の一例を示す図である。ユーザ端末１００の機能構成の一例を示す図である。コンテンツを取得するためのユーザインタフェースの一例を示す図である。時間軸の判定状態が表示された画面の一例を示す図である。ユーザ端末１００におけるコンテンツ再生処理の一例を示すフローチャートである。

　添付図面を参照して、本発明の好適な実施形態について説明する。図１は、本発明の一実施形態であるコンテンツ再生システムの構成を示す図である。コンテンツ再生システムは、ユーザ端末１００（コンテンツ再生装置）、スクリーン１１０及びスピーカ１２０を備える。スクリーン１１０及びスピーカ１２０は、例えば、映画館や球場等の施設に設置され、ユーザ端末１００は当該施設の利用者によって利用される。スクリーン１１０には、映画等のコンテンツの映像が表示され、スピーカ１２０からは当該コンテンツの音声が出力される。そして、ユーザ端末１００では、当該コンテンツの再生に連動して、字幕や音声ガイド等の別のコンテンツが再生される。

　図２は、コンテンツ再生システムにおけるコンテンツ再生の概要を示す図である。

　映画館等の施設で再生されるコンテンツは、第１コンテンツ２００と、当該第１コンテンツ２００に続いて再生される第２コンテンツ２１０が含まれる。第２コンテンツ２１０は、例えば、映画の本編である。そして、第１コンテンツ２００は、例えば、映画の本編の前に再生される予告編や広告等（先付け）である。第１コンテンツ２００には、その音声中に透かしデータ２２０が埋め込まれている。透かしデータ２２０は、例えば、第１コンテンツ２００のフレームごとに埋め込まれており、第２コンテンツ２１０の開始タイミング（時間軸）を判定するためのタイムコード等のデータ（第１データ）を含む。また、透かしデータ２２０は、例えば、施設や地域等を示すデータ（第２データ）を含む。

　ユーザ端末１００で再生される第３コンテンツ２３０は、例えば、映画の本編と連動して再生される、当該映画の字幕である。第３コンテンツ２３０は、第２コンテンツ２１０に連動して再生されるものであれば、字幕に限らず、音声ガイドや手話画像、説明画像等、任意のコンテンツとすることができる。ユーザ端末１００では、透かしデータ２２０に基づいて、第２コンテンツ２１０の開始タイミング（時間軸）が判定され、第２コンテンツ２１０に連動して第３コンテンツ２３０が再生される。

　図３は、ユーザ端末１００のハードウェア構成の一例を示す図である。ユーザ端末１００は、例えば、スマートフォンやタブレット端末等のコンピュータである。図３に示すように、ユーザ端末１００は、プロセッサ３００、記憶装置３１０、通信インタフェース（Ｉ／Ｆ）３２０、マイク３３０、音声出力装置３４０、表示装置３５０及び入力装置３６０を備える。

　プロセッサ３００は、記憶装置３１０に格納されているプログラムを実行することにより、ユーザ端末１００における様々な機能を実現することができる。

　記憶装置３１０は、プログラムやデータを記憶する記憶領域である。記憶装置３１０は、一時的な記憶領域である揮発性メモリや、恒久的な記憶領域である不揮発性メモリを含むことができる。記憶装置３１０は、ユーザ端末１００の外部に設けられていてもよい。

　通信インタフェース３２０は、外部の装置との間でプログラムやデータの送受信を行うためのインタフェース装置である。通信インタフェース３２０は、例えば、携帯電話の通信網用のインタフェースや、無線ＬＡＮ（Local Area Network）用のインタフェースを含む。通信インタフェース３２０は、有線のインタフェースを含んでもよい。

　マイク３３０は、周囲の音声を検出する。マイク３３０は、可聴域の音声に限らず、非可聴域の音声も検出することができる。マイク３３０は、ユーザ端末１００の外部に設けられていてもよい。

　音声出力装置３４０は、音声を出力するための出力装置である。音声出力装置３４０は、例えば、スピーカである。また、音声出力装置３４０は、イヤホンに音声を出力するための装置であってもよい。第３コンテンツ２３０が音声（例えば音声ガイドや吹き替え音声）を含む場合、当該音声は音声出力装置３４０から出力される。

　表示装置３５０は、画像（静止画又は動画）を表示するための出力装置である。表示装置３５０は、例えば、液晶ディスプレイや有機ＥＬ（Electroluminescence）ディスプレイである。表示装置３５０は、ユーザ端末１００の外部に設けられていてもよい。第３コンテンツ２３０が画像（例えば字幕）を含む場合、当該画像は表示装置３５０に表示される。

　入力装置３６０は、ユーザ入力を受け付けるための装置である。入力装置３６０は、例えば、表示装置３５０と一体的に形成されたタッチパネルであってもよい。入力装置３６０は、ユーザ端末１００の外部に設けられていてもよい。

　図４は、ユーザ端末１００の機能構成の一例を示す図である。ユーザ端末１００は、コンテンツ取得部４００、コンテンツ記憶部４１０、音声検出部４２０、時間軸判定部４３０、コンテンツ再生部４４０、参照データ取得部４５０、参照データ記憶部４６０、設定部４７０及び設定データ記憶部４８０を備える。図４に示す各部は、例えば、記憶装置３１０の記憶領域を用いたり、記憶装置３１０に格納されたプログラム（コンテンツ再生プログラム）をプロセッサ３００が実行したりすることにより実現することができる。

　コンテンツ取得部４００は、ユーザ端末１００で再生される第３コンテンツ２３０を、例えばインターネット経由で取得し、コンテンツ記憶部４１０に格納する。図５は、コンテンツを取得するためのユーザインタフェースの一例を示す図である。画面５００は、例えば、第３コンテンツ２３０を再生するためのアプリケーションを起動すると表示される。画面５００は、コンテンツの種類を選択するための領域５１０，５２０を含む。

　画面５００では、領域５１０において、字幕、手話又は音声ガイドを選択することができる。また画面５００では、領域５１０において、映画館・劇場、テーマパーク、博物館・美術館、ＤＶＤ／ＢＤ又はその他を選択することができる。そして、領域５１０，５２０の選択内容に応じたコンテンツの一覧が領域５３０に表示される。領域５３０には、例えば、第２コンテンツ２１０（例えば本編）のタイトルが表示される。コンテンツ取得部４００は、領域５３０で選択された第２コンテンツ２１０に対応する第３コンテンツ２３０を取得する。なお、コンテンツ取得部４００は、再生対象ではないものも含む第３コンテンツ２３０を取得してもよい。

　また、コンテンツ取得部４００は、第１コンテンツ２００で検出される音声（透かしデータ又はフィンガープリント）によって特定される第３コンテンツ２３０を取得してもよい。例えば、第１コンテンツ２００に埋め込まれた透かしデータに第３コンテンツ２３０を特定するためのデータ（第２データ）が含まれている場合、コンテンツ取得部４００は、当該データに基づいて第３コンテンツ２３０を取得してもよい。

　音声検出部４２０は、ユーザ端末１００の外部で再生されるコンテンツの音声を検出する。具体的には、音声検出部４２０は、第１コンテンツ２００（先付け）の音声を検出することができる。また、音声検出部４２０は、第２コンテンツ２１０（本編）の音声を検出することもできる。音声検出部４２０が検出する音声は、例えば、透かしデータやフィンガープリントである。音声検出部４２０は、時間軸判定部４３０によって第２コンテンツ２１０の時間軸が判定されると動作を停止することができる。

　時間軸判定部４３０は、音声検出部４２０で検出された音声に基づいて、第２コンテンツ２１０の時間軸を判定する。具体的には、例えば、第１コンテンツ２００の音声に埋め込まれた透かしデータに含まれる、第２コンテンツ２１０の時間軸を判定するためのデータ（第１データ）に基づいて、第２コンテンツ２１０の時間軸を判定することができる。また、時間軸判定部４３０は、第２コンテンツ２１０の音声のフィンガープリントに基づいて、第２コンテンツ２１０の再生中に第２コンテンツ２１０の時間軸を判定することができる。ここで、第２コンテンツ２１０の時間軸の判定とは、第２コンテンツ２１０の再生タイミングを時刻と対応づけることをいう。例えば、時間軸判定部４３０は、第２コンテンツ２１０の再生が開始される時刻（例えば、実際の時刻でもよいし、ある時点を基準とする相対時刻でもよい。）を判定することができる。また例えば、時間軸判定部４３０は、第２コンテンツ２１０のどの部分が現在再生されているかを判定することができる。時間軸判定部４３０は、第２コンテンツ２１０の時間軸が判定されると動作を停止することができる。

　コンテンツ再生部４４０は、時間軸判定部４３０で判定された時間軸に基づいて、第２コンテンツ２１０の再生に合わせて（同期させて）、第３コンテンツ２３０を再生する。また、コンテンツ再生部４４０は、時間軸判定部４３０による時間軸の判定状態を示す情報を出力することができる。図６は、時間軸の判定状態が表示された画面の一例を示す図である。図６の画面６００に示すように、コンテンツ再生部４４０は、時間軸の判定が完了したことを示すメッセージ（例えば「字幕の表示準備が完了しました。本編開始までしばらくお待ちください。」）を表示装置３５０に表示することができる。

　参照データ取得部４５０は、時間軸判定部４３０がフィンガープリントに基づいて時間軸を判定するための参照データを、例えばインターネット経由で取得し、参照データ記憶部４６０に格納する。参照データは、コンテンツの音声の特徴量をコンテンツの再生時刻と対応づけたデータである。時間軸判定部４３０は、第１コンテンツ２００又は第２コンテンツ２１０の音声の特徴量を参照データと比較することにより、第２コンテンツ２１０の時間軸を判定することができる。

　設定部４７０は、第３コンテンツ２３０の再生のための設定をユーザから受け付け、当該設定を示す設定データを設定データ記憶部４８０に格納する。コンテンツ再生部４４０は、当該設定データに基づいて第３コンテンツ２３０を再生することができる。

　図７は、ユーザ端末１００におけるコンテンツ再生処理の一例を示すフローチャートである。図７に示す処理は、例えば、ユーザがアプリケーションを起動したことにより開始される。

　音声検出部４２０は、第１コンテンツ２００の音声に埋め込まれた透かしデータの検出を開始する（Ｓ７０１）。透かしデータが検出されれば、時間軸判定部４３０は、透かしデータに基づいて第２コンテンツ２１０の時間軸を判定する（Ｓ７０２）。なお、時間軸判定部４３０は、第１コンテンツ２００の音声のフィンガープリントに基づいて、第２コンテンツ２１０の時間軸を判定してもよい。

　また、音声検出部４２０は、第１コンテンツ２００の音声に基づく時間軸の判定（Ｓ７０１～Ｓ７０２）と並行して、第２コンテンツ２１０の音声に基づく時間軸の判定（Ｓ７０３～Ｓ７０４）を実行する。具体的には、音声検出部４２０は、第２コンテンツ２１０の音声のフィンガープリント（特徴量）の検出を開始する（Ｓ７０３）。そして、時間軸判定部４３０は、当該フィンガープリントに基づいて第２コンテンツ２１０の時間軸を判定する（Ｓ７０４）。第２コンテンツ２１０の音声に基づく時間軸の判定（Ｓ７０３～Ｓ７０４）処理は、例えば、第２コンテンツ２１０の再生が開始された後に、ユーザが第２コンテンツ２１０の視聴を開始した場合や、第１コンテンツ２００の音声に基づく時間軸の判定（Ｓ７０１～Ｓ７０２）が正常に動作しなかった場合等に有効である。

　第１コンテンツ２００又は第２コンテンツ２１０の音声に基づく時間軸の判定（Ｓ７０１～Ｓ７０４）が完了するまでの間（Ｓ７０５：Ｎ）、時間軸の判定処理が繰り返し実行される。そして、時間軸の判定が完了すると（Ｓ７０５：Ｙ）、音声検出部４２０及び時間軸判定部４３０は動作が停止され、コンテンツ再生部４４０が、判定された時間軸に基づいて、第２コンテンツ２１０の再生に合わせて第３コンテンツ２３０を再生する（Ｓ７０６）。

　以上、本発明の一実施形態について説明した。本実施形態によれば、第１コンテンツ２００（例えば先付け）の音声に基づいて、第１コンテンツ２００に続いて再生される第２コンテンツ２１０（例えば本編）の時間軸を判定することができる。そして、当該判定された時間軸に基づいて、第２コンテンツ２１０の再生に合わせて、第２コンテンツ２１０に応じた第３コンテンツ２３０（例えば字幕や音声ガイド）を再生することができる。したがって、第２コンテンツ２１０の音声に透かしデータが埋め込まれていない場合や、第２コンテンツ２１０の音声のフィンガープリントでは第２コンテンツ２１０の開始タイミングの判定が難しい場合であっても、第２コンテンツ２１０の時間軸を容易かつ確実に判定することができる。

　また、本実施形態によれば、第１コンテンツ２００の音声に埋め込まれた透かしデータに基づいて第２コンテンツ２１０の時間軸を判定することができる。第１コンテンツ２００は、第２コンテンツ２１０と比較して透かしデータを埋め込むことが容易であることが多い。そのため、第１コンテンツ２００の音声に透かしデータを埋め込むことにより、第２コンテンツ２１０の時間軸を容易かつ確実に判定することができる。

　さらに、本実施形態によれば、第１コンテンツ２００の音声に埋め込まれた透かしデータは非可聴領域の音声データとすることができる。これにより、第１コンテンツ２００を視聴しているユーザに影響を与えることなく、第２コンテンツ２１０の時間軸を容易かつ確実に判定することができる。

　また、本実施形態によれば、第１コンテンツ２００の音声に埋め込まれた透かしデータに基づく第２コンテンツ２１０の時間軸の判定に加えて、第２コンテンツ２１０の音声のフィンガープリント（特徴量）に基づいて第２コンテンツ２１０の時間軸を判定してもよい。これにより、例えば、第２コンテンツ２１０の再生開始後にユーザが第２コンテンツ２１０の視聴を開始した場合等において、第２コンテンツ２１０の時間軸を容易かつ確実に判定することができる。

　また、本実施形態によれば、第１コンテンツ２００の音声に埋め込まれた透かしデータ２２０は、時間軸の判定のためのデータ（例えばタイムコード）に加えて、第３コンテンツ２３０を特定するためのデータ（例えば施設や地域等を示すデータ）を含んでもよい。これにより、例えば、第１コンテンツ２００の音声に埋め込まれた透かしデータ２２０によって、第３コンテンツ２３０を選択することができる。

　また、本実施形態によれば、第１コンテンツ２００の音声の特徴量に基づいて、第２コンテンツ２１０の時間軸を判定してもよい。これにより、例えば、第１コンテンツ２００に透かしデータ２２０が埋め込まれていない場合であっても、第２コンテンツ２１０の時間軸を容易かつ確実に判定することができる。

　また、本実施形態によれば、音声検出部４２０及び時間軸判定部４３０は、第２コンテンツ２１０の時間軸が判定されると動作を停止することができる。これにより、ユーザ端末１００における電力消費を抑制することができる。

　なお、ユーザ端末１００の性能等の影響により、第２コンテンツ２１０の時間軸の判定が行われた後に、ユーザ端末１００が保持する第２コンテンツ２１０の時間軸と、第２コンテンツ２１０の実際の時間軸との間にずれが生じる可能性がある。そのため、時間軸判定部４３０は、第２コンテンツ２１０の時間軸の判定が完了した後に、適宜なタイミングで、第２コンテンツ２１０の音声のフィンガープリント（特徴量）に基づいて、第２コンテンツ２１０の時間軸を補正してもよい。例えば、時間軸判定部４３０は、第２コンテンツ２１０の時間軸の判定が完了した後に、所定の時間間隔で、第２コンテンツ２１０の音声のフィンガープリント（特徴量）に基づいて、第２コンテンツ２１０の時間軸を補正してもよい。また例えば、時間軸判定部４３０は、第２コンテンツ２１０の時間軸の判定が完了した後に、ユーザからの指示に応じて、第２コンテンツ２１０の音声のフィンガープリント（特徴量）に基づいて、第２コンテンツ２１０の時間軸を補正してもよい。

　また、本実施形態によれば、第２コンテンツ２１０の時間軸の判定状態を示す情報を表示装置３５０に出力することができる。なお、当該情報の出力先は表示装置３５０に限らず、音声出力装置３４０であってもよい。これにより、第２コンテンツ２１０の時間軸の判定状態をユーザに通知することができる。

　以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。

１００　ユーザ端末、１１０　スクリーン、１２０　スピーカ、２００　第１コンテンツ、２１０　第２コンテンツ、２２０　透かしデータ、２３０　第３コンテンツ、３００　プロセッサ、３１０　記憶装置、３２０　通信インタフェース、３３０　マイク、３４０　音声出力装置、３５０　表示装置、３６０　入力装置、４００　コンテンツ取得部、４１０　コンテンツ記憶部、４２０　音声検出部、４３０　時間軸判定部、４４０　コンテンツ再生部、４５０　参照データ取得部、４６０　参照データ記憶部、４７０　設定部、４８０　設定データ記憶部

Claims

　コンピュータに、
　前記コンピュータの外部で再生される第１コンテンツの音声を検出する音声検出部と、
　前記検出された音声に基づいて、前記コンピュータの外部で前記第１コンテンツに続いて再生される第２コンテンツの時間軸を判定する時間軸判定部と、
　前記判定された時間軸に基づいて、前記第２コンテンツの再生に合わせて、前記第２コンテンツに応じた第３コンテンツを再生するコンテンツ再生部と、
　を実現させるためのコンテンツ再生プログラム。
　前記音声は、前記第１コンテンツに埋め込まれた透かしデータである、
　請求項１に記載のコンテンツ再生プログラム。
　前記透かしデータは、非可聴領域の音声データである、
　請求項２に記載のコンテンツ再生プログラム。
　前記音声検出部は、さらに、前記コンピュータの外部で再生される前記第２コンテンツの音声の特徴量を検出し、
　前記時間軸判定部は、前記第１コンテンツに埋め込まれた前記透かしデータ又は前記第２コンテンツの前記特徴量に基づいて前記時間軸を判定する、
　請求項２又は３に記載のコンテンツ再生プログラム。
　前記透かしデータは、前記時間軸の判定のための第１データと、前記第３コンテンツを特定するための第２データとを含み、
　前記時間軸判定部は、前記第１データに基づいて前記時間軸を判定し、
　前記コンテンツ再生部は、前記第２データに基づいて前記第３コンテンツを再生する、
　請求項２から４のいずれか一項に記載のコンテンツ再生プログラム。
　前記音声検出部は、前記音声の特徴量を検出し、
　前記時間軸判定部は、前記検出された特徴量に基づいて前記時間軸を判定する、
　請求項１に記載のコンテンツ再生プログラム。
　前記音声検出部及び前記時間軸判定部は、前記時間軸が判定されると動作を停止する、請求項１から６のいずれか一項に記載のコンテンツ再生プログラム。
　前記時間軸判定部は、前記時間軸が判定された後に、前記第２コンテンツの前記特徴量に基づいて前記時間軸を補正する、
　請求項４に記載のコンテンツ再生プログラム。
　前記コンテンツ再生部は、前記時間軸の判定状態を示す情報を出力する、
　請求項１から８のいずれか一項に記載のコンテンツ再生プログラム。
　外部で再生される第１コンテンツの音声を検出する音声検出部と、
　前記検出された音声に基づいて、前記第１コンテンツに続いて外部で再生される第２コンテンツの時間軸を判定する時間軸判定部と、
　前記判定された時間軸に基づいて、前記第２コンテンツの再生に合わせて、前記第２コンテンツに応じた第３コンテンツを再生するコンテンツ再生部と、
　を備えるコンテンツ再生装置。