JPWO2013118387A1

JPWO2013118387A1 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JPWO2013118387A1
Application number: JP2013557378A
Authority: JP
Inventors: 文規本間; 泰史奥村; 辰志梨子田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2012-02-10
Filing date: 2012-12-12
Publication date: 2015-05-11
Anticipated expiration: 2032-12-12
Also published as: CN104081784B; US9437246B2; JP6044553B2; US20150016801A1; CN104081784A; WO2013118387A1

Abstract

【課題】言語学習の利便性を向上させることのできる情報処理装置、情報処理方法、及びプログラムを提供する。【解決手段】情報処理装置は、コンテンツ表示領域及び字幕表示領域を含む表示画面の表示を制御する表示制御部と、前記字幕表示領域に対する第１の操作が検出されると、前記コンテンツ表示領域に対する前記第１の操作が検出されたときに実行される第１の処理と異なる第２の処理を行うための操作と認識する操作認識部と、を有する。【選択図】図１

Description

本開示は、情報処理装置、情報処理方法、及びプログラムに関する。

母国語以外の言語を学習しようとするとき、動画を用いた学習は有効である。例えば特許文献１には、映像に付加された字幕を中心に映像中の再生位置をサーチすることのできる再生装置が開示されている。この再生装置は、字幕に基づいて繰り返し再生を行うことができる。このため、聞き取り難い箇所を繰り返し再生することができ、学習効果が高められる。

特開平０９−１１５２２４号公報

しかし、この分野においては、さらに学習効率を高めてユーザの利便性を向上させることが望まれていた。

本開示によれば、コンテンツ表示領域及び字幕表示領域を含む表示画面の表示を制御する表示制御部と、上記字幕表示領域に対する第１の操作が検出されると、上記コンテンツ表示領域に対する上記第１の操作が検出されたときに実行される第１の処理と異なる第２の処理を行うための操作と認識する操作認識部と、を有する情報処理装置が提供される。

また本開示によれば、コンテンツ表示領域及び字幕表示領域を含む表示画面の表示を制御することと、上記字幕表示領域に対する第１の操作が検出されると、上記コンテンツ表示領域に対する上記第１の操作が検出されたときに実行される第１の処理と異なる第２の処理を行うための操作と認識することと、を含む情報処理方法が提供される。

また本開示によれば、コンピュータを、コンテンツ表示領域及び字幕表示領域を含む表示画面の表示を制御する表示制御部と、上記字幕表示領域に対する第１の操作が検出されると、上記コンテンツ表示領域に対する上記第１の操作が検出されたときに実行される第１の処理と異なる第２の処理を行うための操作と認識する操作認識部と、を有する情報処理装置として機能させるためのプログラムが提供される。

以上説明したように本開示によれば、言語学習の利便性を向上させることのできる情報処理装置、情報処理方法、及びプログラムを提供することができる。

本開示の一実施形態に係る語学学習システム１の構成図である。同実施形態に係る語学学習システムにより提供される表示画面構成の第１の例を示す説明図である。同実施形態に係る語学学習システムにより提供される表示画面構成の第２の例を示す説明図である。同実施形態に係るユーザ装置のハードウェア構成例を示すブロック図である。同実施形態に係るユーザ装置の機能構成例を示すブロック図である。同実施形態に係るユーザ装置の再生する映画コンテンツに付加されている字幕データの一例を示す説明図である。同実施形態に係るユーザ装置の表示する字幕表示領域の構成の一例を示す説明図である。同実施形態に係るユーザ装置の字幕表示領域に対する操作例を示す説明図である。同実施形態に係るユーザ装置の字幕表示領域に対する操作例を示す説明図である。同実施形態に係るユーザ装置の字幕表示領域に対する操作例を示す説明図である。同実施形態に係るユーザ装置の字幕表示領域に対する操作例を示す説明図である。同実施形態に係るユーザ装置のコンテンツ表示領域および字幕表示領域に対する操作の一例を示す説明図である。同実施形態に係るユーザ装置のアクティブ字幕表示領域による再生速度操作の一例を示す説明図である。同実施形態に係るユーザ装置の、リピート再生操作の一例を示す説明図である。同実施形態に係るユーザ装置の、リピート再生操作のバリエーションと再生速度の対応を示す説明図である。同実施形態に係るユーザ装置のリピート再生操作のタップ位置とリピート開始位置の関係の一例を説明する説明図である。同実施形態に係るユーザ装置の再生位置の変更と再生方法を示す説明図である。同実施形態に係るユーザ装置が用いる字幕フレームについての説明図である。同実施形態に係るユーザ装置が用いる発声時間つきテキストデータの概要を示す説明図である。同実施形態に係るユーザ装置のテキスト音声同期単位の切替についての説明図である。同実施形態に係るユーザ装置の発声時間つきテキストデータの利用方法の一例を示す説明図である。同実施形態に係るユーザ装置の辞書表示領域の表示例を示す説明図である。同実施形態に係るメタデータサーバの機能構成を示すブロック図である。同実施形態に係るメタデータサーバの、字幕表示時間の補正についての説明図である。同実施形態に係るメタデータサーバが提供する、人物に対して付加される付加情報の一例を示す説明図である。同実施形態に係るメタデータサーバが提供する人物の口位置を示すメタデータの一例を説明するための説明図である。同実施形態に係るメタデータサーバが提供する人物認識情報の一例を示す説明図である。同実施形態に係るユーザ装置における話者に応じた字幕表示の一例を示す説明図である。同実施形態に係るメタデータサーバにより提供されるメタデータを用いた台詞表示の一例を示す説明図である。同実施形態に係るメタデータサーバが提供する検索機能の一例を示す説明図である。同実施形態に係るメタデータサーバが提供するクエストサービスの一例を示す説明図である。同実施形態に係るコンテンツサーバ、メタデータサーバ、及び記録サーバのハードウェア構成の一例を示すブロック図である。同実施形態に係るユーザ装置の動作例を示すフローチャートである。同実施形態に係るメタデータサーバの動作例を示すフローチャートである。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

なお、説明は以下の順序で行うものとする。
１．概要
２．表示画面構成例
３．ユーザ装置の構成
４．字幕表示と再生制御例
４−１．字幕表示の概要
４−２．字幕表示領域を用いた操作
４−３．字幕フレーム
４−４．発声時間の解析と利用
４−５．辞書検索機能
５．メタデータサーバの機能構成
６．メタデータの例
７．サーバのハードウェア構成例
８．動作例

＜１．概要＞
まず本開示の一実施形態に係る語学学習システム１の概要について、図１を参照しながら説明する。図１は、本開示の一実施形態に係る語学学習システム１の構成図である。

母国語と異なる言語を習得するためには、興味を持って学習を継続的に行うことが重要である。しかし、語学学習テキストは文字ばかりであり、抽象的な文章が並び、実際にどういった場面で使われる会話であるか分かりづらく現実味がないことが多かった。この点において映画などの動画像コンテンツを用いることは好適である。動画像コンテンツは、ストーリーがあるため、学習継続のモチベーション向上につながる。ところがこのような動画像を用いた語学学習の方法は、英語上級者の個人のノウハウとして用いられていた。

そこで本開示では、動画像コンテンツを語学学習に適した方法で提供することを提案する。映画をはじめとする動画像コンテンツは、世界中で次々に新しい作品が製作される。また映画コンテンツには動画像データに含まれる音声をテキスト化した字幕データが共通のフォーマットで付加されている。このため、語学学習に適した方法で映画コンテンツを提供する方法を用いれば、次々と製作される動画像コンテンツを語学学習に用いることができる。また字幕データを用いることによって、より効果的に語学を学習することができる。

なお以下の説明中では、動画像コンテンツの一例として映画コンテンツを用いる。しかし、本技術はかかる例に限定されず、例えばインターネット上に公開される動画像コンテンツに適用されてもよい。このとき字幕データは、例えば動画像コンテンツを解析することにより生成されてよい。

ここで、上記のような語学学習サービスを提供するための、本開示の一実施形態に係る語学学習システム１の構成について、図１を参照しながら説明する。語学学習システム１は、ユーザ装置１００と、コンテンツサーバ２００と、メタデータサーバ３００と、記録サーバ４００とを主に有する。

ユーザ装置１００は、語学学習サービスを利用するユーザの用いる端末装置である。コンテンツサーバ２００は、語学学習サービスにより用いられる動画像コンテンツを提供するサーバである。例えばコンテンツサーバ２００は、ユーザ装置１００からの要求に応じて、指定されたコンテンツをユーザ装置１００に送信することができる。このときコンテンツサーバ２００がユーザ装置１００にコンテンツを提供する形態は様々考えられる。例えばコンテンツサーバ２００は、ストリーミング配信によりユーザ装置１００にコンテンツを提供してもよい。或いはユーザ装置１００はコンテンツサーバ２００からコンテンツをダウンロードしてもよい。

メタデータサーバ３００は、動画像コンテンツのメタデータを提供するサーバである。なお本実施形態においてはメタデータサーバ３００は、メタデータを生成する機能及びメタデータを提供する機能を有する。記録サーバ４００は、それぞれのユーザの学習記録情報を保持する機能を有する。例えば記録サーバ４００が保持する学習記録情報の一例としては、ユーザが取得したコンテンツの情報、後述されるクエストの達成率または獲得ポイントなどが挙げられる。ユーザ装置１００及びメタデータサーバ３００の詳細については後述される。

＜２．表示画面構成例＞
次にこの語学学習システム１によりユーザ装置１００に表示される表示画面の構成例について、図２及び図３を参照しながら説明する。図２は、同実施形態に係る語学学習システムにより提供される表示画面構成の第１の例を示す説明図である。図３は、同実施形態に係る語学学習システムにより提供される表示画面構成の第２の例を示す説明図である。

図２を参照すると、表示画面は、コンテンツ表示領域１１と、字幕表示領域１２と、学習記録表示領域１３と、コンテンツリスト表示領域１４と、辞書表示領域１５と、関連動画表示領域１６とを主に有する。

コンテンツ表示領域１１は、コンテンツの再生画面が表示される領域である。字幕表示領域１２は、コンテンツに付加された字幕を表示する領域である。なお後に詳しく説明されるが、本実施形態においてこの表示画面は、字幕を用いた操作を受付けることができる。このため、この表示画面は、コンテンツ表示領域１１と別途の領域として字幕表示領域１２が設けられる。

学習記録表示領域１３は、ユーザの学習に関する履歴などの学習記録情報が表示される領域である。コンテンツリスト表示領域１４は、取得することのできるコンテンツのリストが表示される領域である。辞書表示領域１５は、言葉などに関する解説文章が表示される領域である。この辞書表示領域１５には、例えば字幕表示領域１２に表示された単語の解説文章が表示されてよい。例えば字幕表示領域１２において、ユーザが解説文章を表示する単語を選択することもできる。関連動画表示領域１６は、コンテンツ表示領域１１に表示されているコンテンツと関連する動画が表示される領域である。

次に図３を参照すると、同実施形態に係る語学学習システムにより提供される表示画面構成の第２の例が示される。第１の例に示される表示画面構成は、主に筐体の長手方向を横向きに携えたときに好適である。これに対してこの第２の例に示される表示画面構成は、例えば筐体の長手方向を縦向きに携えたときに好適である。

この第２の例に示される表示画面は、コンテンツ表示領域１１と、字幕表示領域１２と、辞書表示領域１５とを主に有する。ここでは、字幕表示領域１２において選択された「ｃｏｍｐａｎｙ」という単語の解説文章が辞書表示領域１５に表示されている。この辞書表示領域１５は、例えば解説文章を表示させる単語が選択されたときに表示され、通常は非表示の状態であってもよい。

このように、語学学習に適した方法で動画像コンテンツを提供するための語学学習システムについて、以下に詳しく説明する。

＜３．ユーザ装置の構成＞
次に図４及び図５を参照しながら、本開示の一実施形態に係るユーザ装置１００の構成について説明する。図４は、同実施形態に係るユーザ装置のハードウェア構成例を示すブロック図である。図５は、同実施形態に係るユーザ装置の機能構成例を示すブロック図である。

ユーザ装置１００は、例えばアプリケーションを実行することによって本開示の一実施形態に係る語学学習サービスを提供することのできる情報処理装置の一例である。例えばユーザ装置１００は、携帯電話、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、映像処理装置、ゲーム機器、家電機器、音楽再生装置、ナビゲーション装置などの情報処理装置であってよい。

図４を参照すると、ユーザ装置１００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０５と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１１０と、不揮発性メモリ１１５と、表示装置１２０と、タッチセンサ１２５と、音声出力装置１３０と、ネットワークインタフェース１３５と、撮像装置１４０とを主に有する。

ＣＰＵ１０５は、演算処理装置および制御装置として機能する。ＣＰＵ１０５は、各種プログラムに従ってユーザ装置１００内の動作全般を制御する。またＣＰＵ１０５は、マイクロプロセッサであってよい。ＲＡＭ１１０は、ＣＰＵ１０５が実行するプログラムや、プログラムの実行において適宜変化するパラメータ等を一時記憶する。不揮発性メモリ１１５は、ＣＰＵ１０５が使用するプログラムや演算パラメータなどを記憶する。

表示装置１２０は、表示部の一例であり、例えば液晶ディスプレイ（ＬＣＤ：ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）装置、有機ＥＬディスプレイ（ＯＥＬＤ：ＯｒｇａｎｉｃＥｌｅｃｔｒｏＬｕｍｉｎｅｓｃｅｎｃｅＤｉｓｐｌａｙ）装置、ブラウン管（ＣＲＴ：ＣａｔｈｏｄｅＲａｙＴｕｂｅ）ディスプレイ装置などであってよい。

タッチセンサ１２５は、操作部の一例であり、表示装置１２０上に重畳して設けられる。タッチセンサ１２５は、位置入力装置であり、表示画面における位置情報に基づいて、操作を受付けることができる。

音声出力装置１３０は、音声を出力するスピーカである。この音声出力装置１３０は、例えば再生される映画コンテンツの音声データを出力することができる。ネットワークインタフェース１３５は、外部装置と接続するためのインタフェースである。このネットワークインタフェース１３５は、例えば有線又は無線でネットワークに接続するインタフェースであってよい。撮像装置１４０は、動画像及び静止画像を撮影する機能を有する装置である。

次に図５を参照しながら、同実施形態に係るユーザ装置１００の機能構成について説明する。ユーザ装置１００は、再生制御部１５０と、操作部１５５と、音声出力制御部１６０と、音声出力部１６５と、表示制御部１７０と、表示部１７５と、通信部１８０との機能を主に有する。

再生制御部１５０は、コンテンツの再生を制御する機能を有する。再生制御部１５０は、操作部１５５から供給される操作情報に基づいて動作することができる。再生制御部１５０は、操作情報に基づいて、再生するコンテンツを選択することができる。また再生制御部１５０は、選択したコンテンツをコンテンツサーバ２００から取得することができる。また再生制御部１５０は、選択したコンテンツに付加されたメタデータをメタデータサーバ３００から取得することもできる。また再生制御部１５０は、ユーザの学習記録情報を記録サーバ４００から取得することもできる。また再生制御部１５０は、音声出力制御部１６０及び表示制御部１７０を制御することによってコンテンツの再生を制御することができる。

操作部１５５は、ユーザが所望の操作を行うための入力装置であり、例えばタッチセンサ１２５であってよい。操作部１５５は、ユーザの操作に基づいた操作情報を生成して再生制御部１５０に共有することができる。操作部１５５は、例えばユーザが、再生するコンテンツを選択する操作、コンテンツ中の再生位置を選択する操作、及び再生に関する各種のパラメータ（例えば再生音量および再生速度など）を設定する操作を行うと、操作に応じた操作情報を生成することができる。

音声出力制御部１６０は、再生制御部１５０の制御に従って音声出力部１６５が出力する音声を制御することができる。音声出力制御部１６０は、再生制御部１５０の指定するコンテンツ中の指定された再生箇所に対応する音声の出力を制御する。

音声出力部１６５は、音声出力制御部１６０の制御に従って音声を出力する機能を有する。音声出力部１６５は、音声出力装置１３０であってよい。なおここではユーザ装置１００が音声出力装置１３０を有することとしたが、本技術はかかる例に限定されない。例えば音声出力部１６５は、外部の音声出力装置に音声を出力するインタフェースであってもよい。

表示制御部１７０は、再生制御部１５０の制御に従って表示部１７５の出力する表示画面の内容を制御することができる。表示制御部１７０は、再生制御部１５０の指定するコンテンツ中の指定された再生箇所を表示するように表示部１７５の表示画面の内容を制御することができる。

表示部１７５は、表示制御部１７０の制御に従って表示画面をユーザに提供する機能を有する。表示部１７５は、表示装置１２０であってよい。ここでは語学学習装置１００が表示装置１２０を有することとしたが、本技術はかかる例に限定されない。例えば表示部１７５は、外部の表示装置に表示画面を出力させるためのインタフェースであってもよい。

通信部１８０は、外部装置と通信する機能を有する。通信部１８０は、ネットワークインタフェース１３５であってよい。再生制御部１５０は、この通信部１８０を介して、コンテンツサーバ２００、メタデータサーバ３００，及び記録サーバ４００から各種情報を取得することができる。

以上、本実施形態に係るユーザ装置１００の機能の一例を示した。上記の各構成要素は、図４に示されたハードウェア構成により実現されてもよいし、汎用的な部材や回路が用いられてもよい。また上記の各構成要素は、各構成要素の機能に特化したハードウェアにより構成されていてもよい。また、各構成要素の機能を、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などの演算装置がこれらの機能を実現する処理手順を記述した制御プログラムを記憶したＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）やＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などの記憶媒体から制御プログラムを読出し、そのプログラムを解釈して実行することにより行ってもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用する構成を変更することが可能である。

なお、上述のような本実施形態に係るユーザ装置１００の各機能を実現するためのコンピュータプログラムを作成し、パーソナルコンピュータ等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリなどである。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信してもよい。

＜４．字幕表示と再生制御例＞
次に図６〜図２２を参照しながら、本開示の一実施形態に係るユーザ装置１００の字幕表示と再生制御の例について説明する。図６は、同実施形態に係るユーザ装置の再生する映画コンテンツに付加されている字幕データの一例を示す説明図である。図７は、同実施形態に係るユーザ装置の表示する字幕表示領域の構成の一例を示す説明図である。図８は、同実施形態に係るユーザ装置の字幕表示領域に対する操作例を示す説明図である。図９は、同実施形態に係るユーザ装置の字幕表示領域に対する操作例を示す説明図である。図１０は、同実施形態に係るユーザ装置の字幕表示領域に対する操作例を示す説明図である。図１１は、同実施形態に係るユーザ装置の字幕表示領域に対する操作例を示す説明図である。図１２は、同実施形態に係るユーザ装置のコンテンツ表示領域および字幕表示領域に対する操作の一例を示す説明図である。図１３は、同実施形態に係るユーザ装置のアクティブ字幕表示領域による再生速度操作の一例を示す説明図である。図１４は、同実施形態に係るユーザ装置の、リピート再生操作の一例を示す説明図である。図１５は、同実施形態に係るユーザ装置の、リピート再生操作のバリエーションと再生速度の対応を示す説明図である。図１６は、同実施形態に係るユーザ装置のリピート再生操作のタップ位置とリピート開始位置の関係の一例を説明する説明図である。図１７は、同実施形態に係るユーザ装置の再生位置の変更と再生方法を示す説明図である。図１８は、同実施形態に係るユーザ装置が用いる字幕フレームについての説明図である。図１９は、同実施形態に係るユーザ装置が用いる発声時間つきテキストデータの概要を示す説明図である。図２０は、同実施形態に係るユーザ装置のテキスト音声同期単位の切替についての説明図である。図２１は、同実施形態に係るユーザ装置の発声時間つきテキストデータの利用方法の一例を示す説明図である。図２２は、同実施形態に係るユーザ装置の辞書表示領域の表示例を示す説明図である。

〔４−１．字幕表示の概要〕
まず図６及び図７を参照しながら、同実施形態に係るユーザ装置１００の字幕表示の概要について説明する。図６には、映画コンテンツに付加されている字幕データの一例が示される。

字幕データは、例えば字幕ＩＤと、字幕表示時間と、字幕テキストとを含む。字幕ＩＤは、１画面に表示される字幕テキストのまとまりを識別する記号である。字幕ＩＤは、例えば時系列の連番が付与されてよい。字幕表示時間は、コンテンツ中において、字幕テキストを表示する時間である。字幕テキストは、映画コンテンツの再生とともに表示されるテキストデータである。

このような字幕データを用いて、ユーザ装置１００の表示制御部１７０は、表示画面中の字幕表示領域１２に字幕テキストを表示させることができる。この字幕表示領域１２は、図７に示されるようにコンテンツ表示領域１１の下に設けられ、アクティブ字幕表示領域１２Ａと、未来字幕表示領域１２Ｆとを含むことができる。アクティブ字幕表示領域１２Ａは、現在、コンテンツ表示領域１１において再生されているコンテンツの再生時点に対応するアクティブ字幕が表示される領域である。これに対して未来字幕表示領域１２Ｆは、これから再生される場面に対応する未来字幕が表示される領域である。ユーザによる操作がなされていないときには、例えば字幕表示領域１２の上端にはアクティブ字幕表示領域１２Ａが表示され、このアクティブ字幕に続く未来字幕１２Ｆが、アクティブ字幕表示領域１２Ａの下部に続いて表示されてよい。ここでは３つの未来字幕表示領域１２Ｆ−１，未来字幕表示領域１２Ｆ−２，及び未来字幕表示領域１２Ｆ−３が示されるが、未来字幕表示領域１２Ｆが表示される数は、表示の状態及び表示画面の大きさなどに応じて様々であってよい。なおアクティブ字幕表示領域１２Ａ内に表示される字幕に重畳して、現在の再生位置を示すカーソルが表示される。

ユーザ装置１００が表示する表示画面は、このような字幕を表示する領域をコンテンツの映像を表示する領域と別途有する。このため、ひとまとまりの字幕を単位として様々な操作を受付けるとともに、この操作に基づいて表示画面を制御することができる。以下、このような表示画面に対する様々な操作と操作に基づいた表示画面の制御について具体例を挙げながら説明する。

〔４−２．字幕表示領域を用いた操作〕
ここで字幕表示領域を用いたシーク操作について、図８〜図１１を参照しながら説明する。上述の通り、ユーザ装置１００の表示する表示画面は、字幕のひとまとまり毎に選択を受付ける字幕表示領域１２が含まれる。なお、ここで説明に用いる図面は、説明の対象となる箇所を抽出して示している。このため表示画面は、必ずしも図面に示す画面構成であるとは限らない。

図８の左図では、コンテンツ表示領域１１の下部にアクティブ字幕表示領域１２Ａ、未来字幕表示領域１２Ｆ−１、未来字幕表示領域１２Ｆ−２、及び未来字幕表示領域１２Ｆ−３が表示される。またアクティブ字幕表示領域１２Ａには字幕１が表示され、未来字幕表示領域１２Ｆ−１には字幕２が表示され、未来字幕表示領域１２Ｆ−２には字幕３が表示され、未来字幕表示領域１２Ｆ−３には字幕４が表示される。この状態において、ユーザが未来字幕表示領域１２Ｆに対して、未来字幕表示領域１２Ｆが並んでいる方向（図では上下方向）へのドラッグ操作を行うと、未来字幕表示領域１２Ｆに表示される字幕の内容が変更される。例えば図８の右図に示されるように、未来字幕表示領域１２Ｆ−１には字幕４が表示され、未来字幕表示領域１２Ｆ−２には字幕５が表示され、未来字幕表示領域１２Ｆ−３には字幕６が表示されてよい。このときアクティブ字幕表示領域１２Ａに表示される字幕は、字幕１のまま変更されない。なおここで字幕に付される番号は、時系列で順に連番が付されているものとする。すなわち字幕２は、字幕１の直後に表示される字幕である。

またこの未来字幕表示領域１２Ｆは、再生位置の変更操作を受付けることもできる。例えば図９の左図に示されるように、アクティブ字幕表示領域１２Ａに字幕１、未来字幕表示領域１２Ｆ−１に字幕４、未来字幕表示領域１２Ｆ−２に字幕５、未来字幕表示領域１２Ｆ−３に字幕６が表示されている場面を想定する。このとき、字幕６が表示されている未来字幕表示領域１２Ｆ−３をタップ操作すると、タップされた箇所に表示されていた字幕、すなわち字幕６がアクティブ字幕表示領域１２Ａに表示される。なおこのとき、未来字幕表示領域１２Ｆには、アクティブ字幕表示領域１２Ａに表示された字幕に続く字幕が順次表示される。具体的には、字幕６がアクティブ字幕表示領域１２Ａに表示されているときには、未来字幕表示領域１２Ｆ−１には字幕７が表示され、未来字幕表示領域１２Ｆ−２には字幕８が表示され、未来字幕表示領域１２Ｆ−３には字幕９が表示される。

またアクティブ字幕表示領域１２Ａに対するドラッグ操作によって、アクティブ字幕表示領域１２Ａの表示位置が変更される。例えば図１０の左図に示されるように、アクティブ字幕表示領域１２Ａには字幕６が表示され、未来字幕表示領域１２Ｆ−１には字幕７が表示され、未来字幕表示領域１２Ｆ−２には字幕８が表示され、未来字幕表示領域１２Ｆ−３には字幕９が表示されている状況を想定する。このとき、字幕６が表示されているアクティブ字幕表示領域１２Ａから、未来字幕表示領域１２Ｆが並んでいる方向に対するドラッグ操作が受付けられると、このドラッグ操作に応じて、アクティブ字幕表示領域１２Ａの表示位置が変更される（図１０の右図）。このとき、アクティブ字幕表示領域１２Ａの上部には、過去字幕表示領域１２Ｐが表示される。過去字幕表示領域１２Ｐには、アクティブ字幕表示領域１２Ａに表示されるアクティブ字幕よりも時系列的に前に位置する字幕が表示される。例えば具体的には、図１０の右図に示されるように、アクティブ字幕表示領域１２Ａに字幕６が表示されているとき、過去字幕表示領域１２Ｐ−２には字幕４、過去字幕表示領域１２Ｐ−１には字幕５、未来字幕表示領域１２Ｆ−１には字幕７が表示されてよい。

また図１１に示されるように、アクティブ字幕表示領域１２Ａをドラッグ操作して、字幕表示領域１２の下端までアクティブ字幕表示領域１２Ａが達したときに、アクティブ字幕表示領域１２Ａに対して長押し操作の状態を保つと、オートスクロール操作であると認識されてもよい。このとき、アクティブ字幕表示領域１２Ａに対する長押し操作が継続されている間、アクティブ字幕表示領域１２Ａの上部に表示された過去字幕表示領域１２Ｐに表示される字幕がオートスクロールされる。例えば図１１の右図に示されるように、過去字幕表示領域１２Ｐ−３には字幕１、過去字幕表示領域１２Ｐ−２には字幕２、過去字幕表示領域１２Ｐ−１には字幕３が表示されてよい。

上述の通り、本実施形態に係るユーザ装置１００は、字幕表示領域１２に対する操作によって、コンテンツのシーク処理を行うことができる。またユーザ装置１００は、字幕表示領域１２に対する操作に応じて、再生位置を変更することもできる。なお例えば図８においては、未来字幕表示領域１２Ｆに対するドラッグ操作について説明したが、同様の操作が過去字幕表示領域１２Ｐに対しても行われてもよい。また図９においては、未来字幕表示領域１２Ｆに対するタップ操作でコンテンツの再生位置を変更することができることを説明したが、同様の操作が過去字幕表示領域１２Ｐに対して行われてもよい。また図１１において説明したオートスクロール処理は、字幕表示領域１２の上端部において、未来字幕のオートスクロール処理に適用することもできる。

なお、ユーザ装置１００の表示画面は、上述の通り１つのコンテンツに対して、コンテンツ表示領域１１と字幕表示領域１２を含む複数の表示領域を有することができる。再生制御部１５０は、この表示領域毎に異なる操作を認識することができる。例えば図１２に示されるように、コンテンツ表示領域１１内でドラッグ操作が検知されたとき、再生制御部１５０は、シーク処理を行うための操作であると認識することができる。またこの再生制御部１５０は、アクティブ字幕表示領域１２Ａ内でドラッグ操作が検知されたとき、再生速度変更処理を行うための操作であると認識することができる。例えばアクティブ字幕表示領域１２Ａ内で左から右方向へのドラッグ操作が検知されると、再生制御部１５０は、再生速度を加速するための操作であると認識することができる。またアクティブ字幕表示領域１２Ａ内で右から左方向へのドラッグ操作が検知されると、再生制御部１５０は、再生速度を減速するための操作であると認識することができる。このときの、表示制御の一例が図１３に示される。例えば右方向へのドラッグ操作が検知されると、表示制御部１７０は、背景を右方向にオートスクロールさせ、カーソル速度を再生速度の加速に応じて加速させる。このとき背景の移動方向がわかるように背景には方向を把握することができるよう模様が含まれることが望ましい。また左方向へのドラッグ操作が検知されると、表示制御部１７０は、背景を左方向にオートスクロールさせ、カーソル速度を再生速度の減速に応じて減速させる。

またアクティブ字幕表示領域１２Ａに対する操作としては、図１４に示されるリピート操作が挙げられる。例えばアクティブ字幕表示領域１２Ａに対するタップ操作が検知されると、アクティブ字幕表示領域１２Ａに表示されている字幕の冒頭部に該当する箇所からリピート再生される。なお図１５に示されるように、リピート操作の種類に応じて再生速度が変更されてよい。例えばリピート操作がシングルタップであるときには、通常速度でのリピート再生が行われ、リピート操作が長押し操作であるときには、スロー再生が行われ、リピート操作がダブルタップであるときには、高速再生が行われてよい。

なお、再生中に行われる操作によってタップ位置を指定する場合には、ユーザが所望した位置と、実際に検出されたタップ位置とに隔たりがある場合がある。例えばユーザは字幕１のリピート再生を行おうとした場合に、タップ位置が字幕１の区間を過ぎている場合がある。この場合には、字幕２から再生されてしまう。このような不都合を解消するための再生制御について図１６に例示して説明する。例えばパターン１においては、字幕１の途中でタップ位置が検出されている。この場合には、再生制御部１５０は、字幕１の冒頭部からリピート再生を行う。またパターン２においては、字幕１部分の再生が終了してからの所定期間ＴＰ内であって、字幕２の冒頭部においてタップ位置が検出されている。この場合には、再生制御部１５０は、ユーザは字幕１のリピート再生を所望していたと判断して字幕１の冒頭部からリピート再生を行う。またパターン３においては、字幕１と字幕２との間に所定の時間間隔があいている。この場合、字幕１部分の再生が終了してからの所定期間ＴＰ内であって、字幕２部分の再生が開始される前においてタップ位置が検出されている。この場合には、再生制御部１５０は、ユーザは字幕１のリピート再生を所望していたと判断して字幕１の冒頭部からリピート再生を行う。なお字幕２の冒頭部であっても、字幕１と字幕２との間に所定の時間間隔があいており、タップ位置が字幕１部分の再生が終わってからの所定期間ＴＰ内ではないパターン４の場合においては、再生制御部１５０は、字幕２のリピート再生を行う。かかる再生制御により、ユーザのタップ操作が遅れた場合であっても、適切な位置からリピート再生を行うことができる。

なお、字幕表示領域１２に対する操作によって再生位置を変更する場合には、再生位置がジャンプするため、巻戻し又は早送りしながら再生位置をサーチする場合と比較して、再生位置の時間軸上における位置が分かりにくい場合がある。そこで再生制御部１５０は、ジャンプ先の時点より少し手前の時点からジャンプ先の時点までを高速再生した後、ジャンプ先時点からの通常速度での再生を開始することができる。図１７の例を用いて具体的に説明する。現在の再生シーンの時点を時点ｔ_０とする。そして、ｔ_０から見ると過去の時点ｔ_−２にジャンプするとき、再生制御部１５０は、時点ｔ_−２よりも少し手前の時点ｔ_−１から時点ｔ_−２までの区間を巻戻し再生する。そして時点ｔ_−２に達すると、通常速度での再生が開始される。この時点ｔ_−１から時点ｔ_−２までの巻戻し再生により、ユーザは、時点ｔ_−２が時点ｔ_０から見て過去の時点であることを把握することができる。また時点ｔ_０から見て未来の時点ｔ_２にジャンプするとき、再生制御部１５０は、時点ｔ_２よりも少し手前の時点ｔ_１から時点ｔ_２までの区間を早送り再生する。そして時点ｔ_２に達すると、通常速度での再生が開始される。この時点ｔ_１から時点ｔ_２までの早送り再生により、ユーザは、時点ｔ_２が時点ｔ_０から見て未来の時点であることを把握することができる。

〔４−３．字幕フレーム〕
続いて図１８を参照しながら、ユーザ装置１００が用いる字幕フレームについて説明する。映像コンテンツは、ミリ秒単位のタイムフレーム単位で取り扱われることが多かった。これに対して、本開示では、字幕のひとまとまりに合わせた字幕フレーム単位で映像コンテンツを取り扱うことを提案する。時間フレームは、コンテンツの内容に関わらず一定の時間単位で区切られるのに対して、字幕フレームは、ひとまとまりの字幕を１つの単位として区切られたフレームである。字幕は、コンテンツ中の会話の意味に基づいて区切られている。このため、字幕フレームは再生開始箇所として適している。従って、ユーザ装置１００の再生制御部１５０は、再生開始箇所を字幕フレームの先頭位置に調整することができる。

例えば図１８には、一時停止（Ｐａｕｓｅ）操作が行われた後、再生開始（Ｐｌａｙ）操作が行われたときに、再生開始位置を調整する例が示されている。このとき再生制御部１５０は、一時停止した時点が含まれる字幕フレームの先頭位置を再生開始位置としてよい。また図１８には、シーク（Ｓｅｅｋ）操作により再生開始位置が指定された場合の例が示される。シーク操作により再生開始位置が指定されると、再生制御部１５０は、指定された再生開始位置が含まれる字幕フレームの先頭位置を再生開始位置とすることができる。かかる構成により、再生開始時点がコンテンツ中の区切りのよい時点となるため、ユーザは、再生開始時点からコンテンツの内容を把握しやすくなる。

〔４−４．発声時間の解析と利用〕
ここで図１９〜図２２を参照しながら、字幕データの発声時間の解析とその利用について説明する。上述の通り、ユーザ装置１００は、字幕ＩＤ、字幕表示時間、及び字幕テキストを含む字幕データを用いることができる。この字幕表示時間は、字幕テキストをひとまとまりとしてその表示開始時間と表示終了時間とを示したものである。この字幕開始時間は、実際に字幕テキストの発声が開始されるよりも少し早く設定され、字幕終了時間は、実際に字幕テキストの発声が終了した時点よりも少し遅く設定されることが多い。

そこで本開示では、この字幕データから抽出された字幕テキストと、動画データから抽出された音声データとを用いて音声歌詞同期技術により生成される発声時間つきテキストデータを用いる。この発声時間つきテキストデータは、テキストデータの単語が実際に発声される時間を解析して付与してデータである。例えば図１９に示されるように単語単位で実際の発声時間が付与される。この発声時間つきテキストデータは、メタデータサーバ３００から提供される。

この発声時間つきテキストデータを用いることで、ユーザ装置１００の再生制御部１５０は、字幕中の単語毎に発声される時間を把握することができる。例えば発声時間つきテキストデータを用いて、単語毎に発声される時間を用いてアクティブ字幕表示領域１２Ａにおいて字幕上に重畳表示されるカーソルの位置を制御すれば、表示制御部１７０は、より発声される時間とカーソル位置とを正確に合わせることができる。ところが、正確に単語単位で音声とカーソル位置とを合わせると、ひとまとまりの字幕データ上に表示されるカーソルの移動速度が変化して滑らかな動きとならない。このように移動速度が変化するカーソルはユーザにとって視認性が低下して不快感を与えることがあり、さらに通常コンテンツを視聴しているときには、ユーザは、テキストと音声との同期の正確性をそこまで厳密に求めてはいない。そこで図２０の上図に示されるように、通常コンテンツを再生しているときには、表示制御部１７０は、テキストと音声との同期単位をセンテンス単位とすることができる。

また図２０の中図に示されるように、アクティブ字幕表示領域１２Ａにおいて、表示された字幕テキスト中の一部を選択する操作がなされると、再生制御部１５０は、選択された部分を単語単位で特定することができる。このとき、字幕テキスト中の一部を選択する操作は、例えばタップ操作であってよい。このタップ操作に応じて、再生制御部１５０は、テキスト音声の同期単位を切替えることができる。例えば字幕テキスト中の単語が選択されると、再生制御部１５０は、選択された単語部分にカーソルを重畳して表示させ、選択された単語の音声を出力させる（図２０の下図）。このように状況に応じて音声とテキストとの同期単位を切替えることによって、状況に応じて適した画面表示及び音声出力を実現することができる。

また単語単位で発声時間を特定することができることによって、特定の単語だけ再生速度を変化させることもできる。例えば図２１に示されるように、任意の操作で単語を予め選択しておくと、再生制御部１５０は、選択された単語のみ再生速度を変化させてもよい。例えば選択された単語だけ再生速度を遅くすれば、ユーザが発音を確認したい単語だけ予め選択しておくことによって、再生中に特定の単語のみ発音を確認することができる。また、再生速度を変更させる単語は、ユーザにより選択された単語に限定されない。例えば、再生制御部１５０は、指定された単語集に含まれる単語のみ再生速度を変更してもよい。再生制御部１５０は、字幕テキスト中に、単語集に含まれる単語が含まれていると、該当する単語の発声時間の間、再生速度を遅くすることができる。例えばこの単語集がレベル別に編集されたものであれば、ユーザはレベルを選択するだけで各ユーザに応じたレベルの単語のみ発音を確認しながらコンテンツを視聴することができる。

〔４−５．辞書検索機能〕
上述の通り、辞書表示領域１５には、字幕テキスト中に含まれる単語に対する解説文章が表示される。例えば、表示制御部１７０は、ユーザがアクティブ字幕表示領域１２Ａにおいて選択した単語に対する解説文章を字幕表示領域１５に表示することができる。しかし、このときユーザは、単語の意味ではなく、複数の単語による熟語またはイディオムの意味を知りたい場合がある。ところが、単純に選択された単語の解説文章を表示させる場合には、複数の単語を選択することができなかった。また単純に複数の単語を選択することができるようにすれば、該当する解説文章が存在しない可能性が高まり、ユーザの利便性を損なう。

そこで表示制御部１７０は、図２２に示されるように、選択された単語に基づいて、熟語となり得る単語を強調表示させることができる。そして、再生制御部１５０は、この強調表示された単語のみ、次にユーザからの選択を受付けることができる状態と判断する。例えば表示制御部１７０は、動詞が選択された後、選択された動詞と隣接する前置詞を強調表示することができる。例えば図２２のように「・・・he took up with my cousin・・・」という字幕テキスト中において、「took」の部分が選択されたとき、表示制御部１７０は、「took」と隣接する「up」及び「with」を強調表示することができる。このように、動詞と隣接する前置詞がさらに前置詞と隣接している場合には、表示制御部１７０は複数の前置詞を強調表示の対象とすることができる。そしてユーザが強調表示された前置詞を選択する操作を行うと、表示制御部１７０は、「took up with」の解説文章を辞書表示領域１５に表示することができる。

＜５．メタデータサーバの機能構成＞
次に図２３を参照しながら、本開示の一実施形態に係るメタデータサーバ３００の機能構成について説明する。図２３は、同実施形態に係るメタデータサーバの機能構成を示すブロック図である。

メタデータサーバ３００は、字幕解析部３０５と、音声解析部３１０と、画像解析部３１５と、メタデータ生成部３２０と、記憶部３２５と、情報提供部３３０とを主に有する。

字幕解析部３０５は、字幕データを解析する機能を有する。字幕解析部３０５は、例えば字幕データに含まれる字幕テキストを解析することができる。

音声解析部３１０は、コンテンツに含まれる音声データを解析する機能を有する。音声解析部３１０は、コンテンツに含まれる音声データを解析することにより音声データの特徴情報を提供することができる。

画像解析部３１５は、コンテンツに含まれる画像データを解析する機能を有する。画像解析部３１５は、例えば物体認識技術を用いて、画像データ中に含まれる物体の位置及び種類などの情報を生成することができる。画像解析部３１５は、例えば画像データ中に含まれる人物の位置を認識することができる。また画像解析部３１５は、画像データ中に含まれる人物の顔の位置、及び口の位置を認識することができる。また画像解析部３１５は、画像データ中に含まれる人物を認識することができる。従って画像解析部３１５は、それぞれの画像データ中に含まれる人物を分類して、同一人物と認識することのできる人物の情報を提供することができる。また画像解析部３１５は、画像データを解析することによって、画像データに含まれる人物の向き、例えば顔の向きを認識することができる。

メタデータ生成部３２０は、字幕解析部３０５による字幕データの解析結果、音声解析部３１０による音声データの解析結果、及び画像解析部３１５による画像データの解析結果などに基づいて、コンテンツに関するメタデータを生成する機能を有する。メタデータ生成部３２０は、生成したメタデータを記憶部３２５に記憶させることができる。

記憶部３２５は、データ格納用の装置であり、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置、および記憶媒体に記録されたデータを削除する削除装置などを含むことができる。ここで記憶媒体としては、例えばフラッシュメモリ、ＭＲＡＭ（Magnetoresistive Random Access Memory）、ＦｅＲＡＭ（Ferroelectric Random Access Memory）、ＰＲＡＭ（Phase change Random Access Memory）、及びＥＥＰＲＯＭ（Electronically Erasable and Programmable Read Only Memory）などの不揮発性メモリや、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）などの磁気記録媒体などが用いられてよい。

情報提供部３３０は、要求に応じてコンテンツのメタデータを提供する機能を有する。例えば情報提供部３３０は、特定のコンテンツのテキスト音声同期情報を提供することができる。また情報提供部３３０は、コンテンツを横断した検索機能を提供することができる。例えば検索キーワードを受信すると、情報提供部３３０は、字幕テキストを用いて、取り扱っているコンテンツ全てから、検索キーワードを含む台詞が含まれるコンテンツを抽出することができる。

＜６．メタデータの例＞
次に、図２４〜図３１を参照しながら、同実施形態に係るメタデータサーバ３００の提供するメタデータの一例について説明する。図２４は、同実施形態に係るメタデータサーバの、字幕表示時間の補正についての説明図である。図２５は、同実施形態に係るメタデータサーバが提供する、人物に対して付加される付加情報の一例を示す説明図である。図２６は、同実施形態に係るメタデータサーバが提供する人物の口位置を示すメタデータの一例を説明するための説明図である。図２７は、同実施形態に係るメタデータサーバが提供する人物認識情報の一例を示す説明図である。図２８は、同実施形態に係るユーザ装置における話者に応じた字幕表示の一例を示す説明図である。図２９は、同実施形態に係るメタデータサーバにより提供されるメタデータを用いた台詞表示の一例を示す説明図である。図３０は、同実施形態に係るメタデータサーバが提供する検索機能の一例を示す説明図である。図３１は、同実施形態に係るメタデータサーバが提供するクエストサービスの一例を示す説明図である。

メタデータサーバ３００は、図１９において説明したように、字幕テキストが実際に発声される時刻をより詳細に示した、テキスト音声同期時間の情報を提供することができる。ここで再び図１９を参照すると、メタデータサーバ３００の音声解析部３１０は、動画データから抽出された音声データを解析することができる。また字幕解析部３０５は、字幕データに含まれるテキストデータを抽出することができる。そして、メタデータ生成部は、音声データとテキストデータを用いて、音声歌詞同期技術により発声時間つきテキストデータを生成することができる。

ここで、図２４に示されるように、コンテンツ側がもっている字幕表示時間は、実際に発声している時間より長く設定されることが多い。また音声認識により生成されるテキスト音声同期時間は、ＢＧＭ（ＢａｃｋＧｒｏｕｎｄＭｕｓｉｃ）などのノイズが音声データに含まれている場合には、このノイズを音声と誤認識してしまい、実際の発音時間よりも長く認識してしまうことがある。そこで、メタデータ生成部３２０は、テキスト音声同期時間を、これらの情報を用いて補正することができる。字幕表示時間及びテキスト音声同期時間のいずれも、実際の発音時間より短く設定される可能性は低い。すなわち、発音時間の開始時間は、字幕表示時間及びテキスト音声同期時間のうちいずれか遅い方に補正されてよい。また発音時間の終了時間は、字幕表示時間及びテキスト音声同期時間のうちいずれか早いほうに補正されてよい。かかる構成により、字幕表示時間の精度を高めることができる。

またメタデータ生成部３２０は、図２５に示されるように、画面上で指定した人物に関する情報が表示されるようにするためのメタデータを生成することができる。例えばこのメタデータは、コンテンツＩＤ、字幕ＩＤ、画面上の座標情報、及び付加情報が対応づけられて含まれてよい。ここで付加情報としては、例えばこの人物のＣＭ（ＣｏＭｍｅｒｃｉａｌ）情報、又は人物データなどであってよい。例えばメタデータ生成部３２０は、特定の人物が出ているシーンに対して広告やコメントなどの付加情報を付与することができる。メタデータ生成部３２０は、特定の人物が出ているシーンを画像解析部３１５による画像解析結果に基づいて認識することができる。そしてその特定の人物が出ているシーンに該当するコンテンツＩＤ、字幕ＩＤ、及び座標情報を取得し、これに対して付加情報を対応づけることによりメタデータを生成する。またこの座標情報は、正規化された値で格納されることが望ましい。かかる構成により、各クライアントの解像度に合わせて指定された位置の座標を決定することができる。また字幕ＩＤ単位でメタ情報を付加することによって、再生時間の違いに依存せず情報を付加することができる。

また、画像解析部３１５による解析結果を用いて、メタデータ生成部３２０は、画像データ中の人物の顔の位置及び口の位置を認識することができる。そしてこの情報を用いることによって、図２６に示されるように、ユーザが画面上で特定の人物を指定すると、その顔部分が拡大して表示される。そしてさらに指定した人物の口部分が拡大されるようにしてもよい。口の部分を拡大して表示することにより、ユーザは特定の文章（又は単語）を発声するときの口の形状を確認することができる。

またメタデータ生成部３２０は、図２７に示されるように、画像認識結果と音声認識結果とを合わせて用いることにより、人物判別の精度を向上させることができる。画像認識結果により同一人物であると判断されたグループの情報と、音声認識結果により同一人物の音声であると判断されたグループの情報とを合わせて用いることができる。例えばこのように精度が向上した人物判別結果を用いて、話者に応じてカーソル色を変えるなどの表現を用いることができる。また図２８に示されるように、話者に応じて字幕の表示位置を変更してもよい。例えば話者Ａの台詞は字幕表示領域１２の左端に表示され、話者Ｂの台詞は字幕表示領域１２の右端に表示されてよい。

またメタデータ生成部３２０は、台詞を話者の近くに表示するように、表示位置の情報を生成してもよい。例えば図２９の上図に示されるように、人物Ｃ１の台詞「They can't be possibly be true.」を表示する位置を、人物Ｃ１の顔の向きなどに基づいて解析することができる。このとき顔画像認識技術と、ＳＬＡＭ（ＳｉｍｕｌｔａｎｅｏｕｓｌｙＬｏｃａｌｉｚａｔｉｏｎａｎｄＭａｐｐｉｎｇ）を用いることができる。

またメタデータサーバ３００の情報提供部３３０は、コンテンツを横断した検索機能を提供することができる。例えば図３０に示されるように、検索キーワード「have been」が入力されると、情報提供部３３０は、字幕テキストを検索してこの検索キーワードが含まれるコンテンツを抽出することができる。このような機能を提供することによって、例えば図３１に示されるようなクエスト機能を提供することができる。例えばメタデータサーバ３００は、“「have been」を含む台詞を５つ探しなさい。”というクエストを出題し、ユーザがこのキーワードを含む台詞がアクティブ字幕領域１２Ａに表示されたときに、キーワードを含む台詞をチェックする操作（ここでは例えば星マークをタップする操作）を行うと、クエストの達成度合いに応じたポイントをユーザに付与してもよい。かかるサービスの提供により、ユーザの学習意欲を促進することができる。

＜７．サーバのハードウェア構成例＞
ここで図３２を参照しながら、コンテンツサーバ２００、メタデータサーバ３００，及び記録サーバ４００のハードウェア構成の一例について説明する。図３２は、同実施形態に係るコンテンツサーバ、メタデータサーバ、及び記録サーバのハードウェア構成の一例を示すブロック図である。

上記のコンテンツサーバ２００、メタデータサーバ３００，及び記録サーバ４００が有する各構成要素の機能は、例えば、図３２に示すハードウェア構成を用いて実現することが可能である。つまり、当該各構成要素の機能は、コンピュータプログラムを用いて図３２に示すハードウェアを制御することにより実現される。なお、このハードウェアの形態は任意であり、例えば、サーバ装置、パーソナルコンピュータ、携帯電話、ＰＨＳ、ＰＤＡ等の携帯情報端末、ゲーム機、又は種々の情報家電がこれに含まれる。但し、上記のＰＨＳは、ＰｅｒｓｏｎａｌＨａｎｄｙ−ｐｈｏｎｅＳｙｓｔｅｍの略である。また、上記のＰＤＡは、ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔの略である。

図３２に示すように、このハードウェアは、主に、ＣＰＵ９０２と、ＲＯＭ９０４と、ＲＡＭ９０６と、ホストバス９０８と、ブリッジ９１０と、を有する。さらに、このハードウェアは、外部バス９１２と、インターフェース９１４と、入力部９１６と、出力部９１８と、記憶部９２０と、ドライブ９２２と、接続ポート９２４と、通信部９２６と、を有する。但し、上記のＣＰＵは、ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔの略である。また、上記のＲＯＭは、ＲｅａｄＯｎｌｙＭｅｍｏｒｙの略である。そして、上記のＲＡＭは、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙの略である。

ＣＰＵ９０２は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ９０４、ＲＡＭ９０６、記憶部９２０、又はリムーバブル記録媒体９２８に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。ＲＯＭ９０４は、ＣＰＵ９０２に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ９０６には、例えば、ＣＰＵ９０２に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。

これらの構成要素は、例えば、高速なデータ伝送が可能なホストバス９０８を介して相互に接続される。一方、ホストバス９０８は、例えば、ブリッジ９１０を介して比較的データ伝送速度が低速な外部バス９１２に接続される。また、入力部９１６としては、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力部９１６としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ（以下、リモコン）が用いられることもある。

出力部９１８としては、例えば、ＣＲＴ、ＬＣＤ、ＰＤＰ、又はＥＬＤ等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。但し、上記のＣＲＴは、ＣａｔｈｏｄｅＲａｙＴｕｂｅの略である。また、上記のＬＣＤは、ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙの略である。そして、上記のＰＤＰは、ＰｌａｓｍａＤｉｓｐｌａｙＰａｎｅｌの略である。さらに、上記のＥＬＤは、Ｅｌｅｃｔｒｏ−ＬｕｍｉｎｅｓｃｅｎｃｅＤｉｓｐｌａｙの略である。

記憶部９２０は、各種のデータを格納するための装置である。記憶部９２０としては、例えば、ハードディスクドライブ（ＨＤＤ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。但し、上記のＨＤＤは、ＨａｒｄＤｉｓｋＤｒｉｖｅの略である。

ドライブ９２２は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体９２８に記録された情報を読み出し、又はリムーバブル記録媒体９２８に情報を書き込む装置である。リムーバブル記録媒体９２８は、例えば、ＤＶＤメディア、Ｂｌｕ−ｒａｙメディア、ＨＤＤＶＤメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体９２８は、例えば、非接触型ＩＣチップを搭載したＩＣカード、又は電子機器等であってもよい。但し、上記のＩＣは、ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔの略である。

接続ポート９２４は、例えば、ＵＳＢポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ、ＲＳ−２３２Ｃポート、又は光オーディオ端子等のような外部接続機器９３０を接続するためのポートである。外部接続機器９３０は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はＩＣレコーダ等である。但し、上記のＵＳＢは、ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓの略である。また、上記のＳＣＳＩは、ＳｍａｌｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍＩｎｔｅｒｆａｃｅの略である。

通信部９２６は、ネットワーク９３２に接続するための通信デバイスであり、例えば、有線又は無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又はＷＵＳＢ用の通信カード、光通信用のルータ、ＡＤＳＬ用のルータ、又は各種通信用のモデム等である。また、通信部９２６に接続されるネットワーク９３２は、有線又は無線により接続されたネットワークにより構成され、例えば、インターネット、家庭内ＬＡＮ、赤外線通信、可視光通信、放送、又は衛星通信等である。但し、上記のＬＡＮは、ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋの略である。また、上記のＷＵＳＢは、ＷｉｒｅｌｅｓｓＵＳＢの略である。そして、上記のＡＤＳＬは、ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅの略である。

＜８．動作例＞
次に図３３及び図３４を参照しながら、同実施形態に係るユーザ装置１００及びメタデータサーバ３００の動作例についてそれぞれ説明する。図３３は、同実施形態に係るユーザ装置の動作例を示すフローチャートである。図３４は、同実施形態に係るメタデータサーバの動作例を示すフローチャートである。

図３３を参照すると、ユーザ装置１００は、まず動画データの読込みを行う（Ｓ１００）。このときユーザ装置１００は、コンテンツサーバ２００に接続し、或いはローカルに保存された動画データを読込む。またユーザ装置１００は、字幕データの読込みを行う（Ｓ１０５）。このときユーザ装置１００は、コンテンツサーバ２００に接続し、或いはローカルに保存された字幕データを読込む。そしてユーザ装置１００は、メタデータの読込みを行う（Ｓ１１０）。このときユーザ装置１００は、メタデータサーバ３００に接続してメタデータを読込む。

そしてユーザ装置１００は、ユーザからの操作が検出されたか否かを判断する（Ｓ１１５）。そして操作が検出された場合には、ユーザ装置１００は、操作に応じた各種処理を実行する（Ｓ１２０）。一方操作が検出されなかった場合には、ステップＳ１２０の処理は省略される。そして、ユーザ装置１００は、コンテンツの再生が終了したか否かを判断する（Ｓ１２５）。そしてコンテンツの再生が終了するまでステップＳ１１５〜ステップＳ１２５の処理が繰り返される。

一方図３４を参照すると、メタデータサーバ３００は、動画データの読込みを行う（Ｓ２００）。このときメタデータサーバ３００は、コンテンツサーバ２００から動画データの読込みを行うことができる。そしてメタデータサーバ３００は、字幕データの読込みを行う（Ｓ２０５）。このときメタデータサーバ３００は、例えばコンテンツサーバ２００から、取得した動画データに対応する字幕データを読込むことができる。そして、メタデータサーバ３００は、メタデータを生成する（Ｓ２１０）。

そしてメタデータサーバ３００は、ユーザ装置１００からの接続があったか否かを判断する（Ｓ２１５）。ここでユーザ装置１００からの接続が検出されたとき、メタデータサーバ３００は、接続要求に応じた各種データを送信することができる（Ｓ２２０）。そしてメタデータサーバ３００は、動作が終了したか否かを判断する（Ｓ２２５）。このステップＳ２２５において動作が終了であると判断されるまで、ステップＳ２１５から処理が繰り返される。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

例えば、上記実施形態で、１つの装置に含まれる複数の機能は、それぞれ別体の装置により実装されてよい。或いは、上記実施形態で複数の装置により実装された複数の機能がそれぞれ別体の装置により実装されてもよい。また上記の１つの機能が複数の装置により実現されてもよい。かかる構成についても本開示の技術的範囲に含まれることは言うまでもない。

尚、本明細書において、フローチャートに記述されたステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的に又は個別的に実行される処理をも含む。また時系列的に処理されるステップでも、場合によっては適宜順序を変更することが可能であることは言うまでもない。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
コンテンツ表示領域及び字幕表示領域を含む表示画面の表示を制御する表示制御部と、
前記字幕表示領域に対する第１の操作が検出されると、前記コンテンツ表示領域に対する前記第１の操作が検出されたときに実行される第１の処理と異なる第２の処理を行うための操作と認識する操作認識部と、
を備える、情報処理装置。
（２）
前記第１の操作は、ドラッグ操作であり、
前記第２の処理は、再生速度の変更処理である、
前記（１）に記載の情報処理装置。
（３）
前記表示制御部は、前記字幕表示領域に対する前記第１の操作が検出されると、前記字幕表示領域の背景のアニメーションを開始する、
前記（１）または（２）のいずれかに記載の情報処理装置。
（４）
前記第２の処理は、コンテンツの再生速度を変更する変更処理であり、
前記表示制御部は、前記字幕表示領域に対する前記第１の操作が検出されると、前記字幕表示領域の背景が前記コンテンツの再生方向を示す方向に移動するアニメーションを開始する、
前記（１）〜（３）のいずれかに記載の情報処理装置。
（５）
前記字幕表示領域の背景は、模様が付されている、
前記（１）〜（４）のいずれかに記載の情報処理装置。
（６）
前記第１の処理は、コンテンツのシーク処理である、
前記（１）〜（５）のいずれかに記載の情報処理装置。
（７）
前記表示制御部は、字幕テキストに現在の再生位置を示すカーソルを重畳させて前記字幕表示領域に表示させる、
前記（１）〜（６）のいずれかに記載の情報処理装置。
（６）
コンテンツ表示領域及び字幕表示領域を含む表示画面の表示を制御することと、
前記字幕表示領域に対する第１の操作が検出されると、前記コンテンツ表示領域に対する前記第１の操作が検出されたときに実行される第１の処理と異なる第２の処理を行うための操作と認識することと、
を含む、情報処理方法。
（７）
コンピュータを、
コンテンツ表示領域及び字幕表示領域を含む表示画面の表示を制御する表示制御部と、
前記字幕表示領域に対する第１の操作が検出されると、前記コンテンツ表示領域に対する前記第１の操作が検出されたときに実行される第１の処理と異なる第２の処理を行うための操作と認識する操作認識部と、
を備える、情報処理装置として機能させるためのプログラム。

１００ユーザ装置
１５０再生制御部
１５５操作部
１６０音声出力制御部
１６５音声出力部
１７０表示制御部
１７５表示部
１８０通信部
２００コンテンツサーバ
３００メタデータサーバ
３０５字幕解析部
３１０音声解析部
３１５画像解析部
３２０メタデータ生成部
３２５記憶部
３３０情報提供部
４００記録サーバ

Claims

コンテンツ表示領域及び字幕表示領域を含む表示画面の表示を制御する表示制御部と、
前記字幕表示領域に対する第１の操作が検出されると、前記コンテンツ表示領域に対する前記第１の操作が検出されたときに実行される第１の処理と異なる第２の処理を行うための操作と認識する操作認識部と、
を備える、情報処理装置。
前記第１の操作は、ドラッグ操作であり、
前記第２の処理は、再生速度の変更処理である、
請求項１に記載の情報処理装置。
前記表示制御部は、前記字幕表示領域に対する前記第１の操作が検出されると、前記字幕表示領域の背景のアニメーションを開始する、
請求項１に記載の情報処理装置。
前記第２の処理は、コンテンツの再生速度を変更する変更処理であり、
前記表示制御部は、前記字幕表示領域に対する前記第１の操作が検出されると、前記字幕表示領域の背景が前記コンテンツの再生方向を示す方向に移動するアニメーションを開始する、
請求項１に記載の情報処理装置。
前記字幕表示領域の背景は、模様が付されている、
請求項１に記載の情報処理装置。
前記第１の処理は、コンテンツのシーク処理である、
請求項１に記載の情報処理装置。
前記表示制御部は、字幕テキストに現在の再生位置を示すカーソルを重畳させて前記字幕表示領域に表示させる、
請求項１に記載の情報処理装置。
コンテンツ表示領域及び字幕表示領域を含む表示画面の表示を制御することと、
前記字幕表示領域に対する第１の操作が検出されると、前記コンテンツ表示領域に対する前記第１の操作が検出されたときに実行される第１の処理と異なる第２の処理を行うための操作と認識することと、
を含む、情報処理方法。
コンピュータを、
コンテンツ表示領域及び字幕表示領域を含む表示画面の表示を制御する表示制御部と、
前記字幕表示領域に対する第１の操作が検出されると、前記コンテンツ表示領域に対する前記第１の操作が検出されたときに実行される第１の処理と異なる第２の処理を行うための操作と認識する操作認識部と、
を備える、情報処理装置として機能させるためのプログラム。