JPWO2013118387A1 - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
JPWO2013118387A1
JPWO2013118387A1 JP2013557378A JP2013557378A JPWO2013118387A1 JP WO2013118387 A1 JPWO2013118387 A1 JP WO2013118387A1 JP 2013557378 A JP2013557378 A JP 2013557378A JP 2013557378 A JP2013557378 A JP 2013557378A JP WO2013118387 A1 JPWO2013118387 A1 JP WO2013118387A1
Authority
JP
Japan
Prior art keywords
display area
subtitle
content
caption
display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013557378A
Other languages
English (en)
Other versions
JP6044553B2 (ja
Inventor
文規 本間
文規 本間
泰史 奥村
泰史 奥村
辰志 梨子田
辰志 梨子田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JPWO2013118387A1 publication Critical patent/JPWO2013118387A1/ja
Application granted granted Critical
Publication of JP6044553B2 publication Critical patent/JP6044553B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/0485Scrolling or panning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04886Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures by partitioning the display area of the touch-screen or the surface of the digitising tablet into independently controllable areas, e.g. virtual keyboards or menus
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • H04N21/4316Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations for displaying supplemental content in a region of the screen, e.g. an advertisement in a separate window
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47217End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for controlling playback functions for recorded or on-demand content, e.g. using progress bars, mode or play-point indicators or bookmarks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles

Abstract

【課題】言語学習の利便性を向上させることのできる情報処理装置、情報処理方法、及びプログラムを提供する。【解決手段】情報処理装置は、コンテンツ表示領域及び字幕表示領域を含む表示画面の表示を制御する表示制御部と、前記字幕表示領域に対する第1の操作が検出されると、前記コンテンツ表示領域に対する前記第1の操作が検出されたときに実行される第1の処理と異なる第2の処理を行うための操作と認識する操作認識部と、を有する。【選択図】図1

Description

本開示は、情報処理装置、情報処理方法、及びプログラムに関する。
母国語以外の言語を学習しようとするとき、動画を用いた学習は有効である。例えば特許文献1には、映像に付加された字幕を中心に映像中の再生位置をサーチすることのできる再生装置が開示されている。この再生装置は、字幕に基づいて繰り返し再生を行うことができる。このため、聞き取り難い箇所を繰り返し再生することができ、学習効果が高められる。
特開平09−115224号公報
しかし、この分野においては、さらに学習効率を高めてユーザの利便性を向上させることが望まれていた。
本開示によれば、コンテンツ表示領域及び字幕表示領域を含む表示画面の表示を制御する表示制御部と、上記字幕表示領域に対する第1の操作が検出されると、上記コンテンツ表示領域に対する上記第1の操作が検出されたときに実行される第1の処理と異なる第2の処理を行うための操作と認識する操作認識部と、を有する情報処理装置が提供される。
また本開示によれば、コンテンツ表示領域及び字幕表示領域を含む表示画面の表示を制御することと、上記字幕表示領域に対する第1の操作が検出されると、上記コンテンツ表示領域に対する上記第1の操作が検出されたときに実行される第1の処理と異なる第2の処理を行うための操作と認識することと、を含む情報処理方法が提供される。
また本開示によれば、コンピュータを、コンテンツ表示領域及び字幕表示領域を含む表示画面の表示を制御する表示制御部と、上記字幕表示領域に対する第1の操作が検出されると、上記コンテンツ表示領域に対する上記第1の操作が検出されたときに実行される第1の処理と異なる第2の処理を行うための操作と認識する操作認識部と、を有する情報処理装置として機能させるためのプログラムが提供される。
以上説明したように本開示によれば、言語学習の利便性を向上させることのできる情報処理装置、情報処理方法、及びプログラムを提供することができる。
本開示の一実施形態に係る語学学習システム1の構成図である。 同実施形態に係る語学学習システムにより提供される表示画面構成の第1の例を示す説明図である。 同実施形態に係る語学学習システムにより提供される表示画面構成の第2の例を示す説明図である。 同実施形態に係るユーザ装置のハードウェア構成例を示すブロック図である。 同実施形態に係るユーザ装置の機能構成例を示すブロック図である。 同実施形態に係るユーザ装置の再生する映画コンテンツに付加されている字幕データの一例を示す説明図である。 同実施形態に係るユーザ装置の表示する字幕表示領域の構成の一例を示す説明図である。 同実施形態に係るユーザ装置の字幕表示領域に対する操作例を示す説明図である。 同実施形態に係るユーザ装置の字幕表示領域に対する操作例を示す説明図である。 同実施形態に係るユーザ装置の字幕表示領域に対する操作例を示す説明図である。 同実施形態に係るユーザ装置の字幕表示領域に対する操作例を示す説明図である。 同実施形態に係るユーザ装置のコンテンツ表示領域および字幕表示領域に対する操作の一例を示す説明図である。 同実施形態に係るユーザ装置のアクティブ字幕表示領域による再生速度操作の一例を示す説明図である。 同実施形態に係るユーザ装置の、リピート再生操作の一例を示す説明図である。 同実施形態に係るユーザ装置の、リピート再生操作のバリエーションと再生速度の対応を示す説明図である。 同実施形態に係るユーザ装置のリピート再生操作のタップ位置とリピート開始位置の関係の一例を説明する説明図である。 同実施形態に係るユーザ装置の再生位置の変更と再生方法を示す説明図である。 同実施形態に係るユーザ装置が用いる字幕フレームについての説明図である。 同実施形態に係るユーザ装置が用いる発声時間つきテキストデータの概要を示す説明図である。 同実施形態に係るユーザ装置のテキスト音声同期単位の切替についての説明図である。 同実施形態に係るユーザ装置の発声時間つきテキストデータの利用方法の一例を示す説明図である。 同実施形態に係るユーザ装置の辞書表示領域の表示例を示す説明図である。 同実施形態に係るメタデータサーバの機能構成を示すブロック図である。 同実施形態に係るメタデータサーバの、字幕表示時間の補正についての説明図である。 同実施形態に係るメタデータサーバが提供する、人物に対して付加される付加情報の一例を示す説明図である。 同実施形態に係るメタデータサーバが提供する人物の口位置を示すメタデータの一例を説明するための説明図である。 同実施形態に係るメタデータサーバが提供する人物認識情報の一例を示す説明図である。 同実施形態に係るユーザ装置における話者に応じた字幕表示の一例を示す説明図である。 同実施形態に係るメタデータサーバにより提供されるメタデータを用いた台詞表示の一例を示す説明図である。 同実施形態に係るメタデータサーバが提供する検索機能の一例を示す説明図である。 同実施形態に係るメタデータサーバが提供するクエストサービスの一例を示す説明図である。 同実施形態に係るコンテンツサーバ、メタデータサーバ、及び記録サーバのハードウェア構成の一例を示すブロック図である。 同実施形態に係るユーザ装置の動作例を示すフローチャートである。 同実施形態に係るメタデータサーバの動作例を示すフローチャートである。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
なお、説明は以下の順序で行うものとする。
1.概要
2.表示画面構成例
3.ユーザ装置の構成
4.字幕表示と再生制御例
4−1.字幕表示の概要
4−2.字幕表示領域を用いた操作
4−3.字幕フレーム
4−4.発声時間の解析と利用
4−5.辞書検索機能
5.メタデータサーバの機能構成
6.メタデータの例
7.サーバのハードウェア構成例
8.動作例
<1.概要>
まず本開示の一実施形態に係る語学学習システム1の概要について、図1を参照しながら説明する。図1は、本開示の一実施形態に係る語学学習システム1の構成図である。
母国語と異なる言語を習得するためには、興味を持って学習を継続的に行うことが重要である。しかし、語学学習テキストは文字ばかりであり、抽象的な文章が並び、実際にどういった場面で使われる会話であるか分かりづらく現実味がないことが多かった。この点において映画などの動画像コンテンツを用いることは好適である。動画像コンテンツは、ストーリーがあるため、学習継続のモチベーション向上につながる。ところがこのような動画像を用いた語学学習の方法は、英語上級者の個人のノウハウとして用いられていた。
そこで本開示では、動画像コンテンツを語学学習に適した方法で提供することを提案する。映画をはじめとする動画像コンテンツは、世界中で次々に新しい作品が製作される。また映画コンテンツには動画像データに含まれる音声をテキスト化した字幕データが共通のフォーマットで付加されている。このため、語学学習に適した方法で映画コンテンツを提供する方法を用いれば、次々と製作される動画像コンテンツを語学学習に用いることができる。また字幕データを用いることによって、より効果的に語学を学習することができる。
なお以下の説明中では、動画像コンテンツの一例として映画コンテンツを用いる。しかし、本技術はかかる例に限定されず、例えばインターネット上に公開される動画像コンテンツに適用されてもよい。このとき字幕データは、例えば動画像コンテンツを解析することにより生成されてよい。
ここで、上記のような語学学習サービスを提供するための、本開示の一実施形態に係る語学学習システム1の構成について、図1を参照しながら説明する。語学学習システム1は、ユーザ装置100と、コンテンツサーバ200と、メタデータサーバ300と、記録サーバ400とを主に有する。
ユーザ装置100は、語学学習サービスを利用するユーザの用いる端末装置である。コンテンツサーバ200は、語学学習サービスにより用いられる動画像コンテンツを提供するサーバである。例えばコンテンツサーバ200は、ユーザ装置100からの要求に応じて、指定されたコンテンツをユーザ装置100に送信することができる。このときコンテンツサーバ200がユーザ装置100にコンテンツを提供する形態は様々考えられる。例えばコンテンツサーバ200は、ストリーミング配信によりユーザ装置100にコンテンツを提供してもよい。或いはユーザ装置100はコンテンツサーバ200からコンテンツをダウンロードしてもよい。
メタデータサーバ300は、動画像コンテンツのメタデータを提供するサーバである。なお本実施形態においてはメタデータサーバ300は、メタデータを生成する機能及びメタデータを提供する機能を有する。記録サーバ400は、それぞれのユーザの学習記録情報を保持する機能を有する。例えば記録サーバ400が保持する学習記録情報の一例としては、ユーザが取得したコンテンツの情報、後述されるクエストの達成率または獲得ポイントなどが挙げられる。ユーザ装置100及びメタデータサーバ300の詳細については後述される。
<2.表示画面構成例>
次にこの語学学習システム1によりユーザ装置100に表示される表示画面の構成例について、図2及び図3を参照しながら説明する。図2は、同実施形態に係る語学学習システムにより提供される表示画面構成の第1の例を示す説明図である。図3は、同実施形態に係る語学学習システムにより提供される表示画面構成の第2の例を示す説明図である。
図2を参照すると、表示画面は、コンテンツ表示領域11と、字幕表示領域12と、学習記録表示領域13と、コンテンツリスト表示領域14と、辞書表示領域15と、関連動画表示領域16とを主に有する。
コンテンツ表示領域11は、コンテンツの再生画面が表示される領域である。字幕表示領域12は、コンテンツに付加された字幕を表示する領域である。なお後に詳しく説明されるが、本実施形態においてこの表示画面は、字幕を用いた操作を受付けることができる。このため、この表示画面は、コンテンツ表示領域11と別途の領域として字幕表示領域12が設けられる。
学習記録表示領域13は、ユーザの学習に関する履歴などの学習記録情報が表示される領域である。コンテンツリスト表示領域14は、取得することのできるコンテンツのリストが表示される領域である。辞書表示領域15は、言葉などに関する解説文章が表示される領域である。この辞書表示領域15には、例えば字幕表示領域12に表示された単語の解説文章が表示されてよい。例えば字幕表示領域12において、ユーザが解説文章を表示する単語を選択することもできる。関連動画表示領域16は、コンテンツ表示領域11に表示されているコンテンツと関連する動画が表示される領域である。
次に図3を参照すると、同実施形態に係る語学学習システムにより提供される表示画面構成の第2の例が示される。第1の例に示される表示画面構成は、主に筐体の長手方向を横向きに携えたときに好適である。これに対してこの第2の例に示される表示画面構成は、例えば筐体の長手方向を縦向きに携えたときに好適である。
この第2の例に示される表示画面は、コンテンツ表示領域11と、字幕表示領域12と、辞書表示領域15とを主に有する。ここでは、字幕表示領域12において選択された「company」という単語の解説文章が辞書表示領域15に表示されている。この辞書表示領域15は、例えば解説文章を表示させる単語が選択されたときに表示され、通常は非表示の状態であってもよい。
このように、語学学習に適した方法で動画像コンテンツを提供するための語学学習システムについて、以下に詳しく説明する。
<3.ユーザ装置の構成>
次に図4及び図5を参照しながら、本開示の一実施形態に係るユーザ装置100の構成について説明する。図4は、同実施形態に係るユーザ装置のハードウェア構成例を示すブロック図である。図5は、同実施形態に係るユーザ装置の機能構成例を示すブロック図である。
ユーザ装置100は、例えばアプリケーションを実行することによって本開示の一実施形態に係る語学学習サービスを提供することのできる情報処理装置の一例である。例えばユーザ装置100は、携帯電話、PC(Personal Computer)、映像処理装置、ゲーム機器、家電機器、音楽再生装置、ナビゲーション装置などの情報処理装置であってよい。
図4を参照すると、ユーザ装置100は、CPU(Central Processing Unit)105と、RAM(Random Access Memory)110と、不揮発性メモリ115と、表示装置120と、タッチセンサ125と、音声出力装置130と、ネットワークインタフェース135と、撮像装置140とを主に有する。
CPU105は、演算処理装置および制御装置として機能する。CPU105は、各種プログラムに従ってユーザ装置100内の動作全般を制御する。またCPU105は、マイクロプロセッサであってよい。RAM110は、CPU105が実行するプログラムや、プログラムの実行において適宜変化するパラメータ等を一時記憶する。不揮発性メモリ115は、CPU105が使用するプログラムや演算パラメータなどを記憶する。
表示装置120は、表示部の一例であり、例えば液晶ディスプレイ(LCD:Liquid Crystal Display)装置、有機ELディスプレイ(OELD:Organic ElectroLuminescence Display)装置、ブラウン管(CRT:Cathode Ray Tube)ディスプレイ装置などであってよい。
タッチセンサ125は、操作部の一例であり、表示装置120上に重畳して設けられる。タッチセンサ125は、位置入力装置であり、表示画面における位置情報に基づいて、操作を受付けることができる。
音声出力装置130は、音声を出力するスピーカである。この音声出力装置130は、例えば再生される映画コンテンツの音声データを出力することができる。ネットワークインタフェース135は、外部装置と接続するためのインタフェースである。このネットワークインタフェース135は、例えば有線又は無線でネットワークに接続するインタフェースであってよい。撮像装置140は、動画像及び静止画像を撮影する機能を有する装置である。
次に図5を参照しながら、同実施形態に係るユーザ装置100の機能構成について説明する。ユーザ装置100は、再生制御部150と、操作部155と、音声出力制御部160と、音声出力部165と、表示制御部170と、表示部175と、通信部180との機能を主に有する。
再生制御部150は、コンテンツの再生を制御する機能を有する。再生制御部150は、操作部155から供給される操作情報に基づいて動作することができる。再生制御部150は、操作情報に基づいて、再生するコンテンツを選択することができる。また再生制御部150は、選択したコンテンツをコンテンツサーバ200から取得することができる。また再生制御部150は、選択したコンテンツに付加されたメタデータをメタデータサーバ300から取得することもできる。また再生制御部150は、ユーザの学習記録情報を記録サーバ400から取得することもできる。また再生制御部150は、音声出力制御部160及び表示制御部170を制御することによってコンテンツの再生を制御することができる。
操作部155は、ユーザが所望の操作を行うための入力装置であり、例えばタッチセンサ125であってよい。操作部155は、ユーザの操作に基づいた操作情報を生成して再生制御部150に共有することができる。操作部155は、例えばユーザが、再生するコンテンツを選択する操作、コンテンツ中の再生位置を選択する操作、及び再生に関する各種のパラメータ(例えば再生音量および再生速度など)を設定する操作を行うと、操作に応じた操作情報を生成することができる。
音声出力制御部160は、再生制御部150の制御に従って音声出力部165が出力する音声を制御することができる。音声出力制御部160は、再生制御部150の指定するコンテンツ中の指定された再生箇所に対応する音声の出力を制御する。
音声出力部165は、音声出力制御部160の制御に従って音声を出力する機能を有する。音声出力部165は、音声出力装置130であってよい。なおここではユーザ装置100が音声出力装置130を有することとしたが、本技術はかかる例に限定されない。例えば音声出力部165は、外部の音声出力装置に音声を出力するインタフェースであってもよい。
表示制御部170は、再生制御部150の制御に従って表示部175の出力する表示画面の内容を制御することができる。表示制御部170は、再生制御部150の指定するコンテンツ中の指定された再生箇所を表示するように表示部175の表示画面の内容を制御することができる。
表示部175は、表示制御部170の制御に従って表示画面をユーザに提供する機能を有する。表示部175は、表示装置120であってよい。ここでは語学学習装置100が表示装置120を有することとしたが、本技術はかかる例に限定されない。例えば表示部175は、外部の表示装置に表示画面を出力させるためのインタフェースであってもよい。
通信部180は、外部装置と通信する機能を有する。通信部180は、ネットワークインタフェース135であってよい。再生制御部150は、この通信部180を介して、コンテンツサーバ200、メタデータサーバ300,及び記録サーバ400から各種情報を取得することができる。
以上、本実施形態に係るユーザ装置100の機能の一例を示した。上記の各構成要素は、図4に示されたハードウェア構成により実現されてもよいし、汎用的な部材や回路が用いられてもよい。また上記の各構成要素は、各構成要素の機能に特化したハードウェアにより構成されていてもよい。また、各構成要素の機能を、CPU(Central Processing Unit)などの演算装置がこれらの機能を実現する処理手順を記述した制御プログラムを記憶したROM(Read Only Memory)やRAM(Random Access Memory)などの記憶媒体から制御プログラムを読出し、そのプログラムを解釈して実行することにより行ってもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用する構成を変更することが可能である。
なお、上述のような本実施形態に係るユーザ装置100の各機能を実現するためのコンピュータプログラムを作成し、パーソナルコンピュータ等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリなどである。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信してもよい。
<4.字幕表示と再生制御例>
次に図6〜図22を参照しながら、本開示の一実施形態に係るユーザ装置100の字幕表示と再生制御の例について説明する。図6は、同実施形態に係るユーザ装置の再生する映画コンテンツに付加されている字幕データの一例を示す説明図である。図7は、同実施形態に係るユーザ装置の表示する字幕表示領域の構成の一例を示す説明図である。図8は、同実施形態に係るユーザ装置の字幕表示領域に対する操作例を示す説明図である。図9は、同実施形態に係るユーザ装置の字幕表示領域に対する操作例を示す説明図である。図10は、同実施形態に係るユーザ装置の字幕表示領域に対する操作例を示す説明図である。図11は、同実施形態に係るユーザ装置の字幕表示領域に対する操作例を示す説明図である。図12は、同実施形態に係るユーザ装置のコンテンツ表示領域および字幕表示領域に対する操作の一例を示す説明図である。図13は、同実施形態に係るユーザ装置のアクティブ字幕表示領域による再生速度操作の一例を示す説明図である。図14は、同実施形態に係るユーザ装置の、リピート再生操作の一例を示す説明図である。図15は、同実施形態に係るユーザ装置の、リピート再生操作のバリエーションと再生速度の対応を示す説明図である。図16は、同実施形態に係るユーザ装置のリピート再生操作のタップ位置とリピート開始位置の関係の一例を説明する説明図である。図17は、同実施形態に係るユーザ装置の再生位置の変更と再生方法を示す説明図である。図18は、同実施形態に係るユーザ装置が用いる字幕フレームについての説明図である。図19は、同実施形態に係るユーザ装置が用いる発声時間つきテキストデータの概要を示す説明図である。図20は、同実施形態に係るユーザ装置のテキスト音声同期単位の切替についての説明図である。図21は、同実施形態に係るユーザ装置の発声時間つきテキストデータの利用方法の一例を示す説明図である。図22は、同実施形態に係るユーザ装置の辞書表示領域の表示例を示す説明図である。
〔4−1.字幕表示の概要〕
まず図6及び図7を参照しながら、同実施形態に係るユーザ装置100の字幕表示の概要について説明する。図6には、映画コンテンツに付加されている字幕データの一例が示される。
字幕データは、例えば字幕IDと、字幕表示時間と、字幕テキストとを含む。字幕IDは、1画面に表示される字幕テキストのまとまりを識別する記号である。字幕IDは、例えば時系列の連番が付与されてよい。字幕表示時間は、コンテンツ中において、字幕テキストを表示する時間である。字幕テキストは、映画コンテンツの再生とともに表示されるテキストデータである。
このような字幕データを用いて、ユーザ装置100の表示制御部170は、表示画面中の字幕表示領域12に字幕テキストを表示させることができる。この字幕表示領域12は、図7に示されるようにコンテンツ表示領域11の下に設けられ、アクティブ字幕表示領域12Aと、未来字幕表示領域12Fとを含むことができる。アクティブ字幕表示領域12Aは、現在、コンテンツ表示領域11において再生されているコンテンツの再生時点に対応するアクティブ字幕が表示される領域である。これに対して未来字幕表示領域12Fは、これから再生される場面に対応する未来字幕が表示される領域である。ユーザによる操作がなされていないときには、例えば字幕表示領域12の上端にはアクティブ字幕表示領域12Aが表示され、このアクティブ字幕に続く未来字幕12Fが、アクティブ字幕表示領域12Aの下部に続いて表示されてよい。ここでは3つの未来字幕表示領域12F−1,未来字幕表示領域12F−2,及び未来字幕表示領域12F−3が示されるが、未来字幕表示領域12Fが表示される数は、表示の状態及び表示画面の大きさなどに応じて様々であってよい。なおアクティブ字幕表示領域12A内に表示される字幕に重畳して、現在の再生位置を示すカーソルが表示される。
ユーザ装置100が表示する表示画面は、このような字幕を表示する領域をコンテンツの映像を表示する領域と別途有する。このため、ひとまとまりの字幕を単位として様々な操作を受付けるとともに、この操作に基づいて表示画面を制御することができる。以下、このような表示画面に対する様々な操作と操作に基づいた表示画面の制御について具体例を挙げながら説明する。
〔4−2.字幕表示領域を用いた操作〕
ここで字幕表示領域を用いたシーク操作について、図8〜図11を参照しながら説明する。上述の通り、ユーザ装置100の表示する表示画面は、字幕のひとまとまり毎に選択を受付ける字幕表示領域12が含まれる。なお、ここで説明に用いる図面は、説明の対象となる箇所を抽出して示している。このため表示画面は、必ずしも図面に示す画面構成であるとは限らない。
図8の左図では、コンテンツ表示領域11の下部にアクティブ字幕表示領域12A、未来字幕表示領域12F−1、未来字幕表示領域12F−2、及び未来字幕表示領域12F−3が表示される。またアクティブ字幕表示領域12Aには字幕1が表示され、未来字幕表示領域12F−1には字幕2が表示され、未来字幕表示領域12F−2には字幕3が表示され、未来字幕表示領域12F−3には字幕4が表示される。この状態において、ユーザが未来字幕表示領域12Fに対して、未来字幕表示領域12Fが並んでいる方向(図では上下方向)へのドラッグ操作を行うと、未来字幕表示領域12Fに表示される字幕の内容が変更される。例えば図8の右図に示されるように、未来字幕表示領域12F−1には字幕4が表示され、未来字幕表示領域12F−2には字幕5が表示され、未来字幕表示領域12F−3には字幕6が表示されてよい。このときアクティブ字幕表示領域12Aに表示される字幕は、字幕1のまま変更されない。なおここで字幕に付される番号は、時系列で順に連番が付されているものとする。すなわち字幕2は、字幕1の直後に表示される字幕である。
またこの未来字幕表示領域12Fは、再生位置の変更操作を受付けることもできる。例えば図9の左図に示されるように、アクティブ字幕表示領域12Aに字幕1、未来字幕表示領域12F−1に字幕4、未来字幕表示領域12F−2に字幕5、未来字幕表示領域12F−3に字幕6が表示されている場面を想定する。このとき、字幕6が表示されている未来字幕表示領域12F−3をタップ操作すると、タップされた箇所に表示されていた字幕、すなわち字幕6がアクティブ字幕表示領域12Aに表示される。なおこのとき、未来字幕表示領域12Fには、アクティブ字幕表示領域12Aに表示された字幕に続く字幕が順次表示される。具体的には、字幕6がアクティブ字幕表示領域12Aに表示されているときには、未来字幕表示領域12F−1には字幕7が表示され、未来字幕表示領域12F−2には字幕8が表示され、未来字幕表示領域12F−3には字幕9が表示される。
またアクティブ字幕表示領域12Aに対するドラッグ操作によって、アクティブ字幕表示領域12Aの表示位置が変更される。例えば図10の左図に示されるように、アクティブ字幕表示領域12Aには字幕6が表示され、未来字幕表示領域12F−1には字幕7が表示され、未来字幕表示領域12F−2には字幕8が表示され、未来字幕表示領域12F−3には字幕9が表示されている状況を想定する。このとき、字幕6が表示されているアクティブ字幕表示領域12Aから、未来字幕表示領域12Fが並んでいる方向に対するドラッグ操作が受付けられると、このドラッグ操作に応じて、アクティブ字幕表示領域12Aの表示位置が変更される(図10の右図)。このとき、アクティブ字幕表示領域12Aの上部には、過去字幕表示領域12Pが表示される。過去字幕表示領域12Pには、アクティブ字幕表示領域12Aに表示されるアクティブ字幕よりも時系列的に前に位置する字幕が表示される。例えば具体的には、図10の右図に示されるように、アクティブ字幕表示領域12Aに字幕6が表示されているとき、過去字幕表示領域12P−2には字幕4、過去字幕表示領域12P−1には字幕5、未来字幕表示領域12F−1には字幕7が表示されてよい。
また図11に示されるように、アクティブ字幕表示領域12Aをドラッグ操作して、字幕表示領域12の下端までアクティブ字幕表示領域12Aが達したときに、アクティブ字幕表示領域12Aに対して長押し操作の状態を保つと、オートスクロール操作であると認識されてもよい。このとき、アクティブ字幕表示領域12Aに対する長押し操作が継続されている間、アクティブ字幕表示領域12Aの上部に表示された過去字幕表示領域12Pに表示される字幕がオートスクロールされる。例えば図11の右図に示されるように、過去字幕表示領域12P−3には字幕1、過去字幕表示領域12P−2には字幕2、過去字幕表示領域12P−1には字幕3が表示されてよい。
上述の通り、本実施形態に係るユーザ装置100は、字幕表示領域12に対する操作によって、コンテンツのシーク処理を行うことができる。またユーザ装置100は、字幕表示領域12に対する操作に応じて、再生位置を変更することもできる。なお例えば図8においては、未来字幕表示領域12Fに対するドラッグ操作について説明したが、同様の操作が過去字幕表示領域12Pに対しても行われてもよい。また図9においては、未来字幕表示領域12Fに対するタップ操作でコンテンツの再生位置を変更することができることを説明したが、同様の操作が過去字幕表示領域12Pに対して行われてもよい。また図11において説明したオートスクロール処理は、字幕表示領域12の上端部において、未来字幕のオートスクロール処理に適用することもできる。
なお、ユーザ装置100の表示画面は、上述の通り1つのコンテンツに対して、コンテンツ表示領域11と字幕表示領域12を含む複数の表示領域を有することができる。再生制御部150は、この表示領域毎に異なる操作を認識することができる。例えば図12に示されるように、コンテンツ表示領域11内でドラッグ操作が検知されたとき、再生制御部150は、シーク処理を行うための操作であると認識することができる。またこの再生制御部150は、アクティブ字幕表示領域12A内でドラッグ操作が検知されたとき、再生速度変更処理を行うための操作であると認識することができる。例えばアクティブ字幕表示領域12A内で左から右方向へのドラッグ操作が検知されると、再生制御部150は、再生速度を加速するための操作であると認識することができる。またアクティブ字幕表示領域12A内で右から左方向へのドラッグ操作が検知されると、再生制御部150は、再生速度を減速するための操作であると認識することができる。このときの、表示制御の一例が図13に示される。例えば右方向へのドラッグ操作が検知されると、表示制御部170は、背景を右方向にオートスクロールさせ、カーソル速度を再生速度の加速に応じて加速させる。このとき背景の移動方向がわかるように背景には方向を把握することができるよう模様が含まれることが望ましい。また左方向へのドラッグ操作が検知されると、表示制御部170は、背景を左方向にオートスクロールさせ、カーソル速度を再生速度の減速に応じて減速させる。
またアクティブ字幕表示領域12Aに対する操作としては、図14に示されるリピート操作が挙げられる。例えばアクティブ字幕表示領域12Aに対するタップ操作が検知されると、アクティブ字幕表示領域12Aに表示されている字幕の冒頭部に該当する箇所からリピート再生される。なお図15に示されるように、リピート操作の種類に応じて再生速度が変更されてよい。例えばリピート操作がシングルタップであるときには、通常速度でのリピート再生が行われ、リピート操作が長押し操作であるときには、スロー再生が行われ、リピート操作がダブルタップであるときには、高速再生が行われてよい。
なお、再生中に行われる操作によってタップ位置を指定する場合には、ユーザが所望した位置と、実際に検出されたタップ位置とに隔たりがある場合がある。例えばユーザは字幕1のリピート再生を行おうとした場合に、タップ位置が字幕1の区間を過ぎている場合がある。この場合には、字幕2から再生されてしまう。このような不都合を解消するための再生制御について図16に例示して説明する。例えばパターン1においては、字幕1の途中でタップ位置が検出されている。この場合には、再生制御部150は、字幕1の冒頭部からリピート再生を行う。またパターン2においては、字幕1部分の再生が終了してからの所定期間TP内であって、字幕2の冒頭部においてタップ位置が検出されている。この場合には、再生制御部150は、ユーザは字幕1のリピート再生を所望していたと判断して字幕1の冒頭部からリピート再生を行う。またパターン3においては、字幕1と字幕2との間に所定の時間間隔があいている。この場合、字幕1部分の再生が終了してからの所定期間TP内であって、字幕2部分の再生が開始される前においてタップ位置が検出されている。この場合には、再生制御部150は、ユーザは字幕1のリピート再生を所望していたと判断して字幕1の冒頭部からリピート再生を行う。なお字幕2の冒頭部であっても、字幕1と字幕2との間に所定の時間間隔があいており、タップ位置が字幕1部分の再生が終わってからの所定期間TP内ではないパターン4の場合においては、再生制御部150は、字幕2のリピート再生を行う。かかる再生制御により、ユーザのタップ操作が遅れた場合であっても、適切な位置からリピート再生を行うことができる。
なお、字幕表示領域12に対する操作によって再生位置を変更する場合には、再生位置がジャンプするため、巻戻し又は早送りしながら再生位置をサーチする場合と比較して、再生位置の時間軸上における位置が分かりにくい場合がある。そこで再生制御部150は、ジャンプ先の時点より少し手前の時点からジャンプ先の時点までを高速再生した後、ジャンプ先時点からの通常速度での再生を開始することができる。図17の例を用いて具体的に説明する。現在の再生シーンの時点を時点tとする。そして、tから見ると過去の時点t−2にジャンプするとき、再生制御部150は、時点t−2よりも少し手前の時点t−1から時点t−2までの区間を巻戻し再生する。そして時点t−2に達すると、通常速度での再生が開始される。この時点t−1から時点t−2までの巻戻し再生により、ユーザは、時点t−2が時点tから見て過去の時点であることを把握することができる。また時点tから見て未来の時点tにジャンプするとき、再生制御部150は、時点tよりも少し手前の時点tから時点tまでの区間を早送り再生する。そして時点tに達すると、通常速度での再生が開始される。この時点tから時点tまでの早送り再生により、ユーザは、時点tが時点tから見て未来の時点であることを把握することができる。
〔4−3.字幕フレーム〕
続いて図18を参照しながら、ユーザ装置100が用いる字幕フレームについて説明する。映像コンテンツは、ミリ秒単位のタイムフレーム単位で取り扱われることが多かった。これに対して、本開示では、字幕のひとまとまりに合わせた字幕フレーム単位で映像コンテンツを取り扱うことを提案する。時間フレームは、コンテンツの内容に関わらず一定の時間単位で区切られるのに対して、字幕フレームは、ひとまとまりの字幕を1つの単位として区切られたフレームである。字幕は、コンテンツ中の会話の意味に基づいて区切られている。このため、字幕フレームは再生開始箇所として適している。従って、ユーザ装置100の再生制御部150は、再生開始箇所を字幕フレームの先頭位置に調整することができる。
例えば図18には、一時停止(Pause)操作が行われた後、再生開始(Play)操作が行われたときに、再生開始位置を調整する例が示されている。このとき再生制御部150は、一時停止した時点が含まれる字幕フレームの先頭位置を再生開始位置としてよい。また図18には、シーク(Seek)操作により再生開始位置が指定された場合の例が示される。シーク操作により再生開始位置が指定されると、再生制御部150は、指定された再生開始位置が含まれる字幕フレームの先頭位置を再生開始位置とすることができる。かかる構成により、再生開始時点がコンテンツ中の区切りのよい時点となるため、ユーザは、再生開始時点からコンテンツの内容を把握しやすくなる。
〔4−4.発声時間の解析と利用〕
ここで図19〜図22を参照しながら、字幕データの発声時間の解析とその利用について説明する。上述の通り、ユーザ装置100は、字幕ID、字幕表示時間、及び字幕テキストを含む字幕データを用いることができる。この字幕表示時間は、字幕テキストをひとまとまりとしてその表示開始時間と表示終了時間とを示したものである。この字幕開始時間は、実際に字幕テキストの発声が開始されるよりも少し早く設定され、字幕終了時間は、実際に字幕テキストの発声が終了した時点よりも少し遅く設定されることが多い。
そこで本開示では、この字幕データから抽出された字幕テキストと、動画データから抽出された音声データとを用いて音声歌詞同期技術により生成される発声時間つきテキストデータを用いる。この発声時間つきテキストデータは、テキストデータの単語が実際に発声される時間を解析して付与してデータである。例えば図19に示されるように単語単位で実際の発声時間が付与される。この発声時間つきテキストデータは、メタデータサーバ300から提供される。
この発声時間つきテキストデータを用いることで、ユーザ装置100の再生制御部150は、字幕中の単語毎に発声される時間を把握することができる。例えば発声時間つきテキストデータを用いて、単語毎に発声される時間を用いてアクティブ字幕表示領域12Aにおいて字幕上に重畳表示されるカーソルの位置を制御すれば、表示制御部170は、より発声される時間とカーソル位置とを正確に合わせることができる。ところが、正確に単語単位で音声とカーソル位置とを合わせると、ひとまとまりの字幕データ上に表示されるカーソルの移動速度が変化して滑らかな動きとならない。このように移動速度が変化するカーソルはユーザにとって視認性が低下して不快感を与えることがあり、さらに通常コンテンツを視聴しているときには、ユーザは、テキストと音声との同期の正確性をそこまで厳密に求めてはいない。そこで図20の上図に示されるように、通常コンテンツを再生しているときには、表示制御部170は、テキストと音声との同期単位をセンテンス単位とすることができる。
また図20の中図に示されるように、アクティブ字幕表示領域12Aにおいて、表示された字幕テキスト中の一部を選択する操作がなされると、再生制御部150は、選択された部分を単語単位で特定することができる。このとき、字幕テキスト中の一部を選択する操作は、例えばタップ操作であってよい。このタップ操作に応じて、再生制御部150は、テキスト音声の同期単位を切替えることができる。例えば字幕テキスト中の単語が選択されると、再生制御部150は、選択された単語部分にカーソルを重畳して表示させ、選択された単語の音声を出力させる(図20の下図)。このように状況に応じて音声とテキストとの同期単位を切替えることによって、状況に応じて適した画面表示及び音声出力を実現することができる。
また単語単位で発声時間を特定することができることによって、特定の単語だけ再生速度を変化させることもできる。例えば図21に示されるように、任意の操作で単語を予め選択しておくと、再生制御部150は、選択された単語のみ再生速度を変化させてもよい。例えば選択された単語だけ再生速度を遅くすれば、ユーザが発音を確認したい単語だけ予め選択しておくことによって、再生中に特定の単語のみ発音を確認することができる。また、再生速度を変更させる単語は、ユーザにより選択された単語に限定されない。例えば、再生制御部150は、指定された単語集に含まれる単語のみ再生速度を変更してもよい。再生制御部150は、字幕テキスト中に、単語集に含まれる単語が含まれていると、該当する単語の発声時間の間、再生速度を遅くすることができる。例えばこの単語集がレベル別に編集されたものであれば、ユーザはレベルを選択するだけで各ユーザに応じたレベルの単語のみ発音を確認しながらコンテンツを視聴することができる。
〔4−5.辞書検索機能〕
上述の通り、辞書表示領域15には、字幕テキスト中に含まれる単語に対する解説文章が表示される。例えば、表示制御部170は、ユーザがアクティブ字幕表示領域12Aにおいて選択した単語に対する解説文章を字幕表示領域15に表示することができる。しかし、このときユーザは、単語の意味ではなく、複数の単語による熟語またはイディオムの意味を知りたい場合がある。ところが、単純に選択された単語の解説文章を表示させる場合には、複数の単語を選択することができなかった。また単純に複数の単語を選択することができるようにすれば、該当する解説文章が存在しない可能性が高まり、ユーザの利便性を損なう。
そこで表示制御部170は、図22に示されるように、選択された単語に基づいて、熟語となり得る単語を強調表示させることができる。そして、再生制御部150は、この強調表示された単語のみ、次にユーザからの選択を受付けることができる状態と判断する。例えば表示制御部170は、動詞が選択された後、選択された動詞と隣接する前置詞を強調表示することができる。例えば図22のように「・・・he took up with my cousin・・・」という字幕テキスト中において、「took」の部分が選択されたとき、表示制御部170は、「took」と隣接する「up」及び「with」を強調表示することができる。このように、動詞と隣接する前置詞がさらに前置詞と隣接している場合には、表示制御部170は複数の前置詞を強調表示の対象とすることができる。そしてユーザが強調表示された前置詞を選択する操作を行うと、表示制御部170は、「took up with」の解説文章を辞書表示領域15に表示することができる。
<5.メタデータサーバの機能構成>
次に図23を参照しながら、本開示の一実施形態に係るメタデータサーバ300の機能構成について説明する。図23は、同実施形態に係るメタデータサーバの機能構成を示すブロック図である。
メタデータサーバ300は、字幕解析部305と、音声解析部310と、画像解析部315と、メタデータ生成部320と、記憶部325と、情報提供部330とを主に有する。
字幕解析部305は、字幕データを解析する機能を有する。字幕解析部305は、例えば字幕データに含まれる字幕テキストを解析することができる。
音声解析部310は、コンテンツに含まれる音声データを解析する機能を有する。音声解析部310は、コンテンツに含まれる音声データを解析することにより音声データの特徴情報を提供することができる。
画像解析部315は、コンテンツに含まれる画像データを解析する機能を有する。画像解析部315は、例えば物体認識技術を用いて、画像データ中に含まれる物体の位置及び種類などの情報を生成することができる。画像解析部315は、例えば画像データ中に含まれる人物の位置を認識することができる。また画像解析部315は、画像データ中に含まれる人物の顔の位置、及び口の位置を認識することができる。また画像解析部315は、画像データ中に含まれる人物を認識することができる。従って画像解析部315は、それぞれの画像データ中に含まれる人物を分類して、同一人物と認識することのできる人物の情報を提供することができる。また画像解析部315は、画像データを解析することによって、画像データに含まれる人物の向き、例えば顔の向きを認識することができる。
メタデータ生成部320は、字幕解析部305による字幕データの解析結果、音声解析部310による音声データの解析結果、及び画像解析部315による画像データの解析結果などに基づいて、コンテンツに関するメタデータを生成する機能を有する。メタデータ生成部320は、生成したメタデータを記憶部325に記憶させることができる。
記憶部325は、データ格納用の装置であり、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置、および記憶媒体に記録されたデータを削除する削除装置などを含むことができる。ここで記憶媒体としては、例えばフラッシュメモリ、MRAM(Magnetoresistive Random Access Memory)、FeRAM(Ferroelectric Random Access Memory)、PRAM(Phase change Random Access Memory)、及びEEPROM(Electronically Erasable and Programmable Read Only Memory)などの不揮発性メモリや、HDD(Hard Disk Drive)などの磁気記録媒体などが用いられてよい。
情報提供部330は、要求に応じてコンテンツのメタデータを提供する機能を有する。例えば情報提供部330は、特定のコンテンツのテキスト音声同期情報を提供することができる。また情報提供部330は、コンテンツを横断した検索機能を提供することができる。例えば検索キーワードを受信すると、情報提供部330は、字幕テキストを用いて、取り扱っているコンテンツ全てから、検索キーワードを含む台詞が含まれるコンテンツを抽出することができる。
<6.メタデータの例>
次に、図24〜図31を参照しながら、同実施形態に係るメタデータサーバ300の提供するメタデータの一例について説明する。図24は、同実施形態に係るメタデータサーバの、字幕表示時間の補正についての説明図である。図25は、同実施形態に係るメタデータサーバが提供する、人物に対して付加される付加情報の一例を示す説明図である。図26は、同実施形態に係るメタデータサーバが提供する人物の口位置を示すメタデータの一例を説明するための説明図である。図27は、同実施形態に係るメタデータサーバが提供する人物認識情報の一例を示す説明図である。図28は、同実施形態に係るユーザ装置における話者に応じた字幕表示の一例を示す説明図である。図29は、同実施形態に係るメタデータサーバにより提供されるメタデータを用いた台詞表示の一例を示す説明図である。図30は、同実施形態に係るメタデータサーバが提供する検索機能の一例を示す説明図である。図31は、同実施形態に係るメタデータサーバが提供するクエストサービスの一例を示す説明図である。
メタデータサーバ300は、図19において説明したように、字幕テキストが実際に発声される時刻をより詳細に示した、テキスト音声同期時間の情報を提供することができる。ここで再び図19を参照すると、メタデータサーバ300の音声解析部310は、動画データから抽出された音声データを解析することができる。また字幕解析部305は、字幕データに含まれるテキストデータを抽出することができる。そして、メタデータ生成部は、音声データとテキストデータを用いて、音声歌詞同期技術により発声時間つきテキストデータを生成することができる。
ここで、図24に示されるように、コンテンツ側がもっている字幕表示時間は、実際に発声している時間より長く設定されることが多い。また音声認識により生成されるテキスト音声同期時間は、BGM(BackGround Music)などのノイズが音声データに含まれている場合には、このノイズを音声と誤認識してしまい、実際の発音時間よりも長く認識してしまうことがある。そこで、メタデータ生成部320は、テキスト音声同期時間を、これらの情報を用いて補正することができる。字幕表示時間及びテキスト音声同期時間のいずれも、実際の発音時間より短く設定される可能性は低い。すなわち、発音時間の開始時間は、字幕表示時間及びテキスト音声同期時間のうちいずれか遅い方に補正されてよい。また発音時間の終了時間は、字幕表示時間及びテキスト音声同期時間のうちいずれか早いほうに補正されてよい。かかる構成により、字幕表示時間の精度を高めることができる。
またメタデータ生成部320は、図25に示されるように、画面上で指定した人物に関する情報が表示されるようにするためのメタデータを生成することができる。例えばこのメタデータは、コンテンツID、字幕ID、画面上の座標情報、及び付加情報が対応づけられて含まれてよい。ここで付加情報としては、例えばこの人物のCM(CoMmercial)情報、又は人物データなどであってよい。例えばメタデータ生成部320は、特定の人物が出ているシーンに対して広告やコメントなどの付加情報を付与することができる。メタデータ生成部320は、特定の人物が出ているシーンを画像解析部315による画像解析結果に基づいて認識することができる。そしてその特定の人物が出ているシーンに該当するコンテンツID、字幕ID、及び座標情報を取得し、これに対して付加情報を対応づけることによりメタデータを生成する。またこの座標情報は、正規化された値で格納されることが望ましい。かかる構成により、各クライアントの解像度に合わせて指定された位置の座標を決定することができる。また字幕ID単位でメタ情報を付加することによって、再生時間の違いに依存せず情報を付加することができる。
また、画像解析部315による解析結果を用いて、メタデータ生成部320は、画像データ中の人物の顔の位置及び口の位置を認識することができる。そしてこの情報を用いることによって、図26に示されるように、ユーザが画面上で特定の人物を指定すると、その顔部分が拡大して表示される。そしてさらに指定した人物の口部分が拡大されるようにしてもよい。口の部分を拡大して表示することにより、ユーザは特定の文章(又は単語)を発声するときの口の形状を確認することができる。
またメタデータ生成部320は、図27に示されるように、画像認識結果と音声認識結果とを合わせて用いることにより、人物判別の精度を向上させることができる。画像認識結果により同一人物であると判断されたグループの情報と、音声認識結果により同一人物の音声であると判断されたグループの情報とを合わせて用いることができる。例えばこのように精度が向上した人物判別結果を用いて、話者に応じてカーソル色を変えるなどの表現を用いることができる。また図28に示されるように、話者に応じて字幕の表示位置を変更してもよい。例えば話者Aの台詞は字幕表示領域12の左端に表示され、話者Bの台詞は字幕表示領域12の右端に表示されてよい。
またメタデータ生成部320は、台詞を話者の近くに表示するように、表示位置の情報を生成してもよい。例えば図29の上図に示されるように、人物C1の台詞「They can't be possibly be true.」を表示する位置を、人物C1の顔の向きなどに基づいて解析することができる。このとき顔画像認識技術と、SLAM(Simultaneously Localization and Mapping)を用いることができる。
またメタデータサーバ300の情報提供部330は、コンテンツを横断した検索機能を提供することができる。例えば図30に示されるように、検索キーワード「have been」が入力されると、情報提供部330は、字幕テキストを検索してこの検索キーワードが含まれるコンテンツを抽出することができる。このような機能を提供することによって、例えば図31に示されるようなクエスト機能を提供することができる。例えばメタデータサーバ300は、“「have been」を含む台詞を5つ探しなさい。”というクエストを出題し、ユーザがこのキーワードを含む台詞がアクティブ字幕領域12Aに表示されたときに、キーワードを含む台詞をチェックする操作(ここでは例えば星マークをタップする操作)を行うと、クエストの達成度合いに応じたポイントをユーザに付与してもよい。かかるサービスの提供により、ユーザの学習意欲を促進することができる。
<7.サーバのハードウェア構成例>
ここで図32を参照しながら、コンテンツサーバ200、メタデータサーバ300,及び記録サーバ400のハードウェア構成の一例について説明する。図32は、同実施形態に係るコンテンツサーバ、メタデータサーバ、及び記録サーバのハードウェア構成の一例を示すブロック図である。
上記のコンテンツサーバ200、メタデータサーバ300,及び記録サーバ400が有する各構成要素の機能は、例えば、図32に示すハードウェア構成を用いて実現することが可能である。つまり、当該各構成要素の機能は、コンピュータプログラムを用いて図32に示すハードウェアを制御することにより実現される。なお、このハードウェアの形態は任意であり、例えば、サーバ装置、パーソナルコンピュータ、携帯電話、PHS、PDA等の携帯情報端末、ゲーム機、又は種々の情報家電がこれに含まれる。但し、上記のPHSは、Personal Handy−phone Systemの略である。また、上記のPDAは、Personal Digital Assistantの略である。
図32に示すように、このハードウェアは、主に、CPU902と、ROM904と、RAM906と、ホストバス908と、ブリッジ910と、を有する。さらに、このハードウェアは、外部バス912と、インターフェース914と、入力部916と、出力部918と、記憶部920と、ドライブ922と、接続ポート924と、通信部926と、を有する。但し、上記のCPUは、Central Processing Unitの略である。また、上記のROMは、Read Only Memoryの略である。そして、上記のRAMは、Random Access Memoryの略である。
CPU902は、例えば、演算処理装置又は制御装置として機能し、ROM904、RAM906、記憶部920、又はリムーバブル記録媒体928に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。ROM904は、CPU902に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM906には、例えば、CPU902に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
これらの構成要素は、例えば、高速なデータ伝送が可能なホストバス908を介して相互に接続される。一方、ホストバス908は、例えば、ブリッジ910を介して比較的データ伝送速度が低速な外部バス912に接続される。また、入力部916としては、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力部916としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。
出力部918としては、例えば、CRT、LCD、PDP、又はELD等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。但し、上記のCRTは、Cathode Ray Tubeの略である。また、上記のLCDは、Liquid Crystal Displayの略である。そして、上記のPDPは、Plasma DisplayPanelの略である。さらに、上記のELDは、Electro−Luminescence Displayの略である。
記憶部920は、各種のデータを格納するための装置である。記憶部920としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。但し、上記のHDDは、Hard Disk Driveの略である。
ドライブ922は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体928に記録された情報を読み出し、又はリムーバブル記録媒体928に情報を書き込む装置である。リムーバブル記録媒体928は、例えば、DVDメディア、Blu−rayメディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体928は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。但し、上記のICは、Integrated Circuitの略である。
接続ポート924は、例えば、USBポート、IEEE1394ポート、SCSI、RS−232Cポート、又は光オーディオ端子等のような外部接続機器930を接続するためのポートである。外部接続機器930は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。但し、上記のUSBは、Universal Serial Busの略である。また、上記のSCSIは、Small Computer System Interfaceの略である。
通信部926は、ネットワーク932に接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB用の通信カード、光通信用のルータ、ADSL用のルータ、又は各種通信用のモデム等である。また、通信部926に接続されるネットワーク932は、有線又は無線により接続されたネットワークにより構成され、例えば、インターネット、家庭内LAN、赤外線通信、可視光通信、放送、又は衛星通信等である。但し、上記のLANは、Local Area Networkの略である。また、上記のWUSBは、Wireless USBの略である。そして、上記のADSLは、Asymmetric Digital Subscriber Lineの略である。
<8.動作例>
次に図33及び図34を参照しながら、同実施形態に係るユーザ装置100及びメタデータサーバ300の動作例についてそれぞれ説明する。図33は、同実施形態に係るユーザ装置の動作例を示すフローチャートである。図34は、同実施形態に係るメタデータサーバの動作例を示すフローチャートである。
図33を参照すると、ユーザ装置100は、まず動画データの読込みを行う(S100)。このときユーザ装置100は、コンテンツサーバ200に接続し、或いはローカルに保存された動画データを読込む。またユーザ装置100は、字幕データの読込みを行う(S105)。このときユーザ装置100は、コンテンツサーバ200に接続し、或いはローカルに保存された字幕データを読込む。そしてユーザ装置100は、メタデータの読込みを行う(S110)。このときユーザ装置100は、メタデータサーバ300に接続してメタデータを読込む。
そしてユーザ装置100は、ユーザからの操作が検出されたか否かを判断する(S115)。そして操作が検出された場合には、ユーザ装置100は、操作に応じた各種処理を実行する(S120)。一方操作が検出されなかった場合には、ステップS120の処理は省略される。そして、ユーザ装置100は、コンテンツの再生が終了したか否かを判断する(S125)。そしてコンテンツの再生が終了するまでステップS115〜ステップS125の処理が繰り返される。
一方図34を参照すると、メタデータサーバ300は、動画データの読込みを行う(S200)。このときメタデータサーバ300は、コンテンツサーバ200から動画データの読込みを行うことができる。そしてメタデータサーバ300は、字幕データの読込みを行う(S205)。このときメタデータサーバ300は、例えばコンテンツサーバ200から、取得した動画データに対応する字幕データを読込むことができる。そして、メタデータサーバ300は、メタデータを生成する(S210)。
そしてメタデータサーバ300は、ユーザ装置100からの接続があったか否かを判断する(S215)。ここでユーザ装置100からの接続が検出されたとき、メタデータサーバ300は、接続要求に応じた各種データを送信することができる(S220)。そしてメタデータサーバ300は、動作が終了したか否かを判断する(S225)。このステップS225において動作が終了であると判断されるまで、ステップS215から処理が繰り返される。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
例えば、上記実施形態で、1つの装置に含まれる複数の機能は、それぞれ別体の装置により実装されてよい。或いは、上記実施形態で複数の装置により実装された複数の機能がそれぞれ別体の装置により実装されてもよい。また上記の1つの機能が複数の装置により実現されてもよい。かかる構成についても本開示の技術的範囲に含まれることは言うまでもない。
尚、本明細書において、フローチャートに記述されたステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的に又は個別的に実行される処理をも含む。また時系列的に処理されるステップでも、場合によっては適宜順序を変更することが可能であることは言うまでもない。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
コンテンツ表示領域及び字幕表示領域を含む表示画面の表示を制御する表示制御部と、
前記字幕表示領域に対する第1の操作が検出されると、前記コンテンツ表示領域に対する前記第1の操作が検出されたときに実行される第1の処理と異なる第2の処理を行うための操作と認識する操作認識部と、
を備える、情報処理装置。
(2)
前記第1の操作は、ドラッグ操作であり、
前記第2の処理は、再生速度の変更処理である、
前記(1)に記載の情報処理装置。
(3)
前記表示制御部は、前記字幕表示領域に対する前記第1の操作が検出されると、前記字幕表示領域の背景のアニメーションを開始する、
前記(1)または(2)のいずれかに記載の情報処理装置。
(4)
前記第2の処理は、コンテンツの再生速度を変更する変更処理であり、
前記表示制御部は、前記字幕表示領域に対する前記第1の操作が検出されると、前記字幕表示領域の背景が前記コンテンツの再生方向を示す方向に移動するアニメーションを開始する、
前記(1)〜(3)のいずれかに記載の情報処理装置。
(5)
前記字幕表示領域の背景は、模様が付されている、
前記(1)〜(4)のいずれかに記載の情報処理装置。
(6)
前記第1の処理は、コンテンツのシーク処理である、
前記(1)〜(5)のいずれかに記載の情報処理装置。
(7)
前記表示制御部は、字幕テキストに現在の再生位置を示すカーソルを重畳させて前記字幕表示領域に表示させる、
前記(1)〜(6)のいずれかに記載の情報処理装置。
(6)
コンテンツ表示領域及び字幕表示領域を含む表示画面の表示を制御することと、
前記字幕表示領域に対する第1の操作が検出されると、前記コンテンツ表示領域に対する前記第1の操作が検出されたときに実行される第1の処理と異なる第2の処理を行うための操作と認識することと、
を含む、情報処理方法。
(7)
コンピュータを、
コンテンツ表示領域及び字幕表示領域を含む表示画面の表示を制御する表示制御部と、
前記字幕表示領域に対する第1の操作が検出されると、前記コンテンツ表示領域に対する前記第1の操作が検出されたときに実行される第1の処理と異なる第2の処理を行うための操作と認識する操作認識部と、
を備える、情報処理装置として機能させるためのプログラム。
100 ユーザ装置
150 再生制御部
155 操作部
160 音声出力制御部
165 音声出力部
170 表示制御部
175 表示部
180 通信部
200 コンテンツサーバ
300 メタデータサーバ
305 字幕解析部
310 音声解析部
315 画像解析部
320 メタデータ生成部
325 記憶部
330 情報提供部
400 記録サーバ

Claims (9)

  1. コンテンツ表示領域及び字幕表示領域を含む表示画面の表示を制御する表示制御部と、
    前記字幕表示領域に対する第1の操作が検出されると、前記コンテンツ表示領域に対する前記第1の操作が検出されたときに実行される第1の処理と異なる第2の処理を行うための操作と認識する操作認識部と、
    を備える、情報処理装置。
  2. 前記第1の操作は、ドラッグ操作であり、
    前記第2の処理は、再生速度の変更処理である、
    請求項1に記載の情報処理装置。
  3. 前記表示制御部は、前記字幕表示領域に対する前記第1の操作が検出されると、前記字幕表示領域の背景のアニメーションを開始する、
    請求項1に記載の情報処理装置。
  4. 前記第2の処理は、コンテンツの再生速度を変更する変更処理であり、
    前記表示制御部は、前記字幕表示領域に対する前記第1の操作が検出されると、前記字幕表示領域の背景が前記コンテンツの再生方向を示す方向に移動するアニメーションを開始する、
    請求項1に記載の情報処理装置。
  5. 前記字幕表示領域の背景は、模様が付されている、
    請求項1に記載の情報処理装置。
  6. 前記第1の処理は、コンテンツのシーク処理である、
    請求項1に記載の情報処理装置。
  7. 前記表示制御部は、字幕テキストに現在の再生位置を示すカーソルを重畳させて前記字幕表示領域に表示させる、
    請求項1に記載の情報処理装置。
  8. コンテンツ表示領域及び字幕表示領域を含む表示画面の表示を制御することと、
    前記字幕表示領域に対する第1の操作が検出されると、前記コンテンツ表示領域に対する前記第1の操作が検出されたときに実行される第1の処理と異なる第2の処理を行うための操作と認識することと、
    を含む、情報処理方法。
  9. コンピュータを、
    コンテンツ表示領域及び字幕表示領域を含む表示画面の表示を制御する表示制御部と、
    前記字幕表示領域に対する第1の操作が検出されると、前記コンテンツ表示領域に対する前記第1の操作が検出されたときに実行される第1の処理と異なる第2の処理を行うための操作と認識する操作認識部と、
    を備える、情報処理装置として機能させるためのプログラム。


JP2013557378A 2012-02-10 2012-12-12 情報処理装置、情報処理方法、及びプログラム Active JP6044553B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012027088 2012-02-10
JP2012027088 2012-02-10
PCT/JP2012/082188 WO2013118387A1 (ja) 2012-02-10 2012-12-12 情報処理装置、情報処理方法、及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2013118387A1 true JPWO2013118387A1 (ja) 2015-05-11
JP6044553B2 JP6044553B2 (ja) 2016-12-14

Family

ID=48947174

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013557378A Active JP6044553B2 (ja) 2012-02-10 2012-12-12 情報処理装置、情報処理方法、及びプログラム

Country Status (4)

Country Link
US (1) US9437246B2 (ja)
JP (1) JP6044553B2 (ja)
CN (1) CN104081784B (ja)
WO (1) WO2013118387A1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6217645B2 (ja) * 2012-11-01 2017-10-25 ソニー株式会社 情報処理装置、再生状態制御方法及びプログラム
US9471334B2 (en) * 2013-03-08 2016-10-18 Intel Corporation Content presentation with enhanced closed caption and/or skip back
KR20140143623A (ko) * 2013-06-07 2014-12-17 삼성전자주식회사 휴대 단말기에서 컨텐츠를 표시하는 장치 및 방법
JP6413216B2 (ja) * 2013-09-20 2018-10-31 カシオ計算機株式会社 電子機器、音声出力録音方法及びプログラム
US9568997B2 (en) 2014-03-25 2017-02-14 Microsoft Technology Licensing, Llc Eye tracking enabled smart closed captioning
CN104967910B (zh) * 2014-10-29 2018-11-23 广州酷狗计算机科技有限公司 多媒体播放进度控制方法及装置
JP6260557B2 (ja) * 2015-03-04 2018-01-17 株式会社Jvcケンウッド 情報処理装置、システムおよびプログラム
JP2016208395A (ja) * 2015-04-27 2016-12-08 Jcc株式会社 携帯端末映像表示システム
KR102440848B1 (ko) * 2016-05-20 2022-09-06 엘지전자 주식회사 이동 단말기 및 그 제어방법
US11430195B2 (en) 2016-08-31 2022-08-30 Sony Corporation Information processing apparatus, information processing method, and program for improving user-friendliness of an animated tutorial depicting assembling parts for creating a robot
CN107071554B (zh) * 2017-01-16 2019-02-26 腾讯科技(深圳)有限公司 语义识别方法和装置
US10127825B1 (en) * 2017-06-13 2018-11-13 Fuvi Cognitive Network Corp. Apparatus, method, and system of insight-based cognitive assistant for enhancing user's expertise in learning, review, rehearsal, and memorization
CN108419141B (zh) * 2018-02-01 2020-12-22 广州视源电子科技股份有限公司 一种字幕位置调整的方法、装置、存储介质及电子设备
EP3554092A1 (en) * 2018-04-12 2019-10-16 InterDigital CE Patent Holdings Video system with improved caption display
CN108401192B (zh) * 2018-04-25 2022-02-22 腾讯科技(深圳)有限公司 视频流处理方法、装置、计算机设备及存储介质
CN109348145B (zh) * 2018-09-14 2020-11-24 上海连尚网络科技有限公司 基于字幕生成关联弹幕的方法及设备、计算机可读介质
KR20200111853A (ko) * 2019-03-19 2020-10-05 삼성전자주식회사 전자 장치 및 전자 장치의 음성 인식 제어 방법
JP7379968B2 (ja) 2019-09-10 2023-11-15 カシオ計算機株式会社 学習支援装置、学習支援方法及びプログラム
JP7447422B2 (ja) 2019-10-07 2024-03-12 富士フイルムビジネスイノベーション株式会社 情報処理装置およびプログラム
CN111597360B (zh) * 2020-05-15 2023-11-07 广州酷狗计算机科技有限公司 信息展示方法、装置、计算机设备及存储介质
JP7282444B1 (ja) 2022-05-24 2023-05-29 株式会社オプティム プログラム、情報処理装置、情報処理システム、情報処理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009253689A (ja) * 2008-04-07 2009-10-29 Sony Corp 情報提示装置及び情報提示方法
JP2010087661A (ja) * 2008-09-30 2010-04-15 Pioneer Electronic Corp 情報再生装置、情報再生方法、情報再生プログラムおよび情報再生プログラムを格納した記録媒体
JP2010102666A (ja) * 2008-10-27 2010-05-06 Business Search Technologies Corp テキストまたは画像の範囲指定方法および処理方法
JP2010237928A (ja) * 2009-03-31 2010-10-21 Ntt Docomo Inc タッチパネル装置及び情報表示方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR960029658U (ko) 1995-10-04 1996-09-17 캡션 지향 화면 검색기능의 비디오 cd재생장치
KR101391602B1 (ko) * 2007-05-29 2014-05-07 삼성전자주식회사 터치 스크린 기반의 사용자 인터페이스 인터렉션 방법 및 멀티 미디어 단말 기기
US9772667B2 (en) * 2007-06-13 2017-09-26 Apple Inc. Integrated multi-touch surface having varying sensor granularity
US20120019717A1 (en) * 2009-01-06 2012-01-26 Nec Corporation Credit information segment detection method, credit information segment detection device, and credit information segment detection program
US8572513B2 (en) * 2009-03-16 2013-10-29 Apple Inc. Device, method, and graphical user interface for moving a current position in content at a variable scrubbing rate
US20110231796A1 (en) * 2010-02-16 2011-09-22 Jose Manuel Vigil Methods for navigating a touch screen device in conjunction with gestures
US20120047437A1 (en) * 2010-08-23 2012-02-23 Jeffrey Chan Method for Creating and Navigating Link Based Multimedia
US9189818B2 (en) * 2010-12-10 2015-11-17 Quib, Inc. Association of comments with screen locations during media content playback
US9363579B2 (en) * 2010-12-22 2016-06-07 Google Inc. Video player with assisted seek
US20120315009A1 (en) * 2011-01-03 2012-12-13 Curt Evans Text-synchronized media utilization and manipulation
US20120236201A1 (en) * 2011-01-27 2012-09-20 In The Telling, Inc. Digital asset management, authoring, and presentation techniques
CN102290081A (zh) * 2011-06-27 2011-12-21 深圳市基思瑞科技有限公司 语言学习播放控制方法
US20130177891A1 (en) * 2011-07-02 2013-07-11 Joachim Hammerschmidt Audio-visual learning system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009253689A (ja) * 2008-04-07 2009-10-29 Sony Corp 情報提示装置及び情報提示方法
JP2010087661A (ja) * 2008-09-30 2010-04-15 Pioneer Electronic Corp 情報再生装置、情報再生方法、情報再生プログラムおよび情報再生プログラムを格納した記録媒体
JP2010102666A (ja) * 2008-10-27 2010-05-06 Business Search Technologies Corp テキストまたは画像の範囲指定方法および処理方法
JP2010237928A (ja) * 2009-03-31 2010-10-21 Ntt Docomo Inc タッチパネル装置及び情報表示方法

Also Published As

Publication number Publication date
CN104081784B (zh) 2017-12-08
US9437246B2 (en) 2016-09-06
JP6044553B2 (ja) 2016-12-14
US20150016801A1 (en) 2015-01-15
CN104081784A (zh) 2014-10-01
WO2013118387A1 (ja) 2013-08-15

Similar Documents

Publication Publication Date Title
JP6044553B2 (ja) 情報処理装置、情報処理方法、及びプログラム
US11449221B2 (en) User interface for media content playback
US20210272569A1 (en) Voice feedback for user interface of media playback device
US9696881B2 (en) System and method for captioning media
KR101674851B1 (ko) 텍스트 데이터와 오디오 데이터 간의 맵핑 자동 생성
JP6217645B2 (ja) 情報処理装置、再生状態制御方法及びプログラム
US8433431B1 (en) Displaying text to end users in coordination with audio playback
US20200125320A1 (en) Media content playback during travel
US11272137B1 (en) Editing text in video captions
US20150058007A1 (en) Method for modifying text data corresponding to voice data and electronic device for the same
US20230280966A1 (en) Audio segment recommendation
JP6443205B2 (ja) コンテンツ再生システム、コンテンツ再生装置、コンテンツ関連情報配信装置、コンテンツ再生方法、及びコンテンツ再生プログラム
JP2010061343A (ja) 音声記録方法、音声再生方法、音声記録プログラム、音声再生プログラム
JP7230803B2 (ja) 情報処理装置および情報処理方法
JP2013092912A (ja) 情報処理装置、情報処理方法、並びにプログラム
JP2009283020A (ja) 記録装置、再生装置、及びプログラム
JP4342529B2 (ja) オーサリング支援装置、オーサリング支援方法及びプログラム、並びにオーサリング情報共有システム
CN114424148B (zh) 电子设备及其用于提供手册的方法
US9632647B1 (en) Selecting presentation positions in dynamic content
JP2024024479A (ja) 情報処理装置、情報処理方法、及びプログラム
JP2005260391A (ja) 動画像表示装置、動画像表示方法、動画像表示プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160405

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161018

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161031

R151 Written notification of patent or utility model registration

Ref document number: 6044553

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250