WO2020261805A1

WO2020261805A1 - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: WO2020261805A1
Application number: PCT/JP2020/019600
Authority: WO
Inventors: 猛史荻田; 山野　郁男
Original assignee: ソニー株式会社
Priority date: 2019-06-28
Filing date: 2020-05-18
Publication date: 2020-12-30
Also published as: CN114008566A; JPWO2020261805A1; JP7505491B2; US20220353457A1; US12101576B2

Abstract

【課題】動画再生時に、聴覚障害者に対して視聴の補助が可能な情報処理装置、情報処理方法及びプログラムを提供する。【解決手段】情報処理装置は制御部を具備する。上記制御部は、効果音を文字情報で示す効果音字幕データと人物の発語を文字情報で示す発語字幕データを含む字幕データを有する字幕情報と音データを含む音情報とを含む動画ファイルの、上記字幕情報及び上記音情報を解析した解析結果を用いて、上記音データの波形を基に、上記効果音字幕データに対応する振動信号及び上記発語字幕データに対応する振動信号のうち少なくとも１つを生成する。

Description

情報処理装置、情報処理方法及びプログラム

　本技術は、動画ファイルの視聴者に対して視聴の補助を行う情報処理装置、情報処理方法及びプログラムに関する。

　一般に、聴覚障害者に対応した映画やドラマといった映像には、聴覚障害者が映像を視聴する際の音声情報の欠落を補助するために音声内容を説明する字幕が表示される。この字幕には、人物の発語の他、状況を説明するための効果音なども表示される。しかし、テキスト表現による字幕では、登場人物の声の抑揚や、音量、発話速度等を表現することが難しい。

　ここで、特許文献１には、自動化触覚化アルゴリズムにより触覚効果を発生させることが記載されている。自動化触覚化アルゴリズムは、触覚効果の生成のために映画のオーディオ及びビデオトラックをパターン識別するように分析する。これに加えて、Ａ／Ｖ受信機がキーワードのためにクローズドキャプションテキストを分析する。例えばキーワードとして「爆発」が発見されると、自動化触覚化アルゴリズムは、発見したキーワードのタイムスタンプ周辺の爆発パターンを探し、さらに爆発に相当する強烈な振動のような対応する触覚効果を発生する。Ａ／Ｖ機器は、その映画内にて生じるイベントに対応する時間で触覚効果を出力する。

特開２０１５－５３０４８号公報

　特許文献１に記載される発明では、「爆発」といった所謂効果音に対応する触覚効果をユーザに対して提示することはできるが、聴覚障害者にとって、例えば人物の会話における抑揚や発話速度などを認識することは難しいものとなっている。

　本技術の目的は、動画再生時に、聴覚障害者に対して視聴の補助が可能な情報処理装置、情報処理方法及びプログラムを提供することにある。

　上記目的を達成するため、本技術の一形態に係る情報処理装置は制御部を具備する。
　上記制御部は、効果音を文字情報で示す効果音字幕データと人物の発語を文字情報で示す発語字幕データを含む字幕データを有する字幕情報と音データを含む音情報とを含む動画ファイルの、上記字幕情報及び上記音情報を解析した解析結果を用いて、上記音データの波形を基に、上記効果音字幕データに対応する振動信号及び上記発語字幕データに対応する振動信号のうち少なくとも１つを生成する。

　このような構成によれば、音データに基づいて効果音や発語に対応する振動信号を生成しているので、視聴者に対して振動によって動画ファイルの視聴の補助を行うことができる。

　上記制御部は、上記音データを、上記効果音字幕データに対応する音データと上記発語字幕データに対応する音データとに分け、それぞれの音データの波形を基に、上記効果音字幕データに対応する振動信号と上記発語字幕データに対応する振動信号を生成してもよい。

　上記制御部は、上記字幕情報に含まれる、画像上の字幕の表示位置情報、上記画像上に表示される記号情報、字幕の文字の書体情報、字幕の文字の色情報のうち少なくとも１つを用いて、上記字幕データが、上記効果音字幕データか、或いは、上記発語字幕データかを判断してもよい。

　上記字幕情報が複数の人物による会話シーンに対応する字幕情報を含む場合、上記制御部は、上記複数の人物による会話シーンにおいて、上記字幕情報を用いて、上記会話での発語順に上記発語字幕データを区切り、それぞれに対応して上記振動信号を生成してもよい。

　上記制御部は、上記効果音に対応する振動信号と、上記人物の発語に対応する振動信号とを、双方の振動信号に基づく振動の大きさが相対的に異なるように、振動信号を生成してもよい。

　上記動画ファイルにはコンテンツメタ情報が含まれ、上記制御部は、上記コンテンツメタ情報を加味して、上記振動信号を生成してもよい。
　上記制御部は、上記ユーザに関する情報を加味して、上記振動信号を生成してもよい。

　上記振動信号に基づいて上記ユーザに対して振動を提示する振動提示部を更に具備してもよい。
　上記振動提示部を複数具備してもよい。
　上記制御部は、上記字幕情報及び上記音情報を解析した解析結果を用いて、上記効果音字幕データに対応する振動信号と上記発語字幕データに対応する振動信号を生成し、それぞれの振動信号を、互いに異なる複数の上記振動提示部それぞれに出力してもよい。

　上記目的を達成するため、本技術の一形態に係る情報処理方法は、効果音を文字情報で示す効果音字幕データと人物の発語を文字情報で示す発語字幕データを含む字幕データを有する字幕情報と音データを含む音情報とを含む動画ファイルの、上記字幕情報及び上記音情報を解析した解析結果を用いて、上記音データの波形を基に、上記効果音字幕データに対応する振動信号及び上記発語字幕データに対応する振動信号のうち少なくとも１つを生成する。

　上記目的を達成するため、本技術の一形態に係るプログラムは、効果音を文字情報で示す効果音字幕データと人物の発語を文字情報で示す発語字幕データを含む字幕データを有する字幕情報と音データを含む音情報とを含む動画ファイルの、上記字幕情報及び上記音情報を解析するステップと、解析結果を用いて、上記音データの波形を基に、上記効果音字幕データに対応する振動信号及び上記発語字幕データに対応する振動信号のうち少なくとも１つを生成するステップを含む処理を情報処理装置に実行させる。

振動提示システムの構成を説明する概略図である。振動提示システムの一部を構成する、振動提示デバイスを備える情報処理装置を、ユーザが用いている様子を示す斜視図である。振動生成方法の基本フロー図である。振動生成の１例を説明するフロー図である。字幕表示された動画のワンシーン例と、当該ワンシーンにおける人物の発語及び効果音それぞれの音波形、当該音波形に基づいて生成された振動信号の波形を示す図である。字幕表示された他の動画のワンシーン例と、当該ワンシーンにおける人物の発語の音波形及び当該音波形に基づいて生成された振動信号の波形を示す図である。字幕表示された更に他の動画のワンシーン例と、当該ワンシーンにおける効果音の音波形及び当該音波形に基づいて生成された振動信号の波形を示す図である。字幕表示された他の動画のワンシーン例を示す図である。

　[振動提示システムの概要]
　本技術の実施形態に係る振動提示システムついて、図１及び図２を用いて説明する。
　図１は、振動提示システムの構成を示す図であり、振動提示システムの一部である情報処理装置の機能ブロック図を含む。
　図２は、振動提示デバイスを備える上記情報処理装置をユーザＵが使用している様子を示す斜視図である。

　本実施形態の振動提示システムは、聴覚障害を有するユーザＵ（以下、視聴者と称する場合がある。）に対して、映画やテレビドラマ、ゲームといった動画のコンテンツを使用する上での、音声上の表現等の把握を補助するものである。
　より具体的には、音声情報、映像情報及び字幕情報を備える動画ファイルの音声情報及び字幕情報を用いて、音声に対応した振動をリアルタイムにユーザＵに提示する。本実施形態においては、効果音に対応する振動と、人物の発語に対応する振動を別々に生成する。これにより、例えば映画の場合、視聴者は、映画に登場する人物の声の抑揚、音量、発話速度、効果音の音量、継続時間、音量の変化等を、振動で把握することで、映画の中での状況をより深く理解することができる。

　例えば、聴覚障害を有するユーザＵが映像を視聴する際の音声情報の欠落を補助するために音声内容を説明するための字幕に、効果音の説明として画像に「爆発音」と表示される場合、視聴者には、字幕情報だけでは、爆発音が、低い音が持続する地鳴りのような音なのか、或いは、瞬間的に鳴る大きな音なのかがわからない。
　本実施形態においては、効果音の音声データの波形を基に振動信号を生成することにより、どのような爆発音かを振動でユーザに提示することができる。これにより、ユーザＵは、映画の中での状況をより深く理解することができる。
　また、他の例として、人物の発語の字幕が表示される場合、字幕情報だけでは人物の感情が読み取りにくい場合がある。本実施形態においては、人物の発語の音声データの波形を基に振動を生成することにより、人物の声の抑揚、音量、発話速度等を振動で提示することができる。これにより、ユーザＵは映画の中での状況をより深く理解することができる。
　以下、詳細に説明する。

　図１に示すように、振動提示システム２０は、情報処理装置１と、コンテンツ配信サーバ１０と、を有する。
　振動提示システム２０は、コンテンツ配信サーバ１０から配信される動画ファイルの再生時に、動画ファイルに含まれる字幕情報及び音声情報に基づいてリアルタイムに視聴者に振動を提示するものである。
　振動提示システム２０では、情報処理装置１とコンテンツ配信サーバ１０とがインターネットなどのネットワーク経由で通信可能に接続される。情報処理装置１は、コンテンツ配信サーバ１０に対してリストデータの取得要求や、動画ファイルと称する場合がある。）のダウンロード要求を送信し、またコンテンツ配信サーバ１０は、情報処理装置１に対してリストデータや、動画ファイルなどを送信する。
　以下では、ダウンロードした動画の再生時に、動画ファイルに含まれる字幕情報及び音声情報に基づいて振動を提示する例をあげて説明する。

　（コンテンツ配信サーバ）
　コンテンツ配信サーバ１０は、有料又は無料のコンテンツデータを保持している。コンテンツ配信サーバ１０は、動画ファイルを提供する。情報処理装置１がコンテンツ配信サーバ１０にアクセスすると、情報処理装置１の後述する表示部２にはコンテンツのリストが表示され、ユーザＵがコンテンツを選択することで、コンテンツ配信サーバ１０からコンテンツの動画ファイルをダウンロードする。

　動画ファイルには、コンテンツメタ情報と、字幕情報と、映像情報と、音情報と、が含まれる。

　コンテンツメタ情報は、動画のカテゴリ情報、動画の種類情報、放映の状況情報等を含む。
　動画のカテゴリとしては、例えば、映画、スポーツ、アニメ、ニュース等がある。動画の種類としては、例えば、アクション、ＳＦ、恋愛等がある。放映の状況としては、番組中、ＣＭ中等がある。

　映像情報は、映像データを含む。映像データに含まれる情報には、車、電車、鉄砲、人といった物体情報、喜怒哀楽等のヒトの感情情報、止まる、速く動くといった物体の動き情報、爆発時や発泡時にでるフラッシュ情報、手話情報等がある。

　音情報は、音声データ、音チャンネル数、音源位置情報、副音声情報等を含む。
　音声データは周波数情報、音圧変化情報等を含む。周波数情報によって、高い音、低い音といった音の高低情報が得られる。音圧変化情報によって、爆発音や迫力ある効果音といった音の大きさの情報が得られる。
　副音声情報には、二か国語放送における副音声の言語の音声データの他、目の不自由な方への解説放送等がある。

　字幕情報は、字幕データ、画像上の字幕の表示位置情報、画像上に表示される記号情報、字幕の文字の書体情報、字幕の文字の色情報等が含まれる。

　字幕データは字幕テキストデータである。字幕データには、人物の発語を文字情報で示す発語字幕データと、補助字幕データの２種類が含まれる。
　補助字幕データは、視聴者の動画内容の把握を補助する字幕データである。補助字幕データには、効果音を文字情報で説明する効果音字幕データと状況説明用字幕データがある。
　効果音字幕データとは、基本的には人物による発語でない音を説明するものである。例えば、効果音には、車のクラクション、エレベータの到着を知らせる音、犬の鳴き声、扉の開閉音、爆発音等といった、動画再生時に実際に発せられる環境音の他、動画再生時に音として発せられる人物の発語ではあるが、現実的には人物が発語していない人物の心情や、ナレーション等も含まれる。
　状況説明用字幕データは、動画再生中に音として発せられない、状況把握を補助するものである。例えば、複数の人物が会話するシーンでは、字幕に、人物による発語の前に、発語をする人物の名前等が括弧書きで表示される。この人物の名前が、状況説明用字幕データに相当する。このような状況説明用字幕データによって、視聴者は、どの発語がどの人物によるものなのかを把握することができる。尚、括弧内に表示される言葉が人名である場合、例えば、女性の人名は赤色、男性の人名は青色で表示され、性別が区別できるように色を異ならせて表示される場合がある。括弧内に表示される文字の色によって状況説明用字幕データか否かを区別できるようになっている。

　（情報処理装置の構成）
　情報処理装置１は、コンテンツ配信サーバ１０にアクセスして動画ファイルをダウンロードする。情報処理装置１は、動画ファイルの字幕情報及び音情報を用いてユーザに対して提示する振動の振動信号を生成するアプリケーションプログラムを備えている。
　情報処理装置１は、例えば携帯電話やＰＤＡ（Personal Digital Assistant）、携帯型ゲーム器であってもよい。ここでは、振動提示部としての振動デバイス及び表示部を備える情報処理装置として携帯電話を例にあげて説明する。

　情報処理装置１は、無線ＬＡＮ（Local Area Network）方式や携帯電話方式等の無線通信方式による通信機能を有していてもよく、また、ＵＳＢケーブルなどの優先ケーブルで外部機器と接続してコンテンツ配信サーバと通信する構成であってもよい。

　図２に示すように、本実施形態の情報処理装置１は、横長のサイズの表示部２を有し、所謂横持ちの状態でユーザＵの両手により把持される。情報処理装置１は、左手用振動デバイス４Ｌと右手用振動デバイス４Ｒを有する。ユーザＵにより把持された状態で、左手用振動デバイス４ＬはユーザＵの左手に対応して位置し、右手用振動デバイス４ＲはユーザＵの右手に対応して位置する。後述する制御部６から出力された振動信号に基づいて左手用振動デバイス４Ｌが駆動し振動することにより、ユーザＵの左手に振動が提示される。同様に、制御部６から出力された振動信号に基づいて右手用振動デバイス４Ｒが駆動し振動することにより、ユーザＵの右手に振動が提示される。
　ここで、左手用振動デバイス４Ｌと右手用振動デバイス４Ｒというように両者を特に区別する必要がない場合は振動デバイス４Ｌ、４Ｒと称する。
　本実施形態の情報処理装置１は、入力された音声信号の波形を振動として出力する。

　図１に示すように、情報処理装置１は、表示部２と、音出力部３と、左手用振動デバイス４Ｌと、右手用振動デバイス４Ｒと、通信部５と、制御部６と、入力部７と、スピーカ用アンプ８と、左手用振動デバイス駆動アンプ９Ｌと、右手用振動デバイス駆動アンプ９Ｒを有する。

　表示部２は、再生されたコンテンツの映像データやコンテンツリスト等の各種情報をテスト又はイメージで表示する。表示部２は、例えば、ＣＲＴ（Cathode Ray Tube）ディスプレイ、液晶ディスプレイ（ＬＣＤ）、ＯＬＥＤ（Organic Light Emitting Diode）などで構成される。
　表示部２は、制御部６から出力される映像データ及び字幕データに基づく画像を表示する。

　音出力部３は、スピーカやヘッドホン等である。音出力部３は、制御部６から出力される音データ等を音に変化して出力する。

　振動デバイス４Ｌ、４Ｒは、制御部６から出力される振動信号に基づいて駆動しユーザに対して振動を提示する。振動信号は、動画ファイルの音データの波形を基に後述する振動生成部６４により生成される。
　振動デバイス４としては、例えば電磁型の振動子のように、音声信号が有する２０ｋＨｚ程度までの周波数帯域の振動に追従可能な振動子を用いる。振動デバイス４には、偏心モータ型アクチュエータ、リニア共振アクチュエータ等、既知のものを用いることができる。
　本実施形態の情報処理装置１は、２つの振動デバイス４Ｌ、４Ｒを有する。

　通信部５は、外部機器との情報の送受信を行う。通信部５は、例えば、ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ(登録商標)、Ｗｉ－Ｆｉ等により外部機器と通信可能に接続され、情報の送受信を行う。本実施形態の情報処理装置１は、外部機器であるコンテンツ配信サーバ１０から動画ファイルを受信する。

　制御部６は、情報処理装置１を制御する。制御部６は、取得した動画ファイルに含まれる字幕情報及び音情報を用いて振動デバイス４の振動信号を生成し、振動デバイス４へ振動信号を出力する。また、制御部６は、表示部２へ映像データ及び字幕データを出力し、音出力部３へ音データを出力する。制御部６の詳細については後述する。

　入力部７は、情報処理装置１に対する入力インターフェースである。ユーザは、入力部７を介してユーザ情報としての視聴者情報を入力することができる。

　視聴者情報には、ユーザである視聴者の属性情報と視聴環境情報が含まれる。
　視聴者の属性情報は、視聴者の難聴状況、年齢、振動の好み等がある。
　視聴者の難聴状況とは、両耳が聞き取りにくい、右耳のみが聞き取りにくい、左耳は全く聞こえない等の、左右それぞれの耳の難聴の程度である。
　視聴環境情報は、情報処理装置１を用いてコンテンツを視聴する際の視聴者の周辺の環境情報である。環境の例として、屋内、屋外、車や電車等で移動中などがある。
　これらの視聴者情報を総合的に判定して振動の強弱の調整が行われてもよい。

　入力部７の種類は限定されず、入力部７は各種の公知の入力部であってよい。本実施形態では、入力部７としてタッチパネルが用いられ、当該タッチパネルは表示部２の表示面上に設けられる。入力部７の他の例としては、マウス、キーボード、スイッチ等が適用され得る。

　スピーカ用アンプ８は、制御部６から出力された音データを増幅し、音出力部３へ出力する。
　左手用振動デバイス駆動アンプ９Ｌは、制御部６から出力された左手用振動信号を増幅し、左手用振動デバイス４Ｌへ出力する。
　右手用振動デバイス駆動アンプ９Ｒは、制御部６から出力された右手用振動信号を増幅し、右手用振動デバイス４Ｒへ出力する。

　制御部６について説明する。
　制御部６は、メモリ６１と、取得部６２と、解析部６３と、振動生成部６４と、を備える。

　取得部６２は、通信部５を介してコンテンツ配信サーバ１０から受信した動画ファイルや入力部７で入力された視聴者情報を取得する。
　メモリ６１は、制御部６の処理に用いられるプログラムや各種データ、及び取得部６２により取得された視聴者情報といった外部から取得した各種データなどを格納する。

　解析部６３は、動画ファイルに含まれる字幕情報及び音情報を解析する。
　より詳細には、解析部６３は、動画再生時に、字幕情報を解析し、画像上の字幕の表示位置情報、画像上に表示される記号状況、字幕の書体情報、字幕の文字の色情報のうち少なくとも１つを用いて、字幕データを、発語字幕データと、効果音字幕データとに分ける。この際、解析部６３は、立体の書体で表示され、かつ、括弧書きされず、かつ、横書きで表示された字幕データは、発語字幕データであり、それ以外は補助字幕データである、と解析する。更に、補助字幕データのうち、括弧書きで赤色又は青色の文字で表示された字幕は状況説明用字幕データであり、それ以外は効果字幕データである、と解析する。

　ここで、動画上の字幕の表示例を参照して、効果音字幕データと発語字幕データとの区別について図を用いて説明する。
　図５（Ａ）、図６（Ａ）、図７（Ａ）、図８（Ａ）～（Ｃ）は、それぞれ動画のワンシーンを示し、画像での字幕の表示例について説明するための図である。

　日本映画等の、横書きも縦書きも可能な言語である日本語が字幕に主に用いられる動画においては、画像上の字幕の表示位置によって、字幕データが、発語字幕データか、或いは、効果音字幕データかを判断することができる。
　例えば、字幕に日本語が用いられる動画である図５（Ａ）に示すワンシーン４０では、発語字幕データ４２は横書きで表示され、効果音である警報の音を説明する効果音字幕データ４１が縦書きで表示される。このように、字幕データの表示位置によって、発語字幕データか、或いは、効果音字幕データかを判断することができる。

　また、画像上に表示される記号によって、字幕データを、発語字幕データと補助字幕データとに分けることが可能である。
　例えば、図５（Ａ）に示す動画のワンシーン４０では、効果音字幕データ４１は括弧書きで表示され、発語字幕データ４２には括弧のような記号は用いられていない。
　また、字幕に日本語が用いられる動画例である図７（Ａ）に示すワンシーン４５においては、横書きで表示されているが、効果音である車のクラクションの音を説明する補助字幕データ４６は括弧書きで表示されている。
　また、洋画等の横書きの言語が字幕に主に用いられる動画例である図８（Ｂ）に示すワンシーン５０においては、効果音であるエレベータの音を示す補助字幕データ５１は括弧書きで表示され、発語字幕データ５２には括弧のような記号は用いられていない。
　また、洋画の動画例である図８（Ｃ）に示すワンシーン５３では、効果音である人物のくすくす笑いを示す補助字幕データ５４や、効果音である扉のきしむ音を示す効果音字幕データ５６は括弧書きで表示され、発語字幕データ５５には括弧のような記号は用いられていない。
　このように、括弧といった記号によって、発語字幕データと、補助字幕データとを区別することが可能である。尚、図５（Ａ）に示すワンシーン４０では、括弧書きで表示されるのに加え、縦書きで表示されることにより、効果音字幕データ４１であることが判断できる。

　また、画像上に表示される括弧（記号）に加えて、括弧内の字幕の文字の色によって、補助字字幕データを、効果音字幕データと状況説明用字幕データとに分けることが可能である。
　括弧内の文字が赤色又は青色である場合、括弧内の文字は状況説明用字幕データであると判断し、そうでない場合は効果音字幕データであると判断できる。
　図７（Ａ）、図８（Ｂ）及び（Ｃ）それぞれに示すワンシーン４５、４７、５０では、括弧内の文字が赤色、青色のいずれでもない色で表示されているので、括弧内の字幕は効果音字幕データであると判断できる。
　一方、日本語が字幕に用いられる動画である図６（Ａ）に示すワンシーン４３は、二人の人物が会話するシーンであり、字幕に、どの発語がどの人物によるものであるかがわかるように、括弧書きで人物名が表示されている。図６（Ａ）において、括弧書き内の一般的に用いられる日本人女性の名前の１つである「なおみ」は赤字で表示され、括弧書き内の一般的に用いられる日本人男性の名前の１つである「一郎」は青字で表示されている。したがって、括弧内の字幕の文字の色が赤色又は青色であるので、括弧内の字幕は状況説明用字幕データであると判断できる。
　また、日本語が字幕に用いられる動画である図８（Ａ）に示すワンシーン４７の字幕では、括弧書きで人物名が表示され、その文字の色は青色となっている。したがって、括弧内の字幕の文字の色が赤色又は青色であるので、括弧内の字幕は状況説明用字幕データであると判断できる。

　このように、字幕の文字の色によって、状況説明用字幕データと効果音字幕データとに分けることができる。
　尚、効果音字幕データと状況説明用字幕データとで色による区別がない場合、括弧内に表示される言葉が人名かどうかを後述する解析部にて解析するように構成してもよい。この場合、例えば、後述するメモリ６１に予め複数の人名が収録された人名データを格納し、後述する解析部６３で人名データを参照し括弧内の言葉が人名か否かを判定することができる。そして人名であると判定されれば、括弧内の字幕は状況説明用字幕データと判断できる。

　また、複数の人物が会話をしているワンシーン４３で、括弧書き内の文字が人名を表している場合、人名の括弧書きの後にその人物の発語が表示される。例えば図６（Ａ）に示すように「（なおみ）決まった？　（一郎）うん。」という字幕が表示される。この場合、括弧情報（記号情報）によって、会話の発語順に発語字幕データを区切ることができる。具体的には、「決まった？」という発語字幕データと、「うん。」という発語字幕データとを区切ることができ、異なる人物による発語データを区別することができる。

　また、字幕の文字の書体によって、発語字幕データと補助字幕データとに分けることができる。
　例えば図５（Ａ）に示すワンシーン４０では、人物による発語は、傾かずに垂直した正立した書体である立体で表示される。これに対し、字幕に日本語が用いられる動画である図８（Ａ）に示すワンシーン４７では、動画再生時に音として発せられる人物の発語ではあるが、現実的には人物が発語していない人物の心情を表す補助字幕データ４８は、斜めに傾いた書体である斜体で表示される。
　従って、括弧書きされず、かつ、斜体の字幕部分は効果音字幕データであると判断することができる。また、括弧書きされず、立体の書体の字幕部分は発語字幕データであると判断することができる。
　このように、斜体の字幕部分は補助字幕データであると判断できる。斜体であるのに加え、括弧書きされていない場合は効果音字幕データであると判断でき、括弧書きされ、赤色又は青色で表示される字幕は状況説明用字幕データ、赤及び青以外の色で表示される字幕は効果音字幕データと判断できる。
　このように、字幕の書体によって、動画再生中に音として発せられる発語ではあるが、現実的には人物が発語しない人物の心情やナレーションといった効果音である効果音字幕データと、発語字幕データをと区別することができる。

　以上のように、解析部６３により動画ファイルの字幕情報を解析することにより、字幕データを、効果音字幕データと発語字幕データに分けることができる。

　また、解析部６３は、音データを解析し、人物による発語の音データと効果音の音データとにわける。
　人物による発語の音データと効果音の音データとの分離は、例えば音量や周波数の違いなどを用いて行うことができる。その他、多数の発話の音データ、効果音の音データから構築された機械学習によるデータベースをもとに分離を行うことができる。

　振動生成部６４は、解析部６３による解析結果に基づいて振動信号を生成する。振動生成部６４は、人物による発語に対応する音データの波形を基にして発語に対応する振動信号を生成し、効果音に対応する音データの波形を基にして効果音に対応する振動信号を生成する。
　そして、本実施形態においては、振動生成部６４は、人物による発語に対応する振動信号を右手用振動デバイス４Ｒへ、効果音に対応する振動信号を左手用振動デバイス４Ｌへ出力する。振動生成部６４は、動画再生時、すなわち音データの再生時に、当該音データに対応する振動信号を出力する。

　振動信号の生成には、例えば特開２００８－２８３３０５号公報に記載される振動子（振動デバイス）を駆動するための振動信号の生成方法を用いることができる。より詳細には、音声データ再生中の音声信号の時間波形から、同じ時間における音声信号のスペクトログラムを得る。スペクトログラムは周波数に対する音声信号のスペクトルの時間変化を示したものであり、縦軸が周波数、横軸は時間を表す。スペクトログラムの広範囲にわたる周波数帯域で瞬時に生じる強いスペクトルの発生タイミングを抽出する。具体的にはスペクトルの時間微分を行い、その値、すなわちスペクトルの時間変化量が大きいタイミングを抽出し、時間微分値を強度として取得し、当該強度に応じた振幅で振動する波形を有する振動信号を生成する。このように生成する振動信号を基本設定による振動信号と称する。

　このように、音データの波形に基づいて振動信号が生成されるため、例えば人物の発語に対応する振動の場合、その振動は、人物の発語の抑揚、音量、発話速度等を反映したものとなる。したがって、視聴者は振動によって人物の心情等が想像しやすく、シーンの状況の理解をより深めることができ、視聴を補助することができる。
　同様に、効果音に対応する振動の場合では、音データの波形に基づいて生成された振動信号による振動は、例えば車のクラクション音や爆発音といった効果音の音量、音量の変化、音の継続時間等を反映したものとなる。したがって、視聴者は振動によって状況の理解をより深めることができ、視聴を補助することができる。

　更に、振動生成部６４は、字幕情報の解析結果に基づいて、基本設定による振動信号を調整して振動信号を生成してもよい。
　具体例として、振動生成部６４は、振動デバイス４において、人物の発語に対応する振動を基本設定による振動よりも弱くなるように、振動信号を調整して生成してもよく、更に、効果音に対応する振動が人物の発語に対応する振動よりも相対的に弱くなるように、振動信号を調整して生成してもよい。一般的に、人物の発語時間は長くなりやすく、これに対応して強い振動が長時間提示されると、視聴者にとって煩わしい場合がある。このため、例えば、人物の発語に対応する音データを基に上述のように生成した基本設定による振動信号を波形の振幅が小さくなるように調整して振動信号を生成することにより、より快適な視聴が可能となる。
　また、他の具体例として、振動生成部６４は、女性の発語に対応する振動の周波数が男性の発語に対応する振動の周波数よりも大きくなるように、基本設定による振動信号を調整して振動信号を生成してもよい。一般的に、成人女性は成人男性よりも声が高くなるため、振動数の多さによって、男女による会話シーンにおいて男女のうちどちらの発語に対応する振動であるかを直感的に把握することができる。

　また、字幕情報及び音情報に加え、コンテンツメタ情報を用いて振動信号が生成されてもよい。例えば、コンテンツメタ情報で種類がアクションである場合、人物の発語に対しては振動信号を生成せず、効果音に対してのみ振動信号を生成するようにしてもよい。これにより、動画全体にわたって、アクションシーンに応じたメリハリのある振動信号を提示することができる。

　[振動生成方法]
　次に、制御部６における振動生成方法について図３を用いて説明する。
　図３は振動生成方法の基本フロー図である。

　まず、取得部６２により、動画ファイルが取得され、動画が再生される（Ｓ１）。
　次に、解析部６３により、動画ファイルに含まれる字幕情報の有無が解析され（Ｓ２）、字幕情報があるかどうかが判定される（Ｓ３）。
　字幕情報の解析では、字幕情報の有無が判定される。更に、字幕情報がある場合は、解析部６３により、字幕情報に含まれる、画像上の字幕の表示位置情報、上記画像上に表示される記号情報、字幕の文字の書体情報、字幕の文字の色情報を用いて、字幕データは効果音字幕データと発語字幕データとに分けられる。また、複数の人物が会話するシーンの場合、括弧の位置によって会話での発語順に発語字幕データを区切る。

　字幕情報がないと判定されると（Ｎｏ）、Ｓ２に戻り、処理が繰り返される。字幕情報があると判定されると（Ｙｅｓ）、Ｓ４に進む。
　Ｓ４では、解析部６３により動画ファイルに含まれる音情報が解析される（Ｓ３）。
　解析部６３により、字幕情報の解析で効果音字幕データと発語字幕データが混在すると判断された場合、音情報解析により、効果音に対応する音データと人物の発語に対応する音データとが分離され、それぞれの音データは、効果音字幕データ、発語字幕データに対応づけされる。
　また、解析部６３により、字幕情報の解析で効果音字幕データ又は発語字幕データのいずれか一方のみが存在すると判断された場合、音データの分離作業は不要となり、字幕データは音データと対応づけされる。

　次に、振動生成部６４により、字幕情報及び音情報の解析結果に基づいて振動信号が生成され、振動デバイスへ出力される（Ｓ５）。すなわち、効果音に対応する音データの波形に基づいて効果音に対応する振動信号が生成され、発語に対応する音データの波形に基づいて発語に対応する振動信号が生成され、それぞれの振動信号が振動デバイスへ出力される。

　振動生成処理は、例えば、視聴者が、振動提示デバイスとして機能する情報処理装置１を把持したときに開始され、情報処理装置１を手から離したときに終了する。また、字幕が画面上に存在しない場合は、振動デバイス４Ｌ、４Ｒによる振動がオフ状態となるように制御される。

　次に、具体的な振動信号の生成方法の一例について図４を用いて説明する。
　ここでは、効果音に対応する振動が左手用振動デバイス４Ｌに出力され、発語に対応する振動が右手用振動デバイス４Ｒに出力される例をあげるが、効果音に対応する振動が右手用振動デバイス４Ｒに出力され、発語に対応する振動が左手用振動デバイス４Ｌに出力されるようにしてもよい。
　このように、効果音に対応する振動と人物の発語に対応する振動をそれぞれ互いに異なる振動デバイスで発生させることにより、視聴者はシーンの状況の把握をより深めることができる。

　図４は、２つの振動デバイス４Ｒ、４Ｌそれぞれを用いて振動を提示する場合の振動生成方法の一例のフロー図であり、図３のＳ５をより詳細に示した図である。図３で説明したステップと同様のステップについては同様のステップ名を付し、説明を省略する。図４におけるＳ５１～Ｓ５４が図３のＳ５に対応する。

　図４に示すように、Ｓ４の後、振動生成部６４により、解析結果を用いて、効果音及び人物の発語それぞれにおいて、音データの波形を基に振動信号が生成される（Ｓ５１）。より具体的には、解析により分離された効果音に対応する音データに対応する振動信号となる左手用振動信号と、発語に対応する音データに対応する振動信号となる右手用振動信号と、が生成される。

　次に、振動生成部６４により、生成された振動信号が効果音に対応するものか否かが判定される（Ｓ５２）。効果音であると（Ｙｅｓ）、Ｓ５３に進み、振動生成部６４により、効果音に対応する振動信号である左手用振動信号は左手用振動デバイス４Ｌに出力される。効果音でないと（Ｎｏ）、Ｓ５４に進み、振動生成部６４により、人物の発語に対応する振動信号である右手用振動信号は右手用振動デバイス４Ｒに出力される。
　これにより、入力された左手用振動信号に基づいて左手用振動デバイス４Ｌが駆動し、効果音に対応する振動がユーザに提示される。同様に、入力された右手用振動信号に基づいて右手用振動デバイス４Ｒが駆動し、効果音に対応する振動がユーザに提示される。

　例えば図５（Ａ）に示すワンシーン４０の例では、図５（Ｂ）に示すように、発語に対応する音データの波形を基に発語に対応する振動信号が生成され、効果音である警報機に対応する音データの波形を基に警報機に対応する振動信号が生成される。これら振動信号に基づいて、振動デバイス４Ｒ、４Ｌは駆動し視聴者に振動が提示される。
　尚、図５（Ｂ）において、「音」は音データを示し、「振動」は振動信号を示し、図６（Ｂ）、図７（Ｂ）においても同様である。

　また、図６（Ａ）に示すワンシーン４３の例では、図６（Ｂ）に示すように、男性、女性それぞれの発語に対応する音データの波形を基に発語に対応する振動信号が生成される。
　また、図７（Ａ）に示すワンシーン４５の例では、図７（Ｂ）に示すように、効果音であるクラクションに対応する音データの波形を基にクラクションに対応する振動信号が生成される。

　このように、発語に対応する音データを基に振動信号が生成され、視聴者に振動が提示されることにより、字幕情報だけでは読み取れない発語の抑揚、音量、発話速度等を触感で感じ取ることができ、人物の性格や心情などが想像しやすく、状況の理解を深めることができる。同様に、効果音においても、音量、音量変化、音の継続時間等を、振動で感じ取ることができ状況の理解を深めることができる。

　また、振動生成において、効果音に対応する振動が人物の発語に対応する振動よりも相対的に小さくするように調整して振動信号を生成してもよい。これにより、上述したように、快適な視聴が可能となる。

　また、振動生成において、字幕情報解析結果によって発語をする人物の性別が判定されている場合、振動生成部６４により、女性の発語に対応する振動の周波数を男性の発語に対応する振動の周波数よりも大きくなるように調整して振動信号が生成されてもよい。これにより、視聴者は、男女の会話のシーンにおいて振動提示をうけることによって直感的に男女のうちどちらの発語かを認識し易くなる。

　また、複数人物が会話するシーンにおいて、括弧によって会話での発語順に発語字幕データの区切りが解析されている場合、振動生成部６４は、そのシーンでは効果音に対応する振動を停止し、最初の発語に対応する振動を発する振動デバイスを限定し、それ以降は区切り毎に、交互に左右の振動デバイスを交互に振動させるようにしてもよい。
　例えば、２人の人物による会話のシーンでは、最初の発語に対応する振動は右手用振動デバイス４Ｒに出力し、２番目の発語に対応する振動は左手用振動デバイス４Ｌに出力するというように、左手用振動信号及び右手用振動信号を生成する。
　また、３人以上の人物による会話のシーンであれば、最初の発語に対応する振動は右手用振動デバイス４Ｒに出力、２番目の発語に対応する振動は左手用振動デバイス４Ｌ、３番目の発語に対応する振動は右手用振動デバイス４Ｒ、というように交互に振動デバイスを駆動するように、左手用振動信号及び右手用振動信号を生成する。
　これにより、視聴者は、会話のやり取りの間や各人物の発話速度を振動によって感じ取ることができ、シーンの状況の理解を深めることができる。

　このように、字幕情報解析により、複数の人物による会話シーンであると判断された場合は会話モードとし、それ以外の場合は通常モードとして振動信号が生成されてもよい。会話モードでは、効果音に対応する振動は停止し、会話の区切り毎に左右それぞれの振動デバイス４Ｌ、４Ｒへ交互に振動信号が出力される。通常モードでは、左手用振動デバイスに効果音に対応する振動信号が、右手用振動デバイスに人物の発語に対応する振動信号が出力される。

　尚、ここでは、振動デバイスが２つある場合を例にあげて説明したが、振動デバイスが１つでもよく、１つの振動デバイスが、発語に対応する振動信号と効果音に対応する振動信号それぞれに基づいて振動可能に構成されてもよい。
　この場合、発語に対応する振動と効果音に対する振動が同時に生じる場合、いずれか一方の振動を停止するようにしてもよい。どちらの振動を停止するかは、例えば、コンテンツメタ情報を用いて決定することができる。
　例えば、コンテンツメタ情報で種類がアクションである場合、人物の発語に対する振動は停止し、効果音に対する振動信号を出力するように構成する。これによりアクションシーンに応じたメリハリのある振動が提示され、状況把握がより深まる。

　本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　上述の実施形態においては、情報処理装置として、制御部の他、表示部及び振動デバイスを備える携帯電話を例にあげて説明したが、これに限定されない。情報処理装置は、少なくとも制御部と、外部機器と接続するための通信部を備えていればよい。
　例えば、上述の振動提示システムを映画館に適用し、表示部となるスクリーンと、振動デバイスを備えるイスや、視聴者が直接身に着けることができるアイウェアやベスト等を外部機器とし、当該外部機器と通信可能な情報処理装置としてもよい。イス、アイウェア、ベスト等に設ける振動デバイスは１つ以上あればよく、上述の実施形態の振動デバイスと同様に振動を提示させることができる。
　また、補聴器に振動デバイスを搭載し、これを、制御部を有する情報処理装置と通信可能な外部機器としてもよい。これにより、例えば補聴器のユーザが聴覚の低下が進んでいる場合にも、振動提示によってユーザに音声を喚起することができる。

　また、上述の実施形態においては、動画ファイルとして映画やドラマ等を想定して記載したが、例えばゲームの動画ファイルに本技術を適用することができる。例えば、ＲＰＧ（Role-Playing Game）ゲームやシミュレーション系のゲームの動画ファイルでは字幕情報及び音情報が入っているため、それらを用いて振動信号を生成してもよい。
　また、ＶＲ（Virtual Reality）コンテンツ等、音の位置情報を含む動画ファイルの再生において、音の位置情報を更に用いて、例えば、複数の振動デバイスのうちどの振動デバイスをどの振動信号で駆動させるかを決定するようにしてもよい。

　また、上述の実施形態においては、振動デバイスを２つ又は１つの場合について説明したが、３つ以上であってもよい。

　また、上述の実施形態においては、主に字幕情報及び音声情報を用いて振動を生成する例をあげたが、これに加えて、コンテンツメタ情報、映像情報、視聴者情報を用いて振動信号を生成してもよい。これにより、シーンの内容把握を補助するのに適した振動を提示することができる。

　コンテンツメタ情報を加味して振動信号を生成することにより、画像の内容の特徴に沿った振動を提示することができる。例えば、上述したように動画の種類がアクションという動画ファイルの再生において、人物による発語に対応する振動は発生させず、効果音に対応する振動のみを発生させることができる。

　また、映像情報を加味して振動信号を生成することによって、シーンの内容把握がより深いものとなる。例えば、図５（Ａ）に示すワンシーン４０において、映像情報を用いて頭を抱える人物を検出し、この人物が悲しんでいる様子であると認識することによって、この人物による発語に対応する振動が基本設定よりも小さくなるように振動信号を生成してもよい。これにより、人物の悲しい様子を振動によってより把握することができる。

　また、視聴者情報を加味して振動信号を生成することにより、視聴者にとってより好ましい振動を提示することができる。上述したように、視聴者情報には、ユーザである視聴者の属性情報と視聴環境情報が含まれる。視聴者の属性情報は、視聴者の難聴状況、年齢、振動の好み等がある。
　視聴者の難聴状況によって、例えば、全く聞こえない場合は、少し聞こえる場合よりも振動をより強くするなどの振動の強弱の調整ができる。
　また、一般に、高齢者は、老化により聴覚が低下し、また、振動の知覚が低下する。このため視聴者が高齢であれば振動を強めにする等、年齢情報を用いて振動の強弱を調整することができる。
　また、振動の強弱の好みは個人差があるため、視聴者が振動の好みを設定することによってより好ましい振動を提示することができる。
　また、視聴者環境情報において、一般的に屋外は屋内よりも騒がしい環境であるので、屋外では振動を屋内でよりも振動を強く調整するなどして、視聴する環境に適した振動を視聴者に提示することができる。
　これらの視聴者情報を総合的に判断して振動の強弱の調整が行われてもよい。

　また、上述の実施形態では、皮膚感覚提示として振動感覚を提示する例をあげて説明したが、他の皮膚感覚として、温かい、冷たいといった温度感覚、押さえられた感じの圧感覚などをユーザに提示するように構成してもよい。この場合、温感、冷感、圧感といった感覚を提示するデバイスが用いられる。
　例えば、字幕情報、音声情報に加え映像情報を用いて皮膚感覚提示を生成する際、字幕情報や音声情報の解析により火事、火、炎等の言語が含まれ、更に、映像情報解析により画像が炎で赤くなっている場合、温感提示デバイスにより、ユーザに対して温かい温度感覚を提示することができる。
　また、皮膚感覚提示として、送風デバイスや水が吐出可能なデバイスなどを用いてユーザにむけて風や水を発することによって、風感覚や水感覚などをユーザに提示してもよい。
　また、振動感覚、温度感覚、圧感覚、風感覚、水感覚などから２つ以上くみあわせて複数の感覚を提示できるように構成してもよい。

　なお、本技術は以下のような構成もとることができる。

　（１）
　効果音を文字情報で示す効果音字幕データと人物の発語を文字情報で示す発語字幕データを含む字幕データを有する字幕情報と音データを含む音情報とを含む動画ファイルの、上記字幕情報及び上記音情報を解析した解析結果を用いて、上記音データの波形を基に、上記効果音字幕データに対応する振動信号及び上記発語字幕データに対応する振動信号のうち少なくとも１つを生成する制御部
　を具備する情報処理装置。
　（２）
　上記（１）に記載の情報処理装置であって、
　上記制御部は、上記音データを、上記効果音字幕データに対応する音データと上記発語字幕データに対応する音データとに分け、それぞれの音データの波形を基に、上記効果音字幕データに対応する振動信号と上記発語字幕データに対応する振動信号を生成する
　情報処理装置。
　（３）
　上記（２）に記載の情報処理装置であって、
　上記制御部は、上記字幕情報に含まれる、画像上の字幕の表示位置情報、上記画像上に表示される記号情報、字幕の文字の書体情報、字幕の文字の色情報のうち少なくとも１つを用いて、上記字幕データが、上記効果音字幕データか、或いは、上記発語字幕データかを判断する
　情報処理装置。
　（４）
　上記（１）又は（２）に記載の情報処理装置であって、
　上記字幕情報が複数の人物による会話シーンに対応する字幕情報を含む場合、上記制御部は、上記複数の人物による会話シーンにおいて、上記字幕情報を用いて、上記会話での発語順に上記発語字幕データを区切り、それぞれに対応して上記振動信号を生成する
　情報処理装置。
　（５）
　上記（３）に記載の情報処理装置であって、
　上記制御部は、上記効果音に対応する振動信号と、上記人物の発語に対応する振動信号とを、双方の振動信号に基づく振動の大きさが相対的に異なるように、振動信号を生成する
　情報処理装置。
　（６）
　上記（１）～（４）のいずれか１つに記載の情報処理装置であって、
　上記動画ファイルにはコンテンツメタ情報が含まれ、
　上記制御部は、上記コンテンツメタ情報を加味して、上記振動信号を生成する
　情報処理装置。
　（７）
　上記（１）～（６）のいずれか１つに記載の情報処理装置であって、
　上記制御部は、上記ユーザに関する情報を加味して、上記振動信号を生成する
　情報処理装置。
　（８）
　上記（１）～（７）のいずれか１つに記載の情報処理装置であって、
　上記振動信号に基づいて上記ユーザに対して振動を提示する振動提示部
　を更に具備する情報処理装置。
　（９）
　上記（８）に記載の情報処理装置であって、
　上記振動提示部を複数具備する
　情報処理装置。
　（１０）
　上記（９）に記載の情報処理装置であって、
　上記制御部は、上記字幕情報及び上記音情報を解析した解析結果を用いて、上記効果音字幕データに対応する振動信号と上記発語字幕データに対応する振動信号を生成し、それぞれの振動信号を、互いに異なる複数の上記振動提示部それぞれに出力する
　情報処理装置。
　（１１）
　効果音を文字情報で示す効果音字幕データと人物の発語を文字情報で示す発語字幕データを含む字幕データを有する字幕情報と音データを含む音情報とを含む動画ファイルの、上記字幕情報及び上記音情報を解析した解析結果を用いて、上記音データの波形を基に、上記効果音字幕データに対応する振動信号及び上記発語字幕データに対応する振動信号のうち少なくとも１つを生成する
　情報処理方法。
　（１２）
　効果音を文字情報で示す効果音字幕データと人物の発語を文字情報で示す発語字幕データを含む字幕データを有する字幕情報と音データを含む音情報とを含む動画ファイルの、上記字幕情報及び上記音情報を解析するステップと、
　解析結果を用いて、上記音データの波形を基に、上記効果音字幕データに対応する振動信号及び上記発語字幕データに対応する振動信号のうち少なくとも１つを生成するステップ
　を含む処理を情報処理装置に実行させるためのプログラム。

　１…情報処理装置
　６…制御部
　４２、４４、５２、５５…発語字幕データ
　４１、４６、４８、５１、５４、５６…効果音字幕データ

Claims

　効果音を文字情報で示す効果音字幕データと人物の発語を文字情報で示す発語字幕データを含む字幕データを有する字幕情報と音データを含む音情報とを含む動画ファイルの、前記字幕情報及び前記音情報を解析した解析結果を用いて、前記音データの波形を基に、前記効果音字幕データに対応する振動信号及び前記発語字幕データに対応する振動信号のうち少なくとも１つを生成する制御部
　を具備する情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記制御部は、前記音データを、前記効果音字幕データに対応する音データと前記発語字幕データに対応する音データとに分け、それぞれの音データの波形を基に、前記効果音字幕データに対応する振動信号と前記発語字幕データに対応する振動信号を生成する
　情報処理装置。
　請求項２に記載の情報処理装置であって、
　前記制御部は、前記字幕情報に含まれる、画像上の字幕の表示位置情報、前記画像上に表示される記号情報、字幕の文字の書体情報、字幕の文字の色情報のうち少なくとも１つを用いて、前記字幕データが、前記効果音字幕データか、或いは、前記発語字幕データかを判断する
　情報処理装置。
　請求項３に記載の情報処理装置であって、
　前記字幕情報が複数の人物による会話シーンに対応する字幕情報を含む場合、前記制御部は、前記複数の人物による会話シーンにおいて、前記字幕情報を用いて、前記会話での発語順に前記発語字幕データを区切り、それぞれに対応して前記振動信号を生成する
　情報処理装置。
　請求項３に記載の情報処理装置であって、
　前記制御部は、前記効果音に対応する振動信号と、前記人物の発語に対応する振動信号とを、双方の振動信号に基づく振動の大きさが相対的に異なるように、振動信号を生成する
　情報処理装置。
　請求項３に記載の情報処理装置であって、
　前記動画ファイルにはコンテンツメタ情報が含まれ、
　前記制御部は、前記コンテンツメタ情報を加味して、前記振動信号を生成する
　情報処理装置。
　請求項３に記載の情報処理装置であって、
　前記制御部は、前記ユーザに関する情報を加味して、前記振動信号を生成する
　情報処理装置。
　請求項３に記載の情報処理装置であって、
　前記振動信号に基づいて前記ユーザに対して振動を提示する振動提示部
　を更に具備する情報処理装置。
　請求項８に記載の情報処理装置であって、
　前記振動提示部を複数具備する
　情報処理装置。
　請求項９に記載の情報処理装置であって、
　前記制御部は、前記字幕情報及び前記音情報を解析した解析結果を用いて、前記効果音字幕データに対応する振動信号と前記発語字幕データに対応する振動信号を生成し、それぞれの振動信号を、互いに異なる複数の前記振動提示部それぞれに出力する
　情報処理装置。
　効果音を文字情報で示す効果音字幕データと人物の発語を文字情報で示す発語字幕データを含む字幕データを有する字幕情報と音データを含む音情報とを含む動画ファイルの、前記字幕情報及び前記音情報を解析した解析結果を用いて、前記音データの波形を基に、前記効果音字幕データに対応する振動信号及び前記発語字幕データに対応する振動信号のうち少なくとも１つを生成する
　情報処理方法。
　効果音を文字情報で示す効果音字幕データと人物の発語を文字情報で示す発語字幕データを含む字幕データを有する字幕情報と音データを含む音情報とを含む動画ファイルの、前記字幕情報及び前記音情報を解析するステップと、
　解析結果を用いて、前記音データの波形を基に、前記効果音字幕データに対応する振動信号及び前記発語字幕データに対応する振動信号のうち少なくとも１つを生成するステップ
　を含む処理を情報処理装置に実行させるためのプログラム。