WO2020066660A1

WO2020066660A1 - 情報処理方法、情報処理装置およびプログラム

Info

Publication number: WO2020066660A1
Application number: PCT/JP2019/035902
Authority: WO
Inventors: 直之安立; 克己石川; 康之介加藤; 祐二小池; 謙一良齋藤
Original assignee: ヤマハ株式会社
Priority date: 2018-09-27
Filing date: 2019-09-12
Publication date: 2020-04-02
Also published as: JP2020053832A

Abstract

情報処理装置は、動画の時間長に応じて上限文字数を設定し、前記動画に付加される音声を表す文字の入力を受付け、前記文字の個数である入力文字数と前記上限文字数とに応じた利用者に対する報知動作を実行する。

Description

情報処理方法、情報処理装置およびプログラム

　本開示は、動画を処理する技術に関する。

　端末装置を利用して動画像を収録する技術が従来から提案されている。例えば特許文献１には、複数のシーンで構成されるコンテンツを生成するために、各シーンをビデオカメラで撮影する技術が開示されている。

特開２００４－３２２７７号公報

　撮影済の動画に音声（ナレーション）を付加する場面が想定される。音声を収録する作業は煩雑であるから、利用者が指定した文字に応じた音声を公知の音声合成技術により生成することが要求される。しかし、利用者が入力した文字に対応した音声が、動画の時間長に対して適切であるか否かを利用者は把握できない。したがって、音声合成技術により生成された音声が実際には動画よりも長時間におよび、動画に対して音声を適切に付加できないといった事態が想定される。以上の事情を考慮して、本開示のひとつの態様は、動画の時間長に対して適切な時間長の音声を合成するための文字数を利用者が把握できるようにすることを目的とする。

　以上の課題を解決するために、本開示のひとつの態様に係る情報処理方法は、動画の時間長に応じて上限文字数を設定し、前記動画に付加される音声を表す文字の入力を受付け、前記文字の個数である入力文字数と前記上限文字数とに応じた利用者に対する報知動作を実行する。

　本開示のひとつの態様に係る情報処理装置は、動画の時間長に応じて上限文字数を設定する上限設定部と、前記動画に付加される音声を表す文字の入力を受付ける入力受付部と、前記文字の個数である入力文字数と前記上限文字数とに応じた利用者に対する報知動作を実行する報知処理部とを具備する。

　本開示のひとつの態様に係るプログラムは、動画の時間長に応じて上限文字数を設定する上限設定部、前記動画に付加される音声を表す文字の入力を受付ける入力受付部、および、前記文字の個数である入力文字数と前記上限文字数とに応じた利用者に対する報知動作を実行する報知処理部としてコンピュータを機能させる。

第１実施形態における情報処理装置の構成を例示するブロック図である。動画と付加音声との関係を例示する模式図である。制御装置が実行する処理の具体的な手順を例示するフローチャートである。制御装置が実行する処理の具体的な手順を例示するフローチャートである。収録画面を例示する模式図である。収録画面を例示する模式図である。第２実施形態における制御装置が実行する処理の具体的な手順を例示するフローチャートである。第２実施形態における収録画面を例示する模式図である。第２実施形態の変形例における上限文字数および入力文字数の表示例である。

＜第１実施形態＞
　図１は、本開示の第１実施形態に係る情報処理装置１００の構成を例示するブロック図である。情報処理装置１００は、コンテンツを構成する動画を収録するためのコンピュータシステムである。例えば、携帯電話機、スマートフォン、タブレット端末、またはパーソナルコンピュータ等の情報端末が、情報処理装置１００として利用される。第１実施形態では、例えば企業を紹介するコンテンツまたは人材募集のためのコンテンツなど、企業に関する各種のコンテンツを想定する。企業を紹介するコンテンツとしては、例えば企業自体を紹介するコンテンツのほか、企業が取扱う製品を紹介するコンテンツ、または、企業が開発した技術を紹介するコンテンツなどが想定される。もっとも、コンテンツの内容は以上の例示に限定されない。

　図１に例示される通り、第１実施形態の情報処理装置１００は、制御装置１１と記憶装置１２と通信装置１３と表示装置１４と入力装置１５と収録装置１６と放音装置１７とを具備する。制御装置１１は、情報処理装置１００の各要素を制御する単数または複数のプロセッサで構成される。例えば、制御装置１１は、ＣＰＵ（Central Processing Unit）またはＦＰＧＡ（Field Programmable Gate Array）等の１種類以上のプロセッサで構成される。なお、制御装置１１の一部の機能を専用の電子回路で実現してもよい。また、制御装置１１の機能を複数の装置に搭載してもよい。

　通信装置１３は、移動体通信網またはインターネット等を含む通信網２００を介して編集装置３００および音声合成装置４００と通信する。具体的には、通信装置１３は、動画を含むデータ（以下「素材データ」という）を編集装置３００に送信する。編集装置３００は、情報処理装置１００から受信した素材データを編集することで１個のコンテンツを生成するサーバ装置である。例えば自動または手動による編集でコンテンツが生成される。編集装置３００が生成したコンテンツは情報処理装置１００に提供される。なお、情報処理装置１００が素材データからコンテンツを生成してもよい。

　表示装置１４は、制御装置１１による制御のもとで各種の画像を表示する。例えば液晶表示パネルが表示装置１４として利用される。表示装置１４は、例えば複数の動画を収録するための画面、および、編集装置３００が生成したコンテンツの各動画を表示する。入力装置１５は、利用者による操作を受付ける。例えば、利用者が操作する操作子、または表示装置１４と一体に構成されたタッチパネルが、入力装置１５として利用される。また、音声入力が可能な収音装置を入力装置１５として利用してもよい。放音装置１７（例えばスピーカまたはヘッドホン）は、制御装置１１による制御のもとで音響を放射する。

　収録装置１６は、動画Ｍを収録する画像入力機器である。具体的には、収録装置１６は、撮影レンズ等の光学系からの入射光を電気信号に変換する撮像装置を具備する。第１実施形態では、収録装置１６により収録された動画Ｍが音響を含まない場合を例示する。ただし、周囲の音響を収音する収音装置を収録装置１６に搭載し、音響と映像の双方を含む動画Ｍを収録してもよい。収録装置１６が収録した動画Ｍは、任意の形式の動画データで表現される。なお、情報処理装置１００とは別体の収録装置１６を有線または無線により情報処理装置１００に接続してもよい。

　記憶装置１２は、制御装置１１が実行するプログラムと制御装置１１が使用する各種のデータとを記憶する単数または複数のメモリである。例えば収録装置１６が収録した動画Ｍが記憶装置１２に記憶される。半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置１２として任意に採用される。なお、情報処理装置１００に対して着脱可能な可搬型の記録媒体、または情報処理装置１００が通信可能な外部記録媒体（例えばオンラインストレージ）を、記憶装置１２として利用してもよい。すなわち、記憶装置１２は情報処理装置１００から省略され得る。

　第１実施形態の制御装置１１は、記憶装置１２に記憶されたプログラムを実行することで収録処理を実行する。収録処理は、動画Ｍを収録するとともに、当該動画Ｍに付加される音声（以下「付加音声」という）Ｖを生成する処理である。付加音声Ｖは、図２に例示される通り、動画Ｍに並行して再生される音声（例えばナレーション）である。具体的には、動画Ｍ内の特定の期間（以下「付加期間」という）Ｑ内に付加音声Ｖが再生される。付加期間Ｑは、動画Ｍが再生される期間のうち先頭の所定長の期間ｑ1と末尾の所定長の期間ｑ2とを除外した期間である。期間ｑ1は、例えば動画Ｍの開始を印象付ける音楽等の所定の音響が再生される期間、または、直前の動画Ｍとの連結に使用される期間である。また、期間ｑ2は、例えば動画Ｍの終了を印象付ける音楽等の所定の音響が再生される期間、または、直後の動画Ｍとの連結に使用される期間である。

　図３および図４は、制御装置１１が実行する収録処理の具体的な手順を例示するフローチャートである。例えば、入力装置１５に対する利用者からの指示を契機として収録処理が開始される。

　収録処理を開始すると、制御装置１１は、図５の収録画面Ｇを表示装置１４に表示させる（Ｓa1）。図５に例示される通り、収録画面Ｇは、撮影領域Ｒ1と入力領域Ｒ2とを含んで構成される。撮影領域Ｒ1は、収録装置１６が収録した動画Ｍ（具体的には撮像装置が撮像する映像）が表示される領域である。入力領域Ｒ2は、付加音声Ｖを表す文字Ｃを利用者が入力するための領域である。文字Ｃは、例えば日本語であれば漢字または平仮名であり、英語であればアルファベットである。

　制御装置１１は、利用者からの指示に応じて収録装置１６により動画Ｍを収録する（Ｓa2）。具体的には、制御装置１１は、利用者からの開始の指示に応じて収録装置１６に動画Ｍの収録を開始させ、利用者からの終了の指示に応じて動画Ｍの収録を終了させる。したがって、動画Ｍの時間長Ｔは、利用者からの指示に応じた可変値である。

　制御装置１１は、動画Ｍの時間長Ｔに応じて上限文字数Ｘを設定する（Ｓa3）。上限文字数Ｘは、付加音声Ｖを表す文字Ｃの個数（以下「入力文字数」という）Ｙの上限値である。第１実施形態の上限文字数Ｘは、動画Ｍのうち付加期間Ｑの時間長Ｔqに応じて可変に設定される。具体的には、付加期間Ｑの時間長Ｔqが長い（すなわち動画Ｍの時間長Ｔが長い）ほど上限文字数Ｘは大きい数値となる。以上の説明から理解される通り、制御装置１１は、動画Ｍの時間長Ｔに応じて上限文字数Ｘを設定する要素（上限設定部）として機能する。

　第１実施形態では、付加期間Ｑ内に所定の話速（以下「基準話速」という）Ｐで発話される文字数が上限文字数Ｘとして設定される。基準話速Ｐは、単位時間（例えば１分間）内に発話される標準的な文字数である。例えば、基準話速Ｐは３００文字／分に設定される。具体的には、制御装置１１は、付加期間Ｑの時間長Ｔq（単位：分）と基準話速Ｐとの乗算値を上限文字数Ｘとして設定する（Ｘ＝Ｐ・Ｔq）。以上の構成によれば、動画の時間長に対して妥当性が高い適切な上限文字数Ｘを設定することが可能である。

　動画Ｍの収録が完了すると、利用者は、入力装置１５を操作することで所望の文字Ｃを入力領域Ｒ2に順次に入力する。制御装置１１は、利用者による文字Ｃの入力を受付ける（Ｓa4）。すなわち、制御装置１１は、付加音声Ｖを表す文字Ｃの入力を受付ける要素（入力受付部）として機能する。

　制御装置１１は、利用者による入力済の文字Ｃの個数である入力文字数Ｙと動画Ｍについて設定した上限文字数Ｘとを比較し、入力文字数Ｙが上限文字数Ｘを超過したか否かを判定する（Ｓa5）。入力文字数Ｙが上限文字数Ｘを超過した場合（Ｓa5：YES）、制御装置１１は、入力文字数Ｙの超過を利用者に報知する（Ｓa6）。具体的には、制御装置１１は、図６に例示される通り、入力文字数Ｙの超過を警告する「入力文字数が上限値を超えました」等のメッセージＷを表示装置１４に表示させる。以上の報知を認識すると、利用者は、入力済の文字Ｃの削除など入力文字数Ｙを削減するための作業を実行する。他方、入力文字数Ｙが上限文字数Ｘを下回る場合（Ｓa5：NO）、利用者に対する報知（Ｓa6）は実行されない。

　入力文字数Ｙが上限文字数Ｘを超過したか否かを判定する処理（Ｓa5）と、入力文字数Ｙの超過を利用者に報知する処理（Ｓa6）とは、入力文字数Ｙと上限文字数Ｘとに応じた報知動作Ｎの例示である。以上の説明から理解される通り、制御装置１１は、入力文字数Ｙと上限文字数Ｘとに応じた報知動作Ｎを実行する要素（報知処理部）として機能する。

　利用者は、収録画面Ｇの操作子Ｂ1を操作することで、入力済の文字Ｃの時系列（以下「入力文字列」という）に対応する付加音声Ｖの再生を指示することが可能である。図４に例示される通り、付加音声Ｖの再生が指示されると（Ｓa7：YES）、制御装置１１は、付加音声Ｖを再生するための処理（Ｓa8，Ｓa9）を実行する。第１実施形態の制御装置１１は、入力文字列に対応する付加音声Ｖを音声合成装置４００から取得する（Ｓa8）。具体的には、制御装置１１は、入力文字列を通信装置１３から音声合成装置４００に送信し、音声合成装置４００が生成した付加音声Ｖを通信装置１３により受信する。そして、制御装置１１は、音声合成装置４００から取得した付加音声Ｖを放音装置１７に再生させる（Ｓa9）。他方、付加音声Ｖの再生が指示されない場合（Ｓa7：NO）、付加音声Ｖは再生されない。

　音声合成装置４００は、情報処理装置１００から受信した入力文字列に対応した付加音声Ｖを生成するサーバ装置である。付加音声Ｖの生成には公知の音声合成技術（ＴＴＳ：Text To Speech）が任意に採用される。例えば、複数の音声素片の接続により付加音声Ｖを生成する素片接続型の音声合成、または、隠れマルコフモデル等の統計モデルを利用して付加音声Ｖを生成する統計モデル型の音声合成が、付加音声Ｖの生成に利用される。付加音声Ｖは、ＭＰ３（MPEG-1 Audio Layer-3）等の任意の形式のデータで表現される。音声合成装置４００は、合成済の付加音声Ｖを情報処理装置１００に送信する。以上の手順で付加音声Ｖが生成されると、制御装置１１は、当該付加音声Ｖの再生時間Ｔvを表示装置１４に表示させる（Ｓa10）。なお、情報処理装置１００の制御装置１１が、音声合成技術により入力文字列から付加音声Ｖを生成してもよい。

　利用者は、収録画面Ｇの操作子Ｂ2を操作することで、入力文字列の確定を指示することが可能である。入力文字列の確定が指示されていない場合（Ｓa11：NO）、制御装置１１は、処理をステップＳa4に移行して、文字Ｃの入力の受付（Ｓa4）と報知動作Ｎ（Ｓa5，Ｓa6）と付加音声Ｖの再生（Ｓa7－Ｓa9）とを反復する。他方、入力文字列の確定が指示されると（Ｓa11：YES）、制御装置１１は、現時点の入力文字列について付加音声Ｖの再生（Ｓa8，Ｓa9）が実行済であるか否かを判定する（Ｓa12）。付加音声Ｖが未再生である場合（Ｓa12：NO）、制御装置１１は、「音声を再生してからＯＫを操作して下さい」等のメッセージを表示装置１４に表示したうえで、処理をステップＳa4に移行する。他方、付加音声Ｖが再生済である場合（Ｓa12：YES）、制御装置１１は、現時点の内容で入力文字列を確定したうえでステップＳa13に処理を進行させる。以上の説明から理解される通り、付加音声Ｖの再生を条件として入力文字列の確定が許可される。すなわち、入力文字列の確定前に、利用者は必ず付加音声Ｖを実際に聴取する。したがって、付加音声Ｖの聴感的な印象または再生時間Ｔvが利用者の認識から乖離する可能性を未然に防止できる。

　利用者は、収録画面Ｇの操作子Ｂ3を操作することで、動画Ｍの再生を指示することが可能である。動画Ｍの再生が指示されると（Ｓa13：YES）、制御装置１１は、収録装置１６が収録した動画Ｍと音声合成装置４００が生成した付加音声Ｖとを再生する（Ｓa14）。具体的には、表示装置１４による動画Ｍの表示と放音装置１７による付加音声Ｖの放音とが並行に実行される。付加音声Ｖは動画Ｍの付加期間Ｑ内で再生される。他方、動画Ｍの再生が指示されていない場合（Ｓa13：N0）、動画Ｍおよび付加音声Ｖは再生されない。

　制御装置１１は、収録処理の終了が利用者から指示されたか否かを判定する（Ｓa15）。収録処理の終了が指示されていない場合（Ｓa15：NO）、制御装置１１は、処理をステップＳa4に移行する。すなわち、文字Ｃの入力の受付（Ｓa4）と報知動作Ｎ（Ｓa5，Ｓa6）と付加音声Ｖの再生（Ｓa7－Ｓa9）と動画Ｍの再生（Ｓa13，Ｓa14）とが反復される。他方、収録処理の終了が指示された場合（Ｓa15：YES）、制御装置１１は、動画Ｍと付加音声Ｖとを含む素材データを通信装置１３から編集装置３００に送信する（Ｓa16）。編集装置３００は、動画Ｍおよび付加音声Ｖを適宜に調整したうえで、動画Ｍの付加期間Ｑに付加音声Ｖが付加されたコンテンツを生成する。

　以上に説明した通り、第１実施形態では、上限文字数Ｘと入力文字数Ｙとに応じた報知動作Ｎが実行されるから、動画Ｍの時間長Ｔに対して適切な時間長の付加音声Ｖを合成するための入力文字数Ｙを利用者が把握できるという利点がある。第１実施形態では特に、入力文字数Ｙが上限文字数Ｘを超過した場合に、入力文字数Ｙの超過が利用者に報知されるから、入力文字数Ｙの超過を利用者が容易に把握できるという利点がある。

＜第２実施形態＞
　本開示の第２実施形態を説明する。なお、以下の各例示において機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

　図７は、第２実施形態における収録処理の部分的なフローチャートである。第２実施形態の制御装置１１は、第１実施形態における図３の処理に代えて図７の処理を実行する。第１実施形態では、入力文字数Ｙの超過の有無を判定する処理（Ｓa5）と当該超過を利用者に報知する処理（Ｓa6）とを報知動作Ｎとして例示した。図７に例示される通り、第２実施形態の制御装置１１は、上限文字数Ｘと入力文字数Ｙとを表示装置１４に表示させる処理を、報知動作Ｎとして実行する（Ｓb）。具体的には、制御装置１１は、図８に例示される通り、上限文字数Ｘに対する入力文字数Ｙの比λ（λ＝Ｙ／Ｘ）を入力領域Ｒ2に表示させる。報知動作Ｎ以外の動作は第１実施形態と同様である。

　第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態では、上限文字数Ｘと入力文字数Ｙとが表示装置１４に表示されるから、上限文字数Ｘに対して入力文字数Ｙがどの程度の割合にあるのか（すなわち、あとどれ位の文字Ｃを入力できるのか）を利用者が容易に把握できるという利点がある。

　なお、図８においては、上限文字数Ｘおよび入力文字数Ｙの数値を表示装置１４に表示したが、上限文字数Ｘと入力文字数Ｙとを図式的に表示してもよい。例えば、図９に例示される通り、上限文字数Ｘと入力文字数Ｙとを棒グラフで表示してもよい。

＜変形例＞
　以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された複数の態様を、相互に矛盾しない範囲で適宜に併合してもよい。

（１）前述の各形態では、動画Ｍの再生期間のうち先頭の期間ｑ1と末尾の期間ｑ2とを除外した付加期間Ｑの時間長Ｔqに応じて上限文字数Ｘを設定したが、付加期間Ｑの確定の仕方は以上の例示に限定されない。例えば、動画Ｍの再生期間から期間ｑ1と期間ｑ2とを除外する必要はなく、当該再生期間の全体を付加期間Ｑとして上限文字数Ｘを設定してもよい。動画Ｍの再生期間から期間ｑ1および期間ｑ2の一方を除外した期間を付加期間Ｑとしてもよい。

（２）前述の各形態では、時間軸上で連続する１個の付加音声Ｖを動画Ｍに付加する場合を例示したが、動画Ｍの再生期間内に複数の付加期間Ｑを画定し、各付加期間Ｑに別個の付加音声Ｖを付加してもよい。すなわち、複数の付加音声Ｖを１個の動画Ｍに付加してもよい。上限文字数Ｘは、動画Ｍの再生期間内における複数の付加期間Ｑの時間長の合計に応じて設定される。付加期間Ｑ毎に上限文字数Ｘを個別に設定してもよい。

（３）前述の各形態では、表示装置１４が表示する画像により入力文字数Ｙの超過を利用者に報知したが、入力文字数Ｙの超過を利用者に報知する方法は以上の例示に限定されない。例えば入力文字数Ｙの超過を音声により報知する構成が想定される。具体的には、例えば「入力文字数が上限値を超えました」等のメッセージを表す音声を放音装置１７から放音してもよい。

（４）前述の各形態では、動画Ｍと付加音声Ｖとを含む素材データを編集装置３００に送信したが、付加音声Ｖに代えて（または付加音声Ｖとともに）、入力文字列を、動画Ｍとともに編集装置３００に送信してもよい。編集装置３００においては、入力文字列から付加音声Ｖが合成される。また、特定の発声者が入力文字列を発音した音声を編集装置３００が付加音声Ｖとして収録してもよい。以上の説明から理解される通り、入力文字列に応じた付加音声Ｖの合成は省略され得る。

（５）前述の各形態では、動画Ｍに付加音声Ｖを付加する場合を例示したが、所定の時間にわたる静止画の表示に並行して付加音声Ｖを再生する場合にも、本開示を適用できる。具体的には、静止画を表示する時間長Ｔに応じて上限文字数Ｘが設定される。以上の説明から理解される通り、本開示のひとつの態様における「動画」は、付加音声Ｖに並行して再生される画像を意味し、被写体が動的に変化する狭義の動画のほか、所定長にわたり継続して表示される静止画も含む概念である。

（６）前述の各形態に係る情報処理装置１００の機能は、各形態での例示の通り、制御装置１１等の処理回路とプログラムとの協働により実現される。前述の各形態に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、通信網を介した配信の形態でプログラムをコンピュータに提供してもよい。

＜付記＞
　以上に例示した形態から、例えば以下の構成が把握される。

　本開示のひとつの態様（第１態様）に係る情報処理方法は、動画の時間長に応じて上限文字数を設定し、前記動画に付加される音声を表す文字の入力を受付け、前記文字の個数である入力文字数と前記上限文字数とに応じた利用者に対する報知動作を実行する。以上の態様によれば、上限文字数と入力文字数とに応じた報知動作が実行されるから、動画の時間長に対して適切な時間長の音声を合成するための文字数を利用者が把握できるという利点がある。

　第１態様の具体例（第２態様）において、前記上限文字数の設定では、前記動画のうち当該動画の時間長に応じた付加期間内に所定の話速で発話される文字数を、前記上限文字数として算定する。以上の態様によれば、動画の時間長に対して妥当性が高い適切な上限文字数を設定できる。

　第１態様または第２態様の具体例（第３態様）において、前記報知動作は、前記入力文字数が前記上限文字数を超過した場合に、当該入力文字数の超過を前記利用者に報知する動作である。以上の態様によれば、入力文字数の過多を利用者が容易に把握できるという利点がある。

　第１態様から第３態様の何れかの具体例（第４態様）において、前記報知動作は、前記上限文字数と前記入力文字数とを表示装置に表示させる動作である。以上の態様によれば、上限文字数に対して入力文字数がどの程度にあるのかを利用者が把握できるという利点がある。

　本開示のひとつの態様（第５態様）に係る情報処理装置は、動画の時間長に応じて上限文字数を設定する上限設定部と、前記動画に付加される音声を表す文字の入力を受付ける入力受付部と、前記文字の個数である入力文字数と前記上限文字数とに応じた利用者に対する報知動作を実行する報知処理部とを具備する。

　本開示のひとつの態様（第６態様）に係るプログラムは、動画の時間長に応じて上限文字数を設定する上限設定部、前記動画に付加される音声を表す文字の入力を受付ける入力受付部、および、前記文字の個数である入力文字数と前記上限文字数とに応じた利用者に対する報知動作を実行する報知処理部としてコンピュータを機能させる。

１００…情報提供装置、１１…制御装置、１２…記憶装置、１３…通信装置、１４…表示装置、１５…入力装置、１６…収録装置、１７…放音装置、２００…通信網、３００…編集装置、４００…音声合成装置。

Claims

　動画の時間長に応じて上限文字数を設定し、
　前記動画に付加される音声を表す文字の入力を受付け、
　前記文字の個数である入力文字数と前記上限文字数とに応じた利用者に対する報知動作を実行する
　コンピュータにより実現される情報処理方法。
　前記上限文字数の設定においては、前記動画のうち当該動画の時間長に応じた付加期間内に所定の話速で発話される文字数を、前記上限文字数として算定する
　請求項１の情報処理方法。
　前記報知動作は、前記入力文字数が前記上限文字数を超過した場合に、当該入力文字数の超過を前記利用者に報知する動作である
　請求項１または請求項２の情報処理方法。
　前記報知動作は、前記上限文字数と前記入力文字数とを表示装置に表示させる動作である
　請求項１から請求項３の何れかの情報処理方法。
　動画の時間長に応じて上限文字数を設定する上限設定部と、
　前記動画に付加される音声を表す文字の入力を受付ける入力受付部と、
　前記文字の個数である入力文字数と前記上限文字数とに応じた利用者に対する報知動作を実行する報知処理部と
　を具備する情報処理装置。
　動画の時間長に応じて上限文字数を設定する上限設定部、
　前記動画に付加される音声を表す文字の入力を受付ける入力受付部、および、
　前記文字の個数である入力文字数と前記上限文字数とに応じた利用者に対する報知動作を実行する報知処理部
　としてコンピュータを機能させるプログラム。