WO2021157192A1

WO2021157192A1 - 制御装置及び制御方法、コンピュータプログラム、並びにコンテンツ再生システム

Info

Publication number: WO2021157192A1
Application number: PCT/JP2020/046052
Authority: WO
Inventors: 浩明小川; ミヒャエルヘンチェル; 典子戸塚; 知香明賀; 康治浅野; 眞大山本; 匡伸中村; 智恵山田; 高橋　晃; 加奈西川
Original assignee: ソニーグループ株式会社
Priority date: 2020-02-04
Filing date: 2020-12-10
Publication date: 2021-08-12

Abstract

映像及び音声コンテンツの再生装置において字幕の表示を制御する制御装置を提供する。　制御装置は、音声の性質を評価する評価部と、前記評価部の評価結果に基づいて字幕の表示の有無を判定する判定部を具備する。前記評価部は、字幕用の文字列と字幕の区間に対応する音声に基づいて、音声の発音の明瞭度を評価する。前記判定部は、前記評価部による評価結果が低い音声に対応する字幕を表示すると判定し、評価結果が高い音声に対応する字幕を表示しないと判定する。

Description

制御装置及び制御方法、コンピュータプログラム、並びにコンテンツ再生システム

　本明細書で開示する技術（以下、「本開示」とする）は、テレビや映画などのコンテンツを視聴する際の字幕の表示を制御する制御装置及び制御方法、コンピュータプログラム、並びにコンテンツ再生システムに関する。

　テレビや映画などのコンテンツを視聴する際に、視聴者が理解できる言語で明瞭に聴き取れる音声であれば、字幕は必要ない。一方、話されている言葉が聞き取りにくい場合など、字幕があれば内容の理解に役立つことがある。いずれにせよ、必要とされていない場合に字幕が常に表示されると、映像が文字で隠れてしまうなど、視聴者にとって煩わしい。

　例えば、テレビなどの音声の出力音量を監視して、音量が閾値以上であれば字幕の表示をオフにする受信装置について提案がなされている（特許文献１を参照のこと）。

　ところが、出力される音量が大きい場合でも、音声の発音が不明瞭であれば、字幕は必要である。また、出力され音声が小さい場合でも、音声の発音が明瞭であれば、字幕は必要でない。また、周囲環境のノイズの影響に応じて、字幕が必要になる場合もあれば、字幕が必要でない場合もある。

特開２００９－２６７９００号公報

　本開示の目的は、テレビや映画などのコンテンツを視聴する際に不要な字幕の表示を制御する制御装置及び制御方法、コンピュータプログラム、並びにコンテンツ再生システムを提供することにある。

　本開示は、上記課題を参酌してなされたものであり、その第１の側面は、
　映像及び音声コンテンツの再生装置において字幕の表示を制御する制御装置であって、
　音声の性質を評価する評価部と、
　前記評価部の評価結果に基づいて字幕の表示の有無を判定する判定部と、
を具備する制御装置である。

　前記評価部は、字幕用の文字列と字幕の区間に対応する音声に基づいて、音声の発音の明瞭度を評価する。具体的には、前記評価部は、字幕の文字列に対応する音素系列と字幕の時間に対応する音声との一致度と、語彙の制約のない音素系列と字幕の時間に対応する音声との一致度に基づいて、音声の発音の明瞭度を評価する。

　そして、前記判定部は、前記評価部による評価結果が低い音声に対応する字幕を表示すると判定し、評価結果が高い音声に対応する字幕を表示しないと判定する。

　また、本開示の第２の側面は、
　映像及び音声コンテンツの再生装置において字幕の表示を制御する制御方法であって、
　音声の性質を評価する評価ステップと、
　前記評価部の評価結果に基づいて字幕の表示の有無を判定する判定ステップと、
を有する制御方法である。

　また、本開示の第３の側面は、
　映像及び音声コンテンツの再生装置における字幕の表示を制御するための処理をコンピュータ上で実行するようにコンピュータ可読形式で記述されたコンピュータプログラムであって、前記コンピュータを、
　音声の性質を評価する評価部、
　前記評価部の評価結果に基づいて字幕の表示の有無を判定する判定部、
として機能させるコンピュータプログラムである。

　本開示の第３の側面に係るコンピュータプログラムは、コンピュータ上で所定の処理を実現するようにコンピュータ可読形式で記述されたコンピュータプログラムを定義したものである。換言すれば、本開示の第３の側面に係るコンピュータプログラムをコンピュータにインストールすることによって、コンピュータ上では協働的作用が発揮され、本開示の第１の側面に係る制御装置と同様の作用効果を得ることができる。

　また、本開示の第４の側面は、
　映像及び音声コンテンツの再生装置と、
　音声の性質を評価する評価部と、
　前記評価部の評価結果に基づいて字幕の表示の有無を判定する判定部と、
を具備し、前記判定部の判定結果に基づいて前記再生装置における字幕の表示が制御される、コンテンツ再生システムである。

　但し、ここで言う「システム」とは、複数の装置（又は特定の機能を実現する機能モジュール）が論理的に集合した物のことを言い、各装置や機能モジュールが単一の筐体内にあるか否かは特に問わない。

　本開示によれば、テレビや映画などのコンテンツを視聴する際に不要な字幕の表示を制御する制御装置及び制御方法、コンピュータプログラム、並びにコンテンツ再生システムを提供することができる。

　なお、本明細書に記載された効果は、あくまでも例示であり、本開示によりもたらされる効果はこれに限定されるものではない。また、本開示が、上記の効果以外に、さらに付加的な効果を奏する場合もある。

　本開示のさらに他の目的、特徴や利点は、後述する実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。

図１は、テレビ受信装置１００の構成例を示した図である。図２は、音声の明瞭度に基づいて字幕情報の出力の有無を制御するための処理手順を示したフローチャートである。図３は、音声明瞭度評価部１０９の内部構成例を示した図である。図４は、音声明瞭度計算のための学習データの例を示した図である。図５は、強制アライメント部３０２で行われる処理を説明するための図である。図６は、テレビ受信装置６００の構成例（第２の実施例）を示した図である。図７は、音声明瞭度評価部１０９の内部構成例（第２の実施例）を示した図である。図８は、ユーザプロファイルを考慮して音声の明瞭度を評価する音声明瞭度評価部１０９の内部構成例を示した図である。図９は、音声明瞭度及び音声の言語の種類に基づいて字幕情報の出力の有無を制御するための処理手順を示したフローチャートである。図１０は、オーサリング装置１０００の構成例を示した図である。図１１は、音声明瞭度を含むメタデータを編集するための処理手順を示したフローチャートである。図１２は、字幕情報とアイコンを表示した例を示した図である。図１３は、字幕情報とアイコンを表示した例を示した図である。図１４は、字幕情報とアイコンを表示した例を示した図である。図１５は、メタデータに基づいて字幕の表示を制御するテレビ受信装置１５００の構成例を示した図である。図１６は、音声明瞭度評価部１０９で実行される処理手順を示したフローチャートである。

　以下、図面を参照しながら本開示の実施形態について詳細に説明する。

　図１には、本開示が適用されるテレビ受信装置１００の構成例を模式的に示している。図示のテレビ受信装置１００は、デコード部１０１と、画像処理部１０２と、字幕情報抽出部１０３と、字幕情報処理部１０４と、画像表示部１０５と、音声処理部１０６と、音声出力部１０７と、制御部１０８と、音声明瞭度評価部１０９を備えている。なお、テレビ受信装置１００は、図１に示した以外のコンポーネントを備えていてもよいが、本開示に直接関連しないので、図示及び説明を省略する。また、以下の説明で単に「ユーザ」と言うとき、テレビ受信装置１００から出力される映像及び音声を視聴するユーザを指すものとする（他の実施例についても同様）。

　入力端子には、例えば地上デジタル放送や衛星デジタル放送などの放送波の受信信号が入力される。あるいは、ストリーミングサーバから配信されたＡＶストリームの受信信号や、ブルーレイディスクやＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ）などの記録メディアから再生した再生信号が入力端子に入力されることもある。いずれにせよ、入力端子への入力信号は、映像と音声が多重化された信号であり、且つ、字幕情報が含まれているものとする。入力端子に入力された信号は２つに分岐され、一方はデコード部１０１に送られ、他方は字幕情報抽出部１０３に送られる。

　デコード部１０１は、入力信号を映像信号と音声信号に非多重化する。そして、映像信号については、例えばＭＰＥＧ（Ｍｏｖｉｎｇ　Ｐｉｃｔｕｒｅ　Ｅｘｐｅｒｔｓ　Ｇｒｏｕｐ）符号化された映像信号をデコード処理して、画像処理部１０２に出力する。また、音声信号については、例えばＭＰ３（ＭＰＥＧ　Ａｕｄｉｏ　Ｌａｙｅｒ３）あるいはＨＥ－ＡＡＣ（Ｈｉｇｈ　Ｅｆｆｉｃｉｅｎｃｙ　ＭＰＥＧ４　Ａｄｖａｎｃｅｄ　Ａｕｄｉｏ　Ｃｏｄｉｎｇ）などの符号化方式により符号化された音声信号をデコード処理して、音声処理部１０６と音声明瞭度評価部１０９に出力する。

　字幕情報抽出部１０３は、入力信号から字幕情報を抽出して、字幕情報処理部１０４と音声明瞭度評価部１０９に出力する。字幕情報は、字幕の表示時間と、字幕として評される文字列を含む。字幕情報処理部１０４は、字幕として評される文字列の表示位置やタイミングの制御を行い、画像処理部１０２に出力する。本実施形態では、字幕の文字列は、本編の音声信号と対応し、且つ、表示タイミングは音声信号と同期しているものとする。

　画像処理部１０２は、デコード部１０１でデコードした後の映像信号に対して、ノイズ低減、解像度変換、輝度ダイナミックレンジ変換、ガンマ処理などの画像処理を施して、画像情報を生成する。また、画像処理部１０２は、本編の画像情報と字幕情報を重畳して、画像表示部１０５に出力する。

　画像表示部１０５は、画像処理部１０２から送られてくる画像情報を、画面に表示する。画像表示部１０５は、例えば液晶ディスプレイや有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ、あるいは画素に微細なＬＥＤ（Ｌｉｇｈｔ　Ｅｍｉｔｔｉｎｇ　Ｄｉｏｄｅ）素子を用いた自発光型ディスプレイなどからなる表示デバイスである。

　音声処理部１０６は、デコード部１０１から送られてくる音声信号に対して音量調整、音声の強調処理、ノイズ抑圧処理などの処理を行って、音声出力部１０７に出力する。音声出力部１０７は、スピーカーなどの音響発生素子で構成され、音声処理部１０６から送られてくる音声信号を音声出力する。

　音声明瞭度評価部１０９は、デコード部１０１でデコードされた後の音声信号の音声明瞭度を評価する。図１に示す構成例では、音声明瞭度評価部１０９は、字幕情報抽出部１０３から字幕の表示時間と字幕として評される文字列を入力して、各字幕情報に対応する音声の区間の明瞭度を評価して、評価結果を制御部１０８に出力する。

　制御部１０８は、テレビ受信装置１００全体の動作を統括的にコントロールする。例えば制御部１０８は、画像処理部１０２での画像の明るさなどを制御したり、音声処理部１０６での音量を制御したりする。また、制御部１０８は、音声明瞭度評価部１０９による音声の明瞭度の評価結果に基づいて、字幕情報処理部１０４の字幕情報の出力の有無を制御する。具体的には、制御部１０８は、音声明瞭度評価部１０９による評価結果が低い（すなわち、明瞭でないと評価された）音声の区間に対応する字幕情報を表示するが、評価結果が高い（すなわち、明瞭であると評価された）音声の区間に対応する字幕情報を表示しないように、字幕情報処理部１０４から画像処理部１０２への字幕情報の出力を制御する。

　図２には、テレビ受信装置１００において、音声の明瞭度に基づいて字幕情報の出力の有無を制御するための処理手順をフローチャートの形式で示している。この処理手順は、主に音声明瞭度評価部１０９と制御部１０８によって実行される。

　音声明瞭度評価部１０９は、字幕情報抽出部１０３から字幕情報が送られてくるまで待機する（ステップＳ２０１）。

　そして、音声明瞭度評価部１０９は、字幕情報抽出部１０３から字幕情報を受け取ると（ステップＳ２０１のＹｅｓ）、デコード部１０１から、字幕情報に対応する区間の音声を受信する（ステップＳ２０２）。

　次いで、音声明瞭度評価部１０９は、字幕用の文字列と音声に基づいて、音声の発音の明瞭度を計算して（ステップＳ２０３）、算出した音声明瞭度を制御部１０８に出力する。

　制御部１０８は、音声明瞭度評価部１０９から受け取った音声明瞭度ｃを所定の閾値と比較する（ステップＳ２０４）。そして、制御部１０８は、音声明瞭度ｃが閾値以下である（すなわち、音声が明瞭でない）場合には（ステップＳ２０４のＹｅｓ）、その字幕に該当する区間で字幕情報を表示すると判定する（ステップＳ２０５）。また、制御部１０８は、音声明瞭度ｃが閾値よりも高い（すなわち、音声が明瞭である）場合には（ステップＳ２０４のＮｏ）、その字幕に該当する区間で字幕情報を表示しないと判定する（ステップＳ２０６）。そして、制御部１０８は、判定結果に基づいて、字幕情報処理部１０４から画像処理部１０２への字幕情報の出力を制御する。

　図３には、音声明瞭度評価部１０９の内部構成例を示している。図示の音声明瞭度評価部１０９は、発音生成部３０１と、強制アライメント（ｆｏｒｃｅｄ　ａｌｉｇｎｍｅｎｔ）部３０２と、特徴量抽出部３０３と、音響モデル３０４と、音声明瞭度計算部３０５と、マッチング部３０６と、音素自由ネットワーク３０７を備えている。

　発音生成部３０１は、字幕情報抽出部１０３から字幕として入力された文字列に対応する音素系列を生成して、強制アライメント部３０２に出力する。

　特徴量抽出部３０３は、デコード部１０１から入力される、字幕の時間に対応する音声を、特徴量に変換する。この特徴量は、強制アライメント部３０２とマッチング部３０６に出力される。

　強制アライメント部３０２は、字幕の文字列に対応する音素系列と字幕の時間に対応する音声の特徴量とのマッチング処理を、強制アライメント技術を用いて行う。具体的には、強制アライメント部３０２は、字幕に対応する音素系列と字幕の時間に対応する音声の一致度（音声認識スコアｓ₁）を、音響モデル３０４を用いて計算して、音声明瞭度計算部３０５に出力する。強制アライメントは、音素表記列と音声の組から各音素の音声中の出現位置を推定する技術である。

　音響モデル３０４は、認識対象となる例えば音素などの発音情報と音響特徴量の関係を統計的なモデルで表したものであり、ＤＮＮ（Ｄｅｅｐ　Ｎｅｗｒａｌ　Ｎｅｔｗｏｒｋ）とＨＭＭ（Ｈｉｄｄｅｎ　Ｍａｒｋｏｖ　Ｍｏｄｅｌ）のハイブリッド音響モデルでもよいし、ｓｅｑｕｅｎｃｅ２ｓｅｑｕｅｎｃｅ型の音響モデル、あるいは混合ガウス分布（Ｇａｕｓｓｉａｎ　Ｍｉｘｔｕｒｅ　Ｍｏｄｅｌ）のＨＭＭ（ＧＭＭ－ＨＭＭ）を用いた音響モデルでもよい。

　音素自由ネットワーク３０７は、任意の文字列に対応する音素系列をマッチング部３０６に供給する。音素自由ネットワーク３０７は、音素を自由に遷移できるＷＦＳＴ（Ｗｅｉｇｈｔｅｄ　Ｆｉｎｉｔｅ　Ｓｔａｔｅ　Ｔｒａｎｓｄｕｃｅｒ：重み付き有限状態トランスデューサ）や、音素間の遷移確率を反映させたＷＦＳＴでもよい。

　マッチング部３０６は、音響モデル３０４と音素自由ネットワーク３０７をマッチングさせて、最適な音素系列を生成する。すなわち、マッチング部３０６は、語彙の制約のない（字幕の文字列に縛られない）音素系列と字幕の時間に対応する音声の特徴量とのマッチング処理を行い、最適な音素系列と字幕の時間に対応する音声の一致度（音声認識スコアｓ₂）を計算して、音声明瞭度計算部３０５に出力する。最適な音素系列とは、一致度を計算する音声と最もよく一致する音素系列のことである。

　音声明瞭度計算部３０５は、強制アライメント部３０２からの音声認識スコアｓ₁とマッチング部３０６からの音声認識スコアｓ₂より、字幕の時間に対応する音声の明瞭度を計算する。例えば、シグモイド関数を用いて音声明瞭度ｃを以下の式（１）のように定義することができきる。そして、音声明瞭度計算部３０５は、強制アライメント部３０２とマッチング部３０６からの各入力値ｓ₁、ｓ₂を下式（１）に代入して、音声明瞭度ｃを計算する。

　ここで、上式（１）で用いられるａ及びｂは、学習データからあらかじめ求める定数である。例えば、ａ＝５、ｂ＝０である。音声認識スコアｓ₁、ｓ₂は負の値である。音声の発音が不明瞭な場合、音声認識スコアｓ₂に比べて音声認識スコアｓ₁が小さくなるので、音声明瞭度ｃは小さな値になる。字幕を表示すべき不明瞭な発音の場合の音声明瞭度ｃが０．５より小さな値で、字幕が不要となる明瞭な発音の場合の音声明瞭度ｃが０．５より大きな値となるように、学習データを用いて定数ａとｂの値を調整するようにする。図４には、音声明瞭度計算のための学習データの例を示している。

　なお、字幕の文字列に対応する音素系列と、字幕の時間に対応する音声の認識結果から得られる音素系列の一致度に基づいて音声の明瞭度を評価する方法も考えられる。しかしながら、音声信号には字幕に対応する音声以外の音源の波形も重畳されていることが想定されるので、重畳された音声以外の音源の波形に依存して一致度が変化し易いため、この一致度が必ずしも音声の明瞭度を表すとは言い難い。したがって、本出願人は、上述したように、字幕の文字列に対応する音素系列と字幕の時間に対応する音声との一致度と、語彙の制約のない音素系列と字幕の時間に対応する音声との一致度に基づいて、音声の発音の明瞭度を評価することがよいと思料する。

　図１６には、音声明瞭度評価部１０９で実行される処理手順をフローチャートの形式で示している。

　音声明瞭度評価部１０９は、字幕情報抽出部１０３から字幕情報を受け取り、デコード部１０１から字幕情報に対応する区間の音声を受け取る（ステップＳ１６０１）。

　次いで、発音生成部３０１は、字幕情報抽出部１０３から字幕として入力された文字列に対応する音素系列を生成する。また、特徴量抽出部３０３は、デコード部１０１から入力される、字幕の時間に対応する音声を、特徴量に変換する（ステップＳ１６０２）。

　強制アライメント部３０２は、字幕の文字列に対応する音素系列と字幕の時間に対応する音声の特徴量とのマッチング処理を、強制アライメント技術を用いて行い、字幕に対応する音素系列と字幕の時間に対応する音声の一致度（音声認識スコアｓ₁）を得る（ステップＳ１６０３）。

　また、マッチング部３０６は、語彙の制約のない（字幕の文字列に縛られない）音素系列と字幕の時間に対応する音声の特徴量とのマッチング処理を行い、最適な音素系列と字幕の時間に対応する音声の一致度（音声認識スコアｓ₂）を計算する（ステップＳ１６０４）。

　そして、音声明瞭度計算部３０５は、ステップＳ１６０３で得た音声認識スコアｓ₁と、ステップＳ１６０４で得た音声認識スコアｓ₂から、上式（１）を用いて音声明瞭度ｃを計算する（ステップＳ１６０５）。

　強制アライメント部３０２で行われる処理について、図５を参照しながら説明する。

　参照番号５０１には、状態尤度の計算方法を示している。音響特徴量は、音響モデルを用いて、音の状態の尤度に変換される。例えば、音素／ａ／を３つの状態ａ０、ａ１、ａ２に分解して、各状態の尤度を求める。

　参照番号５０２には、単語から状態系列への変換方法を示している。字幕情報は、音素の状態系列に変換される。例えば、"赤"に対して音素／ａ／、／ｋ／、／ａ／が付与され、さらに音素状態に変換され、"ａ０　ａ１　ｋｏ　ｋ１　ｋ２　ａ０　ａ１　ａ２"となる。

　参照番号５０３には、参照番号５０２に示すように生成された状態系列をＨＭＭのモデルに変換した例を示している。このモデルが字幕に対応する音声の特徴量を出力する確率を計算することができる。参照番号５０３には、状態遷移に遷移確率を示していないが、もちろん遷移確率を用いることができる。

　図５では、説明の便宜上、音素単位でモデル化した３状態のｍｏｎｏｐｈｏｎｅで状態を示したが、音素の前後のコンテキストを考慮したｔｒｉｐｈｏｎｅ、さらに長いコンテキストを考慮した状態の尤度を用いることもできる。

　第２の実施例では、周囲音などの外部音の影響を考慮して音声の明瞭度を評価する。図６には、第２の実施例に係るテレビ受信装置６００の構成例を模式的に示している。図示のテレビ受信装置６００は、デコード部１０１と、画像処理部１０２と、字幕情報抽出部１０３と、字幕情報処理部１０４と、画像表示部１０５と、音声処理部１０６と、音声出力部１０７と、制御部１０８と、音声明瞭度評価部１０９を備えている。各コンポーネント１０１～１０９の構成及び機能は、第１の実施例に係るテレビ受信装置１００（図１を参照のこと）のそれぞれ同一の参照番号が付された同一名称のコンポーネントと同様である。主な相違点は、外部音入力部６０１が追加され、外部音入力部６０１から入力される外部音も音声明瞭度評価部１０９に入力される点と、音声明瞭度評価部１０９は外部音の影響も考慮して音声の明瞭度を評価する点である。

　外部音入力部６０１は、テレビ受信装置６００の視聴環境に設置されたマイクロフォン（図５では図示を省略）で収音された外部音を入力する。マイクロフォンは、テレビ受信装置６００に装備されていてもよいし、テレビ受信装置６００の外部に設置されていてもよい。例えば、テレビ受信装置６００のリモコンに外部音収音用のマイクロフォンが内蔵されていてもよい。あるいは、マイクロフォンは、視聴者に耳に取り付けたイヤモニタであってもよい。

　マイクロフォンで収音される外部音は、テレビ受信装置６００から出力される再生音と、視聴環境におけるノイズなどの周囲音、会話の音声などが含まれる。テレビ受信装置６００の出力音を利用してエコーキャンセル技術を用いて、テレビ受信装置６００の出力音をキャンセルした音にすることによって、テレビ受信装置６００の周囲音をよりよく収音することができる。あるいは、外部音の収音でエコーキャンセルを行わず、字幕に対応する音声も用いず、外部で収音した音のみを用いて音声明瞭度を評価することもできる。

　テレビ受信装置６００は、第１の実施例に係るテレビ受信装置１００と同様に、図２に示した処理手順に従って、音声の明瞭度に基づいて字幕情報の出力の有無を制御する。ステップＳ２０４で、外部音入力部６０１から入力される外部音も考慮して音声の明瞭度を評価する点で、第１の実施例とは相違する。

　図７には、第２の実施例に係るテレビ受信装置６００の音声明瞭度評価部１０９の内部構成例を示している。図３に示した構成例との主な相違点は、外部音入力部６０１で入力される外部音が特徴量抽出部３０３に入力される点である。

　特徴量抽出部３０３は、デコード部１０１から入力される音声と外部音を重畳した音声（以下、「外部音重畳音声」とも呼ぶ）を、字幕の時間に対応させて、特徴量に変換する。そして、強制アライメント部３０２は、強制アライメント技術を用いて、字幕の文字列に対応する音素系列と字幕の時間に対応する外部音重畳音声の特徴量とのマッチング処理を行い、音声の一致度（音声認識スコアｓ₁）を計算する。強制アライメント部３０２で行われる処理については、図５を参照されたい。

　また、マッチング部３０６は、語彙の制約のない（字幕の文字列に縛られない）音素系列と字幕の時間に対応する外部音重畳音声の特徴量とのマッチング処理を行い、最適な音素系列と字幕の時間に対応する音声の一致度（音声認識スコアｓ₂）を計算する。

　音声明瞭度計算部３０５は、強制アライメント部３０２からの音声認識スコアｓ₁とマッチング部３０６からの音声認識スコアｓ₂より、字幕の時間に対応する音声の明瞭度ｃを計算する。音声認識スコアｓ₂が外部音の影響を受けている以外は、第１の実施例と同様に上式（１）を用いて音声の明瞭度ｃが算出され、その結果に基づいて制御部１０８により字幕情報の出力の有無が制御される。

変形例（１）－ユーザの個人差を考慮：
　上記では、外部音の影響を考慮して音声の明瞭度を評価する点について説明した。同じ音声で、外部音などの周囲環境が一致する場合であっても、ユーザ毎に音声の明瞭度が異なることが想定される。例えば、聴覚には個人差があり、また、人は加齢に応じて聴覚が変化する。このため、同じ音声であってもユーザ毎に脳内で認識される音声の明瞭度が異なる場合がある。また、幼児や語彙数の少ない人は、字幕の表示を好まないといった、ユーザ毎のプリファレンスの相違があることも想定される。

　そこで、上式（１）で音声明瞭度ｃを計算し、字幕の表示の有無を判定する閾値ｃをユーザ毎に変化させるようにしてもよい。あるいは、閾値ｃを固定して、上式（１）で用いる定数ａ又はｂの少なくとも一方をユーザ毎に変化させるようにしてもよい。また、閾値ｃと定数ａ及びｂの両方を、ユーザ毎に変化させるようにしてもよい。また、定数ａ及びｂを求めるための学習データ（図４を参照のこと）を、年齢などユーザプロファイル毎に分けて取得して、ユーザプロファイルの応じた定数ａ及びｂを設定するようにしてもよい。また、年齢などのユーザプロファイルに適切な閾値ｃ又は定数ａ及びｂを推定するように深層学習された人工知能モデルを用いて、閾値ｃ、定数ａ及びｂを設定するようにしてもよい。

　図８には、年齢などのユーザプロファイルをさらに考慮して音声の明瞭度を評価する音声明瞭度評価部１０９の内部構成例を示している。図示の音声明瞭度評価部１０９は、ユーザ監視部８０１が追加される点、及び音声明瞭度計算部３０５がユーザプロファイルを考慮する点以外は、機能は図７と同様であり、その他のコンポーネントについては説明を省略する。

　ユーザ監視部８０１は、テレビ受信装置６００から出力される映像及び音声を視聴する例えばテレビ受信装置６００に装備されたカメラ、あるいはテレビ受信装置６００の外部に設置されたカメラであり、ユーザを撮影する。あるいは、ユーザ監視部８０１は、ユーザの生体情報を取得する生体センサであってもよい。あるいは、ユーザ監視部８０１は、ユーザが所持するスマートフォンなどの情報端末などからユーザプロファイルに関する情報を読み取るリーダであってもよい。あるいは、ユーザ監視部８０１は、ユーザ自身がユーザプロファイルに関する情報やユーザ認識情報をマニュアルで入力する入力装置であってもよい。あるいは、ユーザ監視部８０１は、これらの２以上の組み合わせであってもよい。

　音声明瞭度計算部３０５は、ユーザ監視部８０１から入力した情報に基づいてユーザプロファイルを認識して、ユーザプロファイルに応じた閾値、又は上式（１）中の定数ａ及びｂを決定する。例えばユーザを撮影したカメラの撮影画像を入力した場合には、画像認識に基づいて、年齢などのユーザプロファイルを認識する。また、生体センサが検出した生体情報に基づいて、年齢などのユーザプロファイルを認識する。

　そして、音声明瞭度計算部３０５は、強制アライメント部３０２からの音声認識スコアｓ₁とマッチング部３０６からの音声認識スコアｓ₂より、上式（１）を用いて字幕の時間に対応する音声明瞭度ｃを計算する。音声明瞭度計算部３０５は、音声明瞭度ｃを、ユーザプロファイルに基づいて決定した閾値とともに制御部１０８に出力する。

　制御部１０８は、音声明瞭度評価部１０９から受け取った音声明瞭度ｃと閾値を比較する。そして、制御部１０８は、音声明瞭度ｃが閾値以下である（すなわち、音声が明瞭でない）場合には、その字幕に該当する区間で字幕情報を表示すると判定する。また、制御部１０８は、音声明瞭度ｃが閾値よりも高い（すなわち、音声が明瞭である）場合には、その字幕に該当する区間で字幕情報を表示しないと判定する。そして、制御部１０８は、判定結果に基づいて、字幕情報処理部１０４から画像処理部１０２への字幕情報の出力を制御する。

変形例（２）－字幕の表示方法の制御：
　また、制御部１０８は、字幕情報を表示する場合に、ユーザプロファイルやユーザプリファレンスに応じて字幕の表示方法も制御するようにしてもよい。このため、音声明瞭度計算部３０５は、ユーザ監視部８０１から入力された情報に基づいて認識したユーザプロファイルやユーザプリファレンスを、音声明瞭度ｃの計算結果とともに制御部１０８に出力するようにしてもよい。あるいは、制御部１０８は、ユーザ監視部８０１から直接情報を入力するようにしてもよい。

　字幕の表示方法は、字幕の文字のフォントや文字サイズ、輝度コントラスト、字幕にルビを付けること、表示位置などを含む。例えば老人や目の悪い人のために、字幕の文字サイズを大きくしたり太字にしたり、輝度コントラストを大きくしたりして、字幕を読み易くするようにしてもよい。また、子供や語彙数が少ないユーザのために、字幕にルビを付けるようにしてもよい。一方、字幕を表示すべきであるが音声明瞭度が比較的高く、字幕を表示する必要性がやや低いユーザに対しては、字幕の文字フォントを小さくしたり、字幕の表示位置を画面の周縁近くに設定したりして、字幕が目立たないようにしてもよい。

変形例（３）－発話者識別に基づく字幕表示制御：
　テレビ受信装置６００などの再生装置で再生される映像及び音声は、発話者が１人とは限らず、むしろ２人以上である場合が多い。発話者が２人以上の場合、音声明瞭度計算部３０５は、発話者毎に音声明瞭度ｃを計算するようにしてもよい。そして、制御部１０８は、発話者毎の音声明瞭度ｃに基づいて、発話者毎に字幕情報の表示を制御するようにしてもよい。

　例えばドラマや映画などのコンテンツで、滑舌がよい出演者と滑舌が悪い出演者が同時に出現している場合、滑舌が悪い出演者が発話した音声のみ音声明瞭度が低くなり、滑舌が悪い出演者が発話した音声に対してのみ字幕を表示するようにしてもよい。字幕を表示すべき出演者の識別情報を事前に登録しておき、視聴中のコンテンツに出現する出演者を識別して、事前に登録した出演者を識別した区間で字幕を表示するようにしてもよい。

　この変形例は、入力される音声を発話者毎の音声に分離して、発話者毎の音声に対して図２に示した字幕情報の出力制御を行うことで実現される。例えば、テレビ受信装置６００に入力される音声が個々の発音オブジェクトがミキシングされないオブジェクトオーディオ（ｏｂｊｅｃｔ－ｂａｓｅｄ　ａｕｄｉｏ）の場合、出演者毎の字幕情報の表示制御を容易に実現することができる。

変形例（４）－言語の種類に基づく字幕表示制御：
　例えば図３に示した音声明瞭度評価部３０９によって、音声自体は明瞭で、音声明瞭度からは字幕を表示する必要がないと判定される場合であっても、ユーザが理解できない言語で発話される場合には、字幕を表示すべきであると考えられる。そこで、ユーザが理解できない言語による発話に対しては、音声明瞭度に拘わらず、字幕を表示するようにしてもよい。

　例えば、字幕情報抽出部１０３が入力信号から抽出した字幕情報に基づいて、音声の言語の種類を判定することができる。あるいは、音声情報から音声の言語の種類を判定することができる。図８に示した音声明瞭度評価部１０９において、特徴量抽出部３０が音声から抽出した特徴量に基づいて、音声の言語の種類を判定することができる。

　一方、ユーザ監視部８０１から入力される情報から認識されるユーザプロファイルやユーザプリファレンスに基づいて、ユーザが理解できる言語の種類を判定することができる。あるいは、テレビ受信装置６００の販売地域や購入時に登録されるユーザ情報に基づいて、ユーザが理解できる言語の種類を判定するようにしてもよい。

　そして、音声明瞭度計算部３０５は、音声の言語の種類が、ユーザが理解できる言語の種類に含まれない場合には、ユーザは音声の言語を理解できないと判定して、上式（１）を用いて計算される音声明瞭度ｃの値に拘わらず、低い音声明瞭度ｃの値を出力して、字幕を表示するようにしてもよい。

　また、制御部１０８は、ユーザは音声の言語を理解できないという判定結果に基づいて、上式（１）を用いて計算される音声明瞭度ｃの値に拘わらず、字幕を表示するようにしてもよい。あるいは、テレビ受信装置６００の販売地域や購入時に登録されるユーザ情報に基づいて、字幕の表示が不要な言語の種類、又は字幕の表示が必要な言語の種類を、テレビ受信装置６００に設定しておいてもよい。もちろん、ユーザが理解できるかどうかとは関係なく、音声が特定の言語の種類の場合には字幕を表示するように設定するようにしてもよい。また、ユーザ毎に字幕の表示が必要な言語の種類を設定して、視聴するユーザ毎に字幕の表示が必要な言語の種類を切り替えるようにしてもよい。

　そして、制御部１０８は、字幕の情報や音声から判定される音声の言語の種類が、ユーザにとって字幕の表示に必要な言語である場合には、字幕を表示するようにしてもよい。例えば、英語音声にのみ字幕を付けることをテレビ受信装置６００に設定しておくと、英語に日本語の字幕を付けたテレビドラマや映画のコンテンツを視聴中は字幕を付けるが、途中で日本語のニュースに切り替えられると字幕の表示を停止するなどの字幕表示制御を実現することができる。

　図９には、テレビ受信装置１００において、音声明瞭度及び音声の言語の種類に基づいて字幕情報の出力の有無を制御するための処理手順をフローチャートの形式で示している。この処理手順は、主に音声明瞭度評価部１０９と制御部１０８によって実行される。

　音声明瞭度評価部１０９は、字幕情報抽出部１０３から字幕情報が送られてくるまで待機し（ステップＳ９０１）、字幕情報が１０３から字幕情報を受け取ると（ステップＳ９０１のＹｅｓ）、デコード部１０１から、字幕情報に対応する区間の音声を受信する（ステップＳ９０２）。そして、音声明瞭度評価部１０９は、字幕用の文字列と音声に基づいて、音声の発音の明瞭度を計算して（ステップＳよ０３）、算出した明瞭度を制御部１０８に出力する。

　制御部１０８は、音声明瞭度評価部１０９から受け取った音声明瞭度ｃを所定の閾値と比較する（ステップＳ９０４）。そして、制御部１０８は、音声明瞭度ｃが閾値以下である（すなわち、音声が明瞭でない）場合には（ステップＳ９０４のＹｅｓ）、その字幕に該当する区間で字幕情報を表示すると判定する（ステップＳ９０５）。

　また、制御部１０８は、音声明瞭度ｃが閾値よりも高い（すなわち、音声が明瞭である）場合には（ステップＳ９０４のＮｏ）、字幕の情報又は音声情報に基づいて音声の言語の種類を判定して（ステップＳ９０６）、字幕の表示が不要な言語の種類かどうかをチェックする（ステップＳ９０７）。基本的には、ユーザが理解できない言語の種類の音声は字幕の表示が必要であり、ユーザが理解できる言語の種類は字幕の表示が不要である。

　ここで、字幕の表示が必要な言語の種類である場合には（ステップＳ９０７のＮｏ）、制御部１０８は、その字幕に該当する区間で字幕情報を表示すると判定する（ステップＳ９０５）。また、字幕の表示が不要な言語の種類である場合には（ステップＳ９０７のＹｅｓ）、制御部１０８は、その字幕に該当する区間で字幕情報を表示しないと判定する（ステップＳ９０８）。そして、制御部１０８は、判定結果に基づいて、字幕情報処理部１０４から画像処理部１０２への字幕情報の出力を制御する。

　第１の実施例では、テレビ受信装置１００など字幕情報付きのコンテンツを再生する再生装置に本開示を適用した例を示した。本開示は、さらに字幕情報付きのコンテンツを編集するオーサリング装置にも適用することができる。

　図１０には、第３の実施例に係るオーサリング装置１０００の構成例を模式的に示している。オーサリング装置１０００は、コンテンツ制作者などの映像及びコンテンツの編集を支援する装置である。本明細書では、便宜上、「装置」と呼んでいるが、パーソナルコンピュータ上で実行される編集支援ソフトやオーサリングツールであってもよい。

　図１０に示すオーサリング装置１０００は、蓄積部１００１と、取り出し部１００２と、デコード部１００３と、字幕情報抽出部１００４と、音声明瞭度評価部１００５と、メタデータ編集部１００６を備えている。

　蓄積部１００１は、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｃ　Ｄｒｉｖｅ）などの大容量記憶装置、あるいはインターネットなどのネットワーク上のサーバ装置であってもよい。蓄積部１００１は、オーサリングの対象となるコンテンツを蓄積している。本実施例でオーサリング対象となるコンテンツは、字幕情報付きの映像及び音声コンテンツである。

　取り出し部１００２は、オーサリング装置１０００においてオーサリングしようとするコンテンツを、蓄積部１００１から取り出す。蓄積部１００１がＨＤＤであれば、取り出し部１００２はディスクインターフェースを備えている。また、蓄積部１００１がサーバ装置であれば、取り出し部１００２はネットワークインターフェースを備えている。

　取り出し部１００２の出力信号は、２つに分岐され、一方はデコード部１００３に送られ、他方は字幕情報抽出部１００４に送られる。デコード部１００３は、入力信号を映像信号と音声信号に非多重化して、音声信号を音声明瞭度評価部１００５に出力する。字幕情報抽出部１００４は、入力信号から字幕情報を抽出して、音声明瞭度評価部１００５に出力する。

　音声明瞭度評価部１００５は、デコード部１００３でデコードされた後の音声信号の音声明瞭度を評価する。第１の実施例と同様に、音声明瞭度評価部１００５は、字幕情報抽出部１００４から字幕の表示時間と字幕として評される文字列を入力して、各字幕情報に対応する音声の区間の明瞭度を評価して、評価結果をメタデータ編集部１００６に出力する。音声明瞭度評価部１００５は、例えば図３と同様の構成を備え、上式（１）を用いて音声明瞭度ｃを計算する。

　メタデータ編集部１００６は、取り出し部１００２が蓄積部１００１から取り出したコンテンツのメタデータの編集を行う。具体的には、メタデータ編集部１００６は、明瞭度評価部１００５による音声の明瞭度の評価結果をメタデータに記録する。メタデータのデータフォーマットは特に限定されないが、字幕情報に対応する音声の区間に対する評価結果が記録される。メタデータ編集部１００６は、編集したメタデータを蓄積部１００１に格納する。

　図１１には、オーサリング装置１０００において、音声明瞭度を含むメタデータを編集するための処理手順をフローチャートの形式で示している。

　音声明瞭度評価部１００５は、字幕情報抽出部１００４から字幕情報を受け取ると（ステップＳ１１０１のＹｅｓ）、デコード部１００２から、字幕情報に対応する区間の音声を受信する（ステップＳ１１０２）。そして、音声明瞭度評価部１００５は、字幕用の文字列と音声に基づいて、音声の発音の明瞭度を計算して（ステップＳ１１０３）、算出した音声明瞭度ｃをメタデータ編集部１００６に出力する。

　メタデータ編集部１００６は、音声明瞭度評価部１００５から受け取った音声明瞭度ｃを、該当する音声の区間のメタデータとしてそのまま記録してもよい。図１１に示す処理手順では、メタデータ編集部１００６は、音声明瞭度評価部１００５から受け取った音声明瞭度ｃを所定の閾値と比較して（ステップＳ１１０４）、音声明瞭度ｃが閾値以下である（すなわち、音声が明瞭でない）場合には（ステップＳ１１０４のＹｅｓ）、その字幕に該当する区間で字幕情報を表示するとメタデータに記録する（ステップＳ１１０５）。また、メタデータ編集部１００６は、音声明瞭度ｃが閾値よりも高い（すなわち、音声が明瞭である）場合には（ステップＳ１１０４のＮｏ）、その字幕に該当する区間で字幕情報を表示しないとメタデータに記録する（ステップＳ１１０６）。そして、メタデータ編集部１００６は、編集したメタデータを蓄積部１００１に格納する。

　字幕情報に対応する音声の区間毎の音声明瞭度の情報を含むメタデータの活用方法はさまざまである。

　例えば、このメタデータを用いて、コンテンツの編集者に対して音声明瞭度をフィードバックすることができる。コンテンツの編集者は、メタデータに記録されている音声明瞭度ｃに基づいて、字幕情報に対応する音声の区間毎に、「この字幕は絶対必要」、「この字幕は表示した方がよい」、「この字幕はなくてもよい」などを判断することができる。例えば、図１２～図１４に示すようにオーサリング装置１０００の編集画面で、字幕情報を表示する際に、音声明瞭度を表すアイコンなど、コンテンツへの字幕付与のガイドを表示するようにしてもよい。コンテンツの編集者は、アイコンの表情を観察して、字幕情報を表示する必要性を理解することができる。

　あるいは、コンテンツの編集者は、メタデータに記録されている字幕情報の表示の有無に関する情報に基づいて、字幕情報に対応する音声の区間毎に、字幕情報を付けたり、字幕情報を外したりすることができる。

　また、コンテンツの編集者は、字幕情報に対応する音声の区間毎の音声明瞭度の情報を含むメタデータを使って、字幕の表示の編集ではなく、音声の編集を行うようにしてもよい。例えば、コンテンツの編集者は、音声明瞭度ｃが低い区間や字幕情報を表示すると記録された区間における音声の強調処理やノイズ抑圧処理を行うようにしてもよい。背景音が制御可能なら音量を小さくする操作をコンテンツの制作者が手動で行ったり、メタデータに基づいて自動で行ったりすることができる。また、音声が明瞭でない区間の音声の強調処理を行った後に、再び音声の明瞭度の評価を行うようにしてもよい。コンテンツの編集者は、音声明瞭度の再評価結果を記録したメタデータを使って、字幕の表示の編集や音声の編集を繰り返して、音声が明瞭でない、あるいは不要な字幕が表示されるという問題を解決することができる。

　また、テレビ受信装置などのコンテンツ再生装置側でも、字幕情報に対応する音声の区間毎の音声明瞭度の情報を含むメタデータを使って、字幕情報の表示の有無を制御することができる。メタデータを使用する場合、コンテンツ再生装置は、音声明瞭度を評価する必要がなくなり、装置コストや計算コストを低減することができる。

　図１５には、メタデータに基づいて字幕の表示を制御するテレビ受信装置１５００の構成例を模式的に示している。図示のテレビ受信装置１５００は、デコード部１５０１と、画像処理部１５０２と、字幕情報抽出部１５０３と、字幕情報処理部１５０４と、画像表示部１５０５と、音声処理部１５０６と、音声出力部１５０７と、制御部１５０８を備えている。なお、テレビ受信装置１５００は、図１に示した以外のコンポーネントを備えていてもよいが、本開示に直接関連しないので、図示及び説明を省略する。

　入力端子への入力信号は、映像と音声とメタデータが多重化された信号であり、且つ、字幕情報が含まれているものとする。入力端子に入力された信号は２つに分岐され、一方はデコード部１５０１に送られ、他方は字幕情報抽出部１５０３に送られる。

　デコード部１５０１は、入力信号を映像信号と音声信号とメタデータに非多重化する。そして、映像信号については、例えばＭＰＥＧ符号化された映像信号をデコード処理して、画像処理部１５０２に出力する。また、音声信号については、例えばＭＰ３あるいはＨＥ－ＡＡＣなどの符号化方式により符号化された音声信号をデコード処理して、音声処理部１５０６に出力する。また、メタデータについては、制御部１５０８に出力する。

　字幕情報抽出部１５０３は、入力信号から字幕情報を抽出して、字幕情報処理部１５０４に出力する。字幕情報は、字幕の表示時間と、字幕として評される文字列を含む。字幕情報処理部１５０４は、字幕として評される文字列の表示位置やタイミングの制御を行い、画像処理部１５０２に出力する。

　画像処理部１５０２は、デコード部１５０１でデコードした後の映像信号に対して、ノイズ低減、解像度変換、輝度ダイナミックレンジ変換、ガンマ処理などの画像処理を施して、画像情報を生成する。また、画像処理部１５０２は、本編の画像情報と字幕情報を重畳して、画像表示部１５０５に出力する。画像表示部１５０５は、画像処理部１５０２から送られてくる画像情報を、画面に表示する。音声処理部１５０６は、デコード部１５０１から送られてくる音声信号に対して音量調整、音声の強調処理、ノイズ抑圧処理などの処理を行って、音声出力部１５０７に出力する。音声出力部１０７は、音声処理部１５０６から送られてくる音声信号を音声出力する。

　制御部１５０８は、メタデータに含まれる字幕の表示の有無に関する情報に基づいて、字幕情報処理部１５０４の字幕情報の出力の有無を制御する。具体的には、制御部１５０８は、メタデータに含まれる音声明瞭度ｃが所定の閾値以下、又はメタデータに字幕を表示すると記録された音声の区間に対応する字幕情報を表示するが、メタデータに含まれる音声明瞭度ｃが所定の閾値よりも高い、又はメタデータに字幕を表示しないと記録された音声の区間に対応する字幕情報を表示しないように、字幕情報処理部１５０４から画像処理部１５０２への字幕情報の出力を制御する。

　以上、特定の実施形態を参照しながら、本開示について詳細に説明してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。

　本開示は、テレビ受信装置の他、パーソナルコンピュータ、スマートフォンやタブレットといった情報端末など、字幕情報付きのコンテンツを再生可能なさまざまな情報機器に適用することができる。また、本開示が対象とするコンテンツは、テレビ放送のコンテンツ、ストリーミングサーバから配信されるストリーミングコンテンツ、ブルーレイディスクやＤＶＤなどの記録メディアから再生される再生コンテンツなど、字幕情報付きのさまざまなコンテンツである。また、本開示は、字幕情報付きのコンテンツを編集するオーサリング装置にも適用することができる。

　要するに、例示という形態により本開示について説明してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本開示の要旨を判断するためには、特許請求の範囲を参酌すべきである。

　なお、本開示は、以下のような構成をとることも可能である。

（１）映像及び音声コンテンツの再生装置において字幕の表示を制御する制御装置であって、
　音声の性質を評価する評価部と、
　前記評価部の評価結果に基づいて字幕の表示の有無を判定する判定部と、
を具備する制御装置。

（２）前記評価部は、前記再生装置に入力される原音声、又は前記再生装置の出力音声の性質を評価する、
上記（１）に記載の制御装置。

（３）前記評価部は、音声の発音の明瞭度を評価し、
　前記判定部は、発音の明瞭度に基づいて字幕の表示の有無を判定する、
上記（１）又は（２）のいずれかに記載の制御装置。

（４）前記評価部は、字幕用の文字列と字幕の区間に対応する音声に基づいて、音声の発音の明瞭度を評価する、
上記（３）に記載の制御装置。

（５）前記判定部は、前記評価部による評価結果が低い音声に対応する字幕を表示すると判定し、評価結果が高い音声に対応する字幕を表示しないと判定する、
上記（１）乃至（４）のいずれかに記載の制御装置。

（６）前記評価部は、字幕の文字列に対応する音素系列と字幕の時間に対応する音声との一致度と、語彙の制約のない音素系列と字幕の時間に対応する音声との一致度に基づいて、音声の発音の明瞭度を評価する、
上記（１）乃至（５）のいずれかに記載の制御装置。

（６－１）前記評価部は、強制アライメントにより字幕の文字列に対応する音素系列と字幕の時間に対応する音声との一致度を計算する、
上記（６）に記載の制御装置。

（７）前記評価部は、前記再生装置から出力される映像及び音声を視聴するユーザの情報を考慮して、音声の性質を評価する、
上記（１）乃至（６）のいずれかに記載の制御装置。

（８）前記判定部は、字幕を表示すると判定する場合、さらに字幕の表示方法を判定する、
上記（１）乃至（７）のいずれかに記載の制御装置。

（９）音声が複数の発話者の音声を含む場合、前記評価部は発話者毎に音声の性質を評価し、前記判定部は発話者毎に前記評価部の評価結果に基づいて字幕の表示の有無を判定する、
上記（１）乃至（８）のいずれかに記載の制御装置。

（１０）前記判定部は、音声に含まれる発話の言語の種類と、前記再生装置から出力される映像及び音声を視聴するユーザが理解できる言語の種類の関係に基づいて、字幕の表示の有無を判定する、
上記（１）乃至（９）のいずれかに記載の制御装置。

（１１）前記判定部の判定結果をコンテンツのメタデータとして記録する記録部をさらに備える、
上記（１）乃至（１０）のいずれかに記載の制御装置。

（１２）メタデータに基づいて、コンテンツへの字幕の付与をガイドする、
上記（１１）に記載の制御装置。

（１３）メタデータに基づいて、音声の協調処理又はノイズ抑圧処理のうち少なくともいずれかを行う、
上記（１１）に記載の制御装置。

（１４）映像及び音声コンテンツの再生装置において字幕の表示を制御する制御方法であって、
　音声の性質を評価する評価ステップと、
　前記評価部の評価結果に基づいて字幕の表示の有無を判定する判定ステップと、
を有する制御方法。

（１５）映像及び音声コンテンツの再生装置における字幕の表示を制御するための処理をコンピュータ上で実行するようにコンピュータ可読形式で記述されたコンピュータプログラムであって、前記コンピュータを、
　音声の性質を評価する評価部、
　前記評価部の評価結果に基づいて字幕の表示の有無を判定する判定部、
として機能させるコンピュータプログラム。

（１６）映像及び音声コンテンツの再生装置と、
　音声の性質を評価する評価部と、
　前記評価部の評価結果に基づいて字幕の表示の有無を判定する判定部と、
を具備し、前記判定部の判定結果に基づいて前記再生装置における字幕の表示が制御される、コンテンツ再生システム。

　１００…テレビ受信装置、１０１…デコード部、１０２…画像処理部
　１０３…字幕情報抽出部、１０４…字幕情報処理部
　１０５…画像表示部、１０６…音声処理部、１０７…音声出力部
　１０８…制御部、１０９…音声明瞭度評価部
　３０１…発音生成部、３０２、強制アライメント部
　３０３…特徴量抽出部、３０４…音響モデル
　３０５…音声明瞭度計算部、３０６…マッチング部
　３０７…音素自由ネットワーク
　６００…テレビ受信装置、６０１…外部音入力部
　８０１…ユーザ監視部
　１０００…オーサリング装置、１００１…蓄積部
　１００２…取り出し部、１００３…デコード部
　１００４…字幕情報抽出部、１００５…音声明瞭度評価部
　１００６…メタデータ編集部
　１５００…テレビ受信装置、１５０１…デコード部
　１５０２…画像処理部、１５０３…字幕情報抽出部
　１５０４…字幕情報処理部、１５０５…画像表示部
　１５０６…音声処理部、１５０７…音声出力部、１５０８…制御部

Claims

　映像及び音声コンテンツの再生装置において字幕の表示を制御する制御装置であって、
　音声の性質を評価する評価部と、
　前記評価部の評価結果に基づいて字幕の表示の有無を判定する判定部と、
を具備する制御装置。
　前記評価部は、前記再生装置に入力される原音声、又は前記再生装置の出力音声の性質を評価する、
請求項１に記載の制御装置。
　前記評価部は、音声の発音の明瞭度を評価し、
　前記判定部は、発音の明瞭度に基づいて字幕の表示の有無を判定する、
請求項１に記載の制御装置。
　前記評価部は、字幕用の文字列と字幕の区間に対応する音声に基づいて、音声の発音の明瞭度を評価する、
請求項３に記載の制御装置。
　前記判定部は、前記評価部による評価結果が低い音声に対応する字幕を表示すると判定し、評価結果が高い音声に対応する字幕を表示しないと判定する、
請求項１に記載の制御装置。
　前記評価部は、字幕の文字列に対応する音素系列と字幕の時間に対応する音声との一致度と、語彙の制約のない音素系列と字幕の時間に対応する音声との一致度に基づいて、音声の発音の明瞭度を評価する、
請求項１に記載の制御装置。
　前記評価部は、前記再生装置から出力される映像及び音声を視聴するユーザの情報を考慮して、音声の性質を評価する、
請求項１に記載の制御装置。
　前記判定部は、字幕を表示すると判定する場合、さらに字幕の表示方法を判定する、
請求項１に記載の制御装置。
　音声が複数の発話者の音声を含む場合、前記評価部は発話者毎に音声の性質を評価し、前記判定部は発話者毎に前記評価部の評価結果に基づいて字幕の表示の有無を判定する、
請求項１に記載の制御装置。
　前記判定部は、音声に含まれる発話の言語の種類と、前記再生装置から出力される映像及び音声を視聴するユーザが理解できる言語の種類の関係に基づいて、字幕の表示の有無を判定する、
請求項１に記載の制御装置。
　前記判定部の判定結果をコンテンツのメタデータとして記録する記録部をさらに備える、
請求項１に記載の制御装置。
　メタデータに基づいて、コンテンツへの字幕の付与をガイドする、
請求項１１に記載の制御装置。
　メタデータに基づいて、音声の協調処理又はノイズ抑圧処理のうち少なくともいずれかを行う、
請求項１１に記載の制御装置。
　映像及び音声コンテンツの再生装置において字幕の表示を制御する制御方法であって、
　音声の性質を評価する評価ステップと、
　前記評価部の評価結果に基づいて字幕の表示の有無を判定する判定ステップと、
を有する制御方法。
　映像及び音声コンテンツの再生装置における字幕の表示を制御するための処理をコンピュータ上で実行するようにコンピュータ可読形式で記述されたコンピュータプログラムであって、前記コンピュータを、
　音声の性質を評価する評価部、
　前記評価部の評価結果に基づいて字幕の表示の有無を判定する判定部、
として機能させるコンピュータプログラム。
　映像及び音声コンテンツの再生装置と、
　音声の性質を評価する評価部と、
　前記評価部の評価結果に基づいて字幕の表示の有無を判定する判定部と、
を具備し、前記判定部の判定結果に基づいて前記再生装置における字幕の表示が制御される、コンテンツ再生システム。