WO2021157192A1 - 制御装置及び制御方法、コンピュータプログラム、並びにコンテンツ再生システム - Google Patents

制御装置及び制御方法、コンピュータプログラム、並びにコンテンツ再生システム Download PDF

Info

Publication number
WO2021157192A1
WO2021157192A1 PCT/JP2020/046052 JP2020046052W WO2021157192A1 WO 2021157192 A1 WO2021157192 A1 WO 2021157192A1 JP 2020046052 W JP2020046052 W JP 2020046052W WO 2021157192 A1 WO2021157192 A1 WO 2021157192A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
voice
subtitles
subtitle
evaluation
Prior art date
Application number
PCT/JP2020/046052
Other languages
English (en)
French (fr)
Inventor
浩明 小川
ミヒャエル ヘンチェル
典子 戸塚
知香 明賀
康治 浅野
眞大 山本
匡伸 中村
智恵 山田
高橋 晃
加奈 西川
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2021157192A1 publication Critical patent/WO2021157192A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams

Definitions

  • FIG. 1 is a diagram showing a configuration example of the television receiving device 100.
  • FIG. 2 is a flowchart showing a processing procedure for controlling the presence / absence of output of subtitle information based on the intelligibility of audio.
  • FIG. 3 is a diagram showing an example of the internal configuration of the voice intelligibility evaluation unit 109.
  • FIG. 4 is a diagram showing an example of learning data for speech intelligibility calculation.
  • FIG. 5 is a diagram for explaining the process performed by the forced alignment unit 302.
  • FIG. 6 is a diagram showing a configuration example (second embodiment) of the television receiving device 600.
  • FIG. 7 is a diagram showing an internal configuration example (second embodiment) of the voice intelligibility evaluation unit 109.
  • the decoding unit 101 demultiplexes the input signal into a video signal and an audio signal. Then, for the video signal, for example, an MPEG (Moving Picture Experts Group) encoded video signal is decoded and output to the image processing unit 102.
  • the audio signal for example, the audio signal encoded by a coding method such as MP3 (MPEG Audio Layer3) or HE-AAC (High Effective Audio MPEG4 Advanced Audio Coding) is decoded and processed by the audio processing unit 106 and the audio. Output to the clarity evaluation unit 109.
  • the voice intelligibility evaluation unit 109 receives the subtitle information from the subtitle information extraction unit 103, and receives the voice of the section corresponding to the subtitle information from the decoding unit 101 (step S1601).
  • FIG. 7 shows an example of the internal configuration of the audio intelligibility evaluation unit 109 of the television receiving device 600 according to the second embodiment.
  • the main difference from the configuration example shown in FIG. 3 is that the external sound input by the external sound input unit 601 is input to the feature amount extraction unit 303.
  • this metadata can be used to feed back audio intelligibility to content editors.
  • the content editor says, "This subtitle is absolutely necessary” and "This subtitle should be displayed” for each section of audio corresponding to the subtitle information. , "This subtitle is not necessary” and so on.
  • a guide for adding subtitles to the content such as an icon indicating voice intelligibility may be displayed. ..
  • Content editors can observe the facial expressions of the icons to understand the need to display subtitle information.
  • the evaluation unit evaluates the nature of the voice for each speaker, and the determination unit displays subtitles for each speaker based on the evaluation result of the evaluation unit.
  • Evaluation department that evaluates the nature of voice
  • Judgment unit that determines whether or not subtitles are displayed based on the evaluation result of the evaluation unit
  • a computer program that acts as.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

映像及び音声コンテンツの再生装置において字幕の表示を制御する制御装置を提供する。 制御装置は、音声の性質を評価する評価部と、前記評価部の評価結果に基づいて字幕の表示の有無を判定する判定部を具備する。前記評価部は、字幕用の文字列と字幕の区間に対応する音声に基づいて、音声の発音の明瞭度を評価する。前記判定部は、前記評価部による評価結果が低い音声に対応する字幕を表示すると判定し、評価結果が高い音声に対応する字幕を表示しないと判定する。

Description

制御装置及び制御方法、コンピュータプログラム、並びにコンテンツ再生システム
 本明細書で開示する技術(以下、「本開示」とする)は、テレビや映画などのコンテンツを視聴する際の字幕の表示を制御する制御装置及び制御方法、コンピュータプログラム、並びにコンテンツ再生システムに関する。
 テレビや映画などのコンテンツを視聴する際に、視聴者が理解できる言語で明瞭に聴き取れる音声であれば、字幕は必要ない。一方、話されている言葉が聞き取りにくい場合など、字幕があれば内容の理解に役立つことがある。いずれにせよ、必要とされていない場合に字幕が常に表示されると、映像が文字で隠れてしまうなど、視聴者にとって煩わしい。
 例えば、テレビなどの音声の出力音量を監視して、音量が閾値以上であれば字幕の表示をオフにする受信装置について提案がなされている(特許文献1を参照のこと)。
 ところが、出力される音量が大きい場合でも、音声の発音が不明瞭であれば、字幕は必要である。また、出力され音声が小さい場合でも、音声の発音が明瞭であれば、字幕は必要でない。また、周囲環境のノイズの影響に応じて、字幕が必要になる場合もあれば、字幕が必要でない場合もある。
特開2009-267900号公報
 本開示の目的は、テレビや映画などのコンテンツを視聴する際に不要な字幕の表示を制御する制御装置及び制御方法、コンピュータプログラム、並びにコンテンツ再生システムを提供することにある。
 本開示は、上記課題を参酌してなされたものであり、その第1の側面は、
 映像及び音声コンテンツの再生装置において字幕の表示を制御する制御装置であって、
 音声の性質を評価する評価部と、
 前記評価部の評価結果に基づいて字幕の表示の有無を判定する判定部と、
を具備する制御装置である。
 前記評価部は、字幕用の文字列と字幕の区間に対応する音声に基づいて、音声の発音の明瞭度を評価する。具体的には、前記評価部は、字幕の文字列に対応する音素系列と字幕の時間に対応する音声との一致度と、語彙の制約のない音素系列と字幕の時間に対応する音声との一致度に基づいて、音声の発音の明瞭度を評価する。
 そして、前記判定部は、前記評価部による評価結果が低い音声に対応する字幕を表示すると判定し、評価結果が高い音声に対応する字幕を表示しないと判定する。
 また、本開示の第2の側面は、
 映像及び音声コンテンツの再生装置において字幕の表示を制御する制御方法であって、
 音声の性質を評価する評価ステップと、
 前記評価部の評価結果に基づいて字幕の表示の有無を判定する判定ステップと、
を有する制御方法である。
 また、本開示の第3の側面は、
 映像及び音声コンテンツの再生装置における字幕の表示を制御するための処理をコンピュータ上で実行するようにコンピュータ可読形式で記述されたコンピュータプログラムであって、前記コンピュータを、
 音声の性質を評価する評価部、
 前記評価部の評価結果に基づいて字幕の表示の有無を判定する判定部、
として機能させるコンピュータプログラムである。
 本開示の第3の側面に係るコンピュータプログラムは、コンピュータ上で所定の処理を実現するようにコンピュータ可読形式で記述されたコンピュータプログラムを定義したものである。換言すれば、本開示の第3の側面に係るコンピュータプログラムをコンピュータにインストールすることによって、コンピュータ上では協働的作用が発揮され、本開示の第1の側面に係る制御装置と同様の作用効果を得ることができる。
 また、本開示の第4の側面は、
 映像及び音声コンテンツの再生装置と、
 音声の性質を評価する評価部と、
 前記評価部の評価結果に基づいて字幕の表示の有無を判定する判定部と、
を具備し、前記判定部の判定結果に基づいて前記再生装置における字幕の表示が制御される、コンテンツ再生システムである。
 但し、ここで言う「システム」とは、複数の装置(又は特定の機能を実現する機能モジュール)が論理的に集合した物のことを言い、各装置や機能モジュールが単一の筐体内にあるか否かは特に問わない。
 本開示によれば、テレビや映画などのコンテンツを視聴する際に不要な字幕の表示を制御する制御装置及び制御方法、コンピュータプログラム、並びにコンテンツ再生システムを提供することができる。
 なお、本明細書に記載された効果は、あくまでも例示であり、本開示によりもたらされる効果はこれに限定されるものではない。また、本開示が、上記の効果以外に、さらに付加的な効果を奏する場合もある。
 本開示のさらに他の目的、特徴や利点は、後述する実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。
図1は、テレビ受信装置100の構成例を示した図である。 図2は、音声の明瞭度に基づいて字幕情報の出力の有無を制御するための処理手順を示したフローチャートである。 図3は、音声明瞭度評価部109の内部構成例を示した図である。 図4は、音声明瞭度計算のための学習データの例を示した図である。 図5は、強制アライメント部302で行われる処理を説明するための図である。 図6は、テレビ受信装置600の構成例(第2の実施例)を示した図である。 図7は、音声明瞭度評価部109の内部構成例(第2の実施例)を示した図である。 図8は、ユーザプロファイルを考慮して音声の明瞭度を評価する音声明瞭度評価部109の内部構成例を示した図である。 図9は、音声明瞭度及び音声の言語の種類に基づいて字幕情報の出力の有無を制御するための処理手順を示したフローチャートである。 図10は、オーサリング装置1000の構成例を示した図である。 図11は、音声明瞭度を含むメタデータを編集するための処理手順を示したフローチャートである。 図12は、字幕情報とアイコンを表示した例を示した図である。 図13は、字幕情報とアイコンを表示した例を示した図である。 図14は、字幕情報とアイコンを表示した例を示した図である。 図15は、メタデータに基づいて字幕の表示を制御するテレビ受信装置1500の構成例を示した図である。 図16は、音声明瞭度評価部109で実行される処理手順を示したフローチャートである。
 以下、図面を参照しながら本開示の実施形態について詳細に説明する。
 図1には、本開示が適用されるテレビ受信装置100の構成例を模式的に示している。図示のテレビ受信装置100は、デコード部101と、画像処理部102と、字幕情報抽出部103と、字幕情報処理部104と、画像表示部105と、音声処理部106と、音声出力部107と、制御部108と、音声明瞭度評価部109を備えている。なお、テレビ受信装置100は、図1に示した以外のコンポーネントを備えていてもよいが、本開示に直接関連しないので、図示及び説明を省略する。また、以下の説明で単に「ユーザ」と言うとき、テレビ受信装置100から出力される映像及び音声を視聴するユーザを指すものとする(他の実施例についても同様)。
 入力端子には、例えば地上デジタル放送や衛星デジタル放送などの放送波の受信信号が入力される。あるいは、ストリーミングサーバから配信されたAVストリームの受信信号や、ブルーレイディスクやDVD(Digital Versatile Disc)などの記録メディアから再生した再生信号が入力端子に入力されることもある。いずれにせよ、入力端子への入力信号は、映像と音声が多重化された信号であり、且つ、字幕情報が含まれているものとする。入力端子に入力された信号は2つに分岐され、一方はデコード部101に送られ、他方は字幕情報抽出部103に送られる。
 デコード部101は、入力信号を映像信号と音声信号に非多重化する。そして、映像信号については、例えばMPEG(Moving Picture Experts Group)符号化された映像信号をデコード処理して、画像処理部102に出力する。また、音声信号については、例えばMP3(MPEG Audio Layer3)あるいはHE-AAC(High Efficiency MPEG4 Advanced Audio Coding)などの符号化方式により符号化された音声信号をデコード処理して、音声処理部106と音声明瞭度評価部109に出力する。
 字幕情報抽出部103は、入力信号から字幕情報を抽出して、字幕情報処理部104と音声明瞭度評価部109に出力する。字幕情報は、字幕の表示時間と、字幕として評される文字列を含む。字幕情報処理部104は、字幕として評される文字列の表示位置やタイミングの制御を行い、画像処理部102に出力する。本実施形態では、字幕の文字列は、本編の音声信号と対応し、且つ、表示タイミングは音声信号と同期しているものとする。
 画像処理部102は、デコード部101でデコードした後の映像信号に対して、ノイズ低減、解像度変換、輝度ダイナミックレンジ変換、ガンマ処理などの画像処理を施して、画像情報を生成する。また、画像処理部102は、本編の画像情報と字幕情報を重畳して、画像表示部105に出力する。
 画像表示部105は、画像処理部102から送られてくる画像情報を、画面に表示する。画像表示部105は、例えば液晶ディスプレイや有機EL(Electro-Luminescence)ディスプレイ、あるいは画素に微細なLED(Light Emitting Diode)素子を用いた自発光型ディスプレイなどからなる表示デバイスである。
 音声処理部106は、デコード部101から送られてくる音声信号に対して音量調整、音声の強調処理、ノイズ抑圧処理などの処理を行って、音声出力部107に出力する。音声出力部107は、スピーカーなどの音響発生素子で構成され、音声処理部106から送られてくる音声信号を音声出力する。
 音声明瞭度評価部109は、デコード部101でデコードされた後の音声信号の音声明瞭度を評価する。図1に示す構成例では、音声明瞭度評価部109は、字幕情報抽出部103から字幕の表示時間と字幕として評される文字列を入力して、各字幕情報に対応する音声の区間の明瞭度を評価して、評価結果を制御部108に出力する。
 制御部108は、テレビ受信装置100全体の動作を統括的にコントロールする。例えば制御部108は、画像処理部102での画像の明るさなどを制御したり、音声処理部106での音量を制御したりする。また、制御部108は、音声明瞭度評価部109による音声の明瞭度の評価結果に基づいて、字幕情報処理部104の字幕情報の出力の有無を制御する。具体的には、制御部108は、音声明瞭度評価部109による評価結果が低い(すなわち、明瞭でないと評価された)音声の区間に対応する字幕情報を表示するが、評価結果が高い(すなわち、明瞭であると評価された)音声の区間に対応する字幕情報を表示しないように、字幕情報処理部104から画像処理部102への字幕情報の出力を制御する。
 図2には、テレビ受信装置100において、音声の明瞭度に基づいて字幕情報の出力の有無を制御するための処理手順をフローチャートの形式で示している。この処理手順は、主に音声明瞭度評価部109と制御部108によって実行される。
 音声明瞭度評価部109は、字幕情報抽出部103から字幕情報が送られてくるまで待機する(ステップS201)。
 そして、音声明瞭度評価部109は、字幕情報抽出部103から字幕情報を受け取ると(ステップS201のYes)、デコード部101から、字幕情報に対応する区間の音声を受信する(ステップS202)。
 次いで、音声明瞭度評価部109は、字幕用の文字列と音声に基づいて、音声の発音の明瞭度を計算して(ステップS203)、算出した音声明瞭度を制御部108に出力する。
 制御部108は、音声明瞭度評価部109から受け取った音声明瞭度cを所定の閾値と比較する(ステップS204)。そして、制御部108は、音声明瞭度cが閾値以下である(すなわち、音声が明瞭でない)場合には(ステップS204のYes)、その字幕に該当する区間で字幕情報を表示すると判定する(ステップS205)。また、制御部108は、音声明瞭度cが閾値よりも高い(すなわち、音声が明瞭である)場合には(ステップS204のNo)、その字幕に該当する区間で字幕情報を表示しないと判定する(ステップS206)。そして、制御部108は、判定結果に基づいて、字幕情報処理部104から画像処理部102への字幕情報の出力を制御する。
 図3には、音声明瞭度評価部109の内部構成例を示している。図示の音声明瞭度評価部109は、発音生成部301と、強制アライメント(forced alignment)部302と、特徴量抽出部303と、音響モデル304と、音声明瞭度計算部305と、マッチング部306と、音素自由ネットワーク307を備えている。
 発音生成部301は、字幕情報抽出部103から字幕として入力された文字列に対応する音素系列を生成して、強制アライメント部302に出力する。
 特徴量抽出部303は、デコード部101から入力される、字幕の時間に対応する音声を、特徴量に変換する。この特徴量は、強制アライメント部302とマッチング部306に出力される。
 強制アライメント部302は、字幕の文字列に対応する音素系列と字幕の時間に対応する音声の特徴量とのマッチング処理を、強制アライメント技術を用いて行う。具体的には、強制アライメント部302は、字幕に対応する音素系列と字幕の時間に対応する音声の一致度(音声認識スコアs1)を、音響モデル304を用いて計算して、音声明瞭度計算部305に出力する。強制アライメントは、音素表記列と音声の組から各音素の音声中の出現位置を推定する技術である。
 音響モデル304は、認識対象となる例えば音素などの発音情報と音響特徴量の関係を統計的なモデルで表したものであり、DNN(Deep Newral Network)とHMM(Hidden Markov Model)のハイブリッド音響モデルでもよいし、sequence2sequence型の音響モデル、あるいは混合ガウス分布(Gaussian Mixture Model)のHMM(GMM-HMM)を用いた音響モデルでもよい。
 音素自由ネットワーク307は、任意の文字列に対応する音素系列をマッチング部306に供給する。音素自由ネットワーク307は、音素を自由に遷移できるWFST(Weighted Finite State Transducer:重み付き有限状態トランスデューサ)や、音素間の遷移確率を反映させたWFSTでもよい。
 マッチング部306は、音響モデル304と音素自由ネットワーク307をマッチングさせて、最適な音素系列を生成する。すなわち、マッチング部306は、語彙の制約のない(字幕の文字列に縛られない)音素系列と字幕の時間に対応する音声の特徴量とのマッチング処理を行い、最適な音素系列と字幕の時間に対応する音声の一致度(音声認識スコアs2)を計算して、音声明瞭度計算部305に出力する。最適な音素系列とは、一致度を計算する音声と最もよく一致する音素系列のことである。
 音声明瞭度計算部305は、強制アライメント部302からの音声認識スコアs1とマッチング部306からの音声認識スコアs2より、字幕の時間に対応する音声の明瞭度を計算する。例えば、シグモイド関数を用いて音声明瞭度cを以下の式(1)のように定義することができきる。そして、音声明瞭度計算部305は、強制アライメント部302とマッチング部306からの各入力値s1、s2を下式(1)に代入して、音声明瞭度cを計算する。
Figure JPOXMLDOC01-appb-M000001
 ここで、上式(1)で用いられるa及びbは、学習データからあらかじめ求める定数である。例えば、a=5、b=0である。音声認識スコアs1、s2は負の値である。音声の発音が不明瞭な場合、音声認識スコアs2に比べて音声認識スコアs1が小さくなるので、音声明瞭度cは小さな値になる。字幕を表示すべき不明瞭な発音の場合の音声明瞭度cが0.5より小さな値で、字幕が不要となる明瞭な発音の場合の音声明瞭度cが0.5より大きな値となるように、学習データを用いて定数aとbの値を調整するようにする。図4には、音声明瞭度計算のための学習データの例を示している。
 なお、字幕の文字列に対応する音素系列と、字幕の時間に対応する音声の認識結果から得られる音素系列の一致度に基づいて音声の明瞭度を評価する方法も考えられる。しかしながら、音声信号には字幕に対応する音声以外の音源の波形も重畳されていることが想定されるので、重畳された音声以外の音源の波形に依存して一致度が変化し易いため、この一致度が必ずしも音声の明瞭度を表すとは言い難い。したがって、本出願人は、上述したように、字幕の文字列に対応する音素系列と字幕の時間に対応する音声との一致度と、語彙の制約のない音素系列と字幕の時間に対応する音声との一致度に基づいて、音声の発音の明瞭度を評価することがよいと思料する。
 図16には、音声明瞭度評価部109で実行される処理手順をフローチャートの形式で示している。
 音声明瞭度評価部109は、字幕情報抽出部103から字幕情報を受け取り、デコード部101から字幕情報に対応する区間の音声を受け取る(ステップS1601)。
 次いで、発音生成部301は、字幕情報抽出部103から字幕として入力された文字列に対応する音素系列を生成する。また、特徴量抽出部303は、デコード部101から入力される、字幕の時間に対応する音声を、特徴量に変換する(ステップS1602)。
 強制アライメント部302は、字幕の文字列に対応する音素系列と字幕の時間に対応する音声の特徴量とのマッチング処理を、強制アライメント技術を用いて行い、字幕に対応する音素系列と字幕の時間に対応する音声の一致度(音声認識スコアs1)を得る(ステップS1603)。
 また、マッチング部306は、語彙の制約のない(字幕の文字列に縛られない)音素系列と字幕の時間に対応する音声の特徴量とのマッチング処理を行い、最適な音素系列と字幕の時間に対応する音声の一致度(音声認識スコアs2)を計算する(ステップS1604)。
 そして、音声明瞭度計算部305は、ステップS1603で得た音声認識スコアs1と、ステップS1604で得た音声認識スコアs2から、上式(1)を用いて音声明瞭度cを計算する(ステップS1605)。
 強制アライメント部302で行われる処理について、図5を参照しながら説明する。
 参照番号501には、状態尤度の計算方法を示している。音響特徴量は、音響モデルを用いて、音の状態の尤度に変換される。例えば、音素/a/を3つの状態a0、a1、a2に分解して、各状態の尤度を求める。
 参照番号502には、単語から状態系列への変換方法を示している。字幕情報は、音素の状態系列に変換される。例えば、"赤"に対して音素/a/、/k/、/a/が付与され、さらに音素状態に変換され、"a0 a1 ko k1 k2 a0 a1 a2"となる。
 参照番号503には、参照番号502に示すように生成された状態系列をHMMのモデルに変換した例を示している。このモデルが字幕に対応する音声の特徴量を出力する確率を計算することができる。参照番号503には、状態遷移に遷移確率を示していないが、もちろん遷移確率を用いることができる。
 図5では、説明の便宜上、音素単位でモデル化した3状態のmonophoneで状態を示したが、音素の前後のコンテキストを考慮したtriphone、さらに長いコンテキストを考慮した状態の尤度を用いることもできる。
 第2の実施例では、周囲音などの外部音の影響を考慮して音声の明瞭度を評価する。図6には、第2の実施例に係るテレビ受信装置600の構成例を模式的に示している。図示のテレビ受信装置600は、デコード部101と、画像処理部102と、字幕情報抽出部103と、字幕情報処理部104と、画像表示部105と、音声処理部106と、音声出力部107と、制御部108と、音声明瞭度評価部109を備えている。各コンポーネント101~109の構成及び機能は、第1の実施例に係るテレビ受信装置100(図1を参照のこと)のそれぞれ同一の参照番号が付された同一名称のコンポーネントと同様である。主な相違点は、外部音入力部601が追加され、外部音入力部601から入力される外部音も音声明瞭度評価部109に入力される点と、音声明瞭度評価部109は外部音の影響も考慮して音声の明瞭度を評価する点である。
 外部音入力部601は、テレビ受信装置600の視聴環境に設置されたマイクロフォン(図5では図示を省略)で収音された外部音を入力する。マイクロフォンは、テレビ受信装置600に装備されていてもよいし、テレビ受信装置600の外部に設置されていてもよい。例えば、テレビ受信装置600のリモコンに外部音収音用のマイクロフォンが内蔵されていてもよい。あるいは、マイクロフォンは、視聴者に耳に取り付けたイヤモニタであってもよい。
 マイクロフォンで収音される外部音は、テレビ受信装置600から出力される再生音と、視聴環境におけるノイズなどの周囲音、会話の音声などが含まれる。テレビ受信装置600の出力音を利用してエコーキャンセル技術を用いて、テレビ受信装置600の出力音をキャンセルした音にすることによって、テレビ受信装置600の周囲音をよりよく収音することができる。あるいは、外部音の収音でエコーキャンセルを行わず、字幕に対応する音声も用いず、外部で収音した音のみを用いて音声明瞭度を評価することもできる。
 テレビ受信装置600は、第1の実施例に係るテレビ受信装置100と同様に、図2に示した処理手順に従って、音声の明瞭度に基づいて字幕情報の出力の有無を制御する。ステップS204で、外部音入力部601から入力される外部音も考慮して音声の明瞭度を評価する点で、第1の実施例とは相違する。
 図7には、第2の実施例に係るテレビ受信装置600の音声明瞭度評価部109の内部構成例を示している。図3に示した構成例との主な相違点は、外部音入力部601で入力される外部音が特徴量抽出部303に入力される点である。
 特徴量抽出部303は、デコード部101から入力される音声と外部音を重畳した音声(以下、「外部音重畳音声」とも呼ぶ)を、字幕の時間に対応させて、特徴量に変換する。そして、強制アライメント部302は、強制アライメント技術を用いて、字幕の文字列に対応する音素系列と字幕の時間に対応する外部音重畳音声の特徴量とのマッチング処理を行い、音声の一致度(音声認識スコアs1)を計算する。強制アライメント部302で行われる処理については、図5を参照されたい。
 また、マッチング部306は、語彙の制約のない(字幕の文字列に縛られない)音素系列と字幕の時間に対応する外部音重畳音声の特徴量とのマッチング処理を行い、最適な音素系列と字幕の時間に対応する音声の一致度(音声認識スコアs2)を計算する。
 音声明瞭度計算部305は、強制アライメント部302からの音声認識スコアs1とマッチング部306からの音声認識スコアs2より、字幕の時間に対応する音声の明瞭度cを計算する。音声認識スコアs2が外部音の影響を受けている以外は、第1の実施例と同様に上式(1)を用いて音声の明瞭度cが算出され、その結果に基づいて制御部108により字幕情報の出力の有無が制御される。
変形例(1)-ユーザの個人差を考慮:
 上記では、外部音の影響を考慮して音声の明瞭度を評価する点について説明した。同じ音声で、外部音などの周囲環境が一致する場合であっても、ユーザ毎に音声の明瞭度が異なることが想定される。例えば、聴覚には個人差があり、また、人は加齢に応じて聴覚が変化する。このため、同じ音声であってもユーザ毎に脳内で認識される音声の明瞭度が異なる場合がある。また、幼児や語彙数の少ない人は、字幕の表示を好まないといった、ユーザ毎のプリファレンスの相違があることも想定される。
 そこで、上式(1)で音声明瞭度cを計算し、字幕の表示の有無を判定する閾値cをユーザ毎に変化させるようにしてもよい。あるいは、閾値cを固定して、上式(1)で用いる定数a又はbの少なくとも一方をユーザ毎に変化させるようにしてもよい。また、閾値cと定数a及びbの両方を、ユーザ毎に変化させるようにしてもよい。また、定数a及びbを求めるための学習データ(図4を参照のこと)を、年齢などユーザプロファイル毎に分けて取得して、ユーザプロファイルの応じた定数a及びbを設定するようにしてもよい。また、年齢などのユーザプロファイルに適切な閾値c又は定数a及びbを推定するように深層学習された人工知能モデルを用いて、閾値c、定数a及びbを設定するようにしてもよい。
 図8には、年齢などのユーザプロファイルをさらに考慮して音声の明瞭度を評価する音声明瞭度評価部109の内部構成例を示している。図示の音声明瞭度評価部109は、ユーザ監視部801が追加される点、及び音声明瞭度計算部305がユーザプロファイルを考慮する点以外は、機能は図7と同様であり、その他のコンポーネントについては説明を省略する。
 ユーザ監視部801は、テレビ受信装置600から出力される映像及び音声を視聴する例えばテレビ受信装置600に装備されたカメラ、あるいはテレビ受信装置600の外部に設置されたカメラであり、ユーザを撮影する。あるいは、ユーザ監視部801は、ユーザの生体情報を取得する生体センサであってもよい。あるいは、ユーザ監視部801は、ユーザが所持するスマートフォンなどの情報端末などからユーザプロファイルに関する情報を読み取るリーダであってもよい。あるいは、ユーザ監視部801は、ユーザ自身がユーザプロファイルに関する情報やユーザ認識情報をマニュアルで入力する入力装置であってもよい。あるいは、ユーザ監視部801は、これらの2以上の組み合わせであってもよい。
 音声明瞭度計算部305は、ユーザ監視部801から入力した情報に基づいてユーザプロファイルを認識して、ユーザプロファイルに応じた閾値、又は上式(1)中の定数a及びbを決定する。例えばユーザを撮影したカメラの撮影画像を入力した場合には、画像認識に基づいて、年齢などのユーザプロファイルを認識する。また、生体センサが検出した生体情報に基づいて、年齢などのユーザプロファイルを認識する。
 そして、音声明瞭度計算部305は、強制アライメント部302からの音声認識スコアs1とマッチング部306からの音声認識スコアs2より、上式(1)を用いて字幕の時間に対応する音声明瞭度cを計算する。音声明瞭度計算部305は、音声明瞭度cを、ユーザプロファイルに基づいて決定した閾値とともに制御部108に出力する。
 制御部108は、音声明瞭度評価部109から受け取った音声明瞭度cと閾値を比較する。そして、制御部108は、音声明瞭度cが閾値以下である(すなわち、音声が明瞭でない)場合には、その字幕に該当する区間で字幕情報を表示すると判定する。また、制御部108は、音声明瞭度cが閾値よりも高い(すなわち、音声が明瞭である)場合には、その字幕に該当する区間で字幕情報を表示しないと判定する。そして、制御部108は、判定結果に基づいて、字幕情報処理部104から画像処理部102への字幕情報の出力を制御する。
変形例(2)-字幕の表示方法の制御:
 また、制御部108は、字幕情報を表示する場合に、ユーザプロファイルやユーザプリファレンスに応じて字幕の表示方法も制御するようにしてもよい。このため、音声明瞭度計算部305は、ユーザ監視部801から入力された情報に基づいて認識したユーザプロファイルやユーザプリファレンスを、音声明瞭度cの計算結果とともに制御部108に出力するようにしてもよい。あるいは、制御部108は、ユーザ監視部801から直接情報を入力するようにしてもよい。
 字幕の表示方法は、字幕の文字のフォントや文字サイズ、輝度コントラスト、字幕にルビを付けること、表示位置などを含む。例えば老人や目の悪い人のために、字幕の文字サイズを大きくしたり太字にしたり、輝度コントラストを大きくしたりして、字幕を読み易くするようにしてもよい。また、子供や語彙数が少ないユーザのために、字幕にルビを付けるようにしてもよい。一方、字幕を表示すべきであるが音声明瞭度が比較的高く、字幕を表示する必要性がやや低いユーザに対しては、字幕の文字フォントを小さくしたり、字幕の表示位置を画面の周縁近くに設定したりして、字幕が目立たないようにしてもよい。
変形例(3)-発話者識別に基づく字幕表示制御:
 テレビ受信装置600などの再生装置で再生される映像及び音声は、発話者が1人とは限らず、むしろ2人以上である場合が多い。発話者が2人以上の場合、音声明瞭度計算部305は、発話者毎に音声明瞭度cを計算するようにしてもよい。そして、制御部108は、発話者毎の音声明瞭度cに基づいて、発話者毎に字幕情報の表示を制御するようにしてもよい。
 例えばドラマや映画などのコンテンツで、滑舌がよい出演者と滑舌が悪い出演者が同時に出現している場合、滑舌が悪い出演者が発話した音声のみ音声明瞭度が低くなり、滑舌が悪い出演者が発話した音声に対してのみ字幕を表示するようにしてもよい。字幕を表示すべき出演者の識別情報を事前に登録しておき、視聴中のコンテンツに出現する出演者を識別して、事前に登録した出演者を識別した区間で字幕を表示するようにしてもよい。
 この変形例は、入力される音声を発話者毎の音声に分離して、発話者毎の音声に対して図2に示した字幕情報の出力制御を行うことで実現される。例えば、テレビ受信装置600に入力される音声が個々の発音オブジェクトがミキシングされないオブジェクトオーディオ(object-based audio)の場合、出演者毎の字幕情報の表示制御を容易に実現することができる。
変形例(4)-言語の種類に基づく字幕表示制御:
 例えば図3に示した音声明瞭度評価部309によって、音声自体は明瞭で、音声明瞭度からは字幕を表示する必要がないと判定される場合であっても、ユーザが理解できない言語で発話される場合には、字幕を表示すべきであると考えられる。そこで、ユーザが理解できない言語による発話に対しては、音声明瞭度に拘わらず、字幕を表示するようにしてもよい。
 例えば、字幕情報抽出部103が入力信号から抽出した字幕情報に基づいて、音声の言語の種類を判定することができる。あるいは、音声情報から音声の言語の種類を判定することができる。図8に示した音声明瞭度評価部109において、特徴量抽出部30が音声から抽出した特徴量に基づいて、音声の言語の種類を判定することができる。
 一方、ユーザ監視部801から入力される情報から認識されるユーザプロファイルやユーザプリファレンスに基づいて、ユーザが理解できる言語の種類を判定することができる。あるいは、テレビ受信装置600の販売地域や購入時に登録されるユーザ情報に基づいて、ユーザが理解できる言語の種類を判定するようにしてもよい。
 そして、音声明瞭度計算部305は、音声の言語の種類が、ユーザが理解できる言語の種類に含まれない場合には、ユーザは音声の言語を理解できないと判定して、上式(1)を用いて計算される音声明瞭度cの値に拘わらず、低い音声明瞭度cの値を出力して、字幕を表示するようにしてもよい。
 また、制御部108は、ユーザは音声の言語を理解できないという判定結果に基づいて、上式(1)を用いて計算される音声明瞭度cの値に拘わらず、字幕を表示するようにしてもよい。あるいは、テレビ受信装置600の販売地域や購入時に登録されるユーザ情報に基づいて、字幕の表示が不要な言語の種類、又は字幕の表示が必要な言語の種類を、テレビ受信装置600に設定しておいてもよい。もちろん、ユーザが理解できるかどうかとは関係なく、音声が特定の言語の種類の場合には字幕を表示するように設定するようにしてもよい。また、ユーザ毎に字幕の表示が必要な言語の種類を設定して、視聴するユーザ毎に字幕の表示が必要な言語の種類を切り替えるようにしてもよい。
 そして、制御部108は、字幕の情報や音声から判定される音声の言語の種類が、ユーザにとって字幕の表示に必要な言語である場合には、字幕を表示するようにしてもよい。例えば、英語音声にのみ字幕を付けることをテレビ受信装置600に設定しておくと、英語に日本語の字幕を付けたテレビドラマや映画のコンテンツを視聴中は字幕を付けるが、途中で日本語のニュースに切り替えられると字幕の表示を停止するなどの字幕表示制御を実現することができる。
 図9には、テレビ受信装置100において、音声明瞭度及び音声の言語の種類に基づいて字幕情報の出力の有無を制御するための処理手順をフローチャートの形式で示している。この処理手順は、主に音声明瞭度評価部109と制御部108によって実行される。
 音声明瞭度評価部109は、字幕情報抽出部103から字幕情報が送られてくるまで待機し(ステップS901)、字幕情報が103から字幕情報を受け取ると(ステップS901のYes)、デコード部101から、字幕情報に対応する区間の音声を受信する(ステップS902)。そして、音声明瞭度評価部109は、字幕用の文字列と音声に基づいて、音声の発音の明瞭度を計算して(ステップSよ03)、算出した明瞭度を制御部108に出力する。
 制御部108は、音声明瞭度評価部109から受け取った音声明瞭度cを所定の閾値と比較する(ステップS904)。そして、制御部108は、音声明瞭度cが閾値以下である(すなわち、音声が明瞭でない)場合には(ステップS904のYes)、その字幕に該当する区間で字幕情報を表示すると判定する(ステップS905)。
 また、制御部108は、音声明瞭度cが閾値よりも高い(すなわち、音声が明瞭である)場合には(ステップS904のNo)、字幕の情報又は音声情報に基づいて音声の言語の種類を判定して(ステップS906)、字幕の表示が不要な言語の種類かどうかをチェックする(ステップS907)。基本的には、ユーザが理解できない言語の種類の音声は字幕の表示が必要であり、ユーザが理解できる言語の種類は字幕の表示が不要である。
 ここで、字幕の表示が必要な言語の種類である場合には(ステップS907のNo)、制御部108は、その字幕に該当する区間で字幕情報を表示すると判定する(ステップS905)。また、字幕の表示が不要な言語の種類である場合には(ステップS907のYes)、制御部108は、その字幕に該当する区間で字幕情報を表示しないと判定する(ステップS908)。そして、制御部108は、判定結果に基づいて、字幕情報処理部104から画像処理部102への字幕情報の出力を制御する。
 第1の実施例では、テレビ受信装置100など字幕情報付きのコンテンツを再生する再生装置に本開示を適用した例を示した。本開示は、さらに字幕情報付きのコンテンツを編集するオーサリング装置にも適用することができる。
 図10には、第3の実施例に係るオーサリング装置1000の構成例を模式的に示している。オーサリング装置1000は、コンテンツ制作者などの映像及びコンテンツの編集を支援する装置である。本明細書では、便宜上、「装置」と呼んでいるが、パーソナルコンピュータ上で実行される編集支援ソフトやオーサリングツールであってもよい。
 図10に示すオーサリング装置1000は、蓄積部1001と、取り出し部1002と、デコード部1003と、字幕情報抽出部1004と、音声明瞭度評価部1005と、メタデータ編集部1006を備えている。
 蓄積部1001は、HDD(Hard Disc Drive)などの大容量記憶装置、あるいはインターネットなどのネットワーク上のサーバ装置であってもよい。蓄積部1001は、オーサリングの対象となるコンテンツを蓄積している。本実施例でオーサリング対象となるコンテンツは、字幕情報付きの映像及び音声コンテンツである。
 取り出し部1002は、オーサリング装置1000においてオーサリングしようとするコンテンツを、蓄積部1001から取り出す。蓄積部1001がHDDであれば、取り出し部1002はディスクインターフェースを備えている。また、蓄積部1001がサーバ装置であれば、取り出し部1002はネットワークインターフェースを備えている。
 取り出し部1002の出力信号は、2つに分岐され、一方はデコード部1003に送られ、他方は字幕情報抽出部1004に送られる。デコード部1003は、入力信号を映像信号と音声信号に非多重化して、音声信号を音声明瞭度評価部1005に出力する。字幕情報抽出部1004は、入力信号から字幕情報を抽出して、音声明瞭度評価部1005に出力する。
 音声明瞭度評価部1005は、デコード部1003でデコードされた後の音声信号の音声明瞭度を評価する。第1の実施例と同様に、音声明瞭度評価部1005は、字幕情報抽出部1004から字幕の表示時間と字幕として評される文字列を入力して、各字幕情報に対応する音声の区間の明瞭度を評価して、評価結果をメタデータ編集部1006に出力する。音声明瞭度評価部1005は、例えば図3と同様の構成を備え、上式(1)を用いて音声明瞭度cを計算する。
 メタデータ編集部1006は、取り出し部1002が蓄積部1001から取り出したコンテンツのメタデータの編集を行う。具体的には、メタデータ編集部1006は、明瞭度評価部1005による音声の明瞭度の評価結果をメタデータに記録する。メタデータのデータフォーマットは特に限定されないが、字幕情報に対応する音声の区間に対する評価結果が記録される。メタデータ編集部1006は、編集したメタデータを蓄積部1001に格納する。
 図11には、オーサリング装置1000において、音声明瞭度を含むメタデータを編集するための処理手順をフローチャートの形式で示している。
 音声明瞭度評価部1005は、字幕情報抽出部1004から字幕情報を受け取ると(ステップS1101のYes)、デコード部1002から、字幕情報に対応する区間の音声を受信する(ステップS1102)。そして、音声明瞭度評価部1005は、字幕用の文字列と音声に基づいて、音声の発音の明瞭度を計算して(ステップS1103)、算出した音声明瞭度cをメタデータ編集部1006に出力する。
 メタデータ編集部1006は、音声明瞭度評価部1005から受け取った音声明瞭度cを、該当する音声の区間のメタデータとしてそのまま記録してもよい。図11に示す処理手順では、メタデータ編集部1006は、音声明瞭度評価部1005から受け取った音声明瞭度cを所定の閾値と比較して(ステップS1104)、音声明瞭度cが閾値以下である(すなわち、音声が明瞭でない)場合には(ステップS1104のYes)、その字幕に該当する区間で字幕情報を表示するとメタデータに記録する(ステップS1105)。また、メタデータ編集部1006は、音声明瞭度cが閾値よりも高い(すなわち、音声が明瞭である)場合には(ステップS1104のNo)、その字幕に該当する区間で字幕情報を表示しないとメタデータに記録する(ステップS1106)。そして、メタデータ編集部1006は、編集したメタデータを蓄積部1001に格納する。
 字幕情報に対応する音声の区間毎の音声明瞭度の情報を含むメタデータの活用方法はさまざまである。
 例えば、このメタデータを用いて、コンテンツの編集者に対して音声明瞭度をフィードバックすることができる。コンテンツの編集者は、メタデータに記録されている音声明瞭度cに基づいて、字幕情報に対応する音声の区間毎に、「この字幕は絶対必要」、「この字幕は表示した方がよい」、「この字幕はなくてもよい」などを判断することができる。例えば、図12~図14に示すようにオーサリング装置1000の編集画面で、字幕情報を表示する際に、音声明瞭度を表すアイコンなど、コンテンツへの字幕付与のガイドを表示するようにしてもよい。コンテンツの編集者は、アイコンの表情を観察して、字幕情報を表示する必要性を理解することができる。
 あるいは、コンテンツの編集者は、メタデータに記録されている字幕情報の表示の有無に関する情報に基づいて、字幕情報に対応する音声の区間毎に、字幕情報を付けたり、字幕情報を外したりすることができる。
 また、コンテンツの編集者は、字幕情報に対応する音声の区間毎の音声明瞭度の情報を含むメタデータを使って、字幕の表示の編集ではなく、音声の編集を行うようにしてもよい。例えば、コンテンツの編集者は、音声明瞭度cが低い区間や字幕情報を表示すると記録された区間における音声の強調処理やノイズ抑圧処理を行うようにしてもよい。背景音が制御可能なら音量を小さくする操作をコンテンツの制作者が手動で行ったり、メタデータに基づいて自動で行ったりすることができる。また、音声が明瞭でない区間の音声の強調処理を行った後に、再び音声の明瞭度の評価を行うようにしてもよい。コンテンツの編集者は、音声明瞭度の再評価結果を記録したメタデータを使って、字幕の表示の編集や音声の編集を繰り返して、音声が明瞭でない、あるいは不要な字幕が表示されるという問題を解決することができる。
 また、テレビ受信装置などのコンテンツ再生装置側でも、字幕情報に対応する音声の区間毎の音声明瞭度の情報を含むメタデータを使って、字幕情報の表示の有無を制御することができる。メタデータを使用する場合、コンテンツ再生装置は、音声明瞭度を評価する必要がなくなり、装置コストや計算コストを低減することができる。
 図15には、メタデータに基づいて字幕の表示を制御するテレビ受信装置1500の構成例を模式的に示している。図示のテレビ受信装置1500は、デコード部1501と、画像処理部1502と、字幕情報抽出部1503と、字幕情報処理部1504と、画像表示部1505と、音声処理部1506と、音声出力部1507と、制御部1508を備えている。なお、テレビ受信装置1500は、図1に示した以外のコンポーネントを備えていてもよいが、本開示に直接関連しないので、図示及び説明を省略する。
 入力端子への入力信号は、映像と音声とメタデータが多重化された信号であり、且つ、字幕情報が含まれているものとする。入力端子に入力された信号は2つに分岐され、一方はデコード部1501に送られ、他方は字幕情報抽出部1503に送られる。
 デコード部1501は、入力信号を映像信号と音声信号とメタデータに非多重化する。そして、映像信号については、例えばMPEG符号化された映像信号をデコード処理して、画像処理部1502に出力する。また、音声信号については、例えばMP3あるいはHE-AACなどの符号化方式により符号化された音声信号をデコード処理して、音声処理部1506に出力する。また、メタデータについては、制御部1508に出力する。
 字幕情報抽出部1503は、入力信号から字幕情報を抽出して、字幕情報処理部1504に出力する。字幕情報は、字幕の表示時間と、字幕として評される文字列を含む。字幕情報処理部1504は、字幕として評される文字列の表示位置やタイミングの制御を行い、画像処理部1502に出力する。
 画像処理部1502は、デコード部1501でデコードした後の映像信号に対して、ノイズ低減、解像度変換、輝度ダイナミックレンジ変換、ガンマ処理などの画像処理を施して、画像情報を生成する。また、画像処理部1502は、本編の画像情報と字幕情報を重畳して、画像表示部1505に出力する。画像表示部1505は、画像処理部1502から送られてくる画像情報を、画面に表示する。音声処理部1506は、デコード部1501から送られてくる音声信号に対して音量調整、音声の強調処理、ノイズ抑圧処理などの処理を行って、音声出力部1507に出力する。音声出力部107は、音声処理部1506から送られてくる音声信号を音声出力する。
 制御部1508は、メタデータに含まれる字幕の表示の有無に関する情報に基づいて、字幕情報処理部1504の字幕情報の出力の有無を制御する。具体的には、制御部1508は、メタデータに含まれる音声明瞭度cが所定の閾値以下、又はメタデータに字幕を表示すると記録された音声の区間に対応する字幕情報を表示するが、メタデータに含まれる音声明瞭度cが所定の閾値よりも高い、又はメタデータに字幕を表示しないと記録された音声の区間に対応する字幕情報を表示しないように、字幕情報処理部1504から画像処理部1502への字幕情報の出力を制御する。
 以上、特定の実施形態を参照しながら、本開示について詳細に説明してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。
 本開示は、テレビ受信装置の他、パーソナルコンピュータ、スマートフォンやタブレットといった情報端末など、字幕情報付きのコンテンツを再生可能なさまざまな情報機器に適用することができる。また、本開示が対象とするコンテンツは、テレビ放送のコンテンツ、ストリーミングサーバから配信されるストリーミングコンテンツ、ブルーレイディスクやDVDなどの記録メディアから再生される再生コンテンツなど、字幕情報付きのさまざまなコンテンツである。また、本開示は、字幕情報付きのコンテンツを編集するオーサリング装置にも適用することができる。
 要するに、例示という形態により本開示について説明してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本開示の要旨を判断するためには、特許請求の範囲を参酌すべきである。
 なお、本開示は、以下のような構成をとることも可能である。
(1)映像及び音声コンテンツの再生装置において字幕の表示を制御する制御装置であって、
 音声の性質を評価する評価部と、
 前記評価部の評価結果に基づいて字幕の表示の有無を判定する判定部と、
を具備する制御装置。
(2)前記評価部は、前記再生装置に入力される原音声、又は前記再生装置の出力音声の性質を評価する、
上記(1)に記載の制御装置。
(3)前記評価部は、音声の発音の明瞭度を評価し、
 前記判定部は、発音の明瞭度に基づいて字幕の表示の有無を判定する、
上記(1)又は(2)のいずれかに記載の制御装置。
(4)前記評価部は、字幕用の文字列と字幕の区間に対応する音声に基づいて、音声の発音の明瞭度を評価する、
上記(3)に記載の制御装置。
(5)前記判定部は、前記評価部による評価結果が低い音声に対応する字幕を表示すると判定し、評価結果が高い音声に対応する字幕を表示しないと判定する、
上記(1)乃至(4)のいずれかに記載の制御装置。
(6)前記評価部は、字幕の文字列に対応する音素系列と字幕の時間に対応する音声との一致度と、語彙の制約のない音素系列と字幕の時間に対応する音声との一致度に基づいて、音声の発音の明瞭度を評価する、
上記(1)乃至(5)のいずれかに記載の制御装置。
(6-1)前記評価部は、強制アライメントにより字幕の文字列に対応する音素系列と字幕の時間に対応する音声との一致度を計算する、
上記(6)に記載の制御装置。
(7)前記評価部は、前記再生装置から出力される映像及び音声を視聴するユーザの情報を考慮して、音声の性質を評価する、
上記(1)乃至(6)のいずれかに記載の制御装置。
(8)前記判定部は、字幕を表示すると判定する場合、さらに字幕の表示方法を判定する、
上記(1)乃至(7)のいずれかに記載の制御装置。
(9)音声が複数の発話者の音声を含む場合、前記評価部は発話者毎に音声の性質を評価し、前記判定部は発話者毎に前記評価部の評価結果に基づいて字幕の表示の有無を判定する、
上記(1)乃至(8)のいずれかに記載の制御装置。
(10)前記判定部は、音声に含まれる発話の言語の種類と、前記再生装置から出力される映像及び音声を視聴するユーザが理解できる言語の種類の関係に基づいて、字幕の表示の有無を判定する、
上記(1)乃至(9)のいずれかに記載の制御装置。
(11)前記判定部の判定結果をコンテンツのメタデータとして記録する記録部をさらに備える、
上記(1)乃至(10)のいずれかに記載の制御装置。
(12)メタデータに基づいて、コンテンツへの字幕の付与をガイドする、
上記(11)に記載の制御装置。
(13)メタデータに基づいて、音声の協調処理又はノイズ抑圧処理のうち少なくともいずれかを行う、
上記(11)に記載の制御装置。
(14)映像及び音声コンテンツの再生装置において字幕の表示を制御する制御方法であって、
 音声の性質を評価する評価ステップと、
 前記評価部の評価結果に基づいて字幕の表示の有無を判定する判定ステップと、
を有する制御方法。
(15)映像及び音声コンテンツの再生装置における字幕の表示を制御するための処理をコンピュータ上で実行するようにコンピュータ可読形式で記述されたコンピュータプログラムであって、前記コンピュータを、
 音声の性質を評価する評価部、
 前記評価部の評価結果に基づいて字幕の表示の有無を判定する判定部、
として機能させるコンピュータプログラム。
(16)映像及び音声コンテンツの再生装置と、
 音声の性質を評価する評価部と、
 前記評価部の評価結果に基づいて字幕の表示の有無を判定する判定部と、
を具備し、前記判定部の判定結果に基づいて前記再生装置における字幕の表示が制御される、コンテンツ再生システム。
 100…テレビ受信装置、101…デコード部、102…画像処理部
 103…字幕情報抽出部、104…字幕情報処理部
 105…画像表示部、106…音声処理部、107…音声出力部
 108…制御部、109…音声明瞭度評価部
 301…発音生成部、302、強制アライメント部
 303…特徴量抽出部、304…音響モデル
 305…音声明瞭度計算部、306…マッチング部
 307…音素自由ネットワーク
 600…テレビ受信装置、601…外部音入力部
 801…ユーザ監視部
 1000…オーサリング装置、1001…蓄積部
 1002…取り出し部、1003…デコード部
 1004…字幕情報抽出部、1005…音声明瞭度評価部
 1006…メタデータ編集部
 1500…テレビ受信装置、1501…デコード部
 1502…画像処理部、1503…字幕情報抽出部
 1504…字幕情報処理部、1505…画像表示部
 1506…音声処理部、1507…音声出力部、1508…制御部

Claims (16)

  1.  映像及び音声コンテンツの再生装置において字幕の表示を制御する制御装置であって、
     音声の性質を評価する評価部と、
     前記評価部の評価結果に基づいて字幕の表示の有無を判定する判定部と、
    を具備する制御装置。
  2.  前記評価部は、前記再生装置に入力される原音声、又は前記再生装置の出力音声の性質を評価する、
    請求項1に記載の制御装置。
  3.  前記評価部は、音声の発音の明瞭度を評価し、
     前記判定部は、発音の明瞭度に基づいて字幕の表示の有無を判定する、
    請求項1に記載の制御装置。
  4.  前記評価部は、字幕用の文字列と字幕の区間に対応する音声に基づいて、音声の発音の明瞭度を評価する、
    請求項3に記載の制御装置。
  5.  前記判定部は、前記評価部による評価結果が低い音声に対応する字幕を表示すると判定し、評価結果が高い音声に対応する字幕を表示しないと判定する、
    請求項1に記載の制御装置。
  6.  前記評価部は、字幕の文字列に対応する音素系列と字幕の時間に対応する音声との一致度と、語彙の制約のない音素系列と字幕の時間に対応する音声との一致度に基づいて、音声の発音の明瞭度を評価する、
    請求項1に記載の制御装置。
  7.  前記評価部は、前記再生装置から出力される映像及び音声を視聴するユーザの情報を考慮して、音声の性質を評価する、
    請求項1に記載の制御装置。
  8.  前記判定部は、字幕を表示すると判定する場合、さらに字幕の表示方法を判定する、
    請求項1に記載の制御装置。
  9.  音声が複数の発話者の音声を含む場合、前記評価部は発話者毎に音声の性質を評価し、前記判定部は発話者毎に前記評価部の評価結果に基づいて字幕の表示の有無を判定する、
    請求項1に記載の制御装置。
  10.  前記判定部は、音声に含まれる発話の言語の種類と、前記再生装置から出力される映像及び音声を視聴するユーザが理解できる言語の種類の関係に基づいて、字幕の表示の有無を判定する、
    請求項1に記載の制御装置。
  11.  前記判定部の判定結果をコンテンツのメタデータとして記録する記録部をさらに備える、
    請求項1に記載の制御装置。
  12.  メタデータに基づいて、コンテンツへの字幕の付与をガイドする、
    請求項11に記載の制御装置。
  13.  メタデータに基づいて、音声の協調処理又はノイズ抑圧処理のうち少なくともいずれかを行う、
    請求項11に記載の制御装置。
  14.  映像及び音声コンテンツの再生装置において字幕の表示を制御する制御方法であって、
     音声の性質を評価する評価ステップと、
     前記評価部の評価結果に基づいて字幕の表示の有無を判定する判定ステップと、
    を有する制御方法。
  15.  映像及び音声コンテンツの再生装置における字幕の表示を制御するための処理をコンピュータ上で実行するようにコンピュータ可読形式で記述されたコンピュータプログラムであって、前記コンピュータを、
     音声の性質を評価する評価部、
     前記評価部の評価結果に基づいて字幕の表示の有無を判定する判定部、
    として機能させるコンピュータプログラム。
  16.  映像及び音声コンテンツの再生装置と、
     音声の性質を評価する評価部と、
     前記評価部の評価結果に基づいて字幕の表示の有無を判定する判定部と、
    を具備し、前記判定部の判定結果に基づいて前記再生装置における字幕の表示が制御される、コンテンツ再生システム。
PCT/JP2020/046052 2020-02-04 2020-12-10 制御装置及び制御方法、コンピュータプログラム、並びにコンテンツ再生システム WO2021157192A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-017403 2020-02-04
JP2020017403 2020-02-04

Publications (1)

Publication Number Publication Date
WO2021157192A1 true WO2021157192A1 (ja) 2021-08-12

Family

ID=77199897

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/046052 WO2021157192A1 (ja) 2020-02-04 2020-12-10 制御装置及び制御方法、コンピュータプログラム、並びにコンテンツ再生システム

Country Status (1)

Country Link
WO (1) WO2021157192A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023202158A1 (zh) * 2022-04-18 2023-10-26 上海哔哩哔哩科技有限公司 视频编码方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007336593A (ja) * 2007-08-13 2007-12-27 Toshiba Corp 情報表示装置、情報表示方法及びプログラム
JP2009130411A (ja) * 2007-11-20 2009-06-11 Nippon Hoso Kyokai <Nhk> 字幕監視装置及び字幕監視プログラム
JP2012015938A (ja) * 2010-07-05 2012-01-19 Renesas Electronics Corp 受信装置、及び受信状態表示方法
JP2015019299A (ja) * 2013-07-12 2015-01-29 船井電機株式会社 シーン検出装置、及びモバイル機器

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007336593A (ja) * 2007-08-13 2007-12-27 Toshiba Corp 情報表示装置、情報表示方法及びプログラム
JP2009130411A (ja) * 2007-11-20 2009-06-11 Nippon Hoso Kyokai <Nhk> 字幕監視装置及び字幕監視プログラム
JP2012015938A (ja) * 2010-07-05 2012-01-19 Renesas Electronics Corp 受信装置、及び受信状態表示方法
JP2015019299A (ja) * 2013-07-12 2015-01-29 船井電機株式会社 シーン検出装置、及びモバイル機器

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023202158A1 (zh) * 2022-04-18 2023-10-26 上海哔哩哔哩科技有限公司 视频编码方法及装置

Similar Documents

Publication Publication Date Title
US11887578B2 (en) Automatic dubbing method and apparatus
JP6463825B2 (ja) 多重話者音声認識修正システム
JP2008546016A (ja) マルチメディア信号で自動的なダビングを実行する方法及び装置
US9767825B2 (en) Automatic rate control based on user identities
KR101958664B1 (ko) 멀티미디어 콘텐츠 재생 시스템에서 다양한 오디오 환경을 제공하기 위한 장치 및 방법
JP2011250100A (ja) 画像処理装置および方法、並びにプログラム
US10354676B2 (en) Automatic rate control for improved audio time scaling
JP2013521523A (ja) 聴覚障害者向けに音声言語を手話に翻訳するシステム
US10375445B2 (en) Apparatus, systems and methods for provision of contextual content
JP2008205745A (ja) 映像再生装置および方法
CN110696756A (zh) 一种车辆的音量控制方法及装置、汽车、存储介质
WO2021157192A1 (ja) 制御装置及び制御方法、コンピュータプログラム、並びにコンテンツ再生システム
US20230107968A1 (en) Systems and methods for replaying a content item
JP4934090B2 (ja) 番組登場人物抽出装置及び番組登場人物抽出プログラム
KR102232642B1 (ko) 스토리 컨텐츠에 대한 음향 효과를 제공하는 미디어 재생 장치 및 음성 인식 서버
JP4509188B2 (ja) 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
JP4086886B2 (ja) 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
US11665392B2 (en) Methods and systems for selective playback and attenuation of audio based on user preference
JP3970080B2 (ja) 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
JP4052561B2 (ja) 映像付帯音声データ記録方法、映像付帯音声データ記録装置および映像付帯音声データ記録プログラム
JP2006093918A (ja) デジタル放送受信装置、デジタル放送受信方法、デジタル放送受信プログラム及びプログラム記録媒体
JP4219129B2 (ja) テレビジョン受像機
US20230362452A1 (en) Distributor-side generation of captions based on various visual and non-visual elements in content
US11736773B2 (en) Interactive pronunciation learning system
JP6169526B2 (ja) 特定音声抑圧装置、特定音声抑圧方法及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20917657

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20917657

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP