WO2020166382A1

WO2020166382A1 - 検出装置、検出方法およびプログラム

Info

Publication number: WO2020166382A1
Application number: PCT/JP2020/003670
Authority: WO
Inventors: 康智大石; 川西　隆仁; 柏野　邦夫
Original assignee: 日本電信電話株式会社
Priority date: 2019-02-13
Filing date: 2020-01-31
Publication date: 2020-08-20
Also published as: US20230216598A1; JP2020135029A; US11728914B2; US20220109517A1; JP7208499B2

Abstract

多種多様な提供クレジットの態様毎に学習データを作成することなく、テレビ放送などの提供クレジットを含む映像から、提供クレジットに係る領域の抽出を可能とする。本発明に係る検出装置（１０）は、事前映像から所定の文字または図形を含む静止画と、若しくは、事前映像から取得された前記所定の文字または図形を含まない静止画と前記所定の音を含む音響信号と、を関連付けることで、対象映像から、所定の文字または図形、および、所定の音の少なくとも一方を含む領域である所望のシーンを検出する検出部（１９）、を備える。

Description

検出装置、検出方法およびプログラム

　本発明は、検出装置、検出方法およびプログラムに関する。

　テレビ放送などにより放送される番組には、番組のスポンサーの企業ロゴの表示、あるいは、番組のスポンサーの名称などのアナウンスにより番組のスポンサーを示す提供クレジットが含まれることがある。提供クレジットには、企業ロゴの表示位置、文字色、使用言語などに応じて種々の態様がある。

　近年、コマーシャルの効果の測定などのために、提供クレジットに含まれる企業ロゴあるいはスポンサーの名称などを称呼した音声（以下、「企業名音声」と称する）から、スポンサーを特定することが求められている。

　従来は、上述した提供クレジットの多様性のために、人手により企業ロゴおよび企業名音声を確認して書き起こすという作業が行われていた（非特許文献１参照）。このような人手による作業は、コストの増加を招いていた。

「ＣＭメタデータ入力支援ツール」、［online］、［２０１９年１月３０日検索］、インターネット＜ＵＲＬ：http://www.jppanet.or.jp/documents/video.html＞

　ロゴ認識技術、音声認識技術などを用いて、企業ロゴ（スポンサーを判別し得る所定の文字または図形）あるいは企業名音声（スポンサーを判別し得る所定の音）を自動的に検出することも考えられる。これらの認識技術を用いるためには、企業ロゴが表示された位置、企業名音声の区間などを検出する必要がある。企業ロゴが表示された位置、企業名音声の区間などを検出するためのモデルを構築することも考えられるが、このようなモデルを構築するために、多様な提供クレジットそれぞれの態様に応じた学習データを作成することは、コストの増加を招いてしまう。

　上記のような問題点に鑑みてなされた本発明の目的は、多種多様な提供クレジットの態様毎に学習データを作成することなく、テレビ放送などの提供クレジットを含む映像から、提供クレジットに係る領域の抽出を可能とする検出装置、検出方法およびプログラムを提供することにある。

　上記課題を解決するため、本発明に係る検出装置は、対象映像から所望のシーンを検出する検出装置であって、事前映像から取得された所定の文字または図形を含む静止画と所定の音を含まない音響信号と、若しくは、事前映像から取得された前記所定の文字または図形を含まない静止画と前記所定の音を含む音響信号と、を関連付けることで、前記対象映像から、前記所定の文字または図形、および、前記所定の音の少なくとも一方を含む領域である前記所望のシーンを検出する検出部、を備える。

　また、上記課題を解決するため、本発明に係る検出装置は、対象映像からＣＭに含まれる提供クレジットに係るシーンを検出する検出装置であって、事前映像から、ＣＭを構成するフレーム若しくは音響信号以外に含まれる、提供クレジットに係る静止画と、提供クレジットに係る音響信号と、を関連付けることで、前記対象映像から前記提供クレジットに係るシーンを検出する検出部、を備える。

　また、上記課題を解決するため、本発明に係る検出方法は、対象映像から所望のシーンを検出する検出装置において実行される検出方法であって、事前映像から取得された所定の文字または図形を含む静止画と所定の音を含まない音響信号と、若しくは、事前映像から取得された前記所定の文字または図形を含まない静止画と前記所定の音を含む音響信号と、を関連付けることで、前記対象映像から、前記所定の文字または図形、および、前記所定の音の少なくとも一方を含む領域である前記所望のシーンを検出するステップと、を含む。

　また、上記課題を解決するため、本発明に係るプログラムは、コンピュータを、上記の検出装置として機能させる。

　本発明に係る検出装置、検出方法およびプログラムによれば、多種多様な提供クレジットの態様毎に学習データを作成することなく、テレビ放送などの提供クレジットを含む映像から、提供クレジットに係る領域の抽出を可能とする。

本発明の一実施形態に係る検出装置の構成例を示す図である。図１に示す学習データ作成部による学習データの作成について説明するための図である。図１に示す学習部が学習に用いるモデルについて説明するための図である。企業ロゴを含む静止画の一例を示す図である。図４Ａに示す静止画を入力した静止画用エンコーダの出力を可視化した図である。図４Ａに示す静止画とペアの音響信号を入力した音響信号用エンコーダの出力を可視化した図である。図１に示す検出装置において実行される検出方法について説明するためのフローチャートである。図１に示す検出装置の検出精度の評価結果の一例を示す図である。

　以下、本発明を実施するための形態について、図面を参照しながら説明する。

　図１は、本発明の一実施形態に係る検出装置１０の構成例を示す図である。本実施形態に係る検出装置１０は、対象映像から所望のシーンを検出するものである。

　図１に示す検出装置１０は、正解メタデータ蓄積部１１と、パラメータ蓄積部１２と、学習データ作成部１３と、学習部１４と、検出用データ作成部１５と、提供クレジット検出部１６と、演算部１７と、認識部１８とを備える。演算部１７および認識部１８は、検出部１９を構成する。

　正解メタデータ蓄積部１１は、番組において、その番組のスポンサーを示す提供クレジットの提示が行われた区間（以下、「提供クレジット区間」と称する。）の時刻データを蓄積する。番組は、例えば、放送された番組あるいはインターネット配信された番組などである。これらの番組における提供クレジットが、例えば、作業者により目視により確認され、提供クレジット区間の開始時刻および終了時刻などの時刻データが、正解メタデータ蓄積部１１に蓄積される。提供クレジット区間には、企業ロゴ（スポンサーを判別し得る所定の文字または図形）の表示と企業名音声（スポンサーを判別し得る所定の音）の出力とが行われた区間だけでなく、企業ロゴの表示だけが行われた区間、および、企業名音声の出力だけが行われた区間も含まれる。以下では、提供クレジット区間が検出済みの映像を事前映像と称する。

　パラメータ蓄積部１２は、後述する、企業ロゴと企業名音声との関連付けモデルに適用するパラメータを蓄積する。企業ロゴと企業名音声との関連付けモデルは、例えば、畳み込みニューラルネットワークを用いたモデルである。詳細な説明は省略するが、畳み込みニューラルネットワークは、一般に、入力側から、畳み込み層とプーリング層とがこの順に、複数回繰り返して配置され、その後、全結合層が配置された構成を有する。畳み込みニューラルネットワークへの入力を画像とすると、畳み込み層では、入力画像に対して畳み込みフィルタを適用する処理が行われる。プーリング層では、畳み込み層の出力に対して、矩形フィルタを順次ずらしていきながら適用し、矩形フィルタ内の最大の値を取り出すなどして新しい画像を生成する処理が行われる。全結合層では、畳み込み層およびプーリング層により特徴部分が取り出された画像データを１つのノードに結合し、活性化関数によって変換された値を出力する処理が行われる。パラメータ蓄積部１２は、例えば、企業ロゴと企業名音声との関連付けモデルが畳み込みニューラルネットワークを用いたモデルである場合、各層で適用するフィルタのフィルタ重み、および、畳み込み層の出力に加算するバイアスパラメータなどを蓄積する。

　学習データ作成部１３は、事前映像が入力され、入力された事前映像から上述した企業ロゴと企業名音声との関連付けモデルに適用するパラメータを学習するための学習データを作成する。学習データ作成部１３による学習データの作成について、図２を参照して説明する。

　図２に示すように、事前映像には、番組区間と提供クレジット区間とが含まれる。学習データ作成部１３は、正解メタデータ蓄積部１１に蓄積されている時刻データに基づき、提供クレジット区間を特定する。次に、学習データ作成部１３は、事前映像の映像信号から提供クレジット区間における静止画を所定の時間間隔（例えば、１秒間隔）で抽出する。学習データ作成部１３は、事前映像の音響信号から、抽出した静止画を中心とした所定時間（例えば、前後に３秒間で合計６秒間）の音響信号を抽出する。学習データ作成部１３は、抽出した静止画と音響信号とのペアを学習データとして作成する。

　上述したように、提供クレジット区間には、企業ロゴの表示と企業名音声の出力とが行われた区間だけでなく、企業ロゴの表示だけが行われた区間、および、企業名音声の出力だけが行われた区間も含まれる。したがって、学習データ作成部１３は、企業ロゴ（スポンサーを判別し得る所定の文字または図形）および企業名音声（スポンサーを判別し得る所定の音）を検出済みの事前映像から、企業ロゴを含む静止画と、企業名音声を含まない音響信号とのペアと、企業ロゴを含まない静止画と、企業名音声を含む音響信号とのペアとを少なくとも作成する。また、学習データ作成部１３は、企業ロゴを含む静止画と、企業名音声を含む音響信号とのペアを作成してもよい。

　企業ロゴを含む静止画と、企業名音声を含まない音響信号（提供クレジットの提示が行われていない区間の音響信号）とのペア、および、企業名ロゴを含まない静止画（提供クレジットの提示が行われていない区間の静止画）と、企業名音声を含む音響信号とのペアを用いることで、これらのペアを構成する静止画と音響信号とに潜在的に共通する特徴を抽出することができる。

　なお、図２においては、提供クレジット区間における静止画を１秒間隔で抽出する例を用いて説明したが、これに限られるものではなく、任意の時間間隔で静止画を抽出してよい。また、図２においては、抽出した静止画を中心として６秒間の音響信号を抽出する例を用いて説明した。提供クレジットにおいては、例えば、「この番組は、ご覧のスポンサーでお送りしました。」といった定型的なアナウンスが行われることが多い。音響信号を抽出する時間長は、例えば、このような提供クレジットに関するアナウンスの時間に応じて決定すればよい。

　図１を再び参照すると、学習データ作成部１３は、作成した学習データを学習部１４に出力する。

　学習部１４は、学習データ作成部１３により作成された学習データ（静止画と音響信号とのペア）を用いて、企業ロゴと企業名音声との関連付けモデルに適用するパラメータを学習する。具体的には、学習部１４は、畳み込みニューラルネットワークを利用して静止画から静止画特徴量として特徴ベクトルを抽出する静止画用エンコーダ（静止画特徴量抽出部）と、畳み込みニューラルネットワークを利用して音響信号から音響特徴量として特徴ベクトルを抽出する音響信号用エンコーダ（音響信号特徴量抽出部）とを含むモデルを用いて学習を行う。

　図３は、学習部１４が学習に用いるモデル１４０の構成例を示す図である。

　図３に示すモデル１４０は、静止画用エンコーダ１４１と、音響信号用エンコーダ１４２とを含む。

　静止画用エンコーダ１４１は、畳み込み層１４１ａと、畳み込み層１４１ａの後段に設けられたプーリング層１４１ｂと、プーリング層１４１ｂの後段に設けられた畳み込み層１４１ｃと、畳み込み層１４１ｃの後段に設けられたプーリング層１４１ｄと、プーリング層１４１ｄの後段に設けられた畳み込み層１４１ｅと、畳み込み層１４１ｅの後段に設けられたプーリング層１４１ｆと、プーリング層１４１ｆの後段に設けられた畳み込み層１４１ｇと、畳み込み層１４１ｇの後段に設けられたプーリング層１４１ｈと、プーリング層１４１ｈの後段に設けられた畳み込み層１４１ｉと、畳み込み層１４１ｉの後段に設けられた畳み込み層１４１ｊとを含む。

　図３においては、学習データとして抽出された静止画の行方向のピクセル数および列方向のピクセル数が２２４であるとする。学習データとして抽出された静止画は、ＲＧＢの３色で構成されるとすると、畳み込み層１４１ａには、２２４×２２４のサイズの画像が３チャネルで入力される。

　畳み込み層１４１ａは、入力された静止画の所定領域ごとに、複数のフィルタそれぞれにより畳み込み処理を行い、特徴量を抽出する。畳み込み層１４１ａは、フィルタをスライドさせながら畳み込み処理により抽出した特徴量を、対応する位置にマッピングした画像（特徴マップ）を生成して、後段のプーリング層１４１ｂに出力する。例えば、６４個のフィルタにより畳み込み処理を行ったとすると、畳み込み層１４１ａは、２２４×２２４ピクセルの特徴マップを６４個生成して出力する。この場合、畳み込み層１４１ａの出力は、２２４×２２４×６４と表すことができる。畳み込み層１４１ａにより抽出された特徴量は特徴ベクトルとして表され、上述した例では、特徴ベクトルの次元数は６４である。

　プーリング層１４１ｂは、前段の畳み込み層１４１ａから出力された画像に対して、所定サイズ毎（例えば、２×２ピクセル毎）に、その領域内の最大値あるいは平均値をとるなどして特徴マップを圧縮して、後段の畳み込み層１４１ｃに出力する。プーリング層１４１ｂの出力は、例えば、１１２×１１２×１２８で表される。以下、畳み込み層１４１ｃ，１４１ｅ，１４１ｇ，１４１ｉ，１４１ｊおよびプーリング層１４１ｄ，１４１ｆ，１４１ｈでは同様の処理が行われる。なお、各層を示すブロック内には、各層の出力の具体例を示しているが、本発明はこれに限られるものではない。

　静止画用エンコーダ１４１は、最後段の畳み込み層１４１ｊの出力画像（特徴ベクトル集合）を出力する。以下では、静止画用エンコーダ１４１は、Ｎ_ｒ×Ｎ_ｃ×Ｎ_ｄで表される特徴ベクトル集合を出力するものとする。Ｎ_ｒ，Ｎ_ｃはそれぞれ静止画用エンコーダ１４１の出力画像の行方向、列方向のピクセル数であり、Ｎ_ｄは特徴ベクトルの次元数である。

　音響信号用エンコーダ１４２は、畳み込み層１４２ａと、畳み込み層１４２ａの後段に設けられた畳み込み層１４２ｂと、畳み込み層１４２ｂの後段に設けられたプーリング層１４２ｃと、プーリング層１４２ｃの後段に設けられた畳み込み層１４２ｄと、畳み込み層１４２ｄの後段に設けられたプーリング層１４２ｅと、プーリング層１４２ｅの後段に設けられた畳み込み層１４２ｆと、畳み込み層１４２ｆの後段に設けられたプーリング層ｇと、プーリング層１４２ｇの後段に設けられた畳み込み層１４２ｈと、畳み込み層１４２の後段に設けられたプーリング層１４２ｉとを含む。

　学習部１４は、ペアを構成する音響信号に対する周波数分析（例えば、窓長２５ｍｓ、窓シフト長１０ｍｓ）を行い、４０個のフィルタによりメルフィルタバンク処理を施す。こうすることで、音響信号は、６００×４０のメルスペクトログラムで表される。

　畳み込み層１４２ａは、入力されたメルスペクトログラムに対して、所定区間ごとに複数のフィルタそれぞれにより畳み込み処理を行い、特徴量を抽出する。畳み込み層１４１ａは、フィルタをスライドさせながら畳み込み処理により抽出した特徴量を、対応する位置にマッピングした特徴マップを生成して、後段の畳み込み層１４２ｂに出力する。例えば、畳み込み層１４２が１２８個のフィルタにより畳み込み処理を行った場合、畳み込み層１４２の出力は、６００×１２８と表すことができる。畳み込み層１４２ａにより抽出された特徴量は特徴ベクトルとして表され、上述した例では、特徴ベクトルの次元数は１２８である。

　畳み込み層１４２ｂは、畳み込み層１４２と同様の処理により、畳み込み層１４２ａから出力されたメルスペクトログラム（音響信号）の特徴量を抽出し、プーリング層１４２ｃに出力する。

　プーリング層１４２ｃは、畳み込み層１４２ｂから出力されたメルスペクトログラムを圧縮して、後段の畳み込み層１４２ｄに出力する。プーリング層１４２ｃの出力は、例えば、３００×２５６で表される。以下、畳み込み層１４２ｄ，１４２ｆ，１４２ｈおよびプーリング層１４２ｅ，１４２ｇ，１４１ｉでは同様の処理が行われる。なお、各層を示すブロック内には、各層の出力の具体例を示しているが、本発明はこれに限られるものではない。

　音響信号用エンコーダ１４２は、最後段のプーリング層１４１ｉから出力されたメルスペクトログラム（特徴ベクトル集合）を出力する。以下では、音響信号用エンコーダ１４２は、Ｎ_ｔ×Ｎ_ｄで表される特徴ベクトル集合を出力するものとする。ここで、Ｎ_ｔは音響信号用エンコーダ１４２の出力音響信号（メルスペクトログラムに対応する音響信号）の長さであり、Ｎ_ｄは特徴ベクトルの次元数である。

　モデル１４０は、結合層１４３をさらに含む。結合層１４３は、静止画用エンコーダの出力と音響信号用エンコーダの出力との内積を出力する。

　学習部１４は、ミニバッチサイズをＢとすると、学習データとして作成された静止画と音響信号とのペアを用いて、以下の式（１）の値が最小となるように確率的勾配法を用いて、静止画用エンコーダ１４１および音響信号用エンコーダ１４２（畳み込みニューラルネットワーク）のパラメータを学習する。なお、ミニバッチサイズＢは、パラメータの更新に使用するデータ（静止画と音響信号とのペア）の個数である。

　式（１）において、Ｉ_ｊ，Ａ_ｊはそれぞれ、ｊ番目の静止画と音響信号とのペアに対する静止画用エンコーダ１４１および音響信号用エンコーダ１４２の出力であり、Ｉ_ｊ ^ｉｍｐ，Ａ_ｊ ^ｉｍｐはそれぞれ、ミニバッチ（パラメータの更新に使用するデータ）の中から、ｊ番目にランダムに選択された静止画と音響信号とのペアに対する静止画用エンコーダ１４１および音響信号用エンコーダ１４２の出力であり、Ｓ（Ｉ_ｊ，Ａ_ｊ）は、静止画用エンコーダ１４１の出力Ｉ_ｊと、音響信号用エンコーダ１４２の出力Ａ_ｊとの類似度である。式（１）においては、ペアを構成する静止画と音響信号とに基づき算出される類似度が、ペアを構成しない静止画と音響信号とに基づき算出される類似度（静止画用エンコーダ１４１の出力若しくは音響信号用エンコーダ１４２の出力のいずれか一方を他の値に置き換えて算出される類似度）よりも大きくなるという基準を満たすために、ｍａｘ関数が用いられている。

　類似度Ｓ（Ｉ_ｊ，Ａ_ｊ）の算出方法としては、例えば、以下の５つの算出方法がある。以下では、１つ目の算出方法により算出される類似度をＳ_１（Ｍ）とし、２つ目の算出方法により算出される類似度をＳ_２（Ｍ）とし、３つ目の算出方法により算出される類似度をＳ_３（Ｍ）とし、４つ目の算出方法により算出される類似度をＳ_４（Ｍ）とし、５つ目の算出方法により算出される類似度をＳ_５（Ｍ）とする。類似度Ｓ_１（Ｍ）、類似度Ｓ_２（Ｍ）、類似度Ｓ_３（Ｍ）、類似度Ｓ_４（Ｍ）および類似度Ｓ_５（Ｍ）はそれぞれ、以下の式（２）～式（７）に基づき算出される。

　ここで、Ｉ_{ｒ，ｃ，ｄ}は静止画用エンコーダ１４１の出力要素であり、Ａ_ｔ，ｄは音響信号用エンコーダ１４２の出力要素である。また、ｐは学習により設定されるパラメータである。

　学習部１４は、類似度Ｓ_１（Ｍ）、類似度Ｓ_２（Ｍ）、類似度Ｓ_３（Ｍ）、類似度Ｓ_４（Ｍ）および類似度Ｓ_５（Ｍ）のいずれかを算出し、式（１）の値が最小となる静止画用エンコーダ１４１および音響信号用エンコーダ１４２のパラメータを学習する。なお、学習部１４は、静止画用エンコーダ１４１の出力および音響信号用エンコーダ１４２の出力のいずれか一方を優先するようにパラメータに重み付けをしてもよい。すなわち、類似度は、静止画用エンコーダ１４１により抽出される静止画特徴量と、音響信号用エンコーダ１４２により抽出される音響特徴量とのいずれか一方を優先するように重み付けされてもよい。このような重み付けは、例えば、上述した類似度Ｓ（Ｉ_ｊ，Ａ_ｊ）の算出に用いる式（例えば、式（３）～式（７））の選択により可能である。ここで、式（７）は、上述したパラメータｐの学習も可能とする。パラメータｐの値に応じて、静止画用エンコーダ１４１の出力および音響信号用エンコーダ１４２の出力のいずれを重視するかを決定することができる。式（３）～式（６）においては、パラメータｐの値が固定である（例えば、式（３）はｐ＝１の場合に相当し、式（６）はｐ＝∞に相当する）。したがって、式（３）～式（６）においては、静止画用エンコーダ１４１の出力および音響信号用エンコーダ１４２の出力のいずれかを重視する、若しくは、均等に評価している。してがって、式（７）を用いることで、学習データの学習の状態に応じて、静止画用エンコーダ１４１の出力および音響信号用エンコーダ１４２の出力のいずれを重視するかを最適化することができる。

　図１を再び参照すると、学習部１４は、得られたパラメータをパラメータ蓄積部１２に蓄積する。

　これまでは、学習部１４は、ペアを構成する静止画と音響信号とに基づき算出される類似度が、ペアを構成しない静止画と音響信号とに基づき算出される類似度よりも大きくなるという基準を満たすように、パラメータを学習する例を用いて説明したが、本発明はこれに限られるものではない。学習部１４は、類似度に代えて何らかの評価値（何らかの尤度が得ら得る値）を用いてもよい。静止画用エンコーダ１４１および音響信号用エンコーダ１４２は、事前映像から取得された所定の文字または図形を含む静止画から抽出された静止画特徴量と、所定の音を含まない音響信号から抽出された音響特徴量とから得られる評価値、若しくは、事前映像から取得された所定の文字または図形を含まない静止画から抽出された静止画特徴量と、所定の音を含む音響信号から得られた音響特徴量との評価値が高くなるように設計される。より具体的には、静止画用エンコーダ１４１および音響信号用エンコーダ１４２は、これらの評価値が、ペアを構成しない静止画および音響信号から抽出された静止画特徴量と音響特徴量との評価値よりも高くなるように設計される。

　なお、本実施形態においては、機械学習を用いて提供クレジットに係る静止画と音響信号との共起関係を推定しているが、これに限られるものではない。例えば、上述した学習データ作成部１３で作成した学習データ群の統計的な性質を利用してヒューリスティックに提供クレジットに係る静止画と音響信号との共起関係を推定してもよい。また、静止画用エンコーダ１４１および音響信号用エンコーダ１４２は、機械学習ではなく、入力データを低次元化する線形関数などを用いてもよい。

　検出用データ作成部１５は、企業ロゴおよび企業名音声の少なくとも一方を含む領域である所望のシーンを検出する対象の番組（以下、「対象映像」と称する）が入力される。検出用データ作成部１５は、入力された対象映像の音響信号から、窓長６秒、窓シフト長１秒で音響信号を抽出する。また、検出用データ作成部１５は、対象映像の映像信号から、抽出した音響信号の区間の中心時刻（抽出した音響信号の開始から３秒後の時刻）における静止画を抽出する。検出用データ作成部１５は、抽出した静止画と音響信号とのペアを検出用データとして提供クレジット検出部１６に出力する。なお、本実施形態においては、静止画と音響信号とのペアを検出用データとして用いる例を説明しているが、本発明はこれに限られるものではない。対象映像の静止画および音響信号のいずれか一方のみを検出用データとして用いてもよい。

　提供クレジット検出部１６は、検出用データ作成部１５により作成された検出用データを用いて、対象映像における提供クレジット区間を検出する。

　提供クレジット検出部１６は、例えば、企業ロゴの表示（提供クレジット表示）が検出済みの番組から作成された、提供クレジット表示を含む静止画と、提供クレジット表示を含まない静止画とを学習データとして用いて作成されたモデルを用いて、提供クレジット区間（企業ロゴが表示された区間）を検出することができる。

　また、提供クレジット検出部１６は、対象映像の音声に対する音声認識により、提供クレジットのアナウンスに含まれる関連語句（例えば、「ご覧の」、「番組」、「スポンサー」、「提供」、「お送り」など）を抽出し、その関連語句の出現時刻を起点として所定期間を提供クレジット区間と推定し、提供クレジット区間と推定した区間が所定時間以上継続する場合、その区間を提供クレジット区間として検出することができる。

　提供クレジット検出部１６は、検出した提供クレジット区間における静止画と音響信号とのペアを演算部１７に出力する。

　演算部１７は、パラメータ蓄積部１２に蓄積されているパラメータを、図２を参照して説明したモデル１４０に代入して、企業ロゴと企業名音声との関連付けモデルを構築する。演算部１７は、構築した企業ロゴと企業名音声との関連付けモデルに、提供クレジット検出部１６から出力された、提供クレジット区間における静止画と音響信号とのペアを入力することで、静止画用エンコーダ１４１の出力Ｉ_{ｒ，ｃ，ｄ}および音響信号用エンコーダ１４２の出力Ａ_ｔ，ｄを得る。

　演算部１７は、得られた静止画用エンコーダ１４１の出力Ｉ_{ｒ，ｃ，ｄ}および音響信号用エンコーダ１４２の出力Ａ_ｔ，ｄを、以下の式（８）～式（１０）に代入し、値を算出する。

　図４Ａは、企業ロゴが表示された静止画の一例を示す図である。図４Ａにおいては、背景の像に重畳して、画面の中央に企業ロゴ「ＡＢＣ」が白抜き文字で表示された例を示している。

　図４Ｂは、図４Ａに示す静止画を入力した静止画用エンコーダ１４１の出力Ｉ_{ｒ，ｃ，ｄ}を可視化した図である。図４Ｂにおいては、図４Ａに示す静止画において企業ロゴが表示された領域に対応する領域を白線で示している。図４Ｂに示すように、静止画用エンコーダ１４１の出力Ｉ_{ｒ，ｃ，ｄ}を可視化した画像のうち概ね中央の領域が企業ロゴとして検出されており、この領域は、図４Ａに示す静止画において企業ロゴが表示された領域（白点線で示す領域）と概ね一致している。したがって、静止画用エンコーダ１４１の出力Ｉ_{ｒ，ｃ，ｄ}から、対象映像において企業ロゴが含まれる領域（企業ロゴが表示された位置）を検出可能であることが分かる。

　図４Ｃは、図４Ａに示す静止画とペアの音響信号を入力した音響信号用エンコーダ１４２の出力Ａ_ｔ，ｄを可視化した図である。図４Ｃにおいては、企業名音声が出力されたタイミングを破線で示しており、音響信号の開始後、約０．５秒から１秒の間で、企業名音声が出力された例を示している。図４Ｃに示すように、音響信号用エンコーダ１４２の出力Ａ_ｔ，ｄは、音響信号の開始後、約１秒前後で高いピークを示しており、これは、企業名音声が出力されたタイミングと概ね一致している。したがって、音響信号用エンコーダ１４２の出力Ａ_ｔ，ｄから、対象映像において企業名音声が含まれる領域（企業名音声が出力された区間）を検出可能であることが分かる。

　図１を再び参照すると、演算部１７は、算出したＩ_ｒ、ｃ ^ｓｉｍおよびＡ_ｔ ^ｓｉｍを認識部１８に出力する。

　認識部１８は、演算部１７から出力されたＩ_ｒ、ｃ ^ｓｉｍおよびＡ_ｔ ^ｓｉｍに対して閾値処理を行い、対象映像において企業ロゴを含む領域（企業ロゴが表示された位置）および対象映像において企業名音声を含む領域（企業名音声が出力された区間）である所望のシーンを検出する。認識部１８は、既存の物体認識器および音声認識器などを利用して、特定した領域から企業ロゴおよび企業名音声の少なくとも一方を検出する。

　上述したように、演算部１７および認識部１８は、検出部１９を構成する。したがって、検出部１９は、事前映像から取得された所定の文字または図形を含む静止画と所定の音を含まない音響信号と、若しくは、事前映像から取得された所定の文字または図形を含まない静止画と所定の音を含む音響信号と、を関連付けることで、対象映像から、所定の文字または図形、および、所定の音の少なくとも一方を含む領域である所望のシーンを検出する。より具体的には、検出部１９は、事前映像から取得された所定の文字または図形を含む静止画と所定の音を含まない音響信号と、若しくは、事前映像から取得された所定の文字または図形を含まない静止画と所定の音を含む音響信号とを用いて構築されたモデル（企業ロゴと企業名音声との関連付けモデル）を用いて、対象映像から、企業ロゴ（スポンサーを判別し得る所定の文字または図形）、および、企業名音声（スポンサーを判別し得る所定の音）の少なくとも一方を含む領域である所望のシーンを検出する。

　なお、認識部１８は、対象映像において、企業ロゴを含む静止画が所定数以上連続する区間、または、企業名音声が所定時間以上連続する区間を検出してもよい。こうすることで、より確実に、対象映像において企業ロゴあるいは企業名音声を含む領域を検出することができる。

　また、認識部１８は、企業ロゴを含む静止画が所定数以上連続する区間、または、企業名音声が所定時間以上連続する区間の開始時間および終了時間に関する情報を検出してもよい。開始時間および終了時間は、例えば、検出用データ作成部１５により作成された検出用データを時系列順に処理することで検出することができる。

　次に、本実施形態に係る検出装置１０において実行される検出方法について、図５に示すフローチャートを参照して説明する。

　学習データ作成部１３は、事前映像から、所定の文字または図形を含む静止画と、所定の音（企業名音声）を含まない音響信号とのペアと、所定の文字または図件を含まない静止画と、所定の音を含む音響信号とのペアを作成する（ステップＳ１０１）。

　検出部１９は、学習データ作成部１３により作成された、所定の文字または図形を含む静止画と所定の音を含まない音響信号と、若しくは、事前映像から取得された所定の文字または図形を含まない静止画と所定の音を含む音響信号と、を関連付けることで、対象映像から、所定の文字または図形、および、所定の音の少なくとも一方を含む領域である所望のシーンを検出する（ステップＳ１０２）。

　図６は、上述した類似度Ｓ_１（Ｍ）、類似度Ｓ_２（Ｍ）、類似度Ｓ_３（Ｍ）、類似度Ｓ_４（Ｍ）および類似度Ｓ_５（Ｍ）それぞれを用いて学習されたパラメータを適用した企業ロゴと企業名音声との関連付けモデルによる企業ロゴおよび企業名音声を含む領域の検出結果を示す図である。図６においては、縦軸に適合率（Ｐｒｅｃｉｓｉｏｎ）を示し、横軸に再現率（Ｒｅｃａｌｌ）を示している。適合率とは、提供クレジット（企業名ロゴおよび企業名音声）として検出されたもののうち、正しく検出された提供クレジットの割合である。また、再現率とは、検出されるべき提供クレジットのうち、実際に検出された提供クレジットの割合である。企業ロゴに関する適合率および再現率は、Ｉ_ｒ、ｃ ^ｓｉｍを閾値処理によりバイナリ（０／１）で表現し、実際の企業ロゴの表示領域とピクセルごとに比較することで計算することができる。また、企業名音声に関する適合率および再現率は、Ａ_ｔ ^ｓｉｍを閾値処理によりバイナリで表現し、実際の企業名音声の区間と比較することで計算することができる。

　図６に示すように、音響信号（Ａｕｄｉｏ）については、それぞれの類似度Ｓ（Ｍ）において、概ね同程度の精度が得られた。また、画像（Ｉｍａｇｅ）については、類似度Ｓ_５（Ｍ）を用いた場合に、特に高い精度が得られた。

　このように本実施形態においては、検出装置１０は、事前映像から取得された所定の文字または図形を含む静止画と所定の音を含まない音響信号と、若しくは、事前映像から取得された所定の文字または図形を含まない静止画と所定の音を含む音響信号と、を関連付けることで、対象映像から、所定の文字または図形、および、所定の音の少なくとも一方を含む領域である所望のシーンを検出する検出部１９を備える。

　所定の文字または図形（企業ロゴ）を含む静止画と所定の音（企業名音声）を含まない音響信号と、若しくは、所定の文字または図形を含まない静止画と所定の音を含む音響信号とを関連付けることで、企業ロゴの表示と企業名音声のアナウンスとの対応関係（共起）を抽出し、対象映像から企業ロゴあるいは企業名音声を含む領域である所望のシーンを検出することができる。また、多様な提供クレジットそれぞれの態様に応じた学習データを作成する必要が無いので、コストの増大を抑制することができる。

　なお、本発明は、提供クレジット区間の検出に応用することも可能である。この場合、本実施形態に係る検出装置１０は、事前映像から、ＣＭを構成するフレーム若しくは音響信号以外に含まれる、クレジットに係る静止画と、クレジットに係る音響信号と、を関連付けることで、対象映像からクレジットに係るシーンを検出する検出部１９を備えてもよい。

　より具体的には、静止画用エンコーダ１４１の出力Ｉ_{ｒ，ｃ，ｄ}および音響信号用エンコーダ１４２の出力Ａ_ｔ，ｄは静止画と音響信号とに共通する潜在変数であるとみなす。そして、提供クレジット区間における静止画用エンコーダ１４１および音響信号用エンコーダ１４２の出力と、提供クレジット区間以外の区間における静止画用エンコーダ１４１および音響信号用エンコーダ１４２の出力とを利用して、２クラスの識別器（ニューラルネットワーク、ＳＶＭ（Support Vector Machine））を学習する。検出部１９は、新規の静止画と音響信号とから得られるエンコーダ出力に対して、この識別器を用いることで、提供クレジット区間であるか否かを識別することができる。実験結果では、再現率９７．７％、適合率６８．０％の精度が確認され、静止画あるいは音響信号単独で得られる特徴を利用した識別器と比較して、適合率が改善された（誤検出が抑制された）。

　なお、上述した実施形態においては、ペアとなる静止画と音響信号とに関し、音響信号の区間にその静止画が表示されるタイミングも含まれる例を用いて説明したが、本発明はこれに限られるものではない。

　学習データ作成部１３は、事前映像から、所定の文字または図形を含む静止画と、所定の音を含まない音響信号とのペア、および、所定の文字または図形を含まない静止画と、所定の音を含む音響信号とのペアとであって、音響信号の区間に、その音響信号とペアとなる静止画が含まれないペアを、学習データとして作成してもよい。すなわち、学習データ作成部１３は、時間的に重複しない静止画と音響信号とのペアを学習データとして作成してもよい。この場合、検出部１９は、学習データ作成部１３により作成された、時間的に重複しない静止画と音響信号とのペアを用いて学習されたモデルを用いて、対象映像から、所定の文字または図形、および、所定の音の少なくとも一方を含む領域を検出する。

　番組において、提供クレジット区間以外の、コマーシャル区間あるい番組内で商品紹介が行われる区間において、「商品」と「商品の呼び名」とが番組の映像・音声に出現することがある。学習データ作成部１３は、これらの区間から静止画と音響信号とのペアを作成する。学習データ作成部１３は、例えば、商品を含む静止画と、その商品の呼び名を含まず、商品を含む静止画と時間的に重複しない音響信号とのペアと、商品を含まない静止画と、その商品の呼び名を含み、商品を含まない静止画と時間的に重複しない音響信号とのペアを作成する。これらの学習データは、提供クレジット自体を含むものではないが、商品あるいは商品の呼び名を特定することができれば、企業名、すなわち、提供クレジットを検出することも可能である。したがって、時間的に重複しない静止画と音響信号とのペアを用いることによっても、対象映像から、所定の文字または図形、および、所定の音の少なくとも一方を含む領域を検出することが可能である。

　以上、検出装置１０について説明したが、検出装置１０として機能させるために、コンピュータを用いることも可能である。そのようなコンピュータは、検出装置１０の各機能を実現する処理内容を記述したプログラムを、該コンピュータの記憶部に格納しておき、該コンピュータのＣＰＵによってこのプログラムを読み出して実行させることで実現することができる。

　また、プログラムは、コンピュータが読取り可能な記録媒体に記録されていてもよい。このような記録媒体を用いれば、プログラムをコンピュータにインストールすることが可能である。ここで、プログラムが記録された記録媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、ＣＤ－ＲＯＭやＤＶＤ－ＲＯＭなどの記録媒体であってもよい。

　上述の実施形態は代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換が可能であることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、請求の範囲から逸脱することなく、種々の変形及び変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを１つに組み合わせたり、あるいは１つの構成ブロックを分割したりすることが可能である。

　１０　　検出装置
　１１　　正解メタデータ蓄積部
　１２　　パラメータ蓄積部
　１３　　学習データ作成部
　１４　　学習部
　１５　　検出用データ作成部
　１６　　提供クレジット検出部
　１７　　演算部
　１８　　認識部
　１９　　検出部
　１４０　　モデル
　１４１　　静止画用エンコーダ（静止画特徴量抽出部）
　１４２　　音響信号用エンコーダ（音響信号特徴量抽出部）
　１４１ａ，１４１ｃ，１４１ｅ，１４１ｇ，１４１ｉ，１４１ｊ，１４２ａ，１４２ｂ，１４２ｄ，１４２ｆ，１４２ｈ　　畳み込み層
　１４１ｂ，１４１ｄ，１４１ｆ，１４１ｈ，１４１ｊ，１４２ｃ，１４２ｅ，１４２ｇ，１４２ｉ　　プーリング層
　１４３　　結合層

Claims

　対象映像から所望のシーンを検出する検出装置であって、
　事前映像から取得された所定の文字または図形を含む静止画と所定の音を含まない音響信号と、若しくは、事前映像から取得された前記所定の文字または図形を含まない静止画と前記所定の音を含む音響信号と、を関連付けることで、前記対象映像から、前記所定の文字または図形、および、前記所定の音の少なくとも一方を含む領域である前記所望のシーンを検出する検出部、を備える検出装置。
　請求項１に記載の検出装置において、
　前記検出部は、前記対象映像において、前記所定の文字または図形を含む静止画が所定数以上連続する区間、または、前記所定の音が所定時間以上連続する区間を検出する、検出装置。
　請求項２に記載の検出装置において、
　前記検出部は、前記区間の開始時間および終了時間に関する情報を検出する、検出装置。
　請求項１から３のいずれか一項に記載の検出装置において、
　前記所定の文字または図形は、番組のスポンサーを判別し得る文字または図形であり、
　前記所定の音は、前記スポンサーを判別し得る音であり、
　前記検出部は、前記対象映像を構成する静止画において前記所定の文字または図形を含む静止画、および、前記対象映像において前記所定の音が出力される区間の少なくとも一方を、前記領域として検出する、検出装置。
　請求項１から４のいずれか一項に記載の検出装置において、
　前記検出部は、
　前記静止画から静止画特徴量を抽出する静止画特徴量抽出部と、
　前記音響信号から音響特徴量を抽出する音響信号特徴量抽出部と、を含み、
　前記静止画特徴量抽出部および前記音響信号特徴量抽出部は、
　前記事前映像から取得された前記所定の文字または図形を含む静止画から抽出された静止画特徴量と、前記所定の音を含まない音響信号から抽出された音響特徴量とから得られる評価値、若しくは、前記事前映像から取得された前記所定の文字または図形を含まない静止画から抽出された静止画特徴量と、前記所定の音を含む音響信号から得られた音響特徴量との評価値が高くなるように設計されている、検出装置。
　請求項５に記載の検出装置において、
　前記評価値は、前記静止画特徴量と前記音響特徴量の類似度であり、
　前記類似度は、以下の式（１）に基づき算出される、検出装置。
　請求項６に記載の検出装置において、
　前記類似度は、前記静止画特徴量と前記音響特徴量とのいずれか一方を優先するように重み付けされる、検出装置。
　対象映像からＣＭに含まれる提供クレジットに係るシーンを検出する検出装置であって、
　事前映像から、ＣＭを構成するフレーム若しくは音響信号以外に含まれる、提供クレジットに係る静止画と、提供クレジットに係る音響信号と、を関連付けることで、前記対象映像から前記提供クレジットに係るシーンを検出する検出部、を備える検出装置。
　対象映像から所望のシーンを検出する検出装置において実行される検出方法であって、
　事前映像から取得された所定の文字または図形を含む静止画と所定の音を含まない音響信号と、若しくは、事前映像から取得された前記所定の文字または図形を含まない静止画と前記所定の音を含む音響信号と、を関連付けることで、前記対象映像から、前記所定の文字または図形、および、前記所定の音の少なくとも一方を含む領域である前記所望のシーンを検出するステップ、を含む検出方法。
　コンピュータを、請求項１から８のいずれか一項に記載の検出装置として機能させるプログラム。