WO2021171900A1

WO2021171900A1 - 推定装置、推定方法、及び、推定システム

Info

Publication number: WO2021171900A1
Application number: PCT/JP2021/003195
Authority: WO
Inventors: 隆杉本; 功上田; 和寛持永; 優斗松下
Original assignee: パナソニックＩｐマネジメント株式会社
Priority date: 2020-02-27
Filing date: 2021-01-29
Publication date: 2021-09-02
Also published as: EP4113435A1; EP4113435A4; US20230069920A1; JPWO2021171900A1; JP7466087B2

Abstract

推定装置（１０）は、第一時刻が紐付けられている第一コンテンツと、第一時刻より所定時間前の第二時刻が紐付けられている第二コンテンツとを取得する取得部（１１）と、第一コンテンツと第二コンテンツとのそれぞれに、コンテンツの種別を判定するための第一処理を適用することで、第一コンテンツの種別を示す第一種別情報と、第二コンテンツの種別を示す第二種別情報とを取得する判定部（１２）と、第一種別情報と第二種別情報とを用いて、第一種別情報の信頼度を示す信頼度情報を算出する算出部（１４）と、算出部（１４）が算出した信頼度情報を用いて、第一種別情報から導き出される第一コンテンツの種別を特定する特定情報を出力する出力部（１５）とを備える。

Description

推定装置、推定方法、及び、推定システム

　本開示は、推定装置、推定方法、及び、推定システムに関する。

　従来、動画像データに含まれる画像の特徴を分析することで、シーンを分類する技術がある（特許文献１参照）。

特開２００６－２７７２３２号公報

　しかし、画像の特徴の分析のみでは、コンテンツの種別の推定に誤りが生ずることがあるという問題がある。

　そこで、本開示は、コンテンツの種別の推定における誤りを抑制する推定装置を提供する。

　本開示における推定装置は、第一時刻が紐付けられている第一コンテンツと、前記第一時刻より所定時間前の第二時刻が紐付けられている第二コンテンツとを取得する取得部と、前記第一コンテンツと前記第二コンテンツとのそれぞれに、コンテンツの種別を判定するための第一処理を適用することで、前記第一コンテンツの種別を示す第一種別情報と、前記第二コンテンツの種別を示す第二種別情報とを取得する第一判定部と、前記第一種別情報と前記第二種別情報とを用いて、前記第一種別情報の信頼度を示す信頼度情報を算出する第一算出部と、前記第一算出部が算出した前記信頼度情報を用いて、前記第一種別情報から導き出される前記第一コンテンツの種別を特定する特定情報を出力する出力部と、を備える。

　上記態様によれば、推定装置は、コンテンツの種別の推定の対象である第一コンテンツだけでなく、第一コンテンツに紐付けられている時刻より所定時間前の時刻が紐付けられた第二コンテンツの種別を考慮して、第一コンテンツの種別を示す情報を推定結果として出力する。そのため、第一コンテンツのみから第一コンテンツの種別を推定する場合よりも、推定における誤りを抑制することができる。このように、推定装置は、コンテンツの種別の推定における誤りを抑制することができる。

　また、前記第一種別情報は、前記第一コンテンツが所定の種別に分類される確率である第一確率を含み、前記第二種別情報は、前記第二コンテンツが前記所定の種別に分類される確率である第二確率を含み、前記第一算出部は、前記第一確率と、前記第二確率との平均値を信頼度として含む前記信頼度情報を算出してもよい。

　上記態様によれば、推定装置は、第一コンテンツおよび第二コンテンツが複数の種別それぞれに分類される確率の平均値を用いて算出される信頼度を用いて、第一コンテンツの種別を推定する。これにより、第一コンテンツが分類される確率が高い種別と、第二コンテンツが分類される確率が高い種別とが同じであると、その種別に係る信頼度としてより高い値が算出される。これにより、推定装置は、第一コンテンツおよび第二コンテンツがともに分類される確率が高い種別が、第一コンテンツの種別の推定結果となるように制御する。このように、推定装置は、コンテンツの種別の推定における誤りをより一層抑制することができる。

　また、前記第二コンテンツは、前記第一コンテンツとは異なる複数のコンテンツを含み、前記第一算出部は、前記複数のコンテンツのそれぞれについての前記所定の種別に分類される確率と、前記第一確率との移動平均値を前記信頼度として含む前記信頼度情報を算出してもよい。

　上記態様によれば、推定装置は、第二コンテンツ（つまり複数のコンテンツ）について移動平均を用いることで、第二コンテンツのうちでも比較的新しいものを用いて上記制御を行うので、第一コンテンツの種別の推定の精度を上げることができる。このように、推定装置は、コンテンツの種別の推定における誤りをより一層抑制することができる。

　また、前記第二コンテンツは、前記第一コンテンツとは異なる複数のコンテンツを含み、前記第一算出部は、前記複数のコンテンツのそれぞれについての前記所定の種別に分類される確率と、前記第一確率とについて、前記複数のコンテンツのうちコンテンツに紐付けられている時刻がより新しいほど重みを大きくした加重移動平均値を前記信頼度として含む前記信頼度情報を算出してもよい。

　上記態様によれば、推定装置は、第二コンテンツ（つまり複数のコンテンツ）について加重移動平均を用いることで、第二コンテンツのうちでも比較的新しいものを用い、かつ、比較的新しいものの重みを大きく上記制御を行うので、第一コンテンツの種別の推定の精度を上げることができる。このように、推定装置は、コンテンツの種別の推定における誤りをより一層抑制することができる。なお、第二コンテンツに第一コンテンツを含めて比較的新しいものの重みを大きく付けた加重平均を用いてもよい。

　また、前記推定装置は、さらに、コンテンツの種別を判定するための第二処理であって前記第一処理とは異なる第二処理を、前記第一コンテンツと前記第二コンテンツとのそれぞれに適用することで、前記第一コンテンツの種別を示す第三種別情報と、前記第二コンテンツの種別を示す第四種別情報とを取得する第二判定部と、前記第三種別情報と前記第四種別情報との関係に基づいて、前記第三種別情報の第二信頼度情報を算出する第二算出部と、を備え、前記出力部は、前記第一算出部が算出した前記信頼度情報である第一信頼度情報と、前記第二算出部が算出した前記第二信頼度情報とを用いて、前記第一種別情報および前記第三種別情報の少なくとも一方から導き出される前記第一コンテンツの種別を特定する前記特定情報を出力してもよい。

　上記態様によれば、推定装置は、第一処理により判定された第一コンテンツと第二コンテンツの種別に加えて、第二処理により判定された第一コンテンツと第二コンテンツの種別を考慮して、第一コンテンツの種別を示す情報を推定結果として出力する。そのため、第一処理のみを用いて第一コンテンツの種別を推定する場合よりも、推定における誤りを抑制することができる。このように、推定装置は、コンテンツの種別の推定における誤りを抑制することができる。

　また、前記第一処理は、機械学習によって構築された認識モデルにコンテンツを入力することで出力される種別情報を取得する処理を含み、前記第二処理は、コンテンツの特徴を解析することで種別情報を取得する処理を含んでもよい。

　上記態様によれば、推定装置は、認識モデルを用いたコンテンツの種別の判定と、コンテンツの特徴の解析を用いたコンテンツの種別の判定とを用いて、コンテンツの種別の判定をする。これにより、推定装置は、コンテンツの種別の推定における誤りを抑制することができる。

　また、前記第二処理は、前記第二処理の対象であるコンテンツの映像に含まれる人間の目線の検出処理、前記第二処理の対象であるコンテンツの映像に含まれる物体の動きの検出処理、前記第二処理の対象であるコンテンツの音に含まれる特定の音の検出処理、および、前記第二処理の対象であるコンテンツの映像に含まれる物体のパターン検出処理のいずれかを少なくとも含んでもよい。

　上記態様によれば、推定装置は、当該第二処理の対象であるコンテンツについて、当該コンテンツに含まれる人間の目線の検出処理、当該コンテンツに含まれる物体の動きの検出処理、当該コンテンツに含まれる音の検出処理、および、当該コンテンツに含まれる物体についてのパターン検出処理のいずれかを少なくとも用いて、コンテンツの種別の判定をする。これにより、推定装置は、より容易に、コンテンツの種別の推定における誤りを抑制することができる。

　また、前記第二判定部は、さらに、前記第二処理で解析した前記コンテンツの特徴に応じて、前記第一判定部による前記第一処理の実行を禁止する制御をしてもよい。

　上記態様によれば、推定装置は、解析によるコンテンツ種別の判定が行われたときに、認識モデルを用いた種別の判定を行わないようにすることで、ＣＰＵの情報処理量を削減し、消費電力も削減することができる。

　また、本開示における推定方法は、第一時刻が紐付けられている第一コンテンツを取得する第一取得ステップと、前記第一時刻より所定時間前の第二時刻が紐付けられている第二コンテンツを取得する、前記第一取得ステップよりも前に行う第二取得ステップと、前記第一コンテンツに、コンテンツの種別を判定するための第一処理を適用することで、前記第一コンテンツの種別を示す第一種別情報を取得する第一判定ステップと、前記第二コンテンツに前記第一処理を適用することで、前記第二コンテンツの種別を示す第二種別情報を取得する、前記第一取得ステップよりも前に行う第二判定ステップと、前記第一種別情報と前記第二種別情報とを用いて、前記第一種別情報の信頼度を示す信頼度情報を算出する第一算出ステップと、前記第一算出ステップで算出した前記信頼度情報を用いて、前記第一種別情報から導き出される前記第一コンテンツの種別を特定する特定情報を出力する出力ステップと、を含む。

　上記態様によれば、上記推定装置と同様の効果を奏する。

　また、本開示における推定システムは、コンテンツを保有しているコンテンツサーバと、推定装置と、前記コンテンツを提示する提示装置とを備え、前記推定装置は、第一時刻が紐付けられている第一コンテンツと、前記第一時刻より所定時間前の第二時刻が紐付けられている第二コンテンツとを、前記コンテンツサーバから通信回線を介して取得する取得部と、前記第一コンテンツと前記第二コンテンツとのそれぞれに、コンテンツの種別を判定するための第一処理を適用することで、前記第一コンテンツの種別を示す第一種別情報と、前記第二コンテンツの種別を示す第二種別情報とを取得する第一判定部と、前記第一種別情報と前記第二種別情報とを用いて、前記第一種別情報の信頼度を示す信頼度情報を算出する第一算出部と、前記第一算出部が算出した前記信頼度情報を用いて、前記第一種別情報から導き出される前記第一コンテンツの種別を特定する特定情報を出力する出力部と、を備え、前記提示装置は、前記推定装置から通信回線を介して前記特定情報を取得し、取得した前記特定情報を用いて前記コンテンツの提示を制御する。

　上記態様によれば、上記推定装置と同様の効果を奏する。

　なお、これらの包括的または具体的な態様は、システム、装置、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、装置、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。

　本開示の推定装置は、コンテンツの種別の推定における誤りを抑制することができる。

図１は、実施の形態１に係る推定装置を備える装置の外観の一例を示す説明図である。図２は、実施の形態１に係る推定装置の機能構成を示すブロック図である。図３は、実施の形態１に係る判定部による種別判定のための学習に用いられる訓練データの一例を示す説明図である。図４は、実施の形態１に係る判定部による種別判定を示す説明図である。図５は、実施の形態１に係る過去の種別判定の結果を示す種別情報の一例を示す説明図である。図６は、実施の形態１に係る推定装置による種別判定処理を示すフロー図である。図７は、実施の形態２に係る推定装置の機能構成を示すブロック図である。図８は、実施の形態２に係る判定部による種別の判定に用いられる特徴の例を示す説明図である。図９は、実施の形態２に係る判定部による種別判定に用いられる条件の例を示す説明図である。図１０は、実施の形態２に係る推定装置が実行する処理を示すフロー図である。図１１は、実施の形態３に係る推定装置の機能構成を示すブロック図である。図１２は、実施の形態４に係る種別変更に関する遷移を示す説明図である。図１３は、実施の形態４に係る出力部が実行する処理を示す第一のフロー図である。図１４は、実施の形態４に係る出力部が実行する処理を示す第二のフロー図である。図１５は、実施の形態４に係る出力部が実行する処理を示す第三のフロー図である。図１６は、実施の形態４に係る出力部が実行する処理を示す第四のフロー図である。図１７は、実施の形態４に係る出力部が実行する処理を示す第五のフロー図である。図１８は、各実施の形態の変形例に係る推定システムの機能構成を示す説明図である。

　以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。

　なお、発明者（ら）は、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって請求の範囲に記載の主題を限定することを意図するものではない。

　（実施の形態１）
　本実施の形態において、コンテンツの種別の推定における誤りを抑制する推定装置などについて説明する。

　図１は、本実施の形態に係る推定装置１０を備えるテレビジョン受像機１の外観の一例を示す説明図である。図１に示されるテレビジョン受像機１は、音および映像を含むコンテンツを含む放送波を受信して、コンテンツに含まれる音および映像を提示する。テレビジョン受像機１は、チューナ（不図示）とスピーカ５と画面６とを備え、放送波に含まれる信号からチューナを介して得られた音をスピーカ５により出力するとともに、放送波に含まれる信号からチューナを介して得られた画像を画面６に表示する。なお、コンテンツは、少なくとも映像を含むある時間長のデータや信号を含んでいる。また、コンテンツは、音および映像を含むある時間長のデータであってもよく、さらにメタ情報を含んでもよい。コンテンツの時間長は、映像の１フレームに相当する時間以上であり、かつ、数秒～数時間以下の時間である。メタ情報は、ＳＩ（Ｓｅｒｖｉｃｅ　Ｉｎｆｏｒｍａｔｉｏｎ）情報を含んでもよい。

　なお、推定装置１０がテレビジョン受像機１に備えられる場合を例として説明するが、これに限られず、推定装置１０は、放送波を受信してコンテンツを記憶する録画機に備えられてもよい。

　推定装置１０は、テレビジョン受像機１が受信した放送波を取得し、放送波に含まれる信号から得られるコンテンツが、所定の複数の種別のうちのどの種別のコンテンツであるかを推定する。推定装置１０は、推定結果を示す情報を単に出力してもよいし、推定結果を示す情報に基づいてテレビジョン受像機１を制御してもよい。

　コンテンツの予め定められた複数の種別には、例えばスポーツ、ミュージックまたはトークなどが含まれる。

　例えば、推定装置１０は、推定結果として得られる種別に基づいてテレビジョン受像機１が備えるスピーカ５を制御することで、スピーカ５による音響効果を変化させる。推定装置１０は、例えば、コンテンツの種別を「スポーツ」と推定した場合には、音の広がりを比較的大きくし、また、視聴者が音に包まれる感じを抱くような効果を演出するように制御する。また、推定装置１０は、コンテンツの種別を「ミュージック」と推定した場合には、音の広がりを比較的大きくし、また、ボーカルの声が強調されるような効果を演出するように制御する。また、推定装置１０は、コンテンツの種別を「トーク」と推定した場合には、視聴者が出演者の声を聞き取りやすいような効果を演出するように制御する。

　図２は、本実施の形態に係る推定装置１０の機能構成を示すブロック図である。

　図２に示されるように、推定装置１０は、取得部１１と、判定部１２と、記憶部１３と、算出部１４と、出力部１５とを備える。なお、推定装置１０が備える機能部は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）がメモリを用いて所定のプログラムを実行することで実現され得る。

　取得部１１は、コンテンツを取得する機能部である。取得部１１は、テレビジョン受像機１が取得するコンテンツを順次に取得する。取得部１１が取得するコンテンツには、時刻が紐付けられており、紐付けられる時刻の一例は、当該コンテンツが放送される時刻である。取得部１１は、取得したコンテンツを判定部１２に提供する。

　取得部１１が取得するコンテンツは、少なくとも、種別の推定の対象となるコンテンツである対象コンテンツ（第一コンテンツに相当）と、その対象コンテンツより所定時間前の時刻に紐付けられているコンテンツである参照コンテンツ（第二コンテンツに相当）が含まれる。

　所定時間は、人間の生活の周期として用いられ得る時間、言い換えれば、人間が生活において同じような行動を繰り返す単位となる時間として予め定められた時間を採用することができる。所定時間は、例えば、１分、１時間、１日、１週間、１カ月および１年などであり、その時間から１０％程度増減した時間としてもよい。また、参照コンテンツより所定時間前のコンテンツも参照コンテンツに含めてもよい。つまり、参照コンテンツは、１以上あってもよく、その場合、対象コンテンツに紐付けられた時刻から所定時間のＮ倍（Ｎは自然数）の時間だけ過去へ進んだ時刻に紐付けられたコンテンツが参照コンテンツになる。

　また、所定時間としてコンテンツの１フレームに相当する時間（例えばフレームレートが６０ｆｐｓである場合には１／６０秒）を用いることもできる。この場合、対象コンテンツの直前のフレームに係るコンテンツが参照コンテンツである。以降では、所定時間が１日である場合を例として説明する。

　判定部１２は、コンテンツの種別を判定するための処理を行う機能部である。判定部１２は、コンテンツの種別を判定するための第一処理を対象コンテンツと参照コンテンツとのそれぞれに適用することで、対象コンテンツの種別を示す第一種別情報と、参照コンテンツの種別を示す第二種別情報とを取得する。なお、判定部１２を第一判定部ともいう。

　判定部１２が行う処理の一例は、機械学習により構築された認識モデルを用いてコンテンツの種別を判定する処理（いわゆるＡＩ（Ａｒｔｉｆｉｃｉａｌ　Ｉｎｔｅｌｌｉｇｅｎｃｅ）を用いた処理）であり、この場合を例として説明するが、これに限られない。判定部１２は、適切な機械学習によって構築された認識モデルを保有しており、取得部１１が取得したコンテンツを認識モデルに入力することで出力される、当該コンテンツの種別情報を判定結果とする。

　認識モデルは、コンテンツの種別を認識するための認識モデルである。認識モデルは、１つのコンテンツと、その１つのコンテンツの種別との組を１以上含む教師データを用いて機械学習により予め構築された認識モデルである。認識モデルは、例えば、ニューラルネットワークモデル、より具体的には、畳み込みニューラルネットワークモデル（ＣＮＮ（Convolutional Neural Network））である。認識モデルが畳み込みニューラルネットワークモデルである場合、教師データに基づく機械学習によって、コンテンツに含まれる画像または音等の特徴に基づいて畳み込み層のフィルタの係数（重み）が決定されることで認識モデルが構築される。

　記憶部１３は、判定部１２による判定の結果を示す種別情報を一時的に記憶している記憶装置である。記憶部１３には、具体的には、参照コンテンツの第二種別情報が格納されている。格納された第二種別情報は、算出部１４によって読み出される。

　算出部１４は、第一種別情報と第二種別情報とを用いて、第一種別情報の信頼度情報を算出する機能部である。算出部１４は、判定部１２から対象コンテンツの第一種別情報を取得し、また、記憶部１３から参照コンテンツの第二種別情報を取得する。そして、算出部１４は、第一種別情報と第二種別情報とを用いて、第一種別情報の信頼度情報を算出する。ここで、信頼度情報とは、算出部１４が算出する第一種別情報が、取得部１１が取得したコンテンツの種別を示す情報としてどの程度信頼できるかを示す指標である。信頼度が高いまたは低いことを、それぞれ「高信頼」または「低信頼」と表現することもある。

　出力部１５は、対象コンテンツの推定結果を出力する機能部である。具体的には、出力部１５は、算出部１４が算出した信頼度情報を用いて、第一種別情報から導き出される対象コンテンツの種別を特定する特定情報を、推定の結果として出力する。なお、対象コンテンツが予め定められた種別に該当しない場合には、デフォルト種別を示す特定情報を生成して出力する。デフォルト種別の特定情報は、予め定められた複数の種別のいずれにも該当しないことを示す特定情報である。

　なお、出力部１５が特定情報を出力することは、単に特定情報を出力することも含まれるし、特定情報を用いてテレビジョン受像機１を制御することも含まれる。例えば、出力部１５は、特定情報により特定されるコンテンツの種別に対応する音響効果を演出するようにスピーカ５を制御する。

　例えば、判定部１２について、第一種別情報は、対象コンテンツが所定の種別に分類される確率である第一確率を含んでいてもよい。また、第二種別情報は、参照コンテンツが上記所定の種別に分類される確率である第二確率を含んでいてもよい。この場合、算出部１４は、第一確率と、第二確率との平均値を信頼度として含む信頼度情報を算出してもよい。なお、参照コンテンツが複数存在する場合には、上記において、複数の参照コンテンツそれぞれについての複数の第二確率が、上記「複数の第二確率」として用いられる。

　また、参照コンテンツは、対象コンテンツとは異なる複数のコンテンツを含んでいてもよい。その場合、算出部１４は、複数のコンテンツのそれぞれについての所定の種別に分類される確率と、第一確率との移動平均値を信頼度として含む信頼度情報を算出してもよい。

　また、上記場合には、算出部１４は、複数のコンテンツのそれぞれについての所定の種別に分類される確率と、第一確率とについて、複数のコンテンツのうちコンテンツに紐付けられている時刻がより新しいほど重みを大きくした加重移動平均値を信頼度として含む信頼度情報を算出してもよい。

　上記のように、所定時間として人間の生活の周期として用いられ得る時間を用いると、推定装置は、人間の生活の周期として用いられる所定時間を隔てた第一コンテンツと第二コンテンツとを用いて種別の判定をする。人間の生活の周期の時間を隔てているので、第一コンテンツと第二コンテンツとが同じ種別である蓋然性が比較的高い。そのため、第一コンテンツの種別の推定精度を上昇させることができる。

　以降において、機械学習に用いられる訓練データおよび判定処理について詳細に説明する。

　図３は、本実施の形態に係る判定部１２による種別判定のための学習に用いられる訓練データの一例を示す説明図である。

　図３に示される訓練データは、１つのコンテンツと１つの種別情報とが対応付けられた教師データである。

　例えば、図３に示される教師データ＃１では、サッカーをプレイしている選手を示す画像を含むコンテンツと、コンテンツの種別としての「スポーツ」とが対応付けられている。

　また、教師データ＃２では、コンサートで歌唱している歌手を示す画像を含むコンテンツと、コンテンツの種別としての「ミュージック」とが対応付けられている。

　また、教師データ＃３では、対話をしている出演者を示す画像を含むコンテンツと、コンテンツの種別としての「トーク」とが対応付けられている。

　教師データには、図３に具体的に示される３つのコンテンツの他にも、数千～数万以上のコンテンツが含まれ得る。また、コンテンツの種別は、所定の複数の種別のうちのいずれかの種別である。ここでは、所定の複数の種別は、例えば「スポーツ」、「ミュージック」および「トーク」の３つである場合を例として説明するが、これに限られない。

　図３に示される教師データを用いた機械学習により構築された認識モデルは、未知のコンテンツが入力された場合に、そのコンテンツの画像および音の特徴に基づいて、そのコンテンツの種別を示す種別情報を出力する。

　出力される種別情報は、（１）コンテンツが所定の複数の種別のうちのどの種別であるかを特定する情報であってもよいし、（２）コンテンツが所定の複数の種別それぞれに分類される確率である信頼度を含む情報であってもよい。

　図４は、本実施の形態に係る判定部１２による種別判定を示す説明図である。

　図４に示されるコンテンツ３１は、取得部１１が取得したコンテンツの一例である。コンテンツ３１は、サッカーをプレイしている選手を示す画像であるが、図３の教師データ＃１のコンテンツに含まれる画像とは異なる。

　判定部１２は、コンテンツ３１に対して判定処理を適用することで、コンテンツ３１の種別を判定する。判定部１２が判定の結果として示す種別情報の２つの例が、（ａ）および（ｂ）に示されている。

　図４の（ａ）は、コンテンツが所定の複数の種別のうちのどの種別であるかを特定する種別情報の例であり、上記（１）に対応する。

　図４の（ａ）に示される種別情報は、コンテンツ３１が「スポーツ」の種別であることを示している。

　図４の（ｂ）は、コンテンツが所定の複数の種別それぞれに分類される確率である信頼度を含む種別情報の例であり、上記（２）に対応する。

　図４の（ｂ）に示される種別情報は、コンテンツ３１の種別情報が「０．６／０．３／０．１」である、（つまり「スポーツ」、「ミュージック」および「トーク」に分類される確率がそれぞれ０．６、０．３および０．１である、以下同様）ことを示している。

　なお、ここでは上記のように信頼度として確率（より具体的には０から１までの範囲に含まれる数値）を用いる場合を例に説明するが、信頼度は、種別ごとの一致度を示す２値（例えば０または１）のいずれかで表現されてもよい。

　図５は、本実施の形態に係る過去の種別判定の結果を示す種別情報の一例を示す説明図である。

　算出部１４は、判定部１２により提供された種別情報に基づいて、対象コンテンツの種別を信頼度とともに算出する。

　記憶部１３には、過去のコンテンツについて判定部１２により判定された種別情報が格納されている。算出部１４は、記憶部１３に格納されている種別情報のうち、対象コンテンツに紐付けられている時刻より所定時間前の時刻に紐付けられているコンテンツの種別情報を取得する。

　例えば、推定装置１０は、１つの参照コンテンツを用いる場合には、以下のように対象コンテンツの信頼度情報を算出する。すなわち、対象コンテンツに紐付けられている時刻が「２０２０年２月２日　１９：００」であるときには、算出部１４は、上記時刻の所定時間（つまり１日）前である時刻「２０２０年２月１日　１９：００」に紐付けられているコンテンツの種別情報４１を記憶部１３から読み出す。そして、算出部１４は、対象コンテンツの種別情報（図４参照）と、参照コンテンツの種別情報４１との種別ごとの平均値を、対象コンテンツの信頼度情報として算出する。

　この例では、対象コンテンツの種別情報が「０．６／０．３／０．１」であり、参照コンテンツの種別情報が「０．７／０．２／０．１」であるので、算出部１４は、種別ごとの平均値をとることで、対象コンテンツの信頼度情報を「０．６５／０．２５／０．１」と算出する。

　また、推定装置１０は、２つの参照コンテンツを用いる場合には、以下のように対象コンテンツの信頼度情報を算出する。すなわち、上記と同様の対象コンテンツに対して、コンテンツの種別情報４１および４２を記憶部１３から読み出す。そして、算出部１４は、対象コンテンツの種別情報（図４参照）と、参照コンテンツの種別情報４１および４２との種別ごとの平均値を、対象コンテンツの信頼度情報として算出する。

　この例では、算出部１４は、種別ごとの平均値をとることで、対象コンテンツの信頼度情報を「０．６３／０．２７／０．１」と算出する。

　図６は、本実施の形態に係る推定装置１０による種別判定処理を示すフロー図である。

　ステップＳ１０１において、取得部１１は、対象コンテンツを取得する。なお、このとき、記憶部１３には、対象コンテンツより所定時間前の第二時刻が紐付けられた参照コンテンツの種別情報がすでに格納されているとする。参照コンテンツの種別情報は、例えば、このステップＳ１０１が実行されるより前に図６に示される一連の処理が実行されたときに判定部１２が判定の結果（ステップＳ１０２参照）として格納したものである。

　ステップＳ１０２において、判定部１２は、ステップＳ１０２で取得部１１が取得した対象コンテンツの種別の判定の処理を実行する。判定部１２は、判定の処理の結果として、対象コンテンツに関して複数の種別それぞれについての信頼度を含む種別情報を算出部１４に提供する。また、判定部１２は、上記種別情報をさらに記憶部１３に格納する。記憶部１３に格納した種別情報は、次に図６に示される一連の処理が実行されるときに、参照コンテンツの種別情報として用いられ得る（ステップＳ１０３参照）。

　ステップＳ１０３において、算出部１４は、ステップＳ１０１で取得したコンテンツより所定時間前のコンテンツ（第二コンテンツに相当）の種別情報を記憶部１３から読み出す。

　ステップＳ１０４において、算出部１４は、ステップＳ１０２で算出した対象コンテンツの種別情報と、ステップＳ１０３で読み出した参照コンテンツの種別情報とから、対象コンテンツの種別ごとの信頼度（信頼度情報に相当）を算出する。

　ステップＳ１０５において、出力部１５は、ステップＳ１０４で算出部１４が算出した信頼度情報に含まれる信頼度の少なくとも１つが閾値以上であるか否かを判定する。上記少なくとも１つが閾値以上であると判定した場合（ステップＳ１０５でＹｅｓ）には、ステップＳ１０６に進み、そうでない場合（ステップＳ１０５でＮｏ）には、ステップＳ１０７に進む。

　ステップＳ１０６において、出力部１５は、信頼度情報に含まれる種別のうち、信頼度が最大である種別を示す特定情報を生成する。

　ステップＳ１０７において、出力部１５は、デフォルト種別を示す特定情報を生成する。

　ステップＳ１０８において、出力部１５は、ステップＳ１０６またはＳ１０７で生成した特定情報を出力する。

　図６に示される一連の処理により、推定装置１０は、コンテンツの種別の推定における誤りを抑制することができる。

　（実施の形態２）
　本実施の形態において、コンテンツの種別の推定における誤りを抑制する推定装置について、実施の形態１とは異なる構成を説明する。なお、実施の形態１における構成要素と同じものについては、実施の形態１と同じ符号を付し、詳細な説明を省略する。

　図７は、本実施の形態に係る推定装置１０Ａの機能構成を示すブロック図である。

　図７に示されるように、推定装置１０Ａは、取得部１１と、判定部１２および２２と、記憶部１３および２３と、算出部１４および２４と、出力部１５Ａとを備える。なお、推定装置１０Ａが備える機能部は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）がメモリを用いて所定のプログラムを実行することで実現され得る。

　取得部１１は、実施の形態１の取得部１１と同様に、コンテンツを取得する機能部である。取得部１１は、取得したコンテンツを、判定部１２と判定部２２とに提供する。

　判定部１２は、コンテンツの種別を判定するための処理（第一処理に相当）を行う機能部である。判定部１２は第一判定部に相当する。第一処理は、機械学習により構築された認識モデルを用いてコンテンツの種別を判定する処理（いわゆるＡＩを用いた処理）である。判定部１２は、適切な機械学習によって構築された認識モデル１６を保有しており、取得部１１が取得したコンテンツを認識モデル１６に入力することで出力される、当該コンテンツの種別情報を判定結果とする。認識モデル１６については実施の形態１における説明と同様である。

　記憶部１３は、実施の形態１における記憶部１３と同様、種別情報を一時的に記憶している記憶装置である。

　算出部１４は、実施の形態１における算出部１４と同様、第一種別情報と第二種別情報とを用いて、第一種別情報の信頼度情報を算出する機能部である。算出部１４は、算出した信頼度情報を出力部１５Ａに提供する。

　判定部２２は、コンテンツの種別を判定するための処理（第二処理に相当）を行う機能部である。判定部２２は、第二処理を対象コンテンツと参照コンテンツとのそれぞれに適用することで、対象コンテンツの種別を示す第三種別情報と、参照コンテンツの種別を示す第四種別情報とを取得する。判定部２２は第二判定部に相当する。第二処理は、判定部１２が実行する第一処理とは異なる処理であり、コンテンツの特徴（つまり、映像、音およびメタ情報などの特徴）を解析することで種別情報を取得する処理である。判定部２２は、第二処理を実行するための解析部２６を有する。

　解析部２６は、コンテンツを解析することで、コンテンツの種別を判定する機能部である。解析部２６は、コンテンツの映像データ、音データおよびメタ情報における特徴を解析する処理を実行する。具体的には、解析部２６は、コンテンツの映像に含まれる人間の目線の検出処理、コンテンツの映像に含まれる物体の動きの検出処理、コンテンツの音に含まれる特定の音の検出処理、および、コンテンツの映像に含まれる物体のパターン検出処理のいずれかを少なくとも実行する。映像データおよび音データの解析には、周知の画像認識技術、音認識技術（音声認識技術）が用いられ得る。解析部２６は、コンテンツの映像、音またはメタ情報に所定の情報またはデータが検出されることに基づいてコンテンツの種別を判定する。また、解析部２６は、さらに、コンテンツの複数の種別それぞれについて、コンテンツが当該種別に該当しないことを示す条件（排他条件ともいう）が満たされるか否かを判定する判定処理を用いてもよい。これにより、推定装置は、コンテンツがある種別に該当しない条件を用いて、より容易に、コンテンツの種別の推定における誤りを抑制することができる。具体的な処理については後で説明する。

　記憶部２３は、種別情報を一時的に記憶している記憶装置である。記憶部２３には、判定部２２による判定の結果を示す種別情報が格納されており、参照コンテンツの第二種別情報が含まれている。記憶部２３に格納されている識別情報と、記憶部１３に格納されている識別情報とは、参照コンテンツの識別情報であるという点では共通であるが、判定した主体が判定部１２であるか、または、判定部２２であるかが異なる。記憶部２３に格納された第二種別情報は、算出部２４によって読み出される。

　算出部２４は、第一種別情報と第二種別情報とを用いて、第一種別情報の信頼度情報を算出する機能部である。算出部２４は、判定部２２から対象コンテンツの第一種別情報を取得し、また、記憶部２３から参照コンテンツの第二種別情報を取得する。そして、算出部２４は、第一種別情報と第二種別情報とを用いて、第一種別情報の信頼度情報を算出する。ここで、信頼度情報とは、算出部２４が算出する第一種別情報が、取得部１１が取得したコンテンツの種別を示す情報としてどの程度信頼できるかを示す指標である。

　出力部１５Ａは、実施の形態１における出力部１５と同様、対象コンテンツの推定結果を出力する機能部である。具体的には、出力部１５Ａは、算出部１４が算出した信頼度情報と、算出部２４が算出した信頼度情報とを用いて、第一種別情報および第三種別情報の少なくとも一方から導き出される対象コンテンツの種別を特定する特定情報を出力する。

　なお、算出部１４が算出した信頼度情報と、算出部２４が算出した信頼度情報とを用いて、第一種別情報および第三種別情報のいずれの信頼度も低い場合は、出力部１５Ａは、デフォルト種別を示す特定情報を出力してもよい。

　図８は、本実施の形態に係る判定部２２による種別の判定に用いられる特徴の例を示す説明図である。

　図８には、コンテンツの複数の種別それぞれについて、そのコンテンツの映像または音に検出され得る特徴が示されている。判定部２２は、解析部２６により対象コンテンツの映像または音を解析することで、図８に示されている特徴が検出された場合に、対象コンテンツの種別が、検出された特徴に対応する種別であると判定する。

　図８に示されるように、例えば、判定部２２は、動きベクトルに関する特徴として、動きが比較的速いという特徴、つまり、時間的に連続する画像間における動きベクトルが比較的大きいという特徴を解析部２６が検出した場合に、スポーツ種別のコンテンツと判定できる。

　また、判定部２２は、画像におけるパターンに関する特徴として、ユニフォームの画像パターンを解析部２６が検出した場合に、スポーツ種別のコンテンツと判定できる。

　また、判定部２２は、音におけるパターンに関する特徴として、音楽（所定のリズム、所定のメロディ）のパターンを解析部２６が検出した場合に、ミュージックの種別のコンテンツと判定できる。

　また、判定部２２は、画像におけるパターンに関する特徴として、楽器の画像パターンを解析部２６が検出した場合に、ミュージックの種別のコンテンツと判定できる。

　また、判定部２２は、目線に関する特徴として、コンテンツの出演者である人間の目線がカメラ目線である（つまり、出演者がカメラに目線を向けている）ことを解析部２６が検出した場合に、トークの種別のコンテンツと判定できる。

　また、判定部２２は、動きベクトルに関する特徴として、動きがほぼないという特徴、つまり、時間的に連続する画像間における動きベクトルが極めて小さいという特徴を解析部２６が検出した場合に、トークの種別のコンテンツと判定できる。

　図９は、本実施の形態に係る判定部２２による種別判定に用いられる条件の例を示す説明図である。図９に示される条件は、コンテンツの複数の種別それぞれについて、コンテンツが当該種別に該当しないことを示す排他条件の一例である。

　図９に示されるように、例えば、判定部２２は、動きベクトルに関する特徴として動きが検出されないという特徴が検出されない場合、かつ、画像におけるパターンに関する特徴としてユニフォームの画像パターンが検出されない場合に、スポーツ種別のコンテンツではないと判定できる。

　また、判定部２２は、音におけるパターンの特徴として音が検出されない場合に、ミュージックの種別のコンテンツではないと判定できる。

　また、判定部２２は、目線に関する特徴として出演者のカメラ目線が検出されない場合、かつ、動きベクトルに関する特徴として激しい動きが検出された場合にトークの種別のコンテンツではないと判定できる。

　図１０は、本実施の形態に係る推定装置１０Ａが実行する処理を示すフロー図である。

　図１０に示されるように、ステップＳ２０１において、判定部１２は、種別情報（第一種別情報および第二種別情報）を取得する。ステップＳ２０１の処理は、図６のステップＳ１０１～Ｓ１０２の処理に相当する。

　ステップＳ２０２において、算出部１４は、コンテンツの信頼度情報を算出する。ステップＳ２０２の処理は、図６のステップＳ１０３～Ｓ１０４の処理に相当する。

　ステップＳ２０３において、判定部２２は、種別情報（第三種別情報および第四種別情報）を取得する。ステップＳ２０３の処理は、判定部２２により図６のステップＳ１０１～Ｓ１０２の処理を実行することに相当する。

　ステップＳ２０４において、算出部２４は、コンテンツの信頼度情報を取得する。ステップＳ２０４の処理は、算出部２４により図６のステップＳ１０３～Ｓ１０４の処理を実行することに相当する。

　ステップＳ２０５において、出力部１５Ａは、ステップＳ２０２で算出部１４が算出した信頼度情報に含まれる信頼度と、ステップＳ２０４で算出部２４が算出した信頼度情報に含まれる信頼度との少なくとも１つが閾値以上であるか否かを判定する。上記少なくとも１つが閾値以上であると判定した場合（ステップＳ２０５でＹｅｓ）には、ステップＳ２０６に進み、そうでない場合（ステップＳ２０５でＮｏ）には、ステップＳ２０７に進む。

　ステップＳ２０６において、出力部１５Ａは、上記信頼度情報に含まれる種別のうち、信頼度が最大である種別を示す特定情報を生成する。

　ステップＳ２０７において、出力部１５Ａは、予め定められた複数の種別のいずれにも該当しないことを示す特定情報を生成する。

　ステップＳ２０８において、出力部１５Ａは、ステップＳ２０６またはＳ２０７で生成した特定情報を出力する。

　図１０に示される一連の処理により、推定装置１０Ａは、認識モデルを用いた判定と、解析を用いた判定との両方の判定をしたうえで、信頼度が高い方の結果に基づいてコンテンツの推定をすることにより、コンテンツの種別の推定における誤りを抑制することができる。

　（実施の形態３）
　本実施の形態において、コンテンツの種別の推定における誤りを抑制する推定装置について、実施の形態１および２とは異なる構成を説明する。なお、実施の形態１における構成要素と同じものについては、実施の形態１と同じ符号を付し、詳細な説明を省略する。

　図１１は、本実施の形態に係る推定装置１０Ｂの機能構成を示すブロック図である。

　図１１に示されるように、推定装置１０Ｂは、取得部１１と、判定部１２と、記憶部１３と、算出部１４Ａと、出力部１５と、解析部２７とを備える。なお、推定装置１０Ｂが備える機能部は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）がメモリを用いて所定のプログラムを実行することで実現され得る。

　取得部１１は、実施の形態１の取得部１１と同様に、コンテンツを取得する機能部である。取得部１１は、取得したコンテンツを、判定部１２と解析部２７とに提供する。

　算出部１４Ａは、実施の形態１における算出部１４と同様、第一種別情報と第二種別情報とを用いて、第一種別情報の信頼度情報を算出する機能部である。算出部１４Ａは、第一種別情報の信頼度情報を算出する際に、解析部２７の解析結果を加味して信頼度情報を算出する。算出部１４Ａは、算出した信頼度情報を出力部１５に提供する。

　具体的には、算出部１４Ａは、対象コンテンツと参照コンテンツとの画像情報の類似性に基づいて信頼度を調整してもよい。具体的には、算出部１４Ａは、解析部２７によって解析された、対象コンテンツと参照コンテンツとの画像の色（画素値）、位置、色（画素値）の空間周波数（つまり、空間軸上での画素値を波ととらえた場合の周波数）、輝度、または、彩度の類似度を取得する。そして、取得した類似度が所定以上である場合に、信頼度を上昇させるようにしてもよい。

　また、算出部１４Ａは、対象コンテンツのメタ情報を用いて、または、対象コンテンツと参照コンテンツとのメタ情報を比較することで、信頼度を調整してもよい。具体的には、算出部１４Ａは、算出した対象コンテンツの種別情報において、メタ情報に含まれる番組情報と一致する種別の信頼度情報を上昇させるようにしてもよい。例えば、算出した対象コンテンツの種別情報が「０．６／０．３／０．１」である場合に、番組情報が「野球中継」であった場合には、「１．２／０．３／０．１」というように、スポーツ種別の信頼度を２倍にしてもよい。

　出力部１５は、実施の形態１の出力部１５と同様に、対象コンテンツの推定結果を出力する機能部である。

　解析部２７は、コンテンツの映像、音およびメタ情報などを解析することで、コンテンツの種別を判定する機能部である。解析部２７は、具体的には、コンテンツの映像、音およびメタ情報における特徴を解析する処理を実行し、その解析結果を算出部１４Ａに提供する。コンテンツの映像の解析処理には、画像の色（画素値）、位置、色（画素値）の空間周波数、輝度、または、彩度の類似度の解析が含まれ得る。また、コンテンツの映像の解析処理には、シーン切り替えの検出が含まれ得る。

　推定装置１０Ｂによる種別判定処理は、実施の形態１における推定装置１０の種別判定処理と同様であるので、詳細な説明を省略する。推定装置１０Ｂによる種別判定処理において、推定装置１０による種別判定処理と異なるのは、ステップＳ１０４（図６参照）の信頼度の算出に係る処理に上記の処理が含まれることである。

　なお、判定部２２は、第二処理で解析したコンテンツの特徴に応じて、判定部１２による第一処理の実行を禁止する制御をしてもよい。例えば、判定部２２は、コンテンツのフレームレートが２４ｆｐｓであるという特徴、又は、コンテンツの音がドルビー音（５．１ｃｈ）で構成されているという特徴がある場合に、判定部１２による第一処理を実行しない、つまり、禁止する制御をしてもよい。この場合、判定部２２は、さらに、当該コンテンツが映画の種別であることを示す種別情報を生成してもよい。

　（実施の形態３の変形例）
　本変形例において、コンテンツの種別の推定における誤りを抑制する推定装置について、実施の形態１、２および３とは異なる構成を説明する。なお、実施の形態１における構成要素と同じものについては、実施の形態１と同じ符号を付し、詳細な説明を省略する。

　図１２は、本変形例に係る種別変更に関する遷移を示す説明図である。図１２では、縦軸を音域（可聴音域）とし、横軸を音のチャネル数として、コンテンツの種別それぞれを頂点とし、種別間の遷移を辺としたグラフを示している。ここで、遷移とは、出力部１５が出力する特定情報が、前回に出力した特定情報から、新たに決定した特定情報に変わることである。

　本変形例の推定装置は、出力部１５が特定情報を決定するときに、前回に出力した特定情報などを考慮して、特定情報を決定し、決定した特定情報を出力する。

　図１２を参照しながら、特定情報により特定される種別の遷移の例を説明する。

　例えば、出力部１５は、前回出力した特定情報がデフォルト種別を示すときに、判定部１２および算出部１４からスポーツ種別またはミュージック種別を示す高信頼の種別情報を取得した場合、ミュージック種別へ遷移させる。同様に、前回出力した特定情報がデフォルト種別を示すときにトーク種別を示す高信頼の種別情報を取得した場合、トーク種別へ遷移させる。前回出力した特定情報がデフォルト種別を示すときに、算出部１４から取得した信頼度が比較的低い場合、デフォルト種別を維持させる。

　また、出力部１５は、前回出力した特定情報がスポーツ種別を示すときに、判定部１２および算出部１４からミュージック種別を示す高信頼の種別情報を取得した場合、ミュージック種別へ遷移させる。同様に、前回出力した特定情報がスポーツ種別を示すときに、判定部１２および算出部１４からトーク種別を示す高信頼の種別情報を取得した場合、または、算出部１４から取得した信頼度が比較的低い場合、デフォルト種別へ遷移させる。前回出力した特定情報がスポーツ種別を示すときに、判定部１２および算出部１４からスポーツ種別を示す高信頼の種別情報を取得した場合、スポーツ種別を維持させる。

　また、出力部１５は、前回出力した特定情報がミュージック種別を示すときに、判定部１２および算出部１４からスポーツ種別を示す高信頼の種別情報を取得した場合、スポーツ種別へ遷移させる。同様に、前回出力した特定情報がミュージック種別を示すときに判定部１２および算出部１４からトーク種別を示す高信頼の種別情報を取得した場合、または、算出部１４から取得した信頼度が比較的低い場合、デフォルト種別へ遷移させる。前回出力した特定情報がミュージック種別を示すときに、判定部１２および算出部１４からミュージック種別を示す高信頼の種別情報を取得した場合、ミュージック種別を維持させる。

　また、出力部１５は、前回出力した特定情報がトーク種別を示すときに、判定部１２および算出部１４からスポーツ種別またはミュージック種別を示す高信頼の種別情報を取得した場合、または、算出部１４から取得した信頼度が比較的低い場合、デフォルト種別へ遷移させる。同様に、前回出力した特定情報がトーク種別を示すときに、判定部１２および算出部１４からトーク種別を示す種別情報を取得した場合、トーク種別を維持させる。

　本変形例に係る出力部１５の処理を以下で詳しく説明する。

　図１３は、本変形例に係る出力部１５が実行する処理を示す第一のフロー図である。図１３に示される処理は、図６の破線枠ＳＡで囲まれた処理、つまりステップＳ１０５～ステップＳ１０８の処理に相当する。

　ステップＳ３０１において、出力部１５は、前回に出力した特定情報により処理を分岐させる。前回に出力した特定情報がデフォルト種別を示す場合にはステップＳ３０２を実行し、前回に出力した特定情報がスポーツ種別を示す場合にはステップＳ３０３を実行し、前回に出力した特定情報がミュージック種別を示す場合にはステップＳ３０４を実行し、前回に出力した特定情報がトーク種別を示す場合にはステップＳ３０５を実行する。

　ステップＳ３０２において、出力部１５は、デフォルト種別から他の種別への遷移に係る処理を実行する。

　ステップＳ３０３において、出力部１５は、スポーツ種別から他の種別への遷移に係る処理を実行する。

　ステップＳ３０４において、出力部１５は、ミュージック種別から他の種別への遷移に係る処理を実行する。

　ステップＳ３０５において、出力部１５は、トーク種別から他の種別への遷移に係る処理を実行する。

　ステップＳ３０６において、出力部１５は、ステップＳ３０２～Ｓ３０５で生成した特定情報を出力する。

　以降において、ステップＳ３０２～Ｓ３０５それぞれについて詳しく説明する。

　図１４は、本変形例に係る出力部１５が実行する処理を示す第二のフロー図である。図１４に示される処理は、ステップＳ３０２に含まれる処理であり、出力部１５が前回に出力した特定情報がデフォルト種別である場合に出力部１５が実行する処理である。

　ステップＳ３１１において、出力部１５は、ステップＳ１０４で算出部１４が算出した信頼度情報に含まれる信頼度の少なくとも１つが閾値以上であるか否かを判定する。上記少なくとも１つが閾値以上であると判定した場合（ステップＳ３１１でＹｅｓ）には、ステップＳ３１２に進み、そうでない場合（ステップＳ３１１でＮｏ）には、ステップＳ３２２に進む。

　ステップＳ３１２において、出力部１５は、ステップＳ１０４で算出部１４が算出した信頼度情報について、排他条件（図９参照）が満たされるか否かを判定する。排他条件が満たされると判定した場合（ステップＳ３１２でＹｅｓ）には、ステップＳ３２２に進み、そうでない場合（ステップＳ３１２でＮｏ）には、ステップＳ３１３に進む。

　ステップＳ３１３において、出力部１５は、シーン切り替えが発生したか否かを判定する。シーン切り替えが発生したか否かは、解析部２７による解析結果から判断され得る。シーン切り替えが発生した場合（ステップＳ３１３でＹｅｓ）には、ステップＳ３１５に進み、そうでない場合（ステップＳ３１３でＮｏ）には、ステップＳ３１４に進む。

　ステップＳ３１４において、出力部１５は、カウンタが設定値以上であるか否かを判定する。カウンタが設定値以上であると判定した場合（ステップＳ３１４でＹｅｓ）にはステップＳ３１５に進み、そうでない場合（ステップＳ３１４でＮｏ）にはステップＳ３２１に進む。

　ステップＳ３１５において、出力部１５は、種別を「ミュージック」または「トーク」に設定する。このとき、判定部１２による判定の結果として得られる種別が「ミュージック」または「スポーツ」であるときには、出力部１５は、種別を「ミュージック」に設定し、判定部１２による判定の結果として得られる種別が「デフォルト」であるときには、出力部１５は、種別を「デフォルト」に設定する。

　ステップＳ３２１において、出力部１５は、カウンタのインクリメント処理を実行する。ここで、カウンタのインクリメント処理とは、本図に示される一連の処理を繰り返し実行するときに、繰り返すたびに本ステップの処理を連続して実行した回数をカウントする処理である。初めて本ステップに到達したときにはカウンタ値が１に初期化され、次の一連の処理でも本ステップに到達した場合には、カウンタ値が１加算されて２になる。以降でも同様とする。

　ステップＳ３２２において、出力部１５は、種別を「デフォルト」に設定する。

　ステップＳ３１５またはＳ３２２の処理を終えたら、ステップＳ１０６（図１３）に進む。

　図１５は、本変形例に係る出力部１５が実行する処理を示す第三のフロー図である。図１５に示される処理は、ステップＳ３０３に含まれる処理であり、出力部１５が前回に出力した特定情報がスポーツ種別である場合に出力部１５が実行する処理である。

　ステップＳ３３１において、出力部１５は、判定部１２による判定結果の種別が「スポーツ」であるか否かを判定する。種別が「スポーツ」であると判定した場合（ステップＳ３３１でＹｅｓ）にはステップＳ３３２に進み、そうでない場合（ステップＳ３３１でＮｏ）には、ステップＳ３４１に進む。

　ステップＳ３３２において、出力部１５は、ステップＳ１０４で算出部１４が算出した信頼度情報に含まれる信頼度の少なくとも１つが閾値以上であるか否かを判定する。上記少なくとも１つが閾値以上であると判定した場合（ステップＳ３３２でＹｅｓ）には、ステップＳ３３３に進み、そうでない場合（ステップＳ３３２でＮｏ）には、ステップＳ３５１に進む。

　ステップＳ３３３において、出力部１５は、ステップＳ１０４で算出部１４が算出した信頼度情報について、排他条件（図９参照）が満たされるか否かを判定する。排他条件が満たされると判定した場合（ステップＳ３３３でＹｅｓ）には、ステップＳ３５１に進み、そうでない場合（ステップＳ３３３でＮｏ）には、ステップＳ３３４に進む。

　ステップＳ３３４において、出力部１５は、種別を「スポーツ」に設定する。

　ステップＳ３４１において、出力部１５は、判定部１２による判定結果の種別が「ミュージック」であるか否かを判定する。種別が「スポーツ」であると判定した場合（ステップＳ３４１でＹｅｓ）にはステップＳ３４２に進み、そうでない場合（ステップＳ３４１でＮｏ）には、ステップＳ３５１に進む。

　ステップＳ３４２において、出力部１５は、ステップＳ１０４で算出部１４が算出した信頼度情報に含まれる信頼度の少なくとも１つが閾値以上であるか否かを判定する。上記少なくとも１つが閾値以上であると判定した場合（ステップＳ３４２でＹｅｓ）には、ステップＳ３４３に進み、そうでない場合（ステップＳ３４２でＮｏ）には、ステップＳ３５１に進む。

　ステップＳ３４３において、出力部１５は、種別を「ミュージック」に設定する。

　ステップＳ３５１において、出力部１５は、シーン切り替えが発生したか否かを判定する。シーン切り替えが発生したか否かは、解析部２７による解析結果から判断され得る。シーン切り替えが発生した場合（ステップＳ３５１でＹｅｓ）には、ステップＳ３５４に進み、そうでない場合（ステップＳ３５１でＮｏ）には、ステップＳ３５２に進む。

　ステップＳ３５２において、出力部１５は、カウンタが設定値以上であるか否かを判定する。カウンタが設定値以上であると判定した場合（ステップＳ３５２でＹｅｓ）にはステップＳ３５４に進み、そうでない場合（ステップＳ３５２でＮｏ）にはステップＳ３５３に進む。

　ステップＳ３５３において、出力部１５は、カウンタのインクリメント処理を実行する。

　ステップＳ３５４において、出力部１５は、種別を「デフォルト」に設定する。

　ステップＳ３３４、Ｓ３５４またはＳ３４３の処理を終えたら、ステップＳ１０６（図１３）に進む。

　図１６は、本変形例に係る出力部１５が実行する処理を示す第四のフロー図である。図１６に示される処理は、ステップＳ３０４に含まれる処理であり、出力部１５が前回に出力した特定情報がミュージック種別である場合に出力部１５が実行する処理である。

　ステップＳ３６１において、出力部１５は、判定部１２による判定結果の種別が「ミュージック」であるか否かを判定する。種別が「ミュージック」であると判定した場合（ステップＳ３６１でＹｅｓ）にはステップＳ３６２に進み、そうでない場合（ステップＳ３６１でＮｏ）には、ステップＳ３７１に進む。

　ステップＳ３６２において、出力部１５は、ステップＳ１０４で算出部１４が算出した信頼度情報に含まれる信頼度の少なくとも１つが閾値以上であるか否かを判定する。上記少なくとも１つが閾値以上であると判定した場合（ステップＳ３６２でＹｅｓ）には、ステップＳ３６３に進み、そうでない場合（ステップＳ３６２でＮｏ）には、ステップＳ３８１に進む。

　ステップＳ３６３において、出力部１５は、種別を「ミュージック」に設定する。

　ステップＳ３７１において、出力部１５は、判定部１２による判定結果の種別が「スポーツ」であるか否かを判定する。種別が「スポーツ」であると判定した場合（ステップＳ３７１でＹｅｓ）にはステップＳ３７２に進み、そうでない場合（ステップＳ３７１でＮｏ）には、ステップＳ３８１に進む。

　ステップＳ３７２において、出力部１５は、ステップＳ１０４で算出部１４が算出した信頼度情報に含まれる信頼度の少なくとも１つが閾値以上であるか否かを判定する。上記少なくとも１つが閾値以上であると判定した場合（ステップＳ３７２でＹｅｓ）には、ステップＳ３７３に進み、そうでない場合（ステップＳ３７２でＮｏ）には、ステップＳ３８１に進む。

　ステップＳ３７３において、出力部１５は、ステップＳ１０４で算出部１４が算出した信頼度情報について、排他条件（図９参照）が満たされるか否かを判定する。排他条件が満たされると判定した場合（ステップＳ３７３でＹｅｓ）には、ステップＳ３８１に進み、そうでない場合（ステップＳ３７３でＮｏ）には、ステップＳ３７４に進む。

　ステップＳ３７４において、出力部１５は、シーン切り替えが発生したか否かを判定する。シーン切り替えが発生したか否かは、解析部２７による解析結果から判断され得る。シーン切り替えが発生した場合（ステップＳ３７４でＹｅｓ）には、ステップＳ３７６に進み、そうでない場合（ステップＳ３７４でＮｏ）には、ステップＳ３７５に進む。

　ステップＳ３７５において、出力部１５は、カウンタが設定値以上であるか否かを判定する。カウンタが設定値以上であると判定した場合（ステップＳ３７５でＹｅｓ）にはステップＳ３７６に進み、そうでない場合（ステップＳ３７５でＮｏ）にはステップＳ３７７に進む。

　ステップＳ３７６において、出力部１５は、種別を「スポーツ」に設定する。

　ステップＳ３７７において、出力部１５は、カウンタのインクリメント処理を実行する。

　ステップＳ３７８において、出力部１５は、種別を「ミュージック」に設定する。

　ステップＳ３８１において、出力部１５は、シーン切り替えが発生したか否かを判定する。シーン切り替えが発生したか否かは、解析部２７による解析結果から判断され得る。シーン切り替えが発生した場合（ステップＳ３８１でＹｅｓ）には、ステップＳ３８４に進み、そうでない場合（ステップＳ３８１でＮｏ）には、ステップＳ３８２に進む。

　ステップＳ３８２において、出力部１５は、カウンタが設定値以上であるか否かを判定する。カウンタが設定値以上であると判定した場合（ステップＳ３８２でＹｅｓ）にはステップＳ３８４に進み、そうでない場合（ステップＳ３８２でＮｏ）にはステップＳ３８３に進む。

　ステップＳ３８３において、出力部１５は、カウンタのインクリメント処理を実行する。

　ステップＳ３８４において、出力部１５は、種別を「デフォルト」に設定する。

　ステップＳ３６３、Ｓ３８４、Ｓ３７６またはＳ３７８の処理を終えたら、ステップＳ１０６（図１３）に進む。

　図１７は、本変形例に係る出力部１５が実行する処理を示す第五のフロー図である。図１７に示される処理は、ステップＳ３０５に含まれる処理であり、出力部１５が前回に出力した特定情報がトーク種別である場合に出力部１５が実行する処理である。

　ステップＳ４０１において、出力部１５は、判定部１２による判定結果の種別が「トーク」であるか否かを判定する。種別が「トーク」であると判定した場合（ステップＳ４０１でＹｅｓ）には、ステップＳ４０２に進み、そうでない場合（ステップＳ４０１でＮｏ）には、ステップＳ４１１に進む。

　ステップＳ４０２において、出力部１５は、ステップＳ１０４で算出部１４が算出した信頼度情報に含まれる信頼度の少なくとも１つが閾値以上であるか否かを判定する。上記少なくとも１つが閾値以上であると判定した場合（ステップＳ４０２でＹｅｓ）には、ステップＳ４０３に進み、そうでない場合（ステップＳ４０２でＮｏ）には、ステップＳ４１１に進む。

　ステップＳ４０３において、出力部１５は、ステップＳ１０４で算出部１４が算出した信頼度情報について、排他条件（図９参照）が満たされるか否かを判定する。排他条件が満たされると判定した場合（ステップＳ４０３でＹｅｓ）には、ステップＳ４１１に進み、そうでない場合（ステップＳ４０３でＮｏ）には、ステップＳ４０４に進む。

　ステップＳ４０４において、出力部１５は、種別を「トーク」に設定する。

　ステップＳ４１１において、出力部１５は、シーン切り替えが発生したか否かを判定する。シーン切り替えが発生したか否かは、解析部２７による解析結果から判断され得る。シーン切り替えが発生した場合（ステップＳ４１１でＹｅｓ）には、ステップＳ４１４に進み、そうでない場合（ステップＳ４１１でＮｏ）には、ステップＳ４１２に進む。

　ステップＳ４１２において、出力部１５は、カウンタが設定値以上であるか否かを判定する。カウンタが設定値以上であると判定した場合（ステップＳ４１２でＹｅｓ）にはステップＳ４１４に進み、そうでない場合（ステップＳ４１２でＮｏ）にはステップＳ４１３に進む。

　ステップＳ４１３において、出力部１５は、カウンタのインクリメント処理を実行する。

　ステップＳ４１４において、出力部１５は、種別を「デフォルト」に設定する。

　ステップＳ４０４またはＳ４１４の処理を終えたら、ステップＳ１０６（図１３）に進む。

　以上の一連の処理により、出力部１５は、種別情報を適切に遷移させる。

　（各実施の形態の変形例）
　図１８は、各実施の形態の変形例に係る推定システム２の機能構成を示す説明図である。

　図１８に示されるように、推定システム２は、コンテンツサーバ５０と、推定装置１０Ｄと、テレビジョン受像機５１とを備える。上記のコンテンツサーバ５０と、推定装置１０Ｄと、テレビジョン受像機５１とは、ネットワークＮによって通信可能に接続されている。ネットワークＮは、携帯電話のキャリアネットワーク、電話回線又は光ファイバを利用した電話回線ネットワーク、ＬＡＮ（有線又は無線ＬＡＮを含む）などを含み、これらが複数接続されたネットワークも含む。テレビジョン受像機５１は、コンテンツを提示する提示装置に相当する。

　コンテンツサーバ５０は、推定システム２により種別が推定されるコンテンツを保有しており、ネットワークＮを通じて推定装置１０Ｄに供給する。

　推定装置１０Ｄは、コンテンツサーバ５０からコンテンツを取得し、取得したコンテンツが、所定の複数の種別のうちのどの種別のコンテンツであるかを推定する。また、推定装置１０Ｄは、推定の結果を示す情報をテレビジョン受像機５１にネットワークＮを通じて提供する。推定装置１０Ｄの機能は、上記各実施の形態および上記変形例の推定装置と同様である。

　テレビジョン受像機５１は、コンテンツサーバ５０からコンテンツを取得し、取得したコンテンツの映像および音を画面６およびスピーカ５により提示する。また、推定装置１０Ｄから、コンテンツの種別の推定結果として出力された特定情報を取得し、取得した特定情報に基づいてコンテンツの提示を制御する。例えば、テレビジョン受像機５１は、取得した特定情報に基づいて、スピーカ５を制御することで、コンテンツを提示する際の音響効果を変化させる。これにより、上記実施の形態および上記変形例と同様の効果を奏する。

　以上のように、上記各実施の形態および上記変形例の推定装置は、コンテンツの種別の推定の対象である第一コンテンツだけでなく、第一コンテンツに紐付けられている時刻より所定時間前の時刻が紐付けられた第二コンテンツの種別を考慮して、第一コンテンツの種別を示す情報を推定結果として出力する。そのため、第一コンテンツのみから第一コンテンツの種別を推定する場合よりも、推定における誤りを抑制することができる。このように、推定装置は、コンテンツの種別の推定における誤りを抑制することができる。

　また、推定装置は、第一コンテンツおよび第二コンテンツが複数の種別それぞれに分類される確率の平均値を用いて算出される信頼度を用いて、第一コンテンツの種別を推定する。これにより、第一コンテンツが分類される確率が高い種別と、第二コンテンツが分類される確率が高い種別とが同じであると、その種別に係る信頼度としてより高い値が算出される。これにより、推定装置は、第一コンテンツおよび第二コンテンツがともに分類される確率が高い種別が、第一コンテンツの種別の推定結果となるように制御する。このように、推定装置は、コンテンツの種別の推定における誤りをより一層抑制することができる。

　また、推定装置は、第二コンテンツ（つまり複数のコンテンツ）について移動平均を用いることで、第二コンテンツのうちでも比較的新しいものを用いて上記制御を行うので、第一コンテンツの種別の推定の精度を上げることができる。このように、推定装置は、コンテンツの種別の推定における誤りをより一層抑制することができる。

　また、推定装置は、第二コンテンツ（つまり複数のコンテンツ）について加重移動平均を用いることで、第二コンテンツのうちでも比較的新しいものを用い、かつ、比較的新しいものの重みを大きく上記制御を行うので、第一コンテンツの種別の推定の精度を上げることができる。このように、推定装置は、コンテンツの種別の推定における誤りをより一層抑制することができる。なお、第二コンテンツに第一コンテンツを含めて比較的新しいものの重みを大きく付けた加重平均を用いてもよい。

　また、推定装置は、第一処理により判定された第一コンテンツと第二コンテンツの種別に加えて、第二処理により判定された第一コンテンツと第二コンテンツの種別を考慮して、第一コンテンツの種別を示す情報を推定結果として出力する。そのため、第一処理のみを用いて第一コンテンツの種別を推定する場合よりも、推定における誤りを抑制することができる。このように、推定装置は、コンテンツの種別の推定における誤りを抑制することができる。

　また、推定装置は、認識モデルを用いたコンテンツの種別の判定と、コンテンツの特徴の解析を用いたコンテンツの種別の判定とを用いて、コンテンツの種別の判定をする。これにより、推定装置は、コンテンツの種別の推定における誤りを抑制することができる。

　また、推定装置は、当該第二処理の対象であるコンテンツについて、当該コンテンツに含まれる人間の目線の検出処理、当該コンテンツに含まれる物体の動きの検出処理、当該コンテンツに含まれる音の検出処理、および、当該コンテンツに含まれる物体についてのパターン検出処理のいずれかを少なくとも用いて、コンテンツの種別の判定をする。これにより、推定装置は、より容易に、コンテンツの種別の推定における誤りを抑制することができる。

　また、推定装置は、解析によるコンテンツ種別の判定が行われたときに、認識モデルを用いた種別の判定を行わないようにすることで、ＣＰＵの情報処理量を削減し、消費電力も削減することができる。

　以上のように、本開示における技術の例示として、実施の形態等を説明した。そのために、添付図面および詳細な説明を提供した。

　したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記実装を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。

　また、上述の実施の形態は、本開示における技術を例示するためのものであるから、請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。

　本開示は、コンテンツの種別を推定する推定装置に適用可能である。

　１、５１　　テレビジョン受像機
　２　　推定システム
　５　　スピーカ
　６　　画面
　１０、１０Ａ、１０Ｂ、１０Ｄ　　推定装置
　１１　　取得部
　１２、２２　　判定部
　１３、２３　　記憶部
　１４、１４Ａ、２４　　算出部
　１５、１５Ａ　　出力部
　１６　　認識モデル
　２６、２７　　解析部
　３１　　コンテンツ
　４１、４２　　種別情報
　５０　　コンテンツサーバ
　Ｎ　　ネットワーク

Claims

　第一時刻が紐付けられている第一コンテンツと、前記第一時刻より所定時間前の第二時刻が紐付けられている第二コンテンツとを取得する取得部と、
　前記第一コンテンツと前記第二コンテンツとのそれぞれに、コンテンツの種別を判定するための第一処理を適用することで、前記第一コンテンツの種別を示す第一種別情報と、前記第二コンテンツの種別を示す第二種別情報とを取得する第一判定部と、
　前記第一種別情報と前記第二種別情報とを用いて、前記第一種別情報の信頼度を示す信頼度情報を算出する第一算出部と、
　前記第一算出部が算出した前記信頼度情報を用いて、前記第一種別情報から導き出される前記第一コンテンツの種別を特定する特定情報を出力する出力部と、を備える、
　推定装置。
　前記第一種別情報は、前記第一コンテンツが所定の種別に分類される確率である第一確率を含み、
　前記第二種別情報は、前記第二コンテンツが前記所定の種別に分類される確率である第二確率を含み、
　前記第一算出部は、
　前記第一確率と、前記第二確率との平均値を信頼度として含む前記信頼度情報を算出する、
　請求項１に記載の推定装置。
　前記第二コンテンツは、前記第一コンテンツとは異なる複数のコンテンツを含み、
　前記第一算出部は、
　前記複数のコンテンツのそれぞれについての前記所定の種別に分類される確率と、前記第一確率との移動平均値を前記信頼度として含む前記信頼度情報を算出する、
　請求項２に記載の推定装置。
　前記第二コンテンツは、前記第一コンテンツとは異なる複数のコンテンツを含み、
　前記第一算出部は、
　前記複数のコンテンツのそれぞれについての前記所定の種別に分類される確率と、前記第一確率とについて、前記複数のコンテンツのうちコンテンツに紐付けられている時刻がより新しいほど重みを大きくした加重移動平均値を前記信頼度として含む前記信頼度情報を算出する、
　請求項２に記載の推定装置。
　前記推定装置は、さらに、
　コンテンツの種別を判定するための第二処理であって前記第一処理とは異なる第二処理を、前記第一コンテンツと前記第二コンテンツとのそれぞれに適用することで、前記第一コンテンツの種別を示す第三種別情報と、前記第二コンテンツの種別を示す第四種別情報とを取得する第二判定部と、
　前記第三種別情報と前記第四種別情報との関係に基づいて、前記第三種別情報の第二信頼度情報を算出する第二算出部と、を備え、
　前記出力部は、
　前記第一算出部が算出した前記信頼度情報である第一信頼度情報と、前記第二算出部が算出した前記第二信頼度情報とを用いて、前記第一種別情報および前記第三種別情報の少なくとも一方から導き出される前記第一コンテンツの種別を特定する前記特定情報を出力する
　請求項１～４のいずれか１項に記載の推定装置。
　前記第一処理は、機械学習によって構築された認識モデルにコンテンツを入力することで出力される種別情報を取得する処理を含み、
　前記第二処理は、コンテンツの特徴を解析することで種別情報を取得する処理を含む
　請求項５に記載の推定装置。
　前記第二処理は、前記第二処理の対象であるコンテンツの映像に含まれる人間の目線の検出処理、前記第二処理の対象であるコンテンツの映像に含まれる物体の動きの検出処理、前記第二処理の対象であるコンテンツの音に含まれる特定の音の検出処理、および、前記第二処理の対象であるコンテンツの映像に含まれる物体のパターン検出処理のいずれかを少なくとも含む
　請求項５または６に記載の推定装置。
　前記第二判定部は、さらに、前記第二処理で解析した前記コンテンツの特徴に応じて、前記第一判定部による前記第一処理の実行を禁止する制御をする
　請求項５～７のいずれか１項に記載の推定装置。
　第一時刻が紐付けられている第一コンテンツを取得する第一取得ステップと、
　前記第一時刻より所定時間前の第二時刻が紐付けられている第二コンテンツを取得する、前記第一取得ステップよりも前に行う第二取得ステップと、
　前記第一コンテンツに、コンテンツの種別を判定するための第一処理を適用することで、前記第一コンテンツの種別を示す第一種別情報を取得する第一判定ステップと、
　前記第二コンテンツに前記第一処理を適用することで、前記第二コンテンツの種別を示す第二種別情報を取得する、前記第一取得ステップよりも前に行う第二判定ステップと、
　前記第一種別情報と前記第二種別情報とを用いて、前記第一種別情報の信頼度を示す信頼度情報を算出する第一算出ステップと、
　前記第一算出ステップで算出した前記信頼度情報を用いて、前記第一種別情報から導き出される前記第一コンテンツの種別を特定する特定情報を出力する出力ステップと、を含む
　推定方法。
　コンテンツを保有しているコンテンツサーバと、推定装置と、前記コンテンツを提示する提示装置とを備え、
　前記推定装置は、
　第一時刻が紐付けられている第一コンテンツと、前記第一時刻より所定時間前の第二時刻が紐付けられている第二コンテンツとを、前記コンテンツサーバから通信回線を介して取得する取得部と、
　前記第一コンテンツと前記第二コンテンツとのそれぞれに、コンテンツの種別を判定するための第一処理を適用することで、前記第一コンテンツの種別を示す第一種別情報と、前記第二コンテンツの種別を示す第二種別情報とを取得する第一判定部と、
　前記第一種別情報と前記第二種別情報とを用いて、前記第一種別情報の信頼度を示す信頼度情報を算出する第一算出部と、
　前記第一算出部が算出した前記信頼度情報を用いて、前記第一種別情報から導き出される前記第一コンテンツの種別を特定する特定情報を出力する出力部と、を備え、
　前記提示装置は、
　前記推定装置から通信回線を介して前記特定情報を取得し、取得した前記特定情報を用いて前記コンテンツの提示を制御する
　推定システム。