WO2018230294A1

WO2018230294A1 - 動画像処理装置、表示装置、動画像処理方法、および制御プログラム

Info

Publication number: WO2018230294A1
Application number: PCT/JP2018/019955
Authority: WO
Inventors: 直大北城
Original assignee: シャープ株式会社
Priority date: 2017-06-15
Filing date: 2018-05-24
Publication date: 2018-12-20
Also published as: CN111052184A; US20200106930A1

Abstract

動画像における物体識別のための計算コストを従来よりも低減する。複数のフレームによって構成された動画像を処理する信号処理部（１０）は、上記動画像において表現された物体を識別する物体識別部（１３）と、上記動画像の第Ｎフレーム（Ｎは自然数）における上記物体の像の、第Ｎ＋１フレームにおける位置に基づいて、第Ｎ＋１フレームにおいて物体識別部（１３）による識別対象となる領域である識別対象領域を設定するウィンドウ設定部（１２）と、を備えている。

Description

動画像処理装置、表示装置、動画像処理方法、および制御プログラム

　以下の開示は、複数のフレームによって構成された動画像を処理する動画像処理装置等に関する。

　近年、様々な動画像処理の技術が提案されている。一例として、特許文献１に開示された技術は、動画像において移動している物体（移動物体）の像を検出し、当該移動物体の種別または属性を高精度に識別することを目的としている。

　具体的には、特許文献１の物体識別装置は、（ｉ）動画像における移動物体を検出する物体検出部と、（ｉｉ）移動物体の動線を求める動線算出部と、（ｉｉｉ）移動物体の動線の形状に基づき当該移動物体の種別または物体の属性を識別する物体識別部と、を備えている。

日本国公開特許公報「特開２０１６－５７９９８号公報（２０１６年４月２１日公開）」

　しかしながら、特許文献１の技術は、物体識別のため、高精度な画像認識（例：ディープラーニング技術を用いた画像認識）を行おうとするものではない。一方、そのような高精度な画像認識を行おうとすると、特許文献１の技術では、動画像における物体識別のための計算コストが非常に高くなってしまう。本開示の一態様は、動画像における物体識別のための計算コストを従来よりも低減することを目的とする。

　上記の課題を解決するために、本開示の一態様に係る動画像処理装置は、複数のフレームによって構成された動画像を処理する動画像処理装置であって、上記動画像において表現された物体を識別する物体識別部と、上記動画像の第Ｎフレーム（Ｎは自然数）における上記物体の像の、第Ｎ＋１フレームにおける位置に基づいて、第Ｎ＋１フレームにおいて、上記物体識別部による識別対象となる領域である識別対象領域を設定する領域設定部と、を備えている。

　また、上記の課題を解決するために、本開示の一態様に係る動画像処理方法は、複数のフレームによって構成された動画像を処理する動画像処理方法であって、上記動画像において表現された物体を識別する物体識別工程と、上記動画像の第Ｎフレーム（Ｎは自然数）における上記物体の像の、第Ｎ＋１フレームにおける位置に基づいて、第Ｎ＋１フレームにおいて、上記物体識別工程における識別対象となる領域である識別対象領域を設定する領域設定工程と、を含んでいる。

　本開示の一態様に係る動画像処理装置によれば、動画像における物体識別のための計算コストを従来よりも低減することが可能となる。また、本開示の一態様に係る動画像処理方法によっても、同様の効果を奏する。

実施形態１に係る表示装置の要部の構成を示す機能ブロック図である。動きベクトルを説明するための概略図である。第Ｎフレームにおける識別対象領域を説明するための図である。図１の表示装置におけるヒストグラム生成処理の流れを例示する図である。（ａ）および（ｂ）はそれぞれ、ブロック包含条件を説明するための図である。（ａ）および（ｂ）はそれぞれ、ヒストグラム生成処理によって得られた２つのヒストグラムの一例を示す図である。（ａ）～（ｃ）はそれぞれ、ヒストグラム生成処理において使用または設定されるデータの一例を示す図である。図１の表示装置におけるヒストグラム解析処理の流れを例示する図である。複数の識別対象領域候補の一例を示す図である。複数の識別対象領域候補に対する物体識別の結果の一例を示す図である。第Ｎ＋１フレームにおける識別対象領域の相違を説明するための図である。（ａ）および（ｂ）はそれぞれ、実施形態２における、第Ｎ－１フレームと第Ｎフレームとの間での、２つのヒストグラムのそれぞれの値の分布の変化を例示する図である。実施形態２において、第Ｎフレームにおける識別対象領域を拡大して、第Ｎ＋１フレームにおける識別対象領域候補を設定する例を示す図である。実施形態３に係る動画像処理装置の要部の構成を示す機能ブロック図である。実施形態４に係る動画像処理装置の要部の構成を示す機能ブロック図である。

　〔実施形態１〕
　以下、実施形態１について、図１～図１１に基づいて詳細に説明する。まず、図１を参照して、実施形態１の表示装置１の概要について述べる。図１は、表示装置１の要部の構成を示す機能ブロック図である。

　（表示装置１の概要）
　表示装置１は、信号処理部１０（動画像処理装置）、表示部８０、および記憶部９０を備えている。一例として、表示装置１は、テレビまたはＰＣ（Personal Computer）であってよい。あるいは、表示装置１は、多機能型携帯電話機（スマートフォン）またはタブレット等の携帯型情報端末等であってもよい。

　以下に述べるように、表示装置１では、信号処理部１０において動画像（入力像画像，入力映像信号）に処理が施され、処理後の動画像（出力動画像，出力映像信号）が表示部８０に出力される。表示部８０は、動画像を表示する部材であり、例えば液晶ディスプレイまたは有機ＥＬ（Electro-Luminescence）ディスプレイであってよい。

　実施形態１では、説明の便宜上、入力動画像を動画像Ａ、出力動画像を動画像Ｃとも称する。実施形態１では、信号処理部１０では、動画像Ｃに先立ち、動画像Ｂ（中間的な動画像）が生成される場合を例示する。なお、実施形態１の各動画像は、複数のフレームによって構成されているものとする。

　信号処理部１０は、表示装置１の各部を統括的に制御する制御部（不図示）の一部分として設けられている。当該制御部の機能は、記憶部９０に記憶されたプログラムを、ＣＰＵ（Central Processing Unit）が実行することで実現されてよい。信号処理部１０の各部の機能については、後により詳細に述べる。記憶部９０は、信号処理部１０が実行する各種のプログラム、および当該プログラムによって使用されるデータを格納する。

　実施形態１では、信号処理部１０（より具体的には、後述するフレームレート変換部１１）に、外部から動画像Ａが供給される場合を例示する。動画像Ａは、外部からの放送波（電波）が、例えば表示装置１のチューナ（不図示）によって受信および復号されることによって、表示装置１の内部において生成されてよい。この場合、チューナから信号処理部１０に動画像Ａが供給される。

　動画像Ａは、信号処理部１０における処理の対象となる動画像である。一例として、動画像Ａの解像度は、４Ｋ２Ｋ（水平画素数３８４０×垂直画素数２１６０）であってよい。但し、実施形態１において述べる各動画像の解像度は、上記のものに限定されず、適宜設定されてよい。例えば、動画像Ａの解像度は、Ｆｕｌｌ　ＨＤ（水平画素数１９２０×垂直画素数１０８０）であってもよいし、８Ｋ４Ｋ（水平画素数７６８０×垂直画素数４３２０）であってもよい。

　記憶部９０に動画像Ａがあらかじめ格納されている場合、信号処理部１０は、記憶部９０から動画像Ａを取得してもよい。あるいは、信号処理部１０は、表示装置１に接続された外部装置（例：デジタルムービーカメラ）から動画像Ａを取得してもよい。

　以下に述べるように、信号処理部１０は、入力動画像としての動画像Ａを処理し、出力動画像としての動画像Ｃを生成する。そして、信号処理部１０（より具体的には、後述する画質補正部１４）は、動画像Ｃを表示部８０に供給する。従って、表示部８０において動画像Ｃを表示できる。なお、表示部８０の動作を制御する表示制御部（不図示）は、信号処理部１０に設けられてもよいし、表示部８０自体に設けられてもよい。

　（信号処理部１０）
　続いて、信号処理部１０の具体的な構成について述べる。図１に示されるように、信号処理部１０は、フレームレート変換部１１、ウィンドウ設定部１２（領域設定部）、物体識別部１３、および画質補正部１４を備えている。

　以下に述べるように、ウィンドウ設定部１２および物体識別部１３は、本開示の一態様に係る動画像処理装置の要部である。ウィンドウ設定部１２および物体識別部１３は、総称的に「識別処理部」と称されてもよい。図１および後述の各図面では、説明の便宜上、識別処理部線が点線によって示されている。

　フレームレート変換部１１は、内挿画像生成部１１１および動きベクトル算出部１１２を備えている。内挿画像生成部１１１および動きベクトル算出部１１２のそれぞれには、動画像Ａが供給される。

　内挿画像生成部１１１は、動画像Ａのフレームレートを増加させる。具体的には、内挿画像生成部１１１は、動画像Ａから、当該動画像Ａを構成する複数のフレームのそれぞれを抽出する。内挿画像生成部１１１によって抽出された各フレームは、例えばフレームメモリ（不図示）に格納されてよい。当該フレームメモリは、フレームレート変換部１１に設けられていてもよいし、フレームレート変換部１１の外部に設けられていてもよい。

　続いて、内挿画像生成部１１１は、公知のアルゴリズムを用いて、上記フレームに基づいて補間フレーム（中間フレーム）を生成する。例えば、内挿画像生成部１１１は、以下に述べる動きベクトルを用いて、補間フレームを生成してよい。そして、内挿画像生成部１１１は、動画像Ａに対して、所定のフレーム間隔ごとに補間フレームを挿入することにより、動画像Ａのフレームレートを増加させる。

　以降、内挿画像生成部１１１における処理後の動画像を、動画像Ｂとも称する。一例として、フレームレート変換部１１は、動画像Ａのフレームレートを２倍に増加させてよい。例えば、動画像Ａのフレームレートが６０ｆｐｓ（frames per second）である場合、内挿画像生成部１１１は、１２０ｆｐｓのフレームレートを有する動画像Ｂを生成する。

　但し、フレームレート変換部１１におけるフレームレートの変換倍率は、上記のものに限定されず、適宜設定されてよい。また、実施形態１において述べる各動画像のフレームレートも、上記のものに限定されない。一例として、フレームレート変換部１１は、フレームレート２４ｆｐｓの動画像Ａに対して、フレームレートを１０倍に増加させて、フレームレート２４０ｆｐｓの動画像Ｂを生成してもよい。

　内挿画像生成部１１１が設けられることにより、表示部８０に表示させる動画像のフレームレートを、当該表示部８０の性能仕様に応じたものに変換できる。但し、後述の実施形態３等に示されるように、内挿画像生成部１１１は、信号処理部１０における必須の構成要素ではないことに留意されたい。例えば、動画像Ａのフレームレートがすでに表示部８０の性能仕様に応じたものであれば、内挿画像生成部１１１において動画像Ｂを生成する（動画像Ａのフレームレートを変換する）必要はないためである。

　内挿画像生成部１１１は、画質補正部１４に動画像Ｂを供給する。また、内挿画像生成部１１１は、物体識別部１３に動画像Ｂの少なくとも一部を供給する。実施形態１では、内挿画像生成部１１１から物体識別部１３に、動画像Ｂの全体が供給される場合を例示する。

　動きベクトル算出部１１２は、動画像Ａ（より具体的には、フレームメモリに格納された、動画像Ａの各フレーム）を解析することにより、動きベクトルを算出（検出）する。動きベクトル算出部１１２における動きベクトルの算出には、公知のアルゴリズムが用いられてよい。

　なお、信号処理部１０から内挿画像生成部１１１を除外した場合には、動画像Ａから各フレームを抽出する機能を、動きベクトル算出部１１２に付与してもよい。さらに、後述の実施形態４に示されるように、信号処理部１０から動きベクトル算出部１１２をさらに除外することもできる。つまり、フレームレート変換部１１（内挿画像生成部１１１および動きベクトル算出部１１２）は、信号処理部１０における必須の構成要素ではないことに留意されたい。

　続いて、動きベクトルについて説明する。まず、動画像（例：動画像Ａ）を構成する各フレームを複数のブロック（領域）に空間的に分割した場合を考える。動きベクトルとは、１つのフレーム（例：基準フレーム）におけるブロック（より具体的には、ブロック内に位置する仮想的なオブジェクト）と、当該１つのフレームに後続する別のフレーム（例：基準フレームの次のフレーム）における対応するブロックとの位置のずれを示すベクトルである。

　つまり、動きベクトルとは、１つのフレームにおけるブロックが、後続する別のフレームにおいてどの位置へと移動したかを示すベクトルである。動きベクトルは、上記ブロックの移動量を示す指標として用いられる。

　図２は、動きベクトルを説明するための概略図である。図２に示されるように、動画像に含まれる各フレームは、水平方向の長さ（解像度）ａ、垂直方向の長さｂのブロックに均一に分割される。ここで、動画像の水平画素数をＨ、垂直画素数をＶとしてそれぞれ表す。なお、水平方向をｘ方向、垂直方向をｙ方向とも称する。

　この場合、各フレームは、水平方向に（Ｈ／ａ）分割されるとともに、垂直方向に（Ｖ／ｂ）分割される。すなわち、各フレームは、（Ｈ／ａ）×（Ｖ／ｂ）個のブロックに分割される。なお、ａ、ｂ、Ｈ、およびＶの値は、それぞれ任意に設定されてよい。一例として、ａ＝ｂ＝１の場合には、１個のブロックは１個の画素に一致する。

　ここで、図２におけるブロックのうちの１つを、Ｂｌｏｃｋ（ｉ，ｊ）として表す。ｉおよびｊはそれぞれ、各フレームにおける水平方向および垂直方向の位置を示す指標（番号）である。ｉは、ｘｙ座標におけるｘ方向成分（以下、ｘ成分とも称する）の序数である。また、ｊは、ｘｙ座標におけるｙ方向成分（以下、ｙ成分とも称する）の序数である。

　なお、図２の紙面における各ブロックのうち、最も左上に位置するブロックを、Ｂｌｏｃｋ（０，０）とする。また、図２において、（ｉ）ブロックの水平方向の番号は、左側から右側に向かうにつれて、（ｉｉ）ブロックの垂直方向の番号は、上側から下側に向かうにつれて、１つずつ増加するように設定されている。従って、Ｉ＝Ｈ／ａ－１、Ｊ＝Ｖ／ｂ－１とすれば、「０≦ｉ≦Ｉ、かつ、０≦ｊ≦Ｊ」である。

　図２に示されるように、Ｂｌｏｃｋ（ｉ，ｊ）の動きベクトルを、ＭＶ（ｉ，ｊ）＝（ＭＶｘ（ｉ，ｊ），ＭＶｙ（ｉ，ｊ））として表す。ＭＶｘは、動きベクトルＭＶのｘ成分である、また、ＭＶｙは、動きベクトルＭＶのｙ成分である。従って、動きベクトルＭＶは、ＭＶ＝（ＭＶｘ，ＭＶｙ）として総称的に表されてもよい。

　動きベクトル算出部１１２は、図２における各ブロックについて、動きベクトル（ＭＶｘ，ＭＶｙ）を算出する。そして、動きベクトル算出部１１２は、当該動きベクトル（ＭＶｘ，ＭＶｙ）を、内挿画像生成部１１１およびウィンドウ設定部１２に供給する。

　ウィンドウ設定部１２は、ヒストグラム生成部１２１およびヒストグラム解析部１２２を備えている。以下に述べるように、ウィンドウ設定部１２は、動画像（例：動画像Ｂ）の第Ｎフレーム（Ｎは自然数）（現フレーム）において表現された物体の像の、第Ｎ＋１フレーム（次フレーム）における位置に基づいて、当該第Ｎ＋１フレームにおける識別対象領域を設定する。なお、識別対象領域とは、物体識別部１３による物体の識別対象となる領域を意味する。

　より具体的には、ウィンドウ設定部１２は、動画像の動きベクトルのうち、第Ｎフレームにおける識別対象領域に含まれる動きベクトル（識別対象領域内の動きベクトル）に基づいて、第Ｎ＋１フレームにおける識別対象領域を設定する。以下に述べるように、第Ｎフレームにおける識別対象領域には、物体の像の少なくとも一部分が含まれている。

　図３は、第Ｎフレームにおける識別対象領域を説明するための図である。図３のＷｉｎｄｏｗ（ｘ０：ｘ１，ｙ０：ｙ１）は、４つの点（ｘ０，ｙ０）、（ｘ０，ｙ１）、（ｘ１，ｙ１）、（ｘ１，ｙ０）を頂点とする四角形（矩形，長方形）を表す（後述の図５等も参照）。以下、Ｗｉｎｄｏｗ（ｘ０：ｘ１，ｙ０：ｙ１）を、単に「ウィンドウ」とも称する。ｘ０およびｘ１はそれぞれ、０≦ｘ０，ｘ１≦Ｈ－１を満たす整数である。また、ｙ０およびｙ１はそれぞれ、０≦ｙ０，ｙ１≦Ｖ－１を満たす整数である。

　図３では、２つの物体ＯＢＪ（例：雲）およびＯＢＪ２（例：三日月）の像が第Ｎフレームにおいて表現されている場合が例示されている。実施形態１では、物体ＯＢＪを物体識別部１３による識別対象として取り扱う場合を説明する。この場合、以下に述べるように、Ｗｉｎｄｏｗ（ｘ０：ｘ１，ｙ０：ｙ１）が、第Ｎフレームにおける識別対象領域となる。図３の例では、Ｗｉｎｄｏｗ（ｘ０：ｘ１，ｙ０：ｙ１）には、物体ＯＢＪの像の全体と、ＯＢＪの像の背景ＢＧとが含まれている。

　ウィンドウ設定部１２は、Ｗｉｎｄｏｗ（ｘ０：ｘ１，ｙ０：ｙ１）に含まれる動きベクトル（ＭＶｘ，ＭＶｙ）に基づいて、第Ｎ＋１フレームにおける識別対象領域を設定する。ウィンドウ設定部１２における識別対象領域の具体的な設定方法（つまり、ヒストグラム生成部１２１およびヒストグラム解析部１２２の具体的な動作）については、後述する。

　物体識別部１３は、動画像（例：動画像Ｂ）において表現された物体を識別する。より具体的には、図３に示されるように、物体識別部１３は、第Ｎフレームにおける識別対象領域であるＷｉｎｄｏｗ（ｘ０：ｘ１，ｙ０：ｙ１）に含まれる物体ＯＢＪを認識する。より具体的には、物体識別部１３は、物体ＯＢＪの像を検出し、当該物体ＯＢＪが属する物体のカテゴリ（以下、物体カテゴリ）を特定する。例えば、物体識別部１３は、物体ＯＢＪの物体カテゴリが雲であると特定する。

　物体識別部１３による物体識別方法（物体カテゴリの特定方法）には、任意の手法が用いられてよい。一例として、物体識別方法には、ディープラーニング（deep learning）（深層学習とも称される）技術が利用されてよい。但し、その他の公知の物体識別方法が採用されてもよい。

　実施形態１では、物体識別部１３は、ディープラーニング技術等のニューラルネットワークを用いた機械学習を行う場合を例示する。この場合、物体識別部１３に複数の物体の画像（例：後述のリファレンス画像）を用いてあらかじめ機械学習を行わせて、物体を識別する（物体カテゴリを特定する）ためのモデルを取得させておけばよい。以下、当該モデルを学習済みモデルと称する。

　以下の説明において、物体識別部１３は、学習済みモデルを含んでいるものとする。物体識別部１３は、ＯＢＪと学習済みモデルとの照合を行うことで、物体ＯＢＪを識別できる（ＯＢＪの物体カテゴリを特定できる）。

　ディープラーニング技術を用いることにより、その他の公知の物体識別方法に比べて、物体識別部１３における物体識別を高精度に行うことが可能となる。特に、十分なハードウェア資源を用いた学習により、物体識別部１３に学習済みモデルを取得させた場合には、より高精度に物体を識別できる。

　加えて、ディープラーニング技術を用いた場合には、物体を識別するためのモデルを、表示装置１の設計者があらかじめ準備することが不要となる。それゆえ、機械学習の結果に応じて、広範囲な物体の質感に応じた学習済みモデルを取得できる。

　ところで、ディープラーニング技術等のニューラルネットワークによって得られた学習済みモデルを利用した物体識別は、比較的計算コストが高い処理であることが知られている。しかしながら、上述のように、物体識別部１３は、第Ｎフレームにおける識別対象領域に対してのみ、物体の識別を行えばよい。すなわち、物体識別部１３は、第Ｎフレームの領域全体に対して、物体識別を行う必要はない。このように、物体識別部１３に物体の識別を行わせる対象となる領域をあらかじめ絞ることで、物体識別のための計算コストを効果的に低減できる。

　物体識別部１３は、Ｗｉｎｄｏｗ（ｘ０：ｘ１，ｙ０：ｙ１）における物体ＯＢＪの識別結果を示す物体識別情報を生成し、当該物体識別情報を画質補正部１４に供給する。物体識別情報は、物体ＯＢＪの質感を示す指標の１つとして用いることができる。

　画質補正部１４は、上述の動画像Ｂを処理し、動画像Ｃ（出力動画像）を生成する。そして、画質補正部１４は、動画像Ｃを表示部８０に供給する。画質補正部１４は、表示部８０の性能仕様に応じて、動画像Ｂに公知の画質補正処理を施してよい。当該画質補正処理の例としては、色補正、コントラスト補正、エッジ補正、および画質鮮鋭化等の処理が挙げられる。

　さらに、実施形態１において、画質補正部１４は、物体識別部１３から取得した物体識別情報に基づいて（つまり、物体識別部１３の識別結果に応じて）、動画像Ｂを処理してよい。すなわち、画質補正部１４に、物体ＯＢＪの質感をより効果的に表現するように、動画像Ｂを処理させてよい。当該処理によれば、動画像Ｃにおいて表現された物体ＯＢＪの質感を高めることが可能となる。

　従来では、動画像において表現された物体の質感を十分に表現するためには、非常に高い解像度を有するカメラ（撮像装置）によって動画像を撮影および記録し、高解像度フォーマットの映像信号を表示装置１（映像表示装置）に入力する（例：８Ｋ４Ｋレベルの解像度フォーマットを利用する）必要があった。あるいは、動画像の解像度が非常に高い場合であっても、非可逆圧縮によって生成された圧縮動画像データ（後述）が提供されている場合には、当該圧縮動画像データの復号時に動画像の劣化が生じてしまう。この場合、当該劣化に起因して、動画像における質感の表現性が低下する。このように、従来では、動画像において質感を効果的に表現することが容易ではなかった。

　しかしながら、画質補正部１４によれば、（ｉ）動画像の解像度が必ずしも十分に高くない場合、または、（ｉｉ）圧縮動画像データの復号時に動画像の劣化が生じた場合であっても、物体の質感を効果的に表現できる。つまり、物体の質感を十分に表現できる動画像を、従来よりも簡便な構成で提供できる。

　一例として、物体ＯＢＪの物体カテゴリが「雲」であると特定された場合には、雲の「ふわふわ」とした質感（軽さを表す素材感）を高めるように、画質補正部１４において所定の動画像処理（例：輪郭補正）が行われてよい。

　（ウィンドウ設定部１２におけるヒストグラム生成処理の流れ）
　続いて、ウィンドウ設定部１２におけるヒストグラム生成部１２１およびヒストグラム解析部１２２のそれぞれの動作について、具体的に説明する。まず、ヒストグラム生成部１２１の動作について述べる。図４は、ヒストグラム生成部１２１およびその周辺の機能部の処理の流れＳ１～Ｓ３ｂを例示するフローチャートである。図４の処理は、ヒストグラム生成処理とも称される。

　ヒストグラム生成部１２１は、動画像に含まれる各フレームに対して（動画像が１フレーム入力されるごとに）、ヒストグラム生成処理を行う。以下、ヒストグラム生成部１２１が動画像の第Ｎフレームを処理する場合を例示する。

　まず、Ｓ１において、後述するヒストグラム解析部１２２によって、第Ｎフレームにおける識別対象領域であるＷｉｎｄｏｗ（ｘ０：ｘ１，ｙ０：ｙ１）が設定される。ヒストグラム解析部１２２がＷｉｎｄｏｗ（ｘ０：ｘ１，ｙ０：ｙ１）を設定する方法については、後述の図８にて述べる（特に、図８の処理Ｓ１６を参照）。

　Ｗｉｎｄｏｗ（ｘ０：ｘ１，ｙ０：ｙ１）を規定する４つの値「ｘ０，ｘ１，ｙ０，ｙ１」は、第Ｎフレームの有効データが入力される期間（有効データ期間）までに設定され、ヒストグラム生成処理が完了するまで一定に保持される。後述の図７の（ａ）には、４つの値「ｘ０，ｘ１，ｙ０，ｙ１」を示す表が示されている。図７は、ヒストグラム生成処理において使用または設定されるデータの一例を示す表である。

　以下、図７の（ａ）に示されるように、ｘ０＝３００、ｙ０＝６００、ｘ１＝４００、ｙ１＝７００であるとする。なお、図７の（ａ）では、これら４つのパラメータが、ウィンドウを規定するものであることを示すために、「Ｗｉｎｄｏｗ」という添字が便宜上付されている。

　続いて、ヒストグラム生成部１２１は、Ｗｉｎｄｏｗ（ｘ０：ｘ１，ｙ０：ｙ１）に含まれる動きベクトルの水平成分および垂直成分のそれぞれについて、統計値を示すヒストグラムを生成する。

　以下、動きベクトルの水平成分のヒストグラムをＨｉｓｔｏｇｒａｍＨと称する。ＨｉｓｔｏｇｒａｍＨは、動きベクトルの水平成分を階級（横軸の値）とする。また、動きベクトルの垂直成分のヒストグラムをＨｉｓｔｏｇｒａｍＶと称する。ＨｉｓｔｏｇｒａｍＶは、動きベクトルの垂直成分を階級とする。

　まず、Ｓ２において、ヒストグラム生成部１２１は、ＨｉｓｔｏｇｒａｍＨおよびＨｉｓｔｏｇｒａｍＶを初期化する。つまり、ヒストグラム生成部１２１は、ＨｉｓｔｏｇｒａｍＨおよびＨｉｓｔｏｇｒａｍＶの全ての階級において、度数（縦軸の値）を０にする（クリアする）。換言すれば、ヒストグラム生成部１２１は、ＨｉｓｔｏｇｒａｍＨおよびＨｉｓｔｏｇｒａｍＶの全ての度数を空集合（Φ）に設定する。

　図４のＳ３ａからＳ３ｂまでは、上述の有効データ期間に亘って（つまり、第Ｎフレーム全体に亘って）、Ｂｌｏｃｋ（ｉ，ｊ）ごとに逐次行われる処理である。Ｓ３ａ・Ｓ３ｂは、垂直方向における処理を示すループ（ループ１）である。ループ１は、垂直期間に亘る動画像の垂直方向の走査に伴って行われる。

　つまり、ループ１では、ｊ＝０，１，２，３，…，Ｊ（＝Ｖ／ｂ－１）として、ｊを１つずつカウントアップし、Ｂｌｏｃｋ（ｉ，ｊ）を選択する。なお、ｉの値は、ループ２（後述）において設定される。そして、Ｂｌｏｃｋ（ｉ，ｊ）が選択された順に、ループ１に内含される各処理（Ｓ４ａ～Ｓ４ｂ）が逐次的に反復して行われる。

　Ｓ４ａ・Ｓ４ｂは、水平方向における処理を示すループ（ループ２）である。ループ２は、水平期間に亘る動画像の水平方向の走査に伴って行われる。つまり、ループ２では、ループ１において設定された所定のｊのもとで、ｉ＝０，１，２，３，…，Ｉ（＝Ｈ／ａ－１）として、ｉを１つずつカウントアップし、Ｂｌｏｃｋ（ｉ，ｊ）を選択する。そして、Ｂｌｏｃｋ（ｉ，ｊ）が選択された順に、ループ２に内含される各処理（Ｓ５～Ｓ７）が逐次的に反復して行われる。

　Ｓ５において、動きベクトル算出部１１２は、Ｂｌｏｃｋ（ｉ，ｊ）の動きベクトル（ＭＶｘ，ＭＶｙ）を検出する。上述の通り、Ｓ５に伴い、内挿画像生成部１１１において、動きベクトル（ＭＶｘ，ＭＶｙ）を用いて補間フレームが生成されてよい。但し、内挿画像生成部１１１における補間フレームの生成処理は、ヒストグラム生成処理の結果には影響を及ぼさない。

　Ｓ６において、ヒストグラム生成部１２１は、Ｓ５における処理対象（動きベクトル（ＭＶｘ，ＭＶｙ）の検出対象）であるＢｌｏｃｋ（ｉ，ｊ）が、Ｗｉｎｄｏｗ（ｘ０：ｘ１，ｙ０：ｙ１）内に含まれているか否かを判定する。すなわち、ヒストグラム生成部１２１は、「Ｂｌｏｃｋ（ｉ，ｊ）⊆Ｗｉｎｄｏｗ（ｘ０：ｘ１，ｙ０：ｙ１）」という条件（以下、ブロック包含条件）が満たされているか否かを判定する。

　図５の（ａ）および（ｂ）はそれぞれ、ブロック包含条件について説明するための図である。上述のように、Ｂｌｏｃｋ（ｉ，ｊ）は、ａ×ｂ画素のサイズを有する領域である。具体的には、Ｂｌｏｃｋ（ｉ，ｊ）のサイズは、例えば８×８画素または１６×１６画素等のサイズとなる。つまり、Ｂｌｏｃｋ（ｉ，ｊ）のサイズは、上述の物体ＯＢＪの像に比べて、十分に小さくなるように、ａおよびｂの値が設定される。このため、Ｂｌｏｃｋ（ｉ，ｊ）のサイズは、Ｗｉｎｄｏｗ（ｘ０：ｘ１，ｙ０：ｙ１）（物体ＯＢＪの像を含む領域）に比べても十分に小さい（上述の図３も参照）。

　従って、上述のブロック包含条件は、例えば以下の第１の判定条件、
　（第１の判定条件）：「（ｘ０≦ａ×ｉ）∧（ａ×（ｉ＋１）≦ｘ１）∧（ｙ０≦ｂ×ｊ）∧（ｂ×（ｊ＋１）≦ｙ１）が真である」
と、近似的に書き換えることもできる。

　このため、ヒストグラム生成部１２１は、第１の判定条件を用いて、ブロック包含条件が満たされるか否かを判定してよい。図５の（ａ）には、所定のＷｉｎｄｏｗ（ｘ０：ｘ１，ｙ０：ｙ１）に対して、第１の判定条件を満たすブロックが斜線で示されている。図５の（ａ）の例では、斜線で示された１２個（＝４×３個）のブロックが、ブロック包含条件を満たすと判定される。

　あるいは、上述のブロック包含条件は、例えば以下の第２の判定条件、
　（第２の判定条件）：「（ｘ０≦ａ×（ｉ＋１））∧（ａ×ｉ≦ｘ１）∧（ｙ０≦ｂ×（ｊ＋１））∧（ｂ×ｊ≦ｙ１）が真である」
と、近似的に書き換えることもできる。

　このため、ヒストグラム生成部１２１は、第２の判定条件を用いて、ブロック包含条件が満たされるか否かを判定してよい。図５の（ｂ）には、図５の（ａ）と同様のＷｉｎｄｏｗ（ｘ０：ｘ１，ｙ０：ｙ１）に対して、第２の判定条件を満たすブロックが斜線で示されている。

　図５の（ｂ）の例では、斜線で示された３０個（＝５×６個）のブロックが、ブロック包含条件を満たすと判定される。このように、第２の判定条件によれば、第１の判定条件に比べてより多くのブロックが、ブロック包含条件を満たすと判定されうる。ブロック包含条件の判定において、第１の判定条件または第２の判定条件のいずれを用いるかは、表示装置１の設計者によって適宜選択されてよい。

　Ｂｌｏｃｋ（ｉ，ｊ）について、ブロック包含条件が満たされる場合には（Ｓ６でＹＥＳ）、以下のＳ７に進む。他方、Ｂｌｏｃｋ（ｉ，ｊ）について、ブロック包含条件が満たされない場合には（Ｓ６でＮＯ）、Ｓ４ｂに進む。すなわち、Ｓ７は行われない。

　Ｓ７において、ヒストグラム生成部１２１は、Ｗｉｎｄｏｗ（ｘ０：ｘ１，ｙ０：ｙ１）のＢｌｏｃｋ（ｉ，ｊ）のそれぞれについて、動きベクトル算出部１１２が検出した動きベクトル（ＭＶｘ，ＭＶｙ）を取得する。そして、ヒストグラム生成部１２１は、動きベクトル（ＭＶｘ，ＭＶｙ）から、各成分ＭＶｘおよびＭＶｙの値を取得する（動きベクトルを水平成分および垂直成分に分解する）。

　実施形態１では、ＨｉｓｔｏｇｒａｍＨは、１画素単位での成分ＭＶｘのそれぞれの値を階級とする。従って、ヒストグラム生成部１２１は、１つのＢｌｏｃｋ（ｉ，ｊ）において所定の値のＭＶｘが存在している場合には、ＨｉｓｔｏｇｒａｍＨにおいて当該ＭＶｘの値を例えば四捨五入した整数値が示す階級の度数を１だけカウントアップする。

　例えば、１つのＢｌｏｃｋ（ｉ，ｊ）において、ＭＶｘ＝－１である場合（ｘ方向の負方向への１画素分の移動量を示す動きベクトルのｘ成分ＭＶｘが検出された場合）には、ＨｉｓｔｏｇｒａｍＨにおける「階級－１」の度数を１だけカウントアップする。

　また、ＨｉｓｔｏｇｒａｍＶは、１画素単位での成分ＭＶｙのそれぞれの値を階級とする。従って、ヒストグラム生成部１２１は、１つのＢｌｏｃｋ（ｉ，ｊ）において所定の値のＭＶｙが存在している場合には、ＨｉｓｔｏｇｒａｍＶにおいて当該ＭＶｙの値を例えば四捨五入した整数値が示す階級の度数を１だけカウントアップする。例えば、１つのＢｌｏｃｋ（ｉ，ｊ）において、ＭＶｙ＝１（ｙ方向の正方向への１画素分の移動量を示す動きベクトルのｙ成分ＭＶｙが検出された場合）には、ＨｉｓｔｏｇｒａｍＶにおける「階級１」の度数を１だけカウントアップする。

　そして、上述のループ２・１の完了に伴い、ヒストグラム生成処理が完了する。なお、ヒストグラム生成処理の完了は、上述のフレームレート変換処理の完了に並行する。

　図６の（ａ）および（ｂ）はそれぞれ、ヒストグラム生成処理の完了時に得られたＨｉｓｔｏｇｒａｍＨおよびＨｉｓｔｏｇｒａｍＶの一例を示す。図６は、図３の第Ｎフレームに対して得られた２つのヒストグラム（ＨｉｓｔｏｇｒａｍＨおよびＨｉｓｔｏｇｒａｍＶ）を示す。

　図７の（ｂ）および（ｃ）にはそれぞれ、図６のＨｉｓｔｏｇｒａｍＨおよびＨｉｓｔｏｇｒａｍＶの各階級における度数を示す表が示されている。図７の（ｂ）および（ｃ）では、各数値が第Ｎフレームに対して得られたヒストグラムであることを示すために、「Ｈｉｓｔｏｇｒａｍ＿Ｎ」という添字が便宜上付されている。また、以下では、説明の便宜上、ＭＶｘおよびＭＶｙのそれぞれの階級を、単に文字「ｘ」および「ｙ」によって適宜表すものとする。

　図６の（ａ）に示されるように、ＨｉｓｔｏｇｒａｍＨでは、階級ｘ＝７（後述のＭＶｘＰ１）において、ｘ方向における最大度数（１番目に大きい度数のピーク）（以下、第１ピーク度数とも称する）が存在している。具体的には、ｘ方向における第１ピーク度数は１０であった。以下、第１ピーク度数を有する階級を、第１ピーク階級と称する。

　また、図６の（ｂ）に示されるように、ＨｉｓｔｏｇｒａｍＶでは、階級ｙ＝－５（後述のＭＶｙＰ１）において、ｙ方向における最大度数（第１ピーク度数）が存在している。具体的には、ｙ方向における第１ピーク度数は７であった。

　「ｘ＝７がｘ方向の第１ピーク階級であり、かつ、ｙ＝－５がｙ方向の第１ピーク階級である」ことは、図３のＯＢＪの代表的な動きが、「ｘ方向の正方向に７画素分移動し、かつ、ｙ方向の負方向に５画素分移動する」動きであることを示唆している。

　さらに、図６の（ａ）に示されるように、ＨｉｓｔｏｇｒａｍＨでは、階級ｘ＝０（後述のＭＶｘＰ２）において、ｘ方向において２番目に大きい度数のピーク（以下、第２ピーク度数とも称する）が存在している。具体的には、ｘ方向における第２ピーク度数は５であった。以下、第２ピーク度数を有する階級を、第２ピーク階級と称する。

　また、図６の（ｂ）に示されるように、ＨｉｓｔｏｇｒａｍＶでは、階級ｙ＝０（後述のＭＶｘＰ２）において、ｙ方向における第２ピーク度数が存在している。具体的には、ｙ方向における第２ピーク度数は４であった。

　「ｘ＝０がｘ方向の第２ピーク階級であり、かつ、ｙ＝０がｙ方向の第２ピーク階級である」であることは、図３の背景ＢＧが、ほぼ静止している（ｘ方向およびｙ方向のいずれにもほぼ移動しない）ことを示唆している。

　（ウィンドウ設定部１２におけるヒストグラム解析処理の流れ）
　次に、ヒストグラム解析部１２２の動作について述べる。図８は、ヒストグラム解析部１２２およびその周辺の機能部の処理の流れＳ１１～Ｓ１６を例示するフローチャートである。図８の処理は、ヒストグラム解析処理とも称される。ヒストグラム解析処理は、上述のヒストグラム生成処理の完了後（換言すれば、フレームレート変換処理の完了後）に行われる。

　Ｓ１１において、ヒストグラム解析部１２２は、上述のヒストグラム生成処理においてヒストグラム生成部１２１によって生成されたＨｉｓｔｏｇｒａｍＨおよびＨｉｓｔｏｇｒａｍＶを取得する。そして、ヒストグラム解析部１２２は、ＨｉｓｔｏｇｒａｍＨおよびＨｉｓｔｏｇｒａｍＶのそれぞれについて、度数分布のピーク階級（度数のピーク（極大値）が得られる階級）を探索する。ピーク階級の探索には、公知のアルゴリズムが用いられてよい。

　例えば、「最初に第１ピーク度数（全体の最大度数）を有する階級（第１ピーク階級）を発見する。続いて、既出の階級（第１ピーク階級）と隣合わない、２番目に大きい度数（第２ピーク度数）を有する階級（第２ピーク階級）を発見する。続いて、既出階級（第１～２ピーク階級）と隣合わない、３番目に大きい度数（第３ピーク度数）を有する階級（第３ピーク階級）を発見する。…（以下略）」という処理を繰り返すことによって、Ｎｐ個のピーク階級を探索できる。

　以下、ＨｉｓｔｏｇｒａｍＨおよびＨｉｓｔｏｇｒａｍＶのそれぞれが、Ｎｐ個のピーク階級を有する場合を考える。また、ｘ方向の第ｋピーク階級をＭＶｘＰｋ、ｙ方向の第ｍピーク階級をＭＶｙＰｍとして表す。ここで、１≦ｋ≦Ｎｐかつ１≦ｍ≦Ｎｐである。

　一例として、ヒストグラム解析部１２２が、上記処理によって、図６のＨｉｓｔｏｇｒａｍＨおよびＨｉｓｔｏｇｒａｍＶのそれぞれに対して、Ｎｐ＝２のピーク階級を探索する場合を考える。

　ヒストグラム解析部１２２は、ＨｉｓｔｏｇｒａｍＨに対して、ＭＶｘＰ１＝７（第１ピーク度数＝１０）、ＭＶｘＰ２＝０（第２ピーク度数＝５）を発見する（図６の（ａ）および図７の（ｂ）を参照）。また、ヒストグラム解析部１２２は、ＨｉｓｔｏｇｒａｍＶに対して、ＭＶｙＰ１＝－５（第１ピーク度数＝７）、ＭＶｙＰ２＝０（第２ピーク度数＝４）を発見する（図６の（ｂ）および図７の（ｃ）を参照）。

　Ｓ１２において、ヒストグラム解析部１２２は、Ｓ１１において得られたＭＶｘＰｋおよびＭＶｙＰｍを用いて、物体の移動量の推定値（以下、移動量推定値）を算出する。具体的には、ヒストグラム解析部１２２は、Ｎｐ×Ｎｐ＝Ｎｐ^２通りの移動量推定値を算出する。より具体的には、ヒストグラム解析部１２２は、Ｎｐ通りのＭＶｘＰｋの値と、Ｎｐ通りのＭＶｙＰｍの値とを組み合わせて、２次元ベクトルとしての移動量推定値を算出する。

　例えば、ヒストグラム解析部１２２は、Ｎｐ個のＭＶｘＰｋの値のそれぞれを移動量推定値のｘ成分として、Ｎｐ個のＭＶｙＰｍの値のそれぞれを移動量推定値のｙ成分として、移動量推定値を算出（設定）する。上述の例の場合、ヒストグラム解析部１２２は、
　　（ＭＶｘＰ１，ＭＶｙＰ１）＝（７，－５）;
　　（ＭＶｘＰ１，ＭＶｙＰ２）＝（７，０）;
　　（ＭＶｘＰ２，ＭＶｙＰ１）＝（０，－５）;
　　（ＭＶｘＰ２，ＭＶｙＰ２）＝（０，０）;
として、４通りの移動量推定値を算出する。

　但し、ヒストグラム解析部１２２は、必ずしもＮｐ^２通り（全ての組み合わせ）の移動量推定値を算出しなくてもよい。例えば、ヒストグラム解析部１２２は、何らかの推定を行うことにより、Ｎｐ通りのＭＶｘＰｋの値と、Ｎｐ通りのＭＶｙＰｍの値との組み合わせの一部を排除してもよい。この場合、移動量推定値の個数をＮｐ^２よりも少なくできるので、移動量推定値の算出のための計算コストを低減できる。

　Ｓ１３において、ヒストグラム解析部１２２は、Ｓ１２において得られたＮｐ^２通りの移動量推定値を用いて、Ｗｉｎｄｏｗ（ｘ０：ｘ１，ｙ０：ｙ１）（第Ｎフレームにおける識別対象領域）に基づいて、Ｎｐ^２通りの領域Ｒｅｇｉｏｎ（ｘ０’：ｘ１’，ｙ０’：ｙ１’）を設定する。Ｒｅｇｉｏｎ（ｘ０’：ｘ１’，ｙ０’：ｙ１’）は、４つの点（ｘ０’，ｙ０’）、（ｘ０’，ｙ１’）、（ｘ１’，ｙ１’）、（ｘ１’，ｙ０’）を頂点とする四角形（矩形，長方形）を表す。

　複数のＲｅｇｉｏｎ（ｘ０’：ｘ１’，ｙ０’：ｙ１’）はそれぞれ、第Ｎ＋１フレームにおける識別対象領域の候補である。このことから、Ｒｅｇｉｏｎ（ｘ０’：ｘ１’，ｙ０’：ｙ１’）は、識別対象領域候補とも称される。実施形態１では、Ｒｅｇｉｏｎ（ｘ０’：ｘ１’，ｙ０’：ｙ１’）は、Ｗｉｎｄｏｗ（ｘ０：ｘ１，ｙ０：ｙ１）を、移動量推定値だけ平行移動させた領域である。

　つまり、Ｒｅｇｉｏｎ（ｘ０’：ｘ１’，ｙ０’：ｙ１’）は、Ｗｉｎｄｏｗ（ｘ０：ｘ１，ｙ０：ｙ１）の形状を保ちつつ、物体の移動に追従して設定された領域であると理解されてよい。

　具体的には、ヒストグラム解析部１２２は、４つの値ｘ０’、ｘ１’、ｙ０’、ｙ１’を算出することにより、Ｒｅｇｉｏｎ（ｘ０’：ｘ１’，ｙ０’：ｙ１’）を設定する。より具体的には、ヒストグラム解析部１２２は、
　　ｘ０’＝ｘ０＋ＭＶｘＰｋ（ｋ＝１，２，…，Ｎｐ）;
　　ｘ１’＝ｘ１＋ＭＶｘＰｋ（ｋ＝１，２，…，Ｎｐ）;
　　ｙ０’＝ｙ０＋ＭＶｙＰｍ（ｍ＝１，２，…，Ｎｐ）;
　　ｙ１’＝ｙ１＋ＭＶｙＰｍ（ｍ＝１，２，…，Ｎｐ）;
として、Ｎｐ^２通りの「ｘ０’、ｘ１’、ｙ０’、ｙ１’」のセットを算出する（つまり、Ｎｐ^２通りの識別対象領域候補を設定する）。

　以下、図９を参照して、上述の具体的な数値を用いた例を説明する。図９は、ヒストグラム解析部１２２が設定する４通りのＲｅｇｉｏｎ（ｘ０’：ｘ１’，ｙ０’：ｙ１’）（つまり、複数の識別対象領域候補の例）を示す図である。

　（「ｋ＝１、ｍ＝１」の場合）
　ヒストグラム解析部１２２は、「ｋ＝１、ｍ＝１」の場合、
　　ｘ０’＝ｘ０＋７;
　　ｘ１’＝ｘ１＋７;
　　ｙ０’＝ｙ０－５;
　　ｙ１’＝ｙ１－５;
として、Ｒｅｇｉｏｎ（ｘ０’，ｘ１’，ｙ０’，ｙ１’）を設定する。以下、この識別対象領域候補を、第１識別対象領域候補と称する。第１識別対象領域候補は、Ｗｉｎｄｏｗ（ｘ０：ｘ１，ｙ０：ｙ１）をｘ方向およびｙ方向に移動させた領域となる。

　（「ｋ＝２、ｍ＝１」の場合）
　ヒストグラム解析部１２２は、「ｋ＝２、ｍ＝１」の場合、
　　ｘ０’＝ｘ０;
　　ｘ１’＝ｘ１;
　　ｙ０’＝ｙ０－５;
　　ｙ１’＝ｙ１－５;
として、Ｒｅｇｉｏｎ（ｘ０’：ｘ１’，ｙ０’：ｙ１’）を設定する。以下、この識別対象領域候補を、第２識別対象領域候補と称する。第２識別対象領域候補は、Ｗｉｎｄｏｗ（ｘ０：ｘ１，ｙ０：ｙ１）をｙ方向のみに移動させた領域となる。

　（「ｋ＝１、ｍ＝２」の場合）
　ヒストグラム解析部１２２は、「ｋ＝１、ｍ＝２」の場合、
　　ｘ０’＝ｘ０＋７;
　　ｘ１’＝ｘ１＋７;
　　ｙ０’＝ｙ０;
　　ｙ１’＝ｙ１;
として、Ｒｅｇｉｏｎ（ｘ０’，ｘ１’，ｙ０’，ｙ１’）を設定する。以下、この識別対象領域候補を、第３識別対象領域候補と称する。第３識別対象領域候補は、Ｗｉｎｄｏｗ（ｘ０：ｘ１，ｙ０：ｙ１）をｘ方向のみに移動させた領域となる。

　（「ｋ＝２、ｍ＝２」の場合）
　ヒストグラム解析部１２２は、「ｋ＝２、ｍ＝２」の場合、
　　ｘ０’＝ｘ０;
　　ｘ１’＝ｘ１;
　　ｙ０’＝ｙ０;
　　ｙ１’＝ｙ１;
として、Ｒｅｇｉｏｎ（ｘ０’，ｘ１’，ｙ０’，ｙ１’）を設定する。以下、この識別対象領域候補を、第４識別対象領域候補と称する。第４識別対象領域候補は、Ｗｉｎｄｏｗ（ｘ０：ｘ１，ｙ０：ｙ１）と同一の領域となる。

　Ｓ１４（物体識別工程）において、物体識別部１３は、複数のＲｅｇｉｏｎ（ｘ０’：ｘ１’，ｙ０’：ｙ１’）のそれぞれ（第１識別対象領域候補～第４識別対象領域候補のそれぞれ）を対象として、物体の識別を行う。上述のように、物体識別部１３は、物体識別の精度を向上させる観点から、ディープラーニング技術等のＣＮＮ（Convolutional Neural Network）による物体の識別を行うものとする。

　物体識別部１３の識別対象となる領域を、第１識別対象領域候補～第４識別対象領域候補に絞ることにより、フレームの全体を識別対象とする場合に比べて、物体識別部１３における物体識別のための計算コストを効果的に低減できる。上述のように、ＣＮＮによる物体の識別は、計算コストが高い処理であるため、この点は特に有益である。

　また、ＣＮＮによる識別は、物体の識別に限定されなくともよい。例えば、ＣＮＮによる識別によって、シーンの識別または素材の識別等をさらに行うこともできる。

　ところで、物体の識別手法としては、ＳＩＦＴ、ＳＵＲＦ、およびＨＯＧ等の比較的計算コストが低い手法（例：局所特徴抽出を用いる手法）が知られている。このような手法を用いた場合には、フレームの全体を識別対象とすることも可能であるが、十分な物体識別の精度を得ることは難しい。

　表示装置１の構成は、「物体識別の精度を向上させるとともに、物体識別のための計算コストを低減する」という着想に基づいて、本願の発明者（以下、発明者）によって新たに想到されたものである。より具体的には、発明者は、当該着想に基づいて、表示装置１のウィンドウ設定部１２の具体的な構成を想到した。

　Ｓ１５において、物体識別部１３は、第Ｎ＋１フレームにおいて、第１識別対象領域候補～第４識別対象領域候補のそれぞれから、第Ｎフレームにおいて特定した物体の像の少なくとも一部分が含まれている識別対象領域候補を特定する。例えば、物体識別部１３は、第１識別対象領域候補～第４識別対象領域候補のそれぞれに対する物体識別の結果から、１つの結果を正解として決定する。

　例えば、ＣＮＮによる画像分類行われる場合は、物体識別の結果は、一般に各分類（各物体のカテゴリ）およびその分類確率の複数セットとして得られる。従って、第１識別対象領域候補～第４識別対象領域候補のそれぞれに対する物体識別の結果のうち、最大の分類確率が得られる分類を正解として決定してよい。

　ところで、現フレームの画像と前フレームの画像との間に連続性がある場合（つまり、動画像においてシーンチェンジ等がない場合）を考える。この場合、現フレームにおける物体の識別結果は、前フレームにおける物体の識別結果に対して連続性があると期待できる。このため、前フレームにおける物体の識別結果（分類名）を記憶し、現フレームにおいて同分類の分類確率を加算するように、分類確率を補正してもよい。これにより、前フレームと同分類の物体が、現フレームにおいて正解として決定されやすくなる（当該物体が特定されやすくなる）。

　図１０には、物体識別部１３によるＳ１５の物体識別の結果の一例が示されている。図１０の例では、物体識別部１３は、第Ｎ＋１フレームにおいて、第１識別対象領域候補～第４識別対象領域候補のそれぞれに対して物体検出を行っている。

　その結果、物体識別部１３は、第１識別対象領域（「ｋ＝１、ｍ＝１」の場合のＲｅｇｉｏｎ（ｘ０’：ｘ１’，ｙ０’：ｙ１’））に、第Ｎフレームと同じ物体ＯＢＪの像の全体が含まれていることを識別した。

　Ｓ１６（領域設定工程）において、ヒストグラム解析部１２２は、第１識別対象領域候補～第４識別対象領域候補のうち、物体ＯＢＪの像の少なくとも一部分が含まれる識別対象領域候補（すなわち、Ｓ１５において物体識別部１３が特定した識別対象領域候補）を、第Ｎ＋１フレームにおける識別対象領域として設定する。

　図１０には、ヒストグラム解析部１２２によるＳ１６の領域設定の結果の一例が示されている。上述の例の場合、ヒストグラム解析部１２２は、Ｓ１５における物体識別の結果に基づいて、第１識別対象領域候補であるＲｅｇｉｏｎ（ｘ０’，ｘ１’，ｙ０’，ｙ１’）を、第Ｎ＋１フレームにおける識別対象領域、すなわちＷｉｎｄｏｗ（ｘ０’：ｘ１’，ｙ０’：ｙ１’）として設定する。

　つまり、ヒストグラム解析部１２２は、Ｗｉｎｄｏｗ（ｘ０’：ｘ１’，ｙ０’：ｙ１’）＝Ｒｅｇｉｏｎ（ｘ０＋７：ｘ１＋７，ｙ０－５：ｙ１－５）として、Ｗｉｎｄｏｗ（ｘ０’：ｘ１’，ｙ０’：ｙ１’）を設定する。

　Ｓ１６によれば、１フレームでの物体ＯＢＪの移動に追従して、第Ｎフレームにおける識別対象領域と同形状の識別対象領域を、第Ｎ＋１フレームにおいても設定できる。このため、第Ｎ＋１フレームにおいても、第Ｎフレームと同様に、物体ＯＢＪの識別を行うことができる。

　それゆえ、「第１フレーム→第２フレーム→…→第Ｎフレーム→第Ｎ＋１フレーム→…（以下略）」の順に、ヒストグラム生成処理およびヒストグラム解析処理を行うことにより、現フレームにおける物体識別を行うとともに、当該物体の移動に追従して次フレームの識別対象領域の設定を行うことができる。それゆえ、移動する物体に追従しつつ、当該物体を各フレームにおいて識別できる。

　（表示装置１の効果）
　上述のように、表示装置１によれば、ウィンドウ設定部１２によって、動画像の第Ｎ＋１フレームにおける物体の位置（つまり、物体の識別結果）に基づいて、第Ｎ＋１フレームにおける識別対象領域を設定できる。それゆえ、動画像の各フレームの全体に対して、物体識別部１３に物体識別を行わせることが不要となる。その結果、動画像における物体識別のための計算コストを従来よりも低減することが可能となる。

　具体的には、ウィンドウ設定部１２は、第Ｎフレームにおける識別対象領域に含まれる動きベクトル（より具体的には、動きベクトルの水平成分および垂直成分のそれぞれの分布を示すＨｉｓｔｏｇｒｍＨおよびＨｉｓｔｏｇｒｍＶ）に基づいて、第Ｎ＋１フレームにおける識別対象領域を設定する。このため、フレーム間で移動する物体（例：ＯＢＪ）を追従しつつ、各フレームにおける識別対象領域（より具体的には、識別対象領域候補）を設定できる。

　一例として、ウィンドウ設定部１２は、動きベクトルの成分の分布における極大値（例：ｘ方向およびｙ方向のそれぞれにおける各ピーク度数）に基づいて、第Ｎ＋１フレームにおける識別対象領域を設定してよい。具体的には、ウィンドウ設定部１２は、上述のＭＶｘＰｋおよびＭＶｙＰｍ（ｘ方向およびｙ方向のそれぞれにおける各ピーク度数を有する各ピーク階数）を用いて、第Ｎ＋１フレームにおける識別対象領域を設定してよい。これにより、物体の代表的な動きに着目できるので、当該物体をより効果的に追従できる。

　（各フレームにおける識別対象領域について）
　なお、ディープラーニングを行う場合には、多数のリファレンス画像（複数の物体のそれぞれを識別するための学習用画像）の学習を行うことが必要である。リファレンス画像は、例えば、「ＩｍａｇｅＮｅｔ」と称される画像データベースから取得されてよい。あるいは、上記画像データベースから学習された既存のＣＮＮモデルをベースとして、ディープラーニングが行われてよい。

　リファレンス画像は、多数の物体のそれぞれの状態を学習できるように多数用意されている。ここで、リファレンス画像において、全くフレーミングされていない物体が映っているということはまれである。リファレンス画像を生成する場合、そのような映り込みを避けるように、撮影または撮影後の画像処理が行われるためである。

　従って、表示装置１における識別対象の画像（各フレームの識別対象領域）についても、リファレンス画像と同様に、物体が適切にフレーミングされているか否かによって、当該物体の識別精度が大きく左右されてしまう。このため、各フレームの識別対象領域Ｗｉｎｄｏｗ（ｘ０：ｘ１，ｙ０：ｙ１）を適切に設定することが重要である。換言すれば、各フレームの識別対象領域候補Ｒｅｇｉｏｎ（ｘ０’：ｘ１’，ｙ０’：ｙ１’）を適切に設定することが重要となる。

　図１１は、第Ｎ＋１フレームにおける識別対象領域の相違を説明するための図である。上述の図１０と同様のＲｅｇｉｏｎ（ｘ０’：ｘ１’，ｙ０’：ｙ１’）（第１識別領域候補）には、物体ＯＢＪの像の全体が含まれており（物体ＯＢＪの像の全体がフレームインしており）、上述の通り物体ＯＢＪを高精度に識別できる。

　他方、図１１の領域ＮＲ１は、物体ＯＢＪの像の全体を含み、かつ、第１識別領域候補よりも広い領域（第１識別領域候補を内包する領域）である。領域ＮＲ１では、ノイズ領域（背景または他のフレームインしている物体の像が存在する領域）の大きさに対して、物体領域（物体ＯＢＪの像が存在する領域）の大きさが比較的小さくなってしまう。このため、領域ＮＲ１においては、物体ＯＢＪの識別精度が低下する可能性が高い。

　従って、物体ＯＢＪの識別精度を向上させるためには、第１識別領域候補のように、ノイズ領域の大きさに対して、物体領域をある程度大きくすることが好ましい。但し、領域ＮＲ１によれば、以下に述べる領域ＮＲ２および領域ＮＲ３に比べて、物体ＯＢＪの識別精度をより高くできることに留意されたい。領域ＮＲ１においては、物体ＯＢＪの全体的な形状（輪郭）が表現されているためである。

　また、図１１の領域ＮＲ２は、物体ＯＢＪの像の一部を含み、かつ、第１識別領域候補よりも狭い領域（第１識別領域候補に内包される領域）である。領域ＮＲ２では、物体ＯＢＪの像の一部がフレームアウトしている。このため、領域ＮＲ２においては、物体ＯＢＪの全体的な形状が表現されていないため、当該物体ＯＢＪの全体的な形状を判別することが難しい。領域ＮＲ２においては、領域ＮＲ１の場合よりも、物体ＯＢＪの識別精度が低下する可能性が高い。

　また、図１１の領域ＮＲ３は、領域ＮＲ２よりも広いが、当該領域ＮＲ２よりも物体ＯＢＪの像のフレームアウトの程度が顕著な領域である。領域ＮＲ３においては、物体ＯＢＪの全体的な形状がさらに判別困難となる。このため、領域ＮＲ３においては、領域ＮＲ２の場合よりも、物体ＯＢＪの識別精度がさらに低下する可能性が高い。

　以上のことから、物体ＯＢＪの識別精度の向上の観点からは、各フレームにおける識別対象領域には、物体ＯＢＪの像の全体が含まれていることが好ましい。すなわち、（ｉ）第Ｎフレームにおける識別対象領域には、物体ＯＢＪの像の全体が含まれており、かつ、（ｉｉ）領域設定部によって、複数の識別対象領域候補のうち、第Ｎ＋１フレームにおいて物体ＯＢＪの像の全体が含まれる識別対象領域候補が、第Ｎ＋１フレームにおける識別対象領域として設定されることが好ましい。

　また、物体ＯＢＪの識別精度のさらなる向上の観点からは、各フレームにおける識別対象領域において、ノイズ領域の大きさに対して、物体領域をある程度大きくすることがさらに好ましい。一例として、各フレームにおける識別対象領域において、物体領域はノイズ領域よりも大きい面積を有していることが好ましい。

　但し、上述のように、各フレームにおける識別対象領域には、物体ＯＢＪの像の少なくとも一部が含まれていればよいことに留意されたい。ディープラーニングを利用して高精度な物体識別を行うことで、そのような識別対象領域においても物体識別が可能となるためである。

　すなわち、（ｉ）第Ｎフレームにおける識別対象領域には、物体ＯＢＪの像の少なくとも一部が含まれており、かつ、（ｉｉ）領域設定部によって、複数の識別対象領域候補のうち、第Ｎ＋１フレームにおいて物体ＯＢＪの像の少なくとも一部が含まれる識別対象領域候補が、第Ｎ＋１フレームにおける識別対象領域として設定されればよい。

　〔実施形態２〕
　実施形態２について、図１２および図１３に基づいて説明すれば、以下の通りである。なお、説明の便宜上、実施形態１にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。実施形態２では、実施形態１の様々なバリエーションについて、以下の第１～第５の例の通り説明する。

　（第１の例）
　実施形態１では、２次元ベクトルである動きベクトルを２つの成分（水平成分および垂直成分）に分解して、２つの１次元ヒストグラム（水平成分のヒストグラムＨｉｓｔｏｇｒａｍＨおよび垂直成分のヒストグラムＨｉｓｔｏｇｒａｍＶ）を生成していた（例：図４のＳ３ａ）。そして、当該２つのヒストグラムを解析対象としていた（例：図８のＳ１１およびＳ１２）。

　但し、動きベクトルを各成分に分解する必要は必ずしもない。ヒストグラム生成部１２１は、動きベクトルの２つの成分の分布を示す、１つの２次元ヒストグラムを生成してよい。この場合、ヒストグラム解析部１２２は、当該２次元ヒストグラムを解析対象として、上述のピーク階級を探索してよい。

　１つの２次元ヒストグラムを解析対象とすることにより、２つの１次元ヒストグラムを解析対象とした場合に比べて、移動量推定値を効果的に絞ることができる。以下、その理由について述べる。

　実施形態１において述べたように、１次元ヒストグラムの場合では、ｘ成分とｙ成分のそれぞれについて、Ｎｐ個のピーク階級を探索していた。そして、ｘ成分のピーク階級とｙ成分のピーク階級とを組み合わせて、２次元ベクトルとしての移動量推定値を算出していた。このため、２次元ベクトルとしての移動量推定値は、Ｎｐ^２通り算出される。

　他方、２次元ヒストグラムの場合では、Ｎｐ個のピーク階級が、２次元ベクトルのセットとして探索され得る。このため、２次元ベクトルとしての移動量推定値は、Ｎｐ通りとなる。すなわち、１次元ヒストグラムの場合に比べて、移動量推定値の個数を少なくできる。但し、２次元ヒストグラムの場合では、１次元ヒストグラムの場合に比べて、ピーク階級の探索アルゴリズムが複雑となる。このため、ピーク階級の探索のための計算量が、１次元ヒストグラムの場合に比べて増加する傾向にある。

　以上のように、２次元ヒストグラムを用いることにより、移動量推定値の個数を少なくできるので、識別対象領域候補の個数を少なくすることができる。その結果、図８のＳ１４における処理（物体識別）の計算コストをより効果的に低減できる。

　（第２の例）
　実施形態１では、移動量推定値（ＭＶｘＰｋとＭＶｙＰｍとの組み合わせ）のみを用いて、ｘ０’、ｘ１’、ｙ０’、ｙ１’を算出して、Ｒｅｇｉｏｎ（ｘ０’：ｘ１’，ｙ０’：ｙ１’）を設定していた（図８のＳ１３）。

　但し、ランダム値（ランダム項）をさらに導入して、第Ｎ＋１フレームにおける複数の識別対象領域候補を追加して設定してもよい。具体的には、ヒストグラム解析部１２２は、
　　ｘ０’’＝ｘ０’＋Ｒａｎｄ１;
　　ｘ１’’＝ｘ１’＋Ｒａｎｄ２;
　　ｙ０’’＝ｙ０’＋Ｒａｎｄ３;
　　ｙ１’’＝ｙ１’＋Ｒａｎｄ４;
として、ｘ０’’、ｘ１’’、ｙ０’’、ｙ１’’を算出してもよい。

　ここで、Ｒａｎｄ１～Ｒａｎｄ４はそれぞれ、０を中心値とした一定範囲の整数のランダム値である。そして、ヒストグラム解析部１２２は、複数のＲｅｇｉｏｎ（ｘ０’’：ｘ１’’，ｙ０’’：ｙ１’’）を、第Ｎ＋１フレームにおける識別対象領域候補として追加して設定してよい。

　このように第Ｎ＋１フレームにおける識別対象領域候補を設定した場合、実施形態１に比べて、識別対象領域候補の設定のための計算コスト、および、追加して設定した複数の識別対象領域候補における物体識別の計算コストが増加する。しかしながら、Ｒｅｇｉｏｎ（ｘ０’’：ｘ１’’，ｙ０’’：ｙ１’’）によれば、Ｒｅｇｉｏｎ（ｘ０’：ｘ１’，ｙ０’：ｙ１’）の周辺領域を、識別対象領域候補に含めることが可能となる。

　このため、例えば移動量推定値が適切に設定されず（移動量推定値に推定誤差が生じて）、Ｒｅｇｉｏｎ（ｘ０’：ｘ１’，ｙ０’：ｙ１’）によって物体ＯＢＪの追従が適切に行うことができない場合にも、物体識別の精度が向上することが期待される。

　（第３の例）
　実施形態１では、複数のＲｅｇｉｏｎ（ｘ０’：ｘ１’，ｙ０’：ｙ１’）（識別対象領域候補）のうちの１つを、第Ｎ＋１フレームにおけるＷｉｎｄｏｗ（ｘ０’：ｘ１’，ｙ０’：ｙ１’）（第Ｎ＋１フレームにおける識別対象領域）として設定していた（図８の処理Ｓ１６）。

　しかしながら、動画像の入力開始時および当該動画像のシーンチェンジ時などにおいては、識別対象領域を別の方法によって設定してもよい。つまり、第１フレーム（初期フレーム）の識別対象領域は、別の方法によって設定されてもよい。例えば、第１フレーム内の任意の領域を、ランダムに識別対象領域として設定してもよい。

　具体的には、ヒストグラム解析部１２２は、
　　ｘ０＝Ｒａｎｄ（０～Ｈ－１）;
　　ｘ１＝Ｒａｎｄ（０～Ｈ－１）;
　　ｙ０＝Ｒａｎｄ（０～Ｖ－１）;
　　ｙ１＝Ｒａｎｄ（０～Ｖ－１）;
として、第１フレームにおけるｘ０、ｘ１、ｙ０、ｙ１を算出してもよい。

　なお、Ｒａｎｄ（ａ～ｂ）は、ａ以上かつｂ以下の整数値の範囲のランダム値を出力する関数である。そして、ヒストグラム解析部１２２は、Ｗｉｎｄｏｗ（ｘ０：ｘ１，ｙ０：ｙ１）を、第１フレームにおける識別対象領域として設定してよい。

　このように、ヒストグラム解析部１２２において、第１フレームにおける識別対象領域を設定することにより、上述の図４および図８の処理により、第２フレーム以降について、物体の識別および識別対象領域の設定を行うことができる。

　なお、第１フレームにおける識別対象領域は、ユーザの入力操作によって設定（選択）されてもよい。ヒストグラム解析部１２２は、ユーザが選択したｘ０、ｘ１、ｙ０、ｙ１の値を用いて、第１フレームにおける識別対象領域であるＷｉｎｄｏｗ（ｘ０：ｘ１，ｙ０：ｙ１）を設定してもよい。

　（第４の例）
　実施形態１では、識別対象となる１つの物体（例：ＯＢＪ）（以下、第１物体）に対して、１つの識別対象領域（以下、第１物体用識別対象領域）を設けていた。そして、第１物体用識別対象領域を用いて、第１物体に追従しつつ当該第１物体の識別を行っていた。

　但し、動画像の各フレームにおいて、複数の物体のそれぞれに、１つずつ専用の識別対象領域が設けられてもよい。例えば、図３の例においては、第１物体とは異なる第２物体（例：ＯＢＪ２）に対して、専用の識別対象領域（以下、第２物体用識別対象領域）がさらに設けられてもよい。

　この場合、表示装置１は、第１物体用識別対象領域および第２物体用識別対象領域のそれぞれについて、上述の図４および図８の処理を同時に（並列的に）行ってもよい。これにより、動画像の各フレームに存在する２つの物体（第１物体および第２物体）のそれぞれに対して、各物体に追従しつつ識別を行うことができる。このように、識別対象となる物体の個数に応じて、識別対象領域を複数設けることにより、複数の物体にそれぞれに追従しつつ、各物体を識別できる。

　また、複数の物体を識別する場合、分類確率が特に低い物体が存在した場合を考える。この場合、当該物体に対応する識別対象領域を、上述の第３の例の通り、初期化してもよい。これにより、分類確率が低い物体の識別精度が向上することが期待される。加えて、動画像の途中のフレームにおいて、新たに出現する物体の識別のための識別対象領域を設定することもできる。

　あるいは、分類確率が特に低い物体に対応する識別対象領域については、当該識別対象領域を削除し、以降の当該物体の識別を中止してもよい。これにより、複数の物体のうち、識別精度がある程度高い物体のみを選択的に追従できる。それゆえ、複数の物体を識別する場合における、物体識別のための計算コストを低減することが可能となる。

　（第５の例）
　実施形態１では、Ｗｉｎｄｏｗ（ｘ０：ｘ１，ｙ０：ｙ１）を平行移動させた領域として、複数のＲｅｇｉｏｎ（ｘ０’：ｘ１’，ｙ０’：ｙ１’）を設定していた。つまり、第Ｎ＋１フレームにおける識別対象領域候補を、第Ｎフレームにおける識別対象領域と同じ大きさかつ同じ形状の領域（第Ｎフレームにおける識別対象領域と合同な領域）として設定していた。

　但し、第Ｎ＋１フレームにおける識別対象領域候補は、（ｉ）第Ｎフレームにおける識別対象領域と異なる大きさに設定されなくともよいし、（ｉｉ）第Ｎフレームにおける識別対象領域と異なる形状に設定されてもよい。

　例えば、第Ｎフレームにおける識別対象領域を拡大または縮小することにより、当該識別対象領域と異なる大きさを有する、第Ｎ＋１フレームにおける識別対象領域候補を設定してもよい。あるいは、第Ｎフレームにおける識別対象領域を変形することにより、当該識別対象領域と異なる形状を有する、第Ｎ＋１フレームにおける識別対象領域候補を設定してもよい。

　一例として、上述の第２の例の通り、Ｒｅｇｉｏｎ（ｘ０’：ｘ１’，ｙ０’：ｙ１’）を設定した場合には、第Ｎフレームにおける識別対象領域と異なる大きさおよび形状を有する、第Ｎ＋１フレームにおける識別対象領域候補が得られる。

　また、ヒストグラム解析部１２２は、第Ｎ－１フレーム（前フレーム）と第Ｎフレーム（現フレーム）との間における、ＨｉｓｔｏｇｒａｍＨおよびＨｉｓｔｏｇｒａｍＶの分布の変化に応じて、第Ｎフレームにおける識別対象領域を拡大して、第Ｎ＋１フレーム（次フレーム）における識別対象領域候補を設定してよい。

　図１２は、第Ｎ－１フレームと第Ｎフレームとの間における、ＨｉｓｔｏｇｒａｍＨおよびＨｉｓｔｏｇｒａｍＶのそれぞれの値（度数）の分布の変化の一例を示すグラフである。図１２において、（ａ）にはＨｉｓｔｏｇｒａｍＨにおける分布の変化が、（ｂ）にはＨｉｓｔｏｇｒａｍＶにおける分布の変化が、それぞれ示されている。

　図１２において、σは第Ｎ－１フレームにおけるＨｉｓｔｏｇｒａｍＨおよびＨｉｓｔｏｇｒａｍＶの標準偏差を示す。また、σ’は第ＮフレームにおけるＨｉｓｔｏｇｒａｍＨおよびＨｉｓｔｏｇｒａｍＶの標準偏差を示す。

　以下の説明では、便宜上、ｘ方向およびｙ方向のいずれについても、標準偏差を同じ記号（σおよびσ’）によって表している。但し、ｘ方向およびｙ方向のそれぞれについて、標準偏差は異なる値であってもよいことに留意されたい。

　従って、例えば、第Ｎ－１フレームにおけるＨｉｓｔｏｇｒａｍＨの標準偏差をσｘ、第Ｎ－１フレームにおけるＨｉｓｔｏｇｒａｍＶの標準偏差をσｙとして、第Ｎ－１フレームにおける各ヒストグラムの標準偏差を区別して表現してもよい。同様に、第ＮフレームにおけるＨｉｓｔｏｇｒａｍＨの標準偏差をσ’ｘ、第ＮフレームにおけるＨｉｓｔｏｇｒａｍＶの標準偏差をσ’ｙとして、第Ｎフレームにおける各ヒストグラムの標準偏差を区別して表現してもよい。

　図１２によれば、σ’＞σである。このことは、第Ｎフレームでは、第Ｎ－１フレームに比べて、分布が拡がっていることを示している。このことは、第Ｎ－１フレームにおける物体の像が、第Ｎフレームにおいて拡大されていることを示唆している。従って、動画像においてシーンチェンジ等がなければ、第Ｎ＋１フレームにおける物体の像は、第Ｎフレームにおける当該物体の像に比べて、さらに拡大していることが予測される。

　そこで、ヒストグラム解析部１２２は、σ’＞σである場合には、図１３に示されるように、第Ｎフレームにおける識別対象領域であるＷｉｎｄｏｗ（ｘ０：ｘ１，ｙ０：ｙ１）を平行移動および拡大させることにより、第Ｎ＋１フレームにおける識別対象領域候補であるＲｅｇｉｏｎ（ｘ０’：ｘ１’，ｙ０’：ｙ１’）を設定してよい。図１３は、第Ｎフレームにおける識別対象領域を拡大して、第Ｎ＋１フレームにおける識別対象領域候補を設定する例を示す図である。

　このように、現フレームにおける識別対象領域を拡大して、次フレームにおける識別対象領域候補を設定すれば、フレーム間において拡大される物体（例：ＯＢＪ）のサイズの増加に応じて、識別対象領域候補のサイズを設定できる。それゆえ、フレーム間において物体が拡大される場合にも、当該物体の追従性および識別精度を向上できる。

　また、σ’＜σである場合には、第Ｎ－１フレームにおける物体の像が、第Ｎフレームにおいて縮小されていると考えられる。そこで、ヒストグラム解析部１２２は、σ’＜σである場合には、第Ｎフレームにおける識別対象領域を平行移動および縮小することにより、第Ｎ＋１フレームにおける識別対象領域候補を設定してよい。これにより、フレーム間において物体が縮小される場合にも、当該物体の追従性および識別精度を向上できる。

　このように、ヒストグラム解析部１２２は、σ’とσとの大小関係に応じて、第Ｎフレームにおける識別対象領域に拡大または縮小のいずれかの処理を施して、第Ｎ＋１フレーム（次フレーム）における識別対象領域候補を設定してよい。

　一例として、ヒストグラム解析部１２２は、第Ｎフレームにおける識別対象領域の水平方向および垂直方向のそれぞれの長さをα倍して、第Ｎ＋１フレームにおける識別対象領域候補の水平方向および垂直方向のそれぞれの長さを設定してよい。以下、αを拡大倍率とも称する。

　αの値は、σ’とσとに基づいて設定されてよい。一例として、α＝σ’／σとして設定されてよい。この場合、σ’＞σであれば、α＞１となるので、第Ｎフレームにおける識別対象領域は拡大される。他方、σ’＜σであれば、α＜１となるので、第Ｎフレームにおける識別対象領域は縮小される。

　以上のように、第Ｎ＋１フレームにおける識別対象領域候補は、第Ｎフレームにおける識別対象領域に対して、（ｉ）平行移動と、（ｉ）拡大または縮小のいずれか一方と、を施すことにより、設定されてよい。

　本明細書における「拡大」および「縮小」には、α＝１である場合（第Ｎフレームにおける識別対象領域と第Ｎ＋１フレームにおける識別対象領域候補とが同サイズである場合）も含まれるものとする。実施形態１の場合は、α＝１である場合に相当する。

　従って、ヒストグラム解析部１２２は、第Ｎフレームにおける上記識別対象領域を平行移動させ、かつ、平行移動させた当該識別対象領域を拡大または縮小することにより、第Ｎ＋１フレームにおける複数の上記識別対象領域候補を設定してよい。

　さらに、水平方向と垂直方向において、識別対象領域の長さを異なる比率で拡大または縮小してもよい。一例として、ｘ方向とｙ方向とで、拡大倍率を個別に設定してもよい。例えば、ｘ方向の拡大倍率をαｘとすると、αｘ＝σ’ｘ／σｘとして設定されてよい。同様に、ｙ方向の拡大倍率をαｙとすると、αｙ＝σ’ｙ／σｙとして設定されてよい。

　なお、上述の「第Ｎフレームにおける識別対象領域の水平方向および垂直方向のそれぞれの長さをα倍する」という例は、αｘ＝αｙと見なすことができる場合を想定したものである。一般にσｘ≠σｙかつσ’ｘ≠σ’ｙであるが、フレーム間の物体の拡大または縮小のアスペクト比が一定であれば、αｘ≒αｙの関係が成立する。それゆえ、近似的に、αｘ＝αｙと見なすことができる。

　以上のように、第Ｎ＋１フレームにおける識別対象領域候補は、第Ｎフレームにおける識別対象領域に相似な領域に限定されなくともよい。

　従って、ヒストグラム解析部１２２は、領域設定部は、第Ｎフレームにおける識別対象領域（矩形）と、第Ｎ＋１フレームにおける識別対象領域（矩形）とが互いに平行な辺を有するように、各フレームにおける識別対象領域を設定すればよい。これにより、比較的計算コストの低い演算（例：平行移動および拡大・縮小）により、各フレームにおける識別対象領域を設定できる。

　〔変形例〕
　上述の第５の例では、第Ｎフレームにおける識別対象領域に平行移動および拡大・縮小を施すことにより、第Ｎフレームにおける識別対象領域を設定する場合を例示した。

　但し、第Ｎフレームにおける識別対象領域の平行移動および拡大・縮小に加え、当該識別対象領域をさらに回転させて、第Ｎフレームにおける識別対象領域を設定してもよい。つまり、第Ｎ＋１フレームにおける識別対象領域候補は、第Ｎフレームにおける識別対象領域に相似な領域として設定されてよい。すなわち、ヒストグラム解析部１２２は、第Ｎフレームにおける識別対象領域に対して、相似変換を施すことにより、第Ｎ＋１フレームにおける識別対象領域候補を設定してよい。

　さらに、上述のように、水平方向と垂直方向において、識別対象領域の長さを異なる比率で拡大または縮小してもよい。このため、第Ｎ＋１フレームにおける識別対象領域候補は、第Ｎフレームにおける識別対象領域に相似な領域に限定されなくともよい。従って、ヒストグラム解析部１２２は、第Ｎフレームにおける識別対象領域に対して、線形変換を施すことにより、第Ｎ＋１フレームにおける識別対象領域候補を設定してもよい。

　なお、ヒストグラム解析部１２２は、第Ｎフレームにおける識別対象領域に対して、アフィン変換を施すことにより、第Ｎ＋１フレームにおける識別対象領域候補を設定してもよい。

　〔実施形態３〕
　実施形態３について、図１４に基づいて説明すれば、以下の通りである。図１４は、実施形態３の信号処理部３０（動画像処理装置）の要部の構成を示す機能ブロック図である。実施形態３の表示装置を表示装置３と称する。図１４において、図示が省略されている箇所については、上述の図１の表示装置１と同様であるため、説明を省略する。この点については、以下に述べる実施形態４においても同様である。

　信号処理部３０は、実施形態１の信号処理部１０において、内挿画像生成部１１１を除外した構成である。信号処理部では、内挿画像生成部１１１が除外されたことにより、動画像Ａ（入力動画像）に対するフレームレートの変換は行われない。すなわち、動画像Ｂは生成されない。信号処理部３０では、動きベクトル算出部１１２、物体識別部１３、および画質補正部１４のそれぞれに、上述の動画像Ａ（入力動画像）が供給される。

　実施形態３において、動きベクトル算出部１１２は、動画像Ａから各フレームを抽出し、当該動画像の動きベクトルを算出する。そして、ウィンドウ設定部１２は、動画像Ａの各フレームにおいて、識別対象領域を設定する。従って、物体識別部１３は、動画像Ａの各フレームに設定された識別対象領域に対して、物体識別を行う。

　続いて、画質補正部１４は、物体識別部１３の識別結果に応じて、動画像Ａを処理することにより、出力動画像である動画像Ｃを生成する。そして、画質補正部１４は、当該動画像Ｃを表示部８０に供給する。

　このように、本開示の一態様に係る動画像処理装置（例：信号処理部３０）では、上述の識別処理部に含まれない構成要素の一部（例：内挿画像生成部１１１）は省略されてもよい。信号処理部３０によれば、上述の実施形態１に比べて、動画像処理装置の構成を簡単化できる。

　〔実施形態４〕
　実施形態４について、図１５に基づいて説明すれば、以下の通りである。図１５は、実施形態４の信号処理部４０（動画像処理装置）の要部の構成を示す機能ブロック図である。実施形態４の表示装置を表示装置４と称する。

　上述のように、動画像Ａは、所定の符号方式により圧縮された動画像のデータが復号されることによって生成されてよい。以下、所定の符号方式により圧縮された動画像（例：動画像Ａ）のデータを、圧縮動画像データと称する。

　実施形態４では、圧縮のための動きベクトルを示す情報（動きベクトル情報）が、圧縮動画像データにあらかじめ含まれている場合を考える。なお、当該動きベクトル情報を含む圧縮動画像データのフォーマットの一例としては、ＭＰＥＧ４を挙げることができる。

　信号処理部４０は、実施形態３の信号処理部３０において、動きベクトル算出部１１２を除外した構成である。つまり、信号処理部３０では、上述の実施形態３に比べて、動画像処理装置の構成がさらに簡単化されている。

　信号処理部４０では、ウィンドウ設定部１２、物体識別部１３、および画質補正部１４のそれぞれに、動画像Ａが供給される。実施形態４のウィンドウ設定部１２において、ヒストグラム生成部１２１は、上述の圧縮動画像データに含まれる動きベクトル情報を取得することで、動画像Ａの動きベクトルを検出する。

　以上のように、圧縮動画像データに動きベクトル情報が含まれている場合には、本開示の一態様に係る動画像処理装置において、動きベクトルを算出する処理を省略できる。それゆえ、動画像処理装置の構成がさらに簡単となる。

　〔ソフトウェアによる実現例〕
　表示装置１・３・４の制御ブロック（特に信号処理部１０・３０・４０）は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。

　後者の場合、表示装置１・３・４は、各機能を実現するソフトウェアであるプログラムの命令を実行するＣＰＵ、上記プログラムおよび各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、上記プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（またはＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本開示の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本開示の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

　〔まとめ〕
　本開示の態様１に係る動画像処理装置（信号処理部１０）は、複数のフレームによって構成された動画像を処理する動画像処理装置であって、上記動画像において表現された物体（ＯＢＪ）を識別する物体識別部（１３）と、上記動画像の第Ｎフレーム（Ｎは自然数）における上記物体の像の、第Ｎ＋１フレームにおける位置に基づいて、第Ｎ＋１フレームにおいて、上記物体識別部による識別対象となる領域である識別対象領域（Ｗｉｎｄｏｗ（ｘ０’：ｘ１’，ｙ０’：ｙ１’））を設定する領域設定部（ウィンドウ設定部１２）と、を備えている。

　上記の構成によれば、第Ｎ＋１フレームにおける位置に基づいて、フレーム間で移動する物体を追従しつつ、識別対象領域を設定することが可能となる。従って、領域設定部において、第Ｎ＋１フレームにおける識別対象領域を設定することにより、第Ｎ＋１フレームの全体に対して、物体識別部に物体識別を行わせることが不要となる。

　このため、「第１フレーム→第２フレーム→…→第Ｎフレーム→第Ｎ＋１フレーム→…」の順に、現フレームにおける物体識別および次フレームの識別対象領域の設定を行うことができる。それゆえ、各フレームの全体に対して物体識別を行うことが不要となるので、従来よりも物体識別のための計算コストを低減することが可能となる。

　本開示の態様２に係る動画像処理装置は、上記態様１において、第Ｎフレームにおける上記識別対象領域（Ｗｉｎｄｏｗ（ｘ０：ｘ１，ｙ０：ｙ１））には、上記物体の像の少なくとも一部分が含まれており、上記領域設定部は、上記動画像の動きベクトルのうち、第Ｎフレームにおける上記識別対象領域に含まれる動きベクトルに基づいて、第Ｎ＋１フレームにおける識別対象領域を設定することが好ましい。

　上記の構成によれば、動きベクトルに基づいて、フレーム間で移動する物体を追従しつつ、識別対象領域を設定することが可能となる。

　本開示の態様３に係る動画像処理装置は、上記態様２において、上記領域設定部は、第Ｎフレームにおける上記識別対象領域と、当該識別対象領域に含まれる上記動きベクトルと、に基づいて、第Ｎ＋１フレームにおける識別対象領域の候補である複数の識別対象領域候補を設定し、上記物体識別部は、第Ｎ＋１フレームにおいて複数の上記識別対象領域候補のいずれに上記物体の像の少なくとも一部分が含まれるかを識別し、上記領域設定部は、複数の識別対象領域候補のうち、第Ｎ＋１フレームにおいて上記物体の像の少なくとも一部分が含まれる識別対象領域候補を、第Ｎ＋１フレームにおける識別対象領域として設定することが好ましい。

　上記の構成によれば、複数の識別対象領域候補のそれぞれにおける識別結果に応じて、識別対象領域を設定できる。それゆえ、フレーム間で移動する物体をより効果的に追従できる。

　本開示の態様４に係る動画像処理装置は、上記態様３において、上記領域設定部は、第Ｎフレームにおける上記識別対象領域に含まれる、上記動きベクトルの成分の分布における統計値に基づいて、第Ｎ＋１フレームにおける複数の上記識別対象領域候補を設定することが好ましい。

　上記の構成によれば、統計値に基づいて物体の動きに着目できるので、当該物体をより効果的に追従できる。

　本開示の態様５に係る動画像処理装置は、上記態様４において、上記領域設定部は、第Ｎフレームにおける上記識別対象領域に含まれる、上記動きベクトルの成分の分布における極大値に基づいて、第Ｎ＋１フレームにおける複数の上記識別対象領域候補を設定することが好ましい。

　上記の構成によれば、極大値に基づいて物体の代表的な動きに着目できるので、当該物体をより効果的に追従できる。

　本開示の態様６に係る動画像処理装置は、上記態様３から５のいずれか１つにおいて、第Ｎフレームにおける上記識別対象領域には、上記物体の像の全体が含まれており、上記領域設定部は、複数の上記識別対象領域候補のうち、第Ｎ＋１フレームにおいて上記物体の像の全体が含まれる識別対象領域候補を、第Ｎ＋１フレームにおける識別対象領域として設定することが好ましい。

　上記の構成によれば、第Ｎフレームおよび第Ｎ＋１フレームの識別対象領域において、物体の全体的な形状（輪郭）が表現されているため、物体識別部による物体の識別精度を向上できる。

　本開示の態様７に係る動画像処理装置は、上記態様１から６のいずれか１つにおいて、上記領域設定部は、上記識別対象領域として長方形の領域を設定し、第Ｎフレームにおける上記長方形と、第Ｎ＋１フレームにおける上記長方形とが互いに平行な辺を有するように各フレームにおける上記識別対象領域を設定することが好ましい。

　上記の構成によれば、例えば第Ｎフレームにおける記識別対象領域の平行移動および拡大・縮小により、第Ｎ＋１フレームの識別対象領域を設定できる。すなわち、比較的計算コストの低い演算により、各フレームにおける識別対象領域を設定できる。

　本開示の態様８に係る動画像処理装置は、上記態様１から７のいずれか１つにおいて、上記物体識別部は、複数の物体の画像を用いて学習した学習済みモデルを含んでいることが好ましい。

　上記の構成によれば、ディープラーニング技術等のＣＮＮによって得られた学習済みモデルを利用することで、物体の識別精度を向上できる。識別対象を識別対象領域候補のみに絞ることで、学習済みモデルによる物体識別のための計算コストを効果的に低減できる。

　本開示の態様９に係る動画像処理装置は、上記態様１から８のいずれか１つにおいて、上記物体識別部の識別結果に応じて上記動画像を処理する画質補正部をさらに備えていることが好ましい。

　上記の構成によれば、物体の識別結果に応じて動画像処理を行うことができる。例えば、物体の質感をより効果的に表現するように動画像処理を行うことができる。それゆえ、動画像において表現された物体の質感を高めることが可能となる。

　本開示の態様１０に係る表示装置（１）は、上記態様１から９のいずれか１つに係る動画像処理装置を備えていることが好ましい。

　上記の構成によれば、本開示の一態様に係る動画像処理装置と同様の効果を奏する。

　本開示の態様１１に係る動画像処理方法は、複数のフレームによって構成された動画像を処理する動画像処理方法であって、上記動画像において表現された物体を識別する物体識別工程と、上記動画像の第Ｎフレーム（Ｎは自然数）における上記物体の像の、第Ｎ＋１フレームにおける位置に基づいて、第Ｎ＋１フレームにおいて、上記物体識別工程における識別対象となる領域である識別対象領域を設定する領域設定工程と、を含んでいる。

　本開示の各態様に係る動画像処理装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記動画像処理装置が備える各部（ソフトウェア要素）として動作させることにより上記動画像処理装置をコンピュータにて実現させる動画像処理装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本開示の範疇に入る。

　〔付記事項〕
　本開示は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本開示の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成できる。

　（関連出願の相互参照）
　本出願は、2017年6月15日に出願された日本国特許出願：特願2017-117742に対して優先権の利益を主張するものであり、それを参照することにより、その内容の全てが本書に含まれる。

　１，３，４　表示装置
　１０，３０，４０　信号処理部（動画像処理装置）
　１２　ウィンドウ設定部（領域設定部）
　１３　物体識別部
　１４　画質補正部
　Ｗｉｎｄｏｗ（ｘ０：ｘ１，ｙ０：ｙ１）　第Ｎフレームにおける識別対象領域
　Ｗｉｎｄｏｗ（ｘ０’：ｘ１’，ｙ０’：ｙ１’）　第Ｎ＋１フレームにおける識別対象領域
　Ｒｅｇｉｏｎ（ｘ０’：ｘ１’，ｙ０’：ｙ１’）　第Ｎ＋１フレームにおける識別対象領域候補
　ＯＢＪ，ＯＢＪ２　物体

Claims

　複数のフレームによって構成された動画像を処理する動画像処理装置であって、
　上記動画像において表現された物体を識別する物体識別部と、
　上記動画像の第Ｎフレーム（Ｎは自然数）における上記物体の像の、第Ｎ＋１フレームにおける位置に基づいて、第Ｎ＋１フレームにおいて、上記物体識別部による識別対象となる領域である識別対象領域を設定する領域設定部と、を備えていることを特徴とする動画像処理装置。
　第Ｎフレームにおける上記識別対象領域には、上記物体の像の少なくとも一部分が含まれており、
　上記領域設定部は、上記動画像の動きベクトルのうち、第Ｎフレームにおける上記識別対象領域に含まれる動きベクトルに基づいて、第Ｎ＋１フレームにおける識別対象領域を設定することを特徴とする請求項１に記載の動画像処理装置。
　上記領域設定部は、第Ｎフレームにおける上記識別対象領域と、当該識別対象領域に含まれる上記動きベクトルと、に基づいて、第Ｎ＋１フレームにおける識別対象領域の候補である複数の識別対象領域候補を設定し、
　上記物体識別部は、第Ｎ＋１フレームにおいて複数の上記識別対象領域候補のいずれに上記物体の像の少なくとも一部分が含まれるかを識別し、
　上記領域設定部は、複数の識別対象領域候補のうち、第Ｎ＋１フレームにおいて上記物体の像の少なくとも一部分が含まれる識別対象領域候補を、第Ｎ＋１フレームにおける識別対象領域として設定することを特徴とする請求項２に記載の動画像処理装置。
　上記領域設定部は、第Ｎフレームにおける上記識別対象領域に含まれる、上記動きベクトルの成分の分布における統計値に基づいて、第Ｎ＋１フレームにおける複数の上記識別対象領域候補を設定することを特徴とする請求項３に記載の動画像処理装置。
　上記領域設定部は、第Ｎフレームにおける上記識別対象領域に含まれる、上記動きベクトルの成分の分布における極大値に基づいて、第Ｎ＋１フレームにおける複数の上記識別対象領域候補を設定することを特徴とする請求項４に記載の動画像処理装置。
　第Ｎフレームにおける上記識別対象領域には、上記物体の像の全体が含まれており、
　上記領域設定部は、複数の上記識別対象領域候補のうち、第Ｎ＋１フレームにおいて上記物体の像の全体が含まれる識別対象領域候補を、第Ｎ＋１フレームにおける識別対象領域として設定することを特徴とする請求項３から５のいずれか１項に記載の動画像処理装置。
　上記領域設定部は、上記識別対象領域として矩形の領域を設定し、第Ｎフレームにおける上記矩形と、第Ｎ＋１フレームにおける上記矩形とが互いに平行な辺を有するように各フレームにおける上記識別対象領域を設定することを特徴とする請求項１から６のいずれか１項に記載の動画像処理装置。
　上記物体識別部は、複数の物体の画像を用いて学習した学習済みモデルを含んでいることを特徴とする請求項１から７のいずれか１項に記載の動画像処理装置。
　上記物体識別部の識別結果に応じて上記動画像を処理する画質補正部をさらに備えていることを特徴とする請求項１から８のいずれか１項に記載の動画像処理装置。
　請求項１から９のいずれか１項に記載の動画像処理装置を備えていることを特徴とする表示装置。
　複数のフレームによって構成された動画像を処理する動画像処理方法であって、
　上記動画像において表現された物体を識別する物体識別工程と、
　上記動画像の第Ｎフレーム（Ｎは自然数）における上記物体の像の、第Ｎ＋１フレームにおける位置に基づいて、第Ｎ＋１フレームにおいて、上記物体識別工程における識別対象となる領域である識別対象領域を設定する領域設定工程と、を含んでいることを特徴とする動画像処理方法。
　請求項１に記載の動画像処理装置としてコンピュータを機能させるための制御プログラムであって、上記領域設定部および上記物体識別部としてコンピュータを機能させるための制御プログラム。