WO2022249661A1

WO2022249661A1 - 画像処理装置および画像処理方法

Info

Publication number: WO2022249661A1
Application number: PCT/JP2022/011503
Authority: WO
Inventors: 舜太前田; ウデイパンダリカクシャボンディ
Original assignee: Ｎａｖｉｅｒ株式会社
Priority date: 2021-05-24
Filing date: 2022-03-15
Publication date: 2022-12-01
Also published as: CN115836519A; JP2022180137A; JP7007000B1

Abstract

リカレント方式において、より高性能に動画シーケンスを高解像度化できる画像処理装置および画像処理方法を提供する。複数のフレームから構成される動画シーケンスを高解像化処理する画像処理装置であって、前記複数のフレームにおける処理対象フレームがリセット対象フレームであるか否かを判定するリセット判定部と、第１機械学習モデルを有し、前記処理対象フレームがリセット対象フレームでない場合、前記処理対象フレームと、前記処理対象フレームの前および／または後のフレームと、前記処理対象フレームの前のフレームを高解像化処理した際に生成される特徴マップと、を用いて、前記処理対象フレームを高解像化した高解像フレームおよび特徴マップを生成し、前記処理対象フレームがリセット対象フレームである場合、前記処理対象フレームと、前記処理対象フレームの前および／または後のフレームと、を用いるが、前記処理対象フレームの前のフレームを高解像化処理した際に生成される特徴マップを用いず、前記高解像フレームおよび前記特徴マップを生成する高解像度化処理部と、を備える画像処理装置が提供される。

Description

画像処理装置および画像処理方法

　本発明は、動画シーケンスの高解像度化処理を行う画像処理装置および画像処理方法に関する。

　従来から、機械学習モデル（特に、畳み込みニューラルネットワーク（Convolution Neural Network、以下「ＣＮＮ」という。）等のニューラルネットワーク）を用いて動画の解像度を高くする（画素数を増やす）高解像度化手法が提案されている（非特許文献１，２）。このような超解像度化手法では、位置合わせ、特徴抽出および再構成といった各機能がＣＮＮを組み合わせることで実現されている。なかでも、リカレント方式と呼ばれる手法が知られている（非特許文献２，３）。

https://arxiv.org/pdf/2007.12928.pdf https://arxiv.org/pdf/1801.04590.pdf https://arxiv.org/pdf/1909.08080.pdf

　本発明の課題は、リカレント方式において、より高性能に動画シーケンスを高解像度化できる画像処理装置および画像処理方法を提供することである。

　本発明の一態様によれば、複数のフレームから構成される動画シーケンスを高解像化処理する画像処理方法であって、前記複数のフレームにおける処理対象フレームがキーフレームであるか否かを判定するステップと、（ｉ）前記処理対象フレームがキーフレームであると判定された場合、前記処理対象フレームの高解像度化難易度を推定するステップと、互いに計算量が異なる複数の機械学習モデルのうち、推定された高解像度化難易度に応じた機械学習モデルを決定するステップと、前記処理対象フレームがシーンチェンジに対応するキーフレームであるか否かを判定するステップと、前記処理対象フレームがシーンチェンジに対応するキーフレームでない場合、前記決定された機械学習モデルを用いて高画質化処理部が、前記処理対象フレームと、前記処理対象フレームの前および／または後のフレームと、前記処理対象フレームの前のフレームを高解像化処理した際に生成される特徴マップと、を用いて、前記処理対象フレームを高解像化した高解像フレームを生成するステップと、前記処理対象フレームがシーンチェンジに対応するキーフレームである場合、前記処理対象フレームと、前記処理対象フレームの後のフレームと、を用いて代替特徴マップを生成し、前記決定された機械学習モデルを用いて高画質化処理部が、前記処理対象フレームと、前記処理対象フレームの前および／または後のフレームと、前記処理対象フレームと、前記代替特徴マップと、を用いて、前記処理対象フレームを高解像化した高解像フレームを生成するステップと、（ｉｉ）前記処理対象フレームがキーフレームでないと判定された場合、前記決定された機械学習モデルを用いて高画質化処理部が、前記処理対象フレームと、前記処理対象フレームの前および／または後のフレームと、前記処理対象フレームの前のフレームを高解像化処理した際に生成される特徴マップと、を用いて、前記処理対象フレームを高解像化した高解像フレームを生成するステップと、を備える画像処理方法が提供される。

　本発明の別の態様によれば、複数のフレームから構成される動画シーケンスを高解像化処理する画像処理装置であって、前記複数のフレームにおける処理対象フレームがリセット対象フレームであるか否かを判定するリセット判定部と、第１機械学習モデルを有し、前記処理対象フレームがリセット対象フレームでない場合、前記処理対象フレームと、前記処理対象フレームの前および／または後のフレームと、前記処理対象フレームの前のフレームを高解像化処理した際に生成される特徴マップと、を用いて、前記処理対象フレームを高解像化した高解像フレームおよび特徴マップを生成し、前記処理対象フレームがリセット対象フレームである場合、前記処理対象フレームと、前記処理対象フレームの前および／または後のフレームと、を用いるが、前記処理対象フレームの前のフレームを高解像化処理した際に生成される特徴マップを用いず、前記高解像フレームおよび前記特徴マップを生成する高解像度化処理部と、を備える画像処理装置が提供される。

　前記リセット判定部は、前記複数のフレームに含まれるキーフレームに基づいて、前記処理対象フレームがリセット対象フレームであるか否かを判定してもよい。

　前記リセット判定部は、前記処理対象フレームがキーフレームである場合、前記処理対象フレームがリセット対象フレームであると判定してもよい。

　前記リセット判定部は、前記処理対象フレームがシーンチェンジに対応するフレームである場合、前記処理対象フレームがリセット対象フレームであると判定してもよい。

　前記リセット判定部は、前記処理対象フレームがシーンチェンジに対応するキーフレームである場合、前記処理対象フレームがリセット対象フレームであると判定してもよい。

　前記リセット判定部は、前記処理対象フレームが前記複数のフレームのうちの先頭フレームである場合、前記処理対象フレームがリセット対象フレームであると判定してもよい。

　前記リセット判定部は、所定フレーム毎に、前記処理対象フレームがリセット対象フレームであると判定してもよい。

　前記第１機械学習モデルとは異なる第２機械学習モデルを有し、前記処理対象フレームと、前記処理対象フレームの後のフレームと、を用いて、代替特徴マップを生成する特徴マップ生成部を備え、前記高解像度化処理部は、前記処理対象フレームがリセット対象フレームである場合、前記代替特徴マップを用いて前記高解像フレームおよび前記特徴マップを生成してもよい。

　本発明の別の態様によれば、複数のフレームから構成される動画シーケンスを高解像化処理する画像処理装置であって、前記複数のフレームにおける処理対象フレームの高解像度化難易度を推定する難易度推定部と、互いに計算量が異なる機械学習モデルを有する複数の高解像度化処理部と、を備え、前記複数の高解像度化処理部のうち、前記処理対象フレームの高解像度化難易度に応じた機械学習モデルを有する高解像度化処理部が、前記処理対象フレームと、前記処理対象フレームの前および／または後のフレームと、を用いて、前記処理対象フレームを高解像化した高解像フレームを生成する、画像処理装置が提供される。

　前記高解像度化難易度が高いほど、計算量が大きい機械学習モデルを有する高解像度化処理部が前記高解像フレームを生成してもよい。

　前記難易度推定部は、前記処理対象フレームがキーフレームである場合に、前記処理対象フレームの高解像度化難易度を推定し、前記処理対象フレームがキーフレームである場合には、前記複数の高解像度化処理部のうち、前記難易度推定部によって推定された前記処理対象フレームの高解像度化難易度に応じた機械学習モデルを有する高解像度化処理部が前記高解像フレームを生成し、前記処理対象フレームがキーフレームでない場合には、前記処理対象フレームより１つ前のフレームの高解像度化処理を行った高解像度化処理部が前記処理対象フレームの高解像度化処理を行ってもよい。

　本発明の別の態様によれば、複数のフレームから構成される動画シーケンスを高解像化処理する画像処理方法であって、前記複数のフレームにおける処理対象フレームがリセット対象フレームであるか否かを判定するステップと、機械学習モデルを用いて高画質化処理部が、前記処理対象フレームがリセット対象フレームでない場合、前記処理対象フレームと、前記処理対象フレームの前および／または後のフレームと、前記処理対象フレームの前のフレームを高解像化処理した際に生成される特徴マップと、を用いて、前記処理対象フレームを高解像化した高解像フレームおよび特徴マップを生成し、前記処理対象フレームがリセット対象フレームである場合、前記処理対象フレームと、前記処理対象フレームの前および／または後のフレームと、を用いるが、前記処理対象フレームの前のフレームを高解像化処理した際に生成される特徴マップを用いず、前記高解像フレームおよび前記特徴マップを生成するステップと、を含む画像処理方法が提供される。

　本発明の別の態様によれば、複数のフレームから構成される動画シーケンスを高解像化処理する画像処理方法であって、前記複数のフレームにおける処理対象フレームの高解像度化難易度を推定するステップと、互いに計算量が異なる複数の機械学習モデルのうち、前記処理対象フレームの高解像度化難易度に応じた機械学習モデルを用いて高画質化処理部が、前記処理対象フレームと、前記処理対象フレームの前および／または後のフレームと、を用いて、前記処理対象フレームを高解像化した高解像フレームを生成するステップと、含む画像処理方法が提供される。

　より高性能に動画シーケンスを高解像度化できる。

ＣＮＮを用いたリカレント方式の高解像度化処理を模式的に示す図。図１Ａに示すＣＮＮを用いたリカレント方式の高解像度化処理を行う画像処理装置の概略構成を模式的に示すブロック図。第１実施形態に係る画像処理装置の概略構成を模式的に示すブロック図。図２の画像処理装置の処理動作の一例を示すフローチャート。第２実施形態に係る画像処理装置の概略構成を模式的に示すブロック図。図４の画像処理装置の処理動作の一例を示すフローチャート。第３実施形態に係る画像処理装置の概略構成を模式的に示すブロック図。図６の画像処理装置の処理動作の一例を示すフローチャート。

　以下、本発明に係る実施形態について、図面を参照しながら具体的に説明する。
　まず、前提となるＣＮＮを用いたリカレント方式の高解像度化処理（非特許文献３）について説明する。

　図１Ａは、ＣＮＮを用いたリカレント方式の高解像度化処理を模式的に示す図であり、低解像度の動画シーケンスＸを高解像度化して高解像度の動画シーケンスＹを生成する様子を示している。なお、本明細書での「高解像度」は「低解像度」に対する相対的な意味であって、特定の画素数以上であることを意味するものではない。

　以下では、動画シーケンスＸがｎ枚の低解像度フレームから構成され、ｔ（ｔ＝１～ｎ）枚目の低解像度フレームをｘ（ｔ）と表記することとする。そして、生成される動画シーケンスＹもｎ枚の高解像度フレームから構成され、ｔ（ｔ＝１～ｎ）枚目の高解像度フレームをｙ（ｔ）と表記することとする。

　図示のように、位置合わせ、特徴抽出および再構成を行う処理モジュールがＣＮＮを用いて構成されている。そして、低解像度フレームｘ（ｔ）を高解像度化処理するために、その前フレームｘ（ｔ－１）および／または後フレームｘ（ｔ＋１）が用いられる。以下では、高解像度化処理される対象となる低解像度化フレームｘ（ｔ）を「処理対象フレームｘ（ｔ）」と呼ぶことがある。なお、処理モジュールは前フレームおよび後フレームの一方のみを用いてもよいし、２以上の前フレームおよび／または後フレームを用いてもよい。

　リカレント方式の特徴の１つとして、処理対象フレームｘ（ｔ）を高解像度化処理する際に、前フレームｘ（ｔ－１）の高解像度化処理時にＣＮＮの中間層から出力される特徴マップｈ（ｔ－１）が用いられる。特徴マップｈ（ｔ－１）を用いることにより、高解像度化の精度が向上する。さらに、前フレームｘ（ｔ－１）を高解像度化処理して得られた高解像度フレームｙ（ｔ－１）が高解像度化処理に用いられてもよい。

　そして、処理モジュールはＣＮＮを適用して高解像度化処理を行い、処理対象フレームｘ（ｔ）を高解像度化した高解像度フレームｙ（ｔ）と、特徴マップｈ（ｔ）とを出力する。特徴マップｈ（ｔ）は後フレームｘ（ｔ＋１）を高解像度化処理する際に用いられる。

　処理モジュールが低解像度の動画シーケンスＸを構成する各低解像度フレームｘ（１）～ｘ（ｎ）に対して以上の処理を再帰的に順次適用することで、高解像度化された動画シーケンスＹが得られる。

　図１Ｂは、図１Ａに示すＣＮＮを用いたリカレント方式の高解像度化処理を行う画像処理装置の概略構成を模式的に示すブロック図である。

　この画像処理装置はＣＮＮ１０を有する高解像度化処理部１００を備えている。ＣＮＮ１０は、動画シーケンスＸを構成する低解像度フレームｘ（１）～ｘ（ｎ）のそれぞれを高解像度化処理して、高解像度フレームｙ（１）～ｙ（ｎ）を出力する。すなわち、ＣＮＮ１０は複数の重みパラメータを含んでおり、高解像度化に適した重みパラメータの値が予め学習され、設定されている。

　ＣＮＮ１０は、処理対象フレームｘ（ｔ）を高解像度化処理する際、前フレームｘ（ｔ－１）の高解像度化処理時にＣＮＮ１０の中間層から出力される特徴マップｈ（ｔ－１）を用いる。

　このような非特許文献３に記載のリカレント方式の高解像度化処理において、以下のような課題があることに発明者らは想到した。

（１）低解像度フレームを順次高解像度化処理する過程において、生成される特徴マップｈ（ｔ）には少しずつエラーが蓄積し、伝播する。その結果、後半の低解像度フレームに対する高解像度化の精度が低下することがある。

（２）１番初めの低解像度フレームｘ（１）（以下「先頭フレーム」という。）を高解像度化処理する際、前フレームが存在しないため、初期化された特徴マップｈ（０）（例えば定数０）を用いざるを得ない。その結果、先頭フレームおよびその後の数フレームについて、高解像度化の精度が低下することがある。

（３）現実の動画シーケンスでは各低解像度化フレームの高解像度化の難易度は様々であって時間変化が大きいが、常に同じＣＮＮが用いられる。その結果、高解像度化処理の効率が低下する。具体的には、高解像度化が容易である低解像度化フレームについては処理時間が無駄に長くなり、高解像度化が困難である低解像度化フレームについては高解像度化の精度が低下することがある。

　そこで、本発明はこれらの課題の少なくとも一部を解決することを目的とする。以下、第１実施形態は主として（１）及び（２）の課題に対応しており、第２実施形態は主として（３）の課題に対応しており、第３実施形態は（１）～（３）の課題に対応している。

　なお、以下の各実施形態では、従来のＣＮＮを用いたリカレント方式の高解像度化処理（図１Ａおよび図１Ｂ）と共通する点についての説明を省略する。

（第１実施形態）
　図２は、第１実施形態に係る画像処理装置の概略構成を示すブロック図である。この画像処理装置は複数のフレームから構成される動画シーケンスを高解像度化処理するものであり、ＣＮＮ１１を有する高解像度化処理部１０１に加え、リセット判定部１と、代替特徴マップ生成部２とを備えている。これらの一部または全部は、プロセッサが所定のプログラムを実行することによって実現されてもよい。

　高解像度化処理部１０１は、処理対象フレームｘ（ｔ）と、処理対象フレームｘ（ｔ）の前フレームｘ（ｔ－１）および／または後フレームｘ（ｔ＋１）とを用いて、処理対象フレームｘ（ｔ）を高解像化した高解像フレームｙ（ｙ）を生成する。用いる前フレームおよび後フレームの数は任意である。高解像度化された１以上の前フレームｙがさらに用いられてもよい。

　高解像度化処理の際、処理対象フレームｘ（ｔ）がリセット対象フレーム（後述）でなければ、高解像度化処理部１０１は前フレームｘ（ｔ－１）を高解像度化処理した際に生成される特徴マップｈ（ｔ－１）を用いる。一方、処理対象フレームｘ（ｔ）がリセット対象フレームである場合、高解像度化処理部１０１は、特徴マップｈ（ｔ－１）を用いることなく、代替特徴マップｈ’（後述）を用いる。

　リセット判定部１は処理対象フレームｘ（ｔ）がリセット対象フレームであるか否かを判定する。判定結果は高解像度化処理部１０１に通知される。ここで、リセット対象フレームについて説明する。

　一般に、圧縮動画ではシーンチェンジの際にキーフレーム（例えば、ＭＰＥＧで圧縮された動画におけるＩピクチャ）が挿入され、シーンチェンジが長時間に渡って発生しない場合には一定間隔でキーフレームが挿入される。

　そこで、リセット判定部１はキーフレームに基づいて処理対象フレームｘ（ｔ）がリセット対象フレームであるか否かの判定を行ってもよい。低解像度化フレームｘ（１）～ｘ（ｎ）のそれぞれがキーフレームであるか否かの情報は、動画シーケンスＸに含まれている（あるいは各低解像度化フレームｘ（１）～ｘ（ｎ）に付与されている）。

　より具体的には、リセット判定部１は、処理対象フレームｘ（ｔ）がキーフレームであ
る場合には、その処理対象フレームｘ（ｔ）がリセット対象フレームであると判定し、キーフレームでない場合には、リセット対象フレームでないと判定してもよい。

　また、キーフレームそのものをリセットフレームにするのではなく、リセット判定部１は、処理対象フレームｘ（ｔ）がキーフレームの１または数フレーム前または後のフレームである場合に、その処理対象フレームｘ（ｔ）がリセット対象フレームであると判定してもよい。

　また、リセット判定部１は、処理対象フレームｘ（ｔ）が動画のシーンチェンジに対応する場合には、その処理対象フレームｘ（ｔ）がリセット対象フレームであると判定し、シーンチェンジに対応しない場合には、リセット対象フレームでないと判定してもよい。

　シーンチェンジに対応するか否かは公知の手法でリセット判定部１が判定すればよい。一例として、リセット判定部１がまた別のＣＮＮ（不図示）を有し、処理対象フレームｘ（ｔ）の前後数フレームを用いて処理対象フレームｘ（ｔ）がシーンチェンジか否かを判定してもよい。また、低解像度化フレームｘ（１）～ｘ（ｎ）のそれぞれがシーンチェンジに対応するか否かの情報が、動画シーケンスＸに含まれていてもよい（あるいは各低解像度化フレームｘ（１）～ｘ（ｎ）に付与されていてもよい）。

　さらに、リセット判定部１は、処理対象フレームｘ（ｔ）が動画のシーンチェンジに対応するキーフレームである場合には、その処理対象フレームｘ（ｔ）がリセット対象フレームであると判定し、シーンチェンジに対応するキーフレームでない場合（すなわち、キーフレームでない場合およびシーンチェンジに対応しないキーフレームである場合）には、リセット対象フレームでないと判定してもよい。処理対象フレームｘ（ｔ）がキーフレームであったとしもシーンチェンジに対応しない場合には前フレームｘ（ｔ－１）の高解像化処理した際に生成された特徴マップｈ（ｔ－１）を用いることで、高解像度化処理の連続性を保てる。

　その他、リセット判定部１は処理対象フレームｘ（ｔ）が先頭フレームｘ（０）である場合に、リセット対象フレームであると判定してもよい。また、リセット判定部１は所定フレーム毎（例えば、第１フレーム、第１１フレーム、第２１フレーム・・・といった一定間隔毎）にリセット対象フレームであると判定してもよい。なお、本明細書における一定間隔とは、厳密な一定間隔の場合と、厳密に一定ではないが上記の課題を解決できる程度の小さな変動にすぎない場合と、を含むものとする。

　代替特徴マップ生成部２は処理対象フレームｘ（ｔ）がリセット対象フレームである場合に用いられる代替特徴マップｈ’を生成する。生成された代替特徴マップｈ’は高解像度化処理部１０１に入力される。

　代替特徴マップｈ’は予め定めた定数であってもよい。しかし、代替特徴マップ生成部２はＣＮＮ１１とは別のＣＮＮ２１を有し、低解像度フレームから代替特徴マップｈ’を生成するのが望ましい。すなわち、ＣＮＮ２１は複数の重みパラメータを含んでおり、適切な代替特徴マップｈ’を生成するのに適した重みパラメータの値が予め学習され、設定されている。

　一例として、代替特徴マップ生成部２は処理対象フレームｘ（ｔ）および／または後フレームから代替特徴マップｈ’を生成してもよい。用いる後フレームの数に特に制限はなく、例えば５フレーム程度である。

　図３は、図２の画像処理装置の処理動作の一例を示すフローチャートである。まず、高解像度化処理部１０１は低解像度化フレームｘ（１）～ｘ（ｎ）のうちの１つを処理対象フレームｘ（ｔ）として設定する（ステップＳ１）。そして、リセット判定部１は処理対象フレームｘ（ｔ）がリセット対象フレームであるか否かを判定する（ステップＳ２）。

　処理対象フレームｘ（ｔ）がリセット対象フレームでないと判定された場合（ステップＳ２のＮＯ）、高解像度化処理部１０１は、処理対象フレームｘ（ｔ）と、処理対象フレームの前フレームｘ（ｔ－１）および／または後フレームｘ（ｔ＋１）と、前フレームｘ（ｔ－１）を高解像化処理した際に生成され特徴マップｈ（ｔ－１）とを用いて、処理対象フレームｘ（ｔ）を高解像化した高解像フレームｙ（ｔ）を生成する（ステップＳ３ａ）。この際、特徴マップｈ（ｔ）も生成される。

　一方、処理対象フレームｘ（ｔ）がリセット対象フレームであると判定された場合（ステップＳ２のＹＥＳ）、高解像度化処理部１０１は、処理対象フレームｘ（ｔ）と、処理対象フレームの前フレームｘ（ｔ－１）および／または後フレームｘ（ｔ＋１）と、代替特徴マップ生成部２によって生成された代替特徴マップｈ’とを用いて（特徴マップｈ（ｔ－１）を用いず）、処理対象フレームｘ（ｔ）を高解像化した高解像フレームｙ（ｔ）を生成する（ステップＳ３ｂ）。この際、特徴マップｈ（ｔ）も生成される。生成された高解像度フレームｙ（ｔ）はディスプレイに表示されてもよい。

　以上の処理を、処理対象フレームｘ（ｔ）が最終フレームとなるまで（ｔ＝ｎとなるまで）、ｔをインクリメントしながらステップＳ１以降の処理を繰り返す（ステップＳ４のＮＯ）。すべての低解像度フレームｘ（１）～ｘ（ｎ）の高解像度化処理が完了すると、画像処理装置の処理動作は終了する（ステップＳ４のＹＥＳ）。処理の終了後に、高解像度化処理部１０１は高解像度フレームｙ（１）～ｙ（ｎ）から高解像度動画シーケンスＹを生成してもよい。

　このように、第１実施形態では、リセット判定部１を設け、処理対象フレームｘ（ｔ）がリセット対象フレームである場合には、前フレームｘ（ｔ－１）を高解像度化処理した際に生成される特徴マップｈ（ｔ－１）を用いない。これにより、特徴マップにエラーが蓄積されて伝播するのを抑えられ、後半の低解像度フレームに対する高解像度化の精度が低下するのを抑制できる。

　特に、キーフレームをリセット対象フレームとすることで、シーンチェンジが長時間に渡って発生しない場合でも、定期的に特徴マップをリセットできる。また、シーンチェンジに対応するキーフレームをリセット対象フレームとすることで、高解像度フレームｙ（ｔ）の連続性を保てる。

　リセット対象フレームにおいては、処理対象フレームｘ（ｔ）および／または後フレームに基づいて、ＣＮＮ２１を有する代替特徴マップ生成部２によって生成された代替特徴マップｈ’を用いることで、高解像度化の精度を向上できる。

　また、先頭フレームをリセット対象フレームとし、代替特徴マップｈ’を用いることで、先頭フレームおよびその後の数フレームについても高解像度化の精度を向上できる。

（第２実施形態）
　図４は、第２実施形態に係る画像処理装置の概略構成を模式的に示すブロック図である。この画像処理装置は、高解像度化処理部１０２と、難易度推定部３とを備えている。これらの一部または全部は、プロセッサが所定のプログラムを実行することによって実現されてもよい。以下、第１実施形態との相違点を中心に説明する。

　難易度推定部３は処理対象フレームｘ（ｔ）の高解像度化難易度を推定する。本実施形態の難易度推定部３は処理対象フレームｘ（ｔ）の難易度が高いか低いかの２値判定を行うものとする。判定は公知の技術を適用してよい。

　一例として、難易度推定部３は処理対象フレームｘ（ｔ）における時間方向の動きの大きさに基づいて難易度を判定してもよい。より具体的には、処理対象フレームｘ（ｔ）と、１または複数の前フレームおよび／または後フレームｘとを対比し、フレーム間の差が大きい場合に難易度推定部３は処理対象フレームｘ（ｔ）の高解像度化難易度が高いと推定してもよい。

　あるいは、難易度推定部３は処理対象フレームｘ（ｔ）に含まれる周波数成分に基づいて難易度を判定してもよい。より具体的には、処理対象フレームｘ（ｔ）に高周波数成分を多く含む場合に難易度推定部３は処理対象フレームｘ（ｔ）の高解像度化難易度が高いと推定してもよい。

　難易度推定部３はＣＮＮ３１を有し、処理対象フレームｘ（ｔ）の高解像度化難易度を判定するのが望ましい。すなわち、ＣＮＮ３１は複数の重みパラメータを含んでおり、適切に高解像度化難易度を判定できるよう重みパラメータの値が予め学習され、設定されている。

　高解像度化処理部１０２は、複数の高解像度化処理部として、ＣＮＮ１３を有する高難易度用高解像度化処理部１０３と、ＣＮＮ１４を有する低難易度用高解像度化処理部１０４とを有する。高難易度用高解像度化処理部１０３および低難易度用高解像度化処理部１０４のそれぞれは、第１実施形態と同様、処理対象フレームｘ（ｔ）を高解像度化して高解像度フレームｙ（ｔ）と特徴マップｈ（ｔ）を生成できる。

　ここで、ＣＮＮ１３とＣＮＮ１４はサイズが互いに異なる。詳細には、ＣＮＮ１３のサイズはＣＮＮ１４のサイズより大きい。さらに詳細には、ＣＮＮ１３は、ＣＮＮ１４より計算量が多い（例えば、層数が多い、あるいは、ＣＮＮ１４より多い重みパラメータ数を含んでいる）。すなわち、ＣＮＮ１３は、ＣＮＮ１４より高解像度化の精度は高いが、ＣＮＮ１４より処理速度が遅い。

　よって、高解像度化の難易度が高い処理対象フレームｘ（ｔ）については、多少処理時間がかかるとしても、ＣＮＮ１３を適用するのが好適である。一方、高解像度化の難易度が低い処理対象フレームｘ（ｔ）については、ＣＮＮ１４を適用して処理時間を短縮するのが好適である。

　そこで、本実施形態では、難易度推定部３によって処理対象フレームｘ（ｔ）の高解像度化難易度が高いと推定された場合には高難易度用高解像度化処理部１０３が高解像度化処理を行い、難易度推定部３によって処理対象フレームｘ（ｔ）の高解像度化難易度が低いと推定された場合には低難易度用高解像度化処理部１０３が高解像度化処理を行うこととする。すなわち、処理対象フレームｘ（ｔ）の高解像度間難易度に応じてサイズが異なるＣＮＮ１３，１４を適応的に適用する。

　なお、処理対象フレームｘ（ｔ）ごとに高解像度化難易度を判定してフレーム単位で適用するＣＮＮ１３，１４を切り替えてもよいが、一定間隔ごと（例えばキーフレームごと）に適用するＣＮＮ１３，１４を切り替えてもよい。高解像度化難易度は隣接フレームでは大きく変わらないと考えられるためである。

　図５は、図４の画像処理装置の処理動作の一例を示すフローチャートである。まず、高解像度化処理部１０２は低解像度フレームｘ（１）～ｘ（ｎ）のうちの１つを処理対象フレームｘ（ｔ）として設定する（ステップＳ１１）。そして、難易度推定部３は処理対象フレームｘ（ｔ）が切替対象フレームであるか否かを判定する（ステップＳ１２）。

　ここで、一例として、難易度推定部３はキーフレームである処理対象フレームｘ（ｔ）を切替対象フレームとしてもよい。別の例として、難易度推定部３は、シーンチェンジに対応するキーフレームである処理対象フレームｘ（ｔ）を切替対象フレームとしてもよいし、全フレームを切替対象フレームとしてもよい。

　処理対象フレームｘ（ｔ）が切替対象フレームである場合（ステップＳ１２のＹＥＳ）、難易度推定部３は処理対象フレームｘ（ｔ）の高解像度化難易度を推定する（ステップＳ１３）。本実施形態では、難易度推定部３は処理対象フレームｘ（ｔ）の高解像度化難易度が高いか低いかを判定する。具体的な推定手法は上述したものでもよい。キーフレームを切替対象フレームとする場合、当該キーフレームから次のキーフレームまでの間の１またはすべてのフレームの平均的な高解像度化難易度を推定し、推定された難易度を処理対象フレームｘ（ｔ）の高解像度化難易度としてもよい。

　続いて、高解像度化処理部１０２は、難易度推定部３によって推定された処理対象フレームｘ（ｔ）の高解像度化難易度に応じて、高難易度用高解像度化処理部１０３および低難易度用高解像度化処理部１０４のいずれを適用するかを決定する（ステップＳ１４）。具体的には、高解像度化の難易度が高いと判定された処理対象フレームｘ（ｔ）には高難易度用高解像度化処理部１０３が適用され、高解像度化の難易度が低いと判定された処理対象フレームｘ（ｔ）には低難易度用高解像度化処理部１０４が適用される。

　そして、決定された高難易度用高解像度化処理部１０３および低難易度用高解像度化処理部１０４のいずれが処理対象フレームｘ（ｔ）の高解像度化処理を行う（ステップＳ１５）。生成された高解像度フレームｙ（ｔ）はディスプレイに表示されてもよい。なお、処理対象フレームｘ（ｔ）に適用される高解像度化処理部と、前フレームｘ（ｔ－１）に適用された高解像度化処理部とが異なる場合、前フレームｘ（ｔ－１）を高解像度化した際に生成される特徴マップｈ（ｔ－１）を処理対象フレームｘ（ｔ）の高解像度化に使えないのであれば、適宜、定数の特徴マップあるいは第１実施形態で述べたような代替特徴マップを使うようにすればよい。

　一方、処理対象フレームｘ（ｔ）が切替対象フレームでない場合（ステップＳ１２のＮＯ）、前フレームｘ（ｔ－１）を処理した高難易度用高解像度化処理部１０３および低難易度用高解像度化処理部１０４のいずれが処理対象フレームｘ（ｔ）の高解像度化処理を行う（ステップＳ１５）。言い換えると、処理対象フレームｘ（ｔ）より前の切替対象フレームの高解像度化難易度に応じて決定された高難易度用高解像度化処理部１０３および低難易度用高解像度化処理部１０４のいずれが、処理対象フレームｘ（ｔ）の高解像度化を行う。生成された高解像度フレームｙ（ｔ）はディスプレイに表示されてもよい。

　以上の処理を、処理対象フレームｘ（ｔ）が最終フレームとなるまで（ｔ＝ｎとなるまで）、ｔをインクリメントしながらステップＳ１１以降の処理を繰り返す（ステップＳ１６のＮＯ）。すべての低解像度フレームｘ（１）～ｘ（ｎ）の高解像度化処理が完了すると、画像処理装置の処理動作は終了する（ステップＳ１６のＹＥＳ）。処理の終了後に、高解像度化処理部１０１は高解像度フレームｙ（１）～ｙ（ｎ）から高解像度動画シーケンスＹを生成してもよい。

　ステップＳ１２においてキーフレームを切替対象フレームとする例においては、１つのキーフレームから次のキーフレームの前のフレームまでが同一の高解像度化処理部１０３
または高解像度化処理部１０４が適用されることとなる。

　なお、本実施形態では難易度推定部３が高解像度化難易度を２段階（難易度が高いか低いか）で推定する例を示したが、３段階以上で推定してもよい。この場合、高解像度化処理部１０２が互いにサイズが異なるＣＮＮを有する３つ以上の高解像度化処理部を有し、高解像度化の難易度が高いほどサイズが大きいＣＮＮを有する高解像度化処理部が処理対象フレームｘ（ｔ）を高解像度化すればよい。

　このように、第２実施形態では、互いにサイズが異なるＣＮＮを有する複数の高解像度化処理部を設け、処理対象フレームｘ（ｔ）の高解像度化難易度に応じたサイズのＣＮＮを用いて高解像度化処理を行う。これにより、高解像度化の精度と処理速度と両立させることができ、高解像度化処理の効率を向上できる。

　なお、本実施形態は、リカレント方式の高解像度化処理に限らず、前のフレームを高解像度化処理した際に生成された情報を次のフレームの高解像度化処理に用いない場合にも適用可能である。

（第３実施形態）
　次に述べる第３実施形態は第１実施形態と第２実施形態とを組み合わせたものである。

　図６は、第３実施形態に係る画像処理装置の概略構成を模式的に示すブロック図である。各部の機能は第１実施形態および第２実施形態で述べたとおりである。

　図７は、図６の画像処理装置の処理動作の一例を示すフローチャートである。以下、処理対象フレームがキーフレームである場合に、難易度推定部３は処理対象フレームが切り替え対象フレームであると判定するものとする。また、処理対象フレームがシーンチェンジに対応するキーフレームである場合に、リセット判定部１は処理対象フレームがリセット対象フレームであると判定するものとする。

　まず、高解像度化処理部１０２は低解像度化フレームｘ（１）～ｘ（ｎ）のうちの１つを処理対象フレームｘ（ｔ）として設定する（ステップＳ２１）。そして、難易度推定部３は処理対象フレームｘ（ｔ）が切替対象フレームであるか否か（本例では、キーフレームであるか否か）を判定する（ステップＳ２２）。

　処理対象フレームｘ（ｔ）が切替対象フレームでない場合（ステップＳ２２のＮＯ）、ステップＳ２６ａの処理に進む。

　処理対象フレームｘ（ｔ）が切替対象フレームである場合（ステップＳ２２のＹＥＳ）、すなわち、処理対象フレームｘ（ｔ）がキーフレームである場合、難易度推定部３は処理対象フレームｘ（ｔ）の高解像度化難易度を推定する（ステップＳ２３）。本実施形態では、難易度推定部３は処理対象フレームｘ（ｔ）の高解像度化難易度が高いか低いかを判定する。

　続いて、高解像度化処理部１０２は、難易度推定部３によって推定された処理対象フレームｘ（ｔ）の高解像度化難易度に応じて、高難易度用高解像度化処理部１０３および低難易度用高解像度化処理部１０４のいずれを適用するかを決定する（ステップＳ２４）。具体的には、高解像度化の難易度が高いと判定された処理対象フレームｘ（ｔ）には高難易度用高解像度化処理部１０３が適用され、高解像度化の難易度が低いと判定された処理対象フレームｘ（ｔ）には低難易度用高解像度化処理部１０４が適用される。

　次に、リセット判定部１は処理態様フレームｘ（ｔ）がリセット対象フレームであるか否か（本例では、シーンチェンジに対応するキーフレームであるか否か）を判定する（ステップＳ２５）。

　処理対象フレームｘ（ｔ）がリセット対象フレームでない場合（ステップＳ２５のＮＯ）、ステップＳ２４で決定された高難易度用高解像度化処理部１０３および低難易度用高解像度化処理部１０４のいずれかが、処理対象フレームｘ（ｔ）と、処理対象フレームの前フレームｘ（ｔ－１）および／または後フレームｘ（ｔ＋１）と、前フレームｘ（ｔ－１）を高解像化処理した際に生成され特徴マップｈ（ｔ－１）とを用いて、処理対象フレームｘ（ｔ）を高解像化した高解像フレームｙ（ｔ）および特徴マップｈ（ｔ）を生成する（ステップＳ２６ａ）。生成された高解像度フレームｙ（ｔ）はディスプレイに表示されてもよい。

　一方、処理対象フレームｘ（ｔ）がリセット対象フレームである場合（ステップＳ２５のＹＥＳ）、ステップＳ２４で決定された高難易度用高解像度化処理部１０３および低難易度用高解像度化処理部１０４のいずれかが、処理対象フレームｘ（ｔ）と、処理対象フレームの前フレームｘ（ｔ－１）および／または後フレームｘ（ｔ＋１）と、代替特徴マップ生成部２によって生成された代替特徴マップｈ’とを用いて（特徴マップｈ（ｔ－１）を用いず）、処理対象フレームｘ（ｔ）を高解像化した高解像フレームｙ（ｔ）および特徴マップｈ（ｔ）を生成する（ステップＳ２６ｂ）。生成された高解像度フレームｙ（ｔ）はディスプレイに表示されてもよい。

　以上の処理を、処理対象フレームｘ（ｔ）が最終フレームとなるまで（ｔ＝ｎとなるまで）、ｔをインクリメントしながらステップＳ２１以降の処理を繰り返す（ステップＳ２７のＮＯ）。すべての低解像度フレームｘ（１）～ｘ（ｎ）の高解像度化処理が完了すると、画像処理装置の処理動作は終了する（ステップＳ２７のＹＥＳ）。処理の終了後に、高解像度化処理部１０２は高解像度フレームｙ（１）～ｙ（ｎ）から高解像度動画シーケンスＹを生成してもよい。

　このように、第３実施形態では、リセット判定部１を設けることによりエラーの蓄積および伝播を抑制でき、難易度推定部３を設けることにより高解像度化処理を効率化できる。なお、第１および第２実施形態で述べた事項を適宜第３実施形態にも適用してよい。

　なお、上述した各実施形態は機械学習手法の一例としてＣＮＮを示したが、他の一般的な機械学習手法にも本発明は適用可能である。すなわち、各高解像度化処理部は任意の機械学習モデルを用いて処理を行えばよく、その一例としてニューラルネットワークを用いた処理、さらにその一例としてＣＮＮを用いた処理を行ってよい。

　本明細書で言及したプログラムは、コンピュータ読み取り可能な記録媒体に非一時的に記録して頒布されてもよいし、インターネットなどの通信回線（無線通信も含む）を介して頒布されてもよいし、任意の端末にインストールされた状態で頒布されてもよい。

上記の記載に基づいて、当業者であれば、本発明の追加の効果や種々の変形例を想到できるかもしれないが、本発明の態様は、上述した個々の実施形態には限定されるものではない。特許請求の範囲に規定された内容およびその均等物から導き出される本発明の概念的な思想と趣旨を逸脱しない範囲で種々の追加、変更および部分的削除が可能である。

例えば、本明細書において１台の装置として説明されるもの（図面において１台の装置として描かれているものを含む）を複数の装置によって実現してもよい。逆に、本明細書において複数の装置として説明されるもの（図面において複数の装置として描かれているものを含む）を１台の装置によって実現してもよい。あるいは、ある装置に含まれるとした手段や機能の一部または全部が、他の装置に含まれるようにしてもよい。

　また、本明細書に記載された事項の全てが必須の要件というわけではない。特に、本明細書に記載され、特許請求の範囲に記載されていない事項は任意の付加的事項ということができる。

　なお、本出願人は本明細書の「先行技術文献」欄の文献に記載された文献公知発明を知っているにすぎず、本発明は必ずしも同文献公知発明における課題を解決することを目的とするものではないことにも留意されたい。本発明が解決しようとする課題は本明細書全体を考慮して認定されるべきものである。例えば、本明細書において、特定の構成によって所定の効果を奏する旨の記載がある場合、当該所定の効果の裏返しとなる課題が解決されるということもできる。ただし、必ずしもそのような特定の構成を必須の要件とする趣旨ではない。

１００，１０１，１０２　高解像度化処理部
１０，１１，１３，１４，２１，３１　ＣＮＮ
１　リセット判定部
２　代替特徴マップ生成部
３　難易度推定部

Claims

　複数のフレームから構成される動画シーケンスを高解像化処理する画像処理方法であって、
　前記複数のフレームにおける処理対象フレームがキーフレームであるか否かを判定するステップと、
（ｉ）前記処理対象フレームがキーフレームであると判定された場合、
　　前記処理対象フレームの高解像度化難易度を推定するステップと、
　　互いに計算量が異なる複数の機械学習モデルのうち、推定された高解像度化難易度に応じた機械学習モデルを決定するステップと、
　　前記処理対象フレームがシーンチェンジに対応するキーフレームであるか否かを判定するステップと、
　　前記処理対象フレームがシーンチェンジに対応するキーフレームでない場合、前記決定された機械学習モデルを用いて高画質化処理部が、前記処理対象フレームと、前記処理対象フレームの前および／または後のフレームと、前記処理対象フレームの前のフレームを高解像化処理した際に生成される特徴マップと、を用いて、前記処理対象フレームを高解像化した高解像フレームを生成するステップと、
　　前記処理対象フレームがシーンチェンジに対応するキーフレームである場合、
　　　前記処理対象フレームと、前記処理対象フレームの後のフレームと、を用いて代替特徴マップを生成し、
　　　前記決定された機械学習モデルを用いて高画質化処理部が、前記処理対象フレームと、前記処理対象フレームの前および／または後のフレームと、前記代替特徴マップと、を用いて、前記処理対象フレームを高解像化した高解像フレームを生成するステップと、
（ｉｉ）前記処理対象フレームがキーフレームでないと判定された場合、前記決定された機械学習モデルを用いて高画質化処理部が、前記処理対象フレームと、前記処理対象フレームの前および／または後のフレームと、前記処理対象フレームの前のフレームを高解像化処理した際に生成される特徴マップと、を用いて、前記処理対象フレームを高解像化した高解像フレームを生成するステップと、を備える画像処理方法。
　複数のフレームから構成される動画シーケンスを高解像化処理する画像処理装置であって、
　前記複数のフレームにおける処理対象フレームがリセット対象フレームであるか否かを判定するリセット判定部と、
　第１機械学習モデルを有し、
　　前記処理対象フレームがリセット対象フレームでない場合、前記処理対象フレームと、前記処理対象フレームの前および／または後のフレームと、前記処理対象フレームの前のフレームを高解像化処理した際に生成される特徴マップと、を用いて、前記処理対象フレームを高解像化した高解像フレームおよび特徴マップを生成し、
　　前記処理対象フレームがリセット対象フレームである場合、前記処理対象フレームと、前記処理対象フレームの前および／または後のフレームと、を用いるが、前記処理対象フレームの前のフレームを高解像化処理した際に生成される特徴マップを用いず、前記高解像フレームおよび前記特徴マップを生成する高解像度化処理部と、を備える画像処理装置。
　前記リセット判定部は、前記複数のフレームに含まれるキーフレームに基づいて、前記処理対象フレームがリセット対象フレームであるか否かを判定する、請求項２に記載の画像処理装置。
　前記リセット判定部は、前記処理対象フレームがキーフレームである場合、前記処理対象フレームがリセット対象フレームであると判定する、請求項２または３に記載の画像処理装置。
　前記リセット判定部は、前記処理対象フレームがシーンチェンジに対応するフレームである場合、前記処理対象フレームがリセット対象フレームであると判定する、請求項２に記載の画像処理装置。
　前記リセット判定部は、前記処理対象フレームがシーンチェンジに対応するキーフレームである場合、前記処理対象フレームがリセット対象フレームであると判定する、請求項２に記載の画像処理装置。
　前記リセット判定部は、前記処理対象フレームが前記複数のフレームのうちの先頭フレームである場合、前記処理対象フレームがリセット対象フレームであると判定する、請求項２に記載の画像処理装置。
　前記リセット判定部は、所定フレーム毎に、前記処理対象フレームがリセット対象フレームであると判定する、請求項２に記載の画像処理装置。
　前記第１機械学習モデルとは異なる第２機械学習モデルを有し、前記処理対象フレームと、前記処理対象フレームの後のフレームと、を用いて、代替特徴マップを生成する特徴マップ生成部を備え、
　前記高解像度化処理部は、前記処理対象フレームがリセット対象フレームである場合、前記代替特徴マップを用いて前記高解像フレームおよび前記特徴マップを生成する、請求項２乃至８のいずれかに記載の画像処理装置。
　複数のフレームから構成される動画シーケンスを高解像化処理する画像処理装置であって、
　前記複数のフレームにおける処理対象フレームがキーフレームである場合、前記処理対象フレームの高解像度化難易度を推定する難易度推定部と、
　互いに計算量が異なる機械学習モデルを有する複数の高解像度化処理部と、を備え、
　前記処理対象フレームがキーフレームである場合には、前記複数の高解像度化処理部のうち、前記処理対象フレームの高解像度化難易度に応じた機械学習モデルを有する高解像度化処理部が、前記処理対象フレームと、前記処理対象フレームの前および／または後のフレームと、を用いて、前記処理対象フレームを高解像化した高解像フレームを生成し、
　前記処理対象フレームがキーフレームでない場合には、前記処理対象フレームより１つ前のフレームの高解像度化処理を行った高解像度化処理部が前記処理対象フレームの高解像度化処理を行う、画像処理装置。
　前記高解像度化難易度が高いほど、計算量が大きい機械学習モデルを有する高解像度化処理部が前記高解像フレームを生成する、請求項１０に記載の画像処理装置。
　複数のフレームから構成される動画シーケンスを高解像化処理する画像処理方法であって、
　前記複数のフレームにおける処理対象フレームがリセット対象フレームであるか否かを判定するステップと、
　機械学習モデルを用いて高画質化処理部が、
　　前記処理対象フレームがリセット対象フレームでない場合、前記処理対象フレームと、前記処理対象フレームの前および／または後のフレームと、前記処理対象フレームの前のフレームを高解像化処理した際に生成される特徴マップと、を用いて、前記処理対象フレームを高解像化した高解像フレームおよび特徴マップを生成し、
　　前記処理対象フレームがリセット対象フレームである場合、前記処理対象フレームと、前記処理対象フレームの前および／または後のフレームと、を用いるが、前記処理対象フレームの前のフレームを高解像化処理した際に生成される特徴マップを用いず、前記高解像フレームおよび前記特徴マップを生成するステップと、を含む画像処理方法。
　複数のフレームから構成される動画シーケンスを高解像化処理する画像処理方法であって、
　前記複数のフレームにおける処理対象フレームがキーフレームである場合、前記処理対象フレームの高解像度化難易度を推定するステップと、
　前記処理対象フレームがキーフレームである場合には、互いに計算量が異なる複数の機械学習モデルのうち、前記処理対象フレームの高解像度化難易度に応じた機械学習モデルを用いて高画質化処理部が、前記処理対象フレームと、前記処理対象フレームの前および／または後のフレームと、を用いて、前記処理対象フレームを高解像化した高解像フレームを生成するステップと、
　前記処理対象フレームがキーフレームでない場合には、前記処理対象フレームより１つ前のフレームの高解像度化処理を行った高解像度化処理部が前記処理対象フレームの高解像度化処理を行うステップと、含む画像処理方法。