WO2023223901A1

WO2023223901A1 - 画像符号化装置、画像復号装置、画像符号化方法、及び画像復号方法

Info

Publication number: WO2023223901A1
Application number: PCT/JP2023/017508
Authority: WO
Inventors: ジンインガオ; ハンブンテオ; チョンスンリム; プラビーンクマールヤーダブ; 清史安倍; 孝啓西; 正真遠間
Original assignee: パナソニックインテレクチュアルプロパティコーポレーションオブアメリカ
Priority date: 2022-05-17
Filing date: 2023-05-10
Publication date: 2023-11-23

Abstract

画像復号装置は、回路と、前記回路に接続されたメモリと、を備え、前記回路は、動作において、ビットストリームを復号することによって、第１画像及び複数の第１フィルタセットを取得し、画像用途を示す用途情報に基づいて、前記複数の第１フィルタセットから一の第１フィルタセットを選択し、選択した前記第１フィルタセットを前記第１画像に適用することによって、第２画像を生成して出力する。

Description

画像符号化装置、画像復号装置、画像符号化方法、及び画像復号方法

　本開示は、画像符号化装置、画像復号装置、画像符号化方法、及び画像復号方法に関する。

　特許文献１には、適応型結合プレフィルタ及びポストフィルタを用いた、ビデオ符号化及び復号化方法が開示されている。

　特許文献２には、人工知能（ＡＩ）集積回路にロードするための、画像データの符号化方法が開示されている。

米国特許第９８８３２０７号明細書米国特許第１０４５２９５５号明細書

　本開示は、復号画像に適用するフィルタを画像用途に応じて変更することを目的とする。

　本開示の一態様に係る画像復号装置は、回路と、前記回路に接続されたメモリと、を備え、前記回路は、動作において、ビットストリームを復号することによって、第１画像及び複数の第１フィルタセットを取得し、画像用途を示す用途情報に基づいて、前記複数の第１フィルタセットから一の第１フィルタセットを選択し、選択した前記第１フィルタセットを前記第１画像に適用することによって、第２画像を生成して出力する。

本開示の実施形態に係る画像処理システムの構成を簡略化して示す図である。タスク処理部の構成を簡略化して示す図である。画像処理システムの一部構成の一例を示す図である。画像処理システムの一部構成の一例を示す図である。変換部によるフィルタ変換処理の一例を示す図である。変換部によるフィルタ変換処理の一例を示す図である。マシンタスクの一例として、オブジェクト検出及びオブジェクトセグメンテーションを示す図である。マシンタスクの一例として、オブジェクトトラッキング、アクション認識、及びポーズ推定を示す図である。種類が異なる複数の第１フィルタの例を示す図である。種類が異なる複数の第１フィルタの例を示す図である。種類が異なる複数の第１フィルタの例を示す図である。種類が異なる複数の第１フィルタの例を示す図である。種類が異なる複数の第１フィルタの例を示す図である。種類が異なる複数の第１フィルタの例を示す図である。種類が異なる複数の第１フィルタの例を示す図である。種類が異なる複数の第１フィルタの例を示す図である。種類が異なる複数の第１フィルタの例を示す図である。画像用途に基づく第１フィルタセットの選択を規定するルックアップテーブルの例を示す図である。フィルタ強度が強い鮮鋭化フィルタの一例を示す図である。フィルタ強度が弱い鮮鋭化フィルタの一例を示す図である。第２フィルタの一例を示す図である。第２フィルタの一例を示す図である。第２フィルタの一例を示す図である。第１フィルタ及び第２フィルタの適用領域の一例を示す図である。第１フィルタ及び第２フィルタの適用領域の一例を示す図である。第１フィルタ及び第２フィルタの適用領域の一例を示す図である。ビットストリームのデータ構造の第１の例を示す図である。ビットストリームのデータ構造の第２の例を示す図である。第１フィルタセット情報に関するＳＥＩメッセージシンタックスの一例を示す図である。第２フィルタ情報に関するＳＥＩメッセージシンタックスの一例を示す図である。画像符号化装置が実行する処理の流れを示すフローチャートである。画像復号装置が実行する処理の流れを示すフローチャートである。画像符号化装置の実装例を簡略化して示す図である。画像復号装置の実装例を簡略化して示す図である。

　（本開示の基礎となった知見）
　従来の符号化方式は、ヒューマンビジョンのために、ビットレート制約の条件下で最適な映像の提供を目指すものであった。

　豊富なセンサとともに機械学習又はニューラルネットワークベースのアプリケーションの進展により、コネクテッドカー、ビデオ監視、又はスマートシティ等を含む、大量のデータを扱う多くのインテリジェントプラットフォームが実現されてきた。大量のデータが常に生成されるため、パイプラインに人間を含む従来の方法は、レイテンシ及びスケールの点で非効率的かつ非現実的なものとなっている。

　さらに、伝送及びアーカイブシステムにおいては、よりコンパクトなデータ表現及び低遅延のソリューションが求められるという懸念があり、そのためにＶＣＭ（Video Coding for Machines）が導入された。

　あるケースでは、マシン同士が通信をして人間の介在なしでタスクを実行できる場合もあるし、あるいは、解凍された特定のストリームに対して人間による追加の処理が必要な場合もある。例えば監視カメラにおいて人間の「監督者」が映像内の特定の人物又はシーンを検索する場合等である。

　他のケースでは、対応するビットストリームを人間及びマシンの双方が使用する場合もある。コネクテッドカーの場合、人間に対しては画像補正機能に、マシンに対してはオブジェクトの検出及びセグメンテーションに、特徴を利用することができる。

　一般的なシステムアーキテクチャは、画像符号化装置及び画像復号装置のペアを含んでいる。システムの入力は、動画、静止画、又は特徴量である。マシンタスクの例としては、オブジェクト検出、オブジェクトセグメンテーション、オブジェクトトラッキング、アクション認識、ポーズ推定、又はそれらの任意の組み合わせが挙げられる。ヒューマンビジョンは、マシンタスクとともに利用可能なユースケースの一つである可能性がある。

　従来技術によると、画像復号装置において復号画像に適用するフィルタを画像用途に応じて動的に変更できないという問題がある。

　かかる問題を解決するために、本発明者は、ビットストリームを復号することによって復号画像及び複数のフィルタセットを取得し、画像復号装置側の画像用途を示す用途情報に基づいて複数のフィルタセットから一のフィルタセットを選択することによって、復号画像に適用するフィルタセットを画像用途に応じて動的に変更できるとの知見を得て、本開示を想到するに至った。

　次に、本開示の各態様について説明する。

　本開示の第１態様に係る画像復号装置は、回路と、前記回路に接続されたメモリと、を備え、前記回路は、動作において、ビットストリームを復号することによって、第１画像及び複数の第１フィルタセットを取得し、画像用途を示す用途情報に基づいて、前記複数の第１フィルタセットから一の第１フィルタセットを選択し、選択した前記第１フィルタセットを前記第１画像に適用することによって、第２画像を生成して出力する。

　第１態様によれば、第１画像に適用する第１フィルタセットを画像用途に応じて動的に変更することができる。

　本開示の第２態様に係る画像復号装置は、第１態様において、前記回路は、前記ビットストリームを復号することによって、複数の第２フィルタ及び複数のパラメータ値を取得し、前記用途情報に基づいて、前記複数の第１フィルタセットから一の第１フィルタセットを選択し、前記複数の第２フィルタから一の第２フィルタを選択し、前記複数のパラメータ値から一のパラメータ値を選択し、選択した前記第２フィルタを前記第１画像に適用することによって得られた特徴値と、選択した前記パラメータ値とに基づいて、前記第１フィルタセットから一の第１フィルタを選択し、選択した前記第１フィルタを前記第１画像に適用することによって前記第２画像を生成すると良い。

　第２態様によれば、第１画像に適用する第１フィルタを、第２フィルタの適用によって得られた第１画像の特徴値に基づいて動的に変更することができる。

　本開示の第３態様に係る画像復号装置は、第２態様において、前記第１画像のうち前記第１フィルタが適用される第１画像領域の画素数は、前記第１画像のうち前記第２フィルタが適用される第２画像領域の画素数に等しく、前記第２画像領域の範囲は、前記第１画像領域の範囲より広いと良い。

　第３態様によれば、第２フィルタの適用に伴う処理負荷の増大を抑制しつつ、局所的ノイズの影響を低減することができる。

　本開示の第４態様に係る画像復号装置は、第１～第３態様のいずれか一つにおいて、前記複数の第１フィルタセットの一つは、前記第２画像として前記第１画像を出力させるバイパスフィルタであると良い。

　第４態様によれば、バイパスフィルタが選択されることにより、不要なフィルタ処理が実行されることを回避できる。

　本開示の第５態様に係る画像復号装置は、第１～第４態様のいずれか一つにおいて、前記回路は、画像符号化装置から受信した前記ビットストリームを復号することによって、前記画像符号化装置で入力画像に適用されたプレフィルタセットに対応するポストフィルタセットを、前記複数の第１フィルタセットの一つとして取得すると良い。

　第５態様によれば、プレフィルタセットからポストフィルタセットへの変換処理は画像符号化装置側で実行されるため、画像復号装置の処理負荷を軽減できる。

　本開示の第６態様に係る画像復号装置は、第１～第４態様のいずれか一つにおいて、前記回路は、画像符号化装置から受信した前記ビットストリームを復号することによって、前記画像符号化装置で入力画像に適用されたプレフィルタセットを取得し、前記プレフィルタセットを変換することによって、前記プレフィルタセットに対応するポストフィルタセットを、前記複数の第１フィルタセットの一つとして取得すると良い。

　第６態様によれば、プレフィルタセットからポストフィルタセットへの変換処理は画像復号装置側で実行されるため、画像符号化装置の処理負荷を軽減できる。

　本開示の第７態様に係る画像復号装置は、第１～第６態様のいずれか一つにおいて、前記画像用途は、少なくとも一つのマシンタスクと、ヒューマンビジョンとを含むと良い。

　第７態様によれば、マシンタスクに適した第１フィルタセットの選択のみならず、ヒューマンビジョンに適した第１フィルタセットの選択も可能となる。

　本開示の第８態様に係る画像復号装置は、第１～第７態様のいずれか一つにおいて、前記回路は、前記ビットストリームのヘッダを復号することによって、前記複数の第１フィルタセットを取得すると良い。

　第８態様によれば、第１フィルタセットをビットストリームのヘッダに格納することにより、回路は第１フィルタを容易に取得できる。

　本開示の第９態様に係る画像復号装置は、第８態様において、前記ヘッダはＳＥＩ（Supplemental Enhancement Information）領域を有し、前記回路は、前記ＳＥＩ領域を復号することによって、前記複数の第１フィルタセットを取得すると良い。

　第９態様によれば、第１フィルタセットをＳＥＩ領域内に格納することにより、第１フィルタセットを付加情報として簡易に取り扱うことができる。

　本開示の第１０態様に係る画像符号化装置は、回路と、前記回路に接続されたメモリと、を備え、前記回路は、動作において、画像用途に応じたプレフィルタセットを入力画像に適用することによって、第１画像を生成し、前記第１画像と、前記プレフィルタセット又は前記プレフィルタセットに対応するポストフィルタセットとを符号化することによってビットストリームを生成する。

　第１０態様によれば、ビットストリームには第１画像と複数のプレフィルタセット又は複数のポストフィルタセットとが含まれているため、画像復号装置において、第１画像に適用したプレフィルタ処理に応じて最適なポストフィルタ処理を行うことができる。

　本開示の第１１態様に係る画像符号化装置は、第１０態様において、前記画像用途は画像復号装置での画像用途であり、前記回路は、前記ビットストリームを前記画像復号装置に送信すると良い。

　第１１態様によれば、画像復号装置での画像用途に応じたプレフィルタセットを入力画像に適用できる。

　本開示の第１２態様に係る画像復号方法は、ビットストリームを復号することによって、第１画像及び複数の第１フィルタセットを取得し、画像用途を示す用途情報に基づいて、前記複数の第１フィルタセットから一の第１フィルタセットを選択し、選択した前記第１フィルタセットを前記第１画像に適用することによって、第２画像を生成して出力する。

　第１２態様によれば、第１画像に適用する第１フィルタセットを画像用途に応じて動的に変更することができる。

　本開示の第１３態様に係る画像符号化方法は、画像用途に応じたプレフィルタセットを入力画像に適用することによって、第１画像を生成し、前記第１画像と、前記プレフィルタセット又は前記プレフィルタセットに対応するポストフィルタセットとを符号化することによってビットストリームを生成する。

　第１３態様によれば、ビットストリームには第１画像とプレフィルタセット又はポストフィルタセットとが含まれているため、画像復号装置において、第１画像に適用したプレフィルタ処理に応じて最適なポストフィルタ処理を行うことができる。

　（本開示の実施形態）
　以下、本開示の実施形態について、図面を用いて詳細に説明する。なお、異なる図面において同一の符号を付した要素は、同一又は相応する要素を示すものとする。

　なお、以下で説明する実施形態は、いずれも本開示の一具体例を示すものである。以下の実施形態で示される数値、形状、構成要素、ステップ、ステップの順序等は、一例であり、本開示を限定する主旨ではない。また、以下の実施形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、全ての実施形態において、各々の内容を組み合わせることもできる。

　図１は、本開示の実施形態に係る画像処理システムの構成を簡略化して示す図である。画像処理システムは、画像符号化装置１０と、ネットワークＮｗと、画像復号装置２０とを備える。

　画像符号化装置１０は、フィルタ処理部１１及び符号化処理部１２を備える。フィルタ処理部１１には、入力画像の画像データＤ１が入力される。入力画像には、動画、静止画、又は特徴量が含まれる。フィルタ処理部１１は、画像復号装置２０側での画像用途に応じて種類が異なる複数のプレフィルタセットを有している。フィルタ処理部１１は、複数のプレフィルタセットから一のプレフィルタセットを画像用途に応じて選択し、選択したプレフィルタセットを用いたフィルタ処理を入力画像に対して行うことによって第１画像を生成し、第１画像の画像データＤ２を出力する。また、フィルタ処理部１１は、入力画像に対して適用したフィルタに関するフィルタ情報Ｄ３を出力する。フィルタ情報Ｄ３は、入力画像に適用したプレフィルタセット（又はそれに相補するポストフィルタセット）及びその他のプレフィルタセット又はポストフィルタセットに関する複数の第１フィルタセット情報Ｄ３ａと、複数の特徴抽出フィルタに関する複数の第２フィルタ情報Ｄ３ｂと、複数のパラメータ値情報Ｄ３ｃとを含む。フィルタ処理部１１は、入力画像に対して特徴抽出フィルタを適用することによって得られた特徴値と、しきい値等のパラメータ値との比較結果に基づいて、入力画像に適用すべきプレフィルタを選択する。

　符号化処理部１２は、画像データＤ２及びフィルタ情報Ｄ３に対して符号化処理を行うことによってビットストリームＤ４を生成し、当該ビットストリームＤ４を、ネットワークＮｗを介して画像復号装置２０に送信する。

　ネットワークＮｗは、インターネット、ＷＡＮ（Wide Area Network）、ＬＡＮ（Local Area Network）、又はこれらの任意の組合せである。また、ネットワークＮｗは、必ずしも双方向通信網に限定されず、地上デジタル放送又は衛星放送等の放送波を送信する一方向通信網であっても良い。また、ネットワークＮｗは、ビットストリームＤ４が記録されたＤＶＤ（Digital Versatile Disc）又はＢＤ（Blue-Ray Disc）等の記録媒体であっても良い。

　画像復号装置２０は、復号処理部２１、フィルタ処理部２２、及びタスク処理部２３を備えている。復号処理部２１は、ビットストリームＤ４を画像符号化装置１０からネットワークＮｗを介して受信し、当該ビットストリームＤ４を復号することによって第１画像を生成し、画像データＤ２に対応する第１画像の画像データＤ５を出力する。また、復号処理部２１は、ビットストリームＤ４を復号することによって、フィルタ情報Ｄ３に対応するフィルタ情報Ｄ６を取得する。フィルタ情報Ｄ６は、複数の第１フィルタセット情報Ｄ３ａに対応する複数の第１フィルタセット情報Ｄ６ａと、複数の第２フィルタ情報Ｄ３ｂに対応する複数の第２フィルタ情報Ｄ６ｂと、複数のパラメータ値情報Ｄ３ｃに対応する複数のパラメータ値情報Ｄ６ｃとを含む。

　フィルタ処理部２２は、タスク処理部２３での画像用途を示す用途情報Ｄ７に基づいて、第１フィルタセット情報Ｄ６ａで示される複数の第１フィルタセットから一の第１フィルタセットを、第２フィルタ情報Ｄ６ｂで示される複数の第２フィルタから一の第２フィルタを、パラメータ値情報Ｄ３ｃで示される複数のパラメータ値から一のパラメータ値を、それぞれ選択する。画像用途は、例えばユーザによって指定されても良いし、フィルタ情報Ｄ６のうちの一つの情報としてビットストリームＤ４を復号することによって取得されても良い。また、フィルタ処理部２２は、選択した第２フィルタを第１画像に適用することによって得られた特徴値と、選択したパラメータ値との比較結果に基づいて、第１フィルタセットから一の第１フィルタを選択する。フィルタ処理部２２は、選択した第１フィルタを第１画像に適用することによって第２画像を生成し、第２画像の画像データＤ８を出力する。

　なお、複数の第１フィルタセットの一つは、フィルタ処理をバイパスしてフィルタ処理部２２に第２画像（画像データＤ８）として第１画像（画像データＤ５）を出力させるバイパスフィルタであっても良い。バイパスフィルタが選択されることにより、不要なフィルタ処理が実行されることを回避できる。例えば、全てのフィルタ係数の値を特定の値（例えば０）に設定することによってバイパスフィルタであることを示しても良いし、フィルタ係数の値の設定に代えて別の情報によってバイパスフィルタであることを示しても良い。また、第１フィルタセット情報Ｄ６ａで示される複数の第１フィルタセットの中に、用途情報Ｄ７で示される画像用途に対応する第１フィルタセットが存在しない場合に、フィルタ処理をバイパスしてフィルタ処理部２２に第１画像（画像データＤ５）を出力させても良い。

　タスク処理部２３は、画像データＤ８で示される第２画像を用いて、画像用途を示す用途情報Ｄ７に応じたタスク処理を実行し、推論結果等の結果データＤ９を出力する。

　図２は、タスク処理部２３の構成を簡略化して示す図である。画像復号装置２０側での画像用途には、少なくとも一つのマシンタスクと、ヒューマンビジョンとが含まれる。図２の例では、画像用途には、複数のマシンタスク３０Ａ～３０Ｃと、ヒューマンビジョン３０Ｘとが含まれる。用途情報Ｄ７が例えばマシンタスク３０Ｂを選択している場合、タスク処理部２３は、画像データＤ８に基づいてマシンタスク３０Ｂを実行し、推論結果等の結果データＤ９Ｂを出力する。画像用途にヒューマンビジョンを含めることにより、フィルタ処理部２２において、マシンタスクに適した第１フィルタセットの選択のみならず、ヒューマンビジョンに適した第１フィルタセットの選択も可能となる。

　図３Ａは、画像処理システムの一部構成の一例を示す図である。画像復号装置２０の復号処理部２１は、変換部３５を有している。変換部３５は、プレフィルタセットを、それに相補するポストフィルタセットに変換する。この例の場合、ビットストリームＤ４には、第１フィルタセット情報Ｄ３ａの一つとしてプレフィルタセットが含まれる。復号処理部２１は、ビットストリームＤ４を復号することによって、画像符号化装置１０で入力画像に適用されたプレフィルタセットを取得し、当該プレフィルタセットを変換部３５で変換することにより、当該プレフィルタセットに対応するポストフィルタセットを、複数の第１フィルタセットの一つとして取得する。かかる構成によれば、プレフィルタセットからポストフィルタセットへの変換処理は画像復号装置２０側で実行されるため、画像符号化装置１０の処理負荷を軽減できる。

　図３Ｂは、画像処理システムの一部構成の一例を示す図である。画像符号化装置１０の符号化処理部１２は、変換部３５を有している。変換部３５は、プレフィルタセットを、それに相補するポストフィルタセットに変換する。この例の場合、ビットストリームＤ４には、第１フィルタセット情報Ｄ３ａの一つとしてポストフィルタセットが含まれる。復号処理部２１は、ビットストリームＤ４を復号することによって、画像符号化装置１０で入力画像に適用されたプレフィルタセットに対応するポストフィルタセットを、複数の第１フィルタセットの一つとして取得する。かかる構成によれば、プレフィルタセットからポストフィルタセットへの変換処理は画像符号化装置１０側で実行されるため、画像復号装置２０の処理負荷を軽減できる。なお、フィルタ処理部１１は、入力画像に適用したプレフィルタセットとは無関係に、画像復号装置２０側での画像用途に応じて生成したポストフィルタセットを、複数の第１フィルタセット情報Ｄ３ａの一つに含めても良い。また、符号化処理部１２は、変換部３５を有することなく、画像復号装置２０側での画像用途に応じて生成したポストフィルタセットを、複数の第１フィルタセット情報Ｄ３ａの一つとしてビットストリームＤ４に含めても良い。

　図４Ａは、変換部３５によるフィルタ変換処理の一例を示す図である。変換部３５は、フィルタ強度が１／２であるノイズ除去フィルタ３５Ａを用いたプレフィルタを、フィルタ強度が２である鮮鋭化フィルタ３５Ｂを用いたポストフィルタに変換する。あるいは、変換部３５は、フィルタ強度が２である鮮鋭化フィルタ３５Ｂを用いたプレフィルタを、フィルタ強度が１／２であるノイズ除去フィルタ３５Ａを用いたポストフィルタに変換する。

　図４Ｂは、変換部３５によるフィルタ変換処理の一例を示す図である。変換部３５は、フィルタ強度が１／４であるノイズ除去フィルタ３５Ｃを用いたプレフィルタを、フィルタ強度が４である鮮鋭化フィルタ３５Ｄを用いたポストフィルタに変換する。あるいは、変換部３５は、フィルタ強度が４である鮮鋭化フィルタ３５Ｄを用いたプレフィルタを、フィルタ強度が１／４であるノイズ除去フィルタ３５Ｃを用いたポストフィルタに変換する。

　図５は、マシンタスクの一例として、オブジェクト検出及びオブジェクトセグメンテーションを示す図である。オブジェクト検出では、入力画像に含まれるオブジェクトの属性（この例ではテレビ及び人物）が検出される。入力画像に含まれるオブジェクトの属性に加え、入力画像中のオブジェクトの位置や個数が検出されても良い。これにより、例えば、認識対象のオブジェクトの位置を絞り込んだり、認識対象以外のオブジェクトを排除したりしても良い。具体的な用途としては、例えば、カメラにおける顔の検出や、自動運転での歩行者等の検出が考えられる。オブジェクトセグメンテーションでは、オブジェクトに対応する領域の画素がセグメント化（つまり区分け）される。これにより、例えば、自動運転において障害物と道路を分離し、自動車の安全な走行の援助を行ったり、工場における製品の欠陥を検出したり、衛星画像中の地形の識別を行う等の用途が考えられる。

　図６は、マシンタスクの一例として、オブジェクトトラッキング、アクション認識、及びポーズ推定を示す図である。オブジェクトトラッキングでは、識別番号ＩＤが割り当てられたオブジェクトの移動が追跡される。用途としては、例えば、店舗等の施設の利用者数の計数やスポーツ選手の動きの分析といったものが考えられる。更に処理を高速化すれば、リアルタイムにオブジェクトの追跡が可能となり、オートフォーカス等のカメラ処理への応用も可能となる。アクション認識では、オブジェクトの動作の種別（この例では「自転車に乗っている」「歩行している」）が検出される。例えば、防犯カメラに利用することで、強盗や万引き等の犯罪行動の防止及び検出、工場での作業忘れ防止といった用途に適用できる。ポーズ推定では、キーポイント及びジョイントの検出によってオブジェクトの姿勢が検出される。例えば、工場における作業効率の改善等の産業分野や、異常行動の検知といったセキュリティ分野、ヘルスケア及びスポーツといった分野での活用が考えられる。

　フィルタ処理部１１は、画像復号装置２０側での画像用途に応じて、種類が異なる複数の第１フィルタセットを有する。種類は、フィルタの形状、サイズ、及び係数値の少なくとも一つを含む。マシンタスクに対応する第１フィルタセットは、ノイズ除去フィルタ、鮮鋭化フィルタ、ビット深度変換フィルタ、色空間変換フィルタ、解像度変換フィルタ、及び、ニューラルネットワークを用いたフィルタの少なくとも一つを含む。ノイズ除去フィルタは、入力画像の細部の情報を削減することによってノイズを除去する、ローパスフィルタ、ガウシアンフィルタ、平滑化フィルタ、平均化フィルタ、バイラテラルフィルタ、及び、メディアンフィルタの少なくとも一つを含む。鮮鋭化フィルタは、エッジ検出フィルタ又はエッジ強調フィルタを含み、具体的には、ラプラシアンフィルタ、ガウシアン・ラプラシアンフィルタ、ソーベルフィルタ、プリウィットフィルタ、又はカニーエッジ検出フィルタを含む。ビット深度変換フィルタは、入力画像と第１画像との間で輝度信号及び／又は色信号のビット深度を変換する。例えば、第１画像の色信号の下位ビットを切り捨てて第１画像のビット深度を入力画像のビット深度より小さく変換することによって、符号量を削減する。色空間変換フィルタは、入力画像と第１画像との間で色空間を変換する。例えば、入力画像におけるＹＵＶ４４４の色空間を、第１画像においてＹＵＶ４２２、ＹＵＶ４２０、又はＹＵＶ４００の色空間に変換することによって、符号量を削減する。解像度変換フィルタは、入力画像と第１画像との間で画像の解像度を変換する。解像度変換フィルタは、第１画像の解像度を入力画像の解像度より削減するダウンサンプリングフィルタを含む。解像度変換フィルタは、第１画像の解像度を入力画像の解像度より増大するアップサンプリングフィルタを含んでも良い。なお、マシンタスクに対応する第１フィルタセットは、例えば、Ｈ．２６６／ＶＶＣ（Versatile Video Codec）で規定されている、デブロッキングフィルタ、ＡＬＦフィルタ、ＣＣＡＬＦフィルタ、ＳＡＯフィルタ、ＬＭＣＳフィルタ、又はそれらの任意の組合せであっても良い。

　ヒューマンビジョンに対応する第１フィルタセットは、フィルタ処理によって第１画像の符号量を入力画像の符号量より削減しないフィルタである。ヒューマンビジョンに対応する第１フィルタセットは、入力画像をそのまま第１画像として出力するバイパス用のフィルタを含む。ヒューマンビジョンに対応する第１フィルタセットは、フィルタ処理によって第１画像の符号量を入力画像の符号量より削減するフィルタであっても良いが、符号量の削減効果はマシンタスクに対応する第１フィルタセットよりも抑制される。また、ヒューマンビジョンに対応する第１フィルタセットは、入力画像の重要領域を強調するフィルタであっても良いが、強調効果はマシンタスクに対応する第１フィルタセットよりも抑制される。

　図７Ａ～７Ｉは、種類が異なる複数の第１フィルタの例を示す図である。図７Ａは、Ｎ＝５の一次元水平フィルタを示している。Ｎは、フィルタ係数値の数に相当するフィルタのサイズである。図７Ｂは、Ｎ＝７の一次元垂直フィルタを示している。図７Ｃは、Ｎ＝９の二次元十字形フィルタを示している。図７Ｄは、Ｎ＝２５の二次元正方形フィルタを示している。図７Ｅは、Ｎ＝２５の二次元菱形フィルタを示している。図７Ｆ及び図７Ｇは、５×５のガウシアンフィルタを用いたノイズ除去フィルタを示しており、図７Ｆのフィルタはフィルタ強度が比較的強く、図７Ｇのフィルタはフィルタ強度が比較的弱い。図７Ｈは、７×７のガウシアン・ラプラシアンフィルタを用いたエッジ検出フィルタを示している。このように、種類が異なる複数の第１フィルタは、フィルタの形状が異なっていても良いし、フィルタのサイズが異なっていても良いし、フィルタの係数値が異なっていても良い。図７Ｉは、ニューラルネットワークを用いた第１フィルタを示している。ニューラルネットワークは、畳み込み層Ｌ１、プーリング層Ｌ２、及び全結合層Ｌ３を有する。入力画像の画像データＤ１に対して畳み込みフィルタＦ１が適用されることによって畳み込み層Ｌ１の画像データが生成され、畳み込み層Ｌ１の画像データに対してプーリングフィルタＦ２が適用されることによってプーリング層Ｌ２の画像データが生成される。全結合層Ｌ３からは予測残差の画像データＤ０が出力され、画像データＤ１と画像データＤ０とが加算されることによって、第１画像の画像データＤ３が出力される。

　図８は、画像用途に基づく第１フィルタセットの選択を規定するルックアップテーブルの例を示す図である。当該ルックアップテーブルはフィルタ処理部１１によって保持されている。画像用途がオブジェクト検出のマシンタスクである場合には、オブジェクトの詳細情報が重要であるため、フィルタ処理部１１は、弱いノイズ除去フィルタ及び弱い鮮鋭化フィルタを選択する。画像用途がオブジェクトセグメンテーションのマシンタスクである場合には、画素レベルの予測を行うオブジェクトセグメンテーションモデル（Ｍａｓｋ　Ｒ－ＣＮＮ）では画像の詳細が重要であるため、フィルタ処理部１１は、弱いノイズ除去フィルタを選択する。画像用途がオブジェクトトラッキングのマシンタスクである場合には、オブジェクトの詳細情報は重要でないため、フィルタ処理部１１は、強いノイズ除去フィルタ及び弱い鮮鋭化フィルタを選択する。画像用途がアクション認識のマシンタスクである場合には、フィルタ処理部１１は、背景等の静的コンテンツの冗長情報を除去しつつオブジェクトのエッジ等の動的コンテンツを強調すべく、強いノイズ除去フィルタ及び強い鮮鋭化フィルタを選択する。画像用途がポーズ推定のマシンタスクである場合には、耳又は目等の人間のキーポイントを検出すべくポーズ推定モデル（ＨＲＮｅｔ）が高解像度の画像を学習するため、フィルタ処理部１１は、強い鮮鋭化フィルタを選択することによって画像の細部を強調する。

　上記の通り、フィルタ処理部２２は、タスク処理部２３での画像用途を示す用途情報Ｄ７に基づいて、第１フィルタ情報セットＤ６ａで示される複数の第１フィルタセットから一の第１フィルタセットを選択する。当該第１フィルタセットは、フィルタ強度が異なる二以上のフィルタであっても良い。図９Ａは、フィルタ強度が強い鮮鋭化フィルタの一例を示す図であり、フィルタ強度は９である。図９Ｂは、フィルタ強度が弱い鮮鋭化フィルタの一例を示す図であり、フィルタ強度は５である。また、当該第１フィルタセットは、一つのフィルタのみで構成されていても良い。

　また、上記の通り、フィルタ処理部２２は、タスク処理部２３での画像用途を示す用途情報Ｄ７に基づいて、第２フィルタ情報Ｄ６ｂで示される複数の第２フィルタから一の第２フィルタを選択する。第２フィルタは、画像特性に基づいて画像内の領域を分類するための特徴抽出フィルタである。第２フィルタとしては、微分フィルタ、顕著性フィルタ、又はセグメンテーションフィルタ等、画像内の領域を分類できる任意のフィルタを用いることができる。

　微分フィルタは、画像内の輝度又は色の方向変化等の画像勾配を計算するために使用される。微分フィルタとしては、例えばエッジ検出器を用いることができる。エッジ検出器は、ソーベルフィルタ又はプリウィットフィルタ等の一次微分フィルタであっても良いし、ラプラシアンフィルタ又はガウシアン・ラプラシアンフィルタ等の２次微分フィルタであっても良い。図１０Ａ～１０Ｃは、第２フィルタの一例を示す図である。図１０Ａには、ラプラシアンフィルタを用いたエッジ検出器の例を示している。図１０Ｂには、ソーベルフィルタを用いた水平エッジ検出器の例を示している。図１０Ｃには、ソーベルフィルタを用いた垂直エッジ検出器の例を示している。

　顕著性フィルタは、人間の目がより集中する画像内の視覚的顕著性領域を検出するために使用される。視覚的顕著性領域は、人間の視覚認識スコアを改善するために、又はマシンタスクにおける計算の複雑さを低減するために用いることができる。

　セグメンテーションフィルタとしては、輝度ベース画像セグメンテーションフィルタ、モデルベース画像セグメンテーションフィルタ、又はハイブリッドセグメンテーションフィルタを用いることができる。輝度ベース画像セグメンテーションフィルタは、画像内の各画素の輝度値に基づいて画像を領域分割する。モデルベース画像セグメンテーションフィルタは、ライトウエイト物体検出モデル等のニューラルネットワークモデルを用いて、画像の各領域をセグメント化する。

　ハイブリッドセグメンテーションフィルタとしては、例えば既存のフィルタとモデルベース画像セグメンテーションフィルタとを組み合わせたフィルタを用いることができる。

　図１１Ａ～１１Ｃは、第１フィルタ及び第２フィルタの適用領域の一例を示す図である。各矩形は第１画像内の各画素を示している。ハッチングを付した矩形は第１フィルタが適用される画素を示しており、「Ｓ」の文字を付した矩形は第２フィルタが適用される画素を示している。

　図１１Ａに示した例では、第１画像のうち第１フィルタが適用される領域（第１画像領域）の画素数は第１画像のうち第２フィルタが適用される領域（第２画像領域）の画素数に等しく、かつ、第２画像領域の範囲は第１画像領域の範囲より広い。この例によると、第２フィルタの適用に伴う処理負荷の増大を抑制しつつ、局所的ノイズの影響を低減することができる。

　図１１Ｂに示した例では、第１画像領域の画素数は第２画像領域の画素数より多く、かつ、第２画像領域の範囲は第１画像領域の範囲に等しい。

　図１１Ｃに示した例では、第１画像領域の画素数は第２画像領域の画素数に等しく、かつ、第２画像領域の範囲は第１画像領域の範囲に等しい。

　上記の通り、フィルタ処理部２２は、選択した第２フィルタを第１画像に適用することによって得られた特徴値と、選択したパラメータ値との比較結果に基づいて、第１フィルタセットから一の第１フィルタを選択する。特徴値は例えばエッジ強度であり、パラメータ値は例えばしきい値である。フィルタ処理部２２は、ある第２画像領域に関するエッジ強度がしきい値以上である場合は、その第２画像領域に対応する第１画像領域に対してフィルタ強度の弱い第１フィルタを適用し、一方、ある第２画像領域に関するエッジ強度がしきい値未満である場合は、その第２画像領域に対応する第１画像領域に対してフィルタ強度の強い第１フィルタを適用する。なお、しきい値を２つ以上設定することにより、３つ以上の第１フィルタから一の第１フィルタを選択する構成としても良い。また、フィルタ処理部２２は、用途情報Ｄ７で示されるタスクタイプパラメータに基づいて、二以上の第１フィルタから一の第１フィルタを選択しても良い。また、第１フィルタセットは一つの第１フィルタのみで構成されていても良く、その場合、第２フィルタを用いることなく、画面内の全ての領域において同じ第１フィルタが適用されても良い。

　図１２Ａは、ビットストリームＤ４のデータ構造の第１の例を示す図である。ビットストリームＤ４は、管理情報等が格納されるヘッダＨと、画像データＤ２が格納されるペイロードＰとを有する。符号化処理部１２は、フィルタ情報Ｄ３の符号化データ７０を、ペイロードＰの所定の箇所に格納する。

　図１２Ｂは、ビットストリームＤ４のデータ構造の第２の例を示す図である。図１２Ａと同様に、ビットストリームＤ４はヘッダＨとペイロードＰとを有する。符号化処理部１２は、フィルタ情報Ｄ３の符号化データ７０を、ヘッダＨの所定の箇所に格納する。所定の箇所は、例えば、付加情報を格納するためのＳＥＩ（Supplemental Enhancement Information）領域である。所定の箇所は、ＶＰＳ、ＳＰＳ、ＰＰＳ、ＰＨ、ＳＨ、ＡＰＳ、又はタイルヘッダ等であっても良い。フィルタ情報Ｄ３をビットストリームＤ４のヘッダＨに格納することにより、復号処理部２１はフィルタ情報Ｄ６を容易に取得できる。また、フィルタ情報Ｄ３をＳＥＩ領域内に格納することにより、フィルタ情報Ｄ３を付加情報として簡易に取り扱うことができる。

　図１３は、ポストフィルタを示す第１フィルタセット情報Ｄ３ａに関するＳＥＩメッセージシンタックスの例を示す図である。当該ＳＥＩメッセージは、ポストフィルタのフィルタ係数、又は、ポストフィルタの設計のための相関情報を規定する。

　postfilter_hint_size_yは、フィルタ係数又は相関配列の垂直方向のサイズを指定し、例えば「１」から「１５」までの値をとる。

　postfilter_hint_size_xは、フィルタ係数又は相関配列の水平方向のサイズを指定し、例えば「１」から「１５」までの値をとる。

　num_of_postfiltersは、ポストフィルタの総数を指定し、例えば「１」から「１５」までの値をとる。

　postfilter_hint_typeは、例えば２ビットのフラグ情報によってポストフィルタのタイプを指定し、例えば、その値が「０」の場合は２次元ＦＩＲフィルタを、「１」の場合は１次元ＦＩＲフィルタを、「２」の場合は入力画像信号とフィルタリング画像信号との間の相互相関行列を示す。

　cIdxは、関連する色成分を指定する。chroma_format_idcは、クロマフォーマットを指定し、例えば、その値が「０」の場合はモノクロを、「１」の場合はＹＵＶ４２０を、「２」の場合はＹＵＶ４２２を示す。cyは垂直方向のカウンタを表し、cxは水平方向のカウンタを表す。postfilter_hint_value [cIdx][cy][cx]は、フィルタ係数又は相互相関行列の要素を示す。

　図１４は、第２フィルタを示す第２フィルタ情報Ｄ３ｂに関するＳＥＩメッセージシンタックスの例を示す図である。当該ＳＥＩメッセージは、第２フィルタのフィルタ係数、又は、第２フィルタの設計のための相関情報を規定する。

　derivative_filter_hint_size_yは、フィルタ係数又は相関配列の垂直方向のサイズを指定し、例えば「１」から「１５」までの値をとる。

　derivative_filter_hint_size_xは、フィルタ係数又は相関配列の水平方向のサイズを指定し、例えば「１」から「１５」までの値をとる。

　num_of_derivative_filtersは、第２フィルタの総数を指定し、例えば「１」から「１５」までの値をとる。

　derivative_filter_hint_typeは、例えば２ビットのフラグ情報によって第２フィルタのタイプを指定し、例えば、その値が「０」の場合は２次元ＦＩＲフィルタを、「１」の場合は１次元ＦＩＲフィルタを、「２」の場合は入力画像信号とフィルタリング画像信号との間の相互相関行列を示す。

　cIdxは、関連する色成分を指定する。chroma_format_idcは、クロマフォーマットを指定し、例えば、その値が「０」の場合はモノクロを、「１」の場合はＹＵＶ４２０を、「２」の場合はＹＵＶ４２２を示す。cyは垂直方向のカウンタを表し、cxは水平方向のカウンタを表す。derivative_filter_hint_value [cIdx][cy][cx]は、フィルタ係数又は相互相関行列の要素を示す。

　図１５は、画像符号化装置１０が実行する処理の流れを示すフローチャートである。

　まずステップＳＰ１０１においてフィルタ処理部１１は、入力画像に対してプレフィルタセットを用いたフィルタ処理を行うことによって第１画像を生成し、第１画像の画像データＤ２を出力する。また、フィルタ処理部１１は、入力画像に対して適用したフィルタに関するフィルタ情報Ｄ３を出力する。

　次にステップＳＰ１０２において符号化処理部１２は、第１画像に対して符号化処理を行うことによってビットストリームＤ４を生成する。その際、符号化処理部１２は、フィルタ情報Ｄ３を符号化し、フィルタ情報Ｄ３の符号化データ７０をビットストリームＤ４内に格納する。符号化処理部１２は、生成したビットストリームＤ４を、ネットワークＮｗを介して画像復号装置２０に送信する。

　図１７は、画像符号化装置１０の実装例を簡略化して示す図である。画像符号化装置１０は、プロセッサ１０１と、プロセッサ１０１に接続されたメモリ１０２とを備えて構成される。但し、メモリ１０２はプロセッサ１０１内に含まれていても良い。プロセッサ１０１は、情報処理を行う回路である。プロセッサ１０１は、ＣＰＵ又はＧＰＵ等を含む。メモリ１０２は、ＲＯＭ又はＲＡＭ等の半導体メモリ、磁気ディスク、又は光ディスク等を含む。メモリ１０２には、プロセッサ１０１がプレフィルタ処理及び符号化処理等を実行するために必要な情報が格納される。例えば、メモリ１０２には、画像データＤ１，Ｄ２及びフィルタ情報Ｄ３が格納される。また、メモリ１０２にはプログラムが記憶される。メモリ１０２から読み出したプログラムをプロセッサ１０１が実行することにより、プロセッサ１０１は、フィルタ処理部１１及び符号化処理部１２として機能する。

　図１６は、画像復号装置２０が実行する処理の流れを示すフローチャートである。

　まずステップＳＰ２０１において復号処理部２１は、ビットストリームＤ４を画像符号化装置１０からネットワークＮｗを介して受信し、当該ビットストリームＤ４を復号することによって第１画像を生成し、当該第１画像の画像データＤ５を出力する。また、復号処理部２１は、ビットストリームＤ４を復号することによって、フィルタ情報Ｄ６を取得する。

　次にステップＳＰ２０２においてフィルタ処理部２２は、用途情報Ｄ７に基づいて、第１フィルタセット情報Ｄ６ａで示される複数の第１フィルタセットから一の第１フィルタセットを、第２フィルタ情報Ｄ６ｂで示される複数の第２フィルタから一の第２フィルタを、パラメータ値情報Ｄ３ｃで示される複数のパラメータ値から一のパラメータ値を、それぞれ選択する。

　次にステップＳＰ２０３においてフィルタ処理部２２は、選択した第１フィルタセットを第１画像に適用することによって第２画像を生成し、第２画像の画像データＤ８を出力する。

　次にステップＳＰ２０４においてタスク処理部２３は、画像データＤ８で示される第２画像を用いて、用途情報Ｄ７に応じたタスク処理を実行し、推論結果等の結果データＤ９を出力する。

　図１８は、画像復号装置２０の実装例を簡略化して示す図である。画像復号装置２０は、プロセッサ２０１と、プロセッサ２０１に接続されたメモリ２０２とを備えて構成される。但し、メモリ２０２はプロセッサ２０１内に含まれていても良い。プロセッサ２０１は、情報処理を行う回路である。プロセッサ２０１は、ＣＰＵ又はＧＰＵ等を含む。メモリ２０２は、ＲＯＭ又はＲＡＭ等の半導体メモリ、磁気ディスク、又は光ディスク等を含む。メモリ２０２には、プロセッサ２０１が復号処理、ポストフィルタ処理、及びタスク処理等を実行するために必要な情報が格納される。例えば、メモリ２０２には、ビットストリームＤ４、画像データＤ５，Ｄ８、及びフィルタ情報Ｄ６が格納される。また、メモリ２０２にはプログラムが記憶される。メモリ２０２から読み出したプログラムをプロセッサ２０１が実行することにより、プロセッサ２０１は、復号処理部２１、フィルタ処理部２２、及びタスク処理部２３として機能する。

　本実施形態によれば、第１画像に適用する第１フィルタセットを、各マシンタスク又はヒューマンビジョン等の画像用途に応じて動的に変更することができる。これにより、画像用途ごとに求められる画像の性質に応じて最適なフィルタセットを選択及び指定することが可能になる。また、画像用途によっては、不要な情報をビットストリームＤ４に伝送される画像から除くことによって、画像符号化装置１０から画像復号装置２０への伝送符号量を削減することが可能になる。

　また、第１画像に適用する第１フィルタを、第２フィルタの適用によって得られた第１画像の特徴値に基づいて第１フィルタセットの中から動的に選択することができる。

　本開示は、画像を送信する画像符号化装置と画像を受信する画像復号装置とを備える画像処理システムへの適用が特に有用である。

Claims

　回路と、
　前記回路に接続されたメモリと、
を備え、
　前記回路は、動作において、
　　ビットストリームを復号することによって、第１画像及び複数の第１フィルタセットを取得し、
　　画像用途を示す用途情報に基づいて、前記複数の第１フィルタセットから一の第１フィルタセットを選択し、選択した前記第１フィルタセットを前記第１画像に適用することによって、第２画像を生成して出力する、
　画像復号装置。
　前記回路は、
　　前記ビットストリームを復号することによって、複数の第２フィルタ及び複数のパラメータ値を取得し、
　　前記用途情報に基づいて、前記複数の第１フィルタセットから一の第１フィルタセットを選択し、前記複数の第２フィルタから一の第２フィルタを選択し、前記複数のパラメータ値から一のパラメータ値を選択し、
　　選択した前記第２フィルタを前記第１画像に適用することによって得られた特徴値と、選択した前記パラメータ値とに基づいて、前記第１フィルタセットから一の第１フィルタを選択し、選択した前記第１フィルタを前記第１画像に適用することによって前記第２画像を生成する、
　請求項１に記載の画像復号装置。
　前記第１画像のうち前記第１フィルタが適用される第１画像領域の画素数は、前記第１画像のうち前記第２フィルタが適用される第２画像領域の画素数に等しく、
　前記第２画像領域の範囲は、前記第１画像領域の範囲より広い、
　請求項２に記載の画像復号装置。
　前記複数の第１フィルタセットの一つは、前記第２画像として前記第１画像を出力させるバイパスフィルタである、
　請求項１に記載の画像復号装置。
　前記回路は、
　　画像符号化装置から受信した前記ビットストリームを復号することによって、前記画像符号化装置で入力画像に適用されたプレフィルタセットに対応するポストフィルタセットを、前記複数の第１フィルタセットの一つとして取得する、
　請求項１に記載の画像復号装置。
　前記回路は、
　　画像符号化装置から受信した前記ビットストリームを復号することによって、前記画像符号化装置で入力画像に適用されたプレフィルタセットを取得し、前記プレフィルタセットを変換することによって、前記プレフィルタセットに対応するポストフィルタセットを、前記複数の第１フィルタセットの一つとして取得する、
　請求項１に記載の画像復号装置。
　前記画像用途は、少なくとも一つのマシンタスクと、ヒューマンビジョンとを含む、
　請求項１に記載の画像復号装置。
　前記回路は、前記ビットストリームのヘッダを復号することによって、前記複数の第１フィルタセットを取得する、
　請求項１に記載の画像復号装置。
　前記ヘッダはＳＥＩ（Supplemental Enhancement Information）領域を有し、
　前記回路は、前記ＳＥＩ領域を復号することによって、前記複数の第１フィルタセットを取得する、
　請求項８に記載の画像復号装置。
　回路と、
　前記回路に接続されたメモリと、
を備え、
　前記回路は、動作において、
　　画像用途に応じたプレフィルタセットを入力画像に適用することによって、第１画像を生成し、
　　前記第１画像と、前記プレフィルタセット又は前記プレフィルタセットに対応するポストフィルタセットとを符号化することによってビットストリームを生成する、
　画像符号化装置。
　前記画像用途は画像復号装置での画像用途であり、
　前記回路は、前記ビットストリームを前記画像復号装置に送信する、
　請求項１０に記載の画像符号化装置。
　ビットストリームを復号することによって、第１画像及び複数の第１フィルタセットを取得し、
　画像用途を示す用途情報に基づいて、前記複数の第１フィルタセットから一の第１フィルタセットを選択し、選択した前記第１フィルタセットを前記第１画像に適用することによって、第２画像を生成して出力する、
　画像復号方法。
　画像用途に応じたプレフィルタセットを入力画像に適用することによって、第１画像を生成し、
　前記第１画像と、前記プレフィルタセット又は前記プレフィルタセットに対応するポストフィルタセットとを符号化することによってビットストリームを生成する、
　画像符号化方法。