WO2013191193A1

WO2013191193A1 - 映像圧縮伝送システム

Info

Publication number: WO2013191193A1
Application number: PCT/JP2013/066784
Authority: WO
Inventors: 佑一郎小宮; 雅俊近藤; 山口　宗明
Original assignee: 株式会社日立国際電気
Priority date: 2012-06-20
Filing date: 2013-06-19
Publication date: 2013-12-27
Also published as: JPWO2013191193A1

Abstract

　超解像処理における演算コストを低減した映像圧縮伝送システムが提供される。エンコーダ（１）が、入力された映像データを単一の動きモデルを持つ背景領域と局所的な動きモデルを持つ移動体領域とに分離し、演算量が少なく超解像処理の効果の高い背景領域にのみ画像処理を施して符号化し、移動体領域については入力された映像データをそのまま符号化し、デコーダ（２）が、符号化データを復号し、復号されたデータを背景領域と移動体領域とに分離し、背景領域にのみ超解像処理を施して出力し、移動体領域については復号された映像データをそのまま出力する映像圧縮伝送システムとしている。

Description

映像圧縮伝送システム

　本発明は、撮影された映像を圧縮して伝送し復号する映像圧縮伝送システムに係り、特に伝送情報量を削減すると共に、超解像処理のコストを低減し、高精細な復号映像を得ることができる映像圧縮伝送システムに関する。

［先行技術の説明］
　セキュリティや医療の分野において、映像伝送システムでの映像の高画質化が求められている。
　また、一般的に、映像システムでは伝送コスト削減のために、撮影された映像情報を圧縮して伝送する。映像の圧縮としては、MPEG-2やH.264など規格で定められた圧縮技術が普及している。

　映像圧縮伝送システムでは、映像を表示する前に、伝送された映像の解像度を増やす超解像技術が用いられることがある。超解像技術は、一枚のフレームの画素値を、複数のフレームの情報を参照して求めることにより解像度を向上させるものである。

［超解像技術を用いた映像伝送システム：図６］
　超解像技術を利用することにより、解像度を劣化させずに符号化前の画像処理によって映像圧縮効果を高める方法がある。
　図６は、超解像技術を用いた従来の映像圧縮伝送システムの構成ブロック図である。従来の映像伝送システムは、送信側装置としてのエンコーダ７と、受信側装置としてのデコーダ８とを備えている。

　エンコーダ７は、サブサンプリング部７１と、符号化部７２とを備えている。
　サブサンプリング部７１は、入力された映像データをサブサンプリングして（つまり画素を間引いて）出力する。
　符号化部７２は、映像データをMPEG-2等で圧縮符号化し、符号化ストリームとして伝送路に出力する。

　デコーダ８は、復号部８１と、超解像部８２とを備えている。
　復号部８１は、入力された符号化ストリームを復号し、映像データを出力する。
　超解像部８２は、入力した映像データに超解像処理を施して、高解像度化された映像データを出力する。

　図６の映像圧縮伝送システムでは、符復号化の外側で超解像処理が動作する。そこでは、エンコーダ７側で映像をサンプリングして情報量を削減し、デコーダ８側で少ない情報を超解像造処理することにより、エンコーダ７に入力される前の高精細に近い解像度を保ちながら、映像データの圧縮率を高めることができるものである。
　ところで、図６の映像圧縮伝送システムが、IPネットワークで構成されるCCTV（Closed-Circuit TeleVision）システムであるとすると、符号化部７２の符号化ストリームのレートは通常、所定の上限と下限との間で可変である。なぜならば、レートを一定にすると、不審な動く物体が映っていないときの映像が高画質となる一方で、肝心の不審者が映った映像の画質が荒くなり、セキュリティ監視という目的に反するからである。そのような状況では、システムのリソースの多くが、有用でない平穏時の映像の伝送等に費やされていることになる。

　また、図６の映像圧縮伝送システムが、MPEG-4やH.264/AVC等の映像符号化方式を用いたものであるとすると、符号化ストリームのデータ量は、Iフレーム（他のフレームを参照せずそのフレームだけで符号化が完結するフレーム）によるものが支配的であり、監視の対象となりうる動く物体が映っていないときに顕著となる。

［超解像処理］
　超解像処理には、１つのフレームのみを用い、単純な処理でも実装できるシングルフレーム超解像と、複数のフレームを用い、処理が複雑なマルチフレーム超解像とがある。
　高い超解像効果を得るためには、マルチフレーム超解像を用いるのが一般的である。

　マルチフレーム超解像は、複数の低解像度フレームから、高解像度のフレームを推定する技術である。
　マルチフレーム超解像の鍵となるのは、画面内の局所的な動きモデルを正確に推定することにある。
　動きモデルの推定には、lucas-kanade等のオプティカルフローを用いた手法、ブロックマッチングを用いた手法（位相限定相関法等、周波数空間で行うものも含む）があるが、どちらも正確な推定結果を得るには膨大な演算量が必要となる。

［関連技術］
　尚、映像伝送システムに関する技術としては、特開２０１２－０４９７４７号公報「映像符号化システム及び映像符号化装置及び映像復号装置及び映像符号化プログラム及び映像復号プログラム」（日本電信電話株式会社、特許文献１）、特開２００８－０３３９１４号公報「画像読み出し方法及び画像拡大方法」（松下電器産業株式会社、特許文献２）、特開２００９－２５８８６８号公報「画像処理装置及び画像処理方法」（ソニー株式会社、特許文献３）、ARIB STD-B40「補助データのPES伝送方式」（社団法人電波産業界、非特許文献１）がある。

　特許文献１には、符号化装置で、動き領域を、超解像可能領域、特異領域、平坦・静止領域に分割し、分割した結果を再度情報として復号装置に送出し、符号化対象とする画像の圧縮符号化を行い、復号装置で、サイド情報に基づいて、ブロック毎に動き領域、テクスチャ、平坦領域に分類し、動き領域に対しては超解像復元を行い、他の領域については補間を行うことが記載されている。

　特許文献２には、画像拡大装置において、補償された動きベクトルに基づいて、複数の間引き画像を利用して、超解像の再構成処理を行って画像を拡大することで、入力画像列が静止している場合でも低解像度の画像を高画質に拡大することが記載されている。

　特許文献３には、ブロック毎に動きベクトルを検出し、複数個の動きベクトルからアフィンパラメータの少なくとも１つを画像の変位軸についての変数の関数とした拡張したアフィン変換を用いて収束演算し、画像全体に加わっている変形を表すグローバルモーションを精度良く算出することが記載されている。

　また、非特許文献１には、ＰＥＳ（Packetized Elementary Stream）中に表示時刻を規定するＰＴＳ（Presentation Time Stamp）を含むことによって、映像データと補助データとを対応付けることが記載されている。

特開２０１２－０４９７４７号公報特開２００８－０３３９１４号公報特開２００９－２５８８６８号公報国際公開第０７／１４２１０９号パンフレット

ARIB STD-B40「補助データのPES伝送方式」社団法人電波産業会

　しかしながら、従来の映像圧縮伝送システムでは、マルチフレーム超解像において、局所的な動きモデルを正確に推定するには膨大な演算が必要であり、リアルタイムでこれを行おうとすると装置のコストが増大するという問題点があった。

　尚、特許文献１,２には、エンコーダで、入力された画像を背景領域と移動体領域に分離し、背景領域のみにサブサンプリング処理を施して符号化し、移動体領域はそのまま符号化し、デコーダで、背景領域のみに高解像処理を行うことは記載されていない。

　本発明は、上記実状に鑑みて為されたもので、サブサンプリングによって情報量を圧縮しつつ、超解像復元による高精細な映像を得ることができ、更に超解像処理における演算コストを低減することができる映像圧縮伝送システムを提供することを目的とする。

　上記従来例の問題点を解決するための本発明は、入力された映像データを符号化して出力するエンコーダと、符号化データを復号して復元画像を出力するデコーダとを備えた映像圧縮伝送システムであって、エンコーダが、入力された映像データの動きモデルを求め、映像データについて、背景領域か移動体領域かを判断して、いずれの領域であるかを示すエンコーダ側の領域情報を出力すると共に、エンコーダ側の領域情報が背景領域であれば動きモデルの情報を出力する第１の背景分離部と、動きモデルの情報が入力されると、動きモデルの情報に基づいて、入力された映像データの背景領域に画像処理を施して出力する画像処理部と、入力されたエンコーダ側の領域情報が背景領域を示す情報であれば、画像処理部の出力を選択して出力し、エンコーダ側の領域情報が移動体領域を示す情報であれば、入力された映像データを選択して出力する第１のセレクタと、第１のセレクタから出力された映像データを符号化して符号化ストリームを出力する符号化部とを備え、デコーダが、入力された符号化ストリームを復号して復号映像データを出力する復号部と、復号映像データについて背景領域か移動体領域かを判断して、いずれの領域であるかを示すデコーダ側の領域情報を出力する第２の背景分離部と、デコーダ側の領域情報に基づいて、復号映像データの背景領域にのみ超解像処理を施して高精細な復元画像を出力する超解像部と、デコーダ側の領域情報が背景領域を示す情報であれば、超解像部の出力を出力映像として選択して出力し、デコーダ側の領域情報が移動体領域を示す情報であれば、復号部の出力を出力映像として選択して出力する第２のセレクタとを備えたことを特徴としている。

　また、本発明は、上記映像圧縮伝送システムにおいて、超解像部が、入力された復号映像データの背景領域について、記憶されている過去の映像データと比較して、背景領域の動きモデルを推定して出力する動きモデル推定部と、動きモデルと、背景領域に施された画像処理の内容を示す補助データとに基づいて、背景領域を高精細に復元し、復元画像を出力する画像復元部とを備えたことを特徴としている。

　本発明によれば、情報量の圧縮及び高精細な映像出力を図ると共に、超解像処理に伴う演算コストを低減することができる効果がある。

　また、超解像部が、入力された復号映像データの背景領域について、記憶されている過去の映像データと比較して、背景領域の動きモデルを推定して出力する動きモデル推定部と、動きモデルと、背景領域に施された画像処理の内容を示す補助データとに基づいて、背景領域を高精細に復元し、復元画像を出力する画像復元部とを備えた上記映像圧縮伝送システムとしているので、少ない演算量で背景領域のみを超解像処理して演算コストを低減することができる。

本発明の第１の実施の形態に係る映像圧縮伝送システムの構成ブロック図。エンコーダ１の背景分離部１１の一例を示す処理ブロック図。画像処理部１２の処理例を示す模式説明図。超解像部２４の処理ブロック図。第１のシステムにおいて、経路の中間に配置された無線機の制御部における処理を示すフローチャート図。超解像技術を用いた従来の映像圧縮伝送システムの構成ブロック図。

　本発明の実施の形態について図面を参照しながら説明する。
［実施の形態の概要］
　本発明の実施の形態に係る映像圧縮伝送システムは、エンコーダが、入力された映像データを単一の動きモデルを持つ背景領域と局所的な動きモデルを持つ移動体領域とに分離し、背景領域にのみサブサンプリングを施して符号化することで情報量を削減し、移動体領域については入力された映像データをそのまま符号化し、デコーダが、符号化データを復号し、復号されたデータを背景領域と移動体領域とに分離し、背景領域にのみ超解像処理を施して出力し、移動体領域については復号された映像データをそのまま出力するシステムとしており、超解像の効果が高く演算量の少ない背景領域のみを画像処理することによって、情報量の圧縮と高精細な映像出力を図ると共に、超解像処理に伴う演算コストを低減することができるものである。

　発明者らは、従来の映像圧縮伝送システムの欠点から、動く物体の映っていないIフレームのデータ量を削減することの有用性に気付いた。その有用性は、動く物体の有無に関わらずIフレーム内で背景領域を高圧縮することによっても得られる。そこで、第２の実施形態の映像圧縮伝送システムは、フレーム全体がイントラ予測で符号化されるＩフレームの背景領域にのみに画像処理を施して符号化し、Ｉフレームの背景領域のみを超解像処理して画像を復元するようにした。これにより、超解像処理の演算コストを一層低減でき、高精細な映像出力を得ることができるものである。

［第１の実施の形態に係る映像圧縮伝送システムの構成：図１］
　図１は、本発明の第１の実施の形態に係る映像圧縮伝送システムの構成ブロック図である。
　図１に示すように、本発明の第１の実施の形態に係る映像圧縮伝送システム（第１のシステム）は、送信側装置としてのエンコーダ１と、受信側装置としてのデコーダ２とを備えている。

　エンコーダ１は、背景分離部１１と、画像処理部１２と、セレクタ１３（第１のセレクタ）と、符号化部１４とストリーム多重部１５とを備え（第１の背景分離部）ている。
　デコーダ２は、ストリーム多重部２１と、復号部２２と、背景分離部２３（第２の背景分離部）と、超解像部２４と、セレクタ２５（第２のセレクタ）とを備えている。

　第１のシステムにおける各部について説明する。
［エンコーダ１］
　まず、第１のシステムのエンコーダ１について説明する。
　［背景分離部１１：図１，図２］
　背景分離部１１は、入力された映像データについて動きモデルを求め、背景領域又は移動体領域のいずれかに分類し、どちらの領域であるかを示す領域情報（エンコーダ側の領域情報）と、動きモデルを出力する。
　背景領域は、フレーム内での動きモデルが単一で、超解像処理の計算コストが低い領域であり、移動体領域は、フレーム内で局所的な動きモデルを持ち、計算コストが高い（超解像の効果が得にくい）領域である。

　本発明に係る映像圧縮伝送システムでは、このことを利用して、背景領域と移動体領域とを分離して、計算コストが低い背景領域のみ超解像処理を行うよう、エンコーダ１側で背景領域のみ画像処理を施して送信し、計算コストが高い移動体領域については超解像処理を行わないものである。

　背景分離部１１について図２を用いて更に具体的に説明する。図２は、エンコーダ１の背景分離部１１の一例を示す処理ブロック図である。
　図２に示すように、エンコーダ１の背景分離部１１は、処理ブロックとして、動き補償部１１１と、残差画像作成部１１２と、判定処理部１１３とを備えている。
　背景分離部１１では、映像データをフレーム単位で処理する。

　　［動き補償部１１１］
　動き補償部１１１は、入力データの動きモデルを推定する。
　そのため、動き補償部１１１は、過去のフレームの映像データを保持している。過去フレームとしては、再生順序で直前の１フレームのみを元の画素数のまま保持してもよいし、２つ以上過去のフレームをサブサンプルして画素数を減らして保持してもよい。

　動き補償部１１１は、入力されたフレームと過去のフレームとを比較して、平行移動による位置合わせを行い、フレーム全体の動きベクトルを求める。フレーム全体の動きベクトルは、ブロック毎の動きベクトルの平均により得ても良い。
　そして、動き補償部１１１は、求めた動きベクトルを背景領域の動きモデルとして画像処理部１２に出力する。

　動きモデルの情報は、例えば、現在から１つ前の画像をどのように変形させれば現在の画像に重なるかを表す情報であり、常に現在の画像を基準に、現在から１つ前の画像との関係を表現するものとして定義する。尚、この変形（動きモデル）は、画素単位で見れば動きベクトルのみで表現でき、画素ブロック単位ではアフィン変換で十分近似できるものである。

　次に、動き補償部１１１は、記憶している過去のフレームについて、フレーム全体の動きベクトルでの動き補償を行い、動き補償が施された過去のフレームの映像データを残差画像作成部１１２に出力する。この動き補償は、デコーダ２側での動き推定の精度を見積もること、言い換えれば超解像処理の計算コストを判断することを目的としており、精度が高いほど良いというものではない。

　　［残差画像作成部１１２］
　残差画像作成部１１２は、動き補償された過去のフレームと、入力フレームとの差分を求め、残差画像を作成する。
　これにより、フレーム全体で単一の動きベクトルを持つ背景領域の残差は抑制され、移動体領域の残差が強調される。

　　［判定処理部１１３］
　判定処理部１１３は、残差の大きさに基づいて、背景領域であるか移動体領域であるかを判断する。つまり、判定処理部１１３は、残差画像作成部１１２から出力された残差画像のブロック毎に、画素値の絶対値和（以後、ブロックの残差と呼ぶ）を閾値と比較して、この残差が閾値以下であればそのブロックを背景領域に組み入れ、残差が閾値を超えていれば移動体領域と判定し、いずれの領域に含まれるかを示す領域情報を出力する。
　このようにして背景分離部１１１の処理が行われる。

　［画像処理部１２：図１，図３］
　画像処理部１２は、背景領域に分類された入力映像データについて画像処理を施す。移動体領域については画像処理を行わず、入力された映像データをそのまま出力する。
　また、画像処理部１２は、サブサンプリングされた位置を示す標本位置情報と動きモデルとを含む補助データを出力する。

　ここで、画像処理部１２の処理について図３を用いて説明する。図３は、画像処理部１２の処理例を示す模式説明図である。
　画像処理部１２は、入力映像の背景領域にサブサンプリング処理を施して、映像データの情報量を削減するものである。サブサンプリングによる情報量削減は、後に記述する符号化部１４での圧縮率向上につながる。

　画像処理部１２は、背景分離部１１からの動きモデルの情報に基づいて、サブサンプリングする画素を決定し、画像処理を行い、画像処理が施されたデータを出力する。
　また、画像処理部１２は、映像データをどのようにサブサンプリングしたかを示す標本位置情報と動きモデルの情報とを含んだ補助データを出力する。

　画像処理部１２の動作について図３を用いて具体的に説明する。
　図３に示すように、画像処理部１２は、動きモデルが入力されると、それに基づいてサブサンプリングする画素を決定し、入力された映像データをサブサンプリングして解像度を減らす。
　図３の例では、画像全体を左上を始点に４×４画素ブロックに細分し、画像処理の対象となった画素ブロックを１つの画素で代表させる。ここでは、左上の画素（「１」の画素）で代表させて、入力画像をピクセル（画素）ベースで１／１６にサブサンプリングして縮小している。そして、その後、拡大（伸張）処理によりサブサンプリング前の画素数（画素密度）に戻してから出力する。

　拡大することにより、出力データは入力前と同じ解像度の映像データとして扱うことができる。これにより、後述する符号化部１４では、画像処理されたデータとされないデータとを区別することなく、一つの映像ストリームとして扱うことができるものである。このサブサンプリングと拡大の組合せは、ある代表画素で画素ブロック内の全画素値を代表させる直流化であるとも言える。

　ここで、サブサンプリングの位置について説明する。
　背景に動きがある場合、サブサンプリングする画素位置を変えなくても、動きに伴って画素情報が変わるため、サンプリング位置を固定としてよい。但し、背景が完全に停止している場合は、サンプリング位置が固定であると画素情報を補間できず、超解像の効果が得られない。

　その場合、画像処理部１２は、サブサンプリングする画素の位置をフレーム毎に変更する。
　つまり、画像処理部１２は、入力された動きモデルの情報に基づいて、背景の動きを認識し、背景が静止している場合にはサブサンプリングする画素の位置をフレーム毎に変更する。これにより、背景が完全に静止している場合でもフレーム毎に異なる画素情報を得ることができ、超解像の効果を得ることができるものである。サブサンプリングした画素の位置は標本位置情報として出力する。もし、背景が静止している４×４画素ブロックにのみサブサンプリング画素を変更するものであれば、サブサンプリング位置は固定の１６回周期のパターンで定めるようにすれば、所定の規則（例えばラスタースキャン）の順で、それらブロックのサンプリング位置を特定できる。
　そして、デコーダ２では、伝送ストリームに多重される標本位置情報により、サブサンプリングされた画素の位置を知ることができるものである。

　［セレクタ１３：図１］
　セレクタ１３は、背景分離部１１からの領域情報に基づいて、画像処理としてサブサンプリングがなされたデータと、入力された映像データのいずれかを出力する。
　具体的には、セレクタ１３は、領域情報が背景領域を示す情報であれば、画像処理部１２から出力されるデータを出力し、領域情報が移動体領域を示す情報であれば、サブサンプリングされない映像データをそのまま出力する。

　［符号化部１４：図１］
　符号化部１４は、画像処理データ又は画像処理されないデータを符号化し、符号化ストリームを出力する。
　具体的には、符号化部１４は、画像処理が施された背景領域について、補助データに基づいて、符号量がより少なくなるよう動き探索や最適予測モード決定処理を行い、最適な方法で符号化を行う。

　また、符号化部１４に領域情報を与えてもよく、この場合、符号化部１４は、背景領域ではフレーム内で単一の動きであることを利用して、画像処理が施された背景領域について動き探索や最適予測モード決定処理を省略して、適切な予測モードを選択できるものである。尚、本例では、符号化部１４で用いる符号化技術としてH.264を想定しているが、これに限定されず、エンコーダ１に入力した映像データが符号化できるコーデックであればよい。また、符号化レートが下限と上限の間を保つ様態で可変レート制御されることとを想定しているが、それに限らない。

　［ストリーム多重部１５：図１］
　ストリーム多重部１５は、符号化ストリームと補助データとを多重して伝送ストリームとして伝送路に出力する。
　このとき、伝送ストリームには、デコーダ２側で補助データと映像データのフレームの同期がとれるよう、付加情報を含まなければならない。例えば、非特許文献１で示されるように、補助データをPES化し、符号化ストリームとTS（Transport Stream）多重して伝送する。デコーダ２ではPESヘッダに含まれるPTS（同期再生のため表示時刻を規定する数値）により補助データと映像データを関連付ける。
　補助データは、４×４画素ブロック毎に多重化する代わりに、最高で１フレーム当り１回にまでまとめて多重化でき、まとめる際はハフマン符号化等を用いてデータ量を圧縮することができる。また静止ブロックに対してサンプリング位置を固定パターンで得ている場合は、標本位置情報は１フレームの最初のブロックに対してのみで足りる。

［デコーダ２］
　次に、第１のシステムのデコーダ２について説明する。
　［ストリーム分離部２１：図１］
　デコーダ２のストリーム分離部２１は、補助データと符号化ストリームとを分離する。補助データは超解像部２４に出力され、符号化ストリームは復号部２２に出力される。

　［復号部２２：図１］
　復号部２２は、入力された符号化ストリームをエンコーダ１の符号化部１４における符号化に対応した方法で復号して、復号映像データを出力する。

　［背景分離部２３：図１］
　背景分離部２３は、映像データを背景領域又は移動体領域のいずれかに分離して、どちらに含まれるかを示す領域情報（デコーダ側の領域情報）を出力する。
　デコーダ２の背景分離部２３は、図３に示したエンコーダ１の背景分離部１１と同じ構成であり、復号された映像データについて、エンコーダ１側で画像処理された領域を特定する。
　デコーダ２側に背景分離部２３を設けることにより、エンコーダ１が領域情報を送らなくても、デコーダ２側で背景領域と移動体領域を分離できるものである。背景分離の方法はエンコーダ１側の背景分離処理と同様の手法を用いることができる。

　つまり、背景分離部２３は、入力された映像データと記憶している過去フレームとを比較してフレーム全体の動きモデルを求め、過去フレームに動き補償を施して入力された映像データとの差分を求めて残差画像を作成し、領域毎に閾値と比較して背景領域か移動体領域かを判断し、領域情報を出力する。尚、ここでは、デコーダ２側の背景分離部２３は、動きモデルの情報は出力しない。

　尚、デコーダ２の背景分離部２３で用いられる過去フレームとしては、後述する超解像部２４内の画像復元部２４２が保持しているフレームを利用できる。
　但し、エンコーダ１側における背景分離と同じ結果を期待するのであれば、セレクタ２５から出力される超解像処理後の映像データを過去フレームとして用いたほうが良い場合がある。
　あるいは、復号部２２から、フレーム毎に、ＤＣ成分のみが符号化された４×４ブロック、つまり背景領域のブロックの位置を全て取得して、領域情報を再現してもよい。その際ブロックを、その前後のフレームでの動きベクトルが０であるブロックに限定しても良い。

　［超解像部２４：図１，図４］
　超解像部２４は、エンコーダ１で画像処理された背景領域に超解像処理を施し、画像処理前の高精細な画像に復元するものである。移動体領域の映像データには超解像処理は行わない。
　超解像部２４の構成について図４を用いて具体的に説明する。図４は、超解像部２４の処理ブロック図である。
　図４に示すように、超解像部２４は、動きモデル推定部２４１と、画像復元部２４２とを備えている。

　超解像部２４は、映像データの他に、領域情報と補助データを入力して、超解像処理を行う。
　領域情報は、映像データが背景領域か移動体領域かを判断するために用いられる。補助データは、上述したように、標本位置情報と動きモデルの情報とを含んでいる。標本位置情報は、サブサンプリングされた背景領域の画素が、画素ブロックのどの位置からサンプリングされたものかを特定するために用いられる。

　動きモデル推定部２４１は、過去のフレームの映像データと標本位置情報とを保持して、動きモデル推定の処理を行う。
　動きモデル推定部２４１は、映像データと、領域情報と、補助データとを入力し、領域情報に基づいて背景領域を認識し、従来と同様の手法で背景領域の動きモデルの情報を推定して出力する。背景に動きがない場合には、動きなしのモデルを出力する。動きモデル推定は、補助データに含まれるエンコーダ２側で推定した動きモデルを初期値に利用して、行うことができ、或いは、補助データの動きモデルをそのまま動きモデル２４１の推定結果として用いてもよい。
　また、領域情報から移動体領域と判断された領域については、動きモデル推定部２４１は動きモデル推定の処理を行わない。

　画像復元部２４２は、過去のフレームの映像データと、領域情報と、動きモデルの情報を保持し、背景領域の超解像復元を行う。
　画像復元部２４２は、入力フレームの映像データ、標本位置情報、動きモデル情報と、上述した過去のフレームの情報に基づいて、従来と同様の方法で入力フレームを高解像度化して出力する。

　超解像復元について説明する。
　Ｎフレーム目の復号画像をＶn とする。また、Ｖn に対応付けられた補助データが示す動きモデルに基づく画素ブロック毎のアフィン変換と、標本位置情報が示すサブサンプル位置（サンプル位置のずらし）とを合成したアフィン変換をフレーム内の各画像ブロックに施す処理の演算子をＡn[・]とする。

　ここで、保持されている３フレームの過去画像と入力フレームの画像に基づいて超復元を行う場合、Ｖn に対応するフレームの復元画像は、
　Ａn[Ａn-1[Ａn-2[Ｖn-3]]] + Ａn[Ａn-1[Ｖn-2]] + Ａn[Ｖn-1] + Ｖn で表現できる。

　更に、任意フレームＶnにおいて注目する画素ブロックの復元画像は、
　ＡnＡn-1Ａn-2[Ｖn-3] + ＡnＡn-1[Ｖn-2] + Ａn[Ｖn-1]+ Ｖn と近似できる。尚、ＡnＡn-1は、ＡnとＡn-1を合成したアフィン変換である。
　過去フレームの映像データは、復号部２２が再構成画像として保持しているものを利用できれば、画像復元部自身で記憶手段を持つ必要は無い。
　このようにして、超解像復元された背景領域の映像データは、セレクタ２５に出力され、高精細な背景画像が出力されるものである。

　［セレクタ２５：図１］
　セレクタ２５は、領域情報に基づいて、超解像処理が施されたデータ又は復号データのいずれかを出力する。つまり、セレクタ２５は、領域情報が背景領域を示すものであれば、超解像処理が施されたデータを映像データとして出力し、領域情報が移動体領域を示すものであれば復号部２１で復号された映像データ（復号データ）をそのまま映像データとして出力する。

　すなわち、本映像圧縮伝送システムは、エンコーダ１が、動きモデルが単一である背景領域のみに画像処理（サブサンプリング）による情報量削減処理を施すと共に、デコーダ２が、受信した映像データにおける背景領域は超解像処理を行って出力し、移動体領域は復号後に超解像処理を加えずに出力するものである。

　これにより、従来のシステムに比べて、超解像処理の負荷を軽減でき、計算コストを低減できるものである。
　また、デコーダ２から出力される映像データは、背景領域は超解像効果によって高精細に復元され、移動体領域はサブサンプリングしないため十分な情報量を備えていることによって元画像を精度良く復元でき、高精彩な映像を出力できるものである。
　更に、本システムの特徴として、デコーダ２側での超解像処理が失敗したとしても、移動体領域については超解像処理を行わないので、移動体領域は高精細なまま映像を出力できるものである。これは、監視システムなど、確実性が求められるシステムにおいて特に有用な特徴であり、移動体領域にこそ重要な情報があるシステムでの大きな利点となる。

　なお、本システムでは、画像処理部１２は間引き処理を行うものであったが、符号量を減らすことができかつ超解像による復元が可能であれば、如何なる画像処理でもよく、その場合、標本位置情報は画像処理の様態を特定できる情報（画像処理情報と呼ぶ）に一般化される。画像処理部１２による画像処理の一例としては、圧縮センシングで知られる不規則な間引き（１ブロックから１或いは複数の代表画素を抽出する）と、それら代表画素によるブロック内のタイル状の塗りつぶしの組合せなどが考えられる。その場合、超解像部２４では圧縮センシングに基づく超解像処理を行い、画像処理情報を参照して観測結果ベクトルの成分を特定する。

［第１のシステムの動作：図１］
　次に、第１のシステムにおける動作について図１を用いて説明する。［エンコーダ１の処理の流れ：図１］　エンコーダ１に入力された映像データは、背景分離部１１において背景領域又は移動体領域のいずれかに分類される。背景分離部１１からは、入力された映像データが背景領域又は移動体領域のどちらに含まれるかを示す領域情報と、背景領域の動きモデルの情報を出力される。入力された映像データが移動体領域であった場合には、背景分離部１１は、動きモデルの情報を出力しない。

　また、画像処理部１２に入力された映像データは、背景分離部１１から動きモデルが入力されるとサブサンプリングの画像処理が施されて出力される。つまり、入力された映像データの背景領域は、画像処理が施されて出力され、動きモデルが入力されない移動体領域は入力画像がそのまま出力される。
　画像処理部１２からは、映像データと共に補助データが出力される。上述したように、補助データは、画像処理の内容を示す標本位置情報と動きモデルの情報を持つ。

　そして、入力映像データ（エンコーダ１への入力データ）と、画像処理部１２からの背景領域のみ画像処理が施されたデータとがセレクタ１３に入力され、セレクタ１３によって、いずれか一方が選択されて、符号化部１４に出力される。
　セレクタ１３では、領域情報が背景領域を示す情報であれば、画像処理部１２から出力されるサブサンプリングされたデータを出力し、領域情報が移動体領域を示す情報であれば、サブサンプリングされない映像データをそのまま出力する。

　符号化部１４に入力されたサブサンプリングされたデータ又は元の映像データは、符号化されて符号化ストリームとして出力される。そして、符号化部１４からの符号化ストリームと、画像処理部１２からの補助データとがストリーム多重部１５に入力されて多重され、伝送ストリームとして伝送路に出力される。
　このようにしてエンコーダ１における処理が行われる。

　次に、デコーダ２の処理の流れについて図１を用いて説明する。
　伝送路からの伝送ストリームは、デコーダ２のストリーム分離部２１に入力され、補助データと符号化ストリームとに分離される。

　復号部２２に入力された符号化ストリームは、復号され、映像データとして出力される。
　背景分離部２３に入力された映像データは、エンコーダ１の背景分離部１１と同様に動きモデルに基づいて背景領域又は移動体領域のいずれかに分離される。
　背景分離部２３からは、映像データがどちらに含まれるかを示す領域情報が出力される。

　超解像部２４に入力された映像データは、超解像部２４で領域情報に基づいて背景領域のみに超解像処理が行われる。超解像部２４では、移動体領域の映像データには超解像処理は施されない。

　そして、超解像部２４からの超解像処理が施された映像データと、復号部２２からの復号された映像データとがセレクタ２５に入力され、セレクタ２５において領域情報に基づいて一方が選択されて出力される。
　セレクタ２５は、領域情報が背景領域を示すものであれば、超解像部２４からの超解像処理が施されたデータを映像データとして出力し、領域情報が移動体領域を示すものであれば復号部２１で復号された映像データをそのまま映像データとして出力する。
　このようにして、デコーダ２における処理が行われる。

［第１の実施の形態の効果］
　本発明の第１の映像圧縮伝送システムによれば、エンコーダ１が、入力された映像データを単一の動きモデルを持つ背景領域と局所的な動きモデルを持つ移動体領域とに分離し、背景領域にのみ画像処理を施して符号化することで情報量を削減し、移動体領域については入力された映像データをそのまま符号化し、デコーダ２が、符号化データを復号し、復号されたデータを背景領域と移動体領域とに分離し、背景領域にのみ超解像処理を施して出力し、移動体領域については復号された映像データをそのまま出力するシステムとしているので、超解像の効果が高く演算量の少ない背景領域のみに超解像処理を行うことによって、情報量の圧縮と高精細な映像出力を図ると共に、超解像処理に伴う演算コストを低減することができる効果がある。

　また、第１のシステムによれば、デコーダ２の超解像部２４が、復号映像データの背景領域について、過去の映像データと補助データを用いて、復号映像データの動きモデル推定を行って動きモデルを出力する動きモデル推定部２４１と、推定された動きモデルと、過去のデータと、補助データに基づいて、復号映像データの超解像処理を行って高精細画像を出力する画像復元部２４２とを備えており、画像処理が施された背景領域にのみ超解像処理を行い、移動体領域には行わないようにして、少ない演算量で高精細な復元画像を出力できる効果がある。

［本発明の第２の実施の形態］
　次に、本発明の第２の実施の形態に係る映像圧縮伝送システムについて説明する。
　本発明の第２の実施の形態に係る映像圧縮伝送システム（第２のシステム）は、第１のシステムと同様の構成であるが、第２のシステムでは、例えばＩフレームやＩＤＲフレーム等、符号化部がフレーム全体をイントラ予測で符号化する場合のみ、エンコーダ側で画像処理を行ってデコーダ側で超解像処理を行い、他のフレームでは画像処理及び超解像処理を行わないものである。

［第２のシステムの構成：図５］
　第２のシステムの構成について図５を用いて説明する。図５は、本発明の第２の実施の形態に係る映像圧縮伝送システムの構成ブロック図である。
　図５に示すように、第２のシステムは、エンコーダ３とデコーダ４とから成る。
　エンコーダ３は、背景分離部３１（第３の背景分離部）と、画像処理部３２と、セレクタ３３（第３のセレクタ）と、符号化部３４と、ストリーム多重部３５とを備えている。
　デコーダ４は、ストリーム分離部４１と、復号部４２と、背景分離部４３（第４の背景分離部）と、超解像部４４と、セレクタ４５（第４のセレクタ）とを備えている。

　第２のシステムの特徴部分について説明する。
　第２のシステムの特徴として、符号化部３４が、フレーム全体をイントラ予測で符号化するフレームであることを示す情報を背景分離部３１に出力する。尚、イントラ予測のみで予測するフレーム（イントラ符号化フレーム）を、ここでは、Ｉフレームと称する。

［エンコーダ３：図５］
　背景分離部３１は、図３に示した第１のシステムの背景分離部１１と同様に、基本的には常時動きモデルの推定を行うと共に、背景領域又は移動体領域であることを示す領域情報を出力するが、背景領域と判断される領域であっても、符号化部３４からのＩフレームとすることを示す情報（Ｉフレーム指示）が入力されない場合には、動きモデルを出力しない。

　背景分離部３１は、背景が１フレーム（スライス）内で１つの動きモデルで表現できることを仮定しており、動きは特許文献３に記載されたグローバルモーションのように、アフィン変換（平行移動、倍率、回転中心及び回転角）、横方向台形歪、縦方向台形歪により表現されるものとする。
　尚、横方向台形歪とは、元来長方形のフレームを、フレーム上辺が可変より短い（長い）台形に変形させる度合い（あおり）を示し、縦方向台形歪も同様である。これらのパラメータは、フレームの４隅における動きベクトルに対応する４つの２次元ベクトルでも代用できる。

　背景分離部３１の動きモデル推定は、公知の階層化動き探索等の高速アルゴリズムで、フレーム全体（或いは前フレームで背景領域と判断された領域及びその辺縁付近）に亘って画素ブロック毎に動きベクトルを求め、周辺のブロックと似た動きベクトルを有するブロック同士をグループ化していき、最大となった画素ブロックの塊を背景領域と判断する。
　それと共に、背景分離部３１は、動き探索のパラメータを最小自乗法（ガウス―ニュートン法等）で推定し、その後、画素ブロックより大型化した領域を３～４個背景領域内に設定しその領域内で元画像と推定画像との位相限定相関を計算し、推定したパラメータを修正するという操作を、精度（サブサンプル数）を上げながら複数回繰り返して行う。

　画像処理部３２は、第１のシステムと同様に、背景分離部３１からの動きモデルに基づいて、入力された映像データにサブサンプリングの画像処理を行う。
　第２のシステムでは、画像処理部３２は、動きモデルが入力されるＩフレームの背景領域についてのみ画像処理を行い、Ｉフレーム以外のフレームの背景領域には画像処理を行わず、入力された映像データをそのまま出力する。

　第２のシステムの画像処理部３２は、固定のサブサンプリング位置（例えば左上隅の画素）で画像処理を行う。そして、画像処理部３２は、画像処理を行わないフレームであっても、領域情報に基づいて、背景領域であれば補助データを出力する。ただし、第２のシステムでは、サンプリング位置が固定であるため、標本位置情報は不要であり、動きモデルの情報のみを補助データとして出力する。

　セレクタ３３は、第１のシステムと同様に、領域情報に基づいて画像処理部３２の出力データ又はエンコーダ３への入力映像データのいずれかを選択して出力する。第２のシステムでは、セレクタ３３は、背景領域を示す領域情報が入力されると、画像処理部３２の出力を選択するが、画像処理部３２の出力は、Ｉフレームの場合のみがサブサンプリングされたデータであり、他のフレームの場合には、入力された映像データとなる。

　符号化部３４は、入力されたデータを符号化する。第２のシステムでは、ＩＤＲスライス等、フレーム（スライス）の全体をイントラ予測で予測する場合にのみ、画像処理部３２でサブサンプルされた背景領域の映像データが符号化され、他のフレームについてはエンコーダ１への入力映像データがそのまま符号化される。

　それと共に、第２のシステムの符号化部３４は、Ｉフレームとする特定のタイミングで、Ｉフレーム指示を背景分離部３１に出力する。これにより、背景分離部３１では、Ｉフレームの背景領域についてのみ、動きモデルを出力する。

［デコーダ４：図５］
　デコーダ４の復号部４２は、第１のシステムと同様に、符号化ストリームを符号化部３４での符号化に対応した復号方法で復号し、映像データを背景分離部４３と超解像部４４に出力する。
　また、それと共に、第２のシステムの復号部４２は、復号されたフレームがＩフレームであれば、Ｉフレーム指示を超解像部３４に出力する。

　背景分離部４３（第４の背景分離部）は、第１のシステムと同様に復号された映像データを背景領域と移動体領域とに分離し、領域情報（デコーダ側の領域情報）を出力する。

　超解像部４４は、第１のシステムの超解像部２４と同様の構成であり、背景領域の映像データについて超解像処理を行うものであるが、第２のシステムでは、Ｉフレームの背景領域のみに超解像処理を施す。つまり、超解像部４４は、領域情報が背景領域であり、且つ復号部４２からＩフレーム指示が入力された場合に超解像処理を行い、その他の場合には超解像処理を行わない。

　第２のシステムの超解像部４４の動きモデル推定部は、Ｉフレームの背景領域の動きモデルを推定する。
　超解像部４４の画像復元部は、過去のフレームの映像データ用に１フレーム分のフレームメモリを備えている。
　そして、画像復元部は、復号部４２から新たな画像が得られると、補助データに含まれる動きモデル情報に基づき、過去画像に対して画素ブロック（１６×１６かそれ以下）単位でレジストレーション（アフィン変換と補間処理）を施し、Ｉフレームの背景領域内では新たな画像と重み付き合成し、Ｉフレームの背景領域外及び他のフレームは新たな画像のままとする画像を得て、出力画像とすると共にフレームメモリに書き戻す。
　補間処理は、対象画素に近接する４画素を用いるバイリニア補間を、１／２画素より細かい精度で行う。

　第２のシステムでは、フレーム当りの符号発生量が大きいイントラ予測フレームに対し、サブサンプルによる符号量削減を適用でき、伝送時のトラフィックを平準化し、遅延変動を軽減して、送受バッファ量を削減することができる。
　また、第２のシステムでは、Ｉフレーム以外ではサブサンプリングを行わないが、符号化画像が画素毎に階調を有しうるので、ダイレクトモードのスキップマクロブロック等により、符号量削減効果が維持されることが期待できる。

　また、サブサンプルに伴う大きな空間量子化雑音は、画像復元部による複数フレーム間の移動平均で軽減される。これは、全画素を用いた移動平均なので、輝度変化によりアーティファクトが生じることも無い。
　また、第２のシステムにおいて、サブサンプリグを行う対象をＩフレームに限定せず、ストリーム多重部の送信バッファの占有量（遅延）が閾値を超えたときに、随時（Ｉフレーム以外でも）サブサンプリングを行うようにしてもよい。

［第２の実施の形態の効果］
　本発明の第２の実施の形態に係る映像圧縮伝送システムによれば、エンコーダ３が、符号化部３４でフレーム（スライス）の全体をイントラ予測で予測するフレーム（Ｉフレームとする）のみに、画像処理を行って符号化し、他のフレーム及びＩフレームの移動体領域はそのまま符号化し、デコーダ４が、Ｉフレームの背景領域のみについて超解像処理を行って高精細画像を出力するシステムとしているので、高精細な映像出力を維持すると共に、超解像処理の演算コストを一層低減することができる効果がある。

　本発明は、静止した背景領域が多く含まれることが期待できる、固定カメラで撮影された映像を符号化するCCTVシステム等に特に好適であるが、家庭用のテレビ、ビデオカメラ、ビデオ録画機、動画編集ソフトウェア等、動画像を圧縮して伝送したり記録したりする装置、方法に広く利用できる。

　１，３，７...エンコーダ、　２，４，８...デコーダ、　１１，３１...背景分離部、
　１２，３２...画像処理部、　１３，３３...セレクタ、　１４，３４...符号化部、　１５，３５...ストリーム多重部、　２１，４１...ストリーム分離部、　２２，４２...復号部、　２３，４３...背景分離部、　２４，４４...超解像部、　２５，４５...セレクタ、　１１１...動き補償部、　１１２...残差画像作成部、　１１３...判定処理部、
　２４１...動きモデル推定部、　２４２...画像復元部、　７１...サブサンプリング部、　７２...符号化部、　８１...復号部、　８２...超解像部。

Claims

　入力された映像データを符号化して出力するエンコーダと、符号化データを復号して復元画像を出力するデコーダとを備えた映像圧縮伝送システムであって、
　前記エンコーダが、入力された映像データの動きモデルを求め、前記映像データについて、背景領域か移動体領域かを判断して、前記いずれの領域であるかを示すエンコーダ側の領域情報を出力すると共に、前記エンコーダ側の領域情報が前記背景領域であれば前記動きモデルの情報を出力する第１の背景分離部と、
　前記動きモデルの情報が入力されると、前記動きモデルの情報に基づいて、入力された映像データの背景領域に画像処理を施して出力する画像処理部と、
　入力された前記エンコーダ側の領域情報が背景領域を示す情報であれば、前記画像処理部の出力を選択して出力し、前記エンコーダ側の領域情報が移動体領域を示す情報であれば、前記入力された映像データを選択して出力する第１のセレクタと、
　前記第１のセレクタから出力された映像データを符号化して符号化ストリームを出力する符号化部とを備え、
　前記デコーダが、入力された符号化ストリームを復号して復号映像データを出力する復号部と、
　前記復号映像データについて背景領域か移動体領域かを判断して、前記いずれの領域であるかを示すデコーダ側の領域情報を出力する第２の背景分離部と、
　前記デコーダ側の領域情報に基づいて、前記復号映像データの背景領域にのみ超解像処理を施して高精細な復元画像を出力する超解像部と、
　前記デコーダ側の領域情報が背景領域を示す情報であれば、前記超解像部の出力を出力映像として選択して出力し、前記デコーダ側の領域情報が移動体領域を示す情報であれば、前記復号部の出力を前記出力映像として選択して出力する第２のセレクタとを備えたことを特徴とする映像圧縮伝送システム。
　超解像部が、入力された復号映像データの背景領域について、記憶されている過去の映像データと比較して、前記背景領域の動きモデルを推定して出力する動きモデル推定部と、
　前記動きモデルと、前記背景領域に施された画像処理の内容を示す補助データとに基づいて、前記背景領域を高精細に復元し、復元画像を出力する画像復元部とを備えたことを特徴とする請求項１記載の映像圧縮伝送システム。
　入力された映像データを符号化して出力するエンコーダと、符号化データを復号して復元画像を出力するデコーダとを備えた映像圧縮伝送システムであって、
　前記エンコーダが、入力された映像データの動きモデルを求め、前記映像データについて、背景領域か移動体領域かを判断して、前記いずれの領域であるかを示すエンコーダ側の領域情報を出力すると共に、前記エンコーダ側の領域情報が前記背景領域であれば、外部から入力される指示に基づいて、前記映像データがイントラ予測符号化で符号化される特定フレームである場合に前記動きモデルの情報を出力する第３の背景分離部と、
　前記動きモデルの情報が入力されると、前記動きモデルの情報に基づいて、入力された前記特定フレームの映像データの背景領域に画像処理を施して出力する画像処理部と、
　入力された前記エンコーダ側の領域情報が背景領域を示す情報であれば、前記画像処理部の出力を選択して出力し、前記エンコーダ側の領域情報が移動体領域を示す情報であれば、前記入力された映像データを選択して出力する第３のセレクタと、
　前記第３のセレクタから出力された映像データを符号化して符号化ストリームを出力すると共に、イントラ予測符号化を行う特定フレームの場合のみ前記動きモデルの情報を出力させる指示を前記第３の背景分離部に出力する符号化部とを備え、
　前記デコーダが、入力された符号化ストリームを復号して復号映像データを出力すると共に、前記特定フレームであることを示す情報を出力する復号部と、
　前記復号映像データについて背景領域か移動体領域かを判断して、前記いずれの領域であるかを示すデコーダ側の領域情報を出力する第２の背景分離部と、
　前記デコーダ側の領域情報と前記特定フレームであることを示す情報に基づいて、前記特定フレームの前記復号映像データの背景領域にのみ超解像処理を施して高精細な復元画像を出力する超解像部と、
　前記デコーダ側の領域情報が背景領域を示す情報であれば、前記超解像部の出力を出力映像として選択して出力し、前記デコーダ側の領域情報が移動体領域を示す情報であれば、前記復号部の出力を前記出力映像として選択して出力する第４のセレクタとを備えたことを特徴とする映像圧縮伝送システム。