WO2023233631A1

WO2023233631A1 - 映像品質推定装置、映像品質推定方法及びプログラム

Info

Publication number: WO2023233631A1
Application number: PCT/JP2022/022515
Authority: WO
Inventors: 喜美子川嶋; 則次恵木
Original assignee: 日本電信電話株式会社
Priority date: 2022-06-02
Filing date: 2022-06-02
Publication date: 2023-12-07

Abstract

映像品質推定装置は、ネットワークを介して配信される映像のビットレート時系列から前記映像のビットレートの変動に関する特徴量を取得するように構成されている取得部と、前記ビットレート時系列を含む前記映像の符号化情報時系列と前記特徴量とを入力として、前記映像の品質の推定値を導出するように構成されている映像品質導出部と、を有することで、ビットレートが変動する映像の品質の推定精度を向上させる。

Description

映像品質推定装置、映像品質推定方法及びプログラム

　本発明は、映像品質推定装置、映像品質推定方法及びプログラムに関する。

　リモートワークや遠隔授業の拡大により、Ｗｅｂ会議サービスのようなリアルタイム映像配信サービスの市場規模が拡大している。リアルタイム映像配信サービスの提供者にとっては、ユーザに満足してサービスを利用し続けてもらうことが重要となるが、Ｗｅｂ会議サービスの映像品質が低下すると、ユーザ満足度が下がるとの報告がある。

　映像配信サービスの場合には、ユーザ満足度（ＱｏＥ：Quality of Experience）の向上を目指し、符号化情報から映像品質を推定し、ＱｏＥを可視化することで、ＱｏＥ低下エリアの重点的な改善に取り組んでいる（非特許文献１）。映像品質の推定にあたっては、符号化方式や配信ビットレート、解像度、フレームレート等の符号化情報に基づいて映像品質を推定する技術が検討されている（非特許文献２）。

林孝典，"ユーザ体感品質を最適化するQoE-centricオペレーション"，NTT技術ジャーナル，vol.27，no.7，pp.16-19，July 2015. Parametric bitstream-based quality assessment of progressive download and adaptive audiovisual streaming services over reliable transport, Recommendation ITU-T P.1203, 2017

　リアルタイム映像配信サービスに関しても同様に、ＱｏＥの向上に向けてＱｏＥを可視化するためにはリアルタイム映像配信サービスの映像品質推定技術が必要となる。ここで、映像配信サービスに対する映像品質推定技術（映像品質推定モデル）をリアルタイム映像配信サービスの映像に適用する際の課題を示す。

　映像品質推定モデルでは、ある時間幅に対するビットレートや解像度、フレームレートに対する平均値のような単一の値を入力とし、客観評価値を導出する。ＶｏＤ型の映像配信サービスではＣＢＲ符号化方式やＡＢＲ符号化方式が採用されることが一般的であり、これらは指定するビットレートが頻繁に変動することは想定されていない。

　しかし、リアルタイム映像配信サービスにおいてよく用いられるＶＢＲ符号化方式では、映像の特徴やネットワークの状態に応じて指定するビットレートが頻繁に変動する。そのため、ある時間幅のビットレートの平均値が同等であっても、ビットレートの変動パターンは複数存在し（安定時、上昇時、下降時など）、どの変動パターンであるかによって同程度のビットレートであっても出力映像の品質は異なる。

　ここで、ビットレートの変動パターンが上昇時、下降時であるそれぞれの場合と出力映像の品質への影響について示す。

　まず、図１に、平均ビットレートが同じ場合のビットレート安定時と上昇時のフレーム画質の特性例を示す。映像符号化時には、そのフレーム画像に対して符号化が行われるキーフレーム（Ｉフレーム）と、キーフレームなどの別のフレーム画像との差分情報に対して符号化が行われるＰフレームやＢフレームに分けられる。図１において、黒丸（黒塗り）のプロットは、キーフレーム（Ｉフレーム）に対応し、白丸（白抜き）のプロットは、キーフレーム以外のフレーム（差分情報）に対応する。

　図１に示すように、ビットレート安定時には、キーフレームの画質が最も高くなり、それ以外のフレームの画質はキーフレームよりも低くなる傾向にある。一方、ビットレート上昇時では、キーフレーム以外のフレームに対するビットレートが上昇したとしても、基本的にはそれより前の参照先であるフレーム以上の画質とはならない。そのため、平均ビットレートは同じであっても、安定時と上昇時とでは各映像フレーム画質の特性が異なるという課題がある。

　次に、図２に、平均ビットレートが同じ場合のビットレート安定時と下降時のフレームレートの特性例を示す。図２において、黒丸（黒塗り）のプロットは、キーフレーム（Ｉフレーム）に対応し、白丸（白抜き）のプロットは、キーフレーム以外のフレーム（差分情報）に対応する。図２に示すように、ビットレート安定時には、あらかじめ指定されているフレームレートで符号化が行われる。一方、ビットレート下降時には、各フレームに割り当てるレートの低下によるフレーム画質の低下に加え、割り当てるレートが不足することによるフレーム間隔の拡張によるフレームレートの低下が発生し、結果として出力映像ではカクツキやフリーズのような事象が発生する。そのため、平均ビットレートは同じであっても、安定時と下降時とで出力映像の劣化の特徴が異なるという課題がある。

　上記に示す２つの特性については、変動前後のビットレートにおける画質差が大きいほど、パターン間の出力映像品質の差分は大きくなる。

　本発明は、上記の点に鑑みてなされたものであって、ビットレートが変動する映像の品質の推定精度を向上させることを目的とする。

　そこで上記課題を解決するため、映像品質推定装置は、ネットワークを介して配信される映像のビットレート時系列から前記映像のビットレートの変動に関する特徴量を取得するように構成されている取得部と、前記ビットレート時系列を含む前記映像の符号化情報時系列と前記特徴量とを入力として、前記映像の品質の推定値を導出するように構成されている映像品質導出部と、を有する。

　ビットレートが変動する映像の品質の推定精度を向上させることができる。

本発明の実施の形態における平均ビットレートが同じ場合のビットレート安定時と上昇時のフレーム画質の特性例を示す図である。本発明の実施の形態における平均ビットレートが同じ場合のビットレート安定時と下降時のフレームレートの特性例を示す図である。本発明の実施の形態における映像品質推定装置１０のハードウェア構成例を示す図である。第１の実施の形態における映像品質推定装置１０の機能構成例を示す図である。第１の実施の形態における映像品質推定部１１ａの機能構成例を示す図である。第１の実施の形態における映像品質導出部１１２ａが実行する処理手順の一例を説明するための図である。第２の実施の形態における映像品質推定装置１０の機能構成例を示す図である。第２の実施の形態における映像品質推定部１１ｂの機能構成例を示す図である。第２の実施の形態における映像品質導出部１１２ｂが実行する処理手順の一例を説明するための図である。

　以下、図面に基づいて本発明の実施の形態を説明する。図３は、本発明の実施の形態における映像品質推定装置１０のハードウェア構成例を示す図である。図３の映像品質推定装置１０は、それぞれバスＢで相互に接続されているドライブ装置１００、補助記憶装置１０２、メモリ装置１０３、プロセッサ１０４、インタフェース装置１０５等を有する。

　映像品質推定装置１０での処理を実現するプログラムは、ＣＤ－ＲＯＭ等の記録媒体１０１によって提供される。プログラムを記憶した記録媒体１０１がドライブ装置１００にセットされると、プログラムが記録媒体１０１からドライブ装置１００を介して補助記憶装置１０２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１０１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１０２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

　メモリ装置１０３は、プログラムの起動指示があった場合に、補助記憶装置１０２からプログラムを読み出して格納する。プロセッサ１０４は、ＣＰＵ若しくはＧＰＵ（Graphics Processing Unit）、又はＣＰＵ、ＧＰＵであり、メモリ装置１０３に格納されたプログラムに従って映像品質推定装置１０に係る機能を実行する。インタフェース装置１０５は、ネットワークに接続するためのインタフェースとして用いられる。

　図４は、第１の実施の形態における映像品質推定装置１０の機能構成例を示す図である。図４において、映像品質推定装置１０は、映像品質推定部１１ａを有する。映像品質推定部１１ａは、映像品質推定装置１０にインストールされた１以上のプログラムが、プロセッサ１０４に実行させる処理により実現される。映像品質推定装置１０は、また、係数ＤＢ１２ａを利用する。係数ＤＢ１２ａは、例えば、補助記憶装置１０２、又は映像品質推定装置１０にネットワークを介して接続可能な記憶装置等を用いて実現可能である。

　映像品質推定部１１ａは、リアルタイム映像配信サービスにおいてネットワークを介して配信される映像（例えば、ＶＢＲ符号化方式で符号化された映像）について品質の評価対象としたい期間又は区間（以下、「評価区間」という。）のビットレート時系列ＢＲ（ｔ）を符号化情報の時系列（以下、「符号化情報時系列」という。）の一例として入力し、ビットレート時系列ＢＲ（ｔ）に基づいて評価区間における映像品質の推定値（以下、「映像品質Ｑ」という。）を推定する。映像品質Ｑの指標又は尺度は、例えば、ＭＯＳ（Mean Opinion Score）である。

　係数ＤＢ１２ａは、映像品質Ｑを導出するために映像品質推定部１１ａが用いる学習済みモデルの係数を格納する。

　図５は、第１の実施の形態における映像品質推定部１１ａの機能構成例を示す図である。図５において、映像品質推定部１１ａは、変動パターン特徴量取得部１１１及び映像品質導出部１１２ａを含む。

　変動パターン特徴量取得部１１１は、ビットレート時系列ＢＲ（ｔ）を入力とし、ビットレート時系列ＢＲ（ｔ）から変動パターン特徴量ＢＲ＿ｆを取得（算出）する。変動パターン特徴量ＢＲ＿ｆは、ビットレート安定時、上昇時、下降時を表現する特徴量である。例えば、変動パターン特徴量取得部１１１は、入力された時系列データの最初２秒の平均値と最後２秒の平均値との差分値をＢＲ＿ｆとして算出する。

　映像品質導出部１１２ａは、ビットレート時系列ＢＲ（ｔ）及び変動パターン特徴量ＢＲ＿ｆを入力とし、ＢＲ（ｔ）及びＢＲ＿ｆに基づいて映像品質Ｑを導出する。映像品質導出部１１２ａの動作としては、事前に実施した主観評価実験結果に基づき、ビットレート時系列ＢＲ（ｔ）及び変動パターン特徴量ＢＲ＿ｆを入力とし、映像品質Ｑを出力とした場合の両者の関係を機械学習によりモデル化することが考えられる。すなわち、映像品質導出部１１２ａは、このように学習されたモデルを利用して、ビットレート時系列ＢＲ（ｔ）及び変動パターン特徴量ＢＲ＿ｆに対応する映像品質Ｑを出力する。

　又は、映像品質導出部１１２ａは、図６の処理手順を実行することで、映像品質Ｑを導出してもよい。図６は、第１の実施の形態における映像品質導出部１１２ａが実行する処理手順の一例を説明するための図である。

　ステップＳ１０１ａにおいて、映像品質導出部１１２ａは、ビットレート時系列ＢＲ（ｔ）を入力とし、ＢＲ（ｔ）の平均値（以下、「平均ビットレートＢＲ＿ａｖｅ」という。）を計算する（。

　続いて、映像品質導出部１１２ａは、平均ビットレートＢＲ＿ａｖｅを入力として、平均ビットレートによる客観評価値Ｑ＿ｂｒを導出する（Ｓ１０２ａ）。ここで、客観評価値とは、主観評価実験結果によって得られる、映像品質に関する（各評価者の）主観的な評価値（主観評価値）に対する推定値をいい、例えば、主観評価値と主観評価値に影響を与えるパラメータとの関係を学習したモデルに対して当該パラメータの値を入力することで得られる値である。したがって、客観評価値は、主観評価値の平均的な値であるといえ、客観評価値の尺度は主観評価値の尺度と同じである。主観評価値の指標としてＭＯＳが用いられる場合、客観評価値の指標もＭＯＳである。平均ビットレートによる客観評価値Ｑ＿ｂｒを出力するモデルは、事前に実施した主観評価実験結果のうち、ビットレート安定時の結果に基づく機械学習により生成することが考えられる。すなわち、映像品質導出部１１２ａは、このように学習されたモデルを利用して、平均ビットレートＢＲ＿ａｖｅに対応する客観評価値Ｑ＿ｂｒを導出する。

　続いて、映像品質導出部１１２ａは、平均ビットレートによる客観評価値Ｑ＿ｂｒと変動パターン特徴量ＢＲ＿ｆとを入力として、映像品質Ｑを導出する（Ｓ１０３ａ）。このことは、客観評価値Ｑ＿ｂｒを変動パターン特徴量ＢＲ＿ｆが考慮された値に補正することを意味する。このとき、平均ビットレートによる客観評価値Ｑ＿ｂｒ及び変動パターン特徴量ＢＲ＿ｆと映像品質Ｑとの関係は、事前に実施した主観評価実験結果に基づく機械学習によりモデル化することが考えられる。すなわち、映像品質導出部１１２ａは、このように学習されたモデルを利用して平均ビットレートによる客観評価値Ｑ＿ｂｒ及び変動パターン特徴量ＢＲ＿ｆに対応する映像品質Ｑを導出する。なお、当該モデルは、図１、図２の特性を考慮したモデルになると考えられる。

　次に、第２の実施の形態について説明する。第２の実施の形態では第１の実施の形態と異なる点について説明する。第２の実施の形態において特に言及されない点については、第１の実施の形態と同様でもよい。

　図７は、第２の実施の形態における映像品質推定装置１０の機能構成例を示す図である。図７において、映像品質推定装置１０は、映像品質推定部１１ｂを有する。映像品質推定部１１ｂは、映像品質推定装置１０にインストールされた１以上のプログラムが、プロセッサ１０４に実行させる処理により実現される。映像品質推定装置１０は、また、係数ＤＢ１２ｂを利用する。係数ＤＢ１２ｂは、例えば、補助記憶装置１０２、又は映像品質推定装置１０にネットワークを介して接続可能な記憶装置等を用いて実現可能である。

　映像品質推定部１１ｂは、リアルタイム映像配信サービスにおいてネットワークを介して配信される映像（例えば、ＶＢＲ符号化方式で符号化された映像）の評価区間におけるビットレート時系列ＢＲ（ｔ）、フレームレート時系列ＦＲ（ｔ）及び解像度時系列ＲＳ（ｔ）等を符号化情報時系列の一例として入力し、これらに基づいて映像品質Ｑを推定する。

　係数ＤＢ１２ｂは、映像品質Ｑを導出するために映像品質推定部１１ｂが用いる学習済みモデルの係数を格納する。

　図８は、第２の実施の形態における映像品質推定部１１ｂの機能構成例を示す図である。図８中、図５と同一部分には同一符号を付し、その説明は省略する。図８において、映像品質推定部１１ｂは、変動パターン特徴量取得部１１１及び映像品質導出部１１２ｂを含む。

　映像品質導出部１１２ｂは、ビットレート時系列ＢＲ（ｔ）、フレームレート時系列ＦＲ（ｔ）、解像度時系列ＲＳ（ｔ）及び変動パターン特徴量ＢＲ＿ｆを入力とし、これらに基づいて映像品質Ｑを導出する。映像品質導出部１１２ｂの動作としては、事前に実施した主観評価実験結果に基づき、ビットレート時系列ＢＲ（ｔ）、フレームレート時系列ＦＲ（ｔ）、解像度時系列ＲＳ（ｔ）及び変動パターン特徴量ＢＲ＿ｆを入力とし、映像品質Ｑを出力とした場合の両者の関係を機械学習によりモデル化することが考えられる。すなわち、映像品質導出部１１２ｂは、このように学習されたモデルを利用して、ビットレート時系列ＢＲ（ｔ）、フレームレート時系列ＦＲ（ｔ）、解像度時系列ＲＳ（ｔ）、変動パターン特徴量ＢＲ＿ｆに対応する映像品質Ｑを出力する。

　又は、映像品質導出部１１２ｂは、図９の処理手順を実行することで、映像品質Ｑを導出してもよい。図９は、第２の実施の形態における映像品質導出部１１２ｂが実行する処理手順の一例を説明するための図である。

　ステップＳ１０１ｂにおいて、映像品質導出部１１２ｂは、ビットレート時系列ＢＲ（ｔ）、フレームレート時系列ＦＲ（ｔ）及び解像度時系列ＲＳ（ｔ）を入力として、ＢＲ（ｔ）の平均値（以下、「平均ビットレートＢＲ＿ａｖｅ」という。）、ＦＲ（ｔ）の平均値（以下、「平均フレームレートＦＲ＿ａｖｅ」という。）、ＲＳ（ｔ）の平均値（以下、「平均解像度ＲＳ＿ａｖｅ」という。）を計算する。

　続いて、映像品質導出部１１２ｂは、符号化情報時系列ごとの平均値（平均ビットレートＢＲ＿ａｖｅ、平均解像度ＲＳ＿ａｖｅ及び平均フレームレートＦＲ＿ａｖｅ）を入力として、符号化情報の平均値による客観評価値Ｑ＿ｅｎを導出する（Ｓ１０２ｂ）。このとき、平均ビットレートＢＲ＿ａｖｅ、平均フレームレートＦＲ＿ａｖｅ及び平均解像度ＲＳ＿ａｖｅと、符号化情報の平均値による客観評価値Ｑ＿ｅｎとの関係は、事前に実施した主観評価実験結果のうち、ビットレート安定時の結果に基づく機械学習によりモデル化することが考えられる。この場合、映像品質導出部１１２ｂは、このように学習されたモデルを利用して平均ビットレートＢＲ＿ａｖｅ、平均フレームレートＦＲ＿ａｖｅ及び平均解像度ＲＳ＿ａｖｅに対応する客観評価値Ｑ＿ｅｎを導出する。又は、映像品質導出部１１２ｂは、既存の客観品質評価技術（非特許文献２）などを利用して、平均ビットレートＢＲ＿ａｖｅ、平均フレームレートＦＲ＿ａｖｅ及び平均解像度ＲＳ＿ａｖｅに対応する客観評価値Ｑ＿ｅｎを導出してもよい。

　続いて、映像品質導出部１１２ｂは、符号化情報の平均値による客観評価値Ｑ＿ｅｎと変動パターン特徴量ＢＲ＿ｆとを入力とし、映像品質Ｑを導出する（Ｓ１０３ｂ）。このことは、客観評価値Ｑ＿ｅｎを変動パターン特徴量ＢＲ＿ｆが考慮された値に補正することを意味する。このとき、符号化情報の平均値による客観評価値Ｑ＿ｅｎ及び変動パターン特徴量ＢＲ＿ｆと映像品質Ｑとの関係は、事前に実施した主観評価実験結果に基づく機械学習によりモデル化することが考えられる。すなわち、映像品質導出部１１２ｂは、このように学習されたモデルを利用して符号化情報の平均値による客観評価値Ｑ＿ｅｎ及び変動パターン特徴量ＢＲ＿ｆに対応する映像品質Ｑを導出する。なお、当該モデルは、図１、図２の特性を考慮したモデルになると考えられる。

　上述したように、上記各実施の形態によれば、符号化情報時系列（ビットレート時系列のみ、又はビットレート時系列、解像度時系列及びフレームレート時系列）の変動パターンを入力として映像品質の推定値が導出される。したがって、平均ビットレートが同程度であっても、ビットレート安定時、上昇時、下降時において映像品質が異なるという特性を考慮して映像品質を推定することができる。その結果、ビットレートが変動する映像の品質の推定精度を向上させることができる。

　例えば、リアルタイム映像配信サービス事業者が、推定された映像品質に基づいて、映像品質に影響を与える符号化品質を改善していくことで、映像品質の維持・向上を期待することができる。

　以上、本発明の実施の形態について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１０　　　　　映像品質推定装置
１１ａ　　　　映像品質推定部
１１ｂ　　　　映像品質推定部
１２ａ　　　　係数ＤＢ
１２ｂ　　　　係数ＤＢ
１００　　　　ドライブ装置
１０１　　　　記録媒体
１０２　　　　補助記憶装置
１０３　　　　メモリ装置
１０４　　　　プロセッサ
１０５　　　　インタフェース装置
１１１　　　　変動パターン特徴量取得部
１１２ａ　　　映像品質導出部
１１２ｂ　　　映像品質導出部
Ｂ　　　　　　バス

Claims

　ネットワークを介して配信される映像のビットレート時系列から前記映像のビットレートの変動に関する特徴量を取得するように構成されている取得部と、
　前記ビットレート時系列を含む前記映像の符号化情報時系列と前記特徴量とを入力として、前記映像の品質の推定値を導出するように構成されている映像品質導出部と、
を有することを特徴とする映像品質推定装置。
　前記符号化情報時系列は、更に、前記映像の解像度時系列及びフレームレート時系列を含む、
ことを特徴とする請求項１記載の映像品質推定装置。
　前記映像品質導出部は、前記符号化情報時系列ごとに平均値を計算し、前記平均値に基づいて前記映像の品質に関する客観評価値を導出し、前記客観評価値と前記特徴量とに基づいて前記推定値を導出するように構成されている、
ことを特徴とする請求項１又は２記載の映像品質推定装置。
　ネットワークを介して配信される映像のビットレート時系列から前記映像のビットレートの変動に関する特徴量を取得する取得手順と、
　前記ビットレート時系列を含む前記映像の符号化情報時系列と前記特徴量とを入力として、前記映像の品質の推定値を導出する映像品質導出手順と、
をコンピュータが実行することを特徴とする映像品質推定方法。
　前記符号化情報時系列は、更に、前記映像の解像度時系列及びフレームレート時系列を含む、
ことを特徴とする請求項４記載の映像品質推定方法。
　前記映像品質導出手順は、前記符号化情報時系列ごとに平均値を計算し、前記平均値に基づいて前記映像の品質に関する客観評価値を導出し、前記客観評価値と前記特徴量とに基づいて前記推定値を導出する、
ことを特徴とする請求項４又は５記載の映像品質推定方法。
　ネットワークを介して配信される映像のビットレート時系列から前記映像のビットレートの変動に関する特徴量を取得する取得手順と、
　前記ビットレート時系列を含む前記映像の符号化情報時系列と前記特徴量とを入力として、前記映像の品質の推定値を導出する映像品質導出手順と、
をコンピュータに実行させることを特徴とするプログラム。