WO2017104416A1

WO2017104416A1 - オーディオビジュアル品質推定装置、オーディオビジュアル品質推定方法、及びプログラム

Info

Publication number: WO2017104416A1
Application number: PCT/JP2016/085553
Authority: WO
Inventors: 和久山岸
Original assignee: 日本電信電話株式会社
Priority date: 2015-12-16
Filing date: 2016-11-30
Publication date: 2017-06-22
Also published as: CN108476317A; KR20180059890A; RU2693027C1; CN108476317B; EP3393125A1; JP6662905B2; US20180332326A1; US10869072B2; KR102000590B1; JPWO2017104416A1; EP3393125A4; EP3393125B1

Abstract

オーディオビジュアルのコンテンツに関するパラメータのうち、音響品質に影響を与えるパラメータに基づいて、コンテンツの再生開始時から単位時間ごとの音響品質を推定し、コンテンツに関するパラメータのうち、映像品質に影響を与えるパラメータに基づいて、単位時間ごとの映像品質を推定し、音響品質及び映像品質を単位時間ごとに統合して、単位時間ごとのオーディオビジュアル品質を推定し、単位時間ごとのオーディオビジュアル品質を一つに統合して、時間的な品質変動を加味した、符号化劣化に対するオーディオビジュアル符号化品質を推定し、オーディオビジュアル符号化品質に基づいて、コンテンツの終了後に視聴者が体感するオーディオビジュアル品質を推定することで、オーディオビジュアルの品質が時間的に変化する場合であっても品質評価を可能とする。

Description

オーディオビジュアル品質推定装置、オーディオビジュアル品質推定方法、及びプログラム

　本発明は、オーディオビジュアル品質推定装置、オーディオビジュアル品質推定方法、及びプログラムに関する。

　インターネットを介して映像や音響（以下、音声も含む）を含む映像メディアを端末間あるいはサーバと端末との間で転送する映像通信サービスが普及している。

　インターネットは、必ずしも通信品質が保証されていないネットワークであるため、音声メディアや映像メディアなどを用いて通信を行う場合、視聴者端末とネットワークの回線帯域が狭いことによるビットレートの低下、回線が輻輳することによるパケット損失、パケット転送遅延、パケットの再送が発生し、音声メディアや映像メディアなどに対して視聴者が知覚する品質が劣化してしまう。

　具体的には、ネットワークを介して過剰なビットレートで映像を配信することができないために原映像について符号化が行われるが、原映像を符号化する際に、フレーム内の映像信号にブロック単位の処理による劣化が生じたり、映像信号の高周波成分が失われることにより、映像全体の精細感が低くなったりする。また、配信ビットレートを確保できないために、映像の解像度を低下させ、精細感が低くなったり、フレームレートを低下させることで映像の連続性が確保できず、不連続な映像になったりする。また、符号化された映像データをパケットとしてネットワークを介して視聴者端末に送信する際、パケット損失や廃棄が発生すると、フレーム内に劣化が生じたり、スループット等が低下しパケットが再生のタイミングまでに届かず、視聴者端末でのデータバッファ量が不足して映像の再生が停止したりする。

　同様に、音響においても、ネットワークを介して過剰なビットレートで音響を配信することができないために原音響について符号化が行われるが、原音響を符号化する際に、音響の高周波成分が失われ、音響の明瞭度が失われる。また、映像同様に、符号化された音響データをパケットとしてネットワークを介して視聴者端末に送信する際、パケット損失や廃棄が発生すると、音響に歪が生じたり、スループット等が低下しパケットが再生のタイミングまでに届かず、視聴者端末でのデータバッファ量が不足して音響の再生が停止したりする。

　結果として、視聴者は、映像劣化、音響劣化を知覚し、オーディオビジュアル品質の低下を知覚する。

　サービス提供者が、上記のような映像通信サービスを良好な品質で提供していることを確認するためには、サービス提供中に、視聴者が体感するオーディオビジュアルの品質を測定し、視聴者に対して提供されるオーディオビジュアルの品質が高いことを監視できることが重要となる。

　したがって、視聴者が体感するオーディオビジュアル品質を適切に表現することができるオーディオビジュアル品質推定技術が必要とされている。

　従来、オーディオビジュアル品質を評価する手法として、主観品質評価法（例えば、非特許文献１参照）や、客観品質評価法（例えば、非特許文献２参照）がある。

　主観品質評価法では、複数の視聴者が実際に映像を視聴し、体感した品質を、５段階（９段階や１１段階の場合もある）の品質尺度（非常に良い、良い、ふつう、悪い、非常に悪い）や妨害尺度（劣化が全く認められない、劣化が認められるが気にならない、劣化がわずかに気になる、劣化が気になる、劣化が非常に気になる）などにより評価し、全視聴者数で各映像（例えば、パケット損失率０％でビットレートが２Ｍｂｐｓの映像）の品質評価値を平均し、その値をＭＯＳ（Mean Opinion Score）値やＤＭＯＳ（Degradation Mean Opinion Score）値として定義している。

　しかしながら、主観品質評価は、特別な専用機材（モニタなど）や評価環境（室内照度や室内騒音など）を必要とするだけではなく、多数の視聴者が実際に映像や音響を評価する必要がある。そのため、視聴者が実際に評価を完了するまでに時間がかかってしまい、品質をリアルタイムに評価したい場合には不向きである。

　そこで、映像品質や音響品質に影響を与える特徴量（例えば、ビットレート、パケット損失情報など）を利用し、オーディオビジュアル品質評価値を出力する客観品質評価法の開発が望まれている。

　従来の客観品質評価法の１つに、送信されたパケットとサービス提供者などから得た設定値を入力とし、パケット損失により発生した映像フレームの損失により、どの程度、劣化が伝搬するかを考慮し、実コンテンツの尺長（例えば、３０分、１時間、２時間など）に対し、短時間（例えば、１０秒程度）のオーディオビジュアル品質評価値を導出する技術がある（例えば、非特許文献２参照）。

　従来の客観品質評価法は、上記のように、パケットを用いて短時間におけるオーディオビジュアル品質評価値を推定するものであった。

Subjective video quality assessment methods for multimedia applications,ITU-T P.910 Parametric non-intrusive assessment of audiovisual media streaming quality,ITU-T P.1201

　しかしながら、非特許文献２の技術は、例えば、１０秒程度のオーディオビジュアルの品質の推定を前提としており、一定のビットレートで配信される映像通信サービスを対象としているため、ビットレートが時間的に変動し、オーディオビジュアル品質が時間的に変動するようなサービス（例えば、ＨＬＳ（HTTP Live Streaming）やＭＰＥＧ－ＤＡＳＨ）の品質推定には適用が困難である。具体的には、非特許文献２では、短時間のオーディオビジュアル品質を推定することから、図１に示すように、時間的に品質が大きく変動することが想定されていないため、このような状況のオーディオビジュアル品質を推定するのが困難である（課題１）。

　また、非特許文献２は、短時間のオーディオビジュアル品質の推定を目的としているため、最終的に視聴者が視聴し終わった時点の長時間のコンテンツ（例えば、数分尺の映像、３０分尺のアニメ、２時間尺の映画など）のオーディオビジュアル品質の推定には適用が困難である。具体的には、視聴者が長時間のコンテンツを視聴した際は、コンテンツの最初の方の印象が薄れ、逆に、最後の方の印象が残る傾向がある（忘却効果／親近効果）。しかし、非特許文献２では、品質に対する時間的な重みが時間の経過とともに大きくなる点が考慮されていない（課題２）。

　また、非特許文献２では、オーディオビジュアル品質が低い状態は、オーディオビジュアル品質が高い状態より、最終的なオーディオビジュアル品質に与える影響が強いことが考慮されていない（課題３）。

　また、非特許文献２では、オーディオビジュアルコンテンツの符号化劣化、オーディオビジュアルコンテンツの再生停止回数、再生停止時間、再生停止間隔を考慮して、オーディオビジュアル品質を推定しているが、短時間の時間変動を前提としているため、オーディオビジュアルコンテンツの時間長と再生停止時間の関係を考慮できていない。例えば、再生停止時間が１０秒であっても、１０秒のオーディオビジュアルコンテンツと、１時間のオーディオビジュアルコンテンツとでは、オーディオビジュアル品質に与える影響（前者はコンテンツ長が１０秒尺のものに１０秒の再生停止が発生しているためオーディオビジュアル品質は非常に低い。一方で、後者は１時間尺のオーディオビジュアルコンテンツに１０秒の再生停止が発生しているため、オーディオビジュアル品質は高い品質を維持している。）は大きく異なるが、このような影響を加味できていない。再生停止回数や再生停止間隔についても同様に、コンテンツ長を加味できていない（課題４）。

　本発明は、上記の点に鑑みてなされたものであって、オーディオビジュアルの品質が時間的に変化する場合であっても品質評価を可能とすることを目的とする。

　そこで上記課題を解決するため、オーディオビジュアル品質推定装置は、オーディオビジュアルのコンテンツに関するパラメータのうち、音響品質に影響を与えるパラメータに基づいて、前記コンテンツの再生開始時から単位時間ごとの音響品質を推定する音響品質推定部と、前記コンテンツに関するパラメータのうち、映像品質に影響を与えるパラメータに基づいて、前記単位時間ごとの映像品質を推定する映像品質推定部と、前記音響品質及び前記映像品質を前記単位時間ごとに統合して、前記単位時間ごとのオーディオビジュアル品質を推定する単位時間品質推定部と、前記単位時間ごとのオーディオビジュアル品質を一つに統合して、時間的な品質変動を加味した、符号化劣化に対するオーディオビジュアル符号化品質を推定する符号化品質推定部と、前記オーディオビジュアル符号化品質に基づいて、前記コンテンツの終了後に視聴者が体感するオーディオビジュアル品質を推定するオーディオビジュアル品質推定部と、を有する。

　オーディオビジュアルの品質が時間的に変化する場合であっても品質評価を可能とすることができる。

オーディオビジュアル品質の時間的な変動を説明する図である。本発明の実施の形態におけるオーディオビジュアル品質推定装置のハードウェア構成例を示す図である。本発明の実施の形態におけるオーディオビジュアル品質推定装置の機能構成例を示す図である。入力パラメータがコンテンツのパケット等から抽出される場合の機能構成例を示す図である。ＭＰＤから単位時間ごとのメディアパラメータを抽出する方法を説明するための図である。バッファリングパラメータを説明するための図である。オーディオビジュアル品質推定装置が実行する処理手順の一例を説明するためのフローチャートである。

　以下、図面に基づいて本発明の実施の形態を説明する。図２は、本発明の実施の形態におけるオーディオビジュアル品質推定装置のハードウェア構成例を示す図である。図２のオーディオビジュアル品質推定装置１０は、それぞれバスＢで相互に接続されているドライブ装置１００、補助記憶装置１０２、メモリ装置１０３、ＣＰＵ１０４、及びインタフェース装置１０５等を有する。

　オーディオビジュアル品質推定装置１０での処理を実現するプログラムは、フレキシブルディスク又はＣＤ－ＲＯＭ等の記録媒体１０１によって提供される。プログラムを記憶した記録媒体１０１がドライブ装置１００にセットされると、プログラムが記録媒体１０１からドライブ装置１００を介して補助記憶装置１０２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１０１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。また、当該プログラムは、他のプログラムの一部としてインストールされるようにしてもよい。補助記憶装置１０２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

　メモリ装置１０３は、プログラムの起動指示があった場合に、補助記憶装置１０２からプログラムを読み出して格納する。ＣＰＵ１０４は、メモリ装置１０３に格納されたプログラムに従ってオーディオビジュアル品質推定装置１０に係る機能を実行する。インタフェース装置１０５は、ネットワークに接続するためのインタフェースとして用いられる。

　図３は、本発明の実施の形態におけるオーディオビジュアル品質推定装置の機能構成例を示す図である。図３において、オーディオビジュアル品質推定装置１０は、オーディオビジュアルコンテンツ（以下、単に「コンテンツ」という。）について、視聴者が最終的に感じたオーディオビジュアル品質を推定するために、音響品質推定部１１、映像品質推定部１２、単位時間品質推定部１３、符号化品質推定部１４、及びオーディオビジュアル品質推定部１５等を有する。これら各部は、オーディオビジュアル品質推定装置１０にインストールされた１以上のプログラムが、ＣＰＵ１０４に実行させる処理により実現される。すなわち、これら各部は、オーディオビジュアル品質推定装置１０のハードウェア資源と、オーディオビジュアル品質推定装置１０にインストールされたプログラム（ソフトウェア）との協働によって実現される。

　音響品質推定部１１は、コンテンツに関するパラメータのうち、コンテンツの音響品質に影響を与える音響パラメータ（例えば、音響ビットレート、サンプリングレート等）に基づいて、コンテンツについて、単位時間ごとの音響品質の推定値（以下、単に「音響品質」という。）を算出する。単位時間は、例えば、１秒、５秒、又は１０秒等、コンテンツ長（コンテンツの時間長）に対して相対的に短い時間である。

　映像品質推定部１２は、コンテンツに関するパラメータのうち、コンテンツの映像品質に影響を与える映像パラメータ（例えば、映像ビットレート、解像度、フレームレート等）に基づいて、コンテンツについて、単位時間ごとの映像品質の推定値（以下、単に「映像品質」という。）を算出する。

　単位時間品質推定部１３は、音響品質推定部１１から出力される単位時間ごとの音響品質と、映像品質推定部１２から出力される単位時間ごとの映像品質とに基づいて、コンテンツについて、単位時間ごとのオーディオビジュアル品質の推定値を算出する。

　符号化品質推定部１４は、単位時間品質推定部１３から出力される単位時間ごとのオーディオビジュアル品質に基づいて、コンテンツについて、時間的な品質変動を加味した符号化劣化に対するオーディオビジュアル符号化品質の推定値（以下、単に「オーディオビジュアル符号化品質」という。）を算出する。

　オーディオビジュアル品質推定部１５は、符号化品質推定部１４から出力されるオーディオビジュアル符号化品質と、オーディオビジュアルの再生停止に関するバッファリングパラメータ（例えば、再生停止時間の総時間、再生停止回数、再生停止間隔の平均値）とに基づいて、視聴者が最終的に（コンテンツの視聴終了後に）感じるオーディオビジュアル品質の推定値（以下、単に「オーディオビジュアル品質」という。）を算出する。なお、再生停止とは、視聴者による意図的な再生の停止ではなく、コンテンツの品質の劣化に基づいて発生する再生の停止をいう。なお、オーディオビジュアル品質推定部１５は、更に、オーディオビジュアルコンテンツの時間長（但し、停止時間を含まない純粋なコンテンツ長）に基づいてオーディオビジュアル品質を算出してもよい。

　なお、図３に示される音響パラメータ、映像パラメータ、及びバッファリングパラメータ等の入力パラメータは、例えば、コンテンツがネットワーク転送される際のパケットや視聴者端末（コンテンツの閲覧に利用される端末）から自動的に抽出されてもよいし、パケット以外の情報から抽出されてもよい。

　図４は、入力パラメータがコンテンツのパケット等から抽出される場合の機能構成例を示す図である。図４中、図３と同一部分には同一符号を付し、その説明は省略する。

　図４では、図３に対して、パラメータ抽出部２０が追加されている。パラメータ抽出部２０は、オーディオビジュアル品質推定装置１０によって実現されてもよいし、オーディオビジュアル品質推定装置１０以外の装置（コンピュータ）によって実現されてもよい。いずれの場合であっても、パラメータ抽出部２０は、コンピュータ（オーディオビジュアル品質推定装置１０又は他の装置）にインストールされたプログラムが、インストール先の装置のＣＰＵに実行させる処理により実現される。

　パラメータ抽出部２０は、映像通信サービスを提供するサービス提供者が有する情報、コンテンツを転送するパケット、視聴者端末のいずれかから抽出できるパラメータを用いてメディアパラメータ（音響パラメータ及び映像パラメータ）及びバッファリングパラメータを抽出する。図４において、パラメータ抽出部２０は、メディアパラメータ抽出部２１及びバッファリングパラメータ抽出部２２を含む。

　メディアパラメータ抽出部２１は、音響パラメータとして音響ビットレートを抽出し、映像パラメータとして映像ビットレート、解像度、及びフレームレートを抽出する。

　ネットワーク内で（ネットワークを流れるパケットから）メディアパラメータを抽出する方法としては、Segmentation formatsやＭＰＤ（Media presentation description）からメディアパラメータを抽出する方法が挙げられる。視聴者端末でメディアパラメータを抽出する方法としては、視聴者端末が受信したSegmentation formatsやＭＰＤからメディアパラメータが抽出されても良いし、符号化情報が記載されたビットストリームからメディアパラメータが抽出されてもよい。

　図５は、ＭＰＤから単位時間ごとのメディアパラメータを抽出する方法を説明するための図である。

　図５の（１）は、コンテンツのチャンク（Ｃｈｕｎｋ）の長さが５秒であり、各チャンクに付随しているＭＰＤから、当該チャンクに関する音響ビットレートａｂｒ、映像ビットレートｖｂｒ、解像度ｒｓ、及びフレームレートｆｒ等を抽出可能であることを示す。

　（２）では、（１）に示されるような状況において、単位時間が１秒である場合、５秒目までの各秒には、１番目のチャンク（Ｃｈｕｎｋ１）のメディアパラメータを割り当てることができ、６～１０秒目までの各秒には、２番目のチャンク（Ｃｈｕｎｋ２）のメディアパラメータを割り当てることができることを示す。以降の各秒についても、同様に、各秒に対応するチャンクについて抽出されたメディアパラメータを割り当てることができる。

　なお、例えば、音響品質及び映像品質に影響を与えるメディアパラメータとして、音響ビットレート、映像ビットレート、解像度、フレームレートが考えられるが、サービス提供者は、これらの値を設定してコンテンツを符号化しているため、オーディオビジュアル品質推定装置１０は、これらの設定値を直接利用しても良い。

　バッファリングパラメータ抽出部２２は、コンテンツの再生停止の総時間、再生停止回数、及び再生停止時間間隔の平均値を、バッファリングパラメータとして抽出する。

　図６は、バッファリングパラメータを説明するための図である。図６の上段には、コンテンツＡのコンテンツ長（Ｔ＝６０秒）を示す矩形が示されている。図６の下段には、コンテンツＡの再生に要した時間を示す矩形が示されている。下段の矩形によれば、再生開始から１０秒が経過した時点（コンテンツＡの１０秒目の再生時）において、５秒間の再生停止（ｂ１）が発生し、再生開始から２５秒が経過した時点（コンテンツＡの２０秒目の再生時）において、１０秒間の再生停止（ｂ２）が発生し、再生開始から６５秒が経過した時点（コンテンツＡの５０秒目の再生時）において、５秒間の再生停止（ｂ３）が発生したことが示されている。この場合、コンテンツの再生停止の総時間は、５＋１０＋５＝２０秒（ｂ１＋ｂ２＋ｂ３）であり、再生停止回数は、３回である。また、最初の再生停止の開始時と、２番目の再生停止の開始時との間隔は、１０秒であり、２番目の再生停止の開始時と、３番目の再生停止の開始時との間隔は、３０秒である。したがって、この場合、再生停止時間間隔の平均値は、（１０＋３０）÷２＝２０秒である。すなわち、再生停止時間間隔とは、或る再生停止について、その開始時から次の再生停止の開始時までの時間をいう。但し、再生停止回数が０もしくは１回の場合は、再生停止時間間隔の平均値は０とする。

　このようなバッファリングパラメータ（再生停止時間の総時間、再生停止回数、再生停止間隔の平均値）を、ネットワーク内で抽出する際には、視聴者端末のバッファ量が一定であることを仮定し、視聴者端末の受信バッファ量から算出することができる。具体的には、受信バッファでデータが枯渇した際に再生停止が発生するため、データの枯渇した回数を再生停止回数として推定することができ、ビットレートと受信バッファ量からコンテンツの停止開始時期と停止時間長とを推定することができる。視聴者端末内でバッファリングパラメータを抽出する際には、実際にコンテンツが停止している時間をプレイヤーで検知してバッファリングパラメータを算出しても良い。プレイヤーで再生時間を把握しながら再生をしているため、例えば、ＰＴＳ（Presentation time stamp）の情報を取得し、現在時刻と突合することで、再生停止開始時期と再生停止時間長とを把握できる。

　以下、オーディオビジュアル品質推定装置１０が実行する処理手順について説明する。図７は、オーディオビジュアル品質推定装置が実行する処理手順の一例を説明するためのフローチャートである。

　品質の評価対象のコンテンツ（以下、「対象コンテンツ」という。）に関するパケット等の情報（例えば、対象コンテンツの転送に利用された全てのパケット）がパラメータ抽出部２０に入力されると、メディアパラメータ抽出部２１が、音響品質に影響を与える音響パラメータ（音響ビットレート）と、映像品質に影響を与える映像パラメータ（映像ビットレート、解像度、フレームレート）とを単位時間ごとに算出し、バッファリングパラメータ抽出部２２が、バッファリングに関するバッファリングパラメータ（再生停止回数、再生停止の総時間、再生停止間隔の平均値）を算出する（Ｓ１０１）。音響パラメータは、音響品質推定部１１へ出力され、映像パラメータは、映像品質推定部１２へ出力され、バッファリングパラメータは、オーディオビジュアル品質推定部１５へ出力される。

　続いて、音響品質推定部１１は、入力された音響パラメータに基づいて、対象コンテンツについて、単位時間ごとの音響品質を算出し、算出された音響品質を、単位時間品質推定部１３に出力する（Ｓ１０２）。

　音響品質推定部１１は、対象コンテンツの単位時間ごとの音響ビットレートａｂｒ（ｔ）から、単位時間ごとの音響品質ＡＱ（ｔ）を算出する。具体的には、音響ビットレートａｂｒ（ｔ）の低下に対し音響品質ＡＱ（ｔ）が低下する特性を考慮し、以下の数式（１）を利用して算出する。

　ただし、ａｂｒ（ｔ）は、コンテンツの再生開始時からｔ秒後の音響ビットレートとしてメディアパラメータ抽出部２１によって算出された値、係数ａ_１，ａ_２，ａ_３は、予め設定された定数とする。本実施の形態では、単位時間は、１秒であるとする。すなわち、コンテンツについて、１秒ごとの音響品質ＡＱ（ｔ）が推定されるため、ｔ＝１，２，３，…秒である。なお、ｔは、バッファリングによる再生停止時間を除いたコンテンツの再生開始時からの経過時間である。つまり、６０秒のコンテンツの場合、途中に再生停止が１０秒入っても、ｔ＝１，２，…，６０となる。但し、音響品質推定部１１は、数式（１）とは異なる数式を用いて音響品質ＡＱ（ｔ）を算出してもよい。

　続いて、映像品質推定部１２は、入力された映像パラメータに基づいて、対象コンテンツについて、単位時間ごとの映像品質を算出し、算出された映像品質を、単位時間品質推定部１３に出力する（Ｓ１０３）。

　映像品質推定部１２は、対象コンテンツの単位時間ごとの映像ビットレートｖｂｒ（ｔ）、解像度ｒｓ（ｔ）、及びフレームレートｆｒ（ｔ）から、単位時間ごとの映像品質ＶＱ（ｔ）を算出する。具体的には、解像度とフレームレートの組ごとに決まる理論上の最高／最大映像品質Ｘ（ｔ）を考慮すること、また、最高／最大映像品質Ｘ（ｔ）は、解像度ｒｓ（ｔ）やフレームレートｆｒ（ｔ）の低下とともに低下する特性を考慮すること、上記最高／最大映像品質Ｘ（ｔ）に対し、映像ビットレートｖｂｒ（ｔ）の低下とともに映像品質ＶＱ（ｔ）が低下する特性を考慮し、以下の数式（２）及び（３）を用いて算出される。

　ただし、ｖｂｒ（ｔ）は、コンテンツの再生開始時からｔ秒後の映像ビットレート、ｒｓ（ｔ）は、コンテンツの再生開始時からｔ秒後の垂直・水平方向のライン数及び画素数から求められた解像度（例えば、１９２０×１０８０などの総画素数）又は垂直方向のライン数若しくは水平方向の画素数のみを把握可能な場合には、当該ライン数若しくは当該画素数から公知の方法で算出された解像度、ｆｒ（ｔ）は、コンテンツの再生開始時からｔ秒後のフレームレートであり、メディアパラメータ抽出部２１によって算出された値、係数ｖ_１，ｖ_２，…，ｖ_７は、予め設定された定数とする。本実施の形態では、１秒ごとの映像品質ＶＱ（ｔ）が推定されるため、ｔ＝１，２，３，…秒である。但し、映像品質推定部１２は、数式（２）及び（３）とは異なる数式を用いて映像品質ＶＱ（ｔ）を算出してもよい。

　続いて、単位時間品質推定部１３は、入力された音響品質ＡＱ（ｔ）及び映像品質ＶＱ（ｔ）を単位時間ごとに統合して、単位時間ごとのオーディオビジュアル品質を算出し、算出された単位時間ごとのオーディオビジュアル品質を、符号化品質推定部１４へ出力する（Ｓ１０４）。

　具体的には、単位時間品質推定部１３は、単位時間ごとのオーディオビジュアル品質ＴＡＶＱ（ｔ）を、単位時間ごとの音響品質ＡＱ（ｔ）及び映像品質ＶＱ（ｔ）の影響の重みを付けて、以下の数式（４）を用いて算出する。

　ただし、ａｖ_１，ａｖ_２，ａｖ_３，ａｖ_４は、予め設定された定数とする。ｔは、コンテンツの再生開始時からバッファリングによる再生停止を除いた経過時間（ｔ＝１，２，３，…秒）である。

　続いて、符号化品質推定部１４は、入力された単位時間ごとのオーディオビジュアル品質ＴＡＶＱ（ｔ）を一つに統合して、符号化劣化のみを加味したオーディオビジュアル符号化品質を算出し、算出されたオーディオビジュアル符号化品質をオーディオビジュアル品質推定部１５へ出力する（Ｓ１０５）。

　課題２で示したように、忘却効果／親近効果の影響があるため、品質に対する時間的な重みは時間の経過とともに大きくなる（ｗ_１（ｕ））。また、課題３で示したように低い品質が最終的な品質に与える影響（重み）は大きくなる（ｗ_２（ＴＡＶＱ（ｔ）））。そこで、符号化品質推定部１４は、オーディオビジュアル符号化品質ＣＡＶＱを、以下の数式（５）を用いて算出する。

　ただし、ｄｕｒａｔｉｏｎは、オーディオビジュアルコンテンツの時間長（秒）（ただし、再生停止時間を含まない純粋なコンテンツ長）であり、例えば、予め設定されていてもよい。ｔは、再生開始時からの経過時間（ｔ＝１，２，３，…秒）、ｔ_１，ｔ_２，ｔ_３，ｔ_４，ｔ_５は予め設定された定数とする。

　すなわち、数式（５）によれば、コンテンツの開始から終了にかけての単位時間ごとのオーディオビジュアル品質ＴＡＶＱ（ｔ）について、コンテンツの終了に向かって重みを大きくして（コンテンツの終了に相対的に近い単位時間に係るオーディオビジュアル品質ＴＡＶＱほど重みを大きくして）加重平均が算出されることで、オーディオビジュアル符号化品質ＣＡＶＱが導出される。加えて、単位時間ごとのオーディオビジュアル品質ＴＡＶＱ（ｔ）が小さい場合（つまり、品質が低い場合）の影響を重みとして大きくして加重平均が算出されることで、オーディオビジュアル符号化品質ＣＡＶＱが導出される。

　本実施の形態ではｗ_１（ｕ）は指数関数で表現されているが、ｗ_１（ｕ）は、一次関数や二次関数等、コンテンツの終了に相対的に近い単位時間に係るオーディオビジュアル品質ＴＡＶＱほど重みが大きくなる関数で定式化されていればよい。したがって、ｗ_１（ｕ）は、指数関数に限られない。また、ｗ_２（ＴＡＶＱ（ｔ））は一次関数で表現されているが、ｗ_２（ＴＡＶＱ（ｔ））は、指数関数等、品質が低い場合に重みが大きくなる関数で定式化されていればよい。したがって、ｗ_２（ＴＡＶＱ（ｔ））は、一次関数に限られない。

　なお、ｗ_１（ｕ）＝１またはｗ_２（ＴＡＶＱ（ｔ））＝１とすると、それぞれの重みのみを考慮した推定式となる。また、品質が低い期間に対して重みを大きくするｗ_２（ＴＡＶＱ（Ｔ））を推定式に導入することに代えて、品質の低下回数が大きいほどＣＡＶＱが小さくなる推定式としてもよい。品質の向上回数と低下回数の和をもって変動回数として、変動回数が多いほどＣＡＶＱが小さくなる推定式としてもよい。これらをｗ_２（ＴＡＶＱ（Ｔ））と併用してもよい。

　続いて、オーディオビジュアル品質推定部１５は、入力されたバッファリングパラメータ及びオーディオビジュアル符号化品質ＣＡＶＱに基づいて、オーディオビジュアル品質を算出する（Ｓ１０６）。

　具体的には、オーディオビジュアル品質推定部１５は、オーディオビジュアル符号化品質ＣＡＶＱと、バッファリングパラメータである再生停止時間の総長、再生停止回数、及び再生停止時間の間隔の平均値、オーディオビジュアルコンテンツの時間長（ただし、停止時間を含まない純粋なコンテンツ長）とに基づいて、最終的に視聴者が体感するオーディオビジュアル品質ＡＶＱを、以下の数式（６）を用いて算出する。

　ただし、ｄｕｒａｔｉｏｎはオーディオビジュアルコンテンツの時間長（ただし、停止時間を含まない純粋なコンテンツ長）、ｎｕｍｏｆＢｕｆｆは、再生停止回数、ｔｏｔａｌＢｕｆｆＬｅｎは、再生停止時間の総長、ａｖｇＢｕｆｆＩｎｔｅｒｖａｌは、再生停止時間の間隔の平均値、係数ｓ_１，ｓ_２，ｓ_３は予め設定された定数とする。

　課題４に示したように、コンテンツ時間長と再生停止とが、最終的なオーディオビジュアル品質に与える影響を加味するため、再生停止に関するパラメータが、コンテンツの時間長によって除算されている。本実施の形態では、バッファリングパラメータに指数関数を適用し、その影響度合いを定式化している。但し、数式（６）は、べき乗、対数などを用いて、再生停止回数（ｎｕｍｏｆＢｕｆｆ）、再生停止時間の総長（ｔｏｔａｌＢｕｆｆＬｅｎ）、再生停止時間の間隔の平均値（ａｖｇＢｕｆｆＩｎｔｅｒｖａｌ）がコンテンツの時間長との関係で、相対的に増加すると最終的に視聴者が体感するオーディオビジュアル品質ＡＶＱが低下する関数で定式化されていればよい。また、本実施の形態では、再生停止回数（ｎｕｍｏｆＢｕｆｆ）、再生停止時間の総長（ｔｏｔａｌＢｕｆｆＬｅｎ）、再生停止時間の間隔の平均値（ａｖｇＢｕｆｆＩｎｔｅｒｖａｌ）のすべてを用いて定式化しているが、いずれか一つを用いて定式化してもよい。さらに、本実施の形態では、バッファリングパラメータとして、再生停止回数（ｎｕｍｏｆＢｕｆｆ）、再生停止時間の総長（ｔｏｔａｌＢｕｆｆＬｅｎ）、再生停止時間の間隔の平均値（ａｖｇＢｕｆｆＩｎｔｅｒｖａｌ）を用いているが、例えば、再生停止時間の総長（ｔｏｔａｌＢｕｆｆＬｅｎ）を再生停止回数（ｎｕｍｏｆＢｕｆｆ）で除算した再生停止平均時間（ａｖｇＢｕｆｆＬｅｎ）、再生停止時間の分散（ｖａｒＢｕｆｆＬｅｎ）、再生停止時間の最大値／最小値（ｍａｘＢｕｆｆＬｅｎ／ｍｉｎＢｕｆｆＬｅｎ）、再生停止時間の間隔の最大値／最小値／分散（ｍａｘＢｕｆｆＩｎｔｅｒｖａｌ／ｍｉｎＢｕｆｆＩｎｔｅｒｖａｌ／ｖａｒＢｕｆｆＩｎｔｅｒｖａｌ）等を計算し、最終的に視聴者が体感するオーディオビジュアル品質ＡＶＱを算出してもよい。

　上述したように、本実施の形態によれば、パケット等の情報から得られるメディアパラメータ及びバッファリングパラメータに基づいて、オーディオビジュアルの品質が時間的に変化する場合であっても品質評価を可能とする、又は当該評価の精度を向上させることができる。

　なお、数１－５に記載される各係数（ａ_１，ａ_２，ａ_３，ｖ_１，…，ｖ_７，ａｖ_１，…，ａｖ_４，ｔ_１，…，ｔ_５，ｓ_１，ｓ_２，ｓ_３）は、例えば、主観品質評価実験を実施し、得られた品質評価値を用い、最小二乗法等の最適化手法を用いて導出することができる。

　従来、オーディオビジュアル品質を推定する際、短時間のオーディオビジュアル品質を推定することが前提となっており、オーディオビジュアル品質が時間的に変動する際の品質推定ができない（課題１）、視聴完了時のオーディオビジュアル品質は、視聴開始時の印象が薄く、視聴完了時の印象が強く残る傾向を考慮できていない（課題２）、オーディオビジュアル品質が変動する際、最終的なオーディオビジュアル品質は、低い品質に強く影響を受ける点を考慮できていない（課題３）、オーディオビジュアル品質は再生停止のみならずオーディオビジュアルコンテンツの尺長にも依存することが考慮できていない（課題４）、といった課題が有った。

　これに対し、本実施の形態は、単位時間（例えば、１秒、５秒、１０秒などの短時間）ごとの音響品質及び映像品質から単位時間ごとのオーディオビジュアル品質値を推定し、単位時間ごとのオーディオビジュアル品質値に重みづけをして統合し、長時間（例えば、数分～数時間）のオーディオビジュアル品質を推定する。ここで、視聴者の忘却効果／親近効果を考慮するために、コンテンツの再生開始時の品質と比較して再生終了時の品質の重みが高くなるようにされる。また、オーディオビジュアル品質が時間的に変動する際に、低品質が最終的な品質に強く影響を与える点を考慮できるように重みづけがされる。また、オーディオビジュアルコンテンツの時間長が再生停止に与える影響を加味すると共に、オーディオビジュアルコンテンツの時間長が再生停止時間に与える影響を加味し、オーディオビジュアル品質を推定することができる。

　したがって、本実施の形態によれば、視聴者が実際に視聴する映像通信サービスのオーディオビジュアル品質値（すなわち、オーディオビジュアル品質推定装置１０から出力されるオーディオビジュアル品質ＡＶＱ）を監視することで、提供中のサービスが視聴者に対してある一定以上の品質を保っているか否かを容易に判断することができ、提供中のサービスの品質実態をリアルタイムで把握・管理することが可能となる。

　このため、提供中のサービスの品質実態を従来技術でオーディオビジュアル品質評価をできなかった点を改善することが可能となる。

　以上、本発明の実施例について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

　本出願は、２０１５年１２月１６日に出願された日本国特許出願第２０１５－２４４９８３号と、２０１６年８月１７日に出願された日本国特許出願第２０１６－１６０１８２号とに基づきその優先権を主張するものであり、同日本国特許出願の全内容を参照することにより本願に援用する。

１０　　　　　オーディオビジュアル品質推定装置
１１　　　　　音響品質推定部
１２　　　　　映像品質推定部
１３　　　　　単位時間品質推定部
１４　　　　　符号化品質推定部
１５　　　　　オーディオビジュアル品質推定部
２０　　　　　パラメータ抽出部
２１　　　　　メディアパラメータ抽出部
２２　　　　　バッファリングパラメータ抽出部
１００　　　　ドライブ装置
１０１　　　　記録媒体
１０２　　　　補助記憶装置
１０３　　　　メモリ装置
１０４　　　　ＣＰＵ
１０５　　　　インタフェース装置
Ｂ　　　　　　バス

Claims

　オーディオビジュアルのコンテンツに関するパラメータのうち、音響品質に影響を与えるパラメータに基づいて、前記コンテンツの再生開始時から単位時間ごとの音響品質を推定する音響品質推定部と、
　前記コンテンツに関するパラメータのうち、映像品質に影響を与えるパラメータに基づいて、前記単位時間ごとの映像品質を推定する映像品質推定部と、
　前記音響品質及び前記映像品質を前記単位時間ごとに統合して、前記単位時間ごとのオーディオビジュアル品質を推定する単位時間品質推定部と、
　前記単位時間ごとのオーディオビジュアル品質を一つに統合して、時間的な品質変動を加味した、符号化劣化に対するオーディオビジュアル符号化品質を推定する符号化品質推定部と、
　前記オーディオビジュアル符号化品質に基づいて、前記コンテンツの終了後に視聴者が体感するオーディオビジュアル品質を推定するオーディオビジュアル品質推定部と、
を有することを特徴とするオーディオビジュアル品質推定装置。
　前記符号化品質推定部は、前記単位時間ごとのオーディオビジュアル品質について、前記コンテンツの終了に相対的に近い単位時間に係る前記オーディオビジュアル品質ほど重みを大きくして加重平均を算出することで、前記オーディオビジュアル符号化品質を推定する、
ことを特徴とする請求項１記載のオーディオビジュアル品質推定装置。
　前記符号化品質推定部は、前記単位時間ごとのオーディオビジュアル品質について、低いオーディオビジュアル品質ほど重みを大きくして加重平均を算出することで、前記オーディオビジュアル符号化品質を推定する、
ことを特徴とする請求項１又は２記載のオーディオビジュアル品質推定装置。
　オーディオビジュアルのコンテンツに関するパラメータのうち、音響品質に影響を与えるパラメータに基づいて、音響品質を推定する音響品質推定部と、
　前記コンテンツに関するパラメータのうち、映像品質に影響を与えるパラメータに基づいて、映像品質を推定する映像品質推定部と、
　前記音響品質及び前記映像品質を統合したオーディオビジュアル品質と、前記コンテンツの再生停止に関するパラメータとに基づいて、前記コンテンツの終了後に視聴者が体感するオーディオビジュアル品質を推定するオーディオビジュアル品質推定部と、
を備えるオーディオビジュアル品質推定装置であって、
　前記オーディオビジュアル品質推定部は、
　前記再生停止に関するパラメータが前記コンテンツの時間長との関係で相対的に大きくなるほど前記オーディオビジュアル品質が低くなるように前記オーディオビジュアル品質を推定する、
ことを特徴とするオーディオビジュアル品質推定装置。
　オーディオビジュアルのコンテンツに関するパラメータのうち、音響品質に影響を与えるパラメータに基づいて、前記コンテンツの再生開始時から単位時間ごとの音響品質を推定する音響品質推定手順と、
　前記コンテンツに関するパラメータのうち、映像品質に影響を与えるパラメータに基づいて、前記単位時間ごとの映像品質を推定する映像品質推定手順と、
　前記音響品質及び前記映像品質を前記単位時間ごとに統合して、前記単位時間ごとのオーディオビジュアル品質を推定する単位時間品質推定手順と、
　前記単位時間ごとのオーディオビジュアル品質を一つに統合して、時間的な品質変動を加味した、符号化劣化に対するオーディオビジュアル符号化品質を推定する符号化品質推定手順と、
　前記オーディオビジュアル符号化品質に基づいて、前記コンテンツの終了後に視聴者が体感するオーディオビジュアル品質を推定するオーディオビジュアル品質推定手順と、
をコンピュータが実行することを特徴とするオーディオビジュアル品質推定方法。
　前記符号化品質推定手順は、前記単位時間ごとのオーディオビジュアル品質について、前記コンテンツの終了に相対的に近い単位時間に係る前記オーディオビジュアル品質ほど重みを大きくして加重平均を算出することで、前記オーディオビジュアル符号化品質を推定する、
ことを特徴とする請求項５記載のオーディオビジュアル品質推定方法。
　前記符号化品質推定手順は、前記単位時間ごとのオーディオビジュアル品質について、低いオーディオビジュアル品質ほど重みを大きくして加重平均を算出することで、前記オーディオビジュアル符号化品質を推定する、
ことを特徴とする請求項５又は６記載のオーディオビジュアル品質推定方法。
　オーディオビジュアルのコンテンツに関するパラメータのうち、音響品質に影響を与えるパラメータに基づいて、音響品質を推定する音響品質推定手順と、
　前記コンテンツに関するパラメータのうち、映像品質に影響を与えるパラメータに基づいて、映像品質を推定する映像品質推定手順と、
　前記音響品質及び前記映像品質を統合したオーディオビジュアル品質と、前記コンテンツの再生停止に関するパラメータとに基づいて、前記コンテンツの終了後に視聴者が体感するオーディオビジュアル品質を推定するオーディオビジュアル品質推定手順と、
をコンピュータが実行し、
　前記オーディオビジュアル品質推定手順は、
　前記再生停止に関するパラメータが前記コンテンツの時間長との関係で相対的に大きくなるほど前記オーディオビジュアル品質が低くなるように前記オーディオビジュアル品質を推定する、
ことを特徴とするオーディオビジュアル品質推定方法。
　請求項１乃至４いずれか一項記載の各部としてコンピュータを機能させることを特徴とするプログラム。