WO2023233631A1 - 映像品質推定装置、映像品質推定方法及びプログラム - Google Patents

映像品質推定装置、映像品質推定方法及びプログラム Download PDF

Info

Publication number
WO2023233631A1
WO2023233631A1 PCT/JP2022/022515 JP2022022515W WO2023233631A1 WO 2023233631 A1 WO2023233631 A1 WO 2023233631A1 JP 2022022515 W JP2022022515 W JP 2022022515W WO 2023233631 A1 WO2023233631 A1 WO 2023233631A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
time series
video quality
quality
bit rate
Prior art date
Application number
PCT/JP2022/022515
Other languages
English (en)
French (fr)
Inventor
喜美子 川嶋
則次 恵木
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2022/022515 priority Critical patent/WO2023233631A1/ja
Publication of WO2023233631A1 publication Critical patent/WO2023233631A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/24Monitoring of processes or resources, e.g. monitoring of server load, available bandwidth, upstream requests

Definitions

  • the present invention relates to a video quality estimation device, a video quality estimation method, and a program.
  • Non-patent Document 1 In the case of video distribution services, we aim to improve user satisfaction (QoE: Quality of Experience) by estimating video quality from encoded information and visualizing QoE to focus on improving areas with poor QoE.
  • QoE Quality of Experience
  • Non-patent Document 2 In estimating video quality, a technique for estimating video quality based on encoding information such as encoding method, distribution bit rate, resolution, frame rate, etc. is being considered (Non-Patent Document 2).
  • video quality estimation technology for real-time video distribution services is required in order to visualize QoE in order to improve QoE.
  • video quality estimation technology video quality estimation model
  • a single value such as the average value for bit rate, resolution, and frame rate for a certain time period is input, and an objective evaluation value is derived.
  • CBR encoding and ABR encoding are generally adopted, and it is not assumed that the specified bit rate will change frequently.
  • the specified bit rate frequently changes depending on the characteristics of the video and the state of the network. Therefore, even if the average value of the bit rate for a certain time period is the same, there are multiple bit rate fluctuation patterns (stable, rising, falling, etc.), and depending on which fluctuation pattern the bit rate Even at different rates, the quality of the output video differs.
  • FIG. 1 shows an example of frame image quality characteristics when the bit rate is stable and when the bit rate is increasing when the average bit rate is the same.
  • a key frame (I frame) is encoded for that frame image
  • a P frame or B frame is encoded based on the difference information between another frame image such as a key frame. Can be divided.
  • plots with black circles (black) correspond to key frames (I frames)
  • plots with white circles (white) correspond to frames other than key frames (difference information).
  • FIG. 2 shows an example of frame rate characteristics when the bit rate is stable and when the bit rate is decreasing when the average bit rate is the same.
  • plots with black circles (black) correspond to key frames (I frames)
  • plots with white circles (white) correspond to frames other than key frames (difference information).
  • FIG. 2 when the bit rate is stable, encoding is performed at a prespecified frame rate.
  • the bit rate decreases, in addition to a decrease in frame image quality due to a decrease in the rate allocated to each frame, a decrease in frame rate occurs due to an increase in the frame interval due to the insufficient rate to be allocated, resulting in stuttering and freezing in the output video. An event like this occurs. Therefore, even if the average bit rate is the same, there is a problem in that the characteristics of the deterioration of the output video differ between when it is stable and when it is falling.
  • the present invention has been made in view of the above points, and an object of the present invention is to improve the accuracy of estimating the quality of video whose bit rate fluctuates.
  • the video quality estimation device includes an acquisition unit configured to acquire feature quantities related to fluctuations in the bit rate of the video from the bit rate time series of the video distributed via the network. , a video quality derivation unit configured to derive an estimated value of the quality of the video by inputting the encoded information time series of the video including the bit rate time series and the feature amount.
  • FIG. 6 is a diagram illustrating an example of frame image quality characteristics when the bit rate is stable and when the bit rate increases when the average bit rate is the same in the embodiment of the present invention.
  • FIG. 7 is a diagram showing an example of frame rate characteristics when the bit rate is stable and when the bit rate is decreasing when the average bit rate is the same in the embodiment of the present invention.
  • 1 is a diagram showing an example of a hardware configuration of a video quality estimation device 10 according to an embodiment of the present invention.
  • 1 is a diagram showing an example of a functional configuration of a video quality estimation device 10 according to a first embodiment.
  • FIG. It is a figure showing an example of functional composition of video quality estimating part 11a in a 1st embodiment.
  • FIG. 3 is a diagram for explaining an example of a processing procedure executed by a video quality deriving unit 112a in the first embodiment. It is a figure showing an example of functional composition of video quality estimating device 10 in a 2nd embodiment. It is a figure which shows the functional configuration example of the video quality estimation part 11b in 2nd Embodiment.
  • FIG. 7 is a diagram for explaining an example of a processing procedure executed by a video quality deriving unit 112b in the second embodiment.
  • FIG. 3 is a diagram showing an example of the hardware configuration of the video quality estimation device 10 according to the embodiment of the present invention.
  • the video quality estimating device 10 in FIG. 3 includes a drive device 100, an auxiliary storage device 102, a memory device 103, a processor 104, an interface device 105, etc., which are interconnected via a bus B.
  • a program that implements the processing in the video quality estimation device 10 is provided by a recording medium 101 such as a CD-ROM.
  • a recording medium 101 such as a CD-ROM.
  • the program is installed from the recording medium 101 to the auxiliary storage device 102 via the drive device 100.
  • the program does not necessarily need to be installed from the recording medium 101, and may be downloaded from another computer via a network.
  • the auxiliary storage device 102 stores installed programs as well as necessary files, data, and the like.
  • the memory device 103 reads and stores the program from the auxiliary storage device 102 when there is an instruction to start the program.
  • the processor 104 is a CPU or a GPU (Graphics Processing Unit), or a CPU or a GPU, and executes functions related to the video quality estimation device 10 according to a program stored in the memory device 103.
  • the interface device 105 is used as an interface for connecting to a network.
  • FIG. 4 is a diagram showing an example of the functional configuration of the video quality estimation device 10 in the first embodiment.
  • the video quality estimation device 10 includes a video quality estimation section 11a.
  • the video quality estimating unit 11a is realized by one or more programs installed in the video quality estimating device 10 causing the processor 104 to execute the process.
  • the video quality estimation device 10 also uses the coefficient DB 12a.
  • the coefficient DB 12a can be realized using, for example, the auxiliary storage device 102 or a storage device connectable to the video quality estimation device 10 via a network.
  • the video quality estimating unit 11a defines a period or section (hereinafter referred to as an "evaluation section") as a quality evaluation target for a video distributed via a network in a real-time video distribution service (for example, a video encoded using the VBR encoding method). ) is input as an example of a time series of encoded information (hereinafter referred to as “encoded information time series”), and based on the bit rate time series BR(t), An estimated value of video quality in the evaluation interval (hereinafter referred to as "video quality Q”) is estimated.
  • An index or measure of video quality Q is, for example, MOS (Mean Opinion Score).
  • the coefficient DB 12a stores the coefficients of the learned model used by the video quality estimator 11a to derive the video quality Q.
  • FIG. 5 is a diagram showing an example of the functional configuration of the video quality estimation section 11a in the first embodiment.
  • the video quality estimation section 11a includes a variation pattern feature acquisition section 111 and a video quality derivation section 112a.
  • the fluctuation pattern feature amount acquisition unit 111 receives the bit rate time series BR(t) as input, and acquires (calculates) the fluctuation pattern feature amount BR_f from the bit rate time series BR(t).
  • the fluctuation pattern feature amount BR_f is a feature amount that expresses when the bit rate is stable, when it increases, and when it decreases.
  • the variation pattern feature acquisition unit 111 calculates the difference value between the average value of the first two seconds and the average value of the last two seconds of the input time series data as BR_f.
  • the video quality deriving unit 112a receives the bit rate time series BR(t) and the variation pattern feature amount BR_f as input, and derives the video quality Q based on BR(t) and BR_f.
  • the operation of the video quality deriving unit 112a is based on the results of a subjective evaluation experiment conducted in advance. One possibility is to model the relationship using machine learning. That is, the video quality deriving unit 112a outputs the video quality Q corresponding to the bit rate time series BR(t) and the variation pattern feature amount BR_f using the model learned in this way.
  • the video quality deriving unit 112a may derive the video quality Q by executing the processing procedure shown in FIG.
  • FIG. 6 is a diagram for explaining an example of a processing procedure executed by the video quality deriving unit 112a in the first embodiment.
  • step S101a the video quality deriving unit 112a receives the bit rate time series BR(t) and calculates the average value of BR(t) (hereinafter referred to as "average bit rate BR_ave").
  • the video quality deriving unit 112a receives the average bit rate BR_ave as input and derives an objective evaluation value Q_br based on the average bit rate (S102a).
  • the objective evaluation value refers to an estimate of the subjective evaluation value (subjective evaluation value) of each evaluator regarding video quality obtained from the results of a subjective evaluation experiment.
  • the subjective evaluation value and the subjective evaluation This value is obtained by inputting the value of the parameter to a model that has learned the relationship with the parameter that affects the value. Therefore, the objective evaluation value can be said to be the average value of the subjective evaluation values, and the scale of the objective evaluation value is the same as the scale of the subjective evaluation value.
  • MOS is used as an index of subjective evaluation value
  • MOS is also used as an index of objective evaluation value.
  • the model that outputs the objective evaluation value Q_br based on the average bit rate is generated by machine learning based on the results when the bit rate is stable among the results of subjective evaluation experiments conducted in advance. That is, the video quality deriving unit 112a derives the objective evaluation value Q_br corresponding to the average bit rate BR_ave using the model learned in this way.
  • the video quality deriving unit 112a derives the video quality Q by inputting the objective evaluation value Q_br based on the average bit rate and the variation pattern feature amount BR_f (S103a). This means that the objective evaluation value Q_br is corrected to a value that takes into consideration the variation pattern feature amount BR_f.
  • the relationship between the objective evaluation value Q_br based on the average bit rate, the variation pattern feature amount BR_f, and the video quality Q may be modeled by machine learning based on the results of a subjective evaluation experiment conducted in advance.
  • the video quality deriving unit 112a derives the video quality Q corresponding to the objective evaluation value Q_br based on the average bit rate and the variation pattern feature amount BR_f using the model learned in this way.
  • this model is considered to be a model that takes into consideration the characteristics shown in FIGS. 1 and 2.
  • FIG. 7 is a diagram showing an example of the functional configuration of the video quality estimation device 10 in the second embodiment.
  • the video quality estimation device 10 includes a video quality estimation section 11b.
  • the video quality estimating unit 11b is realized by one or more programs installed in the video quality estimating device 10 causing the processor 104 to execute the process.
  • the video quality estimating device 10 also uses the coefficient DB 12b.
  • the coefficient DB 12b can be realized using, for example, the auxiliary storage device 102 or a storage device connectable to the video quality estimation device 10 via a network.
  • the video quality estimation unit 11b calculates a bit rate time series BR(t) and a frame rate time series in an evaluation interval of a video (for example, a video encoded using the VBR encoding method) distributed via a network in a real-time video distribution service.
  • the sequence FR(t), the resolution time series RS(t), etc. are input as an example of the encoded information time series, and the video quality Q is estimated based on these.
  • the coefficient DB 12b stores the coefficients of the trained model used by the video quality estimation unit 11b to derive the video quality Q.
  • FIG. 8 is a diagram showing an example of the functional configuration of the video quality estimating section 11b in the second embodiment.
  • the same parts as those in FIG. 5 are given the same reference numerals, and the explanation thereof will be omitted.
  • the video quality estimation section 11b includes a variation pattern feature acquisition section 111 and a video quality derivation section 112b.
  • the video quality deriving unit 112b inputs the bit rate time series BR(t), the frame rate time series FR(t), the resolution time series RS(t), and the variation pattern feature amount BR_f, and calculates the video quality Q based on these. Derive.
  • the operation of the video quality deriving unit 112b is based on the results of a subjective evaluation experiment conducted in advance, and the bit rate time series BR(t), frame rate time series FR(t), resolution time series RS(t), and fluctuation pattern characteristics. It is conceivable to use machine learning to model the relationship between the quantity BR_f as an input and the video quality Q as an output.
  • the video quality deriving unit 112b utilizes the model learned in this way to calculate the bit rate time series BR(t), frame rate time series FR(t), resolution time series RS(t), and fluctuation pattern features.
  • the video quality Q corresponding to the quantity BR_f is output.
  • the video quality deriving unit 112b may derive the video quality Q by executing the processing procedure shown in FIG.
  • FIG. 9 is a diagram for explaining an example of a processing procedure executed by the video quality deriving unit 112b in the second embodiment.
  • step S101b the video quality deriving unit 112b inputs the bit rate time series BR(t), the frame rate time series FR(t), and the resolution time series RS(t), and calculates the average value of BR(t) (hereinafter referred to as ), the average value of FR(t) (hereinafter referred to as “average frame rate FR_ave”), and the average value of RS(t) (hereinafter referred to as "average resolution RS_ave”). do.
  • the video quality deriving unit 112b inputs the average values for each encoded information time series (average bit rate BR_ave, average resolution RS_ave, and average frame rate FR_ave), and calculates an objective evaluation value Q_en based on the average value of the encoded information. (S102b).
  • the relationship between the average bit rate BR_ave, average frame rate FR_ave, average resolution RS_ave, and the objective evaluation value Q_en based on the average value of the encoded information is based on the results of the subjective evaluation experiment conducted in advance when the bit rate is stable. It is possible to model it by machine learning based on the results.
  • the video quality deriving unit 112b derives an objective evaluation value Q_en corresponding to the average bit rate BR_ave, average frame rate FR_ave, and average resolution RS_ave using the model learned in this way.
  • the video quality deriving unit 112b derives the objective evaluation value Q_en corresponding to the average bit rate BR_ave, average frame rate FR_ave, and average resolution RS_ave, using existing objective quality evaluation technology (Non-Patent Document 2), etc. It's okay.
  • the video quality deriving unit 112b inputs the objective evaluation value Q_en based on the average value of the encoded information and the variation pattern feature amount BR_f, and derives the video quality Q (S103b).
  • the objective evaluation value Q_en is corrected to a value that takes into consideration the variation pattern feature amount BR_f.
  • the relationship between the objective evaluation value Q_en based on the average value of the encoded information and the variation pattern feature amount BR_f and the video quality Q may be modeled by machine learning based on the results of a subjective evaluation experiment conducted in advance.
  • the video quality deriving unit 112b derives the video quality Q corresponding to the objective evaluation value Q_en based on the average value of the encoded information and the variation pattern feature amount BR_f using the model learned in this way.
  • this model is considered to be a model that takes into consideration the characteristics shown in FIGS. 1 and 2.
  • the variation pattern of the encoded information time series (only the bit rate time series, or the bit rate time series, the resolution time series, and the frame rate time series) is used as input to improve the video quality.
  • An estimate is derived. Therefore, even if the average bit rate is about the same, the video quality can be estimated taking into consideration the characteristic that the video quality differs when the bit rate is stable, when the bit rate increases, and when the bit rate decreases. As a result, it is possible to improve the accuracy of estimating the quality of video whose bit rate varies.
  • a real-time video distribution service provider can expect to maintain and improve video quality by improving the encoding quality that affects video quality based on the estimated video quality.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

映像品質推定装置は、ネットワークを介して配信される映像のビットレート時系列から前記映像のビットレートの変動に関する特徴量を取得するように構成されている取得部と、前記ビットレート時系列を含む前記映像の符号化情報時系列と前記特徴量とを入力として、前記映像の品質の推定値を導出するように構成されている映像品質導出部と、を有することで、ビットレートが変動する映像の品質の推定精度を向上させる。

Description

映像品質推定装置、映像品質推定方法及びプログラム
 本発明は、映像品質推定装置、映像品質推定方法及びプログラムに関する。
 リモートワークや遠隔授業の拡大により、Web会議サービスのようなリアルタイム映像配信サービスの市場規模が拡大している。リアルタイム映像配信サービスの提供者にとっては、ユーザに満足してサービスを利用し続けてもらうことが重要となるが、Web会議サービスの映像品質が低下すると、ユーザ満足度が下がるとの報告がある。
 映像配信サービスの場合には、ユーザ満足度(QoE:Quality of Experience)の向上を目指し、符号化情報から映像品質を推定し、QoEを可視化することで、QoE低下エリアの重点的な改善に取り組んでいる(非特許文献1)。映像品質の推定にあたっては、符号化方式や配信ビットレート、解像度、フレームレート等の符号化情報に基づいて映像品質を推定する技術が検討されている(非特許文献2)。
林孝典,"ユーザ体感品質を最適化するQoE-centricオペレーション",NTT技術ジャーナル,vol.27,no.7,pp.16-19,July 2015. Parametric bitstream-based quality assessment of progressive download and adaptive audiovisual streaming services over reliable transport, Recommendation ITU-T P.1203, 2017
 リアルタイム映像配信サービスに関しても同様に、QoEの向上に向けてQoEを可視化するためにはリアルタイム映像配信サービスの映像品質推定技術が必要となる。ここで、映像配信サービスに対する映像品質推定技術(映像品質推定モデル)をリアルタイム映像配信サービスの映像に適用する際の課題を示す。
 映像品質推定モデルでは、ある時間幅に対するビットレートや解像度、フレームレートに対する平均値のような単一の値を入力とし、客観評価値を導出する。VoD型の映像配信サービスではCBR符号化方式やABR符号化方式が採用されることが一般的であり、これらは指定するビットレートが頻繁に変動することは想定されていない。
 しかし、リアルタイム映像配信サービスにおいてよく用いられるVBR符号化方式では、映像の特徴やネットワークの状態に応じて指定するビットレートが頻繁に変動する。そのため、ある時間幅のビットレートの平均値が同等であっても、ビットレートの変動パターンは複数存在し(安定時、上昇時、下降時など)、どの変動パターンであるかによって同程度のビットレートであっても出力映像の品質は異なる。
 ここで、ビットレートの変動パターンが上昇時、下降時であるそれぞれの場合と出力映像の品質への影響について示す。
 まず、図1に、平均ビットレートが同じ場合のビットレート安定時と上昇時のフレーム画質の特性例を示す。映像符号化時には、そのフレーム画像に対して符号化が行われるキーフレーム(Iフレーム)と、キーフレームなどの別のフレーム画像との差分情報に対して符号化が行われるPフレームやBフレームに分けられる。図1において、黒丸(黒塗り)のプロットは、キーフレーム(Iフレーム)に対応し、白丸(白抜き)のプロットは、キーフレーム以外のフレーム(差分情報)に対応する。
 図1に示すように、ビットレート安定時には、キーフレームの画質が最も高くなり、それ以外のフレームの画質はキーフレームよりも低くなる傾向にある。一方、ビットレート上昇時では、キーフレーム以外のフレームに対するビットレートが上昇したとしても、基本的にはそれより前の参照先であるフレーム以上の画質とはならない。そのため、平均ビットレートは同じであっても、安定時と上昇時とでは各映像フレーム画質の特性が異なるという課題がある。
 次に、図2に、平均ビットレートが同じ場合のビットレート安定時と下降時のフレームレートの特性例を示す。図2において、黒丸(黒塗り)のプロットは、キーフレーム(Iフレーム)に対応し、白丸(白抜き)のプロットは、キーフレーム以外のフレーム(差分情報)に対応する。図2に示すように、ビットレート安定時には、あらかじめ指定されているフレームレートで符号化が行われる。一方、ビットレート下降時には、各フレームに割り当てるレートの低下によるフレーム画質の低下に加え、割り当てるレートが不足することによるフレーム間隔の拡張によるフレームレートの低下が発生し、結果として出力映像ではカクツキやフリーズのような事象が発生する。そのため、平均ビットレートは同じであっても、安定時と下降時とで出力映像の劣化の特徴が異なるという課題がある。
 上記に示す2つの特性については、変動前後のビットレートにおける画質差が大きいほど、パターン間の出力映像品質の差分は大きくなる。
 本発明は、上記の点に鑑みてなされたものであって、ビットレートが変動する映像の品質の推定精度を向上させることを目的とする。
 そこで上記課題を解決するため、映像品質推定装置は、ネットワークを介して配信される映像のビットレート時系列から前記映像のビットレートの変動に関する特徴量を取得するように構成されている取得部と、前記ビットレート時系列を含む前記映像の符号化情報時系列と前記特徴量とを入力として、前記映像の品質の推定値を導出するように構成されている映像品質導出部と、を有する。
 ビットレートが変動する映像の品質の推定精度を向上させることができる。
本発明の実施の形態における平均ビットレートが同じ場合のビットレート安定時と上昇時のフレーム画質の特性例を示す図である。 本発明の実施の形態における平均ビットレートが同じ場合のビットレート安定時と下降時のフレームレートの特性例を示す図である。 本発明の実施の形態における映像品質推定装置10のハードウェア構成例を示す図である。 第1の実施の形態における映像品質推定装置10の機能構成例を示す図である。 第1の実施の形態における映像品質推定部11aの機能構成例を示す図である。 第1の実施の形態における映像品質導出部112aが実行する処理手順の一例を説明するための図である。 第2の実施の形態における映像品質推定装置10の機能構成例を示す図である。 第2の実施の形態における映像品質推定部11bの機能構成例を示す図である。 第2の実施の形態における映像品質導出部112bが実行する処理手順の一例を説明するための図である。
 以下、図面に基づいて本発明の実施の形態を説明する。図3は、本発明の実施の形態における映像品質推定装置10のハードウェア構成例を示す図である。図3の映像品質推定装置10は、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、プロセッサ104、インタフェース装置105等を有する。
 映像品質推定装置10での処理を実現するプログラムは、CD-ROM等の記録媒体101によって提供される。プログラムを記憶した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
 メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。プロセッサ104は、CPU若しくはGPU(Graphics Processing Unit)、又はCPU、GPUであり、メモリ装置103に格納されたプログラムに従って映像品質推定装置10に係る機能を実行する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。
 図4は、第1の実施の形態における映像品質推定装置10の機能構成例を示す図である。図4において、映像品質推定装置10は、映像品質推定部11aを有する。映像品質推定部11aは、映像品質推定装置10にインストールされた1以上のプログラムが、プロセッサ104に実行させる処理により実現される。映像品質推定装置10は、また、係数DB12aを利用する。係数DB12aは、例えば、補助記憶装置102、又は映像品質推定装置10にネットワークを介して接続可能な記憶装置等を用いて実現可能である。
 映像品質推定部11aは、リアルタイム映像配信サービスにおいてネットワークを介して配信される映像(例えば、VBR符号化方式で符号化された映像)について品質の評価対象としたい期間又は区間(以下、「評価区間」という。)のビットレート時系列BR(t)を符号化情報の時系列(以下、「符号化情報時系列」という。)の一例として入力し、ビットレート時系列BR(t)に基づいて評価区間における映像品質の推定値(以下、「映像品質Q」という。)を推定する。映像品質Qの指標又は尺度は、例えば、MOS(Mean Opinion Score)である。
 係数DB12aは、映像品質Qを導出するために映像品質推定部11aが用いる学習済みモデルの係数を格納する。
 図5は、第1の実施の形態における映像品質推定部11aの機能構成例を示す図である。図5において、映像品質推定部11aは、変動パターン特徴量取得部111及び映像品質導出部112aを含む。
 変動パターン特徴量取得部111は、ビットレート時系列BR(t)を入力とし、ビットレート時系列BR(t)から変動パターン特徴量BR_fを取得(算出)する。変動パターン特徴量BR_fは、ビットレート安定時、上昇時、下降時を表現する特徴量である。例えば、変動パターン特徴量取得部111は、入力された時系列データの最初2秒の平均値と最後2秒の平均値との差分値をBR_fとして算出する。
 映像品質導出部112aは、ビットレート時系列BR(t)及び変動パターン特徴量BR_fを入力とし、BR(t)及びBR_fに基づいて映像品質Qを導出する。映像品質導出部112aの動作としては、事前に実施した主観評価実験結果に基づき、ビットレート時系列BR(t)及び変動パターン特徴量BR_fを入力とし、映像品質Qを出力とした場合の両者の関係を機械学習によりモデル化することが考えられる。すなわち、映像品質導出部112aは、このように学習されたモデルを利用して、ビットレート時系列BR(t)及び変動パターン特徴量BR_fに対応する映像品質Qを出力する。
 又は、映像品質導出部112aは、図6の処理手順を実行することで、映像品質Qを導出してもよい。図6は、第1の実施の形態における映像品質導出部112aが実行する処理手順の一例を説明するための図である。
 ステップS101aにおいて、映像品質導出部112aは、ビットレート時系列BR(t)を入力とし、BR(t)の平均値(以下、「平均ビットレートBR_ave」という。)を計算する(。
 続いて、映像品質導出部112aは、平均ビットレートBR_aveを入力として、平均ビットレートによる客観評価値Q_brを導出する(S102a)。ここで、客観評価値とは、主観評価実験結果によって得られる、映像品質に関する(各評価者の)主観的な評価値(主観評価値)に対する推定値をいい、例えば、主観評価値と主観評価値に影響を与えるパラメータとの関係を学習したモデルに対して当該パラメータの値を入力することで得られる値である。したがって、客観評価値は、主観評価値の平均的な値であるといえ、客観評価値の尺度は主観評価値の尺度と同じである。主観評価値の指標としてMOSが用いられる場合、客観評価値の指標もMOSである。平均ビットレートによる客観評価値Q_brを出力するモデルは、事前に実施した主観評価実験結果のうち、ビットレート安定時の結果に基づく機械学習により生成することが考えられる。すなわち、映像品質導出部112aは、このように学習されたモデルを利用して、平均ビットレートBR_aveに対応する客観評価値Q_brを導出する。
 続いて、映像品質導出部112aは、平均ビットレートによる客観評価値Q_brと変動パターン特徴量BR_fとを入力として、映像品質Qを導出する(S103a)。このことは、客観評価値Q_brを変動パターン特徴量BR_fが考慮された値に補正することを意味する。このとき、平均ビットレートによる客観評価値Q_br及び変動パターン特徴量BR_fと映像品質Qとの関係は、事前に実施した主観評価実験結果に基づく機械学習によりモデル化することが考えられる。すなわち、映像品質導出部112aは、このように学習されたモデルを利用して平均ビットレートによる客観評価値Q_br及び変動パターン特徴量BR_fに対応する映像品質Qを導出する。なお、当該モデルは、図1、図2の特性を考慮したモデルになると考えられる。
 次に、第2の実施の形態について説明する。第2の実施の形態では第1の実施の形態と異なる点について説明する。第2の実施の形態において特に言及されない点については、第1の実施の形態と同様でもよい。
 図7は、第2の実施の形態における映像品質推定装置10の機能構成例を示す図である。図7において、映像品質推定装置10は、映像品質推定部11bを有する。映像品質推定部11bは、映像品質推定装置10にインストールされた1以上のプログラムが、プロセッサ104に実行させる処理により実現される。映像品質推定装置10は、また、係数DB12bを利用する。係数DB12bは、例えば、補助記憶装置102、又は映像品質推定装置10にネットワークを介して接続可能な記憶装置等を用いて実現可能である。
 映像品質推定部11bは、リアルタイム映像配信サービスにおいてネットワークを介して配信される映像(例えば、VBR符号化方式で符号化された映像)の評価区間におけるビットレート時系列BR(t)、フレームレート時系列FR(t)及び解像度時系列RS(t)等を符号化情報時系列の一例として入力し、これらに基づいて映像品質Qを推定する。
 係数DB12bは、映像品質Qを導出するために映像品質推定部11bが用いる学習済みモデルの係数を格納する。
 図8は、第2の実施の形態における映像品質推定部11bの機能構成例を示す図である。図8中、図5と同一部分には同一符号を付し、その説明は省略する。図8において、映像品質推定部11bは、変動パターン特徴量取得部111及び映像品質導出部112bを含む。
 映像品質導出部112bは、ビットレート時系列BR(t)、フレームレート時系列FR(t)、解像度時系列RS(t)及び変動パターン特徴量BR_fを入力とし、これらに基づいて映像品質Qを導出する。映像品質導出部112bの動作としては、事前に実施した主観評価実験結果に基づき、ビットレート時系列BR(t)、フレームレート時系列FR(t)、解像度時系列RS(t)及び変動パターン特徴量BR_fを入力とし、映像品質Qを出力とした場合の両者の関係を機械学習によりモデル化することが考えられる。すなわち、映像品質導出部112bは、このように学習されたモデルを利用して、ビットレート時系列BR(t)、フレームレート時系列FR(t)、解像度時系列RS(t)、変動パターン特徴量BR_fに対応する映像品質Qを出力する。
 又は、映像品質導出部112bは、図9の処理手順を実行することで、映像品質Qを導出してもよい。図9は、第2の実施の形態における映像品質導出部112bが実行する処理手順の一例を説明するための図である。
 ステップS101bにおいて、映像品質導出部112bは、ビットレート時系列BR(t)、フレームレート時系列FR(t)及び解像度時系列RS(t)を入力として、BR(t)の平均値(以下、「平均ビットレートBR_ave」という。)、FR(t)の平均値(以下、「平均フレームレートFR_ave」という。)、RS(t)の平均値(以下、「平均解像度RS_ave」という。)を計算する。
 続いて、映像品質導出部112bは、符号化情報時系列ごとの平均値(平均ビットレートBR_ave、平均解像度RS_ave及び平均フレームレートFR_ave)を入力として、符号化情報の平均値による客観評価値Q_enを導出する(S102b)。このとき、平均ビットレートBR_ave、平均フレームレートFR_ave及び平均解像度RS_aveと、符号化情報の平均値による客観評価値Q_enとの関係は、事前に実施した主観評価実験結果のうち、ビットレート安定時の結果に基づく機械学習によりモデル化することが考えられる。この場合、映像品質導出部112bは、このように学習されたモデルを利用して平均ビットレートBR_ave、平均フレームレートFR_ave及び平均解像度RS_aveに対応する客観評価値Q_enを導出する。又は、映像品質導出部112bは、既存の客観品質評価技術(非特許文献2)などを利用して、平均ビットレートBR_ave、平均フレームレートFR_ave及び平均解像度RS_aveに対応する客観評価値Q_enを導出してもよい。
 続いて、映像品質導出部112bは、符号化情報の平均値による客観評価値Q_enと変動パターン特徴量BR_fとを入力とし、映像品質Qを導出する(S103b)。このことは、客観評価値Q_enを変動パターン特徴量BR_fが考慮された値に補正することを意味する。このとき、符号化情報の平均値による客観評価値Q_en及び変動パターン特徴量BR_fと映像品質Qとの関係は、事前に実施した主観評価実験結果に基づく機械学習によりモデル化することが考えられる。すなわち、映像品質導出部112bは、このように学習されたモデルを利用して符号化情報の平均値による客観評価値Q_en及び変動パターン特徴量BR_fに対応する映像品質Qを導出する。なお、当該モデルは、図1、図2の特性を考慮したモデルになると考えられる。
 上述したように、上記各実施の形態によれば、符号化情報時系列(ビットレート時系列のみ、又はビットレート時系列、解像度時系列及びフレームレート時系列)の変動パターンを入力として映像品質の推定値が導出される。したがって、平均ビットレートが同程度であっても、ビットレート安定時、上昇時、下降時において映像品質が異なるという特性を考慮して映像品質を推定することができる。その結果、ビットレートが変動する映像の品質の推定精度を向上させることができる。
 例えば、リアルタイム映像配信サービス事業者が、推定された映像品質に基づいて、映像品質に影響を与える符号化品質を改善していくことで、映像品質の維持・向上を期待することができる。
 以上、本発明の実施の形態について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
10     映像品質推定装置
11a    映像品質推定部
11b    映像品質推定部
12a    係数DB
12b    係数DB
100    ドライブ装置
101    記録媒体
102    補助記憶装置
103    メモリ装置
104    プロセッサ
105    インタフェース装置
111    変動パターン特徴量取得部
112a   映像品質導出部
112b   映像品質導出部
B      バス

Claims (7)

  1.  ネットワークを介して配信される映像のビットレート時系列から前記映像のビットレートの変動に関する特徴量を取得するように構成されている取得部と、
     前記ビットレート時系列を含む前記映像の符号化情報時系列と前記特徴量とを入力として、前記映像の品質の推定値を導出するように構成されている映像品質導出部と、
    を有することを特徴とする映像品質推定装置。
  2.  前記符号化情報時系列は、更に、前記映像の解像度時系列及びフレームレート時系列を含む、
    ことを特徴とする請求項1記載の映像品質推定装置。
  3.  前記映像品質導出部は、前記符号化情報時系列ごとに平均値を計算し、前記平均値に基づいて前記映像の品質に関する客観評価値を導出し、前記客観評価値と前記特徴量とに基づいて前記推定値を導出するように構成されている、
    ことを特徴とする請求項1又は2記載の映像品質推定装置。
  4.  ネットワークを介して配信される映像のビットレート時系列から前記映像のビットレートの変動に関する特徴量を取得する取得手順と、
     前記ビットレート時系列を含む前記映像の符号化情報時系列と前記特徴量とを入力として、前記映像の品質の推定値を導出する映像品質導出手順と、
    をコンピュータが実行することを特徴とする映像品質推定方法。
  5.  前記符号化情報時系列は、更に、前記映像の解像度時系列及びフレームレート時系列を含む、
    ことを特徴とする請求項4記載の映像品質推定方法。
  6.  前記映像品質導出手順は、前記符号化情報時系列ごとに平均値を計算し、前記平均値に基づいて前記映像の品質に関する客観評価値を導出し、前記客観評価値と前記特徴量とに基づいて前記推定値を導出する、
    ことを特徴とする請求項4又は5記載の映像品質推定方法。
  7.  ネットワークを介して配信される映像のビットレート時系列から前記映像のビットレートの変動に関する特徴量を取得する取得手順と、
     前記ビットレート時系列を含む前記映像の符号化情報時系列と前記特徴量とを入力として、前記映像の品質の推定値を導出する映像品質導出手順と、
    をコンピュータに実行させることを特徴とするプログラム。
PCT/JP2022/022515 2022-06-02 2022-06-02 映像品質推定装置、映像品質推定方法及びプログラム WO2023233631A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/022515 WO2023233631A1 (ja) 2022-06-02 2022-06-02 映像品質推定装置、映像品質推定方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/022515 WO2023233631A1 (ja) 2022-06-02 2022-06-02 映像品質推定装置、映像品質推定方法及びプログラム

Publications (1)

Publication Number Publication Date
WO2023233631A1 true WO2023233631A1 (ja) 2023-12-07

Family

ID=89026107

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/022515 WO2023233631A1 (ja) 2022-06-02 2022-06-02 映像品質推定装置、映像品質推定方法及びプログラム

Country Status (1)

Country Link
WO (1) WO2023233631A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009543513A (ja) * 2006-07-10 2009-12-03 シメトリコム インコーポレイテッド パケットベースのビデオ放送システムにおける映像複雑度の計算
US20140049694A1 (en) * 2009-04-21 2014-02-20 Marvell World Trade Ltd. System and methods for adjusting settings of a video post-processor
WO2017104416A1 (ja) * 2015-12-16 2017-06-22 日本電信電話株式会社 オーディオビジュアル品質推定装置、オーディオビジュアル品質推定方法、及びプログラム
WO2020158094A1 (ja) * 2019-02-01 2020-08-06 株式会社Nttドコモ 情報処理装置、サーバ装置及び情報処理システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009543513A (ja) * 2006-07-10 2009-12-03 シメトリコム インコーポレイテッド パケットベースのビデオ放送システムにおける映像複雑度の計算
US20140049694A1 (en) * 2009-04-21 2014-02-20 Marvell World Trade Ltd. System and methods for adjusting settings of a video post-processor
WO2017104416A1 (ja) * 2015-12-16 2017-06-22 日本電信電話株式会社 オーディオビジュアル品質推定装置、オーディオビジュアル品質推定方法、及びプログラム
WO2020158094A1 (ja) * 2019-02-01 2020-08-06 株式会社Nttドコモ 情報処理装置、サーバ装置及び情報処理システム

Similar Documents

Publication Publication Date Title
KR100935650B1 (ko) 비디오 품질 추정 장치, 방법 및 프로그램을 기록한 컴퓨터 판독가능한 기록매체
KR100933509B1 (ko) 비디오 품질 추정 장치, 방법 및 프로그램을 기록한 컴퓨터 판독가능한 기록매체
Ghadiyaram et al. Learning a continuous-time streaming video QoE model
Song et al. Acceptability-based QoE models for mobile video
US7965203B2 (en) Video quality estimation apparatus, method, and program
Martín et al. Design, optimization and evaluation of a Q-learning HTTP adaptive streaming client
US11463742B2 (en) Quality estimation of adaptive multimedia streaming
US11689433B2 (en) Method and scoring node for estimating a user's quality of experience for a delivered service
WO2016080354A1 (ja) 映像品質推定装置、映像品質推定方法、および映像品質推定プログラム
JP2007194893A (ja) 映像品質評価装置および方法
Yarnagula et al. QoE for mobile clients with segment-aware rate adaptation algorithm (SARA) for DASH video streaming
Kumar et al. Quality of experience driven rate adaptation for adaptive HTTP streaming
WO2023233631A1 (ja) 映像品質推定装置、映像品質推定方法及びプログラム
JP7380832B2 (ja) 数理モデル導出装置、数理モデル導出方法及びプログラム
CN112492325B (zh) 一种观看者协助的视频转码任务分配方法及装置
TWI544786B (zh) 受到壓縮假象和通道假象所影響的視訊失真之計算方法和裝置,以及在帶寬限制的傳輸系統內對視訊串流和封包損失復原串流指定可用帶寬之方法和裝置
Belda et al. Look ahead to improve QoE in DASH streaming
JP6907958B2 (ja) 推定装置、推定方法及びプログラム
Lebreton et al. Network and content-dependent bitrate ladder estimation for adaptive bitrate video streaming
JP7073894B2 (ja) エンゲージメント推定装置、エンゲージメント推定方法及びプログラム
JP6228906B2 (ja) 映像品質推定装置、方法およびプログラム
JP7040232B2 (ja) 視聴行動推定装置、視聴行動推定方法及びプログラム
JP7255704B2 (ja) エンゲージメント推定装置、エンゲージメント推定方法及びプログラム
JP7400936B2 (ja) 映像品質推定装置、映像品質推定方法、及びプログラム
CN114640851B (zh) 基于质量感知的自适应全向视频流的传输方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22944912

Country of ref document: EP

Kind code of ref document: A1