WO2014114098A1 - 终端侧时间域视频质量评价方法及装置 - Google Patents

终端侧时间域视频质量评价方法及装置 Download PDF

Info

Publication number
WO2014114098A1
WO2014114098A1 PCT/CN2013/083650 CN2013083650W WO2014114098A1 WO 2014114098 A1 WO2014114098 A1 WO 2014114098A1 CN 2013083650 W CN2013083650 W CN 2013083650W WO 2014114098 A1 WO2014114098 A1 WO 2014114098A1
Authority
WO
WIPO (PCT)
Prior art keywords
frame
video
video frame
current
scene
Prior art date
Application number
PCT/CN2013/083650
Other languages
English (en)
French (fr)
Other versions
WO2014114098A9 (zh
Inventor
吴宝春
魏芳
许佳琦
Original Assignee
中兴通讯股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中兴通讯股份有限公司 filed Critical 中兴通讯股份有限公司
Priority to EP13872993.4A priority Critical patent/EP2958322B1/en
Priority to US14/762,901 priority patent/US9836832B2/en
Publication of WO2014114098A1 publication Critical patent/WO2014114098A1/zh
Publication of WO2014114098A9 publication Critical patent/WO2014114098A9/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/254Analysis of motion involving subtraction of images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/32Determination of transform parameters for the alignment of images, i.e. image registration using correlation-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection

Definitions

  • the present invention relates to the field of video objective quality evaluation technologies, and in particular, to a terminal side time domain video quality evaluation method and apparatus.
  • an objective quality evaluation of a video may be implemented on a network side and a terminal side, respectively, where the terminal side evaluation is performed after the user terminal decodes the video.
  • the network side evaluation in terms of efficiency and feedback ability, it evaluates the video that the user finally watches, which can fully reflect the influence of video quality from service to network, terminal to terminal reception, and video decoding. Reflect the user's subjective feelings about the video business.
  • the time domain quality of a video refers to the quality factor that exists only between video frames, that is, the impact of the loss of the entire frame on the video.
  • the embodiments of the present invention provide a terminal-side time-domain video quality evaluation method and apparatus, which solves the problem of large evaluation error, neglect of motion, and single index in the terminal-side time domain non-reference technology in the prior art.
  • An embodiment of the present invention provides a terminal-side time domain video quality evaluation method, including: calculating a significant motion area ratio of each video frame, where a significant motion area ratio refers to: a significant change between adjacent two video frames The area of the video frame is proportional to the area of a video frame; all video frames are divided into absolute normal frames and suspected distortion frames according to the significant motion area ratio; freeze frame detection, scene conversion frame detection, jitter frame detection, and ghosts are performed on suspected distortion frames.
  • Shadow frame detection segmentation of the video according to the scene conversion frame detection result, calculating the scene information weight of each scene, and calculating the distortion coefficient according to the freeze frame detection result, the jitter frame detection result, and the ghost frame detection result, according to the significant motion
  • the area ratio, the scene information weight, and the distortion coefficient determine the terminal-side time domain video quality.
  • calculating a significant motion area ratio of each video frame comprises: decoding a current kth video frame into a luminance chrominance YUV space according to a playback progress, acquiring a luminance matrix Yk; if determining that the current kth video frame is the first video For the frame, the previous frame of the current k-th video frame is the all-zero frame of the pixel value, and step 13 is performed. Otherwise, step 13 is directly performed. Step 13 is Gaussian filtering the luminance matrix Y k of the current k-th video frame.
  • Step 14 repeating step 13 n-1 times to obtain a Gaussian image pyramid PMD k containing n matrices of different scales, wherein the scale indicates that the current matrix has been subjected to Gaussian filtering and downsampling operations.
  • Step 15 The number of times, when the scale is 1, the matrix is the source matrix Y k , where n is the total number of scales; Step 15, the Gauss image pyramids PMD k and PMDn of the current kth video frame and the k-1th video frame are at the scale s The absolute value of the difference between each element in the matrix is obtained, and the difference matrix M k , s is obtained , and the difference pyramid DPMD k is formed according to the difference matrix on each scale, wherein the difference matrix M k , In s is an all-zero matrix; in step 16, bilinear interpolation is performed on the difference matrix of all scales other than scale 1 in DPMD k , and the difference matrix size is normalized to the same as the source matrix Y k and includes Y The difference matrix of the DPMD k interpolation after k is averaged to obtain the normalized difference matrix Z k; in step 17, the median filtering of Z k is used to denoise to obtain Z km , and
  • the step 13 includes: performing Gaussian filtering with a frame window size of 3x3, a mean value of 0, and a standard deviation of 0.5 for the luminance matrix Y k of the current k-th frame, and performing a 1/4 a downsampling on the filtering result, where , a is a natural number.
  • dividing all the video frames into absolute normal frames and suspected distortion frames according to the significant motion area ratio includes: Step 21: determining that the current kth video frame is the current k-th video frame with a significant motion area ratio of 0 Suspected freeze frame, where k>l ; Step 22, the ratio of the significant motion area of the current kth video frame is greater than twice the previous video frame and greater than the first predetermined threshold, and the previous video frame is a non-freeze frame In the case, determining that the current kth video frame is a suspected scene conversion frame; Step 23, determining that the two video frames are suspected jitter frames if the ratio of significant motion areas of the current kth video frame and the k+1th video frame are equal Or suspected ghost frame; step 24, determining that the current kth video frame is absolute if the ratio of the significant motion area of the current kth video frame does not conform to the case of steps 21 to 23, and the previous video frame is a non-freeze frame.
  • performing freeze frame detection on the suspected distortion frame includes: Step 31: summing all elements in the difference matrix of size 1; if the result is 0, performing step 32, otherwise determining that the current kth video frame is a normal frame, and Exiting the distortion detection of the entire current kth video frame; Step 32, if it is determined that the k-1th video frame is a frozen frame, determining that the current kth video frame is also a frozen frame, and exiting the distortion detection of the entire current kth video frame, Otherwise, step 33 is performed; Step 33, if it is determined that the k-1th video frame is a curtain frame, it is determined that the current kth video frame is also a curtain frame, and the distortion detection of the entire current kth video frame is exited.
  • the frame detection for the suspected distortion into the scene conversion frame comprises: Step 41, dividing the foreground rectangular area BI k , f in the middle of the binary matrix BI k of width w and height h, and determining other areas of BI k background area BI k, b, is calculated ratio R k summation element BI k, b is the sum of the elements BI k in BI k, f, wherein, BI k, f the height of Lh BI k of the / 8 + lj line to the [7h / 8j line, the width of the k k of the v / 8 + lj column to the [7w / 8j column, the above symbol "U" is pointed to the next round; Step 42, to BI k
  • the [h/2] row and the [h/2] column are bounded, and BI k , b are divided into four parts, and the proportion of the number of elements having a value of 1 in the four
  • Step 43 Counting the number N 1V of the four ratios that is greater than or equal to the third predetermined threshold ; Step 43, if R k is greater than or equal to the fourth predetermined threshold and N 1V is greater than or equal to the fifth predetermined threshold, determining that the current k-th video frame is a scene transition Frame, otherwise, determines that the current kth video frame is a normal frame.
  • the frame detection for the suspected distortion frame and the ghost frame detection include: Step 51: If the k-1th video frame is a gradation frame, determining that the current kth video frame is also a gradation frame, and exiting the current current kth The distortion detection of the video frame, otherwise performing step 52; Step 52, if the ratio of the significant motion area of the current kth video frame is equal to the k-1th video frame, the current kth video frame is a gradation frame, and exits the entire current kth The distortion detection of the video frame, otherwise performing step 53; Step 53, calculating the difference matrix of the k-1th video frame and the k+1th video frame luminance matrix, taking the absolute value and summing all the elements, if the sum is 0 Then, the k+1th video frame is a dither frame, and the kth frame is a normal frame, and the distortion detection of the entire current kth video frame is exited, and step 54 is performed; otherwise, step 54 is directly performed;
  • the scene is segmented according to the scene transition frame detection result, and the scene information weights of each scene are calculated according to the scene transition frame detection result, and the video is segmented according to the scene transition frame, if the current kth video is the latest scene transition frame.
  • the first absolute normal frame, the spatial complexity and color of the current kth video The sum of the noise, the brightness mean, and the significant motion area are summed to obtain the weight of the scene information used for weighting in the scene.
  • calculating the distortion coefficient according to the freeze frame detection result, the jitter frame detection result, and the ghost frame detection result includes: calculating a distortion coefficient K according to formula 1; Formula 1; where F & z , t , and F gst are the freeze frame, the jitter frame, and the ghost frame flag of the current frame, respectively, and only one of the above three flag bits is 1, and the other flags are 0.
  • determining the terminal side time domain video quality according to the significant motion area ratio, the scene information weight, and the distortion coefficient comprises: calculating the terminal side time domain video quality according to formula 2
  • the embodiment of the present invention further provides a terminal-side time-domain video quality evaluation apparatus, including: a calculation module, configured to calculate a significant motion area ratio of each video frame, where a significant motion area ratio refers to: two adjacent video frames The ratio of the area of significant change to the area of a video frame; the partitioning module, configured to divide all video frames into absolute normal frames and suspected distortion frames according to a significant motion area ratio; a detection module configured to freeze frames of suspected distortion frames The detection, the scene change frame detection, the jitter frame detection, and the ghost frame detection; the evaluation module is configured to perform scene segmentation on the video according to the scene conversion frame detection result, calculate the scene information weight of each scene, and according to the freeze frame detection result, The jitter frame detection result and the ghost frame detection result calculate a distortion coefficient, and the terminal side time domain video quality is determined according to the significant motion area ratio, the scene information weight, and the distortion coefficient.
  • a calculation module configured to calculate a significant motion area ratio of each video frame, where a significant motion area ratio refers to:
  • the calculation module comprises: a brightness matrix acquisition sub-module, configured to decode the current k-th video frame into the brightness chrominance YUV space according to the playback progress, to obtain the brightness matrix Y k; and set the sub-module, and set to determine the current k-th
  • the filter sampling submodule is called, otherwise, the filter sampling submodule is directly called
  • the filtering sampling submodule is set to Correct
  • the luminance matrix Y k of the current kth video frame is Gaussian filtered, and the filtering result is downsampled
  • the Gaussian image pyramid acquisition submodule is set to repeatedly call the filtering sampling submodule ti-1 times to obtain a matrix containing n different scales.
  • the Gaussian image pyramid PMD k where the scale represents the number of times the current matrix has been Gaussian filtering and downsampling, and when the scale is 1, the matrix is the source matrix Y k , where n is the total number of scales;
  • the differential pyramid acquisition sub-module set to determine the absolute value of the difference between each element in the matrix on the scale s for the Gauss image pyramids PMD k and PMDn of the current k-th video frame and the k-1th video frame, to obtain a difference matrix M k , s , and according to The difference matrix at each scale constitutes the difference pyramid DPMD k , where the difference matrix M k , s is the all-zero matrix;
  • the normalized difference matrix acquisition sub-module is set to be on all scales except DP 1 in the DPMD k bilinear interpolation difference matrix, the difference matrix normalized to the same size as the active matrix Y k, and the difference of n Y k comprising an inter
  • the dividing module comprises: a suspected freeze frame determining sub-module, configured to determine that the current k-th video frame is a suspected freeze frame if the ratio of the significant motion area of the current k-th video frame is 0, where k>l ;
  • the suspected scene conversion frame determining sub-module is configured to set, in a case where the ratio of the significant motion area of the current k-th video frame is greater than twice the previous video frame and greater than the first predetermined threshold, and the previous video frame is a non-freeze frame, Determining that the current kth video frame is a suspected scene conversion frame; the suspected dither frame and the suspected ghost frame determining submodule are set to be determined when the ratio of the significant motion area of the current kth video frame and the k+1th video frame is equal
  • the detection module comprises: a freeze frame detection module, wherein the freeze frame detection module comprises: a summation submodule, configured to sum all elements in the difference matrix Miu of size 1: if the result is 0, the first judgment is invoked Module, otherwise determining that the current kth video frame is a normal frame, and exiting the distortion detection of the entire current kth video frame; the first determining submodule is configured to determine the current number when determining that the k-1th video frame is a frozen frame The k video frame is also a freeze frame, and exits the distortion detection of the entire current kth video frame. Otherwise, the curtain frame judgment submodule is invoked; the curtain frame judgment submodule is set to determine that the k-1th video frame is a curtain frame.
  • the freeze frame detection module comprises: a summation submodule, configured to sum all elements in the difference matrix Miu of size 1: if the result is 0, the first judgment is invoked Module, otherwise determining that the current kth video frame is a normal frame, and exit
  • the detection module comprises: a scene conversion frame detection module, wherein the scene conversion frame detection module comprises: a foreground rectangular area division sub-module, configured to divide the foreground in the middle of the binary matrix BI k of width w and height h rectangular area BI k, f, and determines BI k other areas as the background area BI k, b, is calculated ratio R k summation element BI k, b is the sum of the elements BI k in BI k, f, wherein , BI k , f is the Lh/8+lj line of BI k to the [7h/8J line, the width is the v/8+lj column of BI k to the [7W8j column, the above symbol "U" is downwardly directed rounding; binary matrix divided sub-module, with the first set [h / 2] and BI k rows of [h / 2] as the boundary, the BI k, b is divided into four sections,
  • the detecting module includes: a dither frame and a ghost frame detecting module, where the dither frame and the ghost frame detecting module comprise: a first frame determining sub-module of the gradient frame, configured to be when the k-1th video frame is a gradation frame, Then determining that the current kth video frame is also a gradation frame, and exiting the distortion detection of the entire current kth video frame, otherwise calling the gradation frame second determining submodule; the gradation frame second determining submodule, being set to the current kth video frame When the significant motion area ratio is equal to the k-1th video frame, it determines that the current kth video frame is a gradation frame, and exits the distortion detection of the entire current kth video frame, otherwise calls the jitter frame detection submodule; the jitter frame detector
  • the module is configured to calculate a difference matrix of the k-1th video frame and the k+1th video frame luminance matrix, and sum all the elements after taking the
  • the k+1th video frame is jittered. Frame, and the kth video frame is a normal frame, and exits the distortion detection of the entire current kth video frame, otherwise, the ghost image frame detection submodule is invoked; the ghost frame detection submodule is set to be in the current kth view
  • a significant proportion of the motion area of the frame is not less than a sixth predetermined threshold value, it is determined that the current frame is the k-th video frame ghost, k + 1 and the first video frame is a normal frame, otherwise determining that the current k-th video frame is a normal frame.
  • the evaluation module includes: a scene information weight calculation sub-module, configured to perform scene segmentation on the video according to the scene transition frame detection result, and if the current k-th video is the first absolute normal frame after the most recent scene transition frame, The spatial complexity, the color complexity, the luminance mean, and the significant motion area ratio of the current k-th video are summed to obtain the weight of the scene information used for weighting in the scene.
  • the evaluation module comprises: a distortion coefficient calculation submodule, configured to calculate a distortion coefficient according to formula 1
  • the evaluation module comprises: a video quality determination sub-module, configured to calculate the terminal-side time-domain video quality according to formula 2
  • FIG. 1 is a flowchart of a terminal side time domain video quality evaluation method according to an embodiment of the present invention
  • FIG. 2 is a schematic diagram of a significant motion area ratio according to an embodiment of the present invention
  • FIG. 3 is a freeze distortion of an embodiment of the present invention
  • 4 is a schematic diagram of jitter distortion according to an embodiment of the present invention
  • FIG. 5 is a schematic diagram of ghost distortion according to an embodiment of the present invention
  • FIG. 6 is a flowchart of extracting a significant motion area ratio according to an embodiment of the present invention
  • FIG. 8 is a schematic structural diagram of a terminal side time domain video quality evaluation apparatus according to an embodiment of the present invention
  • FIG. 9 is a terminal side time domain video quality evaluation apparatus according to an embodiment of the present invention.
  • a schematic of the structure is preferred.
  • the present invention provides a terminal-side time domain non-reference video quality evaluation method and device for solving the problem of large evaluation error, ignoring motion, and single index in the terminal-side time domain non-reference technology in the prior art.
  • the video significant motion region extraction technology and video scene transition detection technology are introduced to extract the video features such as motion to reduce the evaluation error.
  • the distortion type is extended and classified for the video decoding recovery strategy.
  • the terminal side time domain video quality evaluation method includes the following steps: Step 101: Calculate a significant moving area ratio of each video frame, where the significant motion area ratio refers to: an area that significantly changes between adjacent two video frames The ratio of the video frame area; that is, in step 101, the difference in brightness between video frames needs to be calculated, and the calculation of the above brightness difference introduces a video significant motion region extraction technique and is optimized for the application, using "significant motion area ratio"
  • the index is used as the core of evaluating the quality of the video time domain, that is, the proportion of the entire frame occupied by the moving part of the human eye that is sensitive to the frame.
  • the embodiment of the invention mainly evaluates the quality of the video time domain around the technical index, and analyzes the attribute of the index to measure the influence of the sportiness on the video quality, and improves the accuracy of the evaluation.
  • the calculation of the significant motion area ratio introduces Gaussian pyramid technology, which enhances the adaptability of the method to video size changes.
  • a significant motion region is extracted by a binarized threshold anomaly detection method based on median filtering denoising. Calculate the area ratio of the significant motion area to the entire frame.
  • step 101 calculating a significant motion area ratio of each video frame includes: Step 1011: Decode a current k-th video frame into a luminance chrominance YUV space according to a playback progress, and obtain a luminance matrix Yk; Step 1012: Determining that the current kth video frame is the first frame of the video, and setting the previous frame of the current kth video frame to the pixel value all zero frame, and performing step 1013; otherwise, directly performing step 1013; Step 1013, for the current kth
  • the luminance matrix Y k of the video frame is Gaussian filtered, and the filtering result is downsampled.
  • the frame window size of the current k-th frame of the luminance matrix Yk can be 3x3, the mean value is 0, and the standard deviation is It is Gaussian filtering of 0.5, and the filtering result is downsampled by l/4a, where a is a natural number.
  • Step 1014 repeating step 13 nl times to obtain a Gaussian image pyramid PMD k containing n matrices of different scales, wherein the scale represents the number of times the current matrix has been subjected to Gaussian filtering and downsampling operations, and when the scale is 1, the matrix is The source matrix Y k , n is the total number of scales, in the embodiment of the present invention, n can be set to 3-5; Step 1015, the Gauss image pyramid PMD k for the current kth video frame and the k-1th video frame And PMD ⁇ find the absolute value of the difference between each element in the matrix on the scale s, obtain the difference matrix M k , s , and form the difference pyramid DPMD k according to the difference matrix on each scale, wherein the difference matrix M k , s All zero matrix; Step 1016: Perform bilinear interpolation on the difference matrix of all scales other than scale 1 in DPMD k , normalize the difference matrix size to be the same
  • Step 102 Divide all video frames into absolute normal frames and suspected distortion frames according to a significant motion area ratio; in step 102, divide all the frames into "absolute normal frames" without distortion by using preliminary analysis of inter-frame differences and need to perform Further detection of "suspected distortion frames".
  • the step 102 includes the following processing: Step 1021: If the ratio of the significant motion area of the current kth video frame is 0, determine that the current kth video frame is a suspected freeze frame, where k>l ; step 1022, The ratio of the significant motion area of the current kth video frame is greater than twice the previous video frame and greater than the first predetermined threshold.
  • the first predetermined threshold may be 0.1, and the first threshold may be If the previous video frame is a non-freeze frame according to an empirical value of a person skilled in the art, the current kth video frame is determined to be a suspect scene conversion frame; Step 1023, at the current kth video frame and the k+th 1 If the ratio of the significant motion area of the video frame is equal, determining that the two video frames are suspected jitter frames or suspected ghost frames; Step 1024, the proportion of the significant motion area of the current kth video frame does not conform to steps 1021 to 1023. And if the previous video frame is a non-freeze frame, it is determined that the current kth video frame is an absolute normal frame.
  • Step 103 Perform freeze frame detection, scene change frame detection, jitter frame detection, and ghost frame detection on the suspected distortion frame.
  • a three-index system for video time domain quality is established in data analysis: Freeze, "ghost” and “jitter”. Among them, "ghost” and “jitter” are only in the Group of Picture (GOP). May appear when there is a B frame. The detection of the three indicators is analyzed around the window of significant motion area of the current frame and its nearby frames.
  • a two-step analysis method for time domain distortion is used, and the first step (step 102) identifies a suspected distortion frame in the video according to the characteristics of the significant motion area ratio when the three distortions occur.
  • the possible distortion type of the frame performs further detection and analysis only on the suspected distortion frame. This can reduce the amount of intermediate data, avoid a lot of repeated detection, and reduce the complexity of the algorithm.
  • the calculation of spatial complexity is introduced to indicate the degree of detail of the video frame content.
  • "color complexity” is proposed to indicate the richness of the content of the video frame.
  • all three indicators use the significant motion area of the adjacent frame to perform false positive detection to prevent the normal effect of the video from being misinterpreted as distortion.
  • step 103 a sub-scene evaluation method based on the ratio of the significant moving area is proposed, and the scene switching frame is detected by the mutation of the significant moving area ratio and the ratio of the significant motion in the background portion of the frame.
  • performing freeze frame detection on the suspected distortion frame refers to: detecting whether the suspected distortion frame is a frozen frame, and excluding interference of "the curtain frame (still frame in the original video)".
  • the method includes the following steps: Step 1031a, summing all elements in the difference matrix of size 1.
  • step 1032a determines that the current kth video frame is a normal frame, and exit the entire current kth video frame.
  • the distortion detection is performed; Step 1032a, if it is determined that the k-1th video frame is a frozen frame, it is determined that the current kth video frame is also a frozen frame, and the distortion detection of the entire current kth video frame is exited, otherwise, step 1033a is performed; 1033a, if it is determined that the k_l video frame is a curtain frame, it is determined that the current kth video frame is also a curtain frame, and the distortion detection of the entire current kth video frame is exited.
  • a second predetermined threshold may be 0.5, and the second threshold may be determined according to an empirical value of a person skilled in the art, and then determining that the current k-th video frame is a curtain frame, not frozen.
  • the scene change frame detection for the suspected distortion frame is: detecting the scene conversion frame, so as to prepare the calculation of the scene information weight with the scene conversion frame as the boundary.
  • Step 1031b the intermediate width w, height h binary matrix BI K divided foreground rectangular area BI k, f, and determine other regions BI K as the background area BI k, b, calculated BI sum element k in BI k, b is the sum of the element ratio R k in BI k, f, wherein, BI k, f high is the BI k of Lh / 8 + lj row to the [7h / 8j In the row, the Lw/8+lj whose width is BI k is listed in the L7w/8j column, and the above symbol 'j' is rounded down;
  • Step 1032b in the [h/2]th row and the [h of BI k /2] is a boundary, divides BI k , b into four parts, and calculates the proportion of the number of elements with a value of 1 in the four parts, and counts the ratio of the four ratios to the third predetermined The number of
  • Step 1031c if the k-1th video frame is a gradation frame, it is determined that the current kth video frame is also a gradation frame, and exits the distortion detection of the entire current kth video frame, otherwise execution Step 1032c; Step 1032c: If the ratio of the significant motion area of the current kth video frame is equal to the k-1th video frame, the current kth video frame is a gradation frame, and the distortion detection of the entire current kth video frame is exited, otherwise execution is performed.
  • Step 1033c Step 1033c, calculating a difference matrix of the k-1th video frame and the k+1th video frame luminance matrix, and summing all the elements after taking the absolute value, if the sum is 0, then k+ 1
  • the video frame is a dither frame, and the kth frame is a normal frame, and the distortion detection of the entire current kth video frame is exited, and step 1034c is performed; otherwise, step 1034c is directly performed; step 1034c, if the current kth video frame is significant
  • the ratio of the moving area is greater than or equal to a sixth predetermined threshold (preferably, in the embodiment of the present invention, the sixth predetermined threshold may be 0.03, and the sixth threshold may be determined according to an empirical value of a person skilled in the art), and then the current kth is determined.
  • a sixth predetermined threshold preferably, in the embodiment of the present invention, the sixth predetermined threshold may be 0.03, and the sixth threshold may be determined according to an empirical value of a person skilled
  • Step 104 Perform scene segmentation on the video according to the scene conversion frame detection result, calculate a scene information weight value of each scene, and calculate a distortion coefficient according to the freeze frame detection result, the jitter frame detection result, and the ghost frame detection result, according to the significant motion area.
  • the scale, scene information weight, and distortion factor determine the terminal-side time domain video quality.
  • step 104 the scene is segmented according to the scene transition frame detection result, and the scene information weights of each scene are calculated: performing scene segmentation on the video according to the scene transition frame detection result, and providing motion and content space of the scene segment, Information such as the degree of richness, if the current kth video is the first absolute normal frame after the most recent scene conversion frame, the space complexity, color complexity, brightness mean, and significant motion area ratio of the current kth video are obtained. And, obtain the scene information weights used for weighting in the scene.
  • the subjective experimental results of the three indicators are used to obtain respective distortion coefficients as a basis for evaluating the total score.
  • calculating the distortion coefficient according to the freeze frame detection result, the jitter frame detection result, and the ghost frame detection result includes: calculating the distortion coefficient K according to the formula 1; ⁇ -0.071n (44 /re -41.28) x ⁇ +0.29 , +0.19 gii, Equation 1; where F & z , t , and F gst are the freeze frame, jitter frame, and ghost frame flag bits of the current frame, respectively, and only one of the above three flag bits is 1, other flags Bits are 0, 1 means that the evaluated video frame has the corresponding type of distortion, 0 means that the evaluated video frame does not have the corresponding type of distortion, P & z is the freeze persistence coefficient, ⁇ z - «xl g 2 (2 + In the above formula, n is the number of consecutive accumulated frames of the current freeze, and t is the number of freezes
  • the embodiment of the present invention mainly proposes a "significant moving area ratio" of the video including the real-time application based on the motion characteristics.
  • the significant moving area ratio refers to the ratio of the area of the significant change between adjacent frames to the entire frame area.
  • FIG. 2 is a schematic diagram of the significant moving area ratio of the embodiment of the present invention, in order to time domain of the video frame. Distortion feature extraction, and calculation and analysis of eigenvalues, it is necessary to calculate an index that can better represent the difference between two frames, while the amount of data is small (less dimension). As a measure of the significant area of motion, it is necessary to extract a significant portion of the motion area through a series of steps. As shown in Fig. 2, in the binary difference map, white is a significant moving part, and black is a non-significant moving part. After obtaining the current frame and the Gauss image pyramid of the previous frame, it is necessary to obtain a difference pyramid by pixel-by-pixel difference to adapt to the visual perception at different resolutions.
  • FIG. 3 is a schematic diagram of freeze distortion according to an embodiment of the present invention
  • FIG. 4 is a schematic diagram of jitter distortion according to an embodiment of the present invention
  • FIG. 5 is a schematic diagram of ghost distortion according to an embodiment of the present invention, as shown in FIG.
  • the three distortion forms summarized for the video containing B frames in the embodiment are freeze, jitter and ghost.
  • freeze that is, when the video is buffered or decoded
  • the screen pauses. It is characterized in that there is no difference between a frame and the previous frame. Jitter, that is, in the original smooth video, the picture instantly retreats and recovers. It is characterized in that in the consecutive three frames in which the jitter occurs, the difference between the first and second frames is the same as the second and third frames, and there is no difference between the second and third frames. It may appear only when there are B frames in the GoP. ghosting, that is, the sudden trajectory of moving objects is blurred, and even ghosting occurs, causing a sticky feeling of time. The feature is that the difference between a frame and the previous two frames is the same, but there are differences between the two frames.
  • the frame suspected of being frozen is first detected further. Frames with subtle identifiable differences (such as shimmer, wind, etc.) are not frozen frames and need to be identified by summing the absolute values of the differences between the two matrix brightness matrices.
  • curtain frame which mainly includes some program LOGO, Slogans or acknowledgments, etc., have the characteristics of less detailed information, simple color, and often jump or fade from the scene conversion frame. Subsequently, the scene change frame needs to be detected.
  • Scene conversion is not distortion, but it identifies the arrival of a new scene.
  • the same scene between scene transition frames often contains similar spatial, color, and motion information, which plays an important role in the calculation of scene-related evaluation weights.
  • the part of significant motion change is distributed in various directions of the image. According to the above characteristics, it is detected whether a frame is a scene conversion frame. Finally, further detection of suspected ghost/jitter frames is required.
  • the jitter and ghost images are different in expression, they are very similar in the relationship of the significant motion area ratio: the former is the same ratio of the significant motion area of the current frame and the previous frame; the latter is the ratio of the significant motion area of the current frame to the next frame. the same.
  • frame freeze there is a phenomenon of "frame freeze", and ghosting does not.
  • jitter frames and ghost frames generally exist independently, and adjacent frames are generally ordinary frames.
  • FIG. 6 is a flowchart of extracting a significant motion area ratio according to an embodiment of the present invention. As shown in FIG. 6, the method includes the following processing: Step 610: Decode a current frame into a YUV space according to a playback progress. Step 620: If the current frame is the first frame, set the previous frame to be a zero-zero frame value.
  • Step 630 Perform Gaussian filtering with a window size of 3x3, a mean value of 0, and a standard deviation of 0.5 for the luminance matrix of the current frame, and perform a quarter down sampling of the result. This is repeated "-1 times, and a Gaussian image pyramid containing w different scale matrices is obtained (the matrix of scale 1 is the source matrix). The total number of scales n is set to 3 to 5, which can be appropriately increased according to the increase in resolution after decoding.
  • Step 640 Calculate the absolute values of the differences between each element in the matrix on the scale S for the Gauss image pyramids PA ⁇ k and PMDH of the current k-th frame and the k-th frame to obtain a difference matrix M k , s .
  • s is an all-zero matrix.
  • the difference matrix at each scale constitutes the difference pyramid DPMD K .
  • Step 650, right! PA ⁇ k bilinear interpolation difference matrix in addition to all of scales scales than 1, normalized to the same size as the matrix-matrix 3 ⁇ 4.
  • the normalized difference matrix Z k is obtained by averaging the w matrices including the ⁇ ) ⁇ /interpolation including 3 ⁇ 4.
  • Step 660 performing median filtering on Z k to obtain Z km , and performing anomaly detection, that is, setting a threshold to binarize Z km , an element having a value greater than or equal to ⁇ is assigned a value of 1, and an element smaller than ⁇ is assigned a value of 0, Binary matrix BI k .
  • FIG. 7 is a flowchart of preliminary distortion analysis according to an embodiment of the present invention. As shown in FIG.
  • Step 710 If the ratio of significant motion area of the current frame (except the first frame of the entire video) is 0, The frame is regarded as a suspected freeze frame, and the YUV data of the frame, the difference matrix M w of the scale 1 and the significant moving area ratio of the H frame and the -2 frame are sent to the freeze detection module for further detection.
  • Step 720 If a step phenomenon occurs in the ratio of the significant motion area of the current frame, that is, the ratio of the significant motion area of the frame is greater than twice the previous frame and greater than 0.1, and the previous frame is a non-freeze frame, the frame is It is regarded as a suspect scene conversion frame, and the YUV data of the frame and the previous frame and the binary difference matrix B/ k of the frame are sent to the scene conversion detection module for further detection.
  • Step 730 if the significant motion area ratios of the first frame and the +1st frame are equal, the two frames are regarded as suspected jitter/ghost frames, and all significant motion areas from the k-1th to the +1th frames are The ratio and YUV data are sent to the jitter/ghost detection module for further testing.
  • Step 740 If the ratio of the significant motion area of the current frame does not meet the steps 710-730, and the previous frame is a non-freeze frame, the frame is a normal frame. If the frame is the first normal frame after the most recent scene change frame, the frame YUV data and its significant motion area ratio are sent to the scene weight calculation module.
  • the freeze detection module includes the following steps: Step 1: Summing all elements in the matrix, and if the result is 0, continuing to detect. Otherwise, the kth frame is a normal frame, and the distortion detection of the entire current kth video frame is exited. Step 2: If the k-th frame is a freeze frame, it is determined that the k-th frame is also a freeze frame, and the distortion detection of the entire current k-th video frame is exited; if the -1 frame is a curtain frame (the original is in the original video) For a relatively static frame, see step 4). The frame is also a curtain frame, that is, it is not a frozen frame, and the distortion detection of the entire kth frame is exited. Otherwise continue the freeze detection.
  • Step 3 Calculate the spatial complexity O s of the kth frame and the color complexity O c .
  • the spatial complexity O s is the result of the summed square root of the Sobel filtering in the horizontal direction of the matrix, which is characterized by the image within the frame.
  • the color complexity is the ratio of the area where more colors appear in the frame to the area of the entire frame.
  • the color taken is the result of the index image converted according to the frame image according to the 64-step index. If the scale value is relatively large, the color is indicated. The level of richness is low.
  • the scene transition detection module includes the following steps: Step 1.
  • Step 2 The background region matrix / ⁇ is divided into four parts by the [A/2] row and the [A/2] column of the matrix B/ k , and the values of the four portions are determined as 1 respectively.
  • the number of elements accounts for the proportion of the part, and counts the number N 1V of 0.3 or more of the four ratios.
  • Step 3 If ? k ⁇ 0.3 and N 1V ⁇ 3, the frame is a scene change frame. Otherwise, it is a normal frame, that is, it is not a scene change frame, and the detection of the kth frame is exited.
  • the dithering/ghost detection module includes the following steps: Step 1.
  • the frame is also For the gradient frame, and exit the detection of the kth frame, otherwise continue the jitter/ghost detection.
  • Step 2 If the ratio of the significant motion area of the first frame is equal to the -1st frame, the frame is a gradation frame, and the detection of the kth frame is exited, otherwise the detection is continued.
  • Step 3 Calculate the difference matrix of the k-th frame and the +1st frame luminance matrix, and sum all the elements after taking the absolute value.
  • Step 4 If the ratio of the significant motion area of the frame is greater than or equal to 0.03, the frame is a ghost frame, and the k+1th frame is a normal frame, otherwise the kth frame is determined to be a normal frame.
  • the calculation process of the scene information weight calculation module is: if the current frame is the first normal frame after the scene conversion frame, the space complexity, the color complexity, the brightness mean value, and the significant motion area ratio of the frame are summed.
  • the scene information weights used for weighting in the scene can be obtained.
  • the calculation process for determining the video quality of the terminal side time domain includes: establishing an evaluation model to score the distortion test obtained by the above analysis.
  • the scoring model is mainly obtained by multiplying four coefficients, and the formula is as follows: These four coefficients are:
  • Expansion factor m The role is to adjust the range of the score, which can be adjusted between 2 and 5 according to the actual situation of the score trend.
  • Aq is the ratio of the significant motion area of the previous normal frame of the frame in which the distortion occurred. It can indicate the degree of influence of this distortion on the current moment: The greater the current instantaneous motion, the greater the impact of distortion. The square value is taken here to reduce the impact of Aq on the score range.
  • Scene information weights Expr Obtained by the scene information weight module, the scene information weights of the frames between the two scene conversion frames are the same.
  • Distortion coefficient K A coefficient directly linked to the distortion type. Different distortion types correspond to a corresponding coefficient.
  • the freezing coefficient also includes the freezing duration coefficient.
  • K 0.07 ⁇ n (44P frz - 4i .2S) x F frz + 0.29F jit + 0. i9F gst wherein F fc, 3 ⁇ 4, F gst freeze the current frame, respectively, jitter, ghost flag.
  • One and only one of the three flag bits is 1, which indicates that there is such distortion in the evaluated frame, and the other flags are all zero.
  • the coefficients of the formulas 0.07, 0.29, and 0.19 are the subjective evaluation results of the reference, which are the average probability that the single frame freeze, jitter, and ghost are recognized by the observer in a large number of test videos in the subjective test, which can be based on the new Subjective experiments or actual needs to be properly adjusted.
  • the implementation of the scene change detection in the embodiment of the present invention is not limited to the foregoing manner in the embodiment of the present invention.
  • the complex scene cut may be performed by cooperating with the lens motion detection.
  • the ROI can be divided by the gray level saliency detection, and the scene detection can be performed according to the shape change of the ROI.
  • the calculation method of the partial parameters may also be selected according to the evaluation accuracy requirement. For example, spatial complexity can be evaluated using methods such as gray information entropy and edge energy, and color complexity can be evaluated using methods such as color local correlation.
  • the technical solution of the embodiment of the present invention by introducing a video significant motion region extraction technology and a video scene transition detection technology, video features such as motion are extracted to reduce the evaluation error, and the video decoding recovery strategy is used for distortion.
  • the type is extended and classified, which solves the problem of large evaluation error, neglect of motion, and single index in the terminal-side time domain non-reference technology in the prior art, and highlights the sportiness and video content compared with the prior art.
  • the influence on video quality improves the closeness of evaluation results and subjective feelings, expands the evaluation system of video time domain distortion, and reduces the probability of false positives.
  • the device embodiment provides a terminal-side time-domain video quality evaluation apparatus according to an embodiment of the present invention.
  • the terminal-side time-domain video quality evaluation apparatus of the embodiment of the present invention includes: a calculation module 80, a division module 82, a detection module 84, and an evaluation module 86.
  • the modules of the embodiments of the present invention are described in detail below.
  • the calculation module 80 is configured to calculate a ratio of the significant motion area of each video frame, where the significant motion area ratio refers to: a ratio of an area where a significant change occurs between two adjacent video frames to a video frame area; the calculation module 80 includes: The brightness matrix acquisition sub-module is configured to decode the current k-th video frame into the brightness chrominance YUV space according to the playback progress to obtain the brightness matrix Y k; and set the sub-module to be set to determine the current k-th video frame as the first video When the frame is set, the previous frame of the current kth video frame is all zero frames of the pixel value, and the filter sampling submodule is called, otherwise, the filter sampling submodule is directly called; The filtering sampling sub-module is configured to perform Gaussian filtering on the luminance matrix Y k of the current k-th video frame, and down-sample the filtering result; the filtering sampling sub-module is set to: frame the brightness matrix Y k of the current k
  • the Gauss image pyramid acquisition sub-module is set to repeatedly call the filtering sampling sub-module n - l times to obtain a Gaussian image pyramid PMD k containing n matrices of different scales, wherein the scale indicates that the current matrix has been subjected to Gaussian filtering and downsampling operations.
  • the number of times, when the scale is 1, the matrix is the source matrix Y k , where n is the total number of scales; the difference pyramid acquisition sub-module is set to the Gauss image pyramid PMD k for the current kth video frame and the k-1th video frame.
  • PMDn finds the absolute value of the difference between each element in the matrix on the scale s, obtains the difference matrix M k , s , and forms the difference pyramid DPMD k according to the difference matrix on each scale, wherein the difference matrix M k , s The all-zero matrix; the normalized difference matrix acquisition sub-module is set to bilinearly interpolate the difference matrix on all scales other than scale 1 in DPMD k , and the difference matrix size is normalized to the same as the source matrix Y k , and the difference of n include DPMD k Y k including the interpolation matrix to obtain a normalized average difference matrix Z k; binary matrix obtaining sub-module, is provided for the median filtering Z k Noise resulting Z km, and set the threshold value [theta], the Z km greater than equal to ⁇ element value of 1, less than ⁇ elements assigned the value 0, to obtain binary matrix BI K; significant proportion motion area obtaining sub-module, is provided for the BI k is
  • the dividing module 82 is configured to divide all video frames into absolute normal frames and suspected distortion frames according to a significant moving area ratio; the dividing module 82 includes a suspected frozen frame determining sub-module, and is set to a significant moving area ratio of the current k-th video frame. In the case of 0, determining that the current kth video frame is a suspected frozen frame, where k>l ; the suspected scene conversion frame determining submodule is set to be larger than the previous video frame in the current kth video frame.
  • the suspected jitter frame and the suspected ghost frame determination submodule are set to If the ratio of the significant motion area of the current kth video frame and the k+1th video frame is equal, the two video frames are determined to be suspected jitter frames or suspected ghost frames; the absolute normal frame determination submodule is set to be at the current kth If the ratio of the significant motion area of the video frame does not match the condition of each of the above submodules, and the previous video frame is a non-freeze frame, the current kth video frame is determined to be absolute. For normal frames.
  • the detection module 84 is configured to perform freeze frame detection, scene change frame detection, jitter frame detection, and ghost frame detection on the suspected distortion frame.
  • the detection module 84 includes: a freeze frame detection module 84, where the freeze frame detection module 84 includes: The summation submodule is set to sum all the elements in the difference matrix of scale 1. If the result is 0, the first judgment submodule is called, otherwise it is determined that the current kth video frame is not a freeze frame, and the freeze detection is ended; The submodule is configured to determine that the kth video frame is a freeze frame, and then determine that the current kth video frame is also a freeze frame, and exit the distortion detection of the entire current kth video frame. Otherwise, the call frame judgment submodule is invoked.
  • the screen frame judgment sub-module is set to determine that the current k-th video frame is also a curtain frame when the k-1th video frame is judged as a curtain frame, and exits the distortion detection of the entire current k-th video frame, otherwise, the calculation is invoked.
  • the detection module 84 includes: a scene conversion frame detection module 84, wherein the scene conversion frame detection module 84 includes: a foreground rectangular area division sub-module, configured to divide the foreground in the middle of the binary matrix BI k of width w and height h rectangular area BI k, f, and determines BI k other areas as the background area BI k, b, is calculated ratio R k summation element BI k, b is the sum of the elements BI k in BI k, f, wherein , BI k , f is the Lh/8+lj line of BI k to the [7h/8J line, the width is the v/8+lj column of BI k to the [7 8j column, the above symbol "U" rounding is directed downwards; binary matrix divided sub-module, arranged to BI k of [h / 2] th and [h / 2] as the boundary, the BI k, b is divided into four
  • the detecting module 84 includes: a dithering frame and a ghosting frame detecting module 84, wherein the dithering frame and the ghosting frame detecting module 84 comprise: a gradient frame first determining submodule, configured to be a gradient in the k-1th video frame In the frame, it is determined that the current kth video frame is also a gradation frame, and the distortion detection of the current kth video frame is exited, otherwise the gradation frame second determining submodule is called; the gradation frame second determining submodule is set to be at the current When the ratio of the significant motion area of the k video frame is equal to the k-1th video frame, it is determined that the current kth video frame is a gradation frame, and the distortion detection of the current kth video frame is exited, otherwise the jitter frame detection submodule is invoked;
  • the frame detection sub-module is configured to calculate a difference matrix of the k-1th video frame and the k+1th video
  • the ghost image frame detection sub-module is called; the ghost frame detection sub-module is set to determine that the current k-th video frame is when the ratio of the significant motion area of the current k-th video frame is greater than or equal to a sixth predetermined threshold ghost frame, and the k+1th frame is a normal frame, otherwise it is determined that the kth frame is a normal frame.
  • the evaluation module 86 is configured to perform scene segmentation on the video according to the scene conversion frame detection result, calculate a scene information weight value of each scene, and calculate a distortion coefficient according to the freeze frame detection result, the jitter frame detection result, and the ghost frame detection result, according to The significant motion area ratio, the scene information weight, and the distortion coefficient determine the terminal side time domain video quality.
  • the evaluation module 86 includes: a scene information weight calculation sub-module, configured to perform scene segmentation on the video according to the scene conversion frame detection result, and if the current k-th video is the first absolute normal frame after the latest scene conversion frame, the current The spatial complexity, the color complexity, the luminance mean, and the significant motion area ratio of the kth video are summed to obtain the weight of the scene information for weighting in the scene.
  • the evaluation module 86 includes: a distortion coefficient calculation sub-module, configured to calculate a distortion coefficient K according to the formula 1;
  • F & z , t , F gst are the freeze frame, jitter frame, ghost frame flag of the current frame, respectively.
  • One and only one of the flag bits is 1, and the other flag bits are 0. 1 indicates that there is a corresponding type of distortion in the evaluated video frame, and 0 indicates that there is no corresponding type of distortion in the evaluated video frame, P & z is frozen.
  • the evaluation module 86 includes: a video quality determining submodule, configured to calculate the terminal side time domain video quality Q according to formula 2;
  • FIG. 9 is a schematic diagram of a preferred structure of a terminal-side time-domain video quality evaluation apparatus according to an embodiment of the present invention. As shown in FIG.
  • the apparatus of the embodiment of the present invention includes the following related modules: a significant motion area ratio extraction module, a preliminary distortion analysis module, The freeze detection module, the scene change detection module, the ghost/jitter detection module, the scene information weight calculation module, and the evaluation module.
  • the significant motion area ratio extraction module is set to calculate a significant motion area ratio as an index of inter-frame difference.
  • the embodiment of the present invention mainly proposes a "significant moving area ratio" in accordance with the video including the real-time application based on the motion characteristics.
  • the significant moving area ratio refers to the ratio of the area of the significant change between the two adjacent frames to the entire frame area, which is an evaluation index for the real-time motion of the video proposed by the embodiment of the present invention.
  • the preliminary distortion analysis module is arranged to divide all frames into "absolute normal frames” and "suspected distortion frames” that require further detection.
  • the freeze detection module is configured to further detect frames that are suspected to be frozen. Frames with subtle identifiable differences (such as shimmer, wind, etc.) are not frozen frames and need to be identified by summing the absolute values of the differences between the two matrix brightness matrices.
  • curtain frame which mainly includes some program LOGO, Slogans or acknowledgments, etc., have the characteristics of less detailed information, simple color, and often jump or fade from the scene conversion frame.
  • the scene transition detection module is configured to detect a scene transition frame.
  • Scene conversion is not distortion, but it identifies the arrival of a new scene.
  • the same scene between scene conversion frames often contains similar information such as space, color and motion, which plays an important role in the calculation of scene-related evaluation weights.
  • the ghost/jitter detection module is configured to further detect suspected ghost/jittered frames.
  • the scene information weight calculation module is configured to calculate a scene information weight.
  • the evaluation module is configured to calculate an evaluation score for the video frame.
  • the details of the related modules in the embodiment of the present invention can be understood by referring to the related description in the foregoing method embodiments, and details are not described herein again. It should be noted that the implementation of the scene change detection in the embodiment of the present invention is not limited to the foregoing manner in the embodiment of the present invention.
  • the complex scene cut may be performed by cooperating with the lens motion detection.
  • the ROI can be divided by the gray level saliency detection, and the scene detection can be performed according to the shape change of the ROI.
  • the calculation method of the partial parameters may also be selected according to the evaluation accuracy requirement. For example, spatial complexity can be evaluated using methods such as gray information entropy and edge energy, and color complexity can be evaluated using methods such as color local correlation.
  • video features such as motion are extracted to reduce the evaluation error, and the video decoding recovery strategy is used for distortion.
  • the type is extended and classified, which solves the problem of large evaluation error, neglect of motion, and single index in the terminal-side time domain non-reference technology in the prior art, and highlights the sportiness and video content compared with the prior art.
  • the influence on video quality improves the closeness of evaluation results and subjective feelings, expands the evaluation system of video time domain distortion, and reduces the probability of false positives.
  • the algorithms and displays provided herein are not inherently related to any particular computer, virtual system, or other device.
  • Various general purpose systems can also be used with the teaching based on the teachings herein. From the above description, the structure required to construct such a system is obvious. Moreover, embodiments of the invention are not directed to any particular programming language.
  • the inventive aspects are less than the front All features of a single embodiment disclosed. Therefore, the claims following the embodiments are hereby explicitly incorporated into the embodiments, each of which claims as a separate embodiment of the invention.
  • the modules in the devices of the embodiments can be adaptively changed and placed in one or more devices different from the embodiment.
  • the modules or units or components of the embodiments may be combined into one module or unit or component, and further they may be divided into a plurality of sub-modules or sub-units or sub-components.
  • the various component embodiments of the present invention may be implemented in hardware, or in a software module running on one or more processors, or in a combination thereof.
  • a microprocessor or digital signal processor may be used in practice to implement some or all of some or all of the components of the terminal side time domain video quality evaluation device in accordance with embodiments of the present invention.
  • Embodiments of the invention may also be implemented as a device or device program (e.g., a computer program and a computer program product) for performing some or all of the methods described herein.
  • a program implementing an embodiment of the invention may be stored on a computer readable medium or may be in the form of one or more signals.
  • Such signals may be downloaded from an Internet website, provided on a carrier signal, or provided in any other form. It is to be noted that the above-described embodiments are illustrative of the invention and are not intended to limit the scope of the invention, and those skilled in the art can devise alternative embodiments without departing from the scope of the appended claims. In the claims, any reference signs placed between parentheses shall not be construed as a limitation.
  • the word “comprising” does not exclude the presence of the elements or the steps in the claims.
  • the word “a” or “an” preceding the ⁇ RTIgt; Embodiments of the invention may be implemented by means of hardware comprising several distinct elements and by means of a suitably programmed computer.

Abstract

本发明公开了终端侧时间域视频质量评价方法及装置,其中,该方法包括:计算各个视频帧的显著运动面积比例,根据显著运动面积比例将所有视频帧分为绝对普通帧和疑似失真帧;对疑似失真帧进行冻结帧检测、场景转换帧检测、抖动帧检测、以及鬼影帧检测;根据场景转换帧检测结果对视频进行场景分割,计算各个场景的场景信息权值等,确定终端侧时间域视频质量。本发明解决了现有技术中终端侧时间域无参考技术中存在的评测误差较大、忽略运动性、指标单一的问题,提高了评价结果与主观感受的接近程度,扩展了视频时间域失真的评价体系,降低了误判发生的概率。

Description

终端侧时间域视频质量评价方法及装置 技术领域 本发明涉及视频客观质量评价技术领域, 特别是涉及一种终端侧时间域视频质量 评价方法及装置。 背景技术 在现有技术中, 视频的客观质量评价可以分别在网络侧和终端侧实现, 其中终端 侧评价是在用户终端解码视频后进行的。 虽然在效率和反馈能力上不及网络侧评价, 但它针对用户最终观看到的视频进行评价, 可以充分体现从服务到网络、 最终到终端 接收、 以及视频解码对视频质量的影响,可以更好地反映用户对视频业务的主观感受。 视频的时间域质量是指其仅存在于视频帧间的质量因素, 也就是整帧丢失对视频 带来的影响。 目前视频空间域质量已经有了大量成熟的研究成果, 而时间域质量的相 关评价方法则相对较少。 目前, 视频在时间域上的客观质量评价仍主要停留在全参考评价上, 通过将被测 视频与原始视频逐帧对齐的方式辨别是否发生了帧重复、 帧抖动等现象, 但这方法完 全不能适应当今的视频业务, 例如, 流媒体和视频会话的实时性以及不可溯源性。 这 些业务需要将视频客观质量评价通过无参考的方式实现, 即抛开原始视频, 仅利用被 测视频的相关特征来对实时视频进行评价。 虽然无参考评价相比全参考评价会牺牲一 定的准确度, 但它可以很好地完成实时性的要求, 同时也不需要获取原始视频。 现今已有的视频终端侧时间域无参考质量评价方法相对较少, 主要通过计算帧间 差异实现, 包括计算帧间亮度差、 均方误差等方法, 将结果通过阈值判断是否为丢失 帧。 这些方法往往误差较大, 没有考虑到视频运动性对时间域质量的影响, 对于场景 转换帧的区别度很低, 并且只考虑了 "冻结 "这一种时间域质量指标。 发明内容 本发明实施例提供一种终端侧时间域视频质量评价方法及装置, 以解决现有技术 中终端侧时间域无参考技术中存在的评测误差较大、 忽略运动性、 指标单一的问题。 本发明实施例提供一种终端侧时间域视频质量评价方法, 包括: 计算各个视频帧 的显著运动面积比例, 其中, 显著运动面积比例是指: 相邻两视频帧之间发生显著变 化的面积占一个视频帧面积的比例; 根据显著运动面积比例将所有视频帧分为绝对普 通帧和疑似失真帧; 对疑似失真帧进行冻结帧检测、 场景转换帧检测、 抖动帧检测、 以及鬼影帧检测; 根据场景转换帧检测结果对视频进行场景分割, 计算各个场景的场 景信息权值, 并根据冻结帧检测结果、 抖动帧检测结果、 以及鬼影帧检测结果计算失 真系数, 根据显著运动面积比例、 场景信息权值、 以及失真系数确定终端侧时间域视 频质量。 优选地, 计算各个视频帧的显著运动面积比例包括: 根据播放进度将当前第 k视 频帧解码到明亮度色度 YUV空间, 获取亮度矩阵 Yk; 如果确定当前第 k视频帧为视 频的第一帧, 则设当前第 k视频帧的前一帧为像素值全零帧, 并执行步骤 13, 否则, 直接执行步骤 13; 步骤 13, 对当前第 k视频帧的亮度矩阵 Yk进行高斯滤波, 并对滤 波结果进行下采样; 步骤 14, 重复执行步骤 13 n-1次, 得到含有 n个不同尺度的矩阵 的高斯图像金字塔 PMDk, 其中, 尺度表示当前矩阵已进行高斯滤波与下采样操作的 次数, 当尺度为 1时的矩阵为源矩阵 Yk, n为尺度的总个数; 步骤 15, 对当前第 k视 频帧和第 k-1视频帧的高斯图像金字塔 PMDk和 PMDn在尺度 s上求矩阵中每个元素 之差的绝对值, 得到差异矩阵 Mks, 并根据各尺度上的差异矩阵组成差异金字塔 DPMDk, 其中, 差异矩阵 Mks中的 为全零矩阵; 步骤 16, 对 DPMDk中除尺度 1 以外的所有尺度上的差异矩阵进行双线性插值, 将差异矩阵大小归一到与源矩阵 Yk 相同,并对包括 Yk在内的 DPMDk插值后的 n个差异矩阵求平均得到归一差异矩阵 Zk; 步骤 17, 对 Zk进行中值滤波去噪得到 Zkm, 并设置阈值 θ, 将 中大于等于 Θ的元 素赋值为 1, 小于 Θ的元素赋值为 0, 得到二值矩阵 BIk; 步骤 18, 对 BIk求和后除以 当前第 k视频帧的帧像素面积, 得到当前第 k视频帧的显著运动面积比例。 优选地, 步骤 13包括: 对当前第 k帧的亮度矩阵 Yk做帧窗口大小为 3x3、 均值 为 0、标准差为 0.5的高斯滤波, 并对对滤波结果进行 l/4a下采样, 其中, a为自然数。 优选地,根据显著运动面积比例将所有视频帧分为绝对普通帧和疑似失真帧包括: 步骤 21, 在当前第 k视频帧的显著运动面积比例为 0的情况下, 确定当前第 k视频帧 为疑似冻结帧, 其中, k>l ; 步骤 22, 在当前第 k视频帧的显著运动面积比例大于前 一视频帧的两倍且大于第一预定阈值、 且其前一视频帧为非冻结帧的情况下, 确定当 前第 k视频帧为疑似场景转换帧; 步骤 23, 在当前第 k视频帧和第 k+1视频帧的显著 运动面积比例相等的情况下,确定上述两视频帧为疑似抖动帧或疑似鬼影帧;步骤 24, 在当前第 k视频帧的显著运动面积比例不符合步骤 21至 23的情况、 且前一视频帧为 非冻结帧的情况下, 确定当前第 k视频帧为绝对普通帧。 优选地, 对疑似失真帧进行冻结帧检测包括: 步骤 31, 对尺度为 1 的差异矩阵 中所有元素求和, 若结果为 0, 执行步骤 32, 否则确定当前第 k视频帧为正常帧, 并退出整个当前第 k视频帧的失真检测; 步骤 32, 若判断第 k-1视频帧为冻结帧, 则 确定当前第 k视频帧也为冻结帧, 并退出整个当前第 k视频帧的失真检测, 否则, 执 行步骤 33; 步骤 33, 若判断第 k-1视频帧为幕帧, 则确定当前第 k视频帧也为幕帧, 并退出整个当前第 k视频帧的失真检测, 否则, 执行步骤 34; 步骤 34, 计算当前第 k 视频帧的空间复杂度 Os以及色彩复杂度 Oc; 步骤 35, 计算当前第 k视频帧的幕系数 P=l-0.6Os-0.4Oc+0.2b, 若 P大于等于第二预定阈值, 则确定当前第 k视频帧为幕帧, 不是冻结帧, 否则, 确定当前第 k视频帧为冻结帧, 其中, b为二值型参数, 当第 k-1 视频帧为场景转换帧或第 k-1视频帧和第 k-2视频帧的显著运动面积比例非 0且相等 时, b=l, 否则 b=0。 优选地, 对疑似失真帧进场景转换帧检测包括: 步骤 41, 在宽为 w、 高为 h的二 值矩阵 BIk的中间划分出前景矩形区域 BIkf, 并确定 BIk的其他区域为背景区域 BIkb, 计算 BIk在 BIkb中的元素总和与在 BIkf中的元素总和之比 Rk, 其中, BIkf的高为 BIk 的第 Lh/8+lj行到第【7h/8j行, 宽为 BIk的第 v/8+lj列到第【7w/8j列, 上述符号" U"是指 向下取整; 步骤 42, 以 BIk的第 [h/2]行和第 [h/2]列为界, 将 BIkb划分为四个部分, 并 分别计算四个部分中数值为 1的元素个数所占该部分的比例, 统计这四个比例中大于 等于第三预定阈值的个数 N1V; 步骤 43, 若 Rk大于等于第四预定阈值且 N1V大于等于 第五预定阈值, 则确定当前第 k视频帧为场景转换帧, 否则, 确定当前第 k视频帧为 正常帧。 优选地, 对疑似失真帧进抖动帧检测、 以及鬼影帧检测包括: 步骤 51, 若第 k-1 视频帧为渐变帧, 则确定当前第 k视频帧也为渐变帧, 退出整个当前第 k视频帧的失 真检测, 否则执行步骤 52; 步骤 52, 若当前第 k视频帧的显著运动面积比例与第 k-1 视频帧相等, 则当前第 k视频帧为渐变帧, 并退出整个当前第 k视频帧的失真检测, 否则执行步骤 53; 步骤 53, 计算第 k-1视频帧和第 k+1视频帧亮度矩阵的差值矩阵, 取其绝对值后将所有元素求和, 若和为 0, 则第 k+1视频帧为抖动帧, 且第 k帧为正 常帧, 并退出整个当前第 k视频帧的失真检测, 并执行步骤 54, 否则, 直接执行步骤 54; 步骤 54, 若当前第 k视频帧的显著运动面积比例大于等于第六预定阈值, 则确定 当前第 k视频帧为鬼影帧, 且第 k+1帧为正常帧, 否则确定第 k视频帧为正常帧。 优选地, 根据场景转换帧检测结果对视频进行场景分割, 计算各个场景的场景信 息权值包括: 根据场景转换帧检测结果对视频进行场景分割, 如果当前第 k视频为最 近的场景转换帧之后的第一个绝对普通帧, 则将当前第 k视频的空间复杂度、 色彩复 杂度、 亮度均值以及显著运动面积比例进行求和, 获取该场景内用于加权的场景信息 权值。 优选地, 根据冻结帧检测结果、 抖动帧检测结果、 以及鬼影帧检测结果计算失真 系数包括: 根据公式 1计算失真系数 K;
Figure imgf000006_0001
公式 1 ; 其中, F&zt、 Fgst分别为当前帧的冻结帧、 抖动帧、 鬼影帧标志位, 上述三 个标志位中有且仅有一项为 1, 其他标志位均为 0, 1表示所评价的视频帧存在相应类 型的失真, 0 表示所评价的视频帧不存在相应类型的失真, P&z为冻结持续性系数, Pfrz = n \og2 (2 + t) ^ 上式中 n为本次冻结的连续累计帧数, t为在此次冻结发生前第 一预定时间内单次持续第二预定时间以上的冻结的次数, 第二预定时间小于第一预定 时间。 优选地, 根据显著运动面积比例、 场景信息权值、 以及失真系数确定终端侧时间 域视频质量包括: 根据公式 2计算终端侧时间域视频质量
Q = \ - m^Aq~ Expr K 公式 2. 其中, m为扩展系数, q为发生失真的视频帧的前一个正常帧的显著运动面积比 例, Expr为场景信息权值, K为失真系数。 本发明实施例还提供了一种终端侧时间域视频质量评价装置, 包括: 计算模块, 用于计算各个视频帧的显著运动面积比例, 其中, 显著运动面积比例是指: 相邻两视 频帧之间发生显著变化的面积占一个视频帧面积的比例; 划分模块, 设置为根据显著 运动面积比例将所有视频帧分为绝对普通帧和疑似失真帧; 检测模块, 设置为对疑似 失真帧进行冻结帧检测、 场景转换帧检测、 抖动帧检测、 以及鬼影帧检测; 评估模块, 设置为根据场景转换帧检测结果对视频进行场景分割,计算各个场景的场景信息权值, 并根据冻结帧检测结果、 抖动帧检测结果、 以及鬼影帧检测结果计算失真系数, 根据 显著运动面积比例、 场景信息权值、 以及失真系数确定终端侧时间域视频质量。 优选地, 计算模块包括: 亮度矩阵获取子模块, 设置为根据播放进度将当前第 k 视频帧解码到明亮度色度 YUV空间, 获取亮度矩阵 Yk; 设置子模块, 设置为在确定 当前第 k视频帧为视频的第一帧时, 设当前第 k视频帧的前一帧为像素值全零帧, 并 调用滤波采样子模块, 否则, 直接调用滤波采样子模块; 滤波采样子模块, 设置为对 当前第 k视频帧的亮度矩阵 Yk进行高斯滤波, 并对滤波结果进行下采样; 高斯图像金 字塔获取子模块, 设置为重复调用滤波采样子模块 ti-1次, 得到含有 n个不同尺度的 矩阵的高斯图像金字塔 PMDk, 其中, 尺度表示当前矩阵已进行高斯滤波与下采样操 作的次数, 当尺度为 1时的矩阵为源矩阵 Yk, n为尺度的总个数; 差异金字塔获取子 模块, 设置为对当前第 k视频帧和第 k-1视频帧的高斯图像金字塔 PMDk和 PMDn 在尺度 s上求矩阵中每个元素之差的绝对值, 得到差异矩阵 Mks, 并根据各尺度上的 差异矩阵组成差异金字塔 DPMDk, 其中, 差异矩阵 Mks中的 为全零矩阵; 归一 差异矩阵获取子模块, 设置为对 DPMDk中除尺度 1 以外的所有尺度上的差异矩阵进 行双线性插值, 将差异矩阵大小归一到与源矩阵 Yk相同, 并对包括 Yk在内的 DPMDk 插值后的 n个差异矩阵求平均得到归一差异矩阵 Zk; 二值矩阵获取子模块, 设置为对 Zk进行中值滤波去噪得到 Zkm, 并设置阈值 θ, 将 Zkm中大于等于 Θ的元素赋值为 1, 小于 Θ的元素赋值为 0, 得到二值矩阵 BIk; 显著运动面积比例获取子模块, 设置为对 BIk求和后除以当前第 k视频帧的帧像素面积,得到当前第 k视频帧的显著运动面积比 例。 优选地, 滤波采样子模块设置为: 对当前第 k帧的亮度矩阵 Yk做帧窗口大小为
3 x3、 均值为 0、 标准差为 0.5的高斯滤波, 并对对滤波结果进行 l/4a下采样, 其中, a 为自然数。 优选地, 划分模块包括: 疑似冻结帧确定子模块, 设置为在当前第 k视频帧的显 著运动面积比例为 0的情况下, 确定当前第 k视频帧为疑似冻结帧, 其中, k> l ; 疑似 场景转换帧确定子模块, 设置为在当前第 k视频帧的显著运动面积比例大于前一视频 帧的两倍且大于第一预定阈值、 且其前一视频帧为非冻结帧的情况下, 确定当前第 k 视频帧为疑似场景转换帧; 疑似抖动帧和疑似鬼影帧确定子模块, 设置为在当前第 k 视频帧和第 k+1视频帧的显著运动面积比例相等的情况下, 确定上述两视频帧为疑似 抖动帧或疑似鬼影帧; 绝对普通帧确定子模块, 设置为在当前第 k视频帧的显著运动 面积比例不符合上述各子模块的情况、 且前一视频帧为非冻结帧的情况下, 确定当前 第 k视频帧为绝对普通帧。 优选地, 检测模块包括: 冻结帧检测模块, 其中, 冻结帧检测模块包括: 求和子 模块, 设置为对尺度为 1的差异矩阵 Miu中所有元素求和, 若结果为 0, 调用第一判 断子模块, 否则确定当前第 k视频帧为正常帧, 并退出整个当前第 k视频帧的失真检 测; 第一判断子模块, 设置为在判断第 k-1视频帧为冻结帧时, 则确定当前第 k视频 帧也为冻结帧, 并退出整个当前第 k视频帧的失真检测, 否则, 调用幕帧判断子模块; 幕帧判断子模块, 设置为在判断第 k-1视频帧为幕帧时, 则确定当前第 k视频帧也为 幕帧, 并退出整个当前第 k视频帧的失真检测, 否则, 调用计算子模块; 计算子模块, 计算当前第 k视频帧的空间复杂度 Os以及色彩复杂度 Oc; 冻结帧幕帧区分子模块, 设置为计算当前第 k视频帧的幕系数 P=l-0.6Os-0.4O。+0.2b, 若 P大于等于第二预定 阈值, 则确定当前第 k视频帧为幕帧, 不是冻结帧, 否则, 确定当前第 k视频帧为冻 结帧,其中, b为二值型参数, 当第 k-1视频帧为场景转换帧或第 k-1视频帧和第 k-2 视频帧的显著运动面积比例非 0且相等时, b=l, 否则 b=0。 优选地, 检测模块包括: 场景转换帧检测模块, 其中, 场景转换帧检测模块包括: 前景矩形区域划分子模块, 设置为在宽为 w、 高为 h的二值矩阵 BIk的中间划分出前 景矩形区域 BIkf, 并确定 BIk的其他区域为背景区域 BIkb, 计算 BIk在 BIkb中的元素 总和与在 BIkf中的元素总和之比 Rk, 其中, BIkf的高为 BIk的第 Lh/8+lj行到第【7h/8J 行, 宽为 BIk的第 v/8+lj列到第【7W8j列, 上述符号" U"是指向下取整; 二值矩阵划分 子模块, 设置为以 BIk的第 [h/2]行和第 [h/2]列为界, 将 BIkb划分为四个部分, 并分别 计算四个部分中数值为 1的元素个数所占该部分的比例, 统计这四个比例中大于等于 第三预定阈值的个数 N1V; 场景转换帧判断子模块, 设置为在 Rk大于第四预定阈值且 N1V大于第五预定阈值时, 则确定当前第 k视频帧为场景转换帧, 否则, 确定当前第 k 视频帧为正常帧。 优选地, 检测模块包括: 抖动帧以及鬼影帧检测模块, 其中, 抖动帧以及鬼影帧 检测模块包括: 渐变帧第一确定子模块, 设置为在第 k-1视频帧为渐变帧时, 则确定 当前第 k视频帧也为渐变帧, 并退出整个当前第 k视频帧的失真检测, 否则调用渐变 帧第二确定子模块; 渐变帧第二确定子模块, 设置为在当前第 k视频帧的显著运动面 积比例与第 k-1视频帧相等时, 则确定当前第 k视频帧为渐变帧, 并退出整个当前第 k视频帧的失真检测, 否则调用抖动帧检测子模块; 抖动帧检测子模块, 设置为计算 第 k-1视频帧和第 k+1视频帧亮度矩阵的差值矩阵, 取其绝对值后将所有元素求和, 若和为 0, 则第 k+1视频帧为抖动帧, 且第 k视频帧为正常帧, 并退出整个当前第 k 视频帧的失真检测, 否则, 调用鬼影帧检测子模块; 鬼影帧检测子模块, 设置为在当 前第 k视频帧的显著运动面积比例大于等于第六预定阈值时, 则确定当前第 k视频帧 为鬼影帧, 且第 k+1视频帧为正常帧, 否则, 确定当前第 k视频帧为正常帧。 优选地, 评估模块包括: 场景信息权值计算子模块, 设置为根据场景转换帧检测 结果对视频进行场景分割, 如果当前第 k视频为最近的场景转换帧之后的第一个绝对 普通帧, 则将当前第 k视频的空间复杂度、 色彩复杂度、 亮度均值以及显著运动面积 比例进行求和, 获取该场景内用于加权的场景信息权值。 优选地, 评估模块包括: 失真系数计算子模块, 设置为根据公式 1计算失真系数
K;
^ ^0.071n(44 /re -41.28)x ^ +0.29 ., +0.19 g, 公式 1; 其中, F&zt、 Fgst分别为当前帧的冻结帧、 抖动帧、 鬼影帧标志位, 上述三 个标志位中有且仅有一项为 1, 其他标志位均为 0, 1表示所评价的视频帧存在相应类 型的失真, 0 表示所评价的视频帧不存在相应类型的失真, P&z为冻结持续性系数, ^z -«xl g2(2 + ; 上式中 n为本次冻结的连续累计帧数, t为在此次冻结发生前第 一预定时间内单次持续第二预定时间以上的冻结的次数, 第二预定时间小于第一预定 时间。 优选地, 评估模块包括: 视频质量确定子模块, 设置为根据公式 2计算终端侧时 间域视频质量
Q = \-m^[Aq~ Expr K 公式 2. 其中, m为扩展系数, q为发生失真的视频帧的前一个正常帧的显著运动面积比 例, Expr为场景信息权值, K为失真系数。 本发明实施例有益效果如下: 通过引入了视频显著运动区域提取技术和视频场景转换检测技术, 提取运动性等 视频特征来降低评价误差, 同时针对视频解码恢复策略对失真类型进行了扩展分类, 解决了现有技术中终端侧时间域无参考技术中存在的评测误差较大、 忽略运动性、 指 标单一的问题, 与现有技术相比, 突出了运动性以及视频内容对视频质量的影响, 提 高了评价结果与主观感受的接近程度, 扩展了视频时间域失真的评价体系, 降低了误 判发生的概率。 上述说明仅是本发明技术方案的概述, 为了能够更清楚了解本发明实施例的技术 手段, 而可依照说明书的内容予以实施, 并且为了让本发明实施例的上述和其它目的、 特征和优点能够更明显易懂, 以下特举本发明实施例的具体实施方式。 附图说明 通过阅读下文优选实施方式的详细描述, 各种其他的优点和益处对于本领域普通 技术人员将变得清楚明了。 附图仅用于示出优选实施方式的目的, 而并不认为是对本 发明的限制。 而且在整个附图中, 用相同的参考符号表示相同的部件。 在附图中: 图 1是本发明实施例的终端侧时间域视频质量评价方法的流程图; 图 2是本发明实施例的显著运动面积比例的示意图; 图 3是本发明实施例的冻结失真的示意图; 图 4是本发明实施例的抖动失真的示意图; 图 5是本发明实施例的鬼影失真的示意图; 图 6是本发明实施例的提取显著运动面积比例的流程图; 图 7是本发明实施例的初步失真分析的流程图; 图 8是本发明实施例的终端侧时间域视频质量评价装置的结构示意图; 以及 图 9是本发明实施例的终端侧时间域视频质量评价装置的优选结构示意图。 具体实施方式 下面将参照附图更详细地描述本公开的示例性实施例。 虽然附图中显示了本公开 的示例性实施例, 然而应当理解, 可以以各种形式实现本公开而不应被这里阐述的实 施例所限制。 相反, 提供这些实施例是为了能够更透彻地理解本公开, 并且能够将本 公开的范围完整的传达给本领域的技术人员。 为了解决现有技术中终端侧时间域无参考技术中存在的评测误差较大、 忽略运动 性、 指标单一的问题, 本发明实施例提供了一种终端侧时间域无参考视频质量评价方 法及装置, 引入了视频显著运动区域提取技术和视频场景转换检测技术, 提取运动性 等视频特征来降低评价误差,同时针对视频解码恢复策略对失真类型进行了扩展分类。 以下结合附图以及实施例, 对本发明实施例进行进一步详细说明。 应当理解, 此处所 描述的具体实施例仅仅用以解释本发明, 并不限定本发明。 方法实施例 根据本发明的实施例, 提供了一种终端侧时间域视频质量评价方法, 图 1是本发 明实施例的终端侧时间域视频质量评价方法的流程图, 如图 1所示, 根据本发明实施 例的终端侧时间域视频质量评价方法包括如下处理: 步骤 101, 计算各个视频帧的显著运动面积比例, 其中, 显著运动面积比例是指: 相邻两视频帧之间发生显著变化的面积占一个视频帧面积的比例; 也就是说, 在步骤 101中, 需要计算视频帧间的亮度差异, 上述亮度差异的计算 引入了视频显著运动区域提取技术并针对应用进行优化, 使用"显著运动面积比例"指 标作为评价视频时间域质量的核心, 即帧间发生人眼较敏感的运动部分所占整帧的面 积比例。 本发明实施例主要围绕这一技术指标对视频时间域质量进行评价, 通过对该 指标属性的分析来衡量运动性对视频质量的影响, 提高了评价的准确性。 此外, 显著运动面积比例的计算引入高斯金字塔技术, 增强了方法对于视频尺寸 变化的适应性。利用基于中值滤波去噪的二值化阈值异常检测方法提取显著运动区域。 计算显著运动区域占整帧的面积比例。 优选的, 在步骤 101中, 计算各个视频帧的显著运动面积比例包括: 步骤 1011, 根据播放进度将当前第 k视频帧解码到明亮度色度 YUV空间, 获取 亮度矩阵 Yk; 步骤 1012, 如果确定当前第 k视频帧为视频的第一帧, 则设当前第 k视频帧的前 一帧为像素值全零帧, 并执行步骤 1013, 否则, 直接执行步骤 1013; 步骤 1013, 对当前第 k视频帧的亮度矩阵 Yk进行高斯滤波, 并对滤波结果进行 下采样; 优选的, 在步骤 1013中: 可以对当前第 k帧的亮度矩阵 Yk做帧窗口大小为 3x3、 均值为 0、 标准差为 0.5的高斯滤波, 并对对滤波结果进行 l/4a下采样, 其中, a为自然数。 步骤 1014,重复执行步骤 13 n-l次,得到含有 n个不同尺度的矩阵的高斯图像金 字塔 PMDk, 其中, 尺度表示当前矩阵已进行高斯滤波与下采样操作的次数, 当尺度 为 1时的矩阵为源矩阵 Yk, n为尺度的总个数,在本发明实施例中, n可以设置为 3-5; 步骤 1015,对当前第 k视频帧和第 k-1视频帧的高斯图像金字塔 PMDk和 PMD^ 在尺度 s上求矩阵中每个元素之差的绝对值, 得到差异矩阵 Mks, 并根据各尺度上的 差异矩阵组成差异金字塔 DPMDk, 其中, 差异矩阵 Mks中的 为全零矩阵; 步骤 1016,对 DPMDk中除尺度 1以外的所有尺度上的差异矩阵进行双线性插值, 将差异矩阵大小归一到与源矩阵 Yk相同,并对包括 Yk在内的 DPMDk插值后的 n个差 异矩阵求平均得到归一差异矩阵 Zk; 步骤 1017, 对 Zk进行中值滤波去噪得到 Zkm, 并设置阈值 θ, 将 中大于等于 Θ的元素赋值为 1, 小于 Θ的元素赋值为 0, 得到二值矩阵 BIk; 步骤 1018, 对 BIk求和后除以当前第 k视频帧的帧像素面积, 得到当前第 k视频 帧的显著运动面积比例。 其中, 高斯滤波和高斯图像金字塔能够保证获取相邻两视频帧之间发生显著变化 的面积。 步骤 102, 根据显著运动面积比例将所有视频帧分为绝对普通帧和疑似失真帧; 在步骤 102中, 通过帧间差异初步分析将所有帧分为确定无失真的"绝对普通帧" 以及需要进行进一步检测的 "疑似失真帧"。 优选的, 步骤 102中包括如下处理: 步骤 1021, 在当前第 k视频帧的显著运动面积比例为 0的情况下, 确定当前第 k 视频帧为疑似冻结帧, 其中, k>l ; 步骤 1022, 在当前第 k视频帧的显著运动面积比例大于前一视频帧的两倍且大于 第一预定阈值(优选地, 在本发明实施例中, 上述第一预定阈值可以为 0.1, 该第一阈 值可以根据本领域技术人员的经验值确定)、且其前一视频帧为非冻结帧的情况下,确 定当前第 k视频帧为疑似场景转换帧; 步骤 1023,在当前第 k视频帧和第 k+1视频帧的显著运动面积比例相等的情况下, 确定上述两视频帧为疑似抖动帧或疑似鬼影帧; 步骤 1024, 在当前第 k视频帧的显著运动面积比例不符合步骤 1021至 1023的情 况、 且前一视频帧为非冻结帧的情况下, 确定当前第 k视频帧为绝对普通帧。 步骤 103, 对疑似失真帧进行冻结帧检测、 场景转换帧检测、 抖动帧检测、 以及 鬼影帧检测; 在本发明实施例中, 在数据分析时建立了视频时间域质量的三指标体系: "冻结"、 "鬼影 "和"抖动"。其中"鬼影"和"抖动"仅在视频图像组(Group of Picture,简称为 GOP) 中存在 B帧时可能出现。 三种指标的检测均围绕当前帧及其附近帧的显著运动面积比 例窗口进行分析。 此外, 在步骤 102和步骤 103中, 使用了针对时间域失真两步分析检测法, 第一 步 (步骤 102) 根据三种失真发生时显著运动面积比例的特点识别出视频中的疑似失 真帧以及该帧的可能失真类型; 第二步 (步骤 103 ) 则只对疑似失真帧进行进一步检 测分析。 如此可以减少中间数据量, 避免大量的重复检测, 降低了算法的复杂度。 在 上述两步分析检测法的第二步中, 引入了空间复杂度的计算, 用来表示视频帧内容的 细致程度。 同时提出了"色彩复杂度", 用来表示视频帧内容的色彩丰富程度。 此外, 在两步分析检测法的第二步中,三个指标均利用临近帧的显著运动面积进行误判检测, 防止将视频正常效果误判为失真。 提出了两种误判可能类型, 包括可能误判为冻结的 "幕帧 "和可能误判为鬼影的"渐变帧"。 并且, 在步骤 103 中还提出基于显著运动面积 比例的分场景评价方法, 利用显著运动面积比例的突变以及显著运动在帧背景部分的 比例检测出场景转换帧。 优选的, 在步骤 103中, 对疑似失真帧进行冻结帧检测是指: 检测疑似失真帧是 否为冻结帧, 同时排除"幕帧(原始视频中的静止帧) "的干扰。 优选的包括如下处理: 步骤 1031a, 对尺度为 1的差异矩阵 中所有元素求和, 若结果为 0, 执行步骤 1032a, 否则确定当前第 k视频帧为正常帧, 并退出整个当前第 k视频帧的失真检测; 步骤 1032a, 若判断第 k-1视频帧为冻结帧, 则确定当前第 k视频帧也为冻结帧, 并退出整个当前第 k视频帧的失真检测, 否则, 执行步骤 1033a; 步骤 1033a, 若判断第 k_l视频帧为幕帧, 则确定当前第 k视频帧也为幕帧, 并 退出整个当前第 k视频帧的失真检测, 否则, 执行步骤 1034a; 步骤 1034a, 计算当前第 k视频帧的空间复杂度 Os以及色彩复杂度 Oc; 步骤 1035a,计算当前第 k视频帧的幕系数 P=l-0.6Os-0.4Oc+0.2b,若 P大于等于 第二预定阈值(优选地, 在本发明实施例中, 上述第二预定阈值可以为 0.5, 该第二阈 值可以根据本领域技术人员的经验值确定), 则确定当前第 k视频帧为幕帧, 不是冻结 帧, 否则, 确定当前第 k视频帧为冻结帧, 其中, b为二值型参数, 当第 k-1视频帧 为场景转换帧或第 k-1视频帧和第 k-2视频帧的显著运动面积比例非 0且相等时, b=l, 否则 b=0。 对疑似失真帧进场景转换帧检测是指: 检测场景转换帧, 以便后续以场景转换帧 为边界准备计算场景信息权值。 包括如下处理: 步骤 1031b, 在宽为 w、 高为 h的二值矩阵 BIk的中间划分出前景矩形区域 BIkf, 并确定 BIk的其他区域为背景区域 BIkb, 计算 BIk在 BIkb中的元素总和与在 BIkf中的 元素总和之比 Rk, 其中, BIkf的高为 BIk的第 Lh/8+lj行到第【7h/8j行, 宽为 BIk的第 Lw/8+lj列到第 L7w/8j列, 上述符号' j"是指向下取整; 步骤 1032b, 以 BIk的第 [h/2]行和第 [h/2]列为界, 将 BIkb划分为四个部分, 并分 别计算四个部分中数值为 1的元素个数所占该部分的比例, 统计这四个比例中大于等 于第三预定阈值的个数 N1V (优选地, 在本发明实施例中, 上述第三预定阈值可以为 0.3, 该第三阈值可以根据本领域技术人员的经验值确定); 步骤 1033b, 若 Rk大于等于第四预定阈值且 N1V大于等于第五预定阈值(优选地, 在本发明实施例中, 上述第四预定阈值可以为 0.3, 上述第五预定阈值可以为 3, 该第 四、五阈值可以根据本领域技术人员的经验值确定), 则确定当前第 k视频帧为场景转 换帧, 否则, 退出对当前第 k视频帧的场景转换帧检测。 对疑似失真帧进抖动帧检测、 以及鬼影帧检测是指: 检测疑似失真帧是否为鬼影 帧或抖动帧, 同时排除"渐变帧 (原始视频中处于均勾变化中的帧) "的干扰。 包括如 下处理: 步骤 1031c, 若第 k-1视频帧为渐变帧, 则确定当前第 k视频帧也为渐变帧, 并 退出整个当前第 k视频帧的失真检测, 否则执行步骤 1032c; 步骤 1032c, 若当前第 k视频帧的显著运动面积比例与第 k-1视频帧相等, 则当 前第 k视频帧为渐变帧,并退出整个当前第 k视频帧的失真检测,否则执行步骤 1033c; 步骤 1033c, 计算第 k-1视频帧和第 k+1视频帧亮度矩阵的差值矩阵, 取其绝对 值后将所有元素求和, 若和为 0, 则第 k+1视频帧为抖动帧, 且第 k帧为正常帧, 并 退出整个当前第 k视频帧的失真检测,并执行步骤 1034c,否则,直接执行步骤 1034c; 步骤 1034c, 若当前第 k视频帧的显著运动面积比例大于等于第六预定阈值 (优 选地, 在本发明实施例中, 上述第六预定阈值可以为 0.03, 该第六阈值可以根据本领 域技术人员的经验值确定),则确定当前第 k视频帧为鬼影帧,且第 k+1视频帧为正常 帧, 否则确定当前第 k视频帧为正常帧。 步骤 104, 根据场景转换帧检测结果对视频进行场景分割, 计算各个场景的场景 信息权值, 并根据冻结帧检测结果、 抖动帧检测结果、 以及鬼影帧检测结果计算失真 系数, 根据显著运动面积比例、 场景信息权值、 以及失真系数确定终端侧时间域视频 质量。 在步骤 104中, 根据场景转换帧检测结果对视频进行场景分割, 计算各个场景的 场景信息权值包括: 根据场景转换帧检测结果对视频进行场景分割, 同时提供场景片 段的运动性和内容空间、 色彩丰富程度等信息, 如果当前第 k视频为最近的场景转换 帧之后的第一个绝对普通帧, 则将当前第 k视频的空间复杂度、 色彩复杂度、 亮度均 值以及显著运动面积比例进行求和, 获取该场景内用于加权的场景信息权值。 优选的, 在步骤 104中, 利用三个指标的主观实验结果得到各自的失真系数, 作 为评价总分的基础。 其中对冻结的评价提出了冻结时长系数, 衡量冻结失真中冻结持 续时长的影响。 在步骤 104中, 根据冻结帧检测结果、 抖动帧检测结果、 以及鬼影帧检测结果计 算失真系数包括: 根据公式 1计算失真系数 K; ^ -0.071n(44 /re -41.28)x ^ +0.29 ., +0.19 gii 公式 1; 其中, F&zt、 Fgst分别为当前帧的冻结帧、 抖动帧、 鬼影帧标志位, 上述三个 标志位中有且仅有一项为 1, 其他标志位均为 0, 1表示所评价的视频帧存在相应类型 的失真, 0 表示所评价的视频帧不存在相应类型的失真, P&z为冻结持续性系数, ^z -«xl g2(2 + ; 上式中 n为本次冻结的连续累计帧数, t为在此次冻结发生前第 —预定时间内单次持续第二预定时间以上的冻结的次数, 第二预定时间小于第一预定 时间。 在步骤 104中, 根据显著运动面积比例、 场景信息权值、 以及失真系数确定终端 侧时间域视频质量包括: 根据公式 2计算终端侧时间域视频质量
Q = \-m^Aq~ Expr K 公式 2. 其中, m为扩展系数, 为发生失真的视频帧的前一个正常帧的显著运动面积比 例, Expr为场景信息权值, K为失真系数。 以下结合附图, 对本发明上述实施例的技术方案进行详细的说明。 首选需要计算作为帧间差异指标的显著运动面积比例。 本发明实施例主要以运动 性特征为基础, 提出了符合包括实时应用在内的视频"显著运动面积比例"。 显著运动 面积比例是指相邻两帧之间发生显著变化部分的面积占整个帧面积的比例, 优选的, 图 2是本发明实施例的显著运动面积比例的示意图, 为了对视频帧的时间域失真进行 特征提取, 并针对特征值进行计算分析, 需要计算某个可以较好地表示两帧之间的差 异, 同时数据量又较小 (维度较少) 的指标。 显著运动面积比例作为这样一种指标, 需要通过一系列步骤提取出运动区域中的显著部分。 如图 2所示, 在二值差异图中, 白色为显著运动部分, 黑色为非显著运动部分。 在得到当前帧以及前一帧的高斯图像金字塔之后, 需要对二者逐像素求差得到差 异金字塔, 以适应不同分辨率下的视觉感受。 对差异金字塔的进一步计算需要使其各 尺度层恢复成原始的分辨率, 得到归一差异矩阵。 对归一差异矩阵进行异常检测, 将 结果求和并除以矩阵大小求出显著运动面积比例, 这样就将原始亮度矩阵的大量数据 浓缩为一个 0到 1的数字, 从而最终得到显著运动面积比例。 图 3是本发明实施例的冻结失真的示意图, 图 4是本发明实施例的抖动失真的示 意图, 图 5是本发明实施例的鬼影失真的示意图, 如图 3-5所示, 本发明实施例中归 纳的针对含有 B帧的视频的三种失真形式分别为冻结、 抖动和鬼影。 其中, 冻结, 即 视频在进行缓冲或解码时, 出现画面停顿的情况。 其特征为某帧与前一帧完全没有差 异。 抖动, 即在原本流畅的视频中出现画面瞬间倒退又恢复的情况。 其特征为在发生 抖动的连续三帧中, 第一、 二帧的差异与第二、 三帧相同, 且第二、 三帧之间没有差 异。 仅在 GoP中有 B帧时可能出现。 鬼影, 即运动的物体突然轨迹模糊, 甚至出现重 影, 造成时间的粘滞感的情况。 其特征为某帧与前后两帧差异都相同, 但前后两帧之 间是有差异的。 仅在 GoP中有 B帧时可能出现。 根据以上失真特征映射在显著运动面积比例上的表现, 通过初步分析将所有帧分 为"绝对普通帧"以及需要进行进一步检测的 "疑似失真帧"。 在第二次分析中则只对疑 似失真帧进行处理, 排除特殊情况的干扰, 进一步确定失真类型。 优选的, 首先对疑似冻结的帧进行进一步检测。 出现细微的可识别差异(如微光、 风吹等) 的帧不属于冻结帧, 需要通过求这两帧亮度矩阵之差的绝对值总和来鉴别。 当视频中本身就存在着某些静态的帧时, 为了防止被误判为冻结帧, 本发明实施例对 该类帧中的典型情况取名为 "幕帧", 其主要包括一些节目 LOGO、标语或致谢等情况, 具有细节信息少、 颜色较单一且常由场景转换帧直接跳转或渐变而来的特点。 随后, 需要检测场景转换帧。 场景转换不属于失真, 但它标识了一个新场景的到 来。 场景转换帧之间的同一场景往往包含着相似的空间、 色彩和运动性等信息, 对场 景相关的评价权值的计算有着重要作用。 场景转换帧主要有两个特点, 一是显著运动 面积比例较高, 且高出相邻帧很多; 二是显著运动变化的部分分布在图像各个方位。 根据以上特点计算, 检测某帧是否为场景转换帧。 最后, 还需要对疑似鬼影 /抖动的帧进行进一步检测。 抖动与鬼影虽然表现形式不 同, 但在显著运动面积比例的关系上十分相似: 前者为当前帧与其前一帧的显著运动 面积比例相同; 后者为当前帧与其后一帧的显著运动面积比例相同。 但抖动因为帧的 重复而存在着 "隔帧冻结"的现象, 而鬼影则没有。 另外抖动帧和鬼影帧一般都是独立 存在, 其相邻帧一般是普通帧。 当有连续的几帧出现类似于鬼影帧的情况时, 则为"渐 变帧", 须通过鬼影帧是否相邻存在来判断。 此外, 还需要计算场景信息权值, 失真对视频的影响程度除了与瞬时运动量有关 以外, 还与当前画面的细致程度、 色彩丰富度、 亮度等内容信息紧密相关。 由于在多 场景视频中各个场景在这些信息上往往是不同的, 因此需要对每个场景将以上信息汇 总为"场景信息权值", 其值越高表示着视频内容越容易受到时间域失真的影响。 综上所述, 本发明实施例为了引入视频场景内容对评价的影响, 本发明实施例利 用显著运动面积比例进行场景转换检测, 并针对场景内容计算场景信息权值, 用于对 评价得分进行加权, 综合上述计算结果, 确定视频质量。 图 6是本发明实施例的提取显著运动面积比例的流程图, 如图 6所示, 包括如下 处理: 步骤 610, 根据播放进度将当前帧解码到 YUV空间。 步骤 620, 若当前帧为第一帧, 则设其前一帧为像素值全零帧。 步骤 630, 对当前第 帧的亮度矩阵 做窗口大小为 3x3、 均值为 0、 标准差为 0.5的高斯滤波, 并对结果进行四分之一下采样。如此重复《-1次, 得到含有 w个不同 尺度矩阵的高斯图像金字塔(尺度 1的矩阵为源矩阵 )。 尺度的总数 n设为 3~5, 可 根据解码后分辨率的增大而适当增大。 步骤 640, 对当前第 k帧和第 k-\帧的高斯图像金字塔 PA©k和 PMDH在尺度 S 上求矩阵中每个元素之差的绝对值, 得到差异矩阵 Mks 。 其中 M,s为全零矩阵。 各尺 度上的差异矩阵组成差异金字塔 DPMDK。 步骤 650, 对!) PA©k除尺度 1以外所有尺度上的差异矩阵进行双线性插值, 将矩 阵大小归一到与源矩阵 ¾相同。对包括 ¾在内的 Ι)ΡΜΖ\插值后的 w个矩阵求平均得 到归一差异矩阵 Zk。 步骤 660, 对 Zk进行中值滤波去噪得到 Zkm, 对其进行异常检测, 即设阈值 将 Zkm二值化, 大于等于 Θ的元素赋值为 1, 小于 Θ的元素赋值为 0, 得到二值矩阵 BIk 。 图 7是本发明实施例的初步失真分析的流程图, 如图 7所示, 包括如下处理: 步骤 710, 若当前第 帧(除整个视频第一帧以外) 的显著运动面积比例为 0, 则 将该帧视为疑似冻结帧, 并将该帧的 YUV数据、尺度 1上的差异矩阵 Mw以及第 H 帧和第 -2帧的显著运动面积比例送入冻结检测模块进行进一步检测。 步骤 720, 若当前第 帧的显著运动面积比例出现阶跃现象, 即该帧的显著运动 面积比例大于前一帧的两倍且大于 0.1, 且其前一帧为非冻结帧, 则将该帧视为疑似场 景转换帧,并将该帧以及前一帧的 YUV数据以及该帧的二值差异矩阵 B/k送入场景转 换检测模块进行进一步检测。 步骤 730, 若第 帧和第 +1帧的显著运动面积比例相等,, 则将这两帧视为疑似 抖动 /鬼影帧, 并将从第 k-1到第 +1帧的所有显著运动面积比例以及 YUV数据送入 抖动 /鬼影检测模块进行进一步检测。 步骤 740,若当前第 帧的显著运动面积比例不符合步骤 710-730所述,且前一帧 为非冻结帧, 则该帧为普通帧。 若该帧为最近的场景转换帧之后的第一个普通帧, 则 将该帧 YUV数据以及其显著运动面积比例送入场景权值计算模块。 其中, 冻结检测模块包括以下步骤: 步骤 1, 对 ^矩阵中所有元素求和, 若结果为 0, 则继续检测。 否则说明第 k 帧为正常帧, 并退出整个当前第 k视频帧的失真检测。 步骤 2, 若第 k- 帧为冻结帧, 则判断第 k帧也为冻结帧, 并退出整个当前第 k 视频帧的失真检测; 若第 -1帧为幕帧 (本身在原视频中就与前一帧相对静止的帧, 判断方式见步骤 4), 则第 帧也为幕帧, 也即不是冻结帧, 并退出整个第 k帧的失真 检测。 否则继续进行冻结检测。 步骤 3, 计算第 k帧的空间复杂度 Os以及色彩复杂度 Oc。 空间复杂度 Os为对矩 阵进行水平竖直两个方向上的 Sobel滤波后平方和开根号的结果, 表征了该帧图像内 容的丰富程度。色彩复杂度 为帧内出现较多的颜色的面积占整帧面积的比例, 所取 颜色为按照帧图像转换成的索引图像按照 64档均勾量化的结果, 如果比例值比较大, 则说明颜色丰富程度较低。 步骤 4, 求得该帧的幕系数 P=l-0.6Os_0.4 +0.26, 其中 b为二值型参数, 当第 k-l帧为场景转换帧或第 k-\帧和第 k-2帧的显著运动面积比例非 0且相等时 6取 1, 否则取 0。 若 P大于等于 0.5, 则第 帧为幕帧, 也即不是冻结帧, 并退出对第 k帧的 检测; 否则第 帧为冻结帧。 场景转换检测模块包括以下步骤: 步骤 1, 在宽为 、 高为 的矩阵 B/k的中间划出前景矩形区域 B/kf, 高为原矩阵 的第 μ/8+lj行到第 ^/8j行, 宽为原矩阵的第 v/8+lj列到第【7w/8j列。 矩阵 B/k的其他 区域为背景区域 B/kb。 求出矩阵 B/k在 B/kb中的元素总和与在 B/kf中的元素总和之比 ¾。 以上" U"是指向下取整。 步骤 2, 以矩阵 B/k的第 [A/2]行和第 [A/2]列为界,将背景区域矩阵 /^划分为四个 部分, 分别求出四个部分中数值为 1的元素个数所占该部分的比例, 并统计这四个比 例中大于等于 0.3的个数 N1V。 步骤 3, 若 ?k≥0.3且 N1V≥3, 则第 帧为场景转换帧。 否则为普通帧, 也即不是场 景转换帧, 并退出对第 k帧的检测。 抖动 /鬼影检测模块包括以下步骤: 步骤 1, 若第 -1帧为渐变帧(帧内所有像素值处于勾速升高或降低状态中的帧, 检测方法见步骤 2), 则第 帧也为渐变帧, 并退出对第 k帧的检测, 否则继续抖动 / 鬼影检测。 步骤 2, 若第 帧的显著运动面积比例与第 -1帧相等, 则第 帧为渐变帧, 并 退出对第 k帧的检测, 否则继续检测。 步骤 3, 计算第 k- 帧和第 +1帧亮度矩阵的差值矩阵, 取其绝对值后将所有元 素求和, 若和为 0, 则第 +1帧为抖动帧,并退出对第 k帧的检测, 否则继续抖动 /鬼影 检测。 由于抖动虽与鬼影发生时连续三帧的显著运动面积比例特征相似, 但实际发生 抖动的是这连续三帧中的第三帧, 因此这种情况下第^:+l帧才被称作"抖动帧"。 步骤 4, 若第 帧的显著运动面积比例大于等于 0.03, 则第 帧为鬼影帧, 且第 k+1帧为正常帧, 否则确定第 k帧为正常帧。 场景信息权值计算模块的计算过程为: 如果当前帧为场景转换帧后的第一个普通帧, 则将该帧的空间复杂度、 色彩复杂 度、亮度均值以及显著运动面积比例,求和后即可得到该场景内用于加权的场景信息权 值。 确定终端侧时间域视频质量的计算过程包括: 建立评价模型即可将上述分析得到的失真情 考评分。 评 分的模型主要由四个系数相乘得到, 公式如下:
Figure imgf000020_0001
这四个系数分别为:
1、扩展系数 m: 作用为调节评分的范围, 根据评分趋势的实际情况可在 2~5之间 调整。
2、 瞬时显著运动面积比例 Aq的开方值: Aq为发生失真的帧的前一个正常帧的 显著运动面积比例。可以表示此次失真对当前时刻的影响程度: 当前瞬时运动量越大, 失真造成的影响也就越大。 这里取开方值是为了降低 Aq对评分范围的影响。
3、 场景信息权值 Expr: 由场景信息权值模块得到, 两个场景转换帧之间的帧的 场景信息权值是相同的。
4、 失真系数 K: 与失真类型直接挂钩的系数, 不同的失真类型对应一个相应的系 数。 其中冻结系数还包含冻结时长系数。 公式如下: K = 0.07 \n(44Pfrz - 4i .2S) x Ffrz + 0.29Fjit + 0. i9Fgst 其中 Ffc、 ¾、 Fgst分别为当前帧的冻结、 抖动、 鬼影标志位。 三个标志位中有 且仅有一项为 1, 该标志位表示所评价帧存在该类失真, 其他标志位均为 0。 式中的系 数 0.07、 0.29和 0.19为借鉴的主观评价结果, 其意义分别为在主观试验中单帧冻结、 抖动和鬼影在大量测试视频中被观测者识别出的平均概率, 可根据新的主观实验或实 际需要做适当调整。 其中, P&z为冻结持续性系数, 其计算公式为: = « x i。g2 ^ + 其中 n为本 次冻结的连续累计帧数, t为在此次冻结发生前 300秒内单次持续 0.4秒以上的冻结的 次数。 需要说明的是, 本发明实施例中场景转换检测的实现不局限于本发明实施例中上 述提出的方式, 在另一实施例中, 可通过与镜头移动检测的相配合, 来进行复杂场景 切割。 例如, 可利用灰度显著性检测划分 ROI, 根据 ROI的形状变化进行场景检测。 此外, 在本发明实施例中, 还可根据评测精度要求选择部分参数的计算方法。 例如空 间复杂度可使用灰度信息熵、 边缘能量等方法进行评测, 色彩复杂度可使用色彩局部 相关性等方法进行评测。 综上所述, 借助于本发明实施例的技术方案, 通过引入了视频显著运动区域提取 技术和视频场景转换检测技术, 提取运动性等视频特征来降低评价误差, 同时针对视 频解码恢复策略对失真类型进行了扩展分类, 解决了现有技术中终端侧时间域无参考 技术中存在的评测误差较大、 忽略运动性、 指标单一的问题, 与现有技术相比, 突出 了运动性以及视频内容对视频质量的影响, 提高了评价结果与主观感受的接近程度, 扩展了视频时间域失真的评价体系, 降低了误判发生的概率。 装置实施例 根据本发明的实施例, 提供了一种终端侧时间域视频质量评价装置, 图 8是本发 明实施例的终端侧时间域视频质量评价装置的结构示意图, 如图 8所示, 根据本发明 实施例的终端侧时间域视频质量评价装置包括: 计算模块 80、划分模块 82、检测模块 84、 以及评估模块 86, 以下对本发明实施例的各个模块进行详细的说明。 计算模块 80, 设置为计算各个视频帧的显著运动面积比例, 其中, 显著运动面积 比例是指: 相邻两视频帧之间发生显著变化的面积占一个视频帧面积的比例; 计算模块 80包括: 亮度矩阵获取子模块, 设置为根据播放进度将当前第 k视频帧解码到明亮度色度 YUV空间, 获取亮度矩阵 Yk; 设置子模块, 设置为在确定当前第 k视频帧为视频的第一帧时, 设当前第 k视频 帧的前一帧为像素值全零帧, 并调用滤波采样子模块, 否则, 直接调用滤波采样子模 块; 滤波采样子模块, 设置为对当前第 k视频帧的亮度矩阵 Yk进行高斯滤波, 并对滤 波结果进行下采样; 滤波采样子模块设置为: 对当前第 k帧的亮度矩阵 Yk做帧窗口大 小为 3x3、 均值为 0、 标准差为 0.5的高斯滤波, 并对对滤波结果进行 l/4a下采样, 其 中, a为自然数。 高斯图像金字塔获取子模块, 设置为重复调用滤波采样子模块 n-l次, 得到含有 n个不同尺度的矩阵的高斯图像金字塔 PMDk,其中,尺度表示当前矩阵已进行高斯滤 波与下采样操作的次数, 当尺度为 1时的矩阵为源矩阵 Yk, n为尺度的总个数; 差异金字塔获取子模块, 设置为对当前第 k视频帧和第 k-1视频帧的高斯图像金 字塔 PMDk和 PMDn在尺度 s上求矩阵中每个元素之差的绝对值,得到差异矩阵 Mks, 并根据各尺度上的差异矩阵组成差异金字塔 DPMDk, 其中, 差异矩阵 Mks中的 为全零矩阵; 归一差异矩阵获取子模块, 设置为对 DPMDk中除尺度 1 以外的所有尺度上的差 异矩阵进行双线性插值, 将差异矩阵大小归一到与源矩阵 Yk相同, 并对包括 Yk在内 的 DPMDk插值后的 n个差异矩阵求平均得到归一差异矩阵 Zk; 二值矩阵获取子模块, 设置为对 Zk进行中值滤波去噪得到 Zkm, 并设置阈值 θ, 将 Zkm中大于等于 Θ的元素赋值为 1, 小于 Θ的元素赋值为 0, 得到二值矩阵 BIk; 显著运动面积比例获取子模块, 设置为对 BIk求和后除以当前第 k视频帧的帧像 素面积, 得到当前第 k视频帧的显著运动面积比例。 划分模块 82, 设置为根据显著运动面积比例将所有视频帧分为绝对普通帧和疑似 失真帧; 划分模块 82包括- 疑似冻结帧确定子模块, 设置为在当前第 k视频帧的显著运动面积比例为 0的情 况下, 确定当前第 k视频帧为疑似冻结帧, 其中, k>l ; 疑似场景转换帧确定子模块, 设置为在当前第 k视频帧的显著运动面积比例大于前一视频帧的两倍且大于第一预定 阈值、且其前一视频帧为非冻结帧的情况下,确定当前第 k视频帧为疑似场景转换帧; 疑似抖动帧和疑似鬼影帧确定子模块, 设置为在当前第 k视频帧和第 k+1视频帧的显 著运动面积比例相等的情况下, 确定上述两视频帧为疑似抖动帧或疑似鬼影帧; 绝对 普通帧确定子模块, 设置为在当前第 k视频帧的显著运动面积比例不符合上述各子模 块的情况、 且前一视频帧为非冻结帧的情况下, 确定当前第 k视频帧为绝对普通帧。 检测模块 84, 设置为对疑似失真帧进行冻结帧检测、 场景转换帧检测、 抖动帧检 测、 以及鬼影帧检测; 检测模块 84包括: 冻结帧检测模块 84, 其中, 冻结帧检测模块 84包括: 求和子 模块, 设置为对尺度为 1的差异矩阵 中所有元素求和, 若结果为 0, 调用第一判 断子模块, 否则确定当前第 k视频帧不是冻结帧, 并结束冻结检测; 第一判断子模块, 设置为在判断第 k-1视频帧为冻结帧时, 则确定当前第 k视频帧也为冻结帧, 并退出 整个当前第 k视频帧的失真检测, 否则, 调用幕帧判断子模块; 幕帧判断子模块, 设 置为在判断第 k-1视频帧为幕帧时, 则确定当前第 k视频帧也为幕帧, 并退出整个当 前第 k视频帧的失真检测, 否则, 调用计算子模块; 计算子模块, 计算当前第 k视频 帧的空间复杂度 Os以及色彩复杂度 Oc; 冻结帧幕帧区分子模块, 设置为计算当前第 k 视频帧的幕系数 P=l-0.6Os-0.4Oc+0.2b, 若 P大于等于第二预定阈值, 则确定当前第 k视频帧为幕帧, 不是冻结帧, 并退出整个当前第 k视频帧的失真检测, 否则, 确定 当前第 k视频帧为冻结帧, 其中, b为二值型参数, 当第 k-1视频帧为场景转换帧或 第 k-1视频帧和第 k-2视频帧的显著运动面积比例非 0且相等时, b=l, 否则 b=0。 检测模块 84包括:场景转换帧检测模块 84,其中,场景转换帧检测模块 84包括: 前景矩形区域划分子模块, 设置为在宽为 w、 高为 h的二值矩阵 BIk的中间划分出前 景矩形区域 BIkf, 并确定 BIk的其他区域为背景区域 BIkb, 计算 BIk在 BIkb中的元素 总和与在 BIkf中的元素总和之比 Rk, 其中, BIkf的高为 BIk的第 Lh/8+lj行到第【7h/8J 行, 宽为 BIk的第 v/8+lj列到第【7 8j列, 上述符号" U"是指向下取整; 二值矩阵划分 子模块, 设置为以 BIk的第 [h/2]行和第 [h/2]列为界, 将 BIkb划分为四个部分, 并分别 计算四个部分中数值为 1的元素个数所占该部分的比例, 统计这四个比例中大于等于 第三预定阈值的个数 N1V; 场景转换帧判断子模块, 设置为在 Rk大于第四预定阈值且 N1V大于第五预定阈值时, 则确定当前第 k视频帧为场景转换帧, 否则, 退出对当前第 k视频帧的场景转换帧检测。 优选地, 检测模块 84包括: 抖动帧以及鬼影帧检测模块 84, 其中, 抖动帧以及 鬼影帧检测模块 84包括:渐变帧第一确定子模块,设置为在第 k-1视频帧为渐变帧时, 则确定当前第 k视频帧也为渐变帧, 并退出对当前第 k视频帧的失真检测, 否则调用 渐变帧第二确定子模块; 渐变帧第二确定子模块, 设置为在当前第 k视频帧的显著运 动面积比例与第 k-1视频帧相等时, 则确定当前第 k视频帧为渐变帧, 并退出对当前 第 k视频帧的失真检测, 否则调用抖动帧检测子模块; 抖动帧检测子模块, 设置为计 算第 k-1视频帧和第 k+1视频帧亮度矩阵的差值矩阵,取其绝对值后将所有元素求和, 若和为 0, 则第 k+1视频帧为抖动帧, 且第 k帧为正常帧, 并退出对当前第 k视频帧 的失真检测, 否则, 调用鬼影帧检测子模块; 鬼影帧检测子模块, 设置为在当前第 k 视频帧的显著运动面积比例大于等于第六预定阈值时, 则确定当前第 k视频帧为鬼影 帧, 且第 k+1帧为正常帧, 否则确定第 k帧为正常帧。 评估模块 86, 设置为根据场景转换帧检测结果对视频进行场景分割, 计算各个场 景的场景信息权值, 并根据冻结帧检测结果、 抖动帧检测结果、 以及鬼影帧检测结果 计算失真系数, 根据显著运动面积比例、 场景信息权值、 以及失真系数确定终端侧时 间域视频质量。 评估模块 86包括: 场景信息权值计算子模块, 设置为根据场景转换帧检测结果对 视频进行场景分割,如果当前第 k视频为最近的场景转换帧之后的第一个绝对普通帧, 则将当前第 k视频的空间复杂度、 色彩复杂度、 亮度均值以及显著运动面积比例进行 求和, 获取该场景内用于加权的场景信息权值。 评估模块 86包括: 失真系数计算子模块, 设置为根据公式 1计算失真系数 K;
^ ^ 0.071n(44^ - 41.28) x ^ + 0.29 ., + 0.19 gii 公式 1 ; 其中, F&zt、 Fgst分别为当前帧的冻结帧、 抖动帧、 鬼影帧标志位, 上述三 个标志位中有且仅有一项为 1, 其他标志位均为 0, 1表示所评价的视频帧存在相应类 型的失真, 0 表示所评价的视频帧不存在相应类型的失真, P&z为冻结持续性系数, Pfrz - n \og2 (2 + t) ^ 上式中 n为本次冻结的连续累计帧数, t为在此次冻结发生前第 一预定时间内单次持续第二预定时间以上的冻结的次数, 第二预定时间小于第一预定 时间。 评估模块 86包括: 视频质量确定子模块, 设置为根据公式 2计算终端侧时间域视 频质量 Q;
Q
Figure imgf000024_0001
Expr x K 公式 2. 其中, m为扩展系数, q为发生失真的视频帧的前一个正常帧的显著运动面积比 例, Expr为场景信息权值, K为失真系数。 需要说明的是, 上述功能模块的划分只是本发明实施例的一个应用实例, 在本发 明实施例中, 还可以采用其他的模块划分方法完成本发明实施例的技术方案。 图 9是本发明实施例的终端侧时间域视频质量评价装置的优选结构示意图, 如图 9所示, 本发明实施例的装置包括以下相关模块: 显著运动面积比例提取模块、 初步 失真分析模块、 冻结检测模块、 场景转换检测模块、 鬼影 /抖动检测模块、 场景信息权 值计算模块和评价模块。 其中, 显著运动面积比例提取模块设置为计算作为帧间差异指标的显著运动面积 比例。 本发明实施例主要以运动性特征为基础, 提出了符合包括实时应用在内视频的 "显著运动面积比例"。 显著运动面积比例是指相邻两帧之间发生显著变化部分的面积 占整个帧面积的比例,是本发明实施例提出的一种对视频实时运动性的一项评价指标。 所述初步失真分析模块设置为将所有帧分为"绝对普通帧"以及需要进行进一步检 测的"疑似失真帧"。 所述冻结检测模块设置为对疑似冻结的帧进行进一步检测。 出现细微的可识别差 异 (如微光、 风吹等) 的帧不属于冻结帧, 需要通过求这两帧亮度矩阵之差的绝对值 总和来鉴别。 当视频中本身就存在着某些静态的帧时, 为了防止被误判为冻结帧, 本 发明实施例对该类帧中的典型情况取名为 "幕帧", 其主要包括一些节目 LOGO、 标语 或致谢等情况, 具有细节信息少、 颜色较单一且常由场景转换帧直接跳转或渐变而来 的特点。 所述场景转换检测模块设置为检测场景转换帧。 场景转换不属于失真, 但它标识 了一个新场景的到来。 场景转换帧之间的同一场景往往包含着相似的空间、 色彩和运 动性等信息,对场景相关的评价权值的计算有着重要作用。 场景转换帧主要有两个特 点, 一是显著运动面积比例较高, 且高出相邻帧很多; 二是显著运动变化的部分分布 在图像各个方位。 根据以上特点计算, 检测某帧是否为场景转换帧。 所述鬼影 /抖动检测模块设置为对疑似鬼影 /抖动的帧进行进一步检测。抖动与鬼影 虽然表现形式不同, 但在显著运动面积比例的关系上十分相似: 前者为当前帧与其前 一帧的显著运动面积比例相同; 后者为当前帧与其后一帧的显著运动面积比例相同。 但抖动因为帧的重复而存在着"隔帧冻结"的现象, 而鬼影则没有。 另外抖动帧和鬼影 帧一般都是独立存在, 其相邻帧一般是普通帧。 当有连续的几帧出现类似于鬼影帧的 情况时, 则为"渐变帧", 须通过鬼影帧是否相邻存在来判断。 所述场景信息权值计算模块设置为计算场景信息权值。 失真对视频的影响程度除 了与瞬时运动量有关以外, 还与当前画面的细致程度、 色彩丰富度、 亮度等内容信息 紧密相关。 由于在多场景视频中各个场景在这些信息上往往是不同的, 因此需要对每 个场景将以上信息汇总为"场景信息权值", 其值越高表示着视频内容越容易受到时间 域失真的影响。 所述评价模块设置为计算视频帧的评价得分。 本装置实施例中相关模块的详细内容可以参照上述方法实施例中的相关描述进行 理解, 在此不再赘述。 需要说明的是, 本发明实施例中场景转换检测的实现不局限于本发明实施例中上 述提出的方式, 在另一实施例中, 可通过与镜头移动检测的相配合, 来进行复杂场景 切割。 例如, 可利用灰度显著性检测划分 ROI, 根据 ROI的形状变化进行场景检测。 此外, 在本发明实施例中, 还可根据评测精度要求选择部分参数的计算方法。 例如空 间复杂度可使用灰度信息熵、 边缘能量等方法进行评测, 色彩复杂度可使用色彩局部 相关性等方法进行评测。 综上所述, 借助于本发明实施例的技术方案, 通过引入了视频显著运动区域提取 技术和视频场景转换检测技术, 提取运动性等视频特征来降低评价误差, 同时针对视 频解码恢复策略对失真类型进行了扩展分类, 解决了现有技术中终端侧时间域无参考 技术中存在的评测误差较大、 忽略运动性、 指标单一的问题, 与现有技术相比, 突出 了运动性以及视频内容对视频质量的影响, 提高了评价结果与主观感受的接近程度, 扩展了视频时间域失真的评价体系, 降低了误判发生的概率。 在此提供的算法和显示不与任何特定计算机、 虚拟系统或者其它设备固有相关。 各种通用系统也可以与基于在此的示教一起使用。 根据上面的描述, 构造这类系统所 要求的结构是显而易见的。 此外, 本发明实施例也不针对任何特定编程语言。 应当明 白, 可以利用各种编程语言实现在此描述的本发明实施例的内容, 并且上面对特定语 言所做的描述是为了披露本发明实施例的最佳实施方式。 在此处所提供的说明书中, 说明了大量细节。 然而, 能够理解, 本发明的实施例 可以在没有这些细节的情况下实践。 在一些实例中, 并未详细示出公知的方法、 结构 和技术, 以便不模糊对本说明书的理解。 类似地, 应当理解, 为了精简本公开并帮助理解各个发明方面中的一个或多个, 在上面对本发明的示例性实施例的描述中, 本发明实施例的各个特征有时被一起分组 到单个实施例、 图、 或者对其的描述中。 然而, 并不应将该公开的方法解释成反映如 下意图: 即所要求保护的本发明实施例要求比在每个权利要求中所明确记载的特征更 多的特征。 更确切地说, 如下面的权利要求书所反映的那样, 发明方面在于少于前面 公开的单个实施例的所有特征。 因此, 遵循实施方式的权利要求书由此明确地并入该 实施方式, 其中每个权利要求本身都作为本发明的单独实施例。 本领域那些技术人员可以理解, 可以对实施例中的设备中的模块进行自适应性地 改变并且把它们设置在与该实施例不同的一个或多个设备中。 可以把实施例中的模块 或单元或组件组合成一个模块或单元或组件, 以及此外可以把它们分成多个子模块或 子单元或子组件。 除了这样的特征和 /或过程或者单元中的至少一些是相互排斥之外, 可以采用任何组合对本说明书 (包括伴随的权利要求、 摘要和附图) 中公开的所有特 征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述, 本说明书 (包括伴随的权利要求、 摘要和附图) 中公开的每个特征可以由提供相同、 等同或相似目的的替代特征来代替。 此外, 本领域的技术人员能够理解, 尽管在此所述的一些实施例包括其它实施例 中所包括的某些特征而不是其它特征, 但是不同实施例的特征的组合意味着处于本发 明的范围之内并且形成不同的实施例。 例如, 在下面的权利要求书中, 所要求保护的 实施例的任意之一都可以以任意的组合方式来使用。 本发明的各个部件实施例可以以硬件实现, 或者以在一个或者多个处理器上运行 的软件模块实现, 或者以它们的组合实现。 本领域的技术人员应当理解, 可以在实践 中使用微处理器或者数字信号处理器 (DSP) 来实现根据本发明实施例的终端侧时间 域视频质量评价装置中的一些或者全部部件的一些或者全部功能。 本发明实施例还可 以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序 (例如, 计算机程序和计算机程序产品)。这样的实现本发明实施例的程序可以存储在计算机可 读介质上, 或者可以具有一个或者多个信号的形式。 这样的信号可以从因特网网站上 下载得到, 或者在载体信号上提供, 或者以任何其他形式提供。 应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制, 并且本领 域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。 在权利要求 中, 不应将位于括号之间的任何参考符号构造成对权利要求的限制。 单词"包含"不排 除存在未列在权利要求中的元件或步骤。 位于元件之前的单词 "一"或"一个"不排除存 在多个这样的元件。 本发明实施例可以借助于包括有若干不同元件的硬件以及借助于 适当编程的计算机来实现。 在列举了若干装置的单元权利要求中, 这些装置中的若干 个可以是通过同一个硬件项来体现。 单词第一、 第二、 以及第三等的使用不表示任何 顺序。 可将这些单词解释为名称。 工业实用性 本发明实施例的技术方案可以应用于视频客观质量技术评价领域, 解决了现有技 术中终端侧时间域无参考技术中存在的评测误差较大、忽略运动性、指标单一的问题, 突出了运动性以及视频内容对视频质量的影响, 提高了评价结果与主观感受的接近程 度, 扩展了视频时间域失真的评价体系, 降低了误判发生的概率。

Claims

权 利 要 求 书 、 一种终端侧时间域视频质量评价方法, 包括:
计算各个视频帧的显著运动面积比例,其中,所述显著运动面积比例是指: 相邻两视频帧之间发生显著变化的面积占一个视频帧面积的比例;
根据所述显著运动面积比例将所有视频帧分为绝对普通帧和疑似失真帧; 对所述疑似失真帧进行冻结帧检测、 场景转换帧检测、 抖动帧检测、 以及 鬼影帧检测;
根据场景转换帧检测结果对视频进行场景分割, 计算各个场景的场景信息 权值, 并根据冻结帧检测结果、 抖动帧检测结果、 以及鬼影帧检测结果计算失 真系数, 根据所述显著运动面积比例、 所述场景信息权值、 以及所述失真系数 确定终端侧时间域视频质量。 、 如权利要求 1所述的方法, 其中, 计算各个视频帧的显著运动面积比例包括: 步骤 11, 根据播放进度将当前第 k视频帧解码到明亮度色度 YUV空间, 获取亮度矩阵 Yk;
步骤 12, 如果确定当前第 k视频帧为视频的第一帧, 则设所述当前第 k视 频帧的前一帧为像素值全零帧, 并执行步骤 13, 否则, 直接执行步骤 13; 步骤 13, 对当前第 k视频帧的亮度矩阵 Yk进行高斯滤波, 并对滤波结果 进行下采样;
步骤 14, 重复执行步骤 13 n-l次, 得到含有 n个不同尺度的矩阵的高斯 图像金字塔 PMDk, 其中, 尺度表示当前矩阵已进行高斯滤波与下采样操作的 次数, 当尺度为 1时的矩阵为源矩阵 Yk, n为尺度的总个数;
步骤 15, 对当前第 k视频帧和第 k-1视频帧的高斯图像金字塔 PMDk和 PMDk-!在尺度 s上求矩阵中每个元素之差的绝对值, 得到差异矩阵 Mks, 并根 据各尺度上的差异矩阵组成差异金字塔 DPMDk,其中,差异矩阵 Mks中的 M 为全零矩阵;
步骤 16, 对所述 DPMDk中除尺度 1以外的所有尺度上的差异矩阵进行双 线性插值,将差异矩阵大小归一到与源矩阵 Yk相同,并对包括 Yk在内的 DPMDk 插值后的 n个差异矩阵求平均得到归一差异矩阵 Zk; 步骤 17, 对 Zk进行中值滤波去噪得到 Zkm, 并设置阈值 θ, 将所述 Zi^中 大于等于 Θ的元素赋值为 1, 小于 Θ的元素赋值为 0, 得到二值矩阵 BIk;
步骤 18, 对 BIk求和后除以当前第 k视频帧的帧像素面积, 得到当前第 k 视频帧的显著运动面积比例。 、 如权利要求 2所述的方法, 其中, 步骤 13包括:
对当前第 k帧的亮度矩阵 Yk做帧窗口大小为 3x3、均值为 0、标准差为 0.5 的高斯滤波, 并对对滤波结果进行 l/4a下采样, 其中, a为自然数。 、 如权利要求 1或 2或 3所述的方法, 其中, 根据所述显著运动面积比例将所有 视频帧分为绝对普通帧和疑似失真帧包括:
步骤 21, 在当前第 k视频帧的显著运动面积比例为 0的情况下, 确定所述 当前第 k视频帧为疑似冻结帧, 其中, k>l ;
步骤 22,在当前第 k视频帧的显著运动面积比例大于前一视频帧的两倍且 大于第一预定阈值、 且其前一视频帧为非冻结帧的情况下, 确定所述当前第 k 视频帧为疑似场景转换帧;
步骤 23,在当前第 k视频帧和第 k+1视频帧的显著运动面积比例相等的情 况下, 确定上述两视频帧为疑似抖动帧或疑似鬼影帧;
步骤 24,在当前第 k视频帧的显著运动面积比例不符合步骤 21至 23所述 的情况、 且前一视频帧为非冻结帧的情况下, 确定所述当前第 k视频帧为绝对 普通帧。 、 如权利要求 2或 3所述的方法,其中,对所述疑似失真帧进行冻结帧检测包括: 步骤 31, 对尺度为 1的差异矩阵 中所有元素求和, 若结果为 0, 执行 步骤 32, 否则确定当前第 k视频帧为正常帧, 并退出整个当前第 k视频帧的失 真检测;
步骤 32, 若判断第 k-1视频帧为冻结帧, 则确定当前第 k视频帧也为冻结 帧, 并退出整个当前第 k视频帧的失真检测, 否则, 执行步骤 33;
步骤 33, 若判断第 k-1视频帧为幕帧, 则确定当前第 k视频帧也为幕帧, 并退出整个当前第 k视频帧的失真检测, 否则, 执行步骤 34;
步骤 34, 计算当前第 k视频帧的空间复杂度 Os以及色彩复杂度 Oc; 步骤 35, 计算当前第 k视频帧的幕系数 P=l-0.6Os-0.4Oc+0.2b, 若 P大于 等于第二预定阈值, 则确定当前第 k视频帧为幕帧, 不是冻结帧, 否则, 确定 当前第 k视频帧为冻结帧, 其中, b为二值型参数, 当第 k-1视频帧为场景转 换帧或第 k-1视频帧和第 k-2视频帧的显著运动面积比例非 0且相等时, b=l, 否则 b=0。 、 如权利要求 2或 3所述的方法, 其中, 对所述疑似失真帧进场景转换帧检测包 括- 步骤 41,在宽为 w、高为 h的二值矩阵 BIk的中间划分出前景矩形区域 BIkf, 并确定 BIk的其他区域为背景区域 BIkb,计算 BIk在 BIkb中的元素总和与在 BIkf 中的元素总和之比 Rk, 其中, 所述 BIkf的高为 BIk的第 Lh/8+lj行到第【7h/8j行, 宽为 BIk的第 v/8+lj列到第 L7 8j列, 上述符号" U"是指向下取整;
步骤 42, 以 BIk的第 [h/2]行和第 [h/2]列为界, 将 BIkb划分为四个部分, 并 分别计算四个部分中数值为 1的元素个数所占该部分的比例, 统计这四个比例 中大于等于第三预定阈值的个数 N1V;
步骤 43, 若 Rk大于等于第四预定阈值且 N1V大于等于第五预定阈值, 则确 定当前第 k视频帧为场景转换帧, 否则, 退出对当前第 k视频帧的场景转换帧 检测。 、 如权利要求 1或 2或 3所述的方法, 其中, 对所述疑似失真帧进抖动帧检测、 以及鬼影帧检测包括:
步骤 51, 若第 k-1视频帧为渐变帧, 则确定当前第 k视频帧也为渐变帧, 并退出整个当前第 k视频帧的失真检测, 否则执行步骤 52;
步骤 52, 若当前第 k视频帧的显著运动面积比例与第 k-1视频帧相等, 则 当前第 k视频帧为渐变帧, 并退出整个当前第 k视频帧的失真检测, 否则执行 步骤 53;
步骤 53, 计算第 k-1视频帧和第 k+1视频帧亮度矩阵的差值矩阵, 取其绝 对值后将所有元素求和, 若和为 0, 则第 k+1视频帧为抖动帧, 且第 k帧为正 常帧, 并退出整个当前第 k视频帧的失真检测, 并执行步骤 54, 否则, 执行步 骤 54;
步骤 54, 若当前第 k视频帧的显著运动面积比例大于等于第六预定阈值, 则确定当前第 k视频帧为鬼影帧, 且第 k+1帧为正常帧, 否则确定第 k帧为正 常帧。 、 如权利要求 1或 2或 3所述的方法, 其中, 根据场景转换帧检测结果对视频进 行场景分割, 计算各个场景的场景信息权值包括:
根据场景转换帧检测结果对视频进行场景分割, 如果当前第 k视频帧为最 近的场景转换帧之后的第一个绝对普通帧,则将当前第 k视频帧的空间复杂度、 色彩复杂度、 亮度均值以及显著运动面积比例进行求和, 获取该场景内用于加 权的场景信息权值。 、 如权利要求 1或 2或 3所述的方法, 其中, 根据冻结帧检测结果、 抖动帧检测 结果、 以及鬼影帧检测结果计算失真系数包括:
根据公式 1计算失真系数 K;
= 0.07 ln(44 ^ - 41.28) x Ffrz + 0.29 ., + 0.19Fgst
公式 1 ;
其中, F&zt、 Fgst分别为当前帧的冻结帧、 抖动帧、 鬼影帧标志位, 上 述三个标志位中有且仅有一项为 1, 其他标志位均为 0, 1表示所评价的视频帧 存在相应类型的失真, 0表示所评价的视频帧不存在相应类型的失真, P&z为冻 结持续性系数, ^ = " x l。g2(2 + , 上式中 n 为本次冻结的连续累计帧数, t 为在此次冻结发生前第一预定时间内单次持续第二预定时间以上的冻结的次 数, 第二预定时间小于第一预定时间。 、 如权利要求 1或 2或 3所述的方法, 其中, 根据所述显著运动面积比例、 所述 场景信息权值、 以及所述失真系数确定终端侧时间域视频质量包括:
根据公式 2计算终端侧时间域视频质量
Q = \ - m^A^ χ Expr x K 公式
2;
其中, m为扩展系数, q为发生失真的视频帧的前一个正常帧的显著运动 面积比例, Expr为场景信息权值, K为失真系数。 1、 一种终端侧时间域视频质量评价装置, 包括:
计算模块, 设置为计算各个视频帧的显著运动面积比例, 其中, 所述显著 运动面积比例是指: 相邻两视频帧之间发生显著变化的面积占一个视频帧面积 的比例; 、 如权利要求 1或 2或 3所述的方法, 其中, 根据场景转换帧检测结果对视频进 行场景分割, 计算各个场景的场景信息权值包括:
根据场景转换帧检测结果对视频进行场景分割, 如果当前第 k视频帧为最 近的场景转换帧之后的第一个绝对普通帧,则将当前第 k视频帧的空间复杂度、 色彩复杂度、 亮度均值以及显著运动面积比例进行求和, 获取该场景内用于加 权的场景信息权值。 、 如权利要求 1或 2或 3所述的方法, 其中, 根据冻结帧检测结果、 抖动帧检测 结果、 以及鬼影帧检测结果计算失真系数包括:
根据公式 1计算失真系数 K;
= 0.07 ln(44 ^ - 41.28) x Ffrz + 0.29 ., + 0.19Fgst
公式 1 ;
其中, F&zt、 Fgst分别为当前帧的冻结帧、 抖动帧、 鬼影帧标志位, 上 述三个标志位中有且仅有一项为 1, 其他标志位均为 0, 1表示所评价的视频帧 存在相应类型的失真, 0表示所评价的视频帧不存在相应类型的失真, P&z为冻 结持续性系数, ^ = " x l。g2(2 + , 上式中 n 为本次冻结的连续累计帧数, t 为在此次冻结发生前第一预定时间内单次持续第二预定时间以上的冻结的次 数, 第二预定时间小于第一预定时间。 、 如权利要求 1或 2或 3所述的方法, 其中, 根据所述显著运动面积比例、 所述 场景信息权值、 以及所述失真系数确定终端侧时间域视频质量包括:
根据公式 2计算终端侧时间域视频质量
Q = \ - m^A^ χ Expr x K 公式
2;
其中, m为扩展系数, q为发生失真的视频帧的前一个正常帧的显著运动 面积比例, Expr为场景信息权值, K为失真系数。 1、 一种终端侧时间域视频质量评价装置, 包括:
计算模块, 设置为计算各个视频帧的显著运动面积比例, 其中, 所述显著 运动面积比例是指: 相邻两视频帧之间发生显著变化的面积占一个视频帧面积 的比例;
30 划分模块, 设置为根据所述显著运动面积比例将所有视频帧分为绝对普通 帧和疑似失真帧;
检测模块, 设置为对所述疑似失真帧进行冻结帧检测、 场景转换帧检测、 抖动帧检测、 以及鬼影帧检测;
评估模块, 设置为根据场景转换帧检测结果对视频进行场景分割, 计算各 个场景的场景信息权值, 并根据冻结帧检测结果、 抖动帧检测结果、 以及鬼影 帧检测结果计算失真系数, 根据所述显著运动面积比例、 所述场景信息权值、 以及所述失真系数确定终端侧时间域视频质量。 如权利要求 11所述的装置, 其中, 所述计算模块包括- 亮度矩阵获取子模块, 设置为根据播放进度将当前第 k视频帧解码到明亮 度色度 YUV空间, 获取亮度矩阵 Yk;
设置子模块, 设置为在确定当前第 k视频帧为视频的第一帧时, 设所述当 前第 k视频帧的前一帧为像素值全零帧, 并调用滤波采样子模块, 否则, 直接 调用滤波采样子模块;
滤波采样子模块, 设置为对当前第 k视频帧的亮度矩阵 Yk进行高斯滤波, 并对滤波结果进行下采样;
高斯图像金字塔获取子模块, 设置为重复调用滤波采样子模块 η-ι次, 得 到含有 n个不同尺度的矩阵的高斯图像金字塔 PMDk, 其中, 尺度表示当前矩 阵已进行高斯滤波与下采样操作的次数, 当尺度为 1时的矩阵为源矩阵 Yk, n 为尺度的总个数;
差异金字塔获取子模块, 设置为对当前第 k视频帧和第 k-1视频帧的高斯 图像金字塔 PMDk和 PMD^在尺度 s上求矩阵中每个元素之差的绝对值,得到 差异矩阵 Mks, 并根据各尺度上的差异矩阵组成差异金字塔 DPMDk, 其中, 差 异矩阵 Mks中的 Mi,s为全零矩阵;
归一差异矩阵获取子模块, 设置为对所述 DPMDk中除尺度 1 以外的所有 尺度上的差异矩阵进行双线性插值, 将差异矩阵大小归一到与源矩阵 Yk相同, 并对包括 Yk在内的 DPMDk插值后的 n个差异矩阵求平均得到归一差异矩阵 Zk;
二值矩阵获取子模块, 设置为对 Zk进行中值滤波去噪得到 Zkm, 并设置阈 值0, 将所述 Zkm中大于等于 Θ的元素赋值为 1, 小于 Θ的元素赋值为 0, 得到 二值矩阵 BIk;
31 显著运动面积比例获取子模块, 设置为对 BIk求和后除以当前第 k视频帧 的帧像素面积, 得到当前第 k视频帧的显著运动面积比例。 、 如权利要求 12 所述的装置, 其中, 所述滤波采样子模块设置为: 对当前第 k 帧的亮度矩阵 Yk做帧窗口大小为 3x3、 均值为 0、 标准差为 0.5的高斯滤波, 并对对滤波结果进行 l/4a下采样, 其中, a为自然数。 、 如权利要求 11或 12或 13所述的装置, 其中, 所述划分模块包括:
疑似冻结帧确定子模块, 设置为在当前第 k视频帧的显著运动面积比例为 0的情况下, 确定所述当前第 k视频帧为疑似冻结帧, 其中, k>l ;
疑似场景转换帧确定子模块, 设置为在当前第 k视频帧的显著运动面积比 例大于前一视频帧的两倍且大于第一预定阈值、 且其前一视频帧为非冻结帧的 情况下, 确定所述当前第 k视频帧为疑似场景转换帧;
疑似抖动帧和疑似鬼影帧确定子模块, 设置为在当前第 k视频帧和第 k+1 视频帧的显著运动面积比例相等的情况下, 确定上述两视频帧为疑似抖动帧或 疑似鬼影帧;
绝对普通帧确定子模块, 设置为在当前第 k视频帧的显著运动面积比例不 符合上述各子模块所述的情况、 且前一视频帧为非冻结帧的情况下, 确定所述 当前第 k视频帧为绝对普通帧。 、 如权利要求 12或 13所述的装置, 其中, 所述检测模块包括: 冻结帧检测模块, 其中, 所述冻结帧检测模块包括:
求和子模块, 设置为对尺度为 1的差异矩阵 中所有元素求和, 若结果 为 0, 调用第一判断子模块, 否则确定当前第 k视频帧为正常帧, 并退出整个 当前第 k视频帧的失真检测;
第一判断子模块, 设置为在判断第 k-1视频帧为冻结帧时, 则确定当前第 k视频帧也为冻结帧, 并退出整个当前第 k视频帧的失真检测, 否则, 调用幕 帧判断子模块;
幕帧判断子模块, 设置为在判断第 k-1视频帧为幕帧时, 则确定当前第 k 视频帧也为幕帧, 并退出整个当前第 k视频帧的失真检测, 否则, 调用计算子 模块;
计算子模块, 计算当前第 k视频帧的空间复杂度 Os以及色彩复杂度 Oc;
32 冻结帧幕帧区分子模块, 设置为计算当前第 k 视频帧的幕系数
P=l-0.6Os-0.4Oc+0.2b, 若 P大于等于第二预定阈值, 则确定当前第 k视频帧 为幕帧, 不是冻结帧, 否则, 确定当前第 k视频帧为冻结帧, 其中, b为二值 型参数, 当第 k-1视频帧为场景转换帧或第 k-1视频帧和第 k-2视频帧的显著 运动面积比例非 0且相等时, b=l, 否则 b=0。 、 如权利要求 12或 13所述的装置, 其中, 所述检测模块包括: 场景转换帧检测 模块, 其中, 所述场景转换帧检测模块包括:
前景矩形区域划分子模块, 设置为在宽为 w、 高为 h的二值矩阵 BIk的中 间划分出前景矩形区域 BIkf, 并确定 BIk的其他区域为背景区域 BIkb, 计算 BIk 在 BIkb中的元素总和与在 BIkf中的元素总和之比 Rk, 其中, 所述 BIkf的高为 BIk的第 Lh/8+lj行到第【7h/8j行, 宽为 BIk的第 Lw/8+lj列到第【7w/8j列, 上述符 号" U"是指向下取整;
二值矩阵划分子模块, 设置为以 BIk的第 [h/2]行和第 [h/2]列为界, 将 BIkb 划分为四个部分, 并分别计算四个部分中数值为 1的元素个数所占该部分的比 例, 统计这四个比例中大于等于第三预定阈值的个数 N1V;
场景转换帧判断子模块, 设置为在 Rk大于第四预定阈值且 N1V大于第五预 定阈值时, 则确定当前第 k视频帧为场景转换帧, 否则, 退出对当前第 k视频 帧的场景转换帧检测。 、 如权利要求 11或 12或 13所述的装置, 其中, 所述检测模块包括: 抖动帧以及 鬼影帧检测模块, 其中, 所述抖动帧以及鬼影帧检测模块包括:
渐变帧第一确定子模块, 设置为在第 k-1视频帧为渐变帧时, 则确定当前 第 k视频帧也为渐变帧, 并退出整个当前第 k视频帧的失真检测, 否则调用渐 变帧第二确定子模块;
渐变帧第二确定子模块, 设置为在当前第 k视频帧的显著运动面积比例与 第 k-1视频帧相等时, 则确定当前第 k视频帧为渐变帧, 并退出整个当前第 k 视频帧的失真检测, 否则调用抖动帧检测子模块;
抖动帧检测子模块, 设置为计算第 k-1视频帧和第 k+1视频帧亮度矩阵的 差值矩阵, 取其绝对值后将所有元素求和, 若和为 0, 则第 k+1视频帧为抖动 帧, 且第 k帧为正常帧, 并退出整个当前第 k视频帧的失真检测, 否则, 调用 鬼影帧检测子模块;
33 鬼影帧检测子模块, 设置为在当前第 k视频帧的显著运动面积比例大于等 于第六预定阈值时, 则确定当前第 k视频帧为鬼影帧, 且第 k+1帧为正常帧, 否则确定第 k帧为正常帧。 、 如权利要求 11或 12或 13所述的装置, 其中, 所述评估模块包括:
场景信息权值计算子模块, 设置为根据场景转换帧检测结果对视频进行场 景分割, 如果当前第 k视频帧为最近的场景转换帧之后的第一个绝对普通帧, 则将当前第 k视频帧的空间复杂度、 色彩复杂度、 亮度均值以及显著运动面积 比例进行求和, 获取该场景内用于加权的场景信息权值。 、 如权利要求 11或 12或 13所述的装置, 其中, 所述评估模块包括: 失真系数计 算子模块, 设置为根据公式 1计算失真系数 K;
= 0.07 ln(44 ^ - 41.28) x Ffrz + 0.29 ., + 0.19Fgst
公式 1 ;
其中, F&z、 Fjlt、 Fgst分别为当前帧的冻结帧、 抖动帧、 鬼影帧标志位, 上述三个标志位中有且仅有一项为 1, 其他标志位均为 0, 1表示所评价的视频 帧存在相应类型的失真, 0表示所评价的视频帧不存在相应类型的失真, P&z为 冻结持续性系数, = " x lQg2(2"), 上式中 n为本次冻结的连续累计帧数, t 为在此次冻结发生前第一预定时间内单次持续第二预定时间以上的冻结的次 数, 第二预定时间小于第一预定时间。 、 如权利要求 11或 12或 13所述的装置, 其中, 所述评估模块包括: 视频质量确 定子模块, 设置为根据公式 2计算终端侧时间域视频质量
Q = \ - m^A^ χ Expr x K 公式
2;
其中, m为扩展系数, q为发生失真的视频帧的前一个正常帧的显著运动 面积比例, Expr为场景信息权值, K为失真系数。
34
PCT/CN2013/083650 2013-01-23 2013-09-17 终端侧时间域视频质量评价方法及装置 WO2014114098A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP13872993.4A EP2958322B1 (en) 2013-01-23 2013-09-17 Method and device for terminal side time domain video quality evaluation
US14/762,901 US9836832B2 (en) 2013-01-23 2013-09-17 Method and device for evaluating quality of video in time domain on terminal side

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310024251.9A CN103945214B (zh) 2013-01-23 2013-01-23 终端侧时间域视频质量评价方法及装置
CN201310024251.9 2013-01-23

Publications (2)

Publication Number Publication Date
WO2014114098A1 true WO2014114098A1 (zh) 2014-07-31
WO2014114098A9 WO2014114098A9 (zh) 2015-09-17

Family

ID=51192661

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2013/083650 WO2014114098A1 (zh) 2013-01-23 2013-09-17 终端侧时间域视频质量评价方法及装置

Country Status (4)

Country Link
US (1) US9836832B2 (zh)
EP (1) EP2958322B1 (zh)
CN (1) CN103945214B (zh)
WO (1) WO2014114098A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105320584A (zh) * 2015-03-31 2016-02-10 维沃移动通信有限公司 一种终端流畅度的测试方法及其终端
CN105763876A (zh) * 2015-12-21 2016-07-13 中国计量学院 一种基于时域失真波动和感兴趣区域的视频质量评价方法
CN113542804A (zh) * 2021-07-09 2021-10-22 杭州当虹科技股份有限公司 基于码流统计特征检测静帧序列的方法

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103067661B (zh) * 2013-01-07 2017-12-05 华为终端有限公司 图像处理方法、装置和拍摄终端
CN105991364B (zh) * 2015-02-28 2020-07-17 中兴通讯股份有限公司 一种用户感知评估方法及装置
CN104702964B (zh) * 2015-03-30 2018-05-15 北京布卡互动科技有限公司 一种图像处理方法及装置
CN108711153B (zh) * 2018-05-29 2021-09-14 北京小鸟科技股份有限公司 一种数字视频图像畸变检测方法
EP3588946B1 (en) * 2018-06-28 2023-11-29 Unify Patente GmbH & Co. KG Method and system for assessing the quality of a video transmission over a network
CN109246332A (zh) * 2018-08-31 2019-01-18 北京达佳互联信息技术有限公司 视频流降噪方法和装置、电子设备及存储介质
CN111510669A (zh) * 2019-01-30 2020-08-07 拉碧斯半导体株式会社 视频信号处理装置、视频冻结检测电路和视频冻结的检测方法
CN110070009A (zh) * 2019-04-08 2019-07-30 北京百度网讯科技有限公司 路面物体识别方法和装置
CN110444222B (zh) * 2019-05-17 2021-12-14 成都航天通信设备有限责任公司 一种基于信息熵加权的话音降噪方法
CN114584849B (zh) * 2019-09-24 2023-05-05 腾讯科技(深圳)有限公司 视频质量评估方法、装置、电子设备及计算机存储介质
CN110866486B (zh) * 2019-11-12 2022-06-10 Oppo广东移动通信有限公司 主体检测方法和装置、电子设备、计算机可读存储介质
CN111696081B (zh) * 2020-05-18 2024-04-09 南京大学 一种由视野视频质量推理全景视频质量的方法
CN111757097B (zh) * 2020-06-29 2022-03-25 歌尔光学科技有限公司 检测方法、检测装置及计算机可读存储介质
CN112365418B (zh) * 2020-11-11 2024-05-03 抖音视界有限公司 一种图像失真评测的方法、装置及计算机设备
CN112200807B (zh) * 2020-12-07 2021-02-12 光谷技术有限公司 一种视频质量诊断方法与系统
CN112714309A (zh) * 2020-12-22 2021-04-27 北京百度网讯科技有限公司 视频质量评估方法、装置、设备、介质及程序产品
CN113452987B (zh) * 2021-06-02 2022-05-31 鹏城实验室 一种视频质量评估方法、装置、终端及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005060272A1 (en) * 2003-12-16 2005-06-30 Agency For Science, Technology And Research Image and video quality measurement
CN1809175A (zh) * 2005-01-17 2006-07-26 华为技术有限公司 一种视频质量评估方法
WO2012000136A1 (en) * 2010-07-02 2012-01-05 Thomson Broadband R&D (Beijing) Co., Ltd. Method for measuring video quality using a reference, and apparatus for measuring video quality using a reference
CN102421007A (zh) * 2011-11-28 2012-04-18 浙江大学 基于多尺度结构相似度加权综合的图像质量评价方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9578337B2 (en) * 2007-01-31 2017-02-21 Nec Corporation Image quality evaluating method, image quality evaluating apparatus and image quality evaluating program
GB0706496D0 (en) * 2007-04-03 2007-05-09 British Telecomm Method and system for video quality assessment
EP2373049A1 (en) * 2010-03-31 2011-10-05 British Telecommunications Public Limited Company Video quality measurement
KR101333107B1 (ko) * 2012-02-27 2013-11-26 강원대학교산학협력단 디지털 영상미디어의 객관적 화질 평가 시스템 및 장치
US9591316B2 (en) * 2014-03-27 2017-03-07 Intel IP Corporation Scalable video encoding rate adaptation based on perceived quality

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005060272A1 (en) * 2003-12-16 2005-06-30 Agency For Science, Technology And Research Image and video quality measurement
CN1809175A (zh) * 2005-01-17 2006-07-26 华为技术有限公司 一种视频质量评估方法
WO2012000136A1 (en) * 2010-07-02 2012-01-05 Thomson Broadband R&D (Beijing) Co., Ltd. Method for measuring video quality using a reference, and apparatus for measuring video quality using a reference
CN102421007A (zh) * 2011-11-28 2012-04-18 浙江大学 基于多尺度结构相似度加权综合的图像质量评价方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CULIBRK, D. ET AL.: "Salient Motion Features for Video Quality Assessment", IEEE TRANSACTIONS ON IMAGE PROCESSING, vol. 20, no. 4, 30 April 2011 (2011-04-30), pages 948 - 958, XP055233000 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105320584A (zh) * 2015-03-31 2016-02-10 维沃移动通信有限公司 一种终端流畅度的测试方法及其终端
CN105763876A (zh) * 2015-12-21 2016-07-13 中国计量学院 一种基于时域失真波动和感兴趣区域的视频质量评价方法
CN113542804A (zh) * 2021-07-09 2021-10-22 杭州当虹科技股份有限公司 基于码流统计特征检测静帧序列的方法
CN113542804B (zh) * 2021-07-09 2023-10-27 杭州当虹科技股份有限公司 基于码流统计特征检测静帧序列的方法

Also Published As

Publication number Publication date
US9836832B2 (en) 2017-12-05
EP2958322A1 (en) 2015-12-23
EP2958322B1 (en) 2018-05-16
WO2014114098A9 (zh) 2015-09-17
CN103945214B (zh) 2016-03-30
CN103945214A (zh) 2014-07-23
US20150348251A1 (en) 2015-12-03
EP2958322A4 (en) 2016-06-01

Similar Documents

Publication Publication Date Title
WO2014114098A1 (zh) 终端侧时间域视频质量评价方法及装置
EP2413586B1 (en) Method and device for adaptive noise measurement of a video signal
US9262811B2 (en) System and method for spatio temporal video image enhancement
US8149336B2 (en) Method for digital noise reduction in low light video
KR100721543B1 (ko) 통계적 정보를 이용하여 노이즈를 제거하는 영상 처리 방법및 시스템
WO2015062374A1 (zh) 一种噪声图像的时域降噪方法和相关装置
US20100060783A1 (en) Processing method and device with video temporal up-conversion
US20040227851A1 (en) Frame interpolating method and apparatus thereof at frame rate conversion
CN111028165B (zh) 一种基于raw数据抵抗相机抖动的高动态图像恢复方法
US9918041B1 (en) Motion adaptive de-interlacing and advanced film mode detection
KR100563023B1 (ko) 인터레이스 대 프로그레시브 변환에 대한 에지 적응보간을 위한 방법 및 시스템
Tandon et al. CAMBI: Contrast-aware multiscale banding index
KR101336240B1 (ko) 저장된 영상을 이용한 영상 처리 방법 및 장치
JP2011525761A (ja) デジタルビデオにおける繰り返しの検出
EP2017788A1 (en) Shielding-object video-image identifying device and method
Chen et al. Moving vehicle detection based on union of three-frame difference
TWI381735B (zh) 影像監視設備之影像處理系統及其影像解析自動調適之方法
CN104796581B (zh) 一种基于噪声分布特征检测的视频去噪系统
CN111294545A (zh) 图像数据插值方法及装置、存储介质、终端
Jia et al. A two-step approach to see-through bad weather for surveillance video quality enhancement
WO2001061993A1 (en) Noise reduction for video signals
CN109785323A (zh) 一种基于中频滤波的图像聚焦测度实现方法
Rehman et al. Classification-based de-mosaicing for digital cameras
Hsia et al. High-performance TV video noise reduction using adaptive filter
Chen et al. No-reference video monitoring image blur metric based on local gradient structure similarity

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13872993

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 14762901

Country of ref document: US

Ref document number: 2013872993

Country of ref document: EP