WO2015096461A1 - 一种立体视频舒适度评价方法及装置 - Google Patents

一种立体视频舒适度评价方法及装置 Download PDF

Info

Publication number
WO2015096461A1
WO2015096461A1 PCT/CN2014/082079 CN2014082079W WO2015096461A1 WO 2015096461 A1 WO2015096461 A1 WO 2015096461A1 CN 2014082079 W CN2014082079 W CN 2014082079W WO 2015096461 A1 WO2015096461 A1 WO 2015096461A1
Authority
WO
WIPO (PCT)
Prior art keywords
frame
stereoscopic video
video segment
segment
disparity
Prior art date
Application number
PCT/CN2014/082079
Other languages
English (en)
French (fr)
Inventor
杨付正
孙李娜
Original Assignee
华为技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为技术有限公司 filed Critical 华为技术有限公司
Publication of WO2015096461A1 publication Critical patent/WO2015096461A1/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/144Processing image signals for flicker reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals

Definitions

  • the present invention relates to video technology in the field of communications, and in particular to a method and apparatus for evaluating stereo video comfort.
  • Stereoscopic video usually has two video channels. With stereo glasses, you can see two different images in the left and right eyes, so that the point where the eye is focused (on the screen) and the point of view of the binocular line of sight (front or back of the screen) are not in a plane. , resulting in a 3D picture with a certain depth of field.
  • This 3D display technology based on the principle of binocular parallax is different from the physiological state of focusing and concentrating at a point when a person normally views an object, and thus causes visual fatigue for a long time.
  • the comfort of stereoscopic video is one of the main problems affecting the development of stereoscopic video.
  • the premise of improving stereoscopic video viewing comfort is to evaluate the comfort of stereoscopic video. Summary of the invention
  • Embodiments of the present invention provide a method and apparatus for evaluating stereoscopic video comfort, which are used to evaluate the comfort of a stereoscopic video.
  • a method for evaluating a stereoscopic video comfort comprising:
  • the viewing comfort of the stereoscopic video band is determined according to the spatial and temporal characteristics of the video frame of the stereoscopic video segment.
  • the spatial and temporal characteristics of the video frame for extracting the stereoscopic video segment include:
  • Estimating a disparity of a video frame of the stereoscopic video segment Determining a visual focus position of the video frame of the stereoscopic video segment according to a disparity of the video frame of the stereoscopic video segment and motion information;
  • the determining, according to a disparity of the video frame of the stereoscopic video segment and motion information, a visual focus position of the video frame of the stereoscopic video segment including:
  • Determining a weight of each pixel within the video frame of the stereoscopic video segment determining a location of the pixel having the greatest weight as a visual focus position of the video frame of the stereoscopic video segment.
  • the weight of the pixel is calculated by the following formula:
  • W is the weight of the pixel with coordinates (x, y), ⁇ , and /1 are weighted values;
  • the plane motion vector, dod y is the horizontal displacement and the vertical displacement of the pixel with the coordinate (x, y), respectively, and the video frame in which the pixel with the coordinate (x, y) is located and the coordinate is Search for the adjacent video frame of the video frame in which the (x,y) pixel is located; disp CT .
  • Ssed is the cross disparity value;
  • d is the difference of the average disparity of the video frame of the stereoscopic video segment and the matching block of the adjacent video frame.
  • a fourth implementation manner if there are multiple pixels having the largest weight in the video frame of the stereoscopic video segment, the multiple Among the pixels of the maximum weight, the position of the pixel closest to the image center position of the video frame of the stereoscopic video segment is determined as the visual focus position of the video frame of the stereoscopic video segment.
  • the airspace characteristic includes one or any combination of the following parameters: reference parallax, The percentage of reference parallax and the first viewing comfort impact factor;
  • the disparity set is a pixel disparity set in a video frame visible area of the stereoscopic video segment, and the number of pixels corresponding to each disparity value is greater than Setting a threshold value; determining a minimum disparity value in the disparity set as a reference disparity of a video frame of the stereoscopic video segment;
  • a valid pixel is a pixel whose absolute value of parallax is smaller than the search range
  • the first viewing comfort impact factor When the video frame of the stereoscopic video segment does not have a frame effect and satisfies a lower near-far space layout, the first value is taken, and when the video frame of the stereoscopic video segment has a frame effect but satisfies the near-near far space layout, the first Binary value, when the video frame of the stereoscopic video segment does not have a border effect but does not satisfy the lower near-far space layout, the third value is obtained, and the video frame of the stereoscopic video segment has a border effect and does not satisfy the near-far distance
  • the spatial value takes a fourth value, wherein the first value, the second value, the third value, and the fourth value are preset values, and the first value is less than the fourth value, and the third value is at the first value and the
  • the time domain characteristic includes a second viewing comfort impact factor
  • the time domain characteristic of the video frame of the stereoscopic video segment according to the disparity of the video frame of the stereoscopic video segment and the visible region of the video frame of the stereoscopic video segment, including: a second viewing comfort impact factor value according to a change in a reference disparity of a video frame of the stereoscopic video segment in a time domain, and/or a video viewing frame of the body video segment
  • the size indicates the extent to which the reference disparity of the video frame changes in the depth direction.
  • the reference disparity of the video frame of the stereoscopic video segment is changed in the time domain, and/or the reference of the video frame of the stereoscopic video segment
  • the second viewing comfort impact factor of the video frame of the stereoscopic video segment is calculated by changing the frequency of the parallax in the time domain, including:
  • the stereo video segment is divided into sub-segments, and the reference disparity of the video frame in the same sub-segment changes monotonically and the change speed is the same.
  • the reference disparity of the video frame of the stereoscopic video segment is calculated in the time domain according to the following formula:
  • V (disp last -disp first ) / (Np -l) Domain change:
  • V 2 ' (P (min Disp ; ) - P (min Dis jj )) / P (min Disp ; )
  • V is the reference disparity of the i-th frame in the time domain
  • disp fcst and disp last are the reference disparity of the first frame and the last frame of the sub-segment to which the i-th frame belongs
  • Np is the sub-segment of the i-th frame.
  • the number of video frames; W indicates the frequency of occurrence of the reference disparity of the i-th frame in the time domain, P(min Dis Pl ) and ?
  • (111111 018 1 _ 1 ) is a percentage of the reference disparity of the ith frame and the i-1th frame, respectively; a second viewing comfort influence factor of the i-th frame, and / is a weighting value; the ith frame is a Any video frame in a stereo video segment.
  • the second of the video frames of the stereoscopic video segment is calculated View comfort impact factors, including:
  • V min DisPi - min Dis ; ⁇
  • V 2 ' (P (min Disp ; ) - P (min Dis jj )) / P (min Disp ; )
  • V represents the change of the reference disparity of the i-th frame in the time domain
  • min DisA and min Disp ⁇ are the reference disparity of the i-th frame and the i-th frame, respectively; and the frequency of the reference disparity of the i-th frame is in the time domain
  • the change, ? (1 ⁇ 11 018 1 ) and? (111111 018 ⁇ 1 ) is a percentage of the reference disparity of the ith frame and the i-1th frame, respectively; a second viewing comfort influence factor of the i-th frame, and / is a weighting value;
  • the ith frame is the Any video frame in a stereo video segment.
  • the airspace characteristic and time of the video frame according to the stereoscopic video segment determines the viewing comfort of the stereoscopic video segment, including:
  • the viewing comfort of each video frame in each sub-segment, and the viewing comfort of each sub-segment is calculated separately;
  • the viewing comfort of the stereoscopic video segment is calculated based on the viewing comfort of each sub-segment.
  • the viewing comfort of the video frame of the stereoscopic video segment is calculated according to the following formula:
  • the time domain (3 ⁇ 4 viewing comfort of the i-th frame
  • Spatial- frame -vc t i is the viewing comfort of the spatial characteristics of the i-th frame determined by frame
  • Tenperal _ frame _vc t i-th frame is determined The viewing comfort of the ith frame, a and ?
  • dispd ⁇ bu ⁇ 1 is the first viewing comfort factor of the ith frame
  • minDispi is the reference parallax of the ith frame
  • P(minDis Pi ) is the first The percentage of the reference disparity of the i frame
  • the second viewing comfort impact factor of the i-th frame bl, b2, and cl are model parameters, the bl, b2, and cl are set values
  • the ith frame is the Any video frame in the stereoscopic video segment
  • the disparity set corresponding to the video frame of the video segment, the disparity set is a pixel disparity set in the visible region of the video frame of the stereoscopic video segment, and each of the disparity values corresponds to The number of pixels is greater than the set threshold; determining a minimum disparity value in the disparity set as a reference disparity of a video frame of the stereoscopic video segment;
  • the percentage of the reference disparity of the video frame of the stereoscopic video segment is: in the visible region of the video frame of the stereoscopic video segment, the disparity is the ratio of the number of pixels of the video frame reference disparity of the stereoscopic video segment to the number of effective pixels ;
  • the first viewing comfort impact factor of the video frame of the stereoscopic video segment is determined according to whether a video frame of the stereoscopic video segment has a frame effect and whether the bottom near-far space layout is satisfied;
  • the border effect refers to a video Frame, if the parallax of an object imaged at the edge of the screen is a cross-view Poor, and a part of the object is beyond the screen range, there is a frame effect;
  • the lower near-far is the object that is imaged at the bottom end of the screen and has a perceived depth close to the viewer and is imaged at the top of the screen. The perceived depth is far from the audience;
  • the second viewing comfort impact factor of the video frame of the stereoscopic video segment occurs according to a change in the reference disparity of the video frame of the stereoscopic video segment in the time domain, and/or a reference disparity of the video frame of the stereoscopic video segment
  • the frequency is determined in time domain variation, and the magnitude of the second viewing comfort impact factor value indicates the extent to which the reference disparity of the video frame varies in the depth direction.
  • the viewing comfort of the sub-segments of the stereoscopic video segment is calculated according to the following formula:
  • the kth sub-segment is any one of the stereoscopic video segments.
  • the viewing comfort of the stereoscopic video segment is calculated according to the following formula:
  • Q is the viewing comfort of the stereoscopic video segment
  • Q s k is the comfort level of the kth sub-segment in the stereoscopic video segment
  • N s is the number of sub-segments in the stereoscopic video segment
  • P o c2 is Value.
  • the airspace characteristic of the video frame according to the stereoscopic video segment is The time domain characteristic determines the viewing comfort of the stereoscopic video segment, including:
  • the spatial domain feature of the video frame of the stereoscopic video segment includes one or any combination of the following parameters: a video frame of the stereoscopic video segment Reference parallax, percentage of reference parallax and first viewing comfort impact factor;
  • a disparity value of a pixel that satisfies the following condition as a reference disparity of a video frame of the stereoscopic video segment a visible region of a video frame of the stereoscopic video segment
  • the number of pixels corresponding to the reference disparity is greater than a set pixel number threshold, and the reference disparity is a minimum disparity value in the disparity set
  • the disparity set is within a video frame visible area of the stereoscopic video segment a set of pixel disparity, and each of the disparity values corresponding to the number of pixels is greater than the set threshold;
  • the percentage of the reference disparity of the video frame of the stereoscopic video segment is: in the visible region of the video frame of the stereoscopic video segment, the disparity is the stereoscopic video segment Ratio of the number of pixels of the reference disparity of the video frame to the number of effective pixels; a first viewing comfort impact factor of the video frame of the stereoscopic video segment, the first viewing comfort impact factor of the video frame of the stereoscopic video segment is based on Whether the video frame of the stereoscopic video segment has a frame effect and whether the bottom near-far space layout is satisfied; the frame effect refers to a video frame, if the parallax of the object imaged at the edge of the screen is a cross-parallax, and If a part of the object is beyond the screen range, there is a border effect; the lower close is farther than the perceived depth of the object imaged at the bottom end of the screen corresponding to a video frame is close
  • Calculating the spatial characteristics of the stereoscopic video segment according to the spatial characteristics of the video frame of the stereoscopic video segment including:
  • a weighted average of the reference disparity of all video frames in the stereoscopic video segment is calculated according to the following formula: minDispj * P (minDispj )
  • minDispj P (minDispj ) where min Dip is the weighted average of the reference disparity of all video frames in the stereo video segment, N is the number of video frames in the stereo video segment, and minDisPi is the reference disparity of the i-th frame, P ( Min DisPi ) is the percentage of the reference disparity of the ith frame, and the ith frame is any video frame in the stereoscopic video segment;
  • disp disttibuti . n is an average value of first viewing comfort influence factors of all video frames in the stereoscopic video segment
  • dispd ⁇ butj is a first viewing comfort influence factor of the ith frame
  • N is a video frame in the stereoscopic video segment
  • the number, the ith frame is any video frame in the stereoscopic video segment.
  • the time domain characteristics of the video frame of the stereoscopic video segment include:
  • the second viewing comfort impact factor of the video frame of the stereoscopic video segment is changed according to a reference disparity of a video frame of the stereoscopic video segment in a time domain And/or the frequency at which the reference disparity of the video frame of the stereoscopic video segment occurs is determined in time domain, and the magnitude of the second viewing comfort influence factor value indicates the degree of change of the reference disparity of the video frame in the depth direction ;
  • Calculating the time domain characteristic of the stereoscopic video segment according to the time domain characteristic of the video frame of the stereoscopic video segment including:
  • v d is a second viewing comfort influence factor of the stereoscopic video segment
  • Vd 1 is a second viewing comfort impression factor of the ith frame in the stereoscopic video segment
  • s is a set value
  • N is the number of video frames in the stereoscopic video segment
  • the ith frame is any video frame in the stereoscopic video segment.
  • the viewing comfort of the stereoscopic video segment is calculated by using the following formula:
  • VC is the viewing comfort of the stereoscopic video segment, and is a weighted value
  • bl and c3 are set values
  • Spatial_frame_vc is the viewing comfort of the stereoscopic video segment determined by the spatial domain characteristic
  • Temperal _ Frame _vc is the viewing comfort of the stereoscopic video segment determined by the time domain characteristic
  • dlSPd!s bution is the flatness of the first viewing comfort impression factor of all video frames in the stereoscopic video segment
  • a second viewing comfort impact factor for the stereoscopic video segment is provided.
  • a stereoscopic video comfort evaluation apparatus comprising:
  • An acquiring module configured to acquire a video frame of a stereo video segment
  • An extraction module configured to extract a spatial domain feature and a time domain characteristic of a video frame of the stereoscopic video segment acquired by the acquiring module
  • an evaluation module configured to determine viewing comfort of the stereoscopic video segment according to a spatial domain characteristic and a time domain characteristic of a video frame of the stereoscopic video segment extracted by the extraction module.
  • the extracting module is specifically configured to: estimate a disparity of a video frame of the stereoscopic video segment;
  • the extracting module is specifically configured to determine a weight of each pixel in a video frame of the stereoscopic video segment, and have a maximum weight The position of the pixel is determined as the visual focus position of the video frame of the stereoscopic video segment.
  • the extracting module calculates a weight of the pixel by using the following formula:
  • W is the weight of the pixel with coordinates (x,y), y, ;7 and /1 are weighted values; I mv l ( x ,y )
  • the plane motion vector of the pixel, dod y is the horizontal displacement and the vertical displacement of the (x, y) pixel, and the video frame and the coordinate where the coordinate is (x, y) Search for adjacent video frames of the video frame in which the (x,y) pixel is located; disp CT .
  • the extracting module is specifically configured to: if there are multiple pixels having the largest weight in the video frame of the stereoscopic video segment, And determining, by the plurality of pixels having the largest weight, a position of a pixel closest to an image center position of the video frame of the stereoscopic video segment as a visual focus position of the video frame of the stereoscopic video segment.
  • the airspace characteristic includes one or any combination of the following parameters: reference parallax, percentage of reference disparity First viewing comfort factor;
  • the extraction module is specifically configured to: determine a disparity set corresponding to a video frame of the stereoscopic video segment, where the disparity set is a pixel disparity set in a video frame visible area of the stereoscopic video segment, and The number of pixels corresponding to each of the disparity values is greater than the set threshold; determining the minimum disparity value in the disparity set as the reference disparity of the video frame of the stereoscopic video segment;
  • a valid pixel is a pixel whose absolute value of parallax is smaller than the search range
  • the first viewing comfort impact factor When the video frame of the stereoscopic video segment does not have a frame effect and satisfies a lower near-far space layout, the first value is taken, and when the video frame of the stereoscopic video segment has a frame effect but satisfies the near-near far space layout, the first Binary value, when the video frame of the stereoscopic video segment does not have a border effect but does not satisfy the lower near-far space layout, the third value is obtained, and the video frame of the stereoscopic video segment has a border effect and does not satisfy the near-far distance
  • the spatial value takes a fourth value, wherein the first value, the second value, the third value, and the fourth value are preset values, and the first value is less than the fourth value, and the third value is at the first value and the
  • the time domain characteristic includes a second viewing comfort impact factor
  • the extracting module is specifically configured to calculate, according to a reference disparity of a video frame of the stereoscopic video segment, a second viewing comfort impact factor of the video frame of the stereoscopic video segment, where the second viewing comfort degree is obtained.
  • the magnitude of the influence factor value indicates how much the reference disparity of the video frame changes in the depth direction.
  • the extracting module is specifically configured to: divide the stereoscopic video segment into sub-segments, and reference frames of video frames in the same sub-segment The difference monotonously changes and the rate of change is the same, and the reference disparity of the video frame of the stereoscopic video segment is calculated in the time domain according to the following formula:
  • V (disp last -disp first ) / (Np -l) Domain change:
  • V 2 ' (P (min Disp ; ) - P (min Dis jj )) / P (min Disp ; )
  • V is the reference disparity of the i-th frame in the time domain
  • disp fcst and disp last are the reference disparity of the first frame and the last frame of the sub-segment to which the i-th frame belongs
  • Np is the sub-segment of the i-th frame.
  • Number of video frames; W indicates the frequency of occurrence of the reference disparity of the i-th frame in the time domain, P(min Dis Pi ) and ?
  • (111111 018 _ 1 ) is a percentage of the reference disparity of the ith frame and the i-1th frame, respectively; a second viewing comfort influence factor of the i-th frame, and / is a weighting value; the ith frame is the Any video frame in a stereo video segment.
  • the extracting module is specifically configured to: calculate a change of a reference disparity of a video frame of the stereoscopic video segment in a time domain according to the following formula:
  • V min DisPi - min Dis ; ⁇ Domain change:
  • V 2 ' (P (min Disp ; ) - P (min Dis jj )) / P (min Disp ; )
  • V represents the change of the reference disparity of the i-th frame in the time domain
  • min DisA and min Disp ⁇ are the reference disparity of the i-th frame and the i-th frame, respectively
  • 1 indicates that the frequency of the reference disparity of the i-th frame occurs at the time Domain changes
  • ? (1 ⁇ 11 018) and? (111111 018 ⁇ 1 ) is a percentage of the reference disparity of the ith frame and the i-1th frame, respectively
  • a second viewing comfort influence factor of the ith frame, and / is a weighting value
  • the ith frame is the Any video frame in a stereo video segment.
  • the evaluation module is specifically configured to:
  • Decoding the stereoscopic video segment according to a visual focus position of each video frame of the stereoscopic video segment, and the visual focus position shift amount of the video frame of each sub-segment is not greater than a set transfer amount threshold;
  • the viewing comfort of each video frame in each sub-segment, and the viewing comfort of each sub-segment is calculated separately;
  • the viewing comfort of the stereoscopic video segment is calculated based on the viewing comfort of each sub-segment.
  • the evaluation module is specifically configured to calculate viewing comfort of the video frame of the stereoscopic video segment according to the following formula:
  • Spatial- frame -vc t i is the viewing comfort of the spatial characteristics of the i-th frame determined by frame
  • Tenperal _ frame _vc t is the time-domain characteristics of the i-th frame is determined The viewing comfort of the i frame, a and ?
  • dispd ⁇ bu ⁇ 1 is the first viewing comfort factor of the ith frame
  • minDispi is the reference disparity of the ith frame
  • P(minDis Pi ) is the ith frame Reference Percentage of disparity
  • bl, b2, and cl are model parameters
  • the bl, b2, and cl are set values
  • the ith frame is the stereoscopic video segment Any of the video frames corresponding to the video frames of the video segment, the disparity set is a set of pixel disparity within the visible region of the video frame of the stereoscopic video segment, and the number of pixels corresponding to each of the disparity values is Greater than the set threshold; determining a minimum disparity value in the disparity set as a reference disparity of a video frame of the stereoscopic video segment;
  • the percentage of the reference disparity of the video frame of the stereoscopic video segment is: in the visible region of the video frame of the stereoscopic video segment, the disparity is the ratio of the number of pixels of the video frame reference disparity of the stereoscopic video segment to the number of effective pixels ;
  • the first viewing comfort impact factor of the video frame of the stereoscopic video segment is determined according to whether a video frame of the stereoscopic video segment has a frame effect and whether the bottom near-far space layout is satisfied;
  • the border effect refers to a video a frame, if the parallax of the object imaged at the edge of the screen is a cross parallax, and a part of the object is beyond the screen range, there is a frame effect;
  • the bottom near distance is an object corresponding to a video frame imaged at the bottom end of the screen The perceived depth is closer to the viewer, and the perceived depth of the object imaged at the top of the screen is far from the viewer;
  • the second viewing comfort impact factor of the video frame of the stereoscopic video segment occurs according to a change in the reference disparity of the video frame of the stereoscopic video segment in the time domain, and/or a reference disparity of the video frame of the stereoscopic video segment
  • the frequency is determined in time domain variation, and the magnitude of the second viewing comfort impact factor value indicates the extent to which the reference disparity of the video frame varies in the depth direction.
  • the evaluation module is specifically configured to calculate viewing comfort of the stereoscopic video segment according to the following formula:
  • Q s k is the comfort level of the kth sub-segment
  • (3 ⁇ 4 is the i-th frame in the k-th sub-segment Viewing comfort
  • N F is the number of video frames in the kth sub-segment
  • c2 is a set value
  • the k-th sub-segment is any one of the stereoscopic video segments.
  • the evaluation module is specifically configured to calculate the stereoscopic video segment according to the following formula View comfort:
  • Q is the viewing comfort of the stereoscopic video segment
  • Q s k is the comfort level of the kth sub-segment in the stereoscopic video segment
  • N s is the number of sub-segments in the stereoscopic video segment
  • P o c2 is Value.
  • the evaluation module is specifically configured to: according to the stereoscopic video segment The spatial domain characteristic of the video frame, and calculating the spatial characteristics of the stereoscopic video segment;
  • the spatial domain feature of the video frame of the stereoscopic video segment includes one or any combination of the following parameters: a video frame of the stereoscopic video segment Reference parallax, percentage of reference parallax and first viewing comfort impact factor;
  • a disparity value of a pixel that satisfies the following condition as a reference disparity of a video frame of the stereoscopic video segment a visible region of a video frame of the stereoscopic video segment
  • the number of pixels corresponding to the reference disparity is greater than a set pixel number threshold, and the reference disparity is a minimum disparity value in the disparity set
  • the disparity set is within a video frame visible area of the stereoscopic video segment a set of pixel disparity, and each of the disparity values corresponding to the number of pixels is greater than the set threshold
  • the percentage of the reference disparity of the video frame of the stereoscopic video segment, the percentage of the reference disparity of the video frame of the stereoscopic video segment is: in the visible region of the video frame of the stereoscopic video segment, the disparity is the stereoscopic video segment Ratio of the number of pixels of the reference disparity of the video frame to
  • the evaluation module is specifically configured to calculate a weighted average of reference disparities of all video frames in the stereoscopic video segment according to the following formula:
  • N is the number of video frames in the stereoscopic video segment
  • minDisPi is the reference disparity of the i-th frame
  • P(min DisPi) is the percentage of the reference disparity of the i-th frame
  • the i-th frame is the stereoscopic video segment. Any video frame in ;
  • the time domain characteristics of the video frame of the stereoscopic video segment include:
  • the second viewing comfort impact factor of the video frame of the stereoscopic video segment is changed according to a reference disparity of a video frame of the stereoscopic video segment in a time domain And/or the frequency at which the reference disparity of the video frame of the stereoscopic video segment occurs is determined in time domain, and the magnitude of the second viewing comfort influence factor value indicates the degree of change of the reference disparity of the video frame in the depth direction ;
  • the evaluation module is specifically configured to calculate a second viewing comfort impact factor of the stereoscopic video segment according to the following formula:
  • V d is a second viewing comfort influence factor of the stereoscopic video segment, and is a second viewing comfort influence factor of the ith frame in the stereoscopic video segment, which is a set value, and the value is according to V and
  • the symbol of min DisR determines that N is the number of video frames in the stereoscopic video segment, and the ith frame is any video frame in the stereoscopic video segment.
  • the evaluation module is specifically configured to calculate the stereoscopic video segment according to the following formula Viewing comfort:
  • VC the viewing comfort of the stereoscopic video segment
  • bl, c3 are the set values
  • Spatial_frame_vc is the viewing comfort of the stereoscopic video segment determined by the spatial domain characteristic
  • Temperal_frame_vc is the viewing of the stereoscopic video segment determined by the time domain characteristic Comfort
  • a flatness of the first viewing comfort factor for all video frames within the stereoscopic video segment Mean, min Dip in the stereoscopic video is a weighted average of all the segments of the video frame reference parallax
  • V d is the second viewing comfort Factor stereoscopic video segment.
  • a stereoscopic video comfort evaluation apparatus comprising:
  • a transceiver configured to acquire a video frame of a stereo video segment
  • a processor configured to extract a spatial domain characteristic and a time domain characteristic of a video frame of the stereoscopic video segment acquired by the acquiring module; and according to the spatial domain feature and the time domain of the video frame of the stereoscopic video segment extracted by the extraction module Characteristic, determining viewing comfort of the stereoscopic video segment.
  • the processor is specifically configured to: estimate a disparity of a video frame of the stereoscopic video segment;
  • the processor is specifically configured to determine a weight of each pixel in a video frame of the stereoscopic video segment, and have a maximum weight The position of the pixel is determined as the visual focus position of the video frame of the stereoscopic video segment.
  • the processor calculates the weight of the pixel by using the following formula:
  • W is the weight of the pixel with coordinates (x, y), ⁇ , and /1 are weighted values;
  • the plane motion vector, dod y is the horizontal displacement and the vertical displacement of the (x, y) pixel, respectively, and the video frame where the coordinates are (x, y) and the coordinates are ( x, y) the adjacent view of the video frame where the pixel is located Search within the frequency frame; disp CT .
  • Ssed is the cross disparity value;
  • d is the difference of the average disparity of the video frame of the stereoscopic video segment and the matching block of the adjacent video frame.
  • the processor is specifically configured to: if there are multiple pixels having the largest weight in the video frame of the stereoscopic video segment, And determining, by the plurality of pixels having the largest weight, a position of a pixel closest to an image center position of the video frame of the stereoscopic video segment as a visual focus position of the video frame of the stereoscopic video segment.
  • the airspace characteristic includes one or any combination of the following parameters: reference parallax, percentage of reference disparity First viewing comfort factor;
  • the processor is specifically configured to: determine a disparity set corresponding to a video frame of the stereoscopic video segment, where the disparity set is a pixel disparity set in a video frame visible area of the stereoscopic video segment, and each of the views The number of pixels corresponding to the difference is greater than the set threshold; determining a minimum disparity value in the disparity set as a reference disparity of a video frame of the stereo video segment;
  • a valid pixel is a pixel whose absolute value of parallax is smaller than the search range
  • the first viewing comfort impact factor When the video frame of the stereoscopic video segment does not have a frame effect and satisfies a lower near-far space layout, the first value is taken, and when the video frame of the stereoscopic video segment has a frame effect but satisfies the near-near far space layout, the first Binary value, when the video frame of the stereoscopic video segment does not have a border effect but does not satisfy the lower near-far space layout, the third value is obtained, and the video frame of the stereoscopic video segment has a border effect and does not satisfy the near-far distance
  • the spatial value takes a fourth value, wherein the first value, the second value, the third value, and the fourth value are preset values, and the first value is less than the fourth value, and the third value is at the first value and the
  • the time domain characteristic includes a second viewing comfort impact factor
  • the processor is specifically configured to: calculate, according to a reference disparity of the video frame of the stereoscopic video segment, a second viewing comfort impact factor of the video frame of the stereoscopic video segment in a time domain, where the second viewing comfort affects
  • the magnitude of the factor value indicates how much the reference disparity of the video frame varies in the depth direction.
  • the processor is specifically configured to perform sub-segment division of the stereoscopic video segment, and monotonous change of reference parallax of a video frame in the same sub-segment And the change speed is the same, and the reference disparity of the video frame of the stereoscopic video segment is calculated in the time domain according to the following formula:
  • V 2 ' (P (min Disp ; ) - P (min Dis jj )) / P (min Disp ; )
  • V is the reference disparity of the i-th frame in the time domain
  • disp fcst and disp last are the reference disparity of the first frame and the last frame of the sub-segment to which the i-th frame belongs
  • Np is the sub-segment of the i-th frame.
  • the number of video frames; V 2 ' indicates the change in the frequency of occurrence of the reference disparity of the i-th frame in the time domain, P(min Dis Pl ) with?
  • (! ⁇ 11 018 _ 1 ) is the percentage of the reference disparity of the i-th frame and the i-th frame, respectively; is the second viewing comfort influence factor of the i-th frame, / and / is a weighting value; the ith frame Is any video frame in the stereoscopic video segment.
  • the processor is configured to calculate a video frame of the stereoscopic video segment according to the following formula.
  • V min DisPi - min Dis ; ⁇
  • V 2 ' (P (min Disp ; ) - P (min Dis ; ⁇ )) / P (min Disp ; )
  • V represents the change of the reference disparity of the i-th frame in the time domain
  • min DisA and min Disp ⁇ are the reference disparity of the i-th frame and the i-th frame, respectively; and the frequency of the reference disparity of the i-th frame is in the time domain
  • the change, ? (1 ⁇ 11 018 1 ) and? (111111 018 ⁇ 1 ) is a percentage of the reference disparity of the ith frame and the i-1th frame, respectively; a second viewing comfort influence factor of the ith frame, and / is a weighting value, the ith frame is the Any video frame in a stereo video segment.
  • the processor is specifically configured to:
  • the viewing comfort of the stereoscopic video segment is calculated based on the viewing comfort of each sub-segment.
  • the processor is configured to calculate a viewing comfort of a video frame of the stereoscopic video segment according to the following formula:
  • the time domain (3 ⁇ 4 viewing comfort of the i-th frame
  • Spatial- frame -vc t i is the viewing comfort of the spatial characteristics of the i-th frame determined by frame
  • Tenperal _ frame _vc t i-th frame is determined The viewing comfort of the ith frame, a and ?
  • dispd ⁇ bu ⁇ 1 is the first viewing comfort factor of the ith frame
  • minDispi is the reference parallax of the ith frame
  • P(minDis Pi ) is the first The percentage of the reference disparity of the i frame
  • the second viewing comfort impact factor of the i-th frame bl, b2, and cl are model parameters
  • the bl, b2, and cl are set values
  • the ith frame is the Any video frame in the stereoscopic video segment
  • the disparity set corresponding to the video frame of the video segment, the disparity set is a pixel disparity set in the visible region of the video frame of the stereoscopic video segment, and each of the disparity values corresponds to The number of pixels is greater than the set threshold; determining a minimum disparity value in the disparity set as a reference disparity of a video frame of the stereoscopic video segment;
  • the percentage of the reference disparity of the video frame of the stereoscopic video segment is: in the visible region of the video frame of the stereoscopic video segment, the disparity is the ratio of the number of pixels of the video frame reference disparity of the stereoscopic video segment to the number of effective pixels ;
  • the first viewing comfort impact factor of the video frame of the stereoscopic video segment is determined according to whether a video frame of the stereoscopic video segment has a frame effect and whether a near-near far space layout is satisfied;
  • the border effect means that for a video frame, if the parallax of the object imaged at the edge of the screen is a cross parallax, and a part of the object is beyond the screen range, there is a frame effect; the lower near and far distance refers to a video frame corresponding to The perceived depth of the object imaged at the bottom of the screen is close to the viewer, and the perceived depth of the object imaged at the top of the screen is far from the viewer;
  • the second viewing comfort impact factor of the video frame of the stereoscopic video segment occurs according to a change in the reference disparity of the video frame of the stereoscopic video segment in the time domain, and/or a reference disparity of the video frame of the stereoscopic video segment
  • the frequency is determined in time domain variation, and the magnitude of the second viewing comfort impact factor value indicates the extent to which the reference disparity of the video frame varies in the depth direction.
  • the processor is specifically configured to: calculate viewing comfort of the stereoscopic video segment according to the following formula:
  • the kth sub-segment is any one of the stereoscopic video segments.
  • the processor is specifically configured to calculate the stereoscopic video segment according to the following formula View comfort:
  • Q is the viewing comfort of the stereoscopic video segment
  • Q s k is the comfort level of the kth sub-segment in the stereoscopic video segment
  • N s is the number of sub-segments in the stereoscopic video segment
  • P o c2 is Value.
  • the processor is specifically configured to: according to the stereoscopic video segment The spatial domain characteristic of the video frame, and calculating the spatial characteristics of the stereoscopic video segment;
  • the spatial domain feature of the video frame of the stereoscopic video segment includes one or any combination of the following parameters: a video frame of the stereoscopic video segment Reference parallax, percentage of reference parallax and first viewing comfort impact factor;
  • a disparity value of a pixel that satisfies the following condition as a reference disparity of a video frame of the stereoscopic video segment a visible region of a video frame of the stereoscopic video segment
  • the number of pixels corresponding to the reference disparity is greater than a set pixel number threshold, and the reference disparity is a minimum disparity value in the disparity set
  • the disparity set is within a video frame visible area of the stereoscopic video segment a set of pixel disparity, and each of the disparity values corresponding to the number of pixels is greater than the set threshold;
  • the percentage of the reference disparity of the video frame of the stereoscopic video segment is: in the visible region of the video frame of the stereoscopic video segment, the disparity is the stereoscopic video segment Ratio of the number of pixels of the reference disparity of the video frame to the number of effective pixels; a first viewing comfort impact factor of the video frame of the stereoscopic video segment, the first viewing comfort impact factor of the video frame of the stereoscopic video segment is based on Whether the video frame of the stereoscopic video segment has a frame effect and whether the bottom near-far space layout is satisfied; the frame effect refers to a video frame, if the parallax of the object imaged at the edge of the screen is a cross-parallax, and If a part of the object is beyond the screen range, there is a border effect; the lower close is farther than the perceived depth of the object imaged at the bottom end of the screen corresponding to a video frame is close
  • the processor is specifically configured to calculate, according to the following formula, a weighted average of reference disparities of all video frames in the stereoscopic video segment: minDispj * P (minDispj )
  • minDispj P (minDispj ) where min Dip is the weighted average of the reference disparity of all video frames in the stereo video segment, N is the number of video frames in the stereo video segment, and minDisPi is the reference disparity of the i-th frame, P ( Min DisPi ) is the percentage of the reference disparity of the ith frame, and the ith frame is any video frame in the stereoscopic video segment;
  • disp disttibuti . n is an average value of first viewing comfort influence factors of all video frames in the stereoscopic video segment
  • dispd ⁇ butj is a first viewing comfort influence factor of the ith frame
  • N is a video frame in the stereoscopic video segment
  • the number, the ith frame is any video frame in the stereoscopic video segment.
  • the time domain characteristics of the video frame of the stereoscopic video segment include:
  • the second viewing comfort impact factor of the video frame of the stereoscopic video segment is changed according to a reference disparity of a video frame of the stereoscopic video segment in a time domain And/or the frequency at which the reference disparity of the video frame of the stereoscopic video segment occurs is determined in time domain, and the magnitude of the second viewing comfort influence factor value indicates the degree of change of the reference disparity of the video frame in the depth direction ;
  • the processor is specifically configured to calculate a second viewing comfort impact factor of the stereoscopic video segment according to the following formula: Wherein, v d is a second viewing comfort influence factor of the stereoscopic video segment, and Vd 1 is a second viewing comfort influence factor of the ith frame in the stereoscopic video segment, where s is a set value, and the value is determined according to The symbols of V and min DisR are determined, N is the number of video frames in the stereoscopic video segment, and the ith frame is any video frame in the stereoscopic video segment.
  • the processor is specifically configured to calculate the stereoscopic video segment according to the following formula Viewing comfort:
  • VC is the viewing comfort of the stereoscopic video segment, and is a weighted value
  • bl and c3 are set values
  • Spatial_frame_vc is the viewing comfort of the stereoscopic video segment determined by the spatial domain characteristic
  • Temperal _ Frame _vc is the viewing comfort of the stereoscopic video segment determined by the time domain characteristic
  • disPd ⁇ bution is the flatness of the first viewing comfort influence factor of all video frames in the stereoscopic video segment
  • a second viewing comfort impact factor for the stereoscopic video segment is provided.
  • the spatial and temporal characteristics of the video frame in the stereoscopic video segment are detected, and the viewing comfort of the entire stereoscopic video segment is evaluated according to the spatial and temporal characteristics of the video frame.
  • the stereoscopic video comfort evaluation scheme proposed by the embodiment of the present invention considers the influence of the disparity spatial distribution (ie, the spatial domain characteristic) and the temporal distribution (the real-time domain characteristic) on the stereoscopic video comfort, and can highlight the comfort of the frame with poor comfort. The degree of influence makes it possible to evaluate the stereo video comfort more objectively.
  • FIG. 1 is a schematic diagram of a stereoscopic video comfort evaluation process according to an embodiment of the present invention
  • FIG. 2 is a schematic diagram of a single frame frequency domain characteristic and a time domain characteristic extraction process according to an embodiment of the present invention
  • FIG. 3 is a schematic diagram of evaluating a stereo video segment comfort degree based on a single frame frequency domain characteristic and a time domain characteristic according to an embodiment of the present invention
  • FIG. 4 is a schematic flowchart of evaluating stereoscopic video band comfort based on single-frame frequency domain characteristics and time domain characteristics according to another embodiment of the present invention
  • FIG. 5 is a schematic diagram of a stereoscopic video comfort evaluation apparatus according to an embodiment of the present invention.
  • FIG. 6 is a schematic diagram of a stereoscopic video comfort evaluation apparatus according to another embodiment of the present invention.
  • DETAILED DESCRIPTION OF THE INVENTION The spatial and temporal characteristics of a frequency frame are obtained through a comfort evaluation model to obtain the comfort of the entire segment.
  • the comfort evaluation method proposed by the embodiment of the present invention takes into account the influence of the time domain disparity of the object and the change of the frequency on the stereoscopic video comfort. During the video viewing process, the poor quality segment tends to have a greater impact on the overall viewing experience.
  • the prior art does not reflect the influence of the poor frame or the poor segment, but the evaluation method proposed by the embodiment of the present invention can be highlighted. The effect of poor comfort frames.
  • FIG. 1 is a schematic diagram of a stereo video comfort evaluation process according to an embodiment of the present invention. As shown in the figure, the process may include:
  • Step 101 Acquire a video frame of a stereoscopic video segment to be evaluated.
  • Step 102 Extract a spatial domain characteristic and a time domain characteristic of a video frame of the stereoscopic video segment.
  • Step 103 Determine viewing comfort of the stereo video segment according to the spatial and temporal characteristics of the video frame of the stereoscopic video segment.
  • step 102 the following operations may be implemented: for each video frame of the stereoscopic video segment, performing the following operations: estimating a disparity of the video frame, determining a visual focus position of the video frame according to the disparity and motion information of the video frame, according to The visual focus position of the video frame determines the viewable area of the video frame, based on the disparity of the video frame and the viewable area of the video frame.
  • FIG. 2 illustrates an alternative implementation of step 102 of FIG. 1, which may include:
  • Step 202 Estimate the disparity of the i-th frame.
  • each frame of a stereoscopic video includes a left eye image and a right eye image, which are referred to as stereoscopic image pairs.
  • the parallax of one pixel in a video frame refers to the distance between matched pixels in a stereo image pair, usually the cross parallax is negative and the non-cross parallax is positive.
  • disparity estimation algorithms for stereoscopic video.
  • the embodiment of the present invention can select a stereo matching algorithm to perform disparity estimation. For example, a stereo disparity map can be obtained by using a stereo matching algorithm based on color segmentation. After the parallax is obtained by the stereo matching algorithm, filtering can be further performed to remove the mismatched points in the disparity map, so that the obtained disparity map is smooth, continuous, and accurate. In specific implementation, median filtering can be used to remove outliers.
  • search window to perform stereo matching according to the defined search window (ie, search for matching pixels). For example, 32 pixels are searched for the left and right respectively based on the current pixel (the search range is 32 at this time, and the range of the parallax is -32 to 32), that is, the pixel matching the current pixel is searched within the search range.
  • the size of the search window may be adjusted according to the content of the video segment. The size of the search window is related to the resolution of the video and to the overall parallax size of the video frame. If the search window is too small, some pixels will not find matching pixels.
  • the size of the search window can be similar to the parallax of the video frame.
  • the parallax of the pixel may be set as an empirical value, indicating that no matching pixel is found, for example For example, if the search range is 32, if the matching pixel is not found for the current pixel, the parallax of the current pixel is set to the search range plus one, that is, set to 33.
  • Step 203 Determine a visual focus position of the i-th frame according to the disparity of the i-th frame and the motion information.
  • the weight of each pixel in the i-th frame may be first determined, and the position of the pixel having the largest weight is determined as the visual focus position of the i-th frame. Further, if there are a plurality of pixels having the largest weight in the i-th frame, the position of the pixel closest to the image center position of the i-th frame among the plurality of pixels having the largest weight may be determined as the i-th The visual focus position of the frame.
  • the embodiment of the present invention can perform the intra-video matching according to the weight of the pixel.
  • the plane motion of the pixel including horizontal motion and vertical motion
  • motion in the depth direction and cross parallax are calculated.
  • cross parallax means that the object is imaged in front of the screen.
  • the weight of the pixel in the i-th frame can be calculated according to the following formula:
  • W r*lmvl+ *l disp crossed l+l*l ⁇ dl [1]
  • W is the weight of the pixel with coordinates (x, y), ⁇ , and /1 are weighted values, ⁇ , and /1
  • the plane motion vector of the pixel of (x, y), d od y is the horizontal displacement and the vertical displacement of the (i, y) pixel in the i-th frame, respectively, and the phase in the ith frame and the ith frame Searching for an adjacent video frame (for example, an adjacent video frame of the ith frame is, for example, an i-1th frame or an i+1th frame), for example, by comparing pixels with coordinates (x, y) in
  • Ssed is the cross disparity value, for each pixel, only in its parallax Disp CT for cross parallax. Ssed has a value. If the parallax of the pixel is non-intersecting, disp CT will be used. The ssed value is 0; d is the average of the matching blocks of the adjacent video frames of the ith frame and the ith frame (the adjacent video frames of the ith frame are, for example, the i- 1th frame or the i+1th frame) The difference in parallax, the size of d indicates the speed of motion in the depth direction.
  • Step 204 Determine a visible area of the video frame according to a visual focus position of the i-th frame.
  • the image visible area can be determined according to the human eye resolution field of view and the viewing distance.
  • the focus can be taken as the center, 15.
  • the area within the viewing angle range is the visible area.
  • a stereo video segment has a resolution of 640*480, and a video frame of the stereo video segment may have a visible area of 350*262 pixels.
  • Step 205 Extract the spatial characteristics and the time domain characteristics of the i-th frame according to the disparity of the i-th frame and the visible area of the video frame.
  • the spatial characteristics of a video frame may include one or any combination of the following parameters: a reference disparity of the video frame (hereinafter, the reference disparity of the i-th frame is expressed as min Disp), and a percentage of the reference disparity (hereinafter referred to as It is P(minDisp)), the severity of the border effect, and whether it satisfies the "near near and far" spatial layout. among them:
  • the reference disparity minDisp of the video frame may be the smallest pixel disparity value within the viewable area of the video frame. Further, considering the possibility of mismatching in stereo matching, sometimes the parallax of some pixels is abnormally large or abnormally small, but these pixels are often discrete and a small number of pixels. But in fact, for the same object, the pixel disparity of adjacent regions should be the same or similar. Therefore, if the number of parallaxes is small, the matching of these pixels is considered to be inaccurate, so these parallaxes can be excluded. After the abnormal pixel, the minimum disparity is selected according to the disparity of the remaining pixels as the reference disparity of the video frame.
  • a minimum value of the disparity of pixels other than the noise pixels in the visible area of the video frame may be determined as a reference disparity of the video frame; wherein, for each disparity value of the noise pixel, The number of corresponding pixels (ie, pixels having the disparity value) is lower than the set pixel number threshold. In this way, some noise can be avoided.
  • the choice of parallax improves the accuracy of the comfort assessment.
  • the percentage of reference disparity P(minDisp) is the ratio of the parallax value to the reference disparity min Disp ⁇ the number of pixels and the number of effective pixels in the visible area of the video frame.
  • the absolute value of the disparity of the effective pixel is smaller than the search range.
  • the parallax of the pixel is set to a certain empirical value to indicate that the pixel matching fails. For example, when the search range is 32, the matching pixel will be matched.
  • the disparity value is set to 33.
  • the pixels in the disparity [-32, 32] are the pixels that match successfully, that is, the effective pixels, and the parallax is not in [-32, 32].
  • the pixel is an invalid pixel, that is, a mismatched pixel.
  • a pixel with a parallax of 33 is a mismatched pixel.
  • the border effect refers to a video frame, if the parallax of the object located at the edge of the screen (ie, the object imaged at the edge of the screen) is a cross parallax (ie, the object is imaged in front of the screen), and a part of the object is beyond the screen range, then Video frames have a frame-effect, which can cause viewers to feel extremely uncomfortable while watching.
  • Bottom-up refers to the object at the bottom of the screen corresponding to a video frame (ie, the object imaged at the bottom of the screen). The perceived depth is closer to the viewer, and the object at the top of the screen (ie, the object imaged at the top of the screen) The perceived depth is far from the audience. Video frames that conform to the spatial layout of "near near and far" are less likely to cause visual fatigue.
  • the viewing comfort influence factor disp distnbuti can be used.
  • n (which can be called the first viewing comfort impact factor) to indicate the severity of the border effect and whether the "near near and far" spatial layout is satisfied.
  • Reference parallax, percentage of reference disparity, and disp dlstnbutl . n reflects the spatial distribution of the parallax within the video frame.
  • the method of determining the reference disparity min Dis P1 may be: In the disparity of all pixels in the visible region of the i-th frame, the minimum value is selected as the value of the reference disparity of the ith frame.
  • Another optional implementation manner may be: determining a disparity set corresponding to the ith frame, where the disparity set is visible for the i frame a pixel disparity set in the region, and the number of pixels corresponding to each disparity value is greater than the set threshold; the minimum disparity value in the disparity set is determined as minDis R of the i-th frame.
  • the minimum parallax is taken, and it is determined whether the number of pixels having the minimum disparity value is greater than a threshold of 0.875 *N*N. If it is greater than, the minimum disparity is taken as The reference disparity of the i-th frame; if less than, the minimum value among the remaining disparities except the minimum disparity is selected in the statistical window, and it is determined whether the number of pixels having the minimum value is greater than the threshold value of 0.875*N*N, if If it is greater than, the minimum disparity is taken as the reference disparity of the i-th frame. Otherwise, the minimum value is excluded by referring to the above manner, and a minimum value is selected among the remaining parallaxes, and the judgment and processing are performed with reference to the above manner.
  • the percentage P (minDisp) of the reference disparity can be obtained by calculating the ratio of the number of pixels of the reference disparity min Dis Pl to the number of effective pixels in the visible region of the i-th frame.
  • the ith frame it is determined whether there is a border effect in the i-th frame by detecting whether there is a cross-disparity of the set disparity value within a certain range of the screen edge corresponding to the i-th frame. For example, for the ith frame, the number of cross-parallax less than the set parallax threshold T is greater than the threshold value of 0.75*N*N by the N*N search window within a certain range of the edge of the screen. There is a border effect on the i frame, otherwise it is judged that there is no border effect on the i-th frame.
  • the value of the threshold T is less than the lower bound of the "comfort zone", and the range of the "comfort zone” is related to a series of factors such as the resolution of the video, the eyelid distance, and the viewing distance. Therefore, the value of the threshold T is not one. Fixed value, optional value is also related to the resolution of the video. "comfort zone” means: When the parallax is less than a certain range, the human eye will not produce visual fatigue. For example, if the "comfort zone” is ⁇ -5 pixels, 8 pixels] at the current video resolution, the threshold value should be less than -5. .
  • the ith frame can be divided into three regions according to a certain ratio. By comparing the magnitude relationship of the average parallax of the effective pixels in the three regions, it is determined whether the ith frame satisfies the spatial layout of "near near and far". For example, for the ith frame, the image of the ith frame can be divided into three regions according to the image height of Q% and 1-Q% (0 ⁇ Q ⁇ 100), and the average parallax of the effective pixels in the three regions is compared. The small relationship judges whether it is satisfied with "below near and far".
  • the image of the ith frame is divided into three regions in the height direction, and the height ratio of each region from top to bottom is: 0 ⁇ 20% 20% ⁇ 80%, 80% ⁇ 1, and the effective pixels of each region are calculated separately.
  • the average parallax if ⁇ ⁇ ⁇ 1(11 ⁇ ⁇ ⁇ ) ⁇ ⁇ , determines that the i-th frame satisfies the spatial layout of "near near and far".
  • the top disp middle disp bottom ⁇ p represents the average disparity value of the effective pixels in the three regions, respectively.
  • the ith frame may be divided into two regions or more than three regions according to a certain ratio. According to the above principle, whether the ith frame satisfies "near near” by comparing the magnitude relationship of the average parallax of effective pixels in each region.
  • the space layout of Shangyuan The space layout of Shangyuan.
  • embodiments of the present invention may be "on the near-far" spatial layout, spatial layout of the disparity determined impact factor comfort disi3 ⁇ 4 lst "butli disp dlstnbutl
  • disp distnbuti. n ranges may is set to [0,1], there is no border effects of video frames and the lower case meet near the far spatial layout, can be disp dlstnbutl.
  • n whichever is greater, may be taken such as in the range [0.9, 1] of The value of disp dlstflbutl . n can be smaller if there is a border effect on the video frame and the bottom space layout is not satisfied.
  • disp dlstnbutl n 0.7 can be seen, disp dlstnbutl .
  • n takes the first value when there is no border effect in the video frame and satisfies the near-far upper spatial layout, and takes the second value when the video frame has a border effect but satisfies the near-far upper spatial layout, and there is no border effect in the video frame.
  • the third value is taken when the layout of the near-near and far space is not satisfied
  • the fourth value is taken when the video frame has a frame effect and does not satisfy the layout of the near-far space
  • the first value and the second value are The value, the third value, and the fourth value are preset values, and the first value is less than the fourth value, and the third value is between the first value and the second value and is not equal to the first value and the second value.
  • the first value, the second value, the third value, and the fourth value have a value range of: greater than zero and less than or equal to 1.
  • disp dlstnbutl The value of n is from small to large, and the calculated viewing comfort evaluation scores are also increased from small to large (the higher the viewing comfort evaluation score, the higher the viewing comfort)
  • the time domain characteristics of a video frame may include variations in the depth direction of the disparity within the viewable area of the video frame.
  • the value of the sum can be adjusted according to the importance of the influence of V and V 2 '.
  • the embodiment of the present invention provides two alternative calculation methods:
  • Method 1 Segment the stereo video segment, and the reference disparity of the video frame in the same video segment changes monotonically and the change speed is the same. Calculate the V of the i-th frame according to the following formula:
  • Np is the number of video frames of the video segment to which the i-th frame belongs.
  • V min Dispi - min Dis ; ⁇ [4]
  • min DisA and min Disp ⁇ are the reference disparity of the i-th frame and the i-th frame, respectively.
  • V 2 ' of the ith frame it can be calculated according to the following formula:
  • V 2 ; (P (min Disp ; ) - P (min P (min Disp ; ) [5] where ? (1 ⁇ 11 018) and? (111111 018 ⁇ 1 ) is the percentage of the reference disparity of the i-th frame and the i-th frame, respectively.
  • the weight of the pixel is calculated in the embodiment of the present invention because the more severe motion in the video frame (such as the motion in the plane motion and/or the motion in the depth direction) and the larger cross-parallax are likely to attract the attention of the viewer.
  • the calculation may be performed according to the plane motion (including horizontal motion and vertical motion) of the matching pixels in the video frame, the motion in the depth direction, and the cross parallax, and the pixel with the largest weight is selected as the visual focus, and the visible region is determined according to the visual focus.
  • the viewable area is usually an area of interest to the viewer, so that the viewing comfort can be evaluated for the area of interest to the viewer.
  • step 103 of Fig. 1 it is necessary to evaluate the comfort of the video segment.
  • FIG. 3 illustrates an alternative implementation of step 103 of FIG. 1. As shown, the method can include the following steps:
  • Step 301 Calculate the viewing comfort of each video frame of the stereoscopic video segment.
  • the comfort of a video frame is determined by both the time domain characteristics and the spatial domain characteristics.
  • the comfort model of a video frame may be (hereinafter, the ith frame is taken as an example): QP Spatial _ frame—vc; + ?*Temperal _ frame _VC; r 1
  • the viewing comfort of the i-th frame Spatial_ frame- vc t i is the viewing comfort of the spatial characteristics of the i-th frame determined by frame
  • Ten eral- frame _vc t is the time-domain characteristics of the i-th frame is determined
  • the viewing comfort of i frames, a and ⁇ are weighted values.
  • Temperal - frame _vc, l+cl* exp (- 1 V d ' I *b2) [8] where dis P distributi . n i is the disp disttibuti of the i-th frame. n factor, minDispi is the reference disparity of the ith frame, P(minDi S pi) is the percentage of the reference disparity of the i-th frame, bl is the model parameter; is the V d factor of the i-th frame; b2 is the model parameter, b2 is taken The value is related to the sign of V and minDispi. Bl and b2 are model parameters trained in the process of fitting subjective data, and the values can be determined based on actual training scores.
  • the parameter cl in Equations 7 and 8 above takes a value of 4. Since the subjective assessment of video viewing comfort is based on a 5-point scale with a minimum of 1 point and a maximum of 5 points, a value of 4 for cl can guarantee a minimum of 1 and a maximum of 5. For the same reason, if it is another system, such as 11-point system or percentage system, the values of the model parameters in Equation 7 and Equation 8 can be adjusted accordingly. Table 1 Model parameters
  • Step 302 Perform sub-segment division on the stereoscopic video segment according to a visual focus position of each video frame of the stereoscopic video segment, where each sub-segment includes at least one video frame, and a visual focus position shift amount of the video frame of each sub-segment Not greater than the set transition amount threshold, and then the viewing comfort of each sub-segment is calculated.
  • the segmentation is based on the amount of conversion of the focus at the spatial position. If the spatial positions of the focal points of consecutive frames are similar, the continuous multi-frame is divided into one sub-segment. For example, if the spatial focus position shift amount p of the adjacent video frame is less than 5, the adjacent video frame is divided into one sub-segment, otherwise the adjacent video frame is divided into different sub-segments. among them, , ( ⁇ and respectively represent the horizontal and vertical displacement of the focus shift.
  • the specific calculation formula for calculating the viewing comfort of each sub-section may be: Where Q s k is the comfort level of the kth sub-segment, and N F is the number of video frames in the k-th sub-segment, which is a joint parameter, and is a set value, for example, a value of 7 can be selected. The value can be an integer greater than one.
  • the selection of the optional value of Pi can be obtained according to the existing test segment and the corresponding subjective comfort score training. By setting a reasonable value, the correlation between the subjective score and the objective score can be maximized.
  • the minimum is 1 If the score is up to 5 points, then the parameter c2 in Equation 9 and Equation 10 above takes a value of 5, which is the highest score of the subjective assessment. Similarly, if it is another system, such as 11-point system or percentage system, the values of the model parameters in Equation 7 and Equation 8 can be adjusted accordingly.
  • Step 303 Calculating the viewing comfort of the stereoscopic video segment according to the viewing comfort of each sub-section.
  • the specific calculation formula may be:
  • Q c2 - ( 1 2 - Qs k ) P2 )) P 2 [10]
  • Q is the viewing comfort of the stereoscopic video segment
  • N s is the number
  • n P 2 of the sub-segments in the video segment is the time domain
  • the joint parameter is a set value, for example, a value of 3 can be selected.
  • P 2 may take an integer greater than one.
  • the selection of the optional value of P 2 can be obtained according to the existing test segment and the corresponding subjective comfort score training. By setting a reasonable value, the correlation between the subjective score and the objective score can be maximized.
  • FIG. 4 shows another alternative implementation method of step 103 in FIG. 1.
  • the characteristic parameters extracted in the viewing comfort evaluation model are statistical parameters of the segment, and the comfort of each video frame need not be separately calculated. Degree and comfort of the subsection.
  • the method can include the following steps:
  • Step 401 Calculate a spatial domain characteristic of the stereoscopic video segment according to a spatial domain characteristic of each video frame of the stereoscopic video segment.
  • the spatial characteristics of the stereoscopic video segment may include one or any combination of the following parameters: a reference disparity of the stereoscopic video band, and a viewing comfort impact factor min Dip of the stereoscopic video segment.
  • the reference disparity of the stereoscopic video segment can be calculated by: calculating a weighted average of the reference disparity of all the video frames in the stereoscopic video segment.
  • the specific calculation formula can be:
  • N is the number of video frames in the stereo video segment
  • minDisPi is the reference disparity of the i-th frame
  • P (min DisPi ) is the percentage of the reference disparity of the i-th frame.
  • the viewing comfort influence factor min Dip of the stereoscopic video segment can be calculated by: calculating an average value of the viewing comfort influence factor disp ist tone bul of all the video frames in the stereoscopic video segment.
  • dis P dlstributlon is a viewing comfort influence factor disp dlstIlbutl of all video frames in the stereoscopic video segment.
  • the average value of n , disp ⁇ utJ is the viewing comfort influence factor of the i-th frame, disPdistribution;
  • Step 402 Calculate a time domain characteristic of the stereoscopic frequency band according to a time domain characteristic of each video frame of the stereoscopic video segment.
  • the stereoscopic video segment may comprise the time-domain characteristics of a stereoscopic video viewing comfort segment Factor V d.
  • the viewing comfort influence factor V d of the stereoscopic video segment can be calculated by the following formula: Wherein, v d is a viewing comfort influence factor V d of the stereoscopic video segment, and Vd 1 is a viewing comfort influence factor v d of the i-th frame in the stereoscopic video segment, which is a set value, and the value is according to V And the sign of min DisPi to determine, that is, the value of P ; is related to the sign of V and min DisPi, a desirable value is:
  • Pi can distinguish the different effects of different directions of motion on viewing comfort.
  • V and min Dis Pl are the same, the object moves away from the screen. In this case, the comfort is very poor. Larger values, such as the above? : ⁇
  • Step 403 Calculate the viewing comfort of the stereoscopic video segment according to the parameters calculated in steps 401-402.
  • the specific calculation formula can be:
  • Temperal _vc l + c3* exp (- IV d I) [16]
  • VC is the viewing comfort of the stereoscopic video segment, and is a weighted value, optionally, + ⁇ ⁇ ⁇ ;
  • bl is a model parameter.
  • the optional value of bl can be selected according to the existing test segment and the corresponding subjective comfort score training. When the value is taken, the correlation between the subjective score and the objective score is the highest.
  • the parameter c3 in the above formula 15 and formula 16 takes a value of 4, that is, the value is subjective. The highest score of the assessment.
  • the values of the model parameters in Equations 15 and 16 can be adjusted accordingly.
  • the embodiment of the present invention determines the visual focus area according to the human eye angle of view by detecting the focus position of the human eye, and measures the stereoscopic video viewing comfort by using the convergence of the visible area and the severity of the adjustment conflict.
  • the severity of the convergence and adjustment conflicts is measured by analyzing the spatial video disparity distribution and the time domain disparity distribution.
  • the evaluation method proposed by the embodiment of the present invention fully considers the influence of the spatial distribution and time distribution of the parallax on the comfort of the stereoscopic video, and can highlight the influence of the frame with poor comfort on the overall comfort.
  • stereo video comfort evaluation is a prerequisite for improving stereo video viewing comfort, and is one of the key technologies affecting the development of stereo video.
  • the objective evaluation scheme of stereoscopic video comfort proposed by the embodiment of the invention has low computational complexity and high reliability, and can be widely applied and evaluated and monitored for stereoscopic video comfort. Compared with the existing schemes, the scheme fully considers the spatial characteristics and time of stereo video.
  • the influence of domain characteristics on stereo video comfort taking into account human visual characteristics and audience viewing habits, covers the most influential factors affecting viewing comfort, so that stereoscopic video viewing comfort evaluation is more objective and accurate.
  • FIG. 5 is a schematic structural diagram of a stereoscopic video evaluation apparatus according to an embodiment of the present invention.
  • An obtaining module 501 configured to acquire a video frame of a stereoscopic video segment;
  • the extraction module 502 is configured to extract a spatial domain feature and a time domain characteristic of a video frame of the stereoscopic video segment acquired by the acquiring module.
  • the evaluation module 503 is configured to determine the viewing comfort of the stereoscopic video segment according to the spatial and temporal characteristics of the video frame of the stereoscopic video segment extracted by the extraction module.
  • the extracting module 502 is specifically configured to: estimate a disparity of a video frame of the stereoscopic video segment, determine the parallax according to a video frame of the stereoscopic video segment, and motion information. a visual focus position of the video frame of the stereoscopic video segment, determining a visible area of the video frame of the stereoscopic video segment according to a visual focus position of the video frame of the stereoscopic video segment, and a parallax of the video frame according to the stereoscopic video segment And a visible area of the video frame of the stereoscopic video segment, and extracting a spatial domain characteristic and a time domain characteristic of the video frame of the stereoscopic video segment.
  • the extraction module 502 may determine the weight of each pixel in the video frame of the stereoscopic video segment, and the pixel with the largest weight The location is determined as the visual focus position of the video frame of the stereoscopic video segment.
  • the extraction module 502 can calculate the weight of the pixel, the expression of the formula (1), and related parameters by using the formula (1). The meanings are the same as before and will not be repeated here.
  • the extraction module 502 is specifically configured to: if the pixel having the largest weight in the video frame of the stereoscopic video segment has And determining, by using a plurality of pixels having the largest weight, a position of a pixel closest to an image center position of a video frame of the stereoscopic video segment as a visual focus position of a video frame of the stereoscopic video segment .
  • the airspace characteristic includes one or any combination of the following parameters: reference parallax , the percentage of reference parallax, the first viewing comfort impact factor;
  • the extraction module 502 is specifically configured to: determine a disparity set corresponding to the video frame of the stereoscopic video segment, where the disparity set is a pixel disparity set in a video frame visible area of the stereoscopic video segment, and each parallax thereof The number of pixels corresponding to the value is greater than the set threshold; determining a minimum disparity value in the disparity set as a reference disparity of a video frame of the stereoscopic video segment;
  • a valid pixel is a pixel whose absolute value of parallax is smaller than the search range
  • the first viewing comfort impact factor When the video frame of the stereoscopic video segment does not have a frame effect and satisfies a lower near-far space layout, the first value is taken, and when the video frame of the stereoscopic video segment has a frame effect but satisfies the near-near far space layout, the first Binary value, when the video frame of the stereoscopic video segment does not have a border effect but does not satisfy the lower near-far space layout, the third value is obtained, and the video frame of the stereoscopic video segment has a border effect and does not satisfy the near-far distance
  • the spatial value takes a fourth value, wherein the first value, the second value, the third value, and the fourth value are preset values, and the first value is less than the fourth value, and the third value is at the first value and the
  • the time domain characteristic includes a second viewing comfort impact factor
  • the extraction module 502 is specifically configured to:: according to the reference parallax of the video frame of the stereoscopic video segment at the time And calculating a second viewing comfort impact factor of the video frame of the stereoscopic video segment, where the magnitude of the second viewing comfort impact factor value indicates a degree of change of the reference disparity of the video frame in the depth direction.
  • the extraction module 502 is specifically configured to: divide the stereo video segment into sub-segments, and reference parallax of video frames in the same sub-segment Monotonously changing and changing at the same speed, calculating a change of the reference disparity of the video frame of the stereoscopic video segment in the time domain according to formula (3), and calculating a frequency of occurrence of the reference disparity of the video frame of the stereoscopic video segment according to formula (5)
  • the second viewing comfort influence factor of the video frame of the stereoscopic video segment is calculated according to formula (2).
  • the expressions of the formulas (3), (2), and (5) and the meanings of the relevant parameters are the same as described above and will not be repeated here.
  • the extraction module 502 may calculate, according to the formula (4), a change of the reference disparity of the video frame of the stereoscopic video segment in the time domain, according to Equation (5) calculates a change in the frequency of occurrence of the reference disparity of the video frame of the stereoscopic video segment in the time domain, and calculates a second viewing comfort influence factor of the video frame of the stereoscopic video segment according to formula (2).
  • Equation (5) calculates a change in the frequency of occurrence of the reference disparity of the video frame of the stereoscopic video segment in the time domain, and calculates a second viewing comfort influence factor of the video frame of the stereoscopic video segment according to formula (2).
  • the evaluation module 503 is specifically configured to: according to the stereoscopic video The spatial and temporal characteristics of each video frame of the segment are respectively calculated for viewing comfort of each of the video frames;
  • Decoding the stereoscopic video segment according to a visual focus position of each video frame of the stereoscopic video segment, and the visual focus position shift amount of the video frame of each sub-segment is not greater than a set transfer amount threshold;
  • the viewing comfort of each video frame in each sub-segment, and the viewing comfort of each sub-segment is calculated separately;
  • the viewing comfort of the stereoscopic video segment is calculated based on the viewing comfort of each sub-segment.
  • the evaluation module 503 can calculate the viewing comfort of the video frame of the stereoscopic video segment according to the formula (6), the formula (7), and the formula (8).
  • the expressions of the formulas (4), (5) and (2) and the meanings of the relevant parameters are the same as described above and will not be repeated here.
  • the reference parallax of the video frame of the stereoscopic video segment involved in the calculation process, the percentage of the reference parallax of the video frame of the stereoscopic video segment, the first viewing comfort influence factor, and the second viewing comfort influence factor are calculated. As mentioned before, it will not be repeated here.
  • the evaluation module 503 is specifically configured to: calculate the viewing comfort of the stereoscopic video segment according to the formula (9).
  • the meaning of the formula (9) expression and related parameters are the same as before, and will not be repeated here.
  • the evaluation module 503 may calculate the stereo according to the formula (10) The viewing comfort of the video segment.
  • the meaning of the expression of formula (10) and related parameters are the same as before, and will not be repeated here.
  • the evaluation module 503 may be configured according to the stereoscopic video segment. Calculating a spatial domain characteristic of the video frame, calculating a spatial domain characteristic of the stereoscopic video segment, and calculating a time domain characteristic of the stereoscopic video segment according to a time domain characteristic of the video frame of the stereoscopic video segment, according to the spatial domain of the stereoscopic video segment The characteristic and time domain characteristics are used to calculate the viewing comfort of the stereoscopic video segment.
  • the spatial domain feature of the video frame of the stereoscopic video segment includes one or any combination of the following parameters: The reference disparity of the video frame, the percentage of the reference disparity and the first viewing comfort impact factor, the specific calculation methods of these parameters are the same as before, and will not be repeated here.
  • the evaluation module 503 can calculate a weighted average value of reference disparities of all video frames in the stereoscopic video segment according to formula (11), and calculate first viewing comfort of all video frames in the stereoscopic video segment according to formula (12). The average of the influence factors.
  • the time domain characteristic of the video frame of the stereoscopic video segment includes: video of the stereoscopic video segment
  • the second viewing comfort impact factor of the frame (the specific calculation method is the same as described above, and is not repeated here)
  • the evaluation module 503 can calculate the second viewing comfort impact factor of the stereoscopic video segment according to the formula (13).
  • the meaning of the expression of the formula (13) and the related parameters are the same as described above and will not be repeated here.
  • the evaluation module 503 can be based on the formula (14), the formula ( 15) and formula (16) calculate the viewing comfort of the stereoscopic video segment.
  • the expressions of the formula (14), the formula (15), and the formula (16) and the related parameters have the same meanings as described above and will not be repeated here.
  • an embodiment of the present invention further provides a stereoscopic video evaluation apparatus.
  • FIG. 6 is a schematic structural diagram of a stereoscopic video evaluation apparatus according to an embodiment of the present invention.
  • the apparatus can include: a transceiver 601, a memory 602, and a processor 603.
  • the memory 602 is used to store information such as applications, algorithm rules, calculation parameters, and the like, and can also be used to store intermediate results generated during the processing of the processor 603.
  • a transceiver 601 configured to acquire a video frame of a stereoscopic video segment
  • the processor 603 is configured to extract a spatial domain characteristic and a time domain characteristic of a video frame of the stereoscopic video segment acquired by the acquiring module, and perform a spatial domain and a time domain of the video frame of the stereoscopic video segment extracted by the extraction module. Characteristic, determining viewing comfort of the stereoscopic video segment.
  • the processor 603 is specifically configured to: estimate a disparity of a video frame of the stereoscopic video segment, determine the parallax according to a video frame of the stereoscopic video segment, and motion information. a visual focus position of the video frame of the stereoscopic video segment, determining a visible area of the video frame of the stereoscopic video segment according to a visual focus position of the video frame of the stereoscopic video segment, and a parallax of the video frame according to the stereoscopic video segment And a visible area of the video frame of the stereoscopic video segment, and extracting a spatial domain characteristic and a time domain characteristic of the video frame of the stereoscopic video segment.
  • the processor 603 may determine that the weight of each pixel in the video frame of the stereoscopic video segment is to be the largest.
  • the position of the pixel of the weight is determined as the visual focus position of the video frame of the stereoscopic video segment.
  • the processor 603 may calculate the weight of the pixel, the expression of the formula (1), and related parameters by using the formula (1). The meanings are the same as before and will not be repeated here.
  • the processor 603 is specifically configured to: if the pixel having the largest weight in the video frame of the stereoscopic video segment has And determining, by using a plurality of pixels having the largest weight, a position of a pixel closest to an image center position of a video frame of the stereoscopic video segment as a visual focus position of a video frame of the stereoscopic video segment .
  • the airspace characteristic includes one or any combination of the following parameters: reference parallax , the percentage of reference parallax, the first viewing comfort impact factor;
  • the processor 603 is specifically configured to: determine a disparity set corresponding to the video frame of the stereoscopic video segment, where the disparity set is a pixel disparity set in a video frame visible area of the stereoscopic video segment, and each parallax thereof The number of pixels corresponding to the value is greater than the set threshold; determining a minimum disparity value in the disparity set as a reference disparity of a video frame of the stereoscopic video segment;
  • a valid pixel is a pixel whose absolute value of parallax is smaller than the search range
  • the first viewing comfort impact factor When the video frame of the stereoscopic video segment does not have a frame effect and satisfies a lower near-far space layout, the first value is taken, and when the video frame of the stereoscopic video segment has a frame effect but satisfies the near-near far space layout, the first Binary value, when the video frame of the stereoscopic video segment does not have a border effect but does not satisfy the lower near-far space layout, the third value is obtained, and the video frame of the stereoscopic video segment has a border effect and does not satisfy the near-far distance
  • the spatial value takes a fourth value, wherein the first value, the second value, the third value, and the fourth value are preset values, and the first value is less than the fourth value, and the third value is at the first value and the
  • the time domain characteristic includes a second viewing comfort impact factor
  • the processor 603 is specifically configured to: calculate, according to a reference disparity of the video frame of the stereoscopic video segment, a second viewing comfort impact factor of the video frame of the stereoscopic video segment in a time domain, where the second viewing comfort influence factor The magnitude of the value indicates how much the reference disparity of the video frame changes in the depth direction.
  • the processor 603 is specifically configured to: divide the stereo video segment into sub-segments, and reference parallax of video frames in the same sub-segment Monotonously changing and changing at the same speed, calculating a change of the reference disparity of the video frame of the stereoscopic video segment in the time domain according to formula (3), and calculating a frequency of occurrence of the reference disparity of the video frame of the stereoscopic video segment according to formula (5)
  • the second viewing comfort influence factor of the video frame of the stereoscopic video segment is calculated according to formula (2).
  • the expressions of the formulas (3), (2), and (5) and the meanings of the relevant parameters are the same as described above and will not be repeated here.
  • the processor 603 may calculate, according to the formula (4), a reference disparity of the video frame of the stereoscopic video segment in the time domain in the time domain. Changing, calculating a second viewing comfort impact factor of the video frame of the stereoscopic video segment according to equation (2).
  • equations (4), (5) and (2) and the meanings of the relevant parameters are the same as previously described and will not be repeated here.
  • the processor 603 is specifically configured to: separately calculate each of the videos according to a spatial domain feature and a time domain characteristic of each video frame of the stereoscopic video segment. The viewing comfort of the frame;
  • Decoding the stereoscopic video segment according to a visual focus position of each video frame of the stereoscopic video segment, and the visual focus position shift amount of the video frame of each sub-segment is not greater than a set transfer amount threshold;
  • the viewing comfort of each video frame in each sub-segment, and the viewing comfort of each sub-segment is calculated separately;
  • the viewing comfort of the stereoscopic video segment is calculated based on the viewing comfort of each sub-segment.
  • the processor 603 may calculate the video frame of the stereoscopic video segment according to formula (6), formula (7), and formula (8). Viewing comfort.
  • the expressions of equations (4), (5), and (2) and the meanings of the relevant parameters are the same as described above and will not be repeated here.
  • the reference parallax of the video frame of the stereoscopic video segment involved in the calculation process, the percentage of the reference parallax of the video frame of the stereoscopic video segment, the first viewing comfort influence factor, and the second viewing comfort influence factor are calculated. As mentioned before, it will not be repeated here.
  • the processor 603 is specifically configured to: calculate viewing comfort of the stereoscopic video segment according to formula (9).
  • the meaning of the formula (9) expression and related parameters are the same as before, and will not be repeated here.
  • the processor 603 may calculate the stereo according to the formula (10) The viewing comfort of the video segment.
  • the meaning of the formula (10) expression and related parameters are the same as before and will not be repeated here.
  • the processor 603 may be configured according to the stereoscopic video segment. Calculating a spatial domain characteristic of the video frame, calculating a spatial domain characteristic of the stereoscopic video segment, and calculating a time domain characteristic of the stereoscopic video segment according to a time domain characteristic of the video frame of the stereoscopic video segment, according to the spatial domain of the stereoscopic video segment Characteristic and time domain characteristics, calculating the viewing of the stereoscopic video segment Moderate.
  • the spatial domain feature of the video frame of the stereoscopic video segment includes one or any combination of the following parameters:
  • the reference disparity of the video frame, the percentage of the reference disparity and the first viewing comfort impact factor, the specific calculation methods of these parameters are the same as before, and will not be repeated here.
  • the processor 603 may calculate a weighted average value of reference disparities of all video frames in the stereoscopic video segment according to formula (11), and calculate first viewing comfort of all video frames in the stereoscopic video segment according to formula (12). The average of the influence factors.
  • the expressions of equations (11) and (12) and related parameters are as described above and will not be repeated here.
  • the time domain characteristic of the video frame of the stereoscopic video segment includes: video of the stereoscopic video segment
  • the second viewing comfort impact factor of the frame (the specific calculation method is the same as described above, and is not repeated here)
  • the processor 603 may calculate the second viewing comfort impact factor of the stereoscopic video segment according to the formula (13).
  • the meaning of the expression of the formula (13) and the related parameters are the same as described above and will not be repeated here.
  • the processor 603 may be based on the formula (14), the formula ( 15) and formula (16) calculate the viewing comfort of the stereoscopic video segment.
  • the expressions of the formula (14), the formula (15), and the formula (16) and the related parameters have the same meanings as described above and will not be repeated here.
  • the computer program instructions can also be stored in a computer readable memory that can direct a computer or other programmable data processing device to operate in a particular manner, such that the computer readable memory is stored in the computer readable memory.
  • the instructions in the production result include an article of manufacture of an instruction device that implements the functions specified in a block or blocks of a flow or a flow and/or a block diagram of the flowchart.
  • These computer program instructions can also be loaded onto a computer or other programmable data processing device such that a series of operational steps are performed on a computer or other programmable device to produce computer-implemented processing for execution on a computer or other programmable device.
  • the instructions provide steps for implementing the functions specified in one or more blocks of a flow or a flow and/or block diagram of the flowchart.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Studio Devices (AREA)
  • Image Analysis (AREA)

Abstract

一种立体视频舒适度评价方法及装置。该方法包括:获取立体视频段的视频帧;提取所述立体视频段的视频帧的空域特性和时域特性;根据所述立体视频段的视频帧的空域特性和时域特性,确定所述立体视频段的观看舒适度。采用本发明可实现对立体视频的舒适度进行评价。

Description

一种立体视频舒适度评价方法及装置
技术领域
本发明涉及通信领域的视频技术, 尤其涉及一种立体视频舒适度评价方 法及装置。
背景技术
立体视频通常有两个视频通道, 利用立体眼镜可使左右眼分别看到两幅 不同的画面, 使眼睛聚焦的点 (在屏幕上)与双眼视线汇聚点 (屏幕前或后) 不在一个平面上, 从而产生具有一定景深的 3D画面。 这种基于双眼视差原理 的 3D显示技术与人正常观看物体时,聚焦和汇聚在一个点上的生理状态是不 同的, 因此长时间会导致视觉疲劳。
立体视频的舒适性是影响立体视频发展的主要问题之一, 改善立体视频 观看舒适度的前提是评价立体视频的舒适度。 发明内容
本发明实施例提供了一种立体视频舒适度评价方法及装置, 用以实现对 立体视频的舒适度进行评价。
第一方面, 提供一种立体视频舒适度评价方法, 该方法包括:
获取立体视频段的视频帧;
提取所述立体视频段的视频帧的空域特性和时域特性;
根据所述立体视频段的视频帧的空域特性和时域特性, 确定所述立体视 频段的观看舒适度。
结合第一方面, 在第一种实现方式中, 所述提取所述立体视频段的视频 帧的空域特性和时域特性包括:
估计所述立体视频段的视频帧的视差; 根据所述立体视频段的视频帧的视差以及运动信息确定所述立体视频段 的视频帧的视觉焦点位置;
根据所述立体视频段的视频帧的视觉焦点位置确定所述立体视频段的视 频帧的可视区 i或;
根据所述立体视频段的视频帧的视差以及所述立体视频段的视频帧的可 视区域, 提取所述立体视频段的视频帧的空域特性和时域特性。
结合第一方面的第一种实现方式, 在第二种实现方式中, 所述根据所述 立体视频段的视频帧的视差以及运动信息确定所述立体视频段的视频帧的视 觉焦点位置, 包括:
确定所述立体视频段的视频帧内每个像素的权值, 将具有最大权值的像 素的位置确定为所述立体视频段的视频帧的视觉焦点位置。
结合第一方面的第二种实现方式, 在第三种实现方式中, 所述像素的权 值釆用如下公式计算:
W = I mv I +77* I dispcrossed I +1* I I
其中, W 为坐标为 (x,y ) 的像素的权值, γ , 和 /1为加权值; I mv l =^dx 2 + dy 2表示所述坐标为 ( x,y ) 的像素的平面运动矢量, d o dy分别 为所述坐标为 (x,y )的像素的水平位移和垂直位移, 所述 和 在所述坐标 为 (x,y ) 的像素所在视频帧及所述坐标为 (x,y ) 的像素所在的视频帧的相邻 视频帧内搜索得到; dispCTssed为交叉视差值; d为所述立体视频段的视频帧 及其相邻视频帧的匹配块的平均视差的差值。
结合第一方面的第二种或第三种实现方式, 在第四种实现方式中, 若所 述立体视频段的视频帧内具有最大权值的像素有多个, 则将所述多个具有最 大权值的像素中, 距离所述立体视频段的视频帧的图像中心位置最近的像素 的位置, 确定为所述立体视频段的视频帧的视觉焦点位置。
结合第一方面的第一种至第四种实现方式中的任意一种实现方式, 在第 五种实现方式中, 所述空域特性包括以下参数之一或任意组合: 参考视差、 参考视差的百分比和第一观看舒适度影响因子;
所述根据所述立体视频段的视频帧的视差以及所述立体视频段的视频帧 的可视区域, 提取所述立体视频段的视频帧的空域特性, 包括:
确定所述立体视频段的视频帧对应的视差集合, 所述视差集合为所述立 体视频段的视频帧可视区域内的像素视差集合, 且其中的每个视差值对应的 像素数量均大于所述设定阔值; 将所述视差集合中的最小视差值确定为所述 立体视频段的视频帧的参考视差;
计算所述立体视频段的视频帧的可视区域内, 视差为所述参考视差的像 素的数目与有效像素的数目的比值, 得到所述立体视频段的视频帧的参考视 差的百分比, 所述有效像素是指的视差绝对值小于搜索范围的像素;
根据所述立体视频段的视频帧是否存在边框效应以及是否满足下近上远 空间布局, 确定所述立体视频段的视频帧的第一观看舒适度影响因子, 所述 第一观看舒适度影响因子在所述立体视频段的视频帧不存在边框效应且满足 下近上远空间布局时取第一值, 在所述立体视频段的视频帧存在边框效应但 满足下近上远空间布局时取第二值, 在所述立体视频段的视频帧不存在边框 效应但不满足下近上远空间布局时取第三值, 在所述立体视频段的视频帧存 在边框效应且不满足下近上远空间布局时取第四值, 其中, 第一值、 第二值、 第三值和第四值为预设值, 且第一值小于第四值, 第三值在第一值和第二值 之间且与第一值和第二值均不相等; 所述边框效应是指对于一个视频帧, 如 果成像于屏幕边缘的物体的视差为交叉视差, 且所述物体的一部分超出了屏 幕范围, 则存在边框效应; 所述下近上远是指一个视频帧对应的成像于屏幕 底端的物体的感知深度离观众近、 成像于屏幕顶端的物体的感知深度离观众 远。
结合第一方面的第一种至第五种实现方式中的任意一种实现方式, 在第 六种实现方式中, 所述时域特性包括第二观看舒适度影响因子;
所述根据所述立体视频段的视频帧的视差以及所述立体视频段的视频帧 的可视区域, 提取所述立体视频段的视频帧的时域特性, 包括: 根据所述立体视频段的视频帧的参考视差在时域的变化, 和 /或所述所述 体视频段的视频帧的第二观看舒适度影响因子, 所述第二观看舒适度影响因 子数值的大小表示视频帧的参考视差在深度方向变化的程度。
结合第一方面的第六种实现方式, 在第七种实现方式中, 根据所述立体 视频段的视频帧的参考视差在时域的变化, 和 /或所述立体视频段的视频帧的 参考视差出现的频率在时域的变化, 计算得到所述立体视频段的视频帧的第 二观看舒适度影响因子, 包括:
将所述立体视频段进行子段划分, 同一子段内的视频帧的参考视差单调 变化且变化速度相同, 根据以下公式计算所述立体视频段的视频帧的参考视 差在时域的变化:
V = (displast -dispfirst)/ (Np -l) 域的变化:
V2' = (P (min Disp; ) - P (min Dis j.j )) / P (min Disp; )
根据以下公式计算所述立体视频段的视频帧的第二观看舒适度影响因 子:
Figure imgf000005_0001
其中, V表示第 i帧的参考视差在时域的变化, dispfcst和 displast分别为 第 i帧所属子段的第一帧和最后一帧的参考视差, Np为第 i帧所属子段的视 频帧数量; W表示第 i帧的参考视差出现的频率在时域的变化, P(min DisPl) 和?(111111 018 1_1)分别为第 i帧和第 i-1帧的参考视差的百分比; 为第 i帧的 第二观看舒适度影响因子, 和/为加权值; 所述第 i帧为所述立体视频段中 的任意视频帧。
结合第一方面的第六种实现方式, 在第八种实现方式中, 根据所述立体 视频段的视频帧的参考视差在时域的变化, 和 /或所述立体视频段的视频帧的 参考视差出现的频率在时域的变化, 计算得到所述立体视频段的视频帧的第 二观看舒适度影响因子, 包括:
根据以下公式计算 J
V = min DisPi - min Dis ;^
根据以下公式计算 J
域的变化:
V2' = (P (min Disp; ) - P (min Dis j.j )) / P (min Disp; )
根据以下公式计算所述立体视频段的视频帧的第二观看舒适度影响因 子:
Figure imgf000006_0001
其中, V表示第 i帧的参考视差在时域的变化, min DisA和 min Disp^分 别为第 i帧和第 i-1帧的参考视差; 表示第 i帧的参考视差出现的频率在时 域的变化, ?(1^11 018 1)和?(111111 018^1)分别为第 i帧和第 i-1帧的参考视差 的百分比; 为第 i帧的第二观看舒适度影响因子, 和/为加权值; 所述第 i帧为所述立体视频段中的任意视频帧。
结合第一方面或者第一方面的第一种至第八种实现方式中的任意一种实 现方式, 在第九种实现方式中, 所述根据所述立体视频段的视频帧的空域特 性和时域特性, 确定所述立体视频段的观看舒适度, 包括:
根据所述立体视频段的每一个视频帧的空域特性和时域特性, 分别计算 所述每一个视频帧的观看舒适度;
根据所述立体视频段的每一个视频帧的视觉焦点位置, 对所述立体视频 段进行子段划分, 每个子段的视频帧的视觉焦点位置转移量不大于设定转移 量阔值; 根据每个子段内每个视频帧的观看舒适度, 分别计算所述每个子段 的观看舒适度; 根据每个子段的观看舒适度计算所述立体视频段的观看舒适度。
结合第一方面的第九种实现方式, 在第十种实现方式中, 根据以下公式 计算所述立体视频段的视频帧的观看舒适度:
QP Spatial _ frame _ VC; + ?*Temperal _ frame _ VC;
Spatial _ frame _vct =
1 + cl * dispdistributio * exp (- 1 min DisPl I *bl * eP(minDisp' ) ) Temperal _ frame _ vc; = 1 + cl * exp (― I Vd' I *b2)
其中, (¾为第 i帧的观看舒适度, Spatial- frame -vct为第 i帧的空域特 性决定的第 i帧的观看舒适度, Tenperal _ frame _vct为第 i帧的时域特性决 定的第 i帧的观看舒适度, a和 ?为加权值; dispd^bu^1为第 i帧的第一观看 舒适度影响因子, minDispi为第 i帧的参考视差, P(minDisPi)为第 i帧的参考 视差的百分比; 为第 i帧的第二观看舒适度影响因子; bl、 b2和 cl为模型 参数, 所述 bl、 b2和 cl为设定值; 所述第 i帧为所述立体视频段中的任意视 频帧; 视频段的视频帧对应的视差集合, 所述视差集合为所述立体视频段的视频帧 可视区域内的像素视差集合, 且其中的每个视差值对应的像素数量均大于所 述设定阔值; 将所述视差集合中的最小视差值确定为所述立体视频段的视频 帧的参考视差;
所述立体视频段的视频帧的参考视差的百分比为: 所述立体视频段的视 频帧的可视区域内, 视差为所述立体视频段的视频帧参考视差的像素数目与 有效像素数目的比值;
所述立体视频段的视频帧的第一观看舒适度影响因子根据所述立体视频 段的视频帧是否存在边框效应以及是否满足下近上远空间布局来确定; 所述 边框效应是指对于一个视频帧, 如果成像于屏幕边缘的物体的视差为交叉视 差, 且所述物体的一部分超出了屏幕范围, 则存在边框效应; 所述下近上远 是指一个视频帧对应的成像于屏幕底端的物体的感知深度离观众近、 成像于 屏幕顶端的物体的感知深度离观众远;
所述立体视频段的视频帧的第二观看舒适度影响因子根据所述立体视频 段的视频帧的参考视差在时域的变化, 和 /或所述立体视频段的视频帧的参考 视差出现的频率在时域的变化来确定, 所述第二观看舒适度影响因子数值的 大小表示视频帧的参考视差在深度方向变化的程度。
结合第一方面的第九种或第十种实现方式, 在第十一种实现方式中, 根 据以下公式计算所述立体视频段的子段的观看舒适度:
Figure imgf000008_0001
其中, Qs k为第 k个子段的舒适程度, (¾为所述第 k个子段内的第 i帧的 观看舒适度, NF为所述第 k个子段内视频帧的数目, 和 c2为设定数值, 所述第 k个子段为所述立体视频段中的任意一个子段。
结合第一方面的第九种至第十一种实现方式中的任意一种实现方式, 在 第十二种实现方式中, 根据以下公式计算所述立体视频段的观看舒适度:
Figure imgf000008_0002
其中, Q为所述立体视频段的观看舒适度, Qs k为所述立体视频段内第 k 个子段的舒适程度, Ns为所述立体视频段内子段的数目, P o c2为设定值。
结合第一方面或者第一方面的第一种至第八种实现方式中的任意一种实 现方式, 在第十三种实现方式中, 所述根据所述立体视频段的视频帧的空域 特性和时域特性, 确定所述立体视频段的观看舒适度, 包括:
根据所述立体视频段的视频帧的空域特性, 计算所述立体视频段的空域 特性;
根据所述立体视频段的视频帧的时域特性, 计算所述立体视频段的时域 特性;
根据所述立体视频段的空域特性和时域特性, 计算所述立体视频段的观 看舒适度。
结合第一方面的第十三种实现方式, 在第十四种实现方式中, 所述立体 视频段的视频帧的空域特性包括以下参数之一或任意组合: 所述立体视频段 的视频帧的参考视差, 参考视差的百分比和第一观看舒适度影响因子;
所述立体视频段的视频帧的空域特性通过如下方式获得:
将所述立体视频段的视频帧的可视区域内, 满足以下条件的像素的视差 值确定为所述立体视频段的视频帧的参考视差: 所述立体视频段的视频帧的 可视区域内所述参考视差对应的像素的数量大于设定像素数量阔值, 且所述 参考视差为视差集合中的最小视差值; 所述视差集合为所述立体视频段的视 频帧可视区域内的像素视差集合, 且其中的每个视差值对应的像素数量均大 于所述设定阔值;
所述立体视频段的视频帧的参考视差的百分比, 所述立体视频段的视频 帧的参考视差的百分比为: 所述立体视频段的视频帧的可视区域内, 视差为 所述立体视频段的视频帧的参考视差的像素数目与有效像素数目的比值; 所述立体视频段的视频帧的第一观看舒适度影响因子, 所述立体视频段 的视频帧的第一观看舒适度影响因子根据所述立体视频段的视频帧是否存在 边框效应以及是否满足下近上远空间布局来确定; 所述边框效应是指对于一 个视频帧, 如果成像于屏幕边缘的物体的视差为交叉视差, 且所述物体的一 部分超出了屏幕范围, 则存在边框效应; 所述下近上远是指一个视频帧对应 的成像于屏幕底端的物体的感知深度离观众近、 成像于屏幕顶端的物体的感 知深度离观众远;
所述根据所述立体视频段的视频帧的空域特性, 计算所述立体视频段的 空域特性, 包括:
根据以下公式计算所述立体视频段中所有视频帧的参考视差的加权平均 值: minDispj * P (minDispj )
minDisp =―
P (minDispj ) 其中, min Dip为所述立体视频段中所有视频帧的参考视差的加权平均 值, N为所述立体视频段中视频帧的数目, minDisPi为第 i帧的参考视差, P(min DisPi )为第 i帧的参考视差的百分比, 所述第 i帧为所述立体视频段中 的任意视频帧;
根据以下公式计算所述立体视频段内所有视频帧的第一观看舒适度影响 因子的平均值:
Figure imgf000010_0001
其中, dispdisttibutin为所述立体视频段内所有视频帧的第一观看舒适度影 响因子的平均值, dispd^butj为第 i帧的第一观看舒适度影响因子, N为所述 立体视频段中视频帧的数目, 所述第 i帧为所述立体视频段中的任意视频帧。
结合第一方面的第十三种或十四种实现方式, 在第十五种实现方式中, 所述立体视频段的视频帧的时域特性包括:
所述立体视频段的视频帧的第二观看舒适度影响因子, 所述立体视频段 的视频帧的第二观看舒适度影响因子根据所述立体视频段的视频帧的参考视 差在时域的变化, 和 /或所述立体视频段的视频帧的参考视差出现的频率在时 域的变化来确定, 所述第二观看舒适度影响因子数值的大小表示视频帧的参 考视差在深度方向变化的程度;
所述根据所述立体视频段的视频帧的时域特性, 计算所述立体视频段的 时域特性, 包括:
根据以下公式计算所述立体视频段的第二观看舒适度影响因子: 其中, vd 为所述立体视频段的第二观看舒适度影响因子, Vd1为所述立体 视频段内第 i帧的第二观看舒适度印象因子, s为设定值, 的取值根据 V和 min DisR的符号来确定, N为所述立体视频段中视频帧的数目, 所述第 i帧 为所述立体视频段中的任意视频帧。
结合第一方面的第十三种至第十五种实现方式中的任意一种实现方式, 在第十六种实现方式中, 所述立体视频段的观看舒适度釆用如下公式计算:
VC = * Spatial _ vc + ^ * Temper al _ vc
Spatial— vc = 1 + c3 * dispdistribution * ex (- 1 minDisp I *bl) Temperal _ vc = 1 + c3 * exp (- IVd I)
其中, VC为所述立体视频段的观看舒适度, 和 ?为加权值; bl、 c3为 设定值; Spatial— frame— vc为空域特性决定的所述立体视频段的观看舒适度, Temperal _ frame _vc为时域特性决定的所述立体视频段的观看舒适度; dlSPd!s bution为所述立体视频段内所有视频帧的第一观看舒适度印象因子的平
为所述立体视频段的第二观看舒适度影响因子。
第二方面, 提供一种立体视频舒适度评价装置, 该装置包括:
获取模块, 用于获取立体视频段的视频帧;
提取模块, 用于提取所述获取模块获取到的立体视频段的视频帧的空域 特性和时域特性;
评价模块, 用于根据所述提取模块提取到的所述立体视频段的视频帧的 空域特性和时域特性, 确定所述立体视频段的观看舒适度。
结合第二方面, 在第一种实现方式中, 所述提取模块具体用于, 估计所 述立体视频段的视频帧的视差;
根据所述立体视频段的视频帧的视差以及运动信息确定所述立体视频段 的视频帧的视觉焦点位置; 根据所述立体视频段的视频帧的视觉焦点位置确定所述立体视频段的视 频帧的可视区 i或;
根据所述立体视频段的视频帧的视差以及所述立体视频段的视频帧的可 视区域, 提取所述立体视频段的视频帧的空域特性和时域特性。
结合第二方面的第一种实现方式, 在第二种实现方式中, 所述提取模块 具体用于, 确定所述立体视频段的视频帧内每个像素的权值, 将具有最大权 值的像素的位置确定为所述立体视频段的视频帧的视觉焦点位置。
结合第二方面的第二种实现方式, 在第三种实现方式中, 所述提取模块 釆用如下公式计算所述像素的权值:
W = I mv I +77* I dispcrossed I +1* I I
其中, W 为坐标为 ( x,y ) 的像素的权值, y、 ;7和 /1为加权值; I mv l ( x,y )
Figure imgf000012_0001
的像素的平面运动矢量, d o dy分别 为所述坐标为 (x,y )像素的水平位移和垂直位移, 所述 和 在所述坐标为 ( x,y )的像素所在视频帧及所述坐标为 (x,y )的像素所在的视频帧的相邻视 频帧内搜索得到; dispCTssed为交叉视差值; d为所述立体视频段的视频帧及 其相邻视频帧的匹配块的平均视差的差值。
结合第二方面的第二种或第三种实现方式, 在第四种实现方式中, 所述 提取模块具体用于, 若所述立体视频段的视频帧内具有最大权值的像素有多 个, 则将所述多个具有最大权值的像素中, 距离所述立体视频段的视频帧的 图像中心位置最近的像素的位置, 确定为所述立体视频段的视频帧的视觉焦 点位置。
结合第二方面的第一种至第四种实现方式中的任意一种实现方式, 在第 五种实现方式中, 所述空域特性包括以下参数之一或任意组合: 参考视差、 参考视差的百分比、 第一观看舒适度影响因子;
所述提取模块具体用于, 确定所述立体视频段的视频帧对应的视差集合, 所述视差集合为所述立体视频段的视频帧可视区域内的像素视差集合, 且其 中的每个视差值对应的像素数量均大于所述设定阔值; 将所述视差集合中的 最小视差值确定为所述立体视频段的视频帧的参考视差;
计算所述立体视频段的视频帧的可视区域内, 视差为所述参考视差的像 素的数目与有效像素的数目的比值, 得到所述立体视频段的视频帧的参考视 差的百分比, 所述有效像素是指的视差绝对值小于搜索范围的像素;
根据所述立体视频段的视频帧是否存在边框效应以及是否满足下近上远 空间布局, 确定所述立体视频段的视频帧的第一观看舒适度影响因子, 所述 第一观看舒适度影响因子在所述立体视频段的视频帧不存在边框效应且满足 下近上远空间布局时取第一值, 在所述立体视频段的视频帧存在边框效应但 满足下近上远空间布局时取第二值, 在所述立体视频段的视频帧不存在边框 效应但不满足下近上远空间布局时取第三值, 在所述立体视频段的视频帧存 在边框效应且不满足下近上远空间布局时取第四值, 其中, 第一值、 第二值、 第三值和第四值为预设值, 且第一值小于第四值, 第三值在第一值和第二值 之间且与第一值和第二值均不相等; 所述边框效应是指对于一个视频帧, 如 果成像于屏幕边缘的物体的视差为交叉视差, 且所述物体的一部分超出了屏 幕范围, 则存在边框效应; 所述下近上远是指一个视频帧对应的成像于屏幕 底端的物体的感知深度离观众近、 成像于屏幕顶端的物体的感知深度离观众 远。
结合第二方面的第一种至第五种实现方式中的任意一种实现方式, 在第 六种实现方式中, 所述时域特性包括第二观看舒适度影响因子;
所述提取模块具体用于, 根据所述立体视频段的视频帧的参考视差在时 化, 计算得到所述立体视频段的视频帧的第二观看舒适度影响因子, 所述第 二观看舒适度影响因子数值的大小表示视频帧的参考视差在深度方向变化的 程度。
结合第二方面的第六种实现方式, 在第七种实现方式中, 所述提取模块 具体用于, 将所述立体视频段进行子段划分, 同一子段内的视频帧的参考视 差单调变化且变化速度相同, 根据以下公式计算所述立体视频段的视频帧的 参考视差在时域的变化:
V = (displast -dispfirst)/ (Np -l) 域的变化:
V2' = (P (min Disp; ) - P (min Dis j.j )) / P (min Disp; )
根据以下公式计算所述立体视频段的视频帧的第二观看舒适度影响因 子:
Figure imgf000014_0001
其中, V表示第 i帧的参考视差在时域的变化, dispfcst和 displast分别为 第 i帧所属子段的第一帧和最后一帧的参考视差, Np为第 i帧所属子段的视 频帧数量; W表示第 i帧的参考视差出现的频率在时域的变化, P(min DisPi) 和?(111111 018 _1)分别为第 i帧和第 i-1帧的参考视差的百分比; 为第 i帧的 第二观看舒适度影响因子, 和/为加权值; 所述第 i帧为所述立体视频段中 的任意视频帧。
结合第二方面的第六种实现方式, 在第八种实现方式中, 所述提取模块 具体用于, 根据以下公式计算所述立体视频段的视频帧的参考视差在时域的 变化:
V = min DisPi - min Dis ;^ 域的变化:
V2' = (P (min Disp; ) - P (min Dis j.j )) / P (min Disp; )
根据以下公式计算所述立体视频段的视频帧的第二观看舒适度影响因 子: 其中, V表示第 i帧的参考视差在时域的变化, min DisA和 min Disp^分 别为第 i帧和第 i-1帧的参考视差; 1表示第 i帧的参考视差出现的频率在时 域的变化, ?(1^11 018 )和?(111111 018^1)分别为第 i帧和第 i-1帧的参考视差 的百分比; 为第 i帧的第二观看舒适度影响因子, 和/为加权值, 所述第 i帧为所述立体视频段中的任意视频帧。
结合第二方面或者第二方面的第一种至第八种实现方式中的任意一种实 现方式, 在第九种实现方式中, 所述评价模块具体用于:
根据所述立体视频段的每一个视频帧的空域特性和时域特性, 分别计算 所述每一个视频帧的观看舒适度;
根据所述立体视频段的每一个视频帧的视觉焦点位置, 对所述立体视频 段进行子段划分, 每个子段的视频帧的视觉焦点位置转移量不大于设定转移 量阔值; 根据每个子段内每个视频帧的观看舒适度, 分别计算所述每个子段 的观看舒适度;
根据每个子段的观看舒适度计算所述立体视频段的观看舒适度。
结合第二方面的第九种实现方式, 在第十种实现方式中, 所述评价模块 具体用于, 根据以下公式计算所述立体视频段的视频帧的观看舒适度:
QP Spatial _ frame _ VC; + ?*Temperal _ frame _ VC;
Spatial _ frame _vct =
1 + cl * dispdistribution1 * exp (- 1 min Disp, I *bl * eP(nunDlsPl ) ) Temperal _ frame _ vc; = 1 + cl * exp (― I Vd' I *b2)
其中, 为第 i帧的观看舒适度, Spatial- frame -vct为第 i帧的空域特 性决定的第 i帧的观看舒适度, Tenperal _ frame _vct为第 i帧的时域特性决 定的第 i帧的观看舒适度, a和 ?为加权值; dispd^bu^1为第 i帧的第一观看 舒适度影响因子, minDispi为第 i帧的参考视差, P(minDisPi)为第 i帧的参考 视差的百分比; 为第 i帧的第二观看舒适度影响因子; bl、 b2和 cl为模型 参数, 所述 bl、 b2和 cl为设定值, 所述第 i帧为所述立体视频段中的任意视 频帧; 视频段的视频帧对应的视差集合, 所述视差集合为所述立体视频段的视频帧 可视区域内的像素视差集合, 且其中的每个视差值对应的像素数量均大于所 述设定阔值; 将所述视差集合中的最小视差值确定为所述立体视频段的视频 帧的参考视差;
所述立体视频段的视频帧的参考视差的百分比为: 所述立体视频段的视 频帧的可视区域内, 视差为所述立体视频段的视频帧参考视差的像素数目与 有效像素数目的比值;
所述立体视频段的视频帧的第一观看舒适度影响因子根据所述立体视频 段的视频帧是否存在边框效应以及是否满足下近上远空间布局来确定; 所述 边框效应是指对于一个视频帧, 如果成像于屏幕边缘的物体的视差为交叉视 差, 且所述物体的一部分超出了屏幕范围, 则存在边框效应; 所述下近上远 是指一个视频帧对应的成像于屏幕底端的物体的感知深度离观众近、 成像于 屏幕顶端的物体的感知深度离观众远;
所述立体视频段的视频帧的第二观看舒适度影响因子根据所述立体视频 段的视频帧的参考视差在时域的变化, 和 /或所述立体视频段的视频帧的参考 视差出现的频率在时域的变化来确定, 所述第二观看舒适度影响因子数值的 大小表示视频帧的参考视差在深度方向变化的程度。
结合第二方面的第九种或第十种实现方式, 在第十一种实现方式中, 所 述评价模块具体用于, 根据以下公式计算所立体视频段的的观看舒适度:
Figure imgf000016_0001
其中, Qs k为第 k个子段的舒适程度, (¾为所述第 k个子段内的第 i帧的 观看舒适度, NF为所述第 k个子段内视频帧的数目, 和 c2为设定数值, 所述第 k个子段为所述立体视频段中的任意一个子段。
结合第二方面的第九种至第十一种实现方式中的任意一种实现方式, 在 第十二种实现方式中, 所述评价模块具体用于, 根据以下公式计算所述立体 视频段的观看舒适度:
Figure imgf000017_0001
其中, Q为所述立体视频段的观看舒适度, Qs k为所述立体视频段内第 k 个子段的舒适程度, Ns为所述立体视频段内子段的数目, P o c2为设定值。
结合第二方面或者第二方面的第一种至第十二种实现方式中的任意一种 实现方式, 在第十三种实现方式中, 所述评价模块具体用于: 根据所述立体 视频段的视频帧的空域特性, 计算所述立体视频段的空域特性;
根据所述立体视频段的视频帧的时域特性, 计算所述立体视频段的时域 特性;
根据所述立体视频段的空域特性和时域特性, 计算所述立体视频段的观 看舒适度。
结合第二方面的第十三种实现方式, 在第十四种实现方式中, 所述立体 视频段的视频帧的空域特性包括以下参数之一或任意组合: 所述立体视频段 的视频帧的参考视差, 参考视差的百分比和第一观看舒适度影响因子;
所述立体视频段的视频帧的空域特性通过如下方式获得:
将所述立体视频段的视频帧的可视区域内, 满足以下条件的像素的视差 值确定为所述立体视频段的视频帧的参考视差: 所述立体视频段的视频帧的 可视区域内所述参考视差对应的像素的数量大于设定像素数量阔值, 且所述 参考视差为视差集合中的最小视差值; 所述视差集合为所述立体视频段的视 频帧可视区域内的像素视差集合, 且其中的每个视差值对应的像素数量均大 于所述设定阔值; 所述立体视频段的视频帧的参考视差的百分比, 所述立体视频段的视频 帧的参考视差的百分比为: 所述立体视频段的视频帧的可视区域内, 视差为 所述立体视频段的视频帧的参考视差的像素数目与有效像素数目的比值; 所述立体视频段的视频帧的第一观看舒适度影响因子, 所述立体视频段 的视频帧的第一观看舒适度影响因子根据所述立体视频段的视频帧是否存在 边框效应以及是否满足下近上远空间布局来确定; 所述边框效应是指对于一 个视频帧, 如果成像于屏幕边缘的物体的视差为交叉视差, 且所述物体的一 部分超出了屏幕范围, 则存在边框效应; 所述下近上远是指一个视频帧对应 的成像于屏幕底端的物体的感知深度离观众近、 成像于屏幕顶端的物体的感 知深度离观众远;
所述评价模块具体用于, 根据以下公式计算所述立体视频段中所有视频 帧的参考视差的加权平均值:
N
minDispj * P (minDispj )
minDisp =―
P (minDispj )
i=l
值, N为所述立体视频段中视频帧的数目, minDisPi为第 i帧的参考视差, P(min DisPi )为第 i帧的参考视差的百分比, 所述第 i帧为所述立体视频段中 的任意视频帧;
根据以下公式计算所述立体视频段内所有视频帧的第一观看舒适度影响 因子的平均值:
Figure imgf000018_0001
其中, dispdlsttlbutln为所述立体视频段内所有视频帧的第一观看舒适度影 响因子的平均值, dispd^butj为第 i帧的第一观看舒适度影响因子, N为所述 立体视频段中视频帧的数目, 所述第 i帧为所述立体视频段中的任意视频帧。 结合第二方面的第十三种或第十四种实现方式, 在第十五种实现方式中, 所述立体视频段的视频帧的时域特性包括:
所述立体视频段的视频帧的第二观看舒适度影响因子, 所述立体视频段 的视频帧的第二观看舒适度影响因子根据所述立体视频段的视频帧的参考视 差在时域的变化, 和 /或所述立体视频段的视频帧的参考视差出现的频率在时 域的变化来确定, 所述第二观看舒适度影响因子数值的大小表示视频帧的参 考视差在深度方向变化的程度;
所述评价模块具体用于, 根据以下公式计算所述立体视频段的第二观看 舒适度影响因子:
^ =— Υΐν,Ί *^
N 其中, Vd 为所述立体视频段的第二观看舒适度影响因子, 为所述立体 视频段内第 i帧的第二观看舒适度影响因子, 为设定值, 的取值根据 V和 min DisR的符号来确定, N为所述立体视频段中视频帧的数目, 所述第 i帧 为所述立体视频段中的任意视频帧。
结合第二方面的第十三种至第十五种实现方式中的任意一种实现方式, 在第十六种实现方式中, 所述评价模块具体用于, 根据以下公式计算所述立 体视频段的观看舒适度:
VC = * Spatial _vc + ^ * Temper al _ vc
Spatial— vc = 1 + c3 * dispdistribution * ex (- 1 minDisp I *bl) Temperal _ vc = 1 + c3 * exp (- IVd I) 其中, VC为所述立体视频段的观看舒适度, 和 ?为加权值; bl、 c3为 设定值; Spatial— frame— vc为空域特性决定的所述立体视频段的观看舒适度, Temperal _ frame _vc为时域特性决定的所述立体视频段的观看舒适度; 为所述立体视频段内所有视频帧的第一观看舒适度影响因子的平 均值, min Dip为所述立体视频段中所有视频帧的参考视差的加权平均值, Vd 为所述立体视频段的第二观看舒适度影响因子。
第三方面, 提供一种立体视频舒适度评价装置, 该装置包括:
收发器, 用于获取立体视频段的视频帧;
处理器, 用于提取所述获取模块获取到的立体视频段的视频帧的空域特 性和时域特性; 并根据所述提取模块提取到的所述立体视频段的视频帧的空 域特性和时域特性, 确定所述立体视频段的观看舒适度。
结合第三方面, 在第一种实现方式中, 所述处理器具体用于, 估计所述 立体视频段的视频帧的视差;
根据所述立体视频段的视频帧的视差以及运动信息确定所述立体视频段 的视频帧的视觉焦点位置;
根据所述立体视频段的视频帧的视觉焦点位置确定所述立体视频段的视 频帧的可视区 i或;
根据所述立体视频段的视频帧的视差以及所述立体视频段的视频帧的可 视区域, 提取所述立体视频段的视频帧的空域特性和时域特性。
结合第三方面的第一种实现方式, 在第二种实现方式中, 所述处理器具 体用于, 确定所述立体视频段的视频帧内每个像素的权值, 将具有最大权值 的像素的位置确定为所述立体视频段的视频帧的视觉焦点位置。
结合第三方面的第二种实现方式, 在第三种实现方式中, 所述处理器釆 用如下公式计算所述像素的权值:
W = 7* l mv l +77* l dispcrossed I +Λ* I d I
其中, W 为坐标为 (x,y ) 的像素的权值, γ , 和 /1为加权值; I mv l =^dx 2 + dy 2表示所述坐标为 ( x,y ) 的像素的平面运动矢量, d o d y分别 为所述坐标为 (x,y )像素的水平位移和垂直位移, 所述 和 在所述坐标为 ( x,y )的像素所在视频帧及所述坐标为 (x,y )的像素所在的视频帧的相邻视 频帧内搜索得到; dispCTssed为交叉视差值; d为所述立体视频段的视频帧及 其相邻视频帧的匹配块的平均视差的差值。
结合第三方面的第二种或第三种实现方式, 在第四种实现方式中, 所述 处理器具体用于, 若所述立体视频段的视频帧内具有最大权值的像素有多个, 则将所述多个具有最大权值的像素中, 距离所述立体视频段的视频帧的图像 中心位置最近的像素的位置, 确定为所述立体视频段的视频帧的视觉焦点位 置。
结合第三方面的第一种至第四种实现方式中的任意一种实现方式, 在第 五种实现方式中, 所述空域特性包括以下参数之一或任意组合: 参考视差、 参考视差的百分比、 第一观看舒适度影响因子;
所述处理器具体用于, 确定所述立体视频段的视频帧对应的视差集合, 所述视差集合为所述立体视频段的视频帧可视区域内的像素视差集合, 且其 中的每个视差值对应的像素数量均大于所述设定阔值; 将所述视差集合中的 最小视差值确定为所述立体视频段的视频帧的参考视差;
计算所述立体视频段的视频帧的可视区域内, 视差为所述参考视差的像 素的数目与有效像素的数目的比值, 得到所述立体视频段的视频帧的参考视 差的百分比, 所述有效像素是指的视差绝对值小于搜索范围的像素;
根据所述立体视频段的视频帧是否存在边框效应以及是否满足下近上远 空间布局, 确定所述立体视频段的视频帧的第一观看舒适度影响因子, 所述 第一观看舒适度影响因子在所述立体视频段的视频帧不存在边框效应且满足 下近上远空间布局时取第一值, 在所述立体视频段的视频帧存在边框效应但 满足下近上远空间布局时取第二值, 在所述立体视频段的视频帧不存在边框 效应但不满足下近上远空间布局时取第三值, 在所述立体视频段的视频帧存 在边框效应且不满足下近上远空间布局时取第四值, 其中, 第一值、 第二值、 第三值和第四值为预设值, 且第一值小于第四值, 第三值在第一值和第二值 之间且与第一值和第二值均不相等; 所述边框效应是指对于一个视频帧, 如 果成像于屏幕边缘的物体的视差为交叉视差, 且所述物体的一部分超出了屏 幕范围, 则存在边框效应; 所述下近上远是指一个视频帧对应的成像于屏幕 底端的物体的感知深度离观众近、 成像于屏幕顶端的物体的感知深度离观众 远。
结合第三方面的第一种至第五种实现方式中的任意一种实现方式, 在第 六种实现方式中, 所述时域特性包括第二观看舒适度影响因子;
所述处理器具体用于, 根据所述立体视频段的视频帧的参考视差在时域 计算得到所述立体视频段的视频帧的第二观看舒适度影响因子, 所述第二观 看舒适度影响因子数值的大小表示视频帧的参考视差在深度方向变化的程 度。
结合第三方面的第六种实现方式, 在第七种实现方式中, 所述处理器具 体用于, 将所述立体视频段进行子段划分, 同一子段内的视频帧的参考视差 单调变化且变化速度相同, 根据以下公式计算所述立体视频段的视频帧的参 考视差在时域的变化:
= (displast -dispfirst)/ (Np -l) 域的变化:
V2' = (P (min Disp; ) - P (min Dis j.j )) / P (min Disp; )
根据以下公式计算所述立体视频段的视频帧的第二观看舒适度影响因 子:
Figure imgf000022_0001
其中, V表示第 i帧的参考视差在时域的变化, dispfcst和 displast分别为 第 i帧所属子段的第一帧和最后一帧的参考视差, Np为第 i帧所属子段的视 频帧数量; V2'表示第 i帧的参考视差出现的频率在时域的变化, P(min DisPl) 和?(!^11 018 _1)分别为第 i帧和第 i-1帧的参考视差的百分比; 为第 i帧的 第二观看舒适度影响因子, /和/为加权值; 所述第 i帧为所述立体视频段中 的任意视频帧。
结合第三方面的第六种实现方式, 在第八种实现方式中, 所述处理器具 体用于, 根据以下公式计算所述立体视频段的视频帧'
化:
V = min DisPi - min Dis ;^
根据以下公式计算 J
域的变化:
V2' = (P (min Disp; ) - P (min Dis ;^ )) / P (min Disp; )
根据以下公式计算所述立体视频段的视频帧的第二观看舒适度影响因 子:
Figure imgf000023_0001
其中, V表示第 i帧的参考视差在时域的变化, min DisA和 min Disp^分 别为第 i帧和第 i-1帧的参考视差; 表示第 i帧的参考视差出现的频率在时 域的变化, ?(1^11 018 1)和?(111111 018^1)分别为第 i帧和第 i-1帧的参考视差 的百分比; 为第 i帧的第二观看舒适度影响因子, 和/为加权值, 所述第 i帧为所述立体视频段中的任意视频帧。
结合第三方面或者第二方面的第一种至第八种实现方式中的任意一种实 现方式, 在第九种实现方式中, 所述处理器具体用于:
根据所述立体视频段的每一个视频帧的空域特性和时域特性, 分别计算 所述每一个视频帧的观看舒适度;
根据所述立体视频段的每一个视频帧的视觉焦点位置, 对所述立体视频 段进行子段划分, 每个子段的视频帧的视觉焦点位置转移量不大于设定转移 量阔值; 根据每个子段内每个视频帧的观看舒适度, 分别计算所述每个子段 的观看舒适度;
根据每个子段的观看舒适度计算所述立体视频段的观看舒适度。
结合第三方面的第九种实现方式, 在第十种实现方式中, 所述处理器具 体用于, 根据以下公式计算所述立体视频段的视频帧的观看舒适度:
QP Spatial _ frame _ VC; + ?*Temperal _ frame _ VC;
Spatial _ frame— =
1 + cl * dispdistributio * exp (- 1 min DisPl I *bl * eP(minDisPl)) Temperal _ frame _ vc; = 1 + cl * exp (― I Vd' I *b2)
其中, (¾为第 i帧的观看舒适度, Spatial- frame -vct为第 i帧的空域特 性决定的第 i帧的观看舒适度, Tenperal _ frame _vct为第 i帧的时域特性决 定的第 i帧的观看舒适度, a和 ?为加权值; dispd^bu^1为第 i帧的第一观看 舒适度影响因子, minDispi为第 i帧的参考视差, P(minDisPi)为第 i帧的参考 视差的百分比; 为第 i帧的第二观看舒适度影响因子; bl、 b2和 cl为模型 参数, 所述 bl、 b2和 cl为设定值, 所述第 i帧为所述立体视频段中的任意视 频帧; 视频段的视频帧对应的视差集合, 所述视差集合为所述立体视频段的视频帧 可视区域内的像素视差集合, 且其中的每个视差值对应的像素数量均大于所 述设定阔值; 将所述视差集合中的最小视差值确定为所述立体视频段的视频 帧的参考视差;
所述立体视频段的视频帧的参考视差的百分比为: 所述立体视频段的视 频帧的可视区域内, 视差为所述立体视频段的视频帧参考视差的像素数目与 有效像素数目的比值;
所述立体视频段的视频帧的第一观看舒适度影响因子根据所述立体视频 段的视频帧是否存在边框效应以及是否满足下近上远空间布局来确定; 所述 边框效应是指对于一个视频帧, 如果成像于屏幕边缘的物体的视差为交叉视 差, 且所述物体的一部分超出了屏幕范围, 则存在边框效应; 所述下近上远 是指一个视频帧对应的成像于屏幕底端的物体的感知深度离观众近、 成像于 屏幕顶端的物体的感知深度离观众远;
所述立体视频段的视频帧的第二观看舒适度影响因子根据所述立体视频 段的视频帧的参考视差在时域的变化, 和 /或所述立体视频段的视频帧的参考 视差出现的频率在时域的变化来确定, 所述第二观看舒适度影响因子数值的 大小表示视频帧的参考视差在深度方向变化的程度。
结合第三方面的第九种或第十种实现方式, 在第十一种实现方式中, 所 述处理器具体用于, 根据以下公式计算所立体视频段的的观看舒适度:
Figure imgf000025_0001
其中, Qs k为第 k个子段的舒适程度, (¾为所述第 k个子段内的第 i帧的 观看舒适度, NF为所述第 k个子段内视频帧的数目, 和 c2为设定数值, 所述第 k个子段为所述立体视频段中的任意一个子段。
结合第三方面的第九种至第十一种实现方式中的任意一种实现方式, 在 第十二种实现方式中, 所述处理器具体用于, 根据以下公式计算所述立体视 频段的观看舒适度:
Figure imgf000025_0002
其中, Q为所述立体视频段的观看舒适度, Qs k为所述立体视频段内第 k 个子段的舒适程度, Ns为所述立体视频段内子段的数目, P o c2为设定值。
结合第三方面或者第二方面的第一种至第十二种实现方式中的任意一种 实现方式, 在第十三种实现方式中, 所述处理器具体用于: 根据所述立体视 频段的视频帧的空域特性, 计算所述立体视频段的空域特性;
根据所述立体视频段的视频帧的时域特性, 计算所述立体视频段的时域 特性;
根据所述立体视频段的空域特性和时域特性, 计算所述立体视频段的观 看舒适度。
结合第三方面的第十三种实现方式, 在第十四种实现方式中, 所述立体 视频段的视频帧的空域特性包括以下参数之一或任意组合: 所述立体视频段 的视频帧的参考视差, 参考视差的百分比和第一观看舒适度影响因子;
所述立体视频段的视频帧的空域特性通过如下方式获得:
将所述立体视频段的视频帧的可视区域内, 满足以下条件的像素的视差 值确定为所述立体视频段的视频帧的参考视差: 所述立体视频段的视频帧的 可视区域内所述参考视差对应的像素的数量大于设定像素数量阔值, 且所述 参考视差为视差集合中的最小视差值; 所述视差集合为所述立体视频段的视 频帧可视区域内的像素视差集合, 且其中的每个视差值对应的像素数量均大 于所述设定阔值;
所述立体视频段的视频帧的参考视差的百分比, 所述立体视频段的视频 帧的参考视差的百分比为: 所述立体视频段的视频帧的可视区域内, 视差为 所述立体视频段的视频帧的参考视差的像素数目与有效像素数目的比值; 所述立体视频段的视频帧的第一观看舒适度影响因子, 所述立体视频段 的视频帧的第一观看舒适度影响因子根据所述立体视频段的视频帧是否存在 边框效应以及是否满足下近上远空间布局来确定; 所述边框效应是指对于一 个视频帧, 如果成像于屏幕边缘的物体的视差为交叉视差, 且所述物体的一 部分超出了屏幕范围, 则存在边框效应; 所述下近上远是指一个视频帧对应 的成像于屏幕底端的物体的感知深度离观众近、 成像于屏幕顶端的物体的感 知深度离观众远;
所述处理器具体用于, 根据以下公式计算所述立体视频段中所有视频帧 的参考视差的加权平均值: minDispj * P (minDispj )
minDisp =―
P (minDispj ) 其中, min Dip为所述立体视频段中所有视频帧的参考视差的加权平均 值, N为所述立体视频段中视频帧的数目, minDisPi为第 i帧的参考视差, P(min DisPi )为第 i帧的参考视差的百分比, 所述第 i帧为所述立体视频段中 的任意视频帧;
根据以下公式计算所述立体视频段内所有视频帧的第一观看舒适度影响 因子的平均值:
Figure imgf000027_0001
其中, dispdisttibutin为所述立体视频段内所有视频帧的第一观看舒适度影 响因子的平均值, dispd^butj为第 i帧的第一观看舒适度影响因子, N为所述 立体视频段中视频帧的数目, 所述第 i帧为所述立体视频段中的任意视频帧。
结合第三方面的第十三种或第十四种实现方式, 在第十五种实现方式中, 所述立体视频段的视频帧的时域特性包括:
所述立体视频段的视频帧的第二观看舒适度影响因子, 所述立体视频段 的视频帧的第二观看舒适度影响因子根据所述立体视频段的视频帧的参考视 差在时域的变化, 和 /或所述立体视频段的视频帧的参考视差出现的频率在时 域的变化来确定, 所述第二观看舒适度影响因子数值的大小表示视频帧的参 考视差在深度方向变化的程度;
所述处理器具体用于, 根据以下公式计算所述立体视频段的第二观看舒 适度影响因子: 其中, vd 为所述立体视频段的第二观看舒适度影响因子, Vd1为所述立体 视频段内第 i帧的第二观看舒适度影响因子, s为设定值, 的取值根据 V和 min DisR的符号来确定, N为所述立体视频段中视频帧的数目, 所述第 i帧 为所述立体视频段中的任意视频帧。
结合第三方面的第十三种至第十五种实现方式中的任意一种实现方式, 在第十六种实现方式中, 所述处理器具体用于, 根据以下公式计算所述立体 视频段的观看舒适度:
VC = * Spatial _ vc + ^ * Temper al _ vc
Spatial— vc = 1 + c3 * dispdistribution * ex (- 1 minDisp I *bl) Temperal _ vc = 1 + c3 * exp (- IVd I)
其中, VC为所述立体视频段的观看舒适度, 和 ?为加权值; bl、 c3为 设定值; Spatial— frame— vc为空域特性决定的所述立体视频段的观看舒适度, Temperal _ frame _vc为时域特性决定的所述立体视频段的观看舒适度; disPd^bution为所述立体视频段内所有视频帧的第一观看舒适度影响因子的平
为所述立体视频段的第二观看舒适度影响因子。
本发明的上述实施例中, 通过检测立体视频段内视频帧的空域特性和时 域特性, 并根据视频帧的空域特性和时域特性对整个立体视频段的观看舒适 度进行评价。 本发明实施例提出的立体视频舒适度评价方案考虑了视差空间 分布 (即空域特性)和时间分布 (即时域特性)对立体视频舒适度的影响, 且可突出舒适度较差的帧对整体舒适度的影响, 从而可以较为客观的对立体 视频舒适度进行评价。 附图说明
为了更清楚地说明本发明实施例中的技术方案, 下面将对实施例描述中 所需要使用的附图作简要介绍, 显而易见地, 下面描述中的附图仅仅是本发 明的一些实施例, 对于本领域的普通技术人员来讲, 在不付出创造性劳动性 的前提下, 还可以根据这些附图获得其他的附图。
图 1为本发明实施例提供的立体视频舒适度评价流程示意图;
图 2为本发明实施例提供的单帧频域特性和时域特性提取流程示意图; 图 3 为本发明实施例提供的基于单帧频域特性和时域特性对立体视频段 舒适度进行评价的流程示意图;
图 4 为本发明另一实施例提供的基于单帧频域特性和时域特性对立体视 频段舒适度进行评价的流程示意图;
图 5为本发明实施例提供的立体视频舒适度评价装置示意图;
图 6为本发明另一实施例提供的立体视频舒适度评价装置示意图。 具体实施方式 频帧的空域特性和时域特性, 经过舒适度评价模型获得整个段的舒适度。 本 发明实施例提出的舒适度评价方法, 考虑到了物体时域视差大小以及频率的 变化对立体视频舒适度的影响。 观众在观看视频过程中, 质量较差的片段往 往对整体观看体验的影响更大, 现有技术不能体现出较差帧或者较差片段的 影响, 而本发明实施例提出的评估方法, 可以突出舒适度较差帧的影响。
为了使本发明的目的、 技术方案和优点更加清楚, 下面将结合附图对本 发明作进一步地详细描述, 显然, 所描述的实施例仅仅是本发明一部份实施 例, 而不是全部的实施例。 基于本发明中的实施例, 本领域普通技术人员在 没有做出创造性劳动前提下所获得的所有其它实施例, 都属于本发明保护的 范围。
参见图 1, 为本发明实施例提供的立体视频舒适度评价流程示意图, 如图 所示, 该流程可包括:
步骤 101: 获取待评价的立体视频段的视频帧。 步骤 102: 提取所述立体视频段的视频帧的空域特性和时域特性。
步骤 103: 根据该立体视频段的视频帧的空域特性和时域特性, 确定该立 体视频段的观看舒适度。
步骤 102 中, 可通过以下方式实现: 针对立体视频段的每一个视频帧, 执行以下操作: 估计该视频帧的视差, 根据该视频帧的视差以及运动信息确 定该视频帧的视觉焦点位置, 根据该视频帧的视觉焦点位置确定该视频帧的 可视区域, 根据该视频帧的视差以及该视频帧的可视区域。 为了更清楚的对 步骤 102进行说明, 图 2示出了图 1中步骤 102的一种可选实现方式, 该流 程可包括:
步骤 201: 初始化 i值, 即设置 i=l。
步骤 202: 估计第 i帧的视差。
通常, 立体视频的每一帧包含左眼图像和右眼图像, 称为立体图像对。 视频帧内一个像素的视差是指一个立体图像对中匹配的像素间的距离, 通常 交叉视差为负, 非交叉视差为正。 立体视频的视差估计算法有多种, 本发明 实施例可选立体匹配算法来进行视差估计, 比如可利用基于颜色分割的立体 匹配算法获得稠密视差图。 通过立体匹配算法获得视差后, 还可以进一步进 行滤波, 以去除视差图中的误匹配点, 使得到的视差图平滑、 连续、 准确。 具体实施时, 可以使用中值滤波去除异常点。
在利用基于颜色分割的立体匹配算法获得稠密视差图的过程中, 通常需 要定义搜索窗口, 根据定义的搜索窗口进行立体匹配(即搜索匹配的像素)。 比如,以当前像素为基准向左和向右分别搜索 32个像素(此时搜索范围为 32, 视差的范围为 -32~32 ), 即在该搜索范围内搜索与当前像素匹配的像素。 本发 明实施例中, 根据视频段内容的不同, 可以调整搜索窗口的大小。 搜索窗口 的大小除了与视频的分辨率有关, 还与视频帧的整体视差大小相关。 若搜索 窗口太小, 会导致部分像素找不到匹配像素; 若窗口太大, 误匹配的概率会 增大, 得到的视差图准确度较低。 为避免上述问题, 搜索窗口的大小可与视 频帧的视差幅度相近。 釆用基于颜色分割的立体匹配算法估计视差时, 有可能有些像素得不到 视差, 比如, 当存在遮挡等问题时, 部分像素不能获得视差。 为解决该问题, 本发明实施例中, 在进行立体匹配过程中, 若某像素未找到与之匹配的像素, 则可将该像素的视差可设置为经验值, 表明未找到匹配的像素, 比如, 仍以 上述搜索范围是 32为例, 若针对当前像素未搜索到匹配的像素, 则将该当前 像素的视差设置为搜索范围加一, 即设置为 33。
步骤 203: 根据第 i帧的视差以及运动信息,确定第 i帧的视觉焦点位置。 该步骤中, 可首先确定第 i帧内每个像素的权值, 将具有最大权值的像素 的位置确定为第 i帧的视觉焦点位置。 进一步的, 若第 i帧内具有最大权值的 像素有多个, 则可将该多个具有最大权值的像素中,距离第 i帧的图像中心位 置最近的像素的位置, 确定为第 i帧的视觉焦点位置。
由于视频中较为剧烈的运动 (比如平面运动和 /或深度方向的运动)和较 大的交叉视差容易引起观众的注意, 因此本发明实施例在计算像素的权值时, 可根据视频帧内匹配像素的平面运动(包括水平运动和垂直运动)、 深度方向 的运动以及交叉视差进行计算。 其中, 交叉视差是指物体成像于屏幕前方。
具体的, 可根据以下公式计算第 i帧内像素的权值:
W = r*lmvl+ *l dispcrossed l+l*l^dl [1] 其中, W为坐标为 (x,y)的像素的权值, γ、 和 /1为加权值, γ、 和 /1之和可以取值为 1, 可选的, =0.2, =0.4, =0.4; mv表示平面运动矢 量, mv的大小表明平面运动的剧烈程度, lmvl=^dx 2+dy 2表示坐标为 (x,y) 的像素的平面运动矢量, d ody分别为第 i帧内的坐标为 (x,y)像素的水平 位移和垂直位移, 所述 和 在第 i帧及第 i帧的相邻视频帧(所述第 i帧的 相邻视频帧例如为第 i-1帧或第 i+1帧) 内搜索得到, 比如, 通过比较第 i帧 中坐标为(x,y)的像素以及与该像素匹配的像素在第 i-1帧中的坐标, 可得到 该像素的 和 ; dispCTssed为交叉视差值, 对于每一个像素, 只有在其视差 为交叉视差时 dispCTssed才有值, 如果像素的视差为非交叉, 则将 dispCTssed取值 为 0; d为第 i帧及第 i帧的相邻视频帧(所述第 i帧的相邻视频帧例如为第 i-1帧或第 i+1帧)的匹配块的平均视差的差值, d的大小表明深度方向运动 的快慢。
步骤 204: 根据第 i帧的视觉焦点位置确定该视频帧的可视区域。
该步骤中,在确定出视频帧 i的视觉焦点位置后, 可根据人眼分辨视域和 观看距离确定图像可视区域。 本发明实施例中, 可选的可以取以焦点为中心、 15。 视角范围内的区域为可视区域。 比如, 一个立体视频段的分辨率为 640*480, 该立体视频段中的一个视频帧的可视区域可能在 350*262像素范围 内。
步骤 205: 根据第 i帧的视差以及该视频帧的可视区域, 提取第 i帧的空 域特性和时域特性。
本发明实施例中, 一个视频帧的空域特性可包括以下参数之一或任意组 合: 该视频帧的参考视差 (以下将第 i帧的参考视差表示为 min Disp )、 参考 视差的百分比(以下表示为 P(minDisp) )、边框效应的严重程度、是否满足"下 近上远" 空间布局。 其中:
视频帧的参考视差 minDisp, 可以是视频帧的可视区域内的最小像素视 差值。 进一步的, 考虑到在立体匹配时可能存在误匹配的现象, 有时候会有 一些像素的视差异常大或者异常小, 但是这些像素往往都是离散的、 数量较 少的一些像素。 但实际上, 对于同一个物体来说, 相邻区域的像素视差都应 该是相同或相近的, 因此像素视差的数量较少时就认为这些像素的匹配是不 准的, 因此可以在排除这些视差异常的像素后, 根据其余的像素的视差选取 出最小视差, 作为该视频帧的参考视差。 比如, 可将所述视频帧的可视区域 内, 除噪声像素以外的其他像素的视差中的最小值, 确定为所述视频帧的参 考视差; 其中, 针对噪声像素的每一个视差值, 其对应的像素 (即具有该视 差值的像素)数量低于设定像素数量阔值。 这样, 可以避免一些噪点对参考 视差的选择, 进而提高舒适度评估的准确性。
参考视差的百分比 P(minDisp), 是指视频帧的可视区域内, 视差值为参 考视差 min Disp 々像素数目与有效像素数目的比值, 其中, 有效像素的视差 绝对值小于搜索范围。 立体匹配过程中, 存在一些像素匹配失败的现象, 此 时该像素的视差被设置为一个确定的经验值来标志该像素匹配失败, 比如之 前所说的搜索范围为 32时, 将匹配失败的像素的视差值设置为 33。 由于搜索 窗口的大小限制了有效视差范围为 [-32,32], 因此视差在 [-32,32]内的像素为匹 配成功的像素, 即有效像素, 而视差不在 [-32,32]内的像素即为无效像素, 即 误匹配像素, 比如视差为 33的像素即为误匹配像素。
边框效应, 是指对于一个视频帧, 如果位于屏幕边缘的物体(即成像于 屏幕边缘的物体)的视差为交叉视差(即物体成像于屏幕前方), 且物体的一 部分超出了屏幕范围, 则该视频帧存在边框效应 (frame-effect ), 这会使观众 在观看时产生极其不舒服的感觉。
"下近上远(bottom-up )", 是指一个视频帧对应的屏幕底端的物体(即 成像于屏幕底端的物体) 的感知深度离观众近、 屏幕顶端物体(即成像于屏 幕顶端的物体) 的感知深度离观众远。 符合 "下近上远" 的空间布局的视频 帧不易导致视觉疲劳。
具体实施时, 可使用观看舒适度影响因子 dispdistnbutin (可称为第一观看舒 适度影响因子) 来表示边框效应的严重程度以及是否满足 "下近上远" 空间 布局。 参考视差、 参考视差的百分比, 以及 dispdlstnbutln反映了视频帧内视差的 空间分布情况。
下面以第 i帧为例,说明视频帧的参考视差 min Disp、参考视差的百分比
P(minDisp), 以及 dispdlstnbutln的计算方法。
对于第 i帧, 确定其参考视差 min DisPl的方法可以是: 在第 i帧的可视区 域内所有像素的视差中,选取最小值作为第 i帧的参考视差的取值。 另一种可 选的实现方式可以是: 确定第 i帧对应的视差集合, 该视差集合为所 i帧可视 区域内的像素视差集合, 且其中的每个视差值对应的像素数量均大于所述设 定阔值; 将该视差集合中的最小视差值确定为第 i 帧的 minDisR。 比如, 在 N*N ( N 为像素数量) 的统计窗口内, 取最小视差, 判断具有该最小视差值 的像素数量是否大于阔值 0.875 *N*N, 若大于, 则将该最小视差作为第 i帧的 参考视差; 若小于, 则在该统计窗口内再选取除该最小视差以外的其余视差 中的最小值, 判断具有该最小值的像素数量是否大于阔值 0.875*N*N, 若大 于,则将该最小视差作为第 i帧的参考视差,否则参照上述方式排除该最小值, 在其余的视差中再选择一个最小值, 并参照上述方式进行判断和处理。
对于第 i帧,参考视差的百分比 P(minDisp)可通过计算第 i帧的可视区域 内, 视差为参考视差 min DisPl的像素数目与有效像素数目的比值得到。
对于第 i帧, 可通过检测第 i帧对应的屏幕边缘一定范围内, 是否存在集 中的小于设定视差值的交叉视差, 来确定第 i帧是否存在边框效应。 比如, 对 于第 i帧, 可在屏幕边缘一定范围内, 通过 N*N的搜索窗口检测小于设定视 差门限 T的交叉视差的数目是否大于阔值 0.75*N*N, 如果大于, 则判断第 i 帧存在边框效应, 否则判断第 i帧不存在边框效应。 其中, 门限 T的取值要求 小于 "comfort zone" 的下界, 而 "comfort zone" 的范围与视频的分辨率、 人眼瞳距、 观看距离等一系列因素相关, 因此门限 T的取值不是一个固定值, 可选值也与视频的分辨率相关。 "comfort zone" 是指: 视差小于一定范围时, 人眼不会产生视觉疲劳, 比如当前视频分辨率下 "comfort zone"是 {-5 pixels, 8 pixels] , 则门限 Τ的值应该小于 -5。 比如, 对于分辨率为 640*480的视频帧, 在屏幕边缘 5%的范围内,如果在 20*20的窗口内检测到小于 -5的交叉视差的 数目大于 300个, 则判断该视频帧存在边框效应。
对于第 i帧, 可将第 i帧按照一定比例划分为三个区域, 通过比较三个区 域内有效像素的平均视差的大小关系来判断第 i帧是否满足 "下近上远"的空 间布局。 比如, 对于第 i帧, 可将第 i帧图像按照 Q%、 1-Q% ( 0 < Q < 100 ) 的图像高度划分为三个区域, 通过比较三个区域内有效像素的平均视差的大 小关系判断是否满足 "下近上远"。 例如, 将第 i帧图像在高度方向划分为三 个区域, 从上到下每个区域的高度比例为: 0~20% 20%~80% , 80%~1 , 分 别计算每个区域有效像素的平均视差, 如果 ΐορ^ρ<πώ1(11ε^ρ<Ιχ)ΚοΐΉ^ρ,, 则判 断第 i帧满足 "下近上远" 的空间布局。 其中 topdisp middledisp bottom^p分 别代表三个区域内有效像素的平均视差值。 当然,也可以将第 i帧按照一定比 例划分为两个区域或多于三个区域, 按照上述原则, 通过比较各个区域内有 效像素的平均视差的大小关系来判断第 i帧是否满足"下近上远"的空间布局。
如上所述, 本发明实施例可根据边框效应的严重程度和是否满足 "下近 上远" 的空间布局, 确定视差空间布局对舒适度的影响因子 disi¾lstbutli dispdlstnbutln取值高, 表明视差分布较好, 不易使观看者产生视觉疲劳, dispdlstnbutln取值低, 表明视差分布较差, 容易使观看者产生视觉疲劳。 在具体 实施时, dispdistnbutin的取值范围可设置为 [0,1], 在视频帧不存在边框效应且满 足下近上远空间布局的情况下, 可将 dispdlstnbutln取较大值, 比如可在 [0.9,1]的 范围内取值。 在视频帧存在边框效应且不满足下近上远空间布局的情况下, 可将 dispdlstflbutln取值较小。
本发明实施例给出了以下一种 dispdistnbutin取值的可选方案:
若仅满足 "下近上远" 的空间分布, 则 dispdistnbuti n = 0.8;
若仅满足不存在边框效应, 则 dispdlsttlbutl n = 0.9;
若满足最佳布局, 即, 不存在边框效应且满足 "下近上远" 的空间分布, 则 disPdlstnbut
若存在边框效应且不满足 "下近上远" 的空间分布, 则 dispdlstnbutl n = 0.7 可以看出, dispdlstnbutln在视频帧不存在边框效应且满足下近上远空间布局 时取第一值, 在视频帧存在边框效应但满足下近上远空间布局时取第二值, 在视频帧不存在边框效应但不满足下近上远空间布局时取第三值, 在视频帧 存在边框效应且不满足下近上远空间布局时取第四值, 其中, 第一值、 第二 值、 第三值和第四值为预设值, 且第一值小于第四值, 第三值在第一值和第 二值之间且与第一值和第二值均不相等。 可选的, 第一值、 第二值、 第三值 和第四值的取值范围为: 大于零且小于等于 1。 按照 dispdlstnbutln取值从小到大 的顺序, 计算得到的观看舒适度评价分值也按照从小到大的顺序增加 (观看 舒适度评价分值越高, 表明观看舒适度越高)
一个视频帧的时域特性可包括该视频帧的可视区域内的视差在深度方向 的变化。 具体实施时, 可使用观看舒适度影响因子 Vd (可称为第二观看舒适 视差在深度方向的变化 (Vd ) 的影响因素有两个, 一个是参考视差的在 时域的变化 ( ), 另一个是参考视差出现的频率在时域的变化 ( V2 ), vd = ί(ν15ν2) 0 本发明实施例中, 可根据一个视频帧的参考视差在时域的变化, 和 /或该视频帧的参考视差出现的频率在时域的变化, 计算得到该视频帧的观 看舒适度影响因子 Vd
对于第 i帧, 一种简单度量视差在深度方向的变化(Vd ) 的函数为:
Figure imgf000036_0001
其中, V表示第 i帧的参考视差在时域的变化; 表示第 i帧的参考视 差出现的频率在时域的变化; 和 为加权值, 比如, + J =i,可选的, 和 均取 0.5。 可以根据 V和 V2'影响的重要程度, 调整 和 的值。 一种极端 的做法是 =1, = 0, 此时只考虑视差在时域变化的影响。 或者 = 1,^ = 0, 此时只考虑参考视差出现的频率在时域的变化的影响。
对于第 i帧的 ν , 本发明实施例提供了两种可选计算方法:
方法 1: 将立体视频段分段, 同一视频段内的视频帧的参考视差单调变化 且变化速度相同, 根据以下公式计算第 i帧的 V :
= (displast -dispfirst)/ (Np -l) [3]
其中, disp frst和 displast分别为第 i 帧所属视频段的第一帧和最后一帧的 参考视差, Np为第 i帧所属视频段的视频帧数量。
方法 2: 根据以下公式计算第 i帧的 V :
V = min Dispi - min Dis ;^ [4]
其中, min DisA和 min Disp^分别为第 i帧和第 i-1帧的参考视差。
对于第 i帧的 V2', 可根据以下公式计算:
V2 ; = (P (min Disp; ) - P (min
Figure imgf000037_0001
P (min Disp; ) [5] 其中, ?(1^11 018 )和?(111111 018^1)分别为第 i帧和第 i-1帧的参考视差 的百分比。
步骤 206: 递增 i值, 即设置 i=i+l, 并判断递增后的 i值是否超过所述立 体视频段的视频帧数目 N, 若判断为否, 则转入步骤 202, 否则结束本流程。
通过以上流程可以看出, 由于视频帧中较为剧烈的运动 (比如平面运动 和 /或深度方向的运动)和较大的交叉视差容易引起观众的注意, 因此本发明 实施例在计算像素的权值时, 可根据视频帧内匹配像素的平面运动 (包括水 平运动和垂直运动)、 深度方向的运动以及交叉视差进行计算, 选取其中权值 最大的像素作为视觉焦点, 根据该视觉焦点确定可视区域, 该可视区域通常 为观众感兴趣的区域, 从而可以针对观众感兴趣的区域进行观看舒适度评价。
立体视频播放过程中, 人眼无法准确识别每一个视频帧的舒适度, 对于 视频舒适度的反映是基于视频段的, 而不是基于视频帧。 因此, 在图 1 的步 骤 103中, 需要评估视频段的舒适度。
图 3示出了图 1中步骤 103的一种可选实现方法, 如图所示, 该方法可 包括以下步骤:
步骤 301 : 计算立体视频段的每一个视频帧的观看舒适度。 一个视频帧的 舒适度由时域特性和空域特性共同决定。
在具体实施时, 一个视频帧的舒适度模型可以为 (以下以第 i帧为例): QP Spatial _ frame—vc; + ?*Temperal _ frame _VC; r 1 其中, 为第 i帧的观看舒适度, Spatial_ frame— vct为第 i帧的空域特 性决定的第 i帧的观看舒适度, Ten eral― frame _vct为第 i帧的时域特性决 定的第 i帧的观看舒适度, a和 β为加权值。
Spatial _ frame _vc, =
1 + cl * dispdistnbutio; * exp (- 1 min DisPl I *bl * eP
[7]
Temperal― frame _vc, = l+cl* exp (- 1 Vd' I *b2) [8] 其中, disPdistributini为第 i帧的 dispdisttibutin因子, minDispi为第 i帧的参考 视差, P(minDiSpi)为第 i 帧的参考视差的百分比, bl 为模型参数; 为第 i 帧的 Vd因子; b2为模型参数, b2的取值与 V和 minDispi的符号有关。 bl和 b2是在拟合主观数据的过程中训练出来的模型参数, 其取值可根据实际训练 结杲来确定。
可选的, 如果对视频观看舒适度的主观评估时采用的是 5 分制, 最低 1 分最高 5分, 则上述公式 7和公式 8中的参数 cl取值为 4。 由于视频观看舒 适度的主观评估时采用的是 5分制, 最低 1分最高 5分, 将 cl取值为 4可保 证最小值为 1和最大值为 5。 同理, 如果是其他分制, 如 11分制或百分制, 则可对公式 7和公式 8中的模型参数的取值进行相应调整。 表 1 模型参数
Figure imgf000038_0001
若 minDisp > 0, 则值为 0.02
bl
若 minDisp < 0, 则值为 0.04 若 \^与!11^018 异号, 则值为 0.9
b2
若 \^与!11^018 同号, 则值为 1 a 0.8 β 0.2
步骤 302: 根据所述立体视频段每一个视频帧的视觉焦点位置, 对所述立 体视频段进行子段划分, 每个子段至少包含一个视频帧, 每个子段的视频帧 的视觉焦点位置转移量不大于设定转移量阔值, 然后计算每个子段的观看舒 适度。
该步骤中, 分段依据是焦点在空间位置的转换量大小, 如果连续多帧的 焦点的空间位置相近, 则将该连续多帧划分到一个子段内。 比如, 若相邻视 频帧的空间焦点位置转移量 p小于 5,则将所述相邻视频帧划分到一个子段, 否则将所述相邻视频帧划分为不同子段。 其中,
Figure imgf000039_0001
, (^和 分别 代表焦点转移的水平和垂直位移。
具体实施时, 计算每个子段的观看舒适度的具体计算公式可以是:
Figure imgf000039_0002
其中, Qs k为第 k个子段的舒适程度, NF为第 k个子段内视频帧的数目, 为联合参数, 为设定数值, 比如可选取值为 7。 可取值为大于 1的整数。
Pi的可选值的选取可根据已有的测试段和对应的主观舒适度分值训练得到, 通过设置合理取值, 可以使主观分值和客观分值的相关性最高。
可选的, 如果对视频观看舒适度的主观评估时釆用的是 5 分制, 最低 1 分最高 5分, 则上述公式 9和公式 10中的参数 c2取值为 5, 即取值为主观评 估的最高分。 同理, 如果是其他分制, 如 11分制或百分制, 则可对公式 7和 公式 8中的模型参数的取值进行相应调整。
步骤 303: 根据每个子段的观看舒适度计算所述立体视频段的观看舒适 具体实施时, 具体计算公式可以是:
1 s
Q = c2 - ( 1 2- Qsk)P2 ))P2 [10] 其中, Q为所述立体视频段的观看舒适度, Ns为所述视频段内子段的数 n P2为时域联合参数, 为设定值, 比如可选取值为 3。 P2可取值为大于 1 的整数。 P2的可选值的选取可根据已有的测试段和对应的主观舒适度分值训 练得到, 通过设置合理取值, 可以使主观分值和客观分值的相关性最高。
图 4示出了图 1中步骤 103的另一种可选实现方法, 该方法中, 观看舒 适度评价模型中提取的特性参数均为段的统计参数, 不需要单独计算每个视 频帧的舒适度以及子段的舒适度。 如图所示, 该方法可包括以下步骤:
步骤 401 : 根据立体视频段的每一个视频帧的空域特性, 计算该立体视频 段的空域特性。
所述立体视频段的空域特性可包括以下参数之一或任意组合: 该立体视 频段的参考视差、 该立体视频段的观看舒适度影响因子 min Dip 。
具体实施时, 立体视频段的参考视差可通过如下方式计算得到: 计算所 述立体视频段中所有视频帧的参考视差的加权平均值。 具体计算公式可以是:
N
minDispj * P (minDispj )
minDisp =― ~~ ^ [n ]
P (minDispj ) 值, N为所述立体视频段中视频帧的数目, minDisPi为第 i帧的参考视差, P (min DisPi )为第 i帧的参考视差的百分比。
具体实施时,立体视频段的观看舒适度影响因子 min Dip可通过如下方式 计算得到: 计算所述立体视频段内所有视频帧的观看舒适度影响因子 d i s pi s tb u l的平均值。 具体计算公式可以是: disPdistribution = dispdistribution [12]
Figure imgf000041_0001
其中, disPdlstributlon为所述立体视频段内所有视频帧的观看舒适度影响因 子 dispdlstIlbutln的平均值, disp^^utJ为第 i 帧的观看舒适度影响因子 disPdistribution;
步骤 402: 根据该立体视频段的每一个视频帧的时域特性, 计算该立体视 频段的时域特性。
所述立体视频段的时域特性可包括该立体视频段的观看舒适度影响因子 Vd 。 所述立体视频段的观看舒适度影响因子 Vd, 具体可通过以下公式计算:
Figure imgf000041_0002
其中, vd 为所述立体视频段的观看舒适度影响因子 Vd, Vd1为所述立体视 频段内第 i 帧的观看舒适度影响因子 vd, 为设定值, 的取值根据 V和 min DisPi的符号来确定, 即, P;的值与 V和 min DisPi的符号有关, 一种可取 的值为:
当 V与 min DisA异号时, = 0.8;
当 V与 min DisPi同号时, ^ = 1 ;
通过 Pi可区分不同运动方向对观看舒适度的不同影响。 当 V 与 min DisPl 同号时, 物体向远离屏幕的方向运动, 这种情况下的舒适度非常差, 可取 较大值, 比如上述? :^ 当 V与 111111 018 异号时, 物体向靠近屏幕的方向 运动, 这种情况下的舒适度较好, 可取较小值, 比如上述1^ = 0.8。
步骤 403: 根据步骤 401~402计算出的参数, 计算所述立体视频段的观看 舒适度。
具体计算公式可以是:
VC = a * Spatial _vc + ^ * Temper al _vc [14]
Spatial _vc = l + c3* dispdistribution * ex (- 1 minDisp I *bl) [15]
Temperal _vc = l + c3* exp (- IVd I) [16] 其中, VC为所述立体视频段的观看舒适度, 和 为加权值, 可选的, + β ^Ι ; bl为模型参数。一组可用的模型参数为: =0.8 , =0.2, bl=0.04。 bl 的可选值的选取可根据已有的测试段和对应的主观舒适度分值训练得到, 取该值时, 主观分值和客观分值的相关性最高。
可选的, 如果对视频观看舒适度的主观评估时釆用的是 5 分制, 最低 1 分最高 5分, 则上述公式 15和公式 16中的参数 c3取值为 4, 即取值为主观 评估的最高分。 同理, 如果是其他分制, 如 11分制或百分制, 则可对公式 15 和公式 16中的模型参数的取值进行相应调整。
通过以上流程可以看出, 本发明实施例通过检测人眼视觉焦点位置, 根 据人眼视角范围确定可视区域, 利用可视区域内辐楱与调节冲突的严重程度 度量立体视频观看舒适度。 辐楱与调节冲突的严重程度是通过分析立体视频 空间视差分布状况以及时域视差分布情况度量的。 本发明实施例提出的评估 方法充分考虑了视差空间分布和时间分布对立体视频舒适度的影响, 且可突 出舒适度较差的帧对整体舒适度的影响。
综上所述, 立体视频舒适度评估是改善立体视频观看舒适度的前提条件, 是影响立体视频发展的关键技术之一。 本发明实施例提出的立体视频舒适度 的客观评价方案, 计算复杂度低, 可靠性高, 可以广泛应用与立体视频舒适 度评估及监测。 该方案与已有方案相比充分考虑了立体视频的空域特性和时 域特性对立体视频舒适度的影响, 且考虑到了人类视觉特性以及观众观看习 惯, 涵盖了影响观看舒适度的最主要影响因素, 从而使立体视频观看舒适度 评价较为客观和准确。
基于相同的技术构思, 本发明实施例还提供了一种立体视频评价装置。 参见图 5, 为本发明实施例提供的立体视频评价装置的结构示意图。 获取模块 501, 用于获取立体视频段的视频帧;
提取模块 502,用于提取所述获取模块获取到的立体视频段的视频帧的空 域特性和时域特性;
评价模块 503,用于根据所述提取模块提取到的所述立体视频段的视频帧 的空域特性和时域特性, 确定所述立体视频段的观看舒适度。
结合上述装置, 在第一种可能的实现方式中, 提取模块 502具体用于: 估计所述立体视频段的视频帧的视差, 根据所述立体视频段的视频帧的视差 以及运动信息确定所述立体视频段的视频帧的视觉焦点位置, 根据所述立体 视频段的视频帧的视觉焦点位置确定所述立体视频段的视频帧的可视区域, 以及根据所述立体视频段的视频帧的视差以及所述立体视频段的视频帧的可 视区域, 提取所述立体视频段的视频帧的空域特性和时域特性。
结合上述装置的第一种可能的实现方式, 在第二种可能的实现方式中, 提取模块 502可确定所述立体视频段的视频帧内每个像素的权值, 将具有最 大权值的像素的位置确定为所述立体视频段的视频帧的视觉焦点位置。
结合上述装置的第二种可能的实现方式, 在第三种可能的实现方式中, 提取模块 502可釆用公式( 1 )计算所述像素的权值, 公式( 1 ) 的表达式以 及相关参数的含义同前所述, 在此不再重复。
结合上述装置的第二种或第三种可能的实现方式, 在第四种可能的实现 方式中, 提取模块 502具体用于: 若所述立体视频段的视频帧内具有最大权 值的像素有多个, 则将所述多个具有最大权值的像素中, 距离所述立体视频 段的视频帧的图像中心位置最近的像素的位置, 确定为所述立体视频段的视 频帧的视觉焦点位置。 结合上述装置的第一种至第四种可能的实现方式中的任意一种可能的实 现方式, 在第五种可能的实现方式中, 所述空域特性包括以下参数之一或任 意组合: 参考视差、 参考视差的百分比、 第一观看舒适度影响因子;
提取模块 502具体用于: 确定所述立体视频段的视频帧对应的视差集合, 所述视差集合为所述立体视频段的视频帧可视区域内的像素视差集合, 且其 中的每个视差值对应的像素数量均大于所述设定阔值; 将所述视差集合中的 最小视差值确定为所述立体视频段的视频帧的参考视差;
计算所述立体视频段的视频帧的可视区域内, 视差为所述参考视差的像 素的数目与有效像素的数目的比值, 得到所述立体视频段的视频帧的参考视 差的百分比, 所述有效像素是指的视差绝对值小于搜索范围的像素;
根据所述立体视频段的视频帧是否存在边框效应以及是否满足下近上远 空间布局, 确定所述立体视频段的视频帧的第一观看舒适度影响因子, 所述 第一观看舒适度影响因子在所述立体视频段的视频帧不存在边框效应且满足 下近上远空间布局时取第一值, 在所述立体视频段的视频帧存在边框效应但 满足下近上远空间布局时取第二值, 在所述立体视频段的视频帧不存在边框 效应但不满足下近上远空间布局时取第三值, 在所述立体视频段的视频帧存 在边框效应且不满足下近上远空间布局时取第四值, 其中, 第一值、 第二值、 第三值和第四值为预设值, 且第一值小于第四值, 第三值在第一值和第二值 之间且与第一值和第二值均不相等; 所述边框效应是指对于一个视频帧, 如 果成像于屏幕边缘的物体的视差为交叉视差, 且所述物体的一部分超出了屏 幕范围, 则存在边框效应; 所述下近上远是指一个视频帧对应的成像于屏幕 底端的物体的感知深度离观众近、 成像于屏幕顶端的物体的感知深度离观众 远。
结合上述装置的第一种至第五种可能的实现方式中的任意一种可能的实 现方式, 在第六种可能的实现方式中, 所述时域特性包括第二观看舒适度影 响因子;
提取模块 502具体用于: 根据所述立体视频段的视频帧的参考视差在时 化, 计算得到所述立体视频段的视频帧的第二观看舒适度影响因子, 所述第 二观看舒适度影响因子数值的大小表示视频帧的参考视差在深度方向变化的 程度。
结合上述装置的第六种可能的实现方式, 在第七种可能的实现方式中, 提取模块 502具体用于: 将所述立体视频段进行子段划分, 同一子段内的视 频帧的参考视差单调变化且变化速度相同, 根据公式(3 )计算所述立体视频 段的视频帧的参考视差在时域的变化, 根据公式(5 )计算所述立体视频段的 视频帧的参考视差出现的频率在时域的变化, 根据公式(2 )计算所述立体视 频段的视频帧的第二观看舒适度影响因子。 公式(3 )、 公式(2 )和公式(5 ) 的表达式以及相关参数的含义同前所述, 在此不再重复。
结合上述装置的第六种可能的实现方式, 在第八种可能的实现方式中, 提取模块 502可根据公式(4 )计算所述立体视频段的视频帧的参考视差在时 域的变化, 根据公式(5 )计算所述立体视频段的视频帧的参考视差出现的频 率在时域的变化, 根据公式(2 )计算所述立体视频段的视频帧的第二观看舒 适度影响因子。 公式(4 )、 公式(5 )和公式(2 ) 的表达式以及相关参数的 含义同前所述, 在此不再重复。
结合上述装置或者上述装置的第一种至第八种可能的实现方式中的任意 一种可能的实现方式, 在第九种可能的实现方式中, 评价模块 503具体用于: 根据所述立体视频段的每一个视频帧的空域特性和时域特性, 分别计算 所述每一个视频帧的观看舒适度;
根据所述立体视频段的每一个视频帧的视觉焦点位置, 对所述立体视频 段进行子段划分, 每个子段的视频帧的视觉焦点位置转移量不大于设定转移 量阔值; 根据每个子段内每个视频帧的观看舒适度, 分别计算所述每个子段 的观看舒适度;
根据每个子段的观看舒适度计算所述立体视频段的观看舒适度。
结合上述装置的第九种可能的实现方式, 在第十种可能的实现方式中, 评价模块 503可根据公式( 6 )、 公式( 7 )和公式( 8 )计算所述立体视频段 的视频帧的观看舒适度。 公式(4 )、 公式(5 )和公式(2 ) 的表达式以及相 关参数的含义同前所述, 在此不再重复。 计算过程中涉及到的立体视频段的 视频帧的参考视差、 立体视频段的视频帧的参考视差的百分比、 第一观看舒 适度影响因子、 第二观看舒适度影响因子等参数的计算方法, 同前所述, 在 此不再重复。
结合上述装置的第九种或第十种可能的实现方式, 在第十一种可能的实 现方式中, 评价模块 503具体用于: 根据公式(9 )计算所立体视频段的的观 看舒适度。 公式(9 )表达式以及相关参数的含义同前所述, 在此不再重复。
结合上述装置的第九种至第十一种可能的实现方式中的任意一种可能的 实现方式, 在第十二种可能的实现方式中, 评价模块 503 可根据公式(10 ) 计算所述立体视频段的观看舒适度。 公式(10 )表达式以及相关参数的含义 同前所述, 在此不再重复。
结合上述装置或者上述装置的第一种至第十二种可能的实现方式中的任 意一种可能的实现方式, 在第十三种可能的实现方式中, 评价模块 503 可根 据所述立体视频段的视频帧的空域特性, 计算所述立体视频段的空域特性, 根据所述立体视频段的视频帧的时域特性, 计算所述立体视频段的时域特性, 根据所述立体视频段的空域特性和时域特性, 计算所述立体视频段的观看舒 适度。
结合上述装置的第十三种可能的实现方式, 在第十四种可能的实现方式 中, 所述立体视频段的视频帧的空域特性包括以下参数之一或任意组合: 所 述立体视频段的视频帧的参考视差, 参考视差的百分比和第一观看舒适度影 响因子, 这些参数的具体计算方法同前所述, 在此不再重复。 相应的, 评价 模块 503 可根据公式(11 )计算所述立体视频段中所有视频帧的参考视差的 加权平均值, 根据公式(12 )计算所述立体视频段内所有视频帧的第一观看 舒适度影响因子的平均值。 公式(11 ) 和公式(12 )表达式以及相关参数的 含义同前所述, 在此不再重复。 结合上述装置的第十三种或第十四种可能的实现方式, 在第十五种可能 的实现方式中, 所述立体视频段的视频帧的时域特性包括: 所述立体视频段 的视频帧的第二观看舒适度影响因子 (具体计算方法同前所述, 在此不再重 复), 评价模块 503可根据公式 ( 13 )计算所述立体视频段的第二观看舒适度 影响因子。 公式(13 )表达式以及相关参数的含义同前所述, 在此不再重复。
结合上述装置的第十三种至第十五种可能的实现方式中的任意一种可能 的实现方式,在第十六种可能的实现方式中,评价模块 503可根据公式( 14 )、 公式(15 )和公式(16 )计算所述立体视频段的观看舒适度。 公式(14 )、 公 式(15 )和公式(16 )表达式以及相关参数的含义同前所述, 在此不再重复。 基于相同的技术构思, 本发明实施例还提供了一种立体视频评价装置。 参见图 6, 为本发明实施例提供的立体视频评价装置的结构示意图。 该装 置可包括: 收发器 601、 存储器 602和处理器 603。 存储器 602用于存储应用 程序、 算法规则、 计算参数等信息, 还可用来存储处理器 603处理过程中产 生的中间结果。
收发器 601, 用于获取立体视频段的视频帧;
处理器 603,用于提取所述获取模块获取到的立体视频段的视频帧的空域 特性和时域特性; 根据所述提取模块提取到的所述立体视频段的视频帧的空 域特性和时域特性, 确定所述立体视频段的观看舒适度。
结合上述装置, 在第一种可能的实现方式中, 处理器 603 具体用于: 估 计所述立体视频段的视频帧的视差, 根据所述立体视频段的视频帧的视差以 及运动信息确定所述立体视频段的视频帧的视觉焦点位置, 根据所述立体视 频段的视频帧的视觉焦点位置确定所述立体视频段的视频帧的可视区域, 以 及根据所述立体视频段的视频帧的视差以及所述立体视频段的视频帧的可视 区域, 提取所述立体视频段的视频帧的空域特性和时域特性。
结合上述装置的第一种可能的实现方式, 在第二种可能的实现方式中, 处理器 603 可确定所述立体视频段的视频帧内每个像素的权值, 将具有最大 权值的像素的位置确定为所述立体视频段的视频帧的视觉焦点位置。
结合上述装置的第二种可能的实现方式, 在第三种可能的实现方式中, 处理器 603 可釆用公式(1 )计算所述像素的权值, 公式(1 ) 的表达式以及 相关参数的含义同前所述, 在此不再重复。
结合上述装置的第二种或第三种可能的实现方式, 在第四种可能的实现 方式中, 处理器 603具体用于: 若所述立体视频段的视频帧内具有最大权值 的像素有多个, 则将所述多个具有最大权值的像素中, 距离所述立体视频段 的视频帧的图像中心位置最近的像素的位置, 确定为所述立体视频段的视频 帧的视觉焦点位置。
结合上述装置的第一种至第四种可能的实现方式中的任意一种可能的实 现方式, 在第五种可能的实现方式中, 所述空域特性包括以下参数之一或任 意组合: 参考视差、 参考视差的百分比、 第一观看舒适度影响因子;
处理器 603 具体用于: 确定所述立体视频段的视频帧对应的视差集合, 所述视差集合为所述立体视频段的视频帧可视区域内的像素视差集合, 且其 中的每个视差值对应的像素数量均大于所述设定阔值; 将所述视差集合中的 最小视差值确定为所述立体视频段的视频帧的参考视差;
计算所述立体视频段的视频帧的可视区域内, 视差为所述参考视差的像 素的数目与有效像素的数目的比值, 得到所述立体视频段的视频帧的参考视 差的百分比, 所述有效像素是指的视差绝对值小于搜索范围的像素;
根据所述立体视频段的视频帧是否存在边框效应以及是否满足下近上远 空间布局, 确定所述立体视频段的视频帧的第一观看舒适度影响因子, 所述 第一观看舒适度影响因子在所述立体视频段的视频帧不存在边框效应且满足 下近上远空间布局时取第一值, 在所述立体视频段的视频帧存在边框效应但 满足下近上远空间布局时取第二值, 在所述立体视频段的视频帧不存在边框 效应但不满足下近上远空间布局时取第三值, 在所述立体视频段的视频帧存 在边框效应且不满足下近上远空间布局时取第四值, 其中, 第一值、 第二值、 第三值和第四值为预设值, 且第一值小于第四值, 第三值在第一值和第二值 之间且与第一值和第二值均不相等; 所述边框效应是指对于一个视频帧, 如 果成像于屏幕边缘的物体的视差为交叉视差, 且所述物体的一部分超出了屏 幕范围, 则存在边框效应; 所述下近上远是指一个视频帧对应的成像于屏幕 底端的物体的感知深度离观众近、 成像于屏幕顶端的物体的感知深度离观众 远。
结合上述装置的第一种至第五种可能的实现方式中的任意一种可能的实 现方式, 在第六种可能的实现方式中, 所述时域特性包括第二观看舒适度影 响因子;
处理器 603 具体用于: 根据所述立体视频段的视频帧的参考视差在时域 计算得到所述立体视频段的视频帧的第二观看舒适度影响因子, 所述第二观 看舒适度影响因子数值的大小表示视频帧的参考视差在深度方向变化的程 度。
结合上述装置的第六种可能的实现方式, 在第七种可能的实现方式中, 处理器 603 具体用于: 将所述立体视频段进行子段划分, 同一子段内的视频 帧的参考视差单调变化且变化速度相同, 根据公式(3 )计算所述立体视频段 的视频帧的参考视差在时域的变化, 根据公式(5 )计算所述立体视频段的视 频帧的参考视差出现的频率在时域的变化, 根据公式(2 )计算所述立体视频 段的视频帧的第二观看舒适度影响因子。 公式(3 )、 公式(2 )和公式(5 ) 的表达式以及相关参数的含义同前所述, 在此不再重复。
结合上述装置的第六种可能的实现方式, 在第八种可能的实现方式中, 处理器 603可根据公式(4 )计算所述立体视频段的视频帧的参考视差在时域 在时域的变化, 根据公式(2 )计算所述立体视频段的视频帧的第二观看舒适 度影响因子。 公式(4 )、 公式(5 )和公式(2 ) 的表达式以及相关参数的含 义同前所述, 在此不再重复。
结合上述装置或者上述装置的第一种至第八种可能的实现方式中的任意 一种可能的实现方式, 在第九种可能的实现方式中, 处理器 603具体用于: 根据所述立体视频段的每一个视频帧的空域特性和时域特性, 分别计算 所述每一个视频帧的观看舒适度;
根据所述立体视频段的每一个视频帧的视觉焦点位置, 对所述立体视频 段进行子段划分, 每个子段的视频帧的视觉焦点位置转移量不大于设定转移 量阔值; 根据每个子段内每个视频帧的观看舒适度, 分别计算所述每个子段 的观看舒适度;
根据每个子段的观看舒适度计算所述立体视频段的观看舒适度。
结合上述装置的第九种可能的实现方式, 在第十种可能的实现方式中, 处理器 603 可根据公式(6 )、 公式(7 )和公式(8 )计算所述立体视频段的 视频帧的观看舒适度。 公式(4 )、 公式(5 )和公式(2 ) 的表达式以及相关 参数的含义同前所述, 在此不再重复。 计算过程中涉及到的立体视频段的视 频帧的参考视差、 立体视频段的视频帧的参考视差的百分比、 第一观看舒适 度影响因子、 第二观看舒适度影响因子等参数的计算方法, 同前所述, 在此 不再重复。
结合上述装置的第九种或第十种可能的实现方式, 在第十一种可能的实 现方式中, 处理器 603具体用于: 根据公式( 9 )计算所立体视频段的的观看 舒适度。 公式(9 )表达式以及相关参数的含义同前所述, 在此不再重复。
结合上述装置的第九种至第十一种可能的实现方式中的任意一种可能的 实现方式, 在第十二种可能的实现方式中, 处理器 603可根据公式(10 )计 算所述立体视频段的观看舒适度。 公式 (10 )表达式以及相关参数的含义同 前所述, 在此不再重复。
结合上述装置或者上述装置的第一种至第十二种可能的实现方式中的任 意一种可能的实现方式, 在第十三种可能的实现方式中, 处理器 603可根据 所述立体视频段的视频帧的空域特性, 计算所述立体视频段的空域特性, 根 据所述立体视频段的视频帧的时域特性, 计算所述立体视频段的时域特性, 根据所述立体视频段的空域特性和时域特性, 计算所述立体视频段的观看舒 适度。
结合上述装置的第十三种可能的实现方式, 在第十四种可能的实现方式 中, 所述立体视频段的视频帧的空域特性包括以下参数之一或任意组合: 所 述立体视频段的视频帧的参考视差, 参考视差的百分比和第一观看舒适度影 响因子, 这些参数的具体计算方法同前所述, 在此不再重复。 相应的, 处理 器 603 可根据公式(11 )计算所述立体视频段中所有视频帧的参考视差的加 权平均值, 根据公式(12 )计算所述立体视频段内所有视频帧的第一观看舒 适度影响因子的平均值。 公式(11 )和公式(12 )表达式以及相关参数的含 义同前所述, 在此不再重复。
结合上述装置的第十三种或第十四种可能的实现方式, 在第十五种可能 的实现方式中, 所述立体视频段的视频帧的时域特性包括: 所述立体视频段 的视频帧的第二观看舒适度影响因子 (具体计算方法同前所述, 在此不再重 复), 处理器 603可根据公式 ( 13 )计算所述立体视频段的第二观看舒适度影 响因子。 公式(13 )表达式以及相关参数的含义同前所述, 在此不再重复。
结合上述装置的第十三种至第十五种可能的实现方式中的任意一种可能 的实现方式, 在第十六种可能的实现方式中, 处理器 603可根据公式( 14 )、 公式(15 )和公式(16 )计算所述立体视频段的观看舒适度。 公式(14 )、 公 式(15 )和公式(16 )表达式以及相关参数的含义同前所述, 在此不再重复。
本发明是参照根据本发明实施例的方法、 设备(系统)、 和计算机程序产 品的流程图和 /或方框图来描述的。 应理解可由计算机程序指令实现流程图 和 /或方框图中的每一流程和 /或方框、 以及流程图和 /或方框图中的流程 和 /或方框的结合。 可提供这些计算机程序指令到通用计算机、 专用计算机、 嵌入式处理机或其他可编程数据处理设备的处理器, 使得通过该计算机或其 他可编程数据处理设备的处理器执行的指令可实现流程图中的一个流程或多 个流程和 /或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设 备以特定方式工作的计算机可读存储器中, 使得存储在该计算机可读存储器 中的指令产生包括指令装置的制造品, 该指令装置实现在流程图一个流程或 多个流程和 /或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上, 使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的 处理, 从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图 的一个流程或多个流程和 /或方框图的一个方框或多个方框中指定的功能的 步骤。
尽管已描述了本发明的可选实施例, 但本领域内的技术人员一旦得知了 基本创造性概念, 则可对这些实施例作出另外的变更和修改。 所以, 所附权 利要求意欲解释为包括可选实施例以及落入本发明范围的所有变更和修改。 发明的精神和范围。 这样, 倘若本发明的这些修改和变型属于本发明权利要 求及其等同技术的范围之内, 则本发明也意图包含这些改动和变型在内。

Claims

权 利 要 求
1、 一种立体视频舒适度评价方法, 其特征在于, 包括:
获取立体视频段的视频帧;
提取所述立体视频段的视频帧的空域特性和时域特性;
根据所述立体视频段的视频帧的空域特性和时域特性, 确定所述立体视 频段的观看舒适度。
2、 如权利要求 1所述的方法, 其特征在于, 所述提取所述立体视频段的 视频帧的空域特性和时域特性包括:
估计所述立体视频段的视频帧的视差;
根据所述立体视频段的视频帧的视差以及运动信息确定所述立体视频段 的视频帧的视觉焦点位置;
根据所述立体视频段的视频帧的视觉焦点位置确定所述立体视频段的视 频帧的可视区 i或;
根据所述立体视频段的视频帧的视差以及所述立体视频段的视频帧的可 视区域, 提取所述立体视频段的视频帧的空域特性和时域特性。
3、 如权利要求 2所述的方法, 其特征在于, 所述根据所述立体视频段的 视频帧的视差以及运动信息确定所述立体视频段的视频帧的视觉焦点位置, 包括:
确定所述立体视频段的视频帧内每个像素的权值, 将具有最大权值的像 素的位置确定为所述立体视频段的视频帧的视觉焦点位置。
4、 如权利要求 3所述的方法, 其特征在于, 所述像素的权值釆用如下公 式计算:
W = 7* l mv l +77* l dispcrossed I +Λ* I d I
其中, W 为坐标为 (x,y ) 的像素的权值, γ , 和 /1为加权值; I mv l ( x,y ) 的像素的平面运动矢量, d o dy
Figure imgf000053_0001
分别 为所述坐标为 (x,y )的像素的水平位移和垂直位移, 所述 和 在所述坐标 为 (x,y ) 的像素所在视频帧及所述坐标为 (x,y ) 的像素所在的视频帧的相邻 视频帧内搜索得到; dispCTssed为交叉视差值; d为所述立体视频段的视频帧 及其相邻视频帧的匹配块的平均视差的差值。
5、 如权利要求 3或 4所述的方法, 其特征在于, 若所述立体视频段的视 频帧内具有最大权值的像素有多个, 则将所述多个具有最大权值的像素中, 距离所述立体视频段的视频帧的图像中心位置最近的像素的位置, 确定为所 述立体视频段的视频帧的视觉焦点位置。
6、 如权利要求 2-5中任一项所述的方法, 其特征在于, 所述空域特性包 括以下参数之一或任意组合: 参考视差、 参考视差的百分比和第一观看舒适 度影响因子;
所述根据所述立体视频段的视频帧的视差以及所述立体视频段的视频帧 的可视区域, 提取所述立体视频段的视频帧的空域特性, 包括:
确定所述立体视频段的视频帧对应的视差集合, 所述视差集合为所述立 体视频段的视频帧可视区域内的像素视差集合, 且其中的每个视差值对应的 像素数量均大于所述设定阔值; 将所述视差集合中的最小视差值确定为所述 立体视频段的视频帧的参考视差;
计算所述立体视频段的视频帧的可视区域内, 视差为所述参考视差的像 素的数目与有效像素的数目的比值, 得到所述立体视频段的视频帧的参考视 差的百分比, 所述有效像素是指的视差绝对值小于搜索范围的像素;
根据所述立体视频段的视频帧是否存在边框效应以及是否满足下近上远 空间布局, 确定所述立体视频段的视频帧的第一观看舒适度影响因子, 所述 第一观看舒适度影响因子在所述立体视频段的视频帧不存在边框效应且满足 下近上远空间布局时取第一值, 在所述立体视频段的视频帧存在边框效应但 满足下近上远空间布局时取第二值, 在所述立体视频段的视频帧不存在边框 效应但不满足下近上远空间布局时取第三值, 在所述立体视频段的视频帧存 在边框效应且不满足下近上远空间布局时取第四值, 其中, 第一值、 第二值、 第三值和第四值为预设值, 且第一值小于第四值, 第三值在第一值和第二值 之间且与第一值和第二值均不相等; 所述边框效应是指对于一个视频帧, 如 果成像于屏幕边缘的物体的视差为交叉视差, 且所述物体的一部分超出了屏 幕范围, 则存在边框效应; 所述下近上远是指一个视频帧对应的成像于屏幕 底端的物体的感知深度离观众近、 成像于屏幕顶端的物体的感知深度离观众 远。
7、 如权利要求 2-6中任一项所述的方法, 其特征在于, 所述时域特性包 括第二观看舒适度影响因子;
所述根据所述立体视频段的视频帧的视差以及所述立体视频段的视频帧 的可视区域, 提取所述立体视频段的视频帧的时域特性, 包括:
根据所述立体视频段的视频帧的参考视差在时域的变化, 和 /或所述所述 体视频段的视频帧的第二观看舒适度影响因子, 所述第二观看舒适度影响因 子数值的大小表示视频帧的参考视差在深度方向变化的程度。
8、 如权利要求 7所述的方法, 其特征在于, 根据所述立体视频段的视频 帧的参考视差在时域的变化, 和 /或所述立体视频段的视频帧的参考视差出现 的频率在时域的变化, 计算得到所述立体视频段的视频帧的第二观看舒适度 影响因子, 包括:
将所述立体视频段进行子段划分, 同一子段内的视频帧的参考视差单调 变化且变化速度相同, 根据以下公式计算所述立体视频段的视频帧的参考视 差在时域的变化:
V = (displast -dispfirst)/ (Np -l) 域的变化:
V2' = (P (min Disp; ) - P (min Dis j.j )) / P (min Disp; ) 根据 计算所述立体视频段的视频帧的第二观看舒适度影响因
Figure imgf000056_0001
其中, V表示第 i帧的参考视差在时域的变化, dispfcst和 displast分别为 第 i帧所属子段的第一帧和最后一帧的参考视差, Np为第 i帧所属子段的视 频帧数量; V1表示第 i帧的参考视差出现的频率在时域的变化, P(min DisPl) 和?(!^11 018 _1)分别为第 i帧和第 i-1帧的参考视差的百分比; 为第 i帧的 第二观看舒适度影响因子, /和/为加权值; 所述第 i帧为所述立体视频段中 的任意视频帧。
9、 如权利要求 7所述的方法, 其特征在于, 根据所述立体视频段的视频 帧的参考视差在时域的变化, 和 /或所述立体视频段的视频帧的参考视差出现 的频率在时域的变化, 计算得到所述立体视频段的视频帧的第二观看舒适度 影响因子, 包括:
根据以下公式计算 J
V = min DisPi - min Dis ;^
根据以下公式计算 J
域的变化:
V2' = (P (min Disp; ) - P (min Dis j.j )) / P (min Disp; )
根据以下公式计算所述立体视频段的视频帧的第二观看舒适度影响因 子:
Figure imgf000056_0002
其中, V表示第 i帧的参考视差在时域的变化, min DisA和 min Disp^分 别为第 i帧和第 i-1帧的参考视差; 表示第 i帧的参考视差出现的频率在时 域的变化, ?(1^11 018 )和?(111111 018^1)分别为第 i帧和第 i-1帧的参考视差 的百分比; 为第 i帧的第二观看舒适度影响因子, 和/为加权值; 所述第 i帧为所述立体视频段中的任意视频帧。
10、 如权利要求 1-9中任一项所述的方法, 其特征在于, 所述根据所述立 体视频段的视频帧的空域特性和时域特性, 确定所述立体视频段的观看舒适 度, 包括:
根据所述立体视频段的每一个视频帧的空域特性和时域特性, 分别计算 所述每一个视频帧的观看舒适度;
根据所述立体视频段的每一个视频帧的视觉焦点位置, 对所述立体视频 段进行子段划分, 每个子段的视频帧的视觉焦点位置转移量不大于设定转移 量阔值; 根据每个子段内每个视频帧的观看舒适度, 分别计算所述每个子段 的观看舒适度;
根据每个子段的观看舒适度计算所述立体视频段的观看舒适度。
11、 如权利要求 10所述的方法, 其特征在于, 根据以下公式计算所述立 体视频段的视频帧的观看舒适度:
QP Spatial _ frame _ VC; + ?*Temperal _ frame _ VC;
Spatial _ frame _vct =
1 + cl * dispdistributio * exp (- 1 min DisPl I *bl * eP(minDisp' ) ) Temperal _ frame _ vc; = 1 + cl * exp (― I Vd' I *b2)
其中, 为第 i帧的观看舒适度, Spatial- frame -vct为第 i帧的空域特 性决定的第 i帧的观看舒适度, Tenperal _ frame _vct为第 i帧的时域特性决 定的第 i帧的观看舒适度, a和 ?为加权值; dispd^bu^1为第 i帧的第一观看 舒适度影响因子, minDispi为第 i帧的参考视差, P(minDisPi)为第 i帧的参考 视差的百分比; 为第 i帧的第二观看舒适度影响因子; bl、 b2和 cl为模型 参数, 所述 bl、 b2和 cl为设定值; 所述第 i帧为所述立体视频段中的任意视 频帧; 视频段的视频帧对应的视差集合, 所述视差集合为所述立体视频段的视频帧 可视区域内的像素视差集合, 且其中的每个视差值对应的像素数量均大于所 述设定阔值; 将所述视差集合中的最小视差值确定为所述立体视频段的视频 帧的参考视差;
所述立体视频段的视频帧的参考视差的百分比为: 所述立体视频段的视 频帧的可视区域内, 视差为所述立体视频段的视频帧参考视差的像素数目与 有效像素数目的比值;
所述立体视频段的视频帧的第一观看舒适度影响因子根据所述立体视频 段的视频帧是否存在边框效应以及是否满足下近上远空间布局来确定; 所述 边框效应是指对于一个视频帧, 如果成像于屏幕边缘的物体的视差为交叉视 差, 且所述物体的一部分超出了屏幕范围, 则存在边框效应; 所述下近上远 是指一个视频帧对应的成像于屏幕底端的物体的感知深度离观众近、 成像于 屏幕顶端的物体的感知深度离观众远;
所述立体视频段的视频帧的第二观看舒适度影响因子根据所述立体视频 段的视频帧的参考视差在时域的变化, 和 /或所述立体视频段的视频帧的参考 视差出现的频率在时域的变化来确定, 所述第二观看舒适度影响因子数值的 大小表示视频帧的参考视差在深度方向变化的程度。
12、 如权利要求 10或 11所述的方法, 其特征在于, 根据以下公式计算 所述立体视频段的子段的观看舒适度:
Qs k = c2- (^¾(c2 - Qi )P )^
NF i=i 其中, Qs k为第 k个子段的舒适程度, (¾为所述第 k个子段内的第 i帧的 观看舒适度, NF为所述第 k个子段内视频帧的数目, 和 c2为设定数值, 所述第 k个子段为所述立体视频段中的任意一个子段。
13、 如权利要求 10-12中任一项所述的方法, 其特征在于, 根据以下公式 计算所述立体视频段的观看舒适度:
Figure imgf000059_0001
其中, Q为所述立体视频段的观看舒适度, Qs k为所述立体视频段内第 k 个子段的舒适程度, Ns为所述立体视频段内子段的数目, P o c2为设定值。
14、 如权利要求 1-9中任一项所述的方法, 其特征在于, 所述根据所述立 体视频段的视频帧的空域特性和时域特性, 确定所述立体视频段的观看舒适 度, 包括:
根据所述立体视频段的视频帧的空域特性, 计算所述立体视频段的空域 特性;
根据所述立体视频段的视频帧的时域特性, 计算所述立体视频段的时域 特性;
根据所述立体视频段的空域特性和时域特性, 计算所述立体视频段的观 看舒适度。
15、 如权利要求 14所述的方法, 其特征在于, 所述立体视频段的视频帧 的空域特性包括以下参数之一或任意组合: 所述立体视频段的视频帧的参考 视差, 参考视差的百分比和第一观看舒适度影响因子;
所述立体视频段的视频帧的空域特性通过如下方式获得:
将所述立体视频段的视频帧的可视区域内, 满足以下条件的像素的视差 值确定为所述立体视频段的视频帧的参考视差: 所述立体视频段的视频帧的 可视区域内所述参考视差对应的像素的数量大于设定像素数量阔值, 且所述 参考视差为视差集合中的最小视差值; 所述视差集合为所述立体视频段的视 频帧可视区域内的像素视差集合, 且其中的每个视差值对应的像素数量均大 于所述设定阔值;
所述立体视频段的视频帧的参考视差的百分比, 所述立体视频段的视频 帧的参考视差的百分比为: 所述立体视频段的视频帧的可视区域内, 视差为 所述立体视频段的视频帧的参考视差的像素数目与有效像素数目的比值; 所述立体视频段的视频帧的第一观看舒适度影响因子, 所述立体视频段 的视频帧的第一观看舒适度影响因子根据所述立体视频段的视频帧是否存在 边框效应以及是否满足下近上远空间布局来确定; 所述边框效应是指对于一 个视频帧, 如果成像于屏幕边缘的物体的视差为交叉视差, 且所述物体的一 部分超出了屏幕范围, 则存在边框效应; 所述下近上远是指一个视频帧对应 的成像于屏幕底端的物体的感知深度离观众近、 成像于屏幕顶端的物体的感 知深度离观众远;
所述根据所述立体视频段的视频帧的空域特性, 计算所述立体视频段的 空域特性, 包括:
根据以下公式计算所述立体视频段中所有视频帧的参考视差的加权平均 值:
N
minDispj * P (minDispj )
minDisp =―
P (minDispj )
i=l
值, N为所述立体视频段中视频帧的数目, minDisPi为第 i帧的参考视差, P(min DisPi )为第 i帧的参考视差的百分比, 所述第 i帧为所述立体视频段中 的任意视频帧;
根据以下公式计算所述立体视频段内所有视频帧的第一观看舒适度影响 因子的平均值:
Figure imgf000060_0001
其中, dispdlsttlbutln为所述立体视频段内所有视频帧的第一观看舒适度影 响因子的平均值, dispd^butj为第 i帧的第一观看舒适度影响因子, N为所述 立体视频段中视频帧的数目, 所述第 i帧为所述立体视频段中的任意视频帧。
16、 如权利要求 14或 15所述的方法, 其特征在于, 所述立体视频段的 视频帧的时域特性包括:
所述立体视频段的视频帧的第二观看舒适度影响因子, 所述立体视频段 的视频帧的第二观看舒适度影响因子根据所述立体视频段的视频帧的参考视 差在时域的变化, 和 /或所述立体视频段的视频帧的参考视差出现的频率在时 域的变化来确定, 所述第二观看舒适度影响因子数值的大小表示视频帧的参 考视差在深度方向变化的程度;
所述根据所述立体视频段的视频帧的时域特性, 计算所述立体视频段的 时域特性, 包括:
根据以下公式计算所述立体视频段的第二观看舒适度影响因子:
^ =— Υΐν,Ί *^
N 其中, Vd 为所述立体视频段的第二观看舒适度影响因子, 为所述立体 视频段内第 i帧的第二观看舒适度印象因子, S为设定值, 的取值根据 V和 min DisR的符号来确定, N为所述立体视频段中视频帧的数目, 所述第 i帧 为所述立体视频段中的任意视频帧。
17、 如权利要求 14-16中任一项所述的方法, 其特征在于, 所述立体视频 段的观看舒适度釆用如下公式计算:
VC = * Spatial _vc + ^ * Temper al _ vc
Spatial— vc = 1 + c3 * dispdistribution * ex (- 1 minDisp I *bl) Temperal _ vc = 1 + c3 * exp (- IVd I) 其中, VC为所述立体视频段的观看舒适度, 和 ?为加权值; bl、 c3为 设定值; Spatial— frame— vc为空域特性决定的所述立体视频段的观看舒适度, Temperal _ frame— vc为时域特性决定的所述立体视频段的观看舒适度; ί^ρ^ηΐΛιη为所述立体视频段内所有视频帧的第一观看舒适度印象因子的平 均值, min Dip为所述立体视频段中所有视频帧的参考视差的加权平均值, Vd 为所述立体视频段的第二观看舒适度影响因子。
18、 一种立体视频舒适度评价装置, 其特征在于, 包括:
获取模块, 用于获取立体视频段的视频帧;
提取模块, 用于提取所述获取模块获取到的立体视频段的视频帧的空域 特性和时域特性;
评价模块, 用于根据所述提取模块提取到的所述立体视频段的视频帧的 空域特性和时域特性, 确定所述立体视频段的观看舒适度。
19、 如权利要求 18所述的装置, 其特征在于, 所述提取模块具体用于, 估计所述立体视频段的视频帧的视差;
根据所述立体视频段的视频帧的视差以及运动信息确定所述立体视频段 的视频帧的视觉焦点位置;
根据所述立体视频段的视频帧的视觉焦点位置确定所述立体视频段的视 频帧的可视区 i或;
根据所述立体视频段的视频帧的视差以及所述立体视频段的视频帧的可 视区域, 提取所述立体视频段的视频帧的空域特性和时域特性。
20、 如权利要求 19所述的装置, 其特征在于, 所述提取模块具体用于, 确定所述立体视频段的视频帧内每个像素的权值, 将具有最大权值的像素的 位置确定为所述立体视频段的视频帧的视觉焦点位置。
21、 如权利要求 20所述的装置, 其特征在于, 所述提取模块釆用如下公 式计算所述像素的权值:
W = 7* l mv l +77* l dispcrossed I +Λ* I d I
其中, W 为坐标为 (x,y ) 的像素的权值, γ , 和 /1为加权值; I mv l
Figure imgf000062_0001
表示所述坐标为 ( x,y ) 的像素的平面运动矢量, d o d y分别 为所述坐标为 (x,y )像素的水平位移和垂直位移, 所述 和 在所述坐标为 ( x,y )的像素所在视频帧及所述坐标为 (x,y )的像素所在的视频帧的相邻视 频帧内搜索得到; dispCTssed为交叉视差值; d为所述立体视频段的视频帧及 其相邻视频帧的匹配块的平均视差的差值。
22、 如权利要求 20或 21所述的装置, 其特征在于, 所述提取模块具体 用于, 若所述立体视频段的视频帧内具有最大权值的像素有多个, 则将所述 多个具有最大权值的像素中, 距离所述立体视频段的视频帧的图像中心位置 最近的像素的位置, 确定为所述立体视频段的视频帧的视觉焦点位置。
23、 如权利要求 19-22中任一项所述的装置, 其特征在于, 所述空域特性 包括以下参数之一或任意组合: 参考视差、 参考视差的百分比、 第一观看舒 适度影响因子;
所述提取模块具体用于, 确定所述立体视频段的视频帧对应的视差集合, 所述视差集合为所述立体视频段的视频帧可视区域内的像素视差集合, 且其 中的每个视差值对应的像素数量均大于所述设定阔值; 将所述视差集合中的 最小视差值确定为所述立体视频段的视频帧的参考视差;
计算所述立体视频段的视频帧的可视区域内, 视差为所述参考视差的像 素的数目与有效像素的数目的比值, 得到所述立体视频段的视频帧的参考视 差的百分比, 所述有效像素是指的视差绝对值小于搜索范围的像素;
根据所述立体视频段的视频帧是否存在边框效应以及是否满足下近上远 空间布局, 确定所述立体视频段的视频帧的第一观看舒适度影响因子, 所述 第一观看舒适度影响因子在所述立体视频段的视频帧不存在边框效应且满足 下近上远空间布局时取第一值, 在所述立体视频段的视频帧存在边框效应但 满足下近上远空间布局时取第二值, 在所述立体视频段的视频帧不存在边框 效应但不满足下近上远空间布局时取第三值, 在所述立体视频段的视频帧存 在边框效应且不满足下近上远空间布局时取第四值, 其中, 第一值、 第二值、 第三值和第四值为预设值, 且第一值小于第四值, 第三值在第一值和第二值 之间且与第一值和第二值均不相等; 所述边框效应是指对于一个视频帧, 如 果成像于屏幕边缘的物体的视差为交叉视差, 且所述物体的一部分超出了屏 幕范围, 则存在边框效应; 所述下近上远是指一个视频帧对应的成像于屏幕 底端的物体的感知深度离观众近、 成像于屏幕顶端的物体的感知深度离观众 远。
24、 如权利要求 19-23中任一项所述的装置, 其特征在于, 所述时域特性 包括第二观看舒适度影响因子;
所述提取模块具体用于, 根据所述立体视频段的视频帧的参考视差在时 化, 计算得到所述立体视频段的视频帧的第二观看舒适度影响因子, 所述第 二观看舒适度影响因子数值的大小表示视频帧的参考视差在深度方向变化的 程度。
25、 如权利要求 24所述的装置, 其特征在于, 所述提取模块具体用于, 将所述立体视频段进行子段划分, 同一子段内的视频帧的参考视差单调变化 且变化速度相同, 根据以下公式计算所述立体视频段的视频帧的参考视差在 时域的变化:
= (displast -dispfirst)/ (Np -l) 域的变化:
V2' = (P (min Disp; ) - P (min Dis j.j )) / P (min Disp; )
根据以下公式计算所述立体视频段的视频帧的第二观看舒适度影响因 子:
Figure imgf000064_0001
其中, V表示第 i帧的参考视差在时域的变化, dispfcst和 displast分别为 第 i帧所属子段的第一帧和最后一帧的参考视差, Np为第 i帧所属子段的视 频帧数量; V2'表示第 i帧的参考视差出现的频率在时域的变化, P(min DisPl) 和?(111111 018 1_1)分别为第 i帧和第 i-1帧的参考视差的百分比; 为第 i帧的 第二观看舒适度影响因子, /和/为加权值; 所述第 i帧为所述立体视频段中 的任意视频帧。
26、 如权利要求 24所述的装置, 其特征在于, 所述提取模块具体用于, 根据以下公式计算 J
V = min DisPi - min Dis ;^
根据以下公式计算 J
域的变化:
V2' = (P (min Disp; ) - P (min Dis ;^ )) / P (min Disp; )
根据以下公式计算所述立体视频段的视频帧的第二观看舒适度影响因 子:
Figure imgf000065_0001
其中, V表示第 i帧的参考视差在时域的变化, min DisA和 min Disp^分 别为第 i帧和第 i-1帧的参考视差; 表示第 i帧的参考视差出现的频率在时 域的变化, ?(1^11 018 1)和?(111111 018^1)分别为第 i帧和第 i-1帧的参考视差 的百分比; 为第 i帧的第二观看舒适度影响因子, 和/为加权值, 所述第 i帧为所述立体视频段中的任意视频帧。
27、 如权利要求 18-26中任一项所述的装置, 其特征在于, 所述评价模块 具体用于:
根据所述立体视频段的每一个视频帧的空域特性和时域特性, 分别计算 所述每一个视频帧的观看舒适度;
根据所述立体视频段的每一个视频帧的视觉焦点位置, 对所述立体视频 段进行子段划分, 每个子段的视频帧的视觉焦点位置转移量不大于设定转移 量阔值; 根据每个子段内每个视频帧的观看舒适度, 分别计算所述每个子段 的观看舒适度;
根据每个子段的观看舒适度计算所述立体视频段的观看舒适度。
28、 如权利要求 27所述的装置, 其特征在于, 所述评价模块具体用于, 根据以下公式计算所述立体视频段的视频帧的观看舒适度:
QP = or* Spatial _ frame _ VC; + ?*Temperal _ frame _ VC;
Spatial _ frame _vct =
1 + cl * dispdistributio * exp (- 1 min DisPl I *bl * eP(minDisp' ) )
Temperal _ frame— vc; = 1 + cl * exp (― I Vd' I *b2)
其中, (¾为第 i帧的观看舒适度, Spatial- frame -vct为第 i帧的空域特 性决定的第 i帧的观看舒适度, Tenperal _ frame _vct为第 i帧的时域特性决 定的第 i帧的观看舒适度, a和 ?为加权值; dispd^bu^1为第 i帧的第一观看 舒适度影响因子, minDispi为第 i帧的参考视差, P(minDisPi)为第 i帧的参考 视差的百分比; 为第 i帧的第二观看舒适度影响因子; bl、 b2和 cl为模型 参数, 所述 bl、 b2和 cl为设定值, 所述第 i帧为所述立体视频段中的任意视 频帧; 视频段的视频帧对应的视差集合, 所述视差集合为所述立体视频段的视频帧 可视区域内的像素视差集合, 且其中的每个视差值对应的像素数量均大于所 述设定阔值; 将所述视差集合中的最小视差值确定为所述立体视频段的视频 帧的参考视差;
所述立体视频段的视频帧的参考视差的百分比为: 所述立体视频段的视 频帧的可视区域内, 视差为所述立体视频段的视频帧参考视差的像素数目与 有效像素数目的比值;
所述立体视频段的视频帧的第一观看舒适度影响因子根据所述立体视频 段的视频帧是否存在边框效应以及是否满足下近上远空间布局来确定; 所述 边框效应是指对于一个视频帧, 如果成像于屏幕边缘的物体的视差为交叉视 差, 且所述物体的一部分超出了屏幕范围, 则存在边框效应; 所述下近上远 是指一个视频帧对应的成像于屏幕底端的物体的感知深度离观众近、 成像于 屏幕顶端的物体的感知深度离观众远;
所述立体视频段的视频帧的第二观看舒适度影响因子根据所述立体视频 段的视频帧的参考视差在时域的变化, 和 /或所述立体视频段的视频帧的参考 视差出现的频率在时域的变化来确定, 所述第二观看舒适度影响因子数值的 大小表示视频帧的参考视差在深度方向变化的程度。
29、 如权利要求 27或 28所述的装置, 其特征在于, 所述评价模块具体 用于, 根据以下公式计算所立体视频段的的观看舒适度:
Figure imgf000067_0001
其中, Qs k为第 k个子段的舒适程度, (¾为所述第 k个子段内的第 i帧的 观看舒适度, NF为所述第 k个子段内视频帧的数目, 和 c2为设定数值, 所述第 k个子段为所述立体视频段中的任意一个子段。
30、 如权利要求 27-29中任一项所述的装置, 其特征在于, 所述评价模块 具体用于, 根据以下公式计算所述立体视频段的观看舒适度:
Figure imgf000067_0002
其中, Q为所述立体视频段的观看舒适度, Qs k为所述立体视频段内第 k 个子段的舒适程度, Ns为所述立体视频段内子段的数目, P o c2为设定值。
31、 如权利要求 18-26中任一项所述的装置, 其特征在于, 所述评价模块 具体用于: 根据所述立体视频段的视频帧的空域特性, 计算所述立体视频段 的空域特性;
根据所述立体视频段的视频帧的时域特性, 计算所述立体视频段的时域 特性;
根据所述立体视频段的空域特性和时域特性, 计算所述立体视频段的观 看舒适度。
32、 如权利要求 31所述的装置, 其特征在于, 所述立体视频段的视频帧 的空域特性包括以下参数之一或任意组合: 所述立体视频段的视频帧的参考 视差, 参考视差的百分比和第一观看舒适度影响因子;
所述立体视频段的视频帧的空域特性通过如下方式获得:
将所述立体视频段的视频帧的可视区域内, 满足以下条件的像素的视差 值确定为所述立体视频段的视频帧的参考视差: 所述立体视频段的视频帧的 可视区域内所述参考视差对应的像素的数量大于设定像素数量阔值, 且所述 参考视差为视差集合中的最小视差值; 所述视差集合为所述立体视频段的视 频帧可视区域内的像素视差集合, 且其中的每个视差值对应的像素数量均大 于所述设定阔值;
所述立体视频段的视频帧的参考视差的百分比, 所述立体视频段的视频 帧的参考视差的百分比为: 所述立体视频段的视频帧的可视区域内, 视差为 所述立体视频段的视频帧的参考视差的像素数目与有效像素数目的比值; 所述立体视频段的视频帧的第一观看舒适度影响因子, 所述立体视频段 的视频帧的第一观看舒适度影响因子根据所述立体视频段的视频帧是否存在 边框效应以及是否满足下近上远空间布局来确定; 所述边框效应是指对于一 个视频帧, 如果成像于屏幕边缘的物体的视差为交叉视差, 且所述物体的一 部分超出了屏幕范围, 则存在边框效应; 所述下近上远是指一个视频帧对应 的成像于屏幕底端的物体的感知深度离观众近、 成像于屏幕顶端的物体的感 知深度离观众远;
所述评价模块具体用于, 根据以下公式计算所述立体视频段中所有视频 帧的参考视差的加权平均值:
N
^ minDispj * P (minDispj )
minDisp =―
^ P (minDispj ) 值, N为所述立体视频段中视频帧的数目, minDisPi为第 i帧的参考视差, P (min DisPi )为第 i帧的参考视差的百分比, 所述第 i帧为所述立体视频段中 的任意视频帧;
根据以下公式计算所述立体视频段内所有视频帧的第一观看舒适度影响 因子的平均值:
Figure imgf000069_0001
其中, dispdisttibutin为所述立体视频段内所有视频帧的第一观看舒适度影 响因子的平均值, dispd^butj为第 i帧的第一观看舒适度影响因子, N为所述 立体视频段中视频帧的数目, 所述第 i帧为所述立体视频段中的任意视频帧。
33、 如权利要求 31或 32所述的装置, 其特征在于, 所述立体视频段的 视频帧的时域特性包括:
所述立体视频段的视频帧的第二观看舒适度影响因子, 所述立体视频段 的视频帧的第二观看舒适度影响因子根据所述立体视频段的视频帧的参考视 差在时域的变化, 和 /或所述立体视频段的视频帧的参考视差出现的频率在时 域的变化来确定, 所述第二观看舒适度影响因子数值的大小表示视频帧的参 考视差在深度方向变化的程度;
所述评价模块具体用于, 根据以下公式计算所述立体视频段的第二观看 舒适度影响因子:
Figure imgf000069_0002
其中, vd 为所述立体视频段的第二观看舒适度影响因子, Vd1为所述立体 视频段内第 i帧的第二观看舒适度影响因子, 为设定值, 的取值根据 V和 min DisR的符号来确定, N为所述立体视频段中视频帧的数目, 所述第 i帧 为所述立体视频段中的任意视频帧。
34、 如权利要求 31-33中任一项所述的装置, 其特征在于, 所述评价模块 具体用于, 根据以下公式计算所述立体视频段的观看舒适度:
VC = * Spatial _vc + ? * Temper al― vc
Spatial— vc = 1 + c3 * dispdistribution * ex (- 1 minDisp I *bl)
Temperal _ vc = 1 + c3 * exp (- IVd I)
其中, VC为所述立体视频段的观看舒适度, 和 为加权值; bl、 c3为 设定值; Spatial _ frame— vc为空域特性决定的所述立体视频段的观看舒适度, Temperal _ frame— vc为时域特性决定的所述立体视频段的观看舒适度; disPd^bution为所述立体视频段内所有视频帧的第一观看舒适度影响因子的平
为所述立体视频段的第二观看舒适度影响因子。
PCT/CN2014/082079 2013-12-27 2014-07-11 一种立体视频舒适度评价方法及装置 WO2015096461A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310740605.XA CN104754322B (zh) 2013-12-27 2013-12-27 一种立体视频舒适度评价方法及装置
CN201310740605.X 2013-12-27

Publications (1)

Publication Number Publication Date
WO2015096461A1 true WO2015096461A1 (zh) 2015-07-02

Family

ID=53477473

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2014/082079 WO2015096461A1 (zh) 2013-12-27 2014-07-11 一种立体视频舒适度评价方法及装置

Country Status (2)

Country Link
CN (5) CN104754322B (zh)
WO (1) WO2015096461A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106341677B (zh) * 2015-07-07 2018-04-20 中国科学院深圳先进技术研究院 虚拟视点视频质量评价方法
CN105335992B (zh) * 2015-10-15 2020-02-04 北京邮电大学 一种三维动画场景帧评分模型确定方法及装置
CN106028025B (zh) * 2016-05-11 2017-11-21 吉林大学 一种针对辐辏与调节一致性的3d视频舒适度评价方法
CN106210710B (zh) * 2016-07-25 2018-01-30 宁波大学 一种基于多尺度字典的立体图像视觉舒适度评价方法
CN106851246B (zh) 2017-02-06 2019-08-23 京东方科技集团股份有限公司 用于确定三维图像或视频的视觉疲劳度的方法和设备
CN109429051B (zh) * 2017-07-12 2020-08-18 天津大学 基于多视图特征学习的无参考立体视频质量客观评价方法
CN107909565A (zh) * 2017-10-29 2018-04-13 天津大学 基于卷积神经网络的立体图像舒适度评价方法
CN109905694B (zh) * 2017-12-08 2020-09-08 中移(杭州)信息技术有限公司 一种立体视频的质量评价方法、装置和设备
CN109089111B (zh) * 2018-10-22 2020-05-26 Oppo广东移动通信有限公司 一种立体视频舒适度评价方法、系统及终端设备
CN110691236B (zh) * 2019-09-18 2021-05-07 宁波大学 一种全景视频质量评价方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101582063A (zh) * 2008-05-13 2009-11-18 华为技术有限公司 视频服务系统、视频服务装置及其关键帧的提取方法
US20120098823A1 (en) * 2010-10-22 2012-04-26 Samsung Electronics Co., Ltd. Display apparatus and method
CN103096122A (zh) * 2013-01-24 2013-05-08 上海交通大学 基于感兴趣区域内运动特征的立体视觉舒适度评价方法
CN103096106A (zh) * 2011-11-01 2013-05-08 三星电子株式会社 图像处理设备和方法
CN103595990A (zh) * 2013-10-30 2014-02-19 清华大学 运动感知的双目立体视频舒适度获取方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101105359B1 (ko) * 2010-06-22 2012-01-16 연세대학교 산학협력단 깊이 영상에 기반한 3차원 영상의 피로도 측정 방법 및 장치
GB2485532A (en) * 2010-11-12 2012-05-23 Sony Corp Three dimensional (3D) image duration-related metadata encoding of apparent minimum observer distances (disparity)
CN103096125B (zh) * 2013-02-22 2015-03-04 吉林大学 基于区域分割的立体视频视觉舒适度评价方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101582063A (zh) * 2008-05-13 2009-11-18 华为技术有限公司 视频服务系统、视频服务装置及其关键帧的提取方法
US20120098823A1 (en) * 2010-10-22 2012-04-26 Samsung Electronics Co., Ltd. Display apparatus and method
CN103096106A (zh) * 2011-11-01 2013-05-08 三星电子株式会社 图像处理设备和方法
CN103096122A (zh) * 2013-01-24 2013-05-08 上海交通大学 基于感兴趣区域内运动特征的立体视觉舒适度评价方法
CN103595990A (zh) * 2013-10-30 2014-02-19 清华大学 运动感知的双目立体视频舒适度获取方法

Also Published As

Publication number Publication date
CN107155106A (zh) 2017-09-12
CN106973288B (zh) 2019-08-13
CN107181940A (zh) 2017-09-19
CN107181940B (zh) 2019-05-03
CN104754322A (zh) 2015-07-01
CN104754322B (zh) 2018-01-23
CN107155105A (zh) 2017-09-12
CN107155105B (zh) 2019-03-01
CN106973288A (zh) 2017-07-21
CN107155106B (zh) 2019-03-01

Similar Documents

Publication Publication Date Title
WO2015096461A1 (zh) 一种立体视频舒适度评价方法及装置
Nojiri et al. Measurement of parallax distribution and its application to the analysis of visual comfort for stereoscopic HDTV
US9277207B2 (en) Image processing apparatus, image processing method, and program for generating multi-view point image
EP3311361B1 (en) Method and apparatus for determining a depth map for an image
EP2293586A1 (en) Method and system to transform stereo content
US20110109731A1 (en) Method and apparatus for adjusting parallax in three-dimensional video
US20140009462A1 (en) Systems and methods for improving overall quality of three-dimensional content by altering parallax budget or compensating for moving objects
KR20080076628A (ko) 영상의 입체감 향상을 위한 입체영상 표시장치 및 그 방법
EP2153669A1 (en) Method, apparatus and system for processing depth-related information
JP2013172190A (ja) 画像処理装置、および画像処理方法、並びにプログラム
US10110872B2 (en) Method and device for correcting distortion errors due to accommodation effect in stereoscopic display
CN108449596A (zh) 一种融合美学和舒适度的3d立体图像质量评估方法
JP2012222472A (ja) 画像処理装置、画像処理方法、コンピュータプログラム、および、記録媒体
TWI491244B (zh) 調整物件三維深度的方法與裝置、以及偵測物件三維深度的方法與裝置
Zhang et al. Visual comfort assessment of stereoscopic images with multiple salient objects
KR20130142008A (ko) 신뢰도 기반의 스테레오 매칭 방법 및 장치
CN110060291B (zh) 一种考虑人因的立体视在距离解算方法
Bokov et al. Toward fully automatic channel-mismatch detection and discomfort prediction for S3D video
Ye et al. A visual comfort metric for stereoscopic 3D video based on SMDE approach
Hwang et al. User-friendly inter-pupillary distance calibration method using a single camera for autostereoscopic 3D displays
Chen et al. Visual discomfort induced by adjustment of convergence distance in stereoscopic video
Jia et al. Algorithmic assessment of 3D quality of experience
JP2014507906A (ja) 立体シーンにおける焦点面の位置を管理するためのデバイスおよび方法
JP2015173328A (ja) 映像表示装置及び映像表示方法
JP2020021168A (ja) 不快度推定装置及び不快度推定プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14875243

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14875243

Country of ref document: EP

Kind code of ref document: A1