WO2010007286A2 - Method of referenceless measurement of the perceived quality of a signal and corresponding device - Google Patents

Method of referenceless measurement of the perceived quality of a signal and corresponding device Download PDF

Info

Publication number
WO2010007286A2
WO2010007286A2 PCT/FR2009/051186 FR2009051186W WO2010007286A2 WO 2010007286 A2 WO2010007286 A2 WO 2010007286A2 FR 2009051186 W FR2009051186 W FR 2009051186W WO 2010007286 A2 WO2010007286 A2 WO 2010007286A2
Authority
WO
WIPO (PCT)
Prior art keywords
signal
content
perceived quality
class
measurement
Prior art date
Application number
PCT/FR2009/051186
Other languages
French (fr)
Other versions
WO2010007286A3 (en
Inventor
Nicolas Ramin
Ricardo Pastrana Vidal
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom filed Critical France Telecom
Publication of WO2010007286A2 publication Critical patent/WO2010007286A2/en
Publication of WO2010007286A3 publication Critical patent/WO2010007286A3/en

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N17/004Diagnosis, testing or measuring for television systems or their details for digital television systems

Definitions

  • the present invention relates generally to the field of signal processing, and in particular to the evaluation of the subjective quality of image, video, audio or audiovisual signals.
  • the invention relates to a method of objective evaluation of the subjective quality, that is to say as perceived by a recipient, such signals. Given an initial non-degraded signal, it is sought to evaluate the subjective quality of this signal when it is degraded due to transformations or transmission through a communication chain.
  • the invention thus finds particular application in the monitoring, control, adaptation or optimization of communication channels, at the coding, transmission or playback of the degraded initial signal.
  • objective measurements of the quality of visual or sound signals are automated measurements that oppose subjective measurements, made visually or audibly by natural persons.
  • Subjective measures of quality remain the most used and most effective measures in the field of measuring the quality of audio or image signals, which include video signals, but are very expensive since they require to be put in place. a panel of people in situations of listening or seeing sound or visual samples of the signals to be evaluated.
  • the existing methods of objective measurement of the quality of an audio or image signal are mainly divided into three categories:
  • the first category brings together fully referenced measurement methods, which compare the degraded signal to be evaluated with the corresponding initial signal.
  • One of these methods is for example the measurement of the PSNR (according to the English "Peak Signal-to-Noise Ratio") or even the method BTFR (according to English "British Telecom FuII
  • the use of such methods has the disadvantage of requiring the availability of the initial signal, which is not always possible especially when measuring the quality of the degraded signal at the end of
  • the second category concerns the measurement methods with reduced reference, which use information extracted from the initial signal and the degraded signal to be evaluated, to measure the subjective quality of this signal. These methods compare, for example, statistical data calculated on the initial signal, such as a measure of blur or a measure of block effects on the initial signal by e.
  • the third category brings together measurement methods without reference, which evaluate the quality of a degraded signal without using either the corresponding initial signal or information extracted from this initial signal.
  • These methods focus on measuring events on the degraded signal to be evaluated, such as the amplitude and duration of signal degradations, to evaluate the perceived quality of the degraded signal.
  • Such a method is described in the patent application FR2884087 to R. Pastrana et al., Entitled “Method and device for assessing quality degradation caused by invariance of a stimulus, as perceived by a recipient of said stimulus”.
  • These non-reference measurement methods thus offer the advantage of being usable on all the elements of a communication chain in which the degraded signal to be evaluated passes, without requiring an additional channel conveying information on the corresponding initial signal.
  • One of the aims of the present invention is to overcome the disadvantages of the prior art by providing a method and a measuring device without reference to the perceived quality of a signal carrying data representative of a content at least visual or sound.
  • the invention proposes a measurement method without reference to the perceived quality of a signal carrying data representative of a at least visual or sound content, characterized in that it comprises the steps of:
  • indexing said content determining at least one semantic class of said content, and estimating the perceived quality of said signal by using a measurement method without reference of perceived quality, said method being adapted to said class of membership or a content type of said class.
  • the inventors have noted that the semantics attached to the different classes or types of content have an influence that is not taken into account by the current measurement methods based on the only signal analysis. For example, a signal degradation does not have the same impact on a video showing an athletic race as on a more static type of video such as an interview.
  • the invention thus makes it possible to maximize the accuracy and robustness of the measurement without reference to the perceived quality of this signal, depending on the application context.
  • the device and the method according to the invention strongly restrict the current inter-content dispersion of the estimates without reference to perceived quality.
  • said estimation step is preceded by a step of selecting said measurement method without reference to perceived quality among a set of non-reference measurement methods adapted to various types or classes of content semantic membership.
  • said selection step takes account of at least one speed parameter of the measurement method to be selected or a parameter of measurement accuracy of perceived quality.
  • This feature makes it possible to use the non-reference measurement method according to the invention in very different contexts: for example to evaluate the perceived quality of a signal in a piece of equipment of a communication chain, an expensive measurement method is selected. in calculations of which quite slow but very precise, while to evaluate the perceived quality of a signal in a mobile terminal, of low capacity, one selects a method of measurement inexpensive in computing resources and therefore fast even if less precise.
  • the method according to the invention is thus portable depending on the context, but also available data.
  • meta-information not extracted from the initial source signal but bearing for example on the nature of the signal to be evaluated, or on a specific application context, are available at the level of the measuring device without reference according to the invention, these meta-information information is used to further improve the accuracy of the measurement without reference to the perceived quality of the signal.
  • said indexing step is preceded by a step of selecting said indexing method from among a set of indexing methods, said selection step taking account of at least one speed parameter of the indexing method. indexing method to be selected or a measurement accuracy parameter of perceived quality.
  • said indexing step takes account of at least one meta-information on said signal.
  • This characteristic makes it possible to directly index the signal to be evaluated by using a meta-information on this signal, for example an indication of the semantic content of the signal, without using an indexing method. complex using a motion analysis or colors if it is a video signal for example.
  • said estimation step comprises a substep of extraction in said signal of primitives related to the estimation of the perceived quality of said signal, said primitives being adapted to said membership class or said type. content of said class.
  • This sub-step of extraction of primitives, common to most existing measurements without reference of perceived quality, is here adapted to the class or the type of content of the signal to be evaluated: one extracts only the primitives of the signal which are relevant for evaluate the perceived quality of this signal given the class or type of the corresponding content.
  • This adapted extraction of primitives makes it possible to further improve the accuracy and the robustness of the estimate of the perceived quality of the signal. It also makes it possible to save computing resources with respect to a quality measurement that generically extracts any primitive that is useful for measuring the quality of any content, and then takes into account the type of content corresponding to the signal to be evaluated only when a last step of integration of the signal degradation measures to arrive at a score of perceived quality.
  • said estimation step comprises a substep of analysis of at least one of said images, and a substep of extraction. primitives related to the estimation of the perceived quality of said signal as a function of one or more regions identified in said image during the analysis step.
  • the signal to be analyzed is a video
  • the invention also relates to a measurement device without reference to the perceived quality of a signal carrying data representative of a content at least visual or sound, characterized in that it comprises:
  • the means for obtaining indexing data are limited in certain cases to sending a request to an indexing server and receiving a response from this indexing server, for example. example when the indexing of the content is performed outside the device according to the invention in this indexing server.
  • the invention also relates to a terminal incorporating the device according to the invention, as well as a computer program comprising instructions for implementing the measurement method without reference according to the invention, when it is executed on a computer.
  • FIG. 1 represents a measurement device without reference to the perceived quality of a signal according to the invention, used at the end of a communication chain delivering the signal,
  • FIG. 2 represents steps of the measurement method without reference to the perceived quality of a signal according to the invention
  • FIG. 3 represents an embodiment of the measuring device without reference of perceived quality according to the invention
  • FIG. 4 represents sub-steps of a step of estimation of perceived quality of the method according to the invention, when said estimate has low computing resources
  • FIG. 5 represents sub-steps of a perceived quality estimation step according to the invention, when said estimate has larger calculation resources.
  • a device G shown in Figure 1 placed at the end of a communication chain.
  • the latter comprises at its source a device DP for producing a content, which is delivered to a coding device DC which encodes this content in an initial signal transmitted over a communication network RES to a decoding device DD.
  • the decoding device DD delivers a signal S that is degraded with respect to the initial signal, to the measuring device G without reference to perceived quality according to the invention.
  • the signal S corresponds to an image, audio, video or audiovisual content, the principle of the invention remaining the same in each of these cases, and certain process steps.
  • the device G is for example integrated in a terminal rendering the content corresponding to the degraded signal to a user. It is of course usable at other locations of the communication chain, for example in a decoder placed directly at the output of the DC encoding device.
  • the device G receives as input the degraded signal S, a measurement parameter p of perceived quality and a parameter k of measurement method or indexing speed used by the method.
  • the parameters p and k make it possible to adapt the measurement method without a reference of perceived quality according to the invention, implemented in the device G, to a given application context: for example if the device G is implemented in a server controlling the quality of the device.
  • the parameter p will indicate a desired maximum quality measurement accuracy and the parameter k a possible large calculation time of measurement or indexing method; on the other hand, if the device G is implemented in a mobile terminal, and therefore has low computing and display capacities, the parameter p will indicate a measurement accuracy of average quality and the parameter k a rapid calculation speed of measurement method or indexing.
  • the device G also optionally receives as input a parameter m comprising one or more meta-information on the signal S, not extracted from the initial signal, depending on the availability of these meta-information.
  • these meta-information items are an indication of the user service related to the signal S, an indication of the nature of the content corresponding to the signal S, or an indication of the quality of the transmission of the signal S. These indications are in fact susceptible of accelerate or modify certain steps of the measurement method without reference to perceived quality according to the invention, as detailed below.
  • the device G delivers an estimate Q of the perceived quality of the signal S, on a measurement scale of perceived quality.
  • this estimate Q is delivered on a scale of 0 to 100, the minimum of this scale indicating a very poor perceived quality and the maximum of this scale indicating a very good perceived quality.
  • an MOS score (according to the English “Mean Opinion Score") of the signal S, varying on a scale of 1 to 5, or the ACR scale (of the English “Absolute Category Rating") defined in the "ITU-T Recommendation P. 910" entitled “Subjective Video Quality Assessment Methods for Multimedia Applications", or the SAMVIQ ("Subjective Assessment Methodology for Video Quality”), defined in Recommendation ITU-R BT.1788.
  • the scale used is the same irrespective of the value of the precision parameter p supplied at the input of the device G. Indeed, only the reliability of the estimation of the Quality measurement varies according to the precision p parameter.
  • the perceived quality of the signal S is estimated in four steps E1 to E4 by the measurement method without reference to perceived quality according to the invention implemented in the device G.
  • Step E1 is the selection of an indexing method from among a set of indexing methods, as a function of the precision parameter p and the speed parameter k.
  • This step E1 is implemented in a software module G1 of the device G, represented in FIG.
  • the software module G1 selects either an indexing method by type of content, implemented in a software module G21, or a content class indexing method, implemented in a software module G22, the method of Indexing by content class is a coarser indexing method and therefore less complex than the indexing method by type of content.
  • a content class is a content semantic membership class, encompassing several types of content.
  • a class encompassing the video content of grass sports there is for example, among other classes of content, a class encompassing the video content of grass sports, a class encompassing the video content of track sports, a class encompassing sky-sea documentaries, and a class encompassing videos showing a presenter or interlocutor.
  • the class encompassing grass sports videos there are several types of content, such as a content type encompassing football match videos, a content type encompassing rugby videos, or a content type encompassing a football game. polo match.
  • the software module G1 selects the indexing method by type of content, and sends the signal S to the software module G21.
  • the software module G1 selects the indexing method by content class, and sends the signal S to the software module G22 .
  • the next step E2 is the indexing of the content corresponding to the signal S.
  • This step is implemented in the software module G2, and more precisely either by the software module G21, or by the software module G22, depending on the method of indexing selected in step E1.
  • a method of indexing by content class has been selected in step E1
  • a parameter m containing information on the nature of the content corresponding to the signal S is available at the input of the device G
  • the indexing of the content corresponding to the signal S uses this parameter m. If the signal S is a video, this parameter m is for example obtained by interrogating a video broadcast programming server, and indicates a content class or a content type, which do not necessarily correspond to the classification of the contents.
  • the module G22 uses a correspondence table between the classification of the programming server and that used by the device G, to determine a content class C corresponding to the signal S.
  • the module G22 uses a coarse indexing method for classifying the content of the signal S in a content class C.
  • the signal S is a video
  • a colorimetric study of the images of the signal S using for example a distance between a dominant color in these images and the dominant colors associated with the content classes defined in the device G, allows, in association with a motion estimation of the camera having taken these images, to roughly index the video corresponding to the signal S.
  • a method for estimating camera movement that can be used is described in the article "Robust Multiresolution Estimation of Parametric Motion Models" of J. Odobez et al., Published in 1995 in the Journal of Visual Communication and Image Representation. So:
  • the video corresponding to the signal S is classified in the content class including the videos showing a presenter or interlocutor, if the camera has a large amplitude movement and the images have a dominant gray or brown color, the video corresponding to the signal S is classified in the content class including the track sports videos,
  • the module G22 performs, for example, a rough indexing of the signal S in a content class corresponding to the speech signals, or in a content class corresponding to the music signals. This indexing uses, for example, models of sound signals corresponding to music or speech, to classify the signal S. Indexing methods that can be used for the sound signals in this module G22 are described in:
  • step E2 when a content type indexing method has been selected in step E1, and a parameter m containing information on the nature of the content corresponding to the signal S is available at the input of the device G, then in this step E2 the module G21 uses this parameter m to determine a type t of content corresponding to the signal S.
  • the module G21 uses in this step E2 a fine indexing method for classifying the content of the signal S in a type t of content, within the limits imposed by the parameter k indicating the maximum possible calculation time for the measurement of perceived quality of the signal S.
  • the module G21 uses the indexing method of the module G22 to determine a class C of content associated with the signal S, then uses forms recognition methods specific to the content types of the class C for indexing the content corresponding to the signal S in a type t of content. For example if class C is the class encompassing grass sports videos, module G21 detects the shape of the goals or the layout of the field lines in the images of the signal S to determine if it corresponds to the type of content encompassing the match videos football or content type that includes rugby match videos.
  • the module G21 uses the indexing method of the module G22 to determine a class C of content associated with the signal S, then uses, for example, observations functions that are specific to certain types of content. audio to determine the type t of content corresponding to the signal S.
  • observations functions are described for the class of musical signals, in the thesis of S. Rossignol of the University of Paris 6, entitled “Segmentation and indexation of musical sound signals ", and supported in 2000.
  • the module G21 When the module G21 fails to determine a type t of content corresponding to the signal S, for example because such observation functions are not available for the class C content associated with the signal S, or because the The maximum computation time imposed by the parameter k does not allow a fine indexing of this content, the module G21 merely indexes the content of the signal S per content class.
  • the module G21 indexed the content corresponding to the signal S in a content type t or a content class C, or the module G22 indexed the content corresponding to the signal S in a class C of content.
  • the type t of content or the class C of content are output from the modules G21 or G22 to the software module G3 for example in the form of integers, each assigned to a content type or a specific content class in the classification. contents used by the device G.
  • the content type t or the content class C are provided to the software module G3 in the form of probability vectors.
  • the probability vector associated with the type t of content indicates the probability of belonging of the content corresponding to the signal S to each of the types of content. contents belonging to the classification of contents used by the device G.
  • the next step E3 is the selection of a measurement without reference of perceived quality, adapted to the content class C or the content type t corresponding to the signal S and determined at the end of the step E2.
  • This step is implemented in the G3 software module, and takes into account the precision p and k speed parameters.
  • the software module G3 sends the signal S, ie: to the software module G41, which adapts a measurement method without reference of perceived quality to the type t or to the content class C determined in step E2, by a specific extraction of primitives and / or a specific parameterization of this method, either to the module G42, which uses a measurement without reference of perceived quality more complex and more precise, also adapted to the type t or the class C of contents determined with step E2, but using a preliminary analysis of the signal S.
  • the signal S ie: to the software module G41, which adapts a measurement method without reference of perceived quality to the type t or to the content class C determined in step E2, by a specific extraction of primitives and / or a specific parameterization of this method, either to the module G42, which uses a measurement without reference of perceived quality more complex and more precise, also adapted to the type t or the class C of contents determined with step E2, but using a preliminary analysis of the signal S.
  • the software module G3 selects the measurement without reference of perceived quality implemented by the software module G42, and sends the signal S to the software module G42 if no measurement implemented in the software module G41 makes it possible to accurately predict the quality of the signals of the same semantic content, if the parameter k indicates a desired low calculation time, the software module G3 selects the measurement without perceived quality reference implemented by the software module G41, and sends the signal S to the software module G41, - and if the parameter p indicates a low measurement accuracy of perceived quality, and the parameter k a significant calculation time possible, the software module G3 selects the measurement without a perceived quality reference implemented by the software module G41, and sends the signal S to the software module G41.
  • the next step E4 is the estimation of the perceived quality of the signal S, without reference to the corresponding initial signal.
  • This step is implemented in the software module G4, and more precisely either in the software module G41 or in the software module G42, according to the method without reference selected in step E3.
  • step E3 the software module G3 has sent the signal S to the module G41, then the estimation of the perceived quality of the signal S takes place in three steps E41A to E43A shown in FIG. 4:
  • Step E41A is a primitive extraction step related to the estimation of the perceived quality of the signal S.
  • primitives of the signal S are extracted in this step E41A.
  • Primitives that can be used to measure the perceived quality of the signal S are, for example: image or image sequence of the spatial gradients of the signal S if the signal S is an image or a video,
  • this primitive extraction step E41A is generic or, on the contrary, adapted to the class C or the type t of the content corresponding to the signal S.
  • This adaptation consists, for example, in a choice of primitives to extract or in a specific way to extract them.
  • this step E41A extracts the number of signal losses whose duration is greater than a certain threshold, this threshold depending on the class C or the type t of the corresponding content. to the signal S.
  • the perceptual detection threshold of a signal loss is slightly different if the signal considered is a speech signal or a musical signal.
  • Step E42A is the calculation of the degradations on the signal S, using the primitives extracted in step E41A. For example, if the signal S is an audio or video signal, and if in step E41 A:
  • a cognitive model is applied to these signal losses, giving an estimate of the degradation of the subjective quality of the signal due to loss of signal.
  • This cognitive model is different depending on whether one calculates a degradation due to the losses of audio signal, or a degradation due to the freezes of images. It uses a temporal accumulation of impairments due to signal losses in the audio or video signal sequence. Moreover, its parameters are determined in such a way as to obtain a strong correlation between measurement results of perceived quality derived from subjective tests and measurement results of perceived quality provided by the cognitive model.
  • Such a cognitive model is described for video signals in the article by Ricardo R.
  • Step E43A is the integration of the degradation calculations in step E42A into a cognitive model giving an estimate of the perceived quality of the signal S, taking into account all the types of impairments taken into account in step E42A.
  • This integration is adapted to the class C or the type t of the content corresponding to the signal S, by integrating degradations themselves calculated in a manner adapted to the class C or the type t of this content and / or by the use a cognitive model parameterized in a way adapted to the class C or the type t of this content.
  • the cognitive model described in the patent application EP1864510 is used, which makes it possible to give an estimate of the perceived quality of a video signal taking into account the interaction between the spatial degradations and the degradations.
  • the temporal impairments correspond, for example, to the image gels detected on the image sequence corresponding to the signal S, by using the cognitive model described above in relation with the step E42A.
  • the spatial degradations correspond for example to measurements of blur, carried out with the method without reference described in the article of P. Marziliano and al., Entitled “A no-reference perceptual blur metric", and published in 2002 on the occasion an international conference "International Conference on Image Processing".
  • a cognitive model is used whose parameters are determined in such a way as to obtain a strong correlation between measurement results of perceived quality derived from subjective tests on contents of class C or of type t determined in step E2. , and perceived quality measurement results provided by the cognitive model.
  • the module G41 has for this cognitive model, a set of parameters by content type and by content class belonging to the content classification used by device G.
  • cognitive models are of course usable in this step E43A, for example a model integrating the contribution of other types of impairments, for example by means of block effect measurements carried out at step E42A when the signal S is a video.
  • step E4 the estimation of the perceived quality of the signal S uses a preliminary analysis of the signal. This analysis makes it possible to extract low or high level primitives associated with certain components of the signal, for which the impact of the impairments on the perceived quality of the signal S is different according to the nature of these components. For example, for a signal S corresponding to a video signal, the estimation of the perceived quality of the signal S takes place in five steps E41 B to E45B represented in FIG.
  • Step E41 B is the analysis of an image of a sequence of images of the signal S.
  • This analysis makes it possible to detect regions of interest in the signal S, as a function of the class C or the type t of content determined in step E2. For example, if in step E2 it has been determined that the content of the signal S belongs to the class of content encompassing the videos showing a presenter or interlocutor, one or more faces are detected in this image.
  • This detection uses, for example, the localization method described in the article by C. Garcia and M. Delakis, entitled “Convolutional Face Finder: a Neural Architecture for Fast and Robust Face Detection” and published in the IEEE magazine (based on Institute of Electrical and Electronic Engineer “Transactions on Pattern Analysis and Machine Intelligence” in November 2004.
  • step E41 B one or more regions corresponding to FIG. sky and one or more regions corresponding to the sea.
  • the regions of the image having a colorimetry close to that of the sky or the clouds are detected, and the regions of the image having a colorimetry close to that of the sea, by using a set of reference images for these colorimetric determinations.
  • the impact of the degradations on the regions thus detected will not be the same, from the point of view of the perceived quality of the signal S, as the impact of the degradations on the other regions of the image, which correspond to objects attracting the attention of a viewer.
  • step E41 B several successive or regular images are preferably analyzed in the signal S in order to detect changes in the content of the signal S. For example, this makes it possible to detect that a sequence of images showing a presenter is followed by a sequence of images with the presenter and an interlocutor.
  • step E42B is the adapted extraction of primitives useful for the calculation of the impairments on the signal S, impacting the perceived quality of the signal S.
  • primitives are for example the loss of an object of interest in one or more images signal S, or the detection of block effects or blur on this object of interest.
  • this step E42B is extracted.
  • Step E43B performed after or in parallel with this step E42B, is the selection of an ad hoc cognitive model as a function of the analysis carried out in step E41B and according to the class C or the type t of content corresponding to the signal S.
  • This cognitive model is more particularly adapted to the regions of interest detected in step E41 B: for example, in the case where the signal S is a sky-sea documentary video, this cognitive model takes into account the degradations due to the compression effects of the images, differently depending on the regions of degraded images.
  • This cognitive model is for example a model specific to a type t or a class C of content, in which the impacts of each type of degradation are weighted according to the regions impacted by these impairments in the images of the signal S.
  • an ad hoc cognitive model For a class C content or a type t of content and a combination of regions of interest detected in step E41 B, is determined in this step E43B an ad hoc cognitive model. This model gathers at the same
  • this cognitive model is for example:
  • Q is the estimate of the perceived quality of the signal S, is the sum of the degradations taken into account in this model, clipped to a perceptual maximum
  • - d is the sum of the degradations considered on one of the semantic objects detected in the signal S, that is to say either on all the sky regions, or on all the sea regions, or on the other regions of the S signal images,
  • S 1 is a weighting coefficient of the impairments considered on this semantic object, this coefficient being previously determined by subjective tests
  • P 1J is a primitive extracted in step E42B on this semantic object, for example the density of zones. homogeneous in the sky regions if the semantic object considered is the sky,
  • step E44B is the calculation of the degradations on the signal S, using the primitives extracted in step E42B. This calculation uses the corresponding coefficients in the cognitive model selected in step E43B.
  • the degradation due to the density of homogeneous zones in the sky regions of the images of a sky-sea documentary will be: - the density of homogeneous zones in the sky regions of the S-signal images corresponding to this sky-sea documentary multiplied by the corresponding weighting coefficient l 1 of the cognitive model selected in step E43B.
  • step E45B is the integration of the impairments calculated in step E44B into the cognitive model selected in step E43B, giving the estimate of the perceived quality Q of the signal S.
  • step E4 for estimating the perceived quality of the signal S is not fixed, the step E43B being for example as an alternative implemented after step E42B, and steps E43B, E44B and E45B grouped in a single step.
  • steps E2 and E4 are implemented, using a single indexing method, and a single non-reference perceived quality measurement method, which is adapted to the class or content type. determined in step E1.
  • the non-reference measurement method according to the invention is implemented in a single device G, but a distributed implementation is possible.
  • the modules G1 and G2 are implemented in a remote indexing server of the device G, which then implements only the modules G3 and G4.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

The invention relates to a method of referenceless measurement of the perceived quality of a signal (S) carrying data representative of an at least visual or audible content, characterized in that it comprises the steps of: indexation (E2) of said content, determining at least one class (C) of semantic membership of said content, and estimation (E4) of the perceived quality of said signal (S) by using a method of referenceless measurement of perceived quality, said method being adapted to said membership class (C) or to a type (t) of content of said class (C).

Description

Procédé de mesure sans référence de la qualité perçue d'un signal et dispositif correspondant Measurement method without reference to the perceived quality of a signal and corresponding device
La présente invention se rapporte de manière générale au domaine du traitement du signal, et en particulier à l'évaluation de la qualité subjective de signaux image, vidéo, audio ou audiovisuels.The present invention relates generally to the field of signal processing, and in particular to the evaluation of the subjective quality of image, video, audio or audiovisual signals.
L'invention concerne en effet un procédé d'évaluation objective de la qualité subjective, c'est-à-dire telle que perçue par un destinataire, de tels signaux. Etant donné un signal initial non dégradé, on cherche à évaluer la qualité subjective de ce signal lorsqu'il est dégradé du fait de transformations ou d'une transmission à travers une chaîne de communication. L'invention trouve donc notamment son application dans le monitoring, le contrôle, l'adaptation ou l'optimisation de chaînes de communication, au niveau du codage, de la transmission ou de la restitution du signal initial dégradé.The invention relates to a method of objective evaluation of the subjective quality, that is to say as perceived by a recipient, such signals. Given an initial non-degraded signal, it is sought to evaluate the subjective quality of this signal when it is degraded due to transformations or transmission through a communication chain. The invention thus finds particular application in the monitoring, control, adaptation or optimization of communication channels, at the coding, transmission or playback of the degraded initial signal.
On rappelle ici que les mesures objectives de la qualité de signaux visuels ou sonores sont des mesures automatisées qui s'opposent aux mesures subjectives, réalisées visuellement ou auditivement par des personnes physiques. Les mesures subjectives de la qualité restent les mesures les plus utilisées et les plus efficaces dans le domaine de la mesure de la qualité de signaux audio ou image, qui incluent notamment les signaux vidéo, mais sont très coûteuses puisqu'elles nécessitent de mettre en place un panel de personnes en situation d'écoute ou de vision d'échantillons sonores ou visuels des signaux à évaluer.It is recalled here that objective measurements of the quality of visual or sound signals are automated measurements that oppose subjective measurements, made visually or audibly by natural persons. Subjective measures of quality remain the most used and most effective measures in the field of measuring the quality of audio or image signals, which include video signals, but are very expensive since they require to be put in place. a panel of people in situations of listening or seeing sound or visual samples of the signals to be evaluated.
C'est pourquoi le développement de méthodes alternatives de mesure objective pouvant compléter ou suppléer les méthodes subjectives est un sujet de grand intérêt. Les méthodes existantes de mesure objective de la qualité d'un signal audio ou image se déclinent principalement en trois catégories: La première catégorie rassemble les méthodes de mesure avec référence complète, qui comparent le signal dégradé à évaluer avec le signal initial correspondant. Une de ces méthodes est par exemple la mesure du PSNR (d'après l'anglais "Peak Signal-to-Noise Ratio") ou bien encore la méthode BTFR (d'après l'anglais "British Telecom FuIIThis is why the development of alternative methods of objective measurement that can supplement or supplement subjective methods is a subject of great interest. The existing methods of objective measurement of the quality of an audio or image signal are mainly divided into three categories: The first category brings together fully referenced measurement methods, which compare the degraded signal to be evaluated with the corresponding initial signal. One of these methods is for example the measurement of the PSNR (according to the English "Peak Signal-to-Noise Ratio") or even the method BTFR (according to English "British Telecom FuII
Référence") décrite dans l'annexe A du document de normalisation [ITU-T J.144] de I1ITU (d'après l'anglais "International Télécommunication Union") intitulé "Objective perceptual video quality measurement techniques for digital cable télévision in the présence of a full référence" en 2004. L'utilisation de telles méthodes a l'inconvénient de nécessiter la disponibilité du signal initial, ce qui n'est pas toujours envisageable notamment lorsqu'on mesure la qualité du signal dégradé en bout de chaîne de communication, par exemple sur le terminal d'un utilisateur. La seconde catégorie concerne les méthodes de mesure avec référence réduite, qui utilisent des informations extraites du signal initial et du signal dégradé à évaluer, pour mesurer la qualité subjective de ce signal. Ces méthodes comparent par exemple des données statistiques calculées sur le signal initial, telles qu'une mesure de flou ou une mesure d'effets de bloc sur le signal initial par exemple, avec des données statistiques correspondantes calculées sur le signal dégradé à évaluer. Une telle méthode est décrite dans l'article IEEE (d'après l'anglais "Institute of Electrical and Electronics Engineers") intitulé "A Reduced-Reference Perceptual Quality Metric for In-Service Image Quality Assessment" de T. Maulana Kusuma et al., publié en 2003. Une telle méthode a aussi été proposée par le NTIA (d'après l'anglais "National Télécommunications And Information Administration") et est décrite dans l'annexe D du document de normalisation [ITU-T J.144] pré-cité. Cette seconde catégorie de méthodes de mesure objective nécessite la disponibilité ou le calcul d'informations sur le signal initial, ce qui n'est pas applicable dans certains contextes d'utilisation de mesures de qualité, notamment en bout de chaîne de communication, lors de transmissions de contenus audiovisuels en direct par exemple.Reference ") described in Annex A of the standardization document [ITU-T J.144] of I 1 ITU (from the English" International Telecommunication Union ") entitled" Objective perceptual video quality measurement technology for digital cable TV in the presence of a full reference "in 2004. The use of such methods has the disadvantage of requiring the availability of the initial signal, which is not always possible especially when measuring the quality of the degraded signal at the end of The second category concerns the measurement methods with reduced reference, which use information extracted from the initial signal and the degraded signal to be evaluated, to measure the subjective quality of this signal. These methods compare, for example, statistical data calculated on the initial signal, such as a measure of blur or a measure of block effects on the initial signal by e. xemple, with corresponding statistical data calculated on the degraded signal to be evaluated. Such a method is described in the IEEE article entitled "A Reduced-Reference Perceptual Quality Metric for In-Service Image Quality Assessment" by T. Maulana Kusuma et al. ., published in 2003. Such a method has also been proposed by the NTIA (National Telecommunications and Information Administration) and is described in Annex D of the ITU-T J.144 ] pre-cited. This second category of objective measurement methods requires the availability or calculation of information on the initial signal, which is not applicable in some contexts of quality measures, particularly at the end of the communication chain, when transmitting live audiovisual content, for example.
- Enfin la troisième catégorie rassemble les méthodes de mesure sans référence, qui évaluent la qualité d'un signal dégradé sans utiliser ni le signal initial correspondant, ni des informations extraites de ce signal initial. Ces méthodes s'attachent à mesurer des événements sur le signal dégradé à évaluer, tels que l'amplitude et la durée des dégradations du signal, pour évaluer la qualité perçue du signal dégradé. Une telle méthode est décrite dans la demande de brevet FR2884087 de R. Pastrana et al., intitulée "Procédé et dispositif d'évaluation d'une dégradation de la qualité causée par une invariance d'un stimulus, telle que perçue par un destinataire dudit stimulus". Ces méthodes de mesure sans référence offrent donc l'avantage d'être utilisables sur tous les éléments d'une chaîne de communication dans laquelle transite le signal dégradé à évaluer, sans nécessiter de canal supplémentaire transportant des informations sur le signal initial correspondant.- Finally, the third category brings together measurement methods without reference, which evaluate the quality of a degraded signal without using either the corresponding initial signal or information extracted from this initial signal. These methods focus on measuring events on the degraded signal to be evaluated, such as the amplitude and duration of signal degradations, to evaluate the perceived quality of the degraded signal. Such a method is described in the patent application FR2884087 to R. Pastrana et al., Entitled "Method and device for assessing quality degradation caused by invariance of a stimulus, as perceived by a recipient of said stimulus". These non-reference measurement methods thus offer the advantage of being usable on all the elements of a communication chain in which the degraded signal to be evaluated passes, without requiring an additional channel conveying information on the corresponding initial signal.
Cependant les méthodes actuelles de mesure objective sans référence ne permettent pas de prévoir avec robustesse et avec précision l'opinion des utilisateurs quant à la qualité perçue du signal audio ou image à évaluer. Notamment une des difficultés de ces méthodes consiste à distinguer les vrais défauts du signal dégradé par rapport au contenu du signal initial, ce que les humains sont capables d'effectuer à partir du contexte et de l'expérience.However, current methods of objective measurement without reference do not predict with robustness and accuracy the opinion of users as to the perceived quality of the audio signal or image to be evaluated. In particular, one of the difficulties of these methods consists in distinguishing the true defects of the degraded signal from the content of the initial signal, which humans are able to perform from context and experience.
Un des buts de la présente invention est de remédier aux inconvénients de la technique antérieure en fournissant un procédé et un dispositif de mesure sans référence de la qualité perçue d'un signal porteur de données représentatives d'un contenu au moins visuel ou sonore. A cette fin, l'invention propose un procédé de mesure sans référence de la qualité perçue d'un signal porteur de données représentatives d'un contenu au moins visuel ou sonore, caractérisé en ce qu'il comporte les étapes de:One of the aims of the present invention is to overcome the disadvantages of the prior art by providing a method and a measuring device without reference to the perceived quality of a signal carrying data representative of a content at least visual or sound. To this end, the invention proposes a measurement method without reference to the perceived quality of a signal carrying data representative of a at least visual or sound content, characterized in that it comprises the steps of:
- indexation dudit contenu, déterminant au moins une classe d'appartenance sémantique dudit contenu, - et estimation de la qualité perçue dudit signal en utilisant une méthode de mesure sans référence de qualité perçue, ladite méthode étant adaptée à ladite classe d'appartenance ou à un type de contenu de ladite classe.indexing said content, determining at least one semantic class of said content, and estimating the perceived quality of said signal by using a measurement method without reference of perceived quality, said method being adapted to said class of membership or a content type of said class.
En effet les inventeurs ont noté que la sémantique attachée aux différentes classes ou types de contenus a une influence non prise en compte par les méthodes de mesure actuelles basées sur la seule analyse du signal. Par exemple, une dégradation du signal n'a pas le même impact sur une vidéo montrant une course d'athlétisme que sur une vidéo de type plus statique tel qu'une interview. En prenant en compte du contenu sémantique du signal dont on évalue la qualité, l'invention permet donc de maximiser la précision et la robustesse de la mesure sans référence de la qualité perçue de ce signal, en fonction du contexte applicatif. Le dispositif et le procédé selon l'invention restreignent en effet fortement la dispersion inter-contenus actuelle des estimations sans référence de qualité perçue.In fact, the inventors have noted that the semantics attached to the different classes or types of content have an influence that is not taken into account by the current measurement methods based on the only signal analysis. For example, a signal degradation does not have the same impact on a video showing an athletic race as on a more static type of video such as an interview. By taking into account the semantic content of the signal whose quality is evaluated, the invention thus makes it possible to maximize the accuracy and robustness of the measurement without reference to the perceived quality of this signal, depending on the application context. The device and the method according to the invention strongly restrict the current inter-content dispersion of the estimates without reference to perceived quality.
Selon une caractéristique avantageuse, ladite étape d'estimation est précédée d'une étape de sélection de ladite méthode de mesure sans référence de qualité perçue parmi un ensemble de méthodes de mesure sans référence adaptées à divers types ou classes d'appartenance sémantique de contenus.According to an advantageous characteristic, said estimation step is preceded by a step of selecting said measurement method without reference to perceived quality among a set of non-reference measurement methods adapted to various types or classes of content semantic membership.
Cette caractéristique permet d'intégrer facilement de nouvelles méthodes de mesure sans référence adaptées à certains types de contenus, dans un dispositif de mesure sans référence de la qualité perçue selon l'invention. Selon une autre caractéristique avantageuse, ladite étape de sélection tient compte d'au moins un paramètre de rapidité de la méthode de mesure à sélectionner ou un paramètre de précision de mesure de qualité perçue.This feature makes it easy to integrate new measurement methods without reference adapted to certain types of content, in a measurement device without reference to the perceived quality according to the invention. According to another advantageous characteristic, said selection step takes account of at least one speed parameter of the measurement method to be selected or a parameter of measurement accuracy of perceived quality.
Cette caractéristique permet d'utiliser le procédé de mesure sans référence selon l'invention dans des contextes très différents: par exemple pour évaluer la qualité perçue d'un signal dans un équipement d'une chaîne de communication, on sélectionne une méthode de mesure coûteuse en calculs dont assez lente mais très précise, tandis que pour évaluer la qualité perçue d'un signal dans un terminal mobile, de faible capacité, on sélectionne une méthode de mesure peu coûteuse en ressources de calculs et donc rapide même si moins précise. Le procédé selon l'invention est ainsi portable en fonction du contexte, mais aussi des données disponibles. Ainsi si des méta-informations, non extraites du signal source initial mais portant par exemple sur la nature du signal à évaluer, ou sur un contexte applicatif déterminé, sont disponibles au niveau du dispositif de mesure sans référence selon l'invention, ces méta-informations sont utilisées pour améliorer encore la précision de la mesure sans référence de la qualité perçue du signal.This feature makes it possible to use the non-reference measurement method according to the invention in very different contexts: for example to evaluate the perceived quality of a signal in a piece of equipment of a communication chain, an expensive measurement method is selected. in calculations of which quite slow but very precise, while to evaluate the perceived quality of a signal in a mobile terminal, of low capacity, one selects a method of measurement inexpensive in computing resources and therefore fast even if less precise. The method according to the invention is thus portable depending on the context, but also available data. Thus, if meta-information, not extracted from the initial source signal but bearing for example on the nature of the signal to be evaluated, or on a specific application context, are available at the level of the measuring device without reference according to the invention, these meta-information information is used to further improve the accuracy of the measurement without reference to the perceived quality of the signal.
Selon une autre caractéristique avantageuse, ladite étape d'indexation est précédée d'une étape de sélection de ladite méthode d'indexation parmi un ensemble de méthodes d'indexation, ladite étape de sélection tenant compte d'au moins un paramètre de rapidité de la méthode d'indexation à sélectionner ou un paramètre de précision de mesure de qualité perçue.According to another advantageous characteristic, said indexing step is preceded by a step of selecting said indexing method from among a set of indexing methods, said selection step taking account of at least one speed parameter of the indexing method. indexing method to be selected or a measurement accuracy parameter of perceived quality.
Le choix de la méthode d'indexation utilisée en fonction du contexte et des données disponibles contribue encore à la portabilité du procédé de mesure sans référence de la qualité perçue d'un signal selon l'invention.The choice of the indexing method used according to the context and the available data further contributes to the portability of the measurement method without reference to the perceived quality of a signal according to the invention.
Selon une autre caractéristique avantageuse, ladite étape d'indexation tient compte d'au moins une méta-information sur ledit signal.According to another advantageous characteristic, said indexing step takes account of at least one meta-information on said signal.
Cette caractéristique permet d'indexer directement le signal à évaluer en utilisant une méta-information sur ce signal, par exemple une indication sur le contenu sémantique du signal, sans utiliser une méthode d'indexation complexe utilisant une analyse du mouvement ou des couleurs s'il s'agit d'un signal vidéo par exemple.This characteristic makes it possible to directly index the signal to be evaluated by using a meta-information on this signal, for example an indication of the semantic content of the signal, without using an indexing method. complex using a motion analysis or colors if it is a video signal for example.
Selon une autre caractéristique avantageuse, ladite étape d'estimation comporte une sous-étape d'extraction dans ledit signal, de primitives liées à l'estimation de la qualité perçue dudit signal, lesdites primitives étant adaptées à ladite classe d'appartenance ou audit type de contenu de ladite classe.According to another advantageous characteristic, said estimation step comprises a substep of extraction in said signal of primitives related to the estimation of the perceived quality of said signal, said primitives being adapted to said membership class or said type. content of said class.
Cette sous-étape d'extraction de primitives, commune à la plupart des mesures existantes sans référence de qualité perçue, est ici adaptée à la classe ou au type de contenu du signal à évaluer: on extrait uniquement les primitives du signal qui sont pertinentes pour évaluer la qualité perçue de ce signal étant donnés la classe ou le type du contenu correspondant. Cette extraction adaptée de primitives permet d'améliorer encore la précision et la robustesse de l'estimation de la qualité perçue du signal. Elle permet de plus d'économiser des ressources de calcul par rapport à une mesure de qualité qui extrait génériquement toute primitive utile à la mesure de qualité d'un contenu quelconque, puis tient compte du type de contenu correspondant au signal à évaluer uniquement lors d'une dernière étape d'intégration des mesures de dégradations du signal pour aboutir à une note de qualité perçue.This sub-step of extraction of primitives, common to most existing measurements without reference of perceived quality, is here adapted to the class or the type of content of the signal to be evaluated: one extracts only the primitives of the signal which are relevant for evaluate the perceived quality of this signal given the class or type of the corresponding content. This adapted extraction of primitives makes it possible to further improve the accuracy and the robustness of the estimate of the perceived quality of the signal. It also makes it possible to save computing resources with respect to a quality measurement that generically extracts any primitive that is useful for measuring the quality of any content, and then takes into account the type of content corresponding to the signal to be evaluated only when a last step of integration of the signal degradation measures to arrive at a score of perceived quality.
Selon une autre caractéristique avantageuse, lorsque ledit signal est porteur de données représentatives d'une ou plusieurs images, ladite étape d'estimation comporte une sous-étape d'analyse d'au moins une desdites images, et une sous-étape d'extraction de primitives liées à l'estimation de la qualité perçue dudit signal en fonction d'une ou plusieurs régions identifiées dans ladite image lors de l'étape d'analyse. Lorsque le signal à analyser est une vidéo, il est en effet utile d'analyser les différentes scènes qui le composent afin d'adapter la mesure de la qualité perçue du signal à ces différentes scènes, chacune de ces scènes pouvant relever d'un type de contenu différent. Par exemple pour un contenu vidéo montrant un match de tennis, on distingue les images montrant le terrain de tennis de celles montrant un joueur en gros plan pour mesurer différemment la qualité sur ces différentes images. Sur les images montrant le terrain de tennis, on identifie différentes régions dont le terrain et le public. Puis on extrait des mesures de netteté uniquement sur la partie du terrain dans ces images, et non sur la partie correspondant au public, sur laquelle un destinataire du signal n'attend pas de netteté importante. Cette analyse préalable des images transportées par le signal à évaluer permet donc de prédire de manière très précise la qualité perçue par un destinataire du signal, en fonction de contenus très spécifiques.According to another advantageous characteristic, when said signal carries representative data of one or more images, said estimation step comprises a substep of analysis of at least one of said images, and a substep of extraction. primitives related to the estimation of the perceived quality of said signal as a function of one or more regions identified in said image during the analysis step. When the signal to be analyzed is a video, it is indeed useful to analyze the various scenes that compose it in order to adapt the measurement of the perceived quality of the signal to these different scenes, each of these scenes being of a type. different content. For example, for video content showing a tennis match, there are images showing the tennis court of those showing a close-up player to measure the quality differently on these different images. On the images showing the field of tennis, we identify different regions including the terrain and the public. Then we extract sharpness measurements only on the part of the terrain in these images, and not on the part corresponding to the public, on which a recipient of the signal does not expect sharpness. This prior analysis of the images carried by the signal to be evaluated therefore makes it possible to predict in a very precise manner the quality perceived by a recipient of the signal, as a function of very specific contents.
L'invention concerne aussi un dispositif de mesure sans référence de la qualité perçue d'un signal porteur de données représentatives d'un contenu au moins visuel ou sonore, caractérisé en ce qu'il comporte:The invention also relates to a measurement device without reference to the perceived quality of a signal carrying data representative of a content at least visual or sound, characterized in that it comprises:
- des moyens d'obtention de données d'indexation dudit contenu, déterminant au moins une classe d'appartenance sémantique dudit contenu,means for obtaining data for indexing said content, determining at least one semantic membership class of said content,
- et des moyens d'estimation de la qualité perçue dudit signal en utilisant une méthode de mesure sans référence de qualité perçue, ladite méthode étant adaptée à ladite classe d'appartenance ou à un type de contenu de ladite classe.and means for estimating the perceived quality of said signal by using a measurement method without reference of perceived quality, said method being adapted to said class of membership or to a type of content of said class.
Il est à noter que les moyens d'obtention de données d'indexation se limitent dans certains cas à l'envoi d'une requête vers un serveur d'indexation et à la réception d'une réponse de ce serveur d'indexation, par exemple lorsque l'indexation du contenu est effectuée en dehors du dispositif selon l'invention dans ce serveur d'indexation.It should be noted that the means for obtaining indexing data are limited in certain cases to sending a request to an indexing server and receiving a response from this indexing server, for example. example when the indexing of the content is performed outside the device according to the invention in this indexing server.
L'invention concerne également un terminal intégrant le dispositif selon l'invention, ainsi qu'un programme d'ordinateur comportant des instructions pour mettre en œuvre le procédé de mesure sans référence selon l'invention, lorsqu'il est exécuté sur un ordinateur.The invention also relates to a terminal incorporating the device according to the invention, as well as a computer program comprising instructions for implementing the measurement method without reference according to the invention, when it is executed on a computer.
Le dispositif de mesure sans référence selon l'invention, ainsi que le programme d'ordinateur, présentent des avantages analogues à ceux du procédé selon l'invention. D'autres caractéristiques et avantages apparaîtront à la lecture d'un mode de réalisation préféré décrit en référence aux figures dans lesquelles:The non-reference measuring device according to the invention, as well as the computer program, have advantages similar to those of the method according to the invention. Other features and advantages will appear on reading a preferred embodiment described with reference to the figures in which:
- la figure 1 représente un dispositif de mesure sans référence de la qualité perçue d'un signal selon l'invention, utilisé à la fin d'une chaîne de communication délivrant le signal,FIG. 1 represents a measurement device without reference to the perceived quality of a signal according to the invention, used at the end of a communication chain delivering the signal,
- la figure 2 représente des étapes du procédé de mesure sans référence de la qualité perçue d'un signal selon l'invention,FIG. 2 represents steps of the measurement method without reference to the perceived quality of a signal according to the invention,
- la figure 3 représente un mode de réalisation du dispositif de mesure sans référence de qualité perçue selon l'invention, - la figure 4 représente des sous-étapes d'une étape d'estimation de qualité perçue du procédé selon l'invention, lorsque ladite estimation dispose de faibles ressources de calcul,FIG. 3 represents an embodiment of the measuring device without reference of perceived quality according to the invention; FIG. 4 represents sub-steps of a step of estimation of perceived quality of the method according to the invention, when said estimate has low computing resources,
- et la figure 5 représente des sous-étapes d'une étape d'estimation de qualité perçue selon l'invention, lorsque ladite estimation dispose de ressources de calcul plus importantes.and FIG. 5 represents sub-steps of a perceived quality estimation step according to the invention, when said estimate has larger calculation resources.
Selon un mode préféré de réalisation de l'invention, celle-ci est mise en œuvre dans un dispositif G représenté à la figure 1 , placé en bout d'une chaîne de communication. Celle-ci comporte à sa source un dispositif de production DP d'un contenu, lequel est délivré à un dispositif de codage DC qui code ce contenu dans un signal initial transmis sur un réseau de communication RES à un dispositif de décodage DD. Le dispositif de décodage DD délivre un signal S dégradé par rapport au signal initial, au dispositif G de mesure sans référence de qualité perçue selon l'invention. II est à noter que dans ce mode de réalisation de l'invention, le signal S correspond à un contenu image, audio, vidéo ou audiovisuel, le principe de l'invention restant le même dans chacun de ces cas, et certaines étapes du procédé selon l'invention étant détaillées cas par cas lorsque cela s'avère nécessaire pour une bonne illustration de l'invention. Le dispositif G est par exemple intégré dans un terminal restituant le contenu correspondant au signal dégradé à un utilisateur. Il est bien sûr utilisable à d'autres emplacements de la chaîne de communication, par exemple dans un décodeur placé directement en sortie du dispositif de codage DC.According to a preferred embodiment of the invention, it is implemented in a device G shown in Figure 1, placed at the end of a communication chain. The latter comprises at its source a device DP for producing a content, which is delivered to a coding device DC which encodes this content in an initial signal transmitted over a communication network RES to a decoding device DD. The decoding device DD delivers a signal S that is degraded with respect to the initial signal, to the measuring device G without reference to perceived quality according to the invention. It should be noted that in this embodiment of the invention, the signal S corresponds to an image, audio, video or audiovisual content, the principle of the invention remaining the same in each of these cases, and certain process steps. according to the invention being detailed case by case when this is necessary for a good illustration of the invention. The device G is for example integrated in a terminal rendering the content corresponding to the degraded signal to a user. It is of course usable at other locations of the communication chain, for example in a decoder placed directly at the output of the DC encoding device.
Le dispositif G reçoit en entrée le signal dégradé S, un paramètre p de précision de mesure de qualité perçue et un paramètre k de rapidité de méthode de mesure ou d'indexation utilisées par le procédé. Les paramètres p et k permettent d'adapter le procédé de mesure sans référence de qualité perçue selon l'invention, implémenté dans le dispositif G, à un contexte applicatif donné: par exemple si le dispositif G est implémenté dans un serveur contrôlant la qualité de la chaîne de communication, le paramètre p indiquera une précision de mesure de qualité maximale souhaitée et le paramètre k un temps de calcul important possible de méthode de mesure ou d'indexation; en revanche si le dispositif G est implémenté dans un terminal mobile, donc de faibles capacités de calcul et d'affichage, le paramètre p indiquera une précision de mesure de qualité moyenne et le paramètre k une vitesse de calcul rapide de méthode de mesure ou d'indexation.The device G receives as input the degraded signal S, a measurement parameter p of perceived quality and a parameter k of measurement method or indexing speed used by the method. The parameters p and k make it possible to adapt the measurement method without a reference of perceived quality according to the invention, implemented in the device G, to a given application context: for example if the device G is implemented in a server controlling the quality of the device. the communication chain, the parameter p will indicate a desired maximum quality measurement accuracy and the parameter k a possible large calculation time of measurement or indexing method; on the other hand, if the device G is implemented in a mobile terminal, and therefore has low computing and display capacities, the parameter p will indicate a measurement accuracy of average quality and the parameter k a rapid calculation speed of measurement method or indexing.
Le dispositif G reçoit également éventuellement en entrée un paramètre m comportant une ou plusieurs méta-informations sur le signal S, non extraites du signal initial, selon la disponibilité de ces méta-informations. Par exemple ces méta-informations sont une indication sur le service utilisateur lié au signal S, une indication sur la nature du contenu correspondant au signal S, ou une indication sur la qualité de la transmission du signal S. Ces indications sont en effet susceptibles d'accélérer ou de modifier certaines étapes du procédé de mesure sans référence de qualité perçue selon l'invention, comme détaillé plus loin.The device G also optionally receives as input a parameter m comprising one or more meta-information on the signal S, not extracted from the initial signal, depending on the availability of these meta-information. For example, these meta-information items are an indication of the user service related to the signal S, an indication of the nature of the content corresponding to the signal S, or an indication of the quality of the transmission of the signal S. These indications are in fact susceptible of accelerate or modify certain steps of the measurement method without reference to perceived quality according to the invention, as detailed below.
En sortie, le dispositif G délivre une estimation Q de la qualité perçue du signal S, sur une échelle de mesure de qualité perçue. Dans cet exemple de réalisation cette estimation Q est délivrée sur une échelle de 0 à 100, le minimum de cette échelle indiquant une très mauvaise qualité perçue et le maximum de cette échelle indiquant une très bonne qualité perçue. En variante on utilise une note MOS (d'après l'anglais "Mean Opinion Score") du signal S, variant sur une échelle de 1 à 5, ou l'échelle ACR (de l'anglais "Absolute Category Rating") définie dans la "recommandation UIT-T P. 910" intitulée "Méthodes subjectives d'évaluation de la qualité vidéographique pour les applications multimédias", ou encore l'échelle SAMVIQ (de l'anglais "Subjective Assessment Methodology for Video Quality"), définie dans la "recommandation UIT-R BT.1788".At the output, the device G delivers an estimate Q of the perceived quality of the signal S, on a measurement scale of perceived quality. In this embodiment, this estimate Q is delivered on a scale of 0 to 100, the minimum of this scale indicating a very poor perceived quality and the maximum of this scale indicating a very good perceived quality. In variant is used an MOS score (according to the English "Mean Opinion Score") of the signal S, varying on a scale of 1 to 5, or the ACR scale (of the English "Absolute Category Rating") defined in the "ITU-T Recommendation P. 910" entitled "Subjective Video Quality Assessment Methods for Multimedia Applications", or the SAMVIQ ("Subjective Assessment Methodology for Video Quality"), defined in Recommendation ITU-R BT.1788.
Il est à noter que dans ce mode de réalisation de l'invention, l'échelle utilisée est la même quel que soit la valeur du paramètre p de précision fournie en entrée du dispositif G. En effet seule la fiabilité de l'estimation de la mesure de la qualité varie en fonction du paramètre p de précision.It should be noted that in this embodiment of the invention, the scale used is the same irrespective of the value of the precision parameter p supplied at the input of the device G. Indeed, only the reliability of the estimation of the Quality measurement varies according to the precision p parameter.
En référence à la figure 2, la qualité perçue du signal S est estimée en quatre étapes E1 à E4 par le procédé de mesure sans référence de qualité perçue selon l'invention implémenté dans le dispositif G.With reference to FIG. 2, the perceived quality of the signal S is estimated in four steps E1 to E4 by the measurement method without reference to perceived quality according to the invention implemented in the device G.
L'étape E1 est la sélection d'une méthode d'indexation parmi un ensemble de méthodes d'indexation, en fonction du paramètre p de précision et du paramètre k de rapidité. Cette étape E1 est implémentée dans un module logiciel G1 du dispositif G, représenté à la figure 3.Step E1 is the selection of an indexing method from among a set of indexing methods, as a function of the precision parameter p and the speed parameter k. This step E1 is implemented in a software module G1 of the device G, represented in FIG.
Dans cette étape E1 , le module logiciel G1 sélectionne soit une méthode d'indexation par type de contenu, implémentée dans un module logiciel G21 , soit une méthode d'indexation par classe de contenu, implémentée dans un module logiciel G22, la méthode d'indexation par classe de contenu étant une méthode d'indexation plus grossière et donc moins complexe que la méthode d'indexation par type de contenu. En effet une classe de contenu est une classe d'appartenance sémantique de contenu, englobant plusieurs types de contenu. Par exemple, pour un signal S correspondant à un contenu vidéo, on distingue par exemple, entre autres classes de contenu, une classe englobant les contenus vidéo de sports sur herbe, une classe englobant les contenus vidéo de sports sur piste, une classe englobant les documentaires ciel-mer, et une classe englobant les vidéos montrant un présentateur ou un interlocuteur. Dans la classe englobant les vidéos de sports sur herbe, on distingue plusieurs types de contenu, tels qu'un type de contenu englobant les vidéos de match de football, un type de contenu englobant les vidéos de rugby, ou un type de contenu englobant un match de polo.In this step E1, the software module G1 selects either an indexing method by type of content, implemented in a software module G21, or a content class indexing method, implemented in a software module G22, the method of Indexing by content class is a coarser indexing method and therefore less complex than the indexing method by type of content. Indeed a content class is a content semantic membership class, encompassing several types of content. For example, for a signal S corresponding to a video content, there is for example, among other classes of content, a class encompassing the video content of grass sports, a class encompassing the video content of track sports, a class encompassing sky-sea documentaries, and a class encompassing videos showing a presenter or interlocutor. In the class encompassing grass sports videos, there are several types of content, such as a content type encompassing football match videos, a content type encompassing rugby videos, or a content type encompassing a football game. polo match.
Ainsi dans cette étape E1 , si le paramètre p et le paramètre k indiquent une précision souhaitée maximale de mesure de qualité perçue, ou un temps de calcul important possible, le module logiciel G1 sélectionne la méthode d'indexation par type de contenu, et envoie le signal S au module logiciel G21. En revanche, si le paramètre p indique une précision faible de mesure de qualité perçue et le paramètre k une vitesse de calcul rapide, le module logiciel G1 sélectionne la méthode d'indexation par classe de contenu, et envoie le signal S au module logiciel G22.Thus, in this step E1, if the parameter p and the parameter k indicate a desired maximum accuracy of measurement of perceived quality, or a possible significant calculation time, the software module G1 selects the indexing method by type of content, and sends the signal S to the software module G21. On the other hand, if the parameter p indicates a low accuracy of perceived quality measurement and the parameter k a fast calculation speed, the software module G1 selects the indexing method by content class, and sends the signal S to the software module G22 .
L'étape suivante E2 est l'indexation du contenu correspondant au signal S. Cette étape est implémentée dans le module logiciel G2, et plus précisément soit par le module logiciel G21 , soit par le module logiciel G22, en fonction de la méthode d'indexation sélectionnée à l'étape E1. Lorsqu'une méthode d'indexation par classe de contenu a été sélectionnée à l'étape E1 , et qu'un paramètre m contenant une information sur la nature du contenu correspondant au signal S est disponible en entrée du dispositif G, alors dans cette étape E2 l'indexation du contenu correspondant au signal S utilise ce paramètre m. Si le signal S est une vidéo, ce paramètre m est par exemple obtenu par interrogation d'un serveur de programmation de diffusion de vidéos, et indique une classe de contenu ou un type de contenu, qui ne correspondent pas forcément à la classification des contenus utilisée par le dispositif G pour leur indexation. Dans ce dernier cas le module G22 utilise une table de correspondance entre la classification du serveur de programmation et celle utilisée par le dispositif G, pour déterminer une classe de contenu C correspondant au signal S. En revanche, lorsqu'une méthode d'indexation par classe de contenu a été sélectionnée à l'étape E1 , et qu'un paramètre m contenant une information sur la nature du contenu correspondant au signal S n'est pas disponible en entrée du dispositif G, dans cette étape E2 le module G22 utilise une méthode d'indexation grossière permettant de classifier le contenu du signal S dans une classe de contenu C.The next step E2 is the indexing of the content corresponding to the signal S. This step is implemented in the software module G2, and more precisely either by the software module G21, or by the software module G22, depending on the method of indexing selected in step E1. When a method of indexing by content class has been selected in step E1, and a parameter m containing information on the nature of the content corresponding to the signal S is available at the input of the device G, then in this step E2 the indexing of the content corresponding to the signal S uses this parameter m. If the signal S is a video, this parameter m is for example obtained by interrogating a video broadcast programming server, and indicates a content class or a content type, which do not necessarily correspond to the classification of the contents. used by the device G for their indexing. In the latter case the module G22 uses a correspondence table between the classification of the programming server and that used by the device G, to determine a content class C corresponding to the signal S. On the other hand, when a method of indexing by content class has been selected in step E1, and a parameter m containing information on the nature of the content corresponding to the signal S is not available at the input of the device G, in this step E2 the module G22 uses a coarse indexing method for classifying the content of the signal S in a content class C.
Par exemple si le signal S est une vidéo, une étude colorimétrique des images du signal S, utilisant par exemple une distance entre une couleur dominante dans ces images et des couleurs dominantes associées aux classes de contenus définies dans le dispositif G, permet, en association avec une estimation de mouvement de la caméra ayant pris ces images, d'indexer grossièrement la vidéo correspondant au signal S. Une méthode d'estimation de mouvement de caméra utilisable est décrite dans l'article "Robust Multiresolution Estimation of Parametric Motion Models" de J. Odobez et al., publié en 1995 dans le journal "Journal of Visual Communication and Image Représentation". Ainsi:For example, if the signal S is a video, a colorimetric study of the images of the signal S, using for example a distance between a dominant color in these images and the dominant colors associated with the content classes defined in the device G, allows, in association with a motion estimation of the camera having taken these images, to roughly index the video corresponding to the signal S. A method for estimating camera movement that can be used is described in the article "Robust Multiresolution Estimation of Parametric Motion Models" of J. Odobez et al., Published in 1995 in the Journal of Visual Communication and Image Representation. So:
- si la caméra a un mouvement d'amplitude faible et les images ont une couleur dominante proche de celle de la chair d'un visage, la vidéo correspondant au signal S est classée dans la classe de contenu englobant les vidéos montrant un présentateur ou un interlocuteur, si la caméra a un mouvement d'amplitude importante et les images ont une couleur dominante grise ou marron, la vidéo correspondant au signal S est classée dans la classe de contenu englobant les vidéos de sports sur piste,- if the camera has a low amplitude motion and the images have a dominant color similar to that of the flesh of a face, the video corresponding to the signal S is classified in the content class including the videos showing a presenter or interlocutor, if the camera has a large amplitude movement and the images have a dominant gray or brown color, the video corresponding to the signal S is classified in the content class including the track sports videos,
- et si la caméra a un mouvement d'amplitude importante et les images ont une couleur dominante verte, la vidéo correspondant au signal S est classée dans la classe de contenu englobant les vidéos de sports sur herbe. Si le signal S est un signal audio, le module G22 réalise par exemple une indexation grossière du signal S dans une classe de contenu correspondant aux signaux de parole, ou dans une classe de contenu correspondant aux signaux de musique. Cette indexation utilise par exemple des modèles de signaux sonores correspondant à de la musique ou à de la parole, pour classifier le signal S. Des méthodes d'indexation utilisables pour les signaux sonores dans ce module G22 sont décrites dans:and if the camera has a large amplitude movement and the images have a dominant green color, the video corresponding to the signal S is classified in the content class encompassing the grass sports videos. If the signal S is an audio signal, the module G22 performs, for example, a rough indexing of the signal S in a content class corresponding to the speech signals, or in a content class corresponding to the music signals. This indexing uses, for example, models of sound signals corresponding to music or speech, to classify the signal S. Indexing methods that can be used for the sound signals in this module G22 are described in:
- l'article de J.A. Marks et al. intitulé "Real time speech classification and pitch détection" et publié en 1988 à l'occasion d'une conférence internationale "Communications and Signal Processing" ayant eu lieu la même année, - ou l'article de Y. Zhu and D. Zhou intitulé "Scène change détection based on audio and video content analysis", et publié en 2003 à l'occasion de la cinquième conférence internationale "International Conférence on Computational Intelligence and Multimedia Applications". De même, lorsqu'une méthode d'indexation par type de contenu a été sélectionnée à l'étape E1 , et qu'un paramètre m contenant une information sur la nature du contenu correspondant au signal S est disponible en entrée du dispositif G, alors dans cette étape E2 le module G21 utilise ce paramètre m pour déterminer un type t de contenu correspondant au signal S. Si au contraire un tel paramètre m est indisponible ou si l'information contenue dans ce paramètre m est insuffisante pour déterminer un type de contenu associé au signal S, alors le module G21 utilise dans cette étape E2 une méthode d'indexation fine permettant de classifier le contenu du signal S dans un type t de contenu, dans les limites imposées par le paramètre k indiquant le temps de calcul maximal possible pour la mesure de qualité perçue du signal S.the article by J. A. Marks et al. entitled "Real time speech classification and pitch detection" and published in 1988 on the occasion of an international conference "Communications and Signal Processing" that took place the same year, - or the article by Y. Zhu and D. Zhou entitled "Scene changes detection based on audio and video content analysis", and published in 2003 for the fifth international conference "International Conference on Computational Intelligence and Multimedia Applications". Similarly, when a content type indexing method has been selected in step E1, and a parameter m containing information on the nature of the content corresponding to the signal S is available at the input of the device G, then in this step E2 the module G21 uses this parameter m to determine a type t of content corresponding to the signal S. If on the other hand such a parameter m is unavailable or if the information contained in this parameter m is insufficient to determine a type of content associated with the signal S, then the module G21 uses in this step E2 a fine indexing method for classifying the content of the signal S in a type t of content, within the limits imposed by the parameter k indicating the maximum possible calculation time for the measurement of perceived quality of the signal S.
Par exemple si le signal S est une vidéo, le module G21 utilise la méthode d'indexation du module G22 pour déterminer une classe C de contenu associée au signal S, puis utilise des méthodes de reconnaissance de formes spécifiques aux types de contenu de la classe C pour indexer le contenu correspondant au signal S dans un type t de contenu. Par exemple si la classe C est la classe englobant les vidéos de sports sur herbe, le module G21 détecte la forme des buts ou la disposition des lignes de terrain dans les images du signal S pour déterminer s'il correspond au type de contenu englobant les vidéos de match de football ou au type de contenu englobant les vidéos de match de rugby.For example, if the signal S is a video, the module G21 uses the indexing method of the module G22 to determine a class C of content associated with the signal S, then uses forms recognition methods specific to the content types of the class C for indexing the content corresponding to the signal S in a type t of content. For example if class C is the class encompassing grass sports videos, module G21 detects the shape of the goals or the layout of the field lines in the images of the signal S to determine if it corresponds to the type of content encompassing the match videos football or content type that includes rugby match videos.
De même si le signal S est un signal audio, le module G21 utilise la méthode d'indexation du module G22 pour déterminer une classe C de contenu associée au signal S, puis utilise par exemple des fonctions d'observations spécifiques à certains types de contenu audio pour déterminer le type t de contenu correspondant au signal S. De telles fonctions d'observations sont décrites pour la classe des signaux de musique, dans la thèse de S. Rossignol de l'Université de Paris 6, intitulée "Segmentation et indexation des signaux sonores musicaux", et soutenue en 2000.Similarly, if the signal S is an audio signal, the module G21 uses the indexing method of the module G22 to determine a class C of content associated with the signal S, then uses, for example, observations functions that are specific to certain types of content. audio to determine the type t of content corresponding to the signal S. Such observation functions are described for the class of musical signals, in the thesis of S. Rossignol of the University of Paris 6, entitled "Segmentation and indexation of musical sound signals ", and supported in 2000.
Lorsque le module G21 ne parvient pas à déterminer un type t de contenu correspondant au signal S, par exemple parce-que de telles fonctions d'observations ne sont pas disponibles pour la classe C de contenu associée au signal S, ou parce-que le temps de calcul maximal imposé par le paramètre k ne permet pas de faire une indexation fine de ce contenu, le module G21 se contente d'indexer le contenu du signal S par classe de contenu. A la fin de l'étape E2, le module G21 a indexé le contenu correspondant au signal S dans un type t de contenu ou une classe C de contenu, ou le module G22 a indexé le contenu correspondant au signal S dans une classe C de contenu. Le type t de contenu ou la classe C de contenu sont fournis en sortie des modules G21 ou G22 au module logiciel G3 par exemple sous la forme d'entiers, attribués chacun à un type de contenu ou à une classe de contenu spécifique dans la classification des contenus utilisée par le dispositif G.When the module G21 fails to determine a type t of content corresponding to the signal S, for example because such observation functions are not available for the class C content associated with the signal S, or because the The maximum computation time imposed by the parameter k does not allow a fine indexing of this content, the module G21 merely indexes the content of the signal S per content class. At the end of step E2, the module G21 indexed the content corresponding to the signal S in a content type t or a content class C, or the module G22 indexed the content corresponding to the signal S in a class C of content. The type t of content or the class C of content are output from the modules G21 or G22 to the software module G3 for example in the form of integers, each assigned to a content type or a specific content class in the classification. contents used by the device G.
En variante, le type t de contenu ou la classe C de contenu sont fournis au module logiciel G3 sous la forme de vecteurs de probabilité. Par exemple le vecteur de probabilité associé au type t de contenu indique la probabilité d'appartenance du contenu correspondant au signal S à chacun des types de contenus appartenant à la classification des contenus utilisée par le dispositif G.Alternatively, the content type t or the content class C are provided to the software module G3 in the form of probability vectors. For example, the probability vector associated with the type t of content indicates the probability of belonging of the content corresponding to the signal S to each of the types of content. contents belonging to the classification of contents used by the device G.
L'étape suivante E3 est la sélection d'une mesure sans référence de qualité perçue, adaptée à la classe C de contenu ou au type t de contenu correspondants au signal S et déterminés à la fin de l'étape E2. Cette étape est implémentée dans le module logiciel G3, et tient compte des paramètres p de précision et k de rapidité.The next step E3 is the selection of a measurement without reference of perceived quality, adapted to the content class C or the content type t corresponding to the signal S and determined at the end of the step E2. This step is implemented in the G3 software module, and takes into account the precision p and k speed parameters.
Dans cette étape E3, le module logiciel G3 envoie le signal S soit: - au module logiciel G41 , qui adapte une méthode de mesure sans référence de qualité perçue au type t ou à la classe C de contenu déterminés à l'étape E2, par une extraction spécifique de primitives et/ou un paramétrage spécifique de cette méthode, - soit au module G42, qui utilise une mesure sans référence de qualité perçue plus complexe et plus précise, également adaptée au type t ou à la classe C de contenu déterminés à l'étape E2, mais utilisant une analyse préalable du signal S. Ainsi par exemple dans cette étape E3:In this step E3, the software module G3 sends the signal S, ie: to the software module G41, which adapts a measurement method without reference of perceived quality to the type t or to the content class C determined in step E2, by a specific extraction of primitives and / or a specific parameterization of this method, either to the module G42, which uses a measurement without reference of perceived quality more complex and more precise, also adapted to the type t or the class C of contents determined with step E2, but using a preliminary analysis of the signal S. Thus for example in this step E3:
- si le paramètre p et le paramètre k indiquent une précision souhaitée maximale de mesure de qualité perçue, et un temps de calcul important possible, le module logiciel G3 sélectionne la mesure sans référence de qualité perçue implémentée par le module logiciel G42, et envoie le signal S au module logiciel G42 si aucune mesure implémentée dans le module logiciel G41 ne permet une prédiction précise de la qualité des signaux de même contenu sémantique, si le paramètre k indique un temps de calcul faible souhaité, le module logiciel G3 sélectionne la mesure sans référence de qualité perçue implémentée par le module logiciel G41 , et envoie le signal S au module logiciel G41 , - et si le paramètre p indique une précision faible de mesure de qualité perçue, et le paramètre k un temps de calcul important possible, le module logiciel G3 sélectionne la mesure sans référence de qualité perçue implémentée par le module logiciel G41 , et envoie le signal S au module logiciel G41.if the parameter p and the parameter k indicate a desired maximum accuracy of measurement of perceived quality, and a possible large calculation time, the software module G3 selects the measurement without reference of perceived quality implemented by the software module G42, and sends the signal S to the software module G42 if no measurement implemented in the software module G41 makes it possible to accurately predict the quality of the signals of the same semantic content, if the parameter k indicates a desired low calculation time, the software module G3 selects the measurement without perceived quality reference implemented by the software module G41, and sends the signal S to the software module G41, - and if the parameter p indicates a low measurement accuracy of perceived quality, and the parameter k a significant calculation time possible, the software module G3 selects the measurement without a perceived quality reference implemented by the software module G41, and sends the signal S to the software module G41.
L'étape suivante E4 est l'estimation de la qualité perçue du signal S, sans référence au signal initial correspondant. Cette étape est implémentée dans le module logiciel G4, et plus précisément soit dans le module logiciel G41 , soit dans le module logiciel G42, suivant la méthode sans référence sélectionnée à l'étape E3.The next step E4 is the estimation of the perceived quality of the signal S, without reference to the corresponding initial signal. This step is implemented in the software module G4, and more precisely either in the software module G41 or in the software module G42, according to the method without reference selected in step E3.
Si à l'étape E3 le module logiciel G3 a envoyé le signal S au module G41 , alors l'estimation de la qualité perçue du signal S se déroule en trois étapes E41 A à E43A représentées à la figure 4:If in step E3 the software module G3 has sent the signal S to the module G41, then the estimation of the perceived quality of the signal S takes place in three steps E41A to E43A shown in FIG. 4:
L'étape E41A est une étape d'extraction de primitives liées à l'estimation de la qualité perçue du signal S.Step E41A is a primitive extraction step related to the estimation of the perceived quality of the signal S.
En fonction du signal S et du type t ou de la classe C du contenu associé au signal S, on extrait dans cette étape E41A des primitives du signal S. Des primitives utilisables pour mesurer la qualité perçue du signal S sont par exemple: - l'image ou la séquence d'images des gradients spatiaux du signal S si le signal S est une image ou une vidéo,As a function of the signal S and of the type t or of the class C of the content associated with the signal S, primitives of the signal S are extracted in this step E41A. Primitives that can be used to measure the perceived quality of the signal S are, for example: image or image sequence of the spatial gradients of the signal S if the signal S is an image or a video,
- le mouvement moyen des pixels entre deux images consécutives du signal S, la durée et le nombre de gels d'images du signal S ou d'effets de blocs sur le signal S si le signal S est une vidéo,the average movement of the pixels between two consecutive images of the signal S, the duration and the number of image gels of the signal S or of block effects on the signal S if the signal S is a video,
- et les durées et le nombre de pertes de signal si le signal S est un signal audio.and the duration and the number of signal losses if the signal S is an audio signal.
En fonction de la méthode sans référence de mesure de qualité perçue utilisée, cette étape E41A d'extraction de primitives est générique ou au contraire adaptée à la classe C ou au type t du contenu correspondant au signal S. Cette adaptation consiste par exemple en un choix des primitives à extraire ou en une manière spécifique de les extraire. Par exemple dans le cas où le signal S est un signal audio, on extrait dans cette étape E41A le nombre de pertes de signal dont la durée est supérieure à un certain seuil, ce seuil dépendant de la classe C ou du type t du contenu correspondant au signal S. En effet le seuil de détection perceptuel d'une perte de signal est légèrement différent si le signal considéré est un signal de parole ou un signal musical. De même le seuil de détection perceptuel d'un gel d'images est différent selon que la vidéo correspondante montre un documentaire, un journal télévisé ou un contenu sportif. L'étape E42A est le calcul des dégradations sur le signal S, en utilisant les primitives extraites à l'étape E41A. Par exemple si le signal S est un signal audio ou vidéo, et si à l'étape E41 A on a:As a function of the method without a perceived quality measurement reference used, this primitive extraction step E41A is generic or, on the contrary, adapted to the class C or the type t of the content corresponding to the signal S. This adaptation consists, for example, in a choice of primitives to extract or in a specific way to extract them. For example, in the case where the signal S is an audio signal, this step E41A extracts the number of signal losses whose duration is greater than a certain threshold, this threshold depending on the class C or the type t of the corresponding content. to the signal S. Indeed the perceptual detection threshold of a signal loss is slightly different if the signal considered is a speech signal or a musical signal. Similarly, the perceptual detection threshold of a freeze of images is different depending on whether the corresponding video shows a documentary, a newscast or sports content. Step E42A is the calculation of the degradations on the signal S, using the primitives extracted in step E41A. For example, if the signal S is an audio or video signal, and if in step E41 A:
- détecté les pertes de signal dans le signal S, qui se traduisent par une coupure audio et/ou un gel d'images pour un signal vidéo,detects the signal losses in the signal S, which result in an audio cutoff and / or an image freeze for a video signal,
- calculé leurs durées et filtré les pertes détectées pour ne sélectionner que celles dont les durées sont supérieures à un seuil de détection perceptuel,calculated their durations and filtered the losses detected to select only those whose durations are greater than a threshold of perceptual detection,
- puis calculé les densités temporelles des pertes de signal en fonction de leurs durées, alors dans cette étape E42A, en utilisant les densités temporelles des pertes de signal ainsi calculées, on applique un modèle cognitif sur ces pertes de signal, donnant une estimation de la dégradation de la qualité subjective du signal due aux pertes de signal. Ce modèle cognitif est différent suivant qu'on calcule une dégradation due aux pertes de signal audio, ou une dégradation due aux gels d'images. Il utilise un cumul temporel des dégradations dues aux pertes de signal dans la séquence de signal audio ou vidéo. De plus ses paramètres sont déterminés de manière à obtenir une forte corrélation entre des résultats de mesure de qualité perçue issus de tests subjectifs et des résultats de mesure de qualité perçue fournis par le modèle cognitif. Un tel modèle cognitif est décrit pour les signaux vidéo dans l'article de Ricardo R. Pastrana et al., intitulé "A no-reference video quality metric based on a human assessment model", et publié en 2007 à l'occasion du troisième atelier international "Video Processing and Quality Metrics for Consumer Electronics (VPQM)". Ce modèle est adaptable aux pertes de signal audio.and then calculating the temporal densities of the signal losses as a function of their durations, then in this step E42A, using the time densities of the signal losses thus calculated, a cognitive model is applied to these signal losses, giving an estimate of the degradation of the subjective quality of the signal due to loss of signal. This cognitive model is different depending on whether one calculates a degradation due to the losses of audio signal, or a degradation due to the freezes of images. It uses a temporal accumulation of impairments due to signal losses in the audio or video signal sequence. Moreover, its parameters are determined in such a way as to obtain a strong correlation between measurement results of perceived quality derived from subjective tests and measurement results of perceived quality provided by the cognitive model. Such a cognitive model is described for video signals in the article by Ricardo R. Pastrana et al., Entitled "A no-reference video quality metric based on a human assessment model", and published in 2007 on the occasion of the third International Workshop "Video Processing and Quality Metrics for Consumer Electronics (VPQM)". This model is adaptable to audio signal losses.
L'étape E43A est l'intégration des calculs des dégradations à l'étape E42A dans un modèle cognitif donnant une estimation de la qualité perçue du signal S, tenant compte de tous les types de dégradations pris en compte à l'étape E42A. Cette intégration est adaptée à la classe C ou au type t du contenu correspondant au signal S, par l'intégration de dégradations elles-mêmes calculées de manière adaptée à la classe C ou au type t de ce contenu et/ou par l'utilisation d'un modèle cognitif paramétré de manière adaptée à la classe C ou au type t de ce contenu.Step E43A is the integration of the degradation calculations in step E42A into a cognitive model giving an estimate of the perceived quality of the signal S, taking into account all the types of impairments taken into account in step E42A. This integration is adapted to the class C or the type t of the content corresponding to the signal S, by integrating degradations themselves calculated in a manner adapted to the class C or the type t of this content and / or by the use a cognitive model parameterized in a way adapted to the class C or the type t of this content.
Par exemple pour un signal S vidéo, on utilise le modèle cognitif décrit dans la demande de brevet EP1864510, qui permet de donner une estimation de la qualité perçue d'un signal vidéo en tenant compte de l'interaction entre les dégradations spatiales et les dégradations temporelles calculées sur le signal S. Les dégradations temporelles correspondent par exemple aux gels d'images détectés sur la séquence d'images correspondant au signal S, en utilisant le modèle cognitif décrit ci-dessus en relation avec l'étape E42A. Les dégradations spatiales correspondent par exemple à des mesures de flou, effectuées avec la méthode sans référence décrite dans l'article de P. Marziliano et al., intitulée "A no-reference perceptual blur metric", et publiée en 2002 à l'occasion d'une conférence internationale "International Conférence on Image Processing". Dans cette étape E43A on utilise un modèle cognitif dont les paramètres sont déterminés de manière à obtenir une forte corrélation entre des résultats de mesure de qualité perçue issus de tests subjectifs sur des contenus de la classe C ou du type t déterminés à l'étape E2, et des résultats de mesure de qualité perçue fournis par le modèle cognitif. Le module G41 a donc pour ce modèle cognitif, un jeu de paramètres par type de contenu et par classe de contenu appartenant à la classification des contenus utilisée par le dispositif G.For example, for a video signal S, the cognitive model described in the patent application EP1864510 is used, which makes it possible to give an estimate of the perceived quality of a video signal taking into account the interaction between the spatial degradations and the degradations. The temporal impairments correspond, for example, to the image gels detected on the image sequence corresponding to the signal S, by using the cognitive model described above in relation with the step E42A. The spatial degradations correspond for example to measurements of blur, carried out with the method without reference described in the article of P. Marziliano and al., Entitled "A no-reference perceptual blur metric", and published in 2002 on the occasion an international conference "International Conference on Image Processing". In this step E43A, a cognitive model is used whose parameters are determined in such a way as to obtain a strong correlation between measurement results of perceived quality derived from subjective tests on contents of class C or of type t determined in step E2. , and perceived quality measurement results provided by the cognitive model. The module G41 has for this cognitive model, a set of parameters by content type and by content class belonging to the content classification used by device G.
D'autres modèles cognitifs sont bien sûr utilisables dans cette étape E43A, par exemple un modèle intégrant la contribution d'autres types de dégradations, grâce par exemple à des mesures d'effet de blocs effectuées à l'étape E42A lorsque le signal S est une vidéo.Other cognitive models are of course usable in this step E43A, for example a model integrating the contribution of other types of impairments, for example by means of block effect measurements carried out at step E42A when the signal S is a video.
Si à l'étape E3 le module logiciel G3 a envoyé le signal S au module G42, alors à l'étape E4 l'estimation de la qualité perçue du signal S utilise une analyse préalable du signal. Cette analyse permet d'extraire des primitives de bas ou de haut niveau associées à certaines composantes du signal, pour lesquelles l'impact des dégradations sur la qualité perçue du signal S est différent en fonction de la nature de ces composantes. Par exemple pour un signal S correspondant à un signal vidéo, l'estimation de la qualité perçue du signal S se déroule en cinq étapes E41 B à E45B représentées à la figure 5:If in step E3 the software module G3 sent the signal S to the module G42, then in step E4 the estimation of the perceived quality of the signal S uses a preliminary analysis of the signal. This analysis makes it possible to extract low or high level primitives associated with certain components of the signal, for which the impact of the impairments on the perceived quality of the signal S is different according to the nature of these components. For example, for a signal S corresponding to a video signal, the estimation of the perceived quality of the signal S takes place in five steps E41 B to E45B represented in FIG.
L'étape E41 B est l'analyse d'une image d'une séquence d'images du signal S. Cette analyse permet de détecter des régions d'intérêt dans le signal S, en fonction de la classe C ou du type t de contenu déterminé à l'étape E2. Par exemple si à l'étape E2 on a déterminé que le contenu du signal S appartient à la classe de contenus englobant les vidéos montrant un présentateur ou un interlocuteur, on détecte un ou plusieurs visages dans cette image. Cette détection utilise par exemple le procédé de localisation décrit dans l'article de C. Garcia et M. Delakis, intitulé "Convolutional Face Finder: a Neural Architecture for Fast and Robust Face Détection" et publié dans le magazine IEEE (d'après l'anglais "Institute of Electrical and Electronic Engineer") "Transactions on Pattern Analysis and Machine Intelligence" en novembre 2004.Step E41 B is the analysis of an image of a sequence of images of the signal S. This analysis makes it possible to detect regions of interest in the signal S, as a function of the class C or the type t of content determined in step E2. For example, if in step E2 it has been determined that the content of the signal S belongs to the class of content encompassing the videos showing a presenter or interlocutor, one or more faces are detected in this image. This detection uses, for example, the localization method described in the article by C. Garcia and M. Delakis, entitled "Convolutional Face Finder: a Neural Architecture for Fast and Robust Face Detection" and published in the IEEE magazine (based on Institute of Electrical and Electronic Engineer "Transactions on Pattern Analysis and Machine Intelligence" in November 2004.
De même si à l'étape E2 on a déterminé que le contenu du signal S appartient à la classe de contenus englobant les documentaires ciel-mer, on détecte à l'étape E41 B dans l'image à analyser une ou plusieurs régions correspondant au ciel et une ou plusieurs régions correspondant à la mer. Pour cela, on détecte les régions de l'image ayant une colorimétrie proche de celle du ciel ou des nuages, et les régions de l'image ayant une colorimétrie proche de celle de la mer, en utilisant un ensemble d'images de référence pour ces déterminations colorimétriques. L'impact des dégradations sur les régions ainsi détectées ne sera pas le même, du point de vue de la qualité perçue du signal S, que l'impact des dégradations sur les autres régions de l'image, qui correspondent à des objets attirant l'attention d'un téléspectateur.Similarly, if in step E2 it has been determined that the content of the signal S belongs to the content class encompassing the sky-sea documentaries, in step E41 B, one or more regions corresponding to FIG. sky and one or more regions corresponding to the sea. For this, the regions of the image having a colorimetry close to that of the sky or the clouds are detected, and the regions of the image having a colorimetry close to that of the sea, by using a set of reference images for these colorimetric determinations. The impact of the degradations on the regions thus detected will not be the same, from the point of view of the perceived quality of the signal S, as the impact of the degradations on the other regions of the image, which correspond to objects attracting the attention of a viewer.
Il est de plus à noter que dans cette étape E41 B, on analyse de préférence plusieurs images successives ou à intervalles réguliers dans le signal S afin de détecter des changements dans le contenu du signal S. Par exemple cela permet de détecter qu'une séquence d'images montrant un présentateur est suivie d'une séquence d'images avec le présentateur et un interlocuteur.It should also be noted that in this step E41 B, several successive or regular images are preferably analyzed in the signal S in order to detect changes in the content of the signal S. For example, this makes it possible to detect that a sequence of images showing a presenter is followed by a sequence of images with the presenter and an interlocutor.
L'étape suivante E42B est l'extraction adaptée de primitives utiles pour le calcul des dégradations sur le signal S, impactant la qualité perçue du signal S. Ces primitives sont par exemple la perte d'un objet d'intérêt dans une ou plusieurs images du signal S, ou la détection d'effets de blocs ou de flou sur cet objet d'intérêt.The following step E42B is the adapted extraction of primitives useful for the calculation of the impairments on the signal S, impacting the perceived quality of the signal S. These primitives are for example the loss of an object of interest in one or more images signal S, or the detection of block effects or blur on this object of interest.
Dans le cas où le signal S est une vidéo documentaire ciel-mer dans les images de laquelle on a détecté à l'étape E41 B une ou plusieurs régions de ciel et une ou plusieurs régions de mer, on extrait par exemple dans cette étape E42B:In the case where the signal S is a sky-sea documentary video in the images of which one or more sky regions and one or more sea regions have been detected in step E41 B, for example, this step E42B is extracted. :
- la densité de fausses frontières, ainsi que la densité de zones homogènes, dans les régions de ciel, - la densité de fausses frontières, la densité de zones homogènes, et une quantification d'effets d'imagettes dus à des transformées en cosinus discret, dans les régions de mer,the density of false boundaries, as well as the density of homogeneous zones, in the sky regions, the density of false boundaries, the density of homogeneous zones, and a quantification of image effects due to discrete cosine transforms , in the sea regions,
- et la densité de fausses frontières, ainsi que la densité de zones homogènes, sur les autres régions de l'image. Cette extraction de primitives utilise par exemple les travaux de Z. Wang et al., publiés en 2002 dans l'article "No référence perceptual quality assessment of jpeg compressée! images" à l'occasion d'une conférence internationale "International Conférence on Image Processing".and the density of false boundaries, as well as the density of homogeneous zones, on the other regions of the image. This extraction of primitives uses for example the works of Z. Wang et al., Published in 2002 in the article "No reference perceptual quality assessment of jpeg compressed! images "on the occasion of an international conference" International Conference on Image Processing ".
L'étape E43B, effectuée après ou en parallèle de cette étape E42B, est la sélection d'un modèle cognitif ad hoc en fonction de l'analyse effectuée à l'étape E41 B et en fonction de la classe C ou du type t de contenu correspondant au signal S. Ce modèle cognitif est plus particulièrement adapté aux régions d'intérêt détectées à l'étape E41 B: par exemple dans le cas où le signal S est une vidéo documentaire ciel-mer, ce modèle cognitif tient compte des dégradations dues aux effets de compression des images, de manière différente en fonction des régions d'images dégradées. Ce modèle cognitif est par exemple un modèle spécifique à un type t ou à une classe C de contenu, dans lequel les impacts de chaque type de dégradation sont pondérés en fonction des régions impactées par ces dégradations dans les images du signal S. Pour une classe C de contenu ou un type t de contenu et une combinaison de régions d'intérêt détectées à l'étape E41 B, on détermine donc dans cette étape E43B un modèle cognitif ad hoc. Ce modèle regroupe à la fois :Step E43B, performed after or in parallel with this step E42B, is the selection of an ad hoc cognitive model as a function of the analysis carried out in step E41B and according to the class C or the type t of content corresponding to the signal S. This cognitive model is more particularly adapted to the regions of interest detected in step E41 B: for example, in the case where the signal S is a sky-sea documentary video, this cognitive model takes into account the degradations due to the compression effects of the images, differently depending on the regions of degraded images. This cognitive model is for example a model specific to a type t or a class C of content, in which the impacts of each type of degradation are weighted according to the regions impacted by these impairments in the images of the signal S. For a class C content or a type t of content and a combination of regions of interest detected in step E41 B, is determined in this step E43B an ad hoc cognitive model. This model gathers at the same time:
- l'information nécessaire au calcul des dégradations d'un objet sémantique en fonction des primitives extraites à l'étape E42B,the information necessary for calculating the degradations of a semantic object according to the primitives extracted in step E42B,
- et l'information nécessaire à l'estimation de la qualité perçue globale du signal S à partir des dégradations ainsi calculées, ces informations étant préalablement déterminées par des tests subjectifs.and the information necessary for estimating the overall perceived quality of the signal S from the degradations thus calculated, this information being previously determined by subjective tests.
Ainsi dans le cas où le signal S est une vidéo documentaire ciel-mer, ce modèle cognitif est par exemple:
Figure imgf000023_0001
Thus, in the case where the signal S is a sky-sea documentary video, this cognitive model is for example:
Figure imgf000023_0001
Q est l'estimation de la qualité perçue du signal S, est la somme des dégradations prises en compte dans ce
Figure imgf000024_0001
modèle, écrêtée à un maximum perceptuel,
Q is the estimate of the perceived quality of the signal S, is the sum of the degradations taken into account in this
Figure imgf000024_0001
model, clipped to a perceptual maximum,
- d, est la somme des dégradations considérées sur un des objets sémantiques détectés dans le signal S, c'est-à-dire soit sur l'ensemble des régions de ciel, soit sur l'ensemble des régions de mer, soit sur les autres régions des images du signal S,- d, is the sum of the degradations considered on one of the semantic objects detected in the signal S, that is to say either on all the sky regions, or on all the sea regions, or on the other regions of the S signal images,
- S1 est un coefficient de pondération des dégradations considérées sur cet objet sémantique, ce coefficient étant préalablement déterminé par des tests subjectifs, ' P1J est une primitive extraite à l'étape E42B sur cet objet sémantique, soit par exemple la densité de zones homogènes dans les régions de ciel si l'objet sémantique considéré est le ciel,S 1 is a weighting coefficient of the impairments considered on this semantic object, this coefficient being previously determined by subjective tests, P 1J is a primitive extracted in step E42B on this semantic object, for example the density of zones. homogeneous in the sky regions if the semantic object considered is the sky,
- etcry est un coefficient de pondération de cette primitive, préalablement déterminé par des tests subjectifs. L'étape suivante E44B est le calcul des dégradations sur le signal S, utilisant les primitives extraites à l'étape E42B. Ce calcul utilise les coefficients correspondants dans le modèle cognitif sélectionné à l'étape E43B. Par exemple la dégradation due à la densité de zones homogènes dans les régions de ciel des images d'un documentaire ciel-mer sera: - la densité de zones homogènes dans les régions de ciel des images du signal S correspondant à ce documentaire ciel-mer, - multipliée par le coefficient de pondération al} correspondant du modèle cognitif sélectionné à l'étape E43B.and y is a weighting coefficient of this primitive, previously determined by subjective tests. The next step E44B is the calculation of the degradations on the signal S, using the primitives extracted in step E42B. This calculation uses the corresponding coefficients in the cognitive model selected in step E43B. For example, the degradation due to the density of homogeneous zones in the sky regions of the images of a sky-sea documentary will be: - the density of homogeneous zones in the sky regions of the S-signal images corresponding to this sky-sea documentary multiplied by the corresponding weighting coefficient l 1 of the cognitive model selected in step E43B.
Enfin l'étape E45B est l'intégration des dégradations calculées à l'étape E44B dans le modèle cognitif sélectionné à l'étape E43B, donnant l'estimation de la qualité perçue Q du signal S.Finally, step E45B is the integration of the impairments calculated in step E44B into the cognitive model selected in step E43B, giving the estimate of the perceived quality Q of the signal S.
Il est à noter que l'ordre des étapes dans cette dernière étape E4 d'estimation de la qualité perçue du signal S n'est pas figé, l'étape E43B étant par exemple en variante mise en œuvre après l'étape E42B, et les étapes E43B, E44B et E45B regroupées en une seule étape. De même dans une autre variante, on implémente seulement les étapes E2 et E4, en utilisant une seule méthode d'indexation, et une seule méthode de mesure de qualité perçue sans référence, que l'on adapte à la classe ou au type de contenu déterminé à l'étape E1. Enfin dans ce mode de réalisation de l'invention, le procédé de mesure sans référence selon l'invention est implémente dans un seul dispositif G, mais une implémentation répartie est envisageable. Par exemple, en variante, les modules G1 et G2 sont implémentées dans un serveur d'indexation distant du dispositif G, qui n'implémente alors que les modules G3 et G4. It should be noted that the order of the steps in this last step E4 for estimating the perceived quality of the signal S is not fixed, the step E43B being for example as an alternative implemented after step E42B, and steps E43B, E44B and E45B grouped in a single step. Similarly, in another variant, only steps E2 and E4 are implemented, using a single indexing method, and a single non-reference perceived quality measurement method, which is adapted to the class or content type. determined in step E1. Finally, in this embodiment of the invention, the non-reference measurement method according to the invention is implemented in a single device G, but a distributed implementation is possible. For example, in a variant, the modules G1 and G2 are implemented in a remote indexing server of the device G, which then implements only the modules G3 and G4.

Claims

REVENDICATIONS
1. Procédé de mesure sans référence de la qualité perçue d'un signal (S) porteur de données représentatives d'un contenu au moins visuel ou sonore, caractérisé en ce qu'il comporte les étapes de:1. Measurement method without reference to the perceived quality of a signal (S) carrying data representative of a content at least visual or sound, characterized in that it comprises the steps of:
- indexation (E2) dudit contenu, déterminant au moins une classe (C) d'appartenance sémantique dudit contenu,indexing (E2) said content, determining at least one class (C) of semantic membership of said content,
- et estimation (E4) de la qualité perçue dudit signal (S) en utilisant une méthode de mesure sans référence de qualité perçue, ladite méthode étant adaptée à ladite classe d'appartenance (C) ou à un type (t) de contenu de ladite classe (C).and estimating (E4) the perceived quality of said signal (S) by using a measurement method without reference of perceived quality, said method being adapted to said membership class (C) or a type (t) of content of said class (C).
2. Procédé de mesure sans référence selon la revendication 1 , dans lequel ladite étape d'estimation (E4) est précédée d'une étape de sélection (E3) de ladite méthode de mesure sans référence de qualité perçue parmi un ensemble de méthodes de mesure sans référence adaptées à divers types ou classes d'appartenance sémantique de contenus.The non-reference measurement method according to claim 1, wherein said estimating step (E4) is preceded by a step of selecting (E3) said measurement method without reference of perceived quality among a set of measurement methods. without reference adapted to various types or classes of semantic membership of contents.
3. Procédé de mesure sans référence selon la revendication 2, dans lequel ladite étape de sélection (E3) tient compte d'au moins un paramètre (k) de rapidité de la méthode de mesure à sélectionner ou un paramètre (p) de précision de mesure de qualité perçue.The non-reference measurement method according to claim 2, wherein said selecting step (E3) takes into account at least one parameter (k) of speed of the measurement method to be selected or a parameter (p) of accuracy of measure of perceived quality.
4. Procédé de mesure sans référence selon l'une quelconque des revendications 1 à 3, dans lequel ladite étape d'indexation (E2) est précédée d'une étape de sélection (E1 ) de ladite méthode d'indexation parmi un ensemble de méthodes d'indexation, ladite étape de sélection (E1) tenant compte d'au moins un paramètre (k) de rapidité de la méthode d'indexation à sélectionner ou un paramètre (p) de précision de mesure de qualité perçue. 4. A method of measurement without reference according to any one of claims 1 to 3, wherein said indexing step (E2) is preceded by a step of selecting (E1) said indexing method among a set of methods indexing method, said selecting step (E1) taking into account at least one parameter (k) of speed of the indexing method to be selected or a parameter (p) of measurement accuracy of perceived quality.
5. Procédé de mesure sans référence selon l'une quelconque des revendications 1 à 4, dans lequel ladite étape d'indexation (E2) tient compte d'au moins une méta-information sur ledit signal (S).The non-reference measurement method according to any one of claims 1 to 4, wherein said indexing step (E2) takes into account at least one meta-information on said signal (S).
6. Procédé de mesure sans référence selon l'une quelconque des revendications 1 à 5, dans lequel ladite étape d'estimation (E4) comporte une sous-étape d'extraction (E41A) dans ledit signal (S), de primitives liées à l'estimation de la qualité perçue dudit signal (S), lesdites primitives étant adaptées à ladite classe d'appartenance (C) ou audit type (t) de contenu de ladite classe (C).The non-reference measurement method according to any one of claims 1 to 5, wherein said estimating step (E4) comprises an extraction sub-step (E41A) in said signal (S), primitives related to estimating the perceived quality of said signal (S), said primitives being adapted to said membership class (C) or content type (t) of said class (C).
7. Procédé de mesure sans référence selon l'une quelconque des revendications 1 à 5, dans lequel ledit signal (S) est porteur de données représentatives d'une ou plusieurs images, et dans lequel ladite étape d'estimation (E4) comporte une sous-étape d'analyse (E41 B) d'au moins une desdites images, et une sous-étape d'extraction (E42B) de primitives liées à l'estimation de la qualité perçue dudit signal (S) en fonction d'une ou plusieurs régions identifiées dans ladite image lors de l'étape d'analyse (E41 B).The non-reference measurement method according to any one of claims 1 to 5, wherein said signal (S) carries data representative of one or more images, and wherein said estimating step (E4) comprises a sub-step of analyzing (E41 B) at least one of said images, and an extraction sub-step (E42B) of primitives related to the estimation of the perceived quality of said signal (S) as a function of a or more regions identified in said image during the analyzing step (E41 B).
8. Dispositif (G) de mesure sans référence de la qualité perçue d'un signal (S) porteur de données représentatives d'un contenu au moins visuel ou sonore, caractérisé en ce qu'il comporte:8. Device (G) for measuring without reference to the perceived quality of a signal (S) bearing data representative of at least a visual or sound content, characterized in that it comprises:
- des moyens d'obtention de données d'indexation (G2) dudit contenu, déterminant au moins une classe (C) d'appartenance sémantique dudit contenu,means for obtaining indexing data (G2) for said content, determining at least one class (C) of semantic membership of said content,
- et des moyens d'estimation (G4) de la qualité perçue dudit signal (S) en utilisant une méthode de mesure sans référence de qualité perçue, ladite méthode étant adaptée à ladite classe (C) d'appartenance ou à un type (t) de contenu de ladite classe.and means for estimating (G4) the perceived quality of said signal (S) by using a measurement method without reference of perceived quality, said method being adapted to said class (C) of membership or to a type (t ) of content of said class.
9. Terminal intégrant le dispositif (G) selon la revendication 8. 9. Terminal incorporating the device (G) according to claim 8.
10. Programme d'ordinateur comportant des instructions pour mettre en œuvre le procédé selon l'une quelconque des revendications 1 à 7, lorsqu'il est exécuté sur un ordinateur. A computer program comprising instructions for implementing the method of any one of claims 1 to 7 when executed on a computer.
PCT/FR2009/051186 2008-06-24 2009-06-22 Method of referenceless measurement of the perceived quality of a signal and corresponding device WO2010007286A2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0854166 2008-06-24
FR0854166 2008-06-24

Publications (2)

Publication Number Publication Date
WO2010007286A2 true WO2010007286A2 (en) 2010-01-21
WO2010007286A3 WO2010007286A3 (en) 2010-03-11

Family

ID=40340636

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2009/051186 WO2010007286A2 (en) 2008-06-24 2009-06-22 Method of referenceless measurement of the perceived quality of a signal and corresponding device

Country Status (1)

Country Link
WO (1) WO2010007286A2 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5940124A (en) * 1997-07-18 1999-08-17 Tektronix, Inc. Attentional maps in objective measurement of video quality degradation
EP1244312A1 (en) * 2001-03-23 2002-09-25 BRITISH TELECOMMUNICATIONS public limited company Multimodal quality assessment
WO2008077160A1 (en) * 2006-12-22 2008-07-03 Mobilkom Austria Aktiengesellschaft Method and system for video quality estimation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5940124A (en) * 1997-07-18 1999-08-17 Tektronix, Inc. Attentional maps in objective measurement of video quality degradation
EP1244312A1 (en) * 2001-03-23 2002-09-25 BRITISH TELECOMMUNICATIONS public limited company Multimodal quality assessment
WO2008077160A1 (en) * 2006-12-22 2008-07-03 Mobilkom Austria Aktiengesellschaft Method and system for video quality estimation

Also Published As

Publication number Publication date
WO2010007286A3 (en) 2010-03-11

Similar Documents

Publication Publication Date Title
CN114584849B (en) Video quality evaluation method, device, electronic equipment and computer storage medium
Wang et al. Reduced-reference image quality assessment using a wavelet-domain natural image statistic model
US8995823B2 (en) Method and system for content relevance score determination
Hassan et al. Structural similarity measure for color images
CN108933935B (en) Detection method and device of video communication system, storage medium and computer equipment
Chen et al. Statistical and structural information backed full-reference quality measure of compressed sonar images
US8243143B2 (en) Method and apparatus for generation of a video quality parameter
Ries et al. Content based video quality estimation for H. 264/AVC video streaming
You et al. Attention modeling for video quality assessment: Balancing global quality and local quality
Correia et al. Objective evaluation of relative segmentation quality
Wang et al. Prediction of satisfied user ratio for compressed video
Amirshahi et al. Spatial-temporal video quality metric based on an estimation of QoE
Zeng et al. 3D-SSIM for video quality assessment
Chen et al. Subjective and objective quality evaluation of sonar images for underwater acoustic transmission
Da et al. Perceptual quality assessment of nighttime video
WO2008077160A1 (en) Method and system for video quality estimation
Li et al. A novel spatial pooling strategy for image quality assessment
WO2010007286A2 (en) Method of referenceless measurement of the perceived quality of a signal and corresponding device
Wang et al. Spatio-temporal ssim index for video quality assessment
CN112866683B (en) Quality evaluation method based on video preprocessing and transcoding
Chang et al. Image Quality Evaluation Based on Gradient, Visual Saliency, and Color Information
Nguyen et al. An ensemble learning-based no reference qoe model for user generated contents
Lin et al. Underwater image quality database towards fish detection
Anitha et al. Quality assessment of resultant images after processing
Ieremeiev et al. Full-reference metrics multidistortional analysis

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09784417

Country of ref document: EP

Kind code of ref document: A2

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09784417

Country of ref document: EP

Kind code of ref document: A2