WO2002076095A1 - Procede et dispositif de transmission d'une sequence video comportant un visage, en particulier dans un systeme de visiophonie mobile - Google Patents

Procede et dispositif de transmission d'une sequence video comportant un visage, en particulier dans un systeme de visiophonie mobile Download PDF

Info

Publication number
WO2002076095A1
WO2002076095A1 PCT/FR2002/000913 FR0200913W WO02076095A1 WO 2002076095 A1 WO2002076095 A1 WO 2002076095A1 FR 0200913 W FR0200913 W FR 0200913W WO 02076095 A1 WO02076095 A1 WO 02076095A1
Authority
WO
WIPO (PCT)
Prior art keywords
face
image
class
block
binary
Prior art date
Application number
PCT/FR2002/000913
Other languages
English (en)
Inventor
Sébastien Roux
Eric Petit
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom filed Critical France Telecom
Priority to EP02716894A priority Critical patent/EP1374580A1/fr
Publication of WO2002076095A1 publication Critical patent/WO2002076095A1/fr

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/148Interfacing a video terminal to a particular transmission medium, e.g. ISDN
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/127Prioritisation of hardware or computational resources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/142Constructional details of the terminal equipment, e.g. arrangements of the camera and the display

Definitions

  • the invention relates to the transmission of images, and in particular the improvement of video coding and assistance with framing, in particular for a mobile videophone system.
  • Mobile video telephony is one of them. It allows two users, each equipped with a mobile terminal, such as a mobile phone, to communicate remotely, each user being able to see the face of their contact on the screen of their terminal.
  • a mobile terminal such as a mobile phone
  • motion estimation Most of the complexity of the algorithms is found in the processing block exploiting temporal redundancy, called "motion estimation”. This is why, many fast motion estimation algorithms exist and allow a drastic reduction in complexity. However, these fast algorithms have an impact on image quality. Indeed, they evenly degrade the image and therefore the face in the case of a videophone application.
  • MPEG-4 specifies a particular configuration for very low bit rates, namely the MPEG-4 Simple Profile standard (MPEG-4 simple Profile).
  • MPEG-4 simple Profile This standard specifies a "block" based coding, that is to say a coding working on a division of the image into blocks of size 16 ⁇ 16 pixels or 8 ⁇ 8 pixels.
  • Such coding is very similar to coding of the H263 type defined in the ITU-T standard and well known to those skilled in the art.
  • the speeds available on mobile networks will remain low in the coming years for applications including video.
  • the object of the invention is therefore to make the best use of the available bit rate in order to obtain satisfactory image quality.
  • the average operating time of a mobile terminal must be at least four hours to be usable.
  • the on-board power is limited and future channel coding algorithms for third-generation mobiles require high computing power, which does not leave much resource for video processing.
  • the invention therefore also aims to drastically reduce the complexity of the video encoder to consider this kind of service on a mobile.
  • the image has meaning only if it does not deteriorate the intelligibility of the conversation.
  • a lip refresh rate of less than 15 Hz is considered to interfere with conversation.
  • the eye is more sensitive to the foreground face than to the background.
  • An object of the invention is therefore also to guarantee a minimum frequency on the lips in order to ensure good synchronization of the lips and the voice.
  • the invention also aims to guarantee a higher image quality on the face for visual comfort.
  • the size of the associated screen does not currently reach sufficient dimensions to allow display. both of the user's own image and that of the other person's contact. This results in functionality problems for a mobile video door entry system. Indeed, the camera being a priori secured to the terminal that the user holds in his hand, it seems relatively difficult for him to position himself correctly with respect to the objective if he does not have feedback from his picture on the screen.
  • the invention therefore also aims to provide framing assistance which is very simple to implement and compatible with the size of a current screen, typically a two or three inch screen.
  • the invention therefore proposes, in one embodiment, a treatment making it possible to detect the presence of a face, to extract its position and to frame it in a rectangular window.
  • This system associated with a H263 type video encoder, allows to maintain a sufficient frequency on the user's face (in the rectangular window) necessary for the good synchronization of the lips and the voice, to define a profile of spatial quality. on the image leading to a better subjective quality (distribution of the non-uniform bandwidth on the image).
  • the processing according to the invention presents, for example, an algorithmic complexity of approximately one million elementary operations per image in QCIF format (176 ⁇ 144 pixels), which represents around 10 to 30% of the complexity of the processing of an H263 video encoder.
  • this processing according to the invention makes it possible to implement a technique for controlling the motion estimator leading to an overall lower complexity of the coder.
  • the processing according to the invention providing the position information of the face, it is then possible to know the relative position of the user relative to the camera. Also, a simple means of framing assistance is therefore also implemented by means of an icon indicating the good or bad positioning of the user relative to the camera.
  • the invention therefore proposes a method of transmission of a video sequence comprising a face in a mobile videophone system, comprising:
  • a coding phase of the acquired image comprising the development of a predicted image from a previous reconstructed image and an estimation of the movement using the acquired image
  • the coding phase further comprises a step of detecting the face in the image providing an indication of the location of the area of the face in said image.
  • the motion estimation then uses this location indication.
  • the image being processed by macroblocks two different motion estimation algorithms are used for each macroblock depending on whether the macroblock is located inside or inside it. outside of said facial area.
  • the coding phase of the acquired image includes a quantification step.
  • the indication of the location of the face is advantageously used to control the quantization step.
  • a finer quantization step can be used for a macroblock of the face, which ensures minimal quality on the face.
  • the face detection step comprises:
  • N classes for example four classes, each class being defined by a representative assigned a predefined blue chrominance value and a predefined red chrominance value, the one of these classes, (called face-class) being representative of the chrominances of a face,
  • a sub-step for developing a binary mask of the image comprising the assignment to each pixel belonging to said face class, of a first binary value, for example the value 1, and the assignment to each pixel belonging to another class, of the second binary value, for example the value 0,
  • the correlation processing thus aims selecting one of these windows, the selected window then defining said indication of the face area. While it would be possible in theory to perform the correlation on the binary mask of the total image, it is preferable to perform filtering and sub-sampling of a primary binary mask so as to generate said binary mask, which is then of smaller size. And, the primary bit mask is the bit mask resulting from the assignment to each pixel of the image belonging to said face class, of the first binary value, and the assignment to each pixel of the image belonging to another class, of the second binary value.
  • the filtering and the sub-sampling of the primary binary mask can include: - a decomposition of the primary binary mask into blocks of pixels,
  • the set of marking values then forms the binary mask, which is smaller in size than the primary binary mask of the total image.
  • the decision criterion comprises, for each block, the recognition of the number of pixels of the block belonging to said face class, and the comparison of this number with a predetermined threshold.
  • the correlation processing advantageously comprises successive correlations with windows of increasingly large sizes.
  • the window selected is the one with the best correlation score.
  • a pixel is classified in the class for which it is the closest neighbor of the representative, with respect to the chrominance values.
  • the face detection step advantageously comprises an update, for example between each image, of the blue and red chrominance values of the representatives of the classes, the updating of the blue and red chrominance values of the representative of a class using the blue and red chrominance values of all the pixels having been previously classified in said class.
  • the location information of the facial area is also used for assistance in framing the face.
  • the invention also relates to a device for transmitting a video sequence comprising a face in a mobile videophone system. This device includes:
  • a means of acquiring the current image such as a camera
  • means for processing the acquired image comprising a stage for coding the acquired image comprising an image memory storing a previous reconstructed image, a motion estimation block connected to the output of the acquisition means for developing a motion estimation and a prediction block elaborating a predicted image from the previous reconstructed image and the motion estimation information, and - means for transmitting the image delivered by the processing means.
  • the coding stage further comprises a face detection block in the image, connected to the acquisition means, and providing an indication of the location of the face area in said image.
  • the output of the face detection block is connected to an input of the motion estimation block.
  • the motion estimation block uses for each macroblock two different motion estimation algorithms depending on whether the macroblock is located inside or outside the frame. outside said facial area.
  • these advantageously comprise a control input for controlling the quantization step, this control input being connected to the output of the block of face detection.
  • the face detection block comprises: - partitioning means able to partition pixels of the image into N classes, each class being defined by a representative assigned with a chrominance value predefined blue and a predefined red chrominance value, one of these classes being representative of the chrominances of a face, - production means capable of producing a binary mask of the image, comprising allocation means able to assign to each pixel belonging to said face class, a first binary value, and to assign to each pixel belonging to another class, the second binary value, - correlation means capable of performing a correlation processing between the mask binary and a set of windows of predetermined sizes and shapes each comprising points all assigned the same binary value,
  • selection means capable of selecting one of these windows as a function of the result of the correlation processing, the window selected defining said indication of the facial area.
  • the means for developing the binary mask advantageously comprise, in addition to the allocation means generating a primary binary mask, means for filtering and sub-sampling the primary binary mask so as to generate the binary mask, which is then of larger size. reduced than that of the primary binary mask.
  • the filtering and sub-sampling means include:
  • decomposition means capable of decomposing the primary binary mask into blocks of pixels
  • decision-making means capable of making a decision on whether or not each block belongs to said face class according to a predetermined decision criterion
  • additional allocation means capable of assigning to each block a marking value having said first binary value if the block belongs to said face class, and the second binary value otherwise, all of the marking values forming said binary mask.
  • the decision-making means comprise for example calculation means suitable for each block to account for the number of pixels of the block belonging to said face class, and comparison means suitable for comparing this number with a predetermined threshold.
  • the correlation means are advantageously able to carry out successive correlations with windows of increasingly large sizes and the selection means select the window having the best correlation score.
  • the partitioning means are capable of classifying a pixel in the class of which it is the closest neighbor of the representative, with respect to the chrominance values.
  • the face detection block advantageously includes updating means capable of updating the blue and red chrominance values of the representatives of the classes, the updating of the blue and red chrominance values of the representative of a class using blue and red chrominance values of all the pixels having been previously classified in said class.
  • the device comprises:
  • control means capable of developing framing information relating to the framing of the face of a user in the field of the acquisition means, on the basis of the location information delivered by the face detection block, and
  • the device comprises a screen capable of displaying an image received by the device and said indicator is for example a gauge, for example in the form of a stick, arranged at the edge of the screen and the degree of filling of which provides said indication of framing. .
  • FIG. 1 schematically illustrates the general architecture of a mobile videophone system according to the invention
  • FIG. 2 illustrates in more detail but still schematically the processing means of a transmission device belonging to the mobile videophone system of Figure 1;
  • FIG. 3 shows a flowchart illustrating the control of a motion estimate from the location information of the face
  • FIG. 5 shows a partitioning of the chrominance space into four classes
  • Figure 6 illustrates in more detail but still schematically an implementation of face detection, according to the invention.
  • FIG. 7 illustrates more particularly an implementation of the framing assistance, according to the invention.
  • the reference DM designates an image transmission device according to the invention, for example incorporated within of a mobile telephone
  • the reference DR designates a reception device, for example also a mobile telephone.
  • These two devices which can be functionally interchangeable, are part of an S VM mobile videophone system.
  • Each mobile phone is equipped with a CM camera and an ECR screen.
  • a current image IMA of the user of the device DM, comprising his face VS, is acquired by a camera CM and then processed in processing means MT which perform source coding of the type of that performed in an H263 coder, but comprising as as will be seen in more detail, an additional preprocessing affecting the processing carried out in the motion estimator block.
  • the bit stream delivered by the processing means is received by MCC channel coding means, of conventional structure and known per se, and the information is delivered on a radio channel via an antenna ANT1 towards the antenna ANT2 of the mobile phone DR.
  • This conventionally comprises channel decoding means MDC, as well as source decoding means MT2 and the image IMA is then reproduced on the screen ECR of the telephone.
  • the processing means MT comprise an ETC coding stage whose structure is similar to that of an H263 coder. More precisely, as is conventional and known to a person skilled in the art, the IMA image is formed by a luminance image of 144 ⁇ 176 pixels and two chrominance images of 72 ⁇ 88 pixels. These images are conventionally broken down into macroblocks, for example into macroblocks of 16 ⁇ 16 pixels for the luminance image. All the means composing the processing means MT can be produced " in software within a processor.
  • the processing means elaborate for each current image received, a predicted image from a reconstructed image previous stored in an image memory MM, and of a motion estimation using the image acquired and delivered by a BEM block
  • This BEM block includes functionally a motion estimation block and a prediction block. predicted is subtracted from the current image so as to deliver a prediction error which is transposed from the spatial domain to the frequency domain by means of transformation into discrete cosine DCT. Then, a quantification making it possible to reduce the amplitude of the coefficients and the number of bits to be transmitted, is carried out by quantization means Q of conventional structure.
  • VLC variable length coding means then perform variable length coding and compression so as to deliver a stream of FLX bits to the MCC channel coding means.
  • quantized prediction error is recalculated in inverse quantization means Q "1 , then in inverse transform means in discrete cosine IDCT.
  • the output of these means IDCT is summed with the predicted image to provide the current reconstructed image which will be used in the next cycle.
  • the invention provides here for using a face detection block
  • DNS which will provide an indication of the location of the face area in the IMA image so as to control the BEM motion estimation block.
  • the indication of the face area is in fact a rectangular window F ⁇ comprising an integer number of macroblocks MCBi of the image IMA .
  • the face location indication provided by the DNS face detection block is in fact the shape of the window F de as well as its position in the image. It follows that one can easily define for each macroblock whether it is located inside or outside the window F ⁇ (step 30).
  • the motion estimation block BEM will use a first motion estimation algorithm ALG1 (step 32).
  • the ALG1 algorithm an algorithm suitable for objects which have a global movement with local deformations (movement of the lips plus blinking of the eye).
  • step 31 is a fast motion estimation algorithm well suited to the background.
  • algorithm ALG2 is a fast motion estimation algorithm well suited to the background.
  • the motion estimation block then delivers a motion vector for each macroblock, which makes it possible to develop the predicted image. It can also be seen in FIG. 2 that the output of the face detection unit DVS is connected to an input for controlling the quantization means Q and reverse quantization Q "1. This makes it possible to adjust the quantization step, for example so thinner on the face.
  • FIGS. 4 to 6 the operation and the internal structure of the face detection block.
  • the detection of the face in an image starts from the consideration that the texture of the skin is located in an elliptical region R (FIG. 4) of the chrominance space, that is to say the red chrominances Cr and the blue chrominances Cb.
  • the invention provides a partition of the chrominance space according to the Lloyd-Max algorithm (well known to those skilled in the art and described in particular in the work by N. Moreau, "Signal compression technique ", Masson, 1995). This partition consists of dividing the chrominance space into N classes so as to highlight a region of geometry close to that of the ellipse R.
  • the number of classes N must be large enough for the class associated with the skin to be a good approximation of this region R. It was observed that the value 4 for the number N was an acceptable number.
  • regions of different geometry are obtained.
  • the region of the face CL1 is a triangle which provides a good approximation of the ellipse R.
  • FIG. 5 illustrates the partitioning of the space into four classes CL1-CL4, the class CL1 being the class-face.
  • Each class is represented by a representative RP1-RP4 having a predetermined blue chrominance value and a red chrominance value.
  • a pixel will be considered to belong to a class CLi if it is the closest neighbor to the representative RPi of this class.
  • the nearest neighbor is assessed here using the Euclidean norm as defined by formula (I) below:
  • M denotes a current pixel
  • A denotes the representative of a class
  • Cr M and Cb M denote the red and blue chrominance values of pixel M respectively
  • Cr A and Cb A denote the chrominance values respectively representative's red and blue colors.
  • a processing block BT1 will determine a so-called "primary" binary mask MBP. For this, the processing block BT1 performs a processing at the pixel level using for each pixel its red chrominance value Cr and its blue chrominance value Cb.
  • MPI partitioning means classify the current pixel into one of the N classes using the quadratic standard defined by the formula (I) above. Then, MEB production means 1 assign a first binary value, for example the value 1, to each pixel belonging to the face class CL1, and a second binary value, for example the value 0, to each pixel belonging to a other class.
  • the MBP bit mask is filtered and sub-sampled so as to provide a MB bit mask of smaller size than that of the MBP bit mask.
  • the filtering means FLT comprise decomposition means which will decompose each chrominance image of size 88 ⁇ 72 pixels into blocks of 4x4 pixels. Then, decision-making means will make a decision on whether or not each block belongs to the face class CL1 as a function of a predetermined decision criterion.
  • a block will be considered to belong to the face class CL1 if the number of pixels of the blocks assigned with the value 1 is greater than a predetermined threshold, for example 50%.
  • additional allocation means will assign to each block a marking value having the first binary value (1 in the example described) if the block belongs to said face-class, and the second binary value (0 in the example described) otherwise.
  • the set of marking values then forms the binary mask, which is an 18x22 mask.
  • MCOR correlation means correlate the binary mask of 18x22 points with windows of different shape and size, stored in a window memory MMF.
  • Each window is here a rectangular window whose points are assigned the value 1 (in the example described). And, it is the window which presents the best correlation score which will be selected as being the window FN defining the area of the face in the image.
  • the correlation processing can be carried out as follows. A first correlation processing is carried out with the smallest of the windows available. We examine the correlation score. If this score is greater than 70%, we consider that a face is in the window. Otherwise, it is estimated that there is no face. If a face has been detected with the first window, we go to the larger window. If the correlation score is always greater than or equal to 70%, the process is continued with an even larger window. If on the other hand the score is greater than 70%, it is considered that it is the previous window which is the selected window FN.
  • MCL means will update the chrominance values of the representatives for processing the pixels of the following image.
  • the MCL means will for example carry out for each class the average of the blue and red chrominance values
  • the means MCL determine whether one of these representatives is located in a rectangle circumscribed at the ellipse R. If this is the case, this representative is the new representative of the face-class.
  • the VRj values of the representatives are reset with the initial chrominance values of the representatives VRIj.
  • the face detection block DVS provides a window FN whose position and size are predetermined and define the face area.
  • the invention will use here the position and shape information of the FN window to provide assistance with framing. It is assumed in FIG. 7 that two interlocutors A and B chat via their mobile phone. Interlocutor A is filmed by the camera of his mobile phone and his image appears on the ECR screen of the mobile phone of user B.
  • user B is filmed by the camera CM of his mobile phone and his image appears on the ECR screen of the mobile phone of user A.
  • the invention therefore provides for having a JG gauge at the edge of the screen, the degree of filling of which will define the quality of the frame of the interlocutor. More precisely, user B who is relatively well centered in the field of the camera CM will see on his screen his JG gauge almost completely filled.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

Le dispositif comprend un moyen d'acquisition de l'image courante, des moyens de traitement MT de l'image acquise comportant un étage de codage ETC de l'image acquise comportant une mémoire d'image MM stockant une image reconstruite précédente, un bloc d'estimation de mouvement BEM relié à la sortie des moyens d'acquisition pour élaborer une estimation de mouvement et un bloc de prédiction BEM élaborant une image prédite à partir de l'image reconstruite précédente et de l'information d'estimation de mouvement, et des moyens d'émission de l'image délivrée par les moyens de traitement. L'étage de codage ETC comporte en outre un bloc de détection du visage DVS dans l'image, relié aux moyens d'acquisition et fournissant une indication de localisation de la zone du visage dans ladite image, et la sortie du bloc de détection du visage est reliée à une entrée du bloc d'estimation de mouvement.

Description

PROCEDE ET DISPOSITIF DE TRANSMISSION D UNE SEQUENCE VIDEO COMPORTANT UN VISAGE, EN PARTICULIER DANS UN SYSTEME DE VISIOPHONIE MOBILE
L'invention concerne la transmission d'images, et notamment l'amélioration du codage vidéo et l'assistance au cadrage, en particulier pour un système de visiophonie mobile.
Avec les nouvelles normes de communication mobile, des services incluant de la vidéo peuvent être aujourd'hui envisagés. La visiophonie mobile est l'un d'entre eux. Elle permet à deux utilisateurs équipés chacun d'un terminal mobile, tel qu'un téléphone mobile, de dialoguer à distance, chaque utilisateur pouvant voir le visage de son interlocuteur sur l'écran de son terminal. Cependant, du fait des contraintes de consommation et des qualités de service, des efforts de réduction de la complexité des codeurs vidéo sont encore nécessaires.
La majeure partie de la complexité des algorithmes se trouve dans le bloc de traitement exploitant la redondance temporelle, appelé "estimation de mouvement". C'est pourquoi, de nombreux algorithmes d'estimation de mouvement rapides existent et permettent une réduction drastique de la complexité. Cependant, ces algorithmes rapides ont un impact sur la qualité de l'image. En effet, ils dégradent uniformément l'image et par conséquent le visage dans le cas d'une application de visiophonie.
Seul un codage orienté objet, du type de celui défini par la norme MPEG-4, permet un bon codage d'objets d'intérêts de la scène. Malheureusement, un codeur MPEG-4, orienté objet, ne respecte pas la contrainte de complexité pour les très bas débits. En fait, pour l'application visée de visiophonie mobile, la norme
MPEG-4 spécifie une configuration particulière pour les très bas débits, à savoir la norme MPEG-4 Profil simple (MPEG-4 simple Profile). Cette norme spécifie un codage basé "bloc", c'est-à-dire un codage travaillant sur un découpage de l'image en blocs de taille 16x16 pixels ou 8x8 pixels. Un tel codage est très similaire à un codage du type H263 défini dans la norme UIT-T et bien connu de l'homme du métier.
Et, un tel codeur du type H263 compatible avec les applications de visiophonie mobile, ne donne pas aujourd'hui entière satisfaction quant à la qualité de l'image transmise. L'invention vise à apporter une solution à ce problème.
Les débits disponibles sur les réseaux mobiles resteront encore dans les prochaines années faibles pour des applications incluant de la vidéo. L'invention a donc pour but d'exploiter au mieux le débit disponible afin d'obtenir une qualité satisfaisante de l'image. La durée moyenne de fonctionnement d'un terminal mobile doit être au minimum de quatre heures pour être exploitable. Cependant, la puissance embarquée est limitée et les futurs algorithmes de codage canal pour les mobiles de troisième génération nécessitent une forte puissance de calcul, ce qui ne laisse plus beaucoup de ressource pour des traitements vidéo. L'invention a par conséquent également pour but de réduire drastiquement la complexité du codeur vidéo pour envisager ce genre de service sur un mobile.
Dans une vidéocommunication, l'image n'a de sens que si elle ne détériore pas l'intelligibilité de la conversation. On considère qu'une fréquence de rafraîchissement des lèvres inférieure à 15 Hz nuit à la conversation. De plus, lors d'une visiophonie, l'oeil est plus sensible au visage de premier plan qu'à l'arrière plan. Un but de l'invention est donc également de garantir une fréquence minimale sur les lèvres afin d'assurer une bonne synchronisation des lèvres et de la voix. Par ailleurs, l'invention a également pour but de garantir une qualité supérieure d'image sur le visage pour le confort visuel.
Par ailleurs, du fait de la faible taille d'un terminal portable, due au problème d'encombrement, et des contraintes de consommation, la taille de l'écran associé n'atteint pas, actuellement, des dimensions suffisantes pour permettre l'affichage à la fois de la propre image de l'utilisateur et de l'image de l'interlocuteur de cet utilisateur. Il s'ensuit des problèmes de fonctionnalité pour un système de visiophonie mobile. En effet, la caméra étant a priori solidaire du terminal que l'utilisateur tient dans sa main, il semble relativement difficile pour lui de bien se positionner par rapport à l'objectif s'il ne possède pas de retour de son image sur l'écran. L'invention a donc encore pour but de proposer une assistance au cadrage qui soit très simple à mettre en oeuvre et compatible avec la taille d'un écran actuel, typiquement un écran de deux ou trois pouces. L'invention propose donc dans un mode de mise en oeuvre, un traitement permettant de détecter la présence d'un visage, d'extraire sa position et de l'encadrer dans une fenêtre rectangulaire. Ce système, associé à un codeur vidéo de type H263, permet de maintenir une fréquence suffisante sur le visage de l'utilisateur (dans la fenêtre rectangulaire) nécessaire à la bonne synchronisation des lèvres et de la voix, de définir un profil de qualité spatiale sur l'image conduisant à une meilleure qualité subjective (répartition de la bande passante non uniforme sur l'image).
Le traitement selon l'invention présente par exemple une complexité algorithmique d'environ un million d'opérations élémentaires par image au format QCIF (176x144 pixels), ce qui représente de l'ordre de 10 à 30% de la complexité des traitements d'un codeur vidéo H263. . Cependant, l'adjonction de ce traitement selon l'invention permet de mettre en oeuvre une technique de commande de l'estimateur de mouvement conduisant à une complexité globalement plus faible du codeur.
Par ailleurs, le traitement selon l'invention fournissant l'information de position du visage, il est alors possible de connaître la position relative de l'utilisateur par rapport à la caméra. Aussi, un moyen simple d'assistance au cadrage est donc également mis en oeuvre par le biais d'un icône indiquant le bon ou le mauvais positionnement de l'usager par rapport à la caméra.
Les résultats obtenus montrent une nette amélioration du compromis qualité de la vidéo/complexité/ergonomie, par rapport à un codeur H263 classique utilisant une recherche exhaustive des vecteurs mouvement. Le rapport signal à bruit sur le visage est meilleur d'environ 1 dB pour la luminance et les chrominances de l'image dans le cas du codage à 15 Hz de séquences au format QCIF avec une bande passante d'environ 24 kbits/s, et la complexité du codeur est réduite d'un facteur 10. Plus généralement, l'invention propose donc un procédé de transmission d'une séquence vidéo comportant un visage dans un système de visiophonie mobile, comprenant :
- une phase d'acquisition de l'image courante,
- une phase de codage de l'image acquise comportant l'élaboration d'une image prédite à partir d'une image reconstruite précédente et d'une estimation du mouvement utilisant l'image acquise, et
- une phase d'émission de l'image codée.
Selon une caractéristique générale de l'invention, la phase de codage comporte en outre une étape de détection du visage dans l'image fournissant une indication de localisation de la zone du visage dans ladite image. L'estimation de mouvement utilise alors cette indication de localisation.
Plus précisément, selon un mode de mise en oeuvre de l'invention, l'image étant traitée par macroblocs, on utilise pour chaque macrobloc deux algorithmes différents d'estimation de mouvement selon que le macrobloc se situe à l'intérieur ou à l'extérieur de ladite zone du visage.
Ainsi, pour des macroblocs situés à l'extérieur de la zone du visage, on utilise de préférence un algorithme rapide d'estimation de mouvement, et pour un macrobloc situé à l'intérieur de la zone du visage, on utilise un algorithme plus adapté aux objets qui ont un mouvement global avec des déformations locales (par exemple déformation des lèvres plus des clignements d'yeux). A titre d'exemple, on pourra utiliser un algorithme du type gradient descendant. Généralement, la phase de codage de l'image acquise comporte une étape de quantification. Selon un mode de mise en oeuvre de l'invention, on utilise avantageusement l'indication de localisation du visage pour commander le pas de quantification. Ainsi, à titre indicatif, si l'on n'a plus assez de bits pour coder l'image, on code uniquement le visage. En variante, on peut utiliser un pas de quantification plus fin pour un macrobloc du visage, ce qui assure une qualité minimale sur le visage.
L'invention prévoit également d'utiliser avantageusement l'indication de localisation du visage pour commander la fréquence de rafraîchissement de l'image. On assure ainsi une bonne synchronisation entre le mouvement des lèvres et la voix. Selon un mode de mise en oeuvre de l'invention, l'étape de détection du visage comporte :
- une sous-étape de partition des pixels de l'image en N classes, par exemple quatre classes, chaque classe étant définie par un représentant affecté d'une valeur de chrominance bleue prédéfinie et d'une valeur de chrominance rouge prédéfinie, l'une de ces classes, (dénommée classe-visage) étant représentative des chrominances d'un visage,
- une sous-étape d'élaboration d'un masque binaire de l'image, comportant l'affectation à chaque pixel appartenant à ladite classe- visage, d'une première valeur binaire, par exemple la valeur 1, et l'affectation à chaque pixel appartenant à une autre classe, de la deuxième valeur binaire, par exemple la valeur 0,
- un traitement de corrélation entre le masque binaire et un ensemble de fenêtres de tailles et de formes prédéterminées, par exemple rectangulaires, comportant chacune des points tous affectés d'une même valeur binaire, par exemple la valeur 1. Le traitement de corrélation vise ainsi à sélectionner l'une de ces fenêtres, la fenêtre sélectionnée définissant alors ladite indication de la zone du visage. Alors qu'il serait possible en théorie d'effectuer la corrélation sur le masque binaire de l'image totale, il est préférable d'effectuer un filtrage et un sous-échantillonnage d'un masque binaire primaire de façon à générer ledit masque binaire, qui est alors de taille plus réduite. Et, le masque binaire primaire est le masque binaire résultant de l'affectation à chaque pixel de l'image appartenant à ladite classe- visage, de la première valeur binaire, et l'affectation à chaque pixel de l'image appartenant à une autre classe, de la deuxième valeur binaire.
Le filtrage et le sous-échantillonnage du masque binaire primaire peut comporter : - une décomposition du masque binaire primaire en blocs de pixels,
- une prise de décision sur l'appartenance ou non de chaque bloc à ladite classe- visage en fonction d'un critère de décision prédéterminé,
- l'affectation à chaque bloc d'une valeur de marquage (étiquette) ayant ladite première valeur binaire si le bloc appartient à ladite classe-visage, et la deuxième valeur binaire dans le cas contraire.
L'ensemble des valeurs de marquage forme alors le masque binaire, qui est de taille plus réduite que le masque binaire primaire de l'image totale.
Selon un mode de mise en oeuvre, le critère de décision comporte, pour chaque bloc, la comptabilisation du nombre de pixels du bloc appartenant à ladite classe-visage, et la comparaison de ce nombre à un seuil prédéterminé.
Le traitement de corrélation comporte avantageusement des corrélations successives avec des fenêtres de tailles de plus en plus importantes. La fenêtre sélectionnée est celle présentant le meilleur score de corrélation.
Pour classer un pixel dans une classe, on peut utiliser la technique du plus proche voisin en utilisant les valeurs de chrominances.
Plus précisément, un pixel est classé dans la classe dont il est le plus proche voisin du représentant, vis-à-vis des valeurs de chrominances.
Par ailleurs, l'étape de détection du visage comporte avantageusement une mise à jour, par exemple entre chaque image, des valeurs de chrominances bleues et rouges des représentants des classes, la mise à jour des valeurs de chrominances bleues et rouges du représentant d'une classe utilisant les valeurs de chrominances bleues et rouges de tous les pixels ayant été préalablement classés dans ladite classe.
Selon un mode de mise en oeuvre de l'invention, on utilise par ailleurs l'information de localisation de la zone du visage pour une assistance au cadrage du visage. L'invention a également pour objet un dispositif de transmission d'une séquence vidéo comportant un visage dans un système de visiophonie mobile. Ce dispositif comprend :
- un moyen d'acquisition de l'image courante, tel qu'une caméra,
- des moyens de traitement de l'image acquise comprenant un étage de codage de l'image acquise comportant une mémoire d'image stockant une image reconstruite précédente, un bloc d'estimation de mouvement relié à la sortie des moyens d'acquisition pour élaborer une estimation de mouvement et un bloc de prédiction élaborant une image prédite à partir de l'image reconstruite précédente et de l'information d'estimation de mouvement, et - des moyens d'émission de l'image délivrée par les moyens de traitement.
Selon une caractéristique générale de l'invention, l'étage de codage comporte en outre un bloc de détection du visage dans l'image, relié au moyen d'acquisition, et fournissant une indication de localisation de la zone du visage dans ladite image. La sortie du bloc de détection du visage est reliée à une entrée du bloc d'estimation de mouvement.
Selon un mode de réalisation de l'invention, l'image étant traitée par macroblocs, le bloc d'estimation de mouvement utilise pour chaque macrobloc deux algorithmes différents d'estimation de mouvement selon que le macrobloc se situe à l'intérieur ou à l'extérieur de ladite zone du visage.
Selon un mode de réalisation de l'invention dans lequel l'étage de codage comporte des moyens de quantification, ceux-ci comportent avantageusement une entrée de commande pour commander le pas de quantification, cette entrée de commande étant reliée à la sortie du bloc de détection de visage.
Selon un mode de réalisation de l'invention, le bloc de détection du visage comporte : - des moyens de partitionnement aptes à partitionner des pixels de l'image en N classes, chaque classe étant définie par un représentant affecté d'une valeur de chrominance bleue prédéfinie et d'une valeur de chrominance rouge prédéfinie, l'une de ces classes étant représentative des chrominances d'un visage, - des moyens d'élaboration aptes à élaborer un masque binaire de l'image, comportant des moyens d'affectation aptes à affecter à chaque pixel appartenant à ladite classe-visage, une première valeur binaire, et à affecter à chaque pixel appartenant à une autre classe, la deuxième valeur binaire, - des moyens de corrélation aptes à effectuer un traitement de corrélation entre le masque binaire et un ensemble de fenêtres de tailles et de formes prédéterminées comportant chacune des points tous affectés d'une même valeur binaire,
- des moyens de sélection aptes à sélectionner l'une de ces fenêtres en fonction du résultat du traitement de corrélation, la fenêtre sélectionnée définissant ladite indication de la zone du visage.
Les moyens d'élaboration du masque binaire comportent avantageusement, outre les moyens d'affectation générant un masque binaire primaire, des moyens de filtrage et de sous-échantillonnage du masque binaire primaire de façon à générer le masque binaire, qui est alors de taille plus réduite que celle du masque binaire primaire.
Selon un mode de réalisation de l'invention, les moyens de filtrage et de sous-échantillonnage comportent :
- des moyens de décomposition aptes à décomposer le masque binaire primaire en blocs de pixels,
- des moyens de prise de décision aptes à prendre une décision sur l'appartenance ou non de chaque bloc à ladite classe-visage en fonction d'un critère de décision prédéterminé,
- des moyens d'affectation supplémentaires aptes à affecter à chaque bloc une valeur de marquage ayant ladite première valeur binaire si le bloc appartient à ladite classe-visage, et la deuxième valeur binaire dans le cas contraire, l'ensemble des valeurs de marquage formant ledit masque binaire.
Les moyens de prise de décision comportent par exemple des moyens de calcul aptes pour chaque bloc à comptabiliser le nombre de pixels du bloc appartenant à ladite classe-visage, et des moyens de comparaison aptes à comparer ce nombre à un seuil prédéterminé.
Les moyens de corrélation sont avantageusement aptes à effectuer les corrélations successives avec des fenêtres de tailles de plus en plus importantes et les moyens de sélection sélectionnent la fenêtre présentant le meilleur score de corrélation.
Selon un mode de réalisation de l'invention, les moyens de partitionnement sont aptes à classer un pixel dans la classe dont il est le plus proche voisin du représentant, vis-à-vis des valeurs de chrominances. Le bloc de détection du visage comporte avantageusement des moyens de mise à jour aptes à effectuer une mise à jour des valeurs de chrominances bleues et rouges des représentants des classes, la mise à jour des valeurs de chrominances bleues et rouges du représentant d'une classe utilisant des valeurs de chrominances bleues et rouges de tous les pixels ayant été préalablement classés dans ladite classe. Selon un mode de réalisation de l'invention, plus particulièrement adapté à l'assistance au cadrage, le dispositif comporte :
- des moyens de contrôle aptes à élaborer une information de cadrage relative au cadrage du visage d'un utilisateur dans le champ des moyens d'acquisition, à partir de l'information de localisation délivrée par le bloc de détection de visage, et
- un indicateur commandé par les moyens de contrôle pour fournir à l'utilisateur une indication relative au cadrage de son visage dans le champ des moyens d'acquisition. Plus précisément, le dispositif comporte un écran apte à afficher une image reçue par le dispositif et ledit indicateur est par exemple une jauge, par exemple en forme de bâtonnet, disposée en bordure d'écran et dont le degré de remplissage fournit ladite indication de cadrage.
D'autres avantages et caractéristiques de l'invention apparaîtront à l'examen de la description détaillée de modes de mise en oeuvre et de réalisation nullement limitatifs, et des dessins annexés, sur lesquels :
- la figure 1 illustre schématiquement l'architecture générale d'un système de visiophonie mobile selon l'invention; - la figure 2 illustre plus en détail mais toujours schématiquement les moyens de traitement d'un dispositif de transmission appartenant au système de visiophonie mobile de la figure 1 ;
- la figure 3 représente un organigramme illustrant le contrôle d'une estimation de mouvement à partir de l'information de localisation du visage;
- la figure 4 représente des valeurs de chrominances d'un visage;
- la figure 5 représente un partitionnement de l'espace des chrominances en quatre classes; la figure 6 illustre plus en détail mais toujours schématiquement une mise en oeuvre de la détection du visage, conformément à l'invention; et
- la figure 7 illustre plus particulièrement une mise en oeuvre de l'assistance au cadrage, selon l'invention.
Sur la figure 1, la référence DM désigne un dispositif de transmission d'image selon l'invention, par exemple incorporé au sein d'un téléphone mobile, et la référence DR désigne un dispositif de réception, par exemple également un téléphone mobile. Ces deux dispositifs, qui peuvent être fonctionnellement interchangeables, font partie d'un système de visiophonie mobile S VM. Chaque téléphone mobile est équipé d'une caméra CM et d'un écran ECR. Une image courante IMA de l'utilisateur du dispositif DM, comportant son visage VS, est acquise par une caméra CM puis traitée dans des moyens de traitement MT qui effectuent un codage de source du type de celui effectué dans un codeur H263, mais comportant comme on le verra plus en détail, un prétraitement supplémentaire affectant le traitement effectué dans le bloc d'estimateur de mouvement. Le flux de bits délivré par les moyens de traitement est reçu par des moyens de codage de canal MCC, de structure classique et connue en soi, et les informations sont délivrées sur un canal hertzien via une antenne ANT1 en direction de l'antenne ANT2 du téléphone mobile DR. Celui-ci comporte de façon classique des moyens de décodage de canal MDC, ainsi que des moyens de décodage de source MT2 et l'image IMA est ensuite restituée sur l'écran ECR du téléphone.
Sur la figure 2, on voit que les moyens de traitement MT comportent un étage de codage ETC dont la structure est similaire à celle d'un codeur H263. Plus précisément, comme il est classique et connu par l'homme du métier, l'image IMA est formée d'une image de luminance de 144x176 pixels et de deux images de chrominance de 72x88 pixels. Ces images sont classiquement décomposées en macroblocs, par exemple en macroblocs de 16x16 pixels pour l'image de luminance. Tous les moyens composant les moyens de traitement MT peuvent être réalisés de "façon logicielle au sein d'un processeur. D'une façon générale, les moyens de traitement élaborent pour chaque image courante reçue, une image prédite à partir d'une image reconstruite précédente stockée dans une mémoire d'image MM, et d'une estimation de mouvement utilisant l'image acquise et délivrée par un bloc BEM. Ce bloc BEM comporte fonctionnellement un bloc d'estimation de mouvement et un bloc de prédiction. L'image prédite est soustraite à l'image courante de façon à délivrer une erreur de prédiction qui est transposée du domaine spatial au domaine fréquentiel par des moyens de transformation en cosinus discret DCT. Puis, une quantification permettant de réduire l'amplitude des coefficients et le nombre de bits à transmettre, est effectuée par des moyens de quantification Q de structure classique. Des moyens de codage de longueur variable VLC effectuent alors un codage de longueur variable et une compression de façon à délivrer un flux de bits FLX aux moyens de codage de canal MCC.
Par ailleurs, l'erreur de prédiction quantifiée est recalculée dans des moyens de quantification inverses Q"1, puis dans des moyens de transformée inverse en cosinus discret IDCT. La sortie de ces moyens IDCT est sommée avec l'image prédite pour fournir l'image reconstruite courante qui sera utilisée au cycle suivant.
L'invention prévoit ici d'utiliser un bloc de détection du visage
DNS qui va fournir une indication de localisation de la zone du visage dans l'image IMA de façon à contrôler le bloc d'estimation de mouvement BEM.
Plus précisément, si l'on se réfère à la figure 3, on verra plus en détail ci-après que l'indication de la zone du visage est en fait une fenêtre rectangulaire FΝ comportant un nombre entier de macroblocs MCBi de l'image IMA.
L'indication de localisation du visage fournie par le bloc de détection du visage DNS est en fait la forme de la fenêtre FΝ ainsi que sa position dans l'image. Il s'ensuit que l'on peut aisément définir pour chaque macrobloc s'il se situe à l'intérieur ou à l'extérieur de la fenêtre FΝ (étape 30).
Pour un macrobloc MCBi situé dans la fenêtre FΝ, le bloc d'estimation de mouvement BEM va utiliser un premier algorithme d'estimation de mouvement ALG1 (étape 32).
On peut à cet égard utiliser pour l'algorithme ALG1 un algorithme adapté aux objets qui ont un mouvement global avec des déformations locales (mouvement des lèvres plus clignement de l'oeil). On pourra par exemple utiliser l'algorithme du type gradient descendant tel que celui décrit dans l'article de L.-K. Liu et E. Feig, " A block-based gradient descent search algorithm for block motion estimation in video coding", IEEE Transaction on Circuits and Systems for Video Technology, Vol 6, Ν°4, pp 419-422, 1996, ou bien l'algorithme GPS décrit dans l'article de Jer Min Jou, intitulé "The Gray Prédiction Search Algorithm for Block Motion Estimation" , IEEE Transactions On Circuits And Systems For Video Technology, Vol. 9, N° 6, Septembre 1999, pages 843-848.
Si le macrobloc MCBi se situe à l'extérieur de la fenêtre FN, on utilisera un algorithme ALG2 (étape 31) qui est un algorithme d'estimation rapide de mouvement bien adapté à l'arrière plan. A cet égard, on peut utiliser les algorithmes "2D-log search", "three step search", "four step search", décrits respectivement dans les articles de
J. R. Jain et A.K. "Displacement measurement and its application in interframe image coding", IEEE trans. commun., vol. COM-29, dec. 1981,
T. Koga, K. Iinuma, A. Hirano, Y. Iijima et T. Ishiguro, "Motion compensated interframe coding for video conferencing", Proc. Nat. telecommun. conf., 29 Nov. - 3 Dec. 1981,
L.-M. Po et W.-C. Ma, "A novel four step search algorithm for fast block motion estimation", IEEE Transaction on Circuits and Systems for Video Technology, Vol. 6, N°3, pp 313-317, 1996.
Le bloc d'estimation de mouvement délivre alors un vecteur de mouvement pour chaque macrobloc, ce qui permet d'élaborer l'image prédite. On voit également sur la figure 2 que la sortie du bloc de détection de visage DVS est reliée à une entrée de commande des moyens de quantification Q et de quantification inverse Q"1. Ceci permet de régler le pas de quantification, par exemple de façon plus fine sur le visage. On va maintenant décrire plus en détail en se référant plus particulièrement aux figures 4 à 6, le fonctionnement et la structure interne du bloc de détection de visage.
Il convient de noter ici que la structure et le fonctionnement du bloc de détection de visage qui sont décrits ici dans l'application particulière de transmission d'une image en visiophonie mobile, peuvent être considérés en fait comme totalement indépendants de cette application et être utilisés dans toute autre application.
La détection du visage dans une image part de la considération que la texture de la peau est localisée dans une région elliptique R (figure 4) de l'espace des chrominances, c'est-à-dire les chrominances rouges Cr et les chrominances bleues Cb. Par ailleurs, l'invention prévoit une partition de l'espace des chrominances selon l'algorithme de Lloyd-Max (bien connu de l'homme du métier et décrit notamment dans l'ouvrage de N. Moreau, "Technique de compression des signaux", Masson, 1995). Cette partition consiste à diviser l'espace des chrominances en N classes de façon à mettre en avant une région de géométrie voisine de celle de l'ellipse R. Le nombre de classes N doit être suffisamment grand pour que la classe associée à la peau soit une bonne approximation de cette région R. Il a été observé que la valeur 4 pour le nombre N était un nombre acceptable. Par ailleurs, selon la norme utilisée, on obtient des régions de géométrie différente.
Ainsi, comme illustré sur la figure 5, pour une norme euclidienne, la région du visage CL1 est un triangle qui fournit une bonne approximation de l'ellipse R.
La figure 5 illustre le partitionnement de l'espace en quatre classes CL1-CL4, la classe CL1 étant la classe- visage.
Chaque classe est représentée par un représentant RP1-RP4 ayant une valeur de chrominance bleue et une valeur de chrominance rouge prédéterminées.
Un pixel sera considéré comme appartenant à une classe CLi s'il est le plus proche voisin du représentant RPi de cette classe. Le plus proche voisin s'apprécie ici en utilisant la norme euclidienne telle que définie par la formule (I) ci-dessous :
dist (M, A) = (CrM - CrA)2 + (CbM - CbA)2 (D
Dans cette formule, M désigne un pixel courant, A désigne le représentant d'une classe, CrM et CbM désignent respectivement les valeurs de chrominance rouges et bleues du pixel M, tandis que CrA et CbA désignent respectivement les valeurs des chrominances rouges et bleues du représentant.
On va maintenant décrire en se référant plus particulièrement à la figure 6, l'algorithme de détection de la zone du visage.
Tout d'abord, un bloc de traitement BT1 va déterminer un masque binaire dit "primaire" MBP. Pour cela, le bloc de traitement BT1 effectue un traitement au niveau pixel en utilisant pour chaque pixel sa valeur de chrominance rouge Cr et sa valeur de chrominance bleue Cb. Tout d'abord, des moyens de partitionnement MPI classent le pixel courant dans l'une des N classes en utilisant la norme quadratique défnie par la formule (I) ci-dessus. Puis, des moyens d'élaboration MEB 1 attribuent une première valeur binaire, par exemple la valeur 1, à chaque pixel appartenant à la classe- visage CL1, et une deuxième valeur binaire, par exemple la valeur 0, à chaque pixel appartenant à une autre classe.
Puis, le masque binaire MBP est filtré et sous-échantillonné de façon à fournir un masque binaire MB de taille plus réduite que celle du masque binaire MBP.
Plus précisément, les moyens de filtrage FLT comportent des moyens de décomposition qui vont décomposer chaque image de chrominance de taille 88x72 pixels en blocs de 4x4 pixels. Puis, des moyens de prise de décision vont prendre une décision sur l'appartenance ou non de chaque bloc à la classe-visage CL1 en fonction d'un critère de décision prédéterminé.
A titre d'exemple, un bloc sera considéré comme appartenant à la classe- visage CL1 si le nombre de pixels des blocs affectés de la valeur 1 est supérieur à un seuil prédéterminé, par exemple 50%.
Et, des moyens d'affectation supplémentaires vont affecter à chaque bloc une valeur de marquage ayant la première valeur binaire (1 dans l'exemple décrit) si le bloc appartient à ladite classe-visage, et la deuxième valeur binaire (0 dans l'exemple décrit) dans le cas contraire. L'ensemble des valeurs de marquage forme alors le masque binaire, qui est un masque de 18x22.
Puis, des moyens de corrélation MCOR effectuent une corrélation entre le masque binaire de 18x22 points avec des fenêtres de forme et de taille différentes, stockées dans une mémoire de fenêtre MMF. Chaque fenêtre est ici une fenêtre rectangulaire dont les points sont affectés de la valeur 1 (dans l'exemple décrit). Et, c'est la fenêtre qui présente le meilleur score de corrélation qui sera sélectionnée comme étant la fenêtre FN définissant la zone du visage dans l'image.
A titre d'exemple, le traitement de corrélation peut s'effectuer de la façon suivante. On effectue un premier traitement de corrélation avec la plus petite des fenêtres disponibles. On examine le score de corrélation. Si ce score est supérieur à 70%, on considère qu'un visage se situe dans la fenêtre. Dans le cas contraire, on estime qu'il n'y a pas de visage. Dans le cas où un visage a été détecté avec la première fenêtre, on passe à la fenêtre de taille supérieure. Si le score de corrélation est toujours supérieur ou égal à 70%, on continue le processus avec une fenêtre de taille encore plus importante. Si par contre le score est supérieur de 70%, on considère que c'est la fenêtre précédente qui est la fenêtre sélectionnée FN.
Bien entendu, la valeur de 70% n'est ici donnée qu'à titre indicatif.
Par ailleurs, des moyens MCL vont mettre à jour les valeurs de chrominances des représentants pour le traitement des pixels de l'image suivante.
Pour cela, les moyens MCL vont par exemple effectuer pour chaque classe la moyenne des valeurs de chrominances bleues et rouges
(respectivement) de tous les pixels ayant été classés dans cette classe. Il s'ensuit pour chaque classe de nouvelles valeurs VRj pour les représ entants .
Puis, les moyens MCL déterminent si l'un de ces représentants se situe dans un rectangle circonscrit à l'ellipse R. Si tel est le cas, ce représentant est le nouveau représentant de la classe-visage.
Dans le cas contraire, les valeurs VRj des représentants sont réinitialisées avec les valeurs initiales de chrominances des représentants VRIj.
On se réfère maintenant plus particulièrement à la figure 7 pour décrire une façon extrêmement simple de fournir une assistance au cadrage. On a vu précédemment que le bloc de détection de visage DVS fournissait une fenêtre FN dont la position et la taille étaient prédéterminées et définissaient la zone du visage.
L'invention va utiliser ici l'information de position et de forme de la fenêtre FN pour fournir l'assistance au cadrage. On suppose sur la figure 7 que deux interlocuteurs A et B dialoguent via leur téléphone mobile. L'interlocuteur A est filmé par la caméra de son téléphone mobile et son image apparaît sur l'écran ECR du téléphone mobile de l'utilisateur B.
Réciproquement, l'utilisateur B est filmé par la caméra CM de son téléphone mobile et son image apparaît sur l'écran ECR du téléphone mobile de l'utilisateur A.
On voit sur la figure 7 que l'utilisateur A ne se cadre pas très bien dans le champ de la caméra CM, ce qui fait que son image apparaît décentrée sur la gauche dans l'écran ECR du téléphone de l'utilisateur B . Par contre, on voit que l'utilisateur B est à peu près correctement cadré dans le champ de la caméra CM, ce qui a pour conséquence que son image apparaisse relativement bien centrée sur l'écran ECR du téléphone de l'utilisateur A.
L'invention prévoit alors de disposer en bordure d'écran une jauge JG dont le degré de remplissage va définir la qualité du cadrage de l'interlocuteur. Plus précisément, l'utilisateur B qui est relativement bien centré dans le champ de la caméra CM verra sur son écran sa jauge JG quasiment complètement remplie.
Par contre, l'utilisateur A qui est moins bien centré verra sa jauge JG que partiellement remplie. Il convient de noter ici que la notion de remplissage peut se traduire par une zone colorée de la jauge JG.

Claims

REVENDICATIONS
1. Procédé de transmission d'une séquence vidéo comportant un visage dans un système de visiophonie mobile, comprenant une phase d'acquisition de l'image courante, une phase de codage de l'image acquise comportant l'élaboration d'une image prédite à partir d'une image reconstruite précédente et d'une estimation de mouvement utilisant l'image acquise, et une phase d'émission de l'image codée, caractérisé par le fait que la phase de codage comporte en outre une étape de détection du visage (VS) dans l'image courante fournissant une indication de localisation (FN) de la zone du visage dans ladite image courante, et par le fait que l'estimation de mouvement utilise cette indication de localisation.
2. Procédé selon la revendication 1, caractérisé par le fait que l'image étant traitée par macrobloc, on utilise pour chaque macrobloc deux algorithmes différents (ALG1, ALG2) d'estimation de mouvement selon que le macrobloc se situe à l'intérieur ou à l'extérieur de ladite zone du visage.
3. Procédé selon la revendication 2, caractérisé par le fait que pour un macrobloc situé à l'intérieur de la zone, on utilise un algorithme du type gradient descendant.
4. Procédé selon l'une des revendications précédentes, caractérisé par le fait que la phase de codage de l'image acquise comporte une étape de quantification (Q), et par le fait qu'on utilise l'indication de localisation du visage pour commander le pas de quantification.
5. Procédé selon l'une des revendications précédentes, caractérisé par le fait qu'on utilise l'indication de localisation du visage pour commander la fréquence de rafraîchissement de l'image.
6. Procédé selon l'une des revendications précédentes, caractérisé par le fait que l'étape de détection du visage comporte une sous-étape de partition des pixels de l'image en N classes
(CLi), chaque classe étant définie par un représentant affectée d'une valeur de chrominance bleue prédéfinie et d'une valeur de chrominance rouge prédéfinie, l'une de ces classes étant représentative des chrominances d'un visage, une sous-étape d'élaboration d'un masque binaire de l'image (MB), comportant l'affectation à chaque pixel appartenant à ladite classe- visage, d'une première valeur binaire, et l'affectation à chaque pixel appartenant à une autre classe, de la deuxième valeur binaire, un traitement de corrélation (MCOR) entre le masque binaire et un ensemble de fenêtres de tailles et de formes prédéterminées comportant chacune des points tous affectés d'une même valeur binaire, de façon à sélectionner l'une de ces fenêtres, la fenêtre sélectionnée définissant ladite indication de la zone du visage.
7. Procédé selon la revendication 6, caractérisé par le fait que la sous-étape d'élaboration du masque binaire comporte l'affectation à chaque pixel appartenant à ladite classe-visage, d'une première valeur binaire, et l'affectation à chaque pixel appartenant à une autre classe de la deuxième valeur binaire, de façon à générer un masque binaire primaire (MBP), un filtrage et un sous-échantillonnage du masque binaire primaire de façon à générer ledit masque binaire (MB) de taille plus réduite.
8. Procédé selon la revendication 7, caractérisé par le fait que le filtrage et le sous-échantillonnage du masque binaire primaire comporte une décomposition du masque binaire primaire en blocs de pixels, une prise de décision sur l'appartenance ou non de chaque bloc à ladite classe-visage en fonction d'un critère de décision prédéterminé, l'affectation à chaque bloc d'une valeur de marquage ayant ladite première valeur binaire si le bloc appartient à ladite classe-visage^ et la deuxième valeur binaire dans le cas contraire, l'ensemble des valeurs de marquage formant ledit masque binaire.
9. Procédé selon la revendication 8, caractérisé par le fait que ledit critère de décision comporte pour chaque bloc, la comptabilisation du nombre de pixels du bloc appartenant à ladite classe-visage, et la comparaison de ce nombre à un seuil prédéterminé.
10. Procédé selon l'une des revendications 6 à 9, caractérisé par le fait que le traitement de corrélation comporte des corrélations successives avec des fenêtres des tailles de plus en plus importantes, et par le fait que la fenêtre sélectionnée est celle présentant le meilleur score de corrélation.
11. Procédé selon l'une des revendications 6 à 10, caractérisé par le fait qu'un pixel est classé dans la classe dont il est le plus proche voisin du représentant, vis à vis des valeurs de chrominances.
12. Procédé selon l'une des revendications 6 à 11 , caractérisé par le fait que l'étape de détection du visage comporte une mise à jour (MCL) des valeurs de chrominances bleues et rouges des représentants des classes, la mise à jour des valeurs de chrominances bleues et rouges du représentant d'une classe utilisant les valeurs de chrominances bleues et rouges de tous les pixels ayant été préalablement classés dans ladite classe.
13. Procédé selon l'une des revendications précédentes, caractérisé par le fait qu'on utilise l'information de localisation de la zone du visage pour une assistance au cadrage du visage.
14. Dispositif de transmission d'une séquence vidéo comportant un visage dans un système de visiophonie mobile, comprenant un moyen d'acquisition de l'image courante (CM), des moyens de traitement (MT) de l'image acquise comportant un étage de codage de l'image acquise comportant une mémoire d'image (MM) stockant une image reconstruite précédente, un bloc d'estimation de mouvement relié à la sortie des moyens d'acquisition pour élaborer une estimation de mouvement et un bloc de prédiction élaborant une image prédite à partir de l'image reconstruite précédente et de l'information d'estimation de mouvement, et des moyens d'émission de l'image délivrée par les moyens de traitement, caractérisé par le fait que l'étage de codage comporte en outre un bloc de détection du visage (DVS) dans l'image courante, relié aux moyens d'acquisition et fournissant une indication de localisation de la zone du visage dans ladite image courante, et par le fait que la sortie du bloc de détection du visage est reliée à une entrée du bloc d'estimation de mouvement.
15. Dispositif selon la revendication 14, caractérisé par le fait que l'image étant traitée par macrobloc, le bloc d'estimation de mouvement utilise pour chaque macrobloc deux algorithmes différents d'estimation de mouvement (ALGl, ALG2) selon que la macrobloc se situe à l'intérieur ou à l'extérieur de ladite zone du visage.
16. Dispositif selon la revendication 15, caractérisé par le fait que pour un macrobloc situé à l'intérieur de la zone du visage, le bloc d'estimation de mouvement utilise un algorithme du type gradient descendant.
17. Dispositif selon l'une des revendications 14 à 16, caractérisé par le fait que l'étage de codage comporte des moyens de quantification, et par le fait que les moyens de quantification (Q) comportent une entrée de commande pour commander le pas de quantification, cette entrée de commande étant reliée à la sortie du bloc de détection du visage.
18. Dispositif selon l'une des revendications 14 à 17, caractérisé par le fait que le bloc de détection du visage comporte des moyens de partitionnement (MPI) aptes à partitionner des pixels de l'image en N classes, chaque classe étant définie par un représentant affectée d'une valeur de chrominance bleue prédéfinie et d'une valeur de chrominance rouge prédéfinie, l'une de ces classes étant représentative des chrominances d'un visage, des moyens d'élaboration (MEB1) aptes à élaborer un masque binaire de l'image, comportant des moyens d'affectation aptes à affecter à chaque pixel appartenant à ladite classe-visage, une première valeur binaire, et à affecter à chaque pixel appartenant à une autre classe, la deuxième valeur binaire, des moyens de corrélation (MCOR) aptes à effectuer un traitement de corrélation entre le masque binaire et un ensemble de fenêtres de tailles et de formes prédéterminées comportant chacune des points tous affectés d'une même valeur binaire, des moyens de sélection aptes à sélectionner l'une de ces fenêtres en fonction du résultat du traitement de corrélation, la fenêtre sélectionnée définissant ladite indication de la zone du visage.
19. Dispositif selon la revendication 18, caractérisé par le fait que les moyens d'élaboration du masque binaire comportent, outre les moyens d'affectation générant un masque binaire primaire, des moyens de filtrage et de sous-échantillonnage (FLT) du masque binaire primaire de façon à générer ledit masque binaire de taille plus réduite que celle du masque binaire primaire.
20. Dispositif selon la revendication 19, caractérisé par le fait 02/076095
21
que les moyens de filtrage et de sous-échantillonnage (FLT) comportent des moyens de décomposition aptes à décomposer le masque binaire primaire en blocs de pixels, des moyens de prise de décision aptes à prendre une décision sur l'appartenance ou non de chaque bloc à ladite classe-visage en fonction d'un critère de décision prédéterminé, des moyens d'affectation supplémentaires aptes à affecter à chaque bloc une valeur de marquage ayant ladite première valeur binaire si le bloc appartient à ladite classe-visage, et la deuxième valeur binaire dans le cas contraire, l'ensemble des valeurs de marquage formant ledit masque binaire.
21. Dispositif selon la revendication 20, caractérisé par le fait que les moyens de prise de décision comportent des moyens de calcul aptes pour chaque bloc, à comptabiliser le nombre de pixels du bloc appartenant à ladite classe- vis âge, et des moyens de comparaison aptes à comparer ce nombre à un seuil prédéterminé.
22. Dispositif selon l'une des revendications 18 à 21, caractérisé par le fait que les moyens de corrélation (MCOR) sont aptes à effectuer des corrélations successives avec des fenêtres des tailles de plus en plus importantes, et par le fait que les moyens de sélection sélectionnent la fenêtre présentant le meilleur score de corrélation.
23. Dispositif selon l'une des revendications 18 à 22, caractérisé par le fait que les moyens de partitionnement sont aptes à classer un pixel dans la classe dont il est le plus proche voisin du représentant, vis à vis des valeurs de chrominances.
24. Dispositif selon l'une des revendications 18 à 23, caractérisé par le fait que le bloc de détection du visage comporte des moyens de mise à jour (MCL) aptes effectuer une mise à jour des valeurs de chrominances bleues et rouges des représentants des classes, la mise à jour des valeurs de chrominances bleues et rouges du représentant d'une classe utilisant les valeurs de chrominances bleues et rouges de tous les pixels ayant été préalablement classés dans ladite classe.
25. Dispositif selon l'une des revendications 18 à 24, caractérisé par le fait que N est égal à 4.
26. Dispositif selon l'une des revendications 14 à 25, caractérisé par le fait qu'il comporte des moyens de contrôle aptes à élaborer une information de cadrage relative au cadrage du visage d'un utilisateur dans le champ des moyens d'acquisition, à partir de l'information de localisation délivrée par le bloc de détection de visage, et un indicateur (JG) commandé par les moyens de contrôle pour fournir à l'utilisateur une indication relative au cadrage de son visage dans le champ des moyens d'acquisition.
27. Dispositif selon la revendication 26, caractérisé par le fait qu'il comprend un écran (ECR) apte à afficher une image reçue par le dispositif , et par le fait que ledit indicateur est une jauge, par exemple en forme de bâtonnet, disposée en bordure d'écran et dont le degré de remplissage fournit ladite indication de cadrage.
28. Dispositif selon l'une des revendications 14 à 27, caractérisé par le fait que le dispositif est incorporé au sein d'un téléphone mobile.
PCT/FR2002/000913 2001-03-21 2002-03-14 Procede et dispositif de transmission d'une sequence video comportant un visage, en particulier dans un systeme de visiophonie mobile WO2002076095A1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
EP02716894A EP1374580A1 (fr) 2001-03-21 2002-03-14 Procede et dispositif de transmission d'une sequence video comportant un visage, en particulier dans un systeme de visiophonie mobile

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0103829A FR2822618B1 (fr) 2001-03-21 2001-03-21 Procede et dispositif de transmission d'une sequence video comportant un visage, en particulier dans un systeme de visiophonie mobile
FR01/03829 2001-03-21

Publications (1)

Publication Number Publication Date
WO2002076095A1 true WO2002076095A1 (fr) 2002-09-26

Family

ID=8861393

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2002/000913 WO2002076095A1 (fr) 2001-03-21 2002-03-14 Procede et dispositif de transmission d'une sequence video comportant un visage, en particulier dans un systeme de visiophonie mobile

Country Status (3)

Country Link
EP (1) EP1374580A1 (fr)
FR (1) FR2822618B1 (fr)
WO (1) WO2002076095A1 (fr)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008066705A1 (fr) * 2006-11-27 2008-06-05 Eastman Kodak Company Appareil de capteur d'image avec indicateur
US20220377369A1 (en) * 2021-05-21 2022-11-24 Samsung Electronics Co., Ltd. Video encoder and operating method of the video encoder

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1739965A1 (fr) * 2005-06-27 2007-01-03 Matsuhita Electric Industrial Co., Ltd. Méthode et système pour le traitement de données vidéo
CN108428018B (zh) * 2018-04-24 2021-05-28 厦门理工学院 一种短路电流峰值的变维递进灰色预测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999023600A1 (fr) * 1997-11-04 1999-05-14 The Trustees Of Columbia University In The City Of New York Detection de regions d'un visage dans un signal video

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69416717T2 (de) * 1993-05-21 1999-10-07 Nippon Telegraph And Telephone Corp., Tokio/Tokyo Bewegtbildkoder und -dekoder

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999023600A1 (fr) * 1997-11-04 1999-05-14 The Trustees Of Columbia University In The City Of New York Detection de regions d'un visage dans un signal video

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BOCK G ET AL: "MOBILE BILDTELEFONIE MIT GEAENDERTEN NETZSTRUKTUREN UND EINEN NEUEN VIDEO-CODEC WOLLEN DIE ENTWICKLER MOBILE BILDTELEFONIE MOEGLICH MACHEN. SCHON IM NAECHSTEN JAHR KOENNTEN GERAETE AUF BASISVON DECT FUER PROFLANWENDUNGEN ZUR VERFUEGUNG STEHEN", FUNKSCHAU, FRANZIS-VERLAG K.G. MUNCHEN, DE, vol. 72, no. 12, 28 May 1999 (1999-05-28), pages 78 - 80, XP000902921, ISSN: 0016-2841 *
SCARGALL ET AL: "A mobile videophone image codec using wavelets and classified vector quantisation for mobile radio speech channels", INFORMATION VISUALIZATION, 1997. PROCEEDINGS., 1997 IEEE CONFERENCE ON LONDON, UK 27-29 AUG. 1997, LOS ALAMITOS, CA, USA,IEEE COMPUT. SOC, US, 27 August 1997 (1997-08-27), pages 267 - 271, XP010250386, ISBN: 0-8186-8076-8 *
See also references of EP1374580A1 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008066705A1 (fr) * 2006-11-27 2008-06-05 Eastman Kodak Company Appareil de capteur d'image avec indicateur
US7986336B2 (en) 2006-11-27 2011-07-26 Eastman Kodak Company Image capture apparatus with indicator
US20220377369A1 (en) * 2021-05-21 2022-11-24 Samsung Electronics Co., Ltd. Video encoder and operating method of the video encoder

Also Published As

Publication number Publication date
FR2822618A1 (fr) 2002-09-27
FR2822618B1 (fr) 2003-08-01
EP1374580A1 (fr) 2004-01-02

Similar Documents

Publication Publication Date Title
US5764803A (en) Motion-adaptive modelling of scene content for very low bit rate model-assisted coding of video sequences
Chai et al. Face segmentation using skin-color map in videophone applications
Musmann et al. Advances in picture coding
Sikora Trends and perspectives in image and video coding
Lee et al. A fast hierarchical motion-compensation scheme for video coding using block feature matching
EP0675652B1 (fr) Procédé et circuit d'estimation de mouvement entre images à deux trames entrelacées, et dispositif de codage de signaux numériques comprenant un tel circuit
Kamikura et al. Global brightness-variation compensation for video coding
US20040032906A1 (en) Foreground segmentation for digital video
Bradley et al. Visual attention for region of interest coding in JPEG 2000
Koloda et al. Sequential error concealment for video/images by sparse linear prediction
KR20070117623A (ko) 2계층 인코딩 및 단일 계층 디코딩을 이용한 스케일러블비디오 코딩
EP1905243A1 (fr) Procede et dispositif de traitement avec conversion-elevation de frequence temporelle dans des systemes video
US9619887B2 (en) Method and device for video-signal processing, transmitter, corresponding computer program product
EP0568694B1 (fr) Procede d'estimation et de codage hierarchise du mouvement de sequences d'images
Baek et al. An efficient block-matching criterion for motion estimation and its VLSI implementation
EP0603947B1 (fr) Dispositif de codage de signaux numériques représentatifs d'images de télévision
WO2002076095A1 (fr) Procede et dispositif de transmission d'une sequence video comportant un visage, en particulier dans un systeme de visiophonie mobile
Froehlich et al. Content aware quantization: Requantization of high dynamic range baseband signals based on visual masking by noise and texture
Meisinger et al. Spatiotemporal selective extrapolation for 3-D signals and its applications in video communications
Manoranjan et al. Practical low-cost visual communication using binary images for deaf sign language
Lin et al. A low-complexity face-assisted coding scheme for low bit-rate video telephony
Chen et al. A joint motion-image inpainting method for error concealment in video coding
Doulamis et al. Improving the performance of MPEG compatible encoding at low bit rates using adaptive neural networks
Chen et al. Fast inter-layer motion estimation algorithm on spatial scalability in H. 264/AVC scalable extension
Gopalan Exploiting Region Of Interest For Improved Video Coding

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NO NZ OM PH PL PT RO RU SD SE SG SI SK SL TJ TM TN TR TT TZ UA UG US UZ VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH GM KE LS MW MZ SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
WWE Wipo information: entry into national phase

Ref document number: 2002716894

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 2002716894

Country of ref document: EP

REG Reference to national code

Ref country code: DE

Ref legal event code: 8642

NENP Non-entry into the national phase

Ref country code: JP

WWW Wipo information: withdrawn in national office

Country of ref document: JP