WO2010089488A1 - Method for merging audiovisual programs, and corresponding device and computer program product - Google Patents

Method for merging audiovisual programs, and corresponding device and computer program product Download PDF

Info

Publication number
WO2010089488A1
WO2010089488A1 PCT/FR2010/050104 FR2010050104W WO2010089488A1 WO 2010089488 A1 WO2010089488 A1 WO 2010089488A1 FR 2010050104 W FR2010050104 W FR 2010050104W WO 2010089488 A1 WO2010089488 A1 WO 2010089488A1
Authority
WO
WIPO (PCT)
Prior art keywords
segment
descriptors
segments
program
distance
Prior art date
Application number
PCT/FR2010/050104
Other languages
French (fr)
Inventor
Gael Manson
Sid Ahmed Berrani
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom filed Critical France Telecom
Priority to EP10707578A priority Critical patent/EP2394246A1/en
Publication of WO2010089488A1 publication Critical patent/WO2010089488A1/en

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording

Definitions

  • the present invention relates to the field of audiovisual content analysis.
  • the present invention relates more particularly to a method for fusing previously segmented audiovisual contents.
  • the background of the National Audiovisual Institute (INA) responsible for archiving French broadcasts increases by five hundred and forty thousand hours each year and in the end more than four million hours of programs are available .
  • INA National Audiovisual Institute
  • a current French viewer can choose between more than four hundred hours of content per day on the only digital terrestrial television channels.
  • new needs and services have emerged such as the archiving of these data, carried out in France by the INA, the control of the broadcasts, in particular for the Superior Council of the Audiovisual, the freelance advertising or non-linear access to the desired content, that is to say without constraint of the broadcast time.
  • All these services are based on an indexing of audiovisual streams, consisting of a segmentation of the streams to extract programs and inter-programs (advertising sequences in particular) broadcast continuously. These treatments are extremely expensive when done manually. Automatic techniques are needed to exploit the large number of audiovisual streams available. These automatic segmentation techniques use an analysis of the contents of the audiovisual streams or use the information on the programs provided by the television channels, which information may take the form of electronic program guides. Many different methods have been proposed for segmenting audiovisual streams. The invention uses segmented audiovisual streams.
  • an audiovisual stream represents audio and video content broadcast continuously by a television channel or broadcaster of this type;
  • a program is a program broadcast in the audiovisual stream. It may consist of several parts separated by advertising breaks.
  • a program can be a movie, an episode of a series, a game, a newspaper, the weather, a clip, a magazine or other categories.
  • an inter-program is an element diffused between two programs or in an advertising break. This can be an advertisement, a trailer for an upcoming program, a pub “jingle” (generic ad and end of commercial breaks), a channel or broadcaster logo, or a sponsor preceding the beginning or following the end of a program.
  • Segmentation techniques have the particularity of segmenting a program into several segments. This poses a problem when one wishes to reconstitute the program in question for the needs of the aforementioned services.
  • Segmentation techniques are generally based on the detection (step 101) of the inter-program areas 13 because the inter-programs are short sequences that share many common properties.
  • the inter-programs are broadcast several times in the stream. These properties make cross programs much easier to detect than long programs (A, B, and C). These are heterogeneous (series, film, emissions, etc.) and do not generally share common properties.
  • the portions of the stream (A, B, C) that separate the interspecific detected areas thus form segments that correspond to segments of program parts also referred to hereinafter as program segments.
  • the audiovisual stream is then segmented (etapelO2) into three segments (A, B and C).
  • the invention does not have these disadvantages of the prior art. Indeed, the invention relates to a method for merging segments of an audiovisual stream previously cut into a plurality of program segments to be merged. According to the invention, such a method comprises, for at least a first and at least a second segment of said plurality of segments, a step of calculating a set of descriptors and a step of obtaining at least one representative information a membership of said at least one first and at least one second segment to the same audiovisual program based on data representative of said previously calculated descriptors.
  • the invention makes it possible to solve the problems that are not solved by the solutions of the prior art.
  • the invention does not use the data provided by the electronic program guide to decide on the merger of two segments belonging to the audiovisual stream.
  • the method of the invention calculates descriptors of segments. From these descriptors extracted from the two segments, the method of the invention comprises a step of obtaining the representative information of membership.
  • the method of the invention comprises a step of obtaining the representative information of membership.
  • said at least one first and at least one second segment are consecutive segments.
  • said set of descriptors comprises: a first subset of at least one descriptor specific to said at least one first segment; a second subset of at least one descriptor specific to said at least one second segment.
  • the invention makes it possible to take into account the similarities of the segments.
  • the method of the invention makes it possible to maximize the probabilities of fusion between two segments of the same program.
  • the invention makes it possible to somehow determine particular characteristics of these segments. These particular features can then be used to determine a difference between segments.
  • a subset contains a defined number of descriptors that correspond to a determined number of characteristic measures of a segment.
  • said set of descriptors comprises a subset of descriptors calculated using data belonging to said at least one first segment and auditing at least a second segment, said common descriptors.
  • the invention makes it possible to take into account the similarities of the segments.
  • the invention introduces specific descriptors, called common descriptors, which result from a calculation carried out on the data of the first and second segment.
  • a common descriptor is the number of images or of a plane common to the two segments.
  • said method comprises at least one step of calculating a distance separating a descriptor from said first subset of eigen descriptors and a corresponding descriptor of the same type from said second subset of eigen descriptors, delivering a vector of at least one distance.
  • the invention makes it possible to create a set of distances between the descriptors of the same types of the first and second segments. These distances constitute a vector of distances. The smaller the distance between two descriptors, the more the characteristics of the two segments relating to this descriptor will be similar.
  • said descriptors are of different types, said types belonging to the group comprising: the ratio between a number of key images of a segment and a duration of this segment; a three-dimensional color histogram in the RGB color space of the average color on all keyframes of a segment; a three-dimensional color histogram in the color space
  • RGB of the intersection of colors on all keyframes of a segment the ratio of the number of faces detected on the segment and a duration of a segment; the average and standard deviation of the number of faces detected by keyframes of a segment; the maximum size of the faces detected on all the keyframes of a segment; - average and standard deviation of face size detected by keyframes a segment; the number of similar keyframe groups in a segment; the number of similar keyframe groups containing keyframes belonging to the at least one first segment and the at least one second segment audit; the average and standard deviation of the number of similar images in groups of similar images.
  • said distances separating said descriptors belong to the group comprising: the absolute value of the difference; the Euclidean distance; the correlation distance according to the Pearson correlation coefficient; the distance from Chi-Square; the intersection distance which is the sum of the respective minimums between the respective values of two distributions; the distance from Bhattacharyya.
  • said method comprises, prior to the merger, a learning phase during which a classifier learns to differentiate different membership classes of audiovisual programs.
  • said obtaining step comprises: a step of transmitting said distance vector and / or said descriptors common to a classifier previously trained; a supervised classification step of said at least one first and at least one second segment as a function of said distances of said distance vector and / or said common descriptors.
  • the invention makes it possible to merge the segments in an automated and simple manner while ensuring that the segments are correctly merged.
  • the classifier can be a binary classifier SVM type to provide a decision of membership of said segments to the same audiovisual program.
  • the invention also relates to a device for merging segments of an audiovisual stream previously cut into a plurality of program segments to be merged.
  • such a device comprises, for at least a first and at least a second segment of said plurality of segments, means for calculating a set of descriptors and means for obtaining at least one representative information. a membership of said at least one first and at least one second segment to an identical audiovisual program based on data representative of said previously calculated descriptors.
  • the invention also relates to a computer program product downloadable from a communication network and / or stored on a computer-readable medium and / or executable by a microprocessor, and comprising program code instructions for the computer. execution of the fusion process as described above. 4. LIST OF FIGURES
  • FIG. 1 presents a synoptic of the general techniques of segmentation of an audiovisual flow
  • Figure 2 generally illustrates the method of fusion of the invention
  • FIG. 3 illustrates a mode of implementation of the fusion method of the invention for three consecutive segments
  • FIG. 4 illustrates another mode of implementation of the fusion method according to the invention
  • FIG. 5 illustrates another embodiment of the fusion process according to the invention
  • FIG. 6 describes a fusion device according to the invention. 5.
  • the invention proposes to merge the different segments forming a program using descriptors of these segments.
  • these descriptors do not depend on data external to the stream or stream metadata, but on audiovisual data comprising the stream.
  • the descriptors can therefore relate to both the video content of the stream and the audio content thereof.
  • the invention does not exclude the use of metadata provided by the EPG or ETI when such data exist.
  • the invention fully combines these techniques using EPG or ETI to significantly improve the accuracy of the fusions and to reduce the time required for the fusion.
  • the general principle of the The invention thus relies on the calculation of descriptors for the segments that compose the stream, on the calculation of data associated with these descriptors and on the provision of these data and descriptors to a particular component that will provide a response as to the membership two segments to the same program.
  • the steps of the method of the invention are presented. It is considered that the audiovisual stream has been segmented beforehand according to an approach for detecting suitable inter-program areas.
  • the method of the invention uses a stream segmented into a plurality of program segments 20 consisting for example of segments A, B, and following.
  • the method of the invention then performs a merging of the segments by: calculating 201 a set of descriptors 21.
  • descriptors 21 are calculated for at least two segments of the audiovisual stream, said first and second segments. As is explained later, the calculated descriptors are of different types; - estimating 203 the belonging of the first and second segments to the same program using the data from these descriptors 21. This estimation step 203 can be performed using automatic classification means, such as classifiers. Other appropriate means can also be used to obtain an estimate of this membership.
  • the descriptors that are implemented in the context of the invention are of two kinds: the clean descriptors and the common descriptors.
  • a clean descriptor is a value, or a data structure comprising several values representing the result of a calculation carried out on a segment: it can for example be the duration of the segment, the number of images of this segment, the sound volume of the segment, a number of plans, a spectral analysis of this segment, etc. This is segment-specific data.
  • the proper descriptors are therefore of different types. According to the invention, a specific number of eigen descriptors per segment is calculated, each own descriptor being of a particular type.
  • a common descriptor is a value, or a data structure comprising several values representing the result of a calculation carried out on the two (or more) segments which one wishes to know if they belong to the same program. This is for example a number of identical images between the two segments, an estimate of an identity of a background sound, etc.
  • the common descriptors are therefore also of different types. According to the invention, a determined number of common descriptors are calculated on the two (or more) segments which one wishes to know if they belong to the same program, each common descriptor being of a particular type. In at least one embodiment of the invention, the eigen descriptors of each of the two segments whose membership in the same program is to be tested are then used to determine distances. These are distances between two descriptors belonging to two given segments, for example consecutive. These distances make it possible to establish a proximity of the two segments with respect to a given type of descriptor, such as for example a color distribution. These distances can be expressed in the form of integer values, real values or vectors comprising several dimensions.
  • a certain number of distances are calculated.
  • the number of distances calculated between two segments may be greater or less than the number of descriptors calculated for these two segments.
  • Distances separating the descriptors include: the absolute value of the difference; the Euclidean distance; the correlation distance according to the Pearson correlation coefficient (used for example between two color histograms); the Chi-Square distance (used for example between two color histograms); the intersection distance which is the sum of the respective minimums between the respective values of two distributions (used for example between two color histograms); the distance of Bhattacharyya (used for example between two histograms of colors).
  • FIG. 3 shows the implementation of the method of the invention for three segments of an audiovisual stream: segments A, B and C are extracted from the audiovisual stream by a segmentation method. Descriptors (Ds ⁇ A, B ⁇ , Ds ⁇ B, C ⁇ ) are then calculated (steps 201, 202) for the segments: they can be descriptors specific to the segment (for example descriptors of A, B or C) or common descriptors (i.e., descriptors that use both A and B or A and C data).
  • the descriptors (Ds ⁇ A, B ⁇ , Ds ⁇ B, C ⁇ ) are then provided to a classifier C1 which estimates (steps 203 and 204) the membership of the segments in the same program and decides on the separation (N) or the fusion (Y) of the two segments.
  • the segments are consecutive and are compared in pairs, that is to say that the segment A is compared with the segment B (step 203) and the segment B with the segment C (step 204).
  • classifier C1 with non-consecutive segment descriptors. For example, it would be quite relevant to provide the classifier C1 with data from the descriptors of A and C. If the classifier C1 concludes that A and C belong to the same program, then it will be easy to conclude that B also belongs to the same program as A and C. This reduces the calculation time needed to determine the membership of the segments to the programs.
  • the classifier C1 uses the data from the descriptors to estimate the membership of the two segments in the same program and to decide on the separation (N) or the merger (Y) of the two segments to which these data belong.
  • N separation
  • Y merger
  • step 201 descriptors for these three or four segments (Ds ⁇ A, B, C ⁇ ) and provide them together to the classifier.
  • the classifier uses (step 203 ') for its part the data from the descriptors to decide on the separation (N) or the merger (Y) of the two segments to which these data belong.
  • the two segments are not necessarily consecutive.
  • the method of the invention is implemented in the same manner as above.
  • Descriptors for segments A and C (Ds (A, C)) are calculated (step 201 ") and the classifier used (step 203") for its part the data from the descriptors to decide the separation (N) or the merger (Y) of the two segments to which these data belong. If, in the case of FIG. 5, classifier C1 decides to merge segments A and C, then it can be concluded that segments A, B and C belong to the same program.
  • Such an approach makes it possible, in certain cases, to reduce the number of calculations required and therefore to increase the processing speed.
  • the invention proposes a method for deciding whether two program segments, for example consecutive segments of an audiovisual stream, must or must not merge to form the same program.
  • the method chooses to merge the segments by analyzing only the audiovisual content and the properties of the segments.
  • an implementation of the method of the invention is presented by using several descriptors that make it possible to determine whether two consecutive segments of the same audiovisual stream belong to the same program.
  • a binary classifier SVM type (of the English "Support Vector Machine") is used. Any other type of classifier can however be used.
  • the binary classifier has the advantage of being simple and of being adapted to decision-making in the context of the invention since it renders a binary type response.
  • a classifier is a mathematical function that associates a class of membership based on input data. Learning a classifier is a method of estimating mathematical function from a sample of examples of membership class associations. A classifier is said to be binary when it allows the determination of a binary result (of the yes / no type).
  • the binary classifier makes it possible, from the data derived from the descriptors, to determine whether the two segments whose data from the descriptors are analyzed belong to the same audiovisual program. This determination is possible because, in a previous phase, using a set of segments for which the merger decision was manually taken, the binary classifier was trained to determine on the basis of the descriptors whether two consecutive segments should be or do not merge to form the same program. In one embodiment of the invention, it is also possible to use several classifiers. This type of approach may be of interest in a wide variety of program types that require differential analysis by classifiers with different learning outcomes.
  • the descriptors considered for each segment are selected from their ability to characterize an audiovisual stream segment.
  • the following clean descriptors are used.
  • keyframes are identified for each segment using a keyframe detection method.
  • a first descriptor is used for each segment: it is the number of key images of a segment divided by the duration of the segment.
  • the main colors of the video segments make it possible to roughly differentiate the video segments. For example, parts of a dark film will differentiate from sporting events such as football matches or the green color of the lawn will predominate.
  • two color histograms are used to characterize the segments: a histogram of the average colors is calculated by accumulating all the colors of each key image of a segment and is then normalized by the duration of the segment. This is the second descriptor of its own; a color intersection histogram is calculated by calculating the colors common to all key images in a segment. It is also normalized by the duration of the segment. This is the third descriptor of its own.
  • the histogram correlation distance the "Chi-Square" distance and the histogram intersection distance are used. .
  • the size and number of faces in a segment also makes it possible to distinguish short segments such as the weather containing only one person from longer segments such as the newspaper involving many people.
  • This detection is performed on key images of the segment.
  • the result of this detection provides, for a keyframe of a segment, enclosing rectangles for each detected face.
  • An enclosing rectangle is a part of an image. For a given image, the number the position, and the size of the enclosing rectangles present on this image indicates the number, position and size of the faces detected.
  • the segments are then described by the following four descriptors: the total number of faces detected divided by the duration of the segment; the mean and standard deviation of the average number of faces detected by key segment images; the maximum size of a face detected on all keyframes of the segment, ie the largest face size in the keyframes of the segment; the mean and standard deviation of the maximum face size detected by key frames of the segment;
  • an identification of common points in two segments is carried out. For example, the repetition of many nearly identical pieces of a segment in another segment characterizes important common points between two segments. For example, the repetition of the shots with the presenter characterizes the game shows. This embodiment of the invention uses the identification of these repetitions to provide additional data to the classifier.
  • the segments are described by the following values relating to the specific and common descriptors: - the total number of groups calculated on a segment; the average number of keyframes per group on a segment; the total number of groups containing images of both a first and a second segment; the average number of keyframes per group containing images of a first segment and a second segment.
  • the method of the invention has been presented in the context of the implementation of a single binary classifier which makes it possible to determine whether segments belong to the same program.
  • Other approaches are of course possible. They can be based on a general implementation of perceptron, of which the classifiers are part. They can also be based on any other approach that makes it possible to obtain information relating to the membership of the segments in the same audiovisual program according to the data of the previously calculated descriptors.
  • Other optional features and benefits are possible. They can be based on a general implementation of perceptron, of which the classifiers are part. They can also be based on any other approach that makes it possible to obtain information relating to the membership of the segments in the same audiovisual program according to the data of the previously calculated descriptors.
  • FIG. 6 an embodiment of a fusion device according to the invention is presented.
  • Such a melting device comprises a memory 61, a processing unit 62 equipped for example with a microprocessor, and driven by the computer program 63, implementing the method according to the invention.
  • the code instructions of the computer program 63 are for example loaded into a RAM memory before being executed by the processor of the processing unit 62.
  • the processing unit 62 receives as input the stream audio visual cut into several segments.
  • the microprocessor of the processing unit 62 implements the steps of the merger process, according to the instructions of the computer program 61 to decide on the membership of the different segments in the same program.
  • the merging device comprises, in addition to the memory 61, for at least a first and at least a second segment of the plurality of segments, means for calculating a set of descriptors of different types and means for obtaining information representative of a membership segments to the same audiovisual program based on data representative of said previously calculated descriptors. These means are controlled by the microprocessor of the processing unit 62.

Abstract

The invention relates to a method for merging segments of an audiovisual stream previously clipped into a plurality of program segments to be merged. According to the invention, such method includes, for at least one first and one second segment from said plurality of segments, a step of computing a set of descriptors, and includes a step of obtaining at least one piece of information representative of the fact that said at least one first and said at least one second segments belong to a same audiovisual program on the basis of data representative of said previously computed descriptors.

Description

Procédé de fusion de segments de programmes audiovisuels, dispositif, et produit programme d'ordinateur correspondant. 1. DOMAINE DE L'INVENTION A method of merging audiovisual program segments, device, and corresponding computer program product. 1. DOMAIN OF THE INVENTION
La présente invention se rapporte au domaine de l'analyse des contenus audiovisuels.The present invention relates to the field of audiovisual content analysis.
La présente invention se rapporte plus particulièrement à un procédé de fusion de contenus audiovisuels préalablement segmentés.The present invention relates more particularly to a method for fusing previously segmented audiovisual contents.
Les chaînes de télévision fournissent aujourd'hui du contenu en continu et leur nombre ne cesse de croître. En France par exemple, le fond de l'Institut National de l'Audiovisuel (INA) chargé d'archiver les diffusions françaises augmente de cinq cent quarante mille heures chaque année et au final plus de quatre millions d'heures de programmes y sont consultables. Par ailleurs, un téléspectateur français actuel peut choisir entre plus de quatre cent heures de contenu par jour sur les seules chaînes de la télévision numérique terrestre. Face à ce volume gigantesque de données audiovisuelles, de nouveaux besoins et services sont apparus tels que l'archivage de ces données, effectué en France par l'INA, le contrôle des diffusions, notamment pour le Conseil Supérieur de l'Audiovisuel, la pige de publicités ou encore l'accès de façon non linéaire au contenu souhaité, c'est-à-dire sans contrainte de l'heure de diffusion. L'ensemble de ces services repose sur une indexation des flux audiovisuels, composée d'une segmentation des flux pour en extraire les programmes et les inter-programmes (séquences de publicité en particulier) diffusés en continu. Ces traitements sont extrêmement coûteux lorsqu'ils sont réalisés manuellement. Des techniques automatiques sont nécessaires afin d'exploiter le grand nombre de flux audiovisuels disponibles. Ces techniques de segmentation automatique font appel à une analyse des contenus des flux audiovisuels ou utilisent les informations sur les programmes fournies par les chaînes de télévision, informations qui peuvent prendre la forme de guides électroniques de programmes. De nombreux procédés différents ont été proposés pour segmenter les flux audiovisuels. L'invention utilise les flux audiovisuels segmentés.Today television channels provide continuous content and their number is growing. In France for example, the background of the National Audiovisual Institute (INA) responsible for archiving French broadcasts increases by five hundred and forty thousand hours each year and in the end more than four million hours of programs are available . In addition, a current French viewer can choose between more than four hundred hours of content per day on the only digital terrestrial television channels. Faced with this gigantic volume of audio-visual data, new needs and services have emerged such as the archiving of these data, carried out in France by the INA, the control of the broadcasts, in particular for the Superior Council of the Audiovisual, the freelance advertising or non-linear access to the desired content, that is to say without constraint of the broadcast time. All these services are based on an indexing of audiovisual streams, consisting of a segmentation of the streams to extract programs and inter-programs (advertising sequences in particular) broadcast continuously. These treatments are extremely expensive when done manually. Automatic techniques are needed to exploit the large number of audiovisual streams available. These automatic segmentation techniques use an analysis of the contents of the audiovisual streams or use the information on the programs provided by the television channels, which information may take the form of electronic program guides. Many different methods have been proposed for segmenting audiovisual streams. The invention uses segmented audiovisual streams.
Par la suite, un vocabulaire technique particulier est employé. Afin qu'il n'y ait pas d'ambiguïté, il est précisé que : - un flux audiovisuel représente le contenu audio et vidéo diffusé en continu par une chaîne de télévision ou un diffuseur de ce type ; un programme est une émission diffusée dans le flux audiovisuel. Il peut être constitué de plusieurs parties séparées par des coupures publicitaires.Subsequently, a particular technical vocabulary is used. For there to be no ambiguity, it should be noted that: - an audiovisual stream represents audio and video content broadcast continuously by a television channel or broadcaster of this type; a program is a program broadcast in the audiovisual stream. It may consist of several parts separated by advertising breaks.
Un programme peut être un film, un épisode d'une série, un jeu, un journal, la météo, un clip, un magazine ou encore d'autres catégories. un inter-pr o gramme est un élément diffusé entre deux programmes ou dans une coupure publicitaire. Cela peut être une publicité, une bande annonce pour un programme à venir, un «jingle » de pub (générique d'annonce et de fin des coupures publicitaires), un logo de la chaîne ou du diffuseur, ou un sponsor précédant le début ou suivant la fin d'un programme.A program can be a movie, an episode of a series, a game, a newspaper, the weather, a clip, a magazine or other categories. an inter-program is an element diffused between two programs or in an advertising break. This can be an advertisement, a trailer for an upcoming program, a pub "jingle" (generic ad and end of commercial breaks), a channel or broadcaster logo, or a sponsor preceding the beginning or following the end of a program.
Les techniques de segmentation ont la particularité de segmenter un programme en plusieurs segments. Ceci pose un problème lorsque l'on souhaite reconstituer le programme en question pour les besoins des services préalablement mentionnés.Segmentation techniques have the particularity of segmenting a program into several segments. This poses a problem when one wishes to reconstitute the program in question for the needs of the aforementioned services.
2. ART ANTERIEUR2. PRIOR ART
On présente, en relation avec la figure 1, un schéma général de techniques automatiques de segmentation d'un flux audiovisuel.In connection with FIG. 1, a general diagram of automatic segmentation techniques of an audiovisual stream is presented.
Les techniques de segmentation reposent en général sur la détection (étape 101) des zones d'inter- programmes 13 car les inter-programmes sont des séquences courtes qui partagent de nombreuses propriétés communes. En particuliers, les inter-programmes sont diffusés plusieurs fois dans le flux. Ces propriétés font que les inter-programmes sont beaucoup plus faciles à détecter que les programmes longs (A, B et C). Ceux-ci sont quant à eux hétérogènes (séries, film, émissions...) et ne partagent en général pas de propriétés communes. Les portions du flux (A, B, C) qui séparent les zones d'inter-programmes détectées forment ainsi des segments qui correspondent à des segments de parties de programme désignés aussi par la suite comme segments de programme. Le flux audiovisuel est alors segmenté (étapelO2) en trois segments (A, B et C). Le problème qui se pose est alors de décider quels segments du flux audiovisuel doivent fusionner pour former un même programme afin de retrouver la structure originale du flux audiovisuel diffusé. Dans la figure 1, par exemple, les segments de programme B et C doivent fusionner (ce sont deux segments d'un même programme, en l'occurrence un film) alors que les segments de programme A et B doivent rester séparés (le segment A représente un journal télévisé). Une solution de reconstitution automatique de programme à partir de segments a été proposée. Cette solution est basée sur l'utilisation des métadonnées associées au flux audiovisuel.Segmentation techniques are generally based on the detection (step 101) of the inter-program areas 13 because the inter-programs are short sequences that share many common properties. In particular, the inter-programs are broadcast several times in the stream. These properties make cross programs much easier to detect than long programs (A, B, and C). These are heterogeneous (series, film, emissions, etc.) and do not generally share common properties. The portions of the stream (A, B, C) that separate the interspecific detected areas thus form segments that correspond to segments of program parts also referred to hereinafter as program segments. The audiovisual stream is then segmented (etapelO2) into three segments (A, B and C). The problem is then to decide which segments of the audiovisual stream must merge to form the same program in order to find the original structure of the audiovisual stream broadcast. In Figure 1, for example, the program segments B and C must merge (they are two segments of the same program, in this case a movie) while the program segments A and B must remain separate (the segment A represents a newscast). A solution for automatic program reconstruction from segments has been proposed. This solution is based on the use of metadata associated with the audiovisual stream.
Selon cette méthode, quand les métadonnées sur la grille de programmation sont disponibles (le Guide Electronique des Programmes (EPG) ou les « Event Information Table » (EIT), l'anglais pour « Table d'Information Evénementielle »), des procédures de mise en correspondances entre les horaires mentionnés dans l'EPG ou dans l'EIT et les horaires détectés des segments de programme peuvent être utilisées pour l'étiquetage des segments et ainsi pour la reconstitution des programmes. Cette approche a été utilisée à travers un étiquetage basé sur l'étude de recouvrement entre les segments de programme du flux et les horaires de programmes inscrits dans l'EPG.According to this method, when the metadata on the programming grid is available (the Electronic Program Guide (EPG) or the Event Information Table (EIT), English for "Event Information Table"), Matching between the times mentioned in the EPG or the EIT and the detected schedule of program segments can be used for segment labeling and thus for program reconstruction. This approach was used through tagging based on the recovery study between the flow program segments and the program schedules inscribed in the EPG.
Une approche plus élaborée, qui suit cependant le même principe général que celui évoqué ci dessus, a été également utilisée dans les travaux de thèse de X. Naturel (« Structuration automatique de flux vidéo de télévisions ». Thèse de doctorat. Université de Rennes I, 2007). Elle repose sur l'utilisation d'une procédure dite DTW (Dynamic Time Warping) qui recherche la meilleure correspondance entre les segments du flux et les informations contenues dans l'EPG (ou l'EIT). Il s'agit d'une optimisation globale qui attribue un coût aux ajustements nécessaires pour trouver une correspondance entre les segments et 1ΕPG (OU l'EIT). La correspondance retenue est celle qui induit le coût le moins élevé.A more elaborate approach, which nevertheless follows the same general principle as the one mentioned above, was also used in X. Naturel's thesis work ("Automatic structuring of television video streams." PhD Thesis, University of Rennes I , 2007). It relies on the use of a Dynamic Time Warping (DTW) procedure that looks for the best match between stream segments and the information in the EPG (or EIT). This is an overall optimization that assigns a cost to the adjustments needed to find a match between segments and 1ΕPG (OR the EIT). The selected match is the one that induces the lowest cost.
L'inconvénient de ces approches est leur dépendance vis-à-vis des métadonnées. D'une part ces dernières ne sont pas toujours disponibles et d'autre part elles sont peu fiables et leur imprécision peut avoisiner quelques minutes. En particulier, les programmes courts indiqués dans l'EPG sont régulièrement absents et souvent décalés de plus de cinq minutes.The disadvantage of these approaches is their dependence on metadata. On the one hand, the latter are not always available and on the other hand they are unreliable and their inaccuracy may be around a few minutes. In particular, the short programs indicated in the EPG are regularly absent and often staggered by more than five minutes.
De plus, quand aucune métadonnée sur la grille de programmation n'est disponible, le problème est encore plus complexe et aucune technique n'a été proposée pour identifier et fusionner les différents segments par exemple consécutifs d'un même programme.Moreover, when no metadata on the programming grid is available, the problem is even more complex and no technique has been proposed to identify and merge the different segments, for example consecutive ones of the same program.
3. RESUME DE L'INVENTION3. SUMMARY OF THE INVENTION
L'invention ne présente pas ces inconvénients de l'art antérieur. En effet, l'invention concerne un procédé de fusion de segments d'un flux audiovisuel préalablement découpé en une pluralité de segments de programmes à fusionner. Selon l'invention, un tel procédé comprend, pour au moins un premier et au moins un deuxième segment de ladite pluralité de segments, une étape de calcul d'un ensemble de descripteurs et une étape d'obtention d'au moins une information représentative d'une appartenance desdits au moins un premier et au moins un deuxième segment à un même programme audiovisuel en fonction de données représentatives desdits descripteurs préalablement calculés.The invention does not have these disadvantages of the prior art. Indeed, the invention relates to a method for merging segments of an audiovisual stream previously cut into a plurality of program segments to be merged. According to the invention, such a method comprises, for at least a first and at least a second segment of said plurality of segments, a step of calculating a set of descriptors and a step of obtaining at least one representative information a membership of said at least one first and at least one second segment to the same audiovisual program based on data representative of said previously calculated descriptors.
Ainsi, l'invention permet de résoudre les problèmes non résolus par les solutions de l'art antérieur. En effet, à la différence du procédé de fusion de l'art antérieur, l'invention n'utilise pas les données fournies par le guide électronique des programmes pour décider de la fusion de deux segments appartenant au flux audiovisuel. Au contraire, le procédé de l'invention calcule des descripteurs de segments. À partir de ces descripteurs extraits des deux segments le procédé de l'invention comprend une étape d'obtention de l'information représentative d'appartenance. Ainsi il n'est plus nécessaire d'utiliser le guide électronique des programmes pour pouvoir fusionner deux segments du programme audiovisuel. Seules les informations contenues dans les segments sont utilisées pour définir l'appartenance de ces segments à un même programme audiovisuel.Thus, the invention makes it possible to solve the problems that are not solved by the solutions of the prior art. Indeed, unlike the prior art fusion method, the invention does not use the data provided by the electronic program guide to decide on the merger of two segments belonging to the audiovisual stream. On the contrary, the method of the invention calculates descriptors of segments. From these descriptors extracted from the two segments, the method of the invention comprises a step of obtaining the representative information of membership. Thus it is no longer necessary to use the electronic program guide to merge two segments of the audiovisual program. Only the information contained in the segments is used to define the membership of these segments in the same audiovisual program.
Selon une caractéristique particulière de l'invention, lesdits au moins un premier et au moins un deuxième segment sont des segments consécutifs.According to a particular characteristic of the invention, said at least one first and at least one second segment are consecutive segments.
Selon un mode de réalisation particulier de l'invention, ledit ensemble de descripteurs comprend : un premier sous-ensemble d'au moins un descripteur propre audit au moins un premier segment ; un deuxième sous-ensemble d'au moins un descripteur propre audit au moins un deuxième segment. Ainsi, l'invention permet de prendre en compte les similarités des segments. Ainsi, le procédé de l'invention permet de maximiser les probabilités de fusion entre deux segments d'un même programme. En se basant sur les ensembles de descripteurs propres aux segments, l'invention permet de déterminer en quelque sorte des caractéristiques particulières de ces segments. Ces caractéristiques particulières peuvent ensuite être utilisées pour déterminer une différence entre segments. Un sous-ensemble contient un nombre déterminé de descripteurs qui correspondent à nombre déterminé de mesures de caractéristiques d'un segment.According to a particular embodiment of the invention, said set of descriptors comprises: a first subset of at least one descriptor specific to said at least one first segment; a second subset of at least one descriptor specific to said at least one second segment. Thus, the invention makes it possible to take into account the similarities of the segments. Thus, the method of the invention makes it possible to maximize the probabilities of fusion between two segments of the same program. Based on segment-specific descriptor sets, the invention makes it possible to somehow determine particular characteristics of these segments. These particular features can then be used to determine a difference between segments. A subset contains a defined number of descriptors that correspond to a determined number of characteristic measures of a segment.
Selon une caractéristique particulière de l'invention ledit ensemble de descripteurs comprend un sous-ensemble de descripteurs calculés en utilisant des données appartenant audit au moins un premier segment et audit au moins un deuxième segment, dits descripteurs communs.According to a particular characteristic of the invention, said set of descriptors comprises a subset of descriptors calculated using data belonging to said at least one first segment and auditing at least a second segment, said common descriptors.
Ainsi, l'invention permet de prendre en compte les similarités des segments. Pour ce faire l'invention introduit des descripteurs spécifiques, appelés descripteurs communs, qui résultent d'un calcul effectué sur les données du premier et du deuxième segment. A titre illustratif, un exemple de descripteur commun est le nombre d'images ou de plan commun aux deux segments. Ainsi, les probabilités de reconnaissance de deux segments appartenants à un même programme sont améliorées. Selon un mode de réalisation particulier de l'invention, ledit procédé comprend au moins une étape de calcul d'une distance séparant un descripteur dudit premier sous-ensemble de descripteurs propres et un descripteur de même type correspondant dudit deuxième sous ensemble de descripteurs propres, délivrant un vecteur d'au moins une distance. Ainsi, l'invention permet de créer un ensemble de distance entre les descripteurs de mêmes types du premier et du deuxième segment. Ces distances constituent un vecteur de distances. Plus la distance entre deux descripteurs est faible, plus les caractéristiques des deux segments relatives à ce descripteur seront similaires. Selon une caractéristique particulière de l'invention, lesdits descripteurs sont de différents types, lesdits types appartenant au groupe comprenant : le rapport entre un nombre d'images clés d'un segment et une durée de ce segment ; un histogramme de couleurs en trois dimensions dans l'espace des couleurs RVB de la moyenne des couleurs sur toutes les images clés d'un segment ; un histogramme de couleurs en trois dimensions dans l'espace des couleursThus, the invention makes it possible to take into account the similarities of the segments. To this end, the invention introduces specific descriptors, called common descriptors, which result from a calculation carried out on the data of the first and second segment. By way of illustration, an example of a common descriptor is the number of images or of a plane common to the two segments. Thus, the probabilities of recognizing two segments belonging to the same program are improved. According to a particular embodiment of the invention, said method comprises at least one step of calculating a distance separating a descriptor from said first subset of eigen descriptors and a corresponding descriptor of the same type from said second subset of eigen descriptors, delivering a vector of at least one distance. Thus, the invention makes it possible to create a set of distances between the descriptors of the same types of the first and second segments. These distances constitute a vector of distances. The smaller the distance between two descriptors, the more the characteristics of the two segments relating to this descriptor will be similar. According to a particular characteristic of the invention, said descriptors are of different types, said types belonging to the group comprising: the ratio between a number of key images of a segment and a duration of this segment; a three-dimensional color histogram in the RGB color space of the average color on all keyframes of a segment; a three-dimensional color histogram in the color space
RVB de l'intersection des couleurs sur toutes les images clés d'un segment ; le rapport du nombre de visages détectés sur le segment et une durée d'un segment ; la moyenne et l'écart type du nombre de visages détectés par images clés d'un segment ; la taille maximale des visages détectés sur toutes les images clés d'un segment ; - la moyenne et l'écart type de la taille des visages détectés par images clés d'un segment ; le nombre de groupes d'images clés similaires d'un segment ; le nombre de groupes d'images clés similaires contenant des images clés appartenant audit au moins un premier segment et audit au moins deuxième segment ; la moyenne et l'écart type du nombre d'images similaires par groupes d'images similaires.RGB of the intersection of colors on all keyframes of a segment; the ratio of the number of faces detected on the segment and a duration of a segment; the average and standard deviation of the number of faces detected by keyframes of a segment; the maximum size of the faces detected on all the keyframes of a segment; - average and standard deviation of face size detected by keyframes a segment; the number of similar keyframe groups in a segment; the number of similar keyframe groups containing keyframes belonging to the at least one first segment and the at least one second segment audit; the average and standard deviation of the number of similar images in groups of similar images.
Selon un mode de réalisation particulier de l'invention, lesdites distances séparant lesdits descripteurs appartiennent au groupe comprenant : - la valeur absolue de la différence ; la distance euclidienne ; la distance de corrélation selon le coefficient de corrélation de Pearson ; la distance du Chi-Square ; la distance d'intersection qui est la somme des minimums respectifs entre les valeurs respectives de deux distributions ; la distance de Bhattacharyya.According to a particular embodiment of the invention, said distances separating said descriptors belong to the group comprising: the absolute value of the difference; the Euclidean distance; the correlation distance according to the Pearson correlation coefficient; the distance from Chi-Square; the intersection distance which is the sum of the respective minimums between the respective values of two distributions; the distance from Bhattacharyya.
Selon un mode de réalisation particulier de l'invention, ledit procédé comprend, préalablement à la fusion, une phase d'apprentissage au cours de laquelle un classifieur apprend à différentier différentes classes d'appartenance de programmes audiovisuels.According to a particular embodiment of the invention, said method comprises, prior to the merger, a learning phase during which a classifier learns to differentiate different membership classes of audiovisual programs.
Selon une caractéristique particulière de l'invention, ladite étape d'obtention comprend : une étape de transmission dudit vecteur de distances et/ou desdits descripteurs communs à un classifieur préalablement entraîné ; - une étape de classification supervisée desdits au moins un premier et au moins un deuxième segment en fonction desdites distances dudit vecteur de distances et/ou desdits descripteurs communs.According to a particular characteristic of the invention, said obtaining step comprises: a step of transmitting said distance vector and / or said descriptors common to a classifier previously trained; a supervised classification step of said at least one first and at least one second segment as a function of said distances of said distance vector and / or said common descriptors.
Ainsi l'invention permet de réaliser une fusion des segments de manière automatisée et simple tout en assurant que les segments soient correctement fusionnés. Dans un mode de réalisation spécifique de l'invention, le classifieur peut être un classifieur binaire de type SVM permettant de fournir une décision d'appartenance desdits segments à un même programme audiovisuel.Thus, the invention makes it possible to merge the segments in an automated and simple manner while ensuring that the segments are correctly merged. In a specific embodiment of the invention, the classifier can be a binary classifier SVM type to provide a decision of membership of said segments to the same audiovisual program.
L'invention concerne également un dispositif de fusion de segments d'un flux audiovisuel préalablement découpé en une pluralité de segments de programmes à fusionner.The invention also relates to a device for merging segments of an audiovisual stream previously cut into a plurality of program segments to be merged.
Selon l'invention, un tel dispositif comprend, pour au moins un premier et au moins un deuxième segment de ladite pluralité de segments, des moyens de calcul d'un ensemble de descripteurs et des moyens d'obtention d'au moins une information représentative d'une appartenance desdits au moins un premier et au moins un deuxième segment à un programme audiovisuel identique en fonction de données représentatives desdits descripteurs préalablement calculés.According to the invention, such a device comprises, for at least a first and at least a second segment of said plurality of segments, means for calculating a set of descriptors and means for obtaining at least one representative information. a membership of said at least one first and at least one second segment to an identical audiovisual program based on data representative of said previously calculated descriptors.
Selon un autre aspect, l'invention concerne également un produit programme d'ordinateur téléchargeable depuis un réseau de communication et/ou stocké sur un support lisible par ordinateur et/ou exécutable par un microprocesseur, et comprenant des instructions de code de programme pour l'exécution du procédé de fusion tel que décrit précédemment. 4. LISTE DES FIGURESAccording to another aspect, the invention also relates to a computer program product downloadable from a communication network and / or stored on a computer-readable medium and / or executable by a microprocessor, and comprising program code instructions for the computer. execution of the fusion process as described above. 4. LIST OF FIGURES
D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante d'un mode de réalisation préférentiel, donné à titre de simple exemple illustratif et non limitatif, et des dessins annexés, parmi lesquels : la figure 1, déjà commentée, présente un synoptique des techniques générales de segmentation d'un flux audiovisuel ; la figure 2 illustre de manière générale le procédé de fusion de l'invention ; - la figure 3 illustre un mode de mise en œuvre du procédé de fusion de l'invention pour trois segments consécutifs ; la figure 4 illustre un autre mode de mise en oeuvre du procédé de fusion selon l'invention ; la figure 5 illustre encore un autre mode de mise en œuvre du procédé de fusion selon l'invention ; la figure 6 décrit un dispositif de fusion selon l'invention. 5. DESCRIPTION DETAILLEE DE L'INVENTIONOther features and advantages of the invention will emerge more clearly on reading the following description of a preferred embodiment, given as a simple illustrative and nonlimiting example, and the appended drawings, among which: FIG. 1 , already commented, presents a synoptic of the general techniques of segmentation of an audiovisual flow; Figure 2 generally illustrates the method of fusion of the invention; FIG. 3 illustrates a mode of implementation of the fusion method of the invention for three consecutive segments; FIG. 4 illustrates another mode of implementation of the fusion method according to the invention; FIG. 5 illustrates another embodiment of the fusion process according to the invention; FIG. 6 describes a fusion device according to the invention. 5. DETAILED DESCRIPTION OF THE INVENTION
Rappel du principe de l'inventionRecall of the principle of invention
L'invention propose de fusionner les différents segments formant un programme en utilisant des descripteurs de ces segments. A l'inverse des solutions de l'art antérieur, ces descripteurs ne dépendent pas de données extérieures au flux ou de métadonnées du flux, mais bien des données audiovisuelles composant le flux. Les descripteurs peuvent donc porter à la fois sur le contenu vidéo du flux et sur le contenu audio de celui-ci. On note que l'invention n'exclut nullement l'utilisation de métadonnées fournies par l'EPG ou par ETI lorsque de telles données existent. Dans un tel mode de réalisation, l'invention se combine tout à fait à ces techniques utilisant l'EPG ou l'ETI pour améliorer de manière importante la précision des fusions et pour réduire le temps nécessaire à la fusion Le principe général de l'invention repose ainsi sur le calcul de descripteurs pour les segments qui composent le flux, sur le calcul de données associées à ces descripteurs et sur la fourniture de ces données et de ces descripteurs à un composant particulier qui va fournir une réponse quant à l'appartenance de deux segments à un même programme. On présente, en relation avec la figure 2, les étapes du procédé de l'invention. On considère que le flux audiovisuel a été préalablement segmenté selon une approche de détection des zones d'inter-programmes idoine. Ainsi, le procédé de l'invention utilise un flux segmenté en une pluralité de segments de programme 20 constituée par exemple des segments A, B, et suivants. Le procédé de l'invention réalise ensuite une fusion des segments en : calculant 201 un ensemble de descripteurs 21. Ces descripteurs 21 sont calculés pour au moins deux segments du flux audiovisuel, dits premier et deuxième segments. Comme cela est explicité par la suite, les descripteurs calculés sont de différents types ; - estimant 203 l'appartenance du premier et deuxième segments à un même programme en utilisant les données issues de ces descripteurs 21. Cette étape d'estimation 203 peut être réalisée à l'aide de moyens de classification automatique, tels que des classifieurs. D'autres moyens idoines peuvent également permettre d'obtenir une estimation de cette appartenance.The invention proposes to merge the different segments forming a program using descriptors of these segments. In contrast to the solutions of the prior art, these descriptors do not depend on data external to the stream or stream metadata, but on audiovisual data comprising the stream. The descriptors can therefore relate to both the video content of the stream and the audio content thereof. Note that the invention does not exclude the use of metadata provided by the EPG or ETI when such data exist. In such an embodiment, the invention fully combines these techniques using EPG or ETI to significantly improve the accuracy of the fusions and to reduce the time required for the fusion. The general principle of the The invention thus relies on the calculation of descriptors for the segments that compose the stream, on the calculation of data associated with these descriptors and on the provision of these data and descriptors to a particular component that will provide a response as to the membership two segments to the same program. In relation to FIG. 2, the steps of the method of the invention are presented. It is considered that the audiovisual stream has been segmented beforehand according to an approach for detecting suitable inter-program areas. Thus, the method of the invention uses a stream segmented into a plurality of program segments 20 consisting for example of segments A, B, and following. The method of the invention then performs a merging of the segments by: calculating 201 a set of descriptors 21. These descriptors 21 are calculated for at least two segments of the audiovisual stream, said first and second segments. As is explained later, the calculated descriptors are of different types; - estimating 203 the belonging of the first and second segments to the same program using the data from these descriptors 21. This estimation step 203 can be performed using automatic classification means, such as classifiers. Other appropriate means can also be used to obtain an estimate of this membership.
Les descripteurs qui sont mis en œuvre dans le cadre de l'invention sont de deux sortes : les descripteurs propres et les descripteurs communs.The descriptors that are implemented in the context of the invention are of two kinds: the clean descriptors and the common descriptors.
Un descripteur propre est une valeur, ou une structure de données comprenant plusieurs valeurs représentant le résultat d'un calcul mené sur un segment : il peut par exemple s'agir de la durée du segment, du nombre d'images de ce segment, du volume sonore du segment, d'un nombre de plans, d'une analyse spectrale de ce segment, etc. Il s'agit donc de données propres au segment. Les descripteurs propres sont donc de différents types. Selon l'invention, on calcule un nombre déterminé de descripteurs propres par segment, chaque descripteur propre étant d'un type particulier.A clean descriptor is a value, or a data structure comprising several values representing the result of a calculation carried out on a segment: it can for example be the duration of the segment, the number of images of this segment, the sound volume of the segment, a number of plans, a spectral analysis of this segment, etc. This is segment-specific data. The proper descriptors are therefore of different types. According to the invention, a specific number of eigen descriptors per segment is calculated, each own descriptor being of a particular type.
Un descripteur commun est une valeur, ou une structure de données comprenant plusieurs valeurs représentant le résultat d'un calcul mené sur les deux (ou plus) segments dont on souhaite savoir s'ils appartiennent au même programme. Il s'agit par exemple d'un nombre d'images identiques entre les deux segments, d'une estimation d'une identité d'un fond sonore, etc.A common descriptor is a value, or a data structure comprising several values representing the result of a calculation carried out on the two (or more) segments which one wishes to know if they belong to the same program. This is for example a number of identical images between the two segments, an estimate of an identity of a background sound, etc.
Les descripteurs communs sont donc également de différents types. Selon l'invention, on calcule un nombre déterminé de descripteurs communs sur les deux (ou plus) segments dont on souhaite savoir s'ils appartiennent au même programme, chaque descripteur commun étant d'un type particulier. Dans au moins un mode de réalisation de l'invention, les descripteurs propres de chacun des deux segments dont on souhaite tester l'appartenance à un même programme sont ensuite utilisés pour déterminer des distances. Il s'agit de distances entre deux descripteurs appartenant à deux segments donnés, par exemple consécutifs. Ces distances permettent d'établir une proximité des deux segments par rapport à un type de descripteur donné, comme par exemple une distribution colorimétrique. Ces distances peuvent s'exprimer sous la forme de valeurs entières, réelles ou encore de vecteurs comprenant plusieurs dimensions.The common descriptors are therefore also of different types. According to the invention, a determined number of common descriptors are calculated on the two (or more) segments which one wishes to know if they belong to the same program, each common descriptor being of a particular type. In at least one embodiment of the invention, the eigen descriptors of each of the two segments whose membership in the same program is to be tested are then used to determine distances. These are distances between two descriptors belonging to two given segments, for example consecutive. These distances make it possible to establish a proximity of the two segments with respect to a given type of descriptor, such as for example a color distribution. These distances can be expressed in the form of integer values, real values or vectors comprising several dimensions.
On calcul un nombre déterminé de distances. Le nombre de distances calculées entre deux segments peut être supérieur ou inférieur au nombre de descripteurs calculés pour ces deux segments.A certain number of distances are calculated. The number of distances calculated between two segments may be greater or less than the number of descriptors calculated for these two segments.
Les distances séparant les descripteurs comprennent notamment : la valeur absolue de la différence ; la distance euclidienne ; la distance de corrélation selon le coefficient de corrélation de Pearson (utilisée par exemple entre deux histogrammes de couleurs) ; la distance du Chi-Square (utilisée par exemple entre deux histogrammes de couleurs) ; la distance d'intersection qui est la somme des minimums respectifs entre les valeurs respectives de deux distributions (utilisée par exemple entre deux histogrammes de couleurs) ; la distance de Bhattacharyya (utilisée par exemple entre deux histogrammes de couleurs).Distances separating the descriptors include: the absolute value of the difference; the Euclidean distance; the correlation distance according to the Pearson correlation coefficient (used for example between two color histograms); the Chi-Square distance (used for example between two color histograms); the intersection distance which is the sum of the respective minimums between the respective values of two distributions (used for example between two color histograms); the distance of Bhattacharyya (used for example between two histograms of colors).
Ces distances sont connues et sont appliquées pour déterminer des données représentatives des descripteurs de segments qui sont utilisées par la suite pour déterminer l'appartenance, ou non, des segments à un même programme.These distances are known and are applied to determine data representative of the segment descriptors that are subsequently used to determine whether segments belong to the same program or not.
On présente, en figure 3, la mise en œuvre du procédé de l'invention pour trois segments d'un flux audiovisuel : les segments A, B et C sont extraits du flux audiovisuel par un procédé de segmentation. Des descripteurs (Ds{A,B }, Ds{B,C}) sont alors calculés (étapes 201, 202) pour les segments : il peut s'agir de descripteurs propres au segment (par exemple des descripteurs de A, de B ou de C) ou des descripteurs communs (c'est-à-dire des descripteurs qui utilisent à la fois les données de A et de B ou de A et de C).FIG. 3 shows the implementation of the method of the invention for three segments of an audiovisual stream: segments A, B and C are extracted from the audiovisual stream by a segmentation method. Descriptors (Ds {A, B}, Ds {B, C}) are then calculated (steps 201, 202) for the segments: they can be descriptors specific to the segment (for example descriptors of A, B or C) or common descriptors (i.e., descriptors that use both A and B or A and C data).
Les descripteurs (Ds{A,B }, Ds{B,C}) sont ensuite fournis à un classifieur Cl qui estime (étapes 203 et 204) l'appartenance des segments à un même programme et décide de la séparation (N) ou de la fusion (Y) des deux segments. On note que dans la figure 3, les segments sont consécutifs et sont comparés deux à deux, c'est-à-dire que l'on compare le segment A avec le segment B (étape 203) puis le segment B avec le segment C (étape 204).The descriptors (Ds {A, B}, Ds {B, C}) are then provided to a classifier C1 which estimates (steps 203 and 204) the membership of the segments in the same program and decides on the separation (N) or the fusion (Y) of the two segments. Note that in Figure 3, the segments are consecutive and are compared in pairs, that is to say that the segment A is compared with the segment B (step 203) and the segment B with the segment C (step 204).
Il est bien entendu que l'on peut également fournir au classifieur Cl des descripteurs de segments non consécutifs. Par exemple, il serait tout à fait pertinent de fournir au classifieur Cl des données provenant des descripteurs de A et de C. Si le classifieur Cl conclu à l'appartenance de A et de C à un même programme, alors il sera aisé de conclure que B appartient également au même programme que A et C. On réduit ainsi le temps de calcul nécessaire à la détermination de l'appartenance des segments aux programmes.Of course, it is also possible to provide the classifier C1 with non-consecutive segment descriptors. For example, it would be quite relevant to provide the classifier C1 with data from the descriptors of A and C. If the classifier C1 concludes that A and C belong to the same program, then it will be easy to conclude that B also belongs to the same program as A and C. This reduces the calculation time needed to determine the membership of the segments to the programs.
Le classifieur Cl utilise les données issues des descripteurs pour estimer l'appartenance des deux segments à un même programme et décider de la séparation (N) ou de la fusion (Y) des deux segments auxquels ces données appartiennent. Ici encore, il n'est pas nécessaire de ne fournir au classifieur que des données issues de deux segments. Il est tout à fait pertinent dans certains cas, de fournir directement au classifieur des données issues de descripteurs portant sur plusieurs segments en une seule étape. Un tel cas de figure, illustré en relation avec la figure 4, peut se présenter lorsqu'il existe, pour plusieurs segments, une présomption d'appartenance à un même programme, du fait par exemple d'une utilisation de données issues d'un guide électronique de programme. Dès lors, si il est présumé que le programme a pu être segmenté en plusieurs segments (trois ou quatre par exemple), il est envisagé de calculer (étape 201') des descripteurs pour ces trois ou quatre segments (Ds{A,B, C }) et de les fournir ensemble au classifieur. Le classifieur utilise (étape 203') pour sa part les données issues des descripteurs pour décider de la séparation (N) ou de la fusion (Y) des deux segments auxquels ces données appartiennent.The classifier C1 uses the data from the descriptors to estimate the membership of the two segments in the same program and to decide on the separation (N) or the merger (Y) of the two segments to which these data belong. Here again, it is not necessary to provide the classifier with data from two segments. It is quite relevant in some cases to provide classifier data directly to the classifier from several segments in one step. Such a case, illustrated with reference to FIG. 4, can occur when, for several segments, there is a presumption of belonging to the same program, for example because of the use of data from a single source. electronic program guide. Therefore, if it is assumed that the program could be segmented into several segments (three or four for example), it is envisaged to calculate (step 201 ') descriptors for these three or four segments (Ds {A, B, C}) and provide them together to the classifier. The classifier uses (step 203 ') for its part the data from the descriptors to decide on the separation (N) or the merger (Y) of the two segments to which these data belong.
De même, tel qu'illustré en figure 5, les deux segments ne sont pas nécessairement consécutifs. La méthode de l'invention est mise en œuvre de la même manière que précédemment. On calcule (étape 201") des descripteurs pour les segments A et C (Ds(A, C}) et le classifieur utilise (étape 203") pour sa part les données issues des descripteurs pour décider de la séparation (N) ou de la fusion (Y) des deux segments auxquels ces données appartiennent. Si, dans le cas de la figure 5, le classifieur Cl décide de la fusion des segments A et C, alors on peut en conclure que les segments A, B et C appartiennent au même programme. Une telle approche permet, dans certains cas, de diminuer le nombre de calculs nécessaires et donc d'augmenter la vitesse de traitement.Similarly, as illustrated in Figure 5, the two segments are not necessarily consecutive. The method of the invention is implemented in the same manner as above. Descriptors for segments A and C (Ds (A, C)) are calculated (step 201 ") and the classifier used (step 203") for its part the data from the descriptors to decide the separation (N) or the merger (Y) of the two segments to which these data belong. If, in the case of FIG. 5, classifier C1 decides to merge segments A and C, then it can be concluded that segments A, B and C belong to the same program. Such an approach makes it possible, in certain cases, to reduce the number of calculations required and therefore to increase the processing speed.
Ainsi, l'invention propose une méthode permettant de décider si deux segments de programme, par exemple consécutifs d'un flux audiovisuel doivent ou ne doivent pas fusionner pour former un même programme. Le procédé choisit de fusionner les segments en analysant seulement le contenu audiovisuel et les propriétés des segments.Thus, the invention proposes a method for deciding whether two program segments, for example consecutive segments of an audiovisual stream, must or must not merge to form the same program. The method chooses to merge the segments by analyzing only the audiovisual content and the properties of the segments.
Parmi les avantages de l'invention, on note plus particulièrement que : quand les métadonnées de programmation sont disponibles, la fusion des segments d'un même programme préalablement à l'étape de mise en correspondance avec la grille de programmation, permet de simplifier significativement cette mise en correspondance et d'améliorer ses performances. En effet, le nombre de possibilités de mises en correspondance s'en trouve réduit et une simple étude de recouvrement permet d'atteindre de bonnes performances ; - quand les métadonnées de programmation ne sont pas disponibles, la fusion des segments d'un même programme permet d'extraire l'ensemble des programmes longs à partir du flux, ce qui permet de réduire significativement le coût de l'intervention manuelle nécessaire pour alimenter automatiquement un catalogue de « TVoD » (de l'anglais « Télévision on Demand » pour « Télévision à la demande »).Among the advantages of the invention, it is more particularly noted that: when the programming metadata are available, the merging of the segments of the same program prior to the mapping step with the programming grid makes it possible to simplify significantly this mapping and improve its performance. Indeed, the number of matching possibilities is reduced and a simple recovery study can achieve good performance; - when the programming metadata are not available, the merging of the segments of the same program makes it possible to extract all the long programs from the stream, which makes it possible to significantly reduce the cost of the manual intervention necessary for automatically feed a catalog of "TVoD" (from "Television on Demand" for "Television on Demand").
Par la suite, on présente notamment le cas d'une fusion de segments dans laquelle les descripteurs de flux utilisés prennent en compte les caractéristiques d'au moins certaines images qui composent les segments. Il est clair cependant que l'invention ne se limite pas à cette mise en œuvre particulière, mais peut également utiliser des descripteurs qui tiennent compte des caractéristiques audio des segments.Subsequently, we present the case of a segment merger in which the flow descriptors used take into account the characteristics of at least some images that make up the segments. It is clear, however, that the invention is not limited to this particular implementation, but may also use descriptors that take into account the audio characteristics of the segments.
Description d'un mode de réalisationDescription of an embodiment
On présente dans ce mode de réalisation, une mise en œuvre du procédé de l'invention en utilisant plusieurs descripteurs qui permettent de déterminer si deux segments consécutifs, d'un même flux audiovisuel appartiennent à un même programme. Dans ce mode de réalisation de l'invention, un classifieur binaire de type SVM (de l'anglais « Support Vector Machine ») est utilisé. Tout autre type de classifieur peut cependant être utilisé. Le classifieur binaire présente l'avantage d'être simple et d'être adapté à la prise de décision dans le cadre de l'invention puisqu'il rend une réponse de type binaire.In this embodiment, an implementation of the method of the invention is presented by using several descriptors that make it possible to determine whether two consecutive segments of the same audiovisual stream belong to the same program. In this embodiment of the invention, a binary classifier SVM type (of the English "Support Vector Machine") is used. Any other type of classifier can however be used. The binary classifier has the advantage of being simple and of being adapted to decision-making in the context of the invention since it renders a binary type response.
Un classifieur est une fonction mathématique qui associe une classe d'appartenance en fonction de données d'entrées. L'apprentissage d'un classifieur est un procédé d'estimation de fonction mathématique à partir d'un échantillon d'exemples d'associations de classes d'appartenance. Un classifieur est dit binaire lorsqu'il permet la détermination d'un résultat binaire (du type oui/non).A classifier is a mathematical function that associates a class of membership based on input data. Learning a classifier is a method of estimating mathematical function from a sample of examples of membership class associations. A classifier is said to be binary when it allows the determination of a binary result (of the yes / no type).
Dans ce mode de réalisation de l'invention, le classifieur binaire permet, à partir des données issues des descripteurs, de déterminer si les deux segments dont les données issues des descripteurs sont analysées appartiennent à un même programme audiovisuel. Cette détermination est possible car, dans une phase préalable, à l'aide d'un ensemble de segments pour lesquels la décision de fusion a été manuellement prise, le classifieur binaire a été entraîné à déterminer sur la base des descripteurs si deux segments consécutifs doivent ou ne doivent pas fusionner pour former un même programme. Dans un mode de réalisation de l'invention, il est également possible d'utiliser plusieurs classifieurs. Ce type d'approche peut présenter un intérêt dans le cadre d'une grande diversité de types de programmes qui nécessite une analyse différentielle par des classifieurs ayant des apprentissages différentsIn this embodiment of the invention, the binary classifier makes it possible, from the data derived from the descriptors, to determine whether the two segments whose data from the descriptors are analyzed belong to the same audiovisual program. This determination is possible because, in a previous phase, using a set of segments for which the merger decision was manually taken, the binary classifier was trained to determine on the basis of the descriptors whether two consecutive segments should be or do not merge to form the same program. In one embodiment of the invention, it is also possible to use several classifiers. This type of approach may be of interest in a wide variety of program types that require differential analysis by classifiers with different learning outcomes.
Comme cela a déjà été évoqué, afin de fusionner les segments consécutifs d'un même programme, le procédé se base sur l'étude du contenu des différents segments de programmes. Des descripteurs sont ainsi calculés à partir de données de segment, et à l'aide d'une technique de classification supervisée, une décision est prise pour la fusion ou la séparation de deux segments consécutifs.As already mentioned, in order to merge the consecutive segments of the same program, the process is based on the study of the contents of the different program segments. Descriptors are thus calculated from segment data, and using a supervised classification technique, a decision is made for merging or separating two consecutive segments.
Descripteurs propres et descripteurs communs Dans ce mode de réalisation de l'invention, les descripteurs considérés pour chaque segment sont sélectionnés à partir de leur capacité à caractériser un segment de flux audiovisuel.Own descriptors and common descriptors In this embodiment of the invention, the descriptors considered for each segment are selected from their ability to characterize an audiovisual stream segment.
Descripteurs propres.Own descriptors.
Dans ce mode de réalisation, les descripteurs propres suivants sont utilisés. Dans un premier temps, des images clefs sont identifiées pour chaque segment en utilisant une méthode de détection d'images clés. Un premier descripteur est utilisé pour chaque segment : il s'agit du nombre d'images clefs d'un segment divisé par la durée du segment.In this embodiment, the following clean descriptors are used. As a first step, keyframes are identified for each segment using a keyframe detection method. A first descriptor is used for each segment: it is the number of key images of a segment divided by the duration of the segment.
Les couleurs principales des segments vidéo permettent de différencier grossièrement les segments vidéo. Par exemple, des parties d'un film sombre se différencieront des événements sportifs comme des matchs de foot ou la couleur verte de la pelouse prédominera.The main colors of the video segments make it possible to roughly differentiate the video segments. For example, parts of a dark film will differentiate from sporting events such as football matches or the green color of the lawn will predominate.
Dans ce mode de réalisation de l'invention, deux histogrammes de couleurs sont utilisés pour caractériser les segments : - un histogramme des couleurs moyennes est calculé en cumulant toutes les couleurs de chaque image clefs d'un segment puis il est normalisé par la durée du segment. Il s'agit du deuxième descripteur propre ; un histogramme d'intersection des couleurs est calculé en calculant les couleurs communes à toutes les images clefs d'un segment. Il est également normalisé par la durée du segment. Il s'agit du troisième descripteur propre.In this embodiment of the invention, two color histograms are used to characterize the segments: a histogram of the average colors is calculated by accumulating all the colors of each key image of a segment and is then normalized by the duration of the segment. This is the second descriptor of its own; a color intersection histogram is calculated by calculating the colors common to all key images in a segment. It is also normalized by the duration of the segment. This is the third descriptor of its own.
Afin de calculer la similarité de chaque histogramme entre deux segments, on utilise, dans ce mode de réalisation de l'invention, la distance de corrélation d'histogrammes, la distance du « Chi-Square » et la distance d'intersection d'histogrammes. Ainsi, à partir de deux descripteurs, il est possible de déterminer trois distances présentant des valeurs différentes.In order to calculate the similarity of each histogram between two segments, in this embodiment of the invention, the histogram correlation distance, the "Chi-Square" distance and the histogram intersection distance are used. . Thus, from two descriptors, it is possible to determine three distances with different values.
La taille et le nombre de visages contenu dans un segment permettent aussi de distinguer des segments courts comme la météo contenant une seule personne par rapport à des segments plus longs comme le journal faisant intervenir de nombreuses personnes.The size and number of faces in a segment also makes it possible to distinguish short segments such as the weather containing only one person from longer segments such as the newspaper involving many people.
De même, la détection de visages permet de distinguer un magazine d'un documentaire animalier. Dans ce mode de réalisation de l'invention, la technique de détection de visage présentée dans le document C. Garcia and M. Delakis. Convolutional Face Finder: A Neural Architecture for Fast and Robust Face Détection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 26(11), 1408 - 1423. 2004 est utilisée.Similarly, the detection of faces makes it possible to distinguish a magazine from an animal documentary. In this embodiment of the invention, the face detection technique presented in C. Garcia and M. Delakis. Convolutional Face Finder: A Neural Architecture for Fast and Robust Face Detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 26 (11), 1408-1423. 2004 is used.
Cette détection est réalisée sur des images clés du segment. Le résultat de cette détection fournit, pour une image clé d'un segment, des rectangles englobants pour chaque visage détecté. Un rectangle englobant correspond à une partie d'image. Pour une image donnée, le nombre la position, et la taille des rectangles englobant présents sur cette image indique le nombre, la position et la taille des visages détectés.This detection is performed on key images of the segment. The result of this detection provides, for a keyframe of a segment, enclosing rectangles for each detected face. An enclosing rectangle is a part of an image. For a given image, the number the position, and the size of the enclosing rectangles present on this image indicates the number, position and size of the faces detected.
Les segments sont alors décrits par les quatre descripteurs suivants : - le nombre total de visages détectés divisé par la durée du segment ; la moyenne et l'écart type du nombre moyen de visages détectés par images clefs du segment ; la taille maximale d'un visage détecté sur toutes les images clefs du segment, c'est-à-dire la plus grande taille de visage dans les images clés du segment ; la moyenne et l'écart type de la taille du visage maximal détecté par images clefs du segment ;The segments are then described by the following four descriptors: the total number of faces detected divided by the duration of the segment; the mean and standard deviation of the average number of faces detected by key segment images; the maximum size of a face detected on all keyframes of the segment, ie the largest face size in the keyframes of the segment; the mean and standard deviation of the maximum face size detected by key frames of the segment;
Descripteurs communsCommon descriptors
Dans ce mode de réalisation de l'invention, on réalise une identification de points communs dans deux segments. Par exemple, la répétition de nombreux morceaux presque identiques d'un segment dans un autre segment caractérise des points communs importants entre deux segments. Par exemple, la répétition des plans avec le présentateur caractérise les émissions de jeu. Ce mode de réalisation de l'invention utilise l'identification de ces répétitions pour fournir des données supplémentaires au classifieur.In this embodiment of the invention, an identification of common points in two segments is carried out. For example, the repetition of many nearly identical pieces of a segment in another segment characterizes important common points between two segments. For example, the repetition of the shots with the presenter characterizes the game shows. This embodiment of the invention uses the identification of these repetitions to provide additional data to the classifier.
Pour deux segments A et B pour lesquels on recherche des morceaux presque identiques, des images clefs sont identifiées et décrites par une signature de 64 bits, par exemple. Pour cela on utilise le même procédé que les descripteurs sommaires dans le document "A non-supervised approach for repeated séquence détection in TV broadcast streams". In Signal Processing: Image Communication, spécial issue on "Semantic Analysis for Interactive Multimedia Services", 2008, volume 23, number 7, pages 525-537.For two segments A and B for which almost identical pieces are sought, key images are identified and described by a 64-bit signature, for example. For this we use the same method as the summary descriptors in the document "A non-supervised approach for repeated sequence detection in TV broadcast streams". In Signal Processing: Image Communication, special issue on "Semantic Analysis for Interactive Multimedia Services", 2008, Volume 23, Number 7, pages 525-537.
Caractérisation d'un segment On construit ensuite, à partir des signatures de 64 bits, des groupes d'images clefs des segments A et/ou B contenant toutes les images clefs à une distance de Hamming d d'au moins une image clef du groupe.Characterization of a segment Then, from the 64-bit signatures, groups of key images of the segments A and / or B containing all the keyframes at a Hamming distance d of at least one key image of the group are constructed. .
Les segments sont décrits par les valeurs suivantes relatives aux descripteurs propres et communs : - le nombre total de groupes calculés sur un segment ; le nombre moyen d'images clefs par groupe sur un segment ; le nombre total de groupes contenant des images à la fois d'un premier et d'un deuxième segment ; le nombre moyen d'images clefs par groupe contenant des images d'un premier segment et d'un deuxième segment.The segments are described by the following values relating to the specific and common descriptors: - the total number of groups calculated on a segment; the average number of keyframes per group on a segment; the total number of groups containing images of both a first and a second segment; the average number of keyframes per group containing images of a first segment and a second segment.
Ces valeurs sont fournies, sous la forme d'un vecteur, au classifieur. Sur cette base, le classifieur rend une réponse permettant de valider l'appartenance des segments à un même programme. Méthodes alternatives de décision de fusionThese values are provided, in the form of a vector, to the classifier. On this basis, the classifier makes a response to validate the membership segments to the same program. Alternative methods of merger decision
Le procédé de l'invention a été présenté dans le cadre de la mise en œuvre d'un unique classifieur binaire qui permet de déterminer si des segments appartiennent à un même programme. D'autres approches sont bien entendu possibles. Elles peuvent être basées sur une mise en œuvre générale de perceptron, dont les classifieurs font partie. Elles peuvent également être basées sur toute autre approche permettant d'obtenir une information relative à l'appartenance des segments à un même programme audiovisuel en fonction des données des descripteurs préalablement calculés. Autres caractéristiques optionnelles et avantagesThe method of the invention has been presented in the context of the implementation of a single binary classifier which makes it possible to determine whether segments belong to the same program. Other approaches are of course possible. They can be based on a general implementation of perceptron, of which the classifiers are part. They can also be based on any other approach that makes it possible to obtain information relating to the membership of the segments in the same audiovisual program according to the data of the previously calculated descriptors. Other optional features and benefits
On présente, en relation avec la figure 6, un mode de réalisation d'un dispositif de fusion selon l'invention.In relation to FIG. 6, an embodiment of a fusion device according to the invention is presented.
Un tel dispositif de fusion comprend une mémoire 61, une unité de traitement 62 équipée par exemple d'un microprocesseur, et pilotée par le programme d'ordinateur 63, mettant en œuvre le procédé selon l'invention.Such a melting device comprises a memory 61, a processing unit 62 equipped for example with a microprocessor, and driven by the computer program 63, implementing the method according to the invention.
A l'initialisation, les instructions de code du programme d'ordinateur 63 sont par exemple chargées dans une mémoire RAM avant d'être exécutées par le processeur de l'unité de traitement 62. L'unité de traitement 62 reçoit en entrée le flux audio visuel découpé en plusieurs segments. Le microprocesseur de l'unité de traitement 62 met en œuvre les étapes du procédé de fusions, selon les instructions du programme d'ordinateur 61 pour décider de l'appartenance des différents segments à un même programme. Pour cela, le dispositif de fusion comprend, outre la mémoire 61, pour au moins un premier et au moins un deuxième segment de la pluralité de segments, des moyens de calcul d'un ensemble de descripteurs de différents types et des moyens d'obtention d'une information représentative d'une appartenance des segments à un même programme audiovisuel en fonction de données représentatives desdits descripteurs préalablement calculés. Ces moyens sont pilotés par le microprocesseur de l'unité de traitement 62. At initialization, the code instructions of the computer program 63 are for example loaded into a RAM memory before being executed by the processor of the processing unit 62. The processing unit 62 receives as input the stream audio visual cut into several segments. The microprocessor of the processing unit 62 implements the steps of the merger process, according to the instructions of the computer program 61 to decide on the membership of the different segments in the same program. For this, the merging device comprises, in addition to the memory 61, for at least a first and at least a second segment of the plurality of segments, means for calculating a set of descriptors of different types and means for obtaining information representative of a membership segments to the same audiovisual program based on data representative of said previously calculated descriptors. These means are controlled by the microprocessor of the processing unit 62.

Claims

REVENDICATIONS
1. Procédé de fusion de segments d'un flux audiovisuel préalablement découpé en une pluralité de segments de programmes à fusionner, caractérisé en ce qu'il comprend, pour au moins un premier et au moins un deuxième segment de ladite pluralité de segments, une étape de calcul d'un ensemble de descripteurs ; et en ce qu'il comprend une étape d'obtention d'au moins une information représentative d'une appartenance desdits au moins un premier et au moins un deuxième segment à un même programme audiovisuel en fonction de données représentatives desdits descripteurs préalablement calculés.A method for merging segments of an audiovisual stream previously cut into a plurality of program segments to be merged, characterized in that it comprises, for at least a first and at least a second segment of said plurality of segments, a step of calculating a set of descriptors; and in that it comprises a step of obtaining at least one piece of information representing a membership of said at least one first and at least one second segment in the same audiovisual program as a function of data representative of said previously calculated descriptors.
2. Procédé selon la revendication 1, caractérisé en ce que ledit ensemble de descripteurs comprend : un premier sous-ensemble d'au moins un descripteur propre audit au moins un premier segment ; un deuxième sous-ensemble d'au moins un descripteur propre audit au moins un deuxième segment.2. Method according to claim 1, characterized in that said set of descriptors comprises: a first subset of at least one descriptor specific to said at least one first segment; a second subset of at least one descriptor specific to said at least one second segment.
3. Procédé selon l'une quelconque des revendications 1 ou 2, caractérisé en ce que ledit ensemble de descripteurs comprend un sous-ensemble de descripteurs calculés en utilisant des données appartenant audit au moins un premier segment et audit au moins un deuxième segment, dits descripteurs communs.3. Method according to any one of claims 1 or 2, characterized in that said set of descriptors comprises a subset of descriptors calculated using data belonging to said at least one first segment and said at least one second segment, said common descriptors.
4. Procédé selon la revendication 2 ou 3, caractérisé en ce qu'il comprend au moins une étape de calcul d'une distance séparant un descripteur dudit premier sous-ensemble de descripteurs propres et un descripteur de même type correspondant dudit deuxième sous ensemble de descripteurs propres, délivrant un vecteur d'au moins une distance.4. Method according to claim 2 or 3, characterized in that it comprises at least one step of calculating a distance separating a descriptor of said first subset of clean descriptors and a corresponding descriptor of the same type from said second subset of clean descriptors, delivering a vector of at least one distance.
5. Procédé selon la revendication 1, caractérisé en ce que lesdits descripteurs sont de différents types, lesdits types appartenant au groupe comprenant : - le rapport entre un nombre d'images clés d'un segment et une durée de ce segment ; un histogramme de couleurs en trois dimensions dans l'espace des couleurs5. Method according to claim 1, characterized in that said descriptors are of different types, said types belonging to the group comprising: the ratio between a number of key images of a segment and a duration of this segment; a three-dimensional color histogram in the color space
RVB de la moyenne des couleurs sur toutes les images clés d'un segment ; un histogramme de couleurs en 3 dimensions dans l'espace des couleurs RVB de l'intersection des couleurs sur toutes les images clés d'un segment ; le rapport du nombre de visages détectés sur le segment et une durée d'un segment ; la moyenne et l'écart type du nombre de visages détectés par images clés d'un segment ; la taille maximale des visages détectés sur toutes les images clés d'un segment ; la moyenne et l'écart type de la taille des visages détectés par images clés d'un segment ; - le nombre de groupes d'images clés similaires d'un segment ; le nombre de groupes d'images clés similaires contenant des images clés appartenant audit au moins un premier segment et audit au moins deuxième segment ; la moyenne et l'écart type du nombre d'images similaires par groupes d'images similaires.RGB of the average color on all keyframes of a segment; a 3-dimensional color histogram in the RGB color space of the intersection of colors on all keyframes of a segment; the ratio of the number of faces detected on the segment and a duration of a segment; the average and standard deviation of the number of faces detected by keyframes of a segment; the maximum size of the faces detected on all the keyframes of a segment; the average and standard deviation of face size detected by keyframes of a segment; the number of groups of similar key images of a segment; the number of similar keyframe groups containing keyframes belonging to the at least one first segment and the at least one second segment audit; the average and standard deviation of the number of similar images in groups of similar images.
6. Procédé selon la revendication 4, caractérisé en ce que lesdites distances séparant lesdits descripteurs appartiennent au groupe comprenant : la valeur absolue de la différence ; la distance euclidienne ; - la distance de corrélation selon le coefficient de corrélation de Pearson ; la distance du Chi-Square ; la distance d'intersection qui est la somme des minimums respectifs entre les valeurs respectives de deux distributions ; la distance de Bhattacharyya. 6. Method according to claim 4, characterized in that said distances separating said descriptors belong to the group comprising: the absolute value of the difference; the Euclidean distance; the correlation distance according to the Pearson correlation coefficient; the distance from Chi-Square; the intersection distance which is the sum of the respective minimums between the respective values of two distributions; the distance from Bhattacharyya.
7. Procédé selon la revendication 1, caractérisé en ce qu'il comprend, préalablement à la fusion, une phase d'apprentissage au cours de laquelle un classifieur apprend à différentier différentes classes d'appartenance de programmes audiovisuels.7. Method according to claim 1, characterized in that it comprises, prior to the merger, a learning phase during which a classifier learns to differentiate different membership classes of audiovisual programs.
8. Procédé selon la revendication 4, caractérisé en ce que ladite étape d'obtention comprend : une étape de transmission dudit vecteur de distances et/ou desdits descripteurs communs à un classifieur préalablement entraîné ; une étape de classification supervisée desdits au moins un premier et au moins un deuxième segment en fonction desdites distances dudit vecteur de distances et/ou desdits descripteurs communs.8. Method according to claim 4, characterized in that said obtaining step comprises: a step of transmitting said distance vector and / or said descriptors common to a classifier previously trained; a step of supervised classification of said at least one first and at least one second segment according to said distances of said distance vector and / or said common descriptors.
9. Dispositif de fusion de segments d'un flux audiovisuel préalablement découpé en une pluralité de segments de programmes à fusionner, caractérisé en ce qu'il comprend, pour au moins un premier et au moins un deuxième segment de ladite pluralité de segments, des moyens de calcul d'un ensemble de descripteurs ; et en ce qu'il comprend des moyens d'obtention d'au moins une information représentative d'une appartenance desdits au moins un premier et au moins un deuxième segment à un programme audiovisuel identique en fonction de données représentatives desdits descripteurs préalablement calculés.9. Device for merging segments of an audiovisual stream previously cut into a plurality of program segments to be merged, characterized in that it comprises, for at least a first and at least a second segment of said plurality of segments, means for calculating a set of descriptors; and in that it comprises means for obtaining at least one piece of information representing a membership of said at least one first and at least one second segment in an identical audiovisual program as a function of data representative of said previously calculated descriptors.
10. Programme d'ordinateur caractérisé en ce qu'il comprend des instructions de code de programme pour la mise en œuvre du procédé de fusion selon la revendication 1, lorsque ce programme est exécuté par un processeur. 10. Computer program characterized in that it comprises program code instructions for implementing the merging method according to claim 1, when this program is executed by a processor.
PCT/FR2010/050104 2009-02-06 2010-01-25 Method for merging audiovisual programs, and corresponding device and computer program product WO2010089488A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
EP10707578A EP2394246A1 (en) 2009-02-06 2010-01-25 Method for merging audiovisual programs, and corresponding device and computer program product

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0950772 2009-02-06
FR0950772 2009-02-06

Publications (1)

Publication Number Publication Date
WO2010089488A1 true WO2010089488A1 (en) 2010-08-12

Family

ID=41078147

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2010/050104 WO2010089488A1 (en) 2009-02-06 2010-01-25 Method for merging audiovisual programs, and corresponding device and computer program product

Country Status (2)

Country Link
EP (1) EP2394246A1 (en)
WO (1) WO2010089488A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038090A (en) * 2015-12-30 2017-08-11 汤姆逊许可公司 Selection includes the method and electronic equipment, system, computer program product and computer-readable recording medium of the content of audio-visual data

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000004498A1 (en) * 1998-07-16 2000-01-27 Koninklijke Philips Electronics N.V. A histogram method for characterizing video content
US6711587B1 (en) * 2000-09-05 2004-03-23 Hewlett-Packard Development Company, L.P. Keyframe selection to represent a video
EP1600973A1 (en) * 2004-05-26 2005-11-30 Kabushiki Kaisha Toshiba Moving image processing apparatus and method
EP1959393A2 (en) * 2007-02-14 2008-08-20 Mitsubishi Electric Corporation Computer implemented method for detecting scene boundaries in videos

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000004498A1 (en) * 1998-07-16 2000-01-27 Koninklijke Philips Electronics N.V. A histogram method for characterizing video content
US6711587B1 (en) * 2000-09-05 2004-03-23 Hewlett-Packard Development Company, L.P. Keyframe selection to represent a video
EP1600973A1 (en) * 2004-05-26 2005-11-30 Kabushiki Kaisha Toshiba Moving image processing apparatus and method
EP1959393A2 (en) * 2007-02-14 2008-08-20 Mitsubishi Electric Corporation Computer implemented method for detecting scene boundaries in videos

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"A non-supervised approach for repeated sequence detection in TV broadcast streams", SIGNAL PROCESSING: IMAGE COMMUNICATION, SPECIAL ISSUE ON "SEMANTIC ANALYSIS FOR INTERACTIVE MULTIMEDIA SERVICES, vol. 23, no. 7, 2008, pages 525 - 537
C. GARCIA; M. DELAKIS.: "Convolutional Face Finder: A Neural Architecture for Fast and Robust Face Detection", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENC, vol. 26, no. 11, 2004, pages 1408 - 1423

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038090A (en) * 2015-12-30 2017-08-11 汤姆逊许可公司 Selection includes the method and electronic equipment, system, computer program product and computer-readable recording medium of the content of audio-visual data

Also Published As

Publication number Publication date
EP2394246A1 (en) 2011-12-14

Similar Documents

Publication Publication Date Title
US9510044B1 (en) TV content segmentation, categorization and identification and time-aligned applications
US9414128B2 (en) System and method for providing content-aware persistent advertisements
US7565016B2 (en) Learning-based automatic commercial content detection
CN101395607B (en) Method and device for automatic generation of summary of a plurality of images
US9098807B1 (en) Video content claiming classifier
US8301498B1 (en) Video content analysis for automatic demographics recognition of users and videos
EP2104937B1 (en) Method for creating a new summary of an audiovisual document that already includes a summary and reports and a receiver that can implement said method
EP1556794B1 (en) Method of selecting seeds for the clustering of key-frames
WO2010089488A1 (en) Method for merging audiovisual programs, and corresponding device and computer program product
Ghanem et al. Context-aware learning for automatic sports highlight recognition
WO2018114108A1 (en) Method of recording a forthcoming telebroadcast program
Broilo et al. Unsupervised event segmentation of news content with multimodal cues
EP2401700B1 (en) Digital data stream processing
Koźbiał et al. Collection, analysis and summarization of video content
Glasberg et al. Cartoon-recognition using video & audio descriptors
Zlitni et al. A visual grammar approach for TV program identification
US10713496B2 (en) Method and system for hardware, channel, language and ad length agnostic detection of televised advertisements
Min et al. Near-duplicate video detection using temporal patterns of semantic concepts
Barbieri Automatic summarization of narrative video
EP2097837B1 (en) Structuring of a digital data stream
Petit Context-aware person recognition in TV programs
Narwal et al. A novel multi-modal neural network approach for dynamic and generic sports video summarization
Kavitha et al. Perceptual Video Summarization using Keyframes Extraction Technique
Manson et al. Content-based video segment reunification for TV program extraction
Jacobs et al. Inter-video Similarity for Video Parsing

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10707578

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2010707578

Country of ref document: EP