WO2022129104A1 - Method and system for automatically synchronizing video content and audio content - Google Patents

Method and system for automatically synchronizing video content and audio content Download PDF

Info

Publication number
WO2022129104A1
WO2022129104A1 PCT/EP2021/085781 EP2021085781W WO2022129104A1 WO 2022129104 A1 WO2022129104 A1 WO 2022129104A1 EP 2021085781 W EP2021085781 W EP 2021085781W WO 2022129104 A1 WO2022129104 A1 WO 2022129104A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio sample
video sequence
audio
tempo value
video
Prior art date
Application number
PCT/EP2021/085781
Other languages
French (fr)
Inventor
Philippe Guillaud
Igal Cohen Hadria
André MANOUKIAN
Hervé GOURDIKIAN
Original Assignee
Imuze France
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Imuze France filed Critical Imuze France
Publication of WO2022129104A1 publication Critical patent/WO2022129104A1/en

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/368Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems displaying animated or moving pictures synchronized with the music or audio part
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/40Rhythm
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • H04N21/2335Processing of audio elementary streams involving reformatting operations of audio signals, e.g. by converting from one coding standard to another
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2368Multiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • H04N21/8113Monomedia components thereof involving special audio data, e.g. different tracks for different languages comprising music, e.g. song in MP3 format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/076Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/075Musical metadata derived from musical analysis or for use in electrophonic musical instruments
    • G10H2240/081Genre classification, i.e. descriptive metadata for classification or selection of musical pieces according to style
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/325Synchronizing two or more audio tracks or files according to musical features or musical timings

Definitions

  • the invention relates to the field of the production of sound effects for sequences of animated images, or videos.
  • the present invention is based on the observation that, among all the titles available in the catalogs of music industry companies, which represent more than 150 million titles, barely 0.1% of these titles are exploited and generate income for their authors or assigns. A considerable quantity of existing titles is therefore totally unused, and therefore unrecognized. However, most of these unused titles necessarily have qualities and characteristics that make them likely to be used for the sound design of a video. Thus, the less a title is used, the less it will be known and the less likely it will be used by a person doing video editing, whether that person is a video and/or sound editing professional or not.
  • the aim of the present invention is to propose a method and a system making it possible to automatically carry out the dressing of a sequence of animated images from a database containing audio files, the content of which may for example be titles music, excerpts of musical titles, various sounds, etc.
  • the present invention also aims to provide such a method and a system making it possible to carry out the sound dressing of a video very quickly, typically in a few seconds.
  • the invention relates to a method for synchronizing an audio sample with a sequence of animated images, or video sequence, the method comprising the steps of:
  • the method in accordance with the invention makes it possible to automatically associate a digital audio file containing an audio sample with a file containing a video, and to synchronize this audio sample with the video, so as to offer a user an appropriate sound design of this video.
  • the method according to the invention makes it possible to find very quickly (typically in a few seconds) compatible audio samples in a database data.
  • the compatibility between the tempo value assigned to the video and the tempo value of the song used has a decisive effect on the compatibility between the visual aspect and the sound aspect of a video, as it will be felt by a person viewing the video.
  • the method in accordance with the invention makes it possible to offer audio samples compatible with a video submitted by a user in an extremely rapid manner.
  • an audio sample is compatible if it has a tempo value equal or close to the tempo value of the video sequence or a tempo value equal to or close to a multiple or a sub-multiple of the tempo value of the video sequence.
  • the calculated tempo value for the video sequence is determined by detecting characteristic events occurring during the video sequence, such as scene changes.
  • the detection of a characteristic event such as a change of scene is carried out by chromatic analysis of each image of the video sequence, a change of scene being detected if a significant change in color is measured between two successive images.
  • the step of selecting from among the audio samples found, the audio sample which has the best compatibility with the video sequence includes a sub-step of calculating a compatibility score.
  • the synchronization step includes a sub-step of modifying the duration of the audio sample to adapt it to the duration of the video sequence.
  • the duration modification sub-step is performed by recombining one or more portions of the audio sample and/or one or more blocks of a portion of the audio sample.
  • the recombination is carried out so that after modification of the duration, the recombined audio sample has a structure similar to that of the initial audio sample, and comprises for example an introductory part, followed by a central part and a final part.
  • the synchronization step includes a sub-step of adapting the duration of at least part of the audio sample, consisting in locally decreasing or increasing the tempo value.
  • the adaptation sub-step includes modifying the tempo value of at least one block.
  • the adaptation sub-step includes modifying the tempo value of at least one first block and of at least one block adjacent to the first block, and preferably includes at least modifying the value of tempo of the block immediately preceding the first block and of the block immediately following the first block.
  • the tempo values of neighboring blocks of blocks adjacent to the first block are also modified.
  • the modifications of the tempo values of the first block and of the adjacent blocks and of the neighboring blocks are carried out in such a way as to obtain a local variation of the continuous tempo value.
  • the analysis step comprises the generation of characteristic data relating to the light and/or characteristic data relating to the colors of the images of the video sequence.
  • the analysis step comprises the generation of characteristic data relating to the speed of movement of objects appearing in the images of the video sequence.
  • the invention also relates to a method for generating a digital audio file containing an audio sample, comprising the steps of:
  • the calculation of the tempo value is carried out by implementing an iterative determination step.
  • the tempo value of the audio sample is calculated with an accuracy of less than +/- 0.1 beats per minute, and preferably of the order of +/- 0.01 beats per minute.
  • the detection of the measures constituting the audio sample is carried out by detection of a rhythmic pulse.
  • the determination of the musical structure is carried out by identifying one or more parts among:
  • the invention also relates to a synchronization method as defined above, in which the audio files stored in the database have previously been generated according to an audio file generation method in accordance with that defined above.
  • the invention also relates to a computer program product comprising instructions which, when the program is executed by one (or more) processors, lead the latter(s) to implement the steps of the synchronization method such as defined above and/or the steps of a method for generating audio files as defined above.
  • the invention also relates to a synchronization system for implementing a synchronization method as defined above and/or implementing a method for generating audio files as defined above, the system comprising a terminal configured to transfer a video file containing a video sequence to a server, the server comprising a database of digital audio files containing audio samples and a processor for synchronizing the video sequence transferred by the terminal with an audio sample contained in an audio file stored in the server database.
  • Figure 1 is a diagram of a system configured to implement a method according to the invention.
  • Figure 2 represents the implementation steps of a method according to the invention.
  • FIG. 3a Figure 3a illustrates a first image extracted from a video during the analysis step carried out in accordance with the method according to the invention.
  • FIG. 3b Figure 3b illustrates a second image extracted from a video during the analysis step carried out in accordance with the method according to the invention.
  • Figure 3c illustrates a third image extracted from a video during the analysis step carried out in accordance with the method according to the invention.
  • Figure 3d illustrates a third image extracted from a video during the analysis step carried out in accordance with the method according to the invention.
  • Figure 3e illustrates a third image extracted from a video during the analysis step carried out in accordance with the method according to the invention.
  • FIG. 4 represents a curve of the tempo value calculated in accordance with the invention for an audio sample.
  • Figure 5 shows a correspondence table between different shades of colors and associated tones.
  • Figure 6 is a diagram illustrating the implementation of the step of modifying the duration of an audio sample.
  • FIG. 1 represents a synchronization system 1 of an audio sample to a video sequence allowing the implementation of a synchronization method in accordance with the invention.
  • the synchronization system 1 comprises a terminal 10, in particular a local terminal such as a computer or a portable device (mobile telephone, tablet, etc.).
  • the terminal 10 comprises means for exchanging files and data with a server 12, for example through a network 14 such as the Internet network in the case of a remote server.
  • the server 12 comprises a processor 16 and a database 18 containing digital audio files, each audio file containing an audio sample (such as a piece of music) capable of being associated with a sequence of animated images, or sequence video.
  • FIG. 2 shows steps for implementing the method according to the invention.
  • the method comprises a first step 20 of analyzing a video sequence V, for example a video sequence not comprising any soundtrack submitted by a user, for example by means of the terminal 10.
  • this analysis step 20 is implementation of a step for generating characteristic data of the video sequence, at least one of these characteristic data being representative of a tempo value Tv.
  • An example of the method for calculating this tempo value Tv is detailed below .
  • This step is in the example implemented by the processor 16 of the server 12 of FIG.
  • the method then includes a search step 21 in a database of digital audio files, for example the database 18 of the server 12.
  • This search step 21 aims to find at least one, and preferably several audio samples compatible with the video sequence, that is to say audio samples likely to be appropriately associated with the video sequence submitted by the user.
  • the database 18 is searched for audio samples having characteristics compatible with the characteristic data of the video sequence generated during the analysis step 20.
  • An audio sample will be retained as being potentially associable with the sequence video if at least one compatible characteristics is a tempo value Ta assigned to the audio sample.
  • the audio sample that has the best compatibility with the video submitted by the user will be the audio sample E whose value representative of the compatibility score is the highest.
  • the compatibility score corresponds to the sum of at least two sub-scores, each sub-score being representative of a degree of compatibility of the audio sample considered with the video relative to a given criterion.
  • weighting coefficients are assigned to each of the sub-scores, the sub-score corresponding to the tempo value being associated with the highest weighting coefficient.
  • an audio sample E When an audio sample E has been selected, it is associated with the video sequence, during a synchronization step 23.
  • An example of implementation of the synchronization step 23 is described in detail below.
  • a step 26 of generating a video file containing the video sequence synchronized with the selected audio sample is implemented.
  • Figures 3a to 3e illustrate images extracted from a video sequence, or sequence of animated images.
  • the video sequence from which these images are extracted lasts in the example 25 seconds.
  • FIG. 3a illustrates a first image extracted from the video sequence, this image appearing 5 seconds after the start of the video sequence.
  • This first image is part of a subset of images, forming, among the set of images constituting the video sequence, a first scene.
  • this scene one can for example observe, in the foreground, a motor vehicle 30 moving on a road 32.
  • the sun 34 illuminating the entire scene in backlight as well a line of ridges formed by mountain ranges 36 located in the background.
  • the backlighting creates a shaded area 38 at the rear of the vehicle 30.
  • Figures 3b to 3e illustrate four successive images extracted from the same video sequence. These four images are part of a second subset of images which forms, among the set of images constituting the video sequence, a second scene. In this second scene, the same vehicle 30 as that appearing in the first scene can be observed. This is, in figures 3b-3e, seen from above traveling on a road 40. On one of the edges of the road, one can observe, in the foreground of the images, the progressive appearance of a geyser 42 The appearance of the geyser 42 coincides with the movement of the vehicle, in the sense that the geyser is at its peak when the vehicle 30 passes in front of it.
  • the four images shown in Figures 3b to 3e appear respectively 9, 10, 11 and 12 seconds after the start of the video.
  • the analysis that is made of the video from which the images of FIGS. 3a to 3e are extracted in the context of the implementation of the method that is the subject of the invention, during the analysis step 20, is detailed below.
  • a first characteristic datum generated relates to one or more characteristic events, such as scene changes.
  • this characteristic will be detected during the analysis of the video sequence.
  • the distinction between the first scene (figure 3a) and the second scene (figures 3b, 3c, 3d, 3e) is detected.
  • the detection of a characteristic event is carried out by comparing each image of the video sequence with the previous image. The comparison is performed on the basis of the color characteristics of the analyzed images, in order to detect any significant change between a given image and the following image.
  • the frequency of occurrences of characteristic events such as scene changes is measured, which makes it possible to calculate a tempo value Tv of the video sequence, preferably expressed in beats per minute (bpm).
  • a characteristic event such as a change of scene can advantageously be detected by means of a comparison of each image constituting the video with the preceding image.
  • a video sequence comprising a significant number of images per second (typically 24 to 30 images per second), the evolution between two images which immediately follow each other is normally low, except if a change of scene occurs.
  • a dominant color is determined for each image in each of several reference areas of the image, the change in dominant color within one or more reference areas between one image and the next being detected. For each area of reference of each image, a color is determined as dominant if it corresponds for example to the majority color within the reference zone.
  • each image is subdivided into a plurality of squares, each square forming a reference zone of the image.
  • each image is divided into squares of n pixels on a side, n being in particular less than 100, preferably less than 50 and for example equal to 16.
  • knowing the time value of each scene change it is possible to determine a tempo grid which corresponds as closely as possible to the scene changes, i.e. to determine one or more tempo values of the video such that scene changes occur on a beat, preferably on a downbeat.
  • a second characteristic datum generated during the analysis step 20 relates to the colors present in the video.
  • the dominant color or colors are determined within one or more zones of each image constituting the video, and characteristic data of the video is generated linked to these dominant colors (for example, light or dark colors, cold or hot, etc.)
  • a third characteristic datum generated during the analysis step 20 relates to a musical tone of the video.
  • a correspondence table between, on the one hand, shades of colors, and, on the other hand, musical tones.
  • Figure 5 shows an example of such a correspondence table, in the form of a chromatic circle 5 in which each shade of color, corresponding to one of the sectors I to XII of the chromatic circle, is uniquely associated with a musical tone.
  • the associations are as follows:
  • ctor XII the purple red color
  • a fourth characteristic datum generated during the analysis step 20 relates to the light of each image constituting the video.
  • the differences in brightness between sunlit and shaded areas are measured when analyzing the video.
  • the result of this analysis may be used to determine one or more compatibility sub-scores, as detailed below.
  • a fifth characteristic datum generated during the analysis step 20 relates to the movement of objects within the images constituting the video, and in particular to the speed of movement of these objects.
  • the analysis of the video makes it possible to detect the displacement of an object (such as the vehicle 30 or the geyser 42), and to determine the speed of this displacement.
  • the result of this analysis can be used to calculate a Tv tempo value for the video, as detailed below.
  • the result of this analysis can also be used to determine one or more compatibility subscores, as detailed below.
  • a database of audio files whose content has been analyzed beforehand, in order to generate characteristic data facilitating the subsequent association of the audio samples during the analysis step of a video.
  • the purpose of the stage of preliminary analysis of an audio sample is to generate data characteristic of this audio sample, these characteristic data allowing later to determine if this sample can be associated with a video being analyzed.
  • a first characteristic datum generated is a tempo value Ta of the audio sample, preferably expressed in bpm, or beats per minute. It is essential that the tempo value Ta calculated for an audio sample during the preliminary analysis is calculated as accurately as possible. If the audio sample considered is a piece of music, the tempo value given by known algorithms (for example by music analysis software) will not be precise enough. Indeed, conventional algorithms analyze a piece of music to detect strong beats (by analyzing in particular the variations in energy produced). However, such an analysis is by nature imprecise because the energy peak generated by a musical instrument during the production of a musical note strongly depends on the timbre of the instrument.
  • a most probable tempo value is determined by implementing an iterative determination step. For example, we take an initial value equal to the value given by a conventional algorithm, then we check whether this value corresponds with the desired precision to the tempo value of the audio sample, by detecting any shifts between this value theoretical and the beats detected in the audio sample.
  • FIG. 4 shows the result of the analysis of the tempo of an audio sample carried out in accordance with to the invention.
  • Figure 4 thus shows a succession of points representing the tempo value calculated throughout the audio sample. It is thus observed that the tempo of the piece of music to which the audio sample corresponds presents a certain number of irregularities, these irregularities being visible due to the precision of measurement of the tempo value.
  • the tempo value is determined with a precision of less than +/-0.1 bpm and preferably of the order of +/-0.01 bpm.
  • a second characteristic datum generated relates to the rhythmic structure of the audio sample, and more particularly to the structure of the measurements within the audio sample.
  • the generation of this characteristic datum makes it possible to know the number of beats constituting a measure (for example 2 beats, 3 beats, 4 beats, etc.).
  • a musical analysis algorithm is used for this (for example an algorithm of the “MIR” type for “music information retrieval”).
  • the analysis is in particular based on the principle that a bar comprising more than one beat necessarily includes one or more strong beats and one or more weak beats, and that the first beat of a bar is necessarily a strong beat.
  • the analysis aiming to detect the number of beats of a measure within a piece of music is complex, and the known algorithms generally present an average reliability.
  • this step is preferably implemented using at least three different algorithms.
  • the value retained will be the one with the majority among the results. For example, if two of the algorithms used give an identical result and the third algorithm gives a different result, then the value retained will be that given by the first two algorithms. Of course, if the three algorithms give an identical result, it is this result which will be retained.
  • a third characteristic datum generated relates to the identification of the structure of the audio sample, that is to say its temporal organization.
  • the audio sample is a piece of music
  • its structure can generally be broken down into different parts, including, for example: one or more introductory parts, one or more intermediate or central parts, and one or more final parts.
  • an audio sample E corresponding to a musical title could consist of an introductory part Ei, a central part E2 and a final part E3 or conclusion.
  • the central part E2 may be composed of a certain number of elements E20, E22, E24, E26, E28, or blocks, corresponding to musical subsets such as: one or more refrains, one or more verses, one or several bridges, etc.
  • All of the parts E1, E2, E3 and, where appropriate, of the elements E20-E28 making up these parts are analyzed and recognized.
  • the purpose of this step is to precisely determine the structure of the analyzed sample E, in order to be able, during the subsequent association and synchronization of this sample E with a video sequence V, to recombine some of the parts E1 , E2, E3 and/or some of the elements E22-E28 constituting certain parts of the audio sample E, in order to modify the duration ts.
  • This recombination makes it possible to obtain a second audio sample, or recombined audio sample ERI, of duration t2 different from the starting audio sample E, but which retains an analogous musical structure with at least an introductory part Ei, a central part E2 and a final part E3. If it is necessary to reduce the duration of the starting sample to adapt it to the duration of the video sequence, it is possible, as in the example of FIG. 6, to keep intact the introductory part E1 and the final part E3 , and reduce the duration of the central part E2 by keeping only a part of the elements (or blocks) composing it, for example by keeping only one verse and one refrain from among a set of several verses and refrains.
  • the recombined audio sample ERI comprises, in the central part, only the elements E20, E22, and E24. If one wishes to increase the duration of the starting sample, one can for example keep intact the introductory part E1 and the final part E3, and increase the duration of the central part E2 by duplicating all or part of the elements E20-E28 constituting it, which will thus amount to repeating one or more verses and/or one or more refrains and/or one or more bridges. As shown in FIG. 6, a step 25 of adaptation of the duration of the audio sample may also be provided, by locally modifying the tempo value Ta. In the example of FIG.
  • the duration of the recombined sample ERI is modified to obtain a second recombined sample ER2, whose duration ti is adjusted to that of the video sequence, by reducing the duration of the element E24 , increasing the tempo value within that Element only.
  • the tempo value of a part or of an element of a part must be modified, the tempo value of one or more adjacent elements is also modified, so as to smooth the modification of tempo value, thus making it progressive (in particular with the aim that it is difficult or not detectable by a listener).
  • one wishes to modify the tempo value of the element E24 one also modifies the tempo value of the (immediately) adjacent elements, ie in the example the elements E22 and E3.
  • the database 18 of audio files is searched for at least one, and preferably several audio samples having characteristics compatible with the characteristic data generated for the video sequence, including the tempo value Tv.
  • the database 18 of audio files is searched for at least one, and preferably several audio samples having characteristics compatible with the characteristic data generated for the video sequence, including the tempo value Tv.
  • all the audio samples whose tempo value Ta is compatible with the tempo value Tv calculated for the video are first searched for.
  • a tempo value Ta of an audio sample is evaluated as compatible if it is a multiple or a sub-multiple of the tempo value Tv calculated for the video sequence, or a multiple or a sub-multiple of a value close to this calculated tempo value Tv.
  • audio samples will present a compatible tempo value if this is equal, in particular, to 60, 120, 180 or 240 bpm.
  • audio samples will be searched on the basis of an equal or close tempo value. For example, if the video has a tempo value determined as equal to 119 bpm, we will search for audio samples compatible with a tempo value equal to or close to 119, for example between 117 and 121 bpm or corresponding to a multiple or a sub -multiple of values between 117 and 121.
  • a value representative of a compatibility score is preferably determined for each sample whose tempo value Ta is compatible.
  • the compatibility score corresponds to the sum of at least two compatibility sub-scores, each sub-score being representative of the compatibility of the audio sample considered with the video with respect to a given criterion.
  • weighting coefficients are assigned to each of the sub-scores, the sub-score corresponding to the tempo value being associated with the highest weighting coefficient.
  • the compatibility score is calculated based on the following subscores, ranked in order of preferred importance:
  • a fourth sub-score representative of the compatibility of the audio sample with respect to a musical genre assigned to the video (for example: classical, jazz, rock, etc.), the musical genre being determined by example based on the rhythm of scene changes and/or the speed of movement of objects in the video;
  • - a fifth sub-score representative of the compatibility of the audio sample with respect to a type of atmosphere assigned to the video (for example: suspense, sad, funny, etc.), for example on the based on the dominant colors present in the video (dark or light, cold or warm colors, etc.).
  • a sixth sub-score representative of the compatibility of the audio sample with respect to a musical sub-genre (for example baroque or romantic for classical music, cool jazz or be-bop jazz for jazz, etc.)
  • the audio sample having the best compatibility is selected, as described above, that is to say the audio sample E having the best compatibility score.
  • the synchronization step 23 is then implemented, during which the audio sample is synchronized with the video sequence.
  • the retained audio sample E can be modified, in particular to increase or decrease the duration of certain parts, respectively by locally decreasing or increasing the tempo value. This modification can be useful in order to very precisely match highlights of the audio sample to “highlights” of the video, such as a change of scene.
  • a step 24 for modifying the duration of the audio sample is performed. As described above, this step can be performed by recombining parts and/or parts of parts of the audio sample, either to decrease or lengthen the duration of the original audio sample.
  • the method according to the invention comprises, after the synchronization step 23, a step 26 for generating a video file containing the video sequence synchronized with the audio sample E.
  • the generated file can be transferred from the server 12 to the terminal 10, in order to be read and/or downloaded by the user.
  • the method and the system in accordance with the invention are suitable for all types of audio and video file formats, and in particular for the following formats:

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Security & Cryptography (AREA)
  • Television Signal Processing For Recording (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

The invention relates to a method for synchronizing an audio sample with a sequence of moving images, or video sequence, the method comprising the steps of: - analysing (20) the video sequence to generate characteristic data, at least one of the characteristic data generated being representative of a tempo value calculated for the video sequence; - searching (21), through an audio file database, for one or more audio files containing an audio sample featuring one or more characteristics compatible with the characteristic data generated from the video sequence, at least one of the compatible characteristics being a tempo value of the audio file in question; - selecting (22), from among the audio samples found, that audio sample which has the best compatibility with the video sequence; - synchronizing (23) the selected audio sample with the video sequence; - generating (26) a video file containing the video sequence synchronized with the selected audio sample.

Description

Procédé et système de synchronisation automatique d’un contenu vidéo et d’un contenu audio Method and system for automatic synchronization of video content and audio content
L’invention se rapporte au domaine de la réalisation d’habillages sonores pour des séquences d’images animées, ou vidéos. The invention relates to the field of the production of sound effects for sequences of animated images, or videos.
Avec le développement des plateformes d’hébergement en ligne de vidéos, et la multiplication des dispositifs portables permettant de capturer des vidéos de grande qualité (caméras numériques miniatures et téléphones portables), le nombre de vidéos créées et mises en ligne, que ce soit par des professionnels ou des amateurs, connait depuis plusieurs années une croissance exponentielle. La création d’une vidéo nécessite très souvent la création ou l’adaptation d’une bande son pour accompagner de manière appropriée les images de la vidéo. Si l’on n’est pas à-même de composer une musique pour accompagner une vidéo, la solution la plus immédiate est d’utiliser un titre musical existant dont le caractère est susceptible de correspondre au mieux au contenu de la vidéo. Toutefois, trouver un titre musical adapté peut-être très difficile puisque le créateur de la vidéo choisira généralement un titre parmi ceux qu’il connait, ce qui représentera pour la plupart des personnes un contingent de titres très limité, alors qu’on dénombre aujourd’hui près de 150 millions de titre musicaux existants. With the development of online video hosting platforms, and the proliferation of portable devices capable of capturing high quality video (miniature digital cameras and mobile phones), the number of videos created and posted online, whether by professionals or amateurs, has experienced exponential growth for several years. The creation of a video very often requires the creation or adaptation of a soundtrack to appropriately accompany the images of the video. If you are not able to compose music to accompany a video, the most immediate solution is to use an existing musical title whose character is likely to best match the content of the video. However, finding a suitable musical title can be very difficult since the creator of the video will generally choose a title among those he knows, which will represent for most people a very limited contingent of titles, whereas today there are nearly 150 million existing musical titles.
La présente invention part de la constatation que, parmi l’ensemble des titres disponibles dans les catalogues des compagnies de l’industrie musicale, qui représentent plus de 150 millions de titres, à peine 0.1 % de ces titres sont exploités et génèrent des revenus pour leurs auteurs ou ayant-droits. Une quantité considérable de titres existants se trouve donc totalement inutilisée, et de ce fait, méconnue. Or, la plupart de ces titres inutilisés présentent nécessairement des qualités et des caractéristiques les rendant susceptibles d’être utilisés pour l’habillage sonore d’une vidéo. Ainsi, moins un titre est utilisé, moins il sera connu et moins il aura de chances d’être utilisé par une personne réalisant un montage vidéo, que cette personne soit un professionnel du montage vidéo et/ou sonore ou non. The present invention is based on the observation that, among all the titles available in the catalogs of music industry companies, which represent more than 150 million titles, barely 0.1% of these titles are exploited and generate income for their authors or assigns. A considerable quantity of existing titles is therefore totally unused, and therefore unrecognized. However, most of these unused titles necessarily have qualities and characteristics that make them likely to be used for the sound design of a video. Thus, the less a title is used, the less it will be known and the less likely it will be used by a person doing video editing, whether that person is a video and/or sound editing professional or not.
En outre, pour des personnes qui ne sont pas des professionnels du montage vidéo et/ou sonore, repérer une musique adéquate pour l’habillage sonore d’une vidéo n’est pas la seule difficulté : il est ensuite nécessaire d’adapter le titre choisi à la durée de la vidéo, qui peut être très variable (alors même que la quasitotalité des titres musicaux contemporains voit leur format adapté au format radiophonique afin de ne pas diminuer les chances d’être diffusé par les radios de grande écoute, leur durée étant ainsi souvent très proche de 3 minutes), et enfin de synchroniser la musique avec la vidéo. In addition, for people who are not video and/or sound editing professionals, finding suitable music for the soundtrack of a video is not the only difficulty: it is then necessary to adapt the title chosen according to the duration of the video, which can be very variable (even though almost all contemporary musical titles see their format adapted to the format so as not to reduce the chances of being broadcast by prime time radio stations, their duration thus often being very close to 3 minutes), and finally to synchronize the music with the video.
La présente invention a pour but de proposer un procédé et un système permettant de réaliser automatiquement l’habillage d’une séquence d’images animées à partir d’une base de données contenant des fichiers audio, dont le contenu peut être par exemple des titres musicaux, des extraits de titres musicaux, des sons divers, etc. La présente invention a en outre pour but de fournir un tel procédé et un système permettant de réaliser l’habillage sonore d’une vidéo de façon très rapide, typiquement en quelques secondes. The aim of the present invention is to propose a method and a system making it possible to automatically carry out the dressing of a sequence of animated images from a database containing audio files, the content of which may for example be titles music, excerpts of musical titles, various sounds, etc. The present invention also aims to provide such a method and a system making it possible to carry out the sound dressing of a video very quickly, typically in a few seconds.
À cet effet, l’invention concerne un procédé de synchronisation d’un échantillon audio avec une séquence d’images animées, ou séquence vidéo, le procédé comportant les étapes de : To this end, the invention relates to a method for synchronizing an audio sample with a sequence of animated images, or video sequence, the method comprising the steps of:
- analyser la séquence vidéo pour générer des données caractéristiques, au moins l’une des données caractéristiques générées étant représentative d’une valeur de tempo calculée pour la séquence vidéo ;- analyzing the video sequence to generate characteristic data, at least one of the characteristic data generated being representative of a tempo value calculated for the video sequence;
- rechercher, dans une base de données de fichiers audio, un ou plusieurs fichiers audio contenant un échantillon audio présentant une ou plusieurs caractéristiques compatibles avec les données caractéristiques générées de la séquence vidéo, au moins l’une des caractéristiques compatibles étant une valeur de tempo de l’échantillon audio considéré ; - search, in a database of audio files, for one or more audio files containing an audio sample having one or more characteristics compatible with the characteristic data generated from the video sequence, at least one of the compatible characteristics being a tempo value of the audio sample considered;
- sélectionner, parmi les échantillons audios trouvés, l’échantillon audio qui présente la meilleure compatibilité avec la séquence vidéo ; - select, among the audio samples found, the audio sample which presents the best compatibility with the video sequence;
- synchroniser l’échantillon audio sélectionné avec la séquence vidéo ;- synchronize the selected audio sample with the video sequence;
- générer un fichier vidéo contenant la séquence vidéo synchronisée avec l’échantillon audio sélectionné. - generate a video file containing the video sequence synchronized with the selected audio sample.
Ainsi, le procédé conforme à l’invention permet d’associer automatiquement un fichier audio numérique contenant un échantillon audio à un fichier contenant une vidéo, et de synchroniser cet échantillon audio avec la vidéo, de façon à proposer à un utilisateur un habillage sonore adapté de cette vidéo. En détectant une valeur de tempo d’une vidéo, assimilable à la valeur de tempo d’un morceau de musique, le procédé conforme à l’invention permet de trouver très rapidement (typiquement en quelques secondes) des échantillons audios compatibles dans une base de données. La compatibilité entre la valeur de tempo affectée à la vidéo et la valeur de tempo du morceau utilisé a un effet déterminant sur la compatibilité entre l’aspect visuel et l’aspect sonore d’une vidéo, telle qu’elle sera ressentie par une personne visionnant la vidéo. Ainsi, en privilégiant le critère du tempo, le procédé conforme à l’invention permet de proposer de façon extrêmement rapide des échantillons audios compatibles avec une vidéo soumise par un utilisateur. Thus, the method in accordance with the invention makes it possible to automatically associate a digital audio file containing an audio sample with a file containing a video, and to synchronize this audio sample with the video, so as to offer a user an appropriate sound design of this video. By detecting a tempo value of a video, comparable to the tempo value of a piece of music, the method according to the invention makes it possible to find very quickly (typically in a few seconds) compatible audio samples in a database data. The compatibility between the tempo value assigned to the video and the tempo value of the song used has a decisive effect on the compatibility between the visual aspect and the sound aspect of a video, as it will be felt by a person viewing the video. Thus, by favoring the tempo criterion, the method in accordance with the invention makes it possible to offer audio samples compatible with a video submitted by a user in an extremely rapid manner.
Dans une réalisation, un échantillon audio est compatible s’il présente une valeur de tempo égale ou proche de la valeur de tempo de la séquence vidéo ou une valeur de tempo égale ou proche d’un multiple ou d’un sous-multiple de la valeur de tempo de la séquence vidéo. In one embodiment, an audio sample is compatible if it has a tempo value equal or close to the tempo value of the video sequence or a tempo value equal to or close to a multiple or a sub-multiple of the tempo value of the video sequence.
Dans une réalisation, la valeur de tempo calculée pour la séquence vidéo est déterminée par détection d’évènements caractéristiques se produisant au cours de la séquence vidéo, tels que des changements de scène. In one embodiment, the calculated tempo value for the video sequence is determined by detecting characteristic events occurring during the video sequence, such as scene changes.
Dans une réalisation, la détection d’un évènement caractéristique tel qu’un changement de scène est réalisée par analyse chromatique de chaque image de la séquence vidéo, un changement de scène étant détecté si un changement significatif de couleur est mesuré entre deux images successives. In one embodiment, the detection of a characteristic event such as a change of scene is carried out by chromatic analysis of each image of the video sequence, a change of scene being detected if a significant change in color is measured between two successive images.
Dans une réalisation, l’étape de sélectionner parmi les échantillons audios trouvés, l’échantillon audio qui présente la meilleure compatibilité avec la séquence vidéo comporte une sous-étape de calcul d’un score de compatibilité. Dans une réalisation, l’étape de synchronisation comporte une sous-étape de modification de la durée de l’échantillon audio pour l’adapter à la durée de la séquence vidéo. In one embodiment, the step of selecting from among the audio samples found, the audio sample which has the best compatibility with the video sequence includes a sub-step of calculating a compatibility score. In one embodiment, the synchronization step includes a sub-step of modifying the duration of the audio sample to adapt it to the duration of the video sequence.
Dans une réalisation, la sous-étape de modification de la durée est réalisée par recombinaison d’une ou plusieurs parties de l’échantillon audio et/ou un ou plusieurs blocs d’une partie de l’échantillon audio. In one embodiment, the duration modification sub-step is performed by recombining one or more portions of the audio sample and/or one or more blocks of a portion of the audio sample.
Dans une réalisation, la recombinaison est réalisée de sorte qu’après modification de la durée, l’échantillon audio recombiné présente une structure analogue à celle de l’échantillon audio initial, et comporte par exemple une partie introductive, suivie d’une partie centrale et d’une partie finale. In one embodiment, the recombination is carried out so that after modification of the duration, the recombined audio sample has a structure similar to that of the initial audio sample, and comprises for example an introductory part, followed by a central part and a final part.
Dans une réalisation, l’étape de synchronisation comporte une sous-étape d’adaptation de la durée d’au moins une partie de l’échantillon audio, consistant à diminuer ou augmenter localement la valeur de tempo. In one embodiment, the synchronization step includes a sub-step of adapting the duration of at least part of the audio sample, consisting in locally decreasing or increasing the tempo value.
Dans une réalisation, la sous-étape d’adaptation comporte la modification de la valeur de tempo d’au moins un bloc. In one embodiment, the adaptation sub-step includes modifying the tempo value of at least one block.
Dans une réalisation, la sous-étape d’adaptation comporte la modification de la valeur de tempo d’au moins un premier bloc et d’au moins un bloc adjacent au premier bloc, et comporte de préférence au moins la modification de la valeur de tempo du bloc précédent immédiatement le premier bloc et du bloc suivant immédiatement le premier bloc. In one embodiment, the adaptation sub-step includes modifying the tempo value of at least one first block and of at least one block adjacent to the first block, and preferably includes at least modifying the value of tempo of the block immediately preceding the first block and of the block immediately following the first block.
Dans une réalisation, les valeurs de tempo des blocs voisins des blocs adjacents au premier bloc sont également modifiées. In one embodiment, the tempo values of neighboring blocks of blocks adjacent to the first block are also modified.
Dans une réalisation, les modifications des valeurs de tempo du premier bloc et des blocs adjacents et des blocs voisins sont réalisées de façon à obtenir une variation locale de la valeur de tempo continue. In one embodiment, the modifications of the tempo values of the first block and of the adjacent blocks and of the neighboring blocks are carried out in such a way as to obtain a local variation of the continuous tempo value.
Dans une réalisation, l’étape d’analyse comprend la génération de données caractéristiques relatives à la lumière et/ou de données caractéristiques relatives aux couleurs des images de la séquence vidéo. In one embodiment, the analysis step comprises the generation of characteristic data relating to the light and/or characteristic data relating to the colors of the images of the video sequence.
Dans une réalisation, l’étape d’analyse comprend la génération de données caractéristiques relatives à la vitesse de déplacement d’objets figurant dans les images de la séquence vidéo. In one embodiment, the analysis step comprises the generation of characteristic data relating to the speed of movement of objects appearing in the images of the video sequence.
L’invention concerne également un procédé de génération d’un fichier audio numérique contenant un échantillon audio, comportant les étapes de : The invention also relates to a method for generating a digital audio file containing an audio sample, comprising the steps of:
- calculer au moins une valeur de tempo de l’échantillon audio ; - calculate at least one tempo value of the audio sample;
- générer des données relatives à une structure rythmique de l’échantillon audio, en détectant les mesures constituant l’échantillon audio, et, pour chaque mesure détectée, le nombre de temps qu’elle contient ; - generate data relating to a rhythmic structure of the audio sample, by detecting the measures constituting the audio sample, and, for each detected measure, the number of beats it contains;
- générer des données relatives à une structure musicale de l’échantillon audio, en détectant une ou plusieurs parties constituant l’échantillon audio ; - generate data relating to a musical structure of the audio sample, by detecting one or more parts constituting the audio sample;
- générer un fichier audio numérique contenant l’échantillon audio et les données générées. - generate a digital audio file containing the audio sample and the generated data.
Dans une réalisation, le calcul de la valeur de tempo est réalisé par mise en œuvre d’une étape de détermination itérative. In one embodiment, the calculation of the tempo value is carried out by implementing an iterative determination step.
Dans une réalisation, la valeur de tempo de l’échantillon audio est calculée avec une précision inférieure à +/- 0,1 battement par minute, et de préférence de l’ordre de +/- 0,01 battement par minute. In one embodiment, the tempo value of the audio sample is calculated with an accuracy of less than +/- 0.1 beats per minute, and preferably of the order of +/- 0.01 beats per minute.
Dans une réalisation, la détection des mesures constituant l’échantillon audio est réalisée par détection d’une pulsation rythmique. In one embodiment, the detection of the measures constituting the audio sample is carried out by detection of a rhythmic pulse.
Dans une réalisation, la détermination de la structure musicale est réalisée par identification d’une ou plusieurs parties parmi : In one embodiment, the determination of the musical structure is carried out by identifying one or more parts among:
- une partie introductive ; - an introductory part;
- une partie centrale ; - a central part;
- une partie finale. L’invention concerne également un procédé de synchronisation tel que défini plus haut, dans lequel les fichiers audios stockés dans la base de données ont préalablement été générés selon un procédé de génération de fichier audio conforme à celui défini ci-dessus. - a final part. The invention also relates to a synchronization method as defined above, in which the audio files stored in the database have previously been generated according to an audio file generation method in accordance with that defined above.
L’invention concerne également un produit programme d’ordinateur comportant des instructions qui, lorsque le programme est exécuté par un (ou plusieurs) processeur, conduisent celui-ci (ceux-ci) à mettre en œuvre les étapes du procédé de synchronisation tel que défini plus haut et/ou les étapes d’un procédé de génération de fichiers audios tel que défini ci-dessus. The invention also relates to a computer program product comprising instructions which, when the program is executed by one (or more) processors, lead the latter(s) to implement the steps of the synchronization method such as defined above and/or the steps of a method for generating audio files as defined above.
L’invention concerne également un système de synchronisation pour la mise en œuvre d’un procédé de synchronisation tel que défini plus haut et/ou la mise en œuvre d’un procédé de génération de fichiers audio tel que défini ci-dessus, le système comportant un terminal configuré pour transférer un fichier vidéo contenant un séquence vidéo vers un serveur, le serveur comportant une base de données de fichiers audios numériques contenant des échantillons audios et un processeur pour synchroniser la séquence vidéo transférée par le terminal avec un échantillon audio contenu dans un fichier audio stocké dans la base de données du serveur. The invention also relates to a synchronization system for implementing a synchronization method as defined above and/or implementing a method for generating audio files as defined above, the system comprising a terminal configured to transfer a video file containing a video sequence to a server, the server comprising a database of digital audio files containing audio samples and a processor for synchronizing the video sequence transferred by the terminal with an audio sample contained in an audio file stored in the server database.
La présente invention sera mieux comprise à la lecture de la description détaillée qui suit, faite en référence aux dessins annexés, dans lesquels : The present invention will be better understood on reading the following detailed description, made with reference to the accompanying drawings, in which:
[Fig. 1 ] La figure 1 est un schéma d’un système configuré pour mettre en œuvre un procédé conforme à l’invention. [Fig. 1] Figure 1 is a diagram of a system configured to implement a method according to the invention.
[Fig. 2] La figure 2 représente les étapes de mise en œuvre d’un procédé conforme à l’invention. [Fig. 2] Figure 2 represents the implementation steps of a method according to the invention.
[Fig. 3a] La figure 3a illustre une première image extraite d’une vidéo lors de l’étape d’analyse réalisée conformément au procédé conforme à l’invention.[Fig. 3a] Figure 3a illustrates a first image extracted from a video during the analysis step carried out in accordance with the method according to the invention.
[Fig. 3b] La figure 3b illustre une deuxième image extraite d’une vidéo lors de l’étape d”analyse réalisée conformément au procédé conforme à l’invention.[Fig. 3b] Figure 3b illustrates a second image extracted from a video during the analysis step carried out in accordance with the method according to the invention.
[Fig. 3c] La figure 3c illustre une troisième image extraite d’une vidéo lors de l’étape d’analyse réalisée conformément au procédé conforme à l’invention.[Fig. 3c] Figure 3c illustrates a third image extracted from a video during the analysis step carried out in accordance with the method according to the invention.
[Fig. 3d] La figure 3d illustre une troisième image extraite d’une vidéo lors de l’étape d’analyse réalisée conformément au procédé conforme à l’invention.[Fig. 3d] Figure 3d illustrates a third image extracted from a video during the analysis step carried out in accordance with the method according to the invention.
[Fig. 3e] La figure 3e illustre une troisième image extraite d’une vidéo lors de l’étape d”analyse réalisée conformément au procédé conforme à l’invention.[Fig. 3e] Figure 3e illustrates a third image extracted from a video during the analysis step carried out in accordance with the method according to the invention.
[Fig. 4] La figure 4 représente une courbe de la valeur de tempo calculée conformément à l’invention pour un échantillon audio. [Fig. 5] La figure 5 représente une table de correspondance entre différentes nuances de couleurs et des tonalités associées. [Fig. 4] FIG. 4 represents a curve of the tempo value calculated in accordance with the invention for an audio sample. [Fig. 5] Figure 5 shows a correspondence table between different shades of colors and associated tones.
[Fg. 6] La figure 6 est un schéma illustrant la mise en œuvre de l’étape de modification de la durée d’un échantillon audio. [Fig. 6] Figure 6 is a diagram illustrating the implementation of the step of modifying the duration of an audio sample.
La figure 1 représente un système de synchronisation 1 d’un échantillon audio à une séquence vidéo permettant la mise en œuvre d’un procédé de synchronisation conforme à l’invention. Le système de synchronisation 1 comporte un terminal 10, notamment un terminal local tel qu’un ordinateur ou un dispositif portable (téléphone mobile, tablette, etc.). Le terminal 10 comporte des moyens pour échanger des fichiers et des données avec un serveur 12, par exemple à travers un réseau 14 tel que le réseau Internet dans le cas d’un serveur distant. Le serveur 12 comporte un processeur 16 et une base de données 18 contenant des fichiers audios numériques, chaque ficher audio contenant un échantillon audio (tel qu’un morceau de musique) susceptible d’être associé à une séquence d’images animées, ou séquence vidéo. FIG. 1 represents a synchronization system 1 of an audio sample to a video sequence allowing the implementation of a synchronization method in accordance with the invention. The synchronization system 1 comprises a terminal 10, in particular a local terminal such as a computer or a portable device (mobile telephone, tablet, etc.). The terminal 10 comprises means for exchanging files and data with a server 12, for example through a network 14 such as the Internet network in the case of a remote server. The server 12 comprises a processor 16 and a database 18 containing digital audio files, each audio file containing an audio sample (such as a piece of music) capable of being associated with a sequence of animated images, or sequence video.
La figure 2 représente des étapes de mise en œuvre du procédé conforme à l’invention. Figure 2 shows steps for implementing the method according to the invention.
Le procédé comporte une première étape d’analyse 20 d’une séquence vidéo V, par exemple une séquence vidéo ne comportant pas de bande son soumise par un utilisateur, par exemple au moyen du terminal 10. Lors de cette étape d’analyse 20 est mise en œuvre une étape de génération de données caractéristiques de la séquence vidéo, au moins l’une de ces données caractéristiques étant représentative d’une valeur de tempo Tv. Un exemple de procédé de calcul de cette valeur de tempo Tv est détaillé plus bas. Cette étape est dans l’exemple mise en œuvre par le processeur 16 du serveur 12 de la figure 1 . The method comprises a first step 20 of analyzing a video sequence V, for example a video sequence not comprising any soundtrack submitted by a user, for example by means of the terminal 10. During this analysis step 20 is implementation of a step for generating characteristic data of the video sequence, at least one of these characteristic data being representative of a tempo value Tv. An example of the method for calculating this tempo value Tv is detailed below . This step is in the example implemented by the processor 16 of the server 12 of FIG.
Le procédé comporte ensuite une étape de recherche 21 dans une base de données de fichiers audio numériques, par exemple la base de données 18 du serveur 12. Cette étape de recherche 21 vise à trouver au moins un, et de préférence plusieurs échantillons audios compatibles avec la séquence vidéo, c’est-à-dire des échantillons audios susceptibles d’être associés de façon appropriée à la séquence vidéo soumise par l’utilisateur. À cet effet, on recherche dans la base de données 18 des échantillons audios présentant des caractéristiques compatibles avec les données caractéristiques de la séquence vidéo générées lors de l’étape d’analyse 20. Un échantillon audio sera retenu comme étant potentiellement associable à la séquence vidéo si au moins l’une des caractéristiques compatibles est une valeur de tempo Ta affectée à l’échantillon audio. The method then includes a search step 21 in a database of digital audio files, for example the database 18 of the server 12. This search step 21 aims to find at least one, and preferably several audio samples compatible with the video sequence, that is to say audio samples likely to be appropriately associated with the video sequence submitted by the user. To this end, the database 18 is searched for audio samples having characteristics compatible with the characteristic data of the video sequence generated during the analysis step 20. An audio sample will be retained as being potentially associable with the sequence video if at least one compatible characteristics is a tempo value Ta assigned to the audio sample.
Lorsque plusieurs échantillons audios ont été trouvés, on détermine, lors d’une étape de sélection 22, lequel de ces échantillons audios présente la meilleure compatibilité avec la vidéo. De préférence, on calcule, pour chaque échantillon audio, une valeur représentative d’un score de compatibilité. Ainsi, l’échantillon audio qui présente la meilleure compatibilité avec la vidéo soumise par l’utilisateur sera l’échantillon audio E dont la valeur représentative du score de compatibilité est la plus élevée. Avantageusement, le score de compatibilité correspond à la somme d’au moins deux sous-scores, chaque sous-score étant représentatif d’un degré de compatibilité de l’échantillon audio considéré avec la vidéo relativement à un critère donné. De préférence, des coefficients de pondération sont affectés à chacun des sous-scores, le sous-score correspondant à la valeur de tempo étant associé au coefficient de pondération de poids le plus élevé. When several audio samples have been found, it is determined, during a selection step 22, which of these audio samples has the best compatibility with the video. Preferably, a value representative of a compatibility score is calculated for each audio sample. Thus, the audio sample that has the best compatibility with the video submitted by the user will be the audio sample E whose value representative of the compatibility score is the highest. Advantageously, the compatibility score corresponds to the sum of at least two sub-scores, each sub-score being representative of a degree of compatibility of the audio sample considered with the video relative to a given criterion. Preferably, weighting coefficients are assigned to each of the sub-scores, the sub-score corresponding to the tempo value being associated with the highest weighting coefficient.
Lorsqu’un échantillon audio E a été sélectionné, on associe celui-ci à la séquence vidéo, lors d’une étape de synchronisation 23. Un exemple de mise en œuvre de l’étape de synchronisation 23 est décrit en détail ci-après. When an audio sample E has been selected, it is associated with the video sequence, during a synchronization step 23. An example of implementation of the synchronization step 23 is described in detail below.
Après l’étape de synchronisation 23, est mise en œuvre une étape de génération 26 d’un fichier vidéo contenant la séquence vidéo synchronisée à l’échantillon audio sélectionné. After the synchronization step 23, a step 26 of generating a video file containing the video sequence synchronized with the selected audio sample is implemented.
Les figures 3a à 3e illustrent des images extraites d’une séquence vidéo, ou séquence d’images animées. La séquence vidéo dont sont extraites ces images dure dans l’exemple 25 secondes. Figures 3a to 3e illustrate images extracted from a video sequence, or sequence of animated images. The video sequence from which these images are extracted lasts in the example 25 seconds.
La figure 3a illustre une première image extraite de la séquence vidéo, cette image apparaissant 5 secondes après le début de la séquence vidéo. Cette première image fait partie d’un sous-ensemble d’images, formant, parmi l’ensemble des images constituant la séquence vidéo, une première scène. Dans cette scène, on peut par exemple observer, au premier plan, un véhicule automobile 30 se déplaçant sur une route 32. À l’arrière-plan, on peut observer le soleil 34 illuminant l’ensemble de la scène en contre-jour ainsi qu’une ligne de crêtes formée par des massifs montagneux 36 situées à l’arrière-plan. L’illumination en contre-jour crée une zone 38 ombragée à l’arrière du véhicule 30. FIG. 3a illustrates a first image extracted from the video sequence, this image appearing 5 seconds after the start of the video sequence. This first image is part of a subset of images, forming, among the set of images constituting the video sequence, a first scene. In this scene, one can for example observe, in the foreground, a motor vehicle 30 moving on a road 32. In the background, one can observe the sun 34 illuminating the entire scene in backlight as well a line of ridges formed by mountain ranges 36 located in the background. The backlighting creates a shaded area 38 at the rear of the vehicle 30.
Les figures 3b à 3e illustrent quatre images successives extraites de la même séquence vidéo. Ces quatre images font partie d’un deuxième sous-ensemble d’images qui forme, parmi l’ensemble des images constituant la séquence vidéo, une deuxième scène. Dans cette deuxième scène, on peut observer le même véhicule 30 que celui apparaissant dans la première scène. Celui-ci est, dans les figures 3b-3e, vu de haut circulant sur une route 40. Sur l’un des bords de la route, on peut observer, au premier plan des images, l’apparition progressive d’un geyser 42. L’apparition du geyser 42 coïncide avec le déplacement du véhicule, dans le sens où le geyser est à son apogée lorsque le véhicule 30 passe devant celui-ci. Les quatre images représentées sur les figures 3b à 3e apparaissent respectivement 9, 10, 11 et 12 secondes après le début de la vidéo. On détaille ci-après l’analyse qui est faite de la vidéo dont sont extraites les images des figures 3a à 3e dans le cadre de la mise en œuvre du procédé objet de l’invention, lors de l’étape d’analyse 20. Figures 3b to 3e illustrate four successive images extracted from the same video sequence. These four images are part of a second subset of images which forms, among the set of images constituting the video sequence, a second scene. In this second scene, the same vehicle 30 as that appearing in the first scene can be observed. This is, in figures 3b-3e, seen from above traveling on a road 40. On one of the edges of the road, one can observe, in the foreground of the images, the progressive appearance of a geyser 42 The appearance of the geyser 42 coincides with the movement of the vehicle, in the sense that the geyser is at its peak when the vehicle 30 passes in front of it. The four images shown in Figures 3b to 3e appear respectively 9, 10, 11 and 12 seconds after the start of the video. The analysis that is made of the video from which the images of FIGS. 3a to 3e are extracted in the context of the implementation of the method that is the subject of the invention, during the analysis step 20, is detailed below.
Lors de l’étape d’analyse, une première donnée caractéristique générée est relative à un ou plusieurs évènements caractéristiques, tels que des changements de scène. Ainsi, lorsqu’une séquence vidéo comporte plusieurs scènes, cette caractéristique sera détectée lors de l’analyse de la séquence vidéo. Dans l’exemple des figures, la distinction entre la première scène (figure 3a) et la deuxième scène (figures 3b, 3c, 3d, 3e) est détectée. Par exemple, la détection d’un évènement caractéristique, tel qu’un changement de scène, est réalisée par comparaison de chaque image de la séquence vidéo avec l’image précédente. La comparaison est effectuée sur la base des caractéristiques chromatiques des images analysées, afin de détecter tout changement significatif entre une image donnée et l’image suivante. Ainsi, la fréquence des occurrences des évènements caractéristiques tels que des changements de scène est mesurée, ce qui permet de calculer une valeur de tempo Tv de la séquence vidéo, de préférence exprimée en battements par minute (bpm).During the analysis step, a first characteristic datum generated relates to one or more characteristic events, such as scene changes. Thus, when a video sequence includes several scenes, this characteristic will be detected during the analysis of the video sequence. In the example of the figures, the distinction between the first scene (figure 3a) and the second scene (figures 3b, 3c, 3d, 3e) is detected. For example, the detection of a characteristic event, such as a change of scene, is carried out by comparing each image of the video sequence with the previous image. The comparison is performed on the basis of the color characteristics of the analyzed images, in order to detect any significant change between a given image and the following image. Thus, the frequency of occurrences of characteristic events such as scene changes is measured, which makes it possible to calculate a tempo value Tv of the video sequence, preferably expressed in beats per minute (bpm).
Comme mentionné ci-dessus, un évènement caractéristique tel qu’un changement de scène peut avantageusement être détecté au moyen d’une comparaison de chaque image constituant la vidéo à l’image précédente. Une séquence vidéo comportant un nombre d’images par seconde significatif (typiquement 24 à 30 images par seconde), l’évolution entre deux images qui se suivent immédiatement est normalement faible, sauf si un changement de scène survient. De préférence, on détermine pour chaque image une couleur dominante dans chacune de plusieurs zones de référence de l’image, le changement de couleur dominante au sein d’une ou plusieurs zones de référence entre une image et la suivante étant détecté. Pour chaque zone de référence de chaque image, une couleur est déterminée comme dominante si elle correspondant par exemple à la couleur majoritaire au sein de la zone de référence. Lorsque d’une image donnée à l’image suivante, il est détecté que la couleur dominante change de façon significative dans une proportion importante ou majoritaire des zones de référence, alors il est déterminé que ce changement correspond à un changement de scène. De préférence, l’ensemble des zones de référence couvre entièrement chaque image analysée. À cet effet, on subdivise chaque image en une pluralité de carrés, chaque carré formant une zone de référence de l’image. Dans l’exemple, chaque image est découpée en carrés de n pixels de côté, n étant notamment inférieur à 100, de préférence inférieur 50 et par exemple égal à 16. Lorsque l’ensemble des changements de scène de la vidéo ont été détectés, il est possible de calculer une valeur de tempo Tv de la vidéo. À cet effet, connaissant la valeur de temps de chaque changement de scène, il est possible de déterminer une grille de tempo qui correspond le plus fidèlement possible aux changements de scène, c’est-à-dire de déterminer une ou plusieurs valeurs de tempo de la vidéo telles que les changements de scène surviennent sur un temps, de préférence sur un temps fort. As mentioned above, a characteristic event such as a change of scene can advantageously be detected by means of a comparison of each image constituting the video with the preceding image. A video sequence comprising a significant number of images per second (typically 24 to 30 images per second), the evolution between two images which immediately follow each other is normally low, except if a change of scene occurs. Preferably, a dominant color is determined for each image in each of several reference areas of the image, the change in dominant color within one or more reference areas between one image and the next being detected. For each area of reference of each image, a color is determined as dominant if it corresponds for example to the majority color within the reference zone. When from a given image to the following image, it is detected that the dominant color changes significantly in a large or majority proportion of the reference areas, then it is determined that this change corresponds to a change of scene. Preferably, the set of reference zones completely covers each analyzed image. To this end, each image is subdivided into a plurality of squares, each square forming a reference zone of the image. In the example, each image is divided into squares of n pixels on a side, n being in particular less than 100, preferably less than 50 and for example equal to 16. When all the scene changes of the video have been detected, it is possible to calculate a tempo value Tv of the video. For this purpose, knowing the time value of each scene change, it is possible to determine a tempo grid which corresponds as closely as possible to the scene changes, i.e. to determine one or more tempo values of the video such that scene changes occur on a beat, preferably on a downbeat.
Avantageusement, une deuxième donnée caractéristique générée lors de l’étape d’analyse 20 est relative aux couleurs présente dans la vidéo. On détermine par exemple la ou les couleurs dominantes au sein d’une ou plusieurs zones de chaque image constituant la vidéo, et l’on génère des données caractéristiques de la vidéo liées à ces couleurs dominantes (par exemple, couleurs claires ou sombre, froides ou chaudes, etc.) Advantageously, a second characteristic datum generated during the analysis step 20 relates to the colors present in the video. For example, the dominant color or colors are determined within one or more zones of each image constituting the video, and characteristic data of the video is generated linked to these dominant colors (for example, light or dark colors, cold or hot, etc.)
Avantageusement, une troisième donnée caractéristique générée lors de l’étape d’analyse 20 est relative à une tonalité musicale de la vidéo. Dans l’exemple, pour affecter une tonalité musicale à une vidéo analysée, on utilise une table de correspondance entre, d’une part, des nuances de couleurs, et, d’autre part, des tonalités musicales. La figure 5 montre un exemple d’une telle table de correspondance, sous la forme d’un cercle chromatique 5 dans lequel chaque nuance de couleur, correspondant à l’un des secteurs I à XII du cercle chromatique, est associée de façon unique à une tonalité musicale. Dans l’exemple les associations sont les suivantes : Advantageously, a third characteristic datum generated during the analysis step 20 relates to a musical tone of the video. In the example, to assign a musical key to an analyzed video, we use a correspondence table between, on the one hand, shades of colors, and, on the other hand, musical tones. Figure 5 shows an example of such a correspondence table, in the form of a chromatic circle 5 in which each shade of color, corresponding to one of the sectors I to XII of the chromatic circle, is uniquely associated with a musical tone. In the example the associations are as follows:
- la couleur magenta (secteur I) est associée la tonalité de C/Do ; - the magenta color (sector I) is associated with the key of C/Do;
- la couleur rouge (secteur II) est associée à la tonalité de G/Sol ; - the color red (sector II) is associated with the tonality of G/G;
- la couleur orange (secteur III) est associée la tonalité de D/Ré ; - la couleur jaune orangé (secteur IV) est associée à la tonalité de de A/La ;- the color orange (sector III) is associated with the key of D/D; - the orange-yellow color (sector IV) is associated with the tonality of A/La;
- la couleur jaune (secteur V) est associée la tonalité de E/mi ; - the color yellow (sector V) is associated with the tone of E/mi;
- la couleur jaune-vert (secteur VI) est associée la tonalité de B/Si ; - the yellow-green color (sector VI) is associated with the tone of B/Si;
- la couleur vert (secteur VII) est associée la tonalité de G bémol/Sol bémol ; - the color green (sector VII) is associated with the key of G flat/G flat;
- la couleur bleu-vert (secteur VIII) est associée la tonalité de D bémol/Ré bémol ; - the blue-green color (sector VIII) is associated with the key of D flat/D flat;
- la couleur Cyan (secteur IX) est associée la tonalité de A bémol/La bémol ; - the color Cyan (sector IX) is associated with the tonality of A flat/A flat;
- la couleur bleu-violet (secteur X) est associée la tonalité de E bémol/Mi bémol) - the blue-violet color (sector X) is associated with the key of E flat/E flat)
- la couleur violet (secteur XI) est associée la tonalité de B bémol/Si bémol ;- the color purple (sector XI) is associated with the key of B flat/B flat;
- la couleur violet rouge (secteur XII) est associée la tonalité de F/Fa.- the purple red color (sector XII) is associated with the tonality of F/Fa.
Avantageusement, une quatrième donnée caractéristique générée lors de l’étape d’analyse 20 est relative à la lumière de chaque image constituant la vidéo. Par exemple, dans le cas de l’image représentée sur la figure 3a, les différences de luminosité entre les zones illuminées par le soleil et les zones ombragées sont mesurées lors de l’analyse de la vidéo. Le résultat de cette analyse pourra être utilisé pour la détermination d’un ou plusieurs sous-scores de compatibilité, comme détaillé plus bas. Advantageously, a fourth characteristic datum generated during the analysis step 20 relates to the light of each image constituting the video. For example, in the case of the image shown in Figure 3a, the differences in brightness between sunlit and shaded areas are measured when analyzing the video. The result of this analysis may be used to determine one or more compatibility sub-scores, as detailed below.
Avantageusement, une cinquième donnée caractéristique générée lors de l’étape d’analyse 20 est relative au déplacement d’objets au sein des images constituant la vidéo, et notamment à la vitesse de déplacement de ces objets. Par exemple, dans les figures 3a à 3e, l’analyse de la vidéo permet de détecter le déplacement d’un objet (tel que le véhicule 30 ou le geyser 42), et de déterminer la vitesse de ce déplacement. Le résultat de cette analyse peut être utilisé pour le calcul d’une valeur de tempo Tv de la vidéo, comme détaillé plus bas. Le résultat de cette analyse peut en outre être utilisé pour la détermination d’un ou plusieurs sous-scores de compatibilité, comme détaillé plus bas. Advantageously, a fifth characteristic datum generated during the analysis step 20 relates to the movement of objects within the images constituting the video, and in particular to the speed of movement of these objects. For example, in figures 3a to 3e, the analysis of the video makes it possible to detect the displacement of an object (such as the vehicle 30 or the geyser 42), and to determine the speed of this displacement. The result of this analysis can be used to calculate a Tv tempo value for the video, as detailed below. The result of this analysis can also be used to determine one or more compatibility subscores, as detailed below.
Afin garantir la meilleure performance du système et du procédé conformes à l’invention, il est préférable de disposer d’une base de données de fichiers audios dont le contenu a été préalablement analysé, afin de générer des données caractéristiques facilitant l’association ultérieure des échantillons audios lors de l’étape d’analyse d’une vidéo. L’étape d’analyse préalable d’un échantillon audio a pour but de générer des données caractéristiques de cet échantillon audio, ces données caractéristiques permettant ultérieurement de déterminer si cet échantillon peut être associé à une vidéo en cours d’analyse. In order to guarantee the best performance of the system and of the method in accordance with the invention, it is preferable to have a database of audio files whose content has been analyzed beforehand, in order to generate characteristic data facilitating the subsequent association of the audio samples during the analysis step of a video. The purpose of the stage of preliminary analysis of an audio sample is to generate data characteristic of this audio sample, these characteristic data allowing later to determine if this sample can be associated with a video being analyzed.
Une première donnée caractéristique générée est une valeur de tempo Ta de l’échantillon audio, de préférence exprimé en bpm, ou battements par minute. Il est primordial que la valeur de tempo Ta calculée pour un échantillon audio lors de l’analyse préliminaire soit calculée de la manière la plus précise possible. Si l’échantillon audio considéré est un morceau de musique, la valeur de tempo donné par les algorithmes connus (par exemple par les logiciels d’analyse musicale) ne sera pas assez précise. En effet, les algorithmes conventionnels analysent un morceau de musique pour détecter des temps forts (en analysant notamment les variations d’énergie produite). Or, une telle analyse est par nature imprécise car le pic d’énergie généré par un instrument de musique lors de la production d’une note de musique dépend fortement du timbre de l’instrument. Ainsi, lorsque plusieurs instruments sont joués ensemble de façon à produire simultanément une note, les pics d’énergie produits par chacun des instruments ne coïncideront pas si l’on mesure avec un grand niveau de précision (par exemple au niveau de la milliseconde). Afin de pouvoir calculer une valeur de tempo qui soit suffisamment précise pour permettre la mise en œuvre du procédé objet de l’invention, on détermine une valeur de tempo la plus probable en mettant en œuvre une étape de détermination itérative. Par exemple, on prend une valeur initiale égale à la valeur donnée par un algorithme classique, puis l’on vérifie si cette valeur correspond avec la précision voulue à la valeur de tempo de l’échantillon audio, en détectant les décalages éventuels entre cette valeur théorique et les temps détectés dans l’échantillon audio. La valeur de tempo pouvant varier au cours d’un échantillon audio, on réalise un grille de valeur de tempo telle que celle représentée à la figure 4. La figure 4 montre le résultat de l’analyse du tempo d’un échantillon audio réalisée conformément à l’invention. La figure 4 montre ainsi une succession de points représentant la valeur de tempo calculée tout au long de l’échantillon audio. On observe ainsi que le tempo du morceau de musique auquel correspond l’échantillon audio présente un certain nombre d’irrégularités, ces irrégularités étant visibles du fait de la précision de mesure de la valeur de tempo. De préférence, la valeur de tempo est déterminée avec une précision inférieure à +/-0,1 bpm et de préférence de l’ordre +/- 0,01 bpm. A first characteristic datum generated is a tempo value Ta of the audio sample, preferably expressed in bpm, or beats per minute. It is essential that the tempo value Ta calculated for an audio sample during the preliminary analysis is calculated as accurately as possible. If the audio sample considered is a piece of music, the tempo value given by known algorithms (for example by music analysis software) will not be precise enough. Indeed, conventional algorithms analyze a piece of music to detect strong beats (by analyzing in particular the variations in energy produced). However, such an analysis is by nature imprecise because the energy peak generated by a musical instrument during the production of a musical note strongly depends on the timbre of the instrument. Thus, when several instruments are played together so as to simultaneously produce a note, the energy peaks produced by each of the instruments will not coincide if we measure with a high level of precision (for example at the level of a millisecond). In order to be able to calculate a tempo value which is sufficiently precise to allow the implementation of the method which is the subject of the invention, a most probable tempo value is determined by implementing an iterative determination step. For example, we take an initial value equal to the value given by a conventional algorithm, then we check whether this value corresponds with the desired precision to the tempo value of the audio sample, by detecting any shifts between this value theoretical and the beats detected in the audio sample. Since the tempo value can vary during an audio sample, a tempo value grid is produced such as that represented in FIG. 4. FIG. 4 shows the result of the analysis of the tempo of an audio sample carried out in accordance with to the invention. Figure 4 thus shows a succession of points representing the tempo value calculated throughout the audio sample. It is thus observed that the tempo of the piece of music to which the audio sample corresponds presents a certain number of irregularities, these irregularities being visible due to the precision of measurement of the tempo value. Preferably, the tempo value is determined with a precision of less than +/-0.1 bpm and preferably of the order of +/-0.01 bpm.
Une deuxième donnée caractéristique générée est relative à la structure rythmique de l’échantillon audio, et plus particulièrement à la structure des mesures au sein de l’échantillon audio. La génération de cette donnée caractéristique permet de connaître le nombre de temps constituant une mesure (par exemple 2 temps, 3 temps, 4 temps, etc.). On utilise pour cela un algorithme d’analyse musicale (par exemple un algorithme de type « MIR » pour « music information retrieval »). L’analyse est notamment basée sur le principe qu’une mesure comportant plus d’un temps comporte nécessairement un ou plusieurs temps forts et un ou plusieurs temps faibles, et que le premier temps d’une mesure est obligatoirement un temps fort. L’analyse visant à détecter le nombre de temps d’une mesure au sein d’un morceau de musique est complexe, et les algorithmes connus présentent généralement une fiabilité moyenne. Afin d’améliorer la fiabilité de la détection, cette étape est de préférence mise en œuvre en utilisant au moins trois algorithmes différents. Ainsi, si les résultats fournis par les algorithmes diffèrent, la valeur retenue sera celle qui est majoritaire parmi les résultats. Par exemple, si deux des algorithmes utilisés donnent un résultat identique et que le troisième algorithme donne un résultat différent, alors la valeur retenue sera celle donnée par les deux premiers algorithmes. Bien entendu, si les trois algorithmes donnent un résultat identique, c’est ce résultat qui sera retenu. A second characteristic datum generated relates to the rhythmic structure of the audio sample, and more particularly to the structure of the measurements within the audio sample. The generation of this characteristic datum makes it possible to know the number of beats constituting a measure (for example 2 beats, 3 beats, 4 beats, etc.). A musical analysis algorithm is used for this (for example an algorithm of the “MIR” type for “music information retrieval”). The analysis is in particular based on the principle that a bar comprising more than one beat necessarily includes one or more strong beats and one or more weak beats, and that the first beat of a bar is necessarily a strong beat. The analysis aiming to detect the number of beats of a measure within a piece of music is complex, and the known algorithms generally present an average reliability. In order to improve the reliability of the detection, this step is preferably implemented using at least three different algorithms. Thus, if the results provided by the algorithms differ, the value retained will be the one with the majority among the results. For example, if two of the algorithms used give an identical result and the third algorithm gives a different result, then the value retained will be that given by the first two algorithms. Of course, if the three algorithms give an identical result, it is this result which will be retained.
Une troisième donnée caractéristique générée est relative à l’identification de la structure de l’échantillon audio, c’est-à-dire son organisation temporelle. Lorsque l’échantillon audio est un morceau de musique, sa structure pourra généralement être décomposée en différentes parties, parmi lesquels, par exemple : une ou plusieurs parties introductives, une ou plusieurs parties intermédiaires ou centrales, et une ou plusieurs parties finales. Par exemple, comme montré sur la figure 6, un échantillon audio E correspondant à un titre musical pourra être constitué d’une partie introductive Ei, d’une partie centrale E2 et d’une partie finale E3 ou conclusion. La partie centrale E2 pourra être composée d’un certain nombre d’éléments E20, E22, E24, E26, E28, ou blocs, correspondant à des sous-ensembles musicaux tels que : un ou plusieurs refrains, un ou plusieurs couplets, un ou plusieurs ponts, etc. L’ensemble des parties E1 , E2, E3 et, le cas échéant, des éléments E20-E28 composant ces parties est analysé et reconnu. Le but de cette étape est de déterminer précisément la structure de l’échantillon E analysé, afin d’être en mesure, lors de l’association et la synchronisation ultérieures de cet échantillon E à une séquence vidéo V, de recombiner certaines des parties E1 , E2, E3 et/ou certains des éléments E22- E28 constituant certaines parties de l’échantillon audio E, afin d’en modifier la durée ts. Cette recombinaison permet d’obtenir un deuxième échantillon audio, ou échantillon audio recombiné ERI , de durée t2 différente de l’échantillon audio E de départ, mais qui conserve une structure musicale analogue avec au moins une partie introductive Ei, une partie centrale E2 et une partie finale E3. Si l’on doit diminuer la durée de l’échantillon de départ pour l’adapter à la durée de la séquence vidéo, on pourra, comme dans l’exemple de la figure 6, conserver intactes la partie introductive E1 et la partie finale E3, et diminuer la durée de la partie centrale E2 en ne conservant qu’une partie des éléments (ou blocs) la composant, par exemple en ne conservant qu’un seul couplet et un seul refrain parmi un ensemble de plusieurs couplets et refrains. Dans l’exemple l’échantillon audio recombiné ERI comporte, dans la partie centrale, uniquement les éléments E20, E22, et E24. Si l’on souhaite augmenter la durée de l’échantillon de départ, on pourra par exemple conserver intactes la partie introductive E1 et la partie finale E3, et augmenter la durée de la partie centrale E2 en dupliquant tout ou partie des éléments E20-E28 la constituant, ce qui reviendra ainsi à répéter un ou plusieurs couplets et/ou un ou plusieurs refrains et/ou un ou plusieurs ponts. Comme montré sur la figure 6, on pourra également prévoir une étape d’adaptation 25 de la durée de l’échantillon audio, en modifiant localement la valeur de tempo Ta. Dans l’exemple de la figure 6, la durée de l’échantillon recombiné ERI est modifiée pour obtenir un deuxième échantillon recombiné ER2, dont la durée ti est ajustée à celle de la séquence vidéo, par diminution de la durée de l’élément E24, en augmentant la valeur de tempo au sein de cet élément uniquement. Avantageusement, lorsque la valeur de tempo d’une partie ou d’un élément d’une partie doit être modifiée, on modifie également la valeur de tempo d’un ou plusieurs éléments adjacents, de façon à lisser la modification de valeur de tempo, rendant ainsi celle-ci progressive (notamment dans le but que celle-ci soit difficilement ou non décelable par un auditeur). Par exemple, lorsqu’on souhaite modifier la valeur de tempo de l’élément E24, on modifie également la valeur de tempo des éléments (immédiatement) adjacents, soit dans l’exemple les éléments E22 et E3. Ainsi, si l’on souhaite augmenter la valeur de tempo d’un élément (ici l’élément E24), on augmentera également, de préférence dans une moindre proportion, la valeur de tempo de l’élément précédent immédiatement (ici l’élément E22) cet élément, et l’on augmentera, de préférence dans une moindre proportion, la valeur de tempo de l’élément suivant immédiatement (ici l’élément E3) cet élément. Ainsi, la valeur de tempo augmentera par rapport à la valeur d’origine à partir de l’élément précédent E22, atteindra un maximum local au sein de l’élément modifié E24, puis diminuera à partir de l’élément suivant E3 pour atteindre la valeur d’origine. Inversement si l’on souhaite diminuer la valeur de tempo d’un élément (ici l’élément E24), on diminuera également, de préférence dans une moindre proportion, la valeur de tempo de l’élément précédent immédiatement (ici l’élément E22) cet élément, et l’on diminuera, de préférence dans une moindre proportion, la valeur de tempo de l’élément suivant immédiatement (ici l’élément E3) cet élément. Si nécessaire, pour obtenir un lissage et une progressivité de la modification de valeur de tempo qui soient satisfaisants, on pourra en outre modifier la valeur de tempo des éléments voisins des éléments adjacents, Par exemple, pour modifier la valeur de tempo de l’élément de l’élément E22, on pourra modifier les valeurs de tempo des éléments E1 , E20 et E24, E3. La variation de tempo sera ainsi croissante lorsque l’on se rapproche de l’élément objet principal de la modification (ici l’élément E22), et sera décroissante lorsque l’on s’éloigne de cet élément. Avantageusement, la sous-étape 25 sera mise en œuvre de manière que la variation de tempo suive une courbe continue ou quasi-continue. A third characteristic datum generated relates to the identification of the structure of the audio sample, that is to say its temporal organization. When the audio sample is a piece of music, its structure can generally be broken down into different parts, including, for example: one or more introductory parts, one or more intermediate or central parts, and one or more final parts. For example, as shown in FIG. 6, an audio sample E corresponding to a musical title could consist of an introductory part Ei, a central part E2 and a final part E3 or conclusion. The central part E2 may be composed of a certain number of elements E20, E22, E24, E26, E28, or blocks, corresponding to musical subsets such as: one or more refrains, one or more verses, one or several bridges, etc. All of the parts E1, E2, E3 and, where appropriate, of the elements E20-E28 making up these parts are analyzed and recognized. The purpose of this step is to precisely determine the structure of the analyzed sample E, in order to be able, during the subsequent association and synchronization of this sample E with a video sequence V, to recombine some of the parts E1 , E2, E3 and/or some of the elements E22-E28 constituting certain parts of the audio sample E, in order to modify the duration ts. This recombination makes it possible to obtain a second audio sample, or recombined audio sample ERI, of duration t2 different from the starting audio sample E, but which retains an analogous musical structure with at least an introductory part Ei, a central part E2 and a final part E3. If it is necessary to reduce the duration of the starting sample to adapt it to the duration of the video sequence, it is possible, as in the example of FIG. 6, to keep intact the introductory part E1 and the final part E3 , and reduce the duration of the central part E2 by keeping only a part of the elements (or blocks) composing it, for example by keeping only one verse and one refrain from among a set of several verses and refrains. In the example, the recombined audio sample ERI comprises, in the central part, only the elements E20, E22, and E24. If one wishes to increase the duration of the starting sample, one can for example keep intact the introductory part E1 and the final part E3, and increase the duration of the central part E2 by duplicating all or part of the elements E20-E28 constituting it, which will thus amount to repeating one or more verses and/or one or more refrains and/or one or more bridges. As shown in FIG. 6, a step 25 of adaptation of the duration of the audio sample may also be provided, by locally modifying the tempo value Ta. In the example of FIG. 6, the duration of the recombined sample ERI is modified to obtain a second recombined sample ER2, whose duration ti is adjusted to that of the video sequence, by reducing the duration of the element E24 , increasing the tempo value within that Element only. Advantageously, when the tempo value of a part or of an element of a part must be modified, the tempo value of one or more adjacent elements is also modified, so as to smooth the modification of tempo value, thus making it progressive (in particular with the aim that it is difficult or not detectable by a listener). For example, when one wishes to modify the tempo value of the element E24, one also modifies the tempo value of the (immediately) adjacent elements, ie in the example the elements E22 and E3. Thus, if you wish to increase the tempo value of an element (here element E24), you will also increase, preferably in a lesser proportion, the tempo value of the immediately preceding element (here element E22) this element, and we will increase, preferably in a lesser proportion, the tempo value of the element immediately following (here the element E3) this element. So the tempo value will increase from the original value from the previous element E22, will reach a local maximum within the modified element E24, then will decrease from the following element E3 to reach the original value. Conversely, if you want to decrease the tempo value of an element (here element E24), you will also decrease, preferably in a lesser proportion, the tempo value of the immediately preceding element (here element E22 ) this element, and the tempo value of the element immediately following (here the element E3) this element will be reduced, preferably to a lesser extent. If necessary, to obtain satisfactory smoothing and progressiveness of the modification of the tempo value, it is also possible to modify the tempo value of the neighboring elements of the adjacent elements, For example, to modify the tempo value of the element of element E22, you can modify the tempo values of elements E1, E20 and E24, E3. The variation in tempo will thus increase when approaching the main object of the modification (here element E22), and will decrease when moving away from this element. Advantageously, sub-step 25 will be implemented so that the tempo variation follows a continuous or quasi-continuous curve.
On décrit ci-après plus en détail les possibilités de mise en œuvre de l’étape de recherche 21 d’échantillons audios compatibles avec une séquence vidéo. Lors de cette étape, on recherche, dans la base de données 18 de fichiers audios, au moins un, et de préférence plusieurs échantillons audios présentant des caractéristiques compatibles avec les données caractéristiques générées pour la séquence vidéo, parmi lesquelles la valeur de tempo Tv. De préférence, on recherche en premier lieu tous les échantillons audios dont la valeur de tempo Ta est compatible avec la valeur de tempo Tv calculée pour la vidéo. Une valeur de tempo Ta d’un échantillon audio est évaluée comme compatible si elle est un multiple ou un sous-multiple de la valeur de tempo Tv calculée pour la séquence vidéo, ou un multiple ou un sous-multiple d’une valeur proche de cette valeur de tempo Tv calculée. Par exemple, si la valeur de tempo Tv calculée pour la séquence vidéo analysée est égale à 120 battements par minute (bpm), alors des échantillons audios présenteront une valeur de tempo compatible si celle-ci est égale, notamment, à 60, 120, 180 ou 240 bpm. De préférence, on cherchera des échantillons audios sur la base d’une valeur de tempo égale ou proche. Par exemple, si la vidéo présente une valeur tempo déterminée comme égale à 119 bpm, on recherchera des échantillons audios compatibles avec une valeur de tempo égale ou proche de 119, par exemple comprise entre 117 et 121 bpm ou correspondant à un multiple ou un sous-multiple des valeurs comprises entre 117 et 121. Ainsi, on recherchera des échantillons audios ayant une valeur de tempo compatible avec une valeur de tempo située dans une plage de +/- 5% autour de la valeur de tempo Tv de la vidéo, et de préférence dans une plage de +/- 3% autour de cette valeur. Pour déterminer une valeur de tempo d’échantillon audio à rechercher préférentiellement parmi les valeurs correspondant aux multiples et sous-multiples de la valeur de tempo Tv de la vidéo, on pourra utiliser d’autres données caractéristiques, telles que la vitesse des objets mentionnée plus haut. The possibilities of implementing the search step 21 for audio samples compatible with a video sequence are described below in more detail. During this step, the database 18 of audio files is searched for at least one, and preferably several audio samples having characteristics compatible with the characteristic data generated for the video sequence, including the tempo value Tv. Preferably, all the audio samples whose tempo value Ta is compatible with the tempo value Tv calculated for the video are first searched for. A tempo value Ta of an audio sample is evaluated as compatible if it is a multiple or a sub-multiple of the tempo value Tv calculated for the video sequence, or a multiple or a sub-multiple of a value close to this calculated tempo value Tv. For example, if the tempo value Tv calculated for the analyzed video sequence is equal to 120 beats per minute (bpm), then audio samples will present a compatible tempo value if this is equal, in particular, to 60, 120, 180 or 240 bpm. Preferably, audio samples will be searched on the basis of an equal or close tempo value. For example, if the video has a tempo value determined as equal to 119 bpm, we will search for audio samples compatible with a tempo value equal to or close to 119, for example between 117 and 121 bpm or corresponding to a multiple or a sub -multiple of values between 117 and 121. Thus, we will look for audio samples having a tempo value compatible with a tempo value located in a range of +/- 5% around the tempo value Tv of the video, and preferably in a range of +/- 3% around this value. To determine an audio sample tempo value to be sought preferentially among the values corresponding to the multiples and sub-multiples of the tempo value Tv of the video, it is possible to use other characteristic data, such as the speed of the objects mentioned above high.
Pour déterminer quels échantillons audios présentent la meilleure compatibilité, on détermine de préférence, pour chaque échantillon dont la valeur de tempo Ta est compatible, une valeur représentative d’un score de compatibilité. De préférence, le score de compatibilité correspond à la somme d’au moins deux sous-scores de compatibilité, chaque sous-score étant représentatif de la compatibilité de l’échantillon audio considéré avec la vidéo relativement à un critère donné. De préférence, des coefficients de pondération sont affectés à chacun des sous-scores, le sous-score correspondant à la valeur de tempo étant associé au coefficient de pondération de poids le plus élevé. To determine which audio samples have the best compatibility, a value representative of a compatibility score is preferably determined for each sample whose tempo value Ta is compatible. Preferably, the compatibility score corresponds to the sum of at least two compatibility sub-scores, each sub-score being representative of the compatibility of the audio sample considered with the video with respect to a given criterion. Preferably, weighting coefficients are assigned to each of the sub-scores, the sub-score corresponding to the tempo value being associated with the highest weighting coefficient.
Dans l’exemple, le score de compatibilité est calculé sur la base des sous-scores suivants, classés par ordre d’importance préférentiel : In the example, the compatibility score is calculated based on the following subscores, ranked in order of preferred importance:
- un premier sous-score, représentatif de la compatibilité de l’échantillon audio vis-à-vis de la valeur de tempo affectée à la vidéo ; - a first sub-score, representing the compatibility of the audio sample with respect to the tempo value assigned to the video;
- un deuxième sous-score, représentatif de la compatibilité de l’échantillon audio vis-à-vis des couleurs présentes dans la vidéo ; - a second sub-score, representative of the compatibility of the audio sample with respect to the colors present in the video;
- un troisième sous-score, représentatif de la compatibilité de l’échantillon audio vis-à-vis d’une tonalité musicale affectée à la vidéo ; - a third sub-score, representing the compatibility of the audio sample with respect to a musical key assigned to the video;
- un quatrième sous-score, représentatif de la compatibilité de l’échantillon audio vis-à-vis d’un genre musical affecté à la vidéo (par exemple : classique, jazz, rock, etc.), le genre musical étant déterminé par exemple sur la base du rythme des changements de scène et/ou de la vitesse de déplacement des objets dans la vidéo ; - a fourth sub-score, representative of the compatibility of the audio sample with respect to a musical genre assigned to the video (for example: classical, jazz, rock, etc.), the musical genre being determined by example based on the rhythm of scene changes and/or the speed of movement of objects in the video;
- un cinquième sous-score, représentatif de la compatibilité de l’échantillon audio vis-à-vis d’un type d’ambiance affecté à la vidéo (par exemple : suspense, triste, drôle, etc.), par exemple sur la base des couleurs dominantes présentes dans la vidéo (couleurs sombres ou claires, froides ou chaudes, etc.). - un sixième sous-score, représentatif de la compatibilité de l’échantillon audio vis-à-vis d’un sous-genre musical (par exemple baroque ou romantique pour la musique classique, jazz cool ou jazz be-bop pour le jazz, etc.) - a fifth sub-score, representative of the compatibility of the audio sample with respect to a type of atmosphere assigned to the video (for example: suspense, sad, funny, etc.), for example on the based on the dominant colors present in the video (dark or light, cold or warm colors, etc.). - a sixth sub-score, representative of the compatibility of the audio sample with respect to a musical sub-genre (for example baroque or romantic for classical music, cool jazz or be-bop jazz for jazz, etc.)
Lorsque plusieurs échantillons audios compatibles avec la séquence vidéo ont été trouvés, on sélectionne, comme décrit plus haut l’échantillon audio présentant la meilleure compatibilité, c’est-à-dire l’échantillon audio E présentant le meilleur score de compatibilité. When several audio samples compatible with the video sequence have been found, the audio sample having the best compatibility is selected, as described above, that is to say the audio sample E having the best compatibility score.
On met ensuite en œuvre l’étape de synchronisation 23, durant laquelle on synchronise l’échantillon audio à la séquence vidéo. Si nécessaire, lors de l’étape de synchronisation, l’échantillon audio E retenu peut être modifié, notamment pour augmenter ou diminuer la durée de certaines parties, respectivement en diminuant ou en augmentant localement la valeur de tempo. Cette modification peut être utile afin de caler de manière très précise des temps forts de l’échantillon audio sur des « temps forts » de la vidéo, tels qu’un changement de scène. Si la durée de l’échantillon audio doit être adaptée, par exemple parce que la durée de la vidéo est significativement inférieure à la durée de l’échantillon audio retenu comme étant le meilleur candidat, une étape de modification 24 de la durée de l’échantillon audio est réalisée. Ainsi que décrit plus haut, cette étape peut être réalisée en recombinant des parties et/ou des éléments de parties de l’échantillon audio, que ce soit pour diminuer ou allonger la durée de l’échantillon audio de départ. The synchronization step 23 is then implemented, during which the audio sample is synchronized with the video sequence. If necessary, during the synchronization step, the retained audio sample E can be modified, in particular to increase or decrease the duration of certain parts, respectively by locally decreasing or increasing the tempo value. This modification can be useful in order to very precisely match highlights of the audio sample to “highlights” of the video, such as a change of scene. If the duration of the audio sample must be adapted, for example because the duration of the video is significantly less than the duration of the audio sample selected as being the best candidate, a step 24 for modifying the duration of the audio sample is performed. As described above, this step can be performed by recombining parts and/or parts of parts of the audio sample, either to decrease or lengthen the duration of the original audio sample.
Le procédé conforme à l’invention comporte après l’étape de synchronisation 23 une étape de génération 26 d’un fichier vidéo contenant la séquence vidéo synchronisée avec l’échantillon audio E. Le fichier généré peut être transféré depuis le serveur 12 vers le terminal 10, afin d’être lu et/ou téléchargé par l’utilisateur. Le procédé et le système conformes à l’invention sont adaptés à tous types de format de fichiers audios et vidéos, et notamment aux formats suivants : The method according to the invention comprises, after the synchronization step 23, a step 26 for generating a video file containing the video sequence synchronized with the audio sample E. The generated file can be transferred from the server 12 to the terminal 10, in order to be read and/or downloaded by the user. The method and the system in accordance with the invention are suitable for all types of audio and video file formats, and in particular for the following formats:
- format de fichiers audios vidéos : Mp4, AVI, MPEG, Mov, m4v, mkv, wmv, webm, etc. ; - video audio file format: Mp4, AVI, MPEG, Mov, m4v, mkv, wmv, webm, etc. ;
- format de fichier audios: m4a, mp3, wav, flac, aiff, etc. - audios file format: m4a, mp3, wav, flac, aiff, etc.
On a décrit ci-dessus la mise en œuvre du procédé conforme à l’invention avec une séquence vidéo ne comportant pas de son. Bien entendu si la séquence vidéo initiale est associée à une bande son, l’étape de synchronisation sera précédée d’une étape préalable de suppression de la bande son. The implementation of the method according to the invention has been described above with a video sequence comprising no sound. Of course, if the initial video sequence is associated with a soundtrack, the synchronization step will be preceded by a preliminary step of removing the soundtrack.

Claims

REVENDICATIONS
1. Procédé de synchronisation d’un échantillon audio avec une séquence d’images animées, ou séquence vidéo, le procédé comportant les étapes de : 1. Method of synchronizing an audio sample with a sequence of moving images, or video sequence, the method comprising the steps of:
- analyser (20) la séquence vidéo pour générer des données caractéristiques, au moins l’une des données caractéristiques générées étant représentative d’une valeur de tempo (Tv) calculée pour la séquence vidéo ; - analyzing (20) the video sequence to generate characteristic data, at least one of the characteristic data generated being representative of a tempo value (Tv) calculated for the video sequence;
- rechercher (21 ), dans une base de données de fichiers audio, un ou plusieurs fichiers audio contenant un échantillon audio présentant une ou plusieurs caractéristiques compatibles avec les données caractéristiques générées de la séquence vidéo, au moins l’une des caractéristiques compatibles étant une valeur de tempo (Ta) de l’échantillon audio considéré ; - searching (21), in a database of audio files, for one or more audio files containing an audio sample having one or more characteristics compatible with the characteristic data generated from the video sequence, at least one of the compatible characteristics being a tempo value (Ta) of the audio sample considered;
- sélectionner (22), parmi les échantillons audios trouvés, l’échantillon audio qui présente la meilleure compatibilité avec la séquence vidéo ;- selecting (22), from among the audio samples found, the audio sample which has the best compatibility with the video sequence;
- synchroniser (23) l’échantillon audio sélectionné avec la séquence vidéo ;- synchronizing (23) the selected audio sample with the video sequence;
- générer (26) un fichier vidéo contenant la séquence vidéo synchronisée avec l’échantillon audio sélectionné. - generating (26) a video file containing the video sequence synchronized with the selected audio sample.
2. Procédé selon la revendication précédente, dans lequel un échantillon audio est compatible s’il présente une valeur de tempo (Ta) égale ou proche de la valeur de tempo (Tv) de la séquence vidéo ou une valeur de tempo égale ou proche d’un multiple ou d’un sous-multiple de la valeur de tempo de la séquence vidéo. 2. Method according to the preceding claim, in which an audio sample is compatible if it has a tempo value (Ta) equal to or close to the tempo value (Tv) of the video sequence or a tempo value equal to or close to 'a multiple or sub-multiple of the tempo value of the video sequence.
3. Procédé selon l’une des revendications précédentes, dans lequel la valeur de tempo (Tv) calculée pour la séquence vidéo est déterminée par détection d’évènements caractéristiques se produisant au cours de la séquence vidéo, tels que des changements de scène. 3. Method according to one of the preceding claims, in which the tempo value (Tv) calculated for the video sequence is determined by detecting characteristic events occurring during the video sequence, such as scene changes.
4. Procédé selon la revendication précédente, dans lequel la détection d’un évènement caractéristique tel qu’un changement de scène est réalisée par analyse chromatique de chaque image de la séquence vidéo, un changement de scène étant détecté si un changement significatif de couleur est mesuré entre deux images successives. 4. Method according to the preceding claim, in which the detection of a characteristic event such as a change of scene is carried out by chromatic analysis of each image of the video sequence, a change of scene being detected if a significant change in color is measured between two successive images.
5. Procédé selon l’une des revendications précédentes, dans lequel l’étape de sélectionner parmi les échantillons audios trouvés, l’échantillon audio qui présente la meilleure compatibilité avec la séquence vidéo comporte une sous- étape de calcul d’un score de compatibilité. 5. Method according to one of the preceding claims, in which the step of selecting from among the audio samples found, the audio sample which has the best compatibility with the video sequence includes a sub-step for calculating a compatibility score.
6. Procédé selon l’une des revendications précédentes, dans lequel l’étape de synchronisation (23) comporte une sous-étape de modification de la durée (24) de l’échantillon audio (E) pour l’adapter à la durée de la séquence vidéo. 6. Method according to one of the preceding claims, in which the synchronization step (23) comprises a sub-step of modifying the duration (24) of the audio sample (E) to adapt it to the duration of the video sequence.
7. Procédé selon la revendication précédentes, dans lequel la sous-étape de modification de la durée (24) est réalisée par recombinaison d’une ou plusieurs parties (Ei , E2, E3) de l’échantillon audio (E) et/ou un ou plusieurs blocs (E20, E22, E24, E26, E28) d’une partie de l’échantillon audio. 7. Method according to the preceding claim, in which the duration modification sub-step (24) is carried out by recombining one or more parts (Ei, E2, E3) of the audio sample (E) and/or one or more blocks (E20, E22, E24, E26, E28) of part of the audio sample.
8. Procédé selon la revendications précédente, dans lequel la recombinaison est réalisée de sorte qu’après modification de la durée, l’échantillon audio recombiné (ERI) présente une structure analogue à celle de l’échantillon audio (E) initial, et comporte par exemple une partie introductive (E1), suivie d’une partie centrale (E2) et d’une partie finale (E3). 8. Method according to the preceding claim, in which the recombination is carried out so that after modification of the duration, the recombined audio sample (ERI) has a structure similar to that of the initial audio sample (E), and comprises for example an introductory part (E1), followed by a central part (E2) and a final part (E3).
9. Procédé selon l’une des revendications précédentes, dans lequel l’étape de synchronisation (23) comporte une sous-étape d’adaptation (25) de la durée d’au moins une partie (E2) de l’échantillon audio, consistant à diminuer ou augmenter localement la valeur de tempo (Ta). 9. Method according to one of the preceding claims, in which the synchronization step (23) comprises a sub-step of adaptation (25) of the duration of at least a part (E2) of the audio sample, consisting of locally decreasing or increasing the tempo value (Ta).
10. Procédé selon la revendication précédente, dans lequel la sous-étape d’adaptation (25) comporte la modification de la valeur de tempo d’au moins un bloc (E24). 10. Method according to the preceding claim, in which the adaptation sub-step (25) comprises modifying the tempo value of at least one block (E24).
11 . Procédé selon la revendication précédente, dans lequel la sous-étape d’adaptation (25) comporte la modification de la valeur de tempo d’au moins un premier bloc (E24) et d’au moins un bloc (E22, E3) adjacent au premier bloc (E24), et comporte de préférence au moins la modification de la valeur de tempo du bloc (E22) précédent immédiatement le premier bloc (E24) et du bloc (E3) suivant immédiatement le premier bloc. 11 . Method according to the preceding claim, in which the adaptation sub-step (25) comprises the modification of the tempo value of at least one first block (E24) and of at least one block (E22, E3) adjacent to the first block (E24), and preferably includes at least the modification of the tempo value of the block (E22) immediately preceding the first block (E24) and of the block (E3) immediately following the first block.
12. Procédé selon la revendication précédente, dans lequel les valeurs de tempo des blocs voisins (E1, E20) des blocs adjacents (E22, E3) au premier bloc (E24) sont également modifiées. 12. Method according to the preceding claim, in which the tempo values of the neighboring blocks (E1, E20) of the adjacent blocks (E22, E3) to the first block (E24) are also modified.
13. Procédé selon l’une des revendications 11 et 12, dans lequel les modifications des valeurs de tempo du premier bloc (E24) et des blocs adjacents et des blocs voisins sont réalisées de façon à obtenir une variation locale de la valeur de tempo (Ta) continue. 13. Method according to one of claims 11 and 12, in which the modifications of the tempo values of the first block (E24) and of the adjacent blocks and of the neighboring blocks are carried out so as to obtain a local variation of the tempo value ( Ta) continues.
14. Procédé selon l’une des revendications précédentes, dans lequel l’étape d’analyse (20) comprend la génération de données caractéristiques relatives à 19 la lumière et/ou de données caractéristiques relatives aux couleurs des images de la séquence vidéo. 14. Method according to one of the preceding claims, in which the analysis step (20) comprises the generation of characteristic data relating to 19 the light and/or characteristic data relating to the colors of the images of the video sequence.
15. Procédé selon l’une des revendications précédentes, dans lequel l’étape d’analyse (20) comprend la génération de données caractéristiques relatives à la vitesse de déplacement d’objets (30) figurant dans les images de la séquence vidéo. 15. Method according to one of the preceding claims, in which the analysis step (20) comprises the generation of characteristic data relating to the speed of movement of objects (30) appearing in the images of the video sequence.
16. Procédé de génération d’un fichier audio numérique contenant un échantillon audio (E), comportant les étapes de : 16. Method for generating a digital audio file containing an audio sample (E), comprising the steps of:
- calculer au moins une valeur de tempo (Ta) de l’échantillon audio ; - calculate at least one tempo value (Ta) of the audio sample;
- générer des données relatives à une structure rythmique de l’échantillon audio, en détectant les mesures constituant l’échantillon audio, et, pour chaque mesure détectée, le nombre de temps qu’elle contient ; - generate data relating to a rhythmic structure of the audio sample, by detecting the measures constituting the audio sample, and, for each detected measure, the number of beats it contains;
- générer des données relatives à une structure musicale de l’échantillon audio, en détectant une ou plusieurs parties (Ei, E2, Ees) constituant l’échantillon audio ; - generating data relating to a musical structure of the audio sample, by detecting one or more parts (Ei, E2, E e s) constituting the audio sample;
- générer un fichier audio numérique contenant l’échantillon audio et les données générées. - generate a digital audio file containing the audio sample and the generated data.
17. Procédé selon la revendication précédente, dans lequel le calcul de la valeur de tempo (Ta) est réalisé par mise en œuvre d’une étape de détermination itérative. 17. Method according to the preceding claim, in which the calculation of the tempo value (Ta) is carried out by implementing an iterative determination step.
18. Procédé selon l’une des revendications 16 à 17, dans lequel la valeur de tempo (Ta) de l’échantillon audio est calculée avec une précision inférieure à +/- 0,1 battement par minute, et de préférence de l’ordre de +/- 0,01 battement par minute. 18. Method according to one of claims 16 to 17, in which the tempo value (Ta) of the audio sample is calculated with a precision of less than +/- 0.1 beats per minute, and preferably of order of +/- 0.01 beats per minute.
19. Procédé selon l’une des revendications 16 à 18, dans lequel la détection des mesures constituant l’échantillon audio est réalisée par détection d’une pulsation rythmique. 19. Method according to one of claims 16 to 18, in which the detection of the measurements constituting the audio sample is carried out by detection of a rhythmic pulse.
20. Procédé selon l’une des revendications 16 à 19, dans lequel la détermination de la structure musicale est réalisée par identification d’une ou plusieurs parties parmi : 20. Method according to one of claims 16 to 19, in which the determination of the musical structure is carried out by identifying one or more parts from among:
- une partie introductive ; - an introductory part;
- une partie centrale ; - a central part;
- une partie finale. - a final part.
21. Procédé de synchronisation selon l’une des revendications 1 à 15, dans lequel les fichiers audios stockés dans la base de données ont préalablement été générés selon un procédé conforme à l’une des revendications 16 à 20. 20 21. Synchronization method according to one of claims 1 to 15, in which the audio files stored in the database have previously been generated according to a method in accordance with one of claims 16 to 20. 20
22. Produit programme d’ordinateur comportant des instructions qui, lorsque le programme est exécuté par un (ou plusieurs) processeur(s), conduisent celui-ci (ceux-ci) à mettre en œuvre les étapes du procédé de synchronisation selon l’une des revendications 1 à 15 ou selon la revendication 21. 22. Computer program product comprising instructions which, when the program is executed by one (or more) processor(s), lead it (them) to implement the steps of the synchronization method according to the one of claims 1 to 15 or according to claim 21.
23. Système de synchronisation (1 ) pour la mise en œuvre d’un procédé de synchronisation conforme à l’une des revendications 1 à 15 ou conforme à la revendication 21 , le système de synchronisation (1 ) comportant un terminal (10) configuré pour transférer un fichier vidéo contenant un séquence vidéo vers un serveur (12), le serveur (12) comportant une base de données (18) de fichiers audios numériques contenant des échantillons audios et un processeur (16) pour synchroniser la séquence vidéo transférée par le terminal (10) avec un échantillon audio contenu dans un fichier audio stocké dans la base de données (18) du serveur (12). 23. Synchronization system (1) for the implementation of a synchronization method according to one of claims 1 to 15 or according to claim 21, the synchronization system (1) comprising a terminal (10) configured to transfer a video file containing a video sequence to a server (12), the server (12) comprising a database (18) of digital audio files containing audio samples and a processor (16) for synchronizing the video sequence transferred by the terminal (10) with an audio sample contained in an audio file stored in the database (18) of the server (12).
PCT/EP2021/085781 2020-12-14 2021-12-14 Method and system for automatically synchronizing video content and audio content WO2022129104A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FRFR2013218 2020-12-14
FR2013218A FR3119063B1 (en) 2020-12-14 2020-12-14 Method and system for automatic synchronization of video content and audio content

Publications (1)

Publication Number Publication Date
WO2022129104A1 true WO2022129104A1 (en) 2022-06-23

Family

ID=74592203

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2021/085781 WO2022129104A1 (en) 2020-12-14 2021-12-14 Method and system for automatically synchronizing video content and audio content

Country Status (2)

Country Link
FR (1) FR3119063B1 (en)
WO (1) WO2022129104A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024025460A1 (en) * 2022-07-27 2024-02-01 Lemon Inc. Automatic and fast generation of music audio content for videos

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6323412B1 (en) * 2000-08-03 2001-11-27 Mediadome, Inc. Method and apparatus for real time tempo detection
US20100257994A1 (en) * 2009-04-13 2010-10-14 Smartsound Software, Inc. Method and apparatus for producing audio tracks
FR3038440A1 (en) * 2015-07-02 2017-01-06 Soclip! METHOD OF EXTRACTING AND ASSEMBLING SONGS FROM MUSICAL RECORDINGS

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6323412B1 (en) * 2000-08-03 2001-11-27 Mediadome, Inc. Method and apparatus for real time tempo detection
US20100257994A1 (en) * 2009-04-13 2010-10-14 Smartsound Software, Inc. Method and apparatus for producing audio tracks
FR3038440A1 (en) * 2015-07-02 2017-01-06 Soclip! METHOD OF EXTRACTING AND ASSEMBLING SONGS FROM MUSICAL RECORDINGS

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JONATHAN FOOTE ET AL: "Creating music videos using automatic media analysis", PROCEEDINGS ACM MULTIMEDIA 2002. 10TH. INTERNATIONAL CONFERENCE ON MULTIMEDIA. JUAN-LES-PINS, FRANCE, DEC. 1 - 6, 2002; [ACM INTERNATIONAL MULTIMEDIA CONFERENCE], ACM, NEW YORK, NY, 1 December 2002 (2002-12-01), pages 553 - 560, XP058387555, ISBN: 978-1-58113-620-3, DOI: 10.1145/641007.641119 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024025460A1 (en) * 2022-07-27 2024-02-01 Lemon Inc. Automatic and fast generation of music audio content for videos

Also Published As

Publication number Publication date
FR3119063A1 (en) 2022-07-22
FR3119063B1 (en) 2024-02-23

Similar Documents

Publication Publication Date Title
US11114074B2 (en) Media-media augmentation system and method of composing a media product
US8229935B2 (en) Photo recommendation method using mood of music and system thereof
US7073193B2 (en) Media content descriptions
Holm-Hudson Quotation and context: sampling and John Oswald's Plunderphonics
Hua et al. Automatic music video generation based on temporal pattern analysis
Kuo et al. Background music recommendation for video based on multimodal latent semantic analysis
EP0825542A2 (en) Method for synchronizing the presentation of static and dynamic components of an interactive multimedia document
US10223447B2 (en) Playlist trailer
US11681738B2 (en) Creative arts recommendation systems and methods
FR2857122A1 (en) NAVIGATION METHOD IN A SET OF SOUND DOCUMENTS USING A GRAPHICAL INTERFACE, AND RECEIVER FOR NAVIGATION ACCORDING TO THE METHOD
EP2338271A1 (en) Method and apparatus for generating a sequence of a plurality of images to be displayed whilst accompanied by audio
WO2022129104A1 (en) Method and system for automatically synchronizing video content and audio content
US20220147558A1 (en) Methods and systems for automatically matching audio content with visual input
US20140277638A1 (en) System and method of predicting user audio file preferences
EP1636789A2 (en) Method for processing an audio sequence for example a piece of music
Canini et al. Emotional identity of movies
Sexton Independent intersections: Indie music cultures and American indie cinema
Vernon African-American Blues, Rhythm and Blues, Gospel and Zydeco on Film and Video, 1924-1997
Hua et al. P-karaoke: personalized karaoke system
Charles Genre in Practice: Categories, Metadata and Music-Making in Psytrance Culture
MILLER LOCAL MUSIC!
WO1999040539A1 (en) Method for spatial segmentation of an image into visual objects and application
Diallo ‪“‪‪ Every MC raps, but not every rapper is an MC‪‪”: Examining the MC/Rapper rivalry in American rap music‪
Doyle The tough sell: Narrating the artist–hustler relationship
Minton Creole Community and" Mass" Communication: Houston Zydeco as a Mediated Tradition

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21839449

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE