WO2023131757A1 - Procede et dispositif de composition d'une video et procede d'analyse de video - Google Patents

Procede et dispositif de composition d'une video et procede d'analyse de video Download PDF

Info

Publication number
WO2023131757A1
WO2023131757A1 PCT/FR2023/050007 FR2023050007W WO2023131757A1 WO 2023131757 A1 WO2023131757 A1 WO 2023131757A1 FR 2023050007 W FR2023050007 W FR 2023050007W WO 2023131757 A1 WO2023131757 A1 WO 2023131757A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
scene
interest
metadata
capture
Prior art date
Application number
PCT/FR2023/050007
Other languages
English (en)
Inventor
Tomaj ROKNI
Original Assignee
Rokni Tomaj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rokni Tomaj filed Critical Rokni Tomaj
Publication of WO2023131757A1 publication Critical patent/WO2023131757A1/fr

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/181Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources

Definitions

  • the invention relates to the processing of a video of a scene from several representative videos of a part of the scene.
  • the present invention aims to remedy all or part of the drawbacks of the prior art, in particular those set out above, by proposing a solution which makes it possible, in comparison with the solutions of the state of the art, to recompose a single video from several videos of the same scene while avoiding complex mobility management solutions for capture terminals and user intervention.
  • the invention relates to a method for composing a video comprising:
  • the method can advantageously detect that the capture devices have moved, or at least one of them and automatically recalculate the points of interest.
  • the composition of the two videos generates a video of constant quality from the two videos. No human intervention is necessary either to reposition the capture devices or to request a new calculation of the points of interest as long as the process can calculate or recalculate the points of interest or as long as the variation of the metadata remains below a threshold .
  • the determination of fixed points of interest in each of the videos comprises:
  • the provision includes one or other or more of:
  • the recomposed video is intended to be broadcast, for example to a broadcast group. It can be broadcast live, the process being fast and causing only a very slight lag with the event.
  • the video can also be recorded and broadcast on demand.
  • said video when said video is transmitted to at least one analysis device, it further comprises
  • the method can advantageously offer an end user content enriched with additional data relating to the captured content.
  • the invention relates to a video analysis method comprising
  • the enrichment data is obtained by a positioning of the enrichment data by a user through a graphic interface.
  • the composition method analyzes the composite video (for example using artificial intelligence) and compares the enrichment data received with the analyzed data and in the event of inconsistency, submits said inconsistencies to the user through the graphical interface for final validation.
  • the invention also relates to a video capture device comprising video capture means, a communication interface with at least one server and at least one processor able to implement a video capture method according to the invention.
  • the invention also relates to a server comprising
  • At least one processor capable of implementing a method for composing a video according to the invention.
  • the invention also relates to a system comprising at least a first and a second video capture device according to the invention, at least one server according to the invention and at least one analysis device capable of implementing an analysis method according to the invention.
  • the invention also relates to a computer program comprising instructions for the implementation of one of the methods according to the invention when the program is executed by a computer.
  • the invention also relates to a computer-readable recording medium on which a computer program according to the invention is recorded.
  • FIG. 1 represents a video capture method according to a particular embodiment of the invention.
  • FIG. 2 represents a method for composing a video according to a particular embodiment of the invention.
  • FIG. 3 represents the position of the points of interest according to a particular embodiment of the invention.
  • FIG. 4 represents a video analysis method according to a particular embodiment of the invention.
  • FIG. 5 represents a video capture device according to a particular embodiment of the invention.
  • FIG. 6 represents a server for composing a video according to a particular embodiment of the invention.
  • FIG. 7 represents a video analysis device according to a particular embodiment of the invention.
  • FIG. 8 represents a system according to a first particular embodiment of the invention.
  • FIG. 9 represents the position of two cameras around a scene to be captured according to a particular embodiment of the invention.
  • FIG. 10 the position of three cameras around a scene to be captured according to a particular embodiment of the invention.
  • FIG. 11 represents a system according to a second particular embodiment of the invention.
  • the scene captured is a scene representative of a football match and therefore more precisely of the events taking place on a football pitch during a match.
  • a first part of the stage and to a second part of the stage particular reference is made to a first part of the football pitch, for example a little more than half a pitch for a first part and a little more than half a pitch for a second part.
  • this is an example of a captured scene and in no way constitutes a limitation of the invention to the capture of a football match.
  • other sports can be considered but also other events such as concerts or other scenes of life.
  • FIGS. 1 to 9 mainly refers to embodiments based on the capture of two parts of the same scene. It should be noted that the fact of speaking of two parts of the scene is not limiting to two and that the invention is not limited to two captures but to at least two.
  • FIG. 10 illustrates for example the possible positioning of three capture means.
  • FIG. 1 represents, in the form of a flowchart, the main steps of a video capture method according to a preferred embodiment of the invention.
  • Said method comprises steps Ela and Elb during which two videos are captured. More specifically, when step Ela, a video of a part of said scene is captured and during step Elb, a video of at least another part of said scene is captured.
  • the two steps Ela and Elb are carried out simultaneously.
  • the two captured parts contain at least one common portion of the scene, this common portion comprising at least two common fixed points of interest.
  • the two videos are captured synchronously or can be synchronized using time tags.
  • a synchronization process (not shown in the figures) is launched so as to associate each captured video with a time tag (“timecode”).
  • timecode a time tag
  • NTP Network Time Protocol
  • Each of the captured images having its time stamp, it is possible to synchronize the two videos when they are received by a remote device, regardless of the transmission delays of each of the videos which could be caused by network disturbances or different transmission speeds depending on the network used by each of the capture devices.
  • the synchronization of the two streams can be done thanks to the sound tracks of the streams. Since the sample rate of sound is much higher than the frame rate, and the soundtracks are virtually identical across all streams because the mics are very close, cueing the soundtracks also cue the time tags, so the streams .
  • This system is used for synchronizing and editing multi-camera recordings while avoiding echo effects.
  • Metadata is obtained, preferably from data from the GPS sensor (for “Global Positioning System” in English or global positioning system in French) and/or data from an accelerometer and/or a gyroscope and/or a magnetometer.
  • GPS sensor for “Global Positioning System” in English or global positioning system in French
  • accelerometer and/or a gyroscope and/or a magnetometer are captured by capture means and these means can for example be associated with or collaborate with a GPS, an accelerometer, a gyroscope or a magnetometer.
  • a processor associated with the capture means can also, using a software program, obtain said metadata.
  • each image is therefore associated with a time tag and metadata.
  • metadata varies little, such as latitude and longitude, while in the event of bad weather, some metadata will vary. more, such as trim, compass or tilt.
  • the longitude and latitude can be associated with the video and transmitted less frequently than others which could vary more during the capture.
  • the metadata are mainly related to the geographical position, which may also include the orientation, of a capture device implementing the method and for example described in FIG. 4.
  • a change in the metadata makes it possible to identify a movement or camera movement.
  • Such a displacement/movement is not necessarily, but may be, a displacement operated, voluntarily or involuntarily, by a person.
  • Such displacement/movement can also be related to weather for example. If there is a lot of wind, it is possible for the capture device implementing the method to deviate from its initial position. This is all the more true if the capture device is attached high up (to have a better view of the scene to be captured).
  • the capture means are rigidly fixed and anchored to the ground. For example, they can be fixed on one or more tripods, removable or fixed to the ground.
  • each video stream (including the time tags) and the metadata associated with the capture are transmitted to a server, represented in figure 5.
  • the metadata is transmitted periodically to the server.
  • Periodically means at times evenly spaced in time or at times irregularly spaced in time.
  • the metadata be transmitted every 60s.
  • the frequency of sending metadata can also be programmed and vary according to weather conditions, for example if the capture devices are located outdoors. When there is a lot of wind for example, the capture means may possibly move, depending on their location or their attachment to the ground and thus it may be chosen to transmit the metadata with a greater frequency than when the weather is calm.
  • Each of the capture devices may also transmit the metadata at a different frequency since each of the capture devices may be subject to different variations depending on its location or the conditions specific to its location.
  • the transmission can be done by using the wireless communication network, such as the cellular network 2G, 3G, 4G, 5G and more or by using a WIFI connection.
  • Each of the capture devices may also use a different network to transmit video and metadata.
  • the images of the video streams are preferably transmitted at a rate of 30 images per second. In other embodiments, they can be transmitted at a rate of 60, 120 or 240 frames per second.
  • the evolution of communication networks and video standards may allow the transmission of larger video sizes, for example Full HD, 4K, 8K using transmission networks such as 5G and later, or WIFI networks of future standards.
  • the video can be transmitted encoded (compressed) before transmission using coding algorithms such as MPEG-4, H.264 or X.264 or other formats...
  • FIG. 2 represents a method for composing a composite video according to a particular embodiment of the invention. The method is advantageously implemented in a server as shown in Figure 5.
  • the video (including the time tags) and the metadata representative of a first part of the scene, and of at least a second part of the scene, are received.
  • the videos were captured with the same time stamp, so they can be synchronized using these time stamps.
  • the metadata being associated with an image, each image being associated with a time tag, the metadata is therefore associated with the same tag as the image with which it is associated.
  • step T2 fixed points of interest in the scene are determined in each of the two videos.
  • the composite video representative of said scene is composed from the first and at least one second video by matching the points of interest.
  • the determination of the points of interest is linked to the nature of the captured scene. For example, when the captured scene is a football match, 4 points of interest are determined on each part of the scene.
  • the 4 points of interest are defined as being the points of intersection between
  • composition process and particularly the detection of points of interest are linked to the type of scene filmed.
  • the composition process can be configured beforehand with the type of event captured.
  • the points of interest are determined using different functions and algorithms from the open-cv library.
  • First the color masks green for the terrain and white for the lines.
  • Edge detection can be performed by the Canny filter (Canny algorithm), by the gradient or Laplacian method.
  • the process implements the open-cv, numpy, and skimage.morphologie libraries in python (or equivalent in C++ language) or the watershed algorithm (or watershed line). The morpho function is calibrated to keep only the longest straight line elements (thus eliminating the goals including the posts and the crossbar, the central circle or the penalty area for the football example).
  • the determination, in step T2, of fixed points of interest in each of said videos may comprise:
  • the video analysis device is represented in figure 7
  • the user may have to position a fourth point of interest to improve the composition process, more reliable with four points of interest than with three points of interest.
  • the determination, in step T2, of fixed points of interest in each of said videos may comprise:
  • this can advantageously adjust one or more points of interest when the automatic detection does not work correctly or in a sufficiently precise manner.
  • the determination, in step T2, of fixed points of interest in each of said videos may comprise:
  • the two videos are transmitted at the same resolution (definition ) and more particularly at the lower resolution of that of the two videos when the two videos are not captured at the same resolution.
  • step T2 may include:
  • the metadata received with each video are analyzed to study their variation.
  • the metadata are representative of a geographical position of the capture means, of the attitude, of the inclination or of the compass (the inclination of the capture means with respect to the North).
  • the metadata is transmitted periodically, at regular or irregular time intervals, and analyzed upon receipt by comparing it to reference metadata.
  • the reference metadata including metadata transmitted by the capture means during their initialization or installation (during locking). If this comparison detects that the geographical position (for example latitude or longitude), or inclination, or attitude or compass has varied and that the variation is greater than a given threshold, then the points of interest are recalculated. As indicated, these variations are due to a displacement of the capturing means.
  • the comparison can be done more spaced out over time and not systematically each time new metadata is received.
  • step T4 If the result of the comparison, step T4, is greater than a threshold, each threshold being defined for each type of metadata, then the points of interest are redefined. Otherwise the points of interest are not redefined.
  • the points of interest being used during step T5 they are always defined at the start of the method when the first metadata is received, the analysis and comparison steps T3 and T4 then occurring during the capture to verify the geographic stability of the capture devices.
  • the metadata is not compared with a threshold but must be within a tolerance range centered around the value of the first corresponding metadata received, called the reference metadata. It is possible that only one of the capture devices has moved and that the variation of the associated metadata is large enough to require a recalculation of the points of interest. In this case, the points of interest are recalculated only for this part of the video during step T2.
  • the first threshold SI is defined as being a threshold below which the variation of the metadata does not involve a recalculation of the position of the points of interest.
  • the second threshold S2 is defined as being a threshold above which the at least two capture devices no longer capture a common zone allowing the determination of a sufficient number of fixed points of interest for the composition of the composite video.
  • a composite video representing the scene is composed from the two videos each representing at least part of the scene and points of interest.
  • composite video in which a single scene is created.
  • the scene recomposed from the two half-scenes of the videos on the left and videos on the right is shown below.
  • the two videos are matched, by matching the Lru and Rlu points and the Lrd and Rld points. This is illustrated in FIG. 3 below, the points of interest Lru and Rlu are combined, as are the points of interest Lrd and Rld.
  • composition is carried out using algorithms of graphic assembly, "stitching" in English, and cutting, “cropping” in English.
  • the following constraints are taken into account for the composition of the composite video: -
  • the composite image must have the lines of high and low keys parallel,
  • the length of the low key line must be twice the definition of the lowest resolution stream, in number of pixels,
  • the height of the center line is chosen by comparing the heights of the two points of common interest and keeping the larger one, the second will have to stretch to match it.
  • the height of the center line on the central capture device will be the referent
  • the width of the composite image is 2 times the width of the stream (if 2 streams), its height is reduced to eliminate the areas of voids (holes) created by the stiching.
  • the cutting and pasting algorithms use Python libraries such as open-cv and functions cv2.getPerspectiveTransform and cv2.getWarpPerspective.
  • Python libraries such as open-cv and functions cv2.getPerspectiveTransform and cv2.getWarpPerspective.
  • An encoding is then performed in X.264 format with the cv2.videoWriter function, specifying the size of the image (size) and the number of images per second (fps).
  • Other equivalent functions can be used when the coding language used is C++.
  • this step can include a validation sub-step.
  • This validation sub-step comprises the transmission to a video analysis device of a version, for example low definition, of the composite video.
  • the subscriber terminal can receive instructions from a user to adjust certain geometric points of the recomposed scene obtained during composition. For example, in the context of a sports field, it may be the adjustment of the 4 corners of the sports field. More precisely, according to a preferred mode, only the two points of interest defined by the intersection of the upper sideline (top of the image) and the goal lines are modifiable.
  • the instructions may also include an adjustment, such as decreasing the height of the image, for example eliminating unnecessary elements.
  • the instructions may also include replacing these unnecessary areas with banner ads.
  • Unnecessary area can be understood to mean, for example, areas outside the limits of the pitch.
  • the differences between the color and brightness parameters such as for example the contrast, the brightness, the saturation, the exposure between the two videos are also taken into account in order to generate composite video.
  • these differences can be smoothed out, filters can also be applied to homogenize, or even transform, one or the other stream to have a homogeneous composite video on the two parts thus brought together.
  • step T6 Once the video has been recomposed from the points of interest and the two videos, it is made available, step T6.
  • the provision consists in recording the composite video so as for example to broadcast it later.
  • the provision consists of the display.
  • the making available consists in transmitting the composite video to one or more devices with a view to its display or with a view to its recording for later viewing or use.
  • the video can be recorded according to different resolutions and this according to the capacity of the communication networks and the terminals for which it is intended.
  • the composite video can be enriched by a user, or automatically by a program.
  • the enrichment when it is a program that enriches the composite video, the enrichment can be carried out using software for image analysis and detection of preferential actions linked to the broadcast event . For example, during a match, it is possible to detect goals, corners, and to compile statistics, it is also possible to add, for example, the name of the players, the number of ball possessions, the number of balls touched, lost, recovered, the time of ball possessions by player or by team, the number of shots on target or not, the distance traveled by each player, per match, per position and thus to see the evolution of the statistics during a complete season.
  • the video composition process includes
  • the video When the video is transmitted for enhancement, it can advantageously be transmitted with a high compression rate so as to make the latency very low.
  • the compression rate is adapted to the available bit rate.
  • the enrichment is almost live or "live" in English.
  • FIG 3 briefly described above illustrates the two parts of the scene and their composition by the composition process.
  • the video on the left represents the video capture of a first capture means which captures the right part of a sports field, more particularly a football field.
  • a sports field more particularly a football field.
  • On this video are positioned 4 points of interest Llu, Lru, Lrd and Lld. These four points of interest are fixed and represent, as described above, for example intersections of lines on a terrain.
  • the hatched area on both right and left videos represents a common or overlapping area of the scene, i.e. part of the scene captured by the two video capture devices.
  • the points Lru, Rlu represent identical points of the scene and the points Lrd and RJd also represent the same point of the scene.
  • the video compositing process will generate the composite video, bottom view of Figure 3, as previously described with respect to Figure 2.
  • FIG. 3 represents one of several composite images, this depending on the desired zoom. It is thus possible to envisage having a composite image comprising only the pitch or also the or part of the stands, or for example a buffer zone around the pitch or around certain edges of the pitch.
  • FIG. 4 represents an analysis method according to a particular embodiment of the invention in which the composite video made available during step T5 with reference to FIG. 2, is transmitted to a user device.
  • This user device can be, without limitation, a mobile telephone, a computer, a tablet, a television, etc.
  • the composite video is received on the user device during step U1. It is also decoded if it has been transmitted in a coded way to be then displayed on a screen of the user's device.
  • the user positions information, called enrichment information, on the composite video or associates enrichment information with the composite video.
  • the enrichment information in the example of a football match, can for example correspond to information making it possible to annotate the match in the form of words such as “goal”, “corner”, “touch”. They can also identify the players, add personal comments from the user, add statistics on the number of successful passes, the score... This information as well as the composite video can then be displayed on the user's terminal , transmitted to the server for broadcast to other display terminals or recorded or both.
  • the user advantageously but not limitingly uses a user interface.
  • This graphical interface can for example allow him to select predefined events corresponding to the type of scene captured. For example, when the scene is a football match, the predefined events can be “goal”, “corner”, “touch”.
  • the user can also associate names with players, request the compilation of statistics...
  • the event is a concert then he can add the title of the song, he can also position the name of the musicians, the year of the song, the title of the album...
  • the recording information is obtained or positioned according to an analysis of the content of the scene.
  • the composite video and the enrichment data are synchronized if necessary.
  • the composite video enriched with the enrichment information is made available.
  • the provision consists in recording the enriched composite video so as to broadcast it later for example.
  • the provision consists of displaying the enriched composite video on the user's terminal.
  • the making available consists in transmitting the enriched composite video to a server or to one or more devices with a view to its display or with a view to its recording for later viewing or use.
  • the server When the server receives the enriched video, it may also compile or have analyzed the video and compare its analysis to the enrichment data to verify the latter. In the event of a conflict during verification, a validation request can be transmitted to the video analysis device and therefore to the user via the graphic interface for example.
  • the method is implemented in an analysis device and for example an analysis device as described in figure 6.
  • Figure 5 shows a capture device configured to implement a method as described in Figure 1.
  • the device 1 comprises capture means 11.
  • the capture means 11 are preferably a camera such as can be found in a mobile telephone.
  • device 1 is preferably a mobile telephone but can also be a computer or more generally a device equipped with capture means.
  • the capturing means captures at least part of a video scene according to a preferred embodiment.
  • the device 1 also comprises display means 16. These display means are optional but can advantageously make it possible to view the scene captured by the capture means 11.
  • the device 1 also comprises a communication interface 14 adapted to communicate with remote devices, such as for example but not limited to a server 4. This communication interface can be of the cellular type (3G, 4G, 5G, etc.) or WIFI or both, or even other protocols.
  • the device 1 also comprises a memory 15 containing data and program instructions and a memory 12 making it possible to record data, such as, for example, data videos.
  • the memory 12 can for example temporarily or longer-term record the data captured by the capture means 11, before transmission to the communication interface 14.
  • the device 1 comprises a processor 13 capable of cooperating with the aforementioned means of the device 1 and mainly configured to implement the method described in FIG. 1.
  • the device 1 also comprises an accelerometer 18, a GPS sensor 17, a magnetometer 19 and a gyroscope (electronic) 20.
  • the GPS sensor 17 makes it possible to determine the geographical position of the capture device and the accelerometer 18 makes it possible to determine the movements of the device (the speed of movement).
  • the gyroscope 20 makes it possible to measure the rotation of the capture device and the magnetometer 19 functions as a digital compass. Thus, the inclination, the compass, and the attitude of the capture device are measured. In addition, a log of the positions of the capture device can be kept up to date.
  • the capture device Before any launch of the capture according to a preferred embodiment of the invention, the capture device is locked, that is to say it is positioned in a position considered as a reference position. It is therefore a question of a physical locking which can be followed by a digital locking, making it possible to have a constant rendering, namely for example to obtain a video having no overexposed zone.
  • the capture device transmits metadata obtained by the GPS sensor 17 and the accelerometer 18 which constitute the reference metadata used by the method according to FIG. 2 for the comparison with the metadata subsequently transmitted periodically.
  • FIG. 6 describes a video composition device 4 and preferably a server type device.
  • this server can for example be located remotely or in the “computing cloud” well known in English under the term “cloud”.
  • the functions of this device can be distributed in several servers.
  • the analysis device 3 can receive the data (composite video and points of interest) from a first server and transmit the enriched video and/or the enrichment data to another server, physically different from the server which transmitted the composite video and possibly the points of interest.
  • a third server can communicate/cooperate with either server to transmit the video at one or more additional resolutions.
  • the video communication device 4 comprises a processor 47 configured to implement a video composition method as described in FIG. 2.
  • the processor 47 collaborates with a recording memory 43 and a program memory 44.
  • the recording memory 43 can for example temporarily or longer-term record the data received or transmitted by the communication interfaces 41a, 41b, 41c.
  • the communication interfaces 41a, 41b, 41c are preferably adapted to communicate respectively with several capture devices 1, one or more analysis devices 3. The number of communication interfaces is given by way of illustration. Such communication interfaces are preferably interfaces of the cellular type (3 G, 4G, 5G and future, etc.) or WIFI standard 5, 6 and future, or both.
  • FIG. 7 represents a video analysis device 3 according to a preferred embodiment.
  • the device 3 comprises a processor 33 configured to implement a video analysis method as described in FIG. 4.
  • the memory 35 comprises data and program instructions from the processor 33 and the memory 32 is used to record, or permanent video received through the communication interface 34 and enrichment data entered by the user through the graphical interface 37.
  • the communication interface 34 is preferably a cellular type interface (3G, 4G, 5G%) or WIFI or both.
  • Figure 8 shows a system according to a preferred embodiment of the invention.
  • Two capture devices la and lb are arranged around a scene 2, here a football match.
  • the two devices are arranged so as to each film at least part of the football pitch, with an overlapping zone, that is to say that each of the devices can capture more than half a pitch.
  • the two devices la and lb are configured to implement a capture method according to the invention and described with reference to FIG. 1.
  • the two devices la and lb each transmit through their respective communication interfaces, the captured video (including in a preferred embodiment the timestamps) and the metadata to the server 4.
  • the server 4 can be composed of one or more distinct devices.
  • the server 4 is configured to implement a video composition method according to the invention and more precisely described in FIG. 2.
  • the server 4 transmits the video obtained according to the video composition method to a video analysis device 3 which enriches the video according to the analysis method described in FIG. 4 and retransmits the enriched video and/or the enrichment data and/or the validation of points of interest or the validation of enrichment data to the server 4.
  • the server 4 records then the recording data and/or the annotated video or transmits them to the device 5 for display or recording or to the device 3.
  • the device 5 is an electronic device such as for example a mobile telephone, a computer, a television. According to a preferred embodiment, such a system can be used according to the following scenario.
  • the analysis device 3 receives instructions from a user to launch an application.
  • the analysis device 3 is a mobile telephone.
  • the application receives from the user a parameterization of the application. Such a setting can for example be an indication of the type of event captured, for example a sports match, for example football.
  • the application also receives information relating to the number of capture devices 1a, 1b used for capturing the event. Likewise, these capture devices are preferably mobile telephones.
  • the app creates a QR-code for each capture device la, lb.
  • Each of the capture devices 1a, 1b scans one of the QR-codes present on the analysis device 3. This makes it possible to link each capture device to one of the streams. This makes it possible to launch an application on the capture devices or to download the application if it was not present then to launch the synchronization of the clock according to the NTP protocol.
  • the capture devices can also perform speed tests to check the suitable bandwidth according to the network parameters, the type of network available (2G, 4G, 5G, WIFI standard 5, 6.. .), of the environment.
  • the capture devices also identify themselves with the server 4 so as to allow the server 4 to detect which stream is associated with which capture device and possibly to modify this.
  • An operator then locks the position of the capture devices around the scene by verifying that each portion of the scene captured by each of the capture devices includes at least one overlapping area in which two fixed points of interest can be determined.
  • This determination can be visual by the operator but this determination can also be made at the server level.
  • the server can transmit notifications to the capture devices to orient/move the capture devices, as long as it has not succeeded in determining a first time common points of interest.
  • the operator locks the physical position of the capture devices. Then, as described previously, the points of interest are recalculated automatically according to the variation of the metadata. Only a significant change in the metadata no longer allowing the detection of points of interest will make it necessary to physically reposition the capture devices.
  • the metadata is also recorded and thus constitutes position reference metadata of the capture devices 1a, 1b.
  • This reference metadata is used when comparing with the metadata received periodically (regularly or irregularly) to determine the need for recalculation of the position of the points of interest as indicated with reference to Figure 2.
  • FIG. 9 illustrates the positioning of two video capture devices la and lb around a football scene.
  • Devices la and lb are similar to device 1 described in FIG. 5. They are positioned geographically close to the center line of the terrain.
  • the device la is oriented towards the left part of the field and the device lb is oriented towards the right part of the field, so that their respective capturing means capture more than half of the scene, i.e. more than half a field .
  • the capture device la has a capture angle a and the capture device lb has a capture angle p.
  • FIG. 10 illustrates the positioning of three video capture devices 1c, 1d and 1c around a football stage.
  • Devices 1c, 1d and 1c are similar to devices 1a and 1b described with reference to FIG. 9, but the capture means have different capture angles.
  • the third capture device 1c can be placed in such a way that its capture means are parallel to the sideline.
  • FIG. 11 represents a system according to a second embodiment of the invention.
  • a system is particularly advantageous when the capture devices 1a and 1b as well as 3 are not connected to a network such as a cellular network (3G, 4G, 5G, 6G) or WIFI. In this case, in fact, they cannot communicate with a server as illustrated in FIG. 8 and therefore transmit the captured videos for recomposition to a server.
  • a configuration is also advantageous when the bandwidth between the capture devices 1a and 1b and the server 4 is low and does not allow the transmission of the video streams and metadata to the server 3 at sufficient quality.
  • the capture devices 1a, 1b and the analysis device 3 communicate via a local network established between them. This is particularly possible through new generation WIFI networks or 5G, 6G and 6E cellular networks.
  • the analysis device 3 synchronizes the two capture devices 1a and 1b by creating a provisional time clock which it transmits to them.
  • the video streams of the two devices la and lb can then be synchronized by the device 3.
  • the device 3 receives the two video streams and constructs the composite video from the two videos received and the metadata received. To do this, the device 3 implements the method according to Figure 2. Once recomposed, the video is then enriched by the device 3 according to steps U2 to U4 of the method described in Figure 4.
  • the video thus enriched is transmitted to the server 4 when the device 3 is again connected to a cellular or WIFI network or allowing it to benefit from sufficient bandwidth for the transmission.
  • the device 3 and the server 4 can thus enrich, analyze the composite video.
  • the server 4 can request validations of the enrichment information transmitted by the device 3 and compile statistics.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

L'invention concerne un procédé et un dispositif de capture vidéo, un procédé et un dispositif de composition vidéo et un procédé d'analyse vidéo. Plus particulièrement, le procédé de composition vidéo dans un serveur comprend : - la réception d'un au moins un premier dispositif de capture vidéo d'une première vidéo représentative d'une première partie d'une scène et de métadonnées associées à au moins une image fixe de ladite première partie de ladite scène, ladite métadonnée étant représentative d'une position géographique du premier dispositif de capture au moment de la capture de l'image, - la réception d'un au moins un second dispositif de capture vidéo d'une deuxième vidéo représentative d'au moins une deuxième partie de ladite scène et de métadonnées associées à au moins une image fixe de ladite seconde partie de ladite scène, ladite métadonnée étant représentative de la position géographique du second dispositif de capture au moment de la capture de l'image, lesdites premières et deuxièmes vidéos étant synchronisées, - la détermination de points d'intérêt fixes dans chacune desdites vidéos, - ladite composition d'une vidéo composite représentative de ladite scène à partir desdites première et au moins une deuxième vidéos par mise en correspondance desdits points d'intérêt, - la mise à disposition de ladite vidéo représentative de ladite scène, la détection d'un mouvement d'au moins un des deux dispositifs de capture sur la base des métadonnées reçues déclenchant une nouvelle détermination des points d'intérêt fixes dans ladite vidéo capturée par le dispositif en mouvement puis ladite composition d'une nouvelle vidéo composite.

Description

PROCEDE ET DISPOSITIF DE COMPOSITION D'UNE VIDEO ET
PROCEDE D'ANALYSE DE VIDEO
Domaine Technique
L'invention concerne le traitement d'une vidéo d'une scène à partir de plusieurs vidéos représentatives d'une partie de la scène.
Technique antérieure
La diffusion et la captation d'événements, tels que par exemple, mais non limitativement, des concerts, des événements sportifs requiert bien souvent le déploiement de moyens coûteux et complexes à mettre en œuvre. En effet, il est bien souvent nécessaire de positionner de nombreuses caméras permettant la capture de l'événement, les caméras étant positionnées généralement tout autour de la scène à filmer. Non seulement la captation de la scène est rendue complexe par le positionnement des nombreuses caméras, mais également la composition et la restitution de la scène par les diffuseurs.
La complexité de tels systèmes peut amener les spectateurs à utiliser des dispositifs plus simples à manipuler tels par exemple, des téléphones cellulaires pour la captation. Cependant la recomposition d'une vidéo à partir de téléphones positionnés autour de la scène reste complexe notamment en raison de la mobilité de tels téléphones et donc des positions respectives des téléphones vis à vis de la scène.
Exposé de l'invention
La présente invention a pour but de remédier à tout ou partie des inconvénients de l'art antérieur, notamment ceux exposés ci-avant, en proposant une solution qui permette, en comparaison avec les solutions de l'état de la technique, de recomposer une vidéo unique à partir de plusieurs vidéos d'une même scène tout en évitant les solutions complexes de gestion de la mobilité des terminaux de capture et l'intervention d'un utilisateur.
A cet effet, l'invention concerne un procédé de composition d'une vidéo comprenant:
- la réception d'un au moins un premier dispositif de capture vidéo d'une première vidéo représentative d'une première partie d'une scène et de métadonnées associées à au moins une image fixe de la première partie de ladite scène, la métadonnée étant représentative d'une position géographique du premier dispositif de capture au moment de la capture de l'image,
- la réception d'un au moins un second dispositif de capture vidéo d'une deuxième vidéo représentative d'au moins une deuxième partie de ladite scène et de métadonnées associées à au moins une image fixe de la seconde partie de la scène, la métadonnée étant représentative de la position géographique du second dispositif de capture au moment de la capture de l'image, les premières et deuxièmes vidéos étant synchronisées,
- la détermination de points d'intérêt fixes dans chacune des vidéos,
- la composition d'une vidéo composite représentative de ladite scène à partir des première et au moins une deuxième vidéos par mise en correspondance desdits points d'intérêt,
- la mise à disposition de la vidéo représentative de la scène, la détection d'un mouvement d'au moins un des deux dispositifs de capture sur la base des métadonnées reçues déclenchant une nouvelle détermination des points d'intérêt fixes dans la vidéo capturée par le dispositif en mouvement puis la composition d'une nouvelle vidéo composite.
Ainsi, le procédé peut avantageusement détecter que les dispositifs de capture ont bougé, ou au moins l'un d'entre eux et automatiquement recalculer les points d'intérêt. De cette manière, la composition des deux vidéos génère une vidéo de qualité constante à partir des deux vidéos. Aucune intervention humaine n'est nécessaire ni pour repositionner les dispositifs de capture ni pour demander un nouveau calcul des points d'intérêt tant que le procédé peut calculer ou recalculer les points d'intérêt ou tant que la variation des métadonnées reste inférieure à un seuil.
Dans des modes particuliers de mise en œuvre, la détermination de points d'intérêt fixes dans chacune des vidéos comprend :
- la transmission à au moins un dispositif d'affichage vidéo, des première et au moins deuxième vidéos,
- la réception du au moins un dispositif d'affichage vidéo, des points d'intérêt relatifs à chacune des parties de la scène. Dans des modes particuliers de mise en œuvre, la mise à disposition comprend l'un ou l'autre ou plusieurs parmi :
- l'enregistrement de la vidéo composite,
- l'affichage de la vidéo composite,
- la transmission de la vidéo composite à au moins un dispositif d'analyse.,
De manière avantageuse, la vidéo recomposée est destinée à être diffusée, par exemple à un groupe de diffusion. Elle peut être diffusée en direct, le procédé étant rapide et ne provoquant qu'un très léger décalage avec l'événement. La vidéo peut aussi être enregistrée et diffusée en décalé, à la demande.
Dans des modes particuliers de mise en œuvre, lorsque ladite vidéo est transmise à au moins un dispositif d'analyse, il comprend en outre
- la réception, suite à la transmission de données d'enrichissement de la scène,
- la synchronisation des données d'enrichissement avec la vidéo composite ;
- la mise à disposition de la vidéo composite enrichie des données d'enrichissement.
Ainsi, outre la recomposition automatique de la vidéo à partir des deux vidéos, le procédé peut avantageusement proposer à un utilisateur final un contenu enrichi de données additionnelles relatives au contenu capturé.
Selon un troisième aspect, l'invention concerne un procédé d'analyse de vidéo comprenant
- La réception, d'une vidéo composite représentative d'une scène obtenue par un procédé de composition d'une vidéo selon l'invention,
- L'ajout de données d'enrichissement sur ladite vidéo composite pour annoter ladite vidéo composite,
- La mise à disposition de la vidéo composite annotée et des données d'enrichissement.
De manière préférée, les données d'enrichissement sont obtenues par un positionnement des données d'enrichissement par un utilisateur à travers une interface graphique.
Selon un autre mode de réalisation, le procédé de composition analyse la vidéo composite (par exemple en utilisant de l'intelligence artificielle) et compare les données d'enrichissement reçues avec les données analysées et en cas d'incohérence, soumet lesdites incohérences à l'utilisateur au travers de l'interface graphique pour validation finale. L'invention concerne également un dispositif de capture vidéo comprenant des moyens de capture vidéo, une interface de communication avec au moins un serveur et au moins un processeur apte à mettre en œuvre un procédé de capture vidéo selon l'invention.
L'invention concerne également un serveur comprenant
- au moins une première interface de communication avec un dispositif de capture vidéo,
- au moins une seconde interface de communication avec un dispositif d'affichage vidéo,
- au moins un processeur apte à mettre en œuvre un procédé de composition d'une vidéo selon l'invention.
L'invention concerne également un système comprenant au moins un premier et un second dispositif de capture vidéo selon l'invention, au moins un serveur selon l'invention et au moins un dispositif d'analyse apte à mettre en œuvre un procédé d'analyse selon l'invention.
L'invention concerne également un programme d'ordinateur comportant des instructions pour la mise en œuvre d'un des procédés selon l'invention lorsque le programme est exécuté par un ordinateur.
L'invention concerne également un support d'enregistrement lisible par un ordinateur sur lequel est enregistré un programme d'ordinateur selon l'invention.
Brève description des dessins
[Fig. 1] La figure 1 représente un procédé de capture vidéo selon un mode de réalisation particulier de l'invention.
[Fig. 2] La figure 2 représente un procédé de composition d'une vidéo selon un mode de réalisation particulier de l'invention.
[Fig. 3] La figure 3 représente la position des points d'intérêt selon un mode particulier de réalisation de l'invention.
[Fig. 4] La figure 4 représente un procédé d'analyse de vidéo selon un mode de réalisation particulier de l'invention.
[Fig. 5] La figure 5 représente un dispositif de capture vidéo selon un mode de réalisation particulier de l'invention. [Fig. 6] La figure 6 représente un serveur de composition d'une vidéo selon un mode de réalisation particulier de l'invention.
[Fig. 7] La figure 7 représente un dispositif d'analyse de vidéo selon un mode de réalisation particulier de l'invention.
[Fig. 8] La figure 8 représente un système selon un premier mode de réalisation particulier de l'invention.
[Fig. 9] La figure 9 représente la position de deux caméras autour d'une scène à capturer selon un mode de réalisation particulier de l'invention.
[Fig. 10] La figure 10 la position de trois caméras autour d'une scène à capturer selon un mode de réalisation particulier de l'invention.
[Fig. 11] La figure 11 représente un système selon un second mode de réalisation particulier de l'invention.
Description des modes de réalisation
Dans les modes de réalisation décrits ci-après, la scène capturée est une scène représentative d'un match de football et donc plus précisément des événements se passant sur un terrain de football lors d'un match. Ainsi, lorsqu'il est fait référence à une première partie de la scène et à une seconde partie de la scène, il est fait particulièrement référence à une première partie du terrain de football, par exemple un peu plus qu'un demi-terrain pour une première partie et un peu plus qu'un demi terrain pour une seconde partie. Bien entendu, ceci est un exemple de scène capturée et ne saurait aucunement constituer une limitation de l'invention à la captation d'un match de football. De même, d'autres sports peuvent être envisagés mais également d'autres événements tels des concerts ou autres scènes de la vie.
Par ailleurs, la description des figures 1 à 9 fait référence principalement à des modes de réalisation basés sur la capture de deux parties de la même scène. Il est à noter que le fait de parler de deux parties de la scène n'est pas limitatif à deux et que l'invention ne se limite pas à deux captures mais à au moins deux. La figure 10 illustre par exemple le positionnement possible de trois moyens de capture.
La figure 1 représente sous forme d'ordinogramme, les principales étapes d'un procédé de capture vidéo selon un mode de réalisation préféré de l'invention. Ledit procédé comprend des étapes Ela et Elb lors desquelles deux vidéos sont capturées. Plus précisément, lors de l'étape Ela, une vidéo d'une partie de ladite scène est capturée et lors de l'étape Elb, une vidéo d'au moins une autre partie de la dite scène est capturée. Les deux étapes Ela et Elb sont effectuées de manière simultanée. Les deux parties capturées contiennent au moins une portion commune de la scène, cette portion commune comprenant au moins deux points d'intérêt fixes communs.
Les deux vidéos sont capturées de manière synchrone ou peuvent être synchronisées grâce à des étiquettes temporelles. Pour ce faire, préalablement au démarrage du procédé de capture, un procédé de synchronisation (non représenté sur les figures) est lancé de manière à associer à chaque vidéo capturée une étiquette temporelle (« timecode » en anglais). Ceci est par exemple avantageusement réalisé en utilisant le protocole NTP (« network Time Protocol » en anglais). Chacune des images capturées ayant son étiquette temporelle, il est possible de synchroniser les deux vidéos lors de leur réception par un dispositif distant, peu importe les délais de transmission de chacune des vidéos qui pourraient être causés par des perturbations réseau ou des vitesses de transmission différentes selon le réseau utilisé par chacun des dispositifs de capture.
Dans d'autres modes de réalisation, la synchronisation des deux flux peut se faire grâce aux pistes sonores des flux. La fréquence d'échantillonnage du son étant beaucoup plus élevée que la fréquence des images, et les pistes sonores étant pratiquement identiques sur tous les flux car les micros sont très proches, caler les pistes sonores permet également de caler les étiquettes temporelles, donc les flux. Ce système est utilisé pour la synchronisation et le montage des captations multi caméras tout en évitant les effets d'échos.
Ensuite, lors d'une étape E2a, E2b, des métadonnées sont obtenues, préférentiellement à partir de données du capteur GPS (pour « Global Positioning System » en anglais ou système de positionnement global en français) et/ou de données d'un accéléromètre et/ou d'un gyroscope et/ou d'un magnétomètre. Chaque vidéo d'une partie de la scène est capturée par des moyens de capture et ces moyens peuvent par exemple être associés ou collaborer avec un GPS, un accéléromètre, un gyroscope ou un magnétomètre.
Selon un autre mode de réalisation, un processeur associé aux moyens de capture peut également, à l'aide d'un programme logiciel, obtenir lesdites métadonnées.
Ainsi, lors de la capture de chaque partie de la scène, il est possible d'associer à chaque image capturée les métadonnées. Chaque image est donc associée à une étiquette temporelle et à des métadonnées. Bien entendu, certaines métadonnées varient peu telles la latitude et la longitude alors qu'en cas d'intempéries, certaines métadonnées vont varier plus, telles l'assiette, la boussole ou l'inclinaison. Ainsi, la longitude et la latitude peuvent être associées à la vidéo et transmises moins fréquemment que d'autres qui pourraient varier davantage au cours de la capture.
Les métadonnées sont principalement relatives à la position géographique, pouvant inclure également l'orientation, d'un dispositif de capture mettant en œuvre le procédé et par exemple décrit en figure 4. Ainsi, un changement dans les métadonnées permet d'identifier un déplacement ou un mouvement de la caméra. Un tel déplacement/mouvement, n'est pas nécessairement mais peut être, un déplacement opéré, volontairement ou involontairement, par une personne. Un tel déplacement/mouvement peut également être lié à la météorologie par exemple. S'il y a beaucoup de vent, il est possible que le dispositif de capture mettant en œuvre le procédé dévie de sa position initiale. Ceci est d'autant plus vrai si le dispositif de capture est attaché en hauteur (pour avoir une meilleure vision de la scène à capturer). De préférence, pour éviter des modifications importantes des métadonnées, les moyens de capture sont fixés de manière rigide et ancrés au sol. Par exemple, ils peuvent être fixés sur un ou plusieurs trépieds, démontables ou fixés au sol.
Lors d'une étape E3a, E3b, chaque flux vidéo (comprenant les étiquettes temporelles) et les métadonnées associées à la capture sont transmis vers un serveur, représenté en figure 5.
Selon un mode de réalisation préféré, les métadonnées sont transmises de manière périodique vers le serveur. De manière périodique signifie à des instants régulièrement espacés dans le temps ou à des instants irrégulièrement espacés dans le temps. Par exemple, il peut être envisagé que les métadonnées soient transmises toutes les 60s. La fréquence d'envoi des métadonnées peut également être programmée et varier selon les conditions météorologiques par exemple si les dispositifs de capture sont situés en extérieur. Lorsqu'il y a beaucoup de vent par exemple, les moyens de capture peuvent éventuellement bouger, selon leur localisation ou leur fixation au sol et ainsi il peut être choisi de transmettre les métadonnées avec une fréquence plus grande que lorsque le temps est calme. Chacun des dispositifs de capture peut également transmettre les métadonnées selon une fréquence différente puisque chacun des dispositifs de capture peut être sujet à des variations différentes selon son emplacement ou les conditions propres à son emplacement.
La transmission peut se faire en utilisant le réseau de communication sans fil, comme le réseau cellulaire 2G, 3G, 4G, 5G et plus ou alors en utilisant une connexion WIFI. Chacun des dispositifs de capture peut également utiliser un réseau différent pour transmettre la vidéo et les métadonnées. Les images des flux vidéo sont préférentiellement transmises à un débit de 30 images par seconde. Dans d'autres modes de réalisation, elles peuvent être transmises à un rythme de 60, 120 ou 240 images par seconde. L'évolution des réseaux de communication et des standards vidéo peut permettre la transmission de vidéos de taille supérieure, par exemple Full HD, 4K, 8K en utilisant des réseaux de transmission comme la 5G et versions ultérieures, ou les réseaux WIFI de normes futures.
Bien entendu, la vidéo peut être transmise de manière encodée (compressée) avant transmission en utilisant des algorithmes de codage tels MPEG-4, H.264 ou X.264 ou d'autres formats...
La figure 2 représente un procédé de composition d'une vidéo composite selon un mode de réalisation particulier de l'invention. Le procédé est avantageusement mis en œuvre dans un serveur tel que représenté en figure 5.
Lors d'une étape Tl, la vidéo (comprenant les étiquettes temporelles) et les métadonnées représentatives d'une première partie de la scène, et d'au moins une seconde partie de la scène, sont reçues. Les vidéos ont été capturées avec une même étiquette temporelle, elles peuvent donc être synchronisées à l'aide de ces étiquettes temporelles. De même, les métadonnées étant associées à une image, chaque image étant associée à une étiquette temporelle, les métadonnées sont donc associées à la même étiquette que l'image à laquelle elles sont associées.
Lors d'une étape T2, on détermine dans chacune des deux vidéos des points d'intérêt fixes dans la scène. La composition de la vidéo composite représentative de ladite scène est réalisée à partir des première et au moins une deuxième vidéos par mise en correspondance des points d'intérêt.
Lors de cette étape la détermination des points d'intérêt est liée à la nature de la scène capturée. Par exemple, lorsque la scène capturée est un match de football, 4 points d'intérêt sont déterminées sur chaque partie de la scène.
Selon un premier mode de réalisation, comme illustré en figure 3, les 4 points d'intérêt sont définis comme étant les points d'intersection entre
- La ligne médiane et les deux lignes de touche :
- les points Rlu et RJd pour la première partie de la vidéo représentant la partie droite de la scène en figure 3 droite et les points Lru et Lrd pour la seconde partie de la vidéo en figure 3 gauche représentant la partie gauche de la scène - La ligne de but et les deux lignes de touche : les points Rru et Rrd pour la première partie de la vidéo représentant la partie droite de la scène en figure 3 droite et les points Llu et Lld pour la seconde partie de la vidéo en figure 3 gauche représentant la partie gauche de la scène
Le procédé de composition et particulièrement la détection des points d'intérêt sont liés au type de scène filmée. Ainsi, le procédé de composition pourra être paramétré au préalable avec le type d'événement capturé.
Selon un mode de réalisation préféré, les points d'intrêts sont déterminés en utilisant différentes fonctions et algorithmes de la librairie open-cv. Tout d'abord les masques de couleur (vert pour le terrain et blanc pour les lignes). La détection de contours peut-être effectuée par le filtre de Canny (algorithme de canny), par la méthode des gradients ou du laplacien. Afin d'éliminer les faux-positifs restant, le procédé met en œuvre les librairies open-cv, numpy, et skimage.morphologie dans python (ou équivalent en langage C++) ou l'algorithme watershed (ou ligne de partages des eaux). La fonction morpho est calibrée pour ne garder que les éléments en ligne droite les plus longs (éliminant ainsi les buts comprenant les poteaux et la barre transversale, le rond central ou la surface de réparation pour l'exemple du football).
Selon un mode particulier de réalisation la détermination, à l'étape T2, de points d'intérêt fixes dans chacune desdites vidéos peut comprendre :
- la transmission à au moins un dispositif d'analyse vidéo, des au moins deux vidéos reçues représentatives chacune d'au moins une partie de la scène,
- La réception du au moins un dispositif d'analyse vidéo, des points d'intérêt relatifs à chacune des parties de ladite scène.
Le dispositif d'analyse vidéo est représenté en figure 7
Ceci peut éventuellement permettre la détermination des points d'intérêt par un autre dispositif et éventuellement permettre si besoin d'ajuster les points d'intérêt dans le cas où la détection automatique ne pourrait avoir lieu, par exemple par l'intervention d'un utilisateur.
Par exemple, si seulement trois points d'intérêt peuvent être déterminés lors de l'étape T2 par le procédé, alors l'utilisateur peut être amené à positionner un quatrième point d'intérêt pour améliorer le procédé de composition, plus fiable avec quatre points d'intérêt qu'avec trois points d'intérêt.
Selon un mode particulier de réalisation la détermination, à l'étape T2, de points d'intérêt fixes dans chacune desdites vidéos peut comprendre :
- la transmission à au moins un dispositif d'analyse vidéo, des au moins deux vidéos reçues représentatives chacune d'au moins une partie de la scène, et des points d'intérêt,
- La réception du au moins un dispositif d'analyse vidéo, de nouveaux points d'intérêt relatifs à chacune des parties de ladite scène.
Ainsi, ceci peut avantageusement ajuster un ou plusieurs points d'intérêt lorsque la détection automatique ne fonctionne pas correctement ou de manière suffisamment précise.
Selon un autre mode particulier de réalisation la détermination, à l'étape T2, de points d'intérêt fixes dans chacune desdites vidéos peut comprendre :
- la transmission à au moins un dispositif d'analyse vidéo, des au moins deux vidéos reçues représentatives chacune d'au moins une partie de la scène, et des points d'intérêt,
- La réception du au moins un dispositif d'analyse vidéo, d'un message de validation de la position de au moins un des points d'intérêt.
Ceci peut avantageusement permettre à un utilisateur ou un opérateur de confirmer ou non la détection automatique de la position des points d'intérêt.
Selon un autre mode de réalisation, lors de la transmission à au moins un dispositif d'analyse vidéo, des au moins deux vidéos reçues représentatives chacune d'au moins une partie de la scène, les deux vidéos sont transmises à la même résolution (définition) et plus particulièrement à la résolution la plus faible de celle des deux vidéos lorsque les deux vidéos ne sont pas capturées selon la même définition.
Selon un autre mode de réalisation préféré, outre la position des points d'intérêt, des données telles que la détection des limites du terrain peuvent être transmises et validées ou corrigées par le dispositif d'analyse vidéo. Plus généralement, des données de géométrie relatives à ladite scène peuvent être transmises au dispositif d'analyse vidéo et repositionnées par celui-ci ou validées par celui-ci. Ainsi, selon ce mode de réalisation l'étape T2 peut comprendre :
- la transmission à au moins un dispositif d'analyse vidéo, des au moins deux vidéos reçues représentatives chacune d'au moins une partie de la scène, des points d'intérêt ou de données relatives à la géométrie de la partie de la scène,
- La réception du au moins un dispositif d'analyse vidéo, d'un message de validation de la position de au moins un des points d'intérêt ou de la géométrie de la scène.
Lors d'une étape T3, les métadonnées reçues avec chaque vidéo sont analysées pour étudier leur variation. Comme décrit dans la figure 1, les métadonnées sont représentatives d'une position géographique des moyens de capture, de l'assiette, de l'inclinaison ou de la boussole (l'inclinaison des moyens de capture par rapport au Nord). Les métadonnées sont transmises de manière périodique, à des intervalles de temps réguliers ou non, et analysées lors de leur réception en les comparant à des métadonnées de référence. Les métadonnées de référence dont des métadonnées transmises par les moyens de capture lors de leur initialisation ou mise en place (lors du verrouillage). Si cette comparaison détecte que la position géographique (par exemple la latitude ou la longitude), ou l'inclinaison, ou l'assiette ou la boussole ont varié et que la variation est supérieure à un seuil donné, alors les points d'intérêt sont recalculés. Comme indiqué, ces variations sont dues à un déplacement des moyens de capture. De manière avantageuse, lorsque les métadonnées ne varient pas, par exemple parce que les moyens de capture ne sont pas accessibles facilement et ne peuvent donc pas être déplacés par inadvertance ou lorsque les conditions météorologiques sont bonnes (absence de vent par exemple), alors la comparaison peut se faire de manière plus espacée dans le temps et pas systématiquement à chaque réception de nouvelle métadonnée.
Si le résultat de la comparaison, étape T4, est supérieur à un seuil, chaque seuil étant défini pour chaque type de métadonnée, alors les points d'intérêt sont redéfinis. Sinon les points d'intérêt ne sont pas redéfinis. Bien entendu, les points d'intérêt étant utilisés lors de l'étape T5, ils sont toujours définis au lancement du procédé lors de la réception des premières métadonnées, les étapes d'analyse et de comparaison T3 et T4 intervenant ensuite au cours de la capture pour vérifier la stabilité géographique des dispositifs de capture.
Selon un autre mode de réalisation les métadonnées ne sont pas comparées à un seuil mais doivent être comprises dans une plage de tolérance centrée autour de la valeur de la première métadonnée reçue correspondante dite métadonnée de référence. Il est possible qu'un seul des dispositifs de capture ait bougé et que la variation des métadonnées associées soit suffisamment importante pour nécessiter un nouveau calcul des points d'intérêt. Dans cas, les points d'intérêt sont recalculés uniquement pour cette partie de la vidéo lors de l'étape T2.
Selon un autre mode de réalisation, plusieurs seuils peuvent être définis.
Le premier seuil SI est défini comme étant un seuil au-dessous duquel la variation des métadonnées n'implique pas de recalcul de position des points d'intérêt.
Le second seuil S2 est défini comme étant un seuil au-dessus duquel les au moins deux dispositifs de capture ne capturent plus de zone commune permettant la détermination d'un nombre suffisants de points d'intérêt fixes pour la composition de la vidéo composite.
Si la variation des métadonnées est sous le premier seuil SI, alors il n'y a pas de recalcul des points d'intérêt car cette faible variation n'implique pas de déformations des symétries ni des parallélismes de l'image composite à construire.
Si la variation des métadonnées est comprise entre ce premier seuil SI et le second seuil S2, alors un recalcul des points d'intérêt est nécessaire comme indiqué ci-dessus.
Si la variation des métadonnées est supérieure à ce second seuil S2, alors le repositionnement des moyens ou d'au moins l'un des moyens de capture, est nécessaire avant le recalcul des points d'intérêt.
Lors d'une étape T5, une vidéo composite représentant la scène est composée à partir des deux vidéos représentant chacune au moins une partie de la scène et des points d'intérêt.
Lors de cette étape, en référence à la figure 3, il s'agit de créer une unique vidéo, appelée vidéo composite, dans laquelle une unique scène est créée. La scène recomposée à partir des deux demi-scènes des vidéos de gauche et vidéos de droite est représentée en dessous.
Ainsi, lors de cette étape, les deux vidéos sont mises en correspondance, en faisant correspondre les points Lru et Rlu et les points Lrd et Rld. Ceci est illustré en figure 3 basse, les points d'intérêt Lru et Rlu sont confondus de même que les points d'intérêt Lrd et Rld.
La composition est réalisée en utilisant des algorithmes d'assemblage graphique, « stitching » en anglais, et de coupage, « cropping » en anglais. Dans le cas d'une scène représentant un terrain de sport, les contraintes suivantes sont prises en compte pour la composition de la vidéo composite : - L’image composite doit avoir les lignes de touches haute et basse parallèles,
- L'image composite doit avoir la ligne médiane perpendiculaire aux lignes de touches,
- Les lignes longeant les buts sur l'image composite sont chirales,
- La longueur de ligne de touche basse doit faire 2 fois la définition du flux de plus basse résolution, en nombre de pixels,
- la hauteur de la ligne médiane est choisie en comparant les hauteurs des deux points d'intérêt commun et en conservant la plus grande, la seconde devra s'étirer pour y correspondre.
- Dans le cas de 3 dispositifs de capture, la hauteur de la ligne médiane sur le dispositif de capture central sera le référent,
- La longueur de chaque moitié des lignes de touches hautes est identique
- La largeur de l'image composite est de 2 fois la largeur du flux (si 2 flux), sa hauteur est réduite pour éliminer les zones de vides (trous) créées par le stiching.
Selon un mode de réalisation particulier, les algorithmes de coupage et collage utilisent des librairies python telles que open-cv et des fonctions cv2.getPerspectiveTransform et cv2.getWarpPerspective. Un encodage est ensuite réalisé en format X.264 avec la fonction cv2.videoWriter en précisant la taille de l'image (size) et le nombre d'images par seconde (fps). D'autres fonctions équivalentes peuvent être utilisées lorsque le langage de codage utilisé est le C++.
Selon un mode de réalisation particulier, cette étape peut comprendre une sous-étape de validation. Cette sous-étape de validation comprend la transmission à un dispositif d'analyse vidéo, d'une version, par exemple basse définition, de la vidéo composite.
Le terminal abonné peut recevoir, des instructions, par un utilisateur, pour ajuster certains points géométriques de la scène recomposée obtenus lors de la composition. Par exemple, dans le cadre d'un terrain de sport, il peut s'agir de l'ajustement des 4 coins du terrain de sport. Plus précisément, selon un mode préféré, seuls les deux points d'intérêt définis par l'intersection de la ligne de touche supérieure (haut de l'image) et les lignes de but sont modifiables. Les instructions peuvent aussi comprendre un ajustement, telle une diminution de la hauteur de l'image, en éliminant par exemple des éléments inutiles. Les instructions peuvent aussi comprendre le remplacement de ces zones inutiles par des bandeaux publicitaires.
Par zone inutile, on peut entendre par exemple, des zones à l'extérieur des limites du terrain.
Lors de cette étape de composition T5, selon une variante, les différences entre les paramètres de couleur et luminosité, tels que par exemple le contraste, la luminosité, la saturation, l'exposition entre les deux vidéos sont également prises en compte afin de générer la vidéo composite. Ainsi, ces différences peuvent être lissées, des filtres peuvent également être appliqués pour homogénéiser, voire transformer, l'un ou l'autre flux pour avoir une vidéo composite homogène sur les deux parties ainsi rassemblées.
Une fois la vidéo recomposée à partir des points d'intérêt et des deux vidéos, elle est mise à disposition, étape T6.
Selon une première variante, la mise à disposition consiste à enregistrer la vidéo composite de manière par exemple à la diffuser ultérieurement.
Selon une autre variante, la mise à disposition consiste en l'affichage.
Selon une autre variante, la mise à disposition consiste à transmettre la vidéo composite à un ou plusieurs dispositifs en vue de son affichage ou en vue de son enregistrement pour une visualisation ou utilisation ultérieure. La vidéo peut être enregistrée selon des résolutions différentes et ce en fonction de la capacité des réseaux de communication et des terminaux auxquelles elle est destinée.
Les trois variantes peuvent bien entendu être combinées. De même, des définitions différentes de la vidéo composite peuvent être mises à disposition selon la bande passante, l'utilisation finale de la vidéo et les capacités du dispositif final d'utilisation de la vidéo.
Lorsque la mise à disposition consiste en l'affichage de la vidéo composite (pouvant d'ailleurs être précédée de l'enregistrement), selon un mode de réalisation particulier, la vidéo composite peut être enrichie par un utilisateur, ou de manière automatique par un programme.
Dans un mode de réalisation, lorsque c'est un programme qui enrichie la vidéo composite, l'enrichissement peut être réalisé à l'aide d'un logiciel d'analyse d'image et de détection des actions préférentielles liées à l'événement diffusé. Par exemple, lors d'un match, il est possible de détecter les buts, les corners, et de compiler des statistiques, il est également possible de rajouter par exemple le nom des joueurs, le nombre de possessions de ballons, le nombre de ballons touchés, perdus, récupérés, le temps de possessions de ballons par joueur ou par équipe, le nombre de tirs cadrés ou pas, la distance parcourue par chaque joueur, par match, par poste et ainsi de voir l'évolution des statistiques lors d'une saison complète.
Lorsque c'est un utilisateur qui enrichie la vidéo composite, elle est transmise à au moins un dispositif d'analyse, par exemple un dispositif 3 tel qu'illustré en figure 7 et utilisé par l'utilisateur qui va enrichir la vidéo composite. Dans ce cas, le procédé de composition de la vidéo comprend
- la réception, suite à la transmission, de données d'enrichissement de ladite scène,
- la synchronisation des données d'enrichissement avec la vidéo composite ;
- la mise à disposition de la vidéo composite enrichie des données d'enrichissement.
Lorsque la vidéo est transmise pour enrichissement, elle peut avantageusement être transmise avec un taux de compression élevé de manière à rendre la latence très basse. Le taux de compression est adapté au débit disponible. Ainsi, l'enrichissement se fait presque en direct ou « live » en anglais.
Un mode de réalisation, lorsque l'utilisateur enrichie la vidéo, est décrit ultérieurement en figure 4.
La figure 3, brièvement décrite ci-dessus illustre les deux parties de la scène et leur composition par le procédé de composition.
La vidéo de gauche représente la capture vidéo d'un premier moyen de capture qui capture la partie droite d'un terrain de sport, plus particulièrement de football. Sur cette vidéo sont positionnés 4 points d'intérêt Llu, Lru, Lrd et Lld. Ces quatre points d'intérêt sont fixes et représentent comme décrit ci-dessus par exemple des intersections de lignes sur un terrain.
La zone hachurée sur les deux vidéos de droite et de gauche représente une zone commune ou de chevauchement de la scène, c'est-à-dire une partie de la scène capturée par les deux dispositifs de capture vidéo. Ainsi les points Lru, Rlu représentent des points identiques de la scène et les points Lrd et RJd représentent également un même point de la scène.
Le procédé de composition vidéo va générer la vidéo composite, vue de dessous de la figure 3, comme décrit précédemment en regard de la figure 2.
Sur la figure 3, les points Lld et Rrd ne coïncident pas avec les bords de l'image. Ceci représente une version non limitative de l'image composite. Dans d'autres modes de réalisation, il est envisagé que les points d'intérêt Lld et Lrd coïncident avec les bords de l'image composite, celle-ci représentant alors en longueur la longueur du terrain. Ainsi la figure 3 représente une parmi plusieures images composites, ceci dépendant du zoom souhaité. On peut envisager ainsi d'avoir une image composite comprenant uniquement le terrain ou également les ou une partie des tribunes, ou par exemple une zone tampon autour du terrain ou autour de certains bords du terrain.
La figure 4 représente un procédé d'analyse selon un mode particulier de réalisation de l'invention dans lequel la vidéo composite mise à disposition lors de l'étape T5 en référence à la figure 2, est transmise à un dispositif utilisateur. Ce dispositif utilisateur peut être, de manière non limitative, un téléphone mobile, un ordinateur, une tablette, une télévision... La vidéo composite est reçue sur le dispositif utilisateur lors de l'étape Ul. Elle est également décodée si elle a été transmise de manière codée pour être ensuite affichée sur un écran du dispositif de l'utilisateur. Lors d'une étape U2, l'utilisateur positionne des informations, dites informations d'enrichissement, sur la vidéo composite ou associe à la vidéo composite des informations d'enrichissement. Les informations d'enrichissement, dans l'exemple d'un match de football, peuvent par exemple correspondre à des informations permettant d'annoter le match sous forme de mots tels que « but », « corner, « touche ». Elles peuvent également identifier les joueurs, ajouter des commentaires personnels de l'utilisateur, ajouter des statistiques sur le nombre de passes réussies, le score.... Ces informations ainsi que la vidéo composite peuvent ensuite être affichées sur le terminal de l'utilisateur, transmises au serveur pour diffusion vers d'autres terminaux d'affichage ou enregistrées ou les deux.
Pour ce faire, l'utilisateur utilise de manière avantageuse mais non limitative une interface utilisateur. Cette interface graphique peut par exemple lui permettre de venir sélectionner des événements prédéfinis correspondant au type de scène capturée. Par exemple, lorsque la scène est un match de football, les événements prédéfinis peuvent être « but », « corner », « touche ». L'utilisateur peut également venir associer des noms aux joueurs, demander la compilation de statistiques...
Si l'événement est un concert alors il peut venir rajouter le titre de la chanson, il peut également positionner le nom des musiciens, l'année de la chanson, le titre de l'album...
Ainsi, les informations d'enregistrement sont obtenues ou positionnées en fonction d'une analyse du contenu de la scène.
Une fois les données d'enrichissement positionnées, lors d'une étape U3, la vidéo composite et les données d'enrichissement sont synchronisées si besoin. Finalement, lors d'une étape U4, la vidéo composite enrichie des informations d'enrichissement est mise à disposition.
Selon une première variante, la mise à disposition consiste à enregistrer la vidéo composite enrichie de manière à la diffuser ultérieurement par exemple.
Selon une autre variante, la mise à disposition consiste en l'affichage de la vidéo composite enrichie sur le terminal de l'utilisateur.
Selon une autre variante, la mise à disposition consiste à transmettre la vidéo composite enrichie à un serveur ou à un ou plusieurs dispositifs en vue de son affichage ou en vue de son enregistrement pour une visualisation ou utilisation ultérieure.
Lorsque le serveur reçoit la vidéo enrichie, il peut également compiler ou avoir analysé la vidéo et comparer son analyse aux données d'enrichissement pour vérifier ces dernières. En cas de conflit lors de la vérification, une demande de validation peut être transmise au dispositif d'analyse vidéo et donc à l'utilisateur par l'intermédiaire de l'interface graphique par exemple.
Les trois variantes peuvent, bien entendu, être combinées.
Le procédé est mis en œuvre dans un dispositif d'analyse et par exemple un dispositif d'analyse tel que décrit en figure 6.
La figure 5 représente un dispositif de capture configuré pour mettre en œuvre un procédé tel que décrit en figure 1.
Le dispositif 1 comprend des moyens de capture 11. Les moyens de capture 11 sont de préférence une caméra telle que l'on peut retrouver dans un téléphone mobile. Ainsi, de préférence, le dispositif 1 est un téléphone mobile mais peut également être un ordinateur ou plus généralement un dispositif équipé de moyens de capture. Les moyens de capture capturent au moins une partie d'une scène vidéo selon un mode de réalisation préféré.
Le dispositif 1 comprend également des moyens d'affichage 16. Ces moyens d'affichage sont optionnels mais peuvent permettre avantageusement de visualiser la scène capturée par les moyens de capture 11. Le dispositif 1 comprend également une interface de communication 14 adaptée à communiquer avec des dispositifs distants, tels que par exemple mais non limitativement avec un serveur 4. Cette interface de communication peut être de type cellulaire (3G, 4G, 5G...) ou WIFI ou les deux, voire d'autres protocoles. Le dispositif 1 comprend également une mémoire 15 contenant des données et instructions de programme et une mémoire 12 permettant d'enregistrer des données, telles par exemple des données vidéos. La mémoire 12 peut par exemple enregistrer de manière temporaire ou plus long terme les données capturées par les moyens de capture 11, avant transmission à l'interface de communication 14. Le dispositif 1 comprend un processeur 13 apte à coopérer avec les moyens précités du dispositif 1 et principalement configuré pour mettre en œuvre le procédé décrit en figure 1. Le dispositif 1 comprend également un accéléromètre 18, un capteur GPS 17, un magnétomètre 19 et un gyroscope (électronique) 20. Le capteur GPS 17 permet de déterminer la position géographique du dispositif de capture et l'accéléromètre 18 permet de déterminer les mouvements de l'appareil (la vitesse de déplacement). Le gyroscope 20 permet de mesurer la rotation du dispositif de capture et le magnétomètre 19 fonctionne comme une boussole numérique. Ainsi, l'inclinaison, la boussole, et l'assiette du dispositif de capture sont mesurés. En outre un journal des positions du dispositif de capture peut être tenu à jour.
Avant tout lancement de la capture selon un mode préféré de réalisation de l'invention, le dispositif de capture est verrouillé, c'est-à-dire qu'il est positionné dans une position considérée comme une position de référence. Il s'agit donc d'un verrouillage physique qui peut être suivi par un verrouillage numérique, permettant d'avoir un rendu constant, à savoir par exemple obtenir une vidéo n'ayant pas de zone surexposée. Lors du verrouillage physique, le dispositif de capture transmet des métadonnées obtenues par le capteur GPS 17 et l'accéléromètre 18 qui constituent les métadonnées de référence utilisées par le procédé selon la figure 2 pour la comparaison avec les métadonnées transmises ensuite de manière périodique.
La figure 6 décrit un dispositif 4 de composition de vidéo et de manière préférée un dispositif de type serveur. Ainsi ce serveur peut par exemple être situé à distance ou dans le « nuage informatique » bien connu en anglais sous le terme de « cloud ». Par ailleurs, selon certains modes de réalisation, les fonctions de ce dispositif peuvent être distribuées dans plusieurs serveurs. Par exemple le dispositif d'analyse 3 peut recevoir les données (vidéo composite et points d'intérêt) d'un premier serveur et transmettre la vidéo enrichie et/ou les données d'enrichissement à un autre serveur, physiquement différent du serveur qui lui a transmis la vidéo composite et éventuellement les points d'intérêt. De même un troisième serveur peut communiquer/coopérer avec l'un ou l'autre des serveurs pour transmettre la vidéo à une ou plusieurs résolutions supplémentaires.
Le dispositif de communication de vidéo 4 comprend un processeur 47 configuré pour mettre en œuvre un procédé de composition vidéo tel que décrit en figure 2. Le processeur 47 collabore avec une mémoire d'enregistrement 43 et une mémoire de programme 44. La mémoire d'enregistrement 43 peut par exemple enregistrer de manière temporaire ou plus long terme les données reçues ou transmises par les interfaces de communication 41a, 41b, 41c. Les interfaces de communication 41a, 41b, 41c sont de préférence adaptées à communiquer respectivement avec plusieurs dispositifs de capture 1, un ou plusieurs dispositifs d'analyse 3. Le nombre d'interfaces de communication est donné à titre illustratif. De telles interfaces de communication sont de manière préférée des interfaces de type cellulaire (3 G, 4G, 5G et futures...) ou WIFI norme 5, 6 et futures ou les deux.
La figure 7 représente un dispositif d'analyse vidéo 3 selon un mode préféré de réalisation.
Le dispositif 3 comprend un processeur 33 configuré pour mettre en œuvre un procédé d'analyse vidéo tel que décrit en figure 4. La mémoire 35 comprend des données et instructions de programme du processeur 33 et la mémoire 32 est utilisée pour enregistrer notamment de manière temporaire ou permanente la vidéo reçue à travers l'interface de communication 34 et des données d'enrichissement saisies par l'utilisateur par l'intermédiaire de l'interface graphique 37. L'interface de communication 34 est de manière préférée une interface de type cellulaire (3 G, 4G, 5G...) ou WIFI ou les deux.
La figure 8 représente un système selon un mode préféré de réalisation de l'invention. Deux dispositifs de capture la et lb sont disposés autour d'une scène 2, ici un match de football. Les deux dispositifs sont disposés de manière à filmer chacun au moins une partie du terrain de football, avec une zone de chevauchement, c'est-à-dire que chacun des dispositifs peut capturer plus d'un demi-terrain. Les deux dispositifs la et lb sont configurés pour mettre en œuvre un procédé de capture selon l'invention et décrit en regard de la figure 1. Les deux dispositifs la et lb transmettent chacun à travers leurs interfaces de communication respectives, la vidéo capturée (incluant dans un mode de réalisation préféré les étiquettes temporelles) et les métadonnées au serveur 4. Le serveur 4 peut être composé d'un ou plusieurs dispositifs distincts. Le serveur 4 est configuré pour mettre en œuvre un procédé de composition de vidéo selon l'invention et plus précisément décrit en figure 2. Le serveur 4 transmet la vidéo obtenue selon le procédé de composition vidéo à un dispositif 3 d'analyse vidéo qui enrichie la vidéo selon le procédé d'analyse décrit en figure 4 et retransmet la vidéo enrichie et/ou les données d'enrichissement et ou la validation de points d'intérêt ou la validation de données d'enrichissement au serveur 4. Le serveur 4 enregistre ensuite les données d'enregistrement et/ou la vidéo annotée ou les transmet au dispositif 5 pour affichage ou enregistrement ou au dispositif 3. Le dispositif 5 est un dispositif électronique tel que par exemple un téléphone mobile, un ordinateur, un téléviseur. Selon un mode de réalisation préféré, un tel système peut être utilisé selon le scénario suivant.
Le dispositif d'analyse 3 reçoit des instructions par un utilisateur pour lancer une application. De préférence le dispositif d'analyse 3 est un téléphone mobile. L'application reçoit de l'utilisateur un paramétrage de l'application. Un tel paramétrage peut être par exemple une indication du type d'événement capturé, par exemple un match de sport, par exemple de football. L'application reçoit également des informations relatives au nombre de dispositifs de capture la, lb utilisés pour la capture de l'événement. De même ces dispositifs de capture sont de préférence des téléphones mobiles. L'application créé un QR-code pour chaque dispositif de capture la, lb.
Chacun des dispositifs de capture la, lb, scanne l'un des QR-code présents sur le dispositif d'analyse 3. Ceci permet de lier chaque dispositif de capture à l'un des flux. Ceci permet de lancer une application sur les dispositifs de capture ou de télécharger l'application si elle n'était pas présente puis de lancer la synchronisation de l'horloge selon le protocole NTP. Selon des modes de réalisation avantageux, les dispositifs de capture peuvent également faire des tests de débit pour vérifier la bande passante adaptée en fonction des paramètres du réseau, du type de réseau disponible (2G, 4G, 5G, WIFI norme 5, 6...), de l'environnement.
Les dispositifs de capture s'identifient également auprès du serveur 4 de façon à permettre au serveur 4 de détecter quel flux est associé à quel dispositif de capture et éventuellement de modifier ceci.
Un opérateur verrouille ensuite la position des dispositifs de capture autour de la scène en vérifiant que chaque partie de la scène capturée par chacun des dispositifs de capture comprend au moins une zone de chevauchement dans laquelle deux points d'intérêt fixes peuvent être déterminés. Cette détermination peut être visuelle par l'opérateur mais cette détermination peut également se faire au niveau du serveur. Par exemple le serveur peut transmettre sur les dispositifs de capture des notifications pour orienter/déplacer les dispositifs de capture, tant qu'il n'a pas réussi à déterminer une première fois, de points d'intérêt communs. Une fois les points d'intérêt communs détectés, l'opérateur verrouille la position physique des dispositifs de capture. Ensuite, comme décrit précédemment, les points d'intérêt sont recalculés automatiquement en fonction de la variation des métadonnées. Seule une variation importante des métadonnées ne permettant plus la détection de points d'intérêt rendra nécessaire le repositionnement physique des dispositifs de capture. Lors du verrouillage, les métadonnées sont également enregistrées et constituent ainsi des métadonnées de référence de position des dispositifs de capture la, lb. Ces métadonnées de référence sont utilisées lors de la comparaison avec les métadonnées reçues de manière périodique (régulièrement ou irrégulièrement) pour déterminer le besoin de recalcul de la position des points d'intérêt comme indiqué en référence à la figure 2.
La figure 9 illustre le positionnement de deux dispositifs la et lb de capture vidéo autour d'une scène de football. Les dispositifs la et lb sont semblables au dispositif 1 décrit en figure 5. Ils sont positionnés géographiquement proches de la ligne médiane du terrain. Le dispositif la est orienté vers la partie gauche du terrain et le dispositif lb est orienté vers la partie droite du terrain, de manière à ce que leurs moyens de capture respectifs capturent plus de la moitié de la scène soit plus d'un demi-terrain. Le dispositif de capture la a un angle de capture a et le dispositif de capture lb a un angle de capture p .La zone hachurée de la figure 8 montre la zone de chevauchement des deux captures vidéo opérées par le dispositif la et le dispositif lb.
La figure 10 illustre le positionnement de trois dispositifs le, ld et le de capture vidéo autour d'une scène de football. Les dispositifs le, ld et le sont semblables aux dispositifs la et lb décrits en référence à la figure 9 mais les moyens de capture ont des angles de capture différents. Le troisième dispositif de capture le peut être placé de telle manière que ses moyens de capture soient parallèles à la ligne de touche.
Il peut être nécessaire de recourir à un nombre plus important de dispositifs de capture. Notamment lorsque deux dispositifs de capture ne sont pas suffisants pour capturer intégralement l'ensemble d'une scène, par exemple parce que leur angle de capture est insuffisant ou parce qu'ils ne peuvent pas être positionnés de manière à couvrir toute la scène. Certaines limitations techniques ou géographiques peuvent également provoquer l'ajout de nouveaux moyens de capture par exemple. Ici, les angles de capture respectifs y et e des dispositifs le et ld étant inférieurs aux angles de capture des dispositifs la et lb, un troisième dispositif le est ajouté dont l'angle de capture est p. Ainsi le positionnement des trois dispositifs de capture et leurs angles permettent de couvrir l'intégralité du terrain.
La figure 11 représente un un système selon un second mode de réalisation de l'invention. Un tel système est particulièrement avantageux lorsque les dispositifs de capture la et lb ainsi que 3 ne sont pas connectés à un réseau tel un réseau cellulaire (3G, 4G, 5G, 6G) ou WIFI. Dans ce cas, en effet, ils ne peuvent pas communiquer avec un serveur tel qu'illustré en figure 8 et donc transmettre les vidéos capturées pour recomposition à un serveur. Une telle configuration est également avantageuse lorsque la bande passante entre les dispositifs de capture la et lb et le serveur 4 est faible et ne permet pas l'émission des flux vidéos et métadonnées au serveur 3 à une qualité suffisante.
Dans ce mode de réalisation, les dispositifs de capture la, lb et le dispositif d'analyse 3 communiquent par l'intermédiaire d'un réseau local établi entre eux. Ceci est notamment possible par le biais des réseaux WIFI nouvelle génération ou réseaux cellulaires 5G, 6G et 6E.
Dans ce mode de réalisation, le dispositif d'analyse 3 synchronise les deux dispositifs de capture la et lb en créant une horloge temporelle provisoire qu'il leur transmet. Les flux vidéo des deux dispositifs la et lb peuvent ensuite être synchronisés par le dispositif 3.
Le dispositif 3 reçoit les deux flux vidéo et construit la vidéo composite à partir des deux vidéos reçues et des métadonnées reçues. Pour ce faire, le dispositif 3 met en œuvre le procédé selon la figure 2. Une fois recomposée, la vidéo est ensuite enrichie par le dispositif 3 selon les étapes U2 à U4 du procédé décrit en figure 4.
La vidéo ainsi enrichie est transmise au serveur 4 lorsque le dispositif 3 est de nouveau connecté à un réseau cellulaire ou WIFI ou lui permettant de bénéficier de suffisamment de bande passante pour la transmission. Le dispositif 3 et le serveur 4 peuvent ainsi enrichir, analyser la vidéo composite. De la même manière que précédemment, le serveur 4 peut demander des validations des informations d'enrichissement transmises par le dispositif 3 et compiler des statistiques.
Bien entendu par flux vidéo ou par vidéo, on entend également tout au long de la description précédente, l'audio associée à cette vidéo.

Claims

Revendications
[Revendication 1] Procédé de composition d'une vidéo comprenant :
- la réception (Tl) d'un au moins un premier dispositif de capture vidéo (la) d'une première vidéo représentative d'une première partie d'une scène (2) et de métadonnées associées à au moins une image fixe de ladite première partie de ladite scène, ladite métadonnée étant représentative d'une position géographique du premier dispositif de capture (la) au moment de la capture de l'image,
- la réception (Tl) d'un au moins un second dispositif de capture vidéo (lb) d'une deuxième vidéo représentative d'au moins une deuxième partie de ladite scène (2) et de métadonnées associées à au moins une image fixe de ladite seconde partie de ladite scène, ladite métadonnée étant représentative de la position géographique du second dispositif de capture (lb) au moment de la capture de l'image, lesdites premières et deuxièmes vidéos étant synchronisées,
- la détermination (T2) de points d'intérêt fixes dans chacune desdites vidéos,
- ladite composition (T5) d'une vidéo composite représentative de ladite scène à partir desdites première et au moins une deuxième vidéos par mise en correspondance desdits points d'intérêt,
- la mise à disposition (T6) de ladite vidéo représentative de ladite scène, la détection (T3, T4) d'un mouvement d'au moins un des deux dispositifs de capture sur la base des métadonnées reçues déclenchant une nouvelle détermination (T2) des points d'intérêt fixes dans ladite vidéo capturée par le dispositif en mouvement puis ladite composition (T5) d'une nouvelle vidéo composite.
[Revendication 2] Procédé selon la revendication 1 caractérisé en ce que la détermination (T2) de points d'intérêt fixes dans chacune desdites vidéos comprend :
- la transmission à au moins un dispositif d'analyse vidéo (3), desdites première et au moins deuxième vidéos,
- la réception dudit au moins un dispositif d'analyse vidéo (3), desdits points d'intérêt relatifs à chacune desdites parties de ladite scène (2).
[Revendication 3] Procédé selon l'une des revendications 1 à 2 caractérisé en ce que la mise à disposition (T6) comprend l'un ou l'autre ou plusieurs parmi :
- l'enregistrement de ladite vidéo composite, - l'affichage de ladite vidéo composite,
- la transmission de ladite vidéo composite à au moins un dispositif d'analyse (3).
[Revendication 4] Procédé selon la revendication 3 caractérisé en ce que lorsque ladite vidéo composite est transmise à au moins un dispositif d'analyse (3), il comprend en outre
- la réception, suite à ladite transmission, de données d'enrichissement de ladite scène,
- la synchronisation des données d'enrichissement avec ladite vidéo composite ;
- la mise à disposition de ladite vidéo composite enrichie des données d'enrichissement.
[Revendication 5] Procédé d'analyse de vidéo comprenant
- La réception (Ul), d'une vidéo composite représentative d'une scène (2) obtenue par un procédé selon l'une des revendications 1 à 4 ,
- L'ajout (U2) de données d'enrichissement sur ladite vidéo composite pour annoter ladite vidéo composite,
- La mise à disposition (U4) de la vidéo composite annotée et des données d'enrichissement.
[Revendication 6] Procédé d'analyse selon la revendication 5 caractérisé en ce que l'obtention des données d'enrichissement est obtenue par un positionnement des données d'enrichissement par un utilisateur à travers une interface graphique (37).
[Revendication 7] Serveur comprenant :
- au moins une première interface de communication (41a) avec un dispositif de capture vidéo,
- au moins une seconde interface de communication (41b) avec un dispositif d'affichage vidéo,
- au moins un processeur (47) apte à mettre en œuvre un procédé selon l'une des revendications 1 à 4.
[Revendication 8] Système comprenant au moins un premier (la) et un second (lb) dispositif de capture vidéo, au moins un serveur (4) selon la revendication 7 et au moins un dispositif d'analyse (3, 5) apte à mettre en œuvre un procédé selon la revendication 5 ou 6.
[Revendication 9] Programme d'ordinateur comportant des instructions pour l'exécution des étapes 6du procédé de composition d'une vidéo selon l'une des revendications 1 à 4 ou du procédé d'analyse de vidéo selon l'une quelconque des revendications 5 ou 6 lorsque ledit programme est exécuté par un ordinateur. [Revendication 10] Support d'enregistrement lisible par un ordinateur sur lequel est enregistré un programme d'ordinateur comprenant des instructions pour l'exécution des étapes du procédé de composition d'une vidéo selon l'une des revendications 1 à 4 ou du procédé d'analyse de vidéo selon l'une quelconque des revendications 5 ou 6.
PCT/FR2023/050007 2022-01-05 2023-01-03 Procede et dispositif de composition d'une video et procede d'analyse de video WO2023131757A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR2200067A FR3131675A1 (fr) 2022-01-05 2022-01-05 procédé et dispositif de capture vidéo, procédé et dispositif de composition d’une vidéo et procédé d’analyse de vidéo.
FRFR2200067 2022-01-05

Publications (1)

Publication Number Publication Date
WO2023131757A1 true WO2023131757A1 (fr) 2023-07-13

Family

ID=81346062

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2023/050007 WO2023131757A1 (fr) 2022-01-05 2023-01-03 Procede et dispositif de composition d'une video et procede d'analyse de video

Country Status (2)

Country Link
FR (1) FR3131675A1 (fr)
WO (1) WO2023131757A1 (fr)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190191146A1 (en) * 2016-09-01 2019-06-20 Panasonic Intellectual Property Management Co., Ltd. Multiple viewpoint image capturing system, three-dimensional space reconstructing system, and three-dimensional space recognition system
US11043008B2 (en) * 2017-03-31 2021-06-22 Panasonic Intellectual Property Management Co., Ltd. Imaging system, calibration method, and calibrator
US11188776B2 (en) * 2019-10-26 2021-11-30 Genetec Inc. Automated license plate recognition system and related method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190191146A1 (en) * 2016-09-01 2019-06-20 Panasonic Intellectual Property Management Co., Ltd. Multiple viewpoint image capturing system, three-dimensional space reconstructing system, and three-dimensional space recognition system
US11043008B2 (en) * 2017-03-31 2021-06-22 Panasonic Intellectual Property Management Co., Ltd. Imaging system, calibration method, and calibrator
US11188776B2 (en) * 2019-10-26 2021-11-30 Genetec Inc. Automated license plate recognition system and related method

Also Published As

Publication number Publication date
FR3131675A1 (fr) 2023-07-07

Similar Documents

Publication Publication Date Title
US10477262B2 (en) Broadcast management system
US11825142B2 (en) Systems and methods for multimedia swarms
US9552617B2 (en) Mobile media, devices, and signaling
US10367997B2 (en) Enriched digital photographs
US9554160B2 (en) Multi-angle video editing based on cloud video sharing
EP3005296B1 (fr) Fusion de plusieurs flux vidéo
JP2004357272A (ja) ネットワーク拡張可能・再構成可能メディア装置
EP2984815A1 (fr) Fusion de plusieurs flux video
US10009643B2 (en) Apparatus and method for processing media content
US20150078723A1 (en) Method and apparatus for smart video rendering
US20140112585A1 (en) Content processing device, integrated circuit, method, and program
US9667859B1 (en) Systems and methods for determining preferences for capture settings of an image capturing device
WO2023131757A1 (fr) Procede et dispositif de composition d'une video et procede d'analyse de video
EP4272450A1 (fr) Synchronisation audio
TWI628626B (zh) Multiple image source processing methods
EP2701398B1 (fr) Procédé de traitement d'un flux multimédia, serveur et programme d'ordinateur correspondants
JP2019067076A (ja) 多重画像源の処理方法
FR3047825B1 (fr) Procede d’identification d’un spectacle dans une video filmee par une camera d'un spectateur
FR2993686A1 (fr) Procede de generation d'un document multimedia relatif a un evenement, dispositif de generation et programme d'ordinateurcorrespondants.
WO2014056788A1 (fr) Procede de selection d'un flux video en fonction de la geolocalisation d'une cible a visualiser, dispositif et programme d'ordinateur correspondants

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23703513

Country of ref document: EP

Kind code of ref document: A1