WO2015062991A1 - Procédé d'analyse sémantique d'un flux vidéo en cours d'acquisition, terminal, produit programme d'ordinateur et medium correspondant - Google Patents

Procédé d'analyse sémantique d'un flux vidéo en cours d'acquisition, terminal, produit programme d'ordinateur et medium correspondant Download PDF

Info

Publication number
WO2015062991A1
WO2015062991A1 PCT/EP2014/072890 EP2014072890W WO2015062991A1 WO 2015062991 A1 WO2015062991 A1 WO 2015062991A1 EP 2014072890 W EP2014072890 W EP 2014072890W WO 2015062991 A1 WO2015062991 A1 WO 2015062991A1
Authority
WO
WIPO (PCT)
Prior art keywords
semantic analysis
probability
action
phase
predetermined type
Prior art date
Application number
PCT/EP2014/072890
Other languages
English (en)
Inventor
Gwénolé QUELLEC
Mathieu LAMARD
Guy CAZUGUEL
Original Assignee
Universite De Bretagne Occidentale
Telecom Bretagne
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Universite De Bretagne Occidentale, Telecom Bretagne filed Critical Universite De Bretagne Occidentale
Publication of WO2015062991A1 publication Critical patent/WO2015062991A1/fr

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Definitions

  • the field of the invention is that of the semantic analysis of video streams, in particular of video streams being acquired, for example video streams acquired during a surgical procedure (in particular a cataract operation or an endoscopy examination). or relating to the monitoring of a device (in particular a cash dispenser or a machine tool) or of a particular location (for example a bank or a store).
  • a surgical procedure in particular a cataract operation or an endoscopy examination
  • a device in particular a cash dispenser or a machine tool
  • a particular location for example a bank or a store.
  • these methods generally require knowledge of the video in its entirety before being able to analyze the video in deferred time. This is particularly the case of methods based on the "Dynamic Time Warping" algorithm.
  • the invention in at least one embodiment, is intended in particular to overcome some of these disadvantages of the state of the art.
  • one objective is to provide a technique that allows real-time analysis of video streams.
  • At least one embodiment of the invention also aims to provide a technique that is simple to implement and adapted for use by a non-specialist in the field of video.
  • Another objective of at least one embodiment of the invention is to provide such a technique that allows a user to benefit from new services.
  • the invention relates to a semantic analysis method of a video stream being acquired.
  • the semantic analysis method comprises a learning step, said learning step delivering at least one video characteristic, called a low-level characteristic, from at least one parameter representative of a phase of learning. semantic action of predetermined type, called high-level action phase.
  • the semantic analysis method makes it possible to obtain an application level analysis of a video stream, by implementing a learning step, during which low-level characteristics of the domain of the user are stored.
  • the video eg features related to movements, shapes, colors, or textures
  • predetermined types of high-level actions in the application domain of the method eg, key actions or steps of a surgery
  • this association is performed automatically, for example from the annotations of an expert in the field of application of the method, during the viewing of video streams dedicated to this learning, for example a set of records representative of this field of application constituting a learning base.
  • the invention offers the advantage, for a non-specialist user of the video field, of being able to categorize key moments of a video stream at an application level, that is to say at a semantic level, without having to determine, on its own, low-level video characteristics capable of allowing the recognition of these key moments.
  • said learning step further determines a scheduling probability of at least two predetermined types of high-level action phases.
  • the learning step may include recording certain orders of actions. These may be mandatory scheduling conditions. For example, a surgeon may indicate that a phase of application of a disinfectant or antiseptic product always precedes an incision. It can also be a scheduling probability calculated from reference flows representative of the application domain of the semantic analysis method.
  • the semantic analysis method also comprises a step of semantic analysis of said video stream being acquired, comprising the following substeps:
  • the semantic analysis method implements a step of semantic analysis of a video stream in real time, during which the stream being acquired is split into particular sequences of successive sampled elements, to which a semantic meaning is associated, from the low-level characteristics extracted from the sampled elements.
  • a sequence can thus represent a phase of action, that is to say a particular key moment of the flow, semantically speaking, during which an action or an interlude takes place, that is to say a moment semantically "without action 'for the considered field of application, preceding or following at least one action phase.
  • Such a moment without semantic action may for example consist, in the case of a video surveillance device of a cash dispenser, in a sequence of elements without any individual in the vicinity of the distributor, whatever the scene which takes place in the background (presence or not of passers-by for example).
  • several action phases can take place between two consecutive interludes. For example, there may be two actions taking place jointly.
  • a surgeon can complete a surgical step with the left hand while starting a new step of the right hand.
  • said semantic analysis step further comprises a substep of decision of belonging of said current element to said interlude, taking into account a predefined threshold of said probability of belonging.
  • the decision to assimilate a current element to a part of an interlude may according to the invention, take into account a different probability threshold according to the fields of application of the invention.
  • this threshold can be determined at or just after the learning phase, by tests on reference flows, so as to empirically maximize the success rate of the process.
  • said semantic analysis step further comprises a substep of determining a probability of unwinding of a predetermined type of action phase.
  • the semantic analysis method comprises a characterization of the current action phase. It is a question of associating with this current action phase a suitable predetermined type.
  • said substep of determining a membership probability also takes into account membership in an interlude or an action phase of at least one element temporally preceding said current element. in said video stream.
  • the invention proposes to take into account, in some embodiments, already analyzed elements of the flow being acquired for the analysis of the current element. In this way, the invention makes it possible to refine the analysis of the video stream as it is acquired.
  • said substep of determining a membership probability takes into account a neighborhood criterion of at least one low level characteristic of said current element with at least one element of a stream reference, acquired during said learning phase.
  • the probability for a current element of belonging to an interlude takes into account the existence, in at least one reference flow, used for example during the learning step, of elements considered by an expert as belonging to at an interlude or at an action phase and having similar or similar low-level characteristics (i.e., elements related to a video point of view).
  • the probability for a current element of belonging to an interlude or an action phase can for example be defined from the percentage of its neighbors, in a set of reference flows, considered as belonging to an interlude or a phase of action.
  • the sub-step of determining a probability of unfolding an action phase of a predetermined type can also take into account the presence, in the flow reference, elements associated by an expert, particularly during the learning step, to an action phase of a particular type, and having low level characteristics similar or close to those of the current element.
  • said neighborhood criterion is a weighted Euclidean distance of at least one of the low-level characteristic of said at least one element of said reference flow and of said current element.
  • the weighting to be used can in particular be determined by learning.
  • said decision sub-step also takes into account the membership of an intermediate of a minimum number of successive elements preceding said current element in said video stream.
  • Such embodiments thus make it possible to filter the flow during acquisition, for example in the presence of sound effects, so as to ignore the intermediates of duration less than a minimum threshold, that is to say comprising a number of sampled elements. below a certain threshold.
  • a minimum threshold that is to say comprising a number of sampled elements.
  • This can for example make it possible to ignore interruptions of a single action phase, such as when a surgeon changes compresses, during a grooming phase of an incision.
  • said substep of determining a running probability of a predetermined type of action phase takes into account membership in an interlude or an action phase of a element immediately preceding said current element in said video stream.
  • the current element when it has a low probability of being an interlude, that is to say when it is a priori part of an action phase, it can be the first element of a sequence representative of a new action phase, which it therefore marks the beginning, to belong to a sequence of elements in the course of acquisition, ie to be a continuation of a phase of action already committed .
  • said substep of determining a probability of unwinding a predetermined type of action phase it also takes account of at least one unwinding probability of at least one predetermined type of action phase already determined for at least one element temporally preceding said current element in said video stream.
  • the membership of the most recently acquired previous element to an action phase of a predetermined type can increase the probability for the current element to belong to this same action phase.
  • identifying an action phase of a first particular predetermined type can increase the probability of occurrence of an action phase of a second predetermined type.
  • a phase of application of a disinfectant or antiseptic product may increase the likelihood of subsequent occurrence of an incision or suture.
  • said substep of determining a running probability of a predetermined type of action phase is implemented according to a mathematical theory called "belief functions".
  • the semantic analysis method further comprises a step of predicting a predetermined type of future action, said prediction taking into account:
  • this prediction may, in some embodiments, include the generation of a recommendation on a user interface (for example, the generation of a voice server action proposal or overlay on an area of a display screen. visualization).
  • the semantic analysis method makes it possible to assist a person in charge of carrying out the actions (for example a surgeon in the context of the acquisition of a video stream relating to a surgical act) to a decision-making process. (for example as part of a surgery whose course is unusual). It can also have a didactic use, for example for the training of actors of the field (for example young surgeons or operators of a remote monitoring center, ).
  • said substep of determining a probability of unwinding a predetermined type of action phase also takes into account the duration of at least one interlude preceding said action phase. and / or the number of interludes preceding said action phase.
  • the step of calculating a probability of unwinding a predetermined type of action phase takes into account the duration and / or the number of interludes that have already occurred.
  • certain predetermined types of action phase may have a greater probability of occurrence when the interlude immediately preceding this action phase has had at least a certain duration. This may be particularly the case of surgery of action phases that require more extensive preparation of the medical team or due diligence (for example the verification of the patient's medical file before the first incision).
  • the semantic analysis method further comprises a step of generating an alert when said step of determining a probability of unwinding a predetermined type of action phase results in a a predetermined type of action phase different from the predetermined type of action phase predicted during said prediction step.
  • the semantic analysis method makes it possible to alert a person in charge of carrying out the actions or an authorized third party to the occurrence of an unusual succession of actions.
  • the invention also relates to a communication terminal comprising:
  • learning means delivering at least one video characteristic, called a low-level characteristic, from at least one parameter representative of a predetermined type of semantic action phase, called a high-level action phase.
  • the invention also relates to a computer program product which comprises program code instructions for the implementation of the aforementioned method (in any one of its various embodiments), when said program is executed on a program computer program product.
  • computer In another embodiment of the invention, there is provided a computer-readable and non-transitory storage medium storing a computer program comprising a set of instructions executable by a computer or a processor for carrying out the method. mentioned above (in any of its various embodiments).
  • FIG. 1 shows the general principle of the semantic analysis method
  • FIG. 2 shows the progress of the learning step of the semantic analysis method in a particular embodiment
  • FIG. 3 shows the progress of the semantic analysis step of the semantic analysis method in a particular embodiment
  • FIG. 4 illustrates the structure of a terminal according to the invention.
  • the elements and identical steps are designated by the same numerical reference.
  • the general principle of the invention is to propose a semantic analysis of a video stream being acquired based on semantic annotations prior to reference flows by experts of the application domain and not, as the solutions of the prior art , based on the definition of particular video features by experts in the field of video.
  • the semantic analysis method can be used, regardless of the application domain, without prior technical study of the video recording characteristics.
  • the term "interlude” refers to a phase without high-level action, that is to say in the particular case of the embodiment presented, a time of the surgery when no event, relevant on the plane. clinical, does not take place.
  • a "high-level action phase” represents, in the particular case of the embodiment presented, a high-level surgical task. In certain particular embodiments, it may also represent a portion of a high-level surgical task, or two consecutive surgical tasks continuously sequentially occurring or at least partially concurrent and therefore considered for analysis as a only task.
  • the semantic analysis method comprises, according to a first aspect, a learning step during which parameters representative of high-level action phases are defined, in association with portions of previously acquired reference video stream.
  • These parameters may comprise, for example, keywords of the application domain for the designation of high-level action phases.
  • keywords of the application domain for the designation of high-level action phases For example, in the context of cataract surgery, these may include key words such as “disinfection”, “incision”, “suture”, “rhexis”, “hydrodissection”, “phacoemulsification”, “epinucleus removal” “,” Viscous agent injection “,” implant setting-ip “,” viscous agent removal “,” stitching up “.
  • each portion is analyzed automatically, for example by a method based on a video content analysis technique, including a Content-Based Video Retrieval (CBVR) type technique, according to English terminology.
  • CBVR Content-Based Video Retrieval
  • This step makes it possible to describe each stream portion by a set of video characteristics, for example characteristics of movement, shape, colors, texture, etc.
  • the semantic analysis method makes it possible to associate particular low-level characteristics, the field of video (a quantity of movement, information of texture, shape, colors, etc.) with each representative parameter. a high-level action phase in the medical field (disinfection, incision, ...), appointed by an expert in the medical field.
  • the semantic analysis method makes it possible to semantically analyze a video stream during its acquisition, in order to split it into the high-level action phase of the application domain of the method, based on its video characteristics of basement. level.
  • This method has the advantage of being fast and therefore of being adapted to a streaming analysis of a video stream during its acquisition, unlike the solutions of the prior art.
  • the semantic analysis method offers new possibilities to a user.
  • certain embodiments make it possible to predict the actions that should logically occur after the current element of the stream being acquired. More precisely, the semantic analysis method thus makes it possible to offer assistance to the user (for example to assist a surgeon, during one of his operations):
  • the method may also comprise a step of constructing, during the acquisition or after the semantic analysis step, a semantic report of the event represented by the stream.
  • FIG. 1 illustrates a particular embodiment in which the method firstly comprises a learning step 100 from reference flows and then a step 120 of semantic analysis of a stream during its acquisition.
  • the learning step may, in other embodiments, be implemented independently of any analysis step, for example by a pool of experts from a medical field, who would like, for example value their expertise.
  • the analysis step can be implemented without a learning step, for example by importing a software file containing data representative of a set of semantically annotated reference streams, and similar to those resulting from a learning step.
  • FIG. 2 shows an example of implementation of the learning step 100 of the semantic analysis method, for application to the field of cataract operations.
  • the learning step 100 firstly comprises a sub-step 210 for acquiring a set of reference flows ("training dataset" SI) intended for learning.
  • These reference flows can for example be constituted by a set of video recordings of cataract surgeries, performed by several surgeons in different operating rooms, previously collected. They may also include video streams transmitted in real time during an operation, the final consideration of which can be subject to subsequent validation by a domain expert.
  • the reference streams may in particular consist of recordings collected via different acquisition and video storage means and available in different formats.
  • it may be, for one, a set of one to several hundred videos (for example 200) made by one to several tens of surgeons (for example 10) in several operating rooms (for example 2) each provided with means for acquiring and various video storage (e.g., a video camera CCD-IRIS SONY ® and a video cassette recorder DSR-20MDP SONY ®), the data being stored in an MPEG2 format with the best definition available on these devices and, for the other, a video recorder using an imaging standard dedicated to the medical field, for example DICOM, such as the MediCapture ® MediCap USB200 product, the data being stored in a DVD format.
  • DICOM imaging standard dedicated to the medical field
  • Demographic data eg age, sex, (7) or contextual data (for example medical data such as a pathology, for example diabetes or deafness, or a physiological characteristic, such as inflammation or pupil size , ...) can also be associated with a recording.
  • the semantic analysis method has the advantage of being adaptable to different areas of application (including surgery, remote monitoring of places or devices).
  • the parameterization of the method during the learning phase makes it possible to optimize its efficiency in the field of application under consideration.
  • the learning phase makes it possible to judiciously define parameters based on results obtained on all the reference flows.
  • the video subsequence analysis technique is a video content analysis technique (or "Content-Based Video Retrieval” (CBVR)), for example the technique described by the inventors.
  • CBVR Content-Based Video Retrieval
  • conditional probabilities of analogical reasoning and transition probability matrices are estimated using the relative frequencies observed in the reference set.
  • the learning step 100 also comprises a random selection sub-step 220 of a training subset S0, among the set S1 of the reference video streams, acquired during an acquisition sub-step 210.
  • the flows of the subset S0 will then be used to define, manually, the parameterization of the detection of the interlude.
  • a limitation of learning to a reduced number of flows allows significant time savings in terms of learning time, compared to learning on all flows of the learning base.
  • the drive subassembly comprises for example a dozen video streams.
  • the learning step 100 then comprises a segmentation sub-step 230 of each stream of the subset S0 of training by experts of the field, so as to define, thanks to the experts, all the beginnings and ends of interludes streams of the drive subassembly S0.
  • the learning step includes a drive sub-step 240 for automatically detecting the beginnings and ends of the feeds of the drive subassemblies S0.
  • This training can for example take the form of a cross validation, in particular by a cross-validation method of the "N-fold cross validation" type, on the training subset S0.
  • the drive subassembly S0 is in turn cut into several batches.
  • An iteration, on the chopped batches, of automatic detection sub-steps 250 of the beginnings and ends of interludes, followed by substeps of analysis 260 of the result of this detection, by correlation with the result of the segmentation carried out by experts (step 230) makes it possible to validate, during a validation sub-step 270, the parameterization used for the detection of the intermediates.
  • the training sub-step 240 makes it possible to define the threshold (Tp) at the probability of belonging to an interlude, and the threshold ( ⁇ ) minimum of the number of successive elements belonging to an interlude to be used during the semantic analysis step 120 for deciding whether or not an element belongs to an interlude.
  • the method comprises an evaluation in terms of sensitivity, that is to say, an evaluation of the percentage of true intermediates detected by the semantic analysis method, and in terms of false detection rate (or "false positive rate” (RPF) ), that is, the rate of false intermediates detected for a video by the semantic analysis method).
  • sensitivity that is to say, an evaluation of the percentage of true intermediates detected by the semantic analysis method
  • false detection rate or "false positive rate” (RPF)
  • the measurement of the sensitivity and the RPF for different values of the threshold of probability of belonging to an interlude ( ⁇ ⁇ ) and the minimum threshold of number of successive elements belonging to an interlude ( ⁇ ) makes it possible to establish a curve of "Free Response Receiver Operating Characteristic” analysis (“FROC Curve”), having on the abscissa the RPF and on the ordinate the sensitivity, and thus to determine an optimal pair of values of RPF and sensitivity and therefore, by deduction, optimal values of the two thresholds Tp and ⁇ .
  • FROC Curve Free Response Receiver Operating Characteristic
  • the learning step 100 makes it possible to parameterize a number (i.) Of proofs used during the semantic analysis step 120 of the action phases, a number (M) of categories of non-stationary probability matrices and a number (n) of neighbors to be taken into account for reasoning by analogy (used for the neighborhood criterion of the action phases during the semantic analysis step 120). These are optimized thanks to a search grid in the subset of reference flows and by the use of graphical methods (for example methods using curves of the type "Receiver Operating Characteristic (ROC) Curve", as presented further).
  • ROC Receiveiver Operating Characteristic
  • each video stream of the reference set SI is segmented temporally by cataract experts, in sub-sequences each representing at least one action phase identified by a keyword of the application domain.
  • cataract experts in sub-sequences each representing at least one action phase identified by a keyword of the application domain.
  • keywords may be used: “incision”, “rhexis”, “hydrodissection”, “phacoemulsification”, “epinucleus removal”, “viscous agent injection”, “Implant setting-ip”, “viscous agent removal”, “stitching up”.
  • a specific category may also be defined, to group optional phases (for example, in the context of cataract operations, “iris retractor setting-up”, “iris retractor removal”, “angle measurement” , Landmark tracing, etc.
  • the graphical method is based on curves "Receiver Operating Characteristic (ROC) Curve” established for each predetermined type of action phase defined by an expert. They include the RPF on the abscissa and the sensitivity on the y-axis. The performance associated with the types defined by the expert are evaluated by the area under the curve. This allows to optimize the choice of the number (L) of evidence, the number (M) of categories of non-stationary probability matrices and the number (n) of neighbors for reasoning by analogy.
  • ROC Receiveiver Operating Characteristic
  • the values making it possible to maximize the area are the values:
  • the semantic analysis method comprises, once the learning step 100 has been unrolled, a semantic analysis step 120 of a video stream that is being acquired. This step is used to automatically segment the stream into a sequence of sequences representing intermediate or high-level action phases.
  • the stream being acquired is sampled (during a sampling step 310), as it is acquired, in video elements, or video sub-sequences, composed of a few video frames.
  • the method also includes a sub-step 320 for extracting, for each sampled element, low-level features of the video domain. These characteristics are then used in a step 330 of determining a membership probability of a current element at an interlude, for comparing the video content of the current element with the video content of the elements of the set IF reference flows and determine (for example by means of the method already developed by the inventors) the nearest neighbors, in terms of Euclidean distance, of the current element.
  • the probability of belonging to an interlude of the current element is defined, in the embodiment presented in FIG. 3, as the percentage, among these neighbors, of reference elements considered as belonging to an interlude.
  • the semantic analysis step 120 further comprises a substep 340 of deciding whether the current element belongs to an interlude or an action phase, depending on whether the probability of belonging to be superior or less than the threshold ( ⁇ ⁇ ) of the probability of belonging to an interleaved parameter during the learning step.
  • the decision sub-step 340 on whether the current element belongs to an interlude or a phase of action may also take into account decisions already taken concerning elements already acquired from the flow, that is to say concerning elements that have preceded the current element temporally, and in particular the number of successive elements immediately preceding the current element and belonging to an interlude.
  • the decision sub-step can take into account a minimum threshold ( ⁇ ) of number of successive elements belonging to an intermediate defined during the parameterization step.
  • minimum threshold
  • the semantic analysis method allows a temporal division of the video stream being acquired, with an identification of time intervals representing interludes.
  • an action phase is defined, according to the semantic analysis method, as the action associated with the time interval delimited by two consecutive intermediates, or by the beginning of the acquisition of the flow and the beginning of the first interlude, or by the end of the last interlude and the end of the acquisition of the flow.
  • the semantic analysis step 120 of the semantic analysis method aims in particular to make it possible to associate, at each action phase, a predetermined type, selected from the predetermined types defined by a domain expert, in particular, as in the embodiment shown in a learning step 100 (eg "incision”, “rhexis”, “hydrodissection”, etc.).
  • the probability p ki that the predetermined type 7] is associated with an action A k is obtained, by using the mathematical theory of the belief functions, by combining several proofs, as described below.
  • the analysis step 120 includes a sub-step of determining 350 a probability of unwinding a predetermined type of action phase. It takes into account, in the embodiment presented, the first proof that represents the percentage, in the SI set of flows reference, nearest neighbors of the current element that belong to a predetermined type of action.
  • the method includes analogy reasoning, based on conditional probabilities calculated on the SI set of reference flows.
  • the method may comprise an estimate, made during the learning step, of the conditional probability P n (T, - ⁇ n ') calculated on the set SI of reference flows, that an element of the set SI of reference flows belongs to an action phase of type T "when neighbors of its n closest neighbors in the reference set are of type ⁇ ,.
  • n 'neighbors among the n nearest neighbors of the current element, in the set of reference flows are of type 7 " , (that is to say, when it is the same probability conditions as those calculated on the set SI of reference flows), the probability p ln> kjj of unfolding of an action phase of type 7 " , is considered to be the same as the probability P n (Tj ⁇ n '), calculated on the SI set of reference flows.
  • the mathematical theory of belief functions can be applied to the determination of the predetermined types to associate with the action phases.
  • the estimation of the probability p ln> kjj of unfolding of a phase of action of type T; when n 'neighbors of the n nearest neighbors of the current element, in the reference set, are of type T can be optimized by choosing an optimum value of the number n of closest neighbors to be selected.
  • the associated uncertainty can for example be modeled by means of the mathematical theory known as belief functions (or Dempster-Shafer theory), well known to those skilled in the art.
  • the belief mass m kl0 ( ⁇ ) expresses the proportion of all available evidence that makes true the assertion that the current state belongs to% but not to a subset of ⁇ .
  • m kl0 The belief mass m kl0 ( ⁇ ) expresses the proportion of all available evidence that makes true the assertion that the current state belongs to% but not to a subset of ⁇ .
  • the lower bound, denoted bel ki0 is called the belief (or "belief" in the English terminology) of the hypothesis P.
  • the upper bound, denoted p, i, o is called the plausibility (or "plausibility" according to the English terminology) of P.
  • the bounds of the probability of realization of the hypothesis P are the limits of the probability p ln> kjj of unfolding of a phase of action of type 7 " ,.
  • pl k , io (P) max n p ⁇ n ' k / i
  • pl kI (P) m k I (P) + m kI (Pu P).
  • the content of the current action phase can be used as a first proof.
  • the learning step 100 comprises a sub-step of determining a scheduling probability of certain action phases
  • the content of an action phase that temporally precedes the current element can also constitute relevant evidence for determining the predetermined type of action phase to which the current element belongs.
  • an action phase of the "incision" type is usually followed by an action phase of "rhexis” then by a "hydrodissection” type action phase.
  • the action phase immediately preceding the current element is considered to be of the "rhexis” type, even preceded by an action phase of "incision” type, the action phase in progress has a great deal of probability of being of the "hydrodissection” type.
  • the predetermined types of certain actions already occurring for example the (L1) last action phases previously completed, can also be used as proof for the determination of the predetermined type of action phase to which the element belongs. current.
  • the learning step makes it possible to determine a scheduling of at least certain phases of action of the set SI of reference flows.
  • This scheduling can for example be encoded as transition probability matrices. Indeed, if we write 7 ⁇ the matrix NxN encoding the transition probabilities between action phases separated by / interludes, is the probability, estimated on the set of reference, that the surgeon performs an action phase of type T j when he has already carried out action phases of type ⁇ ,.
  • the lower and upper bounds of the probability of the hypothesis P (respectively bel kl (P) and pl k , - (P)) are provided by the transition probability matrix and the estimates p k .r,:
  • pl k I (P) max n [T® p (n) k -, ii
  • the proofs can optionally be combined. Indeed, according to the semantic analysis method, a mass function m ki i is defined for each proof /. A combination rule is used to convert this plurality of mass functions into a single mass function m kl . This conversion takes advantage of the properties of the power combination rules to combine any plurality of basic belief functions. This property is important for the categorization of action phases, since the number of proofs can vary, according to the embodiments and according to the length of the flow already acquired.
  • the probability of an action being of type 77 ' is estimated by the pignistic probability of P. This probability is a compromise between the belief and the plausibility of P:
  • the predetermined type associated with an action phase is automatically determined from its own content (by comparison with the action phases defined on the set SI of reference flows) (first proof). Other evidence, such as the predetermined type of at least some of the action phases already occurring, can be taken into account.
  • the contents of the interludes that have already occurred for the determination of the predetermined type associated with the action phase to which a current element belongs may not be taken into account. In other embodiments, on the contrary, it may be taken into account the contents of the intermediates preceding a current element, considered to belong to an action phase, for determining the predetermined type associated with this action phase.
  • an interlude does not contain any significant event at the level of the application domain, and therefore no "useful content" at the application level, its duration d k can give an indication of the scheduling of two phases of action and in particular on the predetermined type of action phase that probably follows it. For example, if the duration of an interlude is very short, a surgeon will not have time for example to change the surgical tool. As a result, the actions preceding and following the interlude will have a higher probability of belonging to the same predetermined type of action phase. If the interlude lasts a very long time, it may logically indicate that something abnormal has occurred and that the surgeon will repeat one of the previous actions.
  • a transition probability matrix T (lj) is then constructed by estimation as a function of the set SI of reference flows using all the pairs (A k .
  • the definition of the belief mass function is similar to that presented in connection with the embodiments presented above, the probability matrix f ' 1 being replaced by a probability matrix T ⁇ ' j) .
  • Such a terminal comprises a memory 400 comprising a buffer memory, a processing unit 410, equipped for example with a ⁇ ocess microprocessor, and driven by a computer program 420, the execution of which implements a semantic analysis method according to one of the particular embodiments of the invention.
  • the code instructions of the computer program 420 are for example loaded into a RAM before being executed by the processor of the processing unit 410.
  • the processing unit 410 receives as input a video stream.
  • the microprocessor of the processing unit 410 implements the steps of the semantic analysis method described above, according to the instructions of the computer program 420.
  • the communication terminal comprises, in addition to the buffer memory 400 and a module for receiving or acquiring a video stream, a learning module capable of delivering at least one video characteristic, called a low-level characteristic, from at least one parameter representative of a semantic action phase of predetermined type, called high-level action phase.
  • a learning module capable of delivering at least one video characteristic, called a low-level characteristic, from at least one parameter representative of a semantic action phase of predetermined type, called high-level action phase.
  • modules are driven by the microprocessor of the processing unit 410.
  • the invention is implemented by means of software and / or hardware components.
  • module may correspond in this document as well to a software component, a hardware component or a set of hardware and software components.
  • a software component corresponds to one or more computer programs, one or more subroutines of a program, or more generally to any element of a program or software capable of implementing a function or a program. set of functions, as described above for the module concerned.
  • Such a software component is executed by a data processor of a physical entity (terminal, server, gateway, set-top-box, router, etc.) and is capable of accessing the hardware resources of this physical entity (memories , recording media, communication buses, electronic input / output cards, user interfaces, etc.).
  • a hardware component corresponds to any element of a hardware set (or hardware) capable of implementing a function or a set of functions, as described above for the module concerned. It may be a hardware component that is programmable or has an integrated processor for executing software, for example an integrated circuit, a smart card, a memory card, an electronic card for executing a firmware ( firmware), etc.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

Il est proposé un procédé d'analyse sémantique d'un flux vidéo en cours d'acquisition. Selon l'invention, un tel procédé comprend une étape d'apprentissage, ladite étape d'apprentissage délivrant au moins une caractéristique vidéo, appelée caractéristique bas-niveau, à partir d'au moins un paramètre représentatif d'une phase d'action sémantique de type prédéterminé, appelée phase d'action haut-niveau.

Description

Procédé d'analyse sémantique d'un flux vidéo en cours d'acquisition, terminal, produit programme d'ordinateur et médium correspondant
1. DOMAINE DE L'INVENTION
Le domaine de l'invention est celui de l'analyse sémantique de flux vidéo, notamment de flux vidéo en cours d'acquisition, par exemple des flux vidéos acquis pendant une intervention chirurgicale (notamment une opération de la cataracte ou un examen par endoscopie) ou relatifs à la surveillance d'un dispositif (notamment un distributeur de billets de banque ou une machine outil) ou d'un lieu particulier (par exemple une banque ou un magasin).
2. ARRIÈRE-PLAN TECHNOLOGIQUE
On s'attache plus particulièrement dans la suite de ce document à décrire la problématique existant dans le domaine des interventions chirurgicales, et tout spécialement des opérations de la cataracte, qui ont servi de base d'étude aux inventeurs de la présente demande de brevet. L'invention ne se limite bien sûr pas à ce domaine particulier d'application, mais présente un intérêt pour toute technique d'analyse sémantique de flux vidéo en temps réel devant faire face à une problématique proche ou similaire.
Avec l'essor des techniques de traitement numérique et de stockage de données médicales, des archives médicales considérables ont été constituées. Ainsi, on estime à 70 petabytes le volume des données digitales stockées en 2012 aux Etats Unis. En particulier, en ophtalmologie, de larges volumes de données, et notamment des vidéos, concernent les opérations de la cataracte, du fait de la fréquence de ce type d'intervention chirurgicale. Un consensus se dégage des professionnels de la santé sur la nécessité de tirer profit de cette énorme quantité de données pour l'amélioration des soins de santé.
Pour cela, il est nécessaire de structurer sémantiquement les vidéos médicales disponibles. On connaît, dans l'état de la technique, différents types de méthodes d'analyse sémantiques de vidéo permettant de structurer, en temps différé, des vidéos enregistrées préalablement. Ce type de méthode permet ainsi la génération automatique, ou semi- automatique, de comptes-rendus chirurgicaux ou encore la navigation dans des archives vidéo chirurgicales.
En particulier, certaines de ces techniques de l'art antérieur permettent également le découpage automatique en étapes chirurgicales d'une vidéo acquise préalablement. Cependant, ces techniques reposent sur des méthodes d'analyse très consommatrices en temps de calcul, ce qui ne permet pas une utilisation de ces techniques pour analyser un flux au fil de son acquisition.
De plus, ces méthodes nécessitent généralement la connaissance de la vidéo dans son intégralité avant de pouvoir analyser, en temps différé, la vidéo. Ceci est notamment le cas des méthodes basées sur l'algorithme "Dynamic Time Warping".
De plus, ces techniques reposent sur une phase de définition manuelle préalable des caractéristiques vidéo à utiliser pour la structuration d'un flux vidéo à analyser. De ce fait, elles demandent, pour être mises en œuvre, des compétences dans le domaine des techniques vidéo et une analyse pointue du domaine d'application par des spécialistes de la vidéo.
Enfin, le paramétrage manuel, qui oblige à sélectionner un ensemble relativement simple de caractéristiques vidéo, limite également les possibilités de découpage en étapes d'une vidéo.
3. OBJECTIFS DE L'INVENTION
L'invention, dans au moins un mode de réalisation, a notamment pour objectif de pallier certains de ces inconvénients de l'état de la technique.
Plus précisément, dans au moins un mode de réalisation de l'invention, un objectif est de fournir une technique qui permette une analyse en temps réel de flux vidéo.
Au moins un mode de réalisation de l'invention a également pour objectif de fournir une technique qui soit simple à mettre en œuvre et adaptée à une utilisation par une personne non spécialiste du domaine de la vidéo.
Un autre objectif d'au moins un mode de réalisation de l'invention est de fournir une telle technique qui permette à un utilisateur de bénéficier de nouveaux services.
4. EXPOSÉ DE L'INVENTION
L'invention concerne un procédé d'analyse sémantique d'un flux vidéo en cours d'acquisition.
Selon l'invention, le procédé d'analyse sémantique comprend une étape d'apprentissage, ladite étape d'apprentissage délivrant au moins une caractéristique vidéo, appelée caractéristique bas-niveau, à partir d'au moins un paramètre représentatif d'une phase d'action sémantique de type prédéterminé, appelée phase d'action haut-niveau. Ainsi, le procédé d'analyse sémantique permet d'obtenir une analyse de niveau applicatif d'un flux vidéo, par la mise en œuvre d'une étape d'apprentissage, au cours de laquelle sont mémorisées des caractéristiques bas-niveau du domaine de la vidéo (par exemple des caractéristiques liées à des mouvements, des formes, des couleurs ou des textures) en association avec des types prédéterminés d'actions de haut niveau du domaine d'application du procédé (par exemple des actions ou étapes clés d'une chirurgie) grâce à la fourniture de paramètres représentatifs de ces types prédéterminés d'actions (par exemple des mots clés (« anesthésie », « incision », « suture », « intermède ».... )).
Selon l'invention, cette association est réalisée automatiquement, par exemple à partir des annotations d'un expert du domaine d'application du procédé, lors du visionnage de flux vidéo dédiés à cet apprentissage, par exemple un ensemble d'enregistrements représentatifs de ce domaine d'application constituant une base d'apprentissage.
Ainsi l'invention offre l'avantage, pour un utilisateur non spécialiste du domaine de la vidéo, de pouvoir catégoriser des moments clés d'un flux vidéo à un niveau applicatif, c'est-à-dire à un niveau sémantique, sans avoir à déterminer de lui-même des caractéristiques vidéo bas niveau susceptibles de permettre la reconnaissance de ces moments clés.
Selon une caractéristique particulière de l'invention, ladite étape d'apprentissage détermine en outre une probabilité d'ordonnancement d'au moins deux types prédéterminés de phases d'action haut niveau.
Ainsi, l'étape d'apprentissage peut comprendre l'enregistrement de certains ordonnancements d'actions. Il peut s'agir de conditions d'ordonnancement obligatoires. Par exemple, un chirurgien peut indiquer qu'une phase d'application d'un produit désinfectant ou antiseptique précède toujours une incision. Il peut également s'agir d'une probabilité d'ordonnancement calculée à partir des flux de référence représentatifs du domaine d'applicatif du procédé d'analyse sémantique.
Selon une caractéristique particulière de l'invention, le procédé d'analyse sémantique comprend également une étape d'analyse sémantique dudit flux vidéo en cours d'acquisition, comprenant les sous-étapes suivantes :
• échantillonnage du flux vidéo en éléments ;
• pour un élément courant : o extraction d'au moins une caractéristique bas-niveau dudit élément courant ;
o détermination d'une probabilité d'appartenance dudit élément courant à un intermède, ledit intermède suivant et/ou précédant au moins une phase d'action haut-niveau dans ledit flux vidéo, ladite sous-étape de détermination d'une probabilité d'appartenance tenant compte de ladite au moins une caractéristique bas-niveau extraite.
Le procédé d'analyse sémantique met en œuvre une étape d'analyse sémantique d'un flux vidéo en temps réel, au cours de laquelle le flux en cours d'acquisition est découpé en séquences particulières d'éléments échantillonnés successifs, auxquelles une signification sémantique est associée, à partir des caractéristiques bas-niveau extraites des éléments échantillonnés. Une séquence peut ainsi représenter une phase d'action, c'est-à- dire un moment clé particulier du flux, sémantiquement parlant, pendant lequel se déroule une action, ou un intermède, c'est-à dire un moment sémantiquement « sans action » pour le domaine d'application considéré, précédant ou suivant au moins une phase d'action.
Un tel moment sans action sémantique peut par exemple consister, dans le cas d'un dispositif de surveillance vidéo d'un distributeur automatique de billets de banque, en une séquence d'éléments sans aucun individu à proximité du distributeur, quelque que soit la scène qui se déroule en arrière-plan (présence ou non de passants par exemple).
Dans certaines mises en œuvre du procédé d'analyse sémantique, plusieurs phases d'action peuvent se dérouler entre deux intermèdes consécutifs. Par exemple, il peut s'agir de deux actions se déroulant conjointement. Ainsi, par exemple, au cours d'une chirurgie, un chirurgien peut terminer une étape chirurgicale de la main gauche tout en démarrant une nouvelle étape de la main droite.
Selon une caractéristique particulière de l'invention, ladite étape d'analyse sémantique comprend en outre une sous-étape de décision d'appartenance dudit élément courant audit intermède, tenant compte d'un seuil prédéfini de ladite probabilité d'appartenance.
Ainsi, la décision d'assimiler un élément courant à une partie d'un intermède peut selon l'invention, tenir compte d'un seuil de probabilité différent selon les domaines d'application de l'invention. Ce seuil peut en particulier être déterminé, lors ou juste après la phase d'apprentissage, par des tests sur des flux de référence, de façon à maximiser empiriquement le taux de succès du procédé.
Selon une caractéristique particulière de l'invention, lorsque ladite probabilité d'appartenance dudit élément courant à un intermède est inférieure audit seuil prédéfini, ladite étape d'analyse sémantique comprend en outre une sous-étape de détermination d'une probabilité de déroulement d'un type prédéterminé de phase d'action.
En d'autres termes, lorsque l'élément courant appartient a priori à une phase d'action, le procédé d'analyse sémantique comprend une caractérisation de la phase d'action en cours. Il s'agit d'associer à cette phase d'action en cours un type prédéterminé adéquat.
Selon une caractéristique particulière de l'invention, ladite sous-étape de détermination d'une probabilité d'appartenance tient compte en outre de l'appartenance à un intermède ou une phase d'action d'au moins un élément précédant temporellement ledit élément courant dans ledit flux vidéo.
Ainsi, l'invention propose de tenir compte, dans certains modes de réalisation, des éléments déjà analysés du flux en cours d'acquisition pour l'analyse de l'élément courant. De cette façon, l'invention permet d'affiner l'analyse du flux vidéo au fil de son acquisition.
Selon une caractéristique particulière de l'invention, ladite sous-étape de détermination d'une probabilité d'appartenance tient compte d'un critère de voisinage d'au moins une caractéristique bas niveau dudit élément courant avec au moins un élément d'un flux de référence, acquis pendant ladite phase d'apprentissage.
Ainsi, la probabilité pour un élément courant d'appartenir à un intermède tient compte de l'existence, dans au moins un flux de référence, utilisé par exemple lors de l'étape d'apprentissage, d'éléments considérés par un expert comme appartenant à un intermède ou à une phase d'action et ayant des caractéristiques bas niveau similaires ou proches (c'est-à-dire des éléments voisins d'un point de vue vidéo). Dans certains modes de réalisation particuliers, la probabilité pour un élément courant d'appartenir à un intermède ou à une phase d'action peut par exemple être définie à partir du pourcentage de ses voisins, dans un ensemble de flux de référence, considérés comme appartenant à un intermède ou à une phase d'action.
De même, la sous-étape de détermination d'une probabilité de déroulement d'une phase d'action d'un type prédéterminé peut aussi tenir compte de la présence, dans le flux de référence, d'éléments associés par un expert, notamment lors de l'étape d'apprentissage, à une phase d'action d'un type particulier, et ayant des caractéristiques bas niveau similaires ou proches de celles de l'élément courant.
Selon une caractéristique particulière de l'invention, ledit critère de voisinage est une distance euclidienne pondérée d'au moins une des caractéristique bas-niveau dudit au moins un élément dudit flux de référence et dudit élément courant.
La pondération à utiliser peut notamment être déterminée par apprentissage.
Selon une caractéristique particulière de l'invention, ladite sous-étape de décision tient compte en outre de l'appartenance à un intermède d'un nombre minimum d'éléments successifs précédant ledit élément courant dans ledit flux vidéo.
De tels modes de réalisation permettent ainsi de filtrer le flux en cours d'acquisition, par exemple en présence de bruitage, de façon à ignorer les intermèdes de durée inférieure à un seuil minimum, c'est à dire comprenant un nombre d'éléments échantillonnés inférieurs à un certain seuil. Cela peut par exemple permettre d'ignorer des interruptions d'une seule phase d'action, comme lorsqu'un chirurgien change de compresse, lors d'une phase de pansage d'une incision.
Selon une caractéristique particulière de l'invention, ladite sous-étape de détermination d'une probabilité de déroulement d'un type prédéterminé de phase d'action tient compte de l'appartenance à un intermède ou à une phase d'action d'un élément précédant immédiatement ledit élément courant dans ledit flux vidéo.
Ainsi, lorsque l'élément courant a une probabilité faible d'être un intermède, c'est- à-dire lorsqu'il fait partie a priori d'une phase d'action, il peut soit constituer le premier élément d'une séquence représentative d'une nouvelle phase d'action, dont il marque donc le début, soit appartenir à une séquence d'éléments en cours d'acquisition, c'est-à-dire être une continuation d'une phase d'action déjà engagée.
L'appartenance de l'élément précédant immédiatement l'élément courant dans le flux à un intermède, indiquera avec une probabilité forte le démarrage d'une nouvelle phase d'action. Au contraire, si cet élément précédent appartient lui aussi à une phase d'action, cela peut augmenter la probabilité pour l'élément courant d'appartenir à la même phase d'action que l'élément précédent.
Selon une caractéristique particulière de l'invention, ladite sous-étape de détermination d'une probabilité de déroulement d'un type prédéterminé de phase d'action tient compte en outre d'au moins une probabilité de déroulement d'au moins un type prédéterminé de phase d'action déjà déterminée pour au moins un élément précédant temporellement ledit élément courant dans ledit flux vidéo.
Ainsi, comme souligné plus haut, l'appartenance de l'élément précédent le plus récemment acquis à une phase d'action d'un type prédéterminé peut augmenter la probabilité pour l'élément courant d'appartenir à cette même phase d'action. De plus, dans certains modes de réalisation qui comprennent, par exemple dans une étape d'apprentissage, la détermination d'une probabilité d'ordonnancement de certains types prédéterminés d'action, l'identification d'une phase d'action d'un premier type prédéterminé particulier peut augmenter la probabilité d'occurrence d'une phase d'action d'un second type prédéterminé. Par exemple, une phase d'application d'un produit désinfectant ou antiseptique peut augmenter la probabilité d'occurrence ultérieure d'une incision ou d'une suture.
Selon une caractéristique particulière de l'invention, ladite sous-étape de détermination d'une probabilité de déroulement d'un type prédéterminé de phase d'action est mise en œuvre selon une théorie mathématique dite « des fonctions de croyance ».
Selon un mode de réalisation particulier de l'invention, le procédé d'analyse sémantique comprend en outre une étape de prédiction d'un type prédéterminé d'action à venir, ladite prédiction tenant compte :
d'au moins une probabilité de déroulement d'au moins un type prédéterminé de phase d'action pour au moins un élément précédant temporellement ledit élément courant dans ledit flux vidéo ; d'au moins une probabilité d'ordonnancement du type prédéterminé de phase d'action dudit élément précédent et dudit type prédéterminé d'action à venir.
En particulier, cette prédiction peut, dans certains modes de réalisation, comprendre la génération d'une préconisation sur une interface utilisateur (par exemple la génération d'une proposition d'action par serveur vocal ou par incrustation sur une zone d'un écran de visualisation).
Ainsi, le procédé d'analyse sémantique permet d'aider une personne en charge de la réalisation des actions (par exemple un chirurgien dans le cadre de l'acquisition d'un flux vidéo relatif à un acte de chirurgie) à une prise de décision (par exemple dans le cadre d'une chirurgie dont le déroulement est inhabituel). Il peut aussi avoir une utilisation didactique, par exemple pour la formation d'acteurs du domaine (par exemple de jeunes chirurgiens ou des opérateurs d'un centre de télésurveillance, ... ).
Selon une caractéristique particulière de l'invention, ladite sous-étape de détermination d'une probabilité de déroulement d'un type prédéterminé de phase d'action tient compte en outre de la durée d'au moins un intermède précédant ladite phase d'action et/ou du nombre d'intermèdes précédant ladite phase d'action.
Plus simplement, l'étape de calcul d'une probabilité de déroulement d'un type prédéterminé de phase d'action tient compte de la durée et/ou du nombre d'intermèdes déjà survenus.
En effet, certains types prédéterminés de phase d'action peuvent avoir une plus grande probabilité d'occurrence lorsque l'intermède précédant immédiatement cette phase d'action a eu au moins une certaine durée. Il peut s'agir notamment dans le cas de la chirurgie de phases d'action qui nécessitent une préparation plus importante de l'équipe médicale ou des vérifications préalables (par exemple la vérification du dossier médical du patient avant la première incision).
Selon une caractéristique particulière de l'invention, le procédé d'analyse sémantique comprend en outre une étape de génération d'une alerte lorsque ladite étape de détermination d'une probabilité de déroulement d'un type prédéterminé de phase d'action aboutit à un type prédéterminé de phase d'action différent du type prédéterminé de phase d'action prédit lors de ladite étape de prédiction.
Ainsi, le procédé d'analyse sémantique permet d'alerter une personne en charge de la réalisation des actions ou un tiers habilité de l'occurrence d'une succession d'actions inhabituelle.
L'invention concerne également un terminal de communication comprenant :
des moyens d'apprentissage délivrant au moins une caractéristique vidéo, appelée caractéristique bas-niveau, à partir d'au moins un paramètre représentatif d'une phase d'action sémantique de type prédéterminé, appelée phase d'action haut-niveau.
Enfin, l'invention concerne également un produit programme d'ordinateur qui comprend des instructions de code de programme pour la mise en œuvre du procédé précité (dans l'un quelconque de ses différents modes de réalisation), lorsque ledit programme est exécuté sur un ordinateur. Dans un autre mode de réalisation de l'invention, il est proposé un médium de stockage lisible par ordinateur et non transitoire, stockant un programme d'ordinateur comprenant un jeu d'instructions exécutables par un ordinateur ou un processeur pour mettre en œuvre le procédé précité (dans l'un quelconque de ses différents modes de réalisation).
5. LISTE DES FIGURES
D'autres caractéristiques et avantages de l'invention apparaîtront à la lecture de la description suivante, donnée à titre d'exemple indicatif et non limitatif, et des dessins annexés, dans lesquels :
la figure 1 présente le principe général du procédé d'analyse sémantique; la figure 2 présente le déroulement de l'étape d'apprentissage du procédé d'analyse sémantique dans un mode de réalisation particulier ; la figure 3 présente le déroulement de l'étape d'analyse sémantique du procédé d'analyse sémantique dans un mode de réalisation particulier ; la figure 4 illustre la structure d'un terminal selon l'invention. Sur toutes les figures du présent document, les éléments et étapes identiques sont désignés par une même référence numérique.
6. DESCRIPTION DÉTAILLÉE
6.1 Principe générai
Le principe général de l'invention consiste à proposer une analyse sémantique d'un flux vidéo en cours d'acquisition basée sur des annotations sémantiques préalables de flux de référence par des experts du domaine applicatif et non, comme les solutions de l'art antérieur, basée sur la définition de caractéristiques vidéo particulières par des experts du domaine de la vidéo.
De ce fait, le procédé d'analyse sémantique peut être utilisé, quel que soit le domaine applicatif, sans étude technique préalable des caractéristiques vidéo d'enregistrements.
L'invention est décrite de façon détaillée dans le cas particulier d'une application à des flux vidéo relatifs à des opérations de la cataracte. Il est clair que de nombreux autres modes de réalisation de l'invention peuvent être envisagés, sans sortir du cadre de l'invention. On peut notamment prévoir une utilisation du procédé d'analyse sémantique pour analyser sémantiquement des flux vidéo relatifs à d'autres types d'opérations chirurgicales ou d'examens médicaux (notamment des examens par endoscopie ou des examens radiologiques), à de la vidéosurveillance (magasins, lieux ou dispositifs sensibles, postes de machines-outils, etc.).
Dans la présente demande de brevet, on appelle « intermède » une phase sans action de haut niveau, c'est-à-dire dans le cas particulier du mode de réalisation présenté, un moment de la chirurgie où aucun événement, pertinent sur le plan clinique, ne se déroule.
Une « phase d'action de haut niveau » représente, dans le cas particulier du mode de réalisation présenté, une tâche chirurgicale de haut-niveau. Dans certains modes de réalisation particuliers, elle peut aussi représenter une partie d'une tâche chirurgicale de haut niveau, ou deux tâches chirurgicales consécutives s'enchaînant sans interruption ou se déroulant au moins partiellement simultanément et donc considérées, pour l'analyse, comme une seule tâche.
Le procédé d'analyse sémantique comprend, selon un premier aspect, une étape d'apprentissage au cours de laquelle sont définis des paramètres représentatifs de phases d'action haut niveau, en association avec des portions de flux vidéo de référence, précédemment acquis. Ceci permet de structurer temporellement et sémantiquement ces flux vidéo de référence. Ces paramètres peuvent comprendre par exemple des mots clés du domaine d'application pour la désignation de phases d'action haut niveau. Par exemple, dans le cadre d'opérations de la cataracte, il peut s'agir de mots clés comme : « désinfection », «incision », « suture », « rhexis », « hydrodissection », « phacoemulsification », « epinucleus removal », « viscous agent injection », « implant setting-ip », « viscous agent removal », « stitching up ».
Le contenu de chaque portion est analysé automatiquement, par exemple par une méthode basée sur une technique d'analyse de contenus de vidéo, notamment une technique de type « Content-Based Video Retrieval (CBVR), selon la terminologie anglaise. Il peut s'agir par exemple de la méthode décrite par les inventeurs dans leur publication « Real Time Retrieval of Similar Videos with Application to Computer-Aided Surgery». Cette étape permet de décrire chaque portion de flux par un ensemble de caractéristiques vidéo, par exemple des caractéristiques de mouvement, de forme, de couleurs, de texture, ... Ainsi, le procédé d'analyse sémantique permet d'associer des caractéristiques bas- niveau particulières, du domaine de la vidéo (une quantité de mouvement, une information de texture, de forme, de couleurs,...), à chaque paramètre représentatif d'une phase d'action haut niveau du domaine médical (désinfection, incision, ...), désignée par un expert du domaine médical.
Selon un deuxième aspect, le procédé d'analyse sémantique permet d'analyser sémantiquement un flux vidéo pendant son acquisition, pour le découper en phase d'actions haut niveau du domaine d'application du procédé, à partir de ses caractéristiques vidéo de bas-niveau.
Cette méthode présente l'avantage d'être rapide et de ce fait d'être adaptée à une analyse au fil de l'eau d'un flux vidéo au cours de son acquisition, à l'inverse des solutions de l'art antérieur.
De ce fait, le procédé d'analyse sémantique offre des possibilités nouvelles à un utilisateur. En particulier, certains modes de réalisation permettent de prédire les actions qui devraient logiquement survenir, après l'élément courant du flux en cours d'acquisition. Plus précisément, le procédé d'analyse sémantique permet ainsi d'offrir une assistance à l'utilisateur (par exemple d'assister un chirurgien, au cours de l'une de ses opérations) :
d'une part, en lui suggérant des actions à accomplir ;
d'autre part, en avertissant l'utilisateur, ou un tiers, lorsque l'action en cours n'est pas celle qui devrait logiquement survenir.
Il peut en particulier être utilisé comme un outil d'aide à la décision, ou à but pédagogique, et également comme un outil d'alerte. Dans certains modes particuliers de réalisation, le procédé peut également comprendre une étape de construction, au fil de l'acquisition ou après l'étape d'analyse sémantique, d'un compte rendu sémantique de l'événement que représente le flux.
La figure 1 illustre un mode de réalisation particulier dans lequel le procédé comprend tout d'abord une étape d'apprentissage 100 à partir de flux de référence, puis une étape 120 d'analyse sémantique d'un flux lors de son acquisition. Il est clair que l'étape d'apprentissage peut, dans d'autres modes de réalisation, être mise en œuvre indépendamment de toute étape d'analyse, par exemple par un pool d'experts d'un domaine médical, qui souhaiteraient par exemple valoriser leur expertise. De même, l'étape d'analyse peut être mise en œuvre, sans étape d'apprentissage, par exemple par l'importation d'un fichier logiciel contenant des données représentatives d'un ensemble de flux de référence annotés sémantiquement, et semblables à celles résultant d'une étape d'apprentissage.
6.2 Exemple de mise en œuvre d'une étape d'apprentissage
On détaille ci après, en lien avec la figure 2, un exemple de mise en œuvre de l'étape d'apprentissage 100 du procédé d'analyse sémantique, pour une application au domaine des opérations de la cataracte.
Dans le mode de réalisation particulier présenté, l'étape d'apprentissage 100 comprend tout d'abord une sous-étape 210 d'acquisition d'un ensemble de flux de référence (« training dataset » SI) destinés à l'apprentissage. Ces flux de références peuvent par exemple être constitués par un ensemble d'enregistrements vidéo de chirurgies de la cataracte, réalisées par plusieurs chirurgiens dans différentes salles d'opérations, précédemment collectés. Ils peuvent également comprendre des flux vidéo transmis en temps réel lors d'une opération, dont la prise en compte définitive comme élément de référence peut être soumise à une validation ultérieure d'un expert du domaine.
6.2.1 Collecte des flux de référence
Les flux de référence peuvent notamment consister en des enregistrements collectés via des moyens d'acquisition et de stockage vidéo différents et disponibles sous des formats différents. Par exemple, il peut s'agir, pour l'un, d'un ensemble de une à plusieurs centaines de vidéos (par exemple 200) réalisées par une à plusieurs dizaines de chirurgiens (par exemple 10) dans plusieurs salles opératoires (par exemple 2) munies chacune de moyens d'acquisition et de stockage vidéo différents (par exemple une caméra vidéo CCD-IRIS SONY ® et un enregistreur sur cassette vidéo DSR-20MDP SONY ®), les données étant stockées sous un format MPEG2, avec la meilleure définition disponible sur ces appareils et, pour l'autre, d'un enregistreur vidéo utilisant un standard d'imagerie dédié au domaine médical, par exemple DICOM, comme le produit MediCap USB200 de MediCapture®, les données étant stockées sous un format DVD. Des données démographiques (par exemple l'âge, le sexe, ...) ou contextuelles (par exemple des données médicales comme une pathologie, par exemple un diabète ou une surdité, ou une caractéristique physiologique, comme une inflammation ou une taille de pupille,...) peuvent également être associées à un enregistrement. Le procédé d'analyse sémantique présente l'avantage d'être adaptable à différents domaines d'application (notamment la chirurgie, la télésurveillance de lieux ou de dispositifs). Dans le mode de réalisation présenté, le paramétrage du procédé pendant la phase d'apprentissage permet l'optimisation de son efficacité au domaine d'application considéré. La phase d'apprentissage permet en effet de définir de façon judicieuse des paramètres en fonction de résultats obtenus sur l'ensemble des flux de référence.
Il s'agit notamment de paramétrer:
-i- les paramètres nécessaires à la technique d'analyse du contenu vidéo d'éléments ou séquences de flux vidéo mise en œuvre;
-ii- un seuil (τρ) άβ probabilité d'appartenance à un intermède et un seuil
(rg) minimum de nombre d'éléments successifs appartenant à un intermède ;
-iii- un nombre (L) de preuves (selon la théorie des fonctions de croyance) à utiliser lors de l'étape d'analyse sémantique des phases d'actions ;
-iv- un nombre (M) de catégories de matrices non-stationnaires de probabilité ;
-v- un nombre (n) de voisins à prendre en compte pour un raisonnement par analogie (mis en œuvre lors de l'étape d'analyse sémantique 120) ;
-vi- les probabilités conditionnelles Ρη(Τ, \ η') du raisonnement par analogie ;
-vii- les matrices
Figure imgf000015_0001
de probabilité de transition entre actions.
Dans le mode de réalisation présenté, la technique d'analyse vidéo de sous- séquences est une technique d'analyse de contenus vidéo (ou « Content-Based Video Retrieval » (CBVR)), par exemple la technique décrite par les inventeurs.
Les probabilités conditionnelles du raisonnement par analogie et les matrices de probabilité de transition sont estimées grâce aux fréquences relatives observées dans l'ensemble de référence.
6.2.3 Apprentissage à la détection automatique d'intermèdes
Dans le mode de réalisation présenté en figure 2, l'étape d'apprentissage 100 comprend également une sous-étape de sélection aléatoire 220 d'un sous-ensemble d'entraînement S0, parmi l'ensemble SI des flux vidéo de référence, acquis lors d'une sous- étape d'acquisition 210. Les flux du sous-ensemble S0 seront ensuite utilisés pour définir, manuellement, le paramétrage de la détection d'intermède. Lorsque le paramétrage est effectué manuellement, comme dans le mode de réalisation illustré, une limitation de l'apprentissage à un nombre réduit de flux permet un gain de temps important en termes de temps d'apprentissage, par rapport à un apprentissage sur l'ensemble des flux de la base d'apprentissage.
Dans le mode de réalisation illustré, le sous-ensemble d'entraînement comprend par exemple une dizaine de flux vidéo.
L'étape d'apprentissage 100 comprend ensuite une sous-étape de segmentation 230 de chaque flux du sous-ensemble S0 d'entraînement par des experts du domaine, de façon à définir, grâce aux experts, tous les débuts et fins d'intermèdes des flux du sous- ensemble d'entraînement S0.
En outre, l'étape d'apprentissage comprend une sous-étape d'entraînement 240 de détection automatique des débuts et fins d'intermèdes des flux du sous-ensemble d'entraînement S0. Cet entraînement peut par exemple prendre la forme d'une validation croisée, notamment par une méthode de validation croisée de type « N-fold cross validation », sur le sous-ensemble d'entraînement S0.
Ainsi, dans le mode de réalisation présenté, le sous-ensemble d'entraînement S0 est à son tour découpé en plusieurs lots. Une itération, sur les lots découpés, de sous-étapes de détection automatique 250 des débuts et des fins d'intermèdes, suivie de sous-étapes d'analyse 260 du résultat de cette détection, par corrélation avec le résultat de la segmentation réalisée par des experts (étape 230), permet de valider, lors d'une sous-étape de validation 270, le paramétrage utilisé pour la détection des intermèdes.
Plus précisément, la sous-étape d'entraînement 240 permet de définir le seuil (Tp) àe probabilité d'appartenance à un intermède, et le seuil (τ§) minimum de nombre d'éléments successifs appartenant à un intermède à utiliser lors de l'étape d'analyse sémantique 120 pour décider si un élément appartient ou non à un intermède.
Le procédé comprend une évaluation en terme de sensibilité, c'est-à-dire une évaluation du pourcentage de vrais intermèdes détectés par le procédé d'analyse sémantique, et en terme de taux de fausse détection (ou « False positive Rate » (FPR), c'est- à-dire le taux de faux intermèdes détectés pour une vidéo par le procédé d'analyse sémantique). La mesure de la sensibilité et du FPR pour différentes valeurs du seuil de probabilité d'appartenance à un intermède (τρ) et du seuil minimum de nombre d'éléments successifs appartenant à un intermède (τ§) permet d'établir une courbe d'analyse dite « Free Response Receiver Operating Characteristic » (« FROC Curve »), ayant en abscisse le FPR et en ordonnée la sensibilité, et de déterminer ainsi un couple de valeurs optimal de FPR et de sensibilité et donc, par déduction, des valeurs optimales des deux seuils Tp et τ§ .
Dans le mode de réalisation particulier présenté en figure 2, les valeurs suivantes sont ainsi choisies :
τρ =0, 7;
τδ =0,8.
6.2.4 Définition de types prédéterminés de phases d'action
L'étape d'apprentissage 100 permet de paramétrer un nombre (i.) de preuves utilisées lors de l'étape d'analyse sémantique 120 des phases d'actions, un nombre (M) de catégories de matrices non-stationnaires de probabilité et un nombre (n) de voisins à prendre en compte pour le raisonnement par analogie (utilisé pour le critère de voisinage des phases d'actions lors de l'étape d'analyse sémantique 120). Ceux-ci sont optimisés grâce à une grille de recherche dans le sous-ensemble de flux de référence et par l'utilisation de méthodes graphiques (par exemple des méthodes utilisant des courbes de type « Receiver Operating Characteristic (ROC) Curve », comme présenté plus loin).
Dans le mode de réalisation présenté, chaque flux vidéo de l'ensemble de référence SI est segmenté temporellement par des experts de la cataracte, en sous-séquences représentant chacune au moins une phase d'action identifiée par un mot clé du domaine d'application. Par exemple, dans le cadre d'opérations de la cataracte, il peut s'agir des mots clés suivants : «incision », « rhexis », « hydrodissection », « phacoemulsification », « epinucleus removal », « viscous agent injection », « implant setting-ip », « viscous agent removal », « stitching up ». Une catégorie particulière (« miscellaneous ») peut éventuellement également être définie, pour regrouper des phases optionnelles (par exemple, dans le cadre d'opérations de la cataracte, « iris retractor setting-up », « iris retractor removal, « angle measurement », « landmark tracing » etc.
Dans le mode de réalisation particulier présenté, la méthode graphique se base sur des courbes « Receiver Operating Characteristic (ROC) Curve » établies pour chaque type prédéterminé de phase d'action défini par un expert. Elles comportent en abscisse le FPR et en ordonnée la sensibilité. Les performances associées aux types définis par l'expert sont évaluées par l'aire sous la courbe. Ceci permet notamment d'optimiser le choix du nombre (L) de preuves, du nombre (M) de catégories de matrices non-stationnaires de probabilité et du nombre (n) de voisins pour le raisonnement par analogie.
Par exemple, dans le mode particulier de réalisation présenté, les valeurs permettant de maximaliser l'aire sont les valeurs :
L = 10;
M = 4 ;
n <≡ {20,30,50,100}
6.3 Déroulement de l'étape d'analyse sémantique d'un flux en cours d'acquisition
On présente, en lien avec la figure 3 notamment, le déroulement de l'étape d'analyse sémantique 120 du procédé d'analyse sémantique dans un mode de réalisation particulier.
Dans le mode de réalisation présenté en figure 3, le procédé d'analyse sémantique comprend, une fois l'étape d'apprentissage 100 déroulée, une étape d'analyse sémantique 120 d'un flux vidéo en cours d'acquisition. Cette étape permet de segmenter automatiquement le flux en une suite de séquences représentant des intermèdes ou des phases d'action haut niveau.
Pour cela, le flux en cours d'acquisition est échantillonné (lors d'une étape d'échantillonnage 310), au fil de son acquisition, en éléments vidéo, ou sous-séquences vidéo, composés de quelques trames vidéo. Le procédé comprend également une sous- étape 320 d'extraction, pour chaque élément échantillonné, de caractéristiques bas niveau du domaine de la vidéo. Ces caractéristiques sont utilisées ensuite lors d'une étape 330 de détermination d'une probabilité d'appartenance d'un élément courant à un intermède, pour comparer le contenu vidéo de l'élément courant avec le contenu vidéo des éléments de l'ensemble SI de flux de référence et déterminer (par exemple grâce à la méthode déjà développée par les inventeurs) les voisins les plus proches, en terme de distance euclidienne, de l'élément courant. La probabilité d'appartenance à un intermède de l'élément courant est définie, dans le mode de réalisation présenté en figure 3, comme le pourcentage, parmi ces voisins, d'éléments de référence considérés comme appartenant à un intermède.
Dans certains modes de réalisation, l'étape d'analyse sémantique 120 comprend de plus une sous-étape 340 de décision sur l'appartenance de l'élément courant à un intermède ou à une phase d'action, selon que la probabilité d'appartenance soit supérieure ou inférieure au seuil (τρ) de probabilité d'appartenance à un intermède paramétré lors de l'étape d'apprentissage. La sous-étape de décision 340 sur l'appartenance de l'élément courant à un intermède ou à une phase d'action peut également tenir compte des décisions déjà prises concernant des éléments déjà acquis du flux, c'est-à-dire concernant des éléments ayant précédé temporellement l'élément courant, et notamment du nombre d'éléments successifs précédant immédiatement l'élément courant et appartenant à un intermède. En particulier, la sous-étape de décision peut tenir compte d'un seuil (τ§) minimum de nombre d'éléments successifs appartenant à un intermède défini lors de l'étape de paramétrage. Lorsque la probabilité d'appartenance à un intermède en fonction du temps est une fonction bruitée, cette fonction peut être lissée par un filtre médian d'ordre n.
Ainsi, le procédé d'analyse sémantique permet un découpage temporel du flux vidéo en cours d'acquisition, avec une identification d'intervalles de temps représentant des intermèdes.
Les phases d'action contenues dans le flux vidéo sont définies par dualité avec les intermèdes détectés. Ainsi, une phase d'action est définie, selon le procédé d'analyse sémantique, comme l'action associée à l'intervalle de temps délimité par deux intermèdes consécutifs, ou par le début de l'acquisition du flux et le début du premier intermède, ou par la fin du dernier intermède et la fin de l'acquisition du flux.
6.3.1 Probabilité de déroulement d'une phase d'action d'un type prédéterminé
L'étape d'analyse sémantique 120 du procédé d'analyse sémantique vise notamment à permettre d'associer, à chaque phase d'action, un type prédéterminé, sélectionné parmi les types prédéterminés définis par un expert du domaine, notamment, comme dans le mode de réalisation présenté, lors d'une étape d'apprentissage 100 (par exemple "incision", " rhexis", "hydrodissection", etc.). La probabilité pk i que le type prédéterminé 7] soit associé à une action Ak est obtenue, en utilisant la théorie mathématique des fonctions de croyance, par combinaison de plusieurs preuves, comme décrit ci-après.
Ainsi, dans le mode de réalisation présenté, l'étape d'analyse 120 comprend une sous-étape de détermination 350 d'une probabilité de déroulement d'un type prédéterminé de phase d'action. Celle-ci tient compte, dans le mode de réalisation présenté, de la première preuve que représente le pourcentage, dans l'ensemble SI de flux de référence, des plus proches voisins de l'élément courant qui appartiennent à un type prédéterminé d'action.
Dans certains modes de réalisation, le procédé comprend un raisonnement par analogie, basé sur des probabilités conditionnelles calculées sur l'ensemble SI de flux de référence.
Par exemple, le procédé peut comprendre une estimation, effectuée lors de l'étape d'apprentissage, de la probabilité conditionnelle Pn(T,- \ n') calculée sur l'ensemble SI de flux de référence, qu'un élément de l'ensemble SI de flux de référence appartienne à une phase d'action de type T„ lorsque voisins parmi ses n voisins les plus proches dans l'ensemble de référence sont de type Τ,.
Lors de l'étape d'analyse sémantique 120 du flux en cours d'acquisition, lorsque n' voisins parmi les n plus proches voisins de l'élément courant, dans l'ensemble de flux de référence, sont de type 7", (c'est-à-dire lorsqu'il s'agit des mêmes conditions de probabilité que celles calculées sur l'ensemble SI de flux de référence), la probabilité pln> kjj de déroulement d'une phase d'action de type 7", est considérée comme étant la même que la probabilité Pn(Tj \ n'), calculée sur l'ensemble SI de flux de référence .
La théorie mathématique des fonctions de croyance peut être appliquée à la détermination des types prédéterminés à associer aux phases d'action.
Ainsi, l'estimation de la probabilité pln> kjj de déroulement d'une phase d'action de type T; lorsque n' voisins parmi les n plus proches voisins de l'élément courant, dans l'ensemble de référence, sont de type T peut être optimisée en choisissant une valeur optimale du nombre n de voisins les plus proches à sélectionner. L'incertitude associée peut par exemple être modélisée par le biais de la théorie mathématique dite des fonctions de croyance (ou théorie Dempster-Shafer), bien connue de l'homme du métier.
Deux hypothèses sont envisagées : soit l'action Ak en cours est de type 7Ï (hypothèse
P ), soit elle ne l'est pas (Hypothèse P ). L'univers binaire pris en considération est n = {P ,
P }. Selon la théorie des fonctions de croyance, une masse de croyance (ou « belief mass» selon la terminologie anglaise) mk l 0 (χ) est affectée à chaque élément % de l'ensemble des possibles 2Ω = {Φ, Ρ, Ρ, Ρ U P}.
Ainsi : muo (0) = O
mKi,o(X) [0, 1], V X 2 Σ
χ^ mk,0(X) =l
La masse de croyance mkl0 (χ) exprime la proportion de toutes les preuves disponibles qui rendent vraie l'assertion selon laquelle l'état actuel appartient à %mais pas à un sous-ensemble de χ. De ce fait, un des points clés pour la définition de mkl0 est l'estimation d'une borne inférieure et d'une borne supérieure de la probabilité de réalisation de l'hypothèse P. La borne inférieure, notée bel ki0, est appelée la croyance (ou « belief » selon la terminologie anglaise) de l'hypothèse P. La borne supérieure, notée p ,i,o, est appelée la plausibilité (ou « plausibility » selon la terminologie anglaise) de P .
Les bornes de la probabilité de réalisation de l'hypothèse P sont les bornes de la probabilité pln> kjjde déroulement d'une phase d'action de type 7",.
Ainsi :
bel kl0(P ) = minn p(n) k
pl k,io(P ) = maxnp<n'k/i
La fonction de masse de croyance m^/suit les définitions suivantes :
belkÀI(P) = m k I(P)
plkÀI(P) = m k I(P) + mkÀI(Pu P).
Ceci, combiné avec l'équation mkl0 (0) = 0, amène à :
mk 0 (0) = O
m k/h0 ( P ) = bel k/h0 ( P )
mk 0(P^ P)= Pl k,io (P) - bel o ( P )
m k 0(P ) = l -pl Kl0(P )■
Selon le procédé d'analyse sémantique, le contenu de la phase d'action courante peut être utilisé comme une première preuve.
Selon les modes de réalisation de l'invention, d'autres preuves peuvent également être utilisées. Ainsi, lorsque l'étape d'apprentissage 100 comprend une sous-étape de détermination d'une probabilité d'ordonnancement de certaines phases d'action, le contenu d'une phase d'action précédant temporellement l'élément courant peut également constituer une preuve pertinente pour la détermination du type prédéterminé de phase d'action à laquelle appartient l'élément courant. Par exemple, on sait qu'une phase d'action de type « incision » est habituellement suivie par une phase d'action de "rhexis" puis par une phase d'action de type "hydrodissection". Aussi, si la phase d'action précédant immédiatement l'élément courant est considérée comme étant de type « rhexis», elle même précédée d'une phase d'action de type « incision », la phase d'action en cours a une grande probabilité d'être de type "hydrodissection". De ce fait, les types prédéterminés de certaines actions déjà survenues, par exemple les (L-l) dernières phases d'action précédemment terminées, peuvent être également utilisés comme preuve pour la détermination du type prédéterminé de phase d'action à laquelle appartient l'élément courant.
Dans le mode de réalisation présenté, l'étape d'apprentissage permet de déterminer u n ordonnancement d'au moins certaines phases d'action de l'ensemble SI de flux de référence. Cet ordonnancement peut par exemple être codé sous forme de matrices de probabilité de transition. En effet, si on note 7^ la matrice NxN encodant les probabilités de transition entre des phases d'action séparées par / intermèdes,
Figure imgf000022_0001
est la probabilité, estimée sur l'ensemble de référence, que le chirurgien effectue une phase d'action de type Tj lorsqu'il a déjà effectué des phases d'actions de type Τ,.
Pour chaque preuve, une fonction de masse de croyance m k i , où /= - 1 est définie. Les bornes inférieure et supérieure de la probabilité de l'hypothèse P (respectivement belk l (P) et plk ,- (P)) sont fournies par la matrice de probabilité de transition et les estimations p k.r, :
belk P) = mmn [T® p(n) k-l/ ,
plk I(P) = maxn [T® p(n) k-,ii
Figure imgf000022_0002
Les fonctions de masse de croyance mk l i sont déterminées de façon similaire à la détermination de mk l 0 exposée ci-dessus. En particulier, les équations déjà énoncées : bel kÀ0 (P) = minn p(n) k,i et pl kÀ0 « (P)= maxn p(n) k
sont des cas particuliers des équations précédentes avec 1=0 (matrice d'identité). Selon les modes de réalisation d u procédé d'analyse sémantiq ue, les preuves peuvent éventuellement être combinées. En effet, selon le procédé d'analyse sémantique, une fonction de masse mk ii est définie pour chaque preuve /. Une règle de combinaison est utilisée pour convertir cette pluralité de fonctions de masse en une seule fonction de masse mk l . Cette conversion tire partie des propriétés des règles de combinaison de pouvoir combiner toute pluralité de fonctions de croyance basiq ues. Cette propriété est importante pour la catégorisation de phases d'action, puisque le nombre de preuves peut varier, selon les modes de réalisation et selon la longueur du flux déjà acquis.
D'une part, lorsqu'un nombre L de preuves est défini lors de l'étape d'apprentissage, le nombre d'actions précédentes dont il est possible de tenir compte lors de l'étape d'analyse sémantique, en début d'acquisition du flux (pour les L premières actions qui surviennent) sera forcément inférieur à ce nombre L.
D'autre part, différentes règles de combinaison peuvent être mises en œuvre selon les modes de réalisation de l'invention. En particulier, dans le mode de réalisation illustré, la 5ieme version de la règle de redistribution proportionnelle du conflit (ou PCR5 pour « fifth version of Proportional Conflict Red istribution Rule ») est utilisée.
Une fois que toutes les preuves ont été combinées, la probabilité qu'une action soit de type 77' est estimée par la probabilité pignistique de P. Cette probabilité constitue un compromis entre la croyance et la plausabilité de P :
Pkii = mkii (P) + m i (P U ~P )/2
Dans certains modes de réalisation, le type prédéterminé associé à une phase d'action est déterminé automatiquement à partir de son propre contenu (par comparaison aux phases d'action définies sur l'ensemble SI de flux de référence) (première preuve). D'autres preuves, comme le type prédéterminé d'au moins certaines des phases d'action déjà survenues, peuvent être prises en compte. Dans certains modes de réalisation, il peut ne pas être tenu compte du contenu des intermèdes déjà survenus pour la détermination du type prédéterminé associé à la phase d'action à laquelle appartient un élément courant. Dans d'autres modes de réalisation, au contraire, il peut être tenu compte du contenu des intermèdes précédant un élément courant, considéré comme appartenant à une phase d'action, pour la détermination du type prédéterminé associé à cette phase d'action.
En effet, même si, par définition, un intermède ne contient pas d'événement significatif au niveau du domaine d'application, donc pas de « contenu utile » au niveau applicatif, sa durée dk peut donner une indication sur l'ordonnancement de deux phases d'action et en particulier sur le type prédéterminé de la phase d'action qui le suit probablement. Par exemple, si la durée d'un intermède est très courte, un chirurgien n'aura pas eu le temps par exemple de changer d'outil de chirurgie. De ce fait, les actions précédant et suivant l'intermède auront une probabilité plus forte d'appartenir au même type prédéterminé de phase d'action. Si l'intermède dure très longtemps, cela peut logiquement indiquer que quelque chose d'anormal s'est produit et que le chirurgien va recommencer une des actions précédemment survenues.
Dans un tel mode de réalisation, la probabilité de transition entre deux actions A k.lik et A k peut dépendre en particulier de la durée cumulée t k.lik des intermèdes séparant les deux phases d'action (T =∑ ' j, =k_l + 1 Tj).
Pour chaque preuve /, /= 1.. L-l, tous les couples d'action (A A k) de l'ensemble SI de flux de référence sont groupés en M catégories (notées lt ... cL M), selon la valeur de
Une matrice de probabilité de transition T(l j) est ensuite construite par estimation en fonction de l'ensemble SI de flux de référence en utilisant tous les couples (A k.|, A k) de la catégorie Cj.
La définition de la fonction de masse de croyance est similaire à celle présentée en liaison avec les modes de réalisation présentés plus haut, la matrice de probabilité f'1 étant remplacée par une matrice de probabilité T^'j).
6.4 Structure d'un terminal de communication selon l'invention
On présente, en relation avec la figure 4, la structure simplifiée d'un terminal de communication selon l'invention.
Un tel terminal comprend une mémoire 400 comprenant une mémoire tampon, une unité de traitement 410, équipée par exemple d'un microprocesseur μΡ, et pilotée par un programme d'ordinateur 420, dont l'exécution met en œuvre un procédé d'analyse sémantique, selon l'un des modes de réalisation particuliers de l'invention.
A l'initialisation, les instructions de code du programme d'ordinateur 420 sont par exemple chargées dans une mémoire RAM avant d'être exécutées par le processeur de l'unité de traitement 410.
L'unité de traitement 410 reçoit en entrée un flux vidéo. Le microprocesseur de l'unité de traitement 410 met en œuvre les étapes du procédé d'analyse sémantique décrit précédemment, selon les instructions du programme d'ordinateur 420.
A cette fin, le terminal de communication comprend, outre la mémoire tampon 400 et un module de réception ou d'acquisition d'un flux vidéo, un module d'apprentissage apte à délivrer au moins une caractéristique vidéo, appelée caractéristique bas-niveau, à partir d'au moins un paramètre représentatif d'une phase d'action sémantique de type prédéterminé, appelée phase d'action haut-niveau.
Ces modules sont pilotés par le microprocesseur de l'unité de traitement 410.
Selon un mode de réalisation, l'invention est mise en œuvre au moyen de composants logiciels et/ou matériels. Dans cette optique, le terme "module" peut correspondre dans ce document aussi bien à un composant logiciel, qu'à un composant matériel ou à un ensemble de composants matériels et logiciels.
Un composant logiciel correspond à un ou plusieurs programmes d'ordinateur, un ou plusieurs sous-programmes d'un programme, ou de manière plus générale à tout élément d'un programme ou d'un logiciel apte à mettre en œuvre une fonction ou un ensemble de fonctions, selon ce qui est décrit ci-dessus pour le module concerné. Un tel composant logiciel est exécuté par un processeur de données d'une entité physique (terminal, serveur, passerelle, set-top-box, routeur, ... ) et est susceptible d'accéder aux ressources matérielles de cette entité physique (mémoires, supports d'enregistrement, bus de communication, cartes électroniques d'entrées/sorties, interfaces utilisateur, ...).
De la même manière, un composant matériel correspond à tout élément d'un ensemble matériel (ou hardware) apte à mettre en œuvre une fonction ou un ensemble de fonctions, selon ce qui est décrit ci-dessus pour le module concerné. Il peut s'agir d'un composant matériel programmable ou avec processeur intégré pour l'exécution de logiciel, par exemple un circuit intégré, une carte à puce, une carte à mémoire, une carte électronique pour l'exécution d'un micrologiciel (firmware), etc.

Claims

REVENDICATIONS
Procédé d'analyse sémantique d'un flux vidéo en cou rs d'acquisition, caractérisé en ce qu'il comprend une étape d'apprentissage, ladite étape d'apprentissage délivrant au moins une caractéristique vidéo, appelée caractéristique bas-niveau, à partir d'au moins un paramètre représentatif d'une phase d'action sémantique de type prédéterminé, appelée phase d'action haut-niveau.
Procédé d'analyse sémantique selon la revendication 1, caractérisé en ce que ladite étape d'apprentissage détermine en outre une probabilité d'ordonnancement d'au moins deux types prédéterminés de phases d'action haut niveau.
Procédé d'analyse sémantique selon l'une quelconq ue des revendications 1 ou 2, caractérisé en ce qu'il comprend également une étape d'analyse sémantique dudit flux vidéo en cours d'acquisition, comprenant les sous-étapes suivantes :
• échantillonnage du flux vidéo en éléments ;
• pour un élément courant :
o extraction d'au moins une caractéristique bas-niveau dudit élément cou rant ;
o détermination d'u ne probabilité d'appartenance dud it élément courant à un intermède, ledit intermède suivant et/ou précédant au moins une phase d'action haut-niveau dans ledit flux vidéo, ladite sous-étape de détermination d'une probabilité d'appartenance tenant compte de ladite au moins une caractéristique bas-niveau extraite.
Procédé d'analyse sémantique selon la revendication 3, caractérisé en ce que ladite étape d'analyse sémantique comprend en outre une sous-étape de décision d'appartenance dudit élément courant audit intermède, tenant compte d'un seuil prédéfini de ladite probabilité d'appartenance.
Procédé d'analyse sémantique selon la revendication 4, caractérisé en ce que, lorsque ladite probabilité d'appartenance dudit élément courant à un intermède est inférieure audit seuil prédéfini, ladite étape d'analyse sémantique comprend en outre une sous-étape de détermination d'une probabilité de déroulement d'un type prédéterminé de phase d'action. Procédé d'analyse sémantique selon l'une des revendications 4 ou 5, caractérisé en ce que ladite sous-étape de détermination d'une probabilité d'appartenance tient compte en outre de l'appartenance à un intermède ou une phase d'action d'au moins un élément précédant temporellement ledit élément courant dans ledit flux vidéo.
Procédé d'analyse sémantique selon la revendication 6, caractérisé en ce que ladite sous-étape de détermination d'une probabilité d'appartenance tient compte d'un critère de voisinage d'au moins une caractéristique bas niveau dudit élément courant avec au moins un élément d'un flux de référence, acquis pendant ladite phase d'apprentissage.
Procédé d'analyse sémantique selon la revendication 7, caractérisé en ce que ledit critère de voisinage est une distance euclidienne pondérée d'au moins une des caractéristique bas-niveau dudit au moins un élément dudit flux de référence et dudit élément courant.
Procédé d'analyse sémantique l'une quelconque des revendications 4 à 8, caractérisé en ce que ladite sous-étape de décision tient compte en outre de l'appartenance à un intermède d'un nombre minimum d'éléments successifs précédant ledit élément courant dans ledit flux vidéo.
Procédé d'analyse sémantique selon la revendication 5, caractérisé en ce que ladite sous-étape de détermination d'une probabilité de déroulement d'un type prédéterminé de phase d'action tient compte de l'appartenance à un intermède ou à une phase d'action d'un élément précédant immédiatement ledit élément courant dans ledit flux vidéo.
Procédé d'analyse sémantique selon la revendication 5, caractérisé en ce que ladite sous-étape de détermination d'une probabilité de déroulement d'un type prédéterminé de phase d'action tient compte en outre d'au moins une probabilité de déroulement d'au moins un type prédéterminé de phase d'action déjà déterminée pour au moins un élément précédant temporellement ledit élément courant dans ledit flux vidéo.
Procédé d'analyse sémantique selon la revendication 5, caractérisé en ce que ladite sous-étape de détermination d'une probabilité de déroulement d'un type prédéterminé de phase d'action est mise en œuvre selon une théorie mathématique dite « des fonctions de croyance ».
Procédé d'analyse sémantique selon l'une quelconque des revendications 1 à 12, caractérisé en ce qu'il comprend en outre une étape de prédiction d'un type prédéterminé d'action à venir, ladite prédiction tenant compte :
d'au moins une probabilité de déroulement d'au moins un type prédéterminé de phase d'action pour au moins un élément précédant temporellement ledit élément courant dans ledit flux vidéo ;
d'au moins une probabilité d'ordonnancement du type prédéterminé de phase d'action dudit élément précédent et dudit type prédéterminé d'action à venir.
Procédé d'analyse sémantique selon la revendication 5, caractérisé en ce que ladite sous-étape de détermination d'une probabilité de déroulement d'un type prédéterminé de phase d'action tient compte en outre de la durée d'au moins un intermède précédant ladite phase d'action et/ou du nombre d'intermèdes précédant ladite phase d'action.
Procédé d'analyse sémantique selon la revendication 13, caractérisé en ce qu'il comprend en outre une étape de génération d'une alerte lorsque ladite étape de détermination d'une probabilité de déroulement d'un type prédéterminé de phase d'action aboutit à un type prédéterminé de phase d'action différent du type prédéterminé de phase d'action prédit lors de ladite étape de prédiction.
Terminal de communication caractérisé en ce qu'il comprend :
des moyens d'apprentissage délivrant au moins une caractéristique vidéo, appelée caractéristique bas-niveau, à partir d'au moins un paramètre représentatif d'une phase d'action sémantique de type prédéterminé, appelée phase d'action haut-niveau.
Produit programme d'ordinateur, comprenant des instructions de code de programme pour la mise en œuvre du procédé selon au moins une des revendications 1 à 15, lorsque ledit programme est exécuté sur un ordinateur. Médium de stockage lisible par ordinateur et non transitoire, stockant un programme d'ordinateur comprenant un jeu d'instructions exécutables par un ordinateur ou un processeur pour mettre en œuvre le procédé selon au moins une des revendications 1 à 15.
PCT/EP2014/072890 2013-10-31 2014-10-24 Procédé d'analyse sémantique d'un flux vidéo en cours d'acquisition, terminal, produit programme d'ordinateur et medium correspondant WO2015062991A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1360738 2013-10-31
FR1360738A FR3012640B1 (fr) 2013-10-31 2013-10-31 Procede d'analyse semantique d'un flux video en cours d'acquisition, terminal, produit programme d'ordinateur et medium correspondant

Publications (1)

Publication Number Publication Date
WO2015062991A1 true WO2015062991A1 (fr) 2015-05-07

Family

ID=50489164

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2014/072890 WO2015062991A1 (fr) 2013-10-31 2014-10-24 Procédé d'analyse sémantique d'un flux vidéo en cours d'acquisition, terminal, produit programme d'ordinateur et medium correspondant

Country Status (2)

Country Link
FR (1) FR3012640B1 (fr)
WO (1) WO2015062991A1 (fr)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105049790A (zh) * 2015-06-18 2015-11-11 中国人民公安大学 视频监控系统图像获取方法及装置
CN111160447A (zh) * 2019-12-25 2020-05-15 中国汽车技术研究中心有限公司 一种基于DSmT理论的自主泊车定位系统多传感器感知融合方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3111463B1 (fr) * 2020-06-12 2023-03-24 Univ Strasbourg Traitement de flux vidéo relatifs aux opérations chirurgicales

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120219271A1 (en) * 2008-11-17 2012-08-30 On Demand Real Time Llc Method and system for segmenting and transmitting on-demand live-action video in real-time

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120219271A1 (en) * 2008-11-17 2012-08-30 On Demand Real Time Llc Method and system for segmenting and transmitting on-demand live-action video in real-time

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
AMIT K ROY-CHOWDHURY ET AL: "Recognition of Humans and Their Activities Using Video", SYNTHESIS LECTURES ON IMAGE, VIDEO, AND MULTIMEDIA PROCESSING, MORGAN & CLAYPOOL PUBLISHERS, UNITED STATES, vol. 1, no. 1, 1 January 2005 (2005-01-01), pages 1 - 173, XP008094556, ISSN: 1559-8136, DOI: 10.2200/S00002ED1V01Y200508IVM001 *
EMMANUEL RAMASSO ET AL: "Making use of partial knowledge about hidden states in HMMs: an approach based on belief functions", 1 July 2013 (2013-07-01), XP055133633, Retrieved from the Internet <URL:http://hal.archives-ouvertes.fr/docs/00/83/41/77/PDF/PS_HMM_final-1.pdf> [retrieved on 20140806] *
EWA KIJAK ET AL: "<title>Temporal structure analysis of broadcast tennis video using hidden Markov models</title>", PROCEEDINGS OF SPIE, vol. 5021, 20 January 2003 (2003-01-20), pages 289 - 299, XP055132960, ISSN: 0277-786X, DOI: 10.1117/12.476258 *
GWENOLE QUELLEC ET AL: "Real-time retrieval of similar videos with application to computer-aided retinal surgery", ENGINEERING IN MEDICINE AND BIOLOGY SOCIETY,EMBC, 2011 ANNUAL INTERNATIONAL CONFERENCE OF THE IEEE, IEEE, 30 August 2011 (2011-08-30), pages 4465 - 4468, XP032026109, ISBN: 978-1-4244-4121-1, DOI: 10.1109/IEMBS.2011.6091107 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105049790A (zh) * 2015-06-18 2015-11-11 中国人民公安大学 视频监控系统图像获取方法及装置
CN111160447A (zh) * 2019-12-25 2020-05-15 中国汽车技术研究中心有限公司 一种基于DSmT理论的自主泊车定位系统多传感器感知融合方法
CN111160447B (zh) * 2019-12-25 2023-11-14 中国汽车技术研究中心有限公司 一种基于DSmT理论的自主泊车定位系统多传感器感知融合方法

Also Published As

Publication number Publication date
FR3012640A1 (fr) 2015-05-01
FR3012640B1 (fr) 2018-07-20

Similar Documents

Publication Publication Date Title
JP7181437B2 (ja) 制御されていない照明条件の画像中の肌色を識別する技術
KR102033050B1 (ko) 시간차 모델을 위한 비지도 학습 기법
US10628676B2 (en) Content delivery system and method for automated video overlay insertion
US11158206B2 (en) Assisting learners based on analytics of in-session cognition
FR2940487A1 (fr) Procede et systeme pour la fusion de donnees ou d&#39;informations
Mocanu et al. Deep-see face: A mobile face recognition system dedicated to visually impaired people
FR2884007A1 (fr) Procede d&#39;identification de visages a partir d&#39;images de visage, dispositif et programme d&#39;ordinateur correspondants
EP2300948A2 (fr) Procédé et dispositif de stockage de données médicales, procédé et dispositif de visualisation de données médicales, produits programme d&#39;ordinateur, signaux et support de données correspondants
EP3639190B1 (fr) Procede d&#39;apprentissage de descripteurs pour la detection et la localisation d&#39;objets dans une video
US11567574B2 (en) Guided interaction with a query assistant software using brainwave data
EP3267333A1 (fr) Traitement local de données biométriques pour un système de sélection de contenu
WO2015062991A1 (fr) Procédé d&#39;analyse sémantique d&#39;un flux vidéo en cours d&#39;acquisition, terminal, produit programme d&#39;ordinateur et medium correspondant
Zhang et al. Real-time medical phase recognition using long-term video understanding and progress gate method
WO2019186050A1 (fr) Dispositif informatique de detection de troubles du rythme cardiaque
FR3026526A1 (fr) Procede et systeme de detection d&#39;evenements de nature connue
WO2020011988A1 (fr) Systeme et procede de generation d&#39;une liste de probabilites associee a une liste de maladies, produit programme d&#39;ordinateur
EP3937071A1 (fr) Procédé d&#39;assistance au suivi en temps réel d&#39;au moins une personne sur des séquences d&#39;images
CN113298015A (zh) 基于图卷积网络的视频人物社交关系图生成方法
Papapanagiotou et al. Self-supervised feature learning of 1d convolutional neural networks with contrastive loss for eating detection using an in-ear microphone
US11216667B2 (en) Information processing apparatus, method for information processing, and storage medium
EP3073900B1 (fr) Procédé de construction d&#39;un indice d&#39;activité, dispositif et programme d&#39;ordinateur correspondant
WO2022090883A1 (fr) Procede d&#39;annotation de donnees d&#39;entrainement
WO2020249719A1 (fr) Procede et systeme de fusion d&#39;informations
EP4292013A1 (fr) Dispositif et procede de traitement de donnees videos pour detection du vivant
EP4307210A1 (fr) Procédé de sélection de portions d&#39;images dans un flux vidéo et système exécutant le procédé

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14795975

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14795975

Country of ref document: EP

Kind code of ref document: A1