WO2021148645A1 - Procédé d'évaluation de résultats d'une classification automatique - Google Patents

Procédé d'évaluation de résultats d'une classification automatique Download PDF

Info

Publication number
WO2021148645A1
WO2021148645A1 PCT/EP2021/051518 EP2021051518W WO2021148645A1 WO 2021148645 A1 WO2021148645 A1 WO 2021148645A1 EP 2021051518 W EP2021051518 W EP 2021051518W WO 2021148645 A1 WO2021148645 A1 WO 2021148645A1
Authority
WO
WIPO (PCT)
Prior art keywords
result
data
classification
level
calculation means
Prior art date
Application number
PCT/EP2021/051518
Other languages
English (en)
Inventor
Vincent Susplugas
Edouard DUFETELLE
Original Assignee
Collective Thinking
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Collective Thinking filed Critical Collective Thinking
Priority to US17/794,879 priority Critical patent/US20230070796A1/en
Priority to EP21701962.9A priority patent/EP3881329A1/fr
Publication of WO2021148645A1 publication Critical patent/WO2021148645A1/fr

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/20ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Definitions

  • the invention relates to the evaluation of automatic classification proposals, in particular in the medical field.
  • it concerns the evaluation of the automatic classification of medical stays within categories of diagnoses and medical acts.
  • the main method of financing health establishments is activity-based pricing. This pricing is based on a logic of measuring the nature and volume of activities.
  • each medical stay of a patient within a health establishment is subject in particular to a classification within a “homogeneous group of patients” (GHM) to which is associated a “homogeneous group of patients”. stays ”(GHS). This classification conditions the cost of coverage of hospital stays by health insurance plans.
  • This classification activity is the responsibility of the medical information departments of health establishments. They must carry out an in-depth analysis of the clinical file of each patient at the end of their medical stay in order to extract the relevant information to determine to which code, that is to say in which GHM / GHS class, to assign this stay. This is a tedious and complex activity, which has a high error rate that could significantly impact hospital revenues, epidemiological research or any other type of analysis of this data.
  • a method for assisting PMSI coding by automatic classification is already known in the state of the art.
  • a model called a "self-learning" model, is trained to classify each medical stay automatically.
  • medical data corresponding to this stay such as the patient's clinical file
  • the trained model assigns, as a function of these data and of its learning, diagnostic codes and codes of. acts or procedures, or even directly a GHM / GHS code during the stay.
  • This process makes it possible to automatically classify stays whose classification is not in doubt. These are, for example, stays for which the diagnosis emerges very clearly from the clinical file. These are also stays for which, given the large number of stays with similar medical data on which the model is trained, the assignment of one code rather than another is not in doubt for the model.
  • this process is not able to allow automatic classification of all stays with a sufficient level of confidence.
  • the classification of certain stays is more difficult, for example because of the complexity of the medical file or the particularity of certain medical data supplied as input.
  • these are stays for which prior automatic training is not sufficient to ensure that the model will perform a ranking without a high risk of errors.
  • the error rate of an automatic classification is too great to let the learning model classify them automatically.
  • this model of the method of the state of the art can provide classification proposals to a human user, but these proposals are multiple and generally have too low a precision for an automatic classification of the most likely of them. The user must therefore read the medical file for himself to choose the appropriate coding for each of these stays. We therefore come back to tedious and complex tasks.
  • result proposal made by the calculation means at the end of the classification step. This or these results are then submitted to the user for validation, that is to say displayed on his screen, whether they correspond to an acceptable level of confidence, itself set by the user.
  • One type of "result” is the class to which a learning model proposes to assign medical data or a set of medical data, provided as input.
  • level of confidence we can in particular speak of “precision” in the statistical sense of the term.
  • classification proposals are targeted for which the level of confidence is not high enough for automatic classification, but high enough for the proposed results to be studied and validated quickly by the user if necessary. The user can thus decide to display, for input datasets, the set of results proposed for each entry corresponding to an acceptable level of confidence, and not to display the results which do not satisfy this confidence.
  • the determined confidence level can be directly associated with the result, for example if it is directly associated with the class proposed as output for the medical data provided as input. But it can alternatively be indirectly associated with the result, for example if it is not associated with the proposed class, but with a larger class encompassing the proposed class as well as other classes.
  • the automated means also display to the user at least one piece of data justifying the detected result.
  • This feature further accelerates the classification of medical data, because the user no longer has to dive into his data, for example in a medical file, to check if the proposed result is the right one, he can be satisfied with reading the justification data (s) to decide whether the proposed result is indeed the right one or not.
  • the justification data item belongs to the data or data which were the subject of the classification proposal that led to the result, and is textual.
  • the computer means of calculation find, among the medical data subject to the classification, a word or a sentence allowing the user to determine whether the corresponding result appears adequate. It is this word or phrase that is the data of justification. For example, it may be a medical term relating to medical care, a diagnosis, or a medical symptom.
  • the level of confidence is not the only criterion considered to display or not a result to the user, the level of justifiability is added to it. It corresponds to a quantity or a quality of data allowing the user to justify the proposed result.
  • the calculation means determine whether they are able to present data to the user. convincing associated with this result, so that the user can make his ranking decision quickly.
  • the calculation means are not able to provide data allowing the user to easily validate this result, they do not display it. to the user. In this way, the user can focus on the proposed results which are both probable and justified. The results displayed are therefore even more relevant because their justifiability facilitates their validation by the user.
  • the justifiability threshold can be set by the user as they see fit.
  • the level of justifiability depends on the number and / or the relevance of the supporting data detected by automated means within the medical data provided as inputs. The more these justification data are numerous and / or relevant, the higher the level of justifiability is because the calculation means are able to present the user with justification data which will greatly help him to validate the result.
  • the computer calculation means determine, beforehand, one or more types of justification data to be detected.
  • the self-learning model is trained to detect justification data on a learning database.
  • one or more types of justification data to be detected are supplied to the computer calculation means by the user.
  • a human user can provide the means with a list of justification data to be detected, for example the words which he considers relevant. Again, the data is provided to the means prior to classification.
  • the computerized calculation means detect the justification data (s) from the medical data (s) which were the subject of the automatic classification which resulted in the result.
  • the type or types of justification data to be detected are determined this time a posteriori, that is to say once the classification has been carried out. This eliminates the need for pre-determining justification data types for all possible outcomes.
  • the means implement a method similar to that carried out to detect a priori types of detection data and described above, that is to say by means of classifications with masked data, but it is carried out here after classification and only for the proposed result.
  • the result belongs to a tree structure of nodes corresponding to possible results.
  • the class to be assigned as output to the input data can be part of a tree structure of classes arranged between them in a hierarchical manner.
  • a node of the tree called "parent” corresponds to a class comprising several subclasses, themselves respectively associated with "child” nodes of the parent node.
  • a result can match any node, that is, any hierarchical level in the class tree.
  • Such a level can also be configured by the user, who can decide to only see the results displayed at a certain hierarchical level. In general, the higher the hierarchical level, the lower the risk of error in the classification, but the less suitable the assigned class is for the input data since it is a more generic class.
  • the confidence level is associated with a node of the parent tree of a node corresponding to the result.
  • the proposed result corresponds to a specific class, but the level of confidence is determined at the level of a parent class, that is to say more generic and including the class corresponding to the result.
  • the user can display precise results, but based on a confidence level associated with a hierarchical level more generic than that of the results.
  • results that would not be displayed if the confidence level were directly associated with the result are displayed here because they correspond to sister classes, or close to the result.
  • the user expands the criteria for displaying the results to classes close to the correct class, but without necessarily modifying a confidence threshold.
  • the method therefore makes it possible here to display to the user results that are at least close, in terms of classification, to good results, even if the precision of these results is not sufficient for them to be displayed normally.
  • the confidence level is associated with a group of tree nodes comprising a node corresponding to the result.
  • the level of justifiability is associated with a node of the parent tree of a node corresponding to the result.
  • the level of justifiability is associated with a group of tree nodes comprising a node corresponding to the result.
  • the computer calculation means modify the association of the level of confidence and preferably the confidence threshold.
  • the computerized calculation means automatically adapt the hierarchical level with which the confidence level is associated, or even the confidence threshold to be reached, as a function of the result. In other words, if for a stay, no result is initially displayable to the user for lack of a confidence threshold reached, the computer computing means “go back” to a parent node, sibling, group of nodes or node close to the node corresponding to the result, and determine whether they find there another result reaching the possibly modified confidence threshold.
  • the computer calculation means taking care of this adaptation so as to display a result for each set of medical data provided in entry, even though the hierarchical level of this result or the level of confidence with which it is associated do not correspond to the levels and thresholds targeted in the first approach.
  • the computer calculation means modify the association of the level of justifiability and preferably the justifiability threshold.
  • the computerized calculation means allow a user to predetermine the confidence threshold and / or the justifiability threshold.
  • the user can set these thresholds using precision-sensitivity curves. The more demanding he is on the precision levels of these thresholds, the more relevant the results displayed will be, but the risk that no results will be displayed for a given stay will also be higher. Conversely, the lower the level of precision, the more likely it is to see an erroneous result displayed for a given stay.
  • the computer calculation means allow the user to invalidate the result.
  • the method validates the result proposed by the computer means of calculation, but leaves the opportunity to the user to cancel this validation. In this way, if most of the results are correct, the user only has to act on the other rankings, which are in the minority, that is, those which turn out to be incorrect.
  • the or at least one of the medical data relates to at least one medical stay of at least one patient in a health establishment.
  • the method makes it possible in particular to improve the computer classification of medical stays, in particular with a view to improving the accuracy of the accounting of health establishments, with a view to epidemiological research or any other type of analysis of these medical stays. .
  • the computer calculation means display the results of the classifications of all the stays to the user.
  • the user can very quickly browse the results for all the stays he wanted to rank. In other words, it does not have to navigate between several results and can with a few short interactions validate or invalidate a list of results.
  • the result of the proposal corresponds to one or more codes relating to medical diagnoses, acts or procedures, homogeneous groups of patients or homogeneous groups of stays (" Diagnosis Related Groups ”Or“ DRG ”in English).
  • the method therefore makes it possible to facilitate and accelerate the PMSI coding in healthcare establishments, in particular for medical stays whose classifications present a too high risk of error.
  • the medical information departments of these establishments can thus decide on the classification and therefore the coding based on the most probable results provided by the self-learning model for a list of stays, without having to study in depth the results. medical data corresponding to each stay.
  • the confidence level associated with the result is a numerical value associated with a probability that the result is correct.
  • the confidence level corresponds to the percentage of chance that the proposed result is the right one.
  • the confidence level calculated for each stay corresponds to two elements: the proposed result, and the primary numerical value which was associated with it during the classification.
  • the model is trained to determine a level of precision for combinations of these two elements. Then, each time a result is proposed with a certain primary numerical value, the model is able to deduce statistically a degree of precision, that is to say the level of confidence associated with this result and this primary value.
  • the subject of the invention is also a data processing system comprising means for implementing the steps of the method described above.
  • the subject of the invention is also a computer program, comprising instructions which, when the program is executed by a computer, lead the latter to implement the steps of the method described above.
  • the subject of the invention is also a method for making the preceding program available with a view to downloading it over a telecommunications network.
  • the subject of the invention is also a computer-readable data medium on which the computer program presented above is recorded.
  • the context of the invention is that of the obligation for health establishments to identify for each stay the diagnoses and acts characteristic of the patient. For budgetary purposes in particular, these establishments must therefore report on each patient's medical stay, by assigning so-called "PMSI" codes to said stay.
  • PMSI so-called "PMSI" codes.
  • Each code corresponding to a main medical diagnosis and possibly to one or more associated diagnoses as well as to one or more medical procedures, the appropriate organizations such as social security can reimburse hospitals on the basis of these codes.
  • An automatic classification process makes it possible to assign one or more PMSI codes to each medical stay. It takes as input a set of data concerning a medical stay, and outputs a PMSI code, which in the best case corresponds to the stay, but sometimes is erroneous, or insufficiently precise.
  • the invention is not about automatic classification itself, but an evaluation of the results of an automatic classification, that is to say, the evaluation of the assignment of the right code to the right stay. This is also why the invention is not limited to any particular automatic classification method or model. On the contrary, it makes it possible to evaluate the results of automatic classification proposals made by different models.
  • This method is implemented by means of software 1 manipulated by a user 2 by means of a computer.
  • This software provides a user interface 6, from which the user 2 controls the invention.
  • This software is the interface between User 2 and all other elements.
  • This software notably controls a self-learning model 3 capable of performing automatic classifications. Under the control of the software 1, the model 3 provides automated means 4 with proposals for the results of these classifications, associated with scores.
  • the automated means 4 which are referred to indifferently throughout the application as “computing means”, “computer computing means”, or “automated means”, are any type of computer means, in particular calculation means, and of means. communications. They thus implement processors, databases, communication networks. These means 4 can be grouped or separated, they can operate remotely. They are intended to use the results of classifications from Model 3 to generate evaluations and justifications to be presented to User 2.
  • the data 7 supplied as inputs to the software 1 are a list of medical stays, the data determined at the output by the software via the automated means are codes 8, corresponding to medical diagnoses assigned to at least some of these stays, and associated with justifications.
  • the data 7 forming a medical stay, or hospital stay are made up of any document linked to the patient or to his hospital stay. These may include, in particular, the methods of entering and leaving a medical unit, dates of stay, hospitalization report, medical letters, imaging reports or examinations. It can also be the so-called "standardized discharge summary” (RSS) file, which contains all the “medical unit summaries” (RUM) information for the stay.
  • RUM includes, for example, a FINESS number of the hospital, the RSS number, an administrative number of the stay, and a GHM number ("Homogeneous patient group). It may also contain “common classification of medical acts” (CCAM) codes.
  • CCAM common classification of medical acts
  • these data 7 which are supplied as inputs to the self-learning model 3. More concretely, they are supplied in the form of vectors.
  • the administrative data comprise numerical and categorical characteristics which are transformed into a vector.
  • Textual data is extracted, concatenated, and vectorized as well, for example using the Scikit-learn library.
  • the two vectors, that of administrative data and that of textual data, are then concatenated to form a single vector corresponding to the stay.
  • the output data 8 are codes. This is the ICD code ("international classification of diseases") of the main diagnosis of the RUM, the ICD code of the related diagnosis of the stay if there is one, and the ICD codes of the associated diagnoses if there are any. .
  • the code I48 corresponds for example to “atrial fibrillation and flutter”, the code I48.2 to “chronic atrial fibrillation”.
  • a code D61.1 + Y43.3 corresponds to "Medullary aplastic anemia" in the main diagnosis, and to an "adverse effect of chemotherapy during therapeutic use” in the associated diagnosis. It is therefore to this type of code 8 to which the self-learning model 3 must assign each stay 7 provided as an entry.
  • the PMSI classification can be illustrated as a tree structure, as shown in . Indeed, some codes correspond to generic diagnoses, other codes to more precise diagnoses, and still other codes to even more precise diagnoses.
  • code I50 corresponds to heart failure
  • code I500 to congestive heart failure
  • code I501 corresponds to left ventricular failure.
  • code I5010 corresponds to left ventricular failure with left ventricular ejection fraction greater than or equal to 50
  • code I5011 corresponds to left ventricular failure with left ventricular ejection fraction less than 50 and greater than or equal to 40
  • the results of the classifications can correspond to any code, whatever its hierarchical level in this tree structure. However, it is preferable that the code correspond to the lowest possible hierarchical level, that is to say to the most precise diagnosis possible.
  • the pricing of medical activities can change at all levels.
  • Model 3 is configured using a method 70 illustrated in .
  • a self-learning model aims to assign to a set of entered data - in this case, data concerning a medical stay 7 - an exit class - in this case, a PMSI code 8.
  • model 3 is trained, in step 11, on a training database where the codes of the stays provided are already known.
  • the goal of training is to minimize cross entropy. This objective is achieved via the gradient descent algorithm.
  • the implementation of this model and its training are carried out for example via Tensorflow.
  • step 12 aims in particular to avoid over-learning of model 3.
  • the Temperature algorithm is used. Scaling described in “On Calibration of Modern Neural Networks” (Guo et al, 2017).
  • This calibration in step 13 allows the model 3 to associate with the output class 8 a score representing a level of precision. This score can for example be a numerical value between 0 and 1.
  • a first class can be predicted with any score, a second class with a higher score. This means, if the model is well calibrated, that the second class is more likely than the first to be the correct one.
  • step 14 we still use other data with known classes, to test the generalization capacity of model 3.
  • the model is suitably trained to predict the output class 8 of medical stays 7 provided as input, that is to say that it is able to assign them one or more codes PMSI.
  • a code can for example be “a main diagnosis”, with which can be associated one or more associated diagnostic codes, codes corresponding to CCAM acts, or even a code predicting the patient's MHM group.
  • step 15 user 2 provides medical stays 7 to the self-learning model 3.
  • the model then outputs a list of results 8: at least one PMSI code as well as a numerical score associated with this result. It may happen that the model provides several pairs of score codes for the same stay. In the invention, these results are then evaluated, which will be described in detail below.
  • the object of the invention is to offer the user, in a first embodiment, the results for which the associated confidence 9 is greater than a certain threshold.
  • This level 9 is determined by training the automated means 4 on a test database. The steps are illustrated in .
  • the model 3 produces results-score pairs as an output.
  • the automated means 4 select, in step 22, for each stay, the result with the highest score X. As a reminder, this result is a class, that is to say a PMSI code.
  • the selected result is then compared with the expected result in step 23.
  • the automated means determine in step 24 a correlation between the score X and the selected result on one side, and whether or not the selected result is correct on the other.
  • the automated means 4 learn to determine the confidence levels 9 associated with the results, by using the scores already determined by the self-learning model 3 and supplied to the automated means 4.
  • the automated means 4 are capable of determining a level of confidence 9 as a percentage, otherwise called “precision”. This precision 9 corresponds statistically to the probability that the result 8 is the correct one, that is to say that the proposed PMSI code actually corresponds to the stay 7 provided as an entry.
  • a so-called “automation” confidence threshold above which the results are automatically classified by software 1, without going through user validation.
  • This threshold can for example be 99%. This means that, for results with an accuracy of at least 99%, the stays are automatically classified as predicted by the self-learning model 3. It can of course set this threshold as it sees fit.
  • the threshold of "quasi-automation" the user 2 can set a confidence threshold so that only the results whose calculated precision is greater than or equal to this confidence threshold of “quasi-automation”, but which is displayed on his user interface 6, is displayed on his user interface 6. is below the “automation” confidence threshold. These are therefore stays 7 whose classification is probably good, since their results 8 have a confidence level greater than or equal to the confidence threshold of quasi-automation, but far from certain, since this confidence level is lower. at the confidence threshold corresponding to the automation.
  • User 2 has the option of validating these results proposed by model 3, that is to say, assigning the stays concerned the diagnostic code proposed by the model.
  • user 2 only has to check whether the proposed code 8 appears to correspond to the medical stay provided 7 as an entry and, he can use a click to validate it or on the contrary to reject this proposal.
  • the evaluation does not only concern the level of confidence 9 of a proposed result.
  • the automated means 4 also determine a level of justifiability 10 associated with each proposed result, and only offer the user 2 the results of the classifications of model 3 whose confidence levels 9 and the levels of justifiability 10 exceed respective predetermined thresholds. .
  • the means 4 first learn, in step 41, of a list of justification data 5 to be detected for each possible result 8. Then, for each stay 7 supplied as an input, the classification result of which is proposed to the user, the means detect in step 42, within the data 7, which are the data from the list 5 previously established which will make it possible to justify the result 8 to the user 2. In step 43, the means 4 determine a level of justifiability 10 from the justifications data detected. Finally, in step 44, the means check whether the level of justifiability 10 is equal to or greater than a predetermined justifiability threshold, configured by the user 2. If such is the case, and whether the confidence level of the result is greater than the confidence threshold, then the result is displayed in step 45 on the user interface 6, accompanied by the justifications data detected for this result.
  • a predetermined justifiability threshold configured by the user 2.
  • level of justifiability we mean a quantity and / or a quality of data determined by automated means 4 making it possible to justify the proposed results to user 2. But alternatively, it could be any way to quantify the capacity that the means 4 would have to justify to user 2 the proposed results 8.
  • the automated means detect so-called "justification" 5 data that correspond to the proposed result.
  • the means may for example detect a sentence within a hospitalization report explicitly mentioning "chronic atrial fibrillation" or related symptoms. If the result of the classification of this stay is a code comprising "I48.2" (PMSI code corresponding to this type of fibrillation), the sentence is then proposed to the user at the same time as the result, so as to justify this. last.
  • the means 4 To detect the justifications data, such as the sentence mentioned above, the means 4 must be aware of it, it is step 41, which we will now detail.
  • the means have a priori knowledge of the data to be detected 5, associated with all or part of the possible results.
  • These data may have been supplied by the user 2 or by another human means beforehand to the means 4. It may for example be a list of terms associated with each possible result.
  • a user may have provided a list of justification data 5 for the code I48.0 corresponding to "paroxysmal atrial fibrillation", this list containing the terms: atrial fibrillation ",” acfa ",” fa " , or terms relating to the therapeutic management of this diagnosis, such as the term “cordarone”.
  • the automated means 4 have previously implemented a learning process aimed at determining which justification data 5 they must subsequently detect. This learning is carried out on a learning database, that is to say where the classes corresponding to the stays are known.
  • a stay 7 provided as an input is formed by a vector corresponding to several administrative data and several textual data.
  • a step 31 the classification of several stays relating to the same class, for example stays relating to a ventricular tachycardia, therefore to the PMSI code I47.2, is carried out via model 3.
  • the means determine the confidence levels associated with each result. For example, let's say that they oscillate between 85 and 95% accuracy depending on the stay.
  • the means 4 select among them the stays which are correctly classified, that is to say those to which the model 3 has indeed assigned the code I47.2, or a code comprising the code I47.2.
  • a step 33 one or more data of vector 7 supplied as input to the model is masked. For example, the vector is reformed using the same administrative and textual documents used, but removing all occurrences of the term "ventricular".
  • new classifications, of the same model 3 are carried out on these vectors.
  • the means 4 determine the confidence levels associated with each of the results.
  • a step 35 the new confidence levels are compared with the old ones. If, on average, the confidence levels have decreased dramatically, for example by 5%, then this means that the data mask, here the term "ventricular", is particularly important in the choice of model 3 to assign to these. stays code I47.2. This is why the automated means 4 then integrate, in step 36, the masked data, here the term "ventricular”, into a list of justification data 5 corresponding to class I47.2. This process is applicable to any class, generally to any possible outcome. Of course, the level of drop in confidence from which a piece of data is considered to be justification data can be configured by user 2.
  • each possible result of the classification that is to say each possible PMSI code, is associated with a list of justification data in this step 41.
  • the determination of the justification data to be detected can be done a posteriori, that is to say after the classification of stays 7 by model 3.
  • steps similar to steps 31 to 36 are carried out not for a series of training trips corresponding to the same class and on a learning basis, but for each trip 7 corresponding to a result 8, and therefore on “real” data , without prior learning.
  • the means 4 mask some of the data of the stay between successive classifications of these data, so as to determine which of these data substantially vary the calculated confidence level. It is these data which are therefore considered as data to justify the result 8.
  • This a posteriori detection method is less precise than the method 30 carried out beforehand on a learning basis and described above, since the latter makes it possible to average the confidence levels for several stays corresponding to the same class at the exit, and therefore to determine the most relevant types of data to be detected for all types of stays.
  • this a posteriori detection method makes it possible to provide justification data in the event that the method 30 has not been implemented beforehand for some or even all of the results.
  • the level of justifiability 10 can be defined in various ways. It may correspond to a number, for example to a percentage expressing the number of data justifying the list detected in the data 7 of a stay to be classified. It can also be a scale, for example comprising four levels: good, average, poor, absent. In this case, each list of justification data is organized in relation to these levels.
  • the "good” level includes some very relevant terms, for example the exact name of the diagnosis. If one or more terms of this relevant list are detected, then the level of justifiability is indeed good.
  • the “low” level includes less relevant terms from the list of justifications, for example terms that may relate to more than one diagnosis.
  • the "medium” level corresponds to the detection, for the same stay, of terms belonging to the "good” category and other terms belonging to the "poor” category.
  • This organization can also be carried out by the automated means 4, in particular when they “learn” to detect the justification data 5 (see above). For example, if a piece of data masked during this training lowers the level of confidence associated with a result by 10%, then this term can be assigned to the “good” category.
  • These thresholds aimed at organizing the levels of justifiability can of course be configured by user 2.
  • a level of justifiability 10 of this result is determined by the automated means 4. Then, depending on this level, the result is offered or not by the means 4 to the user. 2. In fact, the user can set a justifiability threshold, below which the corresponding results will not be offered to user 2.
  • step 42 of in step 45 without going through steps 43 and 44.
  • the means detect the justification data but do not determine a level of justifiability. This amounts to configuring the level of justifiability in “absent” mode. All the results offered to the user are those for which only the confidence level exceeds a predetermined threshold, and all are associated with justification data if they have been detected.
  • the automated means 4 evaluate the results, that is to say the 8 codes proposed for these stays. They first determine the levels of trust associated with these results. Those whose result is greater than an automation threshold are classified automatically. Indeed, for them, the error rate in the classification is too low compared to the quality requirements of PMSI coding.
  • This automation threshold is, for example, 99%, which means that statistically, 1% of stays should be misclassified.
  • the automated means 4 determine the level of justifiability associated with each result. Those whose levels of justifiability are lower than the predetermined justifiability threshold are excluded and will be treated separately. The results therefore remain corresponding to levels of confidence and justifiability above the thresholds. It is these results that are offered to user 2, with the justification data detected by means 4 and associated with each result. The user can decide to validate each of the results, in which case the ranking is final, or on the contrary he can invalidate some.
  • the evaluation of results which are not “automated” makes it possible to filter the classification proposals according to two cumulative criteria: only results are offered to the user which exceed or equal the confidence threshold of “ quasi-automation ”and which, at the same time, exceed or equal the threshold of justifiability, the two thresholds possibly being predetermined by the user.
  • the justification data can be detected and presented to the user. This corresponds to the justifiability threshold configured in “absent” mode.
  • the user interface 6 schematizes what the user 2 views on a computer screen when he implements the invention. The evolution of this interface is illustrated in
  • the results are organized in a tree structure, with results at different hierarchical levels. From this tree structure, the user can perform queries with various parameters.
  • user 2 can use precision-sensitivity curves, as illustrated in .
  • These curves are produced upstream, during a large number of test classification, at the rate of one curve per class, that is to say per result or possible code. They represent on the abscissa the sensitivity, that is to say the ratio between the number of stays predicted in the class and the total number of stays that should be predicted in this class. On the ordinate, this is the precision, which corresponds to the confidence level 9 already described above. In other words, it is the number of well predicted stays out of the total number of predicted stays.
  • the user can decide in step 52, for each class, the precision threshold, that is to say the confidence threshold, beyond which he wishes to see the results reported.
  • the precision threshold that is to say the confidence threshold, beyond which he wishes to see the results reported.
  • This curve means that, the higher this threshold will be, the more the results that the user will be offered will have a probability of being good, but the lower the number of proposed results will be. The user must therefore arbitrate between precision and the number of propositions he wishes to verify.
  • these thresholds correspond directly to the hierarchical level of the proposed results.
  • the automated means 4 check whether or not the precision associated directly with the result exceeds the confidence threshold.
  • the level of confidence determined is not that associated directly with the result, but with a parent node of the result within the tree structure. This is how user 2 can configure how the level of confidence is determined. For example, let's say the user-set confidence threshold for near-automation is 80%. Let us also assume that the result proposed at the end of the classification of a stay is the code I481 ("persistent atrial fibrillation") with an accuracy of 75%. In the first variant, the confidence level of the proposed result was compared to the threshold, so that here this result would not be submitted to the user.
  • the level of confidence corresponding to the code I48 (Atrial fibrillation and flutter") which corresponds to the parent node of the node associated with the result is compared with the threshold.
  • the precision is certainly higher, for example of 85% because this node corresponds to a more generic diagnosis.
  • the result I481 will therefore be offered to the examiner because the level of confidence associated with the parent of this result exceeds the confidence threshold.
  • the user can thus configure at will what hierarchical level of results he wants to be offered, but also and independently, at which hierarchical level is determined the confidence associated with the result.
  • confidence is necessarily associated with a level equal to or more generic than that of the result.
  • user 2 can decide that the measured accuracy corresponds not to a single node, but to a group of nodes. For example, if the threshold is 80%, he may want to determine the set of stays that are assigned, with at least 80% precision, to one of the codes of a group made up of codes I44.4 (block left anterior fascicular), I44.5 (left posterior fascicular block), and I44.3 (left bundle branch block). If a determined confidence level is 85%, it is displayed to the user because this confidence is greater than the 80% threshold, and this precision means that there is an 85% chance that this stay actually corresponds to the one of these three codes. This is thus a way of determining which stays correspond to only certain diagnoses of interest to the user.
  • the justifiability level can correspond to a numerical score, in which case the user can set the numerical value of the threshold. It can also be a level on a scale, such as "good”, “average”, “poor”, or "absent”. In this case, the user sets the threshold from which he wants to be offered the associated results. If he chooses the “absent” threshold, this amounts to not taking into account the justifiability, but only the level of confidence of the results.
  • the determination of the level of justifiability can be adapted in the same way as that of the level of confidence. Thus, it can correspond directly to the proposed result as illustrated in step 57. It can also correspond, in a variant illustrated in step 58, to a parent node of the proposed result. Finally, it can be a level of justifiability associated with a group of possible outcomes as illustrated in step 59.
  • the two thresholds are set by the user, and associated with the result, to a hierarchically superior node or to a group of nodes, independently of the result and independently of one another.
  • a self-adaptive adjustment of one or both thresholds This amounts to providing not for single thresholds, but for an evolution of the thresholds and the hierarchical levels that they relate to depending on the level of confidence associated with the result.
  • a self-adapting confidence threshold which is initially set at 80% and for a particular hierarchical level. If the level of confidence associated with a result of a classification, for this hierarchical level, is not obtained, the automated means 4 will then check whether the confidence threshold is reached for a parent node of the result. They can also modify the confidence threshold to be reached for this parent node. If the threshold is reached, the result corresponding to the parent node can be displayed with the associated precision.
  • This example is not limiting, as the self-adaptive adjustment can proceed in different ways. It aims to display results for each predicted stay, but the most accurate results possible. If for some stays, a precise result is not possible, then this type of setting allows the user to display a larger exit class than desired, but which gives an indication of the classification of the stay to the user.
  • the user does not have to redefine, if the displayed results do not suit him, the thresholds and hierarchical levels that they concern, he can be satisfied with a single evaluation of all stays and for which the confidence thresholds will be adapted to the results of each stay.
  • the results page displays a list of stays provided as input to the template and all the codes predicted by the template for each stay. This allows the user to quickly browse through all the results for all stays, and not have to switch from one stay to another to see the results of the classifications of these stays.
  • the software 1 can just as easily propose the results corresponding to a single stay per page.
  • the interface presents the examiner with a reference to the medical stay 7 provided as an input to model 3, the confidence level 9 or precision associated with the result of this stay, whether it is the level directly associated with the result, or the level indirectly associated with the result by reflecting the level of precision associated with a hierarchically superior node or a group of nodes. Also figure, if the user wishes to know it, the level of justifiability 10, again whether it is directly or indirectly associated with the result. Finally, the justifications data 5 detected by the means 4 are also displayed.
  • results 8 can already be presented in "validated” form, so that the only action of user 2 can be to "invalidate” them if he deems it appropriate in view of the supporting data provided.
  • User 2 wants to categorize a list of medical stays as well as possible and as quickly as possible, that is, assign them one or more PMSI codes to each. These codes are grouped together in a tree structure.
  • step 101 he provides Model 3 with the list of medical stays he wants to classify.
  • step 102 he sets the hierarchical level of the results he wishes to be offered.
  • step 103 it sets the predetermined confidence threshold.
  • step 104 it sets up the determination of the confidence level 9 that it wishes to see compared with the threshold set in step 103. It can thus be a confidence level of the result itself, or a corresponding one. to a parent node of the result, or to a group of nodes.
  • step 105 it makes the same settings for the level of justifiability.
  • step 106 it launches the classification, performed by the model 3.
  • step 107 it launches the evaluation of this classification, evaluation carried out by means 4.
  • step 108 the results are displayed on its interface. Only those who have respected the confidence and justifiability thresholds are displayed, accompanied by justification data. User 2 can then validate or invalidate the classification of these stays, that is to say the codes assigned to these stays.
  • the main advantage of the method described above is that the number of stays to be handled manually is greatly reduced thanks to the evaluation of "almost automatic" stays.
  • the number of these stays is linked to the confidence and justifiability thresholds set by the user: for example, the lower the precision requested, the less the number of stays excluded from the validation phase will be. He can therefore at any time arbitrate between the maximum error rate he is willing to accept and the time he wishes to spend studying stays in depth.
  • Step 109 concerns stays 7 that were not classified because they did not meet the confidence or justifiability thresholds, as well as those that did meet them but for which User 2 invalidated the results.
  • the means 4 provide valuable assistance.
  • the user can thus be helped by the result proposed by the classification, or even by the data of determined justifications.
  • this information is very relevant because it can encourage the user, for example, to assign to the stay a code similar to the one proposed, without needing to study in depth. the medical file relating to the stay.
  • the means described above make it possible to control the quality of classification of a classification model, for example model 3.
  • a classification model for example model 3.
  • databases of medical test stays are used, that is to say whose codes PMSI are already known.
  • step 201 the model 3 classifies these medical stays whose codes are known a priori.
  • step 202 the automated means 4 evaluate the classifications in the manner previously described, and in particular report the accuracy of each result provided.
  • step 203 Since the correct codes are known, it is possible to compare the results and their accuracy on one side, with the expected results on the other. This comparison is carried out by the automated means 4 in step 203, which can then deduce therefrom whether the differences found call into question the classification model, or if this model has error rates in accordance with the levels of precision determined by the means 4. It can then be decided at step 204 to modify model 3 to make it more efficient. These changes can be manual or automatic.
  • the automated means 4 make it possible to verify why certain stays were incorrectly classified, in particular by studying the supporting data associated with them.
  • method of automatic classification of medical data comprising the implementation of the following steps: - computer computing means perform an automatic classification of one or more medical data, - the computerized calculation means determine a level of confidence associated with at least one result of the classification, - the computerized calculation means compare the confidence level associated with the result with a predetermined confidence threshold, and the computer calculation means display the result to a user if the confidence level associated with the result is greater than or equal to the predetermined confidence threshold.
  • this method can also be considered as a method for generating structured data from unstructured or structured data, in which medical data is the subject of proposals for automatic classification, the method comprising an evaluation phase, d 'at least one result of a proposition, in which: - automated means determine a level of confidence associated with the result, - the automated means compare the level of confidence associated with the result with a predetermined confidence threshold, and the automated means display the result to a user if the confidence level associated with the result is greater than or equal to the predetermined confidence threshold.
  • the medical data to be classified can be of any order, for example quantitative order. It can thus be the body mass index of a patient, the tobacco consumption in number of packets per year, the volume of a hemorrhage, the volume of a urinary retention, the ejection fraction. left ventricular, etc.
  • the invention is not limited to the prediction of PMSI codes.
  • PMSI codes instead of the main and associated diagnoses relating to medical stays, it is possible to predict and therefore evaluate the prediction of CCAM acts, using the same data as those supplied as input for the prediction of the PMSI codes.
  • medical data correspond to any data directly or indirectly linked to the medical field, and not necessarily to data resulting from a medical stay in a health establishment.
  • they can correspond to medical elements outside the scope of the PMSI coding.
  • the method may relate to classifying a patient's status against a given genetic mutation, or against a type of allergy. This is still medical data, but of a broader nature than the PMSI coding.
  • the classification can also relate to a patient's medical history, or even their surgical history. It may even relate to his family history. So this is not necessarily data from a medical stay, it is not necessarily predicting a PMSI code or a diagnosis, but it is still the classification of medical data.
  • the invention is not linked to a particular classification model or type of self-learning model.
  • the data provided for the assessment is only the result of a classification and a score associated with that result, and this data does not depend on the classification model.
  • the invention can therefore be adapted to all types of classification models.
  • the invention is not limited to automatic classifications of medical data. Indeed, it concerns the evaluation of the results proposed at the end of classification, it does not depend on the types of data and can therefore be extended to all types of fields where automatic classifications are carried out.

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Biomedical Technology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

L'invention concerne un procédé (100) d'évaluation de résultats d'une classification automatique de données médicales (7), comprenant la mise en œuvre des étapes suivantes : - des moyens de calcul informatique (4) réalisent une classification automatique d'une ou plusieurs données médicales (7), - les moyens de calcul informatique (4) déterminent un niveau de confiance (9, 20) associé à au moins un résultat (8) de la classification, - les moyens de calcul informatique (4) comparent le niveau de confiance (9) associé au résultat à un seuil de confiance prédéterminé, et - les moyens de calcul informatique (4) affichent à un utilisateur (2) le résultat si le niveau de confiance associé au résultat est supérieur ou égal au seuil de confiance prédéterminé.

Description

Procédé d’évaluation de résultats d’une classification automatique
L’invention concerne l’évaluation de propositions de classification automatique, notamment dans le domaine médical. En particulier, elle concerne l’évaluation de la classification automatique de séjours médicaux au sein de classes de diagnostics et d’actes médicaux.
Les établissements de santé ont pour obligation de produire le codage PMSI (« programme de médicalisation des systèmes d’information »). Dans le cadre de ce codage, chaque séjour médical d’un patient fait l’objet d’une description et d’une documentation des diagnostics médicaux du patient et des actes ou procédures éventuellement pratiqués au cours du séjour : ainsi à chaque séjour est associé le ou les codes des classifications de diagnostics et d’actes ou procédures correspondantes. La génération de ces données a pour finalité la recherche épidémiologique, l’analyse de l’activité hospitalière et le financement hospitalier.
En particulier, le mode principal de financement des établissements de santé est la tarification à l’activité. Cette tarification repose sur une logique de mesure de la nature et du volume des activités. A cet effet, chaque séjour médical d’un patient au sein d’un établissement de santé fait notamment l’objet d’un classement au sein d’un « groupe homogène de malades » (GHM) auquel est associé un « groupe homogène de séjours » (GHS). Ce classement conditionne le tarif de prise en charge du séjour hospitalier par les régimes d’assurance maladie.
Cette activité de classement est de la responsabilité des départements d’information médicale des établissements de santé. Ils doivent réaliser une analyse approfondie du dossier clinique de chaque patient à l’issue de son séjour médical afin d’en extraire les informations pertinentes pour déterminer à quel code, c’est-à-dire dans quelle classe GHM/GHS, assigner ce séjour. Il s’agit d’une activité fastidieuse et complexe, qui présente un taux d’erreurs important susceptible d’impacter significativement les recettes hospitalières, la recherche épidémiologique ou tout autre type d’analyse de ces données.
On connaît déjà dans l'état de la technique un procédé d’assistance au codage PMSI par classification automatique. Selon ce procédé faisant appel aux technologies d’apprentissage automatique, un modèle, dit modèle « auto-apprenant », est entraîné à classer chaque séjour médical automatiquement. Ainsi, pour chaque séjour, des données médicales correspondant à ce séjour, tel que le dossier clinique du patient, sont fournies en entrée au modèle entraîné, qui attribue en fonction de ces données et de son apprentissage des codes de diagnostics et des codes d’actes ou procédures, voire même directement un code GHM/GHS au séjour. Ce procédé permet de classer automatiquement les séjours dont la classification fait peu de doute. Il s’agit par exemple des séjours pour lesquels le diagnostic ressort très clairement du dossier clinique. Il s’agit également des séjours pour lesquels, au vu du grand nombre de séjours aux données médicales similaires sur lesquels le modèle est entraîné, l’assignation d’un code plutôt qu’un autre ne fait aucun doute pour le modèle.
Cependant, ce procédé n’est pas capable de permettre le classement automatique de tous les séjours avec un niveau de confiance suffisant. En particulier, le classement de certains séjours est plus délicat en raison par exemple de la complexité du dossier médical ou de la particularité de certaines données médicales fournies en entrée. En d’autres termes, il s’agit des séjours pour lesquels un entraînement automatique préalable n’est pas suffisant pour assurer que le modèle effectuera un classement sans risque d’erreurs élevé. Pour ces séjours, le taux d’erreur d’une classification automatique est trop important pour laisser le modèle apprenant les classer automatiquement. Pour chacun de ces séjours au classement plus difficile, ce modèle du procédé de l’état de la technique peut fournir des propositions de classement à un utilisateur humain, mais ces propositions sont multiples et présentent généralement une précision trop faible pour un classement automatique de la plus probable d’entre elles. L’utilisateur doit donc prendre connaissance du dossier médical par lui-même pour choisir le codage adéquat de chacun de ces séjours. On en revient donc alors à des tâches fastidieuses et complexes.
L'invention a notamment pour but de faciliter et accélérer le classement des données médicales qu’un modèle apprenant n’est pas capable de classer automatiquement sans risque d’erreur élevé.
A cet effet, l’invention a pour objet un procédé d’évaluation de résultats d’une classification automatique de données médicales, comprenant la mise en œuvre des étapes suivantes :
  • des moyens de calcul informatique réalisent une classification automatique d’une ou plusieurs données médicales,
  • les moyens de calcul informatique déterminent un niveau de confiance associé à au moins un résultat de la classification,
  • les moyens de calcul informatique comparent le niveau de confiance associé au résultat à un seuil de confiance prédéterminé, et
  • les moyens de calcul informatique affichent à un utilisateur le résultat si le niveau de confiance associé au résultat est supérieur ou égal au seuil de confiance prédéterminé.
Au lieu de « résultat », on peut également parler de « proposition de résultat » effectuée par les moyens de calcul à l’issue de l’étape de classification. Ce ou ces résultats sont ensuite soumis à la validation de l’utilisateur, c’est-à-dire affichés sur son écran, que s’ils correspondent à un niveau acceptable de confiance, lui-même paramétré par l’utilisateur. Un type de « résultat » est la classe à laquelle un modèle apprenant propose d’assigner une donnée médicale ou un ensemble formé de données médicales, fournies en entrée. Par « niveau de confiance », on peut en particulier parler de « précision » au sens statistique du terme. Enfin, on parlera indifféremment dans la suite de la demande de « classification » ou de « labélisation », qui sont deux termes renvoyant dans ce contexte à la même définition : assigner en sortie une ou plusieurs classes à une donnée médicale ou à un ensemble de données médicales fournies en entrée. Sont particulièrement visées les propositions de classification dont le niveau de confiance n’est pas suffisamment élevé pour un classement automatique, mais suffisamment élevé pour que les résultats proposés soient étudiés et validés rapidement par l’utilisateur le cas échéant. L’utilisateur peut ainsi décider d’afficher, pour des ensembles de données en entrée, l’ensemble des résultats proposés pour chaque entrée correspondant à un niveau acceptable de confiance, et ne pas afficher les résultats qui ne vérifient pas cette confiance. De cette manière, il évite le classement automatique de résultats pour lesquels le risque d’erreur demeure élevé, et en même temps il peut se contenter pour ces résultats d’une vérification sommaire visant à déterminer si la classe proposée en sortie pour une entrée paraît être effectivement la bonne. Corollairement, en proposant cette étape intermédiaire, dite de « quasi-automatisation », ce procédé limite l’étude approfondie des données médicales à celles dont la prédiction n’est pas suffisamment précise pour se contenter d’une vérification sommaire du résultat proposé. Ainsi, le procédé accélère et facilite le classement des données médicales qu’il est trop risqué de classer automatiquement, en soumettant la validation des résultats pertinents à l’utilisateur. Ce dernier peut se concentrer sur ces données pour lesquelles le classement automatique serait risqué tout en bénéficiant d’une proposition de résultat probable. Il a donc un travail plus simple et rapide à effectuer, et commet donc moins d’erreurs de classement que s’il avait à analyser toutes les données non classées automatiquement en profondeur. Enfin, par « moyens de calcul informatique », on désigne indifféremment tout élément ou ensembles d’éléments informatique, tels qu’un processeur, une mémoire, un ordinateur voire un ensemble de serveurs complet, permettant de traiter numériquement des données sur commande ou de manière automatisée. On parle également et indifféremment dans la demande de « moyens automatisés ».
Le niveau de confiance déterminé peut être associé directement au résultat, par exemple s’il est associé directement à la classe proposée en sortie pour les données médicales fournies en entrée. Mais il peut alternativement être associé indirectement au résultat, par exemple s’il n’est pas associé à la classe proposée, mais à une classe plus large englobant la classe proposée ainsi que d’autres classes.
De préférence, les moyens automatisés affichent également à l’utilisateur au moins une donnée de justification du résultat détectée.
Ainsi, non seulement l’utilisateur visualise uniquement les résultats qui paraissent les plus probables, mais il visualise également au moins une donnée de justification associée au résultat. Cette donnée est une indication qui permet à l’utilisateur, en un coup d’œil, de vérifier si le résultat proposé est le bon pour les données médicales correspondantes à ce résultat.
Cette caractéristique accélère encore le classement des données médicales, car l’utilisateur n’a plus à se plonger dans ses données, par exemple dans un dossier médical, pour vérifier si le résultat proposé est le bon, il peut se contenter de prendre connaissance de la ou des données de justification pour décider si le résultat proposé est effectivement le bon ou non.
Avantageusement, la donnée de justification appartient à la ou aux données qui ont fait l’objet de la proposition de classification ayant abouti au résultat, et est textuelle.
Ainsi, les moyens de calcul informatique retrouvent, parmi les données médicales faisant l’objet de la classification, un mot ou une phrase permettant à l’utilisateur de déterminer si le résultat correspondant lui paraît adéquat. C’est ce mot ou cette phrase qui est la donnée de justification. Il peut par exemple s’agir d’un terme médical relatif à un soin médical, à un diagnostic, ou à un symptôme médical.
De préférence, en outre, 
  • les moyens de calcul informatique déterminent également un niveau de justifiabilité associé au résultat,
  • les moyens de calcul informatique comparent le niveau de justifiabilité associé au résultat à un seuil de justifiabilité prédéterminé,
  • les moyens de calcul informatique affichent à l’utilisateur le résultat si, en outre, le niveau de justifiabilité est supérieur ou égal au seuil de justifiabilité prédéterminé.
Ainsi, le niveau de confiance n’est pas le seul critère considéré pour afficher ou non un résultat à l’utilisateur, le niveau de justifiabilité s’y ajoute. Il correspond à une quantité ou à une qualité de données permettant de justifier à l’utilisateur le résultat proposé. En d’autres termes, pour être affiché, non seulement le résultat doit présenter un niveau de confiance supérieur au seuil de confiance prédéterminé, mais en outre, les moyens de calcul déterminent s’ils sont en capacité de présenter à l’utilisateur des données convaincantes associées à ce résultat, afin que l’utilisateur prenne sa décision de classement rapidement. Ainsi, selon ce mode de réalisation, même si un résultat proposé est probablement le bon, si les moyens de calcul ne sont pas en mesure de fournir des données permettant à l’utilisateur d’aisément valider ce résultat, ils ne l’affichent pas à l’utilisateur. De cette manière, l’utilisateur peut se concentrer sur les résultats proposés qui sont à la fois probables et justifiés. Les résultats affichés sont donc encore plus pertinents car leur justifiabilité facilite leur validation par l’utilisateur.
De même que le seuil de confiance, le seuil de justifiabilité peut être paramétré par l’utilisateur comme bon lui semble.
Avantageusement, pour déterminer le niveau de justifiabilité associé au résultat :
  • au sein de la ou des données médicales, les moyens de calcul informatique détectent au moins une ou l’une des données de justification du résultat, et
  • en fonction de la ou de chaque donnée de justification détectée, les moyens de calcul informatique déterminent le niveau de justifiabilité associé au résultat.
Ainsi, le niveau de justifiabilité dépend du nombre et/ou de la pertinence des données de justifications détectées par les moyens automatisés au sein des données médicales fournies en entrées. Plus ces données de justification sont nombreuses et/ ou pertinentes, plus le niveau de justifiabilité est élevé car les moyens de calcul sont en mesure de présenter à l’utilisateur des données de justification qui vont grandement l’aider à valider le résultat.
De préférence, pour détecter une donnée de justification du résultat, les moyens de calcul informatique déterminent, au préalable, un ou des types de données de justification à détecter.
Ainsi, le modèle auto-apprenant est entraîné à détecter des données de justification sur une base de données d’apprentissage.
Avantageusement, pour déterminer un ou des types de données de justification à détecter, à partir d’une base de données médicales d’apprentissage :
  • grâce à des données médicales d’apprentissage de la base, les moyens de calcul informatique effectuent une première classification et déterminent un premier niveau de confiance associé à un résultat de la première classification,
  • les moyens de calcul informatique masquent au moins l’une des données médicales d’apprentissage utilisées pour effectuer la première classification,
  • les moyens de calcul informatique effectuent une deuxième classification en utilisant des données dépourvues de la donnée médicale d’apprentissage masquée et déterminent un deuxième niveau de confiance de la deuxième classification,
  • si la différence entre le premier et le deuxième niveau de confiance est supérieure à un seuil prédéterminé, les moyens de calcul informatique enregistrent un type de la donnée médicale d’apprentissage masquée en tant que type de donnée de justification à détecter.
Ainsi, pour déterminer quelles sont les données de justification à détecter, on retire ou on masque certaines des données médicales lors de l’apprentissage et on mesure l’impact de ces retraits sur le niveau de confiance en sortie de classification. Si le niveau de confiance a considérablement baissé, cela signifie que la ou les données médicales qui ont été masquées sont particulièrement importantes dans la détermination de la classe correspondant au séjour auquel ces données appartiennent. Ces données masquées sont donc considérées comme des données de justification qui peuvent être affichées à l’utilisateur si elles sont détectées, pour accompagner et justifier le résultat proposé. Ce procédé est donc réalisé préalablement aux classifications des données médicales en « conditions réelles » afin de déterminer les types de données à détecter. Par ailleurs, étant donné qu’il peut être répété pour des données d’entraînement en entrée différentes mais correspondant à des résultats identiques, les moyens déterminent les types de données de justification les plus courants associés à chaque résultat possible, et ce peu importe les données fournies en entrée.
Alternativement, pour détecter une donnée de justification du résultat, un ou des types de données de justification à détecter sont fournies aux moyens de calcul informatique par l’utilisateur.
Ainsi, en plus ou à la place de la détermination des données de justification par les moyens de calcul informatique, un utilisateur humain peut fournir aux moyens une liste de données de justification à détecter, par exemple les mots qu’il juge pertinents. Là encore, les données sont fournies aux moyens avant la classification.
Alternativement, les moyens de calcul informatique détectent la ou les données de justification à partir de la ou des données médicales qui ont fait l’objet de la classification automatique ayant abouti au résultat.
Ainsi, le ou les types de données de justification à détecter sont déterminés cette fois à posteriori, c’est-à-dire une fois la classification réalisée. Ce procédé permet de se passer de la détermination au préalable des types de données de justification pour tous les résultats possibles.
De préférence, pour détecter la ou les données de justification à partir de la ou des données médicales qui ont fait l’objet de la classification automatique ayant abouti au résultat, la classification étant une première classification et le niveau de confiance associé au résultat étant un premier niveau de confiance : 
  • les moyens de calcul informatique masquent la ou au moins l’une des données médicales utilisées pour effectuer la première classification,
  • les moyens de calcul informatique effectuent une deuxième classification en utilisant les données dépourvues de la donnée médicale masquée et déterminent un deuxième niveau de confiance de la deuxième classification,
  • si la différence entre le premier et le deuxième niveau de confiance est supérieure à un seuil prédéterminé, les moyens de calcul informatique (4) enregistrent la donnée médicale masquée en tant que donnée de justification détectée.
Ainsi, les moyens mettent en œuvre un procédé semblable à celui réalisé pour détecter a priori des types de données de détection et décrit plus haut, c’est-à-dire par le biais de classifications avec des données masquées, mais il est réalisé ici après la classification et uniquement pour le résultat proposé.
De préférence, le résultat appartient à une arborescence de nœuds correspondant à des résultats possibles.
Ainsi, la classe à assigner en sortie aux données en entrée peut faire partie d’une arborescence de classes agencées entre elles de manière hiérarchique. En d’autres termes, un nœud de l’arborescence, dit « parent », correspond à une classe englobant plusieurs sous-classes, elles-mêmes associées respectivement à des nœuds « fils » du nœud parent. Un résultat peut correspondre à n’importe quel nœud, c’est-à-dire à n’importe quel niveau hiérarchique dans l’arborescence des classes. Un tel niveau peut d’ailleurs être paramétré par l’utilisateur, qui peut décider de ne voir afficher les résultats que d’un certain niveau hiérarchique. En effet, de manière générale, plus le niveau hiérarchique est élevé, plus le risque d’erreur dans la classification diminue, mais moins la classe assignée est adaptée aux données en entrées puisqu’il s’agit d’une classe plus générique.
Avantageusement, le niveau de confiance est associé à un nœud de l’arborescence parent d’un nœud correspondant au résultat.
Ainsi, le résultat proposé correspond à une classe précise, mais le niveau de confiance est déterminé au niveau d’une classe parente, c’est-à-dire plus générique et comprenant la classe correspondant au résultat. De cette manière, l’utilisateur peut afficher des résultats précis, mais en se basant sur un niveau de confiance associé à un niveau hiérarchique plus générique que celui des résultats. Concrètement, des résultats qui ne seraient pas affichés si le niveau de confiance était associé directement au résultat, s’affichent ici car ils correspondent à des classes sœurs, ou proches du résultat. De cette manière, l’utilisateur élargit les critères d’affichage des résultats à des classes proches de la classe correcte, mais sans nécessairement modifier un seuil de confiance. Le procédé permet donc ici d’afficher à l’utilisateur des résultats au moins proches, en termes de classement, des bons résultats, même si la précision de ces résultats n’est pas suffisante pour qu’ils soient normalement affichés.
Alternativement, le niveau de confiance est associé à un groupe de nœuds de l’arborescence comprenant un nœud correspondant au résultat.
Ainsi, ce n’est pas la confiance associée au résultat proposé qui est déterminée ici, mais celle accordée à un groupe de résultats possibles. En d’autres termes, il s’agit de la confiance accordée au fait que l’un des membres du groupe est le bon résultat.
Avantageusement, le niveau de justifiabilité est associé à un nœud de l’arborescence parent d’un nœud correspondant au résultat.
Alternativement, le niveau de justifiabilité est associé à un groupe de nœuds de l’arborescence comprenant un nœud correspondant au résultat.
Ces deux options correspondent à ce qui a été évoqué plus haut, mais appliqué cette fois au niveau de justifiabilité.
De préférence, en fonction du niveau de confiance associé au résultat, les moyens de calcul informatique modifient l’association du niveau de confiance et de préférence le seuil de confiance.
Ainsi, les moyens de calcul informatique adaptent automatiquement le niveau hiérarchique auquel le niveau de confiance est associé, voire le seuil de confiance à atteindre, en fonction du résultat. En d’autres termes, si pour un séjour, aucun résultat n’est d’abord affichable à l’utilisateur faute de seuil de confiance atteint, les moyens de calcul informatique « remontent » à un nœud parent, frère, groupe de nœuds ou nœud proche du nœud correspondant au résultat, et déterminent s’ils y trouvent là un autre résultat atteignant le seuil de confiance éventuellement modifié. De cette manière, l’utilisateur n’a plus à adapter le réglage de son niveau de confiance à chaque évaluation des résultats, les moyens de calcul informatique se chargeant de cette adaptation de manière à afficher un résultat pour chaque ensemble de données médicales fourni en entrée, quand bien même le niveau hiérarchique de ce résultat ou le niveau de confiance auquel il est associé ne correspondent pas aux niveaux et seuils visés en première approche.
De même, avantageusement, en fonction du niveau de justifiabilité associé au résultat, les moyens de calcul informatique modifient l’association du niveau de justifiabilité et de préférence le seuil de justifiabilité.
De préférence, les moyens de calcul informatique permettent à un utilisateur de prédéterminer le seuil de confiance et/ou le seuil de justifiabilité.
L’utilisateur peut paramétrer ces seuils au moyen de courbes de précision-sensibilité. Plus il est exigeant sur les niveaux de précision de ces seuils, plus les résultats affichés seront pertinents, mais le risque qu’aucun résultat ne soit affiché pour un séjour donné sera aussi plus élevé. A l’inverse, plus un niveau de précision est faible, plus il risque de voir s’afficher un résultat erroné pour un séjour donné.
Avantageusement, les moyens de calcul informatique autorisent l’utilisateur à invalider le résultat.
Ainsi, ici le procédé valide le résultat proposé par les moyens de calcul informatique, mais laisse l’opportunité à l’utilisateur d’annuler cette validation. De cette manière, si la plupart des résultats sont corrects, l’utilisateur a seulement à agir sur les autres classements, minoritaires, c’est-à-dire ceux qui se sont avérés être inexacts.
De préférence, la ou au moins l’une des données médicales est relative à au moins un séjour médical d’au moins un patient en établissement de santé.
Ainsi, le procédé permet en particulier d’améliorer le classement informatique des séjours médicaux, en particulier en vue d’améliorer la précision de la comptabilité des établissements de santé, en vue des recherches épidémiologiques ou tout autre type d’analyse de ces séjours médicaux.
Avantageusement, plusieurs des données médicales étant relatives à plusieurs séjours médicaux, les moyens de calcul informatique affichent à l’utilisateur les résultats des classifications de tous les séjours.
Ainsi, l’utilisateur peut très rapidement parcourir les résultats pour l’ensemble des séjours qu’il souhaitait classer. En d’autres termes, il n’a pas à naviguer entre plusieurs résultats et peut en quelques brèves interactions valider ou invalider une liste de résultats.
De préférence, le résultat de la proposition correspond à un ou plusieurs codes relatifs à des diagnostics médicaux, des actes ou procédures, des groupes homogènes de malades ou des groupes homogènes de séjours (« Diagnosis Related Groups  » ou « DRG » en langue anglaise).
Ainsi, il peut en particulier s’agir des codes, CIM10, CCAM ou GHM/GHS relatifs au codage PMSI. Le procédé permet donc de faciliter et d’accélérer le codage PMSI dans les établissements de santé, en particulier pour les séjours médicaux dont les classements présentent un risque d’erreur trop élevé. Les départements d’information médicale de ces établissements peuvent ainsi décider du classement et donc du codage en se basant sur les résultats les plus probables fournis par le modèle auto-apprenant pour une liste de séjours, sans avoir besoin d’étudier de manière approfondie les données médicales correspondant à chaque séjour.
Avantageusement, le niveau de confiance associé au résultat est une valeur numérique associée à une probabilité que le résultat soit correct.
Ainsi, le niveau de confiance correspond au pourcentage de chance que le résultat proposé soit le bon.
De préférence, pour déterminer la valeur numérique, au moyen d’une base de données médicales d’apprentissage :
  • les moyens de calcul informatique effectuent des classifications de données d’apprentissage ;
  • pour chaque classification, les moyens de calcul informatique déterminent des valeurs numériques primaires associées respectivement à des résultats de la classification ;
  • pour chaque classification, les moyens de calcul informatique sélectionnent le résultat de la classification pour lequel la valeur numérique est la plus élevée ;
  • pour chaque classification, les moyens de calcul informatique comparent le résultat sélectionné avec un résultat attendu correct ; et
  • en fonction de résultats des comparaisons, les moyens de calcul informatique déterminent la valeur numérique associée à une probabilité que le résultat sélectionné soit correct.
Ainsi, le niveau de confiance calculé pour chaque séjour correspond à deux éléments : le résultat proposé, et la valeur numérique primaire qui lui a été associée lors de la classification. Le modèle est entraîné à déterminer un niveau de précision pour des combinaisons de ces deux éléments. Ensuite, à chaque fois qu’un résultat est proposé avec une certaine valeur numérique primaire, le modèle est capable d’en déduire statistiquement un degré de précision, c’est-à-dire le niveau de confiance associé à ce résultat et à cette valeur primaire.
L’invention a également pour objet un système de traitement de données comprenant des moyens de mettre en œuvre les étapes du procédé décrit précédemment.
L’invention a également pour objet un programme d’ordinateur, comprenant des instructions qui, lorsque le programme est exécuté par un ordinateur, conduisent celui-ci à mettre en œuvre les étapes du procédé décrit précédemment.
L’invention a également pour objet un procédé de mise à disposition du programme précédent en vue de son téléchargement sur un réseau de télécommunications.
L’invention a également pour objet un support de données lisible par ordinateur, sur lequel est enregistré le programme d'ordinateur présenté précédemment. 
Brève description des figures
L'invention sera mieux comprise à la lecture de la description qui va suivre donnée uniquement à titre d'exemple et faite en se référant aux dessins annexés dans lesquels :
illustre les moyens mis en œuvre dans l’invention ;
illustre des résultats évalués par l’invention ;
illustre un procédé conventionnel de configuration d’un modèle de classification automatique ;
illustre un procédé de détermination d’un niveau de confiance ;
illustre un procédé de détermination d’un niveau de justifiabilité ;
illustre une première variante d’une étape du procédé de la ;
illustre une deuxième variante d’une étape du procédé de la ;
illustre un exemple de courbe précision-sensibilité ;
illustre l’évolution d’une interface utilisateur ;
illustre un premier mode de mise en œuvre de l’invention ;
illustre un deuxième mode de mise en œuvre de l’invention ;
Description détaillée
Le contexte de l’invention est celui de l’obligation pour les établissements de santé d’identifier pour chaque séjour les diagnostics et actes caractéristiques du patient. A des fins notamment budgétaires, ces établissements doivent ainsi rendre compte de chaque séjour médical d’un patient, via l’assignation de codes dits « PMSI » audit séjour. Chaque code correspondant à un diagnostic médical principal et éventuellement à un ou plusieurs diagnostics associés ainsi qu’à un ou plusieurs actes médicaux, les organismes adéquats tels que la sécurité sociale peuvent rembourser les établissements hospitaliers sur la base de ces codes.
Un procédé de classification automatique permet d’assigner à chaque séjour médical un ou plusieurs codes PMSI. Il prend en entrée un ensemble de données concernant un séjour médical, et fournit en sortie un code PMSI, qui dans le meilleur des cas correspond bien au séjour, mais parfois est erroné, ou insuffisamment précis.
L’invention ne concerne pas la classification automatique à proprement parler, mais une évaluation des résultats d’une classification automatique, c’est-à-dire l’évaluation de l’assignation du bon code au bon séjour. C’est également pourquoi l’invention ne se limite pas à un procédé ou modèle de classification automatique particulier. Au contraire, elle permet d’évaluer les résultats de propositions de classification automatique réalisées par différents modèles.
Nous allons dans un premier temps décrire l’ensemble des moyens mis en œuvre, ainsi que l’ensemble des étapes techniques nécessaires à la compréhension et à la mise en œuvre de l’invention. Puis nous récapitulerons ces éléments au moyen de la description de modes de mise en œuvre de l’invention.
I. Les moyens
A) L es éléments
La illustre les éléments participant à la mise en œuvre du procédé. Ce procédé est mis en œuvre au moyen d’un logiciel 1 manipulé par un utilisateur 2 au moyen d’un ordinateur. Ce logiciel propose une interface utilisateur 6, à partir de laquelle l’utilisateur 2 commande l’invention. Ce logiciel est l’interface entre l’utilisateur 2 et tous les autres éléments. Ce logiciel commande notamment un modèle auto-apprenant 3 apte à effectuer des classifications automatiques. Sous le contrôle du logiciel 1, le modèle 3 fournit à des moyens automatisés 4 des propositions de résultats de ces classifications, associés à des scores.
Les moyens automatisés 4, qu’on appelle indifféremment dans toute la demande « moyens de calcul », « moyens de calcul informatique », ou « moyens automatisés », sont tout type de moyen informatique, en particulier des moyens de calculs, et de moyens de communications. Ils mettent ainsi en œuvre des processeurs, des bases de données, des réseaux de communication. Ces moyens 4 peuvent être groupés ou séparés, ils peuvent fonctionner à distance. Ils ont vocation à utiliser les résultats des classifications issues du modèle 3 pour en générer des évaluations et justifications à présenter à l’utilisateur 2.
Les données 7 fournies en entrées au logiciel 1 sont une liste de séjours médicaux, les données déterminées en sortie par le logiciel via les moyens automatisés sont des codes 8, correspondant à des diagnostics médicaux assignés à au moins certains de ces séjours, et associés à des justifications.
B) les données
Les données 7 formant un séjour médical, ou séjour hospitalier, sont formées de tout document lié au patient ou à son séjour hospitalier. Il peut s’agir notamment des modes d’entrée et de sortie d’une unité médicales, de dates du séjour, de compte-rendu d’hospitalisation, de courriers médicaux, de comptes-rendus d’imageries ou d’examen. Il peut également s’agir du fichier dit « résumé de sortie standardisé » (RSS), qui contient toutes les informations des « résumés d’unités médicales » (RUM) du séjour. Chaque RUM comprend par exemple un numéro FINESS de l’établissement hospitalier, le numéro de RSS, un numéro administratif du séjour, et un numéro GHM (« Groupe homogène de malade). Il peut également contenir des codes de « classification communes des actes médicaux » (CCAM). D’autres données, telles que n’importe quelles données liées directement ou indirectement au séjour du patient, peuvent être utilisées. Ce sont ces données 7 qui sont fournies en entrées au modèle auto-apprenant 3. Plus concrètement, on les fournit sous forme de vecteurs. Ainsi, parmi ces données 7, les données administratives comportent des caractéristiques numériques et catégorielles qui sont transformées en vecteur. Les données textuelles sont extraites, concaténées, et vectorisées également, par exemple à l’aide de la libriaire Scikit-learn. Les deux vecteurs, celui des données administratives et celui des données textuelles, sont ensuite concaténés pour former un seul vecteur correspondant au séjour.
Les données de sortie 8 sont des codes. Il s’agit du code CIM (« classification internationale des maladies ») du diagnostic principal du RUM, du code CIM du diagnostic relié du séjour s’il y en a un, et des codes CIM des diagnostics associés s’il y en a. Le code I48 correspond par exemple à « fibrillation et flutter auriculaires », le code I48.2 à « fibrillation auriculaire chronique ». Un code D61.1+Y43.3 correspond à une « Aplasie médullaire médicamenteuse » en diagnostic principal, et à un « effet indésirable des chimiothérapies au cours de l’usage thérapeutique » en diagnostic associé. C’est donc à ce type de code 8 auquel le modèle auto-apprenant 3 doit assigner chaque séjour 7 fourni en entrée.
C) Des résultats en arborescence
La classification PMSI peut être illustrée sous la forme d’une arborescence, comme illustré à la . En effet, certains codes correspondent à des diagnostics génériques, d’autres codes à des diagnostics plus précis, et d’autres codes encore à des diagnostics encore plus précis. Par exemple, le code I50 correspond à une insuffisance cardiaque, le code I500 à une insuffisance cardiaque congestive tandis que le code I501 correspond à une insuffisance ventriculaire gauche. Puis le code I5010 correspond à une insuffisance ventriculaire gauche avec fraction d’éjection ventriculaire gauche supérieure ou égale à 50, tandis que le code I5011 correspond à une insuffisance ventriculaire gauche avec fraction d’éjection ventriculaire gauche inférieure à 50 et supérieure ou égale à 40. On peut donc parler de hiérarchie entre nœuds parents correspondant à des diagnostics généraux et des nœuds enfants associés à des diagnostics plus précis.
Les résultats des classifications peuvent correspondre à tout code, quel que soit son niveau hiérarchique dans cette arborescence. On préférera cependant que le code corresponde au niveau hiérarchique le plus bas possible, c’est-à-dire au diagnostic le plus précis possible. La tarification des activités médicales peut d’ailleurs évoluer à tous les niveaux.
On va désormais décrire le fonctionnement d’un exemple de modèle auto-apprenant, le modèle 3, permettant de classer automatiquement des séjours médicaux 7 au sein de classes de diagnostics 8. On décrira ensuite le fonctionnement de l’invention à proprement parler, c’est-à-dire le procédé d’évaluation des résultats proposés par le modèle auto-apprenant.
I I. La classification
A) l’apprentissage
Le modèle 3 est configuré au moyen d’u procédé 70 illustré sur la .
L’un des types de modèle de classification adéquat est un perceptron multicouche, c’est le type choisit pour le modèle 3. Pour rappel, un modèle auto-apprenant vise à assigner à un ensemble de données entrées – en l’espèce, des données concernant un séjour médical 7 - une classe en sortie – en l’espèce, un code PMSI 8. Pour cela, le modèle 3 est entraîné, à l’étape 11, sur une base de données d’apprentissage où les codes des séjours fournis sont déjà connus. L’objectif de l’entrainement est la minimisation de l’entropie croisée. Cet objectif est réalisé via l’algorithme de descente de gradient. L’implémentation de ce modèle et son entrainement sont réalisés par exemple via Tensorflow.
Après apprentissage, on cherche à optimiser le modèle 3 et à le calibrer. On utilise d’autres données, dites « données de validation », dont on connait là encore les classes en sortie, afin de préciser les « hyperparamètres » du modèle : son nombre de neurones, d’axones, et de manière générale toutes les caractéristiques définissant le modèle apprenant. Cette étape 12 vise notamment à éviter le sur-apprentissage du modèle 3. En outre, pour le calibrer, on utilise l’algorithme de Temperature Scaling décrit dans « On Calibration of Modern Neural Networks » (Guo et al, 2017). Cette calibration à l’étape 13 permet au modèle 3 d’associer à la classe en sortie 8 un score représentant un niveau de précision. Ce score peut par exemple être une valeur numérique entre 0 et 1. Ainsi, pour un séjour 7 donné, une première classe peut être prédite avec un score quelconque, une deuxième classe avec un score supérieur. Cela signifie, si le modèle est bien calibré, que la deuxième classe présente plus de chance que la première d’être la bonne.
Enfin, à l’étape 14, on utilise encore d’autres données aux classes connues, pour tester la capacité de généralisation du modèle 3.
A l’issue de ces étapes 11 à 14, le modèle est convenablement entraîné à prédire la classe en sortie 8 de séjours médicaux 7 fournis en entrée, c’est-à-dire qu’il est apte à leur assigner un ou plusieurs codes PMSI. Un code peut par exemple être « un diagnostic principal », auquel peut être associé un ou plusieurs codes de diagnostics associés, des codes correspondants aux actes CCAM, voire un code prédisant le groupe GHM du malade.
B) Les propositions
Ce qui suit est donc la classification automatique, conformément à l’étape 15. Dans la phase de classification, l’utilisateur 2 fournit des séjours médicaux 7 au modèle auto-apprenant 3. Le modèle fournit alors en sortie une liste de résultats 8 : au moins un code PMSI ainsi qu’un score numérique associé à ce résultat. Il peut arriver que le modèle fournisse plusieurs paires de codes-score pour un même séjour. Dans l’invention, ces résultats font ensuite l’objet d’une évaluation, c’est ce que nous décrirons en détails plus bas.
II I . L’évaluation du niveau de confiance
A) la détermination du niveau de confiance
L’objet de l’invention est de proposer à l’utilisateur, dans un premier mode de réalisation, les résultats pour lesquels la confiance 9 associée est supérieure à un certain seuil. On va d’abord décrire comment calculer ce « niveau de confiance » 9, autrement appelé « précision », au moyen d’un procédé 20 illustré à la .
Ce niveau 9 est déterminé par entraînement des moyens automatisés 4 sur une base de données de tests. Les étapes sont illustrées à la . Dans une étape 21, pour des séjours médicaux 7 dont les classes sont connues, le modèle 3 produit en sortie des paires de résultats-score. Les moyens automatisés 4 sélectionnent alors, à l’étape 22, pour chaque séjour, le résultat dont le score X est le plus élevé. Pour rappel, ce résultat est une classe, c’est-à-dire un code PMSI. Le résultat sélectionné est alors comparé au résultat attendu à l’étape 23. En effectuant ce type de classification/comparaison sur un échantillon suffisamment grand de données de test, les moyens automatisés déterminent à l’étape 24 une corrélation entre le score X et le résultat sélectionné d’un côté, et l’exactitude ou non du résultat sélectionné de l’autre. Pour donner un exemple, prenons cent classifications dont le résultat est la classe I48 avec le score 0.65 fourni par le modèle calibré. Si sur ces cent classifications, il se trouve que 90 séjours classés correspondent effectivement à la classe I48, alors les moyens automatisés en déduisent que la confiance associée à tout résultat concernant la classe I48 avec un score de 0.65 est de 90%.
C’est donc de cette manière que les moyens automatisés 4 apprennent à déterminer les niveaux de confiance 9 associés aux résultats, en utilisant les scores d’ores-et-déjà déterminés par le modèle auto-apprenant 3 et fournis aux moyens automatisés 4. Ainsi, pour chaque résultat 8 fourni par le modèle 3 avec son score, les moyens automatisés 4 sont capables de déterminer un niveau de confiance 9 en pourcentage, autrement appelée « précision ». Cette précision 9 correspond statistiquement à la probabilité que le résultat 8 soit le bon, c’est-à-dire que le code PMSI proposé corresponde effectivement au séjour 7 fourni en entrée.
B) Le seuil de confiance
Via le logiciel 1, l’utilisateur 2 peut décider d’un seuil de confiance dit « d’automatisation », au-dessus duquel les résultats sont automatiquement classés par le logiciel 1, sans passer par la validation de l’utilisateur. Ce seuil peut par exemple être de 99%. Cela signifie que, pour les résultats dont la précision est au moins de 99%, les séjours sont automatiquement classés comment prédit par le modèle auto-apprenant 3. Il peut bien entendu régler ce seuil comme bon lui semble.
Ce qui nous concerne le plus ici, c’est le seuil de « quasi-automatisation ». En effet, l’utilisateur 2 peut régler un seuil de confiance pour ne voir s’afficher sur son interface utilisateur 6 que les résultats dont la précision calculée est supérieure ou égale à ce seuil de confiance dit de « quasi-automatisation », mais qui est inférieure au seuil de confiance « d’automatisation ». Il s’agit donc des séjours 7 dont la classification est probablement bonne, puisque leurs résultats 8 ont un niveau de confiance supérieur ou égal au seuil de confiance de quasi-automatisation, mais loin d’être certaine, puisque ce niveau de confiance est inférieur au seuil de confiance correspondant à l’automatisation.
L’utilisateur 2 a la possibilité de valider ces résultats proposés par le modèle 3, c’est-à-dire d’assigner aux séjours concernés le code de diagnostic proposé par le modèle. Ainsi, l’utilisateur 2 n’a qu’à vérifier si le code 8 proposé paraît correspondre au séjour médical fourni 7 en entrée et, il peut user d’un clic pour le valider ou au contraire pour infirmer cette proposition.
I V . L’évaluation du niveau de justifiabilité
Dans un deuxième mode de réalisation illustré à la , l’évaluation ne concerne pas seulement le niveau de confiance 9 d’un résultat proposé. Les moyens automatisés 4 déterminent également un niveau de justifiabilité 10 associé à chaque résultat proposé, et ne proposent à l’utilisateur 2 que les résultats des classifications du modèle 3 dont les niveaux de confiance 9 et les niveaux de justifiabilité 10 dépassent des seuils respectifs prédéterminés.
Comme illustré à la , les moyens 4 prennent d’abord connaissance, à l’étape 41, d’une liste de données de justification 5 à détecter pour chaque résultat 8 possible. Ensuite, pour chaque séjour 7 fourni en entrée dont le résultat de classification est proposé à l’utilisateur, les moyens détectent à l’étape 42, au sein des données 7, quelles sont les données de la liste 5 préalablement établie qui vont permettre de justifier le résultat 8 auprès de l’utilisateur 2. A l’étape 43, les moyens 4 déterminent un niveau de justifiabilité 10 à partir des données de justifications détectées. Enfin, à l’étape 44, les moyens vérifient si le niveau de justifiabilité 10 est égal ou supérieur à un seuil de justifiabilité prédéterminé, paramétré par l’utilisateur 2. Si tel est le cas, et si le niveau de confiance du résultat est supérieur au seuil de confiance, alors le résultat est affiché à l’étape 45 sur l’interface 6 de l’utilisateur, accompagné des données de justifications détectées pour ce résultat.
Nous allons désormais revenir sur chacune de ces étapes.
Par « niveau de justifiabilité », on veut parler d’une quantité et/ou d’une qualité de données déterminées par les moyens automatisés 4 permettant de justifier auprès de l’utilisateur 2 les résultats proposés. Mais alternativement, il pourrait s’agir de toute manière de quantifier la capacité qu’auraient les moyens 4 à justifier auprès de l’utilisateur 2 les résultats proposés 8.
A ) L es données de justification
En l’espèce, pour un séjour 7 donné et parmi l’ensemble de données formant ledit séjour, les moyens automatisés détectent des données dites « de justification » 5 qui correspondent au résultat proposé. Ainsi, pour un patient atteint de fibrillation auriculaire chronique, les moyens peuvent par exemple détecter une phrase au sein d’un compte-rendu d’hospitalisation mentionnant explicitement une « fibrillation auriculaire chronique » ou des symptômes proches. Si le résultat de la classification de ce séjour est un code comprenant « I48.2 » (code PMSI correspondant à ce type de fibrillation), la phrase est alors proposée à l’utilisateur en même temps que le résultat, de façon à justifier ce dernier. Ainsi, non seulement l’utilisateur 2 a la possibilité de valider des résultats dont le niveau de confiance est supérieur à un seuil qu’il a prédéterminé, mais il peut en outre s’appuyer sur les données de justifications 5 fournies pour décider ou non de valider ce résultat, plutôt que de se plonger dans le dossier médical relatif au séjour concerné.
B) La détermination des données de justification
Pour détecter les données de justifications, telles que la phrase mentionnée ci-dessus, les moyens 4 doivent en avoir connaissance, c’est l’étape 41, que l’on détaille maintenant. Ainsi, dans une première variante illustrée à la , les moyens ont a priori connaissance des données à détecter 5, associées à tout ou partie des résultats possibles. Ces données peuvent avoir été fournies par l’utilisateur 2 ou par un autre moyen humain au préalable aux moyens 4. Il peut par exemple s’agir d’une liste de termes associés à chaque résultat possible. Par exemple, comme illustré, un utilisateur peut avoir fourni une liste de données de justification 5 pour le code I48.0 correspondant à une « fibrillation auriculaire paroxystique », cette liste contenant les termes : fibrillation auriculaire », « acfa », « fa », ou des termes relatifs à la prise en charge thérapeutique de ce diagnostic, tel que le terme « cordarone ».
Dans une deuxième variante illustrée à la , les moyens automatisés 4 ont préalablement mis en œuvre un procédé d’apprentissage visant à déterminer quelles sont les données de justification 5 qu’ils doivent détecter par la suite. Cet apprentissage est réalisé sur une base de données d’apprentissage, c’est-à-dire où les classes correspondant aux séjours sont connus.
Pour rappel, un séjour 7 fourni en entrée est formé d’un vecteur correspondant à plusieurs données administratives et plusieurs données textuelles.
Dans une étape 31, on effectue via le modèle 3 la classification de plusieurs séjours relatifs à la même classe, par exemple des séjours relatifs à une tachycardie ventriculaire, donc au code PMSI I47.2. Les moyens déterminent les niveaux de confiance associés à chaque résultat. Admettons par exemple qu’ils oscillent entre 85 et 95 % de précision selon les séjours. Dans une étape 32, les moyens 4 sélectionnent parmi eux les séjours qui sont classés correctement, c’est-à-dire ceux auxquels le modèle 3 a bien assigné le code I47.2, ou un code comprenant le code I47.2. Dans une étape 33, une ou plusieurs données du vecteur 7 fourni en entrée du modèle est masquée. Par exemple, on reforme le vecteur au moyen des mêmes documents administratifs et textuels utilisés, mais en supprimant toutes les occurrences du terme « ventriculaire ». Dans une étape 34, on procède à de nouvelles classifications, du même modèle 3, sur ces vecteurs. Les moyens 4 déterminent alors les niveaux de confiance associés à chacun des résultats.
Dans une étape 35, on compare les nouveaux niveaux de confiance aux anciens. Si, en moyenne, les niveaux de confiance ont diminué de manière spectaculaire, par exemple de 5%, alors cela signifie que la donnée masque, ici le terme « ventriculaire », est particulièrement importante dans le choix du modèle 3 d’assigner à ces séjours le code I47.2. C’est pourquoi les moyens automatisés 4 intègrent alors, à l’étape 36 la donnée masquée, ici le terme « ventriculaire », à une liste de données de justification 5 correspondant à la classe I47.2. Ce procédé est applicable à n’importe quelle classe, de manière générale à n’importe quel résultat possible. Bien entendu, le niveau de baisse de confiance à partir duquel une donnée est considérée comme une donnée de justification peut être configuré par l’utilisateur 2.
Bien entendu, les deux variantes précédemment décrites pour que les moyens 4 aient connaissance des données de justification 5 à détecter peuvent être mises en œuvre simultanément : certaines données de justification peuvent avoir été fournies manuellement, quand d’autres peuvent avoir été « apprises » par les moyens automatisés 4.
Ainsi, chaque résultat possible de la classification, c’est-à-dire chaque code PMSI possible, est associé à une liste de données de justification dans cette étape 41.
Alternativement, dans un mode de mise en œuvre non illustré, la détermination des données de justification à détecter peut se faire a posteriori, c’est-à-dire après la classification des séjours 7 par le modèle 3. Dans ce cas, des étapes similaires aux étapes 31 à 36 sont réalisées non pas pour une série de séjours d’entraînement correspondant à une même classe et sur une base d’apprentissages, mais pour chaque séjour 7 correspondant à un résultat 8, et donc sur des données « réelles », sans apprentissage préalable. Ainsi, après la classification réalisée, pour chaque séjour 7, les moyens 4 masquent certaines des données du séjour entre des classifications successives de ces données, de façon à déterminer laquelle ou lesquelles de ces données font varier substantiellement le niveau de confiance calculé. Ce sont ces données qui sont dès lors considérées comme des données de justification du résultat 8.
Ce procédé de détection a posteriori est moins précis que le procédé 30 réalisé de façon préalable sur une base d’apprentissage et décrit plus haut, puisque ce dernier permet de moyenner les niveaux de confiance pour plusieurs séjours correspondant à une même classe en sortie, et donc de déterminer les types de données à détecter les plus pertinents pour tous types de séjours. Toutefois, ce procédé de détection à posteriori permet de fournir des données de justification dans le cas où le procédé 30 n’a pas été mis en œuvre au préalable pour certains ou voire tous les résultats.
Bien entendu, ce procédé peut aussi être combiné aux procédés précédents réalisés de façon préalable à la classification.
C) La détermination du niveau de justifiabilité
Le niveau de justifiabilité 10 peut être défini de manière diverse. Il peut correspondre à un chiffre, par exemple à un pourcentage exprimant le nombre de données de justification de la liste détectée dans les données 7 d’un séjour à classer. Il peut également s’agir d’une échelle, comprenant par exemple quatre niveaux : bon, moyen, faible, absent. Dans ce cas, chaque liste de données de justification est organisée en rapport avec ces niveaux. Le niveau « bon » comprend certains termes très pertinents, par exemple l’intitulé exact du diagnostic. Si un ou des termes de cette liste pertinente sont détectés, alors le niveau de justifiabilité est effectivement bon. Le niveau « faible » comprend des termes moins pertinents de la liste de justifications, par exemple des termes qui peuvent être relatifs à plusieurs diagnostics. Le niveau « moyen » correspond à la détection, pour un même séjour, de termes appartenant à la catégorie « bon » et d’autres termes appartenant à la catégorie « faible ».
L’organisation de ces listes en fonction de ces niveaux peut être faite manuellement, par un utilisateur indiquant lui-même quels sont les termes particulièrement pertinents permettant de justifier de manière satisfaisante un résultat, et quels sont les termes qui permettent de justifier un résultat mais de manière moins certaine.
Cette organisation peut également être effectuée par les moyens automatisés 4, notamment quand ils « apprennent » à détecter les données de justification 5 (voir plus haut). Par exemple, si une donnée masquée lors de cet apprentissage fait baisser le niveau de confiance, associé à un résultat, de 10%, alors ce terme peut être assigné à la catégorie « bon ». Ces seuils visant à organiser les niveaux de justifiabilité peuvent bien entendus être configurés par l’utilisateur 2.
Ainsi, pour chaque résultat 8 proposé à l’utilisateur, un niveau de justifiabilité 10 de ce résultat est déterminé par les moyens automatisés 4. Ensuite, en fonction de ce niveau, le résultat est proposé ou non par les moyens 4 à l’utilisateur 2. En effet, l’utilisateur peut paramétrer un seuil de justifiabilité, en-dessous duquel les résultats correspondant ne seront pas proposés à l’utilisateur 2.
Dans un troisième mode de réalisation, on passe de l’étape 42 de la à l’étape 45 sans passer par les étapes 43 et 44. En d’autres termes les moyens détectent les données de justification mais ne déterminent pas un niveau de justifiabilité. Cela revient à configurer le niveau de justifiabilité en mode « absent ». Tous les résultats proposés à l’utilisateur sont ceux dont seul le niveau de confiance dépasse un seuil prédéterminé, et tous sont associés à des données de justification si elles ont été détectées.
D) Résumé des seuils
En résumé, une fois que le modèle 3 a classé des séjours 7, les moyens automatisés 4 évaluent les résultats, c’est-à-dire les codes 8 proposés à ces séjours. Ils déterminent d’abord les niveaux de confiances associés à ces résultats. Ceux dont le résultat est supérieur à un seuil d’automatisation sont classés automatiquement. En effet, pour eux, le taux d’erreur dans la classification est trop faible par rapport aux exigences de qualité du codage PMSI. Ce seuil d’automatisation est par exemple de 99%, ce qui signifie, que statistiquement, 1% des séjours devrait être mal classé.
Ceux dont le niveau de confiance est trop faible, c’est-à-dire en-dessous du seuil de quasi-automatisation, sont évacués du processus. Ils seront traités à part, par exemple en étudiant le dossier médical du séjour 7. Pour ceux qui dépassent ce seuil, les moyens automatisés 4 déterminent le niveau de justifiabilité associé à chaque résultat. Ceux dont les niveaux de justifiabilité est inférieur au seuil de justifiabilité prédéterminé sont exclus et seront traités à part. Restent donc les résultats correspondant à des niveaux de confiance et de justifiabilité supérieurs aux seuils. Ce sont ces résultats qui sont proposés à l’utilisateur 2, avec les données de justification détectées par les moyens 4 et associées à chaque résultat. L’utilisateur peut décider de valider chacun des résultats, auquel cas le classement est définitif, ou au contraire il peut en invalider.
En d’autres termes, l’évaluation des résultats qui ne sont pas « automatisés » permet de filtrer les propositions de classification selon deux critères cumulatifs : ne sont proposés à l’utilisateur que les résultats qui dépassent ou égalent le seuil de confiance de « quasi-automatisation » et qui, en même temps, dépassent ou égalent le seuil de justifiabilité, les deux seuils pouvant être prédéterminés par l’utilisateur.
Il est à noter que, même si le niveau de justifiabilité n’est pas déterminé, les données de justification peuvent être détectées et présentées à l’utilisateur. Cela correspond au seuil de justifiabilité configuré en mode « absent ».
V. L’interface utilisateur
L’interface utilisateur 6 schématise ce que l’utilisateur 2 visualise sur un écran d’ordinateur lorsqu’il met en œuvre l’invention. L’évolution de cette interface est illustrée à la
A) Le n iveau hiérarchique des résultats
Comme on l’a décrit plus haut, les résultats sont organisés sous la forme d’une arborescence, avec des résultats aux niveaux hiérarchiques différents. A partir de cette arborescence, l’utilisateur peut effectuer des requêtes aux paramètres variés.
Il peut d’abord décider des niveaux hiérarchiques dans lesquels il souhaite effectuer la classification, à l’étape 51. En effet, il n’est pas toujours nécessaire que le séjour soit assigné au code le plus précis possible. L’utilisateur peut donc configurer le modèle 3, au moyen de son interface, pour que les résultats soient plus génériques, ce qui améliore également la précision des résultats.
B ) L e paramétrage du seuil de confiance
Pour paramétrer le seuil de confiance, l’utilisateur 2 peut faire appel à des courbes de précision-sensibilité, telles qu’illustrées à la . Ces courbes sont réalisées en amont, lors d’un grand nombre de classification de tests, à raison d’une courbe par classe, c’est-à-dire par résultat ou code possible. Elles représentent en abscisse la sensibilité, c’est-à-dire le ratio entre le nombre de séjours prédits dans la classe et le nombre total de séjours qui devraient être prédits dans cette classe. En ordonnée, il s’agit de la précision, ce qui correspond au niveau de confiance 9 déjà décrit précédemment. Il s’agit en d’autres termes du nombre de séjours bien prédits sur l’ensemble du nombre de séjours prédits.
A partir de ces courbes, l’utilisateur peut décider à l’étape 52, pour chaque classe, du seuil de précision, c’est-à-dire du seuil de confiance, au-delà duquel il souhaite se voir rapporter les résultats. Cette courbe signifie que, plus ce seuil va être élevé, plus les résultats que l’utilisateur se verra proposer auront une probabilité d’être bons, mais plus le nombre de résultats proposés sera faible. L’utilisateur doit donc arbitrer entre précision et nombre de propositions qu’il souhaite vérifier.
C’est également via cette interface 6 que l’utilisateur peut régler le seuil d’automatisation à partir duquel les résultats sont automatiquement validés.
Dans une première variante, ces seuils correspondent directement au niveau hiérarchique des résultats proposés. En d’autres termes, les moyens automatisés 4 vérifient si la précision associée directement au résultat dépasse ou non le seuil de confiance.
Dans une deuxième variante illustrée à l’étape 53, le niveau de confiance déterminée n’est pas celle associée directement au résultat, mais à un nœud parent du résultat au sein de l’arborescence. C’est ainsi l’utilisateur 2 qui peut paramétrer la façon dont est déterminé le niveau de confiance. Par exemple, admettons que le seuil de confiance paramétré par l’utilisateur pour la quasi-automatisation soit de 80%. Admettons également que le résultat proposé à l’issue de la classification d’un séjour soit le code I481 (« fibrillation auriculaire persistante ») avec une précision de 75%. Dans la première variante, on comparait au seuil le niveau de confiance du résultat proposé, si bien qu’ici ce résultat ne serait pas soumis à l’utilisateur.
Mais dans la deuxième variante illustrée à l’étape 54, on compare au seuil le niveau de confiance correspondant au code I48 (« Fibrillation et flutter auriculaires ») qui correspond au nœud parent du nœud associé au résultat. La précision est certainement supérieure, par exemple de 85% car ce nœud correspond à un diagnostic plus générique. Dans cette deuxième variante, le résultat I481 sera donc proposé à l’examinateur car le niveau de confiance associé au parent de ce résultat dépasse le seuil de confiance.
L’utilisateur peut ainsi paramétrer à sa guise quel niveau hiérarchique de résultats il veut se voir proposer, mais aussi et indépendamment, à quel niveau hiérarchique est déterminée la confiance associée au résultat. Bien entendu, la confiance est nécessairement associée à un niveau égal ou plus générique que celui du résultat.
Dans une troisième variante illustrée à l’étape 55, l’utilisateur 2 peut décider que la précision mesurée correspond non pas à un seul nœud, mais à un groupe de nœud. Par exemple, si le seuil est de 80%, il peut vouloir déterminer l’ensemble des séjours qui sont assignés, avec au moins 80 % de précision, à l’un des codes d’un groupe formé des codes I44.4 (bloc fasciculaire antérieur gauche), I44.5 (bloc fasciculaire postérieur gauche), et I44.3 (bloc de branche gauche). Si un niveau de confiance déterminé est de 85%, il est affiché à l’utilisateur car cette confiance est supérieure au seuil de 80%, et cette précision signifie qu’il y a 85% de chance pour que ce séjour corresponde effectivement à l’un de ces trois codes. C’est ainsi une manière de déterminer quels séjours correspondent à seulement certains diagnostics qui intéressent l’utilisateur.
C) Le paramétrage du seuil de justifiabilité
Au moyen de la même interface, l’utilisateur 2 peut décider du seuil de justifiabilité à l’étape 56. Comme on l’a vu précédemment, le niveau de justifiabilité peut correspondre à un score numérique, auquel cas l’utilisateur peut paramétrer la valeur numérique du seuil. Il peut également s’agir d’un niveau d’une échelle, tel que « bon », « moyen », « faible » ou « absent ». Dans ce cas, l’utilisateur règle le seuil à partir duquel il veut se voir proposer les résultats associés. Dans le cas où il choisit le seuil « absent », cela revient à ne pas prendre en compte la justifiabilité, mais seulement le niveau de confiance des résultats.
La détermination du niveau de justifiabilité peut être adaptée de la même manière que celle du niveau de confiance. Ainsi, elle peut correspondre directement au résultat proposé comme illustré à l’étape 57. Elle peut aussi correspondre, dans une variante illustrée à l’étape 58, à un nœud parent du résultat proposé. Enfin, il peut s’agir d’un niveau de justifiabilité associé à un groupe de résultats possibles comme illustré à l’étape 59.
Ainsi, les deux seuils sont réglés par l’utilisateur, et associés au résultat, à un nœud hiérarchiquement supérieur ou à un groupe de nœuds, de manière indépendante du résultat et de manière indépendante l’un de l’autre.
C) Un réglage auto-adaptatif
Dans une variante de mise en œuvre non illustrée, il est également possible de prévoir un réglage auto-adaptatif d’un ou des deux seuils. Cela revient à prévoir non pas des seuils uniques, mais une évolution des seuils et des niveaux hiérarchiques qu’ils concernent en fonction du niveau de confiance associé au résultat. Prenons l’exemple d’un seuil de confiance auto-adaptatif, qui est en première approche réglé à 80% et pour un niveau hiérarchique particulier. Si le niveau de confiance associé à un résultat d’une classification, pour ce niveau hiérarchique, n’est pas obtenu, les moyens automatisés 4 vont alors vérifier si le seuil de confiance est atteint pour un nœud parent du résultat. Ils peuvent également modifier le seuil de confiance à atteindre pour ce nœud parent. Si le seuil est atteint, c’est le résultat correspondant au nœud parent qui peut être affiché avec la précision associée. Cet exemple n’est pas limitatif, le réglage auto-adaptatif pouvant procéder de différentes manières. Il vise à afficher des résultats pour chaque séjour prédit, mais des résultats les plus précis possibles. Si pour certains séjours, un résultat précis est impossible, alors ce type de réglage permet d’afficher à l’utilisateur une classe de sortie plus large que souhaitée, mais qui donne une indication du classement du séjour à l’utilisateur.
Grâce à cette variante, l’utilisateur n’a pas à redéfinir, si les résultats affichés ne lui conviennent pas, les seuils et les niveaux hiérarchiques qu’ils concernent, il peut se contenter d’une seule évaluation de tous les séjours et pour laquelle les seuils de confiance vont être adaptés aux résultats de chaque séjour.
D ) La validation des choix
Une fois que l’utilisateur a réglé les seuils et la manière dont les niveaux de confiance et de justifiabilité sont déterminés, il peut lancer l’évaluation, à l’étape 60, par les moyens automatisés 4, des résultats proposés par le modèle 3. Il obtient alors sur l’interface utilisateur 6 une liste de résultats 8, qu’il peut décider de valider ou d’invalider.
Il est à noter que sur une même page, l’ensemble des résultats, c’est-à-dire tous les classements proposés, peuvent être affichés à l’utilisateur, lequel peut faire défiler ces propositions si besoin est. En d’autres termes, la page de résultats affiche une liste des séjours fournis en entrée au modèle et tous les codes prédits par le modèle pour chaque séjour. Cela permet à l’utilisateur de parcourir en quelques instants l’ensemble des résultats pour l’ensemble des séjours, et de ne pas avoir à passer d’un séjour à un autre pour connaître les résultats des classifications de ces séjours. Alternativement, le logiciel 1 peut tout aussi bien proposer les résultats correspondant à un seul séjour par page.
Ces résultats sont ceux pour lesquels les niveaux de précision (confiance) 9, et optionnellement de justifiabilité 10, dépassent ou égalent les seuils paramétrés par l’utilisateur.
Pour chaque résultat de la liste, l’interface présente à l’examinateur une référence au séjour médical 7 fourni en entrée au modèle 3, le niveau de confiance 9 ou précision associée au résultat de ce séjour, que ce soit le niveau associé directement au résultat, ou le niveau associé indirectement au résultat en reflétant le niveau de précision associé à un nœud hiérarchiquement supérieur ou à un groupe de nœuds. Figure aussi, si l’utilisateur souhaite le connaître, le niveau de justifiabilité 10, là encore qu’il soit associé directement ou indirectement au résultat. Enfin, les données de justifications 5 détectées par les moyens 4 sont également affichées.
Ainsi, pour chaque résultat 8 de la liste, l’utilisateur 2 peut, dans une durée réduite, vérifier que ce résultat 8 semble être le bon en jetant un coup d’œil aux données de justifications 5 présentées. Il n’a donc pas besoin de se replonger dans le dossier médical associé au séjour 7, et peut en un clic sur le bouton 61, valider le résultat proposé.
Alternativement, les résultats 8 peuvent être déjà présentés sous forme « validée », de sorte que la seule action de l’utilisateur 2 peut être de les « invalider » s’il le juge opportun au regard des données de justifications fournies.
V I ) Mise en œuvre
A) Mise en œuvre principale
Afin de récapituler les moyens et étapes mis en œuvre, on va maintenant décrire un mode de mise en œuvre de l’invention par l’utilisateur 2, en référence au procédé illustré à la .
L’utilisateur 2 souhaite classer le mieux possible et le plus rapidement possible une liste de séjours médicaux, c’est-à-dire leur assigner un ou plusieurs codes PMSI à chacun. Ces codes sont regroupés en arborescence.
A l’étape 101, il fournit au modèle 3 la liste des séjours médicaux qu’il souhaite classer. A l’étape 102, il paramètre le niveau hiérarchique des résultats qu’il souhaite se voir proposer. A l’étape 103, il règle le seuil de confiance prédéterminé. A l’étape 104, il paramètre la détermination du niveau de confiance 9 qu’il souhaite voir comparer au seuil réglé à l’étape 103. Il peut ainsi s’agir d’un niveau de confiance du résultat lui-même, ou correspondant à un nœud parent du résultat, ou à un groupe de nœuds. A l’étape 105, il réalise les mêmes réglages pour le niveau de justifiabilité.
A l’étape 106, il lance la classification, effectuée par le modèle 3. A l’étape 107, il lance l’évaluation de cette classification, évaluation effectuée par les moyens 4.
A l’étape 108, les résultats sont affichés sur son interface. Seuls ceux qui ont respecté les seuils de confiance et de justifiabilité sont affichés, accompagnés de données de justification. L’utilisateur 2 peut alors valider ou invalider le classement de ces séjours, c’est-à-dire les codes assignés à ces séjours.
L’avantage principal du procédé décrit précédemment est que le nombre des séjours à traiter manuellement est grandement réduit grâce à l’évaluation des séjours « quasi-automatisables ». Corollairement, le nombre de ces séjours est lié aux seuils de confiance et de justifiabilité paramétrés par l’utilisateur : par exemple plus la précision demandée est faible, moins le nombre de séjours écartés de la phase de validation sera grand. Il peut donc à tout moment arbitrer entre le taux d’erreur maximum qu’il est prêt à accepter et le temps qu’il souhaite passer à étudier les séjours de manière approfondie.
L’étape 109 concerne les séjours 7 qui n’ont pas été classés parce qu’ils ne respectaient pas les seuils de confiance ou de justifiabilité, ainsi que ceux qui les respectaient mais dont l’utilisateur 2 a invalidé les résultats.
En effet, même pour ces séjours à classer manuellement, les moyens 4 fournissent une assistance précieuse. L’utilisateur peut ainsi être aidé par le résultat proposé par la classification, voire par les données de justifications déterminées. En effet, même si le résultat proposé est erroné, ces informations sont très pertinentes car elles peuvent inciter l’utilisateur par exemple à assigner au séjour un code voisin de celui proposé, sans qu’il n’ait besoin d’étudier de manière approfondie le dossier médical relatif au séjour.
Le procédé d’évaluation décrit permet donc un gain de temps considérable dans l’assignation des codes PMSI à des séjours médicaux.
B) Contrôle qualité
Dans un deuxième mode de mise en œuvre illustrée à la , les moyens décrits précédemment permettent de contrôler la qualité de classification d’un modèle de classification, par exemple le modèle 3. Pour cela, on utilise des bases de données de séjours médicaux de test, c’est-à-dire dont les codes PMSI sont déjà connus.
Dans une étape 201, le modèle 3 classe ces séjours médicaux dont les codes sont a priori connus. A l’étape 202, les moyens automatisés 4 évaluent les classifications de la manière précédemment décrite, et rendent compte en particulier de la précision de chaque résultat fourni.
Étant donné que les codes corrects sont connus, il est possible de comparer les résultats et leur précision d’un côté, avec les résultats attendus de l’autre. Cette comparaison est effectuée par les moyens automatisés 4 à l’étape 203, qui peuvent alors en déduire si les différences trouvées remettent en cause le modèle de classification, ou si ce modèle présente des taux d’erreur conformes aux niveaux de précisions déterminés par les moyens 4. Il peut alors être décidé à l’étape 204 de modifier le modèle 3 pour le rendre plus performant. Ces modifications peuvent être manuelles ou automatiques.
En outre, les moyens automatisés 4 permettent de vérifier pourquoi certains séjours ont été mal classés, en particulier en étudiant les données de justifications qui leur sont associées.
Il a été décrit ci-avant une invention comprenant en particulier un procédé 100 d’évaluation de résultats d’une classification automatique de données médicales 7, comprenant la mise en œuvre des étapes suivantes :
  • des moyens de calcul informatique 4 réalisent une classification automatique d’une ou plusieurs données médicales 7,
  • les moyens de calcul informatique 4 déterminent un niveau de confiance (9) associé à au moins un résultat 8 de la classification,
  • les moyens de calcul informatique 4 comparent le niveau de confiance 9 associé au résultat à un seuil de confiance prédéterminé, et
  • les moyens de calcul informatique 4 affichent à un utilisateur 2 le résultat si le niveau de confiance associé au résultat est supérieur ou égal au seuil de confiance prédéterminé.
Ce même procédé peut être considéré comme un procédé de classification automatique, spécifique en ce qu’il comprend une étape d’évaluation. Il peut donc par exemple être reformulé de la façon suivante : procédé de classification automatique de données médicales, comprenant la mise en œuvre des étapes suivantes :
- des moyens de calcul informatique réalisent une classification automatique d'une ou plusieurs données médicales,
- les moyens de calcul informatique déterminent un niveau de confiance associé à au moins un résultat de la classification,
- les moyens de calcul informatique comparent le niveau de confiance associé au résultat à un seuil de confiance prédéterminé, et
- les moyens de calcul informatique affichent à un utilisateur le résultat si le niveau de confiance associé au résultat est supérieur ou égal au seuil de confiance prédéterminé.
Enfin, ce procédé peut également être considéré comme un procédé de génération de données structurées à partir de données non structurées ou structurées, dans lequel des données médicales font l’objet de propositions de classification automatique, le procédé comprenant une phase d’évaluation, d’au moins un résultat d’une proposition, dans laquelle :
- des moyens automatisés déterminent un niveau de confiance associé au résultat,
- les moyens automatisés comparent le niveau de confiance associé au résultat à un seuil de confiance prédéterminé, et
- les moyens automatisés affichent à un utilisateur le résultat si le niveau de confiance associé au résultat est supérieur ou égal au seuil de confiance prédéterminé.
L'invention n'est pas limitée aux modes de réalisation présentés et d'autres modes de réalisation apparaîtront clairement à l'homme du métier.
Ainsi, outre des mots ou des phrases, les données médicales à classifier peuvent être de tout ordre, par exemple d’ordre quantitatif. Il peut ainsi s’agir de l’indice de masse corporelle d’un patient, de la consommation tabagique en nombre de paquées par an, du volume d’une hémorragie, du volume d’une rétention urinaire, de la fraction d’éjection ventriculaire gauche, etc.
Par ailleurs, l’invention n’est pas limitée à la prédiction des codes PMSI. Par exemple, au lieu des diagnostics principaux et associés relatifs aux séjours médicaux, on pourra prédire et donc évaluer la prédiction des actes CCAM, au moyen des mêmes données que celles fournies en entrée pour la prédiction des codes PMSI. On pourra donc là encore effectuer l’évaluation et/ou la justification de ces prédictions au moyen de l’invention.
Il est à noter que les données médicales correspondent à toute donnée liée directement ou indirectement au champ médical, et pas nécessairement aux données issues d’un séjour médical en établissement de santé. Ainsi, elles peuvent correspondre à des éléments médicaux en dehors du champ du codage PMSI. Par exemple, le procédé peut concerner la classification d’un statut d’un patient vis-à-vis d’une mutation génétique donnée, ou vis-à-vis d’un type d’allergie. Il s’agit toujours de données médicales, mais d’ordre plus large que celles du codage PMSI. La classification peut également concerner les antécédents médicaux d’un patient, ou encore ses antécédents chirurgicaux. Elle peut même concerner ses antécédents familiaux. Il ne s’agit donc pas ici de données nécessairement issues d’un séjour médical, il ne s’agit pas nécessairement de prédire un code PMSI ou un diagnostic, mais il s’agit toujours de la classification de données médicales.
On rappelle également que l’invention n’est pas liée à un modèle de classification ou à un type de modèle auto-apprenant particulier. Les données fournies à l’évaluation sont uniquement le résultat d’une classification et un score associé à ce résultat, et ces données ne dépendent pas du modèle de classification. L’invention peut donc être adaptée à tous types de modèles de classification.
De manière générale, l’invention n’est pas limitée aux classifications automatiques de données médicales. En effet, elle concerne l’évaluation des résultats proposés à l’issue de classification, elle ne dépend pas des types de données et peut donc s’étendre à tout type de domaines où on procède à des classifications automatiques.

Claims (28)

  1. Procédé (100) d’évaluation de résultats d’une classification automatique de données médicales (7), comprenant la mise en œuvre des étapes suivantes :
    • des moyens de calcul informatique (4) réalisent une classification automatique d’une ou plusieurs données médicales (7),
    • les moyens de calcul informatique (4) déterminent un niveau de confiance (9, 20) associé à au moins un résultat (8) de la classification,
    • les moyens de calcul informatique (4) comparent le niveau de confiance (9) associé au résultat à un seuil de confiance prédéterminé, et
    • les moyens de calcul informatique (4) affichent à un utilisateur (2) le résultat si le niveau de confiance associé au résultat est supérieur ou égal au seuil de confiance prédéterminé.
  2. Procédé (100) selon la revendication précédente, dans lequel les moyens de calcul informatique (4) affichent également à l’utilisateur au moins une donnée de justification (5) du résultat (8) détectée.
  3. Procédé (100) selon la revendication précédente, dans lequel la donnée de justification (5) appartient à la ou aux données médicales (7) qui ont fait l’objet de la classification ayant abouti au résultat, et est textuelle.
  4. Procédé (100, 40) selon l’une quelconque des revendications précédentes, dans lequel :
    • les moyens de calcul informatique (4) déterminent également un niveau de justifiabilité (10) associé au résultat (8),
    • les moyens de calcul informatique (4) comparent le niveau de justifiabilité (10) associé au résultat à un seuil de justifiabilité prédéterminé,
    • les moyens de calcul informatique (4) affichent à l’utilisateur le résultat si, en outre, le niveau de justifiabilité (10) est supérieur ou égal au seuil de justifiabilité prédéterminé.
  5. Procédé (100, 40) selon l’une quelconque des revendications précédentes, dans lequel, pour déterminer le niveau de justifiabilité (10) associé au résultat (8) :
    • au sein de la ou des données médicales (7), les moyens de calcul informatique (4) détectent au moins une ou l’une des données de justification (5) du résultat (8), et
    • en fonction de la ou de chaque donnée de justification (5) détectée, les moyens de calcul informatique (4) déterminent le niveau de justifiabilité (10) associé au résultat.
  6. Procédé (100, 30) selon la revendication 2 à 5, dans lequel, pour détecter une donnée de justification (5) du résultat (8), les moyens de calcul informatique (4) déterminent, au préalable, un ou des types de données de justification (5) à détecter.
  7. Procédé (100, 30) selon la revendication précédente, dans lequel, pour déterminer un ou des types de données de justification (5) à détecter, à partir d’une base de données médicales d’apprentissage :
    • grâce à des données médicales d’apprentissage de la base, les moyens de calcul informatique (4) effectuent une première classification et déterminent un premier niveau de confiance associé à un résultat de la première classification,
    • les moyens de calcul informatique (4) masquent au moins l’une des données médicales d’apprentissage utilisées pour effectuer la première classification,
    • les moyens de calcul informatique (4) effectuent une deuxième classification en utilisant des données dépourvues de la donnée médicale d’apprentissage masquée et déterminent un deuxième niveau de confiance de la deuxième classification,
    • si la différence entre le premier et le deuxième niveau de confiance est supérieure à un seuil prédéterminé, les moyens de calcul informatique (4) enregistrent un type de la donnée médicale d’apprentissage masquée en tant que type de donnée de justification à détecter.
  8. Procédé (100) selon l’une quelconque des revendications 2 à 5, dans lequel, pour détecter une donnée de justification du résultat (8), un ou des types de données de justification (5) à détecter sont fournies aux moyens de calcul informatique (4) par l’utilisateur.
  9. Procédé (100) selon l’une quelconque des revendications 2 à 5, dans lequel les moyens de calcul informatique (4) détectent la ou les données de justification (5) à partir de la ou des données médicales (7) qui ont fait l’objet de la classification automatique ayant abouti au résultat (8).
  10. Procédé (100) selon la revendication précédente, dans lequel, pour détecter la ou les données de justification (5) à partir de la ou des données médicales (7) qui ont fait l’objet de la classification automatique ayant abouti au résultat (8), la classification étant une première classification et le niveau de confiance associé au résultat étant un premier niveau de confiance : 
    • les moyens de calcul informatique (4) masquent la ou au moins l’une des données médicales utilisées pour effectuer la première classification,
    • les moyens de calcul informatique (4) effectuent une deuxième classification en utilisant les données dépourvues de la donnée médicale masquée et déterminent un deuxième niveau de confiance de la deuxième classification,
    • si la différence entre le premier et le deuxième niveau de confiance est supérieure à un seuil prédéterminé, les moyens de calcul informatique (4) enregistrent la donnée médicale masquée en tant que donnée de justification détectée.
  11. Procédé (100) selon l’une quelconque des revendications précédentes, dans lequel le résultat (8) appartient à une arborescence de nœuds correspondant à des résultats possibles.
  12. Procédé (100) selon la revendication précédente, dans lequel le niveau de confiance (9) est associé à un nœud de l’arborescence parent d’un nœud correspondant au résultat (8).
  13. Procédé (100) selon la revendication 11, dans lequel le niveau de confiance (9) est associé à un groupe de nœuds de l’arborescence comprenant un nœud correspondant au résultat (8).
  14. Procédé (100) selon l’une des revendications 4 à 11, dans lequel le niveau de justifiabilité (10) est associé à un nœud de l’arborescence parent d’un nœud correspondant au résultat (8).
  15. Procédé (100) selon l’une des revendications 4 à 11, dans lequel le niveau de justifiabilité (10) est associé à un groupe de nœuds de l’arborescence comprenant un nœud correspondant au résultat (8).
  16. Procédé (100) selon l’une quelconque des revendications 12 à 15, dans lequel, en fonction du niveau de confiance associé au résultat, les moyens de calcul informatique (4) modifient l’association du niveau de confiance et de préférence le seuil de confiance.
  17. Procédé (100) selon l’une quelconque des revendications 14 à 16, dans lequel, en fonction du niveau de justifiabilité associé au résultat, les moyens de calcul informatique (4) modifient l’association du niveau de justifiabilité et de préférence le seuil de justifiabilité.
  18. Procédé (100) selon l’une quelconque des revendications précédentes, dans lequel les moyens de calcul informatique (4) permettent à un utilisateur (2) de prédéterminer le seuil de confiance de la revendication 1 et de préférence le seuil de justifiabilité de la revendication 4.
  19. Procédé (100) selon l’une quelconque des revendications précédentes, les moyens de calcul informatique (4) autorisent l’utilisateur (2) à invalider le résultat (8).
  20. Procédé (100) selon l’une quelconque des revendications précédentes, dans lequel la ou au moins l’une des données médicales (7) est relative à au moins un séjour médical d’au moins un patient en établissement de santé.
  21. Procédé (100) selon la revendication précédente, dans lequel, plusieurs des données médicales (7) étant relatives à plusieurs séjours médicaux, les moyens de calcul informatique (4) affichent à l’utilisateur les résultats (8) des classifications de tous les séjours (7).
  22. Procédé (100) selon l’une quelconque des revendications précédentes, dans lequel le résultat (8) de la classification correspond à un ou plusieurs codes relatifs à des diagnostics médicaux, des actes ou procédures, des groupes homogènes de malades ou des groupes homogènes de séjours.
  23. Procédé (100) selon l’une quelconque des revendications précédentes, dans lequel le niveau de confiance (9) associé au résultat est une valeur numérique associée à une probabilité que le résultat soit correct
  24. Procédé (100) selon la revendication précédente, dans lequel, pour déterminer la valeur numérique associée à une probabilité que le résultat soit correct, au moyen d’une base de données médicales d’apprentissage :
    • les moyens de calcul informatique (4) effectuent des classifications de données d’apprentissage ;
    • pour chaque classification, les moyens de calcul informatique déterminent des valeurs numériques primaires associées respectivement à des résultats de la classification ;
    • pour chaque classification, les moyens de calcul informatique sélectionnent le résultat de la classification pour lequel la valeur numérique est la plus élevée ;
    • pour chaque classification, les moyens de calcul informatique comparent le résultat sélectionné avec un résultat attendu correct ; et
    • en fonction de résultats des comparaisons, les moyens de calcul informatique (4) déterminent la valeur numérique associée à une probabilité que le résultat sélectionné soit correct.
  25. Système de traitement de données (1, 3, 4, 7) comprenant des moyens de mettre en œuvre les étapes du procédé (100) selon l’une quelconque des revendications précédentes. 
  26. Programme d’ordinateur, comprenant des instructions qui, lorsque le programme est exécuté par un ordinateur, conduisent celui-ci à mettre en œuvre les étapes du procédé (100) selon l’une quelconque des revendications 1 à 24.
  27. Procédé de mise à disposition du programme de la revendication précédente en vue de son téléchargement sur un réseau de télécommunications.
  28. Support de données lisible par ordinateur, sur lequel est enregistré le programme d'ordinateur selon la revendication 26. 
PCT/EP2021/051518 2020-01-24 2021-01-22 Procédé d'évaluation de résultats d'une classification automatique WO2021148645A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US17/794,879 US20230070796A1 (en) 2020-01-24 2021-01-22 Method for evaluating results of an automatic classification
EP21701962.9A EP3881329A1 (fr) 2020-01-24 2021-01-22 Procédé d'évaluation de résultats d'une classification automatique

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR2000730 2020-01-24
FR2000730A FR3106693A1 (fr) 2020-01-24 2020-01-24 Procédé de génération de données structurées d’ordre médical

Publications (1)

Publication Number Publication Date
WO2021148645A1 true WO2021148645A1 (fr) 2021-07-29

Family

ID=70154699

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2021/051518 WO2021148645A1 (fr) 2020-01-24 2021-01-22 Procédé d'évaluation de résultats d'une classification automatique

Country Status (4)

Country Link
US (1) US20230070796A1 (fr)
EP (1) EP3881329A1 (fr)
FR (1) FR3106693A1 (fr)
WO (1) WO2021148645A1 (fr)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114047192A (zh) * 2021-11-10 2022-02-15 马鞍山钢铁股份有限公司 一种夹杂物m法自动定级方法、系统、存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150088548A1 (en) * 2013-09-26 2015-03-26 Intelligent Medical Objects, Inc. System and Method for Determining a Sufficiency of Data Entry in an Electronic Health Record
US10275576B2 (en) * 2014-06-27 2019-04-30 Passport Health Communications, Inc Automatic medical coding system and method
US11875230B1 (en) * 2018-06-14 2024-01-16 Amazon Technologies, Inc. Artificial intelligence system with intuitive interactive interfaces for guided labeling of training data for machine learning models
US11197642B2 (en) * 2018-12-31 2021-12-14 Cerner Innovation, Inc. Systems and methods of advanced warning for clinical deterioration in patients
US20210056434A1 (en) * 2019-08-19 2021-02-25 Sap Se Model tree classifier system

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GUO ET AL., ON CALIBRATION OF MODEM NEURAL NETWORKS, 2017
MD. ZAHANGIR ALAM ET AL: "A Random Forest based predictor for medical data classification using feature ranking", INFORMATICS IN MEDICINE UNLOCKED, vol. 15, 1 January 2019 (2019-01-01), pages 100180, XP055726186, ISSN: 2352-9148, DOI: 10.1016/j.imu.2019.100180 *

Also Published As

Publication number Publication date
FR3106693A1 (fr) 2021-07-30
EP3881329A1 (fr) 2021-09-22
US20230070796A1 (en) 2023-03-09

Similar Documents

Publication Publication Date Title
Banerjee et al. Prediction of age-related macular degeneration disease using a sequential deep learning approach on longitudinal SD-OCT imaging biomarkers
Plumb et al. Regularizing black-box models for improved interpretability
CA2733385A1 (fr) Procede de prediction pour le depistage, le pronostic, le diagnostic ou la reponse therapeutique du cancer de la prostate et dispositif permettant la mise en oeuvre du procede
CN114864099B (zh) 一种基于因果关系挖掘的临床数据自动化生成方法及系统
WO2021148645A1 (fr) Procédé d'évaluation de résultats d'une classification automatique
CN113470816A (zh) 一种基于机器学习的糖尿病肾病预测方法、系统和预测装置
Ismail et al. Bayesian deep learning methods applied to diabetic retinopathy disease: a review
Zhou et al. Two‐part hidden Markov models for semicontinuous longitudinal data with nonignorable missing covariates
Romero-Aroca et al. Validation of a deep learning algorithm for diabetic retinopathy
EP3821445A1 (fr) Systeme et procede de generation d'une liste de probabilites associee a une liste de maladies, produit programme d'ordinateur
KR20050043869A (ko) 적응 퍼지-뉴럴 네트워크를 이용한 유방암 자동 진단기의개발
EP1649405A2 (fr) METHODE ET SYSTEME DE SELECTION DE CIBLES THERAPEUTIQUES PAR L'UTILISATION DE RESEAUX DYNAMIQUES D INTERACTIONS MOLECULA IRES
Prasanth et al. Prognostication of diabetes diagnosis based on different machine learning classification algorithms
US20210192415A1 (en) Brand proximity score
CN113283270B (zh) 图像处理方法和装置、筛查系统、计算机可读存储介质
Din et al. Software Requirements Prioritization Tool using a Hybrid Technique
Meriwani Enhancing Deep Neural Network Perforamnce on Small Datasets by the using Deep Autoencoder
Ab Kader et al. A Study of Diabetic Retinopathy Classification Using Support Vector Machine
JP7471094B2 (ja) 学習支援装置及び方法
CN116504421A (zh) 他克莫司血药浓度预测方法及装置
EP3855452A1 (fr) Classification de tumeurs
Cowie et al. Diagnosis of Dementia and its pathologies using Bayesian Belief Networks
EP3839970A1 (fr) Estimation du risque d'un sujet d'atteindre un résultat médical particulier
EP4105934A1 (fr) Procédé de classification de patients à partir d'ensembles de sous-signatures propres à une pathologie
Chang et al. Classification and prediction of the effects of nutritional intake on diabetes mellitus using artificial neural network sensitivity analysis: 7th Korea National Health and Nutrition Examination Survey

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2021701962

Country of ref document: EP

Effective date: 20210602

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21701962

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE