WO2009024674A1 - Controle de conformite de donnees - Google Patents

Controle de conformite de donnees Download PDF

Info

Publication number
WO2009024674A1
WO2009024674A1 PCT/FR2008/000952 FR2008000952W WO2009024674A1 WO 2009024674 A1 WO2009024674 A1 WO 2009024674A1 FR 2008000952 W FR2008000952 W FR 2008000952W WO 2009024674 A1 WO2009024674 A1 WO 2009024674A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
information
processing
conformity
compliance
Prior art date
Application number
PCT/FR2008/000952
Other languages
English (en)
Inventor
Alain Souloumiac
Original Assignee
Experts Enlargement Quality (Exeq)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Experts Enlargement Quality (Exeq) filed Critical Experts Enlargement Quality (Exeq)
Priority to EP08827731A priority Critical patent/EP2176788A1/fr
Publication of WO2009024674A1 publication Critical patent/WO2009024674A1/fr

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P19/00Drugs for skeletal disorders
    • A61P19/02Drugs for skeletal disorders for joint disorders, e.g. arthritis, arthrosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation

Definitions

  • the present invention relates to the control of the conformity of data and their improvement if necessary.
  • this invention relates to a system, method, and software for monitoring data compliance.
  • U.S. Patent No. 4,964,060 filed December 4, 1985 and issued October 16, 1990 to Mr. Charles H. Hartsog relates to a data compliance control system. It describes a memory containing standards against which a development plan is verified by a system that outputs an evaluation.
  • the Emil ltd patent can be used to control the origin of a source text even though the described control concerns its authenticity rather than typical errors.
  • the Emil patent is intended to be used to control a translation.
  • the Emil patent uses multiple windows to perform a control.
  • the present invention differs in at least four points. It gives an essential place to the type of compliance. It uses labels to establish a correspondence between processing data and reference data, each of these labels being associated with its type of compliance. It offers the auditors concerned the possibility of manually "correcting" scores less than 100% without modifying them manually and automatically, without changing the content of the data. The use of the same system for a series of human interventions undertaking different activities is not included.
  • Intellimetric based on notes already given to exam papers by human beings, teaches note in the same way afterwards so many other copies that will be given to him.
  • IntelliMetric's mission is to judge the quality of data in process, but not at all to check compliance. We are far enough from the present invention. It is not a question of comparing reference data with data in processing within the meaning of the present invention: firstly, copies already noted are processed in order to deduce how the scores are attributed to them; and in a second time, notes are assigned in the same way to other copies.
  • Diff XML and Merge Tool is a typical computer tool for comparing two texts, as can be done with Word. It presents the result in two windows side by side as do other commercially available software (eg UltraCompare). It allows a comparison in two main lines: an algorithm called “Syntax Aware” that says it works very well on files of known types; and three algorithms that rely on file structure at the line, word, or character level.
  • the present invention is like TRADOS 7 the score simply means to indicate a nonconformity but does not mean to report the exact measurement.
  • the computer may be very thorough when it comes to verifying that two data are exactly the same, but it often remains little able to say whether a given data is consistent with another data while being different (a translation, for example). .
  • the present invention seeks to facilitate efficient sharing between men, involved in a complex process with varied skills, and the machine in control in any field, and not only where the idea of control by The computer is already acquired, but also where it is scarcely envisioned, and this is precisely because of the introduction of human competence from the beginning into the process, and allowing several people to bring different skills to it.
  • the invention describes a system for verifying that the data being processed conforms to the reference data. This process is referred to hereinafter as "control”. Once the data has been checked using this means, the same system can be used (normally by the audit of one or more competent third parties) to check the conformity of the results.
  • the invention is focused on data conformance checking, particularly when said data in process is not strictly identical to the reference data. It follows from the idea that the implementation of a compliance check normally rests on the sequence of several separate operations. For each of these operations, the data is called “reference” when it is taken as a standard and the data is called “in processing” when it is necessary to ensure the conformity of this one with one or more data of reference. In the context of the present invention, the “datum” considered is a piece that can be exploited by a computer.
  • a usual form of data in the sense of the present invention is the alphanumeric text. For example: the specifications of an industrial process, or the analysis report of a product.
  • Another example is the transposition of legal texts, such as directives to be transposed into the legislation in force, or the implementation of a regulation in an organization. Still another example: the patent claims and those of the prior art, or the specifications of an invention and those of industry standards. Yet another example: the specifications of a call for tenders and those of the bid in response. Another example: one or more source texts, one or more translations.
  • the important point in this context is that the data in process is probably not all identical to the reference data, although their compliance is required.
  • the aim of the invention is to enable an operator to control with a high degree of certainty whether the data in processing is or is not in conformity with the reference data. Its essential purpose is not so much to define the action that must be taken in the presence of an anomaly. It is especially to identify where the intervention is necessary.
  • the invention proposes a tool that allows managers to quickly control by providing a framework that facilitates the comparison of data that is not necessarily identical.
  • the invention relates to a data control system in processing according to reference data, characterized in that it comprises:
  • An interactive display means showing a plurality of data segments distributed in specialized windows that allow the operator and the system to communicate; And processing means for comparing the processing data with the reference data according to an appropriate type of comparison for the data in question; in that the database contains correspondence information to indicate the reference data to which the processing data whose conformity is sought must correspond, this correspondence information being provided before any comparison and also giving information rules.
  • the interactive display means allows the operators to select the data in process for comparison with the reference data according to the indications provided by the correspondence information; and in that the processing means performs the comparison according to the rules of the information in order to provide the operator with a score representative of the calculated level of compliance and, in case of nonconformity (s), elements indicating where are located that (s), as well as the appropriate steps to follow to resolve or decrease the nonconformity in order to improve the score.
  • the processing means perform the comparison according to the information rules in order to provide the operator with a score representative of the calculated level of compliance. And in case of non-compliance, the The system also indicates where these are located, as well as the appropriate steps to follow to resolve or decrease the nonconformity to improve the score.
  • the system may, however, systematically ask the operator to confirm the conformity (with a system ensuring the traceability of this confirmation) before processing continues to process the next data.
  • the score calculated according to a predetermined formula falls below 100%, the operator may be offered various alternatives in order to bring the score to 100% and continue the data check.
  • An operation to achieve this result may consist of a simple error correction, which will automatically raise the score to 100%.
  • the operator can however consider the compliant data as it is. In which case, it will be advantageous for the system to request the operator to also provide traceability information; for example by entering explanations or justifications in a comment window provided for this purpose. In other words, human confirmation itself is a part of the calculation of the definitive score.
  • Correspondence information and its information rules must be added explicitly by the operators, preferably with the help of the system.
  • An example is the correspondence information.
  • Several texts can be subdivided according to labels that are common from one set of data to another; that these datasets are industrial processes, directives, patents, contracts, tenders ...
  • This labeling is to cut, before any treatment, the reference data in several data according to their content and the type of treatment they will have to undergo.
  • a text of reference may, for example, be divided into sixty labeled data, each label having a more or less standard structure common to the series of texts referred to.
  • a production specification may include a title label, a historic label, a production conditions label, an ingredients label, an equipment label, a process label, an exit label, etc.
  • the name used to reference the label is advantageously descriptive of the content of the data that it designates.
  • the data of the treatment report will be combined with the labels of the specifications according to information rules specifying the type of conformity sought.
  • the conformity sought and of the adapted type it is expected to find the part of the title that names the part and a serial number specific to the part allowing in particular to identify its manufacturing data).
  • no conformity is sought.
  • the sought-after conformity is of the Verbatim type.
  • an expert can advantageously assign matching labels to each of the data that corresponds to the definitions attached to said labels.
  • These labels do not necessarily appear in the body of the text and are not necessarily in the same order over all the texts put in correspondence.
  • This system of accredited labels makes it possible to reconcile several heterogeneous sets of data (whether they are stabilized in the form of reference data or in processing) in order to allow correspondences between each data segment linked by the same label thanks to their linear alignment.
  • the system can facilitate this essentially manual operation by having a list of approved labels, with words or key phrases associated with each of them. The system can then search in this list for key words or phrases that correspond to a selected piece of data and the corresponding labels.
  • the expert may propose a new one subject to complying with the prescribed procedure.
  • the invention relies on a database where the necessary information is provided to a processing means to enable it to perform a comparison between data segments that are not necessarily identical.
  • the information rules make it possible to apply specific strategies to each data segment.
  • some segments need to be reproduced Verbatim while others need to be adapted to the context (cultural for example), and others finally need to be ignored if this are replaced because they are in a totally different perspective.
  • Several information rules are useful in examples other than translation. For example, a "cultural" adaptation is necessary, while remaining in the French language, when it comes to specifying the competent body, in Belgium, France or Luxembourg. This explains why the information rules are related to the correspondence information.
  • the correspondence information attached to the label is organized in such a way that it indicates for each category of data which information rules should apply.
  • the database preferably contains an information dictionary.
  • This dictionary can take various forms. It can for example relate to one, two or more languages.
  • the dictionary contributes to the conformity check by identifying the terms to be compared. It can include word definitions, syntax and usage information, and a thesaurus of synonyms, possibly with a measure of their proximity using quantitative indices. With two or more languages, the dictionary can include word definitions, and syntax and usage information that can be applied to words in each language, while synonyms can advantageously include translations into other languages.
  • the dates of appearance of the segments can serve as a basis for their selection hierarchy, based on their first appearance or the most recent character.
  • the segments will advantageously rank in the information dictionary or dictionaries in descending order varying according to the number of words.
  • the system is all the more useful and more efficient than the information database because most of the stored information is reusable by nature.
  • the system itself provides a framework that facilitates the acquisition of new information, while it also ensures that the newly acquired information is itself compliant with the system as configured.
  • these reference documents will be split into several pieces of information with, for example: a dictionary formed of higher texts (whose content is normally imperative), a dictionary formed of neighboring texts (whose vocabulary would be necessary for reasons coherence), a dictionary formed of the terms of the specialty (whose vocabulary would derive its strength from scientific and technical reasons).
  • a dictionary formed of higher texts whose content is normally imperative
  • a dictionary formed of neighboring texts whose vocabulary would be necessary for reasons coherence
  • a dictionary formed of the terms of the specialty whose vocabulary would derive its strength from scientific and technical reasons.
  • the interactive screen is divided into two columns I and II.
  • Column I is arranged to accommodate the source language, or by acting on the cursor 1 arrows, the corresponding foreign language texts being processed in other countries.
  • Column II contains the texts in the national language which are being processed, or by acting on the cursor arrows h and 1, neighboring national texts being processed or already processed.
  • the screen is divided into five times five windows which are distributed as follows:
  • the interactive display means modifies the rules governing the content of each window by following a vertical hierarchy from the highest texts to the controls. applications closest to the field (implemented by the organization, implemented by the final operators). Means associated with each window according to known methods make it possible to make the necessary displacements in the texts or to enlarge it as necessary.
  • the following example describes the control of conformity of a text in processing with respect to a reference text originally written in a foreign language (called source language).
  • the reference text in source language is cut by an operator (a human being) in several segments corresponding to predetermined notions for the type of text in question.
  • the operator recognizes the concepts to which the text segments correspond, and assigns them "labels" drawn from a finite and pre-established list.
  • the operator can benefit from assistance from the machine that can recognize certain keywords in the segment selected by the operator and proposed in view of these keywords the most likely segments .
  • Each segment is successively pasted in the window 5 and its source language label is pasted in the Y window. After having been the subject of a conformity check, to ensure its authenticity with an official text, the reference text will be frozen in the window
  • the compliance audit is carried out by comparing each segment of the internal text with that of an external electronic text deemed authentic.
  • the authenticity index of the internal text recorded in the database is calculated by means of a processing means comparing each segment of the text in processing with the deemed authentic electronic text taken for reference.
  • the index ⁇ is the result of the ratio of the number of words of the text deemed authentic present in the text deemed authentic present on the number of words of the text deemed authentic. This index is expressed in%.
  • this ratio ⁇ displayed in the window m, is equal to 100, the Auditor validates and proceeds to the next segment that is the subject of the processing.
  • an appropriate alternate text eg a paper publication
  • the auditor makes a correction in the skylight n in order to bring the index of the skylight o to 100.
  • the system imposes on the listener who corrected the calculated index to justify his position in row D.
  • the auditor responsible for authenticating the source texts then affixes his seal in the database by ticking a box provided for this purpose. Checking this box will freeze the internal text saved in the database. This means that the source text can not be changed unless a special procedure is performed by an authorized agent (password for example).
  • the overall authenticity index of the text is equal to the average of the ratios of each segment. It is posted after each exam and ultimately in the skylight
  • the text is declared as a whole and a report, which bears the seal of the Auditor, is edited by the database.
  • This report contains on a column the reference text, on a second column the text object of the processing, on a third column the comments of the auditor, the index assigned to each segment and the validation decision.
  • the auditor may consider that the audited segment is valid while the calculated indicator has not resulted in exactly the 100% figure. For example, if the source text has obvious misspellings, the text being processed corrected with good reason.
  • the text to be translated will be pasted and frozen in screen 10 with its national language label in the Z window. That is to say that the labels are not only pre-established, their translations are also pre-established.
  • the translation is entered in the window 7 of the screen. All word segments present in the dictionary and consistent with the corresponding word segments of the source language reference text are highlighted.
  • the dictionary contains all the segments of words and their correspondences in the languages drawn from the main international and regional texts considered necessary to ensure the linguistic coherence of the derived texts.
  • the translator can search, in particular, in the neighboring texts of other reference data, in order to achieve sources of coherence.
  • This dictionary of coherence made from neighboring texts can be distinguished from the dictionary of higher texts.
  • a third dictionary of coherence of the technical texts of the sector can also be constituted.
  • the translator can validate or not the unreferenced segments, which are the product of its own translation, by associating them with the corresponding segments of the reference text in the source language using the button i. It is up to him to comment on his choices in the comment window in preparation for a future audit that will confirm his choices or not.
  • the dictionary of coherence does not aim at ensuring the translation of the texts, but only their coherence. All expressions of a segment are therefore not intended to appear in the dictionaries.
  • the segment (s) of text (s) validated (s) will be included in the dictionary (s). All identical segments of the object text of the processing and future texts entered in the system will be reported in subsequent translations.
  • the translated text is subjected to a verification audit to confirm its linguistic coherence, after which it will be transferred and frozen in the screen 10. Special entries with passwords are arranged to define powers based on the different stakeholders.
  • the linguistic control audit covers each labeled segment and the entire translated text. It amounts to verifying by means of a means of comparison that the translated text is coherent in itself and with respect to idiomatic references drawn from previous national or international texts.
  • the linguistic coherence audit can be done on the basis of the dictionary with or without reference to texts published in other languages. We simply search if the audited segment is present or not in the dictionary. According to a preferred means, for each segment of text examined, the database puts into value on the interactive display means the segments present in the dictionary or dictionaries. In case several languages are present, these segments are mapped to each other by the dictionary.
  • the coherence index is calculated from the ratio formed by the recognized words present in the dictionary (s) on the total of the words present in the translated segment.
  • the latter corrects by a complement carried in the window n the ratio calculated in m by the database to bring it to 100
  • the overall compliance index ⁇ of the text calculated in o is equal to the average of the ratios of each segment. This is displayed after each examination and finally in the dormer q. If the linguistic consistency index ⁇ is equal to 100, the Auditor validates the text by printing an authenticity report. The certification carried out by the audit constitutes definitive ratification of the choices made. The validated text and the resulting dictionary are expected to become the source of subsequent target texts.
  • the competent operator copies the contents of the window 10 in 7. Then the operator makes the necessary adaptations according to the attributes attached to the label defining the type of compliance for the segment being processed.
  • Each label specifies a type of compliance required for its text segment.
  • These types of compliance have at least two extreme possibilities: no compliance and exact compliance. These extreme types are called “ignore” and “Verbatim” (because for a translation, exact conformance does not mean the same). Between these extremes, there is advantageously one or more varieties of a type called "adaptation", where the necessary adaptations may be, for example, to change the names of text or reference, to change the units of measurement, or to change the designations of the competent authorities, ....
  • the operator ignores the contents of the window, leaves it blank or replaces it with a completely different text; if it is of the Verbatim type, the operator leaves it unchanged except for imperative modifications; if it is of the adapt type, the operator defines the necessary adaptation measures and justifies his decisions in the window 9.
  • the operator reviews his work and can confirm their value with a declaration of conformity using the z key.
  • the compliance check audit of the reconciliation can begin.
  • the Auditor verifies that the segment under treatment of the window 7 suitably follows the information rules attached to each label (Verbatim, adapt, ignore) in order to check its compliance with each labeled segment of the window 10.
  • the calculation of the concordance index ⁇ 2 of the windows 7 and 10 is performed using the comparison processing means. For each segment examined, this comparison means lists the words present in the window 7 and compares them with the list of words present in the window 10.
  • the compliance index is formed of the ratio ⁇ 2 identical words in the reference segment. and identical words of the segment of the text being processed.
  • a detailed report can display the words added in the window 7 and the words not present in the window 10. This report can include for each word an index referencing its position in the reference text or in treatment. This report can be saved in window 8 by decision of the auditor.
  • this ratio, displayed in the window m, is equal to 100, the Auditor validates and moves on to the next segment. If the automatic ratio displayed in m is different from 100, the database displays in the window 9 the list of subtracted and added words with respect to the piece of reference data. In this window, other information is provided by the operator to the auditor to justify the situation.
  • the Verbatim rule allows the latter to correct by a complement carried in the window n the ratio calculated by the database to bring it to 100 in the window o. He then affixes his seal by ticking the box provided for this purpose, after having justified his position in the window 9.
  • the auditor If the examination does not satisfy the Auditor, he leaves the ratio as is or modifies it only partially. It also justifies its position in window 9. In the case of an action label of the "adapt" type, the auditor has an extended discretion that is not subject to the Verbatim rule. He consults the automatic ratio m and enters the percentage of conformity translating his appreciation in the register p.
  • a report which bears the seal of the Auditor, is edited by the database.
  • This report contains on a column the reference text, on a second column the text (s) object of the treatment, on a third column the note and the comments of the Operator and the Auditor and the index ⁇ 2 assigned to each segment.
  • the last column contains the seal certifying different auditors.
  • control audit of the report starts with the data relating to compliance with the expected results and the means implemented (check-window 8).
  • the Ride comparator displays (act - window 9) for each data the calculated index (ratios 6/8 and 7/8). With each means implemented according to the plan (for example: number of agents, equipment, supply budget and subcontracting) and for the achievement of each expected result (for example: number of visits, number of non-compliances) it reports the figure 100 ..
  • the Auditor validates and passes normally to the next label. However, it can on its own initiative, make comments or suggest areas for improvement in this window 9. It can also use benchmarks made with competing data. Access via a drop-down window r advantageously makes it possible to select the display of competing best practices on the left-hand side of the screen.
  • the overall compliance index of the text is equal to the average of the ratios of each party. This is displayed after each examination and finally in the skylight q-
  • a report which bears the seal of the Auditor, is edited by the database.
  • This report contains on a column the reference text (10), on a second column the instructions of objectives (6), on a third column the instructions of means (7), on a fourth column the provisions of the report of realization ( 8) and on a last column the index ⁇ and the comments (9) accompanied by the seal of the listener. 5.
  • the audit of control of the adequacy of the means of implementation of the texts in treatment can start the control and the measurement of the effects of the texts at the final recipients in order to analyze if the objectives fixed are well and truly achieved.
  • the audit covers segments that are marked by a corresponding label.
  • the window 10 displays the expected standard result checkpoints (6) and the means (7) defined by the control charter issued for the activity concerned, with quantified measurement indicators ( list, number and results of the checks to be carried out ).
  • the report of the inspection describing the results _ found during the survey visit.
  • the overall conformity index of the text is equal to the average of the ratios of each part, which is displayed after each examination and finally in the skylight q-
  • a report which bears the signature of the Auditor, is edited by the database.
  • This report contains on one column the reference text, on a second column the control points, on a third column the results of the inspection reports, and on a last column the index ⁇ and the comments of the Auditor accompanied by his seal.
  • the consensual clause of the procedure is entered in the window E.
  • the traceability elements are reported in B.
  • the ⁇ indicator is deduced by methods equivalent to those described above.
  • the number 100 indicates that the consensual clauses were all respected for the discussion of the reports concerned.
  • the reference texts may be reconciled with each other from one geographical area to another by example, using the database in a summary project.
  • the summary project is retranscribed in window E.
  • the national reference texts are recorded in windows A and B.
  • the ⁇ indicator is deduced by methods equivalent to those described above.
  • the number 100 for example, would indicate that the reference texts of the analyzed areas are completely convergent with the synthesis project.
  • the windows D comment on the differences.
  • ⁇ indicators can also be used to make comparisons between the reference texts of the various zones two by two. 8. Indicators of this type can be agglomerated into a composite indicator. Indicators of overall excellence ⁇ can be formed from the average of each individual indicator; according to a preferential representation, the number 9 indicates a value indicator 100 for the rank index concerned.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • General Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Medicinal Chemistry (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Physical Education & Sports Medicine (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Rheumatology (AREA)
  • Orthopedic Medicine & Surgery (AREA)
  • Immunology (AREA)
  • Medicinal Preparation (AREA)
  • Machine Translation (AREA)
  • Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

L'invention concerne le contrôle de conformité de données au moyen d'un affichage interactif qui permet aux opérateurs de sélectionner les données en traitement pour les comparer aux données de référence selon les indications fournies par l'information de correspondance, et grâce à des moyens de traitement qui effectuent la comparaison selon les règles de l'information afin de fournir à l'opérateur un score représentatif du niveau de conformité calculé, et en cas de non conformité, des éléments indiquent également où se situent celles-ci, ainsi que les étapes appropriées à suivre pour résoudre ou diminuer la non- conformité afin d'améliorer le score. L'invention couvre aussi les procédés correspondants, le programme d' ordinateur mettant en œuvre ce procédé et un médium de données portant les codes de programme, et d'utilisation.

Description

Titre de l ' invention
Contrôle de conformité de données
Domaine de l ' invention
La présente invention concerne le contrôle de la conformité de données et leur amélioration si nécessaire.
Cette invention concerne plus précisément un système, un procédé, et un logiciel permettant de contrôler la conformité de données.
État de la technique
Le brevet US N° 4 964 060 déposé le 4 décembre 1985 et délivré le 16 octobre 1990 à M. Charles H. Hartsog concerne un système de contrôle de conformité de données. Il décrit une mémoire contenant des normes vis à vis desquelles un plan de développement est vérifié par un système qui produit en sortie une évaluation.
Le brevet US N° 5 408 409 déposé le 20 décembre 1993 et délivré le 18 avril 1995 à MM. Glassman, Hanson, Kazanzides, Mittelstadt, Musits, Paul et Taylor, appartenant à la société IBM, concerne un système de contrôle de conformité des données pour commander un instrument chirurgical. La demande de brevet internationale WO2007/068960 au nom de Emil Ltd et publiée le 21 juin 2007 décrit un système et un procédé pour le traitement de texte, notamment suite à une traduction, ou suite à toute génération de texte par machine . Malgré son titre "Système et procédé pour le traitement de texte", cette demande de brevet internationale s'adresse principalement à la traduction. A la page 2, le déposant présente TRADOS comme système connu de mémoire de traduction, avec des correspondances exactes et floues.
Le déposant explique (page 3) en quoi TRADOS laisse à désirer, notamment concernant le découpage du texte en morceaux qui sont trop grands et pour son manque d'interactivité. Bien que son système soit conçu pour travailler avec la traduction par ordinateur, il précise
(page 11) que le système est aussi bien utile pour la traduction humaine.
Aux pages 15 et 16 il décrit l'emploi de deux fenêtres (voir les figures 2 et 10, ce qui est d'ailleurs déjà connu depuis longtemps, par exemple avec TRADOS) . A la page 26, il décrit l'emploi d'une approche sémantique pour tirer un meilleur profit des correspondances floues que ne savent pas faire TRADOS et des systèmes comparables .
En dehors de la traduction proprement dite, son système permet de contrôler un texte pour des erreurs typiques de certaines sources comme la reconnaissance vocale ou optique (voir la figure 3) .
On trouve en fait trois points semblables avec la présente invention. Le brevet Emil ltd peut être utilisé pour contrôler l'origine d'un texte source, même si le contrôle décrit concerne son authenticité plutôt que des erreurs typiques. Le brevet Emil ltd est destiné à être utilisé pour contrôler une traduction. Le brevet Emil ltd recours à plusieurs fenêtres pour effectuer un contrôle.
On verra que la présente invention- s'en distingue sur au moins quatre points. Elle accorde une place essentielle au type de conformité. Elle utilise des labels pour établir une correspondance entre données en traitement et données de référence, chacun de ces labels étant associé à son type de conformité. Elle offre aux auditeurs concernés la possibilité de « corriger » manuellement des scores inférieurs à 100% sans pour autant les modifier manuellement et d'office, sans pour autant changer le contenu de la donnée . L ' emploi d ' un même système pour une série d'interventions humaines entreprenant des activités différentes n'y figure pas.
Intellimetric, sur la base de notes déjà données à des copies d'examen par des êtres humains, apprend à noter de la même manière par la suite autant d'autres copies qu'on lui donnera. IntelliMetric a pour mission de juger la qualité d'une donnée en traitement, mais pas du tout pour contrôler sa conformité . On est assez loin de la présente invention. Il ne s ' agit pas de comparer des données de référence avec des données en traitement au sens de la présente invention: dans un premier temps on traite des copies déjà notées pour en déduire comment les notes leurs sont attribuées ; et dans un deuxième temps on attribue des notes de la même manière à d'autres copies.
Il n'y a pas d'interactivité entre le système et un ou plusieurs personnes. D'ailleurs dans une évaluation du système Intellimetric conduite par le journal JTLA (www.jtla.org) les copies notées étaient envoyées chez Vantage (le fabricant de IntelliMetric) sur un CD-ROM et les copies à noter sur un autre, et uniquement.
La question de type de conformité ne peut pas se poser, il n'y a pas de comparaison à guider par un pareil concept.
XML Diff and Merge Tool est un outil informatique typique pour comparer deux textes, comme on peut le faire avec Word. Il présente le résultat dans deux fenêtres côte à côte comme le font d'autres logiciels disponibles sur le marché (e.g. UltraCompare) . Il permet de faire une comparaison selon deux grandes lignes différentes : un algorithme dénommé "Syntax Aware" qu'on dit marcher très bien sur des fichiers de types connus ; et trois algorithmes qui se fient sur la structure des fichiers au niveau ligne, mot ou caractère.
Voila des points que l'on va retrouver dans la présente invention. Par contre, cet outil ne fait aucune référence à un type de conformité. Il n'est pas question de score non plus: les différences sont affichées, c'est tout.
D'autres chercheurs ont lancé des études pour trouver un moyen de calculer un "score" qui soit utile, suite à une comparaison de deux textes, pour établir si l'un contient une partie de l'autre. Il n'y a aucune description de moyens d'affichage interactif, car on ne décrit pas un outil, on fait une étude pour décider comment faire un pareil outil.
Une de ces études (Copy détection mechanisms for digital documents) est instructive sur des moyens de calculer des scores, suite à une comparaison, qui sont capables de donner des chiffres qui ont une certaine signification précise sur une plage allant de 0 à 100%.
C'est là une question qui n'est pas réellement abordée par la présente invention dont les scores n'ont pas de signification "mathématique" . Ici la présente invention est comme TRADOS7 le score entend simplement indiquer une non conformité mais n'entend par en rapporter la mesure exacte .
Une autre étude (Unsupervised measurement of translation quality) vise à minimiser 1 ' interaction homme / machine qui constitue la notion de base du système de la présente invention. Comme pour l'étude précédente il n'y a pas description de moyens classiques pour constituer un système interactif et il n'y a pas lieu de songer à des types de conformité.
Ces documents antérieurs traitent de données très variées, mais ils partagent la notion de se servir de l'ordinateur pour contrôler des données. En elle-même cette idée est bien connue, or son application à la diversité d'occasions où un pareil contrôle serait souhaitable laisse à désirer. Ceci est souligné par le domaine d'application assez étroit de chacun d'entre eux.
Premièrement, l'ordinateur à beau être très minutieux quand il s'agit de vérifier que deux données sont exactement identiques, il reste souvent peu capable de dire si telle donnée est conforme à telle autre donnée toute en étant différente (une traduction par exemple) . Deuxièmement, les personnes qui cherchent un recours à 1 ' ordinateur pour les seconder dans leurs tâches en matière, de contrôle ont déjà la conviction intime d'en avoir besoin, et l'espoir que l'ordinateur va les aider.
La présente invention cherche à faciliter un partage efficace entre les hommes, intervenant dans un processus complexe avec des compétences variées, et la machine en matière de contrôle, quel que soit le domaine, et non seulement là où l'idée d'un contrôle par ordinateur est déjà^ acquise, mais aussi là où elle n'est guère envisagée, et ceci justement par l'introduction de la compétence humaine dès l'origine dans le processus, et permettant à plusieurs personnes d'y apporter des compétences différentes.
Contexte de 1 ' invention
L'invention décrit un système permettant de vérifier que les données en traitement sont conformes aux données de référence. Ce processus est désigné ci -après sous le terme de "contrôle" . Une fois que les données ont été contrôlées suivant ce moyen, le même système peut être utilisé (normalement par l'audit d'un ou plusieurs tiers compétents) pour vérifier la conformité des résultats.
L'invention est centrée sur le contrôle de conformité de données, particulièrement lorsque lesdites données en traitement ne sont pas rigoureusement identiques aux données de référence. Elle découle de l'idée que la mise en oeuvre d'un contrôle de conformité repose normalement sur l'enchaînement de plusieurs opérations distinctes. Pour chacune de ces opérations, la donnée est appelée "référence" lorsqu'elle est prise en tant que norme et la donnée est appelée "en traitement" lorsqu'il convient d'assurer la conformité de celle-ci avec une ou plusieurs données de référence. Dans le contexte de la présente invention, la "donnée" considérée est un élément exploitable par un ordinateur. Une forme habituelle de données au sens de la présente invention est le texte alphanumérique . Par exemple: les spécifications d'un processus industriel, ou le rapport d'analyse d'un produit. Autre exemple: la transposition de textes juridiques, comme des directives devant être transposées dans la législation en vigueur, ou la mise en oeuvre d'un règlement dans une organisation. Autre exemple encore: les revendications d'un brevet et celles de l'art de l'antérieur, ou les spécifications d'une invention et celles de normes industrielles. Encore un autre exemple: les spécifications d'un appel d'offres et celles de la soumission en réponse. Autre exemple enfin: un ou plusieurs textes sources, une ou plusieurs traductions.
Le point important dans ce contexte est que les données en traitement ne sont probablement pas toutes identiques aux données de référence, quoique leur conformité soit exigée. L'invention vise à permettre à un opérateur de contrôler avec un haut degré de certitude si les données en traitement sont ou non conformes avec les données de référence. Son but essentiel n'est pas tant de définir l'action qui doit être entreprise en présence d'une anomalie. Il est surtout d'identifier où l'intervention est nécessaire.
Comme exemple, il est intéressant de citer le contrôle d'impact juridique. En particulier: le cas d'une nouvelle législation (texte "en traitement") qui est contrôlée en vue de détecter des conflits potentiels avec la législation existante (texte de "référence") . Si le processus de contrôle met en évidence un conflit, on pourra décider de ne pas mettre en conformité la nouvelle législation avec la législation existante, mais plutôt d'amender la législation existante afin de faire disparaître le conflit. On pourra aussi renverser les rôles et contrôler la législation existante (texte "en traitement") pour l'apprécier en fonction de la nouvelle législation (à présent "référence") afin de déterminer jusqu'à quel point la législation existante doit être amendée .
Quelque soit la direction qu'on adopte, les êtres humains trouvent généralement fastidieux de contrôler des données de manière approfondie. Par contraste, on sait que ce type de contrôle de données est particulièrement accessible avec l'ordinateur, outil qui repère les différences avec une grande minutie - même celles qui apparaissent si insignifiantes qu'elles sont invisibles à l'oeil humain. La présente invention exploite en particulier cette minutie pour aider les êtres humains à mieux réussir ce contrôle de données dans lequel ils se sont révélés souvent inégaux dans le passé.
Objet de l'invention
Dans toute situation où des contrôles et/ou vérifications/audits doivent être réalisés à fin de conformité et/ou de cohérence, il arrive un moment où des opérateurs intervenant dans un processus sont amenés à comparer deux ou plusieurs segments de données (des segments de texte par exemple) afin de tirer des conclusions appropriées. L'invention propose un outil qui permet aux responsables d'opérer rapidement un contrôle en leur fournissant un cadre qui facilite la comparaison des données qui ne sont pas nécessairement identiques.
Résumé de l'invention
Dans une de ses caractéristiques essentielles, l'invention concerne un système de contrôle de données en traitement selon des données de référence, caractérisé en qu'il comprend:
• Une base de données contenant au moins une donnée de référence et une donnée en traitement ;
• Un moyen d'affichage interactif montrant une pluralité de segments de données répartie dans des fenêtres spécialisées qui permettent à l'opérateur et au système de communiquer ; • et un moyen de traitement pour comparer les données en traitement avec les données de référence selon un type de comparaison approprié pour les données en question ; en ce que la base de données contient une information de correspondance pour indiquer les données de référence auxquelles doivent correspondre les données en traitement dont la conformité est recherchée, cette information de correspondance étant fournie préalablement à toute comparaison et donnant également des règles de l'information spécifiant le type de conformité qui est requis pour ces données de référence et en traitement en correspondance ; en ce que le moyen d'affichage interactif permet aux opérateurs de sélectionner les données en traitement pour les comparer aux données de référence selon les indications fournies par l'information de correspondance ; et en ce que les moyens de traitement effectuent la comparaison selon les règles de l'information afin de fournir à l'opérateur un score représentatif du niveau de conformité calculé et, en cas de non conformité (s) , des éléments indiquant où se situent celle(s)-ci, ainsi que les étapes appropriées à suivre pour résoudre ou diminuer la non-conformité afin d'améliorer le score.
De nombreux techniques sont connues pour calculer un tel score (par exemple telle que décrit dans S. Brin et al: "Copy détection mechanisms for digital documents" Sigmod Record, ACM New York, NY, US, vol 24, no. 2, 1 juin 1995 pp 398-409) . Ce score n'a pas besoin d'être une mesure très exacte, il suffit que 100% signifie la conformité exacte, qu'un score élevé signifie proche de la conformité, et qu'un score faible signifie éloigné.
De leur côté, les moyens de traitement effectuent la comparaison selon les règles d' information afin de fournir à l'opérateur un score représentatif du niveau de conformité calculé. Et en cas de non conformité (s) , le système indique également où se situent celles-ci, ainsi que les étapes appropriées à suivre pour résoudre ou diminuer la non-conformité afin d'améliorer le score.
Souvent, la conformité sera établie, c'est à dire que le score sera de 100%. Le système pourra cependant systématiquement demander à l'opérateur de confirmer la conformité (avec un système assurant la traçabilité de cette confirmation) avant que le traitement ne se poursuive pour traiter la donnée suivante. Quand le score calculé selon une formule prédéterminée tombe en dessous de 100%, l'opérateur peut se voir proposer diverses alternatives en vue de porter le score à 100% et poursuivre le contrôle de donnée. Une opération pour atteindre ce résultat peut consister en une simple correction d'erreur, qui automatiquement remontera le score à 100%. L'opérateur peut cependant considérer la donnée conforme en l'état. Auquel cas, il sera avantageux que le système demande à l'opérateur de fournir également des informations de traçabilité; par exemple en saisissant des explications ou des justifications dans une fenêtre de commentaire prévue à cet effet. Autrement dit, la confirmation humaine en elle-même constitue une partie du calcul du score définitif . L'information de correspondance ainsi que ses règles de l'information doivent être ajoutées explicitement par les opérateurs, préférentiellement avec l'aide du système. Un exemple est l'information de correspondance. Plusieurs textes peuvent être subdivisés suivant des labels qui sont communs d'un ensemble de données à un autre ; que ces ensembles de données soient des processus industriels, des directives, des brevets, des contrats, des appels d'offres...
Cette labellisation consiste à découper, préalablement à tout traitement, les données de référence en plusieurs données en fonction de leur contenu et du type de traitement qu'ils auront à subir. Un texte de référence pourra, par exemple, être découpé en une soixantaine de données labellisées, chaque label présentant une structure plus ou moins standard commune à la série de textes visés. Par exemple un cahier des charges de fabrication pourra comporter un label titre, un label historique, un label conditions de production, un label ingrédients, un label équipements, un label processus, un label test de sortie... Le nom utilisé pour référencer le label est avantageusement descriptif du contenu des données qu' il désigne .
Les données du rapport de traitement seront jumelées aux labels du cahier des charges selon des règles d'information spécifiant le type de conformité recherché. Au label titre, la conformité recherchée et du type adapté (on s'attend à trouver la partie du titre qui dénomme la pièce et un numéro de série propre à la pièce permettant notamment d' identifier sa donnée de fabrication) . Au label historique du cahier des charges, aucune conformité n'est recherchée. Au label conditions de production, la conformité recherchée est du type Verbatim.
A cette fin, avec l'aide du système décrit ci- dessus, un expert pourra avantageusement affecter des labels de correspondance à chacune des données qui correspondent aux définitions attachées auxdits labels. Ces labels ne figurent pas nécessairement dans le corps du texte et ne sont pas forcément dans le même ordre au fil de tous les textes mis en correspondance. Ce système des labels homologués permet de rapprocher plusieurs ensembles hétérogènes de données (qu'ils soient stabilisés sous la forme de données de référence ou qu'ils soient en traitement) afin de permettre des correspondances entre chaque segment de données lié par un même label grâce à leur alignement linéaire . Le système peut faciliter cette opération essentiellement manuelle en ayant une liste de labels homologués, avec des mots ou phrases clés associés à chacun d'eux. Le système peut alors rechercher dans cette liste les mots ou phrases clés qui correspondent à un morceau de données sélectionné et les labels correspondants. En cas d'absence d'un label approprié pour faire correspondre deux ou plusieurs séries de segments de données, l'expert pourra en proposer un nouveau sous réserve de se conformer à la procédure prévue .
L'invention repose sur une base de données où l'information nécessaire est fournie à un moyen de traitement afin de lui permettre de réaliser une comparaison entre des segments de données qui ne sont pas nécessairement identiques.
Tout ou partie de cette information est automatiquement capitalisée (re-introduit dans le système comme donnée de référence) au fur et à mesure que le travail progresse. Un exemple de capitalisation par apprentissage automatique est fourni par la traduction - cette technique est d'ailleurs déjà mise en œuvre par les logiciels de traduction à mémoire.
Les règles de l'information permettent d'appliquer des stratégies particulières à chaque segment de données. Dans l'exemple de certaines traductions, certains segments ont besoin d'être reproduits Verbatim tandis que d'autres ont besoin d'être adaptés au contexte (culturel par exemple), et que d'autres enfin ont besoin d'être ignorés si ce n'est remplacés, parce qu'ils se situent dans une perspective totalement différente. Plusieurs règles d'information s'avèrent utiles dans des exemples autres que la traduction. Par exemple, une adaptation "culturelle" s'impose, tout en restant dans la langue française, quand il s'agit de préciser l'instance compétente, en Belgique, en France ou au Luxembourg. Ceci explique pourquoi on lie les règles d'information aux informations de correspondance. En d'autres termes, l'information de correspondance attachée au label est organisée de telle sorte qu'elle indique pour chaque catégorie de données quelles sont les règles d'information qui doivent s'appliquer.
La base de données contient de préférence un dictionnaire d'informations. Ce dictionnaire peut prendre des formes variées. Il peut par exemple se rapporter à une seule, à deux ou à plusieurs langues.
Avec une seule langue, le dictionnaire contribue au contrôle de conformité en identifiant les termes à rapprocher. Il peut inclure des définitions de mots, des informations sur la syntaxe et les usages, et un thésaurus de synonymes, avec éventuellement une mesure de leur proximité à l'aide d'indices quantitatifs. Avec deux ou plusieurs langues, le dictionnaire peut inclure des définitions de mots, et informations sur la syntaxe et les usages pouvant s'appliquer aux mots de chaque langue, tandis que les synonymes peuvent inclure avantageusement des traductions dans d'autres langues.
Il peut, avec une ou plusieurs langues, privilégier les termes approuvés ou prohiber les termes disqualifiés afin notamment d'éviter les faux sens et les redondances néfastes.
Il est aussi possible d' inclure dans le dictionnaire des segments de plus d'un mot, sous la forme d'idiomes ou de phases fréquemment rencontrées, ou sous la forme de segmentations arbitraires, délimitées de manière systématique, ensemble avec des traductions précédemment acceptées de ces segments de mots, du type qu'on rencontre dans les progiciels de traduction à base de mémoire logicielle.
Des règles d' information quant à la hiérarchie des segments, leur longueur et leur fréquence d'utilisation régissent leur mise en œuvre. Ainsi les dates d'apparition des segments peuvent servir de base à leur hiérarchie de sélection, en fonction de leur première apparition ou du caractère le plus récent. De même, on rangera avantageusement les segments dans le ou les dictionnaires d'informations selon un ordre décroissant variant en fonction du nombre de mots.
Le système est d'autant plus utile et plus efficace que la base de données d'informations est grande car la plupart des informations stockées sont réutilisables par nature. Le système lui-même fournit un cadre qui facilite l'acquisition de nouvelles informations, tandis qu'il assure aussi que l'information nouvellement acquise soit elle-même conforme avec le système tel que paramétré.
Toutefois le volume des données peut également ralentir le traitement. Selon, une réalisation préférentielle, ces documents de référence seront scindés en plusieurs informations avec par exemple: un dictionnaire formé des textes supérieurs (dont le contenu est normalement impératif) , un dictionnaire formé des textes voisins (dont le vocabulaire s'imposerait pour des raisons de cohérence) , un dictionnaire formé des termes de la spécialité (dont le vocabulaire tirerait sa force de raisons scientifiques et techniques) . Description de la figure La figure unique 1/1 ci-dessous décrit l'invention sous la forme référencée d'un diagramme qui représente une vue d'écran comportant plusieurs fenêtres distinctes visibles simultanément.
Selon la réalisation préférentielle de la figure 1, l'écran interactif est divisé en deux colonnes I et II. La colonne I est aménagée pour accueillir la langue source, ou en agissant sur les flèches curseur 1, les textes en langue étrangère correspondants en cours de traitement dans d'autres pays. La colonne II contient les textes en langue nationale qui sont en cours de traitement, ou en agissant sur les flèches curseur h et 1, des textes nationaux voisins en cours de traitement ou déjà traités. Horizontalement, l'écran est divisé en deux fois cinq fenêtres qui se répartissent comme suit:
- A: données intermédiaires
- B: données en traitement - C: données mises en œuvre
- D: note explicative
- E: données de référence.
Selon le type de travaux confiés (études d'impact, implémentation de programmes, analyse d'effets), le moyen d'affichage interactif modifie les règles régissant le contenu de chaque fenêtre en suivant une hiérarchie verticale depuis les textes les plus élevés aux contrôles d'application les plus proches du terrain (mise en œuvre par l'organisation, mise en œuvre par les opérateurs finaux) . Des moyens associés à chaque fenêtre selon des procédés connus permettent d'effectuer les déplacements nécessaires dans les textes ou d'agrandir celle-ci en tant que de besoin.
L ' exemple qui suit décrit le contrôle de conformité d'un texte en traitement par rapport à un texte de référence écrit à 1 ' origine dans une langue étrangère (dite langue source) .
1. Le texte de référence en langue source est découpé par un opérateur (un être humain) en plusieurs segments correspondant à des notions prédéterminées pour le type de texte en question. L'opérateur reconnaît les notions auxquelles les segments de texte correspondent, et leur attribue des « labels » tirés d'une liste finie et préétablie. Pour effectuer ce découpage du texte en différents segments labellisés, l'opérateur peut bénéficier d'une assistance de la machine qui pourra reconnaître certains mots clés dans le segment sélectionné par l'opérateur et proposé au vu de ces mots clés les segments les plus probables. Chaque segment est successivement collé dans la fenêtre 5 et son label en langue source est collé dans la lucarne Y . Après avoir fait l'objet d'un contrôle de conformité, afin d'assurer son authenticité avec un texte officiel, le texte de référence sera gelé dans la fenêtre
5 de sorte qu'aucun opérateur ne puisse plus altérer son contenu.
L'audit de contrôle de conformité s'opère en comparant chacun des segments du texte interne avec ceux d'un texte électronique externe réputé authentique.
L'indice d'authenticité du texte interne enregistré dans la base est calculé grâce à un moyen de traitement comparant chaque segment du texte en traitement au texte électronique réputé authentique pris pour référence.
L'indice α est le résultat du ratio nombre de mots du texte réputé authentique présents dans le texte réputé authentique présents sur le nombre de mots du texte réputé authentique. Cet indice s'exprime en %.
Si ce ratio α, affiché dans la fenêtre m, est égal à 100, l'Auditeur valide et passe au segment suivant objet du traitement . En cas de discordance, un texte supplétif approprié (par exemple une publication papier) fournira la source d'arbitrage. Une fois les arbitrages et corrections effectués selon cette source, l'auditeur apporte un correctif dans la lucarne n afin de porter l'indice de la lucarne o à 100. Le système impose à l'auditeur qui a corrigé l'indice calculé de justifier sa position dans la rangée D.
L'auditeur chargé d'authentifier les textes sources appose ensuite son sceau dans la base de données en cochant une case y prévue à cet effet. Le fait d'avoir coché cette case entraîne le gel du texte interne enregistré dans la base. Ce qui signifie que le texte source ne peut plus être modifié sauf procédure spéciale conduite par un agent disposant d'une autorisation (mot de passe par exemple) .
L'indice d'authenticité globale du texte est égal à la moyenne des ratios de chaque segment. Celui-ci est affiché après chaque examen et au final dans la lucarne
Si l'indice global α affiché dans q égale 100%, le texte est déclaré conforme dans son ensemble et un rapport, qui porte le sceau de l'Auditeur, est édité par la base de données. Ce rapport contient sur une colonne le texte de référence, sur une seconde colonne le texte objet du traitement, sur une troisième colonne les commentaires de l'auditeur, l'indice affecté à chaque segment et la décision de validation.
Dans certains cas, l'auditeur pourra considérer que le segment audité valide alors que 1 ' indicateur calculé n'a pas abouti exactement au chiffre de 100%. Par exemple, si le texte source comporte des fautes d'orthographes évidentes, que le texte en traitement a corrigé avec raison.
2. Le texte à traduire va être collé et gelé dans l'écran 10 avec son label en langue nationale dans la lucarne Z. C'est-à-dire que les labels sont non seulement préétablis, leurs traduction l'est aussi.
Au cours d'une phase transitoire, la traduction est saisie dans la fenêtre 7 de l'écran. Tous les segments de mots présents dans le dictionnaire et en cohérence avec les segments de mots correspondants du texte de référence en langue source sont mis en valeur.
Dans une version préférentielle, le dictionnaire contient tous les segments de mots et leurs correspondances dans les langues tirées des principaux textes internationaux et régionaux jugés nécessaires pour assurer la cohérence linguistique des textes dérivés.
En l'absence de référence efficace dans le dictionnaire des textes supérieurs, le traducteur peut rechercher, notamment, dans les textes voisins d'autres données de référence, en vue de réaliser des sources de cohérence. Ce dictionnaire de cohérence réalisé à partir des textes voisins peut être distingué du dictionnaire des textes supérieurs. Un troisième dictionnaire de cohérence des textes techniques du secteur peut être également constitué.
A défaut de trouver, un précédent, le traducteur peut valider ou non les segments non référencés, qui sont le produit de sa traduction propre, en les associant aux segments correspondants du texte de référence en langue source à l'aide du bouton i. Il lui appartient de commenter ses choix dans la fenêtre commentaire en préparation d'un audit futur qui confirmera ou non ses choix. Comme son nom l'indique, le dictionnaire de cohérence ne vise pas à assurer la traduction des textes, mais seulement leur cohérence. Toutes les expressions d'un segment n'ont donc pas vocation à figurer dans les dictionnaires . Suite à cette association, le ou les segment (s) de texte (s) validé (s) auront vocation à faire partie du (es) dictionnaire (s) . Tous les segments identiques du texte objet du traitement et des futurs textes entrés dans le système seront signalés lors de traductions ultérieures . Une fois la traduction opérée, le texte traduit est soumis à un audit de vérification en vue de confirmer sa cohérence linguistique, après quoi il sera transféré et gelé dans l'écran 10. Des entrées particulières avec mots de passe sont aménagées afin de définir les pouvoirs sur la base des différents intervenants.
L'audit de contrôle linguistique porte sur chaque segment labellisé et sur l'ensemble du texte traduit. Il revient à vérifier à l'aide d'un moyen de comparaison que le texte traduit est cohérent en lui-même et par rapport aux références idiomatiques tirées de textes nationaux ou internationaux antérieurs.
L'audit de cohérence linguistique peut s'opérer sur la base du dictionnaire avec ou sans référence aux textes publiés dans d'autres langues. On recherche simplement si le segment audité est présent ou non dans le dictionnaire. Selon un moyen préférentiel, pour chaque segment de texte examiné, la base de données met en valeur sur le moyen d'affichage interactif les segments présents dans le ou les dictionnaires. Au cas où plusieurs langues sont présentes, ces segments sont mis en correspondance entre eux par le dictionnaire. L'indice de cohérence est calculé à partir du ratio formé par les mots reconnus présents dans le (s) dictionnaire (s) sur le total des mots présents dans le segment traduit .
Si ce ratio β, affiché dans la fenêtre m, est égal à 100, l'Auditeur valide et passe au segment de texte suivant .
Si le ratio automatique affiché en m est inférieur à 100, des informations ont normalement été fournies par le traducteur dans la fenêtre 9 à l'auditeur pour justifier la situation.
Si l'examen satisfait l'Auditeur, ce dernier corrige par un complément porté dans la fenêtre n le ratio calculé en m par la base de données pour le porter à 100
(dans la fenêtre o) et appose son sceau en cochant une case prévue à cet effet. Ceci a pour effet de le verrouiller dans la base de données et d' interdire toute modification ultérieure.
S'il ne le satisfait pas, il laisse le ratio tel quel ou le modifie seulement partiellement. Il justifie alors sa position dans la rangée D.
L'indice de conformité globale β du texte calculé dans o est égal à la moyenne des ratios de chaque segment. Celui-ci est affiché après chaque examen et au final dans la lucarne q. Si l'indice de cohérence linguistique β est égal à 100, l'Auditeur valide le texte par l'impression d'un rapport d'authenticité. La certification opérée par l'audit vaut ratification définitive des choix opérés. Le texte validé et le dictionnaire qui en résulte sont appelés à devenir la source de textes cibles ultérieurs.
3. Une fois les différentes étapes précédentes effectuées, l'opérateur compétent copie le contenu de la fenêtre 10 dans 7. Puis l'opérateur procède aux adaptations nécessaires selon les attributs attachés au label définissant le type de conformité pour le segment en traitement. Chaque label spécifie un type de conformité requis pour son segment de texte . Ces types de conformité comportent au moins deux possibilités extrêmes : aucune conformité et conformité exacte. On appelle ces types extrêmes, "ignorer" et "Verbatim" (car pour une traduction, conformité exacte ne signifie pas identique) . Entres ces extrêmes, on a avantageusement un ou plusieurs variétés d'un type qu'on appelle "adaptation", où les adaptations nécessaires peuvent être, par exemple, changer des noms de texte ou de référence, changer les unités de mesure, ou changer les désignations des instances compétentes, ....
Si le label est du type ignorer, l'opérateur ignore le contenu de la fenêtre, le laisse en blanc ou le remplace par un texte tout à fait différent ; s'il est du type Verbatim, l'opérateur le laisse inchangé sauf modifications impératives ; s'il est du type adapter, l'opérateur définit les mesures d'adaptations nécessaires et justifie ses décisions dans la fenêtre 9.
Ensuite, l'opérateur revoit ses travaux et peut confirmer leur valeur par une déclaration de conformité au moyen de la touche z. Quand tous ses travaux satisfont l'opérateur, l'audit de contrôle de conformité du rapprochement peut commencer .
L'Auditeur vérifie que le segment en traitement de la fenêtre 7 suit convenablement les règles d'information attachée à chaque label (Verbatim, adapter, ignorer) afin de vérifier sa conformité à chaque segment labellisé de la fenêtre 10.
Le calcul de l'indice de concordance χ2 des fenêtres 7 et 10 s'effectue à l'aide du moyen de traitement de comparaison. Pour chaque segment examiné, ce moyen de comparaison dresse la liste des mots présents dans la fenêtre 7 et les compare à la liste des mots présents dans la fenêtre 10. L'indice de conformité est formé du ratio χ2 mots identiques dans le segment de référence et des mots identiques du segment du texte en traitement.
Un rapport détaillé peut afficher les mots ajoutés dans la fenêtre 7 et les mots non présents dans la fenêtre 10. Ce rapport peut comprendre pour chaque mot un index référençant sa position dans le texte de référence ou en traitement. Ce rapport peut être enregistré dans la fenêtre 8 sur décision de l'auditeur.
Si ce ratio, affiché dans la fenêtre m, est égal à 100, l'Auditeur valide et passe au segment suivant. Si le ratio automatique affiché en m est différent de 100, la base affiche dans la fenêtre 9 la liste des mots soustraits et ajoutés par rapport au morceau de données de référence. Dans cette fenêtre, d'autres informations sont fournies par l'opérateur à l'auditeur pour justifier la situation.
Si cet examen satisfait l'Auditeur, la règle Verbatim autorise ce dernier à corriger par un complément porté dans la fenêtre n le ratio calculé par la base de données pour le porter à 100 dans la fenêtre o. Il appose alors son sceau en cochant la case y prévue à cet effet, après avoir justifié sa position dans la fenêtre 9.
Si l'examen ne satisfait pas l'Auditeur, il laisse le ratio tel quel ou le modifie seulement partiellement. Il justifie aussi sa position dans la fenêtre 9. S'agissant d'un label action du type "adapter", l'auditeur dispose d'un pouvoir d'appréciation élargi qui n'est pas soumis à la règle Verbatim. Il consulte le ratio automatique m et inscrit le pourcentage de conformité traduisant son appréciation dans le registre p.
Dans tous les cas (pourcentage égal ou inférieur à 100), il justifie sa position dans la fenêtre 9. Si l'indice de rapprochement χ2 est égal à 100%, l'Auditeur coche la case y (ce qui a pour effet de le verrouiller dans la base de données et d' interdire toute modification ultérieure) . L'indice de conformité globale χ2 du texte est égal à la moyenne des ratios de chaque segment. Celui-ci est affiché après chaque examen et au final dans la lucarne q-
A la fin de l'audit, un rapport, qui porte le sceau de l'Auditeur, est édité par la base de données. Ce rapport contient sur une colonne le texte de référence, sur une seconde colonne le (s) texte (s) objet du traitement, sur une troisième colonne la note et les commentaires de l'Opérateur et de l'Auditeur et l'indice χ2 affecté à chaque segment. La dernière colonne contient le sceau certifiant des différents auditeurs.
4. Après le rapprochement des textes, c'est à 1 ' implémenteur d'inscrire dans la base de données les objectifs assignés à l'exécutant (plan - fenêtre 6) ou aux exécutants et les moyens donnés (do - fenêtre 7) pour mettre en œuvre les dispositions précédentes (reportées en fenêtre 10) .
A l'issue de chaque période d'exécution, commence 1 ' audit de contrôle du rapport des données relatives au respect des résultats attendus et aux moyens mis en œuvre (check - fenêtre 8) .
Le comparateur Ride affiche (act - fenêtre 9) pour chaque donnée l'indice calculé (ratios 6/8 et 7/8) . A chaque moyen mis en œuvre conformément au plan (par exemple : nombre d'agents, équipement, budget fourniture et sous-traitance) et pour l'atteinte de chaque résultat attendu (par exemple : nombre de visites, nombre de non conformités) il rapporte le chiffre 100..
Si le ratio global, affiché dans la fenêtre m, est égal à 100, l'Auditeur valide et passe normalement au label suivant . Toutefois, il peut de sa propre initiative, apporter des commentaires ou suggérer des axes d'amélioration dans cette fenêtre 9. Il peut aussi utiliser des benchmarks réalisés avec des données concurrentes. Un accès via une fenêtre déroulante r permet avantageusement de sélectionner l'affichage des meilleures pratiques concurrentes sur la partie gauche de l'écran.
Ces commentaires et axes d'amélioration seront normalement pris en compte pour la détermination des objectifs et des moyens pour la période suivante (fenêtre 6 et 7) .Si le ratio automatique affiché en m est différent de 100, des informations peuvent être fournies par le rapporteur à l ' auditeur dans la fenêtre prévue (8) à cet effet pour justifier la situation. Si cet examen satisfait l'Auditeur, ce dernier corrige par un complément porté dans la fenêtre n le ratio calculé par la base de données pour le porter à 100 dans la fenêtre o et appose son sceau en cochant la case y prévue à cet effet. S'il ne le satisfait pas, il le laisse tel quel ou le modifie seulement partiellement. Il justifie alors sa position dans la fenêtre 9.
Si le ratio de conformité globale Δ est égal à 100, l'Auditeur clôt son audit.
L' indice de conformité globale du texte est égal à la moyenne des ratios de chaque partie. Celui-ci est affiché après chaque examen et au final dans la lucarne q-
A la fin de l'audit, un rapport, qui porte le sceau de l'Auditeur, est édité par la base de données. Ce rapport contient sur une colonne le texte de référence (10) , sur une seconde colonne les instructions d'objectifs (6), sur une troisième colonne les instructions de moyens (7) , sur une quatrième colonne les dispositions du rapport de réalisation (8) et sur une dernière colonne l'indice Δ et les commentaires (9) accompagnés du sceau de l'auditeur. 5. Après l'audit de contrôle de l'adéquation des moyens de mise en oeuvre des textes en traitement, peut commencer le contrôle et la mesure des effets des textes chez les destinataires finaux afin d'analyser si les objectifs fixés sont bel et bien atteints.
La démarche est voisine de celle qui précède. Il s'agit de calculer au moins un indice d1 effectivité de résultat sur la base de rapports ou d'enquêtes révélant la valeur effective chez les utilisateurs finaux des normes prises en référence.
Pour s'assurer que les moyens mis en place sont appliqués de manière satisfaisante par et pour les intéressés, l'audit porte sur les segments qui sont repérés par un label correspondant. Dans le présent exemple de cahier des charges, la fenêtre 10 affiche les points de contrôle standards de résultat attendus (6) et le moyens (7) définis par la charte de contrôle édictée pour l'activité concernée, avec des indicateurs chiffrés de mesure (liste, nombre et résultats des contrôles à effectuer ...) . Dans la fenêtre 8 apparaît, le rapport de l'inspection décrivant les résultats _ constatés lors de la visite d'enquête.
Le contrôle de la conformité aux attentes des résultats réalisés s'effectue par une comparaison des données contenues dans chaque fenêtre.
Si le ratio m est égal à 100, l'Auditeur valide et passe au label d'action suivant.
Si le ratio automatique affiché en m est différent de 100, des informations sont fournies à l'auditeur pour justifier la situation.
Si cet examen satisfait l'Auditeur, ce dernier corrige par un complément porté dans la fenêtre n le ratio calculé par la base de données pour le porter à 100 dans la fenêtre o et appose son sceau en cochant la case y prévue à cet effet. S'il ne le satisfait pas, il le laisse tel quel ou le modifie seulement partiellement. Il justifie alors sa position dans la fenêtre 9. Comme pour le contrôle précédent, certains des objectifs fixent des maxima (nombre de non conformités relevés) . Plus le chiffre diminuera jusqu'à atteindre l'objectif, plus l'indicateur sera élevé. D'autres fixent des minima (nombre de visites à effectuer. Plus le chiffre se rapprochera de l'objectif, plus l'indicateur sera élevé . On ne prévoit normalement pas de primes au dépassement d'objectifs, qui auraient pour effet de masquer des insuffisances dans d'autres domaines. L'indice de conformité globale du texte est égal à la moyenne des ratios de chaque partie. Celui-ci est affiché après chaque examen et au final dans la lucarne q-
A la fin de l'audit, un rapport, qui porte la signature de l'Auditeur, est édité par la base de données. Ce rapport contient sur une colonne le texte de référence, sur une seconde colonne les points de contrôle, sur une troisième colonne les résultats des rapports d'inspection, et sur une dernière colonne l'indice ε et les commentaires de l'Auditeur accompagnés de son sceau.
6. Les rapports d'audit issus de la base de données sont discutés selon les procédures décidées par l'organisme. Le respect du caractère consensuel (présences, délais, contributions, discussions, convergence...) des procédures peut être tracé par la base de données - les forums électroniques par exemple facilitent cette traçabilité.
La clause de consensualité de la procédure est inscrite dans la fenêtre E. Les éléments de traçabilité sont reportés en B. L'indicateur λ s'en déduit selon des procédés équivalents à celles décrites ci-dessus. Le chiffre 100, par exemple, indique que les clauses de consensualité ont toutes été respectées pour la discussion des rapports concernés.
7. Les textes de référence peuvent être rapprochés entre eux, d'une zone géographique à une autre par exemple, à l'aide de la base de données dans un projet de synthèse .
Le projet de synthèse est retranscrit dans la fenêtre E. Les textes de référence nationaux sont enregistrés dans les fenêtres A et B. L'indicateur π s'en déduit selon des procédés équivalents à celles décrites ci-dessus. Le chiffre 100, par exemple, indiquerait que les textes de référence des zones analysées sont totalement convergents avec le projet de synthèse. Les fenêtres D commentent les différences.
Selon des principes similaires, des indicateurs μ peuvent également être utilisés pour effectuer des comparaisons entre les textes de référence des diverses zones deux à deux . 8. Les indicateurs de ce type peuvent être agglomérés dans un indicateur composite. Des indicateurs d'excellence globale Ω peuvent être formés à partir de la moyenne de chaque indicateur individuel ; selon une représentation préférentielle, le chiffre 9 indique un indicateur valeur 100 pour l'indice du rang concerné.
Figure imgf000027_0001

Claims

REVENDICATIONS
1. Système pour le contrôle de données en traitement selon des données de référence, caractérisé en ce qu'il comprend :
• Une base de données contenant au moins une donnée de référence et une donnée en traitement ;
• Un moyen d'affichage interactif montrant une pluralité de segments de données répartie dans des fenêtres spécialisées qui permettent à l'opérateur et au système de communiquer ;
• Et un moyen de traitement pour comparer les données en traitement avec les données de référence selon un type de comparaison approprié pour les données en question ; en ce que la base de données contient une information de correspondance pour indiquer les données de référence auxquelles doivent correspondre les données en traitement dont la conformité est recherchée, cette information de correspondance étant fournie préalablement à toute comparaison et donnant également des règles d' information spécifiant le type de conformité qui est requis pour ces données de référence et en traitement en correspondance ; en ce que le moyen d'affichage interactif permet aux opérateurs de sélectionner les données en traitement pour les comparer aux données de référence selon les indications fournies par l'information de correspondance ; et en ce que les moyens de traitement effectuent la comparaison selon les règles de l'information afin de fournir à l'opérateur un score représentatif du niveau de conformité calculé et, en cas de non conformité (s) , des éléments indiquant où se situent celles-ci, ainsi que les étapes appropriées à suivre pour résoudre ou diminuer la non-conformité afin d'améliorer le score.
2. Système, selon la revendication 1, caractérisé en ce que l'information de correspondance est fournie grâce à des labels rapprochant les segments de données en traitement avec les segments de données de référence.
3. Système selon la revendication 1 ou 2 caractérisé en ce que l'information de correspondance comprend un système prédéfini de label qu'un expert affecte aux différents segments de données qui correspondent aux définitions attachées auxdits labels.
4. Système selon l'une des revendications 1 à 3 caractérisé en ce que l'information de correspondance comprend des mots et phrases clés associés à chaque label prédéfini afin de faciliter la sélection du label affecté à chaque morceau de données .
5. Système selon l'une des revendications 1 à 4 caractérisé en ce que chaque label comprend un attribut indiquant le type de conformité spécifié par les règles d' informations .
6. Système selon l'une des revendications 1 à 5 caractérisé en ce que la base de données contient un dictionnaire identifiant les termes à rapprocher et, le cas échéant, repérant les termes approuvés ou disqualifiés .
7. Système selon l'une des revendications 1 à 6 caractérisé en ce que le dictionnaire d' informations contient des termes qui sont encodés selon leur fréquence d'utilisation.
8. Système selon l'une des revendications 1 à 7 caractérisé en ce que le dictionnaire d' informations contient des termes qui sont encodés selon l'ordre de leur première apparition et/ou selon la hiérarchie des données référencées .
9. Système selon l'une des revendications 1 à 8 caractérisé en ce que le dictionnaire d' informations contient des termes qui sont ordonnés selon un ordre décroissant en fonction du nombre des mots qu' ils contiennent .
10. Système selon l'une des revendications 1 à 9 caractérisé en ce que le dictionnaire d' informations caractérise les termes encodés selon une définition, une syntaxe et/ou un usage.
11. Système selon l'une des revendications 1 à 10 caractérisé en ce que le dictionnaire d'informations contient des segments de mots avec des correspondances dans deux ou plusieurs langues.
12. Système selon l'une des revendications 1 à 11 caractérisé en ce que l'indice de conformité des données calculé par la base est un pourcentage établissant le ratio du nombre des mots communs au morceau de données de référence et au morceau de données en traitement sur le total du nombre des mots présents dans le morceau de données de référence.
13. Système selon l'une des revendications 1 à 12 caractérisé en ce que le moyen de traitement permet d'identifier les mots ajoutés et les mots soustraits en comparant deux segments de données .
14. Système selon l'une des revendications 1 à 13 caractérisé en ce que les données intégrées dans la table sont authentifiées à l'aide d'une seconde source réputée authentique et, en cas de nécessité, d'une troisième source appropriée dite supplétive.
15. Système selon l'une des revendications 1 à 14 caractérisé en ce que les opérateurs qui entrent, modifient ou vérifient les données se voient affecter des entrées spéciales dans la base par des mots de passe avec des pouvoirs différents.
16. Système selon l'une des revendications 1 à 15 caractérisé en ce que l'indice de conformité calculé par la base de données peut être pondéré par un correctif décidé par l'auditeur.
17. Système selon l'une des revendications 1 à 16 caractérisé en ce qu'un indice de cohérence de moyen ou de résultat est calculé sur la base de rapports ou d'enquêtes révélant l'effet de la mise en œuvre des données de référence .
18. Procédé de contrôle de conformité de données mettant en œuvre un système de traitement caractérisé en ce qu'il comporte :
• Une base de données contenant au moins une donnée de référence et une donnée en traitement ;
• Un moyen d'affichage interactif montrant une pluralité de segments de données répartie dans des fenêtres spécialisées qui permettent à l'opérateur et au système de communiquer ;
• des informations de correspondance contenues dans la base de données dont la fonction est d'indiquer les données de référence auxquelles doivent correspondre les données en traitement dont la conformité est recherchée ;
• des règles de l'information contenues dans la base de données afin de spécifier les types de conformité qui peuvent être requis ; et en ce que le système précité effectue les étapes suivantes de traitement en interaction avec un opérateur :
1°) le moyen d'affichage interactif permet aux opérateurs de sélectionner les données en traitement pour les comparer aux données de référence selon les indications fournies par l'information de correspondance ;
2°) les moyens de traitement du système effectuent la comparaison selon les règles de l'information ;
3°) le système calcule à l'issue du traitement un score représentatif du niveau de conformité calculé ;
4°) le système indique à l'opérateur pour chaque cas de non-conformité identifié, des éléments indiquant où se situent celles-ci, ainsi que les étapes appropriées à suivre pour résoudre ou diminuer la non-conformité afin d'améliorer le score.
19. Procédé de contrôle de conformité de données selon la revendication 18 caractérisée en ce que le système de traitement est conforme à l'une quelconque des revendications 2 à 17.
20. Programme d'ordinateur caractérisé en ce qu'il est conçu pour la mise en œuvre par un système informatique d'un procédé selon l'une quelconque des revendications 18 et 19.
PCT/FR2008/000952 2007-07-02 2008-07-02 Controle de conformite de donnees WO2009024674A1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
EP08827731A EP2176788A1 (fr) 2007-07-02 2008-07-02 Controle de conformite de donnees

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0704742 2007-07-02
FR0704742A FR2918476B1 (fr) 2007-07-02 2007-07-02 Controle de conformite de donnees.

Publications (1)

Publication Number Publication Date
WO2009024674A1 true WO2009024674A1 (fr) 2009-02-26

Family

ID=39153984

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2008/000952 WO2009024674A1 (fr) 2007-07-02 2008-07-02 Controle de conformite de donnees

Country Status (4)

Country Link
EP (1) EP2176788A1 (fr)
FR (1) FR2918476B1 (fr)
RU (1) RU2454219C2 (fr)
WO (1) WO2009024674A1 (fr)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2535035C1 (ru) * 2013-09-11 2014-12-10 Общество с ограниченной ответственностью "КОЛЕТЕКС" Способ получения стерильной саможелирующейся альгинатной системы
CN109684468B (zh) * 2018-12-13 2023-05-09 四川大学 针对循证医学的文献筛选标注系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4964060A (en) 1985-12-04 1990-10-16 Hartsog Charles H Computer aided building plan review system and process
US5408409A (en) 1990-05-11 1995-04-18 International Business Machines Corporation Image-directed robotic system for precise robotic surgery including redundant consistency checking
WO2007068960A2 (fr) 2005-12-16 2007-06-21 Emil Ltd Appareil et methode d'edition de texte

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5095037B1 (en) * 1989-12-21 1995-12-19 Nissho Kk Combined anti-inflammatory agent
CA2060223C (fr) * 1991-02-12 1999-07-20 Clarence C. Lee Composition de fluide lubrifiant medical injectable et methode d'utilisation
EP1287048B2 (fr) * 2000-08-25 2008-04-30 Contura S.A. Hydrogel de polyacrylamide et son utilisation comme endoprothese
WO2006067608A1 (fr) * 2004-12-22 2006-06-29 Laboratoire Medidom S.A. Formulations aqueuses a base de hyaluronate de sodium a usage parenteral

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4964060A (en) 1985-12-04 1990-10-16 Hartsog Charles H Computer aided building plan review system and process
US5408409A (en) 1990-05-11 1995-04-18 International Business Machines Corporation Image-directed robotic system for precise robotic surgery including redundant consistency checking
WO2007068960A2 (fr) 2005-12-16 2007-06-21 Emil Ltd Appareil et methode d'edition de texte

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
"How IntelliMetric Works", 2005, VANTAGE LEARNING, WHITE PAPER, XP002473166 *
"XML Diff and Merge Tool", 1 July 2007 (2007-07-01), OXYGENXL.COM, XP002473165, Retrieved from the Internet <URL:http://web.archive.org/web/20070701143724/http://www.oxygenxml.com/xml_diff_and_merge.html> [retrieved on 20080317] *
BRIN S ET AL: "COPY DETECTION MECHANISMS FOR DIGITAL DOCUMENTS*", SIGMOD RECORD, ACM, NEW YORK, NY, US, vol. 24, no. 2, 1 June 1995 (1995-06-01), pages 398 - 409, XP000527686, ISSN: 0163-5808 *
MENNO VAN ZAANEN ET AL: "Unsupervised Measurement of Translation Quality Using Multi-engine, Bi-directional Translation", AI 2006: ADVANCES IN ARTIFICIAL INTELLIGENCE LECTURE NOTES IN COMPUTER SCIENCE;LECTURE NOTES IN ARTIFICIAL INTELLIGENCE;LNCS, SPRINGER BERLIN HEIDELBERG, BE, vol. 4304, 2006, pages 1208 - 1214, XP019052077, ISBN: 978-3-540-49787-5 *
S. BRIN ET AL.: "Copy détection mechanisms for digital documents", SIGMOD RECORD, vol. 24, no. 2, 1 June 1995 (1995-06-01), pages 398 - 409, XP000527686, DOI: doi:10.1145/568271.223855
See also references of EP2176788A1 *

Also Published As

Publication number Publication date
EP2176788A1 (fr) 2010-04-21
RU2010103070A (ru) 2011-08-10
FR2918476A1 (fr) 2009-01-09
RU2454219C2 (ru) 2012-06-27
FR2918476B1 (fr) 2012-08-03

Similar Documents

Publication Publication Date Title
Berraies et al. Customer empowerment and firms’ performance: The mediating effects of innovation and customer satisfaction
Volery et al. The evolution of the small business and entrepreneurship field: A bibliometric investigation of articles published in the International Small Business Journal
Alan A natural history of infixation
Repp Defining ‘contrast’as an information-structural notion in grammar
FR2982388A1 (fr) Systeme et procede pour la generation productive de mots composes dans une traduction automatique statistique
US20110082876A1 (en) Computer system and method for providing assistance in the preparation of a patent application
Murphy Affiliation bias and expert disagreement in framing the nicotine addiction debate
Lupu et al. Intertextuality in corporate narratives: a discursive analysis of a contested privatization
FR2876815A1 (fr) Analyse critique de l&#39;ordre des pronoms clitiques en francais
Bennett Assimilation, dissimilation, and surface correspondence in Sundanese
EP2176788A1 (fr) Controle de conformite de donnees
Bruscia Data analysis in qualitative research
Lubinski Rhetorical history: Giving meaning to the past in past and present
Yates The phonology, phonetics, and diachrony of Sturtevant’s Law
Wilkie Policy Forum: The Way We Were? The Way We Must Be? The ‘Arm’s Length Principle’Sees Itself (for What It Is) in the ‘Digital’Mirror
Thomas Mbyá resultatives and the structure of causation
Van Luven Pseudoclefts
Jánosi et al. Long split focalization in Hungarian and the typology of A′-dependencies
Auger Les structures impersonnelles et l'alterance des modes en subordonnee dans le francais parle de Quebec (Impersonal Structures and the Alternation of Subordinate Styles in Spoken Quebecois French).
Cappelen et al. Reply to Glanzberg, Soames and Weatherson
Fenton et al. The intonation of broad focus declaratives in Afro-Peruvian Spanish: Findings from two elicitation tasks
Goh From context to text in contractual interpretation: Is there really a problem with a plain meaning rule?
Somers Verb-third in Otfrid’s Evangelienbuch
WO2002033653A2 (fr) Procede de pilotage de processus decisionnel lors de la poursuite d&#39;un but dans un domaine d&#39;application determine, tel qu&#39;economique, technique, organisationnel ou analogue
Alshammari Numeral form selection and accommodation in Gulf Pidgin Arabic

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 08827731

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2010514044

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2008827731

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: JP