WO2007077378A1 - Procede et dispositif d'aide a la construction d'une arborescence de groupe de documents electroniques - Google Patents

Procede et dispositif d'aide a la construction d'une arborescence de groupe de documents electroniques Download PDF

Info

Publication number
WO2007077378A1
WO2007077378A1 PCT/FR2006/051402 FR2006051402W WO2007077378A1 WO 2007077378 A1 WO2007077378 A1 WO 2007077378A1 FR 2006051402 W FR2006051402 W FR 2006051402W WO 2007077378 A1 WO2007077378 A1 WO 2007077378A1
Authority
WO
WIPO (PCT)
Prior art keywords
group
tree
documents
constraints
level
Prior art date
Application number
PCT/FR2006/051402
Other languages
English (en)
Inventor
Franck Meyer
Jérôme BESOMBES
Fabrice Clerot
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom filed Critical France Telecom
Priority to EP06847192A priority Critical patent/EP1984873A1/fr
Priority to US12/087,506 priority patent/US8886678B2/en
Publication of WO2007077378A1 publication Critical patent/WO2007077378A1/fr

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees

Definitions

  • the invention relates to a method and a device for assisting the construction of an electronic document group tree.
  • the number of electronic documents (mails, images, web pages, texts, ...) that a user has to manage is often of a large volume and constant growth.
  • a well-known method of building a document group tree is the fully manual method. The user who has a certain number of documents to classify, creates a directory tree in which he inserts these documents as he wishes. This method has the advantage of respecting the choice of the user and also makes it easy to modify the tree manually. However, this method can become very tedious when the number of documents to be listed is important.
  • Other methods provide a fully automatic classification of electronic documents. For this, the documents are defined by characteristics (for example the name of the file, its type, its size, word accounts for textual documents, colorimetric measurements for images, etc.).
  • the classification methods construct groups that can be structured in a tree-like form ("Ascending Hierarchical Classification” method for example) or not ("k-Means” method for example).
  • the disadvantage of such automatic partitions is that they do not always correspond to an organization desired by the user. No correction is then possible and the user is forced to accept the grouping obtained, or to restart the whole process by varying the initial parameters (number of desired groups for example) for a different result.
  • Automatic learning methods that are "supervised” or “semi-supervised” make it possible to take into account criteria that the user sets a priori to implement a learning mechanism.
  • supervised classification the user must give labels to some of the documents he wants to group. Two documents with the same label must join the same group and vice versa.
  • a supervised learning algorithm constructs a model that allows for each unlabeled document, and based on its description, to give it an appropriate label.
  • a supervised method assumes that the user knows all the possible labels of the documents to be classified and thus the groups of the final organization. The user only rarely has this knowledge a priori of the structure of the classification of his data. The initial knowledge necessary for the use of such algorithms is then a strong restriction on their use for document management.
  • the object of the invention is to overcome these drawbacks by proposing a method of assisting the construction of a document group tree which allows an easily modifiable hierarchical classification of documents.
  • the method according to the invention helps the user to build a document group tree so that it has a minimum of interactions and that they are the simplest possible. The user only intervenes intuitively without a thorough knowledge of computers.
  • the user may not know a priori the final structure and distribution of documents in this structure.
  • the method according to the invention allows the user to change these classification preferences.
  • the present invention provides a method that is simple to implement and user-friendly.
  • the invention proposes a method of assisting in the construction of a tree structure of groups of electronic documents, the documents being defined by predetermined characteristics.
  • the method being such that it comprises for a given group of documents and a level of the given tree the following steps: a) obtaining constraints defined between at least two documents of said group and storing these constraints; b) construction of subgroups according to the constraints obtained and the characteristics of the documents of said group; c) creation of a tree level corresponding to the created subgroups; d) selecting a subgroup created and iterating steps a), b), c) and d) for the selected subgroup until said tree is obtained.
  • the method allows the construction of a tree structure taking into account constraints defined for each group of documents and at each level of the tree. This construction is not therefore fixed to a definition made -AT-
  • the step of building subgroups comprises the following steps:
  • constraints are obtained by a step of selecting documents for which a constraint must be associated and of selecting a type of constraint using a user interface.
  • the step of obtaining constraints is performed by reading predefined constraints in a memory space.
  • the method following a user request to move a document from a first group belonging to a first tree level to a second group belonging to a second tree level, the method also includes the preliminary steps of:
  • the method includes in addition to the preliminary steps of:
  • the method makes it possible to restart the construction of the tree structure automatically, taking into account the new criteria of the modification.
  • the invention also relates to a device for assisting the construction of a tree of groups of electronic documents, the documents being defined by predetermined characteristics.
  • the device is such that it comprises:
  • the means for obtaining constraints comprise user interface means, these user interface means comprising display means in which icons representing the constraints to be obtained are selectable by the user.
  • the means for obtaining constraints comprise reading means in a memory space of saved constraints.
  • the device has the same advantages as the method it implements.
  • the invention also relates to a multimedia electronic equipment comprising means for storing multimedia documents, this equipment comprises means for implementing the method of assisting the construction of a tree of groups of electronic documents according to the invention.
  • the invention also relates to a computer program comprising program instructions adapted to the implementation of a method of assisting the construction of an electronic document group tree according to the invention as described above, when the said program is loaded and executed in a computer system.
  • the invention provides a storage medium, possibly totally or partially removable, readable by a computer, storing a set of instructions executable by said computer to implement the method of assisting the construction of a group tree electronic documents according to the invention.
  • FIG. 1 represents an embodiment of a device according to the invention
  • FIG. 2 represents the main constituent elements of the device according to the invention
  • FIG. 3 illustrates, in flowchart form, the main steps of a method of assisting the construction of a document group tree according to the invention
  • FIG. 4 illustrates in detail, in flowchart form, the step of building subgroups according to the invention
  • FIG. 5 schematically illustrates the steps implemented during the construction of subgroups according to the invention
  • FIG. 6a illustrates a tree level and the constraints associated with the documents belonging to a group of this tree level
  • FIG. 6b illustrates two other tree levels, the groups of documents and their associated constraints after the implementation of a method according to the invention
  • FIG. 7 illustrates an example of a graphical interface proposed to the user
  • FIGS. 8a, 8b, 8c and 8d illustrate, in the form of a diagram of the tree structure, the steps implemented during a displacement-type modification of a document in the tree according to the invention.
  • FIGS. 9a, 9b and 9c illustrate the steps implemented during a modification of the creation type of another group of documents in the tree according to the invention.
  • FIG. 1 represents a block diagram of an embodiment of a device for assisting the construction of a document group tree according to the invention.
  • This device is for example a microcomputer 10.
  • This device has a communication bus 190 to which are connected a central unit 110, a read only memory 120, a random access memory RAM 130, a screen 140, a keyboard 150, a communication interface 180 with a communication network 115, a hard disk 170 and a data logger reader 160 on a removable medium.
  • the read-only memory 120 stores, among other things, the program implementing the main steps of the method according to the invention which will be described later with reference to FIGS. 3 and 4.
  • the read-only memory 120 also stores the various constraints associated with the documents that are defined by the user.
  • the program according to the invention is stored in a storage means.
  • This storage means is readable by a computer or a microprocessor 110.
  • This storage means is integrated or not to the device and can be removable.
  • the program according to the present invention is transferred into the random access memory 130 which then contains the executable code of the invention as well as the data necessary for the implementation of the invention.
  • the device according to the invention has a screen capable of reproducing information representative of the construction of the tree according to the invention.
  • the screen is also able to display a graphical interface to the user to determine the documents for which a constraint must be associated.
  • the user Via the keyboard, or other interface means such as a computer mouse, the user selects the group of documents for which he wishes to build a tree and selects the documents for which a constraint must be associated as well. than the type of constraint.
  • the hard disk 170 stores the documents that are classified according to the method of the invention.
  • the hard disk may alternatively store the program implementing the method of the invention described later with reference to FIGS. 3 and 4.
  • the data logger reader 160 on a removable memory means is for example a recorder player for compact discs or DVDs.
  • Documents classified according to the invention can also be saved on a removable storage means such as a compact disc or a DVD.
  • the recording reader is able to read the program according to the invention for the transfer thereof to the hard disk 170.
  • the classification of documents and the tree of groups of documents obtained by the implementation of the invention are not necessarily coupled with the physical organization of documents in the storage system.
  • the representation of the tree resulting from the implementation of the invention may be only a logical representation. Thus several logical representations can be obtained for a single physical organization.
  • FIG. 2 shows in block diagram form the main components of the device of the invention.
  • the documents from a storage base 280 are processed by the vectorization module M210.
  • This vectorization module makes it possible to construct for each document a digital vector describing this document. For example, for an image, this may consist of a set of measurements, functions applied to the bitmap representation of the image, for a text document, this may consist of a calculation of predefined words for each document. Thus, a vector will represent the characteristics of the corresponding document. It is then possible to define a distance between two vectors and thus a measure of proximity between documents. The distance between two vectors will represent the distance between the characteristics of the documents.
  • the normalization module M220 makes it possible to standardize the vectors representing the documents so as to obtain vectors of constant norm. This normalization can for example be done by scaling all the descriptive variables in the interval [0; l].
  • the documents thus processed by the M210 and M220 modules then arrive at the input of the device for assisting in the construction of a document tree according to the invention 200.
  • This device includes, inter alia, an M240 user interface module that allows a user to work in interactive mode on document classifications.
  • This module notably allows the user to define constraints to be associated with the documents, to modify the tree built according to the method of the invention.
  • the device also comprises an M250 module for obtaining constraints defined between at least two documents of a group. Obtaining constraints can be done via the GUI module M240 or for example by simply reading constraints previously defined and stored in a memory space of the device (M280). The newly obtained constraints are stored in a memory space M280 of the device.
  • the device comprises a module M260 for building document subgroups according to the constraints obtained by the module M 250 and characteristics specific to the documents. It includes a module for creating M290 tree levels corresponding to the subgroups from the M260 module. The M290 module is linked to the user interface module for displaying the resulting tree.
  • the device comprises an M270 module for selecting a group or subgroup created by the module M260.
  • the selection of a group or subgroup is made via the user interface module.
  • the group thus selected will then be applied to the previously described modules of the device in order to obtain at the output of the device 200, a document group tree that satisfies the user.
  • the device according to the invention can be integrated in a multimedia electronic equipment which comprises means for storing multimedia documents such as images, music files, written documents, etc.
  • This equipment is for example a music file reader.
  • This equipment also includes a graphical interface, a pocket computer or electronic organizer, a mobile phone with or without a camera.
  • the method for assisting the construction of a tree structure according to the invention can be implemented on this type of equipment for classifying the stored multimedia contents.
  • a step E300 obtaining constraints between at least two documents of the group is performed.
  • This obtaining step is for example the selection by the user of two documents and a graphic interface icon representing a constraint of the type "must be associated” or "Must-Link” in English (ML) or of type “must not be associated” or “Can not-Link” in English (CL).
  • ML Must be associated
  • ML Must-Link
  • CL Can not-Link
  • the constraint of type ML expresses the will to find the two documents in the same group at the lower level (subgroup) and the constraint of type CL expresses the will not to find the two documents in the same group at the lower level.
  • a constraint is defined by a pair of documents, a type of constraint (ML or CL) and a level of the tree. These constraints thus defined are stored in a memory space of the device.
  • Obtaining constraints in step E300 can also be performed by simply reading constraints previously stored in a memory space.
  • constraints can also be carried out by the selection by the user of a certain number of documents that he wishes to associate in the same subgroup. He can thus create a draft of subgroups. Constraints are then automatically created in step E300, the set of documents representative of the subgroups being associated two by two (according to all the possible pairs of two different documents) by constraints CL.
  • step E300 The constraints thus defined in step E300 are then used in step E310 for the construction of subgroups.
  • the construction of these subgroups is also a function of the characteristics of the documents.
  • the subgroup construction step will be detailed later with reference to FIGS. 4 and 5.
  • Step E310 is followed by step E320 where the creation of a new tree level corresponding to the subgroups thus created is performed.
  • a representation of the tree being created is shown in Figures 6a and 6b.
  • step E330 the user can stop the creation of the tree if he considers that it is satisfactory. In this case (O), the process is finished. In the opposite case (N), the step E330 is followed by the step E340 where the selection of a subgroup previously created and at the lower level of the tree is performed. This selection can be made by the user via the graphical interface.
  • a criterion which can be for example the selection of the subgroup of the largest population or the subgroup containing the last selected image.
  • Step E340 is followed by step E300 previously described.
  • the steps E300, E310, E320, E330 and E340 are thus iterated for the selected subgroup until a satisfactory tree for the user is obtained.
  • FIG. 4 illustrates in detail the step E310 described with reference to FIG. 3.
  • step E400 consists in creating a group per document participating in at least one constraint.
  • step E400 is illustrated in FIG. 5 where the documents are represented by solid circles, the constraints ML by solid lines and the constraints CL by dashed lines. At this stage, a group has only one document (a kernel). Step E400 is followed by step E410 where an association of the documents not participating in at least one constraint with the groups created in step E400 is performed.
  • This association is carried out according to a criterion of distance between the characteristics of the documents to be associated and those of the documents belonging to the groups.
  • the distance of a document to a newly created group is defined as the distance between the document and the group's kernel (at this point, each group has a unique kernel).
  • the criterion of associating a document with a group is a criterion of the smallest distance.
  • the distance between document characteristics is achieved by a distance measurement between vectors representing the characteristics of the documents.
  • step E410 groups are obtained as illustrated under the reference of step E410 in FIG. 5.
  • Step E410 is followed by step E420 where an iterative merger of certain groups obtained in the previous step is performed.
  • This merge is performed according to the constraints associated with the documents.
  • the two groups merge automatically. This is illustrated as E420 in Figure 5.
  • Step E420 is followed by step E430.
  • step E430 a group merge is performed so that if a group G2 and a group G3 as illustrated in FIG. 5 do not respectively comprise a document for which there exists a constraint CL, then G2 and G3 merge.
  • the subgroups illustrated under the reference E430 of FIG. 5 are then obtained.
  • each subgroup has one or more nuclei.
  • Step E430 is followed by step E320 previously described with reference to FIG. Figures 6a and 6b illustrate the construction of the document groups of the tree with the constraints associated with each level of the tree.
  • FIG. 6a represents for example a group of documents that corresponds to the documents illustrated in FIG. 5 under the reference E400. Constraints on some of these documents have been defined and recorded and are shown in Figure 6a. These constraints remain associated with the corresponding level, here the level 0.
  • Figure 6b illustrates the creation of two tree levels.
  • the first level created (level -1) corresponds to the subgroups obtained at the end of the step E430 illustrated with reference to FIG. 5.
  • the creation of this tree level corresponds to the step E320 described with reference to FIG. Figure 3.
  • step E340 of FIG. 3 The selection of a group of documents corresponding to step E340 of FIG. 3 is shown in negative in FIG. 6b.
  • the steps E300, E310, E320 are executed again.
  • New constraints corresponding to the level -1 are thus defined and represented in FIG. 6b, new subgroups are created and another level of tree structure (level -2) is created and represented in FIG. 6b.
  • Figure 7 is an illustration of an example of a graphical user interface presented to the user.
  • a document group in the tree represented in window 700 is selected. This selected group is shown in negative.
  • the documents of this selected group are displayed in a second window 710.
  • the user can then select two documents, for example documents dl7 and dl9 and then select the icon representing the constraint he wishes to associate with these documents, for example the icon 770 corresponding to the ML constraint.
  • a constraint associated with the level -2 of the tree is then created and displayed in the third viewing window 720.
  • the constraint CL can be selected by the corresponding icon 770.
  • the The user may select the "learn" icon 730 so that step E310 of the method shown in FIG. 3 is executed.
  • a tree structure When a tree structure has been partially constructed according to the method of the invention, it can be modified at any time using the same method.
  • the user wants to delete a part of the tree, he selects for example a document group of the tree using for example the graphical interface of Figure 7. He then "clicks" on the icon 760 to delete the entire lower part of the tree. By this action, a step of moving in the selected group of group documents of the part of the deleted tree is performed. All document constraints for lower levels of the tree are also removed.
  • FIG. 8a the user wishes to move the document d from a level group -2 in the tree to a level group -3.
  • the user for example moves with the mouse of the icon representing the document to be moved and selected in the window 710 of the graphical interface of FIG. 7, from the first group of documents to the second group.
  • the tree level constraints are saved in memory.
  • the method that will allow to rebuild a different tree will begin by first determining and selecting the lowest common group top level in the tree, ie the first group common to the initial group of d and destination group of the move, encountered when going up the tree from the two groups concerned, to the higher levels. Any part of the level tree below this selected group is removed. As mentioned earlier for deleting a part of the tree, all the documents from the deleted part's groups are moved to the selected group. However, in this case, the constraints of the lower levels which concern other documents than the one to be moved are kept in memory. New constraints are defined to take into account the displacement of the document d.
  • the constraints represented underlined have been created automatically. They express the fact that at level -1, the document d and the core document dl must be grouped together (ML "Must link") in order to force d to join the subgroup of dl at level -2 (FIG. 8c). . The same goes for document d and the d5 kernel document at level -2.
  • the tree construction method described with reference to FIG. 3 is implemented from the selected upper common group and with the constraints already defined and saved in memory. After the application of this method, a tree is obtained as shown in Figure 8d where the document has been moved to the desired group. Some documents close to the moved document that do not participate in constraints and that were in the same group as d will automatically follow the same path as document d and will end up in the same destination group.
  • New CL type constraints are created as shown in underlined with reference to Figure 9b. These new constraints specify that the document d must be separated from the kernel documents dl and d4 at level -2. As d can not anymore join any of the subgroups, a new subgroup will be automatically created during a construction phase of the tree defined with reference to Figure 3. Note that, in order to prevent d from being able to join the sub -group containing the kernels dl and d5 at -2, the new constraint CL (dl, d) was created at level -1. The constraint CL (d5, d) would equally play this role.
  • the user can maintain his file management habits while being assisted by the implementation of an automatic method of building a tree structure, via the automatic or manual definition of ML and CL links between a small number of files. documents. This brings the user a significant time saving and satisfaction with the result obtained.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

L'invention concerne un procédé d'aide à la construction d'une arborescence de groupes de documents électroniques, les documents étant définis par des caractéristiques prédéterminées. Le procédé selon l'invention comporte pour un groupe de documents donné et un niveau de l'arborescence donné les étapes suivantes: a) obtention de contraintes (E300) définies entre au moins deux documents dudit groupe et mémorisation de ces contraintes; b) construction de sous-groupes (E310) en fonction des contraintes obtenues et des caractéristiques des documents dudit groupe; c) création d'un niveau d'arborescence (E320) correspondant aux sous-groupes crées; d) sélection d'un sous-groupe créé (E340) et itération des étapes a), b), c) et d) pour le sous groupe sélectionné jusqu'à obtention de ladite arborescence. L'invention se rapporte également à un dispositif mettant en oevre ce procédé.

Description

Procédé et dispositif d'aide à la construction d'une arborescence de groupe de documents électroniques
L'invention se rapporte à un procédé et à un dispositif d'aide à la construction d'une arborescence de groupe de documents électroniques.
Le nombre de documents électroniques (mails, images, pages web, textes, ...) qu'un utilisateur a à gérer est souvent d'un volume important et de croissance constante. Une méthode bien connue de construction d'une arborescence de groupes de documents est la méthode entièrement manuelle. L'utilisateur qui possède un certain nombre de documents à classer, crée une arborescence de répertoires dans lequel il insère ces documents selon son bon vouloir. Cette méthode a pour avantage de respecter le choix de l'utilisateur et permet de plus de modifier facilement l'arborescence manuellement. Cette méthode peut cependant devenir très fastidieuse lorsque le nombre de document à répertorier est important. D'autres méthodes proposent une classification totalement automatique de documents électroniques. Pour cela, les documents sont définis par des caractéristiques (par exemple le nom du fichier, son type, sa taille, des comptes de mots pour des documents textuels, des mesures de colorimétries pour des images,...). Pour chaque document, ces différentes caractéristiques sont regroupées pour former un vecteur décrivant ce document. Il est alors possible de définir une distance entre deux vecteurs, et donc une mesure de proximité entre les documents. Prenant en compte les distances entre documents, les méthodes de classification construisent des groupes qui peuvent être structurés sous forme arborescente (méthode de «Classification Hiérarchique Ascendante» par exemple) ou non (méthode du «k- Means» par exemple). L'inconvénient de telles partitions automatiques est qu'elles ne correspondent pas toujours à une organisation voulue par l'utilisateur. Aucune correction n'est alors possible et l'utilisateur est contraint d'accepter le groupement obtenu, ou de recommencer l'ensemble du processus en faisant varier les paramètres initiaux (nombre de groupes désirés par exemple) pour un résultat différent. Des méthodes d'apprentissage automatique dites "supervisées" ou "semi- supervisées" permettent de prendre en considération des critères fixés a priori par l'utilisateur pour mettre en œuvre un mécanisme d'apprentissage. En classification supervisée, l'utilisateur doit donner des étiquettes à une partie des documents qu'il veut grouper. Deux documents ayant une étiquette identique doivent rejoindre le même groupe et inversement. Un algorithme d'apprentissage supervisé construit un modèle qui permet, pour chaque document non étiqueté, et en fonction de sa description, de lui donner une étiquette appropriée. Une méthode supervisée suppose que l'utilisateur connaisse toutes les étiquettes possibles des documents à classer et donc les groupes de l'organisation finale. L'utilisateur n'a que rarement cette connaissance a priori de la structure de la classification de ses données. Les connaissances initiales nécessaires à l'utilisation des tels algorithmes sont alors une forte restriction à leur utilisation pour la gestion de documents. Un exemple de méthode "semi-supervisée" est décrit dans le document "Distance metric learning, with application to clustering with side-information" de Eric P. Xing, Andrew Y. Ng, Michael I. Jordan et Stuart Russell (NIPS 15,2003), où l'utilisateur spécifie des objets comme étant similaires ou différents. A partir de ces informations, le système va déterminer une métrique (une pondération des différentes caractéristiques de description des documents qui favorise certaines caractéristiques et en pénalise d'autres) qui va donner une nouvelle mesure de distance entre les documents à adopter pour la classification.
Un autre exemple de classification semi-supervisée est celle proposée par le document "Constrainted K-means clustering with background knowledge" de KM Wagstaff, Claire Cardie, Seth Rogers et Stefan Schroedl (ICML 2001). Cette méthode propose de donner des contraintes à des paires de documents spécifiant ainsi qu'ils appartiennent à un même groupe ou qu'au contraire, ils n'appartiennent pas à un même groupe. La méthode connue de type "k-means" est alors utilisée pour regrouper les documents tout en essayant de respecter au mieux les contraintes d'appartenance données au préalable. Cette méthode ne fonctionne que pour une classification non hiérarchisée. De plus, cette méthode ne propose pas de solution pour modifier, supprimer ou déplacer des documents dans la classification obtenue et elle est susceptible d'échouer s'il est impossible de satisfaire les contraintes fournies (dans ce cas, aucun classement n'est effectué).
L'invention a pour but de pallier ces inconvénients en proposant une méthode d'aide à la construction d'une arborescence de groupe de documents qui permet une classification hiérarchique de documents facilement modifiable. Le procédé selon l'invention aide l'utilisateur à construire une arborescence de groupe de documents de façon à ce que celui-ci ait un minimum d'interactions et que celles-ci lui soient les plus simples possibles. L'utilisateur n'intervient que de façon intuitive sans connaissance approfondie en informatique.
L'utilisateur peut ne pas connaître a priori la structure finale et la répartition des documents dans cette structure. Le procédé selon l'invention permet à l'utilisateur de faire évoluer ces préférences de classification.
La présente invention offre un procédé simple à mettre en œuvre et convivial pour l'utilisateur.
A cet effet, l'invention propose un procédé d'aide à la construction d'une arborescence de groupes de documents électroniques, les documents étant définis par des caractéristiques prédéterminées. Le procédé étant tel qu'il comporte pour un groupe de documents donné et un niveau de l'arborescence donné les étapes suivantes: a) obtention de contraintes définies entre au moins deux documents dudit groupe et mémorisation de ces contraintes; b) construction de sous-groupes en fonction des contraintes obtenues et des caractéristiques des documents dudit groupe; c) création d'un niveau d'arborescence correspondant aux sous-groupes crées; d) sélection d'un sous-groupe créé et itération des étapes a), b), c) et d) pour le sous groupe sélectionné jusqu'à obtention de ladite arborescence.
Ainsi, le procédé permet la construction d'une arborescence en prenant en compte des contraintes définies pour chaque groupe de documents et à chaque niveau de l'arborescence. Cette construction n'est donc pas figée à une définition faite a -A-
priori, elle peut évoluer au fil de la construction de l'arborescence ou être reprise pour une partie de l'arborescence en cas de besoin de modification.
Dans un mode préféré de réalisation, l'étape de construction de sous-groupes comporte les étapes suivantes:
- création d'un groupe par document participant à au moins une contrainte;
- association des documents ne participant à aucune contrainte aux groupes ainsi créés selon un critère calculé à partir des caractéristiques des documents à associer d'une part et des caractéristiques des documents appartenant auxdits groupes d'autre part;
- fusion itérative en conformité avec les contraintes définies des groupes issus de l'étape d'association.
Ces étapes de construction permettent de regrouper de façon automatique les documents à la fois sur des critères que l'utilisateur a définis et sur des critères de distances entre caractéristiques de documents, ceci de façon à obtenir un nombre restreint de groupes de façon efficace.
Dans un mode de réalisation de l'invention, l'obtention de contraintes s'effectue par une étape de sélection de documents pour lesquels une contrainte doit être associée et de sélection d'un type de contrainte à l'aide d'une interface utilisateur.
Ainsi, l'utilisateur peut simplement définir ces contraintes entre documents, sur des critères qui lui sont propres et qui peuvent évoluer au cours du temps.
Dans un autre mode de réalisation, l'étape d'obtention de contraintes s'effectue par une lecture de contraintes prédéfinies dans un espace mémoire.
Ainsi, des contraintes qui ont déjà été définies antérieurement peuvent être prises en compte, notamment lors de modifications de l'arborescence.
De façon avantageuse, à la suite d'une requête utilisateur de déplacement d'un document d'un premier groupe appartenant à un premier niveau d'arborescence vers un deuxième groupe appartenant à un deuxième niveau d'arborescence, le procédé comporte en outre les étapes préalables de:
- détermination et sélection du groupe commun de niveau supérieur le plus bas dans l'arborescence; - déplacement des documents provenant des sous-groupes inférieurs dans l'arborescence dans le groupe déterminé;
- suppression de la partie inférieure de l'arborescence par rapport au groupe déterminé;
- création automatique de nouvelles contraintes prenant en compte le déplacement dudit document et mémorisation de ces nouvelles contraintes par niveau d'arborescence.
De même, à la suite d'une requête utilisateur de création d'un nouveau sous- groupe pour un niveau d'arborescence donné et comportant au moins un document sélectionné provenant d'un second sous-groupe du même niveau, le procédé comporte en outre les étapes préalables de:
- détermination et sélection du groupe commun de niveau supérieur le plus bas dans l'arborescence;
- déplacement des documents provenant des sous-groupes inférieurs dans l'arborescence dans le groupe déterminé;
- suppression de la partie inférieure de l'arborescence par rapport au groupe déterminé ;
- création automatique de nouvelles contraintes prenant en compte la création du nouveau sous-groupe, et mémorisation de ces nouvelles contraintes par niveau d'arborescence.
Ainsi, pour une modification demandée par l'utilisateur, le procédé permet de reprendre la construction de l'arborescence de façon automatique en prenant en compte les nouveaux critères de la modification.
L'invention vise également un dispositif d'aide à la construction d'une arborescence de groupes de documents électroniques, les documents étant définis par des caractéristiques prédéterminées. Le dispositif est tel qu'il comporte:
- des moyens d'obtention de contraintes définies entre au moins deux documents d'un groupe donné à un niveau d'arborescence donné;
- des moyens de mémorisation des contraintes provenant des moyens d'obtention;
- des moyens de construction de sous-groupes en fonction des contraintes provenant des moyens d'obtention et des caractéristiques des documents du groupe donné;
- des moyens de création d'un niveau d'arborescence correspondant aux sous-groupes issus des moyens de construction de sous-groupes;
- des moyens de sélection d'un sous-groupe issu des moyens de construction de sous- groupes.
Dans un mode particulier de réalisation, les moyens d'obtention de contraintes comportent des moyens d'interface utilisateur, ces moyens d'interface utilisateur comportant des moyens d'affichage dans lequel des icônes représentant les contraintes à obtenir sont sélectionnables par l'utilisateur.
Dans un autre mode particulier de réalisation, les moyens d'obtention de contraintes comportent des moyens de lecture dans un espace mémoire de contraintes sauvegardées.
Le dispositif a les mêmes avantages que le procédé qu'il met en œuvre.
L'invention porte aussi sur un équipement électronique multimédia comportant des moyens de stockage de documents multimédias, cet équipement comporte des moyens pour mettre en œuvre le procédé d'aide à la construction d'une arborescence de groupes de documents électroniques selon l'invention.
L'invention concerne également un programme d'ordinateur comportant des instructions de programme adaptées à la mise en œuvre d'un procédé d'aide à la construction d'une arborescence de groupe de documents électroniques selon l'invention tel que décrit précédemment, lorsque le dit programme est chargé et exécuté dans un système informatique.
Enfin, l'invention vise un moyen de stockage, éventuellement totalement ou partiellement amovible, lisible par un ordinateur, stockant un jeu d'instructions exécutables par ledit ordinateur pour mettre en œuvre le procédé d'aide à la construction d'une arborescence de groupe de documents électroniques selon l'invention.
D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante, donnée uniquement à titre d'exemple non limitatif, et faite en référence aux dessins annexés, sur lesquels: - la figure 1 représente un mode de réalisation d'un dispositif selon l'invention;
- la figure 2 représente les principaux éléments constitutifs du dispositif selon l'invention;
- la figure 3 illustre sous forme d'organigramme, les principales étapes d'un procédé d'aide à la construction d'une arborescence de groupe de documents conforme à l'invention;
- la figure 4 illustre de façon détaillée, sous forme d'organigramme, l'étape de construction de sous-groupes selon l'invention;
- la figure 5 illustre de façon schématique les étapes mises en œuvre lors de la construction de sous-groupes selon l'invention;
- la figure 6a illustre un niveau d'arborescence et les contraintes associées aux documents appartenant à un groupe de ce niveau d'arborescence;
- la figure 6b illustre deux autres niveaux d'arborescence, les groupes de documents et leurs contraintes associées après la mise en oeuvre d'un procédé conforme à l'invention;
- la figure 7 illustre un exemple d'interface graphique proposée à l'utilisateur;
- les figures 8a, 8b, 8c et 8d illustrent sous forme de schéma de l'arborescence, les étapes mises en oeuvre lors d'une modification de type déplacement d'un document dans l'arborescence selon l'invention; et
- les figures 9a, 9b et 9c illustrent les étapes mises en oeuvre lors d'une modification de type création d'un autre groupe de documents dans l'arborescence selon l'invention.
La figure 1 représente un schéma bloc d'un mode de réalisation d'un dispositif d'aide à la construction d'une arborescence de groupe de documents selon l'invention. Ce dispositif est par exemple un micro-ordinateur 10. Ce dispositif possède un bus de communication 190 auquel sont reliés une unité centrale 110, une mémoire morte 120, une mémoire vive RAM 130, un écran 140, un clavier 150, une interface de communication 180 avec un réseau de communication 115, un disque dur 170 et un lecteur enregistreur de données 160 sur un support amovible. La mémoire morte 120 mémorise entre autres, le programme mettant en œuvre les principales étapes du procédé selon l'invention qui seront décrites ultérieurement en référence aux figures 3 et 4.
La mémoire morte 120 mémorise aussi les différentes contraintes associées aux documents qui sont définis par l'utilisateur.
De manière plus générale, le programme selon l'invention est mémorisé dans un moyen de stockage. Ce moyen de stockage est lisible par un ordinateur ou un microprocesseur 110. Ce moyen de stockage est intégré ou non au dispositif et peut être amovible.
Lors de la mise sous tension du dispositif, le programme selon la présente invention est transféré dans la mémoire vive 130 qui contient alors le code exécutable de l'invention ainsi que les données nécessaires à la mise en œuvre de l'invention.
Le dispositif selon l'invention possède un écran apte à reproduire des informations représentatives de la construction de l'arborescence selon l'invention. L'écran est également apte à afficher une interface graphique à l'utilisateur pour qu'il détermine les documents pour lesquels une contrainte doit être associée.
Par l'intermédiaire du clavier, ou d'un autre moyen d'interface comme une souris d'ordinateur, l'utilisateur sélectionne le groupe de documents pour lesquels il désire construire une arborescence et sélectionne les documents pour lesquels une contrainte doit être associée ainsi que le type de contrainte.
Le disque dur 170 mémorise les documents qui sont classés selon le procédé de l'invention.
Le disque dur peut en variante mémoriser le programme mettant en œuvre le procédé de l'invention décrit ultérieurement en référence aux figures 3 et 4.
Le lecteur enregistreur de données 160 sur un moyen de mémorisation amovible est par exemple un lecteur enregistreur de disques compacts ou de DVD.
Les documents classés selon l'invention peuvent également être sauvegardés sur un moyen de mémorisation amovible tel qu'un disque compact ou un DVD.
Le lecteur enregistreur est apte à lire le programme selon l'invention pour le transfert de celui-ci sur le disque dur 170. La classification des documents et l'arborescence de groupes de documents obtenues par la mise en œuvre de l'invention, ne sont pas nécessairement couplées avec l'organisation physique des documents dans le système de stockage. La représentation de l'arborescence issue de la mise en œuvre de l'invention peut n'être qu'une représentation logique. Ainsi plusieurs représentations logiques peuvent être obtenues pour une seule organisation physique.
La figure 2 représente sous forme de schéma bloc les principaux éléments constitutifs du dispositif de l'invention.
Les documents provenant d'une base de stockage 280 sont traités par le module M210 de vectorisation. Ce module de vectorisation permet de construire pour chaque document un vecteur numérique décrivant ce document. Par exemple, pour une image, cela peut consister en un ensemble de mesures, de fonctions appliquées à la représentation Bitmap de l'image, pour un document texte, cela peut consister à un calcul de mots prédéfinis pour chaque document. Ainsi, un vecteur représentera les caractéristiques du document qui lui correspond. Il est alors possible de définir une distance entre deux vecteurs et donc une mesure de proximité entre document. La distance entre deux vecteurs représentera la distance entre les caractéristiques des documents.
Le module M220 de normalisation permet de normaliser les vecteurs représentants les documents de manière à obtenir des vecteurs de norme constante. Cette normalisation peut par exemple s'effectuer par la mise à l'échelle de toutes les variables descriptives dans l'intervalle [0;l].
Les documents ainsi traités par les modules M210 et M220 arrivent ensuite en entrée du dispositif d'aide à la construction d'une arborescence de documents conforme à l'invention 200.
Ce dispositif comprend entre autres, un module M240 d'interface utilisateur qui permet à un utilisateur de travailler en mode interactif sur les classifications des documents. Ce module permet notamment à l'utilisateur de définir des contraintes à associer aux documents, de modifier l'arborescence construit selon le procédé de l'invention. Le dispositif comporte également un module M250 d'obtention de contraintes définies entre au moins deux documents d'un groupe. L'obtention de contraintes peut s'effectuer via le module d'interface graphique M240 ou par exemple par simple lecture de contraintes définies antérieurement et qui sont stockées dans un espace mémoire du dispositif (M280). Les contraintes nouvellement obtenues sont mémorisées dans un espace mémoire M280 du dispositif.
Le dispositif comporte un module M260 de construction de sous-groupes de documents en fonction des contraintes obtenus par le module M 250 et des caractéristiques propres aux documents. Il comporte un module de création de niveaux d'arborescence M290 correspondants aux sous-groupes provenant du module M260. Le module M290 est lié au module d'interface utilisateur pour l'affichage de l'arborescence obtenue.
Enfin, le dispositif comporte un module M270 de sélection d'un groupe ou sous-groupe crée par le module M260. La sélection d'un groupe ou sous-groupe s'effectue par l'intermédiaire du module d'interface utilisateur. Le groupe ainsi sélectionné sera alors appliqué aux modules précédemment décrit du dispositif afin d'obtenir en sortie du dispositif 200, une arborescence de groupes de documents qui satisfait l'utilisateur.
Le dispositif selon l'invention peut-être intégré dans un équipement électronique multimédia qui comporte un moyen de stockage de documents multimédias comme par exemple des images, des fichiers musicaux, des documents écrits... Cet équipement est par exemple un lecteur de fichier musicaux qui comporte également une interface graphique, un ordinateur de poche ou agenda électronique, un téléphone mobile avec ou sans dispositif photographique.
Ainsi, le procédé d'aide à la construction d'une arborescence selon l'invention, de faible complexité, peut être mis en œuvre sur ce type d'équipement pour classer les contenus multimédias stockés.
Les principales étapes du procédé d'aide à la construction d'une arborescence de groupe de documents selon l'invention sont maintenant décrites en référence à la figure 3. A partir d'un groupe de documents D sélectionné à un niveau d'arborescence donné, une étape E300 d'obtention de contraintes entre au moins deux documents du groupe est effectuée. Cette étape d'obtention est par exemple la sélection par l'utilisateur de deux documents et d'une icône de l'interface graphique représentant une contrainte de type "doit être associé" ou "Must-Link" en anglais (ML) ou de type "ne doit pas être associé" ou "Cannot-Link" en anglais (CL). Un exemple d'interface graphique utilisée pour l'obtention de contraintes sera décrit ultérieurement en référence à la figure 7.
La contrainte de type ML exprime la volonté de retrouver les deux documents dans le même groupe au niveau inférieur (sous-groupe) et la contrainte de type CL exprime la volonté de ne pas retrouver les deux documents dans le même groupe au niveau inférieur.
Ainsi, une contrainte est définie par une paire de documents, un type de contrainte (ML ou CL) et un niveau de l'arborescence. Ces contraintes ainsi définies sont mémorisées dans un espace mémoire du dispositif.
L'obtention de contraintes à l'étape E300 peut aussi s'effectuer par simple lecture de contraintes préalablement mémorisées dans un espace mémoire.
L'obtention de contraintes peut également s'effectuer par la sélection par l'utilisateur d'un certain nombre de documents qu'il souhaite associer dans un même sous-groupe. Il peut ainsi créer une ébauche de sous-groupes. Des contraintes sont alors automatiquement crées à l'étape E300, l'ensemble des documents représentatifs des sous-groupes étant associés deux à deux (selon tous les couples possibles de deux documents distincts) par des contraintes CL.
Les contraintes ainsi définies à l'étape E300 sont ensuite utilisées à l'étape E310 pour la construction de sous-groupes. La construction des ces sous-groupes est aussi fonction des caractéristiques des documents. L'étape de construction de sous- groupe sera détaillée ultérieurement en référence aux figures 4 et 5.
L'étape E310 est suivie de l'étape E320 où la création d'un nouveau niveau d'arborescence correspondant aux sous-groupes ainsi crées est effectuée. Une représentation de l'arborescence en cours de création est illustrée aux figures 6a et 6b.
A l'étape E330, l'utilisateur peut arrêter la création de l'arborescence s'il considère qu'elle est satisfaisante. Dans ce cas (O), le procédé est fini. Dans le cas contraire (N), l'étape E330 est suivie de l'étape E340 où la sélection d'un sous-groupe précédemment crée et au niveau inférieur de l'arborescence est effectuée. Cette sélection peut être effectuée par l'utilisateur par l'intermédiaire de l'interface graphique.
Elle peut aussi être proposée de manière automatique à l'utilisateur selon un critère qui peut être par exemple la sélection du sous-groupe de plus fort effectif ou du sous-groupe contenant la dernière image sélectionnée.
L'étape E340 est suivie de l'étape E300 précédemment décrite. Les étapes E300, E310, E320, E330 et E340 sont ainsi itérées pour le sous-groupe sélectionné jusqu'à obtention d'une arborescence satisfaisante pour l'utilisateur.
La figure 4 illustre en détails l'étape E310 décrite en référence à la figure 3. Ainsi, à partir des contraintes obtenues à l'étape E300, l'étape E400 consiste à créer un groupe par document participant à au moins une contrainte.
Cette étape E400 est illustrée à la figure 5 où les documents sont représentés par des cercles pleins, les contraintes ML par des traits pleins et les contraintes CL par des traits en pointillés. A cette étape, un groupe ne comporte qu'un seul document (un noyau). L'étape E400 est suivie de l'étape E410 où il est effectué une association des documents ne participant pas à au moins une contrainte aux groupes créés à l'étape E400.
Cette association s'effectue selon un critère de distance entre les caractéristiques des documents à associer et celles des documents appartenant aux groupes. Ainsi la distance d'un document à un groupe nouvellement créé est définie comme la distance entre le document et le noyau du groupe (à ce stade, chaque groupe possède un noyau unique). Le critère d'association d'un document à un groupe est un critère de distance la plus petite. Comme mentionné précédemment en référence à la figure 2, la distance entre caractéristiques de documents s'effectue par une mesure de distance entre vecteurs représentant les caractéristiques des documents
Ainsi, à l'issue de l'étape E410, on obtient des groupes comme illustré sous la référence de l'étape E410 à la figure 5.
L'étape E410 est suivie de l'étape E420 où une fusion itérative de certains groupes obtenus à l'étape précédente, est effectuée. Cette fusion est effectuée en fonction des contraintes associées aux documents. Ainsi, si un groupe contient un document dl participant à une contrainte ML avec un document d4 d'un autre groupe, les deux groupes fusionnent automatiquement. Ceci est illustré sous la référence E420 à la figure 5.
Dans cette figure, on voit bien que les groupes dans lesquels d2 et d3 participent à une contrainte ML, ont été fusionnées. De même pour les groupes comportant les documents d5 et d6. A cette étape, l'illustration de la figure 5 montre la construction de trois groupes Gl, G2 et G3.
L'étape E420 est suivie de l'étape E430.
A l'étape E430, une fusion de groupes est effectuée de telle sorte que si un groupe G2 et un groupe G3 comme illustré en figure 5, ne comportent pas respectivement un document pour lequel il existe une contrainte CL, alors G2 et G3 fusionnent. On obtient alors les sous-groupes illustrés sous la référence E430 de la figure 5.
A chaque étape de fusions de groupes décrite ci-avant, dans le cas où plusieurs fusions sont possibles, le choix est fait de fusionner en priorité les deux groupes les plus proches parmi ceux dont une fusion est possible ; la distance entre deux groupes étant définie, par exemple, par la plus petite distance entre un des noyaux du premier groupe et un des noyaux du deuxième (après les premières fusions, chaque sous-groupe possède un ou plusieurs noyaux).
L'étape E430 est suivie de l'étape E320 précédemment décrite en référence à la figure 3. Les figures 6a et 6b illustrent la construction des groupes de documents de l'arborescence avec les contraintes associées à chaque niveau de l'arborescence. La figure 6a représente par exemple un groupe de documents qui correspond aux documents illustrés en figure 5 sous la référence E400. Des contraintes sur certains de ces documents ont été définies et enregistrés et sont représentés sur la figure 6a. Ces contraintes restent associées au niveau correspondant, ici, le niveau 0.
La figure 6b illustre la création de deux niveaux d'arborescence. Le premier niveau crée (niveau -1) correspond aux sous-groupes obtenus à l'issue de l'étape E430 illustré en référence à la figure 5. La création de ce niveau d'arborescence correspond à l'étape E320 décrite en référence à la figure 3.
La sélection d'un groupe de documents correspondant à l'étape E340 de la figure 3 est représentée en négatif sur la figure 6b. Selon le procédé de l'invention décrit en référence à la figure 3, les étapes E300, E310, E320 sont exécutées à nouveau. Des nouvelles contraintes correspondants au niveau -1 sont ainsi définies et représentées sur la figure 6b, de nouveaux sous-groupes sont crées et un autre niveau d'arborescence (niveau -2) est crée et représenté sur la figure 6b.
La figure 7 est une illustration d'un exemple d'interface graphique présentée à l'utilisateur. Un groupe de document dans l'arborescence représentée dans la fenêtre 700, est sélectionné. Ce groupe sélectionné est représenté en négatif. Les documents de ce groupe sélectionné sont affichés dans une deuxième fenêtre 710. L'utilisateur peut alors sélectionner deux documents, par exemple les documents dl7 et dl9 et ensuite sélectionner l'icône représentant la contrainte qu'il souhaite associer à ces documents, par exemple l'icône 770 correspondant à la contrainte ML. Une contrainte associée au niveau -2 de l'arborescence est alors créée et affichée dans la troisième fenêtre de visualisation 720. La contrainte CL peut être sélectionnée par l'icône correspondant 770. Une fois que les contraintes du groupe sélectionné sont définies, l'utilisateur peut sélectionner l'icône "learn" 730 pour que l'étape E310 du procédé représenté en figure 3 soit exécutée.
Lorsqu'une arborescence, a été partiellement construite selon le procédé de l'invention, elle peut être modifiée à tout moment en utilisant le même procédé. Par exemple, si l'utilisateur veut supprimer une partie de l'arborescence, il sélectionne par exemple un groupe de document de l'arborescence en utilisant par exemple l'interface graphique de la figure 7. Il "clique" ensuite sur l'icône 760 pour supprimer toute la partie inférieure de l'arborescence. Par cette action, on effectue une étape de déplacement dans le groupe sélectionné des documents des groupes de la partie de l'arborescence supprimée. Toutes les contraintes liées aux documents pour les niveaux inférieurs de l'arborescence sont également supprimées.
Ainsi, le procédé d'aide à la construction d'une arborescence décrit en référence à la figure 3 peut de nouveau être mis en oeuvre à partir du groupe sélectionné.
Nous allons à présent décrire en référence aux figures 8a, 8b, 8c et 8d, les étapes mises en œuvre lors d'une modification de l'arborescence initiée par la volonté de l'utilisateur de déplacer un document d d'un premier groupe de l'arborescence vers un deuxième groupe de l'arborescence. Comme illustré en figure 8a, l'utilisateur souhaite déplacer le document d d'un groupe de niveau -2 dans l'arborescence vers un groupe de niveau -3. Pour cela l'utilisateur effectue par exemple un déplacement à l'aide de la souris de l'icône représentant le document à déplacer et sélectionné dans la fenêtre 710 de l'interface graphique de la figure 7, du premier groupe de documents vers le deuxième groupe.
Comme illustré à la figure 8a, les contraintes par niveau d'arborescence sont sauvegardées en mémoire.
Le procédé qui va permettre de reconstruire une arborescence différente va commencer tout d'abord par déterminer et par sélectionner le groupe commun de niveau supérieur le plus bas dans l'arborescence, c'est à dire le premier groupe commun au groupe initial de d et groupe destination du déplacement, rencontré lorsqu'on remonte l'arborescence en partant des deux groupes concernés, vers les niveaux supérieurs. Toute la partie de l'arborescence de niveau inférieur à ce groupe sélectionné est supprimée. Comme mentionné précédemment pour la suppression d'une partie de l'arborescence, tous les documents issus des groupes de la partie supprimée sont déplacés dans le groupe sélectionné. Par contre, dans le cas présent, les contraintes des niveaux inférieurs qui concernent les autres documents que celui à déplacer sont conservés en mémoire. De nouvelles contraintes sont définies pour prendre en compte le déplacement du document d.
Ainsi, comme illustré en figure 8b, les contraintes représentées en souligné ont été crées automatiquement. Elles expriment le fait que au niveau -1, le document d et le document noyau dl doivent être regroupés (contrainte ML "Must link") de manière à forcer d à rejoindre le sous-groupe de dl au niveau -2 (figure 8c). Il en est de même pour le document d et le document noyau d5 au niveau -2.
Ainsi, le procédé de construction d'une arborescence décrit en référence à la figure 3 est mis en œuvre à partir du groupe commun supérieur sélectionné et avec les contraintes déjà définies et sauvegardées en mémoire. Après l'application de ce procédé, on obtient une arborescence comme illustré en figure 8d où le document d a bien été déplacé dans le groupe désiré. Certains documents proches du document déplacé d qui ne participent pas à des contraintes et qui se trouvaient dans le même premier groupe que d vont suivre automatiquement le même chemin que le document d et vont se retrouver dans le même groupe destination.
On va à présent décrire en référence aux figures 9a, 9b et 9c, les étapes mises en œuvre lors de la reconstruction d'une arborescence suite à une modification de type création d'un groupe, initiée par l'utilisateur. Comme illustré en référence à la figure 9a, l'utilisateur désire créer un nouveau groupe contenant le document d, de même niveau que le groupe contenant initialement d. Pour cela, l'utilisateur sélectionne un document dans la fenêtre 710 de l'interface graphique représentée en figure 7 et "clique" sur l'icône 740 de création d'un groupe. Une étape de détermination et de sélection du groupe supérieur dans l'arborescence est mise en œuvre. Comme dans les modifications décrites antérieurement, la partie de l'arborescence inférieure au groupe sélectionné est supprimée et les documents issus des groupes de cette partie de l'arborescence sont inclus dans le groupe sélectionné... De nouvelles contraintes de type CL sont crées comme représenté en souligné en référence à la figure 9b. Ces nouvelles contraintes spécifient que le document d doit être séparé des documents noyaux dl et d4 au niveau -2. Comme d ne peut plus rejoindre aucun des sous-groupes, un nouveau sous-groupe sera automatiquement créé lors d'une phase de construction de l'arborescence défini en référence à la figure 3. On notera que, dans le but d'empêcher d de pouvoir rejoindre le sous-groupe contenant les noyaux dl et d5 au niveau -2, la nouvelle contrainte CL(dl,d) a été créée au niveau -1. La contrainte CL(d5,d) aurait tout aussi bien jouer ce rôle. Dans le cas où plusieurs noyaux sont possible pour la création d'un nouveau lien CL en vue d'empêcher un document de rejoindre un sous-groupe, le choix du noyau le plus éloigné de ce document est fait (dans notre exemple, on suppose ainsi que d5 est plus proche de d que dl et donc dl c'est choisi pour le lien CL(dl,d) créé.
Ainsi, le procédé de construction d'une arborescence décrit en référence à la figure 3 est mis en œuvre à partir du groupe supérieur sélectionné et avec les nouvelles contraintes définies et sauvegardées en mémoire. Après l'application de ce procédé, on obtient une arborescence comme illustré en figure 9c où un nouveau groupe a été crée automatiquement, contenant le document d et possiblement des documents suffisamment proche de d (ces documents ayant été assignés à ce nouveau sous-groupe lors de la construction de l'arborescence défini en référence à la figure 3).
D'autres modifications peuvent être effectuées sur l'arborescence comme par exemple la suppression d'un groupe sélectionné. Dans ce cas, la partie de l'arborescence située en dessous de ce groupe est supprimée, les documents issus des groupes de cette partie et du groupe supprimé sont déplacés dans le groupe de niveau supérieur dans l'arborescence. Les contraintes associées aux documents de ces groupes sont également supprimées. Le procédé de construction de l'arborescence défini en référence à la figure 3 est alors mis en œuvre à partir de ce groupe de niveau supérieur.
Ainsi, l'utilisateur peut maintenir ses habitudes de gestion de fichiers tout en étant assisté par la mise en œuvre d'un procédé automatique de construction d'une arborescence, via la définition automatique ou manuelle de liens ML et CL entre un petit nombre de documents. Cela apporte donc à l'utilisateur un gain de temps important et une satisfaction par rapport au résultat obtenu.

Claims

REVENDICATIONS
1. Procédé d'aide à la construction d'une arborescence de groupes de documents électroniques, les documents étant définis par des caractéristiques prédéterminées, caractérisé en ce qu'il comporte pour un groupe de documents donné et un niveau de l'arborescence donné les étapes suivantes: a) obtention de contraintes (E300) définies entre au moins deux documents dudit groupe et mémorisation de ces contraintes; b) construction de sous-groupes (E310) en fonction des contraintes obtenues et des caractéristiques des documents dudit groupe; c) création d'un niveau d'arborescence (E320) correspondant aux sous-groupes crées; d) sélection d'un sous-groupe créé (E340) et itération des étapes a), b), c) et d) pour le sous groupe sélectionné jusqu'à obtention de ladite arborescence.
2. Procédé selon la revendication 1, caractérisé en ce que l'étape de construction de sous-groupes comporte les étapes suivantes:
- création (E400) d'un groupe par document participant à au moins une contrainte;
- association (E410) des documents ne participant à aucune contrainte aux groupes ainsi créés selon un critère calculé à partir des caractéristiques des documents à associer d'une part et des caractéristiques des documents appartenant auxdits groupes d'autre part;
- fusion itérative (E420, E430), en conformité avec les contraintes définies, des groupes issus de l'étape d'association.
3. Procédé selon la revendication 1 ou 2, caractérisé en ce que l'obtention de contraintes s'effectue par une étape de sélection de documents pour lesquels une contrainte doit être associée et de sélection d'un type de contrainte à l'aide d'une interface utilisateur.
4. Procédé selon la revendication 1 ou 2, caractérisé en ce que l'étape d'obtention de contraintes s'effectue par une lecture de contraintes prédéfinies dans un espace mémoire.
5. Procédé selon l'une des revendications 1 à 4, caractérisé en ce que à la suite d'une requête utilisateur de déplacement d'un document d'un premier groupe appartenant à un premier niveau d'arborescence vers un deuxième groupe appartenant à un deuxième niveau d'arborescence, le procédé comporte en outre les étapes préalables de:
- détermination et sélection du groupe commun de niveau supérieur le plus bas dans l'arborescence;
- déplacement des documents provenant des sous-groupes inférieurs dans l'arborescence dans le groupe déterminé;
- suppression de la partie inférieure de l'arborescence par rapport au groupe déterminé;
- création automatique de nouvelles contraintes prenant en compte le déplacement dudit document et mémorisation de ces nouvelles contraintes par niveau d'arborescence.
6. Procédé selon l'une des revendications 1 à 4, caractérisé en ce que à la suite d'une requête utilisateur de création d'un nouveau sous-groupe pour un niveau d'arborescence donné et comportant au moins un document sélectionné provenant d'un second sous-groupe du même niveau, le procédé comporte en outre les étapes préalables de:
- détermination et sélection du groupe commun de niveau supérieur le plus bas dans l'arborescence;
- déplacement des documents provenant des sous-groupes inférieurs dans l'arborescence dans le groupe déterminé;
- suppression de la partie inférieure de l'arborescence par rapport au groupe déterminé;
- création automatique de nouvelles contraintes prenant en compte la création du nouveau sous-groupe, et mémorisation de ces nouvelles contraintes par niveau d'arborescence.
7. Dispositif d'aide à la construction d'une arborescence de groupes de documents électroniques, les documents étant définis par des caractéristiques prédéterminées, caractérisé en ce qu'il comporte:
- des moyens d'obtention (M250) de contraintes définies entre au moins deux documents d'un groupe donné à un niveau d'arborescence donné;
- des moyens de mémorisation (M280) des contraintes provenant des moyens d'obtention;
- des moyens de construction (M260) de sous-groupes en fonction des contraintes provenant des moyens d'obtention et des caractéristiques des documents du groupe donné;
- des moyens de création (M290) d'un niveau d'arborescence correspondant aux sous- groupes issus des moyens de construction de sous-groupes;
- des moyens de sélection (M270) d'un sous-groupe issu des moyens de construction de sous-groupes.
8. Dispositif selon la revendication 7, caractérisé en ce que les moyens d'obtention de contraintes comportent des moyens d'interface utilisateur.
9. Dispositif selon la revendication 8, caractérisée en ce que les moyens d'interface utilisateur comportant des moyens d'affichage dans lequel des icônes représentant les contraintes à obtenir sont sélectionnables par l'utilisateur.
10. Dispositif selon l'une des revendications 7 à 9, caractérisé en ce que les moyens d'obtention de contraintes comportent des moyens de lecture dans un espace mémoire de contraintes sauvegardées.
11. Equipement électronique multimédia comportant des moyens de stockage de documents multimédias caractérisé en ce qu'il comporte des moyens pour mettre en œuvre le procédé d'aide à la construction d'une arborescence de groupes de documents électroniques selon l'une quelconque des revendications 1 à 6.
12. Programme d'ordinateur comportant des instructions de programme adaptées à la mise en œuvre d'un procédé d'aide à la construction d'une arborescence de groupes de documents électroniques selon l'une quelconque des revendications 1 à 6, lorsque ledit programme est chargé et exécuté dans un système informatique.
PCT/FR2006/051402 2006-01-03 2006-12-20 Procede et dispositif d'aide a la construction d'une arborescence de groupe de documents electroniques WO2007077378A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP06847192A EP1984873A1 (fr) 2006-01-03 2006-12-20 Procede et dispositif d'aide a la construction d'une arborescence de groupe de documents electroniques
US12/087,506 US8886678B2 (en) 2006-01-03 2006-12-20 Method and device for constructing an arborescence of clusters of electronic documents

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0650024 2006-01-03
FR0650024A FR2895813A1 (fr) 2006-01-03 2006-01-03 Procede et dispositif d'aide a la construction d'une arborescence de groupe de documents electroniques

Publications (1)

Publication Number Publication Date
WO2007077378A1 true WO2007077378A1 (fr) 2007-07-12

Family

ID=37308901

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2006/051402 WO2007077378A1 (fr) 2006-01-03 2006-12-20 Procede et dispositif d'aide a la construction d'une arborescence de groupe de documents electroniques

Country Status (4)

Country Link
US (1) US8886678B2 (fr)
EP (1) EP1984873A1 (fr)
FR (1) FR2895813A1 (fr)
WO (1) WO2007077378A1 (fr)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5149724B2 (ja) * 2007-09-07 2013-02-20 キヤノン株式会社 画像管理装置及びその制御方法、記憶媒体
US8161028B2 (en) * 2008-12-05 2012-04-17 International Business Machines Corporation System and method for adaptive categorization for use with dynamic taxonomies
US8682065B2 (en) * 2008-12-24 2014-03-25 Microsoft Corporation Distance metric learning with feature decomposition
US8988236B2 (en) * 2010-05-27 2015-03-24 University Of Southern California System and method for failure prediction for rod pump artificial lift systems
US8988237B2 (en) 2010-05-27 2015-03-24 University Of Southern California System and method for failure prediction for artificial lift systems
US20130136298A1 (en) * 2011-11-29 2013-05-30 General Electric Company System and method for tracking and recognizing people
US9273544B2 (en) 2011-12-29 2016-03-01 Chevron U.S.A. Inc. System, method, and program for monitoring and hierarchial displaying of data related to artificial lift systems
US9727619B1 (en) 2013-05-02 2017-08-08 Intelligent Language, LLC Automated search

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2851353A1 (fr) * 2003-02-14 2004-08-20 France Telecom Procede de classification hierarchique descendante de donnees multi-valuees

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1034855A (fr) 1975-01-11 1978-07-18 Peter G. Ware Support souple tel un pneu ou un bandage
US7584100B2 (en) * 2004-06-30 2009-09-01 Microsoft Corporation Method and system for clustering using generalized sentence patterns
US8566705B2 (en) * 2004-12-21 2013-10-22 Ricoh Co., Ltd. Dynamic document icons
US7720848B2 (en) * 2006-03-29 2010-05-18 Xerox Corporation Hierarchical clustering with real-time updating
WO2007137858A2 (fr) 2006-05-31 2007-12-06 Terramark Markencreation Gmbh pneu pour vÉhicules

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2851353A1 (fr) * 2003-02-14 2004-08-20 France Telecom Procede de classification hierarchique descendante de donnees multi-valuees

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GONI A ET AL: "Real-Time Classification of ECGs on a PDA", IEEE TRANSACTIONS ON INFORMATION TECHNOLOGY IN BIOMEDICINE, IEEE SERVICE CENTER, LOS ALAMITOS, CA, US, vol. 9, no. 1, March 2005 (2005-03-01), pages 23 - 34, XP011127537, ISSN: 1089-7771 *

Also Published As

Publication number Publication date
US8886678B2 (en) 2014-11-11
FR2895813A1 (fr) 2007-07-06
US20090037458A1 (en) 2009-02-05
EP1984873A1 (fr) 2008-10-29

Similar Documents

Publication Publication Date Title
WO2007077378A1 (fr) Procede et dispositif d'aide a la construction d'une arborescence de groupe de documents electroniques
WO2005045698A2 (fr) Procede mis en oeuvre dans un environnement informatique pour engendrer une vue courante a partir d’au moins un objet d’information source susceptible de varier
WO2003057648A9 (fr) Procedes et systemes de recherche et d'association de ressources d'information telles que des pages web
FR3007164A1 (fr) Procede de classification thematique automatique d'un fichier de texte numerique
FR2927712A1 (fr) Procede et dispositif d'acces a une production d'une grammaire pour le traitement d'un document de donnees hierarchisees.
EP1766538A1 (fr) Recherche automatique de similarite entre images incluant une intervention humaine
WO2001035269A2 (fr) Systeme de partage d'informations entre au moins deux utilisateurs sur un reseau informatique
She et al. Learning discriminative sentiment representation from strongly-and weakly supervised CNNs
CA2538736A1 (fr) Procede de traitement de donnees sur la base de structures dynamiques d'elements simples
BE1021629B1 (fr) Procede et systeme de generation automatique de documents a partir d'un index
EP1774441B1 (fr) Procédé de traitement de données et logiciel associé
FR3105863A1 (fr) Procédé ET système de conception d’un modèle de prédiction
WO2008043392A1 (fr) Procede pour traiter des informations
FR2973133A1 (fr) Procedes d’actualisation et de creation de profils d'utilisateur, de recommandation de contenu et de construction d'une liste de contenus
CN114443916A (zh) 一种面向试验数据的供需匹配方法及系统
EP4073765A1 (fr) Procédé et système de génération de modèles numériques 3d
FR3089324A1 (fr) Procédé de détermination d’un agent conversationnel sur un terminal
WO2020025892A1 (fr) Procede et dispositif d'enregistrement d'un nouvel objet dans un catalogue
EP2812814A1 (fr) Procede d'identification d'un ensemble de phrases d'un document numerique, procede de generation d'un document numerique, dispositif associe
FR3047095B1 (fr) Liens de raccourci dans une interface graphique
CH711033B1 (fr) Moteur de recherche relationnelle.
FR2910661A1 (fr) Procede et dispositif d'organisation de documents electroniques, produit programme d'ordinateur et equipement electronique multimedia correspondants.
FR2917518A1 (fr) Procede de tri d'informations
FR3116355A1 (fr) Détection d’au moins un thème partagé par une pluralité de documents textuels
WO2001095146A2 (fr) Systeme et procede permettant l'importation semi-automatique de fragments de ressources d'informations

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
REEP Request for entry into the european phase

Ref document number: 2006847192

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2006847192

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 12087506

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE